Skip To Content

模型简介

模型的通栏图像显示了提示和检测

此文档介绍了如何使用 ArcGIS Living Atlas of the World 上提供的文本 Sam预训练模型。 该模型能够通过文本提示来识别图像中的对象。

文本 SAM 是一个开源示例模型,能够接受自由形式的文本提示来提取多种要素。 这是通过结合使用 Grounding DINOSegment Anything Model(SAM) 实现的。 Grounding DINO 是一个开集对象检测器,能够根据文本提示识别对象。 Segment Anything Model 可用于细分由边界框或点标识的感兴趣区域中的任意对象。 这两个模型在该深度学习包内依次调用。 Grounding DINO 检测到的对象边界框作为提示传递给 Segment Anything Model,从而生成对象掩膜。 最终,这些掩膜被转换为多边形,以 GIS 要素的形式返回。 这些要素根据输入的文本提示来描述,可以是车辆、游泳池、船舶、飞机、太阳能板等任何感兴趣的对象。

要完成此工作流,需满足以下许可要求:

  • ArcGIS Desktop - ArcGIS Image AnalystArcGIS Pro 扩展模块
  • ArcGIS Enterprise - ArcGIS Image Server
  • ArcGIS Online - ArcGIS Image for ArcGIS Online

模型详细信息

此模型具有以下特征:

  • 输入 - 8 位三波段 RGB 影像。
  • 输出 - 包含图像中各种对象掩膜的要素类。
  • 计算 - 此为计算密集型工作流,建议使用 CUDA 计算能力不低于 6.0 的 GPU。 此模型需要至少具有 8 GB GPU 内存的 GPU。
  • 适用地理位置 - 该模型预计适用于全球。
  • 架构 - 该模型基于 IDEA-Research(国际数字经济研究院)的开源 Grounding DINO 和 Meta 的 Segment Anything Model (SAM)。 可以查阅此示例深度学习包 (DLPK) 的源代码,了解更多细节。

访问和下载模型

ArcGIS Living Atlas of the World 下载文本 SAM 预训练模型。 也可以从 ArcGIS Pro 直接访问模型,或在 ArcGIS Image for ArcGIS Online 中使用模型。

  1. 浏览至 ArcGIS Living Atlas of the World
  2. 使用您的 ArcGIS Online 凭据进行登录。
  3. 搜索 Text SAM,然后从搜索结果中打开项目页面
  4. 单击下载按钮以下载模型。

    您可以在 ArcGIS Pro 中直接使用下载的 .dlpk 文件,或者在 ArcGIS Enterprise 中上传并使用文件。 还可以根据需要微调预训练模型。

发布说明

以下为发布说明:

日期描述

2024 年 3 月

“文本 SAM”第一版发布