此文档介绍了如何使用 ArcGIS Living Atlas of the World 上提供的文本 Sam预训练模型。 该模型能够通过文本提示来识别图像中的对象。
文本 SAM 是一个开源示例模型,能够接受自由形式的文本提示来提取多种要素。 这是通过结合使用 Grounding DINO 和 Segment Anything Model(SAM) 实现的。 Grounding DINO 是一个开集对象检测器,能够根据文本提示识别对象。 Segment Anything Model 可用于细分由边界框或点标识的感兴趣区域中的任意对象。 这两个模型在该深度学习包内依次调用。 Grounding DINO 检测到的对象边界框作为提示传递给 Segment Anything Model,从而生成对象掩膜。 最终,这些掩膜被转换为多边形,以 GIS 要素的形式返回。 这些要素根据输入的文本提示来描述,可以是车辆、游泳池、船舶、飞机、太阳能板等任何感兴趣的对象。
要完成此工作流,需满足以下许可要求:
- ArcGIS Desktop - ArcGIS Image Analyst 的 ArcGIS Pro 扩展模块
- ArcGIS Enterprise - ArcGIS Image Server
- ArcGIS Online - ArcGIS Image for ArcGIS Online
模型详细信息
此模型具有以下特征:
- 输入 - 8 位三波段 RGB 影像。
- 输出 - 包含图像中各种对象掩膜的要素类。
- 计算 - 此为计算密集型工作流,建议使用 CUDA 计算能力不低于 6.0 的 GPU。 此模型需要至少具有 8 GB GPU 内存的 GPU。
- 适用地理位置 - 该模型预计适用于全球。
- 架构 - 该模型基于 IDEA-Research(国际数字经济研究院)的开源 Grounding DINO 和 Meta 的 Segment Anything Model (SAM)。 可以查阅此示例深度学习包 (DLPK) 的源代码,了解更多细节。
访问和下载模型
从 ArcGIS Living Atlas of the World 下载文本 SAM 预训练模型。 也可以从 ArcGIS Pro 直接访问模型,或在 ArcGIS Image for ArcGIS Online 中使用模型。
- 浏览至 ArcGIS Living Atlas of the World。
- 使用您的 ArcGIS Online 凭据进行登录。
- 搜索 Text SAM,然后从搜索结果中打开项目页面。
- 单击下载按钮以下载模型。
您可以在 ArcGIS Pro 中直接使用下载的 .dlpk 文件,或者在 ArcGIS Enterprise 中上传并使用文件。 还可以根据需要微调预训练模型。
发布说明
以下为发布说明:
日期 | 描述 |
---|---|
2024 年 3 月 |
“文本 SAM”第一版发布 |