本主题介绍了如何使用 ArcGIS Living Atlas of the World 上提供的 GroundingDINO 预训练模型。 该模型能够通过文本提示来识别图像中的对象。
GroundingDINO 是一个开源示例模型,能够采用自由形式的文本提示来提取多种要素。 它是开集对象检测器,能够使用文本提示查找对象。 模型可输出边界框,这些边界框会被转换为面并作为 GIS 要素返回。 这些要素根据输入的文本提示来描述,可以是车辆、游泳池、船舶、飞机、太阳能板等任何感兴趣的对象。
以下是完成此工作流所需的许可要求:
- ArcGIS Desktop - ArcGIS Pro 的 ArcGIS Image Analyst 扩展模块
- ArcGIS Enterprise - ArcGIS Image Server
- ArcGIS Online - ArcGIS Image for ArcGIS Online
模型详细信息
此模型具有以下特征:
- 输入 - 模型具有 8 位 3 波段 RGB 影像。
- 输出 - 包含影像中各种对象掩膜的要素类。
- 计算 - 此为计算密集型工作流,建议使用 CUDA 计算能力不低于 6.0 的 GPU。 该模型需要至少具有 8 GB GPU 内存的 GPU。
- 适用地理位置 - 该模型预计适用于全球。
- 架构 - 该模型基于 IDEA-Research(国际数字经济研究院)的开源 Grounding DINO。 可以查看此示例深度学习包的源代码以了解更多信息。
访问和下载模型
从 ArcGIS Living Atlas of the World 下载 GroundingDINO 预训练模型。 也可以从 ArcGIS Pro 直接访问模型,或在 ArcGIS Image for ArcGIS Online 中使用模型。
- 浏览至 ArcGIS Living Atlas of the World。
- 使用您的 ArcGIS Online 凭据进行登录。
- 搜索 GroundingDINO,然后从搜索结果中打开项目页面。
- 单击下载按钮以下载模型。
您可以在 ArcGIS Pro 中直接使用下载的 .dlpk 文件,或者在 ArcGIS Enterprise 中上传并使用文件。 还可以根据需要微调预训练模型。
发布说明
以下为发布说明:
日期 | 描述 |
---|---|
2024 年 8 月 |
GroundingDINO 第一版发布 |