Skip To Content

模型简介

模型的通栏图像显示检测

本主题介绍了如何使用 ArcGIS Living Atlas of the World 上提供的 GroundingDINO 预训练模型。 该模型能够通过文本提示来识别图像中的对象。

GroundingDINO 是一个开源示例模型,能够采用自由形式的文本提示来提取多种要素。 它是开集对象检测器,能够使用文本提示查找对象。 模型可输出边界框,这些边界框会被转换为面并作为 GIS 要素返回。 这些要素根据输入的文本提示来描述,可以是车辆、游泳池、船舶、飞机、太阳能板等任何感兴趣的对象。

以下是完成此工作流所需的许可要求:

  • ArcGIS Desktop - ArcGIS ProArcGIS Image Analyst 扩展模块
  • ArcGIS Enterprise - ArcGIS Image Server
  • ArcGIS Online - ArcGIS Image for ArcGIS Online

模型详细信息

此模型具有以下特征:

  • 输入 - 模型具有 8 位 3 波段 RGB 影像。
  • 输出 - 包含影像中各种对象掩膜的要素类。
  • 计算 - 此为计算密集型工作流,建议使用 CUDA 计算能力不低于 6.0 的 GPU。 该模型需要至少具有 8 GB GPU 内存的 GPU。
  • 适用地理位置 - 该模型预计适用于全球。
  • 架构 - 该模型基于 IDEA-Research(国际数字经济研究院)的开源 Grounding DINO。 可以查看此示例深度学习包的源代码以了解更多信息。

访问和下载模型

ArcGIS Living Atlas of the World 下载 GroundingDINO 预训练模型。 也可以从 ArcGIS Pro 直接访问模型,或在 ArcGIS Image for ArcGIS Online 中使用模型。

  1. 浏览至 ArcGIS Living Atlas of the World
  2. 使用您的 ArcGIS Online 凭据进行登录。
  3. 搜索 GroundingDINO,然后从搜索结果中打开项目页面
  4. 单击下载按钮以下载模型。

    您可以在 ArcGIS Pro 中直接使用下载的 .dlpk 文件,或者在 ArcGIS Enterprise 中上传并使用文件。 还可以根据需要微调预训练模型。

发布说明

以下为发布说明:

日期描述

2024 年 8 月

GroundingDINO 第一版发布