Skip To Content

Introducción al modelo

Imagen de banner del modelo que muestra mensajes y detección

En este documento se explica cómo utilizar el modelo preentrenado Text SAM disponible en ArcGIS Living Atlas of the World. El modelo se utiliza para detectar objetos en una imagen mediante un mensaje.

Text SAM es un modelo de muestra de código abierto al que se le pueden hacer consultas mediante mensajes de texto libre para extraer entidades de diversos tipos. Esto se consigue mediante Grounding DINO y Segment Anything Model (SAM). Grounding DINO es un detector de objetos de conjunto abierto que puede encontrar objetos a partir de un mensaje de texto. Segment Anything Model se puede utilizar para segmentar cualquier objeto en una región de interés representada por un cuadro de delimitación o un punto. En este paquete de aprendizaje profundo, se llama a ambos modelos de forma secuencial. Los cuadros de delimitación que representan los objetos detectados de Grounding DINO se introducen en Segment Anything Model como mensajes para generar máscaras para los objetos. Finalmente, las máscaras se convierten en polígonos y se devuelven como entidades SIG. Estas entidades, que se describen mediante los mensajes de texto de entrada, pueden ser cualquier objeto de interés, como vehículos, piscinas, barcos, aviones, paneles solares, etc.

Para completar este flujo de trabajo, los requisitos de licencia son los siguientes:

  • ArcGIS Desktop: extensión ArcGIS Image Analyst para ArcGIS Pro
  • ArcGIS Enterprise: ArcGIS Image Server
  • ArcGIS Online: ArcGIS Image for ArcGIS Online

Detalles del modelo

Este modelo tiene las siguientes características:

  • Entrada: imágenes RGB de 3 bandas de 8 bits.
  • Salida: clase de entidad que contiene máscaras de varios objetos de la imagen.
  • Calcular: este flujo de trabajo requiere potencia de cálculo y se recomienda una GPU con una capacidad de cálculo CUDA mínima de 6.0. Este modelo requiere una GPU dedicada con al menos 8 GB de memoria GPU.
  • Geografías aplicables: está previsto que este modelo funcione en todo el mundo.
  • Arquitectura: este modelo se basa en el Grounding DINO de código abierto de IDEA-Research (The International Digital Economy Academy) y en el Segment Anything Model (SAM) de Meta. Puede consultar el código fuente de este paquete de aprendizaje profundo de muestra (DLPK) para obtener información adicional.

Acceder al modelo y descargarlo

Descargue el modelo preentrenado Text SAM desde ArcGIS Living Atlas of the World. También puede acceder al modelo directamente desde ArcGIS Pro o usarlo en ArcGIS Image for ArcGIS Online.

  1. Vaya a ArcGIS Living Atlas of the World.
  2. Inicie sesión con sus credenciales de ArcGIS Online.
  3. Busque Text SAM y abra la página de elemento desde los resultados de búsqueda.
  4. Haga clic en el botón Descargar para descargar el modelo.

    Puede usar el archivo .dlpk descargado directamente en ArcGIS Pro o cargarlo y utilizarlo en ArcGIS Enterprise. Además, si es necesario, puede ajustar el modelo preentrenado.

Notas sobre la versión

Las notas de la versión son las siguientes:

FechaDescripción

Marzo de 2024

Primera versión de Text SAM