Puede utilizar el modelo GroundingDINO en la herramienta Detectar objetos con aprendizaje profundo disponible en la caja de herramientas de Image Analyst de ArcGIS Pro.
Para utilizar el modelo preentrenado GroundingDINO, siga estos pasos:
- Descargue el modelo y agregue la capa de imágenes en ArcGIS Pro.
- Haga clic en la pestaña Análisis y, seguidamente, en Herramientas.
- En el panel Geoprocesamiento, haga clic en Cajas de herramientas, expanda Herramientas de Image Analyst y seleccione la herramienta Detectar objetos con aprendizaje profundo en Aprendizaje profundo.
- En la pestaña Parámetros, establezca los parámetros de la siguiente manera:
- Ráster de entrada: seleccione la imagen.
- Objetos de salida detectados: proporcione la clase de entidad de salida que contendrá los objetos detectados.
- Definición de modelo: seleccione el archivo .dlpk del modelo preentrenado.
- Argumentos (opcional): cambie los valores de los argumentos si es necesario.
- text_prompt: texto que describe los objetos a detectar. La entrada puede consistir en varios mensajes de texto, separados por comas, lo que permite la detección de diversas clases.
- padding: número de píxeles en el borde de las teselas de imágenes desde los cuales se combinarán las predicciones de las teselas adyacentes. Aumente el valor para suavizar la salida y reducir los artefactos de los bordes. El valor máximo del relleno puede ser la mitad del valor del tamaño de tesela.
- batch_size: número de teselas de imágenes procesadas en cada paso de la inferencia del modelo. Esto depende de la memoria de la tarjeta gráfica.
- box_threshold: la puntuación de confianza utilizada para seleccionar las detecciones que se incluirán en los resultados. Los valores permitidos son entre 0 y 1,0.
- text_threshold: la puntuación de confianza utilizada para asociar los objetos detectados con el mensaje de texto proporcionado. Un valor más alto garantiza una asociación fuerte pero potencialmente menos coincidencias. Los valores permitidos son entre 0 y 1,0.
- tta_scales: aplica un aumento de tiempo de prueba durante la predicción cambiando la escala de la imagen. Se recomiendan valores del rango de 0,5 a 1,5. También pueden proporcionarse varios valores de escala separados por comas, por ejemplo, 0,9, 1, 1,1.
- nms_overlap: la ratio de superposición máxima para dos entidades superpuestas, definida como la relación del área de intersección con respecto al área de combinación. El valor predeterminado es 0,1.
- exclude_pad_detections: si se establece en True, filtra detecciones potencialmente truncadas cerca de los bordes que están en la región rellena de chips de imagen.
- Supresión no máxima: opcionalmente, active la casilla de verificación para eliminar las entidades superpuestas con la confianza más baja.
Si está activada, haga lo siguiente:
- Campo de puntuación de confianza: utilice el valor predeterminado.
- Campo de valor de clase: utilice el valor predeterminado.
- Máx. ratio de superposición: establezca la proporción máxima de superposición en 0,1.
- En la pestaña Entornos, establezca las variables de la siguiente manera:
- Extensión de procesamiento: seleccione Predeterminada o una opción adecuada del menú desplegable.
- Tamaño de celda: establezca el valor de forma apropiada.
Seleccione el tamaño de celda en metros de forma que se maximice la visibilidad de los objetos de interés en toda la extensión elegida. Considere un tamaño de celda mayor para detectar objetos más grandes y un tamaño de celda menor para detectar objetos más pequeños. Por ejemplo, establezca el tamaño de celda para la detección de nubes en 10 metros, mientras que para la detección de coches, establézcalo en 0,30 metros (30 centímetros). Para más información sobre el tamaño de las celdas, consulte el tema de ayuda Tamaño de celda de los datos ráster.
- Tipo de procesador: seleccione CPU o GPU.
Si la GPU está disponible, se recomienda seleccionar GPU y establecer Id. de GPU en la GPU que se debe usar.
- Haga clic en Ejecutar.
Cuando finaliza el procesamiento, la capa de salida se agrega al mapa.