Entrenar un modelo de aprendizaje profundo (Image Analyst)

Disponible con licencia de Image Analyst.

Resumen

Entrena un modelo de aprendizaje profundo utilizando la salida de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.

Uso

  • Esta herramienta entrena un modelo de aprendizaje profundo utilizando marcos de aprendizaje profundo.

  • Para configurar su equipo para usar marcos de aprendizaje profundo en ArcGIS AllSource, consulte Instalar marcos de aprendizaje profundo para ArcGIS.

  • Si va a entrenar modelos en un entorno sin conexión, consulte Instalación adicional para entornos sin conexión para obtener más información.

  • Esta herramienta también puede utilizarse para ajustar un modelo ya entrenado. Por ejemplo, un modelo existente que ha sido entrenado para coches puede afinarse para entrenar un modelo que identifique camiones.

  • Para ejecutar esta herramienta utilizando la GPU, establezca el entorno Tipo de procesador en GPU. Si tiene más de una GPU, especifique el entorno de Id. de GPU en su lugar.

  • De forma predeterminada, la herramienta utiliza todas las GPU disponibles cuando el parámetro Tipo de modelo se establece en una de las siguientes opciones:

    • ConnectNet
    • Clasificador de entidades
    • MaskRCNN
    • Extractor de carreteras de varias tareas
    • Single Shot Detector
    • U-Net

    Para utilizar una GPU específica, utilice el entorno Id. de GPU.

  • Los datos de entrenamiento de entrada para esta herramienta deben incluir las carpetas de imágenes y etiquetas que se generan desde la herramienta Exportar datos de formación para aprendizaje profundo.

    La excepción a esto es cuando los datos de entrenamiento utilizan los formatos de metadatos Pascal Visual Object Classes o rectángulos KITTI. Para estos dos formatos, los datos de entrenamiento pueden provenir de otras fuentes, pero los chips de imagen deben estar en la carpeta image, y las etiquetas correspondientes deben estar en la carpeta labels.

  • Especifique las transformaciones fastai para el aumento de datos de los datasets de entrenamiento y validación utilizando el archivo transforms.json, que se encuentra en la misma carpeta que los datos de entrenamiento. A continuación, encontrará un ejemplo de un archivo transforms.json:

    Parámetros de aumento personalizados

    
    {
        "Training": {
            "rotate": {
                "degrees": 30,
                "p": 0.5
            },
            "crop": {
                "size": 224,
                "p": 1,
                "row_pct": "0, 1",
                "col_pct": "0, 1"
            },
            "brightness": {
                "change": "0.4, 0.6"
            },
            "contrast": {
                "scale": "1.0, 1.5"
            },
            "rand_zoom": {
                "scale": "1, 1.2"
            }
        },
        "Validation": {
            "crop": {
                "size": 224,
                "p": 1.0,
                "row_pct": 0.5,
                "col_pct": 0.5
            }
        }
    }

  • Para obtener información sobre los requisitos para ejecutar esta herramienta y los problemas que pueden presentarse, consulte Preguntas frecuentes sobre el aprendizaje profundo.

  • Para obtener más información sobre el aprendizaje profundo, consulte Aprendizaje profundo con la extensión ArcGIS Image Analyst.

Parámetros

EtiquetaExplicaciónTipo de datos
Datos de entrenamiento de entrada

Las carpetas que contienen los chips de imagen, las etiquetas y las estadísticas necesarias para entrenar el modelo. Esto es la salida de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.

Se admiten múltiples carpetas de entrada cuando se cumplen las siguientes condiciones:

  • El tipo de formato de metadatos debe ser mosaicos clasificados, mosaicos etiquetados, mosaicos multietiquetados, clases de objetos visuales Pascal o máscaras RCNN.
  • Todos los datos de formación deben tener el mismo formato de metadatos.
  • Todos los datos de entrenamiento deben tener el mismo número de bandas.

Folder
Carpeta de salida

La ubicación de la carpeta de salida donde se almacenará el modelo entrenado.

Folder
Máximo de épocas
(Opcional)

El número máximo de épocas para las que se entrenará el modelo. Un máximo de épocas de 1 significa que el dataset se pasa hacia delante y hacia atrás por la red neuronal una vez. El valor predeterminado es 20.

Long
Tipo de modelo
(Opcional)

Especifica el tipo de modelo que se usará para entrenar el modelo de aprendizaje profundo.

  • Detector de bordes BDCN (clasificación de píxeles)Para entrenar el modelo se utilizará la arquitectura Bi-Directional Cascade Network (BDCN). Detector de bordes BDCN se utiliza para la clasificación de píxeles. Este método es útil para mejorar la detección de los bordes de los objetos a diferentes escalas.
  • Detector de cambios (clasificación de píxeles)La arquitectura del detector de cambios se utilizará para entrenar el modelo. Se utiliza el detector de cambios para la clasificación de píxeles. Este método crea un objeto modelo que utiliza dos imágenes espaciotemporales para crear un ráster clasificado del cambio. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Teselas clasificadas.
  • ClimaX (Clasificación de píxeles)Se utilizará la arquitectura ClimaX para entrenar el modelo. Este modelo se utiliza principalmente para el análisis del tiempo y el clima. ClimaX se utiliza para la clasificación de píxeles. Los datos preliminares utilizados para este método son datos multidimensionales.
  • ConnectNet (clasificación de píxeles)Se utilizará la arquitectura ConnectNet para entrenar el modelo. Se utiliza ConnectNet para la clasificación de píxeles. Este enfoque es útil para la extracción de redes de carreteras a partir de imágenes de satélite.
  • CycleGAN (traducción de imágenes)La arquitectura CycleGAN se utilizará para entrenar el modelo. CycleGAN se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que genera imágenes de un tipo a otro. Este enfoque es único en el sentido de que no es necesario que las imágenes que se van a entrenar se solapen. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos.
  • DeepLabV3 (clasificación de píxeles)La arquitectura DeepLabV3 se utilizará para entrenar el modelo. Se utiliza DeepLab para la clasificación de píxeles.
  • Deep Sort (rastreador de objetos)La arquitectura Deep Sort se utilizará para entrenar el modelo. Se utiliza Deep Sort para la detección de objetos. El modelo se forma utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos ImageNet. Mientras que Siam Mask es útil para rastrear un objeto, Deep Sort es útil para formar un modelo para rastrear múltiples objetos.
  • DETReg (detección de objetos)Se utilizará la arquitectura DETReg para entrenar el modelo. Se utiliza DETReg para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el Pascal Visual Object Classes. Este tipo de modelo hace un uso intensivo de la GPU; requiere una GPU dedicada con al menos 16 GB de memoria para funcionar correctamente.
  • FasterRCNN (detección de objetos)Se utilizará la arquitectura FasterRCNN para entrenar el modelo. Se utiliza FasterRCNN para la detección de objetos.
  • Clasificador de entidades (clasificación de objetos)Se utilizará la arquitectura Feature Classifier para entrenar el modelo. Feature Classifier se utiliza para la clasificación de objetos o imágenes.
  • Detector de bordes HED (clasificación de píxeles)Para formar el modelo se utilizará la arquitectura de detección de bordes anidados holísticamente (HED). Se utiliza HED Edge Detector para la clasificación de píxeles. Este enfoque es útil para la detección de bordes y límites de objetos.
  • Subtitulador de imágenes (traducción de imágenes)La arquitectura del subtitulador de imágenes se utilizará para entrenar el modelo. Se utiliza el Subtitulador de imágenes para la traducción de imagen a texto. Este enfoque crea un modelo que genera leyendas en formato texto para una imagen.
  • MaskRCNN (detección de objetos)Se utilizará la arquitectura MaskRCNN para entrenar el modelo. Se utiliza MaskRCNN para la detección de objetos. Este enfoque se utiliza para la segmentación de instancias, que es la delimitación precisa de objetos en una imagen. Este tipo de modelo se puede utilizar para detectar huellas de edificios. Utiliza el formato de metadatos MaskRCNN para entrenar datos como entrada. Los valores de clase para los datos de entrenamiento de entrada deben comenzar en 1. Este tipo de modelo solo se puede entrenar con una GPU habilitada para CUDA.
  • MaX-DeepLab (segmentación panóptica)La arquitectura MaX-DeepLab se utilizará para entrenar el modelo. MaX-DeepLab se utiliza para la segmentación panóptica. Este enfoque crea un objeto modelo que genera imágenes y entidades. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de segmentación Panóptica.
  • MMDetection (detección de objetos)Se utilizará la arquitectura MMDetection para entrenar el modelo. Se utiliza MMDetection para la detección de objetos. Los formatos de metadatos compatibles son rectángulos Pascal Visual Object Class y rectángulos KITTI.
  • MMSegmentation (clasificación de píxeles)La arquitectura MMSegmentation se utilizará para entrenar el modelo. Se utiliza MMSegmentation para la clasificación de píxeles. El formato de metadatos compatible es Teselas clasificadas.
  • Extractor de carreteras de varias tareas (clasificación de píxeles)Se utilizará la arquitectura del Extractor de carreteras de varias tareas para formar el modelo. Se utiliza Multi Task Road Extractor para la clasificación de píxeles. Este enfoque es útil para la extracción de redes de carreteras a partir de imágenes de satélite.
  • Pix2Pix (traducción de imágenes)La arquitectura Pix2Pix se utilizará para entrenar el modelo. Pix2Pix se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de Exportar Teselas.
  • Pix2PixHD (traducción de imágenes)La arquitectura Pix2PixHD se utilizará para entrenar el modelo. Pix2PixHD se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de Exportar Teselas.
  • PSETAE (clasificación de píxeles)La arquitectura de codificadores de conjuntos de píxeles y autoatención temporal (PSETAE) se utilizará para entrenar el modelo de clasificación de series temporales. Se utiliza PSETAE para la clasificación de píxeles. Los datos preliminares utilizados para este método son datos multidimensionales.
  • Red de análisis de escenas de pirámide (clasificación de píxeles)Para entrenar el modelo se utilizará la arquitectura Pyramid Scene Parsing Network (PSPNET). Se utiliza PSPNET para la clasificación de píxeles.
  • RetinaNet (detección de objetos)La arquitectura RetinaNet se utilizará para entrenar el modelo. Se utiliza RetinaNet para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • DETRegV2 (Detección de objetos)La arquitectura mejorada Real-Time DEtection TRansformer (RTDetrV2) se utilizará para entrenar este modelo. RTDetrV2 se basa en el anterior detector en tiempo real, RT-DETR. Se utiliza DETRegV2 para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan los formatos de metadatos Pascal Visual Object Classes y rectángulos KITTI.
  • SAMLoRA (clasificación de píxeles)Para entrenar el modelo se utilizará el modelo de segmentación de cualquier cosa (SAM) con adaptación de rango inferior (LoRA). Este tipo de modelo utiliza SAM como modelo fundacional y se adecuará a una tarea específica con relativamente pocos requisitos informáticos y un dataset más pequeño.
  • Siam Mask (rastreador de objetos)La arquitectura Siam Mask se utilizará para entrenar el modelo. Se utiliza Siam Mask para la detección de objetos en vídeos. El modelo se forma utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos MaskRCNN.
  • Single Shot Detector (detección de objetos)Para entrenar el modelo se utilizará la arquitectura Single Shot Detector (SSD). Se utiliza SSD para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • Superresolución (traducción de imágenes)La arquitectura Super-resolution se utilizará para entrenar el modelo. Se utiliza Super-resolution para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que aumenta la resolución y mejora la calidad de las imágenes. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de Exportar Teselas.
  • U-Net (clasificación de píxeles)La arquitectura U-Net se utilizará para entrenar el modelo. Se utiliza U-Net para la clasificación de píxeles.
  • YOLOv3 (detección de objetos)La arquitectura YOLOv3 se utilizará para entrenar el modelo. Se utiliza YOLOv3 para la detección de objetos.
String
Tamaño de lote
(Opcional)

La cantidad de muestras de entrenamiento que se procesarán durante el entrenamiento a la vez.

El rendimiento de la herramienta puede mejorarse aumentando el tamaño del lote; sin embargo, conforme aumenta el tamaño del lote se utiliza más memoria.

Cuando no se dispone de suficiente memoria en la GPU para el tamaño de lote establecido, la herramienta intenta estimar y utilizar un tamaño de lote óptimo. Si se produce un error de memoria insuficiente, utilice un tamaño de lote más pequeño.

Long
Argumentos de modelo
(Opcional)

La información del parámetro Tipo de modelo se utilizará para rellenar este parámetro. Estos argumentos varían en función de la arquitectura del modelo. A continuación se describen los argumentos de modelo admitidos para los modelos entrenados en ArcGIS. Los modelos preentrenados de ArcGIS y los modelos de aprendizaje profundo personalizados pueden tener argumentos adicionales compatibles con la herramienta.

Para obtener más información sobre los argumentos que están disponibles para cada tipo de modelo, consulte Argumentos de aprendizaje profundo.

Value Table
Tasa de aprendizaje
(Opcional)

La velocidad a la que la información existente se sobrescribirá con información recién adquirida a lo largo del proceso de entrenamiento. Si no se especifica ningún valor, la tasa de aprendizaje óptima se extraerá de la curva de aprendizaje durante el proceso de entrenamiento.

Double
Modelo central
(Opcional)

Especifica la red neuronal preconfigurada que se usará como arquitectura para entrenar el nuevo modelo. Este método se conoce como Transfer Learning.

Además, se pueden especificar las redes neuronales convoluciales compatibles de modelos de imagen PyTorch (timm) utilizando timm como prefijo, por ejemplo, timm:resnet31 , timm:inception_v4 , timm:efficientnet_b3, etc.

  • 1,40625 gradosEsta columna vertebral se entrenó en la tecnología de imágenes en la que la resolución de cada celda de la cuadrícula portada un área de 1,40625 grados por 1,40625 grados. Se utiliza para predicciones meteorológicas y climáticas. Este es un ajuste de mayor resolución, que permite resultados más precisos, pero requiere más potencia de cómputo.
  • 5,625 gradosEsta columna vertebral se entrenó en la tecnología de imágenes en la que la resolución de cada celda de la cuadrícula portada un área de 5,625 grados por 5,625 grados. Se utiliza para predicciones meteorológicas y climáticas. Se considera una configuración de baja resolución, pero requiere menos potencia de cómputo.
  • DenseNet-121El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 121 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • DenseNet-161El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 161 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • DenseNet-169El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 169 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • DenseNet-201El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 201 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • MobileNet versión 2El modelo preconfigurado se entrenará en la base de datos de Imagenet, tiene 54 capas de profundidad y está pensado para la informática de dispositivos Edge, ya que usa menos memoria.
  • ResNet-18El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 18 capas de profundidad.
  • ResNet-34El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 34 capas de profundidad. Esta es la opción predeterminada.
  • ResNet-50El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 50 capas de profundidad.
  • ResNet-101El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 101 capas de profundidad.
  • ResNet-152El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 152 capas de profundidad.
  • VGG-11El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 11 capas de profundidad.
  • VGG-11 con normalización por lotesEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 11 capas.
  • VGG-13El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 13 capas de profundidad.
  • VGG-13 con normalización por lotesEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 13 capas.
  • VGG-16El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 16 capas de profundidad.
  • VGG-16 con normalización por lotesEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 16 capas.
  • VGG-19El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 19 capas de profundidad.
  • VGG-19 con normalización por lotesEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 19 capas.
  • DarkNet-53El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 53 capas de profundidad.
  • Reid_v1El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de ImageNet utilizado para el rastreo de objetos.
  • Reid_v2El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de ImageNet utilizado para el rastreo de objetos.
  • ResNeXt-50El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet y tendrá 50 capas de profundidad. Se trata de una red neuronal homogénea, lo que reduce el número de hiperparámetros requeridos por las ResNet convencionales.
  • Wide ResNet-50El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet y tendrá 50 capas de profundidad. Tiene la misma arquitectura que ResNET, pero con más canales.
  • SR3El modelo preconfigurado utilizará el modelo de superresolución a través del refinamiento repetido (SR3). SR3 adapta los modelos probabilísticos de eliminación de ruido a la generación de imágenes condicional y lleva a cabo la superresolución a través del proceso de eliminación de ruido estocástico. Para obtener más información, consulte Superresolución de imágenes a través del refinamiento repetido en el sitio de arXiv.
  • SR3 U-ViTEste modelo de base se refiere a una implementación específica de la arquitectura basada en Vision Transformer (ViT) diseñada para modelos de difusión dentro de tareas de generación de imágenes y SR3.
  • ViT-BSe utilizará el modelo de segmentación de cualquier cosa (SAM) con un tamaño de red neuronal básico. Este es el tamaño más pequeño. Para obtener más información, consulte Segmentar cualquier cosa en el sitio de arXiv.
  • ViT-LSe utilizará el modelo de segmentación de cualquier cosa (SAM) con un tamaño de red neuronal grande. Para obtener más información, consulte Segmentar cualquier cosa en el sitio de arXiv.
  • ViT-HSe utilizará el modelo de segmentación de cualquier cosa (SAM) con un tamaño de red neuronal enorme. Este es el tamaño más grande. Para obtener más información, consulte Segmentar cualquier cosa en el sitio de arXiv.
String
Modelo preentrenado
(Opcional)

Un modelo previamente entrenado que se usará para ajustar el nuevo modelo. La entrada es un archivo de definición de modelo Esri (.emd) o un archivo de paquete de aprendizaje profundo (.dlpk).

Puede ajustarse un modelo previamente entrenado con clases similares para adaptarse al nuevo modelo. El modelo previamente entrenado debe haber sido entrenado con el mismo tipo de modelo y modelo base que se usará para entrenar el nuevo modelo. El ajuste fino solo recibe soporte para modelos que se han entrenado usando ArcGIS.

File
% de validación
(Opcional)

El porcentaje de muestras de entrenamiento que se usará para validar el modelo. El valor predeterminado es 10.

Double
Detener cuando el modelo deja de mejorar
(Opcional)

Especifica si se implementará la detención anticipada.

  • Activado: se implementará la detención anticipada, y el entrenamiento del modelo se detendrá cuando el modelo ya no mejore, independientemente del valor especificado del parámetro Máximo de épocas. Esta es la opción predeterminada.
  • Desactivado: no se implementará la detención anticipada, y el entrenamiento del modelo continuará hasta que se alcance el valor del parámetro Máximo de épocas.
Boolean
Detener modelo
(Opcional)

Especifica si las capas base del modelo previamente entrenado se congelarán, de modo que los pesos y sesgos sigan tal como se diseñaron originalmente.

  • Activado: las capas base se congelarán y los pesos y sesgos predefinidos no se modificarán en el parámetro Modelo base. Esta es la opción predeterminada.
  • No activado: las capas base no se congelarán, y los pesos y sesgos del parámetro Modelo base se pueden modificar para que se ajusten a las muestras de formación. Esto conlleva más tiempo de procesamiento, pero suele producir mejores resultados.

Boolean
Aumento de datos
(Opcional)

Especifica el tipo de aumento de datos que se utilizará.

El aumento de datos es una técnica para aumentar artificialmente el conjunto de entrenamiento mediante la creación de copias modificadas de un dataset utilizando los datos existentes.

  • PredeterminadoSe utilizarán los métodos y valores de aumento de datos predeterminados.Los métodos de aumento de datos predeterminados son crop, dihedral_affine, brightness, contrast y zoom. Estos valores predeterminados suelen funcionar bien para las imágenes de satélite.
  • NingunoNo se utilizará el aumento de datos.
  • PersonalizadoLos valores de aumento de datos se especificarán mediante el parámetro Parámetros de aumento. Esto permite un control directo sobre las transformaciones crop, rotate, brightness, contrast y zoom.
  • ArchivoLas transformaciones Fastai para el aumento de datos de los dataset de entrenamiento y validación se especificarán utilizando el archivo transforms.json que se encuentra en la misma carpeta que los datos de entrenamiento.Para obtener más información sobre las distintas transformaciones, consulte la visión transforma en el sitio web de fastai.
String
Parámetros de aumento
(Opcional)

Especifica el valor de cada transformación en el parámetro de aumento.

  • rotate: la imagen se girará aleatoriamente (en grados) con una probabilidad (p). Si grados es un rango (a,b), se asignará uniformemente un valor de a a b. El valor predeterminado es 30.0; 0.5.
  • brightness: el brillo de la imagen se ajustará aleatoriamente en función del valor de cambio, con una probabilidad (p). Un cambio de 0 transformará la imagen en la más oscura, y un cambio de 1 transformará la imagen en la más clara. Un cambio de 0,5 no ajustará el brillo. Si el cambio es un rango (a,b), el aumento asignará uniformemente un valor de a a b. El valor predeterminado es (0,4,0,6); 1,0.
  • contrast: el contraste de la imagen se ajustará aleatoriamente en función del valor de escala con una probabilidad (p). Una escala de 0 transformará la imagen a escala de grises, y una escala mayor que 1 transformará la imagen a supercontraste. Una escala de 1 no ajusta el contraste. Si la escala es un rango (a,b), el aumento asignará uniformemente un valor de a a b. El valor predeterminado es (0,75, 1,5); 1,0.
  • zoom: la imagen se ampliará aleatoriamente en función del valor de la escala. El valor del zoom tiene la forma scale(a,b); p. El valor predeterminado es (1.0, 1.2); 1.0 en el cual p es la probabilidad. Solamente una escala superior a 1,0 ampliará la imagen. Si escala es un rango (a,b), asignará uniformemente un valor de a a b.
  • crop: la imagen se recortará aleatoriamente. El valor del recorte está en la forma size;p;row_pct;col_pct en la cual p es la probabilidad. La posición viene dada por (col_pct, row_pct),, con col_pct y row_pct normalizados entre 0 y 1. Si col_pct o row_pct es un rango (a,b), asignará uniformemente un valor de a a b. El valor predeterminado es chip_size;1.0; (0, 1); (0, 1) en el que 224 es el tamaño de chip por defecto predeterminado.

Value Table
Tamaño de chip
(Opcional)

Tamaño de la imagen que se utilizará para entrenar el modelo. Las imágenes se recortarán al tamaño de chip especificado.

El tamaño de chip predeterminado coincidirá con el tamaño de tesela de los datos de entrenamiento. Si el tamaño de las teselas x e y son diferentes, se utilizará el valor más pequeño como tamaño predeterminado de la tesela. El tamaño de chip debe ser inferior al tamaño de la tesela x o y más pequeño de todas las imágenes de las carpetas de entrada.

Long
Cambiar tamaño a
(Opcional)

Cambia el tamaño de los chips de imagen. Una vez redimensionado el chip, se recortarán los bloques de píxeles del tamaño del chip y se utilizarán para el entrenamiento. Este parámetro solo se aplica a los datos de detección de objetos (PASCAL VOC), clasificación de objetos (teselas etiquetadas) y superresolución.

El valor de redimensionamiento suele ser la mitad del valor del tamaño del chip. Si el valor de cambio de tamaño es menor que el valor del tamaño del chip, el valor de cambio de tamaño se utiliza para crear los bloques de píxeles para el entrenamiento.

String
Esquema de inicialización de pesos
(Opcional)

Especifica el esquema en el que se inicializarán los pesos para la capa.

Para entrenar un modelo con datos multiespectrales, el modelo debe adaptarse a los distintos tipos de bandas disponibles. Esto se hace reinicializando la primera capa del modelo.

Este parámetro solamente es aplicable cuando se utilizan imágenes multiespectrales en el modelo.

  • AleatorioLos pesos aleatorios se inicializarán para las bandas no RGB, mientras que los pesos preentrenados se conservarán para las bandas RGB. Esta es la opción predeterminada.
  • Banda rojaLos pesos correspondientes a la banda roja de la capa del modelo preentrenado se clonarán para las bandas no RGB, mientras que los pesos preentrenados se conservarán para las bandas RGB.
  • Todos aleatoriosSe inicializarán pesos aleatorios tanto para las bandas RGB como para las bandas no RGB. Esta opción se aplica solamente a las imágenes multiespectrales.
String
Supervisar métrica
(Opcional)

Especifica la métrica que se va a supervisar durante el control y la detención anticipada.

  • Pérdida de validaciónSe supervisará la pérdida de validación. El modelo se detendrá cuando la pérdida de validación ya no cambie de forma apreciable. Esta es la opción predeterminada.
  • Precisión mediaEn cada umbral se supervisará la media ponderadade la precisión. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • PrecisiónSe supervisará la relación entre el número de predicciones correctas y el número total de predicciones. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • Puntuación F1Se supervisará la combinación de las puntuaciones de precisión y recuperación del modelo. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • MIoUSe controlará la media entre la intersección sobre la unión (IoU) de los objetos segmentados sobre todas las imágenes del dataset de prueba. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • SubdividirEl rendimiento del modelo se supervisará mediante la métrica Dice. El modelo se detendrá cuando este valor no cambie de forma apreciable.El valor puede variar de 0 al 1. El valor 1 corresponde a una coincidencia perfecta de píxeles entre los datos de validación y los datos de entrenamiento.
  • PrecisiónSe supervisará la precisión, que mide la exactitud del modelo a la hora de clasificar una muestra como positiva. El modelo se detendrá cuando este valor no cambie de forma apreciable.La precisión es la relación entre el número de muestras positivas clasificadas correctamente y el número total de muestras clasificadas (correcta o incorrectamente).
  • RecuperaciónSe supervisará la recuperación, que mide la capacidad del modelo para detectar muestras positivas. El modelo se detendrá cuando este valor no cambie de forma apreciable.Cuanto mayor sea la recuperación, más muestras positivas se detectarán. El valor de recuperación es la relación entre el número de muestras positivas correctamente clasificadas como positivas y el número total de muestras positivas.
  • Corpus bleuSe supervisará la puntuación bleu del corpus. El modelo se detendrá cuando este valor no cambie de forma apreciable.Esta puntuación se utiliza para calcular la precisión de varias frases, por ejemplo, un párrafo o un documento.
  • Multietiqueta F-betaSe supervisará la media armónica ponderada de la precisión y la recuperación. El modelo se detendrá cuando este valor no cambie de forma apreciable.A menudo se denomina puntuación F-beta.
String
Habilitar Tensorboard
(Opcional)

Especifica si las métricas de Tensorboard se habilitarán mientras la herramienta está en proceso de entrenamiento. Se puede acceder a Tensorboard utilizando la URL que aparece en los mensajes de la herramienta.

Este parámetro solo se admite para los siguientes modelos: CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution y U-Net Classifier.

  • Desactivado: las métricas de Tensorboard no se habilitarán. Esta es la opción predeterminada.
  • Activado: las métricas de Tensorboard se habilitarán.

Boolean

Salida derivada

EtiquetaExplicaciónTipo de datos
Modelo de salida

El archivo de salida del modelo entrenado.

File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor}, {tensorboard})
NombreExplicaciónTipo de datos
in_folder
[in_folder,...]

Las carpetas que contienen los chips de imagen, las etiquetas y las estadísticas necesarias para entrenar el modelo. Esto es la salida de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.

Se admiten múltiples carpetas de entrada cuando se cumplen las siguientes condiciones:

  • El tipo de formato de metadatos debe ser mosaicos clasificados, mosaicos etiquetados, mosaicos multietiquetados, clases de objetos visuales Pascal o máscaras RCNN.
  • Todos los datos de formación deben tener el mismo formato de metadatos.
  • Todos los datos de entrenamiento deben tener el mismo número de bandas.

Folder
out_folder

La ubicación de la carpeta de salida donde se almacenará el modelo entrenado.

Folder
max_epochs
(Opcional)

El número máximo de épocas para las que se entrenará el modelo. Un máximo de épocas de 1 significa que el dataset se pasa hacia delante y hacia atrás por la red neuronal una vez. El valor predeterminado es 20.

Long
model_type
(Opcional)

Especifica el tipo de modelo que se usará para entrenar el modelo de aprendizaje profundo.

  • BDCN_EDGEDETECTORPara entrenar el modelo se utilizará la arquitectura Bi-Directional Cascade Network (BDCN). Detector de bordes BDCN se utiliza para la clasificación de píxeles. Este método es útil para mejorar la detección de los bordes de los objetos a diferentes escalas.
  • CHANGEDETECTORLa arquitectura del detector de cambios se utilizará para entrenar el modelo. Se utiliza el detector de cambios para la clasificación de píxeles. Este método crea un objeto modelo que utiliza dos imágenes espaciotemporales para crear un ráster clasificado del cambio. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Teselas clasificadas.
  • CLIMAXSe utilizará la arquitectura ClimaX para entrenar el modelo. Este modelo se utiliza principalmente para el análisis del tiempo y el clima. ClimaX se utiliza para la clasificación de píxeles. Los datos preliminares utilizados para este método son datos multidimensionales.
  • CONNECTNETSe utilizará la arquitectura ConnectNet para entrenar el modelo. Se utiliza ConnectNet para la clasificación de píxeles. Este enfoque es útil para la extracción de redes de carreteras a partir de imágenes de satélite.
  • CYCLEGANLa arquitectura CycleGAN se utilizará para entrenar el modelo. CycleGAN se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que genera imágenes de un tipo a otro. Este enfoque es único en el sentido de que no es necesario que las imágenes que se van a entrenar se solapen. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos.
  • DEEPLABLa arquitectura DeepLabV3 se utilizará para entrenar el modelo. Se utiliza DeepLab para la clasificación de píxeles.
  • DEEPSORTLa arquitectura Deep Sort se utilizará para entrenar el modelo. Se utiliza Deep Sort para la detección de objetos. El modelo se forma utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos ImageNet. Mientras que Siam Mask es útil para rastrear un objeto, Deep Sort es útil para formar un modelo para rastrear múltiples objetos.
  • DETREGSe utilizará la arquitectura DETReg para entrenar el modelo. Se utiliza DETReg para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el Pascal Visual Object Classes. Este tipo de modelo hace un uso intensivo de la GPU; requiere una GPU dedicada con al menos 16 GB de memoria para funcionar correctamente.
  • FASTERRCNNSe utilizará la arquitectura FasterRCNN para entrenar el modelo. Se utiliza FasterRCNN para la detección de objetos.
  • FEATURE_CLASSIFIERSe utilizará la arquitectura Feature Classifier para entrenar el modelo. Feature Classifier se utiliza para la clasificación de objetos o imágenes.
  • HED_EDGEDETECTORPara formar el modelo se utilizará la arquitectura de detección de bordes anidados holísticamente (HED). Se utiliza HED Edge Detector para la clasificación de píxeles. Este enfoque es útil para la detección de bordes y límites de objetos.
  • IMAGECAPTIONERLa arquitectura del subtitulador de imágenes se utilizará para entrenar el modelo. Se utiliza el Subtitulador de imágenes para la traducción de imagen a texto. Este enfoque crea un modelo que genera leyendas en formato texto para una imagen.
  • MASKRCNNSe utilizará la arquitectura MaskRCNN para entrenar el modelo. Se utiliza MaskRCNN para la detección de objetos. Este enfoque se utiliza para la segmentación de instancias, que es la delimitación precisa de objetos en una imagen. Este tipo de modelo se puede utilizar para detectar huellas de edificios. Utiliza el formato de metadatos MaskRCNN para entrenar datos como entrada. Los valores de clase para los datos de entrenamiento de entrada deben comenzar en 1. Este tipo de modelo solo se puede entrenar con una GPU habilitada para CUDA.
  • MAXDEEPLABLa arquitectura MaX-DeepLab se utilizará para entrenar el modelo. MaX-DeepLab se utiliza para la segmentación panóptica. Este enfoque crea un objeto modelo que genera imágenes y entidades. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de segmentación Panóptica.
  • MMDETECTIONSe utilizará la arquitectura MMDetection para entrenar el modelo. Se utiliza MMDetection para la detección de objetos. Los formatos de metadatos compatibles son rectángulos Pascal Visual Object Class y rectángulos KITTI.
  • MMSEGMENTATIONLa arquitectura MMSegmentation se utilizará para entrenar el modelo. Se utiliza MMSegmentation para la clasificación de píxeles. El formato de metadatos compatible es Teselas clasificadas.
  • MULTITASK_ROADEXTRACTORSe utilizará la arquitectura del Extractor de carreteras de varias tareas para formar el modelo. Se utiliza Multi Task Road Extractor para la clasificación de píxeles. Este enfoque es útil para la extracción de redes de carreteras a partir de imágenes de satélite.
  • PIX2PIXLa arquitectura Pix2Pix se utilizará para entrenar el modelo. Pix2Pix se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de Exportar Teselas.
  • PIX2PIXHDLa arquitectura Pix2PixHD se utilizará para entrenar el modelo. Pix2PixHD se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de Exportar Teselas.
  • PSETAELa arquitectura de codificadores de conjuntos de píxeles y autoatención temporal (PSETAE) se utilizará para entrenar el modelo de clasificación de series temporales. Se utiliza PSETAE para la clasificación de píxeles. Los datos preliminares utilizados para este método son datos multidimensionales.
  • PSPNETPara entrenar el modelo se utilizará la arquitectura Pyramid Scene Parsing Network (PSPNET). Se utiliza PSPNET para la clasificación de píxeles.
  • RETINANETLa arquitectura RetinaNet se utilizará para entrenar el modelo. Se utiliza RetinaNet para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • RTDETRV2La arquitectura mejorada Real-Time DEtection TRansformer (RTDetrV2) se utilizará para entrenar este modelo. RTDetrV2 se basa en el anterior detector en tiempo real, RT-DETR. Se utiliza DETRegV2 para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan los formatos de metadatos Pascal Visual Object Classes y rectángulos KITTI.
  • SAMLORAPara entrenar el modelo se utilizará el modelo de segmentación de cualquier cosa (SAM) con adaptación de rango inferior (LoRA). Este tipo de modelo utiliza SAM como modelo fundacional y se adecuará a una tarea específica con relativamente pocos requisitos informáticos y un dataset más pequeño.
  • SIAMMASKLa arquitectura Siam Mask se utilizará para entrenar el modelo. Se utiliza Siam Mask para la detección de objetos en vídeos. El modelo se forma utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos MaskRCNN.
  • SSDPara entrenar el modelo se utilizará la arquitectura Single Shot Detector (SSD). Se utiliza SSD para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • SUPERRESOLUTIONLa arquitectura Super-resolution se utilizará para entrenar el modelo. Se utiliza Super-resolution para la traducción de imagen a imagen. Este enfoque crea un objeto modelo que aumenta la resolución y mejora la calidad de las imágenes. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de Exportar Teselas.
  • UNETLa arquitectura U-Net se utilizará para entrenar el modelo. Se utiliza U-Net para la clasificación de píxeles.
  • YOLOV3La arquitectura YOLOv3 se utilizará para entrenar el modelo. Se utiliza YOLOv3 para la detección de objetos.
String
batch_size
(Opcional)

La cantidad de muestras de entrenamiento que se procesarán durante el entrenamiento a la vez.

El rendimiento de la herramienta puede mejorarse aumentando el tamaño del lote; sin embargo, conforme aumenta el tamaño del lote se utiliza más memoria.

Cuando no se dispone de suficiente memoria en la GPU para el tamaño de lote establecido, la herramienta intenta estimar y utilizar un tamaño de lote óptimo. Si se produce un error de memoria insuficiente, utilice un tamaño de lote más pequeño.

Long
arguments
[arguments,...]
(Opcional)

La información del parámetro model_type se utilizará para establecer los valores predeterminados de este parámetro. Estos argumentos varían en función de la arquitectura del modelo. A continuación se describen los argumentos de modelo admitidos para los modelos entrenados en ArcGIS. Los modelos preentrenados de ArcGIS y los modelos de aprendizaje profundo personalizados pueden tener argumentos adicionales compatibles con la herramienta.

Para obtener más información sobre los argumentos que están disponibles para cada tipo de modelo, consulte Argumentos de aprendizaje profundo.

Value Table
learning_rate
(Opcional)

La velocidad a la que la información existente se sobrescribirá con información recién adquirida a lo largo del proceso de entrenamiento. Si no se especifica ningún valor, la tasa de aprendizaje óptima se extraerá de la curva de aprendizaje durante el proceso de entrenamiento.

Double
backbone_model
(Opcional)

Especifica la red neuronal preconfigurada que se usará como arquitectura para entrenar el nuevo modelo. Este método se conoce como Transfer Learning.

  • 1.40625degEsta columna vertebral se entrenó en la tecnología de imágenes en la que la resolución de cada celda de la cuadrícula portada un área de 1,40625 grados por 1,40625 grados. Se utiliza para predicciones meteorológicas y climáticas. Este es un ajuste de mayor resolución, que permite resultados más precisos, pero requiere más potencia de cómputo.
  • 5.625degEsta columna vertebral se entrenó en la tecnología de imágenes en la que la resolución de cada celda de la cuadrícula portada un área de 5,625 grados por 5,625 grados. Se utiliza para predicciones meteorológicas y climáticas. Se considera una configuración de baja resolución, pero requiere menos potencia de cómputo.
  • DENSENET121El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 121 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • DENSENET161El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 161 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • DENSENET169El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 169 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • DENSENET201El modelo preconfigurado será una red densa entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 201 capas de profundidad. A diferencia de ResNET, que combina las capas mediante la suma, DenseNet combina las capas mediante la concatenación.
  • MOBILENET_V2El modelo preconfigurado se entrenará en la base de datos de Imagenet, tiene 54 capas de profundidad y está pensado para la informática de dispositivos Edge, ya que usa menos memoria.
  • RESNET18El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 18 capas de profundidad.
  • RESNET34El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 34 capas de profundidad. Esta es la opción predeterminada.
  • RESNET50El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 50 capas de profundidad.
  • RESNET101El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 101 capas de profundidad.
  • RESNET152El modelo preconfigurado será una red residual entrenada en el dataset de ImageNet que contiene más de un millón de imágenes y tiene 152 capas de profundidad.
  • VGG11El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 11 capas de profundidad.
  • VGG11_BNEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 11 capas.
  • VGG13El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 13 capas de profundidad.
  • VGG13_BNEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 13 capas.
  • VGG16El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 16 capas de profundidad.
  • VGG16_BNEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 16 capas.
  • VGG19El modelo preconfigurado será una red neuronal de convolución entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene 19 capas de profundidad.
  • VGG19_BNEl modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red estará normalizada. Se ha entrenado en el dataset de ImageNet y tiene 19 capas.
  • DARKNET53El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de ImageNet que contiene más de 1 millón de imágenes y tiene 53 capas de profundidad.
  • REID_V1El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de ImageNet utilizado para el rastreo de objetos.
  • REID_V2El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de ImageNet utilizado para el rastreo de objetos.
  • RESNEXT50El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet y tendrá 50 capas de profundidad. Se trata de una red neuronal homogénea, lo que reduce el número de hiperparámetros requeridos por las ResNet convencionales.
  • WIDE_RESNET50El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet y tendrá 50 capas de profundidad. Tiene la misma arquitectura que ResNET, pero con más canales.
  • SR3El modelo preconfigurado utilizará el modelo de superresolución a través del refinamiento repetido (SR3). SR3 adapta los modelos probabilísticos de eliminación de ruido a la generación de imágenes condicional y lleva a cabo la superresolución a través del proceso de eliminación de ruido estocástico. Para obtener más información, consulte Superresolución de imágenes a través del refinamiento repetido en el sitio de arXiv.
  • SR3_UVITEste modelo de base se refiere a una implementación específica de la arquitectura basada en Vision Transformer (ViT) diseñada para modelos de difusión dentro de tareas de generación de imágenes y SR3.
  • VIT_BSe utilizará el modelo de segmentación de cualquier cosa (SAM) con un tamaño de red neuronal básico. Este es el tamaño más pequeño. Para obtener más información, consulte Segmentar cualquier cosa en el sitio de arXiv.
  • VIT_LSe utilizará el modelo de segmentación de cualquier cosa (SAM) con un tamaño de red neuronal grande. Para obtener más información, consulte Segmentar cualquier cosa en el sitio de arXiv.
  • VIT_HSe utilizará el modelo de segmentación de cualquier cosa (SAM) con un tamaño de red neuronal enorme. Este es el tamaño más grande. Para obtener más información, consulte Segmentar cualquier cosa en el sitio de arXiv.

Además, se pueden especificar las redes neuronales convoluciales compatibles de modelos de imagen PyTorch (timm) utilizando timm como prefijo, por ejemplo, timm:resnet31 , timm:inception_v4 , timm:efficientnet_b3, etc.

String
pretrained_model
(Opcional)

Un modelo previamente entrenado que se usará para ajustar el nuevo modelo. La entrada es un archivo de definición de modelo Esri (.emd) o un archivo de paquete de aprendizaje profundo (.dlpk).

Puede ajustarse un modelo previamente entrenado con clases similares para adaptarse al nuevo modelo. El modelo previamente entrenado debe haber sido entrenado con el mismo tipo de modelo y modelo base que se usará para entrenar el nuevo modelo. El ajuste fino solo recibe soporte para modelos que se han entrenado usando ArcGIS.

File
validation_percentage
(Opcional)

El porcentaje de muestras de entrenamiento que se usará para validar el modelo. El valor predeterminado es 10.

Double
stop_training
(Opcional)

Especifica si se implementará la detención anticipada.

  • STOP_TRAININGSe implementará la detención anticipada, y el entrenamiento del modelo se detendrá cuando el modelo ya no mejore, independientemente del valor especificado del parámetro max_epochs. Esta es la opción predeterminada.
  • CONTINUE_TRAININGNo se implementará la detención anticipada, y el entrenamiento del modelo continuará hasta que se alcance el valor del parámetro max_epochs.
Boolean
freeze
(Opcional)

Especifica si las capas base del modelo previamente entrenado se congelarán, de modo que los pesos y sesgos sigan tal como se diseñaron originalmente.

  • FREEZE_MODELLas capas base se congelarán y los pesos y sesgos predefinidos no se modificarán en el parámetro backbone_model. Esta es la opción predeterminada.
  • UNFREEZE_MODELLas capas base no se congelarán, y los pesos y sesgos del parámetro backbone_model se pueden modificar para que se ajusten a las muestras de formación. Esto conlleva más tiempo de procesamiento, pero suele producir mejores resultados.
Boolean
augmentation
(Opcional)

Especifica el tipo de aumento de datos que se utilizará.

El aumento de datos es una técnica para aumentar artificialmente el conjunto de entrenamiento mediante la creación de copias modificadas de un dataset utilizando los datos existentes.

  • DEFAULTSe utilizarán los métodos y valores de aumento de datos predeterminados.Los métodos de aumento de datos predeterminados son crop, dihedral_affine, brightness, contrast y zoom. Estos valores predeterminados suelen funcionar bien para las imágenes de satélite.
  • NONENo se utilizará el aumento de datos.
  • CUSTOMLos valores de aumento de datos se especificarán mediante el parámetro augmentation_parameters. Esto permite un control directo sobre las transformaciones crop, rotate, brightness, contrast y zoom.
  • FILELas transformaciones Fastai para el aumento de datos de los dataset de entrenamiento y validación se especificarán utilizando el archivo transforms.json que se encuentra en la misma carpeta que los datos de entrenamiento.Para obtener más información sobre las distintas transformaciones, consulte la visión transforma en el sitio web de fastai.
String
augmentation_parameters
[augmentation_parameters,...]
(Opcional)

Especifica el valor de cada transformación en el parámetro de aumento.

  • rotate: la imagen se girará aleatoriamente (en grados) con una probabilidad (p). Si grados es un rango (a,b), se asignará uniformemente un valor de a a b. El valor predeterminado es 30.0; 0.5.
  • brightness: el brillo de la imagen se ajustará aleatoriamente en función del valor de cambio, con una probabilidad (p). Un cambio de 0 transformará la imagen en la más oscura, y un cambio de 1 transformará la imagen en la más clara. Un cambio de 0,5 no ajustará el brillo. Si el cambio es un rango (a,b), el aumento asignará uniformemente un valor de a a b. El valor predeterminado es (0,4,0,6); 1,0.
  • contrast: el contraste de la imagen se ajustará aleatoriamente en función del valor de escala con una probabilidad (p). Una escala de 0 transformará la imagen a escala de grises, y una escala mayor que 1 transformará la imagen a supercontraste. Una escala de 1 no ajusta el contraste. Si la escala es un rango (a,b), el aumento asignará uniformemente un valor de a a b. El valor predeterminado es (0,75, 1,5); 1,0.
  • zoom: la imagen se ampliará aleatoriamente en función del valor de la escala. El valor del zoom tiene la forma scale(a,b); p. El valor predeterminado es (1.0, 1.2); 1.0 en el cual p es la probabilidad. Solamente una escala superior a 1,0 ampliará la imagen. Si escala es un rango (a,b), asignará uniformemente un valor de a a b.
  • crop: la imagen se recortará aleatoriamente. El valor del recorte está en la forma size;p;row_pct;col_pct en la cual p es la probabilidad. La posición viene dada por (col_pct, row_pct),, con col_pct y row_pct normalizados entre 0 y 1. Si col_pct o row_pct es un rango (a,b), asignará uniformemente un valor de a a b. El valor predeterminado es chip_size;1.0; (0, 1); (0, 1) en el que 224 es el tamaño de chip por defecto predeterminado.

Value Table
chip_size
(Opcional)

Tamaño de la imagen que se utilizará para entrenar el modelo. Las imágenes se recortarán al tamaño de chip especificado.

El tamaño de chip predeterminado coincidirá con el tamaño de tesela de los datos de entrenamiento. Si el tamaño de las teselas x e y son diferentes, se utilizará el valor más pequeño como tamaño predeterminado de la tesela. El tamaño de chip debe ser inferior al tamaño de la tesela x o y más pequeño de todas las imágenes de las carpetas de entrada.

Long
resize_to
(Opcional)

Cambia el tamaño de los chips de imagen. Una vez redimensionado el chip, se recortarán los bloques de píxeles del tamaño del chip y se utilizarán para el entrenamiento. Este parámetro solo se aplica a los datos de detección de objetos (PASCAL VOC), clasificación de objetos (teselas etiquetadas) y superresolución.

El valor de redimensionamiento suele ser la mitad del valor del tamaño del chip. Si el valor de cambio de tamaño es menor que el valor del tamaño del chip, el valor de cambio de tamaño se utiliza para crear los bloques de píxeles para el entrenamiento.

String
weight_init_scheme
(Opcional)

Especifica el esquema en el que se inicializarán los pesos para la capa.

Para entrenar un modelo con datos multiespectrales, el modelo debe adaptarse a los distintos tipos de bandas disponibles. Esto se hace reinicializando la primera capa del modelo.

  • RANDOMLos pesos aleatorios se inicializarán para las bandas no RGB, mientras que los pesos preentrenados se conservarán para las bandas RGB. Esta es la opción predeterminada.
  • RED_BANDLos pesos correspondientes a la banda roja de la capa del modelo preentrenado se clonarán para las bandas no RGB, mientras que los pesos preentrenados se conservarán para las bandas RGB.
  • ALL_RANDOMSe inicializarán pesos aleatorios tanto para las bandas RGB como para las bandas no RGB. Esta opción se aplica solamente a las imágenes multiespectrales.

Este parámetro solamente es aplicable cuando se utilizan imágenes multiespectrales en el modelo.

String
monitor
(Opcional)

Especifica la métrica que se va a supervisar durante el control y la detención anticipada.

  • VALID_LOSSSe supervisará la pérdida de validación. El modelo se detendrá cuando la pérdida de validación ya no cambie de forma apreciable. Esta es la opción predeterminada.
  • AVERAGE_PRECISIONEn cada umbral se supervisará la media ponderadade la precisión. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • ACCURACYSe supervisará la relación entre el número de predicciones correctas y el número total de predicciones. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • F1_SCORESe supervisará la combinación de las puntuaciones de precisión y recuperación del modelo. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • MIOUSe controlará la media entre la intersección sobre la unión (IoU) de los objetos segmentados sobre todas las imágenes del dataset de prueba. El modelo se detendrá cuando este valor no cambie de forma apreciable.
  • DICEEl rendimiento del modelo se supervisará mediante la métrica Dice. El modelo se detendrá cuando este valor no cambie de forma apreciable.El valor puede variar de 0 al 1. El valor 1 corresponde a una coincidencia perfecta de píxeles entre los datos de validación y los datos de entrenamiento.
  • PRECISIONSe supervisará la precisión, que mide la exactitud del modelo a la hora de clasificar una muestra como positiva. El modelo se detendrá cuando este valor no cambie de forma apreciable.La precisión es la relación entre el número de muestras positivas clasificadas correctamente y el número total de muestras clasificadas (correcta o incorrectamente).
  • RECALLSe supervisará la recuperación, que mide la capacidad del modelo para detectar muestras positivas. El modelo se detendrá cuando este valor no cambie de forma apreciable.Cuanto mayor sea la recuperación, más muestras positivas se detectarán. El valor de recuperación es la relación entre el número de muestras positivas correctamente clasificadas como positivas y el número total de muestras positivas.
  • CORPUS_BLEUSe supervisará la puntuación bleu del corpus. El modelo se detendrá cuando este valor no cambie de forma apreciable.Esta puntuación se utiliza para calcular la precisión de varias frases, por ejemplo, un párrafo o un documento.
  • MULTI_LABEL_FBETASe supervisará la media armónica ponderada de la precisión y la recuperación. El modelo se detendrá cuando este valor no cambie de forma apreciable.A menudo se denomina puntuación F-beta.
String
tensorboard
(Opcional)

Especifica si las métricas de Tensorboard se habilitarán mientras la herramienta está en proceso de entrenamiento. Se puede acceder a Tensorboard utilizando la URL que aparece en los mensajes de la herramienta.

Este parámetro solo se admite para los siguientes modelos: CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution y U-Net Classifier.

  • DISABLE_TENSORBOARDLas métricas de Tensorboard no se habilitarán. Esta es la opción predeterminada.
  • ENABLE_TENSORBOARDLas métricas de Tensorboard se habilitarán.
Boolean

Salida derivada

NombreExplicaciónTipo de datos
out_model_file

El archivo de salida del modelo entrenado.

File

Muestra de código

Ejemplo 1 de TrainDeepLearningModel (ventana de Python)

En este ejemplo se utilizó el aprendizaje por transferencia con un modelo preentrenado.

import arcpy
arcpy.env.workspace = r"C:\Data\DL.gdb"

arcpy.ia.TrainDeepLearningModel("Labeled_RoadImageChips",
    "TransferLearning_UnsurfacedRoads", 500, "", 2, None, None, "", 
    r"C:\data\PreTrainedModels\RoadsExtraction_NorthAmerica.dlpk", 
    10, "STOP_TRAINING", "UNFREEZE_MODEL", "DEFAULT", None, 224, "", 
    "", "VALID_LOSS")
Ejemplo 2 de TrainDeepLearningModel (script independiente)

Este ejemplo entrena un modelo de detección de objetos utilizando el enfoque SSD.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

Temas relacionados