Entraîner le modèle d’apprentissage profond (Image Analyst)

Disponible avec une licence Image Analyst.

Synthèse

Entraîne un modèle d’apprentissage profond à l’aide de la sortie de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour l’apprentissage profond).

Utilisation

  • Cet outil entraîne un modèle de Deep Learning à l’aide de structures de Deep Learning.

  • Pour configurer votre machine afin d’utiliser des structures d’apprentissage profond dans ArcGIS AllSource, consultez la rubrique Installer les structures d’apprentissage profond pour ArcGIS.

  • Si vous entraînez des modèles dans un environnement déconnecté, voir Composants supplémentaire à installer dans les environnements déconnectés pour plus d’informations.

  • Cet outil peut également être utilisé pour affiner un modèle entraîné existant. Par exemple, un modèle existant entraîné pour les voitures peut être affiné pour entraîner un modèle identifiant les camions.

  • Pour exécuter cet outil avec un processeur graphique, définissez l’option Processor Type (Type de processeur) sur GPU. Si vous disposez de plusieurs GPU, indiquez l’environnement GPU ID (ID de GPU) à la place.

  • Par défaut, l’outil utilise l’ensemble des GPU disponibles lorsque le paramètre Model Type (Type de modèle) a l’une des valeurs suivantes :

    • ConnectNet
    • Classificateur d’entités
    • MaskRCNN
    • Extracteur de routes multitâche
    • Single Shot Detector
    • U-Net

    Pour utiliser un GPU spécifique, indiquez son ID de GPU.

  • Les données d’entraînement en entrée pour cet outil doivent inclure les dossiers d’images et d’étiquettes générés à partir de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour le Deep Learning).

    Il existe une exception lorsque les données d’entraînement utilisent les formats de métadonnées Pascal Visual Object Classes ou les rectangles KITTI. Pour ces deux formats, les données d’entraînement peuvent provenir d’autres sources, mais les fragments d’image doivent se trouver dans le dossier image et les étiquettes correspondantes dans le dossier labels.

  • Spécifiez des transformations fastai pour l’augmentation de données des jeux de données d’entraînement et de validation à l’aide du fichier transforms.json, situé dans le même dossier que les données d’entraînement. Vous trouverez ci-dessous un exemple de fichier transforms.json :

    Paramètres d’augmentation personnalisés

    
    {
        "Training": {
            "rotate": {
                "degrees": 30,
                "p": 0.5
            },
            "crop": {
                "size": 224,
                "p": 1,
                "row_pct": "0, 1",
                "col_pct": "0, 1"
            },
            "brightness": {
                "change": "0.4, 0.6"
            },
            "contrast": {
                "scale": "1.0, 1.5"
            },
            "rand_zoom": {
                "scale": "1, 1.2"
            }
        },
        "Validation": {
            "crop": {
                "size": 224,
                "p": 1.0,
                "row_pct": 0.5,
                "col_pct": 0.5
            }
        }
    }

  • Pour en savoir plus sur les exigences relatives à l’exécution de cet outil, ainsi que sur les problèmes que vous pouvez rencontrer, consultez les rubriques FAQ Apprentissage profond. .

  • Pour plus d’informations sur le Deep Learning, reportez-vous à la rubrique Deep Learning à l’aide de l’extension ArcGIS Image Analyst.

Paramètres

ÉtiquetteExplicationType de données
Données d’entraînement en entrée

Dossiers contenant les fragments d’images, les étiquettes et les statistiques nécessaires à l’entraînement d’un modèle. Il s’agit de la sortie de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour le Deep Learning).

Plusieurs dossiers en entrée sont pris en charge lorsque les conditions suivantes sont réunies :

  • Le type de format de métadonnées doit être Tuiles classées, Tuiles étiquetées, Tuiles multi-étiquetées, Pascal Visual Object Classes ou Masques RCNN.
  • Toutes les données d’entraînement doivent avoir le même format de métadonnées.
  • Toutes les données d’entraînement doivent avoir le même nombre de canaux.

Folder
Dossier en sortie

Emplacement du dossier en sortie où sera stocké le modèle entraîné.

Folder
Max Epochs (Nombre maximal d’époques)
(Facultatif)

Nombre maximal d’époques pour lequel le modèle sera entraîné. Si la valeur est 1, le jeu de données va et vient une fois sur le réseau neuronal. La valeur par défaut est 20.

Long
Type de modèle
(Facultatif)

Spécifie le type de modèle qui sera utilisé pour entraîner le modèle de Deep Learning.

  • Détecteur de segment BDCN (classification de pixel)L’architecture BDCN (Bi-Directional Cascade Network) est utilisée pour entraîner le modèle. Le détecteur de contours BDCN est utilisé pour la classification des pixels. Cette approche est utile pour améliorer la détection des contours des objets à différentes échelles.
  • Détecteur de changement (classification de pixels)L’architecture Détecteur de changements est utilisée pour entraîner le modèle. Le détecteur de changements est utilisé pour la classification des pixels. Cette approche crée un objet de modèle qui utilise deux images spatio-temporelles afin de créer un raster classé du changement. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles classées.
  • ClimaX (classification des pixels)L’architecture ClimaX est utilisée pour entraîner le modèle. Ce modèle est principalement utilisé pour les analyses météorologiques et climatiques. ClimaX est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles.
  • ConnectNet (classification de pixel)L’architecture ConnectNet est utilisée pour entraîner le modèle. ConnectNet est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite.
  • CycleGAN (conversion d’image)L’architecture CycleGAN est utilisée pour entraîner le modèle. CycleGAN est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Cette approche est unique en ce sens que les images à entraîner ne sont pas nécessairement superposées. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées CycleGAN.
  • DeepLabV3 (classification de pixels)L’architecture DeepLabV3 est utilisée pour entraîner le modèle. DeepLab est utilisé pour la classification des pixels.
  • Deep Sort (suiveur d’objets)L’architecture Deep Sort est utilisée pour entraîner le modèle. Deep Sort est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Imagenet. Tandis que Siam Mask est utile pour suivre un objet, Deep Sort est utile pour entraîner un modèle afin de suivre plusieurs objets.
  • DETReg (détection d’objets)L’architecture DETReg est utilisée pour entraîner le modèle. DETReg est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent Pascal Visual Object Classes. Ce type de modèle utilise le GPU de manière intensive. Il requiert un GPU dédié avec au moins 16 Go de mémoire pour s’exécuter correctement.
  • FasterRCNN (détection d’objets)L’architecture FasterRCNN est utilisée pour entraîner le modèle. FasterRCNN est utilisé pour la détection d’objets.
  • Classificateur d’entités (classification d’objets)L’architecture Classificateur d’entités est utilisée pour entraîner le modèle. Classificateur d’entités est utilisé pour la classification d’objets ou d’images.
  • Détecteur de segment HED (classification de pixel)L’architecture HED (Holistically-Nested Edge Detection) est utilisée pour entraîner le modèle. Le détecteur de contours HED est utilisé pour la classification des pixels. Cette approche est utile pour la détection des contours et limites des objets.
  • Sous-titreur d’images (conversion d’images)L’architecture Sous-titreur d’images est utilisée pour entraîner le modèle. Le sous-titreur d’images est utilisé pour convertir des images en texte. Cette approche crée un modèle qui génère des textes de légende pour une image.
  • MaskRCNN (détection d’objets)L’architecture MaskRCNN est utilisée pour entraîner le modèle. MaskRCNN est utilisé pour la détection d’objets. Cette approche est utilisée pour la segmentation d’instances, qui est la délimitation précise des objets dans une image. Ce type de modèle peut être utilisé pour détecter les emprises des bâtiments. Il utilise le format de métadonnées MaskRCNN pour les données d’entraînement en entrée. Les valeurs de classe pour les données d’entraînement en entrée doivent commencer à 1. Ce type de modèle ne peut être entraîné qu’avec une unité de traitement graphique (GPU) compatible avec CUDA.
  • MaX-DeepLab (segmentation panoptique)L’architecture MaX-DeepLab est utilisée pour entraîner le modèle. MaX-DeepLab est utilisé pour la segmentation panoptique. Cette approche crée un objet de modèle qui génère des images et des entités. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Segmentation panoptique.
  • MMDetection (détection d’objets)L’architecture MMDetection est utilisée pour entraîner le modèle. MMDetection est utilisé pour la détection d’objets. Les formats de métadonnées pris en charge sont les rectangles Pascal Visual Object Class et les rectangles KITTI.
  • MMSegmentation (classification de pixels)L’architecture MMSegmentation est utilisée pour entraîner le modèle. MMSegmentation est utilisé pour la classification des pixels. Le format de métadonnées pris en charge est Tuiles classées.
  • Extracteur de route multitâche (classification de pixel)L’architecture Extracteur de routes multitâche est utilisée pour entraîner le modèle. L’extracteur de routes multitâche est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite.
  • Pix2Pix (conversion d’image)L’architecture Pix2Pix est utilisée pour entraîner le modèle. Pix2Pix est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées.
  • Pix2PixHD (conversion d’images)L’architecture Pix2PixHD est utilisée pour entraîner le modèle. Pix2PixHD est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées.
  • PSETAE (classification de pixels)L’architecture PSETAE (Pixel-Set Encoders and Temporal Self-Attention) est utilisée pour entraîner le modèle pour la classification des séries chronologiques. PSETAE est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles.
  • Pyramid Scene Parsing Network (classification de pixels)L’architecture PSPNET (Pyramid Scene Parsing Network) est utilisée pour entraîner le modèle. PSPNET est utilisé pour la classification des pixels.
  • RetinaNet (détection d’objets)L’architecture RetinaNet est utilisée pour entraîner le modèle. RetinaNet est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes.
  • RTDetrV2 (détection d’objets)L’architecture améliorée Real-Time DEtection TRansformer (RTDetrV2) est utilisée pour entraîner le modèle. RTDetrV2 repose que le détecteur temps réel précédent, RT-DETR. RTDetrV2 est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent les formats de métadonnées Pascal Visual Object Classes et les rectangles KITTI.
  • SAMLoRA (classification de pixels)Segment Anything Model (SAM) avec Low Rank Adaption (LoRA) est utilisé pour entraîner le modèle. Ce type de modèle utilise SAM comme modèle de base et s’adapte à une tâche spécifique avec des exigences de calcul relativement faibles et un jeu de données plus petit.
  • Siam Mask (suiveur d’objets)L’architecture Siam Mask est utilisée pour entraîner le modèle. Siam Mask est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées MaskRCNN.
  • Single Shot Detector (détection d’objets)L’architecture SSD (Single Shot Detector) est utilisée pour entraîner le modèle. SSD est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes.
  • Super résolution (conversion d’image)L’architecture Super-resolution est utilisée pour entraîner le modèle. Super-resolution est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui augmente la résolution et améliore la qualité des images. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées.
  • U-Net (classification de pixels)L’architecture U-Net est utilisée pour entraîner le modèle. U-Net est utilisé pour la classification des pixels.
  • YOLOv3 (détection d’objets)L’architecture YOLOv3 est utilisée pour entraîner le modèle. YOLOv3 est utilisé pour la détection d’objets.
String
Batch Size (Taille de lot)
(Facultatif)

Nombre d’échantillons d’entraînement à traiter pour l’entraînement simultanément.

L’augmentation de la taille du lot peut améliorer les performances de l’outil. Cependant, plus la taille augmente, plus la mémoire utilisée est importante.

Si la mémoire disponible du GPU est insuffisante pour la taille de lot définie, l’outil tente d’estimer et d’utiliser une taille de lot optimale. Si une erreur se produit en raison d’une mémoire insuffisante, utillisez une taille de lot plus petite.

Long
Arguments du modèle
(Facultatif)

Les informations du paramètre Model Type (Type de modèle) sont utilisées pour renseigner ce paramètre. Ces arguments varient en fonction de l’architecture de modèle. Les arguments pris en charge pour les modèles entraînés dans ArcGIS sont décrits ci-dessous. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil.

Pour plus d’informations sur les arguments disponibles pour chaque type de modèle, reportez-vous à la rubrique Arguments de Deep learning.

Value Table
Learning Rate (Vitesse d’apprentissage)
(Facultatif)

Vitesse à laquelle les informations existantes seront remplacées par les nouvelles informations obtenues tout au long du processus d’entraînement. Si aucune valeur n’est spécifiée, la vitesse d’apprentissage optimale sera déduite de la courbe d’entraînement au cours du processus d’entraînement.

Double
Modèle de backbone
(Facultatif)

Spécifie le réseau neuronal préconfiguré qui sera utilisé comme architecture pour l’entraînement du nouveau modèle. Cette méthode est appelée apprentissage par transfert.

En outre, les réseaux neuronaux convolutifs pris en charge des modèles PyTorch Image Models (timm) peuvent être spécifiés en indiquant timm comme préfixe, par exemple timm:resnet31, timm:inception_v4, timm:efficientnet_b3, etc.

  • 1,40625 degréCe backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 1,40625 degré par 1,40625 degré. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage avec une résolution plus élevée permet de générer des sorties plus précises, mais nécessite davantage de puissance de calcul.
  • 5,625 degrésCe backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 5,625 degrés par 5,625 degrés. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage est considéré comme ayant une faible résolution, mais il nécessite moins de puissance de calcul.
  • DenseNet-121Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 121 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • DenseNet-161Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 161 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • DenseNet-169Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 169 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • DenseNet-201Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 201 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • MobileNet version 2Le modèle préconfiguré est entraîné avec la base de données Imagenet, composé de 54 couches et dédié au calcul en périphérie de réseau, car il utilise moins de mémoire.
  • ResNet-18Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 18 couches.
  • ResNet-34Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 34 couches. Il s’agit de l’option par défaut.
  • ResNet-50Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 50 couches.
  • ResNet-101Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 101 couches.
  • ResNet-152Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 152 couches.
  • VGG-11Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 11 couches.
  • VGG-11 avec normalisation par lotsLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 11 couches.
  • VGG-13Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 13 couches.
  • VGG-13 avec normalisation par lotsLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 13 couches.
  • VGG-16Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 16 couches.
  • VGG-16 avec normalisation par lotsLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 16 couches.
  • VGG-19Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 19 couches.
  • VGG-19 avec normalisation par lotsLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 19 couches.
  • DarkNet-53Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 53 couches.
  • Reid_v1Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets.
  • Reid_v2Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets.
  • ResNeXt-50Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il s’agit d’un réseau neuronal homogène, qui réduit le nombre d’hyperparamètres requis par le réseau résiduel conventionnel.
  • Wide ResNet-50Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il possède la même architecture que ResNET, mas avec davantage de canaux.
  • SR3Le modèle préconfiguré utilise le modèle SR3 (super-résolution par affinement répété). SR3 adapte les modèles probabilistes de diffusion de débruitage à la génération d’images conditionnelles et effectue la super-résolution grâce à un processus de débruitage stochastique. Pour plus d’informations, reportez-vous à l’article Image Super-Resolution via Iterative Refinement sur le site arXiv.
  • SR3 U-ViTCe modèle de backbone désigne une implémentation spécifique de l’architecture Vision Transformer (ViT) conçue pour des modèles de diffusion utilisés lors de la génération des images et les tâches SR3.
  • ViT-BLe modèle préconfiguré SAM (Segment Anything Model) est utilisé avec une taille de réseau neuronal de base. Il s’agit de la taille la plus petite. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv.
  • ViT-LLe modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de grande taille. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv.
  • ViT-HLe modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de très grande taille. Il s’agit de la taille la plus grande. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv.
String
Modèle pré-entraîné
(Facultatif)

Modèle pré-entraîné qui sera utilisé pour affiner le nouveau modèle. L’entrée est un fichier de définition de modèle Esri (.emd) ou un fichier de paquetage Deep Learning (.dlpk).

Un modèle pré-entraîné avec des classes similaires peut être affiné en vue de son adaptation au nouveau modèle. Le modèle pré-entraîné doit avoir été entraîné avec le même type de modèle et le même modèle d’architecture que ceux qui seront utilisés pour entraîner le nouveau modèle. L’ajustement n’est possible que pour les modèles entraînés à l’aide d’ArcGIS.

File
Pourcentage de validation
(Facultatif)

Pourcentage d’échantillons d’entraînement qui sera utilisé pour valider le modèle. La valeur par défaut est 10.

Double
Stop when model stops improving (Arrêter lorsque le modèle ne s’améliore plus)
(Facultatif)

Indique si l’arrêt prématuré sera mis en œuvre.

  • Activé : l’arrêt prématuré est mis en œuvre et l’entraînement du modèle s’arrête lorsque le modèle ne s’améliore plus quelle que soit la valeur spécifiée pour le paramètre Max Epochs (Nombre maximal d’époques). Il s’agit de l’option par défaut.
  • Désactivé : l’arrêt prématuré n’est pas mis en œuvre et l’entraînement du modèle continue jusqu’à ce que la valeur du paramètre Max Epochs (Nombre maximal d’époques) soit atteinte.
Boolean
Figer le modèle
(Facultatif)

Indique si les couches de backbone dans le modèle pré-entraîné sont figées pour que la conception originale des pondérations et des biais soit conservée.

  • Activé : les couches de backbone sont figées et les pondérations et biais prédéfinis ne sont pas modifiés dans le paramètre Backbone Model (Modèle de backbone). Il s’agit de l’option par défaut.
  • Désactivé : les couches de backbone ne sont pas figées et les pondérations et biais du paramètre Backbone Model (Modèle de backbone) peuvent être modifiés pour s’adapter aux échantillons d’entraînement. Le traitement est plus long, mais produit généralement de meilleurs résultats.

Boolean
Augmentation des données
(Facultatif)

Spécifie le type d’augmentation des données utilisé.

L’augmentation des données est une technique permettant d’augmenter artificiellement la taille du jeu d’entraînement en créant des copies modifiées d’un jeu de données à l’aide des données existantes.

  • Par défautLes méthodes et les valeurs d’augmentation des données par défaut sont utilisées.Les méthodes d’augmentation des données sont crop, dihedral_affine, brightness, contrast et zoom. Ces valeurs par défaut fonctionnent généralement bien pour l’imagerie satellite.
  • AucunL’augmentation des données n’est pas utilisée.
  • PersonnaliséeLes valeurs d’augmentation des données sont spécifiées à l’aide du paramètre Augmentation Parameters (Paramètres d’augmentation). Cela permet de contrôler directement les transformations crop, rotate, brightness, contrast et zoom.
  • FichierLes transformations fastai pour l’augmentation de données des jeux de données d’entraînement et de validation sont spécifiées à l’aide du fichier transforms.json, situé dans le même dossier que les données d’entraînement.Pour plus d’informations sur les diverses transformations, voir la page consacrée aux transformations sur le site Web fastai.
String
Paramètres d’augmentation
(Facultatif)

Spécifie la valeur de chaque transformation dans le paramètre d’augmentation.

  • rotate : l’image subit une rotation aléatoire (en degrés) selon une probabilité (p). Si le nombre de degrés est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme. La valeur par défaut est 30.0; 0.5.
  • brightness : la luminosité de l’image est ajustée de manière aléatoire selon la valeur de changement, avec une probabilité (p). Une valeur de changement de 0 rend l’image plus sombre, alors que la valeur 1 la rend plus claire. Une valeur de changement de 0,5 ne modifie pas la luminosité. Si la valeur de changement est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.4,0.6); 1.0.
  • contrast : le contraste de l’image est ajusté de manière aléatoire selon la valeur d’échelle, avec une probabilité (p). Une valeur d’échelle de 0 transforme l’image en niveaux de gris et une échelle supérieure à 1 défini un contraste élevé. Une valeur d’échelle de 1 n’ajuste pas le contraste. Si la valeur d’échelle est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.75, 1.5); 1.0.
  • zoom : un zoom avant aléatoire est appliqué à l’image selon la valeur d’échelle. La valeur de zoom a le format scale(a,b); p. La valeur par défaut est (1.0, 1.2); 1.0 où p représente la probabilité. Un zoom avant n’est appliqué à l’image que si la valeur d’échelle est supérieure à 1. Si la valeur d’échelle est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme.
  • crop : l’image est rognée de manière aléatoire. La valeur de rognage a le format size;p;row_pct;col_pctp représente la probabilité. La position est donnée par (col_pct, row_pct),, où col_pct et row_pct sont normalisés entre 0 et 1. Si col_pct ou row_pct est une plage (a,b), une valeur comprise entre a et b est attribuée de manière uniforme. La valeur par défaut est chip_size;1.0; (0, 1); (0, 1) où 224 représente la taille de fragment par défaut.

Value Table
Taille de fragment
(Facultatif)

Taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée.

La taille de fragment par défaut est identique à la taille de tuile des données d’entraînement. Si la taille de tuile x et la taille de tuile y sont différentes, la valeur la plus petite fait office de taille de fragment par défaut. La taille de fragment doit être inférieure à la taille de tuile x ou y la plus petite parmi toutes les images contenues dans les dossiers en entrée.

Long
Redimensionner à
(Facultatif)

Redimensionne les fragments d’image. Une fois un fragment redimensionné, des blocs de pixels sont rognés à la taille de fragment et utilisés pour l’entraînement. Ce paramètre s’applique à la détection d’objets (PASCAL VOC), à la classification d’objets (tuiles étiquetées) et aux données de super-résolution uniquement.

La valeur de redimensionnement correspond généralement à la moitié de la taille de fragment. Si la valeur de redimensionnement est inférieure à la taille de fragment, elle est utilisée pour créer les blocs de pixels pour l’entraînement.

String
Structure d’initialisation de la pondération
(Facultatif)

Spécifie la structure dans laquelle les pondérations seront initialisées pour la couche.

Pour qu’un modèle puisse être entraîné avec des données multispectrales, il doit contenir les divers types de canaux disponibles. Pour que cette condition soit remplie, il faut réinitialiser la première couche du modèle.

Ce paramètre s’applique uniquement lorsque des images multispectrales sont utilisées dans le modèle.

  • AléatoireDes pondérations aléatoires sont initialisées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB. Il s’agit de l’option par défaut.
  • Canal rougeLes pondérations correspondant au canal rouge de la couche du modèle pré-entraîné sont clonées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB.
  • Tout aléatoireDes pondérations aléatoires sont initialisées pour les canaux RVB, ainsi que pour les canaux non RVB. Cette option s’applique uniquement à l’imagerie multispectrale.
String
Métrique surveillée
(Facultatif)

Indique quelle métrique surveiller au point de contrôle et en cas d’arrêt prématuré.

  • Perte de validationLa perte de validation est surveillée. Lorsque la perte de validation ne change plus de manière significative, le modèle s’arrête. Il s’agit de l’option par défaut.
  • Précision moyenneLa moyenne pondérée de précision à chaque seuil est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • PrécisionLe ratio entre le nombre de prévisions correctes et le nombre total de prévisions est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • Score F1La combinaison des scores de précision et de rappel d’un modèle est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • MIoULa moyenne entre l’intersection sur union (IoU) des objets segmentés pour toutes les images du jeu de données de test est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • SegmenterLes performances du modèle sont surveillées à l’aide de la métrique Dice. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur peut être comprise entre 0 et 1. La valeur 1 correspond à une correspondance parfaite des pixels entre les données de validation et les données d’entraînement.
  • PrécisionLa précision, qui mesure l’exactitude du modèle lors de la classification d’un échantillon comme positif, est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.La précision représente le ratio entre le nombre d’échantillons positifs classés correctement et le nombre total d’échantillons classés (correctement ou non).
  • RappelLe rappel, qui mesure la capacité du modèle à détecter les échantillons positifs, est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Plus le rappel est élevé, plus le nombre d’échantillons positifs détectés est élevé. La valeur de rappel représente le ratio entre le nombre d’échantillons positifs classés correctement comme positifs et le nombre total d’échantillons positifs.
  • Score bleu du corpusLe score bleu du corpus est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Ce score est utilisé pour calculer la précision de plusieurs phrases, par exemple un paragraphe ou un document.
  • Score F-bêta (plusieurs étiquettes)La moyenne harmonique pondérée de la précision et du rappel est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur est souvent appelée score F-bêta.
String
Enable Tensorboard (Activer Tensorboard)
(Facultatif)

Spécifie si les métriques Tensorboard sont activées pendant l’entraînement de l’outil. Vous pouvez accéder à Tensorboard à l’aide de l’URL indiquée dans les messages de l’outil.

Ce paramètre est uniquement pris en charge pour les modèles suivants : CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution et U-Net Classifier.

  • Désactivé : les métriques Tensorboard ne sont pas activées. Il s’agit de l’option par défaut.
  • Activé : les métriques Tensorboard sont activées.

Boolean

Sortie obtenue

ÉtiquetteExplicationType de données
Modèle en sortie

Fichier de modèle entraîné en sortie.

File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor}, {tensorboard})
NomExplicationType de données
in_folder
[in_folder,...]

Dossiers contenant les fragments d’images, les étiquettes et les statistiques nécessaires à l’entraînement d’un modèle. Il s’agit de la sortie de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour le Deep Learning).

Plusieurs dossiers en entrée sont pris en charge lorsque les conditions suivantes sont réunies :

  • Le type de format de métadonnées doit être Tuiles classées, Tuiles étiquetées, Tuiles multi-étiquetées, Pascal Visual Object Classes ou Masques RCNN.
  • Toutes les données d’entraînement doivent avoir le même format de métadonnées.
  • Toutes les données d’entraînement doivent avoir le même nombre de canaux.

Folder
out_folder

Emplacement du dossier en sortie où sera stocké le modèle entraîné.

Folder
max_epochs
(Facultatif)

Nombre maximal d’époques pour lequel le modèle sera entraîné. Si la valeur est 1, le jeu de données va et vient une fois sur le réseau neuronal. La valeur par défaut est 20.

Long
model_type
(Facultatif)

Spécifie le type de modèle qui sera utilisé pour entraîner le modèle de Deep Learning.

  • BDCN_EDGEDETECTORL’architecture BDCN (Bi-Directional Cascade Network) est utilisée pour entraîner le modèle. Le détecteur de contours BDCN est utilisé pour la classification des pixels. Cette approche est utile pour améliorer la détection des contours des objets à différentes échelles.
  • CHANGEDETECTORL’architecture Détecteur de changements est utilisée pour entraîner le modèle. Le détecteur de changements est utilisé pour la classification des pixels. Cette approche crée un objet de modèle qui utilise deux images spatio-temporelles afin de créer un raster classé du changement. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles classées.
  • CLIMAXL’architecture ClimaX est utilisée pour entraîner le modèle. Ce modèle est principalement utilisé pour les analyses météorologiques et climatiques. ClimaX est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles.
  • CONNECTNETL’architecture ConnectNet est utilisée pour entraîner le modèle. ConnectNet est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite.
  • CYCLEGANL’architecture CycleGAN est utilisée pour entraîner le modèle. CycleGAN est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Cette approche est unique en ce sens que les images à entraîner ne sont pas nécessairement superposées. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées CycleGAN.
  • DEEPLABL’architecture DeepLabV3 est utilisée pour entraîner le modèle. DeepLab est utilisé pour la classification des pixels.
  • DEEPSORTL’architecture Deep Sort est utilisée pour entraîner le modèle. Deep Sort est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Imagenet. Tandis que Siam Mask est utile pour suivre un objet, Deep Sort est utile pour entraîner un modèle afin de suivre plusieurs objets.
  • DETREGL’architecture DETReg est utilisée pour entraîner le modèle. DETReg est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent Pascal Visual Object Classes. Ce type de modèle utilise le GPU de manière intensive. Il requiert un GPU dédié avec au moins 16 Go de mémoire pour s’exécuter correctement.
  • FASTERRCNNL’architecture FasterRCNN est utilisée pour entraîner le modèle. FasterRCNN est utilisé pour la détection d’objets.
  • FEATURE_CLASSIFIERL’architecture Classificateur d’entités est utilisée pour entraîner le modèle. Classificateur d’entités est utilisé pour la classification d’objets ou d’images.
  • HED_EDGEDETECTORL’architecture HED (Holistically-Nested Edge Detection) est utilisée pour entraîner le modèle. Le détecteur de contours HED est utilisé pour la classification des pixels. Cette approche est utile pour la détection des contours et limites des objets.
  • IMAGECAPTIONERL’architecture Sous-titreur d’images est utilisée pour entraîner le modèle. Le sous-titreur d’images est utilisé pour convertir des images en texte. Cette approche crée un modèle qui génère des textes de légende pour une image.
  • MASKRCNNL’architecture MaskRCNN est utilisée pour entraîner le modèle. MaskRCNN est utilisé pour la détection d’objets. Cette approche est utilisée pour la segmentation d’instances, qui est la délimitation précise des objets dans une image. Ce type de modèle peut être utilisé pour détecter les emprises des bâtiments. Il utilise le format de métadonnées MaskRCNN pour les données d’entraînement en entrée. Les valeurs de classe pour les données d’entraînement en entrée doivent commencer à 1. Ce type de modèle ne peut être entraîné qu’avec une unité de traitement graphique (GPU) compatible avec CUDA.
  • MAXDEEPLABL’architecture MaX-DeepLab est utilisée pour entraîner le modèle. MaX-DeepLab est utilisé pour la segmentation panoptique. Cette approche crée un objet de modèle qui génère des images et des entités. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Segmentation panoptique.
  • MMDETECTIONL’architecture MMDetection est utilisée pour entraîner le modèle. MMDetection est utilisé pour la détection d’objets. Les formats de métadonnées pris en charge sont les rectangles Pascal Visual Object Class et les rectangles KITTI.
  • MMSEGMENTATIONL’architecture MMSegmentation est utilisée pour entraîner le modèle. MMSegmentation est utilisé pour la classification des pixels. Le format de métadonnées pris en charge est Tuiles classées.
  • MULTITASK_ROADEXTRACTORL’architecture Extracteur de routes multitâche est utilisée pour entraîner le modèle. L’extracteur de routes multitâche est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite.
  • PIX2PIXL’architecture Pix2Pix est utilisée pour entraîner le modèle. Pix2Pix est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées.
  • PIX2PIXHDL’architecture Pix2PixHD est utilisée pour entraîner le modèle. Pix2PixHD est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées.
  • PSETAEL’architecture PSETAE (Pixel-Set Encoders and Temporal Self-Attention) est utilisée pour entraîner le modèle pour la classification des séries chronologiques. PSETAE est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles.
  • PSPNETL’architecture PSPNET (Pyramid Scene Parsing Network) est utilisée pour entraîner le modèle. PSPNET est utilisé pour la classification des pixels.
  • RETINANETL’architecture RetinaNet est utilisée pour entraîner le modèle. RetinaNet est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes.
  • RTDETRV2L’architecture améliorée Real-Time DEtection TRansformer (RTDetrV2) est utilisée pour entraîner le modèle. RTDetrV2 repose que le détecteur temps réel précédent, RT-DETR. RTDetrV2 est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent les formats de métadonnées Pascal Visual Object Classes et les rectangles KITTI.
  • SAMLORASegment Anything Model (SAM) avec Low Rank Adaption (LoRA) est utilisé pour entraîner le modèle. Ce type de modèle utilise SAM comme modèle de base et s’adapte à une tâche spécifique avec des exigences de calcul relativement faibles et un jeu de données plus petit.
  • SIAMMASKL’architecture Siam Mask est utilisée pour entraîner le modèle. Siam Mask est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées MaskRCNN.
  • SSDL’architecture SSD (Single Shot Detector) est utilisée pour entraîner le modèle. SSD est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes.
  • SUPERRESOLUTIONL’architecture Super-resolution est utilisée pour entraîner le modèle. Super-resolution est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui augmente la résolution et améliore la qualité des images. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées.
  • UNETL’architecture U-Net est utilisée pour entraîner le modèle. U-Net est utilisé pour la classification des pixels.
  • YOLOV3L’architecture YOLOv3 est utilisée pour entraîner le modèle. YOLOv3 est utilisé pour la détection d’objets.
String
batch_size
(Facultatif)

Nombre d’échantillons d’entraînement à traiter pour l’entraînement simultanément.

L’augmentation de la taille du lot peut améliorer les performances de l’outil. Cependant, plus la taille augmente, plus la mémoire utilisée est importante.

Si la mémoire disponible du GPU est insuffisante pour la taille de lot définie, l’outil tente d’estimer et d’utiliser une taille de lot optimale. Si une erreur se produit en raison d’une mémoire insuffisante, utillisez une taille de lot plus petite.

Long
arguments
[arguments,...]
(Facultatif)

Les informations du paramètre model_type sont utilisées pour définir les valeurs par défaut de ce paramètre. Ces arguments varient en fonction de l’architecture de modèle. Les arguments pris en charge pour les modèles entraînés dans ArcGIS sont décrits ci-dessous. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil.

Pour plus d’informations sur les arguments disponibles pour chaque type de modèle, reportez-vous à la rubrique Arguments de Deep learning.

Value Table
learning_rate
(Facultatif)

Vitesse à laquelle les informations existantes seront remplacées par les nouvelles informations obtenues tout au long du processus d’entraînement. Si aucune valeur n’est spécifiée, la vitesse d’apprentissage optimale sera déduite de la courbe d’entraînement au cours du processus d’entraînement.

Double
backbone_model
(Facultatif)

Spécifie le réseau neuronal préconfiguré qui sera utilisé comme architecture pour l’entraînement du nouveau modèle. Cette méthode est appelée apprentissage par transfert.

  • 1.40625degCe backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 1,40625 degré par 1,40625 degré. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage avec une résolution plus élevée permet de générer des sorties plus précises, mais nécessite davantage de puissance de calcul.
  • 5.625degCe backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 5,625 degrés par 5,625 degrés. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage est considéré comme ayant une faible résolution, mais il nécessite moins de puissance de calcul.
  • DENSENET121Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 121 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • DENSENET161Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 161 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • DENSENET169Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 169 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • DENSENET201Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 201 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant.
  • MOBILENET_V2Le modèle préconfiguré est entraîné avec la base de données Imagenet, composé de 54 couches et dédié au calcul en périphérie de réseau, car il utilise moins de mémoire.
  • RESNET18Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 18 couches.
  • RESNET34Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 34 couches. Il s’agit de l’option par défaut.
  • RESNET50Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 50 couches.
  • RESNET101Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 101 couches.
  • RESNET152Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 152 couches.
  • VGG11Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 11 couches.
  • VGG11_BNLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 11 couches.
  • VGG13Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 13 couches.
  • VGG13_BNLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 13 couches.
  • VGG16Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 16 couches.
  • VGG16_BNLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 16 couches.
  • VGG19Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 19 couches.
  • VGG19_BNLe modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 19 couches.
  • DARKNET53Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 53 couches.
  • REID_V1Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets.
  • REID_V2Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets.
  • RESNEXT50Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il s’agit d’un réseau neuronal homogène, qui réduit le nombre d’hyperparamètres requis par le réseau résiduel conventionnel.
  • WIDE_RESNET50Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il possède la même architecture que ResNET, mas avec davantage de canaux.
  • SR3Le modèle préconfiguré utilise le modèle SR3 (super-résolution par affinement répété). SR3 adapte les modèles probabilistes de diffusion de débruitage à la génération d’images conditionnelles et effectue la super-résolution grâce à un processus de débruitage stochastique. Pour plus d’informations, reportez-vous à l’article Image Super-Resolution via Iterative Refinement sur le site arXiv.
  • SR3_UVITCe modèle de backbone désigne une implémentation spécifique de l’architecture Vision Transformer (ViT) conçue pour des modèles de diffusion utilisés lors de la génération des images et les tâches SR3.
  • VIT_BLe modèle préconfiguré SAM (Segment Anything Model) est utilisé avec une taille de réseau neuronal de base. Il s’agit de la taille la plus petite. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv.
  • VIT_LLe modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de grande taille. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv.
  • VIT_HLe modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de très grande taille. Il s’agit de la taille la plus grande. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv.

En outre, les réseaux neuronaux convolutifs pris en charge des modèles PyTorch Image Models (timm) peuvent être spécifiés en indiquant timm comme préfixe, par exemple timm:resnet31, timm:inception_v4, timm:efficientnet_b3, etc.

String
pretrained_model
(Facultatif)

Modèle pré-entraîné qui sera utilisé pour affiner le nouveau modèle. L’entrée est un fichier de définition de modèle Esri (.emd) ou un fichier de paquetage Deep Learning (.dlpk).

Un modèle pré-entraîné avec des classes similaires peut être affiné en vue de son adaptation au nouveau modèle. Le modèle pré-entraîné doit avoir été entraîné avec le même type de modèle et le même modèle d’architecture que ceux qui seront utilisés pour entraîner le nouveau modèle. L’ajustement n’est possible que pour les modèles entraînés à l’aide d’ArcGIS.

File
validation_percentage
(Facultatif)

Pourcentage d’échantillons d’entraînement qui sera utilisé pour valider le modèle. La valeur par défaut est 10.

Double
stop_training
(Facultatif)

Indique si l’arrêt prématuré sera mis en œuvre.

  • STOP_TRAININGL’arrêt prématuré est mis en œuvre et l’entraînement du modèle s’arrête lorsque le modèle ne s’améliore plus quelle que soit la valeur spécifiée pour le paramètre max_epochs. Il s’agit de l’option par défaut.
  • CONTINUE_TRAININGL’arrêt prématuré n’est pas mis en œuvre et l’entraînement du modèle continue jusqu’à ce que la valeur du paramètre max_epochs soit atteinte.
Boolean
freeze
(Facultatif)

Indique si les couches de backbone dans le modèle pré-entraîné sont figées pour que la conception originale des pondérations et des biais soit conservée.

  • FREEZE_MODELLes couches de backbone sont figées et les pondérations et biais prédéfinis ne sont pas modifiés dans le paramètre backbone_model. Il s’agit de l’option par défaut.
  • UNFREEZE_MODELLes couches de backbone ne sont pas figées et les pondérations et biais du paramètre backbone_model peuvent être modifiés pour s’adapter aux échantillons d’entraînement. Le traitement est plus long, mais produit généralement de meilleurs résultats.
Boolean
augmentation
(Facultatif)

Spécifie le type d’augmentation des données utilisé.

L’augmentation des données est une technique permettant d’augmenter artificiellement la taille du jeu d’entraînement en créant des copies modifiées d’un jeu de données à l’aide des données existantes.

  • DEFAULTLes méthodes et les valeurs d’augmentation des données par défaut sont utilisées.Les méthodes d’augmentation des données sont crop, dihedral_affine, brightness, contrast et zoom. Ces valeurs par défaut fonctionnent généralement bien pour l’imagerie satellite.
  • NONEL’augmentation des données n’est pas utilisée.
  • CUSTOMLes valeurs d’augmentation des données sont spécifiées à l’aide du paramètre augmentation_parameters. Cela permet de contrôler directement les transformations crop, rotate, brightness, contrast et zoom.
  • FILELes transformations fastai pour l’augmentation de données des jeux de données d’entraînement et de validation sont spécifiées à l’aide du fichier transforms.json, situé dans le même dossier que les données d’entraînement.Pour plus d’informations sur les diverses transformations, voir la page consacrée aux transformations sur le site Web fastai.
String
augmentation_parameters
[augmentation_parameters,...]
(Facultatif)

Spécifie la valeur de chaque transformation dans le paramètre d’augmentation.

  • rotate : l’image subit une rotation aléatoire (en degrés) selon une probabilité (p). Si le nombre de degrés est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme. La valeur par défaut est 30.0; 0.5.
  • brightness : la luminosité de l’image est ajustée de manière aléatoire selon la valeur de changement, avec une probabilité (p). Une valeur de changement de 0 rend l’image plus sombre, alors que la valeur 1 la rend plus claire. Une valeur de changement de 0,5 ne modifie pas la luminosité. Si la valeur de changement est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.4,0.6); 1.0.
  • contrast : le contraste de l’image est ajusté de manière aléatoire selon la valeur d’échelle, avec une probabilité (p). Une valeur d’échelle de 0 transforme l’image en niveaux de gris et une échelle supérieure à 1 défini un contraste élevé. Une valeur d’échelle de 1 n’ajuste pas le contraste. Si la valeur d’échelle est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.75, 1.5); 1.0.
  • zoom : un zoom avant aléatoire est appliqué à l’image selon la valeur d’échelle. La valeur de zoom a le format scale(a,b); p. La valeur par défaut est (1.0, 1.2); 1.0 où p représente la probabilité. Un zoom avant n’est appliqué à l’image que si la valeur d’échelle est supérieure à 1. Si la valeur d’échelle est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme.
  • crop : l’image est rognée de manière aléatoire. La valeur de rognage a le format size;p;row_pct;col_pctp représente la probabilité. La position est donnée par (col_pct, row_pct),, où col_pct et row_pct sont normalisés entre 0 et 1. Si col_pct ou row_pct est une plage (a,b), une valeur comprise entre a et b est attribuée de manière uniforme. La valeur par défaut est chip_size;1.0; (0, 1); (0, 1) où 224 représente la taille de fragment par défaut.

Value Table
chip_size
(Facultatif)

Taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée.

La taille de fragment par défaut est identique à la taille de tuile des données d’entraînement. Si la taille de tuile x et la taille de tuile y sont différentes, la valeur la plus petite fait office de taille de fragment par défaut. La taille de fragment doit être inférieure à la taille de tuile x ou y la plus petite parmi toutes les images contenues dans les dossiers en entrée.

Long
resize_to
(Facultatif)

Redimensionne les fragments d’image. Une fois un fragment redimensionné, des blocs de pixels sont rognés à la taille de fragment et utilisés pour l’entraînement. Ce paramètre s’applique à la détection d’objets (PASCAL VOC), à la classification d’objets (tuiles étiquetées) et aux données de super-résolution uniquement.

La valeur de redimensionnement correspond généralement à la moitié de la taille de fragment. Si la valeur de redimensionnement est inférieure à la taille de fragment, elle est utilisée pour créer les blocs de pixels pour l’entraînement.

String
weight_init_scheme
(Facultatif)

Spécifie la structure dans laquelle les pondérations seront initialisées pour la couche.

Pour qu’un modèle puisse être entraîné avec des données multispectrales, il doit contenir les divers types de canaux disponibles. Pour que cette condition soit remplie, il faut réinitialiser la première couche du modèle.

  • RANDOMDes pondérations aléatoires sont initialisées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB. Il s’agit de l’option par défaut.
  • RED_BANDLes pondérations correspondant au canal rouge de la couche du modèle pré-entraîné sont clonées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB.
  • ALL_RANDOMDes pondérations aléatoires sont initialisées pour les canaux RVB, ainsi que pour les canaux non RVB. Cette option s’applique uniquement à l’imagerie multispectrale.

Ce paramètre s’applique uniquement lorsque des images multispectrales sont utilisées dans le modèle.

String
monitor
(Facultatif)

Indique quelle métrique surveiller au point de contrôle et en cas d’arrêt prématuré.

  • VALID_LOSSLa perte de validation est surveillée. Lorsque la perte de validation ne change plus de manière significative, le modèle s’arrête. Il s’agit de l’option par défaut.
  • AVERAGE_PRECISIONLa moyenne pondérée de précision à chaque seuil est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • ACCURACYLe ratio entre le nombre de prévisions correctes et le nombre total de prévisions est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • F1_SCORELa combinaison des scores de précision et de rappel d’un modèle est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • MIOULa moyenne entre l’intersection sur union (IoU) des objets segmentés pour toutes les images du jeu de données de test est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.
  • DICELes performances du modèle sont surveillées à l’aide de la métrique Dice. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur peut être comprise entre 0 et 1. La valeur 1 correspond à une correspondance parfaite des pixels entre les données de validation et les données d’entraînement.
  • PRECISIONLa précision, qui mesure l’exactitude du modèle lors de la classification d’un échantillon comme positif, est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.La précision représente le ratio entre le nombre d’échantillons positifs classés correctement et le nombre total d’échantillons classés (correctement ou non).
  • RECALLLe rappel, qui mesure la capacité du modèle à détecter les échantillons positifs, est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Plus le rappel est élevé, plus le nombre d’échantillons positifs détectés est élevé. La valeur de rappel représente le ratio entre le nombre d’échantillons positifs classés correctement comme positifs et le nombre total d’échantillons positifs.
  • CORPUS_BLEULe score bleu du corpus est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Ce score est utilisé pour calculer la précision de plusieurs phrases, par exemple un paragraphe ou un document.
  • MULTI_LABEL_FBETALa moyenne harmonique pondérée de la précision et du rappel est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur est souvent appelée score F-bêta.
String
tensorboard
(Facultatif)

Spécifie si les métriques Tensorboard sont activées pendant l’entraînement de l’outil. Vous pouvez accéder à Tensorboard à l’aide de l’URL indiquée dans les messages de l’outil.

Ce paramètre est uniquement pris en charge pour les modèles suivants : CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution et U-Net Classifier.

  • DISABLE_TENSORBOARDLes métriques Tensorboard ne sont pas activées. Il s’agit de l’option par défaut.
  • ENABLE_TENSORBOARDLes métriques Tensorboard sont activées.
Boolean

Sortie obtenue

NomExplicationType de données
out_model_file

Fichier de modèle entraîné en sortie.

File

Exemple de code

Exemple 1 - TrainDeepLearningModel (fenêtre Python)

Cet exemple a utilisé l’apprentissage par transfert à l’aide d’un modèle pré-entraîné.

import arcpy
arcpy.env.workspace = r"C:\Data\DL.gdb"

arcpy.ia.TrainDeepLearningModel("Labeled_RoadImageChips",
    "TransferLearning_UnsurfacedRoads", 500, "", 2, None, None, "", 
    r"C:\data\PreTrainedModels\RoadsExtraction_NorthAmerica.dlpk", 
    10, "STOP_TRAINING", "UNFREEZE_MODEL", "DEFAULT", None, 224, "", 
    "", "VALID_LOSS")
Exemple 2 - TrainDeepLearningModel (script autonome)

Cet exemple entraîne un modèle de détection d’objets à l’aide de l’approche SSD.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

Rubriques connexes