Entraîner le modèle d’apprentissage profond (Image Analyst)—ArcGIS AllSource

Disponible avec une licence Image Analyst.

Synthèse

Entraîne un modèle d’apprentissage profond à l’aide de la sortie de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour l’apprentissage profond).

Utilisation

Cet outil entraîne un modèle de Deep Learning à l’aide de structures de Deep Learning.
Pour configurer votre machine afin d’utiliser des structures d’apprentissage profond dans ArcGIS AllSource, consultez la rubrique Installer les structures d’apprentissage profond pour ArcGIS.
Si vous entraînez des modèles dans un environnement déconnecté, voir Composants supplémentaire à installer dans les environnements déconnectés pour plus d’informations.
Cet outil peut également être utilisé pour affiner un modèle entraîné existant. Par exemple, un modèle existant entraîné pour les voitures peut être affiné pour entraîner un modèle identifiant les camions.
Pour exécuter cet outil avec un processeur graphique, définissez l’option Processor Type (Type de processeur) sur GPU. Si vous disposez de plusieurs GPU, indiquez l’environnement GPU ID (ID de GPU) à la place.
Par défaut, l’outil utilise l’ensemble des GPU disponibles lorsque le paramètre Model Type (Type de modèle) a l’une des valeurs suivantes :
- ConnectNet
- Classificateur d’entités
- MaskRCNN
- Extracteur de routes multitâche
- Single Shot Detector
- U-Net
Pour utiliser un GPU spécifique, indiquez son ID de GPU.
Les données d’entraînement en entrée pour cet outil doivent inclure les dossiers d’images et d’étiquettes générés à partir de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour le Deep Learning).
Il existe une exception lorsque les données d’entraînement utilisent les formats de métadonnées Pascal Visual Object Classes ou les rectangles KITTI. Pour ces deux formats, les données d’entraînement peuvent provenir d’autres sources, mais les fragments d’image doivent se trouver dans le dossier image et les étiquettes correspondantes dans le dossier labels.

Spécifiez des transformations fastai pour l’augmentation de données des jeux de données d’entraînement et de validation à l’aide du fichier transforms.json, situé dans le même dossier que les données d’entraînement. Vous trouverez ci-dessous un exemple de fichier transforms.json :

Paramètres d’augmentation personnalisés


{
    "Training": {
        "rotate": {
            "degrees": 30,
            "p": 0.5
        },
        "crop": {
            "size": 224,
            "p": 1,
            "row_pct": "0, 1",
            "col_pct": "0, 1"
        },
        "brightness": {
            "change": "0.4, 0.6"
        },
        "contrast": {
            "scale": "1.0, 1.5"
        },
        "rand_zoom": {
            "scale": "1, 1.2"
        }
    },
    "Validation": {
        "crop": {
            "size": 224,
            "p": 1.0,
            "row_pct": 0.5,
            "col_pct": 0.5
        }
    }
}

Pour en savoir plus sur les exigences relatives à l’exécution de cet outil, ainsi que sur les problèmes que vous pouvez rencontrer, consultez les rubriques FAQ Apprentissage profond. .
Pour plus d’informations sur le Deep Learning, reportez-vous à la rubrique Deep Learning à l’aide de l’extension ArcGIS Image Analyst.

Paramètres

Étiquette	Explication	Type de données
Données d’entraînement en entrée	Dossiers contenant les fragments d’images, les étiquettes et les statistiques nécessaires à l’entraînement d’un modèle. Il s’agit de la sortie de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour le Deep Learning). Plusieurs dossiers en entrée sont pris en charge lorsque les conditions suivantes sont réunies : Le type de format de métadonnées doit être Tuiles classées, Tuiles étiquetées, Tuiles multi-étiquetées, Pascal Visual Object Classes ou Masques RCNN. Toutes les données d’entraînement doivent avoir le même format de métadonnées. Toutes les données d’entraînement doivent avoir le même nombre de canaux.	Folder
Dossier en sortie	Emplacement du dossier en sortie où sera stocké le modèle entraîné.	Folder
Max Epochs (Nombre maximal d’époques) (Facultatif)	Nombre maximal d’époques pour lequel le modèle sera entraîné. Si la valeur est 1, le jeu de données va et vient une fois sur le réseau neuronal. La valeur par défaut est 20.	Long
Type de modèle (Facultatif)	Spécifie le type de modèle qui sera utilisé pour entraîner le modèle de Deep Learning. Détecteur de segment BDCN (classification de pixel)—L’architecture BDCN (Bi-Directional Cascade Network) est utilisée pour entraîner le modèle. Le détecteur de contours BDCN est utilisé pour la classification des pixels. Cette approche est utile pour améliorer la détection des contours des objets à différentes échelles. Détecteur de changement (classification de pixels)—L’architecture Détecteur de changements est utilisée pour entraîner le modèle. Le détecteur de changements est utilisé pour la classification des pixels. Cette approche crée un objet de modèle qui utilise deux images spatio-temporelles afin de créer un raster classé du changement. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles classées. ClimaX (classification des pixels)—L’architecture ClimaX est utilisée pour entraîner le modèle. Ce modèle est principalement utilisé pour les analyses météorologiques et climatiques. ClimaX est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles. ConnectNet (classification de pixel)—L’architecture ConnectNet est utilisée pour entraîner le modèle. ConnectNet est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite. CycleGAN (conversion d’image)—L’architecture CycleGAN est utilisée pour entraîner le modèle. CycleGAN est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Cette approche est unique en ce sens que les images à entraîner ne sont pas nécessairement superposées. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées CycleGAN. DeepLabV3 (classification de pixels)—L’architecture DeepLabV3 est utilisée pour entraîner le modèle. DeepLab est utilisé pour la classification des pixels. Deep Sort (suiveur d’objets)—L’architecture Deep Sort est utilisée pour entraîner le modèle. Deep Sort est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Imagenet. Tandis que Siam Mask est utile pour suivre un objet, Deep Sort est utile pour entraîner un modèle afin de suivre plusieurs objets. DETReg (détection d’objets)—L’architecture DETReg est utilisée pour entraîner le modèle. DETReg est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent Pascal Visual Object Classes. Ce type de modèle utilise le GPU de manière intensive. Il requiert un GPU dédié avec au moins 16 Go de mémoire pour s’exécuter correctement. FasterRCNN (détection d’objets)—L’architecture FasterRCNN est utilisée pour entraîner le modèle. FasterRCNN est utilisé pour la détection d’objets. Classificateur d’entités (classification d’objets)—L’architecture Classificateur d’entités est utilisée pour entraîner le modèle. Classificateur d’entités est utilisé pour la classification d’objets ou d’images. Détecteur de segment HED (classification de pixel)—L’architecture HED (Holistically-Nested Edge Detection) est utilisée pour entraîner le modèle. Le détecteur de contours HED est utilisé pour la classification des pixels. Cette approche est utile pour la détection des contours et limites des objets. Sous-titreur d’images (conversion d’images)—L’architecture Sous-titreur d’images est utilisée pour entraîner le modèle. Le sous-titreur d’images est utilisé pour convertir des images en texte. Cette approche crée un modèle qui génère des textes de légende pour une image. MaskRCNN (détection d’objets)—L’architecture MaskRCNN est utilisée pour entraîner le modèle. MaskRCNN est utilisé pour la détection d’objets. Cette approche est utilisée pour la segmentation d’instances, qui est la délimitation précise des objets dans une image. Ce type de modèle peut être utilisé pour détecter les emprises des bâtiments. Il utilise le format de métadonnées MaskRCNN pour les données d’entraînement en entrée. Les valeurs de classe pour les données d’entraînement en entrée doivent commencer à 1. Ce type de modèle ne peut être entraîné qu’avec une unité de traitement graphique (GPU) compatible avec CUDA. MaX-DeepLab (segmentation panoptique)—L’architecture MaX-DeepLab est utilisée pour entraîner le modèle. MaX-DeepLab est utilisé pour la segmentation panoptique. Cette approche crée un objet de modèle qui génère des images et des entités. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Segmentation panoptique. MMDetection (détection d’objets)—L’architecture MMDetection est utilisée pour entraîner le modèle. MMDetection est utilisé pour la détection d’objets. Les formats de métadonnées pris en charge sont les rectangles Pascal Visual Object Class et les rectangles KITTI. MMSegmentation (classification de pixels)—L’architecture MMSegmentation est utilisée pour entraîner le modèle. MMSegmentation est utilisé pour la classification des pixels. Le format de métadonnées pris en charge est Tuiles classées. Extracteur de route multitâche (classification de pixel)—L’architecture Extracteur de routes multitâche est utilisée pour entraîner le modèle. L’extracteur de routes multitâche est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite. Pix2Pix (conversion d’image)—L’architecture Pix2Pix est utilisée pour entraîner le modèle. Pix2Pix est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées. Pix2PixHD (conversion d’images)—L’architecture Pix2PixHD est utilisée pour entraîner le modèle. Pix2PixHD est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées. PSETAE (classification de pixels)—L’architecture PSETAE (Pixel-Set Encoders and Temporal Self-Attention) est utilisée pour entraîner le modèle pour la classification des séries chronologiques. PSETAE est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles. Pyramid Scene Parsing Network (classification de pixels)—L’architecture PSPNET (Pyramid Scene Parsing Network) est utilisée pour entraîner le modèle. PSPNET est utilisé pour la classification des pixels. RetinaNet (détection d’objets)—L’architecture RetinaNet est utilisée pour entraîner le modèle. RetinaNet est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes. RTDetrV2 (détection d’objets)—L’architecture améliorée Real-Time DEtection TRansformer (RTDetrV2) est utilisée pour entraîner le modèle. RTDetrV2 repose que le détecteur temps réel précédent, RT-DETR. RTDetrV2 est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent les formats de métadonnées Pascal Visual Object Classes et les rectangles KITTI. SAMLoRA (classification de pixels)—Segment Anything Model (SAM) avec Low Rank Adaption (LoRA) est utilisé pour entraîner le modèle. Ce type de modèle utilise SAM comme modèle de base et s’adapte à une tâche spécifique avec des exigences de calcul relativement faibles et un jeu de données plus petit. Siam Mask (suiveur d’objets)—L’architecture Siam Mask est utilisée pour entraîner le modèle. Siam Mask est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées MaskRCNN. Single Shot Detector (détection d’objets)—L’architecture SSD (Single Shot Detector) est utilisée pour entraîner le modèle. SSD est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes. Super résolution (conversion d’image)—L’architecture Super-resolution est utilisée pour entraîner le modèle. Super-resolution est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui augmente la résolution et améliore la qualité des images. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées. U-Net (classification de pixels)—L’architecture U-Net est utilisée pour entraîner le modèle. U-Net est utilisé pour la classification des pixels. YOLOv3 (détection d’objets)—L’architecture YOLOv3 est utilisée pour entraîner le modèle. YOLOv3 est utilisé pour la détection d’objets.	String
Batch Size (Taille de lot) (Facultatif)	Nombre d’échantillons d’entraînement à traiter pour l’entraînement simultanément. L’augmentation de la taille du lot peut améliorer les performances de l’outil. Cependant, plus la taille augmente, plus la mémoire utilisée est importante. Si la mémoire disponible du GPU est insuffisante pour la taille de lot définie, l’outil tente d’estimer et d’utiliser une taille de lot optimale. Si une erreur se produit en raison d’une mémoire insuffisante, utillisez une taille de lot plus petite.	Long
Arguments du modèle (Facultatif)	Les informations du paramètre Model Type (Type de modèle) sont utilisées pour renseigner ce paramètre. Ces arguments varient en fonction de l’architecture de modèle. Les arguments pris en charge pour les modèles entraînés dans ArcGIS sont décrits ci-dessous. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil. Pour plus d’informations sur les arguments disponibles pour chaque type de modèle, reportez-vous à la rubrique Arguments de Deep learning.	Value Table
Learning Rate (Vitesse d’apprentissage) (Facultatif)	Vitesse à laquelle les informations existantes seront remplacées par les nouvelles informations obtenues tout au long du processus d’entraînement. Si aucune valeur n’est spécifiée, la vitesse d’apprentissage optimale sera déduite de la courbe d’entraînement au cours du processus d’entraînement.	Double
Modèle de backbone (Facultatif)	Spécifie le réseau neuronal préconfiguré qui sera utilisé comme architecture pour l’entraînement du nouveau modèle. Cette méthode est appelée apprentissage par transfert. En outre, les réseaux neuronaux convolutifs pris en charge des modèles PyTorch Image Models (timm) peuvent être spécifiés en indiquant timm comme préfixe, par exemple timm:resnet31, timm:inception_v4, timm:efficientnet_b3, etc. 1,40625 degré—Ce backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 1,40625 degré par 1,40625 degré. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage avec une résolution plus élevée permet de générer des sorties plus précises, mais nécessite davantage de puissance de calcul. 5,625 degrés—Ce backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 5,625 degrés par 5,625 degrés. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage est considéré comme ayant une faible résolution, mais il nécessite moins de puissance de calcul. DenseNet-121—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 121 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. DenseNet-161—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 161 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. DenseNet-169—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 169 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. DenseNet-201—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 201 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. MobileNet version 2—Le modèle préconfiguré est entraîné avec la base de données Imagenet, composé de 54 couches et dédié au calcul en périphérie de réseau, car il utilise moins de mémoire. ResNet-18—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 18 couches. ResNet-34—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 34 couches. Il s’agit de l’option par défaut. ResNet-50—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 50 couches. ResNet-101—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 101 couches. ResNet-152—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 152 couches. VGG-11—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 11 couches. VGG-11 avec normalisation par lots—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 11 couches. VGG-13—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 13 couches. VGG-13 avec normalisation par lots—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 13 couches. VGG-16—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 16 couches. VGG-16 avec normalisation par lots—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 16 couches. VGG-19—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 19 couches. VGG-19 avec normalisation par lots—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 19 couches. DarkNet-53—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 53 couches. Reid_v1—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets. Reid_v2—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets. ResNeXt-50—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il s’agit d’un réseau neuronal homogène, qui réduit le nombre d’hyperparamètres requis par le réseau résiduel conventionnel. Wide ResNet-50—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il possède la même architecture que ResNET, mas avec davantage de canaux. SR3—Le modèle préconfiguré utilise le modèle SR3 (super-résolution par affinement répété). SR3 adapte les modèles probabilistes de diffusion de débruitage à la génération d’images conditionnelles et effectue la super-résolution grâce à un processus de débruitage stochastique. Pour plus d’informations, reportez-vous à l’article Image Super-Resolution via Iterative Refinement sur le site arXiv. SR3 U-ViT—Ce modèle de backbone désigne une implémentation spécifique de l’architecture Vision Transformer (ViT) conçue pour des modèles de diffusion utilisés lors de la génération des images et les tâches SR3. ViT-B—Le modèle préconfiguré SAM (Segment Anything Model) est utilisé avec une taille de réseau neuronal de base. Il s’agit de la taille la plus petite. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv. ViT-L—Le modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de grande taille. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv. ViT-H—Le modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de très grande taille. Il s’agit de la taille la plus grande. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv.	String
Modèle pré-entraîné (Facultatif)	Modèle pré-entraîné qui sera utilisé pour affiner le nouveau modèle. L’entrée est un fichier de définition de modèle Esri (.emd) ou un fichier de paquetage Deep Learning (.dlpk). Un modèle pré-entraîné avec des classes similaires peut être affiné en vue de son adaptation au nouveau modèle. Le modèle pré-entraîné doit avoir été entraîné avec le même type de modèle et le même modèle d’architecture que ceux qui seront utilisés pour entraîner le nouveau modèle. L’ajustement n’est possible que pour les modèles entraînés à l’aide d’ArcGIS.	File
Pourcentage de validation (Facultatif)	Pourcentage d’échantillons d’entraînement qui sera utilisé pour valider le modèle. La valeur par défaut est 10.	Double
Stop when model stops improving (Arrêter lorsque le modèle ne s’améliore plus) (Facultatif)	Indique si l’arrêt prématuré sera mis en œuvre. Activé : l’arrêt prématuré est mis en œuvre et l’entraînement du modèle s’arrête lorsque le modèle ne s’améliore plus quelle que soit la valeur spécifiée pour le paramètre Max Epochs (Nombre maximal d’époques). Il s’agit de l’option par défaut. Désactivé : l’arrêt prématuré n’est pas mis en œuvre et l’entraînement du modèle continue jusqu’à ce que la valeur du paramètre Max Epochs (Nombre maximal d’époques) soit atteinte.	Boolean
Figer le modèle (Facultatif)	Indique si les couches de backbone dans le modèle pré-entraîné sont figées pour que la conception originale des pondérations et des biais soit conservée. Activé : les couches de backbone sont figées et les pondérations et biais prédéfinis ne sont pas modifiés dans le paramètre Backbone Model (Modèle de backbone). Il s’agit de l’option par défaut. Désactivé : les couches de backbone ne sont pas figées et les pondérations et biais du paramètre Backbone Model (Modèle de backbone) peuvent être modifiés pour s’adapter aux échantillons d’entraînement. Le traitement est plus long, mais produit généralement de meilleurs résultats.	Boolean
Augmentation des données (Facultatif)	Spécifie le type d’augmentation des données utilisé. L’augmentation des données est une technique permettant d’augmenter artificiellement la taille du jeu d’entraînement en créant des copies modifiées d’un jeu de données à l’aide des données existantes. Par défaut—Les méthodes et les valeurs d’augmentation des données par défaut sont utilisées.Les méthodes d’augmentation des données sont crop, dihedral_affine, brightness, contrast et zoom. Ces valeurs par défaut fonctionnent généralement bien pour l’imagerie satellite. Aucun—L’augmentation des données n’est pas utilisée. Personnalisée—Les valeurs d’augmentation des données sont spécifiées à l’aide du paramètre Augmentation Parameters (Paramètres d’augmentation). Cela permet de contrôler directement les transformations crop, rotate, brightness, contrast et zoom. Fichier—Les transformations fastai pour l’augmentation de données des jeux de données d’entraînement et de validation sont spécifiées à l’aide du fichier transforms.json, situé dans le même dossier que les données d’entraînement.Pour plus d’informations sur les diverses transformations, voir la page consacrée aux transformations sur le site Web fastai.	String
Paramètres d’augmentation (Facultatif)	Spécifie la valeur de chaque transformation dans le paramètre d’augmentation. rotate : l’image subit une rotation aléatoire (en degrés) selon une probabilité (p). Si le nombre de degrés est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme. La valeur par défaut est 30.0; 0.5. brightness : la luminosité de l’image est ajustée de manière aléatoire selon la valeur de changement, avec une probabilité (p). Une valeur de changement de 0 rend l’image plus sombre, alors que la valeur 1 la rend plus claire. Une valeur de changement de 0,5 ne modifie pas la luminosité. Si la valeur de changement est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.4,0.6); 1.0. contrast : le contraste de l’image est ajusté de manière aléatoire selon la valeur d’échelle, avec une probabilité (p). Une valeur d’échelle de 0 transforme l’image en niveaux de gris et une échelle supérieure à 1 défini un contraste élevé. Une valeur d’échelle de 1 n’ajuste pas le contraste. Si la valeur d’échelle est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.75, 1.5); 1.0. zoom : un zoom avant aléatoire est appliqué à l’image selon la valeur d’échelle. La valeur de zoom a le format scale(a,b); p. La valeur par défaut est (1.0, 1.2); 1.0 où p représente la probabilité. Un zoom avant n’est appliqué à l’image que si la valeur d’échelle est supérieure à 1. Si la valeur d’échelle est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme. crop : l’image est rognée de manière aléatoire. La valeur de rognage a le format size;p;row_pct;col_pct où p représente la probabilité. La position est donnée par (col_pct, row_pct),, où col_pct et row_pct sont normalisés entre 0 et 1. Si col_pct ou row_pct est une plage (a,b), une valeur comprise entre a et b est attribuée de manière uniforme. La valeur par défaut est chip_size;1.0; (0, 1); (0, 1) où 224 représente la taille de fragment par défaut.	Value Table
Taille de fragment (Facultatif)	Taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée. La taille de fragment par défaut est identique à la taille de tuile des données d’entraînement. Si la taille de tuile x et la taille de tuile y sont différentes, la valeur la plus petite fait office de taille de fragment par défaut. La taille de fragment doit être inférieure à la taille de tuile x ou y la plus petite parmi toutes les images contenues dans les dossiers en entrée.	Long
Redimensionner à (Facultatif)	Redimensionne les fragments d’image. Une fois un fragment redimensionné, des blocs de pixels sont rognés à la taille de fragment et utilisés pour l’entraînement. Ce paramètre s’applique à la détection d’objets (PASCAL VOC), à la classification d’objets (tuiles étiquetées) et aux données de super-résolution uniquement. La valeur de redimensionnement correspond généralement à la moitié de la taille de fragment. Si la valeur de redimensionnement est inférieure à la taille de fragment, elle est utilisée pour créer les blocs de pixels pour l’entraînement.	String
Structure d’initialisation de la pondération (Facultatif)	Spécifie la structure dans laquelle les pondérations seront initialisées pour la couche. Pour qu’un modèle puisse être entraîné avec des données multispectrales, il doit contenir les divers types de canaux disponibles. Pour que cette condition soit remplie, il faut réinitialiser la première couche du modèle. Ce paramètre s’applique uniquement lorsque des images multispectrales sont utilisées dans le modèle. Aléatoire—Des pondérations aléatoires sont initialisées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB. Il s’agit de l’option par défaut. Canal rouge—Les pondérations correspondant au canal rouge de la couche du modèle pré-entraîné sont clonées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB. Tout aléatoire—Des pondérations aléatoires sont initialisées pour les canaux RVB, ainsi que pour les canaux non RVB. Cette option s’applique uniquement à l’imagerie multispectrale.	String
Métrique surveillée (Facultatif)	Indique quelle métrique surveiller au point de contrôle et en cas d’arrêt prématuré. Perte de validation—La perte de validation est surveillée. Lorsque la perte de validation ne change plus de manière significative, le modèle s’arrête. Il s’agit de l’option par défaut. Précision moyenne—La moyenne pondérée de précision à chaque seuil est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. Précision—Le ratio entre le nombre de prévisions correctes et le nombre total de prévisions est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. Score F1—La combinaison des scores de précision et de rappel d’un modèle est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. MIoU—La moyenne entre l’intersection sur union (IoU) des objets segmentés pour toutes les images du jeu de données de test est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. Segmenter—Les performances du modèle sont surveillées à l’aide de la métrique Dice. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur peut être comprise entre 0 et 1. La valeur 1 correspond à une correspondance parfaite des pixels entre les données de validation et les données d’entraînement. Précision—La précision, qui mesure l’exactitude du modèle lors de la classification d’un échantillon comme positif, est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.La précision représente le ratio entre le nombre d’échantillons positifs classés correctement et le nombre total d’échantillons classés (correctement ou non). Rappel—Le rappel, qui mesure la capacité du modèle à détecter les échantillons positifs, est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Plus le rappel est élevé, plus le nombre d’échantillons positifs détectés est élevé. La valeur de rappel représente le ratio entre le nombre d’échantillons positifs classés correctement comme positifs et le nombre total d’échantillons positifs. Score bleu du corpus—Le score bleu du corpus est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Ce score est utilisé pour calculer la précision de plusieurs phrases, par exemple un paragraphe ou un document. Score F-bêta (plusieurs étiquettes)—La moyenne harmonique pondérée de la précision et du rappel est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur est souvent appelée score F-bêta.	String
Enable Tensorboard (Activer Tensorboard) (Facultatif)	Spécifie si les métriques Tensorboard sont activées pendant l’entraînement de l’outil. Vous pouvez accéder à Tensorboard à l’aide de l’URL indiquée dans les messages de l’outil. Ce paramètre est uniquement pris en charge pour les modèles suivants : CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution et U-Net Classifier. Désactivé : les métriques Tensorboard ne sont pas activées. Il s’agit de l’option par défaut. Activé : les métriques Tensorboard sont activées.	Boolean

Sortie obtenue

Étiquette	Explication	Type de données
Modèle en sortie	Fichier de modèle entraîné en sortie.	File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor}, {tensorboard})

Nom	Explication	Type de données
in_folder [in_folder,...]	Dossiers contenant les fragments d’images, les étiquettes et les statistiques nécessaires à l’entraînement d’un modèle. Il s’agit de la sortie de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour le Deep Learning). Plusieurs dossiers en entrée sont pris en charge lorsque les conditions suivantes sont réunies : Le type de format de métadonnées doit être Tuiles classées, Tuiles étiquetées, Tuiles multi-étiquetées, Pascal Visual Object Classes ou Masques RCNN. Toutes les données d’entraînement doivent avoir le même format de métadonnées. Toutes les données d’entraînement doivent avoir le même nombre de canaux.	Folder
out_folder	Emplacement du dossier en sortie où sera stocké le modèle entraîné.	Folder
max_epochs (Facultatif)	Nombre maximal d’époques pour lequel le modèle sera entraîné. Si la valeur est 1, le jeu de données va et vient une fois sur le réseau neuronal. La valeur par défaut est 20.	Long
model_type (Facultatif)	Spécifie le type de modèle qui sera utilisé pour entraîner le modèle de Deep Learning. BDCN_EDGEDETECTOR—L’architecture BDCN (Bi-Directional Cascade Network) est utilisée pour entraîner le modèle. Le détecteur de contours BDCN est utilisé pour la classification des pixels. Cette approche est utile pour améliorer la détection des contours des objets à différentes échelles. CHANGEDETECTOR—L’architecture Détecteur de changements est utilisée pour entraîner le modèle. Le détecteur de changements est utilisé pour la classification des pixels. Cette approche crée un objet de modèle qui utilise deux images spatio-temporelles afin de créer un raster classé du changement. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles classées. CLIMAX—L’architecture ClimaX est utilisée pour entraîner le modèle. Ce modèle est principalement utilisé pour les analyses météorologiques et climatiques. ClimaX est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles. CONNECTNET—L’architecture ConnectNet est utilisée pour entraîner le modèle. ConnectNet est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite. CYCLEGAN—L’architecture CycleGAN est utilisée pour entraîner le modèle. CycleGAN est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Cette approche est unique en ce sens que les images à entraîner ne sont pas nécessairement superposées. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées CycleGAN. DEEPLAB—L’architecture DeepLabV3 est utilisée pour entraîner le modèle. DeepLab est utilisé pour la classification des pixels. DEEPSORT—L’architecture Deep Sort est utilisée pour entraîner le modèle. Deep Sort est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Imagenet. Tandis que Siam Mask est utile pour suivre un objet, Deep Sort est utile pour entraîner un modèle afin de suivre plusieurs objets. DETREG—L’architecture DETReg est utilisée pour entraîner le modèle. DETReg est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent Pascal Visual Object Classes. Ce type de modèle utilise le GPU de manière intensive. Il requiert un GPU dédié avec au moins 16 Go de mémoire pour s’exécuter correctement. FASTERRCNN—L’architecture FasterRCNN est utilisée pour entraîner le modèle. FasterRCNN est utilisé pour la détection d’objets. FEATURE_CLASSIFIER—L’architecture Classificateur d’entités est utilisée pour entraîner le modèle. Classificateur d’entités est utilisé pour la classification d’objets ou d’images. HED_EDGEDETECTOR—L’architecture HED (Holistically-Nested Edge Detection) est utilisée pour entraîner le modèle. Le détecteur de contours HED est utilisé pour la classification des pixels. Cette approche est utile pour la détection des contours et limites des objets. IMAGECAPTIONER—L’architecture Sous-titreur d’images est utilisée pour entraîner le modèle. Le sous-titreur d’images est utilisé pour convertir des images en texte. Cette approche crée un modèle qui génère des textes de légende pour une image. MASKRCNN—L’architecture MaskRCNN est utilisée pour entraîner le modèle. MaskRCNN est utilisé pour la détection d’objets. Cette approche est utilisée pour la segmentation d’instances, qui est la délimitation précise des objets dans une image. Ce type de modèle peut être utilisé pour détecter les emprises des bâtiments. Il utilise le format de métadonnées MaskRCNN pour les données d’entraînement en entrée. Les valeurs de classe pour les données d’entraînement en entrée doivent commencer à 1. Ce type de modèle ne peut être entraîné qu’avec une unité de traitement graphique (GPU) compatible avec CUDA. MAXDEEPLAB—L’architecture MaX-DeepLab est utilisée pour entraîner le modèle. MaX-DeepLab est utilisé pour la segmentation panoptique. Cette approche crée un objet de modèle qui génère des images et des entités. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Segmentation panoptique. MMDETECTION—L’architecture MMDetection est utilisée pour entraîner le modèle. MMDetection est utilisé pour la détection d’objets. Les formats de métadonnées pris en charge sont les rectangles Pascal Visual Object Class et les rectangles KITTI. MMSEGMENTATION—L’architecture MMSegmentation est utilisée pour entraîner le modèle. MMSegmentation est utilisé pour la classification des pixels. Le format de métadonnées pris en charge est Tuiles classées. MULTITASK_ROADEXTRACTOR—L’architecture Extracteur de routes multitâche est utilisée pour entraîner le modèle. L’extracteur de routes multitâche est utilisé pour la classification des pixels. Cette approche est utile pour extraire un réseau routier d’une imagerie satellite. PIX2PIX—L’architecture Pix2Pix est utilisée pour entraîner le modèle. Pix2Pix est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées. PIX2PIXHD—L’architecture Pix2PixHD est utilisée pour entraîner le modèle. Pix2PixHD est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui génère des images d’un type en un autre. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées. PSETAE—L’architecture PSETAE (Pixel-Set Encoders and Temporal Self-Attention) est utilisée pour entraîner le modèle pour la classification des séries chronologiques. PSETAE est utilisé pour la classification des pixels. Pour cette méthode, les données préliminaires utilisées sont des données multidimensionnelles. PSPNET—L’architecture PSPNET (Pyramid Scene Parsing Network) est utilisée pour entraîner le modèle. PSPNET est utilisé pour la classification des pixels. RETINANET—L’architecture RetinaNet est utilisée pour entraîner le modèle. RetinaNet est utilisée pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes. RTDETRV2—L’architecture améliorée Real-Time DEtection TRansformer (RTDetrV2) est utilisée pour entraîner le modèle. RTDetrV2 repose que le détecteur temps réel précédent, RT-DETR. RTDetrV2 est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent les formats de métadonnées Pascal Visual Object Classes et les rectangles KITTI. SAMLORA—Segment Anything Model (SAM) avec Low Rank Adaption (LoRA) est utilisé pour entraîner le modèle. Ce type de modèle utilise SAM comme modèle de base et s’adapte à une tâche spécifique avec des exigences de calcul relativement faibles et un jeu de données plus petit. SIAMMASK—L’architecture Siam Mask est utilisée pour entraîner le modèle. Siam Mask est utilisé pour la détection d’objets dans les vidéos. Le modèle est entraîné à l’aide d’images de la vidéo et détecte les classes et zones de délimitation des objets dans chaque image. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées MaskRCNN. SSD—L’architecture SSD (Single Shot Detector) est utilisée pour entraîner le modèle. SSD est utilisé pour la détection d’objets. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Pascal Visual Object Classes. SUPERRESOLUTION—L’architecture Super-resolution est utilisée pour entraîner le modèle. Super-resolution est utilisé pour la conversion d’image à image. Cette approche crée un objet de modèle qui augmente la résolution et améliore la qualité des images. Les données d’entraînement en entrée pour ce type de modèle utilisent le format de métadonnées Tuiles exportées. UNET—L’architecture U-Net est utilisée pour entraîner le modèle. U-Net est utilisé pour la classification des pixels. YOLOV3—L’architecture YOLOv3 est utilisée pour entraîner le modèle. YOLOv3 est utilisé pour la détection d’objets.	String
batch_size (Facultatif)	Nombre d’échantillons d’entraînement à traiter pour l’entraînement simultanément. L’augmentation de la taille du lot peut améliorer les performances de l’outil. Cependant, plus la taille augmente, plus la mémoire utilisée est importante. Si la mémoire disponible du GPU est insuffisante pour la taille de lot définie, l’outil tente d’estimer et d’utiliser une taille de lot optimale. Si une erreur se produit en raison d’une mémoire insuffisante, utillisez une taille de lot plus petite.	Long
arguments [arguments,...] (Facultatif)	Les informations du paramètre model_type sont utilisées pour définir les valeurs par défaut de ce paramètre. Ces arguments varient en fonction de l’architecture de modèle. Les arguments pris en charge pour les modèles entraînés dans ArcGIS sont décrits ci-dessous. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil. Pour plus d’informations sur les arguments disponibles pour chaque type de modèle, reportez-vous à la rubrique Arguments de Deep learning.	Value Table
learning_rate (Facultatif)	Vitesse à laquelle les informations existantes seront remplacées par les nouvelles informations obtenues tout au long du processus d’entraînement. Si aucune valeur n’est spécifiée, la vitesse d’apprentissage optimale sera déduite de la courbe d’entraînement au cours du processus d’entraînement.	Double
backbone_model (Facultatif)	Spécifie le réseau neuronal préconfiguré qui sera utilisé comme architecture pour l’entraînement du nouveau modèle. Cette méthode est appelée apprentissage par transfert. 1.40625deg—Ce backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 1,40625 degré par 1,40625 degré. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage avec une résolution plus élevée permet de générer des sorties plus précises, mais nécessite davantage de puissance de calcul. 5.625deg—Ce backbone a été entraîné sur une imagerie dans laquelle la résolution de chaque cellule de grille couvre une surface de 5,625 degrés par 5,625 degrés. Cette méthode est utilisée pour les prévisions météorologiques et climatiques. Ce paramétrage est considéré comme ayant une faible résolution, mais il nécessite moins de puissance de calcul. DENSENET121—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 121 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. DENSENET161—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 161 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. DENSENET169—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 169 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. DENSENET201—Le modèle préconfiguré est un réseau dense entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 201 couches. À la différence de ResNET, qui combine les couches en les additionnant, DenseNet combine les couches en les concaténant. MOBILENET_V2—Le modèle préconfiguré est entraîné avec la base de données Imagenet, composé de 54 couches et dédié au calcul en périphérie de réseau, car il utilise moins de mémoire. RESNET18—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 18 couches. RESNET34—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 34 couches. Il s’agit de l’option par défaut. RESNET50—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 50 couches. RESNET101—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 101 couches. RESNET152—Le modèle préconfiguré est un réseau résiduel entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 152 couches. VGG11—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 11 couches. VGG11_BN—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 11 couches. VGG13—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 13 couches. VGG13_BN—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 13 couches. VGG16—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 16 couches. VGG16_BN—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 16 couches. VGG19—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images pour classer les images dans 1 000 catégories d’objets et est composé de 19 couches. VGG19_BN—Le modèle préconfiguré repose sur le réseau VGG auquel est ajoutée la normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné avec le jeu de données Imagenet et est composé de 19 couches. DARKNET53—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet qui contient plus d’un million d’images et est composé de 53 couches. REID_V1—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets. REID_V2—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet utilisé pour le suivi d’objets. RESNEXT50—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il s’agit d’un réseau neuronal homogène, qui réduit le nombre d’hyperparamètres requis par le réseau résiduel conventionnel. WIDE_RESNET50—Le modèle préconfiguré est un réseau neuronal convolutif entraîné avec le jeu de données Imagenet et est composé de 50 couches. Il possède la même architecture que ResNET, mas avec davantage de canaux. SR3—Le modèle préconfiguré utilise le modèle SR3 (super-résolution par affinement répété). SR3 adapte les modèles probabilistes de diffusion de débruitage à la génération d’images conditionnelles et effectue la super-résolution grâce à un processus de débruitage stochastique. Pour plus d’informations, reportez-vous à l’article Image Super-Resolution via Iterative Refinement sur le site arXiv. SR3_UVIT—Ce modèle de backbone désigne une implémentation spécifique de l’architecture Vision Transformer (ViT) conçue pour des modèles de diffusion utilisés lors de la génération des images et les tâches SR3. VIT_B—Le modèle préconfiguré SAM (Segment Anything Model) est utilisé avec une taille de réseau neuronal de base. Il s’agit de la taille la plus petite. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv. VIT_L—Le modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de grande taille. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv. VIT_H—Le modèle préconfiguré SAM (Segment Anything Model) est utilisé avec un réseau neuronal de très grande taille. Il s’agit de la taille la plus grande. Pour plus d’informations, reportez-vous à l’article Segment Anything sur le site arXiv. En outre, les réseaux neuronaux convolutifs pris en charge des modèles PyTorch Image Models (timm) peuvent être spécifiés en indiquant timm comme préfixe, par exemple timm:resnet31, timm:inception_v4, timm:efficientnet_b3, etc.	String
pretrained_model (Facultatif)	Modèle pré-entraîné qui sera utilisé pour affiner le nouveau modèle. L’entrée est un fichier de définition de modèle Esri (.emd) ou un fichier de paquetage Deep Learning (.dlpk). Un modèle pré-entraîné avec des classes similaires peut être affiné en vue de son adaptation au nouveau modèle. Le modèle pré-entraîné doit avoir été entraîné avec le même type de modèle et le même modèle d’architecture que ceux qui seront utilisés pour entraîner le nouveau modèle. L’ajustement n’est possible que pour les modèles entraînés à l’aide d’ArcGIS.	File
validation_percentage (Facultatif)	Pourcentage d’échantillons d’entraînement qui sera utilisé pour valider le modèle. La valeur par défaut est 10.	Double
stop_training (Facultatif)	Indique si l’arrêt prématuré sera mis en œuvre. STOP_TRAINING—L’arrêt prématuré est mis en œuvre et l’entraînement du modèle s’arrête lorsque le modèle ne s’améliore plus quelle que soit la valeur spécifiée pour le paramètre max_epochs. Il s’agit de l’option par défaut. CONTINUE_TRAINING—L’arrêt prématuré n’est pas mis en œuvre et l’entraînement du modèle continue jusqu’à ce que la valeur du paramètre max_epochs soit atteinte.	Boolean
freeze (Facultatif)	Indique si les couches de backbone dans le modèle pré-entraîné sont figées pour que la conception originale des pondérations et des biais soit conservée. FREEZE_MODEL—Les couches de backbone sont figées et les pondérations et biais prédéfinis ne sont pas modifiés dans le paramètre backbone_model. Il s’agit de l’option par défaut. UNFREEZE_MODEL—Les couches de backbone ne sont pas figées et les pondérations et biais du paramètre backbone_model peuvent être modifiés pour s’adapter aux échantillons d’entraînement. Le traitement est plus long, mais produit généralement de meilleurs résultats.	Boolean
augmentation (Facultatif)	Spécifie le type d’augmentation des données utilisé. L’augmentation des données est une technique permettant d’augmenter artificiellement la taille du jeu d’entraînement en créant des copies modifiées d’un jeu de données à l’aide des données existantes. DEFAULT—Les méthodes et les valeurs d’augmentation des données par défaut sont utilisées.Les méthodes d’augmentation des données sont crop, dihedral_affine, brightness, contrast et zoom. Ces valeurs par défaut fonctionnent généralement bien pour l’imagerie satellite. NONE—L’augmentation des données n’est pas utilisée. CUSTOM—Les valeurs d’augmentation des données sont spécifiées à l’aide du paramètre augmentation_parameters. Cela permet de contrôler directement les transformations crop, rotate, brightness, contrast et zoom. FILE—Les transformations fastai pour l’augmentation de données des jeux de données d’entraînement et de validation sont spécifiées à l’aide du fichier transforms.json, situé dans le même dossier que les données d’entraînement.Pour plus d’informations sur les diverses transformations, voir la page consacrée aux transformations sur le site Web fastai.	String
augmentation_parameters [augmentation_parameters,...] (Facultatif)	Spécifie la valeur de chaque transformation dans le paramètre d’augmentation. rotate : l’image subit une rotation aléatoire (en degrés) selon une probabilité (p). Si le nombre de degrés est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme. La valeur par défaut est 30.0; 0.5. brightness : la luminosité de l’image est ajustée de manière aléatoire selon la valeur de changement, avec une probabilité (p). Une valeur de changement de 0 rend l’image plus sombre, alors que la valeur 1 la rend plus claire. Une valeur de changement de 0,5 ne modifie pas la luminosité. Si la valeur de changement est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.4,0.6); 1.0. contrast : le contraste de l’image est ajusté de manière aléatoire selon la valeur d’échelle, avec une probabilité (p). Une valeur d’échelle de 0 transforme l’image en niveaux de gris et une échelle supérieure à 1 défini un contraste élevé. Une valeur d’échelle de 1 n’ajuste pas le contraste. Si la valeur d’échelle est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.75, 1.5); 1.0. zoom : un zoom avant aléatoire est appliqué à l’image selon la valeur d’échelle. La valeur de zoom a le format scale(a,b); p. La valeur par défaut est (1.0, 1.2); 1.0 où p représente la probabilité. Un zoom avant n’est appliqué à l’image que si la valeur d’échelle est supérieure à 1. Si la valeur d’échelle est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme. crop : l’image est rognée de manière aléatoire. La valeur de rognage a le format size;p;row_pct;col_pct où p représente la probabilité. La position est donnée par (col_pct, row_pct),, où col_pct et row_pct sont normalisés entre 0 et 1. Si col_pct ou row_pct est une plage (a,b), une valeur comprise entre a et b est attribuée de manière uniforme. La valeur par défaut est chip_size;1.0; (0, 1); (0, 1) où 224 représente la taille de fragment par défaut.	Value Table
chip_size (Facultatif)	Taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée. La taille de fragment par défaut est identique à la taille de tuile des données d’entraînement. Si la taille de tuile x et la taille de tuile y sont différentes, la valeur la plus petite fait office de taille de fragment par défaut. La taille de fragment doit être inférieure à la taille de tuile x ou y la plus petite parmi toutes les images contenues dans les dossiers en entrée.	Long
resize_to (Facultatif)	Redimensionne les fragments d’image. Une fois un fragment redimensionné, des blocs de pixels sont rognés à la taille de fragment et utilisés pour l’entraînement. Ce paramètre s’applique à la détection d’objets (PASCAL VOC), à la classification d’objets (tuiles étiquetées) et aux données de super-résolution uniquement. La valeur de redimensionnement correspond généralement à la moitié de la taille de fragment. Si la valeur de redimensionnement est inférieure à la taille de fragment, elle est utilisée pour créer les blocs de pixels pour l’entraînement.	String
weight_init_scheme (Facultatif)	Spécifie la structure dans laquelle les pondérations seront initialisées pour la couche. Pour qu’un modèle puisse être entraîné avec des données multispectrales, il doit contenir les divers types de canaux disponibles. Pour que cette condition soit remplie, il faut réinitialiser la première couche du modèle. RANDOM—Des pondérations aléatoires sont initialisées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB. Il s’agit de l’option par défaut. RED_BAND—Les pondérations correspondant au canal rouge de la couche du modèle pré-entraîné sont clonées pour les canaux non RVB, alors que les pondérations pré-entraînées sont conservées pour les canaux RVB. ALL_RANDOM—Des pondérations aléatoires sont initialisées pour les canaux RVB, ainsi que pour les canaux non RVB. Cette option s’applique uniquement à l’imagerie multispectrale. Ce paramètre s’applique uniquement lorsque des images multispectrales sont utilisées dans le modèle.	String
monitor (Facultatif)	Indique quelle métrique surveiller au point de contrôle et en cas d’arrêt prématuré. VALID_LOSS—La perte de validation est surveillée. Lorsque la perte de validation ne change plus de manière significative, le modèle s’arrête. Il s’agit de l’option par défaut. AVERAGE_PRECISION—La moyenne pondérée de précision à chaque seuil est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. ACCURACY—Le ratio entre le nombre de prévisions correctes et le nombre total de prévisions est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. F1_SCORE—La combinaison des scores de précision et de rappel d’un modèle est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. MIOU—La moyenne entre l’intersection sur union (IoU) des objets segmentés pour toutes les images du jeu de données de test est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête. DICE—Les performances du modèle sont surveillées à l’aide de la métrique Dice. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur peut être comprise entre 0 et 1. La valeur 1 correspond à une correspondance parfaite des pixels entre les données de validation et les données d’entraînement. PRECISION—La précision, qui mesure l’exactitude du modèle lors de la classification d’un échantillon comme positif, est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.La précision représente le ratio entre le nombre d’échantillons positifs classés correctement et le nombre total d’échantillons classés (correctement ou non). RECALL—Le rappel, qui mesure la capacité du modèle à détecter les échantillons positifs, est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Plus le rappel est élevé, plus le nombre d’échantillons positifs détectés est élevé. La valeur de rappel représente le ratio entre le nombre d’échantillons positifs classés correctement comme positifs et le nombre total d’échantillons positifs. CORPUS_BLEU—Le score bleu du corpus est surveillé. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Ce score est utilisé pour calculer la précision de plusieurs phrases, par exemple un paragraphe ou un document. MULTI_LABEL_FBETA—La moyenne harmonique pondérée de la précision et du rappel est surveillée. Lorsque cette valeur ne change plus de manière significative, le modèle s’arrête.Cette valeur est souvent appelée score F-bêta.	String
tensorboard (Facultatif)	Spécifie si les métriques Tensorboard sont activées pendant l’entraînement de l’outil. Vous pouvez accéder à Tensorboard à l’aide de l’URL indiquée dans les messages de l’outil. Ce paramètre est uniquement pris en charge pour les modèles suivants : CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution et U-Net Classifier. DISABLE_TENSORBOARD—Les métriques Tensorboard ne sont pas activées. Il s’agit de l’option par défaut. ENABLE_TENSORBOARD—Les métriques Tensorboard sont activées.	Boolean

Sortie obtenue

Nom	Explication	Type de données
out_model_file	Fichier de modèle entraîné en sortie.	File

Exemple de code

Exemple 1 - TrainDeepLearningModel (fenêtre Python)

Cet exemple a utilisé l’apprentissage par transfert à l’aide d’un modèle pré-entraîné.

import arcpy
arcpy.env.workspace = r"C:\Data\DL.gdb"

arcpy.ia.TrainDeepLearningModel("Labeled_RoadImageChips",
    "TransferLearning_UnsurfacedRoads", 500, "", 2, None, None, "", 
    r"C:\data\PreTrainedModels\RoadsExtraction_NorthAmerica.dlpk", 
    10, "STOP_TRAINING", "UNFREEZE_MODEL", "DEFAULT", None, 224, "", 
    "", "VALID_LOSS")

Exemple 2 - TrainDeepLearningModel (script autonome)

Cet exemple entraîne un modèle de détection d’objets à l’aide de l’approche SSD.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

Environnements

Espace de travail courant, Type de processeur, ID du processeur graphique, Espace de travail temporaire

Rubriques connexes

Vous avez un commentaire à formuler concernant cette rubrique ?

Synthèse

Utilisation

Paramètres

Sortie obtenue

Sortie obtenue

Exemple de code

Environnements

Rubriques connexes

Dans cette rubrique