Arguments de Deep learning—ArcGIS AllSource

Disponible avec une licence Image Analyst.

Les arguments sont l’un des nombreux moyens qui permettent de contrôler la façon dont les modèles de Deep Learning sont entraînés et utilisés. Dans cette rubrique, le premier tableau répertorie les arguments de modèle pris en charge pour l’entraînement des modèles de Deep Learning. Le second tableau répertorie les arguments qui permettent de contrôler la manière dont les modèles de Deep Learning sont utilisés pour l’inférence.

Arguments d’entraînement

L’outil Entraîner le modèle de Deep Learning inclut les arguments pour entraîner les modèles de Deep Learning. Ces arguments varient selon l’architecture du modèle. Vous pouvez modifier les valeurs de ces arguments pour entraîner un modèle. Les arguments sont les suivants :

attention_type : indique le type de module. La valeur par défaut est PAM.
attn_res : nombre d’attentions dans les blocs résiduels. Il s’agit d’une valeur entière facultative, par défaut elle est définie sur 16. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
backend : contrôle la structure de backend à utiliser pour ce modèle. Pour utiliser Tensorflow, passez le type de processeur sur l’unité centrale. La valeur par défaut est pytorch.
bias : il s’agit de la distorsion pour la tête Single Shot Detector (SSD). La valeur par défaut est -0,4.
box_batch_size_per_image : le nombre de propositions échantillonnées lors de l’entraînement de la classification. La valeur par défaut est 512.
box_bg_iou_thresh : l’intersection sur union (IoU) maximale entre les propositions et la zone GT (réalité sur le terrain), afin qu’elles puissent être considérées comme négatives lors de l’entraînement de la tête de classification. La valeur par défaut est 0,5.
box_detections_per_img : le nombre maximum de détections par image, pour toutes les classes. La valeur par défaut est 100.
box_fg_iou_thresh : l’intersection sur union (IoU) minimale entre les propositions et la zone GT, afin qu’elles puissent être considérées comme positives lors de l’entraînement de la tête de classification. La valeur par défaut est 0,5.
box_nms_thresh : le seuil de la suppression non maximale (NMS) pour la tête de prévision ; utilisé lors de l’inférence. La valeur par défaut est 0,5.
box_positive_fraction : la proportion de propositions positives dans un mini-lot lors de l’entraînement de la tête de classification. La valeur par défaut est 0,25.
box_score_thresh : le seuil du score de classification à atteindre afin de renvoyer des propositions lors de l’inférence. La valeur par défaut est 0,05.
channel_mults : multiplicateurs de profondeur facultatifs pour les résolutions suivantes dans U-Net. La valeur par défaut est 1, 2, 4, 4, 8, 8. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
channels_of_interest : liste des canaux spectraux d’intérêt. Ainsi les canaux des rasters de séries chronologiques multitemporelles sont filtrés en fonction de cette liste. Par exemple, si notre jeu de données dispose des canaux 0-4, mais que l’entraînement ne va utiliser que les canaux 0, 1, et 2, la liste est [0,1,2].
chip_size : taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée.
class_balancing : indique si la perte d’entropie croisée inverse est équilibrée avec la fréquence des pixels par classe. La valeur par défaut est False.
d_k : dimension des vecteurs de clé et de requête. La valeur par défaut est 32.
decode_params : dictionnaire qui contrôle le mode de fonctionnement du créateur de légende d’image. Il se compose des paramètres suivants : embed_size, hidden_size, attention_size, teacher_forcing, dropout, et pretrained_emb. Le teacher_forcing est la probabilité de contrainte par l’enseignant. Le forçage des enseignants est une stratégie destinée à entraîner les réseaux neuronaux récurrents. Il utilise en entrée la sortie du modèle d’un intervalle temporel précédent au lieu de la sortie précédente, au cours de la rétro-propagation. Le pretrained_emb précise si l’incorporation du texte pré-entraînée est utilisée. Si la valeur est Vrai, il utilise l’intégration de texte rapide. Si la valeur est Faux, il n’utilise pas l’intégration de texte pré-entraînée.
depth : profondeur du modèle. La valeur par défaut est 17.
dice_loss_average : indique l’option de choix du recours à la micro ou à la macro moyenne. Une macro moyenne calcule la métrique individuellement pour chaque classe, puis prend la moyenne, tenant ainsi compte de toutes les classes de la même façon). Une micro moyenne agrège les contributions de toutes les classes pour calculer la métrique moyenne. Dans une configuration de classification multiclasses, la micro moyenne est préférable si vous suspectez un déséquilibre lorsqu’il y a beaucoup plus d’échantillons d’une classe par rapport aux autres classes. La valeur par défaut est micro.
dice_loss_fraction : utilisée pour ajuster la pondération de la perte par défaut (ou perte focale) par rapport à la perte de segmentation, dans la perte totale pour guider l’entraînement. La valeur par défaut est 0. Si focal_loss est définie sur true, la perte focale est utilisée plutôt que la perte par défaut. Si dice_loss_fraction est définie sur 0, l’entraînement utilise la perte par défaut (ou perte focale) comme perte totale pour guider l’entraînement. Si la fraction dice_loss (perte_segmentation) est supérieure à 0, l’entraînement utilise une formule comme perte totale pour guider l’entraînement :
```
=(1 – dice_loss_fraction)*default_loss + dice_loss_fraction*dice_loss (1 - fraction_perte_segmentation)*perte_par défaut + fraction_perte_segmentation*perte_segmentation
```
downsample_factor : facteur pour échantillonner les images. La valeur par défaut est 4.
drop : probabilité d’abandon. Pour réduire l’overfitting, augmentez la valeur. La valeur par défaut est de 0,3.
dropout : probabilité d’abandon. Pour réduire l’overfitting, augmentez la valeur. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
embed_dim : dimension des intégrations. La valeur par défaut est 768.
feat_loss : indique si vous souhaitez utiliser ou non la perte d’adéquation des entités du discriminateur. La valeur par défaut est True.
focal_loss : indique si la perte focale est utilisée. La valeur par défaut est False.
gaussian_thresh : seuil gaussien, qui définit la largeur de route requise. La plage valide est comprise entre 0,0 et 1,0. La valeur par défaut est 0,76.
gen_blocks : nombre de blocs ResNet à utiliser dans le générateur. La valeur par défaut est 9.
gen_network : sélectionnez le modèle à utiliser pour le générateur. Utilisez global si la mémoire de l’unité centrale de la machine est faible. La valeur par défaut est local.
grids : nombre de grilles selon lequel l’image est divisée pour le traitement. Par exemple, si vous définissez cet argument sur 4, l’image est divisée en 4 x 4 ou 16 cellules de grille. Si aucune valeur n’est spécifiée, la valeur de grille optimale est calculée en fonction de l’imagerie en entrée.
ignore_classes : liste des valeurs de classe pour lesquelles le modèle ne subit pas de perte.
inner_channel : dimension de la première couche U-net. Il s’agit d’une valeur entière facultative. La valeur par défaut est 64. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
keep_dilation : indiquez si keep_dilation doit être utilisée. Lorsqu’elle est définie sur True (Vrai) et que l’architecture pointrend est utilisée, elle peut potentiellement améliorer la précision aux dépens de la consommation de la mémoire. La valeur par défaut est False.
lambda_feat : pondération pour la perte d’adéquation des entités. La valeur par défaut est 10.
lambda_l1 : pondération pour la perte d’adéquation des entités. La valeur par défaut est 100. Cette option n’est pas prise en charge pour l’imagerie à 3 canaux.
linear_end : entier facultatif qui permet de planifier la fin. La valeur par défaut est 1e-06. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
linear_start : entier facultatif qui permet de planifier le début. La valeur par défaut est 1e-02. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
lsgan : indique si vous souhaitez utiliser l’erreur quadratique moyenne dans l’entraînement. Si définie sur False (Faux), l’entropie croisée est utilisée. La valeur par défaut est True.
location_loss_factor : définit la pondération de la perte d’emprise. Ce facteur ajuste la concentration du modèle sur l’emplacement de l’emprise. Lorsqu’il est défini sur Aucun, cela donne une pondération équivalente à la perte d’emplacement et de classification.
min_points : nombre de pixels dans chaque échantillon depuis chaque région masquée de l’entraînement ; cette valeur doit être un multiple de 64.
mixup : indiquez si mixup doit être utilisée. Si cette option est définie sur True (Vrai), cela génère de nouvelles images d’entraînement en mélangeant de façon aléatoire des images de définition d’entraînement. La valeur par défaut est False.
mlp_ratio : ratio du perceptron multicouche (MLP). La valeur par défaut est 4.
mlp1 : dimensions des espaces d’entité successifs de MLP1. La valeur par défaut est 32,64.
mlp2 : dimensions des espaces d’entité successifs de MLP2. La valeur par défaut est 128,128.
mlp4 : dimensions du décodeur MLP. La valeur par défaut est 64,32.
model : modèle backbone utilisé pour entraîner le modèle. Les backbones disponibles dépendent de la valeur spécifiée pour le paramètre Type de modèle. Cet argument est uniquement pris en charge pour les types de modèles MMDetection et MMSegmentation. La valeur par défaut pour MMDetection est cascade_rcnn. La valeur MMSegmentation par défaut est mask2former.
model_weight : détermine l’utilisation ou non des pondérations du modèle pré-entraîné. La valeur par défaut est False. La valeur peut également être un chemin d’accès à un fichier de configuration contenant les pondérations d’un modèle provenant du référentiel MMDetection ou MMSegmentation.
monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles dépendent de la valeur du paramètre Model Type (Type de modèle). La valeur par défaut est valid_loss.
mtl_model : spécifie le type d’architecture utilisé pour créer le modèle. Les options sont linknet ou hourglass pour les architectures neuronales basées sur linknet ou hourglass, respectivement. La valeur par défaut est hourglass.
n_blocks_global : nombre de blocs résiduels dans le réseau du générateur global. La valeur par défaut est 9.
n_blocks_local : nombre de blocs résiduels dans le réseau d’améliorations locales. La valeur par défaut est 3.
n_downsample_global : nombre de couches de rééchantillonnage dans le réseau du générateur global.
n_dscr : nombre de discriminateurs à utiliser. La valeur par défaut est 2.
n_dscr_filters : nombre de filtres de discriminateur dans la première couche de convolution. La valeur par défaut est 64.
n_gen_filters : nombre de filtres gen dans la première couche de convolution. La valeur par défaut est 64.
n_head : nombre d’avertissements. La valeur par défaut est 4.
n_layers_dscr : nombre de couches pour le réseau de discriminateur utilisé dans Pix2PixHD. La valeur par défaut est 3.
n_local_enhancers : nombre d’améliorations locales à utiliser. La valeur par défaut est 1.
n_masks : représente le nombre maximum d’étiquettes de classe et d’instances que toute image peut contenir. La valeur par défaut est 30.
n_timestep : valeur facultative indiquant le nombre d’intervalles temporels de diffusion. La valeur par défaut est 1000. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
norm : indique si vous souhaitez utiliser la normalisation par instance ou la normalisation par lot. La valeur par défaut est instance.
norm_groups : nombre de groupes pour la normalisation des groupes. Il s’agit d’une valeur entière facultative. La valeur par défaut est 32. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
num_heads : nombre d’avertissements. La valeur par défaut est 12.
orient_bin_size : taille de groupe pour les angles d’orientation. La valeur par défaut est 20.
orient_theta : largeur du masque d’orientation. La valeur par défaut est 8.
oversample : indique si vous souhaitez utiliser le suréchantillonnage. Si cette option est définie sur True (Vrai), cela suréchantillonne les classes déséquilibrées du jeu de données lors de l’entraînement. Cette option n’est pas prise en charge avec les jeux de données MultiLabel. La valeur par défaut est False.
patch_size : taille du gabarit pour générer les intégrations de gabarit. La valeur par défaut est 16.
perceptual_loss : indique si vous souhaitez utiliser la perte perceptuelle dans l’entraînement. La valeur par défaut est False.
pointrend : indique si vous souhaitez utiliser l’architecture PointRend en haut de la tête de segmentation. Pour en savoir plus sur l’architecture PointRend, consultez le PDF PointRend. La valeur par défaut est False.
pooling : stratégie de groupage de l’intégration des pixels à utiliser. La valeur par défaut est mean
pyramid_sizes : nombre et taille des couches de convolution à appliquer aux différentes sous-régions. La valeur par défaut est [1, 2, 3, 6]. Cet argument est propre au modèle Pyramid Scene Parsing Network.
qkv_bias : indique si vous souhaitez utiliser la distorsion du vecteur QK dans l’entraînement. La valeur par défaut est False.
ratios : liste des proportions à utiliser pour les zones d’ancrage. Dans le domaine de la détection d’objet, une zone d’ancrage représente la localisation, la forme et la taille idéales de l’objet qui fait l’objet d’une prédiction. Par exemple, si vous définissez cet argument sur [1.0,1.0], [1.0, 0.5], la boîte englobante est un carré (1:1) ou un rectangle pour lequel la longueur du côté horizontal correspond à la moitié de la longueur du côté vertical (1:0.5). La valeur par défaut pour RetinaNet est [0.5,1,2]. La valeur par défaut pour Single Shot Detector est [1.0, 1.0].
res_blocks : nombre de blocs résiduels. Il s’agit d’une valeur entière facultative. La valeur par défaut est 3. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
rpn_batch_size_per_image : nombre d’ancrages échantillonnés lors de l’entraînement du RPN pour calculer la perte. La valeur par défaut est 256.
rpn_bg_iou_thresh. : l’intersection sur union (IoU) maximale entre l’ancrage et la zone GT afin qu’ils puissent être considérés comme négatifs lors de l’entraînement du RPN. La valeur par défaut est de 0,3.
rpn_fg_iou_thresh : l’intersection sur union (IoU) minimale entre l’ancrage et la zone GT afin qu’ils puissent être considérés comme positifs lors de l’entraînement du RPN. La valeur par défaut est 0,7.
rpn_nms_thresh : le seuil NMS utilisé pour post-traiter les propositions RPN. La valeur par défaut est 0,7.
rpn_positive_fraction : la proportion des ancrages positifs dans un mini-lot lors de l’entraînement du RPN. La valeur par défaut est 0,5.
rpn_post_nms_top_n_test : le nombre de propositions à conserver une fois le NMS appliqué lors du test. La valeur par défaut est 1000.
rpn_post_nms_top_n_train : le nombre de propositions à conserver une fois le NMS appliqué lors de l’entraînement. La valeur par défaut est 2000.
rpn_pre_nms_top_n_test : le nombre de propositions à conserver avant l’application du NMS lors du test. La valeur par défaut est 1000.
rpn_pre_nms_top_n_train : le nombre de propositions à conserver avant l’application du NMS lors de l’entraînement. La valeur par défaut est 2000.
scales : nombre de niveaux d’échelle selon lequel chaque cellule est réduite ou agrandie. La valeur par défaut est [1, 0,8, 0,63].
schedule : argument facultatif pour définir le type de planification à utiliser. Les options sont linear, warmup10, warmup50, const, jsd et cosine. La valeur par défaut est linear. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
T : période à utiliser pour l’encodage positionnel. La valeur par défaut est 1000.
timesteps_of_interest : la liste des intervalles d’intérêt ; elle permet de filtrer les séries chronologiques multitemporelles en fonction de la liste des intervalles spécifiés. Par exemple, si le jeu de données est associé aux intervalles 0, 1, 2 et 3, mais que seuls les intervalles 0, 1 et 2 sont utilisés dans l’entraînement, ce paramètre est défini sur [0,1,2]; the rest of the time-steps will be filtered out.
use_net : indique si le décodeur U-Net est utilisé pour récupérer les données une fois le regroupement des pyramides effectué. La valeur par défaut est True. Cet argument est propre au modèle Pyramid Scene Parsing Network.
vgg_loss : indique si vous souhaitez utiliser la perte d’adéquation des entités VGG. Cette option n’est prise en charge que pour l’imagerie à 3 canaux. La valeur par défaut est True.
zooms : nombre de niveaux de zoom selon lequel chaque cellule de grille est réduite ou agrandie. Si vous définissez cet argument sur 1, toutes les cellules de grille restent à la même taille ou au même niveau de zoom. Un niveau de zoom égal à 2 signifie que toutes les cellules de grille deviennent deux fois plus grandes (agrandies à 100 pour cent). Si vous fournissez une liste de niveaux de zoom, toutes les cellules de grille sont mises à l’échelle avec tous les nombres de la liste. La valeur par défaut est 1.


Model type	Argument	Valeur valides
Détecteur de changements (classification de pixels)	attention_type	PAM (Pyramid Attention Module) ou BAM (Basic Attention Module). La valeur par défaut est PAM.
	chip_size	Entiers compris entre 0 et la taille de l’image.
	monitor	valid_loss, precision, recall et f1.
ConnectNet (classification de pixels)	chip_size	Entiers compris entre 0 et la taille de l’image.
	gaussian_thresh	0,0 à 1,0. La valeur par défaut est 0,76.
	monitor	valid_loss, accuracy, miou et dice.
	mtl_model	linknet ou hourglass.
	orient_bin_size	Nombre positif. La valeur par défaut est 20.
	orient_theta	Nombre positif. La valeur par défaut est 8.
CycleGAN (conversion d’images)	gen_blocks	Entier positif. La valeur par défaut est 9.
CycleGAN (conversion d’images)	lsgan	true ou false. La valeur par défaut est true.
DeepLabv (classification de pixels)	chip_size	Entiers compris entre 0 et la taille de l’image.
	class_balancing	true ou false.
	dice_loss_average	micro ou macro. La valeur par défaut est micro.
	dice_loss_fraction	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0.
	focal_loss	true ou false.
	ignore_classes	Valeurs de classe valides.
	keep_dilation	true ou false. La valeur par défaut est false.
	mixup	true ou false.
	monitor	valid_loss et accuracy.
	pointrend	true ou false. La valeur par défaut est false.
FasterRCNN (Détection des objets)	box_batch_size_per_image	Entiers positifs. La valeur par défaut est 512.
	box_bg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	box_detections_per_img	Entiers positifs. La valeur par défaut est 100.
	box_fg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	box_nms_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	box_positive_fraction	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,25.
	box_score_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,05.
	rpn_batch_size_per_image	Entiers positifs. La valeur par défaut est 256.
	rpn_bg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est de 0,3.
	rpn_fg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.
	rpn_nms_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.
	rpn_positive_fraction	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	rpn_post_nms_top_n_test	Entiers positifs. La valeur par défaut est 1000.
	rpn_post_nms_top_n_train	Entiers positifs. La valeur par défaut est 2000.
	rpn_pre_nms_top_n_test	Entiers positifs. La valeur par défaut est 1000.
	rpn_pre_nms_top_n_train	Entiers positifs. La valeur par défaut est 2000.
Classificateur d’entités (Classification d’objets)	backend	pytorch ou tensorflow. La valeur par défaut est pytorch.
	mixup	true ou false. La valeur par défaut est false.
	oversample	true ou false. La valeur par défaut est false.
Sous-titreur d’images (conversion d’images)	chip_size	Entiers compris entre 0 et la taille de l’image.
	L’argument decode_params se compose des paramètres suivants : embed_size hidden_size attention_size teacher_forcing dropout pretrained_emb	La valeur par défaut est {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
	monitor	valid_loss, accuracy, corpus_bleu etmulti_label_fbeta.
MaskRCNN (Détection des objets)	box_batch_size_per_image	Entiers positifs. La valeur par défaut est 512.
	box_bg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	box_detections_per_img	Entiers positifs. La valeur par défaut est 100.
	box_fg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	box_nms_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	box_positive_fraction	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,25.
	box_score_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,05.
	rpn_batch_size_per_image	Entiers positifs. La valeur par défaut est 256.
	rpn_bg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est de 0,3.
	rpn_fg_iou_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.
	rpn_nms_thresh	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.
	rpn_positive_fraction	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.
	rpn_post_nms_top_n_test	Entiers positifs. La valeur par défaut est 1000.
	rpn_post_nms_top_n_train	Entiers positifs. La valeur par défaut est 2000.
	rpn_pre_nms_top_n_test	Entiers positifs. La valeur par défaut est 1000.
	rpn_pre_nms_top_n_train	Entiers positifs. La valeur par défaut est 2000.
MaXDeepLab (segmentation panoptique)	n_masks	Entiers positifs. La valeur par défaut est 30.
MMDetection (détection d’objets)	chip_size	Entiers compris entre 0 et la taille de l’image.
	model	atss, carafe, cascade_rcnn, cascade_rpn, dcn, deeplabv3, detectors, dino, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl, et vfnet. La valeur par défaut est deeplabv3.
	model_weight	true ou false.
MMSegmentation (classification de pixels)	chip_size	Entiers compris entre 0 et la taille de l’image.
	model	ann, apcnet, ccnet, cgnet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, fastscnn, fcn, gcnet, hrnet, mask2former, mobilenet_v2, nonlocal_net, ocrnet, prithvi100m, psanet, pspnet, resnest, sem_fpn, unet et upernet. La valeur par défaut est mask2former.
	model_weight	true ou false.
Extracteur de routes multitâche (classification de pixels)	chip_size	Entiers compris entre 0 et la taille de l’image.
	gaussian_thresh	0,0 à 1,0. La valeur par défaut est 0,76.
	monitor	valid_loss, accuracy, miou et dice.
	mtl_model	linknet ou hourglass.
	orient_bin_size	Nombre positif. La valeur par défaut est 20.
	orient_theta	Nombre positif. La valeur par défaut est 8.
Pix2Pix (conversion d’images)	perceptual_loss	true ou false. La valeur par défaut est false.
Pix2PixHD (conversion d’images)	gen_network	local ou global. La valeur par défaut est local.
	feat_loss	true ou false. La valeur par défaut est true.
	lambda_feat	Valeurs des entiers positifs. La valeur par défaut est 10.
	lambda_l1	Valeurs des entiers positifs. La valeur par défaut est 100.
	lsgan	true ou false. La valeur par défaut est true.
	n_blocks_global	Valeurs des entiers positifs. La valeur par défaut est 9.
	n_blocks_local	Valeurs des entiers positifs. La valeur par défaut est 3.
	n_downsample_global	Valeurs des entiers positifs. La valeur par défaut est 4.
	n_dscr	Valeurs des entiers positifs. La valeur par défaut est 2.
	n_dscr_filters	Valeurs des entiers positifs. La valeur par défaut est 64.
	n_gen_filters	Valeurs des entiers positifs. La valeur par défaut est 64.
	n_layers_dscr	Valeurs des entiers positifs. La valeur par défaut est 3.
	n_local_enhancers	Valeurs des entiers positifs. La valeur par défaut est 1.
	norm	instance ou batch. La valeur par défaut est instance.
	vgg_loss	true ou false. La valeur par défaut est true.
PSETAE (classification de pixels)	channels_of_interest	Liste des numéros de canaux (entiers positifs).
	d_k	Valeurs des entiers positifs. La valeur par défaut est 32.
	dropout	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,2.
	min_points	Multiples entiers de 64.
	mlp1	Liste des entiers positifs. La valeur par défaut est 32, 64.
	mlp2	Liste des entiers positifs. La valeur par défaut est 128, 128.
	mlp4	Liste des entiers positifs. La valeur par défaut est 64, 32.
	n_head	Valeurs des entiers positifs. La valeur par défaut est 4.
	pooling	mean, std, max, ou min.
	T	Valeurs des entiers positifs. La valeur par défaut est 1000.
	timesteps_of_interest	Liste des entiers positifs.
Pyramid Scene Parsing Network (classification de pixels)	chip_size	Entiers compris entre 0 et la taille de l’image.
	class_balancing	true ou false.
	dice_loss_average	micro ou macro. La valeur par défaut est micro.
	dice_loss_fraction	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0.
	focal_loss	true ou false.
	ignore_classes	Valeurs de classe valides.
	keep_dilation	true ou false. La valeur par défaut est false.
	monitor	valid_loss ou accuracy.
	mixup	true ou false.
	pointrend	true ou false. La valeur par défaut est false.
	pyramid_sizes	[couche de convolution 1, couche de convolution 2, ... , couche de convolution n]
	use_net	true ou false.
RetinaNet (détection d’objets)	chip_size	Entiers compris entre 0 et la taille de l’image.
	monitor	valid_loss ou average_precision.
	ratios	Valeur de ratio 1, valeur de ratio 2, valeur de ratio 3. La valeur par défaut est 0.5,1,2.
	scales	[valeur d’échelle 1, valeur d’échelle 2, valeur d’échelle 3] La valeur par défaut est [1, 0.8, 0.63].
SAMLoRA (classification de pixels)	class_balancing	true ou false.
SAMLoRA (classification de pixels)	ignore_classes	Valeurs de classe valides.
Single Shot Detector (détection d’objets)	backend	pytorch ou tensorflow. La valeur par défaut est pytorch.
	bias	Valeur à virgule flottante. La valeur par défaut est -0,4.
	chip_size	Entiers compris entre 0 et la taille de l’image. La valeur par défaut est de 0,3.
	drop	Valeur à virgule flottante entre 0 et 1.
	focal_loss	true ou false. La valeur par défaut est false.
	grids	Valeurs entières supérieures à 0.
	location_loss_factor	Valeur à virgule flottante entre 0 et 1.
	monitor	valid_loss ou average_precision.
	ratios	[valeur horizontale, valeur verticale]
	zooms	Valeur de zoom où 1,0 est le zoom normal.
Super-résolution avec backbone SR3 (conversion d’images)	attn_res	Entiers supérieurs à 0. La valeur par défaut est 16.
	channel_mults	Ensembles de multiplicateurs entiers. La valeur par défaut est [1, 2, 4, 4, 8, 8].
	downsample_factor	Valeur de l’entier positif. La valeur par défaut est 4.
	dropout	Valeur à virgule flottante. La valeur par défaut est 0.
	inner_channel	Valeur entière supérieure à 0. La valeur par défaut est 64.
	linear_start	Entier horaire. La valeur par défaut est 1e-02.
	linear_end	Entier horaire. La valeur par défaut est 1e-06.
	n_timestep	Valeur entière supérieure à 0. La valeur par défaut est 1000.
	norm_groups	Valeur entière supérieure à 0. La valeur par défaut est 32.
	res_blocks	Valeur entière supérieure à 0. La valeur par défaut est 3.
	schedule	linear, warmup10, warmup50, const, jsd ou cosine. La valeur par défaut est linear.
Super-résolution avec backbone SR3_UViT (conversion d’images)	depth	Valeur du point d’entier positif. La valeur par défaut est 17.
	embed_dim	Valeur du point d’entier positif. La valeur par défaut est 768.
	mlp_ratio	Valeur de la virgule flottante positive. La valeur par défaut est 4.0.
	num_heads	Valeur du point d’entier positif. La valeur par défaut est 12.
	patch_size	Valeur du point d’entier positif. La valeur par défaut est 16.
	qkv_bias	true ou false. La valeur par défaut est false.
U-Net (classification de pixels)	chip_size	Entiers compris entre 0 et la taille de l’image.
	class_balancing	true ou false.
	dice_loss_average	micro ou macro. La valeur par défaut est micro.
	dice_loss_fraction	Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0.
	focal_loss	true ou false.
	ignore_classes	Valeurs de classe valides.
	monitor	valid_loss ou accuracy.
	mixup	true ou false.

Arguments d’inférence

Les arguments ci-après permettent de contrôler la manière dont les modèles de Deep Learning sont entraînés pour l’inférence. Les informations du paramètre Définition de modèle sont utilisées pour renseigner le paramètre Arguments dans les outils d’inférence. Ces arguments varient selon l’architecture du modèle. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil.


Argument		Type d’inférence	Valeur valides
batch_size	Nombre de tuiles d’image traitées à chaque étape de l’inférence du modèle. Ce nombre dépend de la mémoire de la carte graphique. L’argument est disponible pour toutes les architectures de modèle.	Classer les objets Classer les pixels Détecter les modifications Détecter des objets	Valeurs entières supérieures à 0 ; généralement un entier à la puissance 2ⁿ.
direction	L’image est convertie d’un domaine à un autre. Pour plus d’informations sur cet argument, reportez-vous à la rubrique Fonctionnement de CycleGAN. L’argument est uniquement disponible pour l’architecture CycleGAN.	Classer les pixels	Les options disponibles sont AtoB et BtoA.
exclude_pad_detections	\Si la valeur est vraie, les détections potentiellement tronquées sur les arêtes qui se trouvent dans la région remplie de fragments d’image sont filtrées. L’argument est disponible pour SSD, RetinaNet, YOLOv3, DETReg, MMDetection et Faster RCNN uniquement.	Détecter des objets	true ou false.
merge_policy	La stratégie utilisée pour fusionner les prévisions augmentées. Applicable uniquement si l’augmentation du temps de test est utilisée. Pour l’outil Classer des pixels à l’aide du Deep Learning, l’argument est disponible pour les architectures MultiTaskRoadExtractor et ConnectNet. Si IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles. Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est uniquement disponible pour MaskRCNN.	Classer les pixels Détecter des objets	Les options disponibles sont mean, max et min.
nms_overlap	Ratio de superposition maximale de deux entités se chevauchant, défini comme le rapport entre la zone d’intersection et la zone d’union. L’argument est disponible pour toutes les architectures de modèle.	Détecter des objets	Valeur à virgule flottante comprise entre 0,0 et 1,0. La valeur par défaut est 0,1.
output_classified_raster	Chemin vers le raster de sortie. L’argument est disponible uniquement pour MaXDeepLab.	Détecter des objets	Chemin et nom de fichier du raster classé en sortie.
padding	Le nombre de pixels en bordure des tuiles d’image à partir duquel les prévisions sont fusionnées pour les tuiles adjacentes. Pour lisser la sortie tout en réduisant les artefacts, augmentez la valeur. La valeur maximale de la marge intérieure peut représenter la moitié de la valeur de la taille d’une tuile. L’argument est disponible pour toutes les architectures de modèle.	Classer les pixels Détecter les modifications Détecter des objets	Valeurs entières supérieures à 0 et inférieures à la moitié de la valeur de la taille de tuile.
predict_background	S’il est défini sur Vrai, la classe d’arrière-plan est également classée. L’argument est disponible pour UNET, PSPNET, DeepLab et MMSegmentation.	Classer les pixels	true ou false.
return_probability_raster	Si l’option est définie sur True (Vrai), la sortie est un raster de probabilité. Un raster de probabilité est un raster dont les pixels définissent la probabilité selon laquelle la variable d’intérêt est supérieure ou inférieure à une valeur seuil définie. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure dans le fichier .emd du modèle, les architectures MultiTaskRoadExtractor et ConnectNet sont disponibles. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure et que IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles.	Classer les pixels	true ou false.
score_threshold	Les prévisions au-dessus du score de confiance sont incluses dans le résultat. L’argument est disponible pour toutes les architectures de modèle.	Classer les objets	Compris entre 0 et 1,0.
test_time_augmentation	Procède à l’augmentation du temps de test lors de la prévision. Si la valeur est vraie, les prévisions des variants inversés et pivotés de l’image en entrée sont fusionnées dans la sortie finale. L’argument est disponible pour quasiment toutes les architectures de modèle.	Classer les objets Classer les pixels	true ou false.
threshold	Les prévisions dont le score de confiance est supérieure à ce seuil sont incluses dans le résultat. Pour l’outil Classer des pixels à l’aide du Deep Learning, si ArcGISLearnVersion est de version 1.8.4 ou supérieure dans le fichier .emd du modèle, les architectures MultiTaskRoadExtractor et ConnectNet sont disponibles. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure et que IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles. Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est disponible pour toutes les architectures de modèle.	Classer les pixels Détecter des objets	Compris entre 0 et 1,0.
thinning	Affine ou simplifie les bords prévus. Si IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont disponibles.	Classer les pixels	true ou false.
tile_size	tile_size : la largeur et la hauteur des tuiles d’image dans l’imagerie est fractionnée en vue de la prévision. Pour l’outil Classer des pixels à l’aide du Deep Learning, l’argument est disponible uniquement pour l’architecture CycleGAN. Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est uniquement disponible pour MaskRCNN.	Classer les pixels Détecter des objets	Valeurs entières supérieures à 0 et inférieures à la taille de l’image.

Rubriques connexes

Vous avez un commentaire à formuler concernant cette rubrique ?