Mit AutoDL trainieren (Image Analyst)—ArcGIS AllSource

Mit der Image Analyst-Lizenz verfügbar.

Zusammenfassung

Mit diesem Werkzeug wird ein Deep-Learning-Modell trainiert, indem Training-Pipelines erstellt und ein Großteil des Trainingsprozesses automatisiert wird. Dazu gehören Datenerweiterung, Modellauswahl, Hyperparameter-Optimierung und Batch-Größen-Deduktion. Die Ausgaben enthalten Performance-Kennwerte des besten Modells in den Trainingsdaten sowie das trainierte Deep-Learning-Modellpaket (.dlpk), das als Eingabe für das Werkzeug Features mit KI-Modellen extrahieren verwendet werden kann, um Vorhersagen für neue Bilddaten zu treffen.

Weitere Informationen zur Funktionsweise von AutoDL

Verwendung

Sie müssen das richtige Deep-Learning-Framework für Python in ArcGIS AllSource installieren.
Informationen zum Installieren von Deep-Learning-Frameworks für ArcGIS
Weitere Informationen zum Trainieren von Modellen in einer nicht verbundenen Umgebung finden Sie unter Additional Installation for Disconnected Environment.
Wie lange es dauert, bis das Werkzeug das trainierte Modell erstellt, hängt von den folgenden Faktoren ab:
- Menge der beim Training bereitgestellten Daten
- Wert des Parameters AutoDL-Modus
- Wert des Parameters Limit für Gesamtzeit (Stunden)
Standardmäßig ist der Timer für alle Modi auf 2 Stunden festgelegt. Im Modus Basis werden die ausgewählten Netzwerke innerhalb der angegebenen Zeit anhand des Standard-Backbones trainiert. Im Modus Erweitert wird die Gesamtzeit in zwei Hälften geteilt. In der ersten Hälfte wird die Modellbewertung durchgeführt. In der zweiten Hälfte werden die beiden Modelle mit der besten Performance für die Bewertung anhand anderer Backbones ausgewählt. Wenn eine große Menge von Daten trainiert werden soll, können innerhalb von 2 Stunden möglicherweise nicht alle ausgewählten Modelle ausgewertet werden. In solchen Fällen wird das Modell, das in 2 Stunden am besten abschneidet, als optimales Modell betrachtet. Sie können entweder dieses Modell verwenden oder das Werkzeug mit einem höheren Wert für den Parameter Limit für Gesamtzeit (Stunden) erneut ausführen.
Dieses Werkzeug kann auch zur Optimierung eines vorhandenen trainierten Modells verwendet werden. Beispielsweise kann für ein vorhandenes Modell, das für Autos trainiert wurde, ein Finetuning durchgeführt werden, um ein Modell für die Identifizierung von Lastwagen zu trainieren.
Zur Ausführung dieses Werkzeugs ist ein Computer mit Grafikprozessor erforderlich. Wenn Sie mehrere Grafikprozessoren haben, verwenden Sie die Umgebungsvariable GPU ID.
Die Eingabe-Trainingsdaten für dieses Werkzeug müssen die Bilder- und Beschriftungsordner umfassen, die vom Werkzeug Trainingsdaten für Deep Learning exportieren generiert werden.
Mögliche Anwendungsfälle für das Werkzeug wären das Trainieren von Modellen für die Objekterkennung und Pixelklassifizierung zum Extrahieren von Features wie Gebäudegrundrissen, Becken, Solarkollektoren, Landnutzungsklassifizierung usw.
Weitere Informationen zu den Voraussetzungen für die Ausführung dieses Werkzeugs und eventuell dabei auftretenden Problemen finden Sie unter Häufig gestellte Fragen zu Deep Learning.

Parameter

Beschriftung	Erläuterung	Datentyp
Eingabe-Trainingsdaten	Die Ordner mit den Bildausschnitten, Beschriftungen und Statistiken, die zum Trainieren des Modells benötigt werden. Dies ist die Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren. Das Metadatenformat der exportierten Daten muss Classified_Tiles, PASCAL_VOC_rectangles oder KITTI_rectangles lauten.	Folder
Ausgabemodell	Das trainierte Ausgabemodell, das als Deep-Learning-Paket (.dlpk-Datei) gespeichert wird.	File
Vortrainiertes Modell (optional)	Ein vortrainiertes Modell, das zum Finetuning des neuen Modells verwendet wird. Die Eingabe ist eine Esri Modelldefinitionsdatei (.emd) oder eine Deep-Learning-Paketdatei (.dlpk). Für ein vortrainiertes Modell mit ähnlichen Klassen kann ein Finetuning durchgeführt werden, um es auf das neue Modell abzustimmen. Das vortrainierte Modell muss mit dem gleichen Modelltyp und dem gleichen Backbone-Modell trainiert worden sein, das für das Training des neuen Modells verwendet wird.	File
Limit für Gesamtzeit (Stunden) (optional)	Das Limit für die Gesamtzeit des AutoDL-Modelltrainings in Stunden. Der Standardwert liegt bei 2 Stunden.	Double
AutoDL-Modus (optional)	Gibt an, welcher AutoDL-Modus verwendet und mit welcher Intensität die AutoDL-Suche durchgeführt wird. Grundlegend—Es wird der Basismodus verwendet. Dieser Modus dient zum Trainieren aller ausgewählten Netzwerke ohne Hyperparameter-Optimierung. Erweitert—Es wird der erweiterte Modus verwendet. Mit diesem Modus wird eine Hyperparameter-Optimierung für die beiden Modelle mit der besten Performance durchgeführt.	String
Neuronales Netzwerk (optional)	Gibt die Architekturen an, die zum Trainieren des Modells verwendet werden. Standardmäßig werden alle Netze verwendet. SingleShotDetector—Die Architektur "SingleShotDetector" wird zum Trainieren des Modells verwendet. SingleShotDetector wird für die Objekterkennung eingesetzt. RetinaNet—Die Architektur "RetinaNet" wird zum Trainieren des Modells verwendet. RetinaNet wird für die Objekterkennung eingesetzt. FasterRCNN—Die Architektur "FasterRCNN" wird zum Trainieren des Modells verwendet. FasterRCNN wird für die Objekterkennung eingesetzt. YOLOv3—Die Architektur "YOLOv3" wird zum Trainieren des Modells verwendet. Für die Objekterkennung wird YOLOv3 verwendet. HRNet—Die Architektur "HRNet" wird zum Trainieren des Modells verwendet. HRNet wird für die Pixelklassifizierung verwendet. ATSS—Die Architektur "ATSS" wird zum Trainieren des Modells verwendet. ATSS wird für die Objekterkennung eingesetzt. CARAFE—Die Architektur "CARAFE" wird zum Trainieren des Modells verwendet. CARAFE wird für die Objekterkennung eingesetzt. CascadeRCNN—Die Architektur "CascadeRCNN" wird zum Trainieren des Modells verwendet. CascadeRCNN wird für die Objekterkennung eingesetzt. CascadeRPN—Die Architektur "CascadeRPN" wird zum Trainieren des Modells verwendet. CascadeRPN wird für die Objekterkennung eingesetzt. DCN—Die Architektur "DCN" wird zum Trainieren des Modells verwendet. DCN wird für die Objekterkennung eingesetzt. DeepLab—Die Architektur "DeepLab" wird zum Trainieren des Modells verwendet. DeepLab wird für die Pixelklassifizierung verwendet. UnetClassifier—Die Architektur "UnetClassifier" wird zum Trainieren des Modells verwendet. UnetClassifier wird für die Pixelklassifizierung verwendet. DeepLabV3Plus—Die DeepLabV3Plus-Architektur wird zum Trainieren des Modells verwendet. DeepLabV3Plus wird für die Pixelklassifizierung eingesetzt. PSPNetClassifier—Die Architektur "PSPNetClassifier" wird zum Trainieren des Modells verwendet. PSPNetClassifier wird für die Pixelklassifizierung verwendet. ANN—Die Architektur "ANN" wird zum Trainieren des Modells verwendet. ANN wird für die Pixelklassifizierung verwendet. APCNet—Die Architektur "APCNet" wird zum Trainieren des Modells verwendet. APCNet wird für die Pixelklassifizierung verwendet. CCNet—Die Architektur "CCNet" wird zum Trainieren des Modells verwendet. CCNet wird für die Pixelklassifizierung verwendet. CGNet—Die Architektur "CGNet" wird zum Trainieren des Modells verwendet. CGNet wird für die Pixelklassifizierung verwendet. DETReg—Die Architektur "DETReg" wird zum Trainieren des Modells verwendet. DETReg wird für die Objekterkennung eingesetzt. DynamicRCNN—Die DynamicRCNN-Architektur wird zum Trainieren des Modells verwendet. DynamicRCNN wird für die Objekterkennung eingesetzt. EmpiricalAttention—Die EmpiricalAttention-Architektur wird zum Trainieren des Modells verwendet. EmpiricalAttention wird für die Objekterkennung eingesetzt. FCOS—Die FCOS-Architektur wird zum Trainieren des Modells verwendet. FCOS wird für die Objekterkennung eingesetzt. FoveaBox—Die FoveaBox-Architektur wird zum Trainieren des Modells verwendet. FoveaBox wird für die Objekterkennung eingesetzt. FSAF—Die FSAF-Architektur wird zum Trainieren des Modells verwendet. FSAF wird für die Objekterkennung eingesetzt. GHM—Die GHM-Architektur wird zum Trainieren des Modells verwendet. GHM wird für die Objekterkennung eingesetzt. LibraRCNN—Die LibraRCNN-Architektur wird zum Trainieren des Modells verwendet. LibraRCNN wird für die Objekterkennung eingesetzt. PaFPN—Die PaFPN-Architektur wird zum Trainieren des Modells verwendet. PaFPN wird für die Objekterkennung eingesetzt. Res2Net—Die Res2Net-Architektur wird zum Trainieren des Modells verwendet. Res2Net wird für die Objekterkennung eingesetzt. SABL—Die SABL-Architektur wird zum Trainieren des Modells verwendet. SABL wird für die Objekterkennung eingesetzt. VFNet—Die VFNet-Architektur wird zum Trainieren des Modells verwendet. VFNet wird für die Objekterkennung eingesetzt. DMNet—Die DMNet-Architektur wird zum Trainieren des Modells verwendet. DMNet wird für die Pixelklassifizierung eingesetzt. DNLNet—Die DNLNet-Architektur wird zum Trainieren des Modells verwendet. DNLNet wird für die Pixelklassifizierung eingesetzt. FastSCNN—Die FastSCNN-Architektur wird zum Trainieren des Modells verwendet. FastSCNN wird für die Pixelklassifizierung eingesetzt. FCN—Die FCN-Architektur wird zum Trainieren des Modells verwendet. FCN wird für die Pixelklassifizierung eingesetzt. GCNet—Die GCNet-Architektur wird zum Trainieren des Modells verwendet. GCNet wird für die Pixelklassifizierung eingesetzt. MobileNetV2—Die MobileNetV2-Architektur wird zum Trainieren des Modells verwendet. MobileNetV2 wird für die Pixelklassifizierung eingesetzt. NonLocalNet—Die NonLocalNet-Architektur wird zum Trainieren des Modells verwendet. NonLocalNet wird für die Pixelklassifizierung eingesetzt. OCRNet—Die Mask2Former-Architektur wird zum Trainieren des Modells verwendet. Mask2Former wird für die Pixelklassifizierung eingesetzt. PSANet—Die PSANet-Architektur wird zum Trainieren des Modells verwendet. PSANet wird für die Pixelklassifizierung eingesetzt. SemFPN—Die SemFPN-Architektur wird zum Trainieren des Modells verwendet. SemFPN wird für die Pixelklassifizierung eingesetzt. UperNet—Die UperNet-Architektur wird zum Trainieren des Modells verwendet. UperNet wird für die Pixelklassifizierung eingesetzt. MaskRCNN—Die Architektur "MaskRCNN" wird zum Trainieren des Modells verwendet. MaskRCNN wird für die Objekterkennung eingesetzt. SamLoRA—Die SamLoRA-Architektur wird zum Trainieren des Modells verwendet. SamLoRA wird für die Pixelklassifizierung eingesetzt. RTDetrV2—Die RTDetrV2-Architektur wird zum Trainieren des Modells verwendet. RTDetrV2 wird für die Objekterkennung verwendet.	String
Ausgewertete Modelle speichern (optional)	Gibt an, ob alle ausgewerteten Modelle gespeichert werden. Aktiviert: Alle ausgewerteten Modelle werden gespeichert. Deaktiviert: Nur das Modell mit der besten Performance wird gespeichert. Dies ist die Standardeinstellung.	Boolean

Abgeleitete Ausgabe

Beschriftung	Erläuterung	Datentyp
Ausgabe-Modelldatei	Die Ausgabe-Modelldatei.	File

TrainUsingAutoDL(in_data, out_model, {pretrained_model}, {total_time_limit}, {autodl_mode}, {networks}, {save_evaluated_models})

Name	Erläuterung	Datentyp
in_data	Die Ordner mit den Bildausschnitten, Beschriftungen und Statistiken, die zum Trainieren des Modells benötigt werden. Dies ist die Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren. Das Metadatenformat der exportierten Daten muss Classified_Tiles, PASCAL_VOC_rectangles oder KITTI_rectangles lauten.	Folder
out_model	Das trainierte Ausgabemodell, das als Deep-Learning-Paket (.dlpk-Datei) gespeichert wird.	File
pretrained_model (optional)	Ein vortrainiertes Modell, das zum Finetuning des neuen Modells verwendet wird. Die Eingabe ist eine Esri Modelldefinitionsdatei (.emd) oder eine Deep-Learning-Paketdatei (.dlpk). Für ein vortrainiertes Modell mit ähnlichen Klassen kann ein Finetuning durchgeführt werden, um es auf das neue Modell abzustimmen. Das vortrainierte Modell muss mit dem gleichen Modelltyp und dem gleichen Backbone-Modell trainiert worden sein, das für das Training des neuen Modells verwendet wird.	File
total_time_limit (optional)	Das Limit für die Gesamtzeit des AutoDL-Modelltrainings in Stunden. Der Standardwert liegt bei 2 Stunden.	Double
autodl_mode (optional)	Gibt an, welcher AutoDL-Modus verwendet und mit welcher Intensität die AutoDL-Suche durchgeführt wird. BASIC—Es wird der Basismodus verwendet. Dieser Modus dient zum Trainieren aller ausgewählten Netzwerke ohne Hyperparameter-Optimierung. ADVANCED—Es wird der erweiterte Modus verwendet. Mit diesem Modus wird eine Hyperparameter-Optimierung für die beiden Modelle mit der besten Performance durchgeführt.	String
networks [networks,...] (optional)	Gibt die Architekturen an, die zum Trainieren des Modells verwendet werden. SingleShotDetector—Die Architektur "SingleShotDetector" wird zum Trainieren des Modells verwendet. SingleShotDetector wird für die Objekterkennung eingesetzt. RetinaNet—Die Architektur "RetinaNet" wird zum Trainieren des Modells verwendet. RetinaNet wird für die Objekterkennung eingesetzt. FasterRCNN—Die Architektur "FasterRCNN" wird zum Trainieren des Modells verwendet. FasterRCNN wird für die Objekterkennung eingesetzt. YOLOv3—Die Architektur "YOLOv3" wird zum Trainieren des Modells verwendet. Für die Objekterkennung wird YOLOv3 verwendet. HRNet—Die Architektur "HRNet" wird zum Trainieren des Modells verwendet. HRNet wird für die Pixelklassifizierung verwendet. ATSS—Die Architektur "ATSS" wird zum Trainieren des Modells verwendet. ATSS wird für die Objekterkennung eingesetzt. CARAFE—Die Architektur "CARAFE" wird zum Trainieren des Modells verwendet. CARAFE wird für die Objekterkennung eingesetzt. CascadeRCNN—Die Architektur "CascadeRCNN" wird zum Trainieren des Modells verwendet. CascadeRCNN wird für die Objekterkennung eingesetzt. CascadeRPN—Die Architektur "CascadeRPN" wird zum Trainieren des Modells verwendet. CascadeRPN wird für die Objekterkennung eingesetzt. DCN—Die Architektur "DCN" wird zum Trainieren des Modells verwendet. DCN wird für die Objekterkennung eingesetzt. DeepLab—Die Architektur "DeepLab" wird zum Trainieren des Modells verwendet. DeepLab wird für die Pixelklassifizierung verwendet. UnetClassifier—Die Architektur "UnetClassifier" wird zum Trainieren des Modells verwendet. UnetClassifier wird für die Pixelklassifizierung verwendet. DeepLabV3Plus—Die DeepLabV3Plus-Architektur wird zum Trainieren des Modells verwendet. DeepLabV3Plus wird für die Pixelklassifizierung eingesetzt. PSPNetClassifier—Die Architektur "PSPNetClassifier" wird zum Trainieren des Modells verwendet. PSPNetClassifier wird für die Pixelklassifizierung verwendet. ANN—Die Architektur "ANN" wird zum Trainieren des Modells verwendet. ANN wird für die Pixelklassifizierung verwendet. APCNet—Die Architektur "APCNet" wird zum Trainieren des Modells verwendet. APCNet wird für die Pixelklassifizierung verwendet. CCNet—Die Architektur "CCNet" wird zum Trainieren des Modells verwendet. CCNet wird für die Pixelklassifizierung verwendet. CGNet—Die Architektur "CGNet" wird zum Trainieren des Modells verwendet. CGNet wird für die Pixelklassifizierung verwendet. DETReg—Die Architektur "DETReg" wird zum Trainieren des Modells verwendet. DETReg wird für die Objekterkennung eingesetzt. DynamicRCNN—Die DynamicRCNN-Architektur wird zum Trainieren des Modells verwendet. DynamicRCNN wird für die Objekterkennung eingesetzt. EmpiricalAttention—Die EmpiricalAttention-Architektur wird zum Trainieren des Modells verwendet. EmpiricalAttention wird für die Objekterkennung eingesetzt. FCOS—Die FCOS-Architektur wird zum Trainieren des Modells verwendet. FCOS wird für die Objekterkennung eingesetzt. FoveaBox—Die FoveaBox-Architektur wird zum Trainieren des Modells verwendet. FoveaBox wird für die Objekterkennung eingesetzt. FSAF—Die FSAF-Architektur wird zum Trainieren des Modells verwendet. FSAF wird für die Objekterkennung eingesetzt. GHM—Die GHM-Architektur wird zum Trainieren des Modells verwendet. GHM wird für die Objekterkennung eingesetzt. LibraRCNN—Die LibraRCNN-Architektur wird zum Trainieren des Modells verwendet. LibraRCNN wird für die Objekterkennung eingesetzt. PaFPN—Die PaFPN-Architektur wird zum Trainieren des Modells verwendet. PaFPN wird für die Objekterkennung eingesetzt. Res2Net—Die Res2Net-Architektur wird zum Trainieren des Modells verwendet. Res2Net wird für die Objekterkennung eingesetzt. SABL—Die SABL-Architektur wird zum Trainieren des Modells verwendet. SABL wird für die Objekterkennung eingesetzt. VFNet—Die VFNet-Architektur wird zum Trainieren des Modells verwendet. VFNet wird für die Objekterkennung eingesetzt. DMNet—Die DMNet-Architektur wird zum Trainieren des Modells verwendet. DMNet wird für die Pixelklassifizierung eingesetzt. DNLNet—Die DNLNet-Architektur wird zum Trainieren des Modells verwendet. DNLNet wird für die Pixelklassifizierung eingesetzt. FastSCNN—Die FastSCNN-Architektur wird zum Trainieren des Modells verwendet. FastSCNN wird für die Pixelklassifizierung eingesetzt. FCN—Die FCN-Architektur wird zum Trainieren des Modells verwendet. FCN wird für die Pixelklassifizierung eingesetzt. GCNet—Die GCNet-Architektur wird zum Trainieren des Modells verwendet. GCNet wird für die Pixelklassifizierung eingesetzt. MobileNetV2—Die MobileNetV2-Architektur wird zum Trainieren des Modells verwendet. MobileNetV2 wird für die Pixelklassifizierung eingesetzt. NonLocalNet—Die NonLocalNet-Architektur wird zum Trainieren des Modells verwendet. NonLocalNet wird für die Pixelklassifizierung eingesetzt. Mask2Former—Die Mask2Former-Architektur wird zum Trainieren des Modells verwendet. Mask2Former wird für die Pixelklassifizierung eingesetzt. PSANet—Die PSANet-Architektur wird zum Trainieren des Modells verwendet. PSANet wird für die Pixelklassifizierung eingesetzt. SemFPN—Die SemFPN-Architektur wird zum Trainieren des Modells verwendet. SemFPN wird für die Pixelklassifizierung eingesetzt. UperNet—Die UperNet-Architektur wird zum Trainieren des Modells verwendet. UperNet wird für die Pixelklassifizierung eingesetzt. MaskRCNN—Die Architektur "MaskRCNN" wird zum Trainieren des Modells verwendet. MaskRCNN wird für die Objekterkennung eingesetzt. SamLoRA—Die SamLoRA-Architektur wird zum Trainieren des Modells verwendet. SamLoRA wird für die Pixelklassifizierung eingesetzt. RTDetrV2—Die RTDetrV2-Architektur wird zum Trainieren des Modells verwendet. RTDetrV2 wird für die Objekterkennung verwendet. Standardmäßig werden alle Netze verwendet.	String
save_evaluated_models (optional)	Gibt an, ob alle ausgewerteten Modelle gespeichert werden. SAVE_ALL_MODELS—Alle ausgewerteten Modelle werden gespeichert. SAVE_BEST_MODEL—Nur das Modell mit der besten Performance wird gespeichert. Dies ist die Standardeinstellung.	Boolean

Abgeleitete Ausgabe

Name	Erläuterung	Datentyp
output_model_file	Die Ausgabe-Modelldatei.	File

Codebeispiel

TrainUsingAutoDL (Python-Fenster)

In diesem Beispiel wird die Verwendung der Funktion TrainUsingAutoDL gezeigt.

# Name: TrainUsingAutoDL.py
# Description: Train a deep learning model on imagery data with
# automatic hyperparameter selection.
  
# Import system modules
import arcpy
import os

# Set local variables

datapath = "path_to_training_data" 
out_path = "path_to_trained_model"

out_model = os.path.join(out_path, "mymodel")

# Run Train Using AutoDL Model
arcpy.geoai.TrainUsingAutoDL(
    datapath, out_model, None, 2, "BASIC", 
    ["ATSS", "DCN", "FasterRCNN", "RetinaNet", "SingleShotDetector", "YOLOv3"], 
    "SAVE_BEST_MODEL")

TrainUsingAutoDL (Python-Fenster)

In diesem Beispiel wird die Verwendung der Funktion TrainUsingAutoDL gezeigt.

# Name: TrainUsingAutoDL.py
# Description: Train a deep learning model on imagery data with 
# automatic hyperparameter selection.
  
# Import system modules
import arcpy
import os

# Set local variables
datapath  = "path_to_training_data" 
out_path = "path_to_trained_model"
out_model = os.path.join(out_path, "mymodel")

# Run Train Using AutoML Model
arcpy.ia.TrainUsingAutoDL(datapath, out_model, None, 2, "BASIC", 
                    "ATSS;DCN;FasterRCNN;RetinaNet;SingleShotDetector;YOLOv3", 
                    "SAVE_BEST_MODEL")

Umgebungen

GPU-ID

Zusammenfassung

Verwendung

Parameter

Abgeleitete Ausgabe

Abgeleitete Ausgabe

Codebeispiel

Umgebungen

Verwandte Themen

In diesem Thema