Beschriftung | Erläuterung | Datentyp |
Eingabe-Trainings-Features | Die Eingabe-Feature-Class, die zum Trainieren des Modells verwendet wird. | Feature Layer; Table View |
Ausgabemodell | Das trainierte Ausgabemodell, das als Deep-Learning-Paket (.dlpk-Datei) gespeichert wird. | File |
Vorherzusagende Variable | Ein Feld des Parameters Eingabe-Trainings-Features mit den Werten, die zum Trainieren des Modells verwendet werden. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird. | Field |
Variable als kategorial behandeln (optional) | Gibt an, ob der Wert des Parameters Vorherzusagende Variable als Kategorievariable behandelt wird.
| Boolean |
Erklärende Trainingsvariablen (optional) | Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes des Parameters Vorherzusagende Variable unterstützen. Aktivieren Sie das zugehörige Kontrollkästchen für alle Variablen, die Klassen oder Kategorien darstellen (z. B. Landbedeckung, Anwesenheit oder Abwesenheit). | Value Table |
Erklärende Trainings-Entfernungs-Features (optional) | Die Features, deren Entfernungen von den Eingabe-Trainings-Features automatisch geschätzt und als weitere erklärende Variablen hinzugefügt werden. Entfernungen werden von den einzelnen erklärenden Trainings-Entfernungs-Features der Eingabe zu den nächsten Eingabe-Trainings-Features berechnet. Es werden Punkt- und Polygon-Features unterstützt, und wenn es sich bei den Eingabewerten für erklärende Trainings-Entfernungs-Features um Polygone handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. | Feature Layer |
Erklärende Trainings-Raster (optional) | Die Raster, deren Werte aus dem Raster extrahiert und als erklärende Variablen für das Modell behandelt werden. Jeder Layer bildet eine erklärende Variable. Der Wert der Raster-Zelle wird für jedes Feature in den Eingabe-Trainings-Features an der genauen Position extrahiert. Beim Extrahieren des Raster-Werts für kontinuierliche Raster wird bilineares Resampling verwendet. Beim Extrahieren eines Raster-Werts aus Kategorie-Rastern wird ein Nächster-Nachbar-Resampling durchgeführt. Wenn der Wert des Parameters Eingabe-Trainings-Features Polygone aufweist und Sie einen Wert für diesen Parameter angegeben haben, wird im Modell für jedes Polygon ein Raster-Wert verwendet. Jedem Polygon wird für kontinuierliche Raster der Durchschnittswert und für Kategorie-Raster die Mehrheit zugewiesen. Aktivieren Sie das Kontrollkästchen der Spalte Kategorial für alle Raster, die Klassen oder Kategorien darstellen, z. B. Landbedeckung, Anwesenheit oder Abwesenheit. | Value Table |
Limit für Gesamtzeit (Minuten) (optional) | Das Limit für die Gesamtzeit des AutoML-Modelltrainings in Minuten. Der Standardwert lautet 60 (1 Stunde). | Double |
AutoML-Modus (optional) | Gibt das Ziel von AutoML und die Intensität der AutoML-Suche an.
| String |
Algorithmen (optional) | Gibt die Algorithmen an, die beim Training verwendet werden. Standardmäßig werden alle Algorithmen verwendet.
| String |
Validierungsprozentsatz (optional) | Der Prozentsatz der Eingabedaten, die für die Validierung verwendet werden sollen. Der Standardwert ist 10. | Long |
Ausgabebericht (optional) | Der Ausgabebericht, der als .html-Datei generiert wird. Wenn der angegebene Pfad nicht leer ist, wird der Bericht in einem neuen Ordner im angegebenen Pfad erstellt. Der Bericht enthält Details zu den verschiedenen Modellen sowie zu den bei der Bewertung verwendeten Hyperparametern und zur Performance der einzelnen Modelle. Hyperparameter sind Parameter, mit denen der Trainingsprozess gesteuert wird. Sie werden beim Training nicht aktualisiert. Zu ihnen gehören die Modellarchitektur, die Lernrate, die Anzahl der Epochen usw. | File |
Ausgabetabelle zur Bedeutung (optional) | Eine Ausgabetabelle mit Informationen zur Wichtigkeit der einzelnen im Modell verwendeten erklärenden Variablen (Felder, Entfernungs-Features und Raster). | Table |
Ausgabe-Feature-Class (optional) | Der Feature-Layer mit den Werten, die von dem beim Trainings-Feature-Layer am besten abschneidenden Modell vorhergesagt wurden. Er kann zum Überprüfen der Modell-Performance durch einen visuellen Vergleich der vorgesagten Werte mit den Überprüfungsdaten verwendet werden. | Feature Class |
Bildanlagen hinzufügen (optional) | Gibt an, ob zum Trainieren eines Modells für multimodale oder gemischte Daten Bilder als erklärende Variablen des Wertes des Parameters Eingabe-Trainings-Features verwendet werden. Beim Trainieren eines tabellarischen Modells für multimodale oder gemischte Daten werden Machine-Learning- und Deep-Learning-Backbones in AutoML verwendet, um mit einem einzelnen Modell aus mehreren Typen von Datenformaten zu lernen. Die Eingabedaten können aus einer Kombination von erklärenden Variablen aus unterschiedlichen Datenquellen bestehen, z. B. Textbeschreibungen, entsprechende Bilder sowie zusätzliche Kategorie- und kontinuierliche Variablen.
| Boolean |
Attribute sensibler Features (optional) |
Bewertet und verbessert die Fairness der trainierten Modelle für Tabellendaten von Klassifizierungs- und Regressionsmodellen. Legen Sie für diesen Parameter die folgenden beiden Komponenten fest:
| Value Table |
Fairness-Kennwert (optional) | Gibt die Fairness-Kennwerte zum Messen der Fairness für Klassifizierungs- und Regressionsprobleme an, die bei der Rastersuche zum Auswählen des Modells mit der größten Fairness verwendet werden.
| String |
Zusammenfassung
Mit diesem Werkzeug wird ein Deep-Learning-Modell trainiert, indem Training-Pipelines erstellt und ein Großteil des Trainingsprozesses automatisiert wird. Dazu gehören explorative Datenanalyse, Feature-Auswahl, Feature Engineering, Modellauswahl, Hyperparameter-Optimierung und Modelltraining. Die Ausgaben enthalten Performance-Kennwerte des besten Modells in den Trainingsdaten sowie das trainierte Deep-Learning-Modellpaket (.dlpk), das als Eingabe für das Werkzeug Mit AutoML vorhersagen verwendet werden kann, um Vorhersagen für ein neues Dataset zu treffen.
Verwendung
Sie müssen das richtige Deep-Learning-Framework für Python in ArcGIS AllSource installieren.
Informationen zum Installieren von Deep-Learning-Frameworks für ArcGIS
Wie lange es dauert, bis das Werkzeug das trainierte Modell erstellt, hängt von den folgenden Faktoren ab:
- Menge der beim Training bereitgestellten Daten
- Wert des Parameters AutoML-Modus
Standardmäßig ist der Timer für alle Modi auf 60 Minuten festgelegt. Unabhängig von der Menge der beim Training verwendeten Daten beansprucht die Suche nach dem optimalen Modell bei der Option Grundlegend des Parameters AutoML-Modus nicht die gesamten 60 Minuten. Der Anpassungsprozess wird abgeschlossen, sobald das optimale Modell identifiziert ist. Die Option Erweitert beansprucht aufgrund der zusätzlichen Tasks Feature Engineering, Feature-Auswahl und Hyperparameter-Optimierung mehr Zeit. Neben den neuen Features, die durch Kombinieren mehrerer Features aus der Eingabe entstehen, erstellt das Werkzeug räumliche Features mit Namen von "zone3_id" bis "zone7_id". Diese neuen Features werden aus den Positionsinformationen in den Eingabedaten extrahiert und zum Trainieren besserer Modelle verwendet. Weitere Informationen zu den neuen räumlichen Features finden Sie unter Funktionsweise von AutoML. Wenn eine große Menge von Daten trainiert werden soll, können in 60 Minuten möglicherweise nicht alle Kombinationen der Modelle bewertet werden. In solchen Fällen wird das Modell, das in 60 Minuten am besten abschneidet, als optimales Modell betrachtet. Sie können entweder dieses Modell verwenden oder das Werkzeug mit einem höheren Wert für den Parameter Limit für Gesamtzeit (Minuten) erneut ausführen.
Eine ArcGIS Spatial Analyst extension-Lizenz ist erforderlich, um Raster als erklärende Variablen zu verwenden.
Der Wert des Parameters Ausgabebericht ist eine Datei im HTML-Format, mit deren Hilfe die Informationen im Arbeitsverzeichnis überprüft werden können.
Die erste Seite des Berichts enthält Links zu den einzelnen bewerteten Modellen und gibt Aufschluss über ihre Performance bei Verwendung eines Validierungs-Datasets zusammen mit der Dauer des Trainings der Modelle. Der Bericht zeigt basierend auf den Bewertungskennwerten das ausgewählte Modell mit der besten Performance an.
RMSE ist der Standardbewertungskennwert für Regressionsprobleme, während Logloss der Standardkennwert für Klassifizierungsprobleme ist. Die folgenden Kennwerte sind im Ausgabebericht verfügbar:
- Klassifizierung: AUC, Logloss, F1, Accuracy, Average Precision
- Regression: MSE, RMSE, MAE, R2, MAPE, Spearman-Koeffizient, Pearson-Koeffizient
Wenn Sie auf eine Modellkombination klicken, werden zugehörige Details zum Training einschließlich der Lernkurven, der Variablenbedeutungskurven, der verwendeten Hyperparameter usw. angezeigt.
Anwendungsbeispiele für das Werkzeug sind das Trainieren eines auf Wetterfaktoren basierenden Modells für die jährliche Erzeugung von Sonnenenergie, das Trainieren eines Modells für Erntevorhersagen mithilfe zugehöriger Variablen und das Trainieren eines Modells für Vorhersagen von Immobilienwerten.
Weitere Informationen zu den Voraussetzungen für die Ausführung dieses Werkzeugs und eventuell dabei auftretenden Problemen finden Sie unter Häufig gestellte Fragen zu Deep Learning.
Um den Parameter Bildanlagen hinzufügen zu verwenden, bereiten Sie den Wert des Parameters Eingabe-Trainings-Features für Bildanlagen wie folgt vor:
- Stellen Sie sicher, dass der Feature-Layer für jeden Datensatz ein Feld mit Bilddateipfaden enthält.
- Verwenden Sie das Werkzeug Anlagen aktivieren, um Anlagen für den Feature-Layer zu aktivieren.
- Verwenden Sie das Werkzeug Anlagen hinzufügen, um das Feld für den Bildpfad anzugeben und es dem Feature-Layer als Bildanlage hinzuzufügen.
Parameter
arcpy.geoai.TrainUsingAutoML(in_features, out_model, variable_predict, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {total_time_limit}, {autoML_mode}, {algorithms}, {validation_percent}, {out_report}, {out_importance}, {out_features}, {add_image_attachments}, {sensitive_feature}, {fairness_metric})
Name | Erläuterung | Datentyp |
in_features | Die Eingabe-Feature-Class, die zum Trainieren des Modells verwendet wird. | Feature Layer; Table View |
out_model | Das trainierte Ausgabemodell, das als Deep-Learning-Paket (.dlpk-Datei) gespeichert wird. | File |
variable_predict | Ein Feld aus dem Parameter in_features mit den Werten, die zum Trainieren des Modells verwendet werden. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird. | Field |
treat_variable_as_categorical (optional) | Gibt an, ob der Wert des Parameters variable_predict als Kategorievariable behandelt wird.
| Boolean |
explanatory_variables [explanatory_variables,...] (optional) | Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes des Parameters variable_predict unterstützen. Übergeben Sie den Wert "true" ("<name_of_variable> true") für alle Variablen, die Klassen oder Kategorien darstellen (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit). | Value Table |
distance_features [distance_features,...] (optional) | Die Features, deren Entfernungen von den Eingabe-Trainings-Features automatisch geschätzt und als weitere erklärende Variablen hinzugefügt werden. Entfernungen werden von den einzelnen erklärenden Trainings-Entfernungs-Features der Eingabe zu den nächsten Eingabe-Trainings-Features berechnet. Es werden Punkt- und Polygon-Features unterstützt, und wenn es sich bei den Eingabewerten für erklärende Trainings-Entfernungs-Features um Polygone handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. | Feature Layer |
explanatory_rasters [explanatory_rasters,...] (optional) | Die Raster, deren Werte aus dem Raster extrahiert und als erklärende Variablen für das Modell behandelt werden. Jeder Layer bildet eine erklärende Variable. Der Wert der Raster-Zelle wird für jedes Feature in den Eingabe-Trainings-Features an der genauen Position extrahiert. Beim Extrahieren des Raster-Werts für kontinuierliche Raster wird bilineares Resampling verwendet. Beim Extrahieren eines Raster-Werts aus Kategorie-Rastern wird ein Nächster-Nachbar-Resampling durchgeführt. Wenn der Wert des Parameters in_features Polygone aufweist und Sie diesen Parameter angegeben haben, wird im Modell für jedes Polygon ein Raster-Wert verwendet. Jedem Polygon wird für kontinuierliche Raster der Durchschnittswert und für Kategorie-Raster die Mehrheit zugewiesen. Übergeben Sie den Wert "true" mithilfe von "<name_of_raster> true" für alle Raster, die Klassen oder Kategorien darstellen, z. B. Landbedeckung, Anwesenheit oder Abwesenheit. | Value Table |
total_time_limit (optional) | Das Limit für die Gesamtzeit des AutoML-Modelltrainings in Minuten. Der Standardwert lautet 60 (1 Stunde). | Double |
autoML_mode (optional) | Gibt das Ziel von AutoML und die Intensität der AutoML-Suche an.
| String |
algorithms [algorithms,...] (optional) | Gibt die Algorithmen an, die beim Training verwendet werden.
Standardmäßig werden alle Algorithmen verwendet. | String |
validation_percent (optional) | Der Prozentsatz der Eingabedaten, die für die Validierung verwendet werden sollen. Der Standardwert ist 10. | Long |
out_report (optional) | Der Ausgabebericht, der als .html-Datei generiert wird. Wenn der angegebene Pfad nicht leer ist, wird der Bericht in einem neuen Ordner im angegebenen Pfad erstellt. Der Bericht enthält Details zu den verschiedenen Modellen sowie zu den bei der Bewertung verwendeten Hyperparametern und zur Performance der einzelnen Modelle. Hyperparameter sind Parameter, mit denen der Trainingsprozess gesteuert wird. Sie werden beim Training nicht aktualisiert. Zu ihnen gehören die Modellarchitektur, die Lernrate, die Anzahl der Epochen usw. | File |
out_importance (optional) | Eine Ausgabetabelle mit Informationen zur Wichtigkeit der einzelnen im Modell verwendeten erklärenden Variablen (Felder, Entfernungs-Features und Raster). | Table |
out_features (optional) | Der Feature-Layer mit den Werten, die von dem beim Trainings-Feature-Layer am besten abschneidenden Modell vorhergesagt wurden. Er kann zum Überprüfen der Modell-Performance durch einen visuellen Vergleich der vorgesagten Werte mit den Überprüfungsdaten verwendet werden. | Feature Class |
add_image_attachments (optional) | Gibt an, ob zum Trainieren eines Modells für multimodale oder gemischte Daten Bilder als erklärende Variablen des Wertes des Parameters in_features verwendet werden. Beim Trainieren eines tabellarischen Modells für multimodale oder gemischte Daten werden Machine-Learning- und Deep-Learning-Backbones in AutoML verwendet, um mit einem einzelnen Modell aus mehreren Typen von Datenformaten zu lernen. Die Eingabedaten können aus einer Kombination von erklärenden Variablen aus unterschiedlichen Datenquellen bestehen, z. B. Textbeschreibungen, entsprechende Bilder sowie zusätzliche Kategorie- und kontinuierliche Variablen.
| Boolean |
sensitive_feature [sensitive_feature,...] (optional) |
Bewertet und verbessert die Fairness der trainierten Modelle für Tabellendaten von Klassifizierungs- und Regressionsmodellen. Legen Sie für diesen Parameter die folgenden beiden Komponenten fest:
| Value Table |
fairness_metric (optional) | Gibt die Fairness-Kennwerte zum Messen der Fairness für Klassifizierungs- und Regressionsprobleme an, die bei der Rastersuche zum Auswählen des Modells mit der größten Fairness verwendet werden.
| String |
Codebeispiel
In diesem Beispiel wird die Verwendung der Funktion TrainUsingAutoML gezeigt.
# Name: TrainUsingAutoML.py
# Description: Train a machine learning model on feature or tabular data with
# automatic hyperparameter selection.
# Import system modules
import arcpy
import os
# Set local variables
datapath = "path_to_data"
out_path = "path_to_trained_model"
in_feature = os.path.join(datapath, "train_data.gdb", "name_of_data")
out_model = os.path.join(out_path, "model.dlpk")
# Run Train Using AutoML Model
arcpy.geoai.TrainUsingAutoML(in_feature, out_model, "price", None,
"bathrooms #;bedrooms #;square_fee #", None, None,
60, "BASIC")