Beschriftung | Erläuterung | Datentyp |
Eingabe-Raster | Die Einzelband-, Multiband- oder multidimensionalen Raster-Datasets bzw. Mosaik-Datasets mit den erklärenden Variablen | Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String |
Ziel-Raster oder -Punkte | Das Raster oder die Point-Feature-Class mit den Daten für die Zielvariable (abhängige Variable) | Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service |
Ausgabe-Regressionsdefinitionsdatei | Eine JSON-Datei mit der Erweiterung .ecd, die Attributinformationen, Statistiken oder weitere Daten für den Klassifikator enthält | File |
Zielwertefeld (optional) | Der Name des Feldes mit den Informationen, die in der Ziel-Point-Feature-Class oder dem Ziel-Raster-Dataset modelliert werden sollen | Field |
Zieldimensionsfeld (optional) | Ein Datumsfeld oder numerisches Feld in der Eingabe-Point-Feature-Class zur Definition der Dimensionswerte | Field |
Raster-Dimension (optional) | Der Name der Dimension im multidimensionalen Eingabe-Rasters (mit den erklärenden Variablen), über die die Verknüpfung zur Dimension in den Zieldaten erfolgt | String |
Ausgabetabelle zur Bedeutung (optional) | Tabelle mit Informationen, die die Bedeutung der einzelnen, im Modell verwendeten erklärenden Variablen beschreiben. Eine hohe Zahl bedeutet, dass die zugehörige Variable eine stärkere Korrelation zur vorhergesagten Variable aufweist und eine größere Rolle bei der Vorhersage spielt. Die Werte können zwischen 0 und 1 liegen, wobei die Summe der Werte 1 ergeben muss. | Table |
Max. Anzahl von Strukturen (optional) | Die maximale Anzahl von Strukturen im Forest. Wenn die Anzahl der Strukturen erhöht wird, führt dies zu höheren Genauigkeitsraten, obgleich die Verbesserungsrate zunehmend abflacht. Die Anzahl der Strukturen erhöht die Verarbeitungszeit linear. Die Standardeinstellung ist 50. | Long |
Max. Strukturtiefe (optional) | Die maximale Tiefe jeder Struktur im Forest. Über die Tiefe wird die Anzahl an Regeln festgelegt, die von einer Struktur zur Entscheidungsfindung erstellt werden können. Strukturen können die Tiefe dieser Einstellung nicht überschreiten. Der Standardwert ist 30. | Long |
Maximale Anzahl von Stichproben (optional) | Die maximale Anzahl an Stichproben für die Regressionsanalyse. Ein Wert kleiner oder gleich 0 bedeutet, dass zum Trainieren des Regressionsmodells alle Stichproben des Eingabe-Ziel-Rasters bzw. der Eingabe-Point-Feature-Class verwendet werden. Der Standardwert ist 10.000. | Long |
Durchschnittliche Anzahl von Punkten pro Zelle (optional) | Gibt an, ob der Durchschnitt berechnet wird, wenn mehrere Trainingspunkte in einer Zelle liegen. Dieser Parameter ist nur anwendbar, wenn das eingegebene Ziel eine Point-Feature-Class ist.
| Boolean |
Prozentsatz der Stichproben für Tests (optional) | Der Prozentsatz der Testpunkte, der für die Fehlerprüfung verwendet wird. Das Werkzeug ermittelt drei Fehlerarten: Fehler bei Trainingspunkten, Fehler bei Testpunkten und Fehler bei Testpositionspunkten. Die Standardeinstellung ist 10. | Double |
Ausgabe-Scatterplots (PDF oder HTML) (optional) | Die Ausgabe-Scatterplots im PDF- oder HTML-Format. Die Ausgabe umfasst Scatterplots von Trainingsdaten, Testdaten und Positionstestdaten. | File |
Ausgabe-Stichproben-Features (optional) | Die Ausgabe-Feature-Class mit den Zielwerten und vorhergesagten Werten für Trainingspunkte, Testpunkte und Positionstestpunkte. | Feature Class |
Mit der Image Analyst-Lizenz verfügbar.
Zusammenfassung
Modelliert die Beziehung zwischen erklärenden Variablen (unabhängigen Variablen) und einem Ziel-Dataset (abhängige Variable).
Verwendung
Das Werkzeug kann für das Training mit einer Reihe von unterschiedlichen Datentypen verwendet werden. Bei den Eingabe-Rastern (erklärenden Variablen) kann es sich um ein einzelnes Raster oder eine Liste von Rastern handeln, wobei Einzelband-Raster, Multiband-Raster (hier stellt jedes Band eine erklärende Variable dar), multidimensionale Raster (hier stellen die Raster-Variablen die erklärende Variablen dar) oder eine Kombination von Datentypen möglich sind.
Ein Eingabe-Mosaik-Dataset wird als Raster-Dataset und nicht als Sammlung von Rastern verarbeitet. Um eine Raster-Sammlung als Eingabe zu verwenden, müssen Sie multidimensionale Informationen für das Mosaik-Dataset erstellen und das Ergebnis als Eingabe verwenden.
Das eingegebene Ziel kann eine Feature-Class oder ein Raster sein. Wenn es sich bei dem Ziel um ein Feature handelt, muss der Wert für Zielwertefeld auf ein numerisches Feld festgelegt werden.
Wenn das Eingabe-Ziel-Feature ein Datumsfeld oder ein Feld zum Definieren der Dimension aufweist, müssen Sie je einen Wert für den Parameter Zielwertefeld und Zieldimensionsfeld angeben.
Das Eingabe-Raster-Ziel kann auch ein multidimensionales Raster sein.
Wenn das eingegebene Ziel vom Typ "multidimensional" ist, müssen die zugehörigen erklärenden Eingabevariablen mindestens ein multidimensionales Raster aufweisen. Variablen mit Schnittpunkten mit den Zieldimensionen werden für das Training verwendet. In der Liste enthaltene Raster ohne Dimensionen werden auf alle Dimensionen angewendet. Wenn die erklärenden Variablen keinen Schnittpunkt oder keine Dimensionen aufweisen, erfolgt kein Training.
Wenn das eingegebene Ziel keine Dimensionen aufweist, die erklärenden Variablen hingegen schon, wird der erste Ausschnitt verwendet.
Wenn die Ausgabe ein multidimensionales Raster ist, müssen Sie das CRF-Format verwenden. Wird ein Raster ohne Dimensionen ausgegeben, kann es in einem beliebigen Ausgabe-Raster-Format gespeichert werden.
Die Zellengrößen der erklärenden Eingabevariablen beeinflussen das Trainingsergebnis sowie die Verarbeitungsdauer. Standardmäßig verwendet das Werkzeug die Zellengröße des ersten erklärenden Rasters. Sie können dies über die Umgebungseinstellung Zellengröße ändern. Allgemein empfiehlt es sich nicht, das Training mit einer kleineren Zellengröße als die Zellengröße Ihrer Daten durchzuführen.
Mit dem Parameterwert Ausgabetabelle zur Bedeutung lässt sich die Bedeutung der einzelnen erklärenden Variablen, mit denen die Zielvariable vorhergesagt wird, analysieren.
Aktivieren Sie den Parameter Prozentsatz der Stichproben für Tests, um drei Fehlerarten zu berechnen: Fehler bei Trainingspunkten, Fehler bei Testpunkten und Fehler bei Testpositionspunkten. Beispiel: Wenn als Prozentwert 10 festgelegt wurde, werden 10 Prozent der Trainingsgebietspunkte positionsabhängig als Referenz verwendet. Anhand dieser Referenzpunkte wird der Fehler bei der Interpolation im Bereich (als Testpositionspunkte bezeichnet) gemessen. Die verbleibenden Trainingsgebietspunkte werden in zwei Gruppen eingeteilt, wobei eine Gruppe 90 Prozent und die andere Gruppe 10 Prozent der Trainingsgebietspunkte umfasst. Die Gruppe, die 90 Prozent der Punkte enthält, wird zum Trainieren des Regressionsmodells verwendet, während die Gruppe, die 10 Prozent der Punkte enthält, zu Testzwecken dient, um die Genauigkeit abzuleiten.
Wenn Sie den Parameter Prozentsatz der Stichproben für Tests aktivieren, wird ein Scatterplot der vorhergesagten und als Referenz verwendeten Trainingsgebietswerte erzeugt. Das Bestimmtheitsmaß (R-Squared) wird zusätzlich als Schätzung der Qualität der Übereinstimmung berechnet.
Für die Erstellung eines Scatterplot der Vorhersage- und Trainingswerte können Sie das Werkzeug Stichprobe verwenden, um vorhergesagte Werte aus vorhergesagten Rastern zu extrahieren. Führen Sie dann mit dem Feld LocationID in der Ausgabe des Werkzeugs Stichprobe und dem Feld ObjectID in der Zielfeldklasse eine Tabellenverbindung durch. Handelt es sich bei der Zieleingabe um ein Raster, können Sie zufällige Punkte erstellen und Werte aus dem Eingabe-Ziel-Raster sowie dem Vorhersage-Raster extrahieren.
Parameter
TrainRandomTreesRegressionModel(in_rasters, in_target_data, out_regression_definition, {target_value_field}, {target_dimension_field}, {raster_dimension}, {out_importance_table}, {max_num_trees}, {max_tree_depth}, {max_samples}, {average_points_per_cell}, {percent_testing}, {out_scatterplots}, {out_sample_features})
Name | Erläuterung | Datentyp |
in_rasters [in_rasters,...] | Die Einzelband-, Multiband- oder multidimensionalen Raster-Datasets bzw. Mosaik-Datasets mit den erklärenden Variablen | Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String |
in_target_data | Das Raster oder die Point-Feature-Class mit den Daten für die Zielvariable (abhängige Variable) | Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service |
out_regression_definition | Eine JSON-Datei mit der Erweiterung .ecd, die Attributinformationen, Statistiken oder weitere Daten für den Klassifikator enthält | File |
target_value_field (optional) | Der Name des Feldes mit den Informationen, die in der Ziel-Point-Feature-Class oder dem Ziel-Raster-Dataset modelliert werden sollen | Field |
target_dimension_field (optional) | Ein Datumsfeld oder numerisches Feld in der Eingabe-Point-Feature-Class zur Definition der Dimensionswerte | Field |
raster_dimension (optional) | Der Name der Dimension im multidimensionalen Eingabe-Rasters (mit den erklärenden Variablen), über die die Verknüpfung zur Dimension in den Zieldaten erfolgt | String |
out_importance_table (optional) | Tabelle mit Informationen, die die Bedeutung der einzelnen, im Modell verwendeten erklärenden Variablen beschreiben. Eine hohe Zahl bedeutet, dass die zugehörige Variable eine stärkere Korrelation zur vorhergesagten Variable aufweist und eine größere Rolle bei der Vorhersage spielt. Die Werte können zwischen 0 und 1 liegen, wobei die Summe der Werte 1 ergeben muss. | Table |
max_num_trees (optional) | Die maximale Anzahl von Strukturen im Forest. Wenn die Anzahl der Strukturen erhöht wird, führt dies zu höheren Genauigkeitsraten, obgleich die Verbesserungsrate zunehmend abflacht. Die Anzahl der Strukturen erhöht die Verarbeitungszeit linear. Die Standardeinstellung ist 50. | Long |
max_tree_depth (optional) | Die maximale Tiefe jeder Struktur im Forest. Über die Tiefe wird die Anzahl an Regeln festgelegt, die von einer Struktur zur Entscheidungsfindung erstellt werden können. Strukturen können die Tiefe dieser Einstellung nicht überschreiten. Der Standardwert ist 30. | Long |
max_samples (optional) | Die maximale Anzahl an Stichproben für die Regressionsanalyse. Ein Wert kleiner oder gleich 0 bedeutet, dass zum Trainieren des Regressionsmodells alle Stichproben des Eingabe-Ziel-Rasters bzw. der Eingabe-Point-Feature-Class verwendet werden. Der Standardwert ist 10.000. | Long |
average_points_per_cell (optional) | Gibt an, ob der Durchschnitt berechnet wird, wenn mehrere Trainingspunkte in einer Zelle liegen. Dieser Parameter ist nur anwendbar, wenn das eingegebene Ziel eine Point-Feature-Class ist.
| Boolean |
percent_testing (optional) | Der Prozentsatz der Testpunkte, der für die Fehlerprüfung verwendet wird. Das Werkzeug ermittelt drei Fehlerarten: Fehler bei Trainingspunkten, Fehler bei Testpunkten und Fehler bei Testpositionspunkten. Die Standardeinstellung ist 10. | Double |
out_scatterplots (optional) | Die Ausgabe-Scatterplots im PDF- oder HTML-Format. Die Ausgabe umfasst Scatterplots von Trainingsdaten, Testdaten und Positionstestdaten. | File |
out_sample_features (optional) | Die Ausgabe-Feature-Class mit den Zielwerten und vorhergesagten Werten für Trainingspunkte, Testpunkte und Positionstestpunkte. | Feature Class |
Codebeispiel
Mit diesem Skript für das Python-Fenster wird die Beziehung zwischen erklärenden Variablen und einem Ziel-Dataset modelliert.
# Import system modules
import arcpy
from arcpy.ia import *
# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("ImageAnalyst")
# Execute
arcpy.ia.TrainRandomTreesRegressionModel("weather_variables.crf";"dem.tif", "pm2.5.shp", r"c:\data\pm2.5_trained.ecd", "mean_pm2.5", "date_collected", "StdTime”, r"c:\data\pm2.5_importanc.csv", 50, 30, 10000)
Mit diesem eigenständigen Python-Skript wird die Beziehung zwischen erklärenden Variablen und einem Ziel-Dataset modelliert.
# Import system modules
import arcpy
from arcpy.ia import *
# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("ImageAnalyst")
# Define input parameters
in_weather_variables = "C:/Data/ClimateVariables.crf"
in_dem_varaible = "C:/Data/dem.tif"
in_target = "C:/Data/pm2.5_observations.shp"
target_value_field = "mean_pm2.5"
Target_date_field = "date_collected"
Raster_dimension = “StdTime”
out_model_definition = "C:/Data/pm2.5_trained_model.ecd"
Out_importance_table = "C:/Data/pm2.5_importance_table.csv"
max_num_trees = 50
max_tree_depth = 30
max_num_samples = 10000
# Execute - train with random tree regression model
arcpy.ia.TrainRandomTreesRegressionModel(in_weather_variables;in_dem_varaible, in_target, out_model_definition, target_value_field, Target_date_field, Raster_dimension, max_num_trees, max_tree_depth, max_num_samples)