Regressionsmodell "Random Trees" trainieren (Image Analyst)

Mit der Image Analyst-Lizenz verfügbar.

Zusammenfassung

Modelliert die Beziehung zwischen erklärenden Variablen (unabhängigen Variablen) und einem Ziel-Dataset (abhängige Variable).

Verwendung

  • Das Werkzeug kann für das Training mit einer Reihe von unterschiedlichen Datentypen verwendet werden. Bei den Eingabe-Rastern (erklärenden Variablen) kann es sich um ein einzelnes Raster oder eine Liste von Rastern handeln, wobei Einzelband-Raster, Multiband-Raster (hier stellt jedes Band eine erklärende Variable dar), multidimensionale Raster (hier stellen die Raster-Variablen die erklärende Variablen dar) oder eine Kombination von Datentypen möglich sind.

  • Ein Eingabe-Mosaik-Dataset wird als Raster-Dataset und nicht als Sammlung von Rastern verarbeitet. Um eine Raster-Sammlung als Eingabe zu verwenden, müssen Sie multidimensionale Informationen für das Mosaik-Dataset erstellen und das Ergebnis als Eingabe verwenden.

  • Das eingegebene Ziel kann eine Feature-Class oder ein Raster sein. Wenn es sich bei dem Ziel um ein Feature handelt, muss der Wert für Zielwertefeld auf ein numerisches Feld festgelegt werden.

  • Wenn das Eingabe-Ziel-Feature ein Datumsfeld oder ein Feld zum Definieren der Dimension aufweist, müssen Sie je einen Wert für den Parameter Zielwertefeld und Zieldimensionsfeld angeben.

  • Das Eingabe-Raster-Ziel kann auch ein multidimensionales Raster sein.

  • Wenn das eingegebene Ziel vom Typ "multidimensional" ist, müssen die zugehörigen erklärenden Eingabevariablen mindestens ein multidimensionales Raster aufweisen. Variablen mit Schnittpunkten mit den Zieldimensionen werden für das Training verwendet. In der Liste enthaltene Raster ohne Dimensionen werden auf alle Dimensionen angewendet. Wenn die erklärenden Variablen keinen Schnittpunkt oder keine Dimensionen aufweisen, erfolgt kein Training.

  • Wenn das eingegebene Ziel keine Dimensionen aufweist, die erklärenden Variablen hingegen schon, wird der erste Ausschnitt verwendet.

  • Wenn die Ausgabe ein multidimensionales Raster ist, müssen Sie das CRF-Format verwenden. Wird ein Raster ohne Dimensionen ausgegeben, kann es in einem beliebigen Ausgabe-Raster-Format gespeichert werden.

  • Die Zellengrößen der erklärenden Eingabevariablen beeinflussen das Trainingsergebnis sowie die Verarbeitungsdauer. Standardmäßig verwendet das Werkzeug die Zellengröße des ersten erklärenden Rasters. Sie können dies über die Umgebungseinstellung Zellengröße ändern. Allgemein empfiehlt es sich nicht, das Training mit einer kleineren Zellengröße als die Zellengröße Ihrer Daten durchzuführen.

  • Mit dem Parameterwert Ausgabetabelle zur Bedeutung lässt sich die Bedeutung der einzelnen erklärenden Variablen, mit denen die Zielvariable vorhergesagt wird, analysieren.

  • Aktivieren Sie den Parameter Prozentsatz der Stichproben für Tests, um drei Fehlerarten zu berechnen: Fehler bei Trainingspunkten, Fehler bei Testpunkten und Fehler bei Testpositionspunkten. Beispiel: Wenn als Prozentwert 10 festgelegt wurde, werden 10 Prozent der Trainingsgebietspunkte positionsabhängig als Referenz verwendet. Anhand dieser Referenzpunkte wird der Fehler bei der Interpolation im Bereich (als Testpositionspunkte bezeichnet) gemessen. Die verbleibenden Trainingsgebietspunkte werden in zwei Gruppen eingeteilt, wobei eine Gruppe 90 Prozent und die andere Gruppe 10 Prozent der Trainingsgebietspunkte umfasst. Die Gruppe, die 90 Prozent der Punkte enthält, wird zum Trainieren des Regressionsmodells verwendet, während die Gruppe, die 10 Prozent der Punkte enthält, zu Testzwecken dient, um die Genauigkeit abzuleiten.

  • Wenn Sie den Parameter Prozentsatz der Stichproben für Tests aktivieren, wird ein Scatterplot der vorhergesagten und als Referenz verwendeten Trainingsgebietswerte erzeugt. Das Bestimmtheitsmaß (R-Squared) wird zusätzlich als Schätzung der Qualität der Übereinstimmung berechnet.

  • Für die Erstellung eines Scatterplot der Vorhersage- und Trainingswerte können Sie das Werkzeug Stichprobe verwenden, um vorhergesagte Werte aus vorhergesagten Rastern zu extrahieren. Führen Sie dann mit dem Feld LocationID in der Ausgabe des Werkzeugs Stichprobe und dem Feld ObjectID in der Zielfeldklasse eine Tabellenverbindung durch. Handelt es sich bei der Zieleingabe um ein Raster, können Sie zufällige Punkte erstellen und Werte aus dem Eingabe-Ziel-Raster sowie dem Vorhersage-Raster extrahieren.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Raster

Die Einzelband-, Multiband- oder multidimensionalen Raster-Datasets bzw. Mosaik-Datasets mit den erklärenden Variablen

Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
Ziel-Raster oder -Punkte

Das Raster oder die Point-Feature-Class mit den Daten für die Zielvariable (abhängige Variable)

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
Ausgabe-Regressionsdefinitionsdatei

Eine JSON-Datei mit der Erweiterung .ecd, die Attributinformationen, Statistiken oder weitere Daten für den Klassifikator enthält

File
Zielwertefeld
(optional)

Der Name des Feldes mit den Informationen, die in der Ziel-Point-Feature-Class oder dem Ziel-Raster-Dataset modelliert werden sollen

Field
Zieldimensionsfeld
(optional)

Ein Datumsfeld oder numerisches Feld in der Eingabe-Point-Feature-Class zur Definition der Dimensionswerte

Field
Raster-Dimension
(optional)

Der Name der Dimension im multidimensionalen Eingabe-Rasters (mit den erklärenden Variablen), über die die Verknüpfung zur Dimension in den Zieldaten erfolgt

String
Ausgabetabelle zur Bedeutung
(optional)

Tabelle mit Informationen, die die Bedeutung der einzelnen, im Modell verwendeten erklärenden Variablen beschreiben. Eine hohe Zahl bedeutet, dass die zugehörige Variable eine stärkere Korrelation zur vorhergesagten Variable aufweist und eine größere Rolle bei der Vorhersage spielt. Die Werte können zwischen 0 und 1 liegen, wobei die Summe der Werte 1 ergeben muss.

Table
Max. Anzahl von Strukturen
(optional)

Die maximale Anzahl von Strukturen im Forest. Wenn die Anzahl der Strukturen erhöht wird, führt dies zu höheren Genauigkeitsraten, obgleich die Verbesserungsrate zunehmend abflacht. Die Anzahl der Strukturen erhöht die Verarbeitungszeit linear. Die Standardeinstellung ist 50.

Long
Max. Strukturtiefe
(optional)

Die maximale Tiefe jeder Struktur im Forest. Über die Tiefe wird die Anzahl an Regeln festgelegt, die von einer Struktur zur Entscheidungsfindung erstellt werden können. Strukturen können die Tiefe dieser Einstellung nicht überschreiten. Der Standardwert ist 30.

Long
Maximale Anzahl von Stichproben
(optional)

Die maximale Anzahl an Stichproben für die Regressionsanalyse. Ein Wert kleiner oder gleich 0 bedeutet, dass zum Trainieren des Regressionsmodells alle Stichproben des Eingabe-Ziel-Rasters bzw. der Eingabe-Point-Feature-Class verwendet werden. Der Standardwert ist 10.000.

Long
Durchschnittliche Anzahl von Punkten pro Zelle
(optional)

Gibt an, ob der Durchschnitt berechnet wird, wenn mehrere Trainingspunkte in einer Zelle liegen. Dieser Parameter ist nur anwendbar, wenn das eingegebene Ziel eine Point-Feature-Class ist.

  • Deaktiviert: Es werden alle Punkte verwendet, wenn mehrere Trainingspunkte in einer Zelle liegen. Dies ist die Standardeinstellung.
  • Aktiviert: Der Durchschnittswert der Trainingspunkte in einer Zelle wird berechnet.

  • Alle Punkte beibehaltenEs werden alle Punkte verwendet, wenn mehrere Trainingspunkte in einer Zelle liegen. Dies ist die Standardeinstellung.
  • Durchschnittliche Anzahl von Punkten pro ZelleDer Durchschnittswert der Trainingspunkte in einer Zelle wird berechnet.
Boolean
Prozentsatz der Stichproben für Tests
(optional)

Der Prozentsatz der Testpunkte, der für die Fehlerprüfung verwendet wird. Das Werkzeug ermittelt drei Fehlerarten: Fehler bei Trainingspunkten, Fehler bei Testpunkten und Fehler bei Testpositionspunkten. Die Standardeinstellung ist 10.

Double
Ausgabe-Scatterplots (PDF oder HTML)
(optional)

Die Ausgabe-Scatterplots im PDF- oder HTML-Format. Die Ausgabe umfasst Scatterplots von Trainingsdaten, Testdaten und Positionstestdaten.

File
Ausgabe-Stichproben-Features
(optional)

Die Ausgabe-Feature-Class mit den Zielwerten und vorhergesagten Werten für Trainingspunkte, Testpunkte und Positionstestpunkte.

Feature Class

TrainRandomTreesRegressionModel(in_rasters, in_target_data, out_regression_definition, {target_value_field}, {target_dimension_field}, {raster_dimension}, {out_importance_table}, {max_num_trees}, {max_tree_depth}, {max_samples}, {average_points_per_cell}, {percent_testing}, {out_scatterplots}, {out_sample_features})
NameErläuterungDatentyp
in_rasters
[in_rasters,...]

Die Einzelband-, Multiband- oder multidimensionalen Raster-Datasets bzw. Mosaik-Datasets mit den erklärenden Variablen

Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
in_target_data

Das Raster oder die Point-Feature-Class mit den Daten für die Zielvariable (abhängige Variable)

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
out_regression_definition

Eine JSON-Datei mit der Erweiterung .ecd, die Attributinformationen, Statistiken oder weitere Daten für den Klassifikator enthält

File
target_value_field
(optional)

Der Name des Feldes mit den Informationen, die in der Ziel-Point-Feature-Class oder dem Ziel-Raster-Dataset modelliert werden sollen

Field
target_dimension_field
(optional)

Ein Datumsfeld oder numerisches Feld in der Eingabe-Point-Feature-Class zur Definition der Dimensionswerte

Field
raster_dimension
(optional)

Der Name der Dimension im multidimensionalen Eingabe-Rasters (mit den erklärenden Variablen), über die die Verknüpfung zur Dimension in den Zieldaten erfolgt

String
out_importance_table
(optional)

Tabelle mit Informationen, die die Bedeutung der einzelnen, im Modell verwendeten erklärenden Variablen beschreiben. Eine hohe Zahl bedeutet, dass die zugehörige Variable eine stärkere Korrelation zur vorhergesagten Variable aufweist und eine größere Rolle bei der Vorhersage spielt. Die Werte können zwischen 0 und 1 liegen, wobei die Summe der Werte 1 ergeben muss.

Table
max_num_trees
(optional)

Die maximale Anzahl von Strukturen im Forest. Wenn die Anzahl der Strukturen erhöht wird, führt dies zu höheren Genauigkeitsraten, obgleich die Verbesserungsrate zunehmend abflacht. Die Anzahl der Strukturen erhöht die Verarbeitungszeit linear. Die Standardeinstellung ist 50.

Long
max_tree_depth
(optional)

Die maximale Tiefe jeder Struktur im Forest. Über die Tiefe wird die Anzahl an Regeln festgelegt, die von einer Struktur zur Entscheidungsfindung erstellt werden können. Strukturen können die Tiefe dieser Einstellung nicht überschreiten. Der Standardwert ist 30.

Long
max_samples
(optional)

Die maximale Anzahl an Stichproben für die Regressionsanalyse. Ein Wert kleiner oder gleich 0 bedeutet, dass zum Trainieren des Regressionsmodells alle Stichproben des Eingabe-Ziel-Rasters bzw. der Eingabe-Point-Feature-Class verwendet werden. Der Standardwert ist 10.000.

Long
average_points_per_cell
(optional)

Gibt an, ob der Durchschnitt berechnet wird, wenn mehrere Trainingspunkte in einer Zelle liegen. Dieser Parameter ist nur anwendbar, wenn das eingegebene Ziel eine Point-Feature-Class ist.

  • Deaktiviert: Es werden alle Punkte verwendet, wenn mehrere Trainingspunkte in einer Zelle liegen. Dies ist die Standardeinstellung.
  • Aktiviert: Der Durchschnittswert der Trainingspunkte in einer Zelle wird berechnet.

  • KEEP_ALL_POINTSEs werden alle Punkte verwendet, wenn mehrere Trainingspunkte in einer Zelle liegen. Dies ist die Standardeinstellung.
  • AVERAGE_POINTS_PER_CELLDer Durchschnittswert der Trainingspunkte in einer Zelle wird berechnet.
Boolean
percent_testing
(optional)

Der Prozentsatz der Testpunkte, der für die Fehlerprüfung verwendet wird. Das Werkzeug ermittelt drei Fehlerarten: Fehler bei Trainingspunkten, Fehler bei Testpunkten und Fehler bei Testpositionspunkten. Die Standardeinstellung ist 10.

Double
out_scatterplots
(optional)

Die Ausgabe-Scatterplots im PDF- oder HTML-Format. Die Ausgabe umfasst Scatterplots von Trainingsdaten, Testdaten und Positionstestdaten.

File
out_sample_features
(optional)

Die Ausgabe-Feature-Class mit den Zielwerten und vorhergesagten Werten für Trainingspunkte, Testpunkte und Positionstestpunkte.

Feature Class

Codebeispiel

TrainRandomTreesRegressionModel – Beispiel 1 (Python-Fenster)

Mit diesem Skript für das Python-Fenster wird die Beziehung zwischen erklärenden Variablen und einem Ziel-Dataset modelliert.

# Import system modules 
import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Execute  
arcpy.ia.TrainRandomTreesRegressionModel("weather_variables.crf";"dem.tif", "pm2.5.shp", r"c:\data\pm2.5_trained.ecd",  "mean_pm2.5", "date_collected", "StdTime”,  r"c:\data\pm2.5_importanc.csv", 50, 30, 10000)
TrainRandomTreesRegressionModel – Beispiel 2 (eigenständiges Skript)

Mit diesem eigenständigen Python-Skript wird die Beziehung zwischen erklärenden Variablen und einem Ziel-Dataset modelliert.

# Import system modules 

import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Define input parameters 
in_weather_variables = "C:/Data/ClimateVariables.crf" 
in_dem_varaible = "C:/Data/dem.tif" 
in_target = "C:/Data/pm2.5_observations.shp" 
target_value_field = "mean_pm2.5" 
Target_date_field = "date_collected" 
Raster_dimension = “StdTime” 
out_model_definition = "C:/Data/pm2.5_trained_model.ecd" 
Out_importance_table = "C:/Data/pm2.5_importance_table.csv" 
max_num_trees = 50 
max_tree_depth = 30 
max_num_samples = 10000 

# Execute - train with random tree regression model 
arcpy.ia.TrainRandomTreesRegressionModel(in_weather_variables;in_dem_varaible, in_target, out_model_definition,  target_value_field, Target_date_field, Raster_dimension, max_num_trees, max_tree_depth, max_num_samples)

Verwandte Themen