Forest-basierte Klassifizierung und Regression

Werkzeugsymbol Verfügbar in Big-Data-Analysen.

Das Werkzeug "Forest-basierte Klassifizierung und Regression" Das Werkzeug "Forest-basierte Klassifizierung und Regression" modelliert und generiert Vorhersagen mithilfe einer Adaption des "Random Forest"-Algorithmus, einer Methode für überwachtes maschinelles Lernen von Leo Breiman. Vorhersagen können für Kategorievariablen (Klassifizierung) wie auch für kontinuierliche Variablen (Regression) getroffen werden. Erklärende Variablen können als Felder in der Attributtabelle der Trainings-Features vorliegen. Zusätzlich zur Validierung der Modell-Performance auf Grundlage der Trainingsdaten sind Vorhersagen für Features möglich.

Workflow-Diagramm

Diagramm des Workflows "Forest-basierte Klassifizierung und Regression"

Beispiele

Im Folgenden sehen Sie Beispiele für die Verwendung des Werkzeugs "Forest-basierte Klassifizierung und Regression":

  • Vorhandene Daten über das Vorkommen von Seegras sowie eine Reihe von erklärenden Umgebungsvariablen können neben den Entfernungen zu flussaufwärts liegenden Fabriken und großen Häfen Vorhersagen über das künftige Vorkommen von Seegras auf der Grundlage von Prognosen für die gleichen erklärenden Umgebungsvariablen ermöglichen.
  • Wohnwerte können anhand der Preise von Häusern, die im laufenden Jahr verkauft wurden, vorhergesagt werden. Der Verkaufspreis der verkauften Häuser kann zusammen mit Informationen über die Anzahl der Schlafzimmer, die Entfernung zu den Schulen, die Nähe zu den Hauptverkehrsstraßen, das Durchschnittseinkommen und die Kriminalitätsrate verwendet werden, um die Verkaufspreise ähnlicher Häuser vorherzusagen.
  • Anhand von Informationen über die Bleiwerte im Blut von Kindern und die Steuerflurstücks-ID der jeweiligen Wohnsitze kann, in Verbindung mit Attributen auf Flurstückebene wie dem Alter des Hauses, offiziellen Bevölkerungsdaten wie Einkommens- und Bildungsniveau und nationalen Datasets, die die toxische Freisetzung von Blei und Bleiverbindungen wiedergeben, das Risiko einer Bleiexposition für Parzellen ohne Daten zu Blutbleiwerten vorhergesagt werden. Diese Risikovorhersagen könnten für Maßnahmen und Aufklärungsprogramme in dem Gebiet genutzt werden.

Verwendungshinweise

Beachten Sie beim Arbeiten mit dem Werkzeug "Forest-basierte Klassifizierung und Regression" Folgendes:

  • Dieses Werkzeug kann für zwei Operationsmethoden konfiguriert werden:
    • Methode 1: Wenn nur Zieldaten (Trainingsdaten) bereitgestellt wurden, trainiert das Werkzeug ein Modell, um die Modell-Performance zu bewerten. Mit dieser Option kann die Performance einer Konfiguration beim Erkunden unterschiedlicher erklärender Variablen und Werkzeugeinstellungen ausgewertet werden.
    • Methode 2: Wenn ein gutes Modell mit erklärenden Variablen gefunden wurde, dann konfigurieren Sie das Modell so, dass auch Verbindungsdaten (Vorhersagedaten) bereitgestellt werden. Wenn Verbindungsdaten (Vorhersagedaten) konfiguriert wurden, dann sagt das Werkzeug Werte für die angegebene Variable für Features in Ihren Verbindungsdaten (Vorhersagedaten) basierend auf den zugeordneten erklärenden Variablen vorher.
  • Verwenden Sie den Parameter Vorherzusagende Variable, um in der Ziel-Eingabe-Pipeline (Trainingsdaten) ein Feld zur Darstellung des Phänomens, das modelliert wird, auszuwählen. Verwenden Sie den Parameter Erklärende Variable(n), um in der Ziel-Eingabe-Pipeline (Trainingsdaten) die Felder zur Darstellung der erklärenden Variablen auszuwählen. Diese Felder müssen numerisch oder kategorisch sein und einen Wertebereich aufweisen. Features, in deren abhängiger oder erklärender Variable Werte fehlen, werden aus der Analyse ausgeschlossen. Wenn Sie NULL-Werte ändern möchten, dann verwenden Sie vor dem Aktualisieren der Werte das Werkzeug Feld berechnen.
  • Erklärende Variablen können aus Feldern stammen und sollten eine Reihe von Werten enthalten. Wenn es sich bei der erklärenden Variablen um eine Kategorievariable handelt, muss das Kontrollkästchen Kategorisch aktiviert werden. Erklärende Kategorievariablen dürfen höchstens 60 Einzelwerte enthalten, eine geringere Anzahl von Kategorien führt jedoch zu einer besseren Performance des Modells. Je mehr Kategorien eine Variable bei einer bestimmten Datengröße enthält, desto eher dominiert sie das Modell, sodass die Vorhersageergebnisse an Effektivität verlieren.
  • Beim Abgleich von erklärenden Variablen müssen das Zielfeld (Trainingsdaten) und das Join-Feld (Vorhersagedaten) Felder desselben Typs enthalten (z. B. muss ein Double-Feld im Trainingsfeld mit einem Double-Feld im Vorhersagefeld abgeglichen werden).
  • Forest-basierte Modelle extrapolieren nicht; sie können nur den Wert klassifizieren oder vorhersagen, für den das Modell trainiert wurde. Verwenden Sie zum Trainieren des Modells Training-Features und erklärende Variablen innerhalb des Bereichs der Ziel-Features und -Variablen. Das Werkzeug kann nicht erfolgreich ausgeführt werden, wenn die erklärenden Variablen für die Vorhersage Kategorien enthalten, die in den Trainings-Features nicht vorhanden waren.
  • Der Standardwert für den Parameter Anzahl der Strukturen ist 100. Die Erhöhung der Anzahl von Strukturen im Forest-Modell führt zu einer genaueren Modellvorhersage, für die Berechnung des Modells wird jedoch mehr Zeit benötigt.
  • Das Werkzeug "Forest-basierte Klassifizierung und Regression" erzeugt darüber hinaus Ausgabe-Features und Diagnosen. In den Ausgabe-Feature-Layern wird automatisch ein Rendering-Schema angewendet. Eine vollständige Erklärung jeder Ausgabe findet sich unter Ausgabe-Layer.
  • Features mit Vorhersage- oder erklärenden Feldern, die mindestens einen NULL-Wert oder eine leere Zeichenfolge aufweisen, werden von der Ausgabe ausgeschlossen. Bei Bedarf können Sie Werte mit dem Werkzeug Feld berechnen ändern.
  • Weitere Informationen zur Funktionsweise dieses Werkzeugs und zum ArcGIS Pro-Geoverarbeitungswerkzeug, auf dem die Implementierung basiert, finden Sie unter Funktionsweise des Werkzeugs "Forest-basierte Klassifizierung und Regression".

Parameter

Nachfolgend werden die Parameter für das Werkzeug "Forest-basierte Klassifizierung und Regression" beschrieben:

ParameterBeschreibungDatentyp

Ziel-Eingabe-Layer (Trainingsdaten)

Die Trainings-Features, die zum Generieren eines Modells verwendet werden. Die Pipeline mit dem Parameter Vorherzusagende Variable und den Feldern für erklärende Trainingsvariablen.

Features

Join-Eingabe-Layer (Vorhersagedaten)

(optional)

Die Vorhersage-Features, für die die vorherzusagende Variable basierend auf den angegebenen erklärenden Variablen und Parametern vorhergesagt werden soll

Dieser Parameter ist optional. Wenn dieser Parameter nicht angegeben wurde, dann passt das Werkzeug "Forest-basierte Klassifizierung und Regression" ein Modell an, um die Modell-Performance basierend auf den Trainingsdaten zu bewerten.

Features

Vorherzusagende Variable

Die Variable in der Pipeline Ziel-Eingabe-Layer (Trainingsdaten) mit den Werten, die zum Trainieren des Modells verwendet werden sollen. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird.

FieldName

Variable als kategorisch behandeln

Gibt an, ob es sich bei der vorherzusagenden Variable um eine Kategorievariable handelt.

  • Aktiviert: Vorherzusagende Variable ist eine Kategorievariable, es wird eine Klassifizierung vom Werkzeug vorgenommen.
  • Deaktiviert: Vorherzusagende Variable ist eine kontinuierliche Variable, es wird eine Regression vom Werkzeug ausgeführt. Dies ist die Standardeinstellung.

Boolesch

Erklärende Variable(n)

Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie von Vorherzusagende Variable unterstützen. Aktivieren Sie das Kontrollkästchen Kategorisch für alle Variablen, die Klassen oder Kategorien darstellen, z. B. Landbedeckung oder Anwesenheit bzw. Abwesenheit.

ExplanatoryVariablesConfiguration

Zuordnung von erklärenden Variablen (nur Vorhersage)

Ordnet die ausgewählten Feldnamen für erklärende Variablen im Zielschema (Trainingsschema) den entsprechenden Feldnamen im Join-Schema (Vorhersageschema) zu.

Dieser Parameter ist optional. Die Zuordnungen der erklärenden Variablen müssen nur dann angegeben werden, wenn Verbindungsdaten (Vorhersagedaten) angegeben wurden.

ExplanatoryVariableMappings

Anzahl der Bäume

Die Anzahl der Strukturen, die im Forest-Modell erstellt werden sollen. Eine höhere Anzahl von Strukturen führt zu einer genaueren Modellvorhersage, für die Berechnung des Modells wird jedoch mehr Zeit benötigt. Die Standardzahl von Strukturen beträgt 100.

Integer

Minimale Blattgröße

Die minimale Anzahl der Beobachtungen, die mindestens erforderlich sind, um ein Element (also den Endpunkt einer Struktur, der keine weiteren Verzweigungen hat) beizubehalten. Das Standardminimum ist 5 für die Regression und 1 für die Klassifizierung. Bei sehr großen Daten führt eine Erhöhung dieser Werte zu einer Erhöhung der Laufzeit des Werkzeugs.

Integer

Maximale Strukturtiefe

Die maximale Anzahl von Teilungen entlang einer Struktur. Je größer die maximale Tiefe, desto mehr Teilungen werden erstellt. Dadurch steigt das Risiko einer Überanpassung des Modells. Die Standardeinstellung ist datenabhängig und abhängig von der Anzahl der erstellten Bäume und der berücksichtigten Variablen.

Integer

Größe der Beispieldaten

Der Prozentsatz der für jede Entscheidungsstruktur verwendeten Daten im Ziel-Eingabe-Layer (Trainingsdaten). Die Standardeinstellung liegt bei 100 Prozent der Daten. Beispieldaten für jede Struktur werden nach dem Zufallsprinzip aus zwei Dritteln der angegebenen Daten entnommen.

Alle Entscheidungsbäume im Wald werden mithilfe eines zufälligen Beispiels oder einer zufälligen Teilmenge (etwa zwei Drittel) der verfügbaren Trainingsdaten erstellt. Durch die Verwendung eines niedrigeren Prozentsatzes der Eingabedaten für die einzelnen Entscheidungsbäume wird die Geschwindigkeit des Werkzeugs bei sehr großen Datasets beschleunigt.

Integer

Zufallsvariablen

Die Anzahl der erklärenden Variablen für die Erstellung der einzelnen Entscheidungsstrukturen.

Alle Entscheidungsbäume im Wald werden mithilfe einer zufälligen Teilmenge der erklärenden Variablen erstellt. Durch eine Erhöhung der Anzahl der in den einzelnen Entscheidungsbäumen verwendeten Variablen steigt die Wahrscheinlichkeit einer Überanpassung des Modells, vor allem dann, wenn dominante Variablen vorhanden sind. Eine gängige Praxis besteht darin, die Quadratwurzel aus der Gesamtzahl der erklärenden Variablen zu ziehen, wenn die vorherzusagende Variable numerisch ist, oder die Gesamtzahl der erklärenden Variablen durch 3 zu teilen, wenn die vorherzusagende Variable kategorisch ist.

Zeichenfolge

Prozentsatz für Validierung

Der Prozentsatz (zwischen 10 und 50 Prozent) der Ziel-Eingabe-Trainings-Features, die als Test-Dataset für die Validierung reserviert sind. Das Modell wird ohne diese zufällige Teilmenge der Daten trainiert, und die beobachteten Werte für diese Features werden mit den vorhergesagten Werten verglichen. Der Standardwert ist 10 Prozent.

Integer

Ausgabe-Layer

Das Werkzeug "Forest-basierte Klassifizierung und Regression" erzeugt verschiedene Ausgaben. Eine Zusammenfassung des Modells für die Forest-basierte Klassifizierung und Regression ist neben statistischen Zusammenfassungen auf der Seite mit den Elementdetails des Ausgabe-Feature-Layers oder in den Analyseprotokollen verfügbar.

Wenn die obige Methode 1 "Ein Modell trainieren, um die Modell-Performance zu bewerten" (dem Werkzeug werden nur Trainingsdaten bereitgestellt) implementiert wird, dann erzeugt das Werkzeug die folgenden zwei Ausgaben:

  • Trainierte Ausgabe-Features: Enthält alle im erstellten Modell verwendeten Training-Features (Zielschema) und erklärenden Variablen. Auch die Vorhersagen für alle Features, die zum Trainieren des Modells verwendet wurden, sind darin enthalten. Dies kann bei der Bewertung der Performance des erstellten Modells hilfreich sein.
  • Zusammenfassungsmeldungen des Werkzeugs: Meldungen, die dabei helfen, die Performance des erstellten Modells besser zu verstehen. Die Meldungen enthalten Informationen zu den Modelleigenschaften, Out-of-Bag-Fehlern, der Variablenbedeutung und Validierungsdiagnosen. Zum Aufrufen der Ergebnisübersicht können Sie die Analyseprotokolle oder die Seite mit den Elementdetails für den Ausgabe-Feature-Layer, auf der die zusammenfassenden Informationen ebenfalls verfügbar sind, anzeigen.

Wenn die obige Methode 2 "Ein Modell anpassen und Werte vorhersagen" (dem Werkzeug werden Trainings- und Vorhersagedaten bereitgestellt) implementiert wird, dann erzeugt das Werkzeug die folgenden zwei Ausgaben:

  • Vorhergesagte Ausgabe-Features: Ein Layer mit vorhergesagten Ergebnissen. Vorhersagen werden mit dem Modell, das aus dem Training-Layer generiert wurde, auf den vorherzusagenden Layer angewendet (Werte für Join-Schema-Daten vorhersagen).
  • Zusammenfassungsmeldungen des Werkzeugs: Meldungen, die dabei helfen, die Performance des erstellten Modells besser zu verstehen. Die Meldungen enthalten Informationen zu den Modelleigenschaften, Out-of-Bag-Fehlern, der Variablenbedeutung und Validierungsdiagnosen. Zum Aufrufen der Ergebnisübersicht können Sie die Analyseprotokolle oder die Seite mit den Elementdetails für den Ausgabe-Feature-Layer, auf der die zusammenfassenden Informationen ebenfalls verfügbar sind, anzeigen.

Überlegungen und Beschränkungen

Unterstützt werden eine einzelne Datenpipeline für Trainingsdaten und eine einzelne Datenpipeline für Vorhersagedaten.