Funktionsweise des Entscheidungsbaumalgorithmus für Klassifizierung und Regression

Bei Entscheidungsbäumen handelt es sich um einen Algorithmus für überwachtes maschinelles Lernen, der vom Werkzeug Mit AutoML trainieren verwendet wird und die Daten mithilfe der Antworten "true" oder "false" auf bestimmte Fragen klassifiziert oder regressiert. Die sich ergebende Struktur kann in Form eines Baumes mit verschiedenen Knotenarten visualisiert werden: Stammknoten, interner Knoten und Blattknoten. Der Stammknoten ist der Ausgangspunkt für den Entscheidungsbaum, der sich dann in interne Knoten und Blattknoten verzweigt. Die Blattknoten stellen die endgültigen Klassifizierungskategorien oder echten Werte dar. Entscheidungsbäume sind leicht verständlich und lassen sich erklären.

Beim Erstellen eines Entscheidungsbaumes geben Sie zunächst ein Feature an, das als Stammknoten verwendet werden soll. In der Regel ist es nicht möglich, mit einem einzigen Feature die endgültigen Klassen vorherzusagen. Dies wird als Unreinheit bezeichnet. Mithilfe von Methoden wie Gini, Entropie und Informationsgewinn wird diese Unreinheit gemessen und identifiziert, wie gut ein Feature die jeweiligen Daten klassifiziert. Auf allen Ebenen wird das Feature mit der geringsten Unreinheit als Knoten ausgewählt. Zum Berechnen der Gini-Unreinheit für ein Feature mit numerischen Werten sortieren Sie zuerst die Daten in aufsteigender Reihenfolge und berechnen die Durchschnitte der benachbarten Werte. Dann berechnen Sie die Gini-Unreinheit für jeden ausgewählten Durchschnittswert, indem Sie die Datenpunkte danach anordnen, ob die Feature-Werte kleiner oder größer als der ausgewählte Wert sind und ob die Daten mit dieser Auswahl richtig klassifiziert werden. Anschließend wird die Gini-Unreinheit mit der folgenden Gleichung berechnet. Dabei ist K die Anzahl der Klassifizierungskategorien und p der Anteil der Instanzen dieser Kategorien.

Gleichung für Gini-Unreinheit

Der gewichtete Durchschnitt der Gini-Unreinheiten für die Blätter an den einzelnen Werten wird berechnet. Der Wert mit der geringsten Unreinheit wird für das entsprechende Feature ausgewählt. Der Prozess wird für verschiedene Features wiederholt, um das Feature und den Wert auszuwählen, aus denen der Knoten entsteht. Dieser Prozess wird an jedem Knoten auf jeder Tiefenstufe iteriert, bis alle Daten klassifiziert sind. Wenn der Baum erstellt ist, können Sie eine Vorhersage für einen Datenpunkt erstellen, indem Sie den Baum nach unten durchlaufen und dabei die Bedingungen an jedem Knoten verwenden, um den endgültigen Wert bzw. die endgültige Klassifizierung zu erhalten. Wenn Sie Entscheidungsbäume für die Regression verwenden, wird zum Messen der Unreinheit anstelle von Gini die Quadratsumme der Residuen oder die Varianz verwendet. Die restlichen Schritte der Methode sind ähnlich.

Im folgenden Beispiel wird ein Entscheidungsbaum gezeigt, mit dem Blumen anhand der Breite und Höhe der Blütenblätter und Kelchblätter klassifiziert werden:

Beispiel eines Entscheidungsbaumes zum Klassifizieren von Blumen

Zusätzliche Ressourcen

Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

Klassifizierungs- und Regressionsbäume für maschinelles Lernen


In diesem Thema
  1. Zusätzliche Ressourcen