Funktionsweise des Random-Trees-Algorithmus für Klassifizierung und Regression

Random Trees ist eine auf Entscheidungsbäumen basierende Methode für überwachtes maschinelles Lernen, die vom Werkzeug Mit AutoML trainieren verwendet wird. Ein Entscheidungsbaum ist übermäßig sensibel für Trainingsdaten. Bei dieser Methode werden zahlreiche Entscheidungsbäume erstellt, die für Vorhersagen verwendet werden. Jeder Baum erstellt eine eigene Vorhersage und wird als Teil einer Stimmenmehrheit zur Erstellung endgültiger Vorhersagen verwendet. Die endgültigen Vorhersagen basieren nicht auf einem einzelnen Baum, sondern auf dem gesamten Wald aus Entscheidungsbäumen. Die Verwendung des gesamten Waldes hilft, eine Überanpassung des Modells an das Trainings-Dataset zu vermeiden. Dasselbe gilt für die Verwendung einer zufälligen Teilmenge sowohl der Trainingsdaten als auch der erklärenden Variablen für jeden der Bäume, aus denen sich der Wald zusammensetzt.

Zum Erstellen einer zufälligen Teilmenge der Trainingsdaten wird Bootstrapping verwendet. Die Teilmenge hat die gleiche Größe wie die ursprünglichen Trainingsdaten, da die Daten nach dem Zufallsprinzip mit Wiederholungen ausgewählt werden. Dadurch ist das Modell weniger sensibel für die ursprünglichen Trainingsdaten. Die zufällige Auswahl der erklärenden Variablen reduziert die Korrelation zwischen Bäumen und verursacht weniger Varianz. Aufgrund dieses Maßes an Varianz sind Random Trees effektiver als Entscheidungsbäume. Die gemeinsame Verwendung von Bootstrapping und der Aggregation von Ergebnissen wird als Bagging bezeichnet. Zum Testen der Genauigkeit eines Baumes wird die Teilmenge der nicht ausgewählten Daten ("out-of-bag") verwendet. Die Methode durchläuft verschiedene Einstellungen, um den Wald mit den wenigsten Out-of-Bag-Fehlern zu finden.

Im folgenden Beispiel werden die ersten fünf Entscheidungsbäume eines Random-Trees-Modells gezeigt, mit dem Blumen basierend auf der Breite und Länge ihrer Kelchblätter und Blütenblätter klassifiziert werden.

Beispiel für Entscheidungsbäume eines Random-Trees-Modells

Zusätzliche Ressourcen

Liaw, Andy und Matthew Wiener. "Classification and regression by randomForest". R News 2, Nr. 3 (2002): 18–22.

Informationen zu Random Forest


In diesem Thema
  1. Zusätzliche Ressourcen