Fonctionnement de l’algorithme de classification et de régression Arbres aléatoires

La méthode des arbres aléatoires est une méthode de Machine Learning supervisé basée sur les arbres de décision et utilisée par l’outil Entraîner à l’aide d’AutoML. Un arbre de décision est excessivement sensible aux données d’entraînement. Cette méthode crée de nombreux arbres de décision utilisés pour la prévision. Chaque arbre génère sa propre prévision et est utilisé dans le cadre d’un vote à la majorité pour établir les prévisions finales. Les prévisions finales ne reposent pas sur un arbre unique, mais sur la forêt entière d’arbres de décision. L’utilisation de la forêt entière permet d’éviter le sur-ajustement du modèle au jeu de données d’entraînement, fréquent lors de l’utilisation d’un sous-ensemble aléatoire des données d’entraînement et des variables explicatives pour chaque arbre de la forêt.

Le bootstrapping est utilisé pour créer un sous-ensemble aléatoire des données d’entraînement. Ce sous-ensemble a la même taille que les données d’entraînement d’origine car les données sont sélectionnées de manière aléatoire avec répétition. Le modèle est ainsi moins sensible aux données d’entraînement d’origine. La sélection aléatoire des variables explicatives limite la corrélation entre les arbres et génère moins de variance. Du fait de ce niveau de variance, les arbres aléatoires sont plus efficaces que les arbres de décision. On appelle « bagging » l’association du bootstrapping et de l’agrégation des résultats. Pour tester la précision d’un arbre, le sous-ensemble de données non sélectionné (out-of-bag) est utilisé. La méthode itère différents paramètres pour trouver la forêt présentant l’erreur out-of-bag la plus faible.

Dans l’exemple ci-dessous, les cinq premiers arbres de décision d’un modèle d’arbres aléatoires qui classe les fleurs en fonction de la largeur et de la longueur de leurs sépales et de leurs pétales sont affichés.

Exemple d’arbres de décision d’un modèle d’arbres aléatoires

Ressources supplémentaires

Liaw, Andy et Matthew Wiener. "Classification and regression by randomForest." R news 2, no. 3 (2002): 18-22.

Comprendre les forêts aléatoires


Dans cette rubrique
  1. Ressources supplémentaires