Fonctionnement de l’algorithme de classification et de régression de l’arbre de décision

L’algorithme d’arbre de décision est un type d’algorithme d’entraînement machine supervisé utilisé par l’outil Entraîner à l’aide d’AutoML et qui classe ou fait régresser les données par des réponses vrai ou faux à certaines questions. La structure résultante, lorsqu’elle est visualisée, prend la forme d’un arbre comportant différents types de nœud (racine, interne et feuille). Le nœud racine est le point de départ de l’arbre de décision, qui génère ensuite des branches vers des nœuds internes et des nœuds de feuille. Les nœuds de feuille sont les catégories de classification ou les valeurs réelles finales. Les arbres de décision sont faciles à comprendre et peuvent être expliqués.

Pour créer un arbre de décision, commencez par spécifier une entité allant devenir le nœud racine. En règle générale, aucune entité unique ne peut prédire parfaitement les classes finales. On appelle cela impureté. Des méthodes telles que la méthode de Gini, l’entropie et le gain d’informations sont utilisées pour mesurer cette impureté et identifier le niveau d’efficacité auquel une entité classe les données fournies. L’entité présentant l’impureté la plus faible est sélectionnée comme nœud à n’importe quel niveau. Pour calculer l’impureté de Gini pour une entité comportant des valeurs numériques, commencez par trier les données dans l’ordre croissant et calculer les moyennes des valeurs adjacentes. Calculez ensuite l’impureté de Gini à chaque valeur moyenne sélectionnée en organisant les points de données selon que les valeurs d’entité sont inférieures ou supérieures à la valeur sélectionnée et selon que cette sélection classe correctement ou non les données. L’impureté de Gini est alors calculée à l’aide de l’équation ci-dessous, où K est le nombre de catégories de classification et p la proportion d’instances de ces catégories.

Équation de l’impureté de Gini

La moyenne pondérée des impuretés de Gini pour les feuilles à chaque valeur est calculée. La valeur présentant l’impureté la plus faible est sélectionnée pour cette entité. Le processus est répété pour différentes entités afin de sélectionner l’entité et la valeur allant devenir le nœud. Le processus est itéré à chaque nœud à chaque niveau de profondeur jusqu’à ce que toutes les données soient classées. Une fois l’arbre construit, pour effectuer une prévision pour un point de données, descendez dans l’arbre à l’aide des conditions à chaque nœud pour arriver à la valeur ou destination finale. Lorsque des arbres de décision sont utilisés pour la régression, la somme des valeurs résiduelles ou de la variance au carré est utilisée pour mesurer l’impureté au lieu de Gini. Le reste de la méthode suit des étapes similaires.

Dans l’exemple suivant, un arbre de décision qui classe les fleurs en fonction de la largeur et de la longueur de leurs sépales et de leurs pétales est affiché.

Exemple d’arbre de décision qui classe les fleurs

Ressources supplémentaires

Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

Classification et arbres de régression pour l’entraînement machine


Dans cette rubrique
  1. Ressources supplémentaires