決定木による分類と回帰アルゴリズムの仕組み

決定木は、[AutoML を使用したトレーニング (Train Using AutoML)] ツールで使用される教師付き機械学習アルゴリズムの一種です。特定の質問への回答として True または False を使用してデータを分類または回帰します。 生成された構造は、視覚化すると、ルート、内部、リーフなどのさまざまなタイプのノードを持つツリー形式で表されます。 ルート ノードは決定木の開始場所で、決定木は内部ノードとリーフノードに分岐します。 リーフ ノードは、最終的な分類カテゴリまたは実際の値です。 決定木は理解しやすく、説明可能です。

決定木を作成するには、最初にルート ノードになるフィーチャを指定します。 通常、単一のフィーチャが最終クラスを完全に予測することはできません。これは不純度と呼ばれます。 ジニ、エントロピー、情報ゲインなどの方法を使用して、この不純度を計測し、フィーチャが特定のデータを分類する程度を特定します。 不純度が最も低いフィーチャが、任意のレベルのノードとして選択されます。 数値を使用してフィーチャのジニ不純度を計算するには、まずデータを昇順に並べ替え、隣接する値の平均を算出します。 次に、フィーチャの値が選択された値よりも小さいか大きいか、およびその選択によってデータが正しく分類されるかどうかに基づいてデータ ポイントを配置することで、選択された各平均値でのジニ不純度を計算します。 続いて、以下の等式を使用してジニ不純度が計算されます。この式で、K は分類カテゴリの数、p はそれらのカテゴリのインスタンスの割合です。

ジニ不純度の等式

各値でのリーフのジニ不純度の加重平均が計算されます。 最も低い不純度の値、そのフィーチャに対して選択されます。 このプロセスは、ノードになるフィーチャと値を選択するために、さまざまなフィーチャに対して繰り返されます。 このプロセスは、すべてのデータが分類されるまで、各深度レベルのすべてのノードで繰り返されます。 ツリーの構成後、データ ポイントの予測を行うため、各ノードの条件を使用してツリー下部に移動し、最終的な値または分類に達します。 回帰で決定木を使用する場合は、ジニの代わりに残差平方和または分散を使用して不純度を計測します。 残りの部分も同様の手順で行います。

以下は、花びらとがく片の幅と高さに基づいて花を分類する決定木の例です。

花を分類する決定木の例

参考資料

Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

Classification And Regression Trees for Machine Learning


このトピックの内容
  1. 参考資料