ランダムツリーによる分類と回帰アルゴリズムのしくみ—ArcGIS AllSource

ランダムツリーは、決定木ベースの教師付き機械学習法で、[AutoML を使用したトレーニング (Train Using AutoML)] ツールによって使用されます。決定木は、トレーニングデータに非常に大きく影響されます。この方法では、予測に使用される多数の決定木が作成されます。各決定木は、それぞれ独自の予測を生成し、最終予測を行うための多数決の一部として使用されます。最終予測は、単一のツリーではなく、決定木のフォレスト全体に基づきます。フォレスト全体を使用することにより、フォレストを構成する各ツリー内のトレーニングデータセットのランダムサブセットと説明変数のランダムサブセットの両方を使用するのと同様に、トレーニングデータセットへのモデルの過剰適合を避けることができます。

ブートストラップを使用して、トレーニングデータのランダムサブセットが作成されます。データはランダムに繰り返し選択されるため、サブセットのサイズは元のトレーニングデータと同じです。これにより、モデルが元のトレーニングデータから受ける影響は小さくなります。説明変数をランダムに選択すると、ツリー間の相関が弱くなり、分散が小さくなります。この分散レベルにより、ランダムツリーは決定木よりも効果的です。ブートストラップと結果の集約の併用は「バギング」と呼ばれます。ツリーの精度をテストするには、選択されていないデータ (out-of-bag) のサブセットが使用されます。この方法は、さまざまな設定を繰り返して、out-of-bag エラーが最も少ないフォレストを見つけます。

以下の例は、がく片と花びらの幅と長さに基づいて花を分類するランダムツリーモデルの最初の 5 つの決定木を示しています。

参考資料

Liaw, Andy, and Matthew Wiener. "Classification and regression by randomForest." R news 2, no. 3 (2002): 18-22.

Understanding Random Forest

このトピックへのフィードバック