フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)

ツール アイコン ビッグ データ解析で使用できます。

[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツール [フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツール は、教師付きコンピューター ラーニング手法である Leo Breiman のランダム フォレスト アルゴリズムを転用してモデルを作成し、予測を生成します。 予測は、カテゴリ変数 (分類) と連続変数 (回帰) に対して実行できます。 説明変数は、トレーニング フィーチャの属性テーブル内のフィールドの形態をとることができます。 トレーニング データに基づいてモデルのパフォーマンスを検証するだけでなく、フィーチャ対して予測を行うこともできます。

ワークフロー図

フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)

  • 海草の発生に関するデータ、多数の環境説明変数、さらに上流の工場と主な港までの距離があれば、このような同じ環境説明変数についての予測に基づいて、将来の海草の発生を予測できます。
  • 今年販売された住宅の価格に基づいて、住宅の価格を予測できます。 住宅の販売価格と、寝室数、学校までの距離、主要な高速道路までの距離、平均収入、犯罪数などの情報を使用して、同様の住宅の販売価格を予測できます。
  • 子供の血中の鉛濃度やその子供の住宅の課税パーセル ID などの情報と、家の築年数などのパーセルレベルの属性、収入や教育レベルなどの国勢調査レベルの情報、鉛および鉛化合物の有害物排出を反映した全国規模のデータセットなどの情報を与えられた場合、血中の鉛濃度のデータなしでパーセルの鉛汚染のリスクを予測できます。 これらのリスク予測は、地域の警察や教育プログラムに情報を提供することができます。

使用上の注意

  • このツールは、2 つの操作方法のいずれかで実行するように構成できます。
    • 方法 1 - ターゲット (トレーニング) データのみを指定した場合、ツールはモデルをトレーニングしてモデルのパフォーマンスを評価します。 このオプションを使用すると、さまざまな説明変数およびツール設定を調査しながら、構成のパフォーマンスを評価できます。
    • 方法 2 - 適切なモデルと説明変数を特定したら、結合 (予測) データも設定するようにモデルを構成します。 結合 (予測) データが構成されると、ツールはマッピングされた説明変数に基づいて、結合 (予測) データ内のフィーチャに指定した変数の値を予測します。
  • [予測対象変数] パラメーターを使用して、モデル化する現象を表すターゲット入力パイプライン (トレーニング データ) のフィールドを選択します。 [説明変数] パラメーターを使用して、ターゲット入力パイプライン (トレーニング データ) から説明変数を表す 1 つ以上のフィールドを選択します。 これらのフィールドは数値またはカテゴリで、値の範囲を含む必要があります。 従属変数または説明変数に欠落値を含むフィーチャは、解析から除外されます。 NULL 値を変更する場合、値を更新する前に [フィールド演算] ツールを使用します。
  • 説明変数は、フィールドから取得することができ、さまざまな値を含んでいる必要があります。 説明変数がカテゴリの場合は、[カテゴリ] チェックボックスをオンにします。 カテゴリ説明変数は 60 の個別値に制限されていますが、カテゴリの数を少なくすると、モデルのパフォーマンスが上がります。 データのサイズによっては、変数に含まれているカテゴリの数が多いと、モデルに大きく影響し、これによって予測結果が意味を持たなくなる可能性が高くなります。
  • 説明変数を照合する場合、ターゲット (トレーニング フィールド) フィールドと結合 (予測データ) フィールドは同じタイプである必要があります。たとえば、トレーニング フィールドの double フィールドは予測フィールドの double フィールドに一致する必要があります。
  • フォレストベースのモデルは外挿されないため、モデルのトレーニングが実行された値にしか分類も予測もできません。 ターゲットのフィーチャおよび変数の範囲内のトレーニング フィーチャおよび説明変数を使用して、モデルをトレーニングします。 トレーニング フィーチャに含まれていなかった予測説明変数にカテゴリが存在する場合は、このツールの実行に失敗します。
  • [ツリーの数] パラメーターのデフォルト値は [100] です。 フォレスト モデル内のツリーの数を増やすと、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。
  • [フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールは、出力フィーチャおよび診断も生成します。 出力フィーチャ レイヤーには自動的にレンダリング スキーマが適用されます。 以下の「出力レイヤー」では、各出力について詳細に説明しています。
  • 予測または説明フィールドに 1 つ以上の NULL 値または空の文字列値を持つフィーチャは、出力から除外されます。 必要に応じて、[フィールド演算] ツールを使用して値を変更できます。
  • このツールの機能、およびこの実装の基になる ArcGIS Pro ジオプロセシング ツールの詳細については、「フォレストベースの分類と回帰の機能」をご参照ください。

パラメーター

パラメーター説明データ タイプ

ターゲット入力レイヤー (トレーニング データ)

モデルの生成に使用するトレーニング フィーチャ。 [予測対象変数] パラメーターと説明トレーニング変数フィールドを含むパイプライン。

フィーチャ

結合入力レイヤー (予測データ)

(オプション)

指定した説明変数とパラメーターに基づいて、予測対象変数が予測される予測フィーチャ。

このパラメーターはオプションです。 指定されていない場合、[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールは、トレーニング データに基づいてモデルを適合させ、モデルのパフォーマンスを評価します。

フィーチャ

予測対象変数

モデルのトレーニングに使用される値を含む [ターゲット入力レイヤー (トレーニング データ)] パイプラインから生成された変数。 このフィールドには、不明な位置での予測に使用される変数の既知 (トレーニング) の値が含まれます。

FieldName

変数をカテゴリとして処理

予測対象変数をカテゴリ変数にするかどうかを指定します。

  • オン - 予測対象変数がカテゴリ変数になり、このツールで分類が実行されます。
  • オフ - 予測対象変数が連続変数になり、このツールで回帰が実行されます。 これがデフォルトです。

Boolean

説明変数

[予測対象変数] の値またはカテゴリの予測に役立つ説明変数を表すフィールドのリスト。 クラスまたはカテゴリを表す変数 (土地被覆や有無など) の場合に [カテゴリ] チェックボックスをオンにします。

ExplanatoryVariablesConfiguration

説明変数マッピング (予測のみ)

ターゲット (トレーニング) スキーマ内で選択した説明変数フィールド名を、結合 (予測) スキーマ内の対応するフィールド名にマッピングします。

このパラメーターはオプションです。 説明変数マッピングは、結合 (予測) データが指定されている場合にのみ指定する必要があります。

ExplanatoryVariableMappings

ツリー数

フォレスト モデル内で作成するツリーの数。 通常、ツリーの数を多くすると、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。 デフォルトのツリー数は [100] です。

Integer

最小リーフ サイズ

リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナル ノード)。 デフォルトの最小数は、回帰の場合には [5]、分類の場合には [1] になります。 大規模なデータの場合は、これらの値を増やすと、このツールの実行時間が短くなります。

Integer

最大ツリー階層

ツリーの下に作成される分割の最大数。 最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。 デフォルト値は、データに基づき、作成されるツリー数と含まれる変数の数によって異なります。

Integer

サンプル サイズ

決定木ごとに使用される [ターゲット入力レイヤー (トレーニング データ)] の割合。 デフォルトはデータの [100] パーセントです。 各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。

集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニング データのサブセット (約 3 分の 2) が使用されます。 各決定木の入力データの割合を低くすると、大規模なデータセットの場合、ツールの実行速度が上がります。

Integer

確率変数

各決定木の作成に使用される説明変数の数。

フォレストの各決定木は、指定された説明変数のランダムなサブセットを使用して作成されます。 各決定木で使用される変数の数を増やすと、特に 1 つ以上のドミナント変数が存在する場合に、モデルの超過適合の可能性が高くなります。 一般的な方法として、予測対象変数が数値の場合は、説明変数の総数の平方根を使用し、予測対象変数がカテゴリの場合は、説明変数の総数を 3 で除算します。

文字列

整合チェックのパーセンテージ

検証のためにテスト データセットとして確保するターゲット入力トレーニング フィーチャの割合 (10 ~ 50 パーセント)。 ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャの観測値が予測値と比較されます。 デフォルトは [10] パーセントです。

Integer

出力レイヤー

[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールは、さまざまな出力を生成します。 [フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] モデルのサマリーおよび統計サマリーは、出力フィーチャ レイヤーのアイテム詳細ページまたは解析ログで確認できます。

上記の方法 1 を実装し、モデルをトレーニングしてモデルのパフォーマンスを評価する (トレーニング データのみをツールに入力する) 場合は、ツールは次の 2 つの出力を生成します。

  • 出力トレーニング フィーチャ - 作成されたモデルで使用されるすべてのトレーニング フィーチャ (ターゲット スキーマ)、およびモデルで使用されるすべての説明変数を含みます。 また、モデルのトレーニングに使用されているすべてのフィーチャに関する予測も含まれます。この予測は、作成されたモデルのパフォーマンスを評価するのに役立ちます。
  • ツールのサマリー メッセージ - 作成されたモデルのパフォーマンスを理解するのに役立つメッセージです。 このメッセージには、モデル特性、Out of Bag エラー、変数重要度、検証診断に関する情報が記載されています。 結果のサマリーにアクセスするには、解析ログを表示するか、サマリー情報も確認できるフィーチャ レイヤー出力のアイテム詳細ページを表示します。

上記の方法 2 を実装し、モデルを適合させて値を予測する (トレーニング データと予測データをツールに入力する) 場合は、ツールは次の 2 つの出力を生成します。

  • 出力予測フィーチャ - 予測結果のレイヤーです。 予測は、トレーニング レイヤーから生成されたモデルを使用して、(結合スキーマ データの値を予測する) 予測対象レイヤーに適用されます。
  • ツールのサマリー メッセージ - 作成されたモデルのパフォーマンスを理解するのに役立つメッセージです。 このメッセージには、モデル特性、Out of Bag エラー、変数重要度、検証診断に関する情報が記載されています。 結果のサマリーにアクセスするには、解析ログを表示するか、サマリー情報も確認できるフィーチャ レイヤー出力のアイテム詳細ページを表示します。

検討事項および制限事項

トレーニング データ用の 1 つのデータ パイプライン、および予測データ用の 1 つのデータ パイプラインがサポートされています。