フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)—ArcGIS Velocity

ツールアイコンビッグデータ解析で使用できます。

[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールは、教師付きコンピューターラーニング手法である Leo Breiman のランダムフォレストアルゴリズムを転用してモデルを作成し、予測を生成します。予測は、カテゴリ変数 (分類) と連続変数 (回帰) に対して実行できます。説明変数は、トレーニングフィーチャの属性テーブル内のフィールドの形態をとることができます。トレーニングデータに基づいてモデルのパフォーマンスを検証するだけでなく、フィーチャ対して予測を行うこともできます。

ワークフロー図

例

以下は、フォレストベースの分類と回帰分析ツールの使用例です。

海草の発生に関するデータ、多数の環境説明変数、さらに上流の工場と主な港までの距離があれば、このような同じ環境説明変数についての予測に基づいて、将来の海草の発生を予測できます。
今年販売された住宅の価格に基づいて、住宅の価格を予測できます。住宅の販売価格と、寝室数、学校までの距離、主要な高速道路までの距離、平均収入、犯罪数などの情報を使用して、同様の住宅の販売価格を予測できます。
子供の血中の鉛濃度やその子供の住宅の課税パーセル ID などの情報と、家の築年数などのパーセルレベルの属性、収入や教育レベルなどの国勢調査レベルの情報、鉛および鉛化合物の有害物排出を反映した全国規模のデータセットなどの情報を与えられた場合、血中の鉛濃度のデータなしでパーセルの鉛汚染のリスクを予測できます。これらのリスク予測は、地域の警察や教育プログラムに情報を提供することができます。

使用上の注意

フォレストベースの分類と回帰分析ツールを操作する際には、以下の点に注意してください。

このツールは、2 つの操作方法のいずれかで実行するように構成できます。
- 方法 1 - ターゲット (トレーニング) データのみを指定した場合、ツールはモデルをトレーニングしてモデルのパフォーマンスを評価します。このオプションを使用すると、さまざまな説明変数およびツール設定を調査しながら、構成のパフォーマンスを評価できます。
- 方法 2 - 適切なモデルと説明変数を特定したら、結合 (予測) データも設定するようにモデルを構成します。結合 (予測) データが構成されると、ツールはマッピングされた説明変数に基づいて、結合 (予測) データ内のフィーチャに指定した変数の値を予測します。
[予測対象変数] パラメーターを使用して、モデル化する現象を表すターゲット入力パイプライン (トレーニングデータ) のフィールドを選択します。 [説明変数] パラメーターを使用して、ターゲット入力パイプライン (トレーニングデータ) から説明変数を表す 1 つ以上のフィールドを選択します。これらのフィールドは数値またはカテゴリで、値の範囲を含む必要があります。従属変数または説明変数に欠落値を含むフィーチャは、解析から除外されます。 NULL 値を変更する場合、値を更新する前に [フィールド演算] ツールを使用します。
説明変数は、フィールドから取得することができ、さまざまな値を含んでいる必要があります。説明変数がカテゴリの場合は、[カテゴリ] チェックボックスをオンにします。カテゴリ説明変数は 60 の個別値に制限されていますが、カテゴリの数を少なくすると、モデルのパフォーマンスが上がります。データのサイズによっては、変数に含まれているカテゴリの数が多いと、モデルに大きく影響し、これによって予測結果が意味を持たなくなる可能性が高くなります。
説明変数を照合する場合、ターゲット (トレーニングフィールド) フィールドと結合 (予測データ) フィールドは同じタイプである必要があります。たとえば、トレーニングフィールドの double フィールドは予測フィールドの double フィールドに一致する必要があります。
フォレストベースのモデルは外挿されないため、モデルのトレーニングが実行された値にしか分類も予測もできません。ターゲットのフィーチャおよび変数の範囲内のトレーニングフィーチャおよび説明変数を使用して、モデルをトレーニングします。トレーニングフィーチャに含まれていなかった予測説明変数にカテゴリが存在する場合は、このツールの実行に失敗します。
[ツリーの数] パラメーターのデフォルト値は [100] です。フォレストモデル内のツリーの数を増やすと、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。
[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールは、出力フィーチャおよび診断も生成します。出力フィーチャレイヤーには自動的にレンダリングスキーマが適用されます。以下の「出力レイヤー」では、各出力について詳細に説明しています。
予測または説明フィールドに 1 つ以上の NULL 値または空の文字列値を持つフィーチャは、出力から除外されます。必要に応じて、[フィールド演算] ツールを使用して値を変更できます。
このツールの機能、およびこの実装の基になる ArcGIS Pro ジオプロセシングツールの詳細については、「フォレストベースの分類と回帰分析の詳細」をご参照ください。

パラメーター

以下は、フォレストベースの分類と回帰分析ツールのパラメーターです。


パラメーター	説明	データタイプ
ターゲット入力レイヤー (トレーニングデータ)	モデルの生成に使用するトレーニングフィーチャ。 [予測対象変数] パラメーターと説明トレーニング変数フィールドを含むパイプライン。	フィーチャ
結合入力レイヤー (予測データ) (オプション)	指定した説明変数とパラメーターに基づいて、予測対象変数が予測される予測フィーチャ。このパラメーターはオプションです。指定されていない場合、[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールは、トレーニングデータに基づいてモデルを適合させ、モデルのパフォーマンスを評価します。	フィーチャ
予測対象変数	モデルのトレーニングに使用される値を含む [ターゲット入力レイヤー (トレーニングデータ)] パイプラインから生成された変数。このフィールドには、不明な位置での予測に使用される変数の既知 (トレーニング) の値が含まれます。	FieldName
変数をカテゴリとして処理	予測対象変数をカテゴリ変数にするかどうかを指定します。オン - 予測対象変数がカテゴリ変数になり、このツールで分類が実行されます。オフ - 予測対象変数が連続変数になり、このツールで回帰が実行されます。これがデフォルトです。	Boolean
説明変数	[予測対象変数] の値またはカテゴリの予測に役立つ説明変数を表すフィールドのリスト。クラスまたはカテゴリを表す変数 (土地被覆や有無など) の場合に [カテゴリ] チェックボックスをオンにします。	ExplanatoryVariablesConfiguration
説明変数マッピング (予測のみ)	ターゲット (トレーニング) スキーマ内で選択した説明変数フィールド名を、結合 (予測) スキーマ内の対応するフィールド名にマッピングします。このパラメーターはオプションです。説明変数マッピングは、結合 (予測) データが指定されている場合にのみ指定する必要があります。	ExplanatoryVariableMappings
ツリー数	フォレストモデル内で作成するツリーの数。通常、ツリーの数を多くすると、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。デフォルトのツリー数は [100] です。	Integer
最小リーフサイズ	リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナルノード)。デフォルトの最小数は、回帰の場合には [5]、分類の場合には [1] になります。大規模なデータの場合は、これらの値を増やすと、このツールの実行時間が短くなります。	Integer
最大ツリー階層	ツリーの下に作成される分割の最大数。最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。デフォルト値は、データに基づき、作成されるツリー数と含まれる変数の数によって異なります。	Integer
サンプルサイズ	決定木ごとに使用される [ターゲット入力レイヤー (トレーニングデータ)] の割合。デフォルトはデータの [100] パーセントです。各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニングデータのサブセット (約 3 分の 2) が使用されます。各決定木の入力データの割合を低くすると、大規模なデータセットの場合、ツールの実行速度が上がります。	Integer
確率変数	各決定木の作成に使用される説明変数の数。フォレストの各決定木は、指定された説明変数のランダムなサブセットを使用して作成されます。各決定木で使用される変数の数を増やすと、特に 1 つ以上のドミナント変数が存在する場合に、モデルの超過適合の可能性が高くなります。一般的な方法として、予測対象変数が数値の場合は、説明変数の総数の平方根を使用し、予測対象変数がカテゴリの場合は、説明変数の総数を 3 で除算します。	String
整合チェックのパーセンテージ	検証のためにテストデータセットとして確保するターゲット入力トレーニングフィーチャの割合 (10 ～ 50 パーセント)。ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャの観測値が予測値と比較されます。デフォルトは [10] パーセントです。	Integer

出力レイヤー

[フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールは、さまざまな出力を生成します。 [フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] モデルのサマリーおよび統計サマリーは、出力フィーチャレイヤーのアイテム詳細ページまたは解析ログで確認できます。

上記の方法 1 を実装し、モデルをトレーニングしてモデルのパフォーマンスを評価する (トレーニングデータのみをツールに入力する) 場合は、ツールは次の 2 つの出力を生成します。

出力トレーニングフィーチャ - 作成されたモデルで使用されるすべてのトレーニングフィーチャ (ターゲットスキーマ)、およびモデルで使用されるすべての説明変数を含みます。また、モデルのトレーニングに使用されているすべてのフィーチャに関する予測も含まれます。この予測は、作成されたモデルのパフォーマンスを評価するのに役立ちます。
ツールのサマリーメッセージ - 作成されたモデルのパフォーマンスを理解するのに役立つメッセージです。このメッセージには、モデル特性、Out of Bag エラー、変数重要度、検証診断に関する情報が記載されています。結果のサマリーにアクセスするには、解析ログを表示するか、サマリー情報も確認できるフィーチャレイヤー出力のアイテム詳細ページを表示します。

上記の方法 2 を実装し、モデルを適合させて値を予測する (トレーニングデータと予測データをツールに入力する) 場合は、ツールは次の 2 つの出力を生成します。

出力予測フィーチャ - 予測結果のレイヤーです。予測は、トレーニングレイヤーから生成されたモデルを使用して、(結合スキーマデータの値を予測する) 予測対象レイヤーに適用されます。
ツールのサマリーメッセージ - 作成されたモデルのパフォーマンスを理解するのに役立つメッセージです。このメッセージには、モデル特性、Out of Bag エラー、変数重要度、検証診断に関する情報が記載されています。結果のサマリーにアクセスするには、解析ログを表示するか、サマリー情報も確認できるフィーチャレイヤー出力のアイテム詳細ページを表示します。

検討事項および制限事項

トレーニングデータ用の 1 つのデータパイプライン、および予測データ用の 1 つのデータパイプラインがサポートされています。

このトピックへのフィードバック

ワークフロー図

例

使用上の注意

パラメーター

出力レイヤー

検討事項および制限事項

このトピックの内容