ラベル | 説明 | データ タイプ |
予測タイプ | 使用される操作モードを指定します。 このツールでは、パフォーマンスの評価、フィーチャの予測、または予測サーフェスの作成の目的にのみモデルのトレーニングを実行できます。
| String |
入力トレーニング フィーチャ | [予測対象変数] パラメーター値と (オプションで) フィールドから生成された説明トレーニング変数を含むフィーチャクラス。 | Feature Layer |
予測対象変数 (オプション) | モデルのトレーニングに使用される値を含む [入力トレーニング フィーチャ] パラメーター値から生成された変数。 このフィールドには、不明なロケーションでの予測に使用される変数の既知 (トレーニング) の値が含まれます。 | Field |
変数をカテゴリとして処理 (オプション) | [予測対象変数] 値をカテゴリ変数にするかどうかを指定します。
| Boolean |
説明トレーニング変数 (オプション) | [予測対象変数] の値またはカテゴリの予測に役立つ説明変数を表すフィールドのリスト。 クラスまたはカテゴリを表す変数 (土地被覆や有無など) の場合に [カテゴリ] チェックボックスをオンにします。 | Value Table |
説明トレーニング距離フィーチャ (オプション) | 説明トレーニング距離フィーチャを含むフィーチャ レイヤー。 指定されたフィーチャから [入力トレーニング フィーチャ] 値までの距離が算出され、説明変数が自動的に作成されます。 [入力トレーニング フィーチャ] 値の各フィーチャから最近隣の [説明トレーニング距離フィーチャ] 値までの距離が算出されます。 入力された [説明トレーニング距離フィーチャ] 値がポリゴンまたはラインの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。 | Feature Layer |
説明トレーニング ラスター (オプション) | ラスターから抽出された説明トレーニング変数。 ラスター セル値が抽出され、説明トレーニング変数が自動的に作成されます。 [入力トレーニング フィーチャ] パラメーターのフィーチャごとに、該当するロケーションでラスター セルの値が抽出されます。 連続ラスターからラスター値を抽出する場合には、共一次内挿法によるラスターのリサンプリングが使用されます。 カテゴリ ラスターからラスター値を抽出する場合には、最近隣内挿法による近接割り当てが使用されます。 クラスまたはカテゴリを表すラスター (土地被覆や有無など) の場合に [カテゴリ] チェックボックスをオンにします。 | Value Table |
入力予測フィーチャ (オプション) | 予測が行われるロケーションを表すフィーチャクラス。 このフィーチャクラスには、トレーニング データから使用されるフィールドに対応するフィールドとして指定された説明変数も含める必要があります。 | Feature Layer |
出力予測済みフィーチャ (オプション) | 予測結果を含む出力フィーチャクラス。 | Feature Class |
出力予測サーフェス (オプション) | 予測結果を含む出力ラスター。 デフォルトのセル サイズは、入力ラスターの最大セル サイズになります。 別のセル サイズを設定するには、[セル サイズ] 環境設定を使用します。 | Raster Dataset |
説明変数の照合 (オプション) | 右側の [入力トレーニング フィーチャ] パラメーターに対して指定された [説明変数] 値と左側の [入力予測フィーチャ] パラメーターの対応するフィールドのリスト。 | Value Table |
距離フィーチャの照合 (オプション) | 右側の [入力トレーニング フィーチャ] パラメーターに対して指定された [説明距離フィーチャ] 値と左側の [入力予測フィーチャ] パラメーターの対応するフィーチャ セットのリスト。 [入力予測フィーチャ] パラメーターに最適な [説明距離フィーチャ] 値は、これらが異なる分析範囲または期間内にトレーニングに使用されている場合に指定できます。 | Value Table |
説明ラスターの照合 (オプション) | 右側の [入力トレーニング フィーチャ] パラメーターに対して指定された [説明ラスター] 値と、左側の作成対象の [入力予測フィーチャ] パラメーターまたは [予測サーフェス] パラメーターの対応するラスターのリスト。 [入力予測フィーチャ] パラメーターに最適な [説明ラスター] 値は、これらが異なる分析範囲または期間内にトレーニングに使用されている場合に指定できます。 | Value Table |
出力トレーニング済みフィーチャ (オプション) | トレーニングに使用されている説明変数 (サンプリングされたラスター値と距離計算を含む)、および観測された [予測対象変数] フィールドとそれに伴う予測 (トレーニング済みのモデルのパフォーマンスを詳しく評価する際に使用)。 | Feature Class |
出力変数重要度テーブル (オプション) | モデルで使用されている説明変数ごとの重要度を示す情報を含むテーブル。 説明変数には、モデルの作成に使用されるフィールド、距離フィーチャ、ラスターが含まれます。 [モデル タイプ] パラメーター値が [勾配ブースティング] の場合は、重要度はゲイン、加重、カバーによって計測され、テーブルにはこれらのフィールドが含まれます。 [検証の実行回数] パラメーター値が 1 の場合、出力にはバー チャートが含まれます。値が 1 よりも大きい場合は、説明変数の重要度を表す箱ひげ図が含まれます。 | Table |
トレーニング用にポリゴンをラスター解像度に変換 (オプション) | [入力トレーニング フィーチャ] 値が [予測対象変数] カテゴリ値のポリゴンであり、[説明トレーニング ラスター] 値だけが指定されている場合のモデルのトレーニング時のポリゴンの処理方法を示します。
| Boolean |
ツリーの数 (オプション) | フォレストベース モデルと勾配ブースティング モデルで作成されたツリーの数。 デフォルトは 100 です。 [モデル タイプ] パラメーター値が [フォレストベース] である場合、ツリーの数を多くするとモデル予測の精度が上がりますが、モデルの計算時間が長くなります。 [モデル タイプ] パラメーター値が [勾配ブースティング] である場合、ツリーの数を多くするとモデル予測の精度が上がりますが、トレーニング データの過剰適合の原因になることがあります。 データの過剰適合を防ぐには、[最大ツリー階層]、[L2 正規化 (ラムダ)]、[分割の最小損失減少 (ガンマ)]、[学習率 (イータ)] パラメーターの値を指定します。 | Long |
最小リーフ サイズ (オプション) | リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナル ノード)。 デフォルトの最小数は、回帰の場合には 5、分類の場合には 1 になります。 大規模なデータの場合は、これらの数を増やすと、このツールの実行時間が短くなります。 | Long |
最大ツリー階層 (オプション) | ツリーの下に作成される分割の最大数。 最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。 [モデル タイプ] パラメーター値が [フォレストベース] である場合、デフォルト値はデータ ドリブンであり、作成されるツリー数と含まれる変数の数によって異なります。 [モデル タイプ] パラメーター値が [勾配ブースティング] の場合、デフォルトは 6 です。 | Long |
ツリーあたりの利用可能なデータ (%) (オプション) | 決定木ごとに使用される [入力トレーニング フィーチャ] 値の割合。 デフォルトはデータの 100% です。 各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。 集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニング データのサブセット (約 3 分の 2) が使用されます。 各決定木の入力データの割合を低くすると、大規模なデータセットの場合のこのツールの実行時間が短くなります。 | Long |
ランダムにサンプリングされる変数の数 (オプション) | 各決定木の作成に使用される説明変数の数。 フォレストベース モデルと勾配ブースティング モデルの各決定木は、指定された説明変数のランダムなサブセットを使用して作成されます。 各決定木で使用される変数の数を増やすと、特に 1 つ以上のドミナント変数が存在する場合に、モデルの超過適合の可能性が高くなります。 デフォルトでは、[予測対象変数] 値がカテゴリの場合は説明変数の総数 (フィールド、距離、ラスターの合計) の平方根を使用し、[予測対象変数] 値が数値の場合は、説明変数の総数 (フィールド、距離、ラスターの合計) を 3 で除算します。 | Long |
検証のために除外するトレーニング データ (%) (オプション) | 検証のためにテスト データセットとして確保される [入力トレーニング フィーチャ] 値の割合 (10 ~ 50 パーセント)。 ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャのモデル予測値が観測値と比較されます。 デフォルトは 10 パーセントです。 | Double |
出力分類パフォーマンス テーブル (混同行列) (オプション) | 検証データで作成されたモデルのパフォーマンスを集計する混同行列。 この行列では、検証データに対してモデルが予測したカテゴリを、実際のカテゴリと比較します。 このテーブルは、出力メッセージに含まれていない、他の診断を計算するために使用されます。 このパラメーターは、[予測対象変数] 値がカテゴリで、[カテゴリとして処理] パラメーターがオンの場合に使用できます。 | Table |
出力検証テーブル (オプション) | [予測対象変数] 値がカテゴリではない場合には各モデルの R2、値がカテゴリの場合は各モデルの正確度が含まれるテーブル。 このテーブルには、正確度または R2 値の分布を示すバー チャートが含まれます。 この分布を使用して、モデルの安定性を評価できます。 このパラメーターは、[検証の実行回数] 値が 2 よりも大きい場合に使用できます。 | Table |
スパース カテゴリの補正 (オプション) | 頻度にかかわらず、トレーニング データセット内の各カテゴリを各ツリーで表すかどうかを指定します。 このパラメーターは、[モデル タイプ] パラメーター値が [フォレストベース] である場合に使用できます。
| Boolean |
検証の実行回数 (オプション) | ツールの反復回数。 すべてのモデルの相関係数の二乗値 (連続) の分布または正確度 (カテゴリ) の分布は、[出力検証テーブル] パラメーターを使用して表示できます。 [予測タイプ] パラメーターの値が [ラスターに関する予測] または [フィーチャに関する予測] に設定されている場合は、相関係数の二乗値の中央値または正確度の中央値を生成したモデルが予測に使用されます。 中央値を使用すると、予測の安定性を確保できます。 | Long |
不確実性の計算 (オプション) | トレーニング、フィーチャの予測、またはラスターの予測の際に、予測の不確実性を計算するかどうかを指定します。 このパラメーターは、[モデル タイプ] パラメーター値が [フォレストベース] である場合に使用できます。
| Boolean |
出力トレーニング済みモデル ファイル (オプション) | 後から予測に使用できるトレーニング済みモデルが保存される出力モデル ファイル。 | File |
モデル タイプ (オプション) | モデルの作成に使用する方法を指定します。
| String |
L2 正規化 (ラムダ) (オプション) | モデルの感度を個々のフィーチャまで下げる正規化手法。 この値を大きくすると、モデルがより保守的になるため、トレーニング データの過剰適合を防止することができます。 値が 0 の場合は、モデルは従来の勾配ブースティング モデルになります。 デフォルトは 1 です。 このパラメーターは、[モデル タイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。 | Double |
分割の最小損失減少 (ガンマ) (オプション) | ツリーの分割に必要な最小損失削減の閾値。 潜在的な分割の損失削減を評価します。 分割候補の損失削減がこの閾値よりも大きい場合は、パーティション化が行われます。 高い閾値を設定すると過剰適合を防止でき、パーティション数が少ない、より保守的なモデルになります。 デフォルトは 0 です。 このパラメーターは、[モデル タイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。 | Double |
学習率 (イータ) (オプション) | 最終的な予測への各ツリーの関与を少なくする値。 0 より大きく、1 以下の値を設定する必要があります。 学習率を小さくすると、モデルの過剰適合は防止できますが、計算時間が長くなる可能性があります。 デフォルトは 0.3 です。 このパラメーターは、[モデル タイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。 | Double |
分割を検索するビンの最大数 (オプション) | 最適な分割ポイントを検索するために、トレーニング データを分割するビンの数。 この値は 1 に設定できません。 デフォルトは 0 で、グリーディ アルゴリズムが使用されます。 グリーディ アルゴリズムでは、すべてのデータ ポイントで分割候補が作成されます。 検索用のビン数が少なすぎると、モデル予測パフォーマンスが低下するため、お勧めできません。 このパラメーターは、[モデル タイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。 | Long |
パラメーターの最適化 (オプション) | 最適化方法を使用して、最適なモデル パフォーマンスを実現するハイパーパラメーター セットを見つけるかどうかを指定します。
| Boolean |
最適化方法 (オプション) | 最適なハイパーパラメーター セットを見つけるための検索ポイントを選択し、テストするために使用される最適化方法を指定します。 検索ポイントは、[モデル パラメーター設定] パラメーターで指定された検索空間内の、ハイパーパラメーターの組み合わせです。 このオプションは、[最適化パラメーター] パラメーターがオンの場合に使用できます。
| String |
ターゲットの最適化 (目的) (オプション) | 最適なハイパーパラメーター セットを見つけるために、最小化または最大化される目的関数や値を指定します。
| String |
パラメーター セットの実行回数 (オプション) | [モデル パラメーター設定] パラメーターで指定される検索空間内でテストされる検索ポイントの数。 このパラメーターは、[最適化方法] 値が [ランダム サーチ (クイック)] または [ランダム サーチ (ロバスト)] である場合に使用できます。 | Long |
モデル パラメーター設定 (オプション) | ハイパーパラメーターとその検索空間のリスト。 各ハイパーパラメーターの検索空間をカスタマイズするには、下限、上限、間隔を指定します。 下限と上限は、ハイパーパラメーターで使用可能な値の範囲を指定します。 各ハイパーパラメーターで有効な値の範囲は以下のとおりです。
| Value Table |
出力パラメーター調整テーブル (オプション) | パラメーター設定と、最適化試行の目的値を含むテーブル。 出力には、すべての試行とその目的値のチャートが含まれます。 このオプションは、[パラメーターの最適化] がオンの場合に使用できます。 | Table |
すべての予測確率を含める (オプション) | 予測対象のカテゴリ変数では、カテゴリ変数のすべてのカテゴリの確率を予測するか、該当するレコードのカテゴリの確率だけを予測するかを指定します。 たとえば、カテゴリ変数にカテゴリ A、B、C が存在し、最初のレコードにカテゴリ B が存在する場合は、このパラメーターを使用して、カテゴリ A、B、C の確率を予測するか、該当するレコードのカテゴリ B の確率だけを予測するかを指定します。
| Boolean |
派生した出力
ラベル | 説明 | データ タイプ |
出力不確実性ラスター レイヤー | [不確実性の計算] パラメーターがオンの場合、ツールは [予測対象変数] パラメーターの予測値の周辺で 90 パーセントの予測間隔を計算します。 | Raster Layer |