ランダムツリーによる回帰モデル定義ファイルの作成 (Train Random Trees Regression Model) (Image Analyst)—ArcGIS AllSource

Image Analyst ライセンスで利用できます。

サマリー

説明変数 (独立変数) とターゲットデータセット (従属変数) の関係をモデル化します。

使用法

このツールを使用して、さまざまなデータタイプでトレーニングすることができます。入力ラスター (説明変数) には、1 つのラスターまたはラスターのリスト、シングルバンドまたは各変数が説明変数であるマルチバンド、ラスター内の変数が説明変数である多次元ラスター、または複数のデータタイプの組み合わせを使用できます。
入力モザイクデータセットは (ラスターのコレクションではなく) ラスターデータセットとして扱われます。ラスターのコレクションを入力として使用するには、モザイクデータセットの多次元情報を構築して、その結果を入力として使用します。
入力ターゲットには、フィーチャクラスまたはラスターを使用できます。ターゲットがフィーチャの場合、[ターゲット値フィールド] の値は数値フィールドに設定する必要があります。
入力ターゲットフィーチャに日付フィールドまたはディメンションを定義するフィールドが含まれている場合、[ターゲット値フィールド] と [ターゲットディメンションフィールド] パラメーターの値を指定します。
入力ラスターターゲットには、多次元ラスターも使用できます。
入力ターゲットが多次元の場合、対応する入力説明変数には、少なくとも 1 つの多次元ラスターが含まれている必要があります。ターゲットディメンションと交差する説明変数は、トレーニングに使用されます。リスト内にある他の次元のないラスターはすべてのディメンションに適用されます。交差する説明変数がない場合や、すべてが次元がない場合、トレーニングは行われません。
入力ターゲットに次元がなく説明変数に次元がある場合、最初のスライスが使用されます。
出力が多次元ラスターの場合、CRF 形式を使用します。出力が次元のないラスターの場合、任意の出力ラスター形式に保存できます。
入力説明変数のセルサイズは、トレーニング結果と処理時間に影響します。デフォルトでは、このツールは最初の説明ラスターのセルサイズを使用します。これは、[セルサイズ] 環境設定を使用して変更できます。一般的に、データのセルサイズより小さなセルサイズを使用したトレーニングは推奨しません。
[出力重要度テーブル] パラメーター値を使用すると、ターゲット変数の予測に貢献する各説明変数の重要度を解析できます。
トレーニングポイントのエラー、テストポイントのエラー、テスト位置ポイントのエラーの 3 種類のエラーを計算するには [テスト用のサンプルの割合] パラメーターをオンにします。たとえば、パーセント値を 10 に設定した場合、トレーニングサンプルポイントのうち 10% が位置に基づく参照に使用されます。これらの参照ポイントは、テスト位置ポイントと呼ばれる、空間の内挿のエラーを測定するために使用されます。残りのトレーニングサンプルポイントは 2 つのグループに分割されます。1 つ目がトレーニングサンプルポイント全体の 90% を含むグループで、2 つ目がトレーニングサンプルポイント全体の 10% を含むグループです。ポイント全体の 90% を含むグループは回帰モデルのトレーニングに使用され、ポイント全体の 10% を含むグループは精度を求めるテストに使用されます。
[テスト用のサンプルの割合] パラメーターをオンにすると、予測、および参照トレーニングサンプル値の散布図が生成されます。決定係数 (R2) は適合度の予測としても計算されます。
予測値とトレーニング値の散布図を作成するには、[サンプル (Sample)] ツールを使用して予測されるラスターから予測値を抽出できます。次に、[サンプル (Sample)] ツールの出力内の LocationID フィールドと、ターゲットフィールドクラスの ObjectID フィールドを使用して、テーブル結合を実行します。ターゲット入力がラスターの場合、ランダムポイントを生成して、入力ターゲットラスターと予測ラスターの両方から値を抽出できます。

パラメーター

ラベル	説明	データタイプ
入力ラスター	説明変数を含むシングルバンド、多次元、マルチバンドラスターデータセットまたはモザイクデータセット。	Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
ターゲットラスターまたはポイント	ターゲット変数 (従属変数) データを格納したラスターフィーチャクラスまたはポイントフィーチャクラス。	Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
出力回帰定義ファイル	分類器に関する属性情報、統計情報、その他の情報を含んでいる、拡張子が .ecd の JSON 形式のファイル。	File
ターゲット値フィールド (オプション)	ターゲットポイントフィーチャクラスまたはラスターデータセット内にモデル化する情報のフィールド名。	Field
ターゲットディメンションフィールド (オプション)	ディメンション値を定義する入力ポイントフィーチャクラス内の日付フィールドまたは数値フィールド。	Field
ラスターディメンション (オプション)	ターゲットデータのディメンションにリンクする入力多次元ラスター (説明変数) のディメンション名。	String
出力重要度テーブル (オプション)	モデルで使用されている説明変数ごとの重要度を示す情報を含むテーブル。数値が大きいほど、対応する変数が予測変数と関連しており、予測に貢献することを示します。値の範囲は 0 ～ 1 で、すべての値の合計は 1 になります。	Table
ツリーの最大数 (オプション)	フォレスト内のツリーの最大数。ツリー数を増やすと、精度率が高くなります。ただし、この向上は一定になっていきます。ツリー数は、処理時間を線形的に増加させます。デフォルトは 50 です。	Long
最大ツリー階層 (オプション)	フォレスト内の各ツリーの最大深度。深度は、各ツリーが意思決定に至るまでに作成できるルールの数を決定します。ツリーは、この設定を超えた深度には成長しません。デフォルトは 30 です。	Long
サンプルの最大数 (オプション)	回帰分析に使用される最大サンプル数。 0 以下の値は、システムが回帰モデルをトレーニングするために入力ターゲットラスターまたはポイントフィーチャクラスのすべてのサンプルを使用することを意味します。デフォルト値は 10,000 です。	Long
セルごとにポイントを平均化 (オプション)	複数のトレーニングポイントが 1 つのセル内にある場合、平均を計算するかどうかを指定します。このパラメーターは、入力ターゲットがポイントフィーチャクラスの場合にのみ適用されます。オフ - 複数のトレーニングポイントが 1 つのセル内にある場合、すべてのポイントが使用されます。これがデフォルトです。オン - 1 つのセル内にあるトレーニングポイントの平均値が計算されます。すべてのポイントを保持—複数のトレーニングポイントが 1 つのセル内にある場合、すべてのポイントが使用されます。これがデフォルトです。セルごとにポイントを平均化—1 つのセル内にあるトレーニングポイントの平均値が計算されます。	Boolean
テスト用のサンプルの割合 (オプション)	エラーの確認に使用されるテストポイントの割合。このツールでは、トレーニングポイントのエラー、テストポイントのエラー、テスト位置ポイントのエラーの 3 種類のエラーを確認します。デフォルトは 10 です。	Double
出力散布図 (PDF または HTML) (オプション)	出力散布図 (PDF または HTML 形式)。出力にはトレーニングデータ、テストデータ、位置テストデータの散布図が含まれます。	File
出力サンプルフィーチャ (オプション)	トレーニングポイント、テストポイント、位置テストポイントのターゲット値と予測値を含む出力フィーチャクラス。	Feature Class

TrainRandomTreesRegressionModel(in_rasters, in_target_data, out_regression_definition, {target_value_field}, {target_dimension_field}, {raster_dimension}, {out_importance_table}, {max_num_trees}, {max_tree_depth}, {max_samples}, {average_points_per_cell}, {percent_testing}, {out_scatterplots}, {out_sample_features})

名前	説明	データタイプ
in_rasters [in_rasters,...]	説明変数を含むシングルバンド、多次元、マルチバンドラスターデータセットまたはモザイクデータセット。	Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
in_target_data	ターゲット変数 (従属変数) データを格納したラスターフィーチャクラスまたはポイントフィーチャクラス。	Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
out_regression_definition	分類器に関する属性情報、統計情報、その他の情報を含んでいる、拡張子が .ecd の JSON 形式のファイル。	File
target_value_field (オプション)	ターゲットポイントフィーチャクラスまたはラスターデータセット内にモデル化する情報のフィールド名。	Field
target_dimension_field (オプション)	ディメンション値を定義する入力ポイントフィーチャクラス内の日付フィールドまたは数値フィールド。	Field
raster_dimension (オプション)	ターゲットデータのディメンションにリンクする入力多次元ラスター (説明変数) のディメンション名。	String
out_importance_table (オプション)	モデルで使用されている説明変数ごとの重要度を示す情報を含むテーブル。数値が大きいほど、対応する変数が予測変数と関連しており、予測に貢献することを示します。値の範囲は 0 ～ 1 で、すべての値の合計は 1 になります。	Table
max_num_trees (オプション)	フォレスト内のツリーの最大数。ツリー数を増やすと、精度率が高くなります。ただし、この向上は一定になっていきます。ツリー数は、処理時間を線形的に増加させます。デフォルトは 50 です。	Long
max_tree_depth (オプション)	フォレスト内の各ツリーの最大深度。深度は、各ツリーが意思決定に至るまでに作成できるルールの数を決定します。ツリーは、この設定を超えた深度には成長しません。デフォルトは 30 です。	Long
max_samples (オプション)	回帰分析に使用される最大サンプル数。 0 以下の値は、システムが回帰モデルをトレーニングするために入力ターゲットラスターまたはポイントフィーチャクラスのすべてのサンプルを使用することを意味します。デフォルト値は 10,000 です。	Long
average_points_per_cell (オプション)	複数のトレーニングポイントが 1 つのセル内にある場合、平均を計算するかどうかを指定します。このパラメーターは、入力ターゲットがポイントフィーチャクラスの場合にのみ適用されます。オフ - 複数のトレーニングポイントが 1 つのセル内にある場合、すべてのポイントが使用されます。これがデフォルトです。オン - 1 つのセル内にあるトレーニングポイントの平均値が計算されます。 KEEP_ALL_POINTS—複数のトレーニングポイントが 1 つのセル内にある場合、すべてのポイントが使用されます。これがデフォルトです。 AVERAGE_POINTS_PER_CELL—1 つのセル内にあるトレーニングポイントの平均値が計算されます。	Boolean
percent_testing (オプション)	エラーの確認に使用されるテストポイントの割合。このツールでは、トレーニングポイントのエラー、テストポイントのエラー、テスト位置ポイントのエラーの 3 種類のエラーを確認します。デフォルトは 10 です。	Double
out_scatterplots (オプション)	出力散布図 (PDF または HTML 形式)。出力にはトレーニングデータ、テストデータ、位置テストデータの散布図が含まれます。	File
out_sample_features (オプション)	トレーニングポイント、テストポイント、位置テストポイントのターゲット値と予測値を含む出力フィーチャクラス。	Feature Class

コードのサンプル

TrainRandomTreesRegressionModel の例 1 (Python ウィンドウ)

この Python ウィンドウスクリプトは、説明変数とターゲットデータセットの関係をモデル化します。

# Import system modules 
import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Execute  
arcpy.ia.TrainRandomTreesRegressionModel("weather_variables.crf";"dem.tif", "pm2.5.shp", r"c:\data\pm2.5_trained.ecd",  "mean_pm2.5", "date_collected", "StdTime”,  r"c:\data\pm2.5_importanc.csv", 50, 30, 10000)

TrainRandomTreesRegressionModel の例 2 (スタンドアロンスクリプト)

この Python スタンドアロンスクリプトは、説明変数とターゲットデータセットの関係をモデル化します。

# Import system modules 

import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Define input parameters 
in_weather_variables = "C:/Data/ClimateVariables.crf" 
in_dem_varaible = "C:/Data/dem.tif" 
in_target = "C:/Data/pm2.5_observations.shp" 
target_value_field = "mean_pm2.5" 
Target_date_field = "date_collected" 
Raster_dimension = “StdTime” 
out_model_definition = "C:/Data/pm2.5_trained_model.ecd" 
Out_importance_table = "C:/Data/pm2.5_importance_table.csv" 
max_num_trees = 50 
max_tree_depth = 30 
max_num_samples = 10000 

# Execute - train with random tree regression model 
arcpy.ia.TrainRandomTreesRegressionModel(in_weather_variables;in_dem_varaible, in_target, out_model_definition,  target_value_field, Target_date_field, Raster_dimension, max_num_trees, max_tree_depth, max_num_samples)

環境

セルサイズ, 現在のワークスペース, 範囲, 地理座標系変換, 出力座標系, テンポラリワークスペース

サマリー

使用法

パラメーター

コードのサンプル

環境

関連トピック

このトピックの内容