一般化線形回帰分析

ツール アイコン ビッグ データ解析で使用できます。

[一般化線形回帰分析 (Generalized Linear Regression)] ツール [一般化線形回帰分析 (Generalized Linear Regression)] ツール は、一般化線形回帰分析 (GLR) を実行して、予測したり、一連の説明変数との関係から従属変数をモデル化したりします。 このツールを使用して、連続 (ガウス分布)、カウント (ポワソン分布)、およびバイナリ (ロジスティック) のモデル タイプを適合させることができます。

ワークフロー図

一般化線形回帰分析のワークフロー図

大都市のアナリストとして、過去の緊急通報記録および人口統計情報にアクセスできるとします。 「どの変数が効果的に緊急通報量を予測するか」という質問に答える必要があります。 将来の予測に基づき、予想される緊急応答リソースに対する要求はどのようなものか。

使用上の注意

一般化線形回帰分析ツールを操作する際には、以下の点に注意してください。

  • このツールは、2 つの操作方法のいずれかを実行するように構成できます。
    • 方法 1 - ターゲット (トレーニング) データのみを指定した場合、ツールはモデルを適合させてモデルのパフォーマンスを評価します。 このツールを使用すると、さまざまな説明変数およびツール設定を調査しながら、それぞれのモデルのパフォーマンスを評価できます。
    • 方法 2 - 適切なモデルと説明変数を特定したら、結合 (予測) データも設定するようにモデルを構成します。 結合データが構成されると、ツールはマッピングされた説明変数に基づいて、結合 (予測) データ内のフィーチャの従属変数の値を予測します。
  • [従属変数] パラメーターを使用して、モデル化する現象を表す [ターゲット入力レイヤー (トレーニング データ)] のフィールドを選択します。 [説明変数] パラメーターを使用して、[ターゲット入力レイヤー (トレーニング データ)] から説明変数を表す 1 つ以上のフィールドを選択します。 これらのフィールドは数値で、値の範囲を含む必要があります。 従属変数または説明変数に欠落値を含むフィーチャは、解析から除外されます。 NULL 値を変更するには、値を更新する前に [フィールド演算] ツールを使用します。
  • [一般化線形回帰分析 (Generalized Linear Regression)] ツールは、出力フィーチャおよび診断も生成します。 出力フィーチャ レイヤーでは、残差のモデルに自動的にレンダリング スキーマが適用されます。 以下では、各出力について詳細に説明します。
  • 回帰分析の正確な結果を得るには、解析に正しいモデル タイプ ([連続 (ガウス分布)][カウント (ポワソン分布)]、または [バイナリ (ロジスティック)]) を使用することが重要です。
  • モデルのサマリー結果と診断が、解析ログと出力フィーチャ レイヤー アイテムの詳細ページに書き込まれます。 これらの診断には、一般化線形回帰モデルのサマリーと、モデルがデータに適合しているかどうかの評価に使用する統計サマリーが含まれます。 報告される診断は、選択したモデル タイプによって決まります。 [モデル タイプ] の 3 つのオプションは次のとおりです。
    • [連続 (ガウス分布)] - 従属変数が広範囲の値 (温度や総売上額など) をとることができる場合に使用します。 従属変数が正規分布しているのが理想的です。
    • [カウント (ポワソン分布)] - 従属変数が不連続で、イベントの発生数 (犯罪件数など) を表す場合に使用します。 従属変数が比率を表し、比率の分母が固定値である場合 (1 か月あたりの売上や人口 10,000 人あたりのガン患者の数など) も、カウント モデルを使用できます。 [カウント (ポワソン分布)] モデル タイプは [従属変数] の平均と分散が等しいと想定し、[従属変数] の値は負になることも、小数を含むこともできません。
    • [バイナリ (ロジスティック)] - [従属変数] が 2 つの値 (成功または失敗、存在または不在など) のいずれかをとることができる場合に使用します。 従属変数を含むフィールドは数値で、1 と 0 のみを含む必要があります。 データ内に 1 と 0 のばらつきが存在するはずです。
  • [従属変数] パラメーターおよび [説明変数] パラメーターは、さまざまな値を含む数値フィールドである必要があります。 このツールでは、変数がすべて同じ値を持つ場合 (たとえば、フィールドの値がすべて 9.0 の場合)、解がありません。
  • 予測または説明フィールドに 1 つ以上の NULL 値または空の文字列値を持つフィーチャは、出力から除外されます。 必要に応じて、[フィールド演算] ツールを使用して値を変更できます。
  • 回帰残差が予測より明らかに上下にずれているものがないか視覚的に調べて、それが回帰モデルに欠けている変数の手がかりにならないか確認します。
  • 作成された回帰モデルを使用して、他のフィーチャを予測します。 このような予測の作成では、各予測フィーチャ (結合データセット) が、指定された各説明変数の値を持つことが必要となります。 説明変数のマッピング構成は、ターゲット (トレーニング) フィーチャと結合 (予測) フィーチャの説明変数フィールド名のマッピングに使用できます。 説明変数を照合する場合、ターゲット (トレーニング データ) フィーチャと結合 (予測データ) フィーチャのフィールドは同じタイプでなければなりません (たとえば、double フィールドは double フィールドと照合する必要があります)。

パラメーター

以下は、一般化線形回帰分析ツールのパラメーターです。

パラメーター説明データ タイプ

ターゲット入力レイヤー (トレーニング データ)

モデルの生成に使用するトレーニング フィーチャ。

フィーチャ

結合入力レイヤー (予測データ)

(オプション)

指定した説明変数とモデル タイプに基づいて、従属変数が予測される予測フィーチャ。

このパラメーターはオプションです。 指定されていない場合、[一般化線形回帰 (Generalized Linear Regression)] ツールは、トレーニング データに基づいてモデルを適合させ、モデルのパフォーマンスを評価します。

フィーチャ

モデル タイプ

使用するモデル タイプを指定します。 選択するモデル タイプは、従属変数フィールドのデータ タイプによって異なります。 モデル タイプには、次のようなオプションがあります。

  • [連続 (ガウス分布)] - 従属変数が広範囲の値 (温度や総売上額など) をとることができる場合に選択します。
  • [カウント (ポワソン分布)] - 従属変数が不連続で、イベントの発生数 (犯罪件数など) または比率を表し、比率の分母が固定値である場合に使用します。
  • [バイナリ (ロジスティック)] - [従属変数] が 2 つの値 (成功または失敗、存在または不在など) のいずれかをとることができる場合に選択します。

String

従属変数

モデル化する現象を表すフィールドを指定します。

FieldName

テキストを 0 にマッピング

[バイナリ (ロジスティック)] モデル タイプで [従属変数] に文字列フィールドが指定されている場合、このパラメーターを使用して、0 に変換する従属変数内の文字列を指定することができます。

String

テキストを 1 にマッピング

[バイナリ (ロジスティック)] モデル タイプで [従属変数] に文字列フィールドが指定されている場合、このパラメーターを使用して、1 に変換する従属変数内の文字列を指定することができます。

String

説明変数

ターゲット スキーマから、回帰モデルの独立説明変数を表すフィールド。

FieldNames

説明変数マッピング (予測のみ)

ターゲット (トレーニング) スキーマ内で選択した説明変数フィールド名を、結合 (予測) スキーマ内の対応するフィールド名にマッピングします。

このパラメーターはオプションです。 説明変数マッピングは、結合 (予測) データが指定されている場合にのみ指定する必要があります。

ExplanatoryVariableMappings

出力レイヤー

[一般化線形回帰分析 (Generalized Linear Regression)] ツールでは、さまざまな出力を生成できます。 一般化線形回帰モデルのサマリーおよび統計サマリーは、出力フィーチャ レイヤーのアイテム詳細ページまたは解析ログで確認できます。

このツールの方法 1 を実行し、モデルを単純に適合させてパフォーマンスを評価する場合、トレーニング データが出力され、解析ログの結果に加えて、メッセージおよび診断が出力フィーチャ レイヤーのアイテム詳細に表示されます。

このツールの方法 2 を実行し、モデルを適合させて値を予測する場合、予測値が付加された状態で予測データが出力され、解析ログの結果に加えて、メッセージおよび診断が出力フィーチャ レイヤーのアイテム詳細に表示されます。

生成される診断は、入力フィーチャのモデル タイプによって異なります。これについて、以下で説明します。

連続 (ガウス分布)

メッセージと診断の解釈

  • [AIC] - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。 モデルの複雑さを考慮すると、[AIC] の値が小さければ小さいほど、観測されたデータにより近似していることを示します。 [AIC] は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。 2 つのモデルの [AIC] 値の差が 3 より大きい場合は、[AIC] 値が小さいモデルのほうがより正確であると見なされます。
  • [AICc] - [AICc] は、サンプル サイズが小さい場合に、バイアス補正を [AIC] に適用します。 入力のフィーチャ数が増えるにつれて、[AICc] は [AIC] に近づきます。 上の [AIC] をご参照ください。
  • [R2] - 相関係数の二乗は、近似性を計測するための基準です。 値は 0.0 ~ 1.0 で、値が高い方が推奨されます。 これは、回帰モデルによって説明される従属変数の分散の比率として解釈できます。 相関係数の二乗の計算に使用される分母は、二乗された従属変数の値の合計です。 モデルに説明変数を追加した場合、分母は変化しませんが、分子は変化するため、モデルの適合度が向上した印象を与えます (実際には向上していない可能性もあります)。 次の「補正 R2」の説明をご参照ください。
  • [補正 R2] - [R2] の値には上記の問題があるため、調整済み相関係数の二乗の値を算出することで、分子と分母がその自由度によって正規化されます。 これには、モデルの変数の数を補正する効果があります。したがって、[補正 R2] の値は、ほぼ常に [R2] の値よりも小さい値です。 ただし、この調整を行うことで、値を因子寄与の割合として解釈することができなくなります。 地理空間加重回帰分析 (GWR) では有効自由度は、使用される近傍の関数であるため、調整は GLR などのグローバル モデルと比較すると顕著である場合があります。 このため、モデルを比較する方法としては [AICc] が最適です。

カウント (ポワソン分布)

メッセージと診断の解釈

  • [AIC] - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。 モデルの複雑さを考慮すると、[AIC] の値が小さければ小さいほど、観測されたデータにより近似していることを示します。 [AIC] は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。 2 つのモデルの [AIC] 値の差が 3 より大きい場合は、[AIC] 値が小さいモデルのほうがより正確であると見なされます。
  • [AICc] - [AICc] は、サンプル サイズが小さい場合に、バイアス補正を [AIC] に適用します。 入力のフィーチャ数が増えるにつれて、[AICc] は [AIC] に近づきます。 上の [AIC] をご参照ください。

バイナリ (論理)

メッセージと診断の解釈

  • [AIC] - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。 モデルの複雑さを考慮すると、[AIC] の値が小さければ小さいほど、観測されたデータにより近似していることを示します。 [AIC] は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。 2 つのモデルの [AIC] 値の差が 3 より大きい場合は、[AIC] 値が小さいモデルのほうがより正確であると見なされます。
  • [AICc] - [AICc] は、サンプル サイズが小さい場合に、バイアス補正を [AIC] に適用します。 入力のフィーチャ数が増えるにつれて、[AICc] は [AIC] に近づきます。 上の [AIC] をご参照ください。

検討事項および制限事項

[一般化線形回帰分析 (Generalized Linear Regression)] の ArcGIS Velocity の実装には、次の制限があります。

  • この実装はグローバル回帰モデルであり、データの空間分布を考慮しません。
  • 解析は、残差に対して Moran's I テストを適用しません。
  • サポートされているターゲット (トレーニング データ) データセット ジオメトリは、ポイント、ライン、ポリゴン、およびテーブルです。
  • 値を複数のクラスに分類することはできません。