一般化線形回帰分析 (Generalized Linear Regression) の詳細

回帰分析は、おそらく社会科学で最もよく使用される統計的手法です。回帰分析は、複数のフィーチャ属性の関係を評価するときに使用されます。関係を特定し計測すると、ある場所で何が起きているのかを把握し、何かが起きる可能性の高い場所を予測し、何かがその場所で起きる原因を調査できます。[一般化線形回帰分析 (Generalized Linear Regression)] は、フィーチャ間の関係の確認と定量化に使用できる、理解または予測しようとしている変数またはプロセスのモデルを作成します。

注意:

このツールは ArcGIS Pro 2.3 で新規に導入され、最小二乗法 (OLS) の機能を含みます。このツールには、カウント (ポワソン分布) およびバイナリ (ロジスティック) という追加のモデルが含まれているため、より広範な問題にこのツールを適用できます。

適用例

[一般化線形回帰分析 (Generalized Linear Regression)] は、次のようなさまざまな用途に利用できます。

  • どのような人口学的特性が公共交通機関の高い利用率の一因となっているか。
  • 公共物破壊と空き巣の間に正のリレーションシップがあるか。
  • どの変数が効果的に緊急通報量を予測するか。将来の予測に基づき、予想される緊急応答リソースに対する要求はどのようなものか。
  • どの変数が低い出生率に影響を与えるか。

入力

[一般化線形回帰分析 (Generalized Linear Regression)] ツールを実行するには、[入力フィーチャ] に、[従属変数] を表すフィールドと [説明変数] を表す 1 つ以上のフィールド、または必要に応じて [距離フィーチャ] を表す 1 つ以上のフィールドを指定します。これらのフィールドは数値で、値の範囲を含む必要があります。従属変数または説明変数に欠損値を含むフィーチャは、解析から除外されます。ただし、[一般化線形回帰分析 (Generalized Linear Regression)] ツールを実行する前に [欠損値の補完 (Fill Missing Values)] ツールを使用して、データセットを完全なものにすることができます。次に、解析するデータに基づいて、[モデル タイプ] を選択する必要があります。データに適したモデルを使用することが重要です。モデル タイプの説明と、データに適したモデル タイプを決定する方法を以下に示します。

Model type

[一般化線形回帰分析 (Generalized Linear Regression)] は、連続、バイナリ、カウントという 3 つのタイプの回帰モデルを提供します。これらのタイプの回帰は、統計学の文献ではそれぞれ ガウス分布、論理、ポワソン分布として知られています。解析の [モデル タイプ] は、[従属変数] が計測または集計された方法と、この変数に含まれる値の範囲に基づいて選択する必要があります。

連続 (ガウス分布)

[従属変数] が広範囲の値 (温度や総売上額など) をとることができる場合は、[モデル タイプ] として [連続 (ガウス分布)] を使用します。従属変数が正規分布しているのが理想的です。従属変数のヒストグラムを作成して、従属変数が正規分布していることを確認できます。ヒストグラムが左右対称の釣鐘曲線である場合は、ガウス分布モデル タイプを使用します。大半の値は平均値付近に集まり、平均値から根本的に外れた値はほとんどありません。平均値の左側にも右側と同様に多数の値があります (分布の平均値と中央値は同じになります)。[従属変数] が正規分布しているように見えない場合は、その変数をバイナリ変数として再分類することを検討します。たとえば、従属変数が平均世帯収入である場合は、その変数を、1 が全国の収入中央値より上を示し、0 が全国の収入中央値より下を示すバイナリ変数として再コーディングできます。連続フィールドは、[フィールド演算 (Calculate Field)] ツールの [再分類] ヘルパー関数を使用して、バイナリ フィールドとして再分類できます。

バイナリ (論理)

[従属変数] が 2 つの値 (成功と失敗や存在と不在など) のいずれかをとることができる場合は、[モデル タイプ] として [バイナリ (論理)] を使用します。[従属変数] を含むフィールドは数値で、1 と 0 のみを含む必要があります。対象のイベント (成功や動物の存在など) をコーディングする場合、回帰は 1 の確立をモデル化するため、結果の解釈が容易になります。データ内に 1 と 0 のばらつきが存在するはずです。[従属変数]ヒストグラムを作成すると、ヒストグラムには 1 と 0 だけが表示されます。

カウント (ポワソン分布)

[従属変数] が不連続で、イベントの発生数 (犯罪件数など) を表す場合は、[モデル タイプ] として [カウント (ポワソン分布)] の使用を検討します。[従属変数] が比率を表し、比率の分母が固定値である場合 (1 か月あたりの売上や人口 10,000 人あたりのガン患者の数など) も、カウント モデルを使用できます。[カウント (ポワソン分布)] モデルは [従属変数] の平均と分散が等しいと想定し、[従属変数] の値は負になることも、小数を含むこともできません。

距離フィーチャ

[一般化線形回帰分析 (Generalized Linear Regression)] は、本質的に空間的な方式ではありませんが、分析で空間の威力を発揮できる方法として、距離フィーチャの使用があります。たとえば、一連の小売店の業績をモデリングしている場合、高速道路の出入り口までの距離や、最寄りの競合店までの距離を表す変数は、正確な予測のためには重要である可能性があります。同様に、大気環境をモデリングする場合、主な汚染源への距離や幹線道路までの距離を表す説明変数も重要です。距離フィーチャを使用して、指定されたフィーチャから [入力フィーチャ] までの距離を計算することで自動的に説明変数が作成されます。個々の入力 [説明距離フィーチャ] から最も近い [入力フィーチャ] までの距離が計算されます。入力された [説明距離フィーチャ] がポリゴンまたはラインの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。ただし、ポリゴンとラインの場合、距離は別々に計算されます。詳細は「近接ツールによる距離の計算方法」をご参照ください。

予測

作成された回帰モデルを使用して、他のフィーチャ (ポイントまたはポリゴン) を予測できます。このような予測の作成では、各 [予測位置] が、指定された各 [説明変数]、および対象地域の [説明距離フィーチャ] の値を持つことが必要となります。[入力フィーチャ] パラメーターと [予測位置] パラメーターのフィールド名が一致しない場合、変数照合パラメーターが指定されます。説明変数を照合する場合、[入力フィーチャ] パラメーターと [予測位置] パラメーターのフィールドは同じタイプでなければなりません (たとえば、double フィールドは double フィールドと照合する必要があります)。[説明距離フィーチャ] も照合する必要があります。

出力

[一般化線形回帰分析 (Generalized Linear Regression)] ツールでは、各種出力を生成できます。GLR モデルの概要と統計サマリーは、ツールの実行中に [ジオプロセシング] ウィンドウの下でメッセージとして入手できます。このメッセージにアクセスするには[ジオプロセシング] ウィンドウでプログレス バーの上にポインターを置くか、ポップアップ ボタンをクリックするか、メッセージ セクションを展開します。ジオプロセシング履歴を介して、以前に実行した [一般化線形回帰 (Generalized Linear Regression)] ツールのメッセージにアクセスすることもできます。このツールは、[出力フィーチャ]、チャート、および必要に応じて [出力予測フィーチャ] も生成します。[出力フィーチャ] と関連チャートは、残差をモデリングできるよう、自動的に、ホットおよびコールド レンダリング方式が適用された状態で、[コンテンツ] ウィンドウに追加されます。生成される診断とチャートは、[入力フィーチャ][モデル タイプ] によって異なります。これらの診断とチャートについて、以下で説明します。

連続 (ガウス分布)

メッセージと診断の解釈

  • [AICc] - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。モデルの複雑さを考慮すると、[赤池情報量基準 の値が小さければ小さいほど、観測されたデータにより近似していることを示します。[赤池情報量基準] は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。2 つのモデルの [AICc] 値の差が 3 より大きい場合は、値が小さいモデルのほうがより適切であると見なされます。GWR の [AICc] 値と GLR の [AICc] 値を比較することで、グローバルなモデル (GLR) からローカルの回帰モデル (GWR) に移行することの利点を評価できます。
  • [R2] - 相関係数の二乗は、近似性を計測するための基準です。この値の範囲は 0.0 ~ 1.0 であり、より高い値が適切な値です。これは、回帰モデルによって説明される従属変数の分散の比率として解釈されることがあります。相関係数の二乗の計算に使用される分母は、二乗された従属変数の値の合計です。モデルに説明変数をさらに追加しても、分母は変更されませんが、分子は変更されます。これにより、モデルの近似性が向上したように見えますが、実際には向上していない可能性があります。次の「R2Adjusted」の説明をご参照ください。
  • [補正 R2] - [R2] の値には上記の問題があるため、調整済み相関係数の二乗の値を算出することで、分子と分母がその自由度によって正規化されます。これには、モデルの変数の数を補正する効果があります。したがって、[R2Adjusted] の値は、ほぼ常に [R2] の値よりも小さい値です。ただし、この調整を行うと、説明される分散の比率として値を解釈することができなくなります。GWR では有効自由度は、使用される近傍の関数であるため、調整は GLR などのグローバル モデルと比較すると顕著である場合があります。このため、モデルを比較する方法としては [AICc] が最適です。
  • [Joint F 統計] と [Joint Wald 統計] - [Joint F 統計] と [Joint Wald 統計] は、全体的なモデルの統計的な有意性を計測するための基準です。[Joint F 統計] は、[Koenker (BP) 統計] (下記を参照) が統計的に有意ではない場合にのみ信頼できます。[Koenker (BP) 統計] が有意であれば、[Joint Wald 統計] を確認して全体的なモデルの有意性を判断します。これらのテスト両方の帰無仮説は、モデルの説明変数が有効ではないということです。信頼度が 95% の場合に、p 値 (確率) が 0.05 未満であれば、モデルが統計的に有意であることを示します。
  • [Koenker (BP) 統計] (Koenker のスチューデント化された Bruesch-Pagan 統計) - これは、モデルの説明変数が、地理空間とデータ空間の両方にある従属変数に対して一貫性のあるリレーションシップを持っているかどうかを判断するためのテストです。モデルが地理空間で一貫している場合、説明変数によって表される空間プロセスは、スタディ エリア全体で同じように動作します (プロセスは定常である)。モデルがデータ空間で一貫している場合、予測値と各説明変数のリレーションシップの値変動は、説明変数の値が変化しても変化しません (モデルに不均一分散がない)。犯罪を予測するとし、説明変数の 1 つが所得であるとします。予測が、中所得世帯が少ない場所については中所得世帯が多い場所よりも正確である場合、モデルには不均一分散の問題があることになります。このテストの帰無仮説は、モデルが定常であることです。信頼度が 95% の場合に、p 値 (確率) が 0.05 未満であれば、不均一分散または非定常性が統計的に有意であることを示します。このテストの結果が統計的に有意である場合は、ロバスト係数標準誤差および確率を確認して、各説明変数の有効性を評価します。通常、統計的に有意な非定常性がある回帰モデルは、GWR の分析に適切な候補です。
  • [Jarque-Bera 統計] - これは、残差 (従属変数の観測値または既知の値から予測値または推定値を減算したもの) が正規分布しているかどうかを示します。このテストの帰無仮説は、残差が正規分布していることです。したがって、これらの残差のヒストグラムを作成すると、典型的な釣鐘曲線 (ガウス分布) に似た形状が示されます。このテストの p 値 (確率) が小さい場合 (たとえば、信頼度が 95% で、0.05 未満であるなど)、残差は正規分布せず、モデルに偏りがあることを示します。残差 (下記を参照) に統計的に有意な空間的自己相関がある場合、その偏りは、モデルが正しく指定されていない (主要な変数がモデルにない) ことの結果であることがあります。正しく指定されていない OLS モデルの結果は信頼できません。非線形リレーションシップをモデリングする場合や影響力のある外れ値がデータに含まれている場合、または高レベルの不均一分散が存在する場合は、統計的に有意な Jarque-Bera 検定が実行されることもあります。

出力チャート

このツールで [モデル タイプ] として [連続] を指定して作成されるチャートには、モデルで使用された変数の散布図マトリックス、モデル残差のヒストグラム、および残差と予測のプロットが含まれます。

バイナリ (論理)

メッセージと診断の解釈

  • [AICc] - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。モデルの複雑さを考慮すると、[赤池情報量基準 の値が小さければ小さいほど、観測されたデータにより近似していることを示します。[赤池情報量基準] は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。2 つのモデルの [AICc] 値の差が 3 より大きい場合は、値が小さいモデルのほうがより適切であると見なされます。GWR の [AICc] 値と GLR の [AICc] 値を比較することで、グローバルなモデル (GLR) からローカルの回帰モデル (GWR) に移行することの利点を評価できます。
  • [説明される % の逸脱] - 説明変数で考慮される従属変数の分散の割合です。
  • [Joint Wald 統計] - 全体的なモデルの統計的な有意性を計測するための基準です。このテストの帰無仮説は、モデルの説明変数が有効ではないということです。信頼度が 95% の場合に、p 値 (確率) が 0.05 未満であれば、モデルが統計的に有意であることを示します。

出力チャート

このツールで [モデル タイプ] として [バイナリ] を指定して作成されるチャートには、モデルで使用された変数の散布図マトリックス、説明変数の分散を示す箱ひげ図、モデル残差のヒストグラム、および予測パフォーマンス テーブルが含まれます。

カウント (ポワソン分布)

メッセージと診断の解釈

  • [AICc] - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。モデルの複雑さを考慮すると、[赤池情報量基準 の値が小さければ小さいほど、観測されたデータにより近似していることを示します。[赤池情報量基準] は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。2 つのモデルの [AICc] 値の差が 3 より大きい場合は、値が小さいモデルのほうがより適切であると見なされます。GWR の [AICc] 値と GLR の [AICc] 値を比較することで、グローバルなモデル (GLR) からローカルの回帰モデル (GWR) に移行することの利点を評価できます。
  • [説明される % の逸脱] - 説明変数で考慮される従属変数の分散の割合です。
  • [Joint Wald 統計] - 全体的なモデルの統計的な有意性を計測するための基準です。このテストの帰無仮説は、モデルの説明変数が有効ではないということです。信頼度が 95% の場合に、p 値 (確率) が 0.05 未満であれば、モデルが統計的に有意であることを示します。

出力チャート

このツールで [モデル タイプ] として [カウント] を指定して作成されるチャートには、モデルで使用された変数の散布図マトリックス、モデル残差のヒストグラム、および残差と予測のプロットが含まれます。

参考資料

[一般化線形回帰分析 (Generalized Linear Regression)] および [地理空間加重回帰分析 (Geographically Weighted Regression)] について学習するのに役立つ資料がいくつかあります。まず「回帰分析の基礎」を参照するか、「Regression Analysis tutorial (回帰分析チュートリアル)」を学習してください。

次のリソースも有用です。

Fox, J. (1991). Regression Diagnostics. Sage, Newbury Park, CA.

Menard, S. (2002). Applied logistic regression analysis (Vol. 106). Sage.

Nelder, J. A. and Wedderburn, R. W. M. (1972) Generalized linear models. J. R. Statist. Soc. A, 135, 370 - 384.


このトピックの内容
  1. 適用例
  2. 入力
  3. 出力
  4. 参考資料