予備回帰分析ツールの結果の解析—ArcGIS AllSource

[予備回帰分析 (Exploratory Regression)] ツールを実行したときの一次出力はレポートです。このレポートは、このツールの実行中にメッセージとして作成され、プロジェクトのジオプロセシング履歴からアクセスすることもできます。また、テスト済みのモデルをさらに詳しく調査するのに役立つテーブルを出力することもできます。このレポートの目的は、候補となる説明変数から、適切に指定された OLS モデルが生成されるかどうかを判断できるようにすることです。 [予備回帰分析 (Exploratory Regression)] ツールの起動時に指定した基準の一部を満たしていないモデルが存在する場合は、どの変数が整合性のある予測子であるかが出力に示されるので、問題のある診断を特定することができます。各診断に関連する問題への対処方法は、「回帰分析の側面」と「回帰分析の基礎」に記載されています (「回帰の一般的な問題とその結果および解決方法」を参照)。適切に指定された OLS モデルがあるかどうかを判断する方法の詳細については、「回帰分析の基礎」と「最小二乗法ツールの結果の解析」をご参照ください。

レポートの詳細

[予備回帰分析 (Exploratory Regression)] ツールのレポートには、5 つのセクションがあります。それぞれのセクションについて説明します。

説明変数の数による最適なモデル

出力レポートに含まれる最初の一連のサマリーは、テスト済みのモデル内の説明変数の数を基準にグループ化されます。 [説明変数の最小数] パラメーターに 1 を指定し、[説明変数の最大数] パラメーターに 5 を指定すると、サマリーセクションは 5 つになります。各セクションには、最大補正 R² 値を持つ 3 つのモデルとすべての適合モデルが表示されます。各サマリーセクションには、以下に表示する各モデルの診断値も含まれます。補正赤池情報量基準 - AICc、Jarque-Bera p 値 - JB、Koenker スチューデント化 Breusch-Pagan p 値 - K (BP)、最大分散拡大係数 - VIF、残差の空間的自己相関分析の計測値 (Global Moran’s I p 値) - SA。これらのサマリーにより、モデルの予測の適切さ (補正 R²) と、指定した診断基準のすべてを満たすモデルを推定できます。デフォルトの検索基準 ([最小許容補正 R2]、[最大係数 p 値カットオフ]、[最大 VIF 値カットオフ]、[最小許容 Jarque Bera p 値]、[空間的自己相関の最小許容 p 値] の各パラメーター) をすべて受け入れた場合、[適合モデル] リストに含まれるモデルはすべて、適切に指定された OLS モデルとなります。

適合モデルがない場合でも、出力レポートの他の部分に変数のリレーションシップに関する有益な情報がまだ存在するため、これを利用して対応方法を決定できます。

予備回帰分析グローバルサマリー

「予備回帰分析グローバルサマリー」セクションには、適合するモデルが見つからなかった理由が示されるため、特に適合モデルが見つからない場合はこのセクションから確認することが重要です。このセクションには、5 つの診断テストと、これらすべてのテストに合格したモデルの割合が示されます。適合モデルがない場合は、このサマリーから、問題の原因となっている診断テストを特定できます。

空間的自己相関分析 (SA) の Global Moran’s I テストが問題の原因となることがよくあります。テスト済みのすべてのモデルに空間的自己相関回帰の残差がある場合のほとんどは、重要な説明変数が欠落しています。足りない説明変数を見つける最善の方法の 1 つは、[最小二乗法 (Ordinary Least Squares)] (OLS) ツールから出力された残差のマップを調べることです。他のすべての基準に十分に対応している予備回帰分析モデルのいずれかを選択し (補正 R2 の最大値のリストを使用するか、オプションの出力テーブルの中からモデルを選択する)、そのモデルを使用して最小二乗法を実行します。 [最小二乗法 (Ordinary Least Squares)] (OLS) ツールから、モデルの残差のマップが出力されます。残差を調べて、何が不足しているかを特定するためのヒントがあるかどうかを確認します。候補となる空間変数をできるだけ多く考え出してください (たとえば、主要な高速道路、病院、その他の主要な地理フィーチャまでの距離)。空間様式変数を試すことを検討します。たとえば、下方予測のすべてが農村部にある場合、プレースホルダー変数を作成して、予備回帰分析の結果が改善するかどうかを確認します。

よく問題となる別の診断は、正規分布残差の Jarque-Bera テストです。どのモデルも Jarque-Bera (JB) テストに合格しないと、モデルの偏りの問題が発生します。モデルの偏りの一般的な原因には、次のようなものがあります。

非線形リレーションシップ
データの外れ値

従属変数に関連している候補の説明変数の散布図マトリックスを表示すると、これらの問題のいずれかが発生しているかどうかがわかります。詳細については、「回帰分析の基礎」をご参照ください。モデルが SA テストに不合格となった場合は、はじめにこれらの問題を修正します。偏りは、重要な説明変数がないために起こることがあります。

変数の有意性のサマリー

「変数の有意性のサマリー」セクションには、変数のリレーションシップに関する情報と、これらのリレーションシップの一貫性についての説明があります。候補となる各説明変数と、各変数が統計的に有意であった回数の割合が表示されます。リスト内の最初にある複数の変数が最大値を持ち、有意な割合 (%)列として表示されています。 % (負) 列と % (正) 列を調べることによって、変数のリレーションシップの安定性を確認することもできます。強力な予測子は常に有意となり ([有意な割合 (%)])、リレーションシップは安定します (主に負または主に正)。

また、レポートのこの部分は、効率を上げるのに役立つことがあります。これは、候補となる多数の説明変数 (50 を超える) を操作している状況で、5 つ以上の予測子を使用してモデルを試したい場合に特に重要となります。多数の説明変数があり、多くの組み合わせをテストする場合には、計算が長時間に及ぶことがあります。場合によっては、メモリエラーが原因で、このツールの実行がまったく終了しないこともあります。次のように、テストするモデルの数を徐々に増やすことがベストプラクティスです。[説明変数の最小数] パラメーターと [説明変数の最大数] パラメーターの両方の値を 2、3、4 と徐々に増やして設定していきます。実行ごとに、テスト済みのモデルでほとんど統計的に有意でない変数を削除します。「変数の有意性のサマリー」セクションは、常に強力な予測子である変数を見つけるのに役立ちます。リストから候補となる説明変数を 1 つ削除するだけで、[予備回帰分析 (Exploratory Regression)] ツールの実行時間が大幅に短縮することがあります。

多重共線性のサマリー

このレポートの [多重共線性のサマリー] セクションと [変数の有意性のサマリー] セクションを利用すると、パフォーマンスを改善するために、どの候補となる説明変数を分析から除外できるかがわかります。「多重共線性のサマリー」セクションでは、それぞれの説明変数が多重共線性の高いモデルに含まれていた回数と、これらのモデルに含まれていたその他の説明変数がわかります。多重共線性の高いモデルで 2 つ (またはそれ以上) の説明変数が同時に検出されることがよくある場合は、これらの変数が同じ結果をもたらしている可能性があります。該当する従属変数に固有の特徴を説明する変数だけを含めたいので、重複する変数の 1 つだけを選択して、今後の分析の対象とすることを検討してください。 [変数の有意性のサマリー] の結果に基づいて、重複する変数から最強のものを使用するという方法があります。

その他の診断サマリー

最後の診断サマリーには、最大 Jarque-Bera p 値 (残差の正規分布のサマリー) と最大 Global Moran’s I p 値 (残差の空間的自己相関のサマリー) が表示されます。これらの診断テストに適合するには、p 値を大きくしなければなりません。

これらのサマリーは、モデルが Jarque-Bera および空間的自己相関 (Global Moran’s I) テストに合格している場合には特に効果がありません。これは、統計的有意性の基準が 0.1 の場合には、値が 0.1 より大きいすべてのモデルが同等に適合モデルになるためです。ただし、これらのサマリーは、適合モデルがなく、正規分布残差または統計的に有意な空間的自己相関がない残差からどれだけ遠ざかっているかを確認する場合に有効です。たとえば、Jarque-Bera サマリーのすべての p 値が 0.000000 である場合は、正規分布残差から明らかに遠ざかっています。また、p 値が 0.092 の場合は、正規分布残差に近づいていることがわかります (実際、選択した有意水準によっては、0.092 の p 値でも合格する場合がある)。これらのサマリーは問題の重要度を表し、どのモデルも合格していない場合に、どの変数が合格に近いモデルに関連しているかを示します。

テーブルの詳細

[出力結果テーブル] パラメーターに値を入力した場合、[最大係数 p 値カットオフ] と [最大 VIF 値カットオフ] の基準を満たしたすべてのモデルを含むテーブルが作成されます。適合モデルがない場合でも、出力テーブル内にモデルがいくつか存在する可能性があります。テーブル内の各行は、係数値と VIF 値の基準を満たしたモデルを表します。テーブル内の各列は、モデル診断と説明変数を示します。補正 R2 (R2)、補正赤池情報量基準 (AICc)、Jarque-Bera p 値 (JB)、Koenker スチューデント化 Breusch-Pagan p 値 (BP)、分散拡大係数 (VIF)、Global Moran’s I p 値 (SA) の各診断がリストに表示されています。 AICc 値を基準にモデルを並べ替えることができます。 AICc 値が小さいほど、モデルのパフォーマンスが向上します。 AICc 列をダブルクリックすると、ArcMap 内の AICc 値を並べ替えることができます。 (残差を調査するために) OLS 回帰分析で使用するモデルを選択する場合は、AICc 値が小さく、できるだけ多くの他の診断に合格しているモデルを必ず選択してください。たとえば、出力レポートを確認して、Jarque-Bera が問題の原因となった診断であることが判明した場合は、AICc 値が最も小さく、Jarque-Bera 以外のすべての基準を満たしたモデルを探します。

参考資料

ArcGIS の回帰分析を初めて行う場合は、予備回帰分析 (Exploratory Regression) を実行する前に、「ArcGIS Pro を使用した回帰分析の紹介」を視聴してから「回帰分析に関するチュートリアル」を完了することをお勧めします。

次のリソースを参照することもできます。

予備回帰分析の詳細
回帰分析の側面
回帰分析の基礎
Burnham, K.P., and D.R. Anderson. 2002 Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2nd Edition. New York: Springer. Section 1.5

このトピックへのフィードバック