回帰分析とは、従属変数と 1 つ以上の説明変数の間で推定される関係を計算する手法です。 回帰分析を使用すると、選択した変数間の関係をモデル化するだけでなく、モデルに基づいて値を予測することができます。
回帰分析は、指定した推定方法、従属変数、1 つ以上の説明変数を使用して、従属変数の値を推定する数式を作成します。
回帰モデルには、R2 や p 値などの出力が含まれ、モデルによる従属変数の推定精度に関する情報を提供します。
散布図マトリックス、ヒストグラム、ポイント チャートなどのチャートを回帰分析で使用し、関係を分析し、仮説を検証することもできます。
回帰分析を使用して、次のタイプの問題を解決することができます。
- 従属変数に関連する説明変数を決定する。
- 従属変数と説明変数の間の関係を理解する。
- 従属変数の未知の値を予測する。
例
回帰分析を使用するシナリオの例として、次のようなものがあります。
- ある小規模小売チェーンの解析者が、さまざまな店舗位置のパフォーマンスを調査しています。 解析者は、一部の店舗の売上高が予想外に少ない理由を知る必要があります。 解析者は、売上に影響を与えている変数を決定するために、近隣の住人の年齢と所得の中央値、小売の中心と公共交通機関までの距離などの説明変数を使用して回帰モデルを作成します。
- ある教育学部の解析者が、学校の朝食プログラムの効果を調査しています。 解析者は、クラスの規模、世帯収入、1 人あたりの学校予算、毎日朝食を食べる学生の割合などの説明変数を使用して、卒業率などの教育的達成度の回帰モデルを作成します。 モデルの数式を使用して、教育的達成度における各変数の相対的効果を決定できます。
- ある非営利組織の解析者が、地球の温室効果ガス排出量を調査しています。 解析者は、国内総生産 (GDP)、人口、化石燃料を使用した電力生産、自動車利用量などの説明変数を使用して、各国の最新排出量の回帰モデルを作成します。 このモデルと予測 GDP および人口値を使用して、将来の温室効果ガス排出量を予測することができます。
最小二乗法 (Ordinary Least Squares)
ArcGIS Insights の回帰分析は、最小二乗法 (OLS) を使用してモデル化されます。
OLS は多重線形回帰の一形式であり、観測データに一次方程式を適用することで、従属変数と独立変数の関係をモデル化する必要があることを意味しています。
OLS モデルは、次の数式を使用します。
yi=β0+β1x1+β2x2+...+βnxn+ε
条件:
- yi = 点 i における従属変数の観測値
- β0 = Y 軸切片 (定数値)
- βn = 点 i における説明変数 N の回帰係数または傾斜
- xn = 点 i における変数 N の値
- ε = 回帰方程式の誤差
前提
各回帰法には、数式の信頼性を確保するために満たす必要がある、さまざまな前提があります。 回帰モデルを作成する際は、OLS の前提を検証する必要があります。
OLS 法を使用する際は、次のサブセクションで説明する前提を検証して満たす必要があります。
モデルが線形であること
OLS 回帰分析は、線形モデルを作成する場合のみ使用できます。 散布図を使用して、従属変数と説明変数の間の線形性を検証できます。 散布図マトリックスでは、変数の合計が 5 個以下である限り、すべての変数を検証できます。
データがランダムにサンプリングされていること
回帰分析で使用するデータは、サンプルが外部要因に依存しないようにサンプリングする必要があります。 回帰モデルの残差を使用して、ランダム サンプリングを検証できます。 回帰モデルの出力である残差を散布図または散布図マトリックスの説明変数に対してプロットした場合に、それらが相関していない必要があります。
説明変数間に共線性がないこと
共線性とは、モデルに冗長性を生む、説明変数間の線形関係を示します。 場合によっては、共線性でモデルも作成することもできます。 ただし、ある共線変数が他の共線変数に依存しているように見える場合は、その変数をモデルから削除するよう検討することをお勧めします。 共線性は、説明変数の散布図または散布図マトリックスを使用して検証できます。
説明変数の計測誤差が無視できること
回帰モデルの正確さは、入力データと同じ正確さでしかありません。 説明変数の許容誤差が大きい場合、モデルは正確であるとは見なされません。 回帰分析を実行する際は、既知の信頼できるソースのデータセットのみを使用し、誤差を無視できるようにすることが重要です。
残差の期待される合計がゼロであること
残差は、回帰分析における観測値と推定値の差です。 回帰曲線を上回る観測値は正の残差値を持ち、回帰曲線を下回る観測値は負の残差値を持ちます。 回帰曲線は、データ ポイントの中心に沿って位置する必要があります。このため、残差の合計はゼロになるはずです。 フィールドの合計は、サマリー テーブルで計算できます。
残差が等分散であること
分散は、すべての残差で等しくなる必要があります。 この前提は、残差 (Y 軸) および推定値 (X 軸) の散布図を使用して検証できます。 出力される散布図は、プロットを横切る形でランダムにプロットされたポイントで構成される水平方向のバンドとして表示されます。
残差が正規分布していること
正規分布 (釣鐘曲線とも呼ばれる) は、現象の頻度が平均値近くで高く、平均値からの距離が増加するにつれて低下する自然発生分布です。 統計解析では、帰無仮説として正規分布がよく使われます。 残差は正規分布を示し、ベスト フィットのラインが観測されたデータ ポイント内で一元的に最適化され、一部のデータ ポイントに偏ったり離れたりしていないことを示す必要があります。 この前提は、残差を含むヒストグラムを作成することで検証できます。 正規分布曲線は重ね合わせることができ、歪度および尖度の測定値は、ヒストグラム カードの裏面にレポートされます。
隣接する残差が自己相関を示していないこと
この前提は、時系列データに基づいています。 データが時系列に並んでいる場合、各データ ポイントは前後のデータ ポイントから独立している必要があります。 回帰分析を実行する際には、時系列データが正しい順序で並んでいることを確認することが重要です。 この前提は、Durbin-Watson 検定を使用して計算できます。
Durbin-Watson 検定は、回帰モデルにおける残差の自己相関を表す尺度です。 Durbin-Watson 検定では、0 ~ 4 の範囲の値を使用します。0 ~ 2 の値は正の自己相関、2 は自己相関なし、2 ~ 4 は負の自己相関を示します。 残差に自己相関がない前提を満たすには、2 に近い値が求められます。 通常 1.5 ~ 2.5 の値は許容範囲ですが、値が 1.5 未満または 2.5 を超える場合は、自己相関がないという前提にモデルが適合していないことを示しています。
モデルの有効性
回帰方程式の精度は、回帰分析において重要です。 あらゆるモデルには一定の誤差が含まれますが、統計情報を理解することは、解析でのモデルの使用可否や調整の要否を判断するのに役立ちます。
回帰モデルの有効性を判断するには、探索的解析と確認的解析の 2 つの手法があります。これについては、以下のサブセクションで説明します。
探索的解析
探索的解析は、さまざまな視覚的および統計的手法を使用してデータを理解する手法です。 探索的解析を通じて、OLS 回帰の前提をテストし、さまざまな説明変数の有効性を比較します。 探索的解析では、さまざまなモデルの有効性と精度を比較できますが、モデルを使用するか棄却するかは判断されません。 各回帰モデルに対して、確認的解析の前に探索的解析を実行する必要があります。モデル間の比較を行うには、繰り返し実行してください。
探索的解析の一部として、次のチャートおよび統計を使用できます。
- 散布図と散布図マトリックス
- ヒストグラムと正規分布
- 回帰方程式と新しい観測点の予測
- 決定係数 (R2) および補正 R2
- 残差の標準誤差
- ポイント チャート
説明変数を選択する際、回帰モデルを作成する前に探索的解析を開始する必要があります。 OLS は線形回帰の一手法であるため、主な前提の 1 つとして、モデルが線形である必要があります。 散布図または散布図マトリックスを使用して、従属変数および説明変数間の線形性を評価できます。 散布図マトリックスでは、従属変数と一緒に最大 4 つの説明変数を表示できるため、すべての変数間で大規模な比較を行うための重要なツールとして使用できます。 1 つの散布図には、2 つの変数 (1 つの従属変数と 1 つの独立変数または説明変数) のみが表示されます。 従属変数と 1 つの説明変数で散布図を表示すると、変数間の関係を正確に評価できます。 回帰モデルを作成する前に線形性をテストすると、許容できるモデルの作成に使用する説明変数を判断しやすくなります。
回帰モデルを作成すると、回帰方程式、R2 値、Durbin-Watson 検定などの統計出力を利用できるようになります。 回帰モデルを作成したら、出力と必要なチャートおよびテーブルを使用して、OLS 回帰の残りの前提をテストする必要があります。 モデルが前提を満たしている場合、引き続き残りの探索的解析を行います。
回帰方程式では、各説明変数の回帰係数など、予測値に対する各説明変数の影響に関する貴重な情報が得られます。 傾斜値を比較することで、従属変数に対する各説明変数の相対的な影響を判断できます。傾斜値が 0 から (正負を問わず) 離れるほど影響は大きくなります。 回帰方程式を使用して、各説明変数の値を入力することにより、従属変数の値を予測することもできます。
決定係数 (R2) は、回帰方程式による実際のデータ ポイントのモデル化の精度を測定します。 R2 値は 0 ~ 1 の範囲の数値であり、この値が 1 に近いほど、モデルの精度が高いことを示します。 完璧なモデルの R2 値は 1 になりますが、実世界ではさまざまな要因と未知の変数の間で複雑な相互作用が働くため、めったにありません。 値が 1 に近くならない場合もあることを認識しつつも、できるだけ高い R2 値を持つ回帰モデルを作成するよう努める必要があります。
回帰分析を実行する際、単なる偶然に基づいてより高い適合度をもたらす説明変数を追加することにより、無難な R2 値を持つ回帰モデルを作成してしまうリスクがあります。 補正 R2 も 0 ~ 1 の範囲の値ですが、追加の説明変数の役割を果たし、計算時に偶然が働く要素を減らします。 補正 R2 値は、多くの説明変数を使用するモデルや、説明変数の数が異なるモデルを比較する場合に使用します。
残差の標準誤差では、回帰モデルが新しいデータで値を予測できる精度が計測されます。 値が小さいほど、モデルの精度は高くなります。複数のモデルを比較する際、最小値を含むモデルは残差の標準誤差を最小化するモデルになります。
ポイント チャートを使用して、モデルの精度に影響を与える可能性のあるクラスターや外れ値などのパターンの説明変数を解析できます。
確認的解析
確認的解析は、帰無仮説に対してモデルをテストする処理です。 回帰分析における帰無仮説とは、従属変数と説明変数の間にリレーションシップがないことを指しています。 リレーションシップがないモデルの傾斜値は 0 です。 確認的解析のエレメントが統計的に有意である場合、帰無仮説を棄却できます (統計的に有意であるということは、従属変数と説明変数の間にリレーションシップが存在することを示しています)。
以下の統計出力を使用し、確認的解析の一部として有意性を判断します。
- F 統計量および関連する p 値
- t 統計値および関連する p 値
- 信頼区間
F 統計量は、F 検定から返されるグローバル統計値であり、モデル内のすべての回帰係数が 0 と有意に異なるかどうかを判断することで、回帰モデルの予測能力を示します。 F 検定では、説明変数を個別にテストせず、説明変数の影響を組み合わせて解析します。 F 統計には p 値が関連付けられています。p 値は、データ内のリレーションシップが偶然に発生している確率を示します。 p 値は確率に基づくため、値は 0.0 ~ 1.0 の範囲で設定されます。 モデル内のリレーションシップが真である (偶然でない) と判断し、帰無仮説を棄却するには、p 値は通常 0.05 以下である必要があります。 この場合、モデル内のリレーションシップが偶然に発生する確率は 0.05 (20 分の 1) です。 リレーションシップが真である確率が 0.95 (20 分の 19) であるとも言えます。
t 統計値は、t 検定から返されるローカル統計値であり、各説明変数の予測能力を個別に示します。 F 検定と同様に、t 検定ではモデルの回帰係数が 0 から大きく離れているかどうかを解析します。 ただし、各説明変数で t 検定が実行されるため、モデルごとに 1 つの値ではなく、各説明変数の t 統計値が返されます。 各 t 統計値には p 値が関連付けられています。p 値は説明変数の有意性を示します。 F 検定の p 値と同様に、帰無仮説を棄却するには、各 t 検定の p 値が通常 0.05 以下である必要があります。 説明変数の p 値が 0.05 より大きい場合、グローバルの p 値が有意であっても、変数を破棄して新しいモデルを作成する必要があります。
信頼区間は、各説明変数の回帰係数と、関連する 90%、95%、および 99% の信頼区間を示します。 信頼区間と t 検定の p 値を使用して、各説明変数の帰無仮説を評価できます。 帰無仮説を棄却してモデルの使用を続行する場合、回帰係数は 0 でない必要があります。 各説明変数の回帰係数と関連する信頼区間が 0 とは重ならない必要があります。特定の説明変数の 99% または 95% の信頼区間が 0 と重なる場合、説明変数は帰無仮説を棄却できないことになります。 このような変数をモデルに含めると、モデルの全体的な有意性に影響する可能性があります。 90% の信頼区間のみが 0 と重なる場合、他のグローバル統計が有意であれば、その説明変数をモデルに含めることができます。 すべての説明変数の信頼区間が 0 から大きく離れているのが理想です。
その他の出力
推定値や残差などの出力は、OLS 回帰の前提をテストするために重要です。 これらの値がどのように計算されるかについては、以下のサブセクションで説明します。
推定値
推定値は、回帰方程式と各説明変数の値を使用して計算されます。 推定値が観測値 (従属変数の実際の値) と等しくなるのが理想です。
推定値と観測値を使用して、残差を計算します。
残差
回帰分析の残差値は、データセットの観測値と回帰方程式を使用して計算された推定値との差を表します。
上記関係の残差 A および B は、次のように計算されます。
残差 A = 観測値 A - 推定値 A 残差 A = 595 - 487.62 残差 A = 107.38
残差 B = 観測値 B - 推定値 B 残差 B = 392 - 527.27 残差 B = -135.27
残差を使用して、回帰方程式の誤差を計算したり、一部の前提を検証したりすることができます。