回帰モデルの作成では、観測データに一次方程式を適用することで、2 つ以上の説明変数と 1 つの応答変数間の関係がモデル化されます。 独立変数 (x) の各値が、従属変数 (y) の値に関連付けられます。
[回帰モデルの作成] では、回帰分析の手法として最小二乗法 (OLS) を使用します。
例
ある環境保護団体が、1990 ~ 2015 年における温室効果ガス排出の原因を国別に調査しています。 回帰モデルの作成を使用すれば、人口や国内総生産などの説明変数に基づいて国別の温室効果ガス排出量を試算できる方程式を作成できます。
回帰モデルの作成の実行
回帰モデルを作成するには、次の手順に従います。
- 回帰モデルを作成するデータセットを使用して、マップ、チャート、またはテーブルを作成します。
- [アクション] ボタン をクリックします。
- 次のいずれかを実行します。
- チャート カードまたはテーブル カードの場合、[分析] ウィンドウの [どのような関連性がありますか?] をクリックします。
- マップ カードの場合、[回答の検索] タブをクリックし、[どのような関連性がありますか?] をクリックします。
- [回帰モデルの作成] をクリックします。
- [レイヤーの選択] で、回帰モデルの作成に使用するデータセットを選択します。
- [従属変数の選択] で、モデルで説明するフィールドを選択します。
フィールドは数値または割合/比率である必要があります。
- [説明変数の選択] をクリックして、使用可能なフィールドのメニューを表示します。
- 説明変数 (独立変数) として使用するフィールドを選択します。
- [説明変数の選択] をクリックして、説明変数を適用します。
- [視覚化] ボタンをクリックして、従属変数と説明変数の散布図または散布図マトリックスを表示します (利用可能な場合のみ)。散布図は、モデルの探索的解析の一部として使用できます。
注意:
5 つ以上の説明変数が選択されている場合、[視覚化] ボタンは無効になります。
- [実行] をクリックします。
指定した従属変数および説明変数に対して回帰モデルが作成されます。 これで、出力と統計情報を使用して、引き続き探索的解析および確認的解析でモデルの有効性を検証できます。
使用上の注意
回帰モデルの作成にアクセスするには、[回答の検索] タブの [関連付けの方法] の下にある [アクション] ボタン をクリックします。
従属変数として 1 つの数値フィールドまたは割合/比率フィールドを指定できます。 従属変数は、回帰モデルによって説明しようとしている数値フィールドです。 たとえば、小児死亡率の原因を特定する回帰モデルを作成する場合は、小児死亡率が従属変数になります。
説明変数として、最大 20 の数値フィールドまたは割合/比率フィールドを指定できます。 説明変数は、従属変数を説明するために回帰モデルの一部として指定できる独立変数です。 たとえば、小児死亡率の原因を特定する回帰モデルを作成する場合は、説明変数として、貧困率、疾患発生率、ワクチン接種率を含めることができます。 説明変数の数が 4 つ以下の場合は、[視覚化] をクリックして散布図または散布図マトリックスを作成できます。
次の出力値が、[モデル統計情報] の下に示されます。
- 回帰方程式
- R2
- 補正 R2
- Durbin-Watson 検定
- p 値
- 残差の標準誤差
- F 統計
この出力と統計情報を使用して、モデルの精度を分析できます。
モデルの作成後に、新しい関数データセットがデータ ウィンドウに追加されます。 この関数データセットを [変数の予測] 機能で使用できます。 [回帰モデルの作成] もまた、入力のすべてのフィールドに加え、estimated、residual、および standardized_residual フィールドを含む結果データセットを作成します。 これらのフィールドには、次の情報が含まれています。
- estimated- 回帰モデルによって推定された従属変数の値。
- residual- 元のフィールド値と従属変数の推定値の差。
- standardized_residual- 残差と、残差の標準偏差の比。
回帰モデルの作成の仕組み
次の前提が満たされている場合に、OLS 回帰モデルを作成できます。
- モデルがパラメーターで線形化されること。
- データが母集団のランダム サンプルであること。
- 独立変数の共線性が強くないこと。
- 計測誤差を無視できるほど高い精度で独立変数が計測されること。
- 残差の期待値が常に 0 であること。
- 残差の分散が一定であること (等分散)。
- 残差が正規分布していること。
多くの場合、[回帰モデルの作成] は、いずれかの前提が満たされていない場合でも正常に実行されます。 回帰モデルの作成を使用する前に OLS の前提をテストする必要があります。 前提が満たされていなければ、モデルは有効でなくなることがあります。
3 つ目の前提 (独立変数の共線性が強くないこと) が満たされていなければ、モデルは作成されません。 その場合、[複数の説明変数が関連しています。 共線変数の 1 つを削除して、もう一度やり直してください。 というメッセージが表示されます。 散布図または散布図マトリックスを使用すると、共線性のある変数を特定できます。 共線変数には線形関係があり、いずれかの変数は他の変数に対して強い従属性があります。 モデルから従属的な共線変数を削除します。
OLS モデルの前提の詳細については、「回帰分析」をご参照ください。