因果推論分析 (Causal Inference Analysis) の詳細

[因果推論分析 (Causal Inference Analysis)] ツールは、連続要因変数と連続結果変数間の因果効果を、交絡変数のバランスを調整することで推定します。 このツールでは、傾向スコア マッチングまたは逆傾向スコア重み付けを使用して、それぞれの観察結果に重みを割り当てることで、交絡変数と要因変数の相関がなくなるようにして、要因と結果の間の因果効果を切り離します。 結果は、要因変数の変化に結果変数がどのように対応するかを推定する Exposure-Response (要因対応) 関数 (ERF) になります。 例として、トウモロコシ収穫量の平均増加率 (結果) を肥料の量 (要因) 別に推定して、土壌タイプや農業技術などの交絡変数と、トウモロコシの生産量に影響を与える環境変数を取り出すことができます。 ERF は、グラフィックス レイヤーとして表示され、ジオプロセシング メッセージ内にも表示されます。 加えて、個々の観察結果の因果効果を推定して、目標に基づいた目的を作成することもできます。 例として、各農場が毎年一定量のトウモロコシを生産するために必要とする肥料の量を推定できます。

因果推論分析の背景情報

因果推論分析は、対象となる 2 つの変数間の因果関係をモデル化する統計の分野です。 1 つの変数 (要因または処置変数と呼ばれる) が別の変数 (結果変数と呼ばれる) に直接、変化または影響を及ぼします。 多くの場合、1 つの変数の変化がもう一方の変数の変化にどのように関連付けられるかを測定する基準として相関が使用されますが、相関は、1 つの変数がもう一方の変数の原因になることを必ずしも意味しません。 変数がどちらも他の因子の影響を受けていることもあり得ます。 たとえば、アイスクリームの売上げと日焼け止めの売上げの間には強い正の相関関係がある可能性があります。 しかし、アイスクリームの売上げが伸びるほど、日焼け止めの売上げが伸びると断定することはできません。 因果関係があるという結論を導き出す前に、気温、紫外線指数、各月などの他の因子を明らかにする必要があります。 要因変数と結果変数の両方に影響を及ぼす因子は交絡変数と呼ばれ、要因変数と結果変数の因果関係を正確に把握するには、これらの因子を組み込んでその根拠を説明することが不可欠です。

因果分析は、調査または常識に基づいた仮説から始まります。 例として、健康に対する運動の効果について考えてみましょう。 定期的な運動が健康を増進できることは証明され、常識となっていますが、これらの変数はまた、食習慣、ライフスタイルの選択、安全な運動エリアへのアクセスといったその他の数多くの交絡変数の影響も受けます。 このような状況では、因果推論分析を利用して、各種の重要な交絡変数を明らかにした後で、結果変数 (健康の成果など) に対する要因変数 (運動に毎日費やす時間など) の効果を切り離すことができます。

計画された実験では、交絡変数はランダム化比較試験 (RCT) を使用して制御されます。 RCT は臨床研究に広く使用されており、この方法では、それぞれが類似した交絡変数を保持するグループに参加者が割り当てられる必要があります。 次に、グループごとに異なるレベルの要因が指定され、それぞれのグループの結果が比較されます。 たとえば、毎日 10 分間運動するグループ、1 時間運動するグループ、そしてまったく運動しないグループがあるとします。 それぞれのグループは類似した交絡変数を保持しているため、グループ内の健康の成果の差は、どの交絡変数にも原因があるとは言えません。 重要なすべての交絡変数が適切に実験計画に組み込まれている場合、成果の差は、要因 (毎日の運動量など) の差が原因であるに違いありません。

ただし、実世界のシナリオでは、制御された実験グループを作ることが不可能または非倫理的であることが少なくありません。 たとえば、うつ病における汚染の影響を調査するために、人々を高汚染にさらして、うつ病がどのような状態になるかを確認することは倫理的観点から不可能です。 代わりにできることは、人々がすでに体験している汚染レベルを観察して、うつ病の発生率を観察するぐらいです。 そこで、因果推論分析を使用し、制御された実験計画を再現することで、観察データから因果関係をモデル化することができます。 これを実現するには、各観察結果の傾向スコアを推計し、その傾向スコアを使用して、観察結果に対する一連のバランス加重を推定します。 バランス加重は、加重によって要因変数と結果変数の因果関係が維持されるような方法で設定されますが、加重を設定することで要因変数に対する交絡変数の効果が除去されるため、因果関係の不偏推定が可能になります。 結果として重み付けされた観測結果は RCT を介して収集されたデータセットと類似した特性を持つため、計画された実験を介して収集されたデータセットで可能なものとほとんど同じ方法で当該のデータセットから推論を行うことができます。

バランス加重を推定するには、傾向スコア マッチングと逆傾向スコア加重という 2 つの一般的な方法があります。 傾向スコア マッチングでは、それぞれの観測結果が、類似した交絡変数 (それぞれの結果の傾向スコアの類似性によって測定される) と異なる要因値を持つ他のさまざまな観測結果とマッチングされます。 観測結果の結果値を一致の結果値と比較することで、観測結果の要因が異なっていた場合にその結果値がどのようなものになっていたかを確認できます。 各観測結果に割り当てられたバランス加重は、その観測結果が他のいずれかの観測結果とマッチングされた回数を示します。 逆傾向スコア加重では、傾向スコアを反転し、要因の全確率を掛けることでバランス加重が割り当てられます。 この手順では、一般的でない観測結果 (傾向スコアが低い観測結果) の表現が増加し、一般的な観測結果 (高い傾向スコア) の表現が減少するため、要因変数のすべての値にわたって交絡変数の影響が均等に維持されます。

傾向スコア マッチングまたは逆傾向スコア加重によるバランス重みによって、交絡変数が必ずしも十分にバランス調整されているとは限らないため、これらの変数の重み付き相関が、閾値と比較して計算されます。 相関が閾値を下回る (相関が低いことを意味する) 場合、交絡変数はバランス調整済みと判断されて、ERF が推定されます。 しかし、バランス加重によって、交絡変数のバランスが十分に取られていない場合、ツールはエラーを返し、ERF を生成しません。

応用例

ツールの応用例を次に示します。

  • 米国内でタバコ製品の広告への接触が 10 代のタバコ使用にどのような影響を及ぼすかを調査します。 この例では、要因変数はそれぞれの 10 代の若者を対象にした広告への接触の量、結果変数は一定期間にそれぞれの 10 代の若者が消費したタバコの量になります。 交絡変数は、10 代のタバコ製品への接触または使用に関連することが知られているか、疑われる他のいずれかの変数 (社会経済的変数、家族や友人によるタバコ製品への直接的な接触、タバコ製品の価格、タバコ製品の入手可能性など) である必要があります。 10 代のタバコ使用を調査するには、多くの要因変数を選択できますが (家族メンバーによるタバコ製品への直接的な接触など)、タバコ製品の広告は有益な要因変数の 1 つです。これは、広告が 10 代のタバコ使用の大幅な増加の原因であることが判明した場合、規制によって広告の量を減らすことができるためです。 一方、成人の家族メンバー内でタバコ製品の使用を減らすことはもっと難しいでしょう。
  • スマート農業でトウモロコシ収穫量に対する肥料の量の因果効果を推定すると同時に、土壌タイプや農業技術、環境変数、農地区画ごとの他の交絡変数を制御します。 たとえば、それぞれの農場が肥料の量を 10 パーセント増やした場合、生産される追加のトウモロコシ量はどのくらいになるでしょうか。
  • 血圧と心臓発作のリスクとの因果効果を推定し、年齢、体重、社会人口統計学的変数、医療へのアクセスなどの交絡変数を制御します。
  • 空間データでは、多くの場合、他のフィーチャまでの距離が有益な要因変数になります。 たとえば、食料品店、緑地、病院までの距離は他の変数を変化させる原因になります。食料品店からの距離が遠くなると、食料へのアクセスが低下し、病院からの距離が遠くなると、医療へのアクセスが低下するなどです。 同じような理由で、空間変数と他のフィーチャまでの距離は、要因変数と結果変数が空間変数ではない場合でも重要な交絡変数になることもよくあります。

ただし、因果推論分析では、因果効果の推定を偏りがなく、有効なものにするために満たす必要がある数多くの制限と仮定があります。 因果推論分析の仮定と制限には、次のようなものがあります。

  • 重要なすべての交絡変数を含める必要があります。 これは、因果推論分析における強い仮定であり、要因変数と結果変数のいずれにも関連している変数すべてを交絡変数として含めていなければ、因果効果の推定に偏りが生じることを意味します (因果関係と、欠落している交絡変数の交絡効果の組み合わせ)。 このツールでは、すべての重要な交絡変数が含まれているかどうかは判断できないため、含まれる交絡変数を考察することが非常に重要になります。 利用できない重要な交絡変数がある場合は、細心の注意を払って結果を解釈するか、またはこのツールを使用しないでください。
  • 因果効果を切り離すには、交絡変数と要因変数の相関を取り除く必要があります。 因果推論分析では、交絡変数と要因変数の相関を除去することをバランス調整と呼び、ツールでは各種のバランス調整手順が使用されます。 ただし、ツールで交絡変数と要因変数の相関を必ずしも十分に除去できるとは限りません。 しかし、バランス調整手順で交絡変数のバランスが十分に取られていない場合、ツールはエラーを返し、ERF は推定されません。 エラーとその解決方法の詳細については、「バランス調整済みの交絡変数を達成するためのヒント」をご参照ください。
  • ERF は、その推定に使用された要因値の範囲外で外挿することはできません。 たとえば、要因変数が年間平均気温である場合、サンプル内の気温を超える気温に対して新しい結果を推定することはできません。 たとえば、これは、今後、平均気温が現在の平均気温を超えた場合、結果を予測できなくなるかもしれないことを意味します。 また、デフォルトでは、ツールは要因値の上下 1 パーセントをトリミング (分析から除外) するため、ERF の範囲はサンプル内の観測結果の要因値よりもさらに狭くなります。

ツールの出力

ツールは、要因変数と結果変数の因果関係の調査に使用できるさまざまな出力を作成します。 これらの結果はグラフィックス レイヤー、ジオプロセシング メッセージ、出力フィーチャ (またはテーブル)、出力 ERF テーブルとして返されます。

Exposure-Response 関数

このツールの主要な結果は、要因変数の変化に結果変数がどのように対応しているかを推定する ERF です。 ERF では、母集団のすべてのメンバーが同じ要因変数を保持するように変更された一方で、既存のすべての交絡変数を保持した場合に、結果変数の新しい母集団平均 (母集団のすべてのメンバーの平均) を推計します。 たとえば、米国内のすべての郡で、要因変数を PM2.5、結果変数を喘息入院率とすると、ERF では、他のすべての変数 (社会人口統計学的変数など) を PM2.5 が変化する前と同じ値に保ちながら、全国の PM2.5 レベルが増加または減少した場合に全国平均の喘息入院率がどのように変化するかを推定します。

アクティブなマップで実行された場合、ERF を表示するグラフィックス レイヤーがマップに追加されます。 同じ ERF 画像がメッセージにも表示されます。

Exposure-Response 関数
ERF では、母集団のすべてのメンバーが同じ要因値 (X 軸) を保持するように変更された場合に、結果変数 (Y 軸) の平均値を推計します。

ピンク色の曲線が、要因 (X 軸) 変数と結果 (Y 軸) 変数間の ERF を示しています。 観測結果が散布図を背景に水色のバブルとして表示され、バブルのサイズが大きいほど、そのフィーチャで割り当てられたバランス重みが大きく、ERF の推定に対する貢献率が高いことを示しています。 傾向スコア マッチングの場合、観測結果は、一致が含まれていないとライト グレーのポイントで描画されます。 トリミングされた観測結果はチャートに表示されません。

また、ERF には、要因変数のさまざまなレベルで推定された平均を比較できるように、結果変数の平均値を示す青色の水平ラインも表示されます。 たとえば、上の画像では、すべての郡の喫煙率が約 17.5 (平均ラインと ERF が交差する地点) を下回る同じ値に変わった場合、全体的な COPD 率が現在のレベルから減少します。 同様に、すべての郡の喫煙率が 17.5 を上回る値に変わった場合は、全体的な COPD 率は増加します。

また、[出力 Exposure-Response 関数テーブル] パラメーターを使用して、ERF のテーブルを作成することもできます。 作成されると、テーブルには、最小要因と最大要因の間に 200 の等間隔の要因値が、対応する応答値と共に示されます。 ターゲット要因値またはターゲット結果値が指定された場合は、それらの値も、推定された要因値または応答値と共にテーブルの末尾に追加されます。

交絡変数のバランス統計

メッセージの [バランス調整の結果] セクションには、それぞれの交絡変数と要因変数の間の元の絶対相関と重み付きの絶対相関が表示されます。 このため、バランス重みが交絡変数と要因変数の元の相関を効果的に低下させたかどうかを確認することができます。 加重がバランス調整で効果的である場合、重み付き相関は元の相関よりも低くなる必要があります。 メッセージ テーブルの最終行には、[バランス タイプ] パラメーターの値に応じて、平均、中央値、最大の絶対相関が表示されます。

バランス調整の結果メッセージ テーブル

交絡と要因の相関メッセージ チャートには、垂直ライン チャートを除き、テーブルと同じ情報が表示されます。 交絡変数ごとに、元の相関が赤色のライン、重み付き相関が青色のラインで結ばれます。 集計された元の相関と重み付き相関はそれぞれ、赤色と青色の垂直バーでも描画されます。 加重が交絡変数を効果的にバランス調整している場合は、通常、青色のラインが赤色のラインの左側に示されます。 バランスの閾値が垂直の破線で描画されるため、相関が閾値にどれだけ近くなっていたかを確認できます。 たとえば、下の画像では、交絡変数のうちの 2 つが比較的高い相関 (それぞれ 0.3 と 0.4 を上回る) で開始されましたが、バランス加重によって相関が 0.1 を下回るまでに低下しました。 3 つ目の交絡変数は低い相関 (0.1 を少し下回る) で開始されましたが、バランス加重によって相関が少しだけ低下しました。 全体として、平均の相関が約 0.3 から 0.1 未満まで低下しました。

交絡と要因の相関メッセージ チャート

交絡変数のバランスの詳細については、下記の「バランス調整済みの交絡変数の確認」セクションをご参照ください。

パラメーター調整結果

メッセージには、ERF の推定に使用される各種の調整パラメーターを要約したセクションもあります。 ツールに指定したパラメーターに応じて、次のセクションが表示されます。

  • トリミング結果 - 観測結果の元の数 (NULL 値を含むレコードを除去した後)、要因トリミングによって除去された観測結果の数、傾向スコア トリミングによって除去された観測結果の数、トリミング後に残った観測結果の最終的な数が表示されます。
  • マッチング グリッド サーチの結果 - 傾向スコア マッチングで、マッチング パラメーター検索の結果が表示されます。 ツールは、要因ビンの数と要因に対する傾向スコアの相対的加重 (スケール) をさまざまに組み合わせて使用して、組み合わせごとの結果の加重相関を表示します。 結果の加重相関が最も低い組み合わせ (最適なバランス) が太字でハイライト表示されます。
  • 変換バランス調整の結果 - 回帰傾向スコア モデルでは、バランスを見つけようとする試みで使用された交絡変数変換が、変換の組み合わせごとの重み付き相関と共に表示されます。 結果の重み付け相関が最も低い変換の組み合わせが太字でハイライト表示されます。
  • 勾配ブースティング バランス調整の結果 - 勾配ブースティング傾向スコア モデルでは、勾配ブースティング グリッド サーチの結果が表示されます。 ツールは、ツリーの数と学習率の 9 通りの組み合わせを試して、組み合わせごとの重み付き相関を表示します。 結果の重み付け相関が最も低い組み合わせが太字でハイライト表示されます。
  • 最適なバランスを生成するパラメーター - 傾向スコア マッチングでは、結果として最適な交絡変数のバランスを生成した要因ビンの数と要因に対する傾向スコアの相対的加重 (スケール) が表示されます。 勾配ブースティングでは、結果として最適なバランスを生成したツリー数、学習率、および乱数ジェネレーター シード値が表示されます。
  • バランス調整の結果 - 交絡変数ごとの元の相関と重み付けされた相関が、平均、中央値、最大の相関と共に表示されます。 変換が使用された場合は、交絡変数ごとに変換も表示されます。

算出されるメッセージ内の値の数の詳細については、下記の「最適なバランス調整パラメーターの推定」セクションをご参照ください。

出力フィーチャ

出力フィーチャまたはテーブルには、要因変数、結果変数、交絡変数のコピーが、傾向スコア、バランス加重 (一致数または逆傾向スコアの重み)、レコードがトリミングされたかどうかを示すフィールドと共に示されます。 出力フィーチャは、マップに追加されると、バランス加重に基づいて描画されます。 これにより、加重に沿った空間パターン (特定の領域が結果内で過大または過少評価されていることを示す場合がある) が存在するかどうかを確認できます。

ターゲット要因値またはターゲット結果値を指定すると、指定した値ごとに 2 つの追加フィールドが出力に作成されます。 ターゲット要因値の場合、最初のフィールドには、観測結果がターゲット要因を受け取った場合に推定される結果値が含まれ、2 番目のフィールドには結果変数の推定される変化が含まれます。 正の値は結果変数が増加することを示し、負の値は結果変数が減少することを示します。 ターゲット結果値の場合、最初のフィールドには、ターゲット結果を生成する要因値が含まれ、2 番目のフィールドにはターゲット結果変数を生成するために必要な要因変数の変化が含まれます。

局所 ERF ポップアップ チャートを作成すると、出力レコードごとに、局所 ERF がポップアップ ウィンドウに表示されます。 ターゲット結果値またはターゲット要因値はすべて、X 軸と Y 軸にオレンジ色の三角形で表示されます。 三角形をクリックすると、水平バーまたは垂直バーのオンとオフを切り替えて、値と局所 ERF が交差する地点を確認できます。 さらに、三角形の上にポインターを置くと、ターゲットに到達するために必要な要因または結果の変化に関する情報が表示されます。 詳細については、「局所因果効果の推定」をご参照ください。

局所 ERF ポップアップ チャート
この観測結果では、ターゲット COPD 率である 7 を達成するために、喫煙率を約 1.5 減少させる必要があります。

ERF のブートストラップ信頼区間を作成すると、2 つの追加フィールドが作成され、ブートストラップ サンプルでその観測結果が選択された回数と、バランスを達成したブートストラップ サンプルにその観測結果が含められた回数が示されます。 両方のフィールドで空間パターンを探すことをお勧めします。 一部の領域に、それ以外の領域よりもバランスの取れたブートストラップ サンプルが多く含まれる場合、信頼区間に偏りが生じる (通常、非現実的に狭い信頼区間が生成される) 可能性があります。 詳細については、「ブートストラップ信頼区間」をご参照ください。

傾向スコア

因果推論分析の基本的な構成要素の 1 つに傾向スコアがあります。 傾向スコアは、観測結果が交絡変数の値を考慮して、観測された要因値を受け取る可能性 (または確率) と定義されます。 高い傾向スコアは、観測結果のその要因値が、類似した交絡変数を持つ個体で一般的であることを意味し、低い傾向スコアは、その要因値が、類似した交絡変数を持つ個体で一般的でないことを意味します。 たとえば、高血圧 (要因変数) であるが、高血圧の危険因子 (交絡変数) を持たない個人の場合、この個人の傾向スコアは低いと考えられます。これは、危険因子がないのに高血圧になることはあまり一般的ではないからです。 反対に、多くの危険因子を持つ個人の場合、高血圧になることはより一般的なので、傾向スコアも高くなります。

傾向スコア マッチングと逆傾向スコア加重という 2 つの因果推論分析の手法では傾向スコアを使用します。 それぞれの手法では、一連のバランス加重を各観察結果に割り当てた後で、その重みを使用して交絡変数のバランスを取ります (詳細については、下記の「バランス調整済みの交絡変数の確認」セクションをご参照ください)。

傾向スコア マッチング

傾向スコア マッチングでは、それぞれの観測結果と、交絡変数が類似しているが要因が異なるさまざまな観測結果をマッチングすることで交絡変数のバランス調整を試行します。 観測結果の結果値と一致する観測結果の結果を比較して、その観測結果の要因が異なっていた (ただし、交絡変数は同じに維持されていた) 場合にその観測結果で生成されていた可能性のある結果を確認します。 すべての観測結果で一致が見つかったら、各観測結果に割り当てられたバランス加重は、その観測結果が他のいずれかの観測結果とマッチングされた回数を示します。 たとえば、観測結果が他のいずれの観測結果にも一致しない場合、バランス加重は 0 になり、観測結果が他のすべての観測結果に一致する場合、バランス重みは観測結果の数に等しくなります。

連続要因変数の傾向スコア マッチングは比較的複雑で、下記の「参考文献」セクションの 4 番目と 5 番目の項目で詳しく説明され、導出されています。 マッチング手順の簡単な概要を次に示します。

この手順では、初めに [要因ビンの数] パラメーターの値を使用して、要因変数に基づく等間隔のビン (ヒストグラムのビンに似ている) に観測結果を分割します。 傾向スコア マッチングは、それぞれのビン内でビンに含まれる観測結果の傾向スコアと他のすべての観測結果の反事実的傾向スコアを比較することで実行されます。 反事実的傾向スコアとは、ある観測結果で交絡変数は同じだが、要因 (この例では各要因ビンの中心の値) が異なっていた場合にその観測結果が保持していたと推定される傾向スコアを指します。 要因ビン内で傾向スコアが他の各観測結果の反事実的傾向スコアに最も近い観測結果を見つけることで、各ビン内の一致が決定されます。 ただし、一般的にビン内の観測結果の要因値はビンの中心に合致していないため、要因値と要因ビンの中心の差に基づいて追加のペナルティが付加されます。 適用されるペナルティの量は、[要因に対する傾向スコアの相対的重み] パラメーター (参考文献ではスケール パラメーターと呼ばれる) の値によって算出され、全体の一致により、傾向スコアの差の絶対値 (傾向スコアから反事実的傾向スコアを引いた値) と要因の差の絶対値 (未処理の要因からビンの中心値を引いた値) の加重合計が最も低い観測結果が示されます。

逆傾向スコア加重

逆傾向スコア加重では、傾向スコアを反転し、指定された要因を持つ全確率を掛けることで、各観測結果にバランス加重を割り当てます。 この因果推論手法では、低い傾向スコアを持つ観測結果に対して高いバランス重みが適用され、高い傾向スコアを持つ観測結果に対して低いバランス加重が適用されます。 この加重スキームには、傾向スコアが特定の交絡変数のセットに対して要因値がどれだけ一般的であるか、あるいは一般的でないかを測定する基準になるという根拠があります。 一般的ではない観測 (傾向スコアが低い観測) の影響を大きくし (バランス加重を増やす)、一般的な観測の影響を少なくすることで、要因変数のすべての値にわたって交絡変数の影響の全体的な分布が均等に保たれます。

注意:

カーネル密度推定 (KDE) が要因値の全確率を推定するために使用されます。 KDE では、SciPy Python パッケージの scipy.stats.gaussian_kde 関数に実装されているように、Silverman のバンド幅を含むガウス カーネルを使用します。

傾向スコアの推定

[傾向スコアの計算方法] パラメーターでは、傾向スコアの推定方法を指定できます。 それぞれの方法で、交絡変数を説明変数として使用し、要因変数を従属変数として使用するモデルが構築されます。 次の 2 つの傾向スコアの計算方法を使用できます。

回帰モデルでは、正規分布の標準化残差を仮定して予測に確率が割り当てられます。 勾配ブースティング モデルでは標準化残差が自然に生成されないため、ツールは 2 つ目の勾配ブースティング モデルを構築して最初のモデルの残差の絶対値を予測することで、標準誤差の推定値を提供します。 その後で KDE (上記の逆傾向スコア重み付けと同じ) が、標準化残差の分布を作成するために標準化残差に対して使用されます。 この分布を用いて、要因変数の値と交絡変数の値のすべての組み合わせにおける傾向スコアを推定できます。

回帰と勾配ブースティングではどちらも、それぞれのモデルを構築する前にすべての変数を 0 ~ 1 の範囲でリスケールします。

バランス調整済みの交絡変数の確認

ERF が因果効果の不偏推定になるようにするには、すべての交絡変数を含めてそれらのバランスを調整する必要があります。つまり、交絡変数と要因変数の相関がないようにする必要があります。 定義上、交絡変数は要因変数との相関があるため、元の交絡変数は常にバランスが未調整の状態です。 ただし、バランス加重 (傾向スコアの一致数または逆傾向スコアの重み) の目的は、重み付きの観測結果がバランス調整されるように各観測結果を重み付けすることです。しかし、要因変数と結果変数の因果関係は維持されるため、ERF の不偏推定が可能になります。

バランス加重が、交絡変数のバランスを効果的に調整しているかどうかを判断するために、各交絡変数と要因変数の間で重み付けされた相関が計算されます。 次に、重み付けされた相関の絶対値が集計され、閾値と比較されます。 集計された相関が閾値よりも低い場合、交絡変数はバランス調整済みと判断されます。 [バランス タイプ] パラメーターで集計タイプ (平均、中央値、最大絶対相関) を指定し、[バランスの閾値] パラメーターで閾値を指定します。 デフォルトでは、ツールは平均の絶対相関を計算し、閾値 0.1 を使用します。

注意:

連続交絡変数では、重み付けされた相関が、加重のスピアマンの順位相関係数を使用して計算されます。 この相関は、従来のピアソン相関係数に似ていますが、生の値の代わりに変数の重み付き順位を使用します。 順位を使用すると、外れ値や奇妙な形の分布に対する相関の安定性が向上します。 カテゴリ交絡変数では、重み付け相関が、要因変数の重み付き順位を用いた重み付き eta 統計を使用して計算されます。 eta 統計は、カテゴリ変数の絶対ピアソン相関とほぼ同等であり (どちらも、決定係数 R2 の平方根と定義できる)、生の要因値の代わりに加重順位を使用することで、この相関比 (eta) を重み付きスピアマン相関の絶対値とほぼ等しくします。

バランス調整済みの交絡変数を達成するためのヒント

バランス加重によって交絡変数のバランスが十分に調整されない場合、ツールはエラーを返し、ERF を生成しません。ただし、各交絡変数の加重相関を示す情報とともに、さまざまなメッセージが表示されます。 このエラーが表示された場合、バランス加重によって相関がどの程度軽減されたか、および加重相関がバランス閾値にどれだけ近いかを判断するために、メッセージを確認します。

ツールを使用してもバランスを達成できない場合は、関連する交絡変数が欠落していないかどうかを確認し、欠落している場合はそれを含めます。 次に、[傾向スコアの計算方法] パラメーターと [バランス調整方法] パラメーターのさまざまなオプションを使用してみます。 ただし、データセットによっては、バランスを達成できる組み合わせがない場合もあります。

一般に、交絡変数の元の相関が高いほど、それらの変数のバランスを取ることがより困難になります。 交絡変数に強い相関がある場合、十分なバランスを達成するには大きなサイズのサンプルが必要なことがあります。 カテゴリ交絡変数の場合、カテゴリの数が多いほど、バランスを取ることがより困難になります。 特に要因変数の変動がほとんどない場合や、各カテゴリ内の観測結果の数が少ない (一般に 5 未満) 場合は、一部のカテゴリの結合が必要なことがあります。

しかし、ERF に偏りが生じても許容できる場合は、バランス閾値を上げるか、緩いバランス タイプを使用することで、バランスを達成することができます。

一般的に、バランス閾値が低いほど、因果効果の推定の偏りに対する許容度が低いことを意味します。しかし、バランス閾値が低ければバランスを達成するのが困難になります。 バランス タイプでは、相関の平均を使用すると、交絡変数のバランスを平均に保つことができるようになりますが、平均が閾値を下回るようになるだけの、低い相関を持つ十分な数の交絡変数が存在する場合は、高い相関を持つ一部の交絡変数を許容することになります。 最も堅実な最大オプションでは、すべての交絡変数が閾値を下回る必要があります。ただし、閾値を少しだけ超える交絡変数が 1 つでもあれば、それらの交絡変数はバランスが未調整であると見なされます。 最も寛大な中央値オプションでは、非常に高い相関が半分まで許容され、バランス調整済みと見なすことができます。

最適なバランス調整パラメーターの推定

多くの場合、交絡変数のバランス調整は困難ですが、このツールはさまざまな最適化と検索を試してみて、可能な限りバランス調整された交絡変数が得られる調整パラメーターを見つけます。 実行される最適化はツールの各種パラメーターによって決まります。以下のセクションでは、これらのパラメーターについて説明します。

マッチング パラメーター検索

傾向スコア マッチングでは、マッチング結果が [要因ビンの数] および [要因に対する傾向スコアの相対的重み] パラメーターの値によって決定されますが、ベスト プラクティスにつながる値を予測することは困難です。 さらに、値の 1 つのわずかな変化が、他の値の大きな変化の原因となる可能性があるため、効果的に働く値のペアを見つけることは特に困難です。 これらのパラメーターに値が指定されていない場合、ツールはさまざまな組み合わせを試して、メッセージに結果をテーブルとして表示します。 テーブルの行は要因ビンの数を、列は相対的加重 (スケールとも呼ばれる) を示します。 それぞれの組み合わせの加重相関がグリッド内に表示され、バランスを達成した組み合わせでは値の横にアスタリスクが示されます。 結果の加重相関が最も低い組み合わせ (最適なバランス) が太字でハイライト表示されます。 下図に示すように、加重相関は 2 つのパラメーターの値によって大きく異なる場合があります。

マッチング グリッド サーチの結果メッセージ テーブル

ツールは 0 ~ 1 の範囲内で 0.2 刻みで相対的加重を試しますが、テスト対象の要因ビンの数は観測結果の数によって決まります。 テストされる値は、観測結果数の四乗根から三乗根の 2 倍までの範囲です。 テストされる値は 3 以上の値ずつ均等に増分され、10 以下の値がテストされます。

回帰変換

回帰を使用して傾向スコアを計算するときに、交絡変数のバランスが調整されていなければ、任意の連続交絡変数にさまざまな変換が適用されます。 いずれかの時点で交絡変数のバランスが達成されると、このプロセスは終了し、現在の一連の変換が ERF の作成に使用されます。

このプロセスは、最もバランスが調整されていない (最大の重み付き相関がある) 交絡変数から始めて、一連の変換を適用します。 最適なバランスを達成する変換が維持され、プロセスが次の交絡変数で繰り返されます。 これは、すべての交絡変数のテストが完了するまで続行されます。それでも交絡変数のバランスが調整されない場合、ツールはエラーを返し、ERF を生成しません。

変換対象の交絡変数の値に制限がある次の変換が実行されます。

  • 自然対数 - 正の値を持つ交絡変数のみ
  • 二乗 - 負でない値を持つ交絡変数のみ
  • 平方根 - 負でない値を持つ交絡変数のみ
  • 三乗
  • 三乗根

最適なバランスを生成した変換がメッセージの [バランス調整の結果] セクションに表示され、変換試行の全履歴が [変換バランス調整の結果] セクションに表示されます。

傾向スコア マッチングでは、要因ビンの数と、元 (未変換) の交絡変数の相対的重みの値がすべての変換の組み合わせで使用されます。 これは、変換の組み合わせごとのマッチング パラメーター検索の繰り返しによって計算時間が非常に長くなることを防ぐためです。 二乗変換は負でない値に制限されるため、要因変数の順序が変換の前後を通して変更されなくなります。これは、元の観測結果から算出された要因ビンの数と相対的重みを再利用する場合に重要です。

勾配ブースティング パラメーター検索

勾配ブースティングを使用して傾向スコアを計算するときは、ツリー数と学習率のさまざまな組み合わせがテストされます。 いずれかの時点で交絡変数のバランスが達成されると、このプロセスは終了し、現在のツリー数と学習率が使用されます。 このプロセスでは、ツリー数 10、20、30 と学習率 0.1、0.2、0.3 の中から最大で 9 通りの組み合わせを試します。

最適なバランスが生成されるツリー数と学習率がメッセージの [最適なバランスを生成するパラメーター] セクションに表示され、パラメーターの組み合わせの全履歴が [勾配ブースティング バランス調整の結果] セクションに表示されます。

回帰変換とは違って、要因ビンの数と相対的加重のマッチング パラメーター検索は、ツリー数と学習率の組み合わせごとに繰り返されます。 これら 4 つのパラメーターのいずれかでわずかな変化が起こると、それ以外のパラメーターの最適な値が大きく変化する可能性があるため、詳細な検索が実行されます。

Exposure-Response 関数の推定

バランス調整手順では、バランス加重 (一致数または逆傾向スコアの加重) をそれぞれの観測結果に割り当て、これらの重みが Exposure-Response 関数を推定するための基礎となります。 加重された観測結果 (疑似集団と呼ばれることもある) にはそれぞれ、要因値、結果値、加重が存在し、その目標は、滑らかな曲線 (ERF) を重み付きの観測結果に適合させることにあります。 ERF の推定時に、それぞれの観測結果がその加重に比例して推定に影響を与えます。 つまり、加重が 3 である観測結果は、それぞれの加重が 1 である 3 つの観測結果と同程度の貢献をします。 同様に、加重が 0 である観測結果はすべて ERF に影響を与えず、効果的に除外されます。

指定された要因変数の値 (X 軸) に対して、関連する応答値 (Y 軸) が、観測結果の結果値の加重移動平均 (カーネル平滑化と呼ばれることもある) として推定されます。 加重平均の加重は、バランス加重に 3 つの標準偏差でトリミングしたガウス カーネルの加重を掛けた値になります。

この手順が要因変数のすべての値に対して実行されると、結果として、観測結果を通り抜け、最大の加重を持つ観測結果の方に引き付けられる滑らかな曲線が生成されます。

ERF は結果変数の加重移動平均です。

バンド幅推定

ERF の式内のカーネルは、ERF 曲線の滑らかさを制御するバンド幅値 (ガウス カーネルの標準偏差) によって決まり、現実的で正確な ERF を生成するには、適切なバンド幅を指定することが非常に重要です。 同じ一連の重み付けされた観測結果では、バンド幅値が大きいほど、ERF が滑らかになります。 以下の図は、同じ観測結果に使用される 3 つのバンド幅値を示しています。

小、中、大のバンド幅値と結果の ERF

[バンド幅推定方法] パラメーターを使用して、バンド幅値の推定方法を選択できます。 次の 3 通りのバンド幅推定方法があります。

  • [プラグイン] - 経験則に基づく高速の式がバンド幅値の推定に使用されます。 このオプションがデフォルトです。迅速に計算が行われ、一般的に、正確で現実的な ERF が生成されます。 この方法は、Fan の方法論 (1996) の重み付きバリアントであり、すべての観測結果に適合された加重 4 次グローバル多項式の二次導関数からバンド幅値を導出します。
  • [交差検証] - 二乗平均平方根の交差検証の誤差を最小化するバンド幅値が使用されます。 このオプションは、計算に最も長い時間がかかりますが、統計理論で最も確立された方法です。 ただし、大きなデータセットの交差検証では、小さすぎるバンド幅値が推定され、曲がりくねった ERF が生成される傾向があります。
  • [手動] - [バンド幅] パラメーターに指定されたカスタムのバンド幅値が使用されます。 このオプションは、それ以外のオプションで、結果として滑らかすぎるか、曲がりくねった ERF を示すバンド幅値が生成される場合に推奨されます。 このような場合は、他の方法で推定されたバンド幅値を確認して、滑らかさを調整するのに必要な修正を行います。

推定されたバンド幅値は、メッセージの最下部に出力されます。

注意:

プラグイン法および交差検証法では、推定されたバンド幅値が要因値間の最大ギャップよりも小さい場合、代わりに最大ギャップが推定されます。 これは、すべての要因値が加重平均に十分なデータを持つようにするために行われます。 より小さいバンド幅値を使用するには、バンド幅値を手動で指定します。

局所因果効果の推定

出力フィーチャまたはテーブルの各レコードの局所 ERF を作成するには、[Exposure-Response のポップアップの有効化] パラメーターをオンにします。 オンにすると、各出力フィーチャまたはテーブル レコードのポップアップの出力に ERF チャートが含まれます。 ポップアップには、個々の観測結果の結果変数がその要因変数の変化にどのように対応すると推定されているかが表示されます。 局所 ERF はグローバル ERF と同じ形をしていますが、個々の観測結果を通り抜けるように上下にシフトしています。 さらに、ターゲット結果値またはターゲット要因値が指定されている場合、ターゲットを達成するために必要な要因または結果の変化と共に、それらの値もポップアップ チャートに表示されます。

局所 ERF を作成する場合やターゲット要因値またはターゲット結果値を使用する場合は、すべての観測結果における要因の固定効果について追加の仮定を行う必要があります。 これは強い仮定であり、この仮定に反すると、偏りがあるか、誤解を招く結果が生まれる可能性があります。 要因の固定効果の仮定は、結果に対する要因の効果が母集団のすべての個体で一定であることを意味します。 言い換えれば、開始要因を考慮に入れて、一定の量だけその要因を増加させると、他のどの変数のレベル (測定された交絡を含むが、これらに限定されない) にも関係なく、すべての人にとって同じやり方で結果が変化します。 たとえば、肥料の量を 1 エーカー当たり 150 lb から 1 エーカー当たり 175 lb に増やした場合、現在のトウモロコシ収穫量、土壌のタイプ、農業技術、その他の交絡変数に関係なく、すべての農場で同じ量だけトウモロコシ収穫量が増える必要があります。

この仮定は、効果修飾子、つまり結果が個体レベルで要因にどのように対応しているかに影響する変数が存在しない場合に妥当と言えます。 ただし、一般的に、性別、人種、教育レベルなどの社会人口統計学的変数が効果修飾子となって、交絡変数として因果推論モデルに含まれています。 この仮定は、すべてのレベルの修飾変数にわたって効果修飾を平均化するのに有効であり、グローバル平均因果効果 (ERF) の推定を可能にします。 ただし、グローバル ERF は効果修飾子のレベル別に定義される特定のサブグループを表すものではありません。 たとえば、職業訓練プログラムで、訓練時間が長いほど求人が増加することがわかることがあります。 ただし、黒人やヒスパニック系が多い地域では、一定の訓練時間が過ぎると求人が伸び悩み、これが、体系的な就職差別を示唆していることがあります。 したがって、グローバル ERF はこれらの地域社会が直面している格差を意図せずに隠している可能性があります。 グローバル ERF は母集団全体で平均化された結果に対する要因の効果を表していますが、効果修飾変数が存在している場合、グローバル ERF は黒人やヒスパニック系が多い地域で結果に対する要因の効果を正確に表していない可能性があります。

局所 ERF は、モデルに効果修飾子が含まれている場合、有効ではありません。 効果修飾子を扱う手法の 1 つに層別化があります。この手法では、修飾変数の値に基づいて観測結果を層 (サブグループ) に分割する必要があります。 効果修飾子を層別に分けて、層ごとに独立した ERF を作成することで、各グループ内の要因と結果の関係を個別に調べることができます。 これにより、効果に対する要因の効果が効果修飾子のレベルによって異なるかどうかを確認できます。

ブートストラップ信頼区間

[ブートストラップ信頼区間の作成] パラメーターを使用して、ERF の 95 パーセントの信頼区間を作成できます。 作成されると、これらの信頼区間は、出力グラフィックス レイヤーとメッセージ内で ERF の上下に破線で描画されます。 出力 ERF テーブルが作成された場合、このテーブルには信頼の上限と下限のフィールドも含まれます。

95 パーセントの信頼区間を含む ERF
95 パーセントの信頼区間が ERF の上下に破線で表示されています。

信頼区間は、要因変数の任意の値に対する結果変数の母集団平均の範囲です。 母集団平均の変動性は母集団の個々のメンバーよりも低いため、通常、散布図のほとんどのポイントは信頼区間の範囲外にありますが、これは問題を示すものではありません。 同じような理由で、信頼区間はグローバル ERF のみに適用され、局所 ERF には適用できません。

信頼区間は、M-out-of-N ブートストラップを使用して作成されます。 この手順では、N 個の観測結果から M 個の観測結果をランダムにサンプリングする必要があります。ここでは、M=2*sqrt(N) が DasGupta によって推奨されています (2008)。 次に、ツールはランダム ブートストラップ サンプルに対してアルゴリズム全体 (最適パラメーターの検索、傾向スコアの推定、バランス テスト、ERF 推定) を実行します。 結果として生成される ERF は通常、元の ERF に似ていますが、まったく同じではありません。 このプロセスを何度も繰り返すことにより、観測結果のさまざまなランダム サンプルの取得時に ERF の変動量を確認できます。 生成される ERF の変動が、信頼区間の作成の根拠を示します。

ブートストラップ サンプルでバランス (バランス タイプとバランスの閾値によって決まる) を達成できない場合、そのブートストラップ サンプルは破棄されます。 ツールは、5*sqrt(N) 個のブートストラップ サンプルでバランスが達成されるまでブートストラップの実行を続けます。 この値は、あらゆる観測結果が、平均で少なくとも 10 個のバランス調整済みのブートストラップ サンプルに含まれると期待することで導出されています。 これにより、要因の範囲全体にわたる上限と下限の安定した推定が可能になります。 25*sqrt(N) 回のブートストラップ試行後に、バランス調整済みのブートストラップがまだ不足している場合は、信頼区間が作成されず、警告メッセージが返されます。

信頼区間では ERF の不確実性の原因となるものが多く捉えられますが、その一方で、因果効果の上限と下限に実際に対応している信頼区間を注意して作成することは重要であり、不確実性のすべての潜在的な原因を明らかにする必要があります。 このツールのブートストラップ手順では、バランス調整手順および ERF 推定の不確実性が組み込まれていますが、変数の値の不正確さや ERF の関数形式の選択 (スプラインまたはグローバル多項式に対する加重移動平均など) といった、可能性のある他の不確実性の原因を説明することはできません。 また、観測結果の数を増やすにつれて、信頼区間は恣意的に狭くなりますが、これは、ERF が因果効果を完全に特徴付けていることを意味しているわけではありません。

ブートストラップ信頼区間が作成されると、ブートストラップに関連する 2 つのフィールドが出力フィーチャまたはテーブルに含まれます。 最初のフィールドにはブートストラップ サンプルで観測結果が選択された回数が示され、2 つ目のフィールドには、バランスが達成されて ERF が推定されたブートストラップ サンプルに観測結果が含まれていた回数が示されます。 これらのフィールドは、十分でないブートストラップ サンプルによって、信頼区間を作成するためのバランスが達成された場合にも作成されます。 出力フィーチャの場合、最初の列の値が、フィーチャの外周部を除くわずかな空間パターンを示す必要があります。 ただし、2 つ目のフィールドに空間パターンがある場合、このフィールドが、説明されていない空間プロセスを示すことがあります。 たとえば、大部分のバランス調整済みのブートストラップ サンプルがデータの特定の領域から取得される場合、これらの領域が信頼区間で過大評価され、間隔が非現実的に狭くなることがあります。 空間パターンがバランス調整済みのブートストラップ サンプルの個数に認められる場合は、空間交絡変数 (地理的領域など) を組み込んで、見つからない空間効果を説明することを検討してください。

入力テーブルの場合、各ブートストラップで M 個の観測結果がランダムかつ均等に選択されます。 サンプリングには置換が伴うため、同じブートストラップで同じ観測結果を複数回選択できます。 フィーチャ入力の場合、1 つのフィーチャをランダムに選択し、そのフィーチャと 8 個の最近傍フィーチャをサンプルに含めることでブートストラップ サンプルが生成されます。 このランダム選択は、ブートストラップ サンプルに少なくとも M 個の観測結果が含まれるまで置換と同時に繰り返されます。 同じフィーチャをランダムに複数回選択でき、近傍として複数回含めることができます。 完全にランダムな選択ではなくランダムな近傍を使用すると、測定されていない空間交絡を修正できるようになります (ただし、空間変数を交絡変数として含めることによる空間交絡の修正が推奨される)。

ERF はその ERF の作成に使用される要因値の範囲を超えて拡張することができないため、各ブートストラップ サンプルの ERF は、ランダム サンプル内の観測結果の最小要因と最大要因の間にしか作成されません。 つまり、ランダムにサンプリングされた値の範囲内に最大要因値と最小要因値が含まれないことがよくあるため、最も極端な要因値で作成されるブートストラップ ERF の数が少なくなります。

すべてのブートストラップが完了すると、各要因値のブートストラップ ERF 値の T 分布を仮定して、95 パーセントの信頼区間が作成されます。 ERF 値の分散は、(M/N) を掛けて M 値のサンプリングのみを調整することでリスケールされ、自由度は、要因値に対して生成できるブートストラップ ERF の数から 1 を引いた値になります。 さらに、信頼区間の幅が、元の ERF の推定に使用されたのと同じカーネル平滑化 (プラグイン バンド幅を含む重み) を使用して平滑化されます 次に、平滑化された幅が、元の ERF に対して加算および減算されることで信頼の下限と上限が生成されます。 出力 ERF テーブルが作成されると、テーブルに、平滑化された標準偏差 (平滑化された幅を臨界値で割った値) と、要因値に対して生成可能なブートストラップ ERF の数を示すフィールドが含まれます。

参考文献

DasGupta, Anirban. 2008. "Asymptotic Theory of Statistics and Probability." Biometrics. 64: 998-998. https://doi.org/10.1111/j.1541-0420.2008.01082_16.x

Fan, Jianquin. 1996 "Local Polynomial Modeling and Its Applications: Monographs on Statistics and Applied Probability 66." (1st ed.). Routledge. https://doi.org/10.1201/9780203748725.

Imbens, Guido and Donald B. Rubin. 2015. "Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction." Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781139025751.

Khoshnevis, Naeem, Xiao Wu, and Danielle Braun. 2023. "CausalGPS: Matching on Generalized Propensity Scores with Continuous Exposures." R package version 0.4.0. https://CRAN.R-project.org/package=CausalGPS.

Wu, Xiao, Fabrizia Mealli, Marianthi-Anna Kioumourtzoglou, Francesca Dominici, and Danielle Braun. 2022. "Matching on Generalized Propensity Scores with Continuous Exposures." Journal of the American Statistical Association. https://doi.org/10.1080/01621459.2022.2144737.