🔍 DAGs学習サイト

因果推論のための有向非循環グラフ(Directed Acyclic Graphs)を学ぼう

Hernán & Robins "Causal Inference" より

📚 DAGs(有向非循環グラフ)とは

DAGs(Directed Acyclic Graphs)は、因果関係を視覚的に表現するための強力なツールです。疫学や統計学において、変数間の因果関係を理解し、交絡や選択バイアスなどの問題を特定・解決するために使用されます。

🎯 なぜDAGsが重要なのか

  • 因果関係の可視化:複雑な変数間の関係を明確に示す
  • バイアスの特定:交絡、選択バイアス、測定バイアスを発見
  • 統計手法の選択:適切な調整変数や分析手法を決定
  • 研究設計の改善:より良い研究デザインの構築

DAGsの基本要素

A Y

Aが原因、Yが結果

例:喫煙と肺がん

喫煙 肺がん

この矢印は、喫煙が肺がんの原因であることを示しています。

🔍 d-分離の視覚的ルール

d-分離(d-separation)は、DAG上で二つの変数が条件付き独立かどうかを判断するためのルールです。

ルール 説明
ルール1 条件変数がない場合、パス上で二つの矢尻が衝突する箇所があればブロックされる L → A → Y は開いている
A → Y ← L は Yでブロック
ルール2 条件付けされた非コライダーを含むパスはブロックされる Bに条件付けするとA→B→Yがブロック
ルール3 条件付けされたコライダーはパスをブロックしない Lに条件付け後、A→L←YでAとYは関連
ルール4 コライダーの子孫に条件付けしてもパスをブロックしない コライダーLの子孫Cに条件付けても開いたまま

🏋️ 練習問題

問題1: 以下のDAGで、AとYはd-分離されているでしょうか?

A L Y
正解:はい、d-分離されている
Lはコライダーであり、Lに条件付けしていないため、パスA→L←Yはブロックされています。したがって、AとYはd-分離されています。

問題2: 上記のDAGでLに条件付けした場合、AとYの関係はどうなりますか?

正解:関連を持つようになる
コライダーLに条件付けすると、ルール3により、パスA→L←Yが開かれ、AとYが関連を持つようになります。これは「コライダーバイアス」の例です。

🚪 バックドア基準

バックドア基準は、因果効果を識別するための重要な概念です。適切な変数に調整することで、交絡を除去できます。

🎯 バックドア基準の条件

正の可能性(positivity)と一致性(consistency)を仮定すると、以下の状況で交絡を除去し、因果効果を識別できます:

状況 説明
ケース1 治療と結果の共通原因がない 周辺ランダム化試験と同等
交絡なし
ケース2 共通原因があるが、すべてのバックドアパスをブロックする測定済み変数がある 条件付きランダム化試験と同等
未測定交絡なし

例1:交絡なし

A (治療) Y (結果)

AとYの間に共通原因がないため、バックドアパスは存在せず、交絡はありません。

例2:交絡あり(調整可能)

L A Y

L Y

Lに調整することで、バックドアパス A ← L → Y をブロックし、交絡を除去できます。

🏋️ 練習問題

問題1: 以下のDAGで、AのYに対する因果効果を推定するために調整すべき変数は?

U A Y

U Y
正解:Uに調整する
UはAとYの共通原因であり、バックドアパス A ← U → Y を作っています。Uに調整することで、このバックドアパスをブロックし、因果効果を正しく推定できます。

問題2: 以下のDAGでMに調整すべきでしょうか?

A M Y
正解:いいえ、調整すべきでない
MはAからYへの因果パス上の中間変数(メディエーター)です。Mに調整すると、A→M→Yの因果パスがブロックされ、AのYに対する総因果効果を正しく推定できなくなります。

📐 因果図の基本

因果図(DAG)の基本的な構造と解釈について学びましょう。

基本的なDAG構造

1. 周辺ランダム化実験

A (治療) Y (結果)

意味:矢印は保護vs危険ではなく、単に因果効果を示す。無条件交換可能性の仮定により、関連は因果を意味する。

2. 条件付きランダム化実験

L A Y

意味:層別化変数Lが存在。AがLに依存し、Yの他の原因がない観察研究と同等。条件付き交換可能性を含意。

3. メディエーション

A (アスピリン) B (血小板凝集) Y (心疾患)

意味:BはAのYに対する効果のメディエーター。Bに条件付けすると、パス A → B → Y がブロックされる。

4. 偽関連(交絡)

L (喫煙) A (ライター所持)

L Y (肺がん)

意味:ライター所持(A)は肺がん(Y)の原因ではないが、共通原因(喫煙)のため偽の関連が生じる。

🏋️ 練習問題

問題1: メディエーターBに条件付けした場合の結果は?

A B Y
正解:AとYは条件付き独立になる
Bに条件付けすると、AからYへの唯一のパス A → B → Y がブロックされるため、A ⊥ Y | B となります。つまり、B(血小板凝集)の値が分かれば、A(アスピリン)の情報は追加的な情報を提供しません。

問題2: コライダーに条件付けするとどうなりますか?

A L Y
正解:AとYに偽の関連が生じる
共通の結果(コライダー)Lに条件付けすると、その二つの原因AとYの間に偽の関連が生じます。例えば、心疾患患者の中で、遺伝的リスクがない人は喫煙者である可能性が高くなります。

🔄 交絡(Confounding)

交絡は因果推論における最も重要な概念の一つです。真の因果効果を歪める要因を理解し、適切に対処する方法を学びましょう。

🎯 交絡とは

交絡とは、治療と結果の両方に影響する第三の変数(交絡因子)によって、治療と結果の関連が歪められることです。

交絡の種類と例

1. 健康労働者バイアス

L (身体的健康) A (消防士として働く) Y (死亡率)

L Y

説明:身体的健康さが消防士になることと低い死亡率の両方の原因となっている。Lに調整することで交絡を除去できます。

2. 適応症による交絡

U (動脈硬化) L (心疾患) A (アスピリン) Y (脳卒中)

U Y

説明:動脈硬化は心疾患(アスピリン処方の理由)と脳卒中の両方の原因。Lに調整すれば十分です。

3. 代理交絡因子

U (社会経済的地位) A (身体活動) Y (心血管疾患)

U L (収入)

U Y

説明:収入Lは社会経済的地位Uの代理変数として機能し、部分的な調整が可能です。

🏋️ 練習問題

問題1: 以下のDAGで、コライダーLに調整するとどうなりますか?

A (身体活動) Y (子宮頸がん)

U₂ (健康意識) A

U₁ (前がん病変) L (パップ検査) U₂

U₁ Y
正解:選択バイアスが生じる
Lはコライダーであり、これに調整(例:陰性検査に限定)すると、バックドアパス A ← U₂ → L ← U₁ → Y が開かれ、選択バイアスが生じます。この場合、周辺関連は因果的ですが、条件付き関連は因果的ではありません。

問題2: フロントドア基準が使える条件は?

A (アスピリン) M (血小板凝集) Y (心筋梗塞)

U (高心血管リスク) A

U Y
正解:MがAとYを完全に媒介する時は推定可能
フロントドア基準では、(i) AのMに対する効果は交絡なしに推定でき、(ii) MのYに対する効果はAが唯一のバックドアパスをブロックするため推定できます。したがって、未測定交絡Uがあってもフロントドア調整により因果効果を推定できます。

🎯 選択バイアス(Selection Bias)

選択バイアスは、研究対象者の選択過程に起因するバイアスです。ランダム化により交絡は除去できますが、選択バイアスは除去できません。

⚠️ 重要ポイント

ランダム化は交絡を除去しますが、選択バイアスは除去しません。選択バイアスは前向き研究やランダム化試験でも同様に問題となります。

選択バイアスの種類

1. 帰無仮説下での選択バイアス

A (葉酸サプリ) Y (心疾患奇形)

A C (出生前死亡) Y

説明:研究を出生まで生存した胎児(C=0)に限定すると、共通結果Cに条件付けることになり、A→C←Yのパスが開かれて選択バイアスが生じます。

2. 打ち切りによる選択バイアス

A (抗レトロウイルス治療) Y (3年死亡)

U (高度免疫抑制) L (症状) C (研究からの脱落)

A C

U Y

説明:打ち切りなし(C=0)に条件付けすると、パス A → C ← L ← U → Y が開かれ、選択バイアスが生じます。

3. 健康労働者バイアス(選択バイアスとして)

A (職業曝露) Y (死亡率)

U (真の健康状態) C (職場にいる) A

U Y

説明:職場にいる労働者(C=1)に研究を限定すると、曝露による障害者や健康状態による非曝露者を除外し、選択バイアスが生じます。

🏋️ 練習問題

問題1: RCTで打ち切りがある場合の対処法は?

A (わさび摂取) Y (1年死亡)

U (動脈硬化) L (心疾患) C (打ち切り)

A C

U Y
正解:Lに調整して選択バイアスを除去する
RCTでもCに条件付けすることで選択バイアスが生じます。バックドアパス C ← L ← U → Y をブロックするために、測定済み変数Lに調整する必要があります。打ち切りは別の「治療」として考える必要があります。

問題2: 時間特異的ハザード比の問題点は?

A (心移植) Y₁ (時点1での死亡)

U (保護的遺伝子型) Y₁

U Y₂ (時点2での死亡)
正解:時点2で選択バイアスが生じる
時点2のハザード比は本質的に時点1での生存(Y₁=0)に条件付けています。UがY₁に影響するため、A → Y₁ ← U → Y₂ のパスが開かれ、選択バイアスが生じます。時点1では問題ありませんが、時点2では因果推論が困難になります。

📏 測定バイアス(Measurement Bias)

測定バイアス(情報バイアス)は、変数の測定誤差により生じるバイアスです。真の変数と測定された変数の関係を理解することが重要です。

🎯 測定バイアスの分類

  • 独立 vs 依存:測定誤差が変数間で独立か関連するか
  • 非差別的 vs 差別的:測定誤差が他の変数に依存するかどうか

測定バイアスの種類

1. 独立非差別的誤差

A (真の治療) A* (測定治療) U_A (測定誤差)

A Y (真の結果) Y* (測定結果) U_Y (測定誤差)

説明:U_AとU_Yは独立で、他の変数に依存しない。電子カルテの入力エラーや技術的エラーなど。

2. 依存非差別的誤差

A (薬物使用) A* (記録された薬物歴)

U_AY (測定誤差) A*

A Y (肝毒性) Y* (肝機能検査値)

U_AY Y*

説明:面接時のコミュニケーションエラーなど、AとYの測定誤差が共通原因を持つ場合。

3. 想起バイアス(差別的誤差)

A (薬物使用) A* (面接による薬物歴) Y (認知症)

A Y Y* (認知症診断)

説明:真の結果(認知症)が治療の測定誤差に影響。認知症患者は薬物歴を正確に報告できない。

4. 交絡因子の測定誤差

A (薬物使用) Y (肝毒性)

L (肝炎歴) A

L Y

L L* (測定された肝炎歴)

説明:真の交絡因子Lではなく、不正確に測定されたL*に調整すると、交絡の調整が不完全になる。

🏋️ 練習問題

問題1: ITT解析 vs Per-protocol解析の違いは?

Z (割り付け治療) A (心移植) Y (5年死亡率)

U (重症度) A

U Y
正解:ITTは交絡なし、Per-protocolは交絡あり
ITT解析はZのYに対する効果を推定し、ランダム化によりZ-Y間に交絡はありません。一方、Per-protocol解析はAのYに対する効果を推定しますが、A ← U → Y のバックドアパスにより交絡があります。

問題2: 交絡因子の測定誤差の影響は?

L (真の心疾患歴) L* (測定された心疾患歴)

L A (アスピリン) Y (脳卒中)

L Y
正解:L*への調整は不完全だが、調整なしより良い
L*は真の交絡因子Lの代理変数として機能します。L*への調整は完全ではありませんが、バックドアパス A ← L → Y を部分的にブロックし、何も調整しないよりは良い結果をもたらします。これは代理交絡因子の概念と同様です。