疫学研究分析システム (完全版)
高度な因果推論・疑似ランダム化・DAG分析プラットフォーム
データ概要
📊 データファイルを読み込んでください
左側のサイドバーからCSVまたはExcelファイルを選択するか、
サンプルデータを使用して分析を開始できます。
推奨: ヘッダー行を含むデータ
症例数
変数数
治療群分布
データ品質
データプレビュー
データを読み込んでください
統計的要約
Propensity Score分析
🔬 Propensity Score アルゴリズム詳細
▼📋 概要
Propensity Score(傾向スコア)は、観察された共変量に基づいて各個体が特定の治療を受ける確率を推定する手法です。多項ロジスティック回帰を使用して3群の割り付け確率を同時に推定します。
📐 数式
・$T_i$: 個体$i$の治療群(0: コントロール, 1: 介入, 2: 準介入)
・$X_i$: 個体$i$の共変量ベクトル
・$\beta_j$: 治療群$j$の回帰係数ベクトル
・$e_i(X_i)$: 個体$i$の傾向スコア
⚙️ 処理手順
- 共変量行列Xの標準化 (平均0, 分散1)
- 多項ロジスティック回帰モデルの適合
- 各群への割り付け確率の予測
- モデルの適合度評価 (AIC, McFadden R²)
- 傾向スコアの分布確認と外れ値検出
⚠️ 前提条件
- 未測定交絡因子なし (Unconfoundedness): 観察された共変量で交絡を制御
- 共通支持仮定 (Common Support): 各治療群で傾向スコアの重複領域が存在
- SUTVA: 個体間に干渉効果がない
共変量バランス
⚖️ IPW バランス調整アルゴリズム詳細
▼📋 概要
逆確率重み付け(IPW)は傾向スコアの逆数を重みとして使用し、観察された共変量分布をランダム化試験の分布に近づける手法です。安定化重みを使用して極端な重みを制御します。
📐 数式
$$w_i = \frac{P(T_i = t)}{e_i(X_i)} = \frac{\hat{\pi}_t}{\hat{e}_i(X_i)}$$ 標準化差分:
$$d = \frac{|\bar{X}_{t1} - \bar{X}_{t2}|}{\sqrt{\frac{s_{t1}^2 + s_{t2}^2}{2}}}$$ ここで:
・$\hat{\pi}_t$: 治療群$t$の周辺確率
・$\hat{e}_i(X_i)$: 推定傾向スコア
・$\bar{X}_{t}$: 治療群$t$の共変量平均
・$s_{t}^2$: 治療群$t$の共変量分散
📊 バランス評価基準
- 標準化差分 < 0.1: 良好なバランス
- 0.1 ≤ 標準化差分 < 0.25: 中程度の不均衡
- 標準化差分 ≥ 0.25: 大きな不均衡(調整必要)
- 分散比 0.5-2.0: 分散の類似性
傾向スコアマッチング
最近傍マッチング
最も近い傾向スコアでマッチング
キャリパーマッチング
閾値内でのマッチング
層別化
傾向スコアで層別化
🎯 傾向スコアマッチング アルゴリズム詳細
▼📋 概要
傾向スコアマッチングは、類似した傾向スコアを持つ個体をペアリングすることで共変量バランスを改善する手法です。IPWと組み合わせることで、より堅牢な因果推論を実現します。
📐 数式
$$d_{ij} = |e_i - e_j|$$ キャリパーマッチング:
$$d_{ij} \leq c \cdot \sigma_e$$ 層別化(K層):
$$S_k = \{i: q_{k-1} < e_i \leq q_k\}$$ ここで:
・$e_i$: 個体$i$の傾向スコア
・$c$: キャリパー幅係数(通常0.1-0.25)
・$\sigma_e$: 傾向スコアの標準偏差
・$q_k$: $k$番目の分位点
📊 マッチング品質評価
- 標準化差分 < 0.1: 良好なバランス
- 分散比 0.8-1.25: 分散の類似性
- 共通支持: 各群で0.1 < PS < 0.9
- マッチング率: >80%が理想的
- 重複マッチング: 同一個体の重複使用を制限
疑似ランダム化ANOVA結果
🎲 疑似ランダム化ANOVA アルゴリズム詳細
▼📋 概要
重み付きブートストラップサンプリングと一元配置分散分析を組み合わせた疑似ランダム化手法です。IPW重みを用いてランダム化試験に近い条件を作り出し、群間の差を検定します。
📐 数式
$$F = \frac{MS_{between}}{MS_{within}} = \frac{\frac{SS_{between}}{k-1}}{\frac{SS_{within}}{N-k}}$$ 群間平方和:
$$SS_{between} = \sum_{j=1}^{k} n_j(\bar{Y}_j - \bar{Y})^2$$ 群内平方和:
$$SS_{within} = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (Y_{ij} - \bar{Y}_j)^2$$ ここで:
・$k$: 群数(3群)
・$n_j$: 群$j$のサンプル数
・$\bar{Y}_j$: 群$j$の平均
・$\bar{Y}$: 全体平均
📈 効果量指標
- η² (eta-squared): 群間変動 / 全変動
- 小効果: η² = 0.01
- 中効果: η² = 0.06
- 大効果: η² = 0.14
群間比較
因果効果推定
ATE (Average Treatment Effect)
ATT (Average Treatment Effect on Treated)
ATC (Average Treatment Effect on Controls)
CATE (Conditional ATE)
🔗 因果推論指標 (ATE/ATT/ATC) アルゴリズム詳細
▼📋 概要
IPWを用いた因果効果推定では、反実仮想的結果(counterfactual outcomes)を推定し、異なる集団での平均治療効果を計算します。Potential Outcomes Frameworkに基づく厳密な因果推論を実現します。
📐 数式
$$\tau_{ATE} = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)]$$ IPW推定量:
$$\hat{\tau}_{ATE} = \frac{1}{n}\sum_{i=1}^{n} \left(\frac{T_i \cdot Y_i}{e_i} - \frac{(1-T_i) \cdot Y_i}{1-e_i}\right)$$ ATT (Average Treatment Effect on Treated):
$$\tau_{ATT} = E[Y(1) - Y(0) | T = 1]$$ ATC (Average Treatment Effect on Controls):
$$\tau_{ATC} = E[Y(1) - Y(0) | T = 0]$$ ここで:
・$Y(1), Y(0)$: 潜在的結果変数
・$T_i$: 治療指示変数
・$e_i$: 傾向スコア
⚠️ 前提条件と解釈
- SUTVA: 単位処置価値仮定(個体間干渉なし)
- Ignorability: 条件付き独立仮定
- Positivity: 共通支持仮定 (0 < e(x) < 1)
- ATE: 集団全体での因果効果
- ATT: 実際に治療を受けた群での効果
- ATC: 治療を受けなかった群での仮想的効果
do演算・介入効果
感度分析 - 未測定交絡因子
🛡️ 感度分析 (Rosenbaum Bounds & E-value) アルゴリズム詳細
▼📋 概要
感度分析は未測定交絡因子が結果に与える影響を定量的に評価する手法です。Rosenbaum Boundsで交絡の許容範囲を、E-valueで結果を覆すのに必要な最小交絡強度を算出します。
🔢 E-value 計算
$$E_{point} = RR + \sqrt{RR \times (RR - 1)}$$ E-value(信頼区間用):
$$E_{CI} = RR_{lower} + \sqrt{RR_{lower} \times (RR_{lower} - 1)}$$ ここで:
・$RR$: リスク比
・$RR_{lower}$: 信頼区間の下限
📊 解釈ガイドライン
- E-value < 1.5: 弱い証拠(容易に覆される可能性)
- 1.5 ≤ E-value < 2.0: 中程度の証拠
- E-value ≥ 2.0: 強い証拠(大きな交絡が必要)
- Γ > 2.0でも有意: 堅牢な結果
- 既知の交絡因子: 実際の交絡強度と比較検討
E-value分析
不確実性の定量化
サブグループ分析
🎯 層別解析・異質性検定 アルゴリズム詳細
▼📋 概要
層別解析は事前指定されたサブグループ内での治療効果を推定し、効果の異質性を統計的に検定する手法です。各層でIPW調整を行い、層間での効果の差を定量的に評価します。
📐 数式
$$\hat{\tau}_s = \frac{\sum_{i \in S_s} w_i T_i Y_i}{\sum_{i \in S_s} w_i T_i} - \frac{\sum_{i \in S_s} w_i (1-T_i) Y_i}{\sum_{i \in S_s} w_i (1-T_i)}$$ 異質性検定(Q統計量):
$$Q = \sum_{s=1}^{S} w_s(\hat{\tau}_s - \hat{\tau}_{pooled})^2$$ I²統計量:
$$I^2 = \max\left(0, \frac{Q - (S-1)}{Q} \times 100\%\right)$$ ここで:
・$S_s$: 層$s$に属する個体の集合
・$w_i$: IPW重み
・$w_s$: 層$s$の重み
・$S$: 総層数
⚠️ 解釈上の注意点
- 事前指定: サブグループは解析前に指定(データドリブンは避ける)
- 多重比較: サブグループ数に応じた補正が必要
- 検出力: サブグループサイズが小さいと検出力低下
- I² < 25%: 低異質性
- 25% ≤ I² < 75%: 中程度異質性
- I² ≥ 75%: 高異質性
異質性検定
メタ分析風フォレスト プロット
DAG (Directed Acyclic Graph) 構築
DAG分析結果
調整セット推定
DAG構造学習
制約ベース学習
条件付き独立テストに基づく
スコアベース学習
AIC/BICによる最適化
ハイブリッド学習
制約とスコアの複合手法