1. 重回帰分析の基礎
重回帰分析は、複数の説明変数(独立変数)から1つの目的変数(従属変数)を予測するための統計手法です。医療分野では、患者の様々な特性から治療効果や予後を予測する際に頻繁に使用されます。
Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε
ここで:
- Y:目的変数(例:血糖値、在院日数など)
- X₁, X₂, ..., Xₙ:説明変数(例:年齢、BMI、薬剤投与量など)
- β₀:切片
- β₁, β₂, ..., βₙ:各説明変数の係数(傾き)
- ε:誤差項
医療研究では、どの因子が患者の状態に最も影響を与えるかを特定するために重回帰分析が活用されます。例えば、「どの生活習慣因子が最も血圧に影響するか」「どの治療要素が在院日数の短縮に寄与するか」などの問いに答えるために用いられます。
2. 今回の演習データについて
今回の演習では、2型糖尿病患者の血糖コントロール(HbA1c値)に影響する因子を分析します。データセットには以下の変数が含まれています:
| 変数名 |
説明 |
単位/種類 |
| ID |
患者ID(匿名化) |
- |
| 性別 |
患者の性別 |
1=男性, 2=女性 |
| 年齢 |
患者の年齢 |
歳 |
| BMI |
Body Mass Index |
kg/m² |
| 罹病期間 |
糖尿病と診断されてからの期間 |
年 |
| 運動量 |
週あたりの運動時間 |
時間/週 |
| 食事遵守 |
食事療法の遵守度(自己評価) |
1-10のスケール(10が最も遵守) |
| 睡眠時間 |
平均睡眠時間 |
時間/日 |
| ストレス |
ストレスレベル(自己評価) |
1-10のスケール(10が最も高い) |
| 服薬数 |
服用している薬剤の種類数 |
種類 |
| HbA1c |
ヘモグロビンA1c値(目的変数) |
% |
分析の目的:どの因子が糖尿病患者のHbA1c値に最も影響するかを特定し、効果的な介入点を見つけ出すこと。
データはここ
3. JASPによる重回帰分析の手順
JASPを起動し、CSVファイル(diabetes_analysis.csv)を読み込みます。
File → Open → [ファイルの場所を指定] → Open
データテーブルが表示されたら、各変数の測定レベルを確認します。
目的変数(HbA1c)と連続変数(年齢、BMI、運動量など)は「連続変数」、カテゴリ変数(性別)は「名義変数」として設定されていることを確認します。
回帰分析メニューを選択します。
Regression → Linear Regression
変数を指定します。
- Dependent Variable(従属変数):HbA1c
- Covariates(共変量・説明変数):年齢、BMI、罹病期間、運動量、食事遵守、睡眠時間、ストレス、服薬数
- Factors(因子):性別
分析オプションを設定します。
- Method:Enter(すべての変数を同時に投入)
- Statistics:
- Estimates(推定値)
- Model fit(モデル適合度)
- R squared change(決定係数の変化)
- Descriptives(記述統計)
- Collinearity diagnostics(多重共線性診断)
- Plots:
- Residuals vs. fitted(残差vs適合値)
- Q-Q plot of residuals(残差のQ-Qプロット)
4. 結果の解釈
4.1 モデル適合度の評価
まず確認すべきは、モデル全体の適合度です:
- R²(決定係数):モデルが目的変数の分散をどの程度説明できているかを示します。0〜1の範囲で、高いほど良いモデルです。
- 調整済みR²:変数の数を考慮した修正版R²です。
- F検定のp値:モデル全体の有意性を示します。p<0.05であれば、少なくとも1つの説明変数が有意に目的変数と関連していることを示します。
4.2 係数の解釈
各説明変数の係数を確認します:
- B(非標準化係数):その変数が1単位増加したときの目的変数の変化量を示します。
- β(標準化係数):変数間で影響の大きさを比較するために標準化された係数です。絶対値が大きいほど影響が大きいことを示します。
- p値:各変数の有意性を示します。一般的にp<0.05であれば統計的に有意と判断します。
例えば、「運動量」の係数が-0.15(p<0.01)であれば、「週に1時間運動時間が増えると、HbA1cが0.15%低下する傾向がある(統計的に有意)」と解釈できます。
4.3 多重共線性の確認
説明変数間に強い相関がある場合、推定が不安定になる可能性があります:
- VIF(分散拡大要因):一般的に5以上で多重共線性の懸念があり、10以上で深刻な問題があると考えられます。
- Tolerance(許容度):0.2未満で多重共線性の懸念があります。
4.4 残差診断
残差プロットを確認し、以下の点をチェックします:
- 残差の正規性(Q-Qプロットで直線上に並ぶか)
- 残差の等分散性(残差vs適合値プロットでパターンがないか)
- 極端な外れ値(影響の大きな観測値)の有無
演習の正解と説明 >ここ(パスワードは講義中に公開)