医療統計CS3:コンピュータによる回帰分析

医療データを使った演習3:RとJASPを活用し重回帰分析を経験する

1. 重回帰分析の基礎

重回帰分析は、複数の説明変数(独立変数)から1つの目的変数(従属変数)を予測するための統計手法です。医療分野では、患者の様々な特性から治療効果や予後を予測する際に頻繁に使用されます。

Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε

ここで:

医療研究では、どの因子が患者の状態に最も影響を与えるかを特定するために重回帰分析が活用されます。例えば、「どの生活習慣因子が最も血圧に影響するか」「どの治療要素が在院日数の短縮に寄与するか」などの問いに答えるために用いられます。

2. 今回の演習データについて

今回の演習では、2型糖尿病患者の血糖コントロール(HbA1c値)に影響する因子を分析します。データセットには以下の変数が含まれています:

変数名 説明 単位/種類
ID 患者ID(匿名化) -
性別 患者の性別 1=男性, 2=女性
年齢 患者の年齢
BMI Body Mass Index kg/m²
罹病期間 糖尿病と診断されてからの期間
運動量 週あたりの運動時間 時間/週
食事遵守 食事療法の遵守度(自己評価) 1-10のスケール(10が最も遵守)
睡眠時間 平均睡眠時間 時間/日
ストレス ストレスレベル(自己評価) 1-10のスケール(10が最も高い)
服薬数 服用している薬剤の種類数 種類
HbA1c ヘモグロビンA1c値(目的変数) %

分析の目的:どの因子が糖尿病患者のHbA1c値に最も影響するかを特定し、効果的な介入点を見つけ出すこと。

データはここ

3. JASPによる重回帰分析の手順

JASPを起動し、CSVファイル(diabetes_analysis.csv)を読み込みます。

File → Open → [ファイルの場所を指定] → Open

データテーブルが表示されたら、各変数の測定レベルを確認します。

目的変数(HbA1c)と連続変数(年齢、BMI、運動量など)は「連続変数」、カテゴリ変数(性別)は「名義変数」として設定されていることを確認します。

回帰分析メニューを選択します。

Regression → Linear Regression

変数を指定します。

  • Dependent Variable(従属変数):HbA1c
  • Covariates(共変量・説明変数):年齢、BMI、罹病期間、運動量、食事遵守、睡眠時間、ストレス、服薬数
  • Factors(因子):性別

分析オプションを設定します。

  • Method:Enter(すべての変数を同時に投入)
  • Statistics:
    • Estimates(推定値)
    • Model fit(モデル適合度)
    • R squared change(決定係数の変化)
    • Descriptives(記述統計)
    • Collinearity diagnostics(多重共線性診断)
  • Plots:
    • Residuals vs. fitted(残差vs適合値)
    • Q-Q plot of residuals(残差のQ-Qプロット)

「Run」ボタンをクリックして分析を実行します。

4. 結果の解釈

4.1 モデル適合度の評価

まず確認すべきは、モデル全体の適合度です:

4.2 係数の解釈

各説明変数の係数を確認します:

例えば、「運動量」の係数が-0.15(p<0.01)であれば、「週に1時間運動時間が増えると、HbA1cが0.15%低下する傾向がある(統計的に有意)」と解釈できます。

4.3 多重共線性の確認

説明変数間に強い相関がある場合、推定が不安定になる可能性があります:

4.4 残差診断

残差プロットを確認し、以下の点をチェックします:


演習の正解と説明 >ここ(パスワードは講義中に公開)