推測統計の基礎1

最小二乗法の基礎1:単回帰式を用いたデータの分析
講師:木村 朗

1. 単回帰分析とは

概念説明

単回帰分析は、2つの変数間の関係を調べる統計手法です。1つの説明変数(独立変数)と1つの目的変数(従属変数)の間の関係を、直線で近似することで分析します。

例えば、「運動時間」と「体重減少量」の関係を調べたい場合、運動時間を説明変数、体重減少量を目的変数として単回帰分析を行います。

単回帰式の基本形

Y = a + bX + ε

ここで:

  • Y:目的変数(従属変数)
  • X:説明変数(独立変数)
  • a:切片(Y切片)
  • b:傾き(回帰係数)
  • ε:誤差項

具体例:運動時間と血圧低下の関係

以下のデータは、5人の患者における1日の運動時間(X:分)と収縮期血圧の低下量(Y:mmHg)を示しています。

患者 運動時間(分) 血圧低下量(mmHg)
患者A 10 2
患者B 20 5
患者C 30 7
患者D 40 9
患者E 50 12

2. 最小二乗法の考え方

最小二乗法とは

最小二乗法は、観測データと回帰直線との間の「誤差の二乗和」を最小にするように回帰直線のパラメータ(切片と傾き)を決定する方法です。

この方法では、実際の観測値と回帰直線から予測される値との差(残差)を二乗して合計し、その合計が最小になるようにします。

残差の定義

残差 = 実測値 - 予測値 = Yi - (a + bXi)

誤差二乗和(SSE: Sum of Squared Errors)

SSE = Σ(Yi - (a + bXi))²

図解:最小二乗法

運動時間(分) 血圧低下量(mmHg) 10 20 30 40 50 2 5 8 11 データ点 回帰直線 残差

グラフからわかるように、最小二乗法は残差(赤い点線で示された垂直の距離)の二乗和が最小になるような直線を求めます。

3. 回帰係数の計算方法

回帰係数(傾き)の求め方

b = Σ((Xi - X̄)(Yi - Ȳ)) / Σ(Xi - X̄)²

ここで、X̄はXの平均値、ȲはYの平均値です。

切片の求め方

a = Ȳ - bX̄

例題のデータで計算してみましょう

まず、平均値を計算します:

  • X̄ = (10 + 20 + 30 + 40 + 50) / 5 = 30
  • Ȳ = (2 + 5 + 7 + 9 + 12) / 5 = 7

次に、分子と分母を計算します:

Xi Yi Xi - X̄ Yi - Ȳ (Xi - X̄)(Yi - Ȳ) (Xi - X̄)²
10 2 -20 -5 100 400
20 5 -10 -2 20 100
30 7 0 0 0 0
40 9 10 2 20 100
50 12 20 5 100 400
合計 240 1000

これで回帰係数を計算できます:

b = 240 / 1000 = 0.24

そして切片を計算します:

a = 7 - 0.24 × 30 = 7 - 7.2 = -0.2

したがって、回帰式は次のようになります:

Y = -0.2 + 0.24X

この式は「運動時間が1分増えると、血圧は平均して0.24 mmHg低下する」ことを意味します。

4. 決定係数と相関係数

決定係数(R²)

決定係数は、モデルがデータをどの程度説明できるかを示す指標です。0から1の間の値を取り、1に近いほど説明力が高いことを意味します。

R² = 1 - (Σ(Yi - Ŷi)² / Σ(Yi - Ȳ)²)

ここで、Ŷiは回帰式から予測される値です。

相関係数(r)

相関係数は2つの変数間の線形関係の強さを示す指標で、-1から1の間の値を取ります。

  • r = 1:完全な正の相関
  • r = -1:完全な負の相関
  • r = 0:相関なし
r = Σ((Xi - X̄)(Yi - Ȳ)) / √(Σ(Xi - X̄)² × Σ(Yi - Ȳ)²)

単回帰分析の場合、決定係数は相関係数の二乗と等しくなります:R² = r²

例題の相関係数と決定係数の計算

相関係数を計算するため、追加で以下の値が必要です:

  • Σ(Yi - Ȳ)² = (-5)² + (-2)² + 0² + 2² + 5² = 25 + 4 + 0 + 4 + 25 = 58
r = 240 / √(1000 × 58) = 240 / √58000 = 240 / 240.83 ≈ 0.997

決定係数は:

R² = r² = 0.997² ≈ 0.994

この高い決定係数は、運動時間が血圧低下量の変動の約99.4%を説明できることを示しています。つまり、このモデルは非常に良い当てはまりを持っていると言えます。

5. JASPを使った単回帰分析の実践

JASPの基本操作

1 JASPを起動する

デスクトップのJASPアイコンをダブルクリックするか、スタートメニューからJASPを選択します。

2 データを準備する

画面左上の「+」ボタンをクリックし、新しいデータセットを作成します。または「File」→「New」メニューを使用します。

「運動時間」と「血圧低下量」の2つの変数を作成し、データを入力します。

3 変数の型を設定する

各変数名の下のセルをクリックして、変数の測定レベルを設定します。

  • 「運動時間」:Scale(連続変数)
  • 「血圧低下量」:Scale(連続変数)

単回帰分析の実行

4 分析メニューを選択する

上部メニューから「Regression」→「Linear Regression」を選択します。

5 変数を指定する

  • Dependent Variable(従属変数):「血圧低下量」を選択
  • Covariates(説明変数):「運動時間」を選択

6 オプションを設定する

「Statistics」タブで以下の項目にチェックを入れます:

  • Estimates:回帰係数を表示
  • Model fit:モデルの適合度(R²など)を表示
  • Descriptives:記述統計を表示

「Plots」タブで以下の項目にチェックを入れます:

  • Residuals vs. fitted:残差プロット
  • Q-Q plot of residuals:正規Q-Qプロット
  • Regression plot:回帰プロット

結果の解釈

7 回帰結果を確認する

JASPは右側のパネルに以下の結果を表示します:

  • Model Summary:決定係数(R²)、調整済み決定係数、F値、p値
  • Coefficients:切片と傾きの推定値、標準誤差、t値、p値
  • 回帰プロット:データポイントと回帰直線のグラフ

JASPの分析結果の例

以下は、JASPで分析した場合の結果のイメージです:

Model Summary Model R Adjusted R² F df1 df2 p 1 0.997 0.994 0.992 493.2 1 3