📊 統計学習 - 信頼区間と検定

🎯 学習目標

簡単な例：
あるコーヒーショップの1日の売上を調査したとします。10日間のデータから平均売上が50,000円だったとき、 95%信頼区間が [47,000円, 53,000円] だとすると：

「真の平均売上は95%の確率で47,000円〜53,000円の間にある」

意味：
「本当は差がないのに、間違って『差がある』と判断してしまう確率を5%以下に抑える」

95%信頼区間と表裏一体の関係：
95%信頼区間 ↔ 危険水準5%

用途：平均値の比較（母集団の分散が未知で、標本サイズが小さい場合）

例題：新しい勉強法の効果
従来の勉強法での試験平均点：70点
新しい勉強法で勉強した10人の点数： [75, 78, 72, 80, 74, 76, 79, 73, 77, 81]

手順 1：仮説設定
• H₀（帰無仮説）：新しい勉強法の効果はない（μ = 70）
• H₁（対立仮説）：新しい勉強法に効果がある（μ ≠ 70）

手順 2：計算
標本平均：x̄ = 76.5点
標本標準偏差：s = 3.14
標本サイズ：n = 10

t = (x̄ - μ₀) / (s / √n) = (76.5 - 70) / (3.14 / √10) = 6.54

手順 3：判定
自由度 df = n-1 = 9
危険水準5%、両側検定のt値：±2.262
|6.54| > 2.262 → 帰無仮説を棄却
結論：新しい勉強法に効果があります！

用途：カテゴリーデータの独立性や適合度の検定

例題：性別と商品の好みに関連があるか？

手順 1：期待度数の計算
例：男性×商品A = (50×45)/100 = 22.5

χ² = Σ[(観測度数 - 期待度数)² / 期待度数] = 10.10

手順 2：判定
自由度 df = (行数-1)×(列数-1) = 1
危険水準5%のχ²値：3.84
10.10 > 3.84 → 関連あり
結論：性別と商品の好みには関連があります！

用途：2つ以上のグループの分散の比較、分散分析

例題：3つの教授法の効果比較
教授法A：[85, 88, 90, 87, 89]（平均87.8）
教授法B：[78, 82, 80, 84, 81]（平均81.0）
教授法C：[92, 95, 91, 93, 94]（平均93.0）

手順 1：分散の計算
群間分散（Between）：Sb² = 180.53
群内分散（Within）：Sw² = 12.67

F = Sb² / Sw² = 180.53 / 12.67 = 14.25

手順 2：判定
自由度：df1 = k-1 = 2, df2 = N-k = 12
危険水準5%のF値：3.89
14.25 > 3.89 → 差あり
結論：教授法間に有意な差があります！

ある新薬の効果を調べるため、8人の患者に投与したところ、改善度スコア [12, 15, 18, 14, 16, 13, 17, 19] が得られました。従来薬の平均改善度は12点です。新薬に効果があるといえるでしょうか？（有意水準5%）

解答：
標本平均：x̄ = 15.5
標本標準偏差：s = 2.62
t = (15.5 - 12) / (2.62 / √8) = 3.78
df = 7, 臨界値 = 2.365
3.78 > 2.365 → 新薬に効果あり

コインを100回投げて、表が58回、裏が42回出ました。このコインは公正なコインといえるでしょうか？（有意水準5%）

解答：
期待度数：表50回、裏50回
χ² = (58-50)²/50 + (42-50)²/50 = 2.56
df = 1, 臨界値 = 3.84
2.56 < 3.84 → 公正なコインと判断

次の状況で、どの検定を使うべきでしょうか？
① 男女の身長の平均を比較したい
② 4つの学習法の効果を比較したい
③ 血液型と病気の罹患率に関連があるか調べたい

解答：
① t検定（2群の平均の比較）
② F検定（一元配置分散分析、3群以上の比較）
③ χ²検定（カテゴリーデータの独立性）