同じ回帰式でも全然違う?データの落とし穴を理解しよう!
同じ回帰式 y = 18 + 0.8x を持つ2つのデータセットを見てみましょう。どちらも数学的には同じ直線を描きますが、実際の意味は全く違います
>参照!
回帰分析が何かを一言で説明するなら、変数間の関係を見つける方法と言えるだろう。
この便利で驚くべき分析方法は、優生学の父フランシス・ゴルトンのアイディアから生まれた。
ゴルトンは遺伝学を研究しているうちに、父とその息子の身長に関するデータに遭遇し、一般的に父が背が高ければ息子も高く、父が背が低ければ息子も低い傾向があることに気付いた。この関係自体は以前から皆が知っていたが、ゴルトンは世代が経つにつれて平均へ回帰する現象に注目した。
では、正確ではなくとも、ある程度の誤差はあるが、父の身長だけを見て息子の身長をだいたい当てることはできないだろうか?父の身長xと息子の身長yがy=a+bxのような関係にあるなら、xに父の身長を代入することで、息子の身長を推測することになる。もちろん、完全に一致するわけではないが、平均的にはだいたい合うだろう。これが回帰分析の起こりである。
が、ゴルトンの回帰分析は「データの中心を通る直線とそれを表す数式」を導いただけのものである。だから、たとえばこの2つのグラフで示す状況を、ゴルトンの回帰分析だけでは区別することができない。
これに対して、現代の統計学はフィッシャーに始まる。統計学の主要な概念と手法の多くは彼の発想により手がけられた。
そのため現代的な統計学においては、実際に得られたデータ自体に「比較的大きな値を持つものもいれば小さな値を持つものもいる」というバラつきが存在しているだけでなく、得られた回帰係数自体にバラつきが存在していると考える。すなわち、仮に今後100回「たまたま得られたデータ」から回帰係数を計算したとしたら、「比較的大きな値となることもあれば小さな値となることもある」というバラつきを考慮しなければいけないのだ。
少数例(12例)のばらつきの大きいデータで、2つの外れ値が正の傾きを人工的に作っている状況を体験しましょう。この外れ値を含む3点を除去することで、本来の負の関係が現れる危険なケースです。
| データ種類 | 除去点数 | 残り例数 | 傾き | 相関係数 | 結論への影響 |
|---|---|---|---|---|---|
| 安定データ | 0 | 12 | - | - | 変化少 |
| 外れ値歪曲データ | 0 | 12 | - | - | 外れ値で歪曲 |
シナリオ1:「この2つの高値は明らかな測定エラーだ」→ 除去 → 正の効果が負の効果に逆転
シナリオ2:「外れ値も重要なデータだ」→ 保持 → 実は負の関係を見落とし
結論:どちらの判断でも正反対の意思決定で大損失のリスク
現代統計学では、標準誤差・信頼区間・p値を同時に確認することで、外れ値に惑わされない判断が可能です。ばらつきの大きいデータほど、これらの指標は「信頼できない」ことを示してくれます。
データポイントの追加・削除が回帰直線にどのような影響を与えるかを体験しましょう!
制御された除去・追加とは、現在の回帰直線の傾向を考慮した意図的な操作です:
フィッシャーの現代統計学では、回帰係数の「誤差」も一緒に計算します。これが統計学を「最強の学問」にする秘密です!
| 項目 | 推定値 | 標準誤差 | 95%信頼区間 | p値 |
|---|---|---|---|---|
| 切片 | 18.0 | 1.5 | 14.9 ~ 21.2 | < 0.001 |
| 傾き(x) | 0.8 | 0.03 | 0.7 ~ 0.9 | < 0.001 |
| 項目 | 推定値 | 標準誤差 | 95%信頼区間 | p値 |
|---|---|---|---|---|
| 切片 | 18.0 | 35.0 | -53.5 ~ 89.5 | 0.61 |
| 傾き(x) | 0.8 | 0.6 | -0.5 ~ 2.1 | 0.23 |
データから計算された値。でも真の値ではなく「推定」であることを忘れずに!
推定値の誤差の大きさ。推定値と比べて大きければ信頼性が低い。
「真の値がほぼこの範囲内にある」と考えて大丈夫な範囲。
本当は関係がないのに、たまたまこの結果が出る確率。5%以下なら「関係あり」と判断。
「回帰分析の結果、広告を増やせば売上が上がる!」と判断する前に、必ず統計的有意性をチェックしましょう。そして何より、データがどのように収集・処理されたかを確認することが重要です。間違った判断は大損の元です!