医療統計学 VOL9
学習項目(シラバスは講義題目と記しています)
カイ二乗分布
講義内容と学習到達目標
1.カイ二乗検定の説明ができる
2.Rを用いて クロス表で表されたカテゴリーデータの解析ができる
イメージして欲しいこと
>解説を通して、期待値と観測値のズレ=誤差がカイ二乗分布をするという、イメージができるようになること
確実に出来て欲しいこと
>Rで行ったカイ二乗検定の結果を正しく説明できるようになること
・・・特に誤差のバラツキがカイ二乗分布に従うことを利用して、確率的にその範囲を調べることで、判断することができる、ということを理解する
参考までに・・・
計量された平均値の比較はt検定、3群以上の平均値をバラツキの比で調べるならf検定
では数を扱ったカテゴリーの数(度数)に対して期待値とのズレを調べるのがカイ二乗検定であることを知ろう。
--------------カイ二乗検定とは?-----------
数を扱ったカテゴリーデータにおいて
理論値と観測値のズレが許容範囲かどうかを
カイ二乗分布を用いて行う検定。
-----------------------------------------------------------------
カイ二乗=((観測度数-理論値)×(観測度数-理論値))/理論値
ネットから探した、分かりやすい説明をみてみましょう。
例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.
さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.
A B C D
(1)観測値 72 23 16 49
(2)理論値 40 40 40 40
当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.
A B C D
(1)観測値 72 23 16 49
(2)理論値 40 40 40 40
(3)ズレ +32 -17 -14 + 9
(4)ズレ二乗 1024 289 196 81
(5)(4)÷(2) 25.6 7.225 4.9 2.025
χ2=25.6+7.225+4.9+2.025=49.25
計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.
さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.
以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.
χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.
*適合度の検定>観測値が理論値(期待値)とどの程度一致するかを調べる手法で「適合度の検定」といいます。
*独立性の検定>2つの属性が独立かどうかを検定する手法を「独立性の検定」といいます。
-------------------STAT WORK---------------
今回の課題は
ある条件が異なる(違う)ことが、結果に差をもたらす可能性があるようだが、本当にそうなのか?これをカイ二乗検定で判定します。
1. MMTの勉強の成果を挙げるために、運動学を復習して筋の起始停止をイメージしてから実技の練習をした群と、
とにかく体で覚えようと身体の動きをイメージして練習した群の成績を調べました。
2週間後に実技テストがあり、間違わずにテストができた場合に”勝ち”と呼びます。残念ながら間違いがあった場合、”負け”とします。
すると以下のようになりました。
A群において勝ち 17人 負け10人
B群において勝ち 15人 負け6人
果たして、A群とB群の方法は、成果との関係において関連性があるのでしょうか?
RGとRを用いて、この検定を行う方法を、授業で示しますのでよく覚え下さい。
ここで行う分析はクロス表の分析という呼ぶことが多いので、覚えておいて下さい。
以下のような外枠に項目名を入れ、数値部分を2つの行と列で示すものを2×2分割表と呼びます。
これをクロス表とも呼びます。
完勝 | 負け | |
A | 22 | 10 |
B | 15 | 12 |
+ | - | |
あり | ||
なし |