医療統計学 VOL7
学習項目(シラバスは講義題目と記しています)
平均値と中央値の検定(t分布と分布を規定しない散布度の利用)
講義内容と学習到達目標
Rを用いて 平均値の解析ができる
>参照データを用いて、実際に平均値を求めることができるようになる
2013.5.10. みんなで作った教材
ID | condition | pre_SEC | post_SEC |
1 | 0 | 22 | 15 |
2 | 0 | 22 | 20 |
3 | 0 | 23 | 25 |
4 | 0 | 21 | 23 |
5 | 0 | 19 | 17 |
6 | 0 | 20 | 21 |
7 | 0 | 21 | 21 |
8 | 0 | 28 | 28 |
9 | 0 | 17 | 27 |
10 | 0 | 22 | 17 |
11 | 0 | 18 | 17 |
12 | 0 | 20 | 17 |
13 | 0 | 20 | 21 |
14 | 0 | 21 | 23 |
15 | 0 | 22 | 17 |
16 | 0 | 18 | 17 |
17 | 0 | 22 | 21 |
18 | 0 | 20 | 17 |
19 | 0 | 23 | 22 |
20 | 0 | 18 | 18 |
21 | 0 | 18 | 19 |
22 | 0 | 18 | 19 |
23 | 0 | 19 | 20 |
24 | 0 | 19 | 21 |
25 | 0 | 13 | 19 |
26 | 0 | 19 | 18 |
27 | 0 | 18 | 17 |
28 | 0 | 20 | 21 |
29 | 0 | 18 | 20 |
30 | 0 | 21 | 20 |
31 | 1 | 22 | 23 |
32 | 1 | 22 | 23 |
33 | 1 | 24 | 16 |
34 | 1 | 26 | 23 |
35 | 1 | 22 | 23 |
36 | 1 | 17 | 21 |
37 | 1 | 24 | 21 |
38 | 1 | 19 | 20 |
39 | 1 | 21 | 20 |
40 | 1 | 24 | 24 |
41 | 1 | 18 | 19 |
42 | 1 | 20 | 20 |
43 | 1 | 21 | 20 |
44 | 1 | 21 | 23 |
45 | 1 | 22 | 18 |
46 | 1 | 17 | 22 |
47 | 1 | 23 | 24 |
48 | 1 | 21 | 19 |
49 | 1 | 20 | 20 |
50 | 1 | 21 | 19 |
51 | 1 | 17 | 20 |
52 | 1 | 21 | 20 |
53 | 1 | 21 | 19 |
54 | 1 | 20 | 20 |
55 | 1 | 21 | 18 |
56 | 1 | 25 | 24 |
57 | 1 | 18 | 15 |
58 | 1 | 22 | 23 |
59 | 1 | 20 | 20 |
60 | 1 | 20 | 20 |
61 | 1 | 25 | 25 |
62 | 1 | 22 | 22 |
stat07 student-t 分布
今回のテーマ:インチキを見破ろう!
本物か偽物か!なんでも“同じか”の鑑定師になろう!
なぜ生まれたか:
誰が、どのように発見したのか:
どんな役割があるのか:
これまでの学習との関係:
この事柄をマスターすることの意義(どんな風に役立てる事ができるのか)
t分布とは・・・正規分布という、データを小さいほうから大きいほうに並べて、中央値と平均値が同じ位置にあり、小さいほうと大きいほうの山の裾の形が中央値を中心にした場合、左右対称になる場合、この山の形をとるデータのバラツキの形を曲線で結んだ形を正規分布という。この正規分布は十分にデータの個数が多いときに成り立つことが統計学的確率を調べた研究で明らかになっている。しかし、比較的少数例では、この正規分布に従うかどうか分からないことから、Goset(イギリス)によって調べられた。
驚いたことに、少数例でもデータのバラツキを工夫して整えると正規分布に従うことが分かった。このように正規分布を取るかどうか分からないデータのバラツキを数学的に工夫して得られた計算の下、並べ直して観察したときに出現する正規分布の性質に良く似た山の形をt分布という。異なるデータであっても、分散の程度が同じような範囲にあると、t分布を取ると言うことが分かっている。
このt分布を利用して、2群のデータの平均を比べ、この程度が数学的確率のルールの下で得られる仮の山の平均がとりうるプラスマイナス5%以内(実は面積のこと)に収まっていれば=有意差あり=(significantly)と言うのが、統計学的見方の決まりごとなのである。生死にかかわる出来事における、検定では、(例えば医学における死に至る病に対する治療薬の効果を見る場合など)有意差あり(もしくは有意水準)というのは1%(危険率1%と表現される)のこともあるので、その重要性によって”有意差あり”の水準が変わることを意識しておくこと。
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
平均値の検定は、
異なる2群間のサンプルの平均値の違いが、それぞれの母集団の平均値の違いをもたらすと考えて良いかどうか
を明らかにする目的で行う、ことが多い。
t検定の定義は・・・
2つの母集団がいずれも正規分布に従うと仮定した上での、平均が等しいかどうかの検定。
(2つの集団のデータがいずれも正規分布に従うと仮定した場合に、平均が等しいかどうかの検定)
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
学習到達目標:
1.ベースラインの概念を理解させる
2.介入の概念を理解させる
3.データの絶対値の意味を理解させる
4.データの相対値の意味を理解させる
5.データの代表値の取り扱いが何故重要かを理解(説明できる)させる
6.数学的確率と統計学的確率の一致性と不一致性の感覚を経験させる
7.Rによる母集団の同じものから取り出した2対のt検定の操作ができる
stattest07 task
1 RとRGを使って、あなたの学籍番号からベースライン時の前7人、後7人の数字逆唱テスト結果の基本統計量を求めてください。
2 RとRGを使って、あなたの学籍番号から介入後の前7人、後7人の数字逆唱テスト結果の基本統計量を求めてください。
3 データの平均値においてベースライン時と介入後の値を比較して、同じといえるか判断してください。
4 データの平均値においてベースライン時と介入後の平均値は、インチキでほんのちょっと気を抜いた場合に±5%の値をとるとすると、今回の介入内容が、本当にデータを変化させたといえるのかを調べます。>ここが今回の山>
RとRGを使って、数学的確率で起こりうる変化の幅が、統計学的確率において同じ変化の幅の範囲の中で納まれば、インチキでほんのちょっと気を抜いた場合と変わらないということになります。
ここで、インチキがあったかどうかを見破ることにしましょう。
>2対の関連性のあるt検定の操作を行う。
>異なるサンプルを扱ったt検定を行う。
この二種類のt検定に注意させる
この課題の前に練習用データを用いて
RとRGによるt検定のスキルを身につけましょう。
1.以下のデータをRGに持っていく
2.このデータをRGで処理する(>RG>統計>対応のあるt検定とないt検定
base | First | Second |
8 | 9 | 9 |
6 | 7 | 7 |
6 | 6 | 7 |
5 | 5 | 6 |
7 | 7 | 8 |
8 | 9 | 9 |
9 | 9 | 10 |
7 | 8 | 9 |
6 | 7 | 7 |
5 | 8 | 8 |
6 | 9 | 9 |
7 | 5 | 5 |
8 | 8 | 9 |
9 | 6 | 9 |
5 | 7 | 6 |
* タイトルには数字を先頭に持ってきてはいけない
* メモ帳に貼り付けた後、TABキーで間隔を入れてから、再コピーしてRGにもって行くと使える。
--------------------------------------------------------------------------------------------------------------------
代表値が中央値の場合の方法
その母集団の2群間の(中央値に、で)差があるかどうかを調べる
検定方法(平均値の検定と対応させる)
Wilcoxonの順位和検定< 対応のないt検定
(same as マンホイットニーU検定)
Wilcoxonの符号付順位検定< 対応のあるt検定
-----------------------------------------------------------
>なぜ順位を問題にするのか>平均値の検定は正規分布するデータの集まりであることが、前提となって解釈(意味づけ)ができるんだ。
しかし、それにはサンプルが少なくとも20くらいは必要だし、下手すると、というか、一応目安として30データ(つまり1群最低15例)があれば、
正規分布するデータであると考えられる(そういう者(群)だと数理的に考えて良いという曲線の方程式への当てはまり具合で評価するんだけどね。
正規分布性の検定というのがあるんだよ)。
だけど、20例より少ないデータや、明らかに突出した値が含まれる群のようなものを、正規分布するんじゃね、という直感で処理すると,その突出した奴のせいで、差があるように見えるんだな。でも、そいつを除くと、差がないなんてことは、よくあることなんだよ。
そこで、そんなんだったら、もう正規分布-平均値-分散の組み合わせで検定するのやめて、特定の仮定される分布なし-中央値-散布度の組み合わせから、異なる2群の形が違うつう、より、ばらまかれたデータを最もちょうど良く囲む形の重心位置が変わっているかどうかを見て、2群の性質の違いの有無を判断する方法があるんだいね。
それが、中央値検定ってゆんだいね。
そんで、同じデータが、時間たって変わったとか、何か加えてみたら変わったとか、そんな変わり様を調べんのが、対応のあるやつなんだいね。
それを符号付順位で調べることを思いついたのが、Wilcoxonつう人なんだいね。
順位和検定は、異なる2群間の差を検定するもので、符号付順位和検定は同じ例の前後の値の変化を検定するものです。
t検定に対応させるなら、
Wilcoxonの順位和検定:対応のないt検定
Wilcoxonの符号付順位検定:対応のあるt検定
(以下、青木先生の解説に従うと、以下のようになります。)
Wilcoxonの順位和検定
A群:A1、A2、A3
B群:B1、B2
がいたとして、それぞれの検査値が、
A1:100
A2:10
A3:50
B1:30
B2:20
だったとすると、この検査値の大きい順(小さい順でも可)に順番をつけると、
A1:1
A2:5
A3:2
B1:3
B2:4
となります。これを群ごとに足して例数で平均すると、
A群:(1+5+2)/3=8/3=2.67
B群:(3+4)/2=7/2=3.5
なので、B群の方が大きく、つまりB群の検査値がA群より小さい傾向にあることがわかります(実際はもう少し複雑で、統計的に考慮してP値を計算します)
Wilcoxonの符号付順位和検定
症例:A1、A2、A3
がいたとして、それぞれの1回目・2回目の検査値が、
A1:100:10
A2:10:60
A3:50:80
A4:30:50
A5:90:80
だったとすると、この検査値の差分の絶対値を大きい順(小さい順でも可)に順番をつけると、
A1:100-10=90:1
A2:10-60=-50:2
A3:50-80=-30:3
A4:30-50=-20:4
A5:90-80=10:5
となります。これを差分の符号ごとに足して例数で平均すると、
+:(1+5)/2=6/2=3
-:(2+3+4)/3=7/3=2.33
なので、-の方が小さく、つまり1回目-2回目の差分はマイナスである(2回目の方が検査値が高くなる)傾向にあることがわかります(これも実際はもう少し複雑で、統計的に考慮してP値を計算します)
------------------------------------------
先ほどの、平均値の検定で用いたデータを、今度は中央値を基に2群間の差が偶然で起こる確率と比べて差があるかどうかを調べてみよう。
この課題の前に練習用データを用いて
RとRGによるt検定のスキルを身につけましょう。
1.以下のデータをRGに持っていく
2.このデータをRGで処理する(>RG>統計>Wilcoxonの符号付順位検定(対応なし)
3.同じく(>RG>統計>>Mann・WhitneyのU検定(対応あり))
base | First | Second |
8 | 9 | 9 |
6 | 7 | 7 |
6 | 6 | 7 |
5 | 5 | 6 |
7 | 7 | 8 |
8 | 9 | 9 |
9 | 9 | 10 |
7 | 8 | 9 |
6 | 7 | 7 |
5 | 8 | 8 |
6 | 9 | 9 |
7 | 5 | 5 |
8 | 8 | 9 |
9 | 6 | 9 |
5 | 7 | 6 |
* タイトルには数字を先頭に持ってきてはいけない
* メモ帳に貼り付けた後、TABキーで間隔を入れてから、再コピーしてRGにもって行くと使える。