医療統計学 VOL12 v2  2013(改訂)


学習項目(シラバスは講義題目と記しています)

 多変量解析の基礎 因子分析 と ロジスティック回帰

*  このコースを学ぶ諸君へ!

----------------------------------------------------------------------------------------

この単元の資料のDL> stat12_t (パスワードは授業中示します。)



Exercise stat12


----------------------------------------------------------------------------------------



講義内容と学習到達目標

 Rを用いて 多変量分析を経験する

1. 参照データを用いて、Rを使って因子分析を経験する
2. 参照データを用いて、Rを使って実際にロジスティック回帰分析を行うことができる


簡単?な説明




本日の課題

1. あらかじめ用意されたデータを利用して主成分分析を行ってみる

 手順)

1)calcに以下のデータを取り込んで下さい。

sio satou syouyu jagaimo tamanegi beef oisisa
4 5 10 50 35 70 5
4 6 8 40 40 80 5
10 5 15 50 35 90 8
5 6 13 60 20 80 5
2 7 8 45 30 90 4
3 8 11 60 40 70 5
4 10 12 55 35 80 5
5 3 15 45 40 70 4
6 5 14 50 35 70 6
7 6 13 40 40 80 8
9 7 15 40 35 70 8
5 8 16 50 40 60 7
3 12 12 60 45 50 5
4 5 12 60 35 80 6
8 6 10 50 40 90 9
6 7 9 55 50 70 7
8 8 8 40 40 60 8
5 6 8 40 35 70 5





2)RGにこのデータをC&Pする。左から2列目×1行目にsioがくるようにする

3)統計>主成分分析をクリック

4)>に以下の(このコマンドは授業で示します。)コピーしてペーストそしてenterキーを押します!

すると!

5  そして>plot(・・・)(の内容は授業で示します)

6 >text(princomp(rcodedata)$loadings,colnames(rcodedata))を入れると!

 これが 肉じゃがの味付けの極意を示していることが読み取れますね(?!)

もう一丁!

7 再び、グラフ化命令を入れた後にbiplot(・・・)を入れると!(・・・)の内容は授業で示します。

 見事な主成分分析が可能になるということです。




解説

SDは標準偏差のことです・
分散と共分散行列の関係から、各要因間に固有値が得られる。この固有値を計算するのが主成分分析でもある。
固有値は主成分得点の標準偏差の2乗に等しい。この値が大きい主成分(固有ベクトル)ほど元のデータの情報を多く含んでいる。

最も大きい固有値に対応する主成分を第一主成分、その次に大きい固有値に対応する主成分を第二主成分と呼ぶ。
各固有値が固有値全体に占めている割合を寄与率と呼ぶ。

この寄与率を全部足したものを累積寄与率と呼ぶ。


Rの結果の見方

Standard DeviationはSDのこと各主成分得点の標準偏差で固有値の正の平方根に等しい。
Proportional of Varianceは寄与率のこと
Cumulative Proportionは累積寄与率のこと

1から順に第1主成分、第2主成分となる



因子分析編

RGでデータをRに送り込んだ後、以下の命令を行えばOK

> cor(rcodedata)

すると共分散行列が求まるので、最尤推定法を用いた因子分析を行うことができる!
その命令は以下の通り!

> factanal(rcodedata, factors=3)

すると以下の結果を得る。

Call:
factanal(x = rcodedata, factors = 3)

Uniquenesses:(独立性のこと)
col1sio col2satou col3syouyu col4jagaimo col5tamanegi col6beef
0.614 0.638 0.005 0.176 0.766 0.005

Loadings:(因子負荷量のこと)
Factor1 Factor2 Factor3
col1sio 0.149 -0.517 0.310
col2satou -0.437 0.397 -0.116
col3syouyu 0.997
col4jagaimo 0.884 0.194
col5tamanegi -0.468 -0.116
col6beef 0.978 -0.131 -0.146

Factor1 Factor2 Factor3
SS loadings 1.395 1.225 1.175>寄与度
Proportion Var 0.233 0.204 0.196>寄与率
Cumulative Var 0.233 0.437 0.633>累積寄与率

The degrees of freedom for the model is 0 and the fit was 0.0694

Loadings:



Factor1 Factor2 Factor3
col1sio 0.15 -0.52 0.31
col2satou -0.44 0.4 -0.12
col3syouyu

1
col4jagaimo
0.88 0.19
col5tamanegi -0.47
-0.12
col6beef 0.98 -0.13 -0.15




最後の一押し!!



この解釈の仕方

この数値はほぼ相関係数と同じと考えると良い。1に近づけば近づくほどよいのだ!
Factorに名前をつけることを考える。

beefの影響が強いのがFactor1だ、○○○性とか○○○力などと名づけると評価し易いだろう。

では、jagaimoの影響が強いのがFactor2だ、どうしますか?


因子の解釈を助ける強い見方
以下の命令を入れてみよう!すると・・・

factanal(rcodedata, factors=2,rotation="varimax",scores="Bartlett")


以下の表示が得られる。
これは元のデータの分散とモデルによる分散との検定統計推定量を表す。

p値はこの場合、カイ二乗分布に従った確率的分布を用いている。

Test of the hypothesis that 2 factors are sufficient.
The chi square statistic is 4.56 on 4 degrees of freedom.
The p-value is 0.336

***********************************************************
***********************************************************

ロジスティック回帰分析


線形回帰分析が量的変数を予測するのに対して、ロジスティック回帰分析は発生確率を予測する手法と言える。基本的な考え方は線形回帰分析と同じである。
予測結果が 0 から 1 の間を取るように、数式やその前提に改良が加えられている
0 から 1 の間ということは、例えば 0.4 のような確率で予測を行うということになる。
そのために従属変数(被説明変数)に 2値の質的変数を用いています。例えば独歩の可否(Yes or No)や、痛みの軽減の有無、可動域の改善の有無、筋力増大の有無、歩行速度の改善の有無・・・のように、2値しかとりえない値を従属変数の実績値として用い、説明変数を用いてその発生確率を説明するというもの。


保健学や医学において、最も使用頻度の高い分析方法。

独立変数は、連続値でも離散値でも良く、比例尺度・間隔尺度・順序尺度のような数量値で表せるものであれば、使用可能である。


予測結果が 0 から 1 の間を取るように、数式やその前提に改良が加えられている
この操作に用いられるのが、ロジットという関数による変数の変換であることから、ロジスティック回帰分析と呼ばれる。

式を理解することが難しいかもしれないが、雰囲気を掴んでおく必要があるだろう。
次に、若干式らしいものを示す。



ロジスティック回帰(ロジスティックかいき、: Logistic regression)は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。ロジスティック回帰は医学や社会科学でよく使われる。
(出典 wikipwdia)

と表される。
ここで、n 個のユニットと共変動 X があり、以下のような関係にある。


結果のオッズ(1から確率を引いたもので確率を割った値)の対数は、説明変数 Xi の線形関数としてモデル化される。これを次のようにも表せる。

β パラメータの推定はオッズ比に重大な影響がある。性別のような2値の説明変数の場合、eのβ乗 は例えば男性と女性の結果のオッズ比の推定である。推定には最尤法を使うことが多い。ロジスティック回帰モデルは単純パーセプトロンと等価である。

このモデルの拡張として多分割(polytomous)ロジスティック回帰がある。複数カテゴリの従属変数や順序のある従属変数を扱う。ロジスティック回帰による階層分けを多項ロジットモデルと呼ぶ。

社会科学分野での典型的な応用として、企業の過去のデータをもとに信用リスクを推定するという用法がある。

2値ロジスティック回帰はダイレクトマーケティングでよく使われ、ある提案に反応する人々を特定するのに使われる(従属変数は「反応する=1」と「反応しない=0」である)。ダイレクトマーケティングの2値ロジスティック回帰モデルは「リフトチャート」を使って評価される。これは、過去のメールへの反応のデータとモデルによる予測結果を比較する。

ロジスティック回帰モデルは一般化線形モデルの一種である。p(x) が、予測値変数 x について成功の確率を表すとすると、次のように表される。




ロジット(Logit)とは、0から1の値をとるp に対し

対数の底は1より大きければ何でもよい)

で表される値をいう。

p
変数とするロジット関数とも呼ばれる。ロジット関数はロジスティック関数逆関数であり、特に確率論統計学で多く用いられる。

確率論、統計学では p はある事象の確率を意味し、「確率p のロジット」という言い方をする。p/(1 - p)はオッズに、ロジットはオッズの対数に当たり、2つの確率のロジットの差はオッズ比の対数に当たる。

ロジットは統計学で、特にロジットモデルとしてよく用いられる。ロジットモデルの最も単純なものは

で表される。


モデルの当てはまりの確認----情報基準量

ロジスティック回帰式において、当てはまりの良さ(予測性能)は、赤池情報基準量AICで表すことができる。
変数が少ないこと、予測式による予測値(期待値)と、実測値(観察値)のバランスが取れていると、この数値は低くなる。

従属変数(予測すべき事象)に対し、どの独立変数(もしくは共変量)を使えば、モデルとして予測-説明性能が優れているかを判断する際の重要な目安として使用する。

赤池情報量規準(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するための指標である。単に AIC とも呼ばれ、この呼び方のほうが一般的である。統計学の世界では非常に有名な指標であり、多くの統計ソフトに備わっている。元統計数理研究所所長の赤池弘次が1971年に考案し1973年に発表した。

AICは、「モデルの複雑さと、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしまうため、同種のデータには合わなくなる(過適合問題、Overfitting)。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる。

公式は次の通りである。


他にも情報基準量が提案されているが、基本としてはここまで知っておけば良い。
(これ以上の知識について知りたい人は情報基準量とググってみて下さい。)
つらい?のはここまで、後は実践してみよう。
********************************************************************

演習課題 1

下のデータは子供にカレーを作って食べさせた時、お代わり(repeat)を求められたか(1)、求められなかったか(0)を記録したデータである。味付けや具の工夫の影響(各要因(独立変数))の中で、最もお代わりに影響しているものを探したい。

この分析を、ロジスティック回帰分析を用いて行う。

*操作方法は授業でデモンストレーションします。続いて、自らやってみよう!

NO sio satou syouyu jagaimo tamanegi beef repeat
1 4 5 10 50 35 70 0
2 4 6 8 40 40 80 1
3 10 5 15 50 35 90 1
4 5 6 13 60 20 80 0
5 2 7 8 45 30 90 0
6 3 8 11 60 40 70 1
7 4 10 12 55 35 80 0
8 5 3 15 45 40 70 1
9 6 5 14 50 35 70 1
10 7 6 13 40 40 80 1
11 9 7 15 40 35 70 0
12 5 8 16 50 40 60 1
13 3 12 12 60 45 50 1
14 4 5 12 60 35 80 0
15 8 6 10 50 40 90 1
16 6 7 9 55 50 70 1
17 8 8 8 40 40 60 1
18 5 6 8 40 35 70 0
19 4 5 10 50 35 70 0
20 4 6 8 40 40 80 0
21 10 5 15 50 35 90 1
22 5 6 13 60 20 80 0
23 2 7 8 45 30 90 0
24 3 8 11 60 40 70 0
25 4 10 12 55 35 80 0
26 5 3 15 45 40 70 0
27 6 5 14 50 35 70 1
28 7 6 13 40 40 80 1
29 9 7 15 40 35 70 1
30 5 8 16 50 40 60 1
31 3 12 12 60 45 50 0
32 4 5 12 60 35 80 1
33 8 6 10 50 40 90 1
34 6 7 9 55 50 70 1
35 8 8 8 40 40 60 1
36 5 6 8 40 35 70 0
37 5 6 13 60 20 80 0
38 2 7 8 45 30 90 0
39 3 8 11 60 40 70 1
40 4 10 12 55 35 80 0
41 5 3 15 45 40 70 1
42 6 5 14 50 35 70 1
43 3 12 12 60 45 50 1
44 4 5 12 60 35 80 1
45 8 6 10 50 40 90 1
46 4 10 12 55 35 80 0
47 5 3 15 45 40 70 1
48 6 5 14 50 35 70 1
49 3 12 12 60 45 50 1
50 4 5 12 60 35 80 1



stattest121

課題 
  1 次のデータを用いて転倒の有無と最も関係する要因のβ(偏回帰係数)を求めて下さい。(符号および小数点第2位まで)
  2 MMTの50番目の数値を、あなたの学籍番号下2桁に変えて、課題1と同じ操作を行い、その値を送信して下さい。(符号および小数点第2位まで)

NO UP_GO 10mws MENTAL MMT balance dualtask tenntou
1 5 4 15 5 3 4 0
2 6 4 14 5 1 1 0
3 5 10 15 5 2 1 1
4 6 5 16 2 2 2 1
5 7 2 14 4 1 1 0
6 8 3 16 5 2 2 0
7 10 4 15 4 2 2 0
8 3 5 15 3 2 1 0
9 5 6 15 4 3 3 0
10 6 7 14 2 1 1 1
11 7 9 14 3 4 4 0
12 8 5 15 4 4 4 0
13 12 3 16 2 2 1 1
14 5 4 16 5 3 3 0
15 6 8 15 3 1 1 0
16 7 6 15 3 2 1 1
17 8 8 14 2 2 1 1
18 6 5 14 3 2 1 1
19 5 4 14 2 2 2 1
20 6 4 14 3 3 3 1
21 5 10 15 4 3 4 0
22 6 5 16 2 1 1 1
23 7 2 14 2 2 1 1
24 8 3 16 3 2 2 0
25 10 4 15 4 2 2 0
26 3 5 14 2 3 3 1
27 5 6 15 4 4 4 0
28 6 7 14 3 1 1 1
29 7 9 14 2 2 1 1
30 8 5 15 3 2 2 1
31 12 3 16 2 2 1 1
32 5 4 16 3 1 1 1
33 6 8 50 40 2 1 1
34 7 6 55 50 1 1 1
35 8 8 40 40 2 2 1
36 6 5 40 35 1 1 1
37 6 5 60 20 2 1 1
38 7 2 45 30 2 2 1
39 8 3 60 40 3 3 0
40 10 4 55 35 2 3 1
41 3 5 45 40 2 1 1
42 5 6 50 35 4 4 0
43 12 3 60 45 2 1 1
44 5 4 60 35 2 1 1
45 6 8 50 40 2 2 1
46 10 4 55 35 3 3 0
47 3 5 45 40 2 1 1
48 5 6 50 35 3 4 0
49 12 3 60 45 3 4 0
50 5 4 60 35 2 4 0



GO AGENDA