7回で学ぶ数理統計からベイズ統計まで
この回では、統計学の基本的な概念から確率分布まで、生物統計学の基盤となる知識を身につけます。確率論の基礎から始めて、実際の生物学的データで頻繁に現れる確率分布について学習します。
確率とは、ある事象が起こる可能性を0から1の間の数値で表したものです。生物学では、遺伝子の発現、薬剤の効果、個体の生存などを確率的に捉えることが重要です。
確率の基本性質:
$$P(A) \geq 0$$
$$P(\Omega) = 1$$
$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$
ある遺伝子の変異頻度が0.05(5%)であるとき、100人の集団中で変異を持つ人数の期待値は?
答え: 期待値 = 100 × 0.05 = 5人
生物学的測定値(身長、体重、遺伝子発現量など)の多くは正規分布に従います。
$$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
ここで、$\mu$は平均、$\sigma^2$は分散
一定時間内に発生する稀な事象の回数をモデル化(遺伝子変異、感染事例など)。
$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$
ここで、$\lambda$は期待値と分散(等しい)
正規分布のパラメータを変更して分布の形状を観察してみましょう
確率分布の特徴を数値で表現する重要な指標です。
期待値: $E[X] = \sum x \cdot P(X = x)$ (離散)
分散: $\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2$
PCR検査で陽性となる確率が0.95、陰性となる確率が0.05の場合、100回検査したときの陽性結果数の期待値と分散は?
二項分布 B(100, 0.95) に従う
期待値:$E[X] = np = 100 \times 0.95 = 95$
分散:$\text{Var}(X) = np(1-p) = 100 \times 0.95 \times 0.05 = 4.75$
標本サイズが大きくなると、標本平均の分布は正規分布に近づきます。これは統計的推測の基礎となる重要な定理です。
$$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$$
または標準化すると:$$\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$$
多変量統計解析に必要な線形代数の基礎を、生物統計学の文脈で理解します。行列演算から固有値まで、実用的な観点から学習します。
データ行列は生物統計学の基本です。行が観測個体、列が変数を表現します。
データ行列の例(n個体、p変数):
$$\mathbf{X} = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix}$$
3つの遺伝子、4つのサンプルの発現データ:
$(\mathbf{A}^T)_{ij} = A_{ji}$
$(\mathbf{AB})_{ij} = \sum_{k=1}^{n} A_{ik}B_{kj}$
多変量データの関係性を表現する重要な行列です。
$$\mathbf{S} = \frac{1}{n-1}\mathbf{X}^T\mathbf{X} - \frac{1}{n(n-1)}\mathbf{X}^T\mathbf{1}\mathbf{1}^T\mathbf{X}$$
主成分分析や判別分析で中心的な役割を果たします。
$$\mathbf{A}\mathbf{v} = \lambda\mathbf{v}$$
ここで、$\lambda$は固有値、$\mathbf{v}$は固有ベクトル
標本統計量、点推定、区間推定、仮説検定の基礎を学びます。
標本平均:$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$
信頼区間:$\bar{x} \pm t_{\alpha/2,n-1} \frac{s}{\sqrt{n}}$
線形回帰モデル、最小二乗推定量、モデル診断を学びます。
回帰モデル:$y = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$
最小二乗推定量:$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$
尤度関数、最尤推定量の導出、漸近的性質について学びます。
尤度関数:$L(\theta) = \prod_{i=1}^{n} f(x_i|\theta)$
対数尤度:$\ell(\theta) = \sum_{i=1}^{n} \log f(x_i|\theta)$
ベイズの定理、事前分布・事後分布、ベイズ因子について学びます。
ベイズの定理:$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}$
事後分布 ∝ 尤度 × 事前分布
メトロポリス・ヘイスティングス法、ギブスサンプリング、収束診断を学びます。
受容確率:$\alpha = \min\left(1, \frac{p(\theta^*)q(\theta^{(t)}|\theta^*)}{p(\theta^{(t)})q(\theta^*|\theta^{(t)})}\right)$