1. 機械学習とは

機械学習の基本概念

機械学習とは、コンピュータにデータから学習させ、明示的にプログラミングすることなく、パターンを認識し予測や意思決定を行う能力を獲得させる技術です。

機械学習と従来の統計学の違い

側面	従来の統計学	機械学習
目的	データの背後にある確率モデルの理解と推論	予測精度の最大化と新データへの一般化
アプローチ	仮説検定、パラメータ推定、確率モデル	パターン認識、データ駆動型アルゴリズム
データサイズ	比較的小規模でも対応可能	大量のデータでより効果的
モデル選択	理論と仮定に基づく	経験的なパフォーマンス評価に基づく
解釈可能性	明示的な数式モデルで解釈しやすい	複雑なモデルでブラックボックス化する場合も

機械学習の主なタイプ

教師あり学習（Supervised Learning）

正解（ラベル）付きのデータを用いて学習し、新しいデータに対して予測を行います。

回帰：連続値を予測（例：血圧値、検査値）
分類：カテゴリを予測（例：疾患の有無、治療反応性）

例：線形回帰、ロジスティック回帰、決定木、サポートベクターマシン、ニューラルネットワークなど

教師なし学習（Unsupervised Learning）

ラベルなしのデータからパターンや構造を発見します。

クラスタリング：類似したデータをグループ化
次元削減：データの表現を簡略化
異常検出：通常とは異なるパターンを発見

例：k-means、階層的クラスタリング、主成分分析（PCA）、自己組織化マップなど

強化学習（Reinforcement Learning）

エージェントが環境との相互作用から学習し、報酬を最大化する行動を学びます。医療分野では個別化治療計画の最適化などに応用されます。

医療分野における機械学習の応用例

診断支援：画像診断（X線、MRI、CT）の自動判定、疾患リスク予測
治療最適化：個別化医療、薬剤反応性予測、投与量最適化
医療管理：入院期間予測、再入院リスク評価、医療リソース配分
疾病監視：感染症の発生パターン検出、流行予測
創薬研究：新薬候補物質の特定、副作用予測、ドラッグリポジショニング

実際の応用例

糖尿病網膜症の自動検出：眼底写真から機械学習モデルが網膜症の有無と重症度を評価。医師の診断精度に匹敵する結果を示している。

抗がん剤の効果予測：患者の遺伝子プロファイルと臨床データから、特定の薬剤への反応性を予測するモデルの開発。無効な治療の回避と副作用の軽減に貢献。

2. 回帰を用いた機械学習の基礎

回帰分析の復習

回帰分析は、一つ以上の説明変数（独立変数）と目的変数（従属変数）の関係をモデル化する統計的手法です。

線形回帰（Linear Regression）

y = β₀ + β₁x₁ + β₂x₂ + ... + βₚxₚ + ε

ここで、y は目的変数、x₁, x₂, ..., xₚ は説明変数、β₀, β₁, ..., βₚ はモデルパラメータ、εは誤差項です。

最小二乗法と最尤法の復習

前回までに学んだように、線形回帰のパラメータは最小二乗法や最尤法で推定できます。機械学習では、これらに加えて正則化などの手法も用いられます。

機械学習における回帰の拡張

正則化回帰（Regularized Regression）

過学習（オーバーフィッティング）を防ぐため、モデルの複雑さにペナルティを課す手法です。

リッジ回帰（Ridge Regression）

最小化: RSS + λΣβ²ⱼ

係数の二乗和にペナルティを課します。係数を0に近づけますが、完全に0にはしません。

ラッソ回帰（Lasso Regression）

最小化: RSS + λΣ|βⱼ|

係数の絶対値にペナルティを課します。一部の係数を完全に0にするため、変数選択の効果があります。

非線形回帰モデル

線形モデルでは表現できない複雑な関係を扱うための手法です。

多項式回帰：説明変数の高次の項を追加（x², x³など）
スプライン回帰：区分的な多項式関数でデータを適合
決定木回帰：データを再帰的に分割し、各領域で単純なモデルを適用
ランダムフォレスト：複数の決定木の予測を組み合わせる
サポートベクター回帰：カーネル関数を用いて高次元空間に写像

機械学習の学習プロセス

学習の基本ステップ

データの分割

機械学習では、データを以下のように分割して使用します：

訓練データ（Training Data）：モデルの学習に使用
検証データ（Validation Data）：ハイパーパラメータのチューニングや中間評価に使用
テストデータ（Test Data）：最終的なモデル評価に使用（学習過程では一切使用しない）

過学習と汎化

機械学習において重要な課題は、訓練データに過度に適合してしまう「過学習（オーバーフィッティング）」と、未知のデータにも適切に対応できる「汎化能力」のバランスです。

過学習の兆候

訓練データでの性能が極めて高い
テストデータでの性能が大幅に低下
モデルが複雑で、ノイズや外れ値まで学習している

過学習の対策

より多くのデータを収集
モデルを単純化（特徴量の削減など）
正則化手法の導入（リッジ、ラッソなど）
交差検証の活用

医療データでの回帰の応用例

患者の入院期間予測

入院患者の情報から入院期間を予測するモデルを構築します。

特徴量（説明変数）の例

患者の基本情報：年齢、性別、BMI
疾患情報：主病名、重症度、併存疾患の数
検査データ：血液検査値、バイタルサイン
治療情報：手術の有無、薬剤の種類

目的変数

入院期間（日数）

モデル選択と評価

このような問題では、まず線形回帰を試し、その後、より複雑なモデル（ランダムフォレストなど）を試して比較することが一般的です。モデルの評価には、平均絶対誤差（MAE）や平均二乗誤差（MSE）などの指標が使用されます。

3. Excelを用いた回帰分析演習

Excelの分析ツールパックの利用

Excelには、統計解析のための「分析ツールパック」が標準で搭載されています。これを使用して基本的な回帰分析を行うことができます。

分析ツールパックの有効化

「ファイル」→「オプション」→「アドイン」を選択
「管理」ドロップダウンで「Excelアドイン」を選択し、「設定」をクリック
「分析ツールパック」にチェックを入れて「OK」をクリック

有効化後、「データ」タブに「データ分析」ボタンが表示されます。

1 データの準備

以下のような、高血圧患者の情報と降圧薬の効果に関するデータを準備します。

患者ID	年齢	性別 (0=女性,1=男性)	BMI	喫煙 (0=無,1=有)	初期収縮期血圧 (mmHg)	血圧低下量 (mmHg)
1	45	0	22.5	0	155	15
2	62	1	26.3	1	168	12
3	53	0	24.1	0	160	18
4	58	1	28.7	1	175	10
5	50	0	23.8	0	158	16
...	...	...	...	...	...	...

このデータでは、目的変数は「血圧低下量」、説明変数は「年齢」「性別」「BMI」「喫煙」「初期収縮期血圧」です。

2 単回帰分析の実行

まず、1つの説明変数と目的変数の関係を分析する単回帰分析を行います。

「データ」タブから「データ分析」を選択
「回帰分析」を選択して「OK」をクリック
以下の設定を行います：
- 入力Y範囲：血圧低下量のセル範囲
- 入力X範囲：BMIのセル範囲
- 出力先：新しいシートを選択
- 「残差出力」と「標準化残差プロット」にチェック
「OK」をクリックして分析を実行

3 重回帰分析の実行

複数の説明変数を使用して目的変数を予測する重回帰分析を行います。

「データ」タブから「データ分析」を選択
「回帰分析」を選択して「OK」をクリック
以下の設定を行います：
- 入力Y範囲：血圧低下量のセル範囲
- 入力X範囲：すべての説明変数（年齢、性別、BMI、喫煙、初期収縮期血圧）のセル範囲
- 出力先：新しいシートを選択
- 「残差出力」と「標準化残差プロット」にチェック
「OK」をクリックして分析を実行

4 結果の解釈

回帰統計

重相関 R：説明変数と目的変数の相関係数
重決定 R²：モデルが説明できる分散の割合
補正 R²：説明変数の数を考慮して調整したR²
標準誤差：予測の平均的な誤差

分散分析表

F値：モデル全体の有意性を示す指標
有意水準：p値が0.05未満であれば、モデルは統計的に有意

回帰係数

係数：各説明変数の重み
標準誤差：係数の推定精度
t値：係数の有意性を示す指標
P値：係数の統計的有意性（0.05未満で有意）

残差プロット

残差プロットは、モデルの仮定（線形性、等分散性など）が満たされているかを視覚的に確認するのに役立ちます。

5 予測と検証

作成したモデルを使って新しいデータに対する予測を行います。

回帰式を使って予測値を計算：
血圧低下量 = β₀ + β₁×年齢 + β₂×性別 + β₃×BMI + β₄×喫煙 + β₅×初期収縮期血圧
Excel数式で実装：
=β₀ + β₁*A2 + β₂*B2 + β₃*C2 + β₄*D2 + β₅*E2
（A2～E2はそれぞれの説明変数のセル）

医療データ分析の実例

高血圧患者の降圧薬反応性予測モデルの分析例を示します。

重回帰分析の結果例

変数	係数	P値	解釈
切片	-5.23	0.342	-
年齢	-0.15	0.012	年齢が1歳上がると、血圧低下量は0.15 mmHg減少
性別（男性=1）	-2.45	0.031	男性は女性よりも平均2.45 mmHg血圧低下量が少ない
BMI	-0.32	0.008	BMIが1単位増加すると、血圧低下量は0.32 mmHg減少
喫煙（有=1）	-3.10	<0.001	喫煙者は非喫煙者よりも平均3.10 mmHg血圧低下量が少ない
初期収縮期血圧	0.22	<0.001	初期血圧が1 mmHg高いと、血圧低下量は0.22 mmHg増加

このモデルのR²は0.72で、血圧低下量の変動の72%を説明できています。

臨床的解釈

このモデルから、以下のような臨床的示唆が得られます：

若年者、女性、BMIが低い患者ほど降圧薬の効果が高い
喫煙は降圧薬の効果を大きく減弱させる
初期血圧が高い患者ほど、降圧効果も大きい

これらの知見は、個別化医療のアプローチに役立ちます。例えば、喫煙者や高BMIの患者には、より積極的な生活習慣改善指導や、異なる薬剤の選択を検討すべきかもしれません。

4. JASPを用いた機械学習回帰演習

JASPの機械学習機能

JASPは統計解析だけでなく、基本的な機械学習の機能も提供しています。特に「Machine Learning」モジュールを使用することで、以下のような分析が可能です：

回帰：線形回帰、リッジ回帰、ラッソ回帰、決定木回帰など
分類：ロジスティック回帰、決定木、ランダムフォレスト、サポートベクターマシンなど
クラスタリング：K-means、階層的クラスタリングなど

1 JASPの準備とデータ読み込み

JASPを起動します
「File」→「Open」でデータファイル（CSV形式など）を読み込みます
各変数の型を適切に設定します
- 連続変数：「Scale」
- カテゴリ変数：「Nominal」または「Ordinal」

2 トレーニングデータとテストデータの分割

JASPでは、「Machine Learning」モジュールを使う際に、データを訓練用とテスト用に分割することができます。

上部メニューから「Machine Learning」→「Regression」を選択します
使用するアルゴリズムを選択します（例：「Random Forest Regression」）
「Holdout Sample」タブをクリックし、以下の設定を行います：
- 「Split sample into training and test set」にチェック
- 「Training set proportion」で訓練データの割合を設定（例：0.8）

3 回帰モデルの構築

「Targets」に目的変数（「血圧低下量」）を設定
「Features」に説明変数を追加
- 連続変数：「年齢」「BMI」「初期収縮期血圧」
- カテゴリ変数：「性別」「喫煙」
「Model Parameters」タブでモデル固有のパラメータを設定
- 決定木：最大深さ、最小ノードサイズなど
- ランダムフォレスト：木の数、特徴量サンプリング率など

4 モデルの評価と比較

「Model Evaluation」タブで必要な評価指標にチェックを入れます：
- 「R²」：決定係数
- 「MSE」：平均二乗誤差
- 「MAE」：平均絶対誤差
- 「RMSE」：平均二乗誤差の平方根
「Performance Metrics」タブで可視化オプションを選択：
- 「Scatter plot of predicted and observed values」
- 「Feature Importance plot」

5 結果の解釈

性能指標

訓練データとテストデータの両方での性能指標を比較し、モデルの汎化能力を評価します。

予測値と実測値の散布図

点が45度線に近いほど、モデルの予測精度が高いことを示しています。

特徴量重要度

どの特徴量（説明変数）がモデルの予測に大きく寄与しているかを示しています。

JASPによる降圧薬効果予測モデルの比較

同じデータセットに対して複数のモデルを適用し、比較した結果の例です。

モデル	訓練データR²	テストデータR²	テストデータRMSE	特徴
線形回帰	0.72	0.68	3.2	シンプルで解釈が容易
リッジ回帰	0.71	0.70	3.0	汎化能力が若干向上
決定木	0.85	0.66	3.3	訓練データで過学習の傾向
ランダムフォレスト	0.88	0.75	2.8	最も高い予測精度

特徴量重要度比較

ランダムフォレストモデルでの特徴量重要度：

初期収縮期血圧（相対重要度: 100%）
喫煙（相対重要度: 78%）
年齢（相対重要度: 62%）
BMI（相対重要度: 55%）
性別（相対重要度: 42%）

臨床的解釈

ランダムフォレストモデルの予測精度が最も高く、テストデータでもR²=0.75と良好な性能を示しています。特徴量重要度から、初期収縮期血圧と喫煙状況が降圧薬の効果を予測する上で特に重要であることがわかります。これは、臨床現場での治療計画立案に有用な情報となります。

5. 実践演習：医療データを用いた回帰モデル構築

演習データ：2型糖尿病患者の治療効果予測

以下のデータは、2型糖尿病患者に対する新しい経口血糖降下薬の効果を示しています。

患者ID	年齢 (歳)	性別 (0=女性,1=男性)	BMI (kg/m²)	罹病期間 (年)	初期HbA1c (%)	空腹時血糖 (mg/dL)	腎機能eGFR (mL/min)	インスリン分泌 (μU/mL)	HbA1c低下量 (%)
1	45	0	28.3	3	8.2	165	85	6.5	1.8
2	62	1	26.1	10	9.5	210	65	3.2	1.2
3	53	0	31.5	5	7.8	148	90	7.8	1.5
4	58	1	33.2	8	8.9	188	72	4.1	1.3
5	50	0	25.7	2	7.5	155	95	8.3	1.7
...	...	...	...	...	...	...	...	...	...

目的

このデータを用いて、患者の特性から治療効果（HbA1c低下量）を予測するモデルを構築します。これにより、どのような患者にこの薬剤が効果的かを判断するための指標を得ることを目指します。

演習の手順

1 データの準備と探索

提供されたデータをExcelまたはCSVファイルとして保存します。
JASPでデータを読み込み、各変数の型を適切に設定します。
「Descriptives」→「Descriptive Statistics」で基本統計量を確認します。
「Descriptives」→「Correlation Matrix」で変数間の相関関係を確認します。

これにより、データの分布や変数間の関係を把握できます。特に、目的変数（HbA1c低下量）と強い相関を持つ説明変数を特定します。

2 単回帰分析と重回帰分析

「Regression」→「Linear Regression」で、まず単回帰分析を行います：
- Dependent Variable：「HbA1c低下量」
- Covariates：相関分析で強い相関が見られた変数を1つ選択
次に重回帰分析を行います：
- Dependent Variable：「HbA1c低下量」
- Covariates：すべての説明変数を追加
「Statistics」タブで「Estimates」「R²」「Collinearity diagnostics」にチェックを入れます。
「Plots」タブで「Residuals vs. fitted」「Q-Q plot of residuals」にチェックを入れます。

これにより、伝統的な統計学的アプローチでのモデル構築と評価を行います。

3 機械学習アプローチ：複数のモデル構築

「Machine Learning」→「Regression」で以下のモデルを順に構築します：
- Linear Regression（線形回帰）
- Regularized Linear Regression（正則化線形回帰）：リッジ、ラッソ
- Decision Tree（決定木）
- Random Forest（ランダムフォレスト）
- Boosting（ブースティング）：AdaBoostなど
各モデルで以下の設定を統一します：
- Target：「HbA1c低下量」
- Features：すべての説明変数
- Holdout Sample：訓練データ80%、テストデータ20%
「Model Evaluation」タブで「R²」「MSE」「MAE」「RMSE」にチェックを入れます。
「Performance Metrics」タブで「Feature Importance plot」にチェックを入れます。

これにより、様々な機械学習モデルを比較し、最も適切なモデルを特定します。

4 モデルのチューニングと最終評価

最も性能の良かったモデルを選び、そのハイパーパラメータをチューニングします：
- 決定木：最大深さ、最小ノードサイズなど
- ランダムフォレスト：木の数、特徴量サンプリング率など
- 正則化線形回帰：正則化パラメータλなど
チューニング後のモデルをテストデータで評価し、最終的な性能を確認します。
特徴量重要度を確認し、モデルの予測に大きく寄与している変数を特定します。

これにより、最適化されたモデルが得られます。

5 結果のまとめと臨床的解釈

最終モデルの性能指標（R², RMSE）をまとめます。
特徴量重要度に基づいて、治療効果に影響する主要因子を特定します。
モデルの予測結果を臨床的に解釈し、どのような患者に効果的な治療かを考察します。
モデルの限界と今後の改善点を検討します。

具体的には、次のような臨床的示唆を得ることを目指します：

どのような患者特性が治療効果と強く関連しているか
治療効果が高いと予測される患者のプロファイル
治療効果が低いと予測される患

第7回：機械学習を用いたデータ分析の概要１

機械学習を用いたデータ分析の概要１

エクセルシートを用いた機械学習演習１　データによる回帰

講師：木村朗

1. 機械学習とは

機械学習の基本概念

機械学習と従来の統計学の違い

側面	従来の統計学	機械学習
目的	データの背後にある確率モデルの理解と推論	予測精度の最大化と新データへの一般化
アプローチ	仮説検定、パラメータ推定、確率モデル	パターン認識、データ駆動型アルゴリズム
データサイズ	比較的小規模でも対応可能	大量のデータでより効果的
モデル選択	理論と仮定に基づく	経験的なパフォーマンス評価に基づく
解釈可能性	明示的な数式モデルで解釈しやすい	複雑なモデルでブラックボックス化する場合も

機械学習の主なタイプ

教師あり学習（Supervised Learning）

正解（ラベル）付きのデータを用いて学習し、新しいデータに対して予測を行います。

回帰：連続値を予測（例：血圧値、検査値）
分類：カテゴリを予測（例：疾患の有無、治療反応性）

例：線形回帰、ロジスティック回帰、決定木、サポートベクターマシン、ニューラルネットワークなど

教師なし学習（Unsupervised Learning）

ラベルなしのデータからパターンや構造を発見します。

クラスタリング：類似したデータをグループ化
次元削減：データの表現を簡略化
異常検出：通常とは異なるパターンを発見

例：k-means、階層的クラスタリング、主成分分析（PCA）、自己組織化マップなど

強化学習（Reinforcement Learning）

エージェントが環境との相互作用から学習し、報酬を最大化する行動を学びます。医療分野では個別化治療計画の最適化などに応用されます。

医療分野における機械学習の応用例

診断支援：画像診断（X線、MRI、CT）の自動判定、疾患リスク予測
治療最適化：個別化医療、薬剤反応性予測、投与量最適化
医療管理：入院期間予測、再入院リスク評価、医療リソース配分
疾病監視：感染症の発生パターン検出、流行予測
創薬研究：新薬候補物質の特定、副作用予測、ドラッグリポジショニング

実際の応用例

糖尿病網膜症の自動検出：眼底写真から機械学習モデルが網膜症の有無と重症度を評価。医師の診断精度に匹敵する結果を示している。

2. 回帰を用いた機械学習の基礎

回帰分析の復習

回帰分析は、一つ以上の説明変数（独立変数）と目的変数（従属変数）の関係をモデル化する統計的手法です。

線形回帰（Linear Regression）

y = β₀ + β₁x₁ + β₂x₂ + ... + βₚxₚ + ε

ここで、y は目的変数、x₁, x₂, ..., xₚ は説明変数、β₀, β₁, ..., βₚ はモデルパラメータ、εは誤差項です。

最小二乗法と最尤法の復習

機械学習における回帰の拡張

正則化回帰（Regularized Regression）

過学習（オーバーフィッティング）を防ぐため、モデルの複雑さにペナルティを課す手法です。

リッジ回帰（Ridge Regression）

最小化: RSS + λΣβ²ⱼ

係数の二乗和にペナルティを課します。係数を0に近づけますが、完全に0にはしません。

ラッソ回帰（Lasso Regression）

最小化: RSS + λΣ|βⱼ|

係数の絶対値にペナルティを課します。一部の係数を完全に0にするため、変数選択の効果があります。

非線形回帰モデル

線形モデルでは表現できない複雑な関係を扱うための手法です。

多項式回帰：説明変数の高次の項を追加（x², x³など）
スプライン回帰：区分的な多項式関数でデータを適合
決定木回帰：データを再帰的に分割し、各領域で単純なモデルを適用
ランダムフォレスト：複数の決定木の予測を組み合わせる
サポートベクター回帰：カーネル関数を用いて高次元空間に写像

機械学習の学習プロセス

学習の基本ステップ

データの分割

機械学習では、データを以下のように分割して使用します：

訓練データ（Training Data）：モデルの学習に使用
検証データ（Validation Data）：ハイパーパラメータのチューニングや中間評価に使用
テストデータ（Test Data）：最終的なモデル評価に使用（学習過程では一切使用しない）

過学習と汎化

過学習の兆候

訓練データでの性能が極めて高い
テストデータでの性能が大幅に低下
モデルが複雑で、ノイズや外れ値まで学習している

過学習の対策

より多くのデータを収集
モデルを単純化（特徴量の削減など）
正則化手法の導入（リッジ、ラッソなど）
交差検証の活用

医療データでの回帰の応用例

患者の入院期間予測

入院患者の情報から入院期間を予測するモデルを構築します。

特徴量（説明変数）の例

患者の基本情報：年齢、性別、BMI
疾患情報：主病名、重症度、併存疾患の数
検査データ：血液検査値、バイタルサイン
治療情報：手術の有無、薬剤の種類

目的変数

入院期間（日数）

モデル選択と評価

3. Excelを用いた回帰分析演習

Excelの分析ツールパックの利用

Excelには、統計解析のための「分析ツールパック」が標準で搭載されています。これを使用して基本的な回帰分析を行うことができます。

分析ツールパックの有効化

「ファイル」→「オプション」→「アドイン」を選択
「管理」ドロップダウンで「Excelアドイン」を選択し、「設定」をクリック
「分析ツールパック」にチェックを入れて「OK」をクリック

有効化後、「データ」タブに「データ分析」ボタンが表示されます。

1 データの準備

以下のような、高血圧患者の情報と降圧薬の効果に関するデータを準備します。

患者ID	年齢	性別 (0=女性,1=男性)	BMI	喫煙 (0=無,1=有)	初期収縮期血圧 (mmHg)	血圧低下量 (mmHg)
1	45	0	22.5	0	155	15
2	62	1	26.3	1	168	12
3	53	0	24.1	0	160	18
4	58	1	28.7	1	175	10
5	50	0	23.8	0	158	16
...	...	...	...	...	...	...

このデータでは、目的変数は「血圧低下量」、説明変数は「年齢」「性別」「BMI」「喫煙」「初期収縮期血圧」です。