JASPで学ぶ公衆衛生ビッグデータ分析

第8回~第15回の実践チュートリアル


第8回:疫学データの分析と解釈

1疫学研究デザインとデータ特性の理解

疫学研究で得られるデータの特性と、それをJASPで分析する方法を学びましょう。

主な疫学研究デザイン

データセットの選択

このチュートリアルでは、以下のデータセットを使用します:

  • サンプルデータ:「Smoking and lung cancer.csv」(症例対照研究データ)
  • WHOの国別健康指標データ(横断研究データ)

これらのデータはこちらのリンクからダウンロードできます。(リンクが切れている場合は、検索の上DLしてください)

2クロス集計表とリスク指標の算出

JASPを使って、暴露と疾病の関連を示すクロス集計表を作成し、リスク指標を計算しましょう。

2×2クロス集計表の作成

  1. 「Frequencies」→「Contingency Tables」を選択
  2. 行変数に疾病状態(例:lung_cancer)、列変数に暴露状態(例:smoking)を指定
  3. 「Cells」タブで「Observed counts」にチェック
クロス集計表の設定画面

オッズ比の計算

  1. 「Statistics」タブで「Odds ratio」にチェック
  2. 「Confidence interval」で信頼区間(通常は95%)を設定

// 2×2表の例
           | 暴露あり | 暴露なし
-----------+----------+----------
疾病あり   |    a     |    b
-----------+----------+----------
疾病なし   |    c     |    d

オッズ比 (OR) = (a/c) / (b/d) = ad/bc

例:喫煙と肺がんの関連
           | 喫煙あり | 喫煙なし
-----------+----------+----------
肺がんあり |    60    |    20
-----------+----------+----------
肺がんなし |    40    |    80

オッズ比 (OR) = (60×80) / (20×40) = 6
→ 喫煙者は非喫煙者に比べて肺がんのオッズが6倍

オッズ比の解釈

オッズ比が1より大きい:暴露と疾病に正の関連(リスク増加)
オッズ比が1:暴露と疾病に関連なし
オッズ比が1未満:暴露と疾病に負の関連(リスク減少)

3交絡因子の調整

交絡因子を考慮した分析方法を学びましょう。

層別解析

  1. 「Frequencies」→「Contingency Tables」を選択
  2. 行変数と列変数を指定
  3. 交絡因子(例:年齢層、性別)を「Layer」欄に指定
  4. 「Statistics」タブで「Odds ratio」にチェック

ロジスティック回帰による交絡調整

  1. 「Regression」→「Logistic Regression」を選択
  2. 従属変数に疾病状態、共変量に暴露状態と交絡因子を指定
  3. 「Statistics」タブで「Odds ratios」にチェック

交絡調整の重要性

交絡因子を考慮しないと、変数間の関連性が過大または過小評価される可能性があります。特に公衆衛生研究では、年齢、性別、社会経済的地位などが重要な交絡因子になることが多いです。

4GISを用いた疾病マッピング

JASPでの分析結果を地理情報システム(GIS)と連携させ、疾病分布を視覚化する方法を学びましょう。

JASPには直接的なGIS機能がないため、以下の手順で作業します:

  1. JASPで地域ごとの集計・分析を実施
  2. 結果をCSVファイルとしてエクスポート
  3. QGISなどのGISソフトウェアでマッピング

演習:国別健康指標の分析と地図化

  1. WHOの国別健康指標データをJASPで読み込む
  2. 「Descriptives」→「Descriptive Statistics」で国別の指標を集計
  3. 結果を右クリックし「Copy」→「Copy table」でエクスポート
  4. QGISで世界地図シェープファイルを読み込み、集計結果と結合
  5. 色分け(コロプレス)マップを作成

GISリソース

QGIS(無料のGISソフトウェア):https://qgis.org/ja/site/
世界地図シェープファイル:Natural Earth

5公衆衛生介入の効果評価

介入の効果を評価するための統計手法を学びましょう。

事前・事後比較(対応のあるt検定)

  1. 「T-Tests」→「Paired Samples T-Test」を選択
  2. 介入前と介入後の測定値を「Variables」欄に指定
  3. 「Descriptives」タブでグラフ表示のオプションを設定

介入群・対照群の比較(独立サンプルのt検定)

  1. 「T-Tests」→「Independent Samples T-Test」を選択
  2. 従属変数に測定値、グループ変数に介入状態(介入/対照)を指定
  3. 「Descriptives」タブでグラフ表示のオプションを設定
t検定の結果例


前へ:第7回チュートリアル 次へ:第9回チュートリアル

第9回:時系列データ分析

1時系列データの特性と前処理

公衆衛生分野の時系列データの特性と、分析前の適切な処理方法を学びましょう。

時系列データの主な特性

データセットの選択

このチュートリアルでは、以下のデータセットを使用します:

このようなSQLコマンドで取得したデータをCSVとして保存し、JASPにインポートすることができます。

4データの構造を確認する

インポートしたデータの構造を確認し、分析の準備をしましょう。

  1. 「Descriptives」→「Descriptive Statistics」をクリック
  2. 分析したい変数を「Variables」フィールドに移動
  3. 「Statistics」タブで基本統計量(N、Mean、SD など)を選択
  4. 「Plots」タブで適切なグラフ(ヒストグラム、箱ひげ図など)を選択
記述統計の設定画面
5データにラベルとメタデータを追加する

分析を容易にするために、変数にラベルやメタデータを追加しましょう。

  1. データビューで変数名をダブルクリック
  2. 変数名、ラベル、値ラベルなどを編集
  3. 「OK」をクリックして変更を保存

データラベルの重要性

公衆衛生データは多くの専門用語や略語を含むことが多いため、適切なラベル付けは分析結果の解釈や報告を容易にします。

前へ:第8回チュートリアル 次へ:第10回チュートリアル

第10回:機械学習入門と健康予測モデル

1機械学習の基本概念

公衆衛生分野における機械学習の基本概念と、JASPでの実装方法を学びましょう。

機械学習の主なタイプ

モジュールのインストール

JASPで機械学習分析を行うには、Machine Learningモジュールをインストールする必要があります:

  1. 「Modules」→「Module Library」を選択
  2. 「Machine Learning」モジュールを探して「Install」をクリック

データセットの準備

このチュートリアルでは、以下のデータセットを使用します:

これらのデータはこちらのリンクからダウンロードできます。

2分類モデル - 糖尿病リスク予測

健康状態の分類予測に機械学習を活用する方法を学びましょう。

ロジスティック回帰による分類

  1. 「Regression」→「Logistic Regression」を選択
  2. 従属変数に目標変数(例:diabetes)、共変量に予測変数(例:age, bmi, glucose など)を指定
  3. 「Statistics」タブで「Classification table」と「ROC curve」にチェック
ROC曲線

決定木による分類

  1. 「Machine Learning」→「Classification」→「Decision Tree」を選択
  2. 「Target」に目標変数、「Predictors」に予測変数を指定
  3. 「Training Parameters」タブでパラメータを調整
  4. 「Plots」タブで「Tree plot」と「ROC curve」にチェック

決定木の解釈

決定木は解釈が容易で、重要な予測因子とその閾値を視覚的に示してくれます。これは公衆衛生における介入ポイントの特定や、リスク層別化に役立ちます。

3回帰モデル - 医療費予測

連続的な健康指標や医療費の予測に機械学習を活用する方法を学びましょう。

線形回帰モデル

  1. 「Regression」→「Linear Regression」を選択
  2. 従属変数に目標変数(例:medical_cost)、共変量に予測変数を指定
  3. 「Method」で「Forward」や「Stepwise」などの変数選択方法を選択できます
  4. 「Statistics」タブで「Descriptives」と「Model fit」にチェック

回帰木モデル

  1. 「Machine Learning」→「Regression」→「Decision Tree」を選択
  2. 「Target」に目標変数、「Predictors」に予測変数を指定
  3. 「Training Parameters」タブでパラメータを調整
  4. 「Plots」タブで「Tree plot」と「Predicted vs. Observed」にチェック
機械学習モジュール
4モデル評価とクロスバリデーション

機械学習モデルの性能を適切に評価する方法を学びましょう。

モデル評価指標

クロスバリデーションの設定

  1. 「Machine Learning」モジュールの各分析で「Model」タブを選択
  2. 「Cross-validation」セクションで「K-fold cross-validation」にチェック
  3. 「Number of folds」でフォールド数(通常は5または10)を設定
  4. 「Number of repeats」で繰り返し回数を設定

過学習に注意

モデルが訓練データに過度に適合し、新しいデータに対する一般化能力が低下する「過学習」に注意が必要です。これを防ぐために、クロスバリデーションや適切な特徴選択、正則化などの技術を活用しましょう。

5予測結果の解釈と応用

機械学習モデルの結果を公衆衛生の文脈で解釈し、活用する方法を学びましょう。

特徴重要度の分析

  1. 「Machine Learning」モジュールの「Post Hoc」タブを選択
  2. 「Feature importance」にチェックを入れる

予測結果の活用例

モデルの透明性と説明可能性

公衆衛生分野では、モデルの決定過程を理解し説明できることが重要です。特に政策決定に影響する場合は、「ブラックボックス」モデルよりも解釈可能なモデル(決定木など)が好まれることが多いです。


前へ:第9回チュートリアル 次へ:第11回チュートリアル

第11回:公衆衛生課題の特定とデータ駆動型アプローチ

1システム思考と公衆衛生問題の構造化

複雑な公衆衛生問題を体系的に理解し、データ分析に適した形で構造化する方法を学びましょう。

システム思考の基本概念

JASP Network分析

JASPのネットワーク分析機能を使って、変数間の関係を視覚化します:

  1. 「Modules」→「Module Library」から「Network」モジュールをインストール
  2. 「Network」→「Bayesian Network Analysis」を選択
  3. 分析に含めたい変数を「Variables」欄に指定
  4. 「Plots」タブで「Network plot」にチェック
ネットワーク分析
2データから課題を特定するアプローチ

データマイニングや探索的分析を通じて、潜在的な公衆衛生課題を発見する方法を学びましょう。

クラスタリングによる集団セグメンテーション

  1. 「Machine Learning」→「Clustering」→「K-Means Clustering」を選択
  2. クラスタリングに使用する変数を「Variables」欄に指定
  3. 「Model」タブでクラスタ数を設定
  4. 「Plots」タブで「Cluster means」と「Cluster plot」にチェック

異常検出による問題領域の特定

  1. 「Descriptives」→「Descriptive Statistics」で外れ値を確認
  2. 「Exploratory Factor Analysis」で潜在的な構造を探索
  3. 「Regression」→「Linear Regression」の残差分析で予測から外れたケースを特定

多角的なデータ探索

単一の分析手法だけでなく、複数の手法を組み合わせて多角的にデータを探索することで、より包括的に課題を特定できます。異なる視点からの一貫した結果は、真の問題を示している可能性が高いです。

3健康の社会的決定要因とデータ分析

社会経済的要因が健康に与える影響を分析する方法を学びましょう。

多変量分析による社会的要因の影響評価

  1. 「Regression」→「Linear Regression」または「Logistic Regression」を選択
  2. 従属変数に健康指標、独立変数に社会経済的要因を指定
  3. 「Statistics」タブで「Estimates」と「Model fit」にチェック
  4. 「Plots」タブで「Residuals vs. fitted」にチェック

格差指標の計算と分析

健康格差を定量化するための指標を計算します:


// 集団間の格差指標の計算例(Data→Compute Column)
// 絶対的格差(リスク差)
abs(risk_group1 - risk_group2)

// 相対的格差(リスク比)
risk_group1 / risk_group2

格差分析の注意点

健康格差の分析では、単純な2群比較だけでなく、社会経済階層全体に渡る勾配を評価することが重要です。また、異なる格差指標は異なる側面を捉えるため、複数の指標を組み合わせて総合的に評価しましょう。

4複数のデータソースを組み合わせた分析

異なるデータソースを統合して、より包括的な分析を行う方法を学びましょう。

データの結合と前処理

  1. 各データソースをJASPに読み込む
  2. 共通の識別子(ID)に基づいてデータを結合する(JASPでは限定的な機能のため、事前にExcelやRなどで処理することが推奨)
  3. 変数の命名規則や単位を統一
  4. 欠損値や異常値の処理

マルチレベル分析

個人レベルと地域レベルのデータを組み合わせた分析では、マルチレベルモデルが適しています。JASPでは直接的なサポートが限られているため、基本的なアプローチとして:

  1. 地域レベルの変数を個人レベルのデータに結合
  2. 「Regression」→「Linear Regression」を使用
  3. 交互作用項を含めて階層的な影響を近似的に評価

データソース統合の利点

複数のデータソースを統合することで、単一のデータセットでは捉えられない複雑な関係を分析できます。例えば、健康調査データに地域の環境データや医療アクセスデータを組み合わせることで、健康結果の多面的な決定要因を評価できます。

5最終プロジェクトのテーマ設定とリサーチクエスチョン

これまでの分析を踏まえて、データ駆動型の公衆衛生研究プロジェクトを設計する方法を学びましょう。

リサーチクエスチョンの設定

適切なリサーチクエスチョンは以下の特性を持ちます:

JASPの特徴の一つであるベイズ統計分析の基礎を学びましょう。

ベイズ統計は、事前確率と観測データを組み合わせて事後確率を計算する統計的アプローチです。公衆衛生分析では、少ないデータでも意思決定に役立つ情報を提供できる点が有用です。

ベイズ版t検定

  1. 「T-Tests」→「Bayesian Independent Samples T-Test」を選択
  2. 従属変数と分類変数を指定
  3. 「Plots」タブでベイズファクターロビンズや事後分布のプロットを確認
ベイズファクターのプロット

ベイズ分析の解釈

ベイズファクター(BF10)は、代替仮説と帰無仮説のどちらがデータをよく説明するかを示す指標です。BF10 > 1は代替仮説を支持し、BF10 < 1は帰無仮説を支持します。一般的に、BF10 > 3で代替仮説への「中程度の証拠」、BF10 > 10で「強い証拠」と解釈します。

3再現性のある分析

研究の再現性を高めるためのJASPの機能を活用しましょう。

分析状態の保存と共有

  1. 「File」→「Save」で分析状態(データと設定)を.jaspファイルとして保存
  2. 同僚や共同研究者と.jaspファイルを共有することで、全く同じ分析を再現できます

Rコードの表示と活用

  1. 「Preferences」→「Advanced」→「Show R code in output」をオンに設定
  2. 分析を実行すると、出力に使用されたRコードが表示されます
  3. このコードをコピーして、より高度なカスタマイズや他のソフトウェアでの再現に活用できます
4レポート作成と結果の出力

分析結果を効果的に共有・報告するための機能を学びましょう。

結果の編集とカスタマイズ

  1. 表や図を右クリックして「Edit」を選択すると、タイトルや外観を編集できます
  2. 「Copy」を選択すると、表や図をクリップボードにコピーして他のアプリケーションに貼り付けられます

結果のエクスポート

  1. 「File」→「Export Results」を選択
  2. フォーマット(HTML、PDF)を選択
  3. 「Save」をクリックして保存

表のエクスポート

  1. 表を右クリックして「Copy」→「Copy table to clipboard」を選択
  2. ExcelやWordなど他のアプリケーションに貼り付け
  3. LaTeXフォーマットでコピーすることも可能(「Copy LaTeX code」)

APA形式の表

JASPの出力はAPA(米国心理学会)スタイルに準拠しているため、学術論文やレポートに直接使用できます。公衆衛生分野の多くのジャーナルもAPAスタイルを採用しています。

5大規模データセットの扱い方

公衆衛生ビッグデータを効率的に分析するためのテクニックを学びましょう。

メモリ管理

サンプリングとフィルタリング

非常に大きなデータセットでは、分析前に適切なサンプリングやフィルタリングを行うことで処理速度を改善できます:

  1. ランダムサンプリング:事前にExcelやRなどでランダムサンプルを抽出してからJASPで分析
  2. フィルタリング:「Data」→「Filters」で分析に必要なケースのみを選択

注意

ビッグデータの一部のみを分析する場合は、サンプルが全体を代表しているかを慎重に検討する必要があります。特に公衆衛生データでは、特定の集団が過小代表されることがないよう注意しましょう。


分析計画の策定

  1. 使用するデータソースの特定
  2. 主要変数の操作的定義
  3. 分析手法の選択と正当化
  4. 予想される結果と限界点の考察
  5. 公衆衛生実践への応用可能性の検討

良いプロジェクトテーマの例



前へ:第10回チュートリアル 次へ:第12回チュートリアル

第12回:データ駆動型の介入計画

1エビデンスに基づく公衆衛生介入

データ分析結果に基づいて効果的な公衆衛生介入を計画する方法を学びましょう。

エビデンスの階層と評価

JASPでのメタ分析

  1. 「Meta-Analysis」モジュールをインストール(「Modules」→「Module Library」)
  2. 「Meta-Analysis」→「Classical Meta-Analysis」を選択
  3. 効果量と標準誤差のデータを入力または読み込み
  4. 「Model」タブでモデルタイプ(固定効果/ランダム効果)を選択
  5. 「Plots」タブで「Forest plot」と「Funnel plot」にチェック
メタ分析のフォレストプロット
2プログラム理論とロジックモデル

効果的な介入プログラムを設計するためのフレームワークを学びましょう。

ロジックモデルの構成要素

ロジックモデルの例

データに基づくロジックモデル作成

  1. JASPの分析結果から重要な予測因子と経路を特定
  2. 因果関係の強さに基づいて優先的な介入ポイントを選定
  3. 「Regression」や「Correlation」の結果を用いて介入経路の妥当性を評価
  4. 予測モデルから期待される効果の大きさを推定

効果的なロジックモデルの特徴

良いロジックモデルは、明確なIF-THENの関係を示し、データに基づいた因果関係を反映しています。また、測定可能な指標を含み、プログラムの限界や前提条件も明示しています。

3介入効果予測のためのシミュレーション

JASPで構築した統計モデルを使って、介入の潜在的効果をシミュレーションする方法を学びましょう。

回帰モデルを使ったシミュレーション

  1. 「Regression」→「Linear Regression」で回帰モデルを構築
  2. 得られた回帰式を使って、介入後の値を予測
  3. 「Data」→「Compute Column」で予測値を計算

// 回帰式に基づく介入効果のシミュレーション例
// 回帰式:health_outcome = 10 + 2*risk_factor + 3*protective_factor

// 現状の予測値
predicted_current = 10 + 2*risk_factor + 3*protective_factor

// 介入後の予測値(risk_factorが20%減少、protective_factorが30%増加と仮定)
predicted_intervention = 10 + 2*(risk_factor*0.8) + 3*(protective_factor*1.3)

// 予測される改善効果
improvement = predicted_intervention - predicted_current

集団レベルの効果推定

個人レベルのモデルから集団レベルの効果を推定します:

  1. 介入の影響を受ける人口の割合を推定
  2. 「Descriptives」→「Descriptive Statistics」で現在の分布を把握
  3. 介入後の分布をシミュレーションし、集団指標の変化を計算

シミュレーションの限界

JASPでのシミュレーションには限界があります。複雑なシミュレーションが必要な場合は、RやPythonなどの専用ソフトウェアの使用を検討してください。また、シミュレーション結果は使用するモデルの前提条件に大きく依存することを理解しておきましょう。

4介入評価のための指標設計

介入プログラムの効果を測定するための指標を設計する方法を学びましょう。

SMART指標の設計

効果的な評価指標は以下の特性を持ちます:

指標タイプの選択

データ分析に基づく指標選択

JASPの分析結果を活用して、最も感度の高い指標を選択しましょう。例えば、「Regression」や「Factor Analysis」の結果から、介入効果を最も良く反映する変数を特定できます。

5グループワーク:介入プログラム設計

これまでの知識を活用して、データに基づく公衆衛生介入プログラムを設計しましょう。

介入プログラム設計の手順

  1. 問題分析:JASPの分析結果から主要な健康問題と関連要因を特定
  2. ターゲット設定:最も支援が必要な、または介入効果が高い集団を特定
  3. 介入設計:エビデンスに基づく効果的な介入方法の選択
  4. ロジックモデル作成:介入の理論的根拠と期待される効果の流れを図示
  5. 評価計画:効果測定のための指標と分析方法の設計

介入提案の相互評価

以下の観点から介入プログラムを評価します:

介入設計のためのリソース

効果的な公衆衛生介入の設計に役立つリソース:



前へ:第11回チュートリアル 次へ:第13回チュートリアル

第13回:結果の解釈と政策提言

1公衆衛生データ分析結果の解釈

データ分析結果を公衆衛生の文脈で適切に解釈する方法を学びましょう。

統計的有意性と公衆衛生的重要性

結果の文脈化

  1. 「ANOVA」や「Regression」の結果から効果量を抽出
  2. 観察された関連の強さを既存の科学的知見と比較
  3. 集団寄与危険割合(PAF)の推定(可能な場合)
  4. 結果が特定の集団にどのように影響するかを評価
サブグループ分析の例

結果解釈の多角的アプローチ

分析結果を解釈する際は、統計的有意性だけでなく、効果量、信頼区間、サブグループ分析、感度分析なども考慮することが重要です。特に公衆衛生分野では、小さな効果でも集団全体に適用されると大きな影響を持つことがあります。

2エビデンスから政策への橋渡し

データ分析結果を政策提言につなげる方法を学びましょう。

政策提言の基本要素

JASPの分析結果を政策提言に変換

  1. 「Descriptives」の結果から問題の規模と分布を特定
  2. 「Regression」や「ANOVA」の結果から主要な決定要因を特定
  3. 「Machine Learning」モジュールの結果から高リスク集団を特定
  4. 政策オプションの理論的根拠として分析結果を引用
  5. 「Regression」モデルを使って政策介入の潜在的効果を予測

政策提言の限界を認識する

データ分析は政策決定の重要な要素ですが、唯一の要素ではありません。価値観、実現可能性、コスト、政治的背景、倫理的考慮なども政策決定に影響します。これらの要素を認識し、データの限界を明確に伝えることが重要です。

3効果的な政策提言書の作成

JASPの分析結果を活用して、説得力のある政策提言書を作成する方法を学びましょう。

政策提言書の構成

  1. エグゼクティブサマリー(1-2ページ):主要な問題、分析結果、推奨事項の概要
  2. 背景:問題の文脈と重要性
  3. 方法:データソースと分析手法の簡潔な説明
  4. 結果:主要な分析結果(JASPの表やグラフを含む)
  5. 政策オプション:可能な介入方法とそれぞれの長所・短所
  6. 推奨事項:エビデンスに基づく具体的な行動計画
  7. 実施戦略:タイムライン、リソース、障壁への対処法
  8. 評価計画:成功を測定する方法
  9. 付録:詳細な分析結果や補足資料

JASPの結果をエクスポートして活用

  1. 「File」→「Export Results」でHTML形式でエクスポート
  2. 表やグラフを右クリックして「Copy」→「Copy image」でコピー
  3. コピーした表やグラフを文書に貼り付け
  4. APA形式の結果表を使って専門性を示す

効果的な政策提言のコツ

対象者に合わせた言語と形式を使用しましょう。政策立案者は詳細な統計情報よりも、明確な問題定義、実践的な解決策、期待される結果に関心があります。複雑な分析結果は、直感的なビジュアルとストーリーテリングで伝えると効果的です。

4ロールプレイ:ステークホルダーへの結果説明

異なるステークホルダーに対して分析結果を効果的に伝える方法を練習しましょう。

ステークホルダー別のコミュニケーション戦略

ステークホルダー 関心事 コミュニケーション戦略
政策立案者 コスト、便益、実現可能性、世論 簡潔な要約、視覚的な表現、明確な行動計画
医療専門家 臨床的意義、エビデンスの質、実践への応用 詳細な方法論、具体的なガイドライン、比較データ
一般市民 個人への影響、実用的なアドバイス わかりやすい言語、物語、実生活の例
資金提供者 投資収益率、影響力、持続可能性 数量化された成果、長期的ビジョン、成功指標

ロールプレイ演習

  1. JASPの分析結果を基に、特定のステークホルダー向けのプレゼンテーションを準備
  2. その対象者が持ちそうな質問や懸念を予測
  3. 専門用語をどの程度使用するか、どの結果を強調するかを調整
  4. フィードバックを受けて改善

効果的なプレゼンテーションのコツ

統計的な専門用語は最小限に抑え、メッセージを明確にしましょう。聴衆に関連する具体的な例や物語を使うと、抽象的な統計データが理解しやすくなります。また、質問や対話を促し、聴衆のニーズに応じて説明を調整しましょう。

5ピアレビュー:政策提言の相互評価

データに基づく政策提言を批判的に評価する方法を学びましょう。

評価基準

このチュートリアルでは、以下のデータセットを使用します:

これらのデータはこちらのリンクからダウンロードできます。

時系列データの前処理

  1. 日付形式の確認と変換(JASPでは「Data」→「Compute Column」を使用)
  2. 欠損値の処理(線形補間など)
  3. 異常値の検出と処理
  4. 必要に応じてデータの集計(日次→週次、月次など)
2トレンド分析

時系列データの長期的な傾向を分析する方法を学びましょう。

時系列プロットの作成

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. 時間変数と測定値変数を「Variables」欄に指定
  3. 「Plots」タブで「Scatter Plot」にチェック
  4. 「Regression line」にチェックを入れてトレンドラインを表示
散布図とトレンドライン

線形回帰によるトレンド分析

  1. 「Regression」→「Linear Regression」を選択
  2. 従属変数に測定値(例:症例数)、独立変数に時間変数(例:月番号)を指定
  3. 「Plots」タブで「Residuals vs. fitted」にチェックし、残差のパターンを確認

非線形トレンドの分析

データが線形トレンドに従わない場合は、以下の方法を試してみましょう:

3季節性分析

時系列データの季節的パターンを分析する方法を学びましょう。

月別・季節別の集計と比較

  1. 「Data」→「Compute Column」で月や季節の変数を作成
  2. 「ANOVA」→「ANOVA」を選択
  3. 従属変数に測定値、固定因子に月/季節変数を指定
  4. 「Post Hoc Tests」タブで多重比較を設定

季節パターンの可視化

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. 「Split」欄に月/季節変数を指定
  3. 「Plots」タブで「Boxplots」にチェック
月別データの箱ひげ図

// 季節変数の作成例(Data→Compute Column)
ifelse(month %in% c(12, 1, 2), "冬",
ifelse(month %in% c(3, 4, 5), "春",
ifelse(month %in% c(6, 7, 8), "夏",
ifelse(month %in% c(9, 10, 11), "秋", NA))))
4移動平均と平滑化

時系列データのノイズを軽減し、傾向を明確にする方法を学びましょう。

移動平均の計算

JASPでは直接的な移動平均機能がないため、「Data」→「Compute Column」を使って実装します:


// 3点移動平均の計算(Data→Compute Column)
// 列名を「MA3」などに設定
(lag(cases, 1) + cases + lead(cases, 1)) / 3

// 5点移動平均の計算
(lag(cases, 2) + lag(cases, 1) + cases + lead(cases, 1) + lead(cases, 2)) / 5

※注意:JASPでこのような関数を使うには、「R関数を使用」のオプションをオンにする必要があります。

原系列と移動平均の比較

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. 原系列と移動平均列を「Variables」欄に指定
  3. 「Plots」タブで「Scatter Plots」にチェック

移動平均の選択

移動平均の期間は、データの特性に合わせて選択します:

5予測モデルの基礎

時系列データを用いた簡単な予測手法を学びましょう。

単純予測モデル

  1. 「Regression」→「Linear Regression」を選択
  2. 従属変数に測定値、独立変数に時間変数と必要に応じて季節変数を指定
  3. 「Statistics」タブで「Confidence intervals」にチェック
  4. 「Plots」タブで「Residuals vs. fitted」にチェック

得られた回帰式を使って将来の値を予測できます。例えば、時間変数のコード(例:次の月は25月目)に対応する予測値を計算します。

季節性を考慮した予測

  1. 「Regression」→「Linear Regression」を選択
  2. 従属変数に測定値を指定
  3. 独立変数に時間変数と月/季節のダミー変数を指定
  4. 「Model」タブで変数を適切に配置

予測の限界

JASPで実装できる予測モデルには限界があります。より高度な時系列分析(ARIMA、指数平滑法、状態空間モデルなど)が必要な場合は、RやPythonなどの専用ソフトウェアの使用を検討してください。


このプログラムを終了したら、ぜひ本格的な統計ソフトを活用して分析してみましょう。 SPSS STATA SAS  等は商用ですが一定の評価がなされています。Pythonも統計部分はRを使っています。Rは統計処理に特化したプログラム言語であり、実はSーBasicという 先の3つのプログラムとDNAとRNAの関係にあるフリーソフトウェアとして開発されています。

 さらに、より数理的なデータ分析に興味を持ったら、ぜひ確率分布関数、微分積分の基礎、線形行列を復習してみることをおすすめします。 頑張ってください. 木村 朗(kimuakilabo)