JASPで学ぶ公衆衛生ビッグデータ分析

初学者のための実践チュートリアル:第1回~第7回

はじめに

このチュートリアルでは、無料の統計解析ソフトウェア「JASP」を使って公衆衛生ビッグデータの分析を実践的に学びます。JASPは、直感的なグラフィカルインターフェースを持ち、プログラミングの知識がなくても高度な統計分析が行える優れたツールです。

このチュートリアルは、公衆衛生ビッグデータ分析シラバスの第1回から第7回までの内容をカバーしており、JASPの基本操作から始めて、記述統計、データ可視化、相関分析、回帰分析などを段階的に学んでいきます。

JASPのインストール

まずは、JASPをダウンロードしてインストールしましょう。Windows、Mac、Linuxのすべてのプラットフォームで利用可能です。

目次

第1回:公衆衛生とビッグデータの基礎

JASPの基本操作と公衆衛生データの読み込み

チュートリアルへ

第2回:データベースの基礎

公衆衛生データのインポートと前処理

チュートリアルへ

第3回:データ前処理の基礎

JASPでのデータクリーニングと変数変換

チュートリアルへ

第4回:記述統計と可視化

基本的な統計量の算出とグラフ作成

チュートリアルへ

第5回:探索的データ分析

データパターンの発見と仮説生成

チュートリアルへ

第6回:統計ソフトウェアの基礎

JASPの高度な機能と使い方

チュートリアルへ

第7回:相関と回帰分析

変数間の関連性と予測モデルの構築

チュートリアルへ

第1回:公衆衛生とビッグデータの基礎

1JASPのインターフェースを理解する

JASPを起動すると、以下のようなインターフェースが表示されます。左側にデータビュー、右側に分析結果が表示されるシンプルな2ペイン構造です。

JASPインターフェース

JASPのインターフェースは以下の主要部分から構成されています:

  • メニューバー:ファイル操作や設定などの基本機能
  • 分析タブ:実行可能な統計分析の種類
  • データビュー:スプレッドシート形式でデータを表示・編集
  • 結果ビュー:分析結果を表示
2サンプルデータを開く

JASPには様々なサンプルデータが含まれています。公衆衛生データの例として、以下の手順でサンプルデータを開きましょう。

  1. 「File」→「Data Library」→「Browse」を選択
  2. 「Big 5」フォルダから「Big 5 and Health.csv」を選択
  3. 「Open」をクリック

ヒント

自分のデータを使用する場合は、「File」→「Open」から、CSV、Excel、SPSSなど様々な形式のファイルをインポートできます。

3変数の種類を確認・設定する

統計分析を行う前に、各変数の種類(名義尺度、順序尺度、間隔/比率尺度)を正しく設定することが重要です。

  1. データビューで変数名の右側にある測定レベルのアイコンをクリック
  2. 適切な測定レベルを選択:
    • 名義尺度(Nominal):性別、血液型などのカテゴリー変数
    • 順序尺度(Ordinal):教育レベル、症状の重症度など順序のあるカテゴリー
    • 連続尺度(Continuous):年齢、身長、体重など数値データ

注意

変数の測定レベルを正しく設定しないと、適切な分析やグラフが選択できなくなる場合があります。

4公衆衛生関連のオープンデータを探索する

実際の公衆衛生データを使って分析練習をするために、以下のリソースからデータをダウンロードできます:

例として、WHOの新型コロナウイルス感染症(COVID-19)データセットをダウンロードし、JASPにインポートする方法を試してみましょう。

第2回:データベースの基礎と公衆衛生データリソース

1様々な形式のデータをJASPにインポートする

JASPは多様なデータ形式をサポートしています。以下の手順で様々な形式のデータファイルをインポートできます。

  • CSV/テキストファイル:「File」→「Open」→CSVファイルを選択
  • Excelファイル:「File」→「Open」→Excelファイルを選択
  • SPSSファイル:「File」→「Open」→SPSSファイル(.sav)を選択

データインポートのヒント

CSVファイルをインポートする際、区切り文字や小数点の設定が正しいことを確認しましょう。日本語のデータでは文字コードの問題が発生することがあります。UTF-8でエンコードされたファイルを使用することをお勧めします。

2公衆衛生データベースにアクセスする

実際の公衆衛生分析では、専門のデータベースからデータを取得することが多いです。以下のリソースから実践に役立つデータセットをダウンロードできます。

データベース名 提供機関 データの種類 リンク
Global Health Observatory WHO 世界の健康指標、疾病負荷、保健システム アクセス
CDC Data CDC(米国) 感染症、慢性疾患、行動リスク アクセス
e-Stat 厚生労働省統計 厚生労働省(日本) 国民健康・栄養調査、人口動態統計 アクセス

演習として、WHOのGlobal Health Observatoryから「Life expectancy and Healthy life expectancy」データセットをダウンロードし、JASPにインポートしてみましょう。

3基本的なSQLの概念を理解する

多くの公衆衛生データベースはSQLを使ってアクセスします。JASPは直接SQLクエリを実行できませんが、SQLの基本概念を理解しておくと、データの整理や前処理に役立ちます。


-- 基本的なSELECTクエリの例
SELECT 国名, 平均寿命, 健康寿命
FROM 寿命データ
WHERE 年 = 2019
ORDER BY 平均寿命 DESC
LIMIT 10;

このようなSQLコマンドで取得したデータをCSVとして保存し、JASPにインポートすることができます。

4データの構造を確認する

インポートしたデータの構造を確認し、分析の準備をしましょう。

  1. 「Descriptives」→「Descriptive Statistics」をクリック
  2. 分析したい変数を「Variables」フィールドに移動
  3. 「Statistics」タブで基本統計量(N、Mean、SD など)を選択
  4. 「Plots」タブで適切なグラフ(ヒストグラム、箱ひげ図など)を選択
記述統計の設定画面
5データにラベルとメタデータを追加する

分析を容易にするために、変数にラベルやメタデータを追加しましょう。

  1. データビューで変数名をダブルクリック
  2. 変数名、ラベル、値ラベルなどを編集
  3. 「OK」をクリックして変更を保存

データラベルの重要性

公衆衛生データは多くの専門用語や略語を含むことが多いため、適切なラベル付けは分析結果の解釈や報告を容易にします。

第3回:データ前処理の基礎

1データセットの概要を確認する

データ分析を始める前に、データセットの概要を把握しましょう。

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. すべての変数(または主要な変数)を右側の「Variables」欄に移動
  3. 「Statistics」タブで「Valid」と「Missing」をチェック
  4. 「Frequency tables」にもチェックを入れる(カテゴリカル変数の場合)

これにより、各変数の欠損値の数や基本的な分布を確認できます。

2データのフィルタリングと選択

分析対象を特定のサブグループに絞り込むためのフィルタリング方法を学びましょう。

  1. 「Data」→「Filters」を選択
  2. 「Add filter」をクリック
  3. フィルター名を入力(例:「年齢20以上」)
  4. フィルター
html
フィルター設定画面

複雑なフィルター条件

論理演算子(AND, OR, NOT)を使って複雑なフィルター条件を作成できます。例:(age >= 20) AND (gender == "Female")

3欠損値の処理

公衆衛生データでは欠損値が頻繁に発生します。JASPで欠損値を処理する方法を学びましょう。

欠損値の特定

  1. 「Descriptives」→「Descriptive Statistics」で欠損値の数と割合を確認
  2. 欠損値のパターンを確認(特定の変数や対象者に集中していないか)

欠損値の処理オプション

注意

欠損値の処理方法によって分析結果が大きく変わる可能性があります。欠損のメカニズムや割合を考慮して適切な方法を選びましょう。

4変数の変換と再コード化

分析のために変数を変換したり再コード化する方法を学びましょう。

新しい計算列の作成

  1. 「Data」→「Compute Column」を選択
  2. 新しい列の名前を入力
  3. 計算式を入力(例:BMI計算なら「weight / (height/100)^2」)
  4. 「Compute column」をクリック

変数の再コード化(カテゴリ化)

  1. 「Data」→「Compute Column」を選択
  2. 新しい列の名前を入力(例:「BMI_category」)
  3. 条件分岐を使った計算式を入力:
    ifelse(BMI < 18.5, "低体重",
    ifelse(BMI < 25, "普通体重",
    ifelse(BMI < 30, "過体重", "肥満")))
  4. 「Compute column」をクリック

ヒント

JASPの計算列機能はR言語の構文を使用しています。より複雑な変換が必要な場合は、Rの知識があると役立ちます。

5データの正規化と標準化

変数のスケールを調整するための正規化・標準化方法を学びましょう。

z得点への変換

  1. 「Data」→「Compute Column」を選択
  2. 新しい列名を入力(例:「height_z」)
  3. 計算式に「(height - mean(height, na.rm=TRUE)) / sd(height, na.rm=TRUE)」と入力
  4. 「Compute column」をクリック

最小-最大正規化

  1. 「Data」→「Compute Column」を選択
  2. 新しい列名を入力(例:「height_norm」)
  3. 計算式:「(height - min(height, na.rm=TRUE)) / (max(height, na.rm=TRUE) - min(height, na.rm=TRUE))」
  4. 「Compute column」をクリック
前へ:第2回チュートリアル 次へ:第4回チュートリアル

第4回:記述統計学と公衆衛生データの可視化基礎

1基本的な記述統計量の算出

データの中心傾向や散布度を表す基本的な統計量を計算してみましょう。

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. 分析したい連続変数(例:年齢、BMI、血圧など)を「Variables」欄に移動
  3. 「Statistics」タブで必要な統計量にチェック:
    • 中心傾向:Mean(平均値)、Median(中央値)、Mode(最頻値)
    • 散布度:Std. deviation(標準偏差)、Variance(分散)、Range(範囲)
    • 分布の形状:Skewness(歪度)、Kurtosis(尖度)
    • 位置の指標:Quartiles(四分位数)、Percentiles(パーセンタイル)

グループ別の記述統計

「Split」欄にカテゴリ変数(例:性別、年齢層、地域など)を指定すると、グループ別の記述統計量を算出できます。公衆衛生データ分析では集団間の比較が重要です。

2基本的なグラフの作成

JASPで公衆衛生データを視覚化する方法を学びましょう。

ヒストグラムの作成

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. 連続変数を「Variables」欄に移動
  3. 「Plots」タブで「Distribution plots」にチェック
  4. オプション:「Density」にチェックを入れて密度曲線を表示

箱ひげ図の作成

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. 連続変数を「Variables」欄に、グループ変数を「Split」欄に移動
  3. 「Plots」タブで「Boxplots」にチェック
  4. オプション:「Violin element」にチェックを入れて分布の形状も表示
箱ひげ図の例

散布図の作成

  1. 「Regression」→「Correlation」を選択
  2. 2つの連続変数を「Variables」欄に移動
  3. 「Plots」タブで「Scatterplot」にチェック
  4. オプション:「Add regression line」で回帰直線を追加
3グラフのカスタマイズと保存

作成したグラフをカスタマイズして、より情報豊かな可視化にしましょう。

グラフのカスタマイズ

グラフの保存

効果的なデータ可視化のヒント

公衆衛生データを可視化する際は、対象者(一般市民、政策立案者、専門家など)に合わせて、適切な複雑さと情報量を選びましょう。色覚多様性にも配慮した配色を心がけてください。

4度数分布表の作成

カテゴリカルデータの分布を把握するための度数分布表を作成しましょう。

  1. 「Frequencies」→「Frequency Tables」を選択
  2. カテゴリ変数を「Variables」欄に移動
  3. 「Statistics」タブでオプションを設定(割合の表示など)
  4. 「Plots」タブで「Display as bar plot」にチェックすると棒グラフも作成できます
クロス集計表の例
5クロス集計表の作成

2つのカテゴリ変数の関連を調べるためのクロス集計表を作成しましょう。

  1. 「Frequencies」→「Contingency Tables」を選択
  2. 行変数と列変数を指定(例:性別と喫煙状況)
  3. 「Cells」タブで表示内容を設定(観測度数、期待度数、行/列パーセントなど)
  4. 「Statistics」タブでカイ二乗検定などの関連分析も実行できます

注意

クロス集計表のセルに期待度数が5未満のものが多い場合、カイ二乗検定の結果は信頼性が低くなります。その場合はFisherの正確確率検定を使用しましょう。

前へ:第3回チュートリアル 次へ:第5回チュートリアル

第5回:探索的データ分析と仮説生成

1多変量データの探索

複数の変数間の関係を一度に探索するための方法を学びましょう。

相関行列の作成

  1. 「Regression」→「Correlation」を選択
  2. 複数の連続変数を「Variables」欄に移動
  3. 「Plots」タブで「Correlation plot」にチェック
  4. オプション:「Display pairwise scatter plots」で散布図行列も表示
相関行列の例

相関行列を視覚化すると、変数間の関連性のパターンが一目で分かります。公衆衛生データでは、健康指標間の関連や社会的要因との相関を把握するのに役立ちます。

2データのパターン探索とクラスタリング

データ内の自然なグループやパターンを発見する方法を学びましょう。

主成分分析(PCA)

  1. 「Factor」→「Principal Component Analysis」を選択
  2. 分析したい連続変数を「Variables」欄に移動
  3. 「Rotation」タブでローテーション方法を選択(通常は「varimax」や「none」)
  4. 「Plots」タブで必要な図(スクリープロット、バイプロット)にチェック
主成分分析のバイプロット

主成分分析は多数の変数を少数の主成分に要約する方法です。公衆衛生データでは、多数の健康指標から基本的な健康次元を抽出したり、環境要因の構造を理解するのに役立ちます。

K-means クラスタリング

JASPのバージョン0.16以降では、Machine Learningモジュールを追加することでK-meansクラスタリングが利用可能です。

  1. 「Modules」→「Module Library」からMachine Learningモジュールをインストール
  2. 「Clustering」→「K-Means Clustering」を選択
  3. クラスタリングに使用する変数を指定
  4. クラスタ数を設定(「Number of Clusters」)
3外れ値の検出と処理

データ内の異常値や影響の大きい観測値を特定し、適切に処理する方法を学びましょう。

箱ひげ図による外れ値の視覚化

  1. 「Descriptives」→「Descriptive Statistics」を選択
  2. 検討したい変数を「Variables」欄に移動
  3. 「Plots」タブで「Boxplots」にチェック

箱ひげ図では、四分位範囲(IQR)の1.5倍を超える値が外れ値として表示されます。

Mahalanobis距離による多変量外れ値の検出

JASPでは直接Mahalanobis距離を計算する機能はありませんが、計算列機能を使って実装できます。

  1. 「Data」→「Compute Column」を選択
  2. R関数を使って計算(詳細なコードは複雑なため、実際の分析に応じて調整が必要)

注意

外れ値の処理は慎重に行いましょう。単に削除するのではなく、それらが実際の現象を反映している可能性や、測定誤差の結果である可能性を検討してください。特に公衆衛生データでは、外れ値がハイリスク集団を示している可能性があります。

4仮説生成のためのデータ探索

データからパターンを見つけ、検証可能な仮説を生成する方法を学びましょう。

条件付き分析

  1. 「Data」→「Filters」で特定の条件に合うケースのみを選択
  2. 異なるサブグループごとに分析を繰り返し、パターンの違いを観察

探索的な比較分析

  1. 「ANOVA」→「ANOVA」を選択し、グループ間の差を探索
  2. 「T-Tests」→「Independent Samples T-Test」でペアごとの比較を実施

仮説生成のヒント

探索的分析から仮説を生成する際は、データから見つけたパターンが偶然の結果である可能性も考慮しましょう。可能であれば、生成した仮説を新しいデータセットで検証することが重要です。

5探索結果の整理と次のステップ

探索的分析の結果を整理し、体系的な仮説検証へと進む方法を学びましょう。

分析結果の保存

  1. 「File」→「Save」で分析の状態も含めて保存(.jaspファイル)
  2. 「File」→「Export Results」で結果のみをHTML形式で保存

仮説の形式化

探索的分析から見つけたパターンを、検証可能な仮説として明確に定式化します:

  1. 変数間の関係の方向と強さを明示
  2. 潜在的な交絡因子を特定
  3. 適切な統計的検定方法を選択
前へ:第4回チュートリアル 次へ:第6回チュートリアル

第6回:統計ソフトウェアの基礎(JASP応用)

1JASPの高度な機能

JASPの標準機能以外の便利な機能を紹介します。

追加モジュールのインストール

  1. 「Modules」→「Module Library」を選択
  2. 利用可能なモジュールのリストから必要なものを選択
  3. 「Install」をクリックしてインストール

公衆衛生分析に役立つモジュール:

SEMモジュールの例
2JASPでのベイズ統計分析

JASPの特徴の一つであるベイズ統計分析の基礎を学びましょう。

ベイズ統計は、事前確率と観測データを組み合わせて事後確率を計算する統計的アプローチです。公衆衛生分析では、少ないデータでも意思決定に役立つ情報を提供できる点が有用です。

ベイズ版t検定

  1. 「T-Tests」→「Bayesian Independent Samples T-Test」を選択
  2. 従属変数と分類変数を指定
  3. 「Plots」タブでベイズファクターロビンズや事後分布のプロットを確認
ベイズファクターのプロット

ベイズ分析の解釈

ベイズファクター(BF10)は、代替仮説と帰無仮説のどちらがデータをよく説明するかを示す指標です。BF10 > 1は代替仮説を支持し、BF10 < 1は帰無仮説を支持します。一般的に、BF10 > 3で代替仮説への「中程度の証拠」、BF10 > 10で「強い証拠」と解釈します。

3再現性のある分析

研究の再現性を高めるためのJASPの機能を活用しましょう。

分析状態の保存と共有

  1. 「File」→「Save」で分析状態(データと設定)を.jaspファイルとして保存
  2. 同僚や共同研究者と.jaspファイルを共有することで、全く同じ分析を再現できます

Rコードの表示と活用

  1. 「Preferences」→「Advanced」→「Show R code in output」をオンに設定
  2. 分析を実行すると、出力に使用されたRコードが表示されます
  3. このコードをコピーして、より高度なカスタマイズや他のソフトウェアでの再現に活用できます
4レポート作成と結果の出力

分析結果を効果的に共有・報告するための機能を学びましょう。

結果の編集とカスタマイズ

  1. 表や図を右クリックして「Edit」を選択すると、タイトルや外観を編集できます
  2. 「Copy」を選択すると、表や図をクリップボードにコピーして他のアプリケーションに貼り付けられます

結果のエクスポート

  1. 「File」→「Export Results」を選択
  2. フォーマット(HTML、PDF)を選択
  3. 「Save」をクリックして保存

表のエクスポート

  1. 表を右クリックして「Copy」→「Copy table to clipboard」を選択
  2. ExcelやWordなど他のアプリケーションに貼り付け
  3. LaTeXフォーマットでコピーすることも可能(「Copy LaTeX code」)

APA形式の表

JASPの出力はAPA(米国心理学会)スタイルに準拠しているため、学術論文やレポートに直接使用できます。公衆衛生分野の多くのジャーナルもAPAスタイルを採用しています。

5大規模データセットの扱い方

公衆衛生ビッグデータを効率的に分析するためのテクニックを学びましょう。

メモリ管理

サンプリングとフィルタリング

非常に大きなデータセットでは、分析前に適切なサンプリングやフィルタリングを行うことで処理速度を改善できます:

  1. ランダムサンプリング:事前にExcelやRなどでランダムサンプルを抽出してからJASPで分析
  2. フィルタリング:「Data」→「Filters」で分析に必要なケースのみを選択

注意

ビッグデータの一部のみを分析する場合は、サンプルが全体を代表しているかを慎重に検討する必要があります。特に公衆衛生データでは、特定の集団が過小代表されることがないよう注意しましょう。

前へ:第5回チュートリアル 次へ:第7回チュートリアル

第7回:相関と回帰分析

1相関分析の基礎

2つの連続変数間の関連性を測定する相関分析の方法を学びましょう。

Pearson相関係数の計算

  1. 「Regression」→「Correlation」を選択
  2. 相関を調べたい連続変数(例:BMI、血圧、コレステロール値など)を「Variables」欄に移動
  3. 「Statistics」タブで「Pearson」にチェック
  4. 追加オプション:「Confidence intervals」で信頼区間も表示

Spearman順位相関係数

データが正規分布に従わない場合や順序尺度の場合は、ノンパラメトリックな相関係数を使用します:

  1. 「Regression」→「Correlation」を選択
  2. 相関を調べたい変数を「Variables」欄に移動
  3. 「Statistics」タブで「Spearman」にチェック
相関分析の散布図と密度

相関係数の解釈

相関係数(r)の目安:

  • |r| < 0.3:弱い相関
  • 0.3 ≤ |r| < 0.5:中程度の相関
  • |r| ≥ 0.5:強い相関

ただし、公衆衛生研究では、弱い相関でも集団レベルでは重要な意味を持つことがあります。特に予防医学の文脈では、小さな効果サイズでも集団全体への影響は大きい場合があります。

2単回帰分析

1つの独立変数から従属変数を予測する単回帰分析の方法を学びましょう。

線形回帰分析の実行

  1. 「Regression」→「Linear Regression」を選択
  2. 従属変数(予測したい変数、例:血圧)を「Dependent Variable」欄に移動
  3. 独立変数(予測に使う変数、例:BMI)を「Covariates」欄に移動
  4. 「Statistics」タブで必要な出力(「Estimates」、「Model fit」など)を選択
  5. 「Plots」タブで診断プロット(「Residuals vs. fitted」など)を選択
残差プロット

結果の解釈

3重回帰分析

複数の独立変数を使った回帰分析の方法を学びましょう。

重回帰モデルの構築

  1. 「Regression」→「Linear Regression」を選択
  2. 従属変数を「Dependent Variable」欄に移動
  3. 複数の独立変数を「Covariates」欄に移動
  4. 「Method」でモデル選択方法を指定(通常は「Enter」)

交互作用の追加

  1. 「Model」タブをクリック
  2. 交互作用を追加したい変数を選択(Ctrl/Cmdキーで複数選択)
  3. 「Add interaction」をクリック
交互作用の設定

変数選択

公衆衛生データ分析では、理論的な根拠に基づいて変数を選択することが重要です。統計的な有意性だけでなく、公衆衛生的な意義も考慮しましょう。特に交絡因子の調整は慎重に行う必要があります。

4回帰診断

回帰モデルの前提条件を確認し、モデルの適切性を評価する方法を学びましょう。

残差プロットの確認

  1. 「Regression」→「Linear Regression」の「Plots」タブで、以下のプロットを選択:
    • 「Residuals vs. fitted」:等分散性の確認
    • 「Q-Q plot of residuals」:正規性の確認

多重共線性のチェック

  1. 「Regression」→「Linear Regression」の「Statistics」タブで「Collinearity diagnostics」にチェック
  2. VIF(分散拡大要因)値が10を超える場合、多重共線性が疑われます

影響力の強い観測値の特定

  1. 「Regression」→「Linear Regression」の「Assumption Checks」タブで「Influential case diagnostics」にチェック
  2. Cook's距離が大きい観測値に注目

注意

回帰の前提条件が満たされない場合は、データ変換(対数変換など)や頑健な回帰手法の使用を検討しましょう。公衆衛生データでは、分布の偏りやサンプリングバイアスが前提条件に影響することがあります。

5公衆衛生データにおける因果関係と相関関係

公衆衛生研究における因果推論の限界と解釈について考えましょう。

交絡因子の調整

  1. 「Regression」→「Linear Regression」で、潜在的な交絡因子を「Covariates」に追加
  2. 階層的回帰分析で、交絡因子のブロックを先に投入して効果を調整

層別解析

  1. 「Data」→「Filters」で特定のサブグループを選択
  2. 各サブグループで同じ分析を繰り返し、効果の違いを確認

因果推論の限界

横断的研究デザインでは、変数間の相関関係は示せても因果関係を証明することは困難です。公衆衛生データの解釈では、時間的順序、生物学的妥当性、用量反応関係などの要素も考慮して因果関係の可能性を評価しましょう。

前へ:第6回チュートリアル トップに戻る

まとめと次のステップ

このチュートリアルでは、JASPを使った公衆衛生ビッグデータ分析の基礎から応用までを学びました。第1回から第7回までのチュートリアルを通じて、以下のスキルを習得しました:

これらのスキルを実際の公衆衛生データに適用することで、健康課題の特定、リスク要因の分析、介入効果の評価など、様々な実践的な分析が可能になります。

発展的な学習

さらに学習を深めるには、以下のリソースが役立ちます:

また、このチュートリアルで学んだ内容をもとに、公衆衛生シラバスの第8回以降の内容(疫学データ分析、時系列分析、機械学習など)に進むことをお勧めします。