Last Updated on 2024年3月28日 by カメさん
こんにちは!看護師のカメさん(@49_kame)です。
この記事は3分程度で読めます。
今回は正規分布とか、データの分布について解説するよ。
研究で得られたデータを確認するためには、データの分布がどのようなものであるかを確認しなければいけません。データの分布を確認することで、単なる数字の羅列が重要な情報に変化します。
データの分布には種類がある?
データの分布とは?
- データがどんな感じでばらついているかということ
- 項目毎のデータ数のばらつきを評価する
- データ数をグラフにして視覚的に確認する
具体的にグラフで示すと以下のような分布があります。
正規分布
最も高い棒を中心に左右対称であり、中心から離れる程、棒は低くなります。
正規分布についての詳細な説明は下記でするね。
一様分布・高原の形になるヒストグラム
どの区間の棒の高さもほぼ同じになります。
異質な3つ以上の群のデータを分類せずにグラフを作成すると、このようなグラフになります。
ヒストグラムとは?
- 縦軸に度数(体重とかの量)
- 横軸に階級(対象者とか)
- 量的なデータを示すグラフ
対数正規分布・右に裾を引いているヒストグラム
最も高い棒が分布の中央よりも左側にあり、右側に向かって低くなります。
実験などで、ある基準となる値よりも小さな値にならないようなデータを収集した時などに現れるグラフです。
ふた山になるヒストグラム
分布の右と左にそれぞれ高い棒があり、山が2つあるように見えます。
これは、異質な2つの群のデータを分けずに収集したデータをグラフにした時に現れます。
正規分布について詳しく解説
それじゃ本題に戻って、正規分布について確認していくよ。
正規分布とは上記でも解説した通り、真ん中が最もデータの数が多くて、真ん中から遠ざかるほどにデータ数が少なくなる分布です。
理論的にはほとんどのデータが正規分布に従うと考えられています。
しかし統計手法を選択する上では、データが正規分布なのかどうかを確認する必要があります。そのため、一般的にはShapiro-Wilk:シャピロウィルクの検定を使用して正規分布かどうかを確認します。
※Shapiro-Wilk検定での注意事項
Shapiro-Wilk検定では帰無仮説を「正規分布である」としています。そのためShapiro-Wilk検定の結果がp≧0.05の時に帰無仮説を採択するので「正規分布だ」と考えます。差の検定のようなp<0.05で「優位差あり」と判断する時と異なるので注意してください。
厳密に言うと帰無仮説を否定することを保留するという意味で、必ずしも正規分布とは言えないが、正規分布に従わないとも言えないという曖昧な感じだけどね。
正規分布かどうかでデータの表し方が変わる?
論文でデータを示す際は、全てのデータを示さずに代表的な値である特性値を示します。
特性値とは?
- データの持っている情報を要約して説明する値
- 代表値と散布度に分かれる
代表値とは?
- データの中心を表す
- 平均値と中央値がある
散布度とは?
- データのばらつきを表す
- 標準偏差と四分位範囲がある
データの分布によって使用できる代表値と散布度が異なるから注意が必要だよ!
データの分布によって統計解析方法が変わる?
統計解析では、データの分布が正規分布に従うか否かで解析方法が異なります。データの分布の違いによる解析方法に「パラメトリック法」と「ノンパラメトリック法」があります。
パラメトリック法とは?
- 正規分布に従うデータに使用する検定です
- 各種、統計解析方法にそれぞれパラメトリック検定とノンパラメトリック検定が設定されています
- 結果を記載する際の特性値(データの要約)は、代表値(データの中心)は平均値を使用し、散布度(データのばらつき)は標準偏差を使用します
ノンパラメトリック法とは?
- 正規分布に従わないデータに使用する検定です
- 結果を記載する際の特性値(データの要約)は、代表値(データの中心)は中央値を使用し、散布度(データのばらつき)は四分位範囲を使用します
- 正規分布のデータにも使用することができます
実際の論文では?
今回紹介する論文は看護師の多重課題困難感を目的変数、看護実践の卓越性や熟慮性、自己効力感を説明変数として関係を調査した論文です。
この論文では得られたデータについて、Shapiro-Wilk検定を行い正規性を確認しています。
論文での看護実践の卓越性のデータみると、 Shapiro-Wilk検定 の結果はp=0.078でした。つまり、p≧0.05なので正規分布です。
そのため、以下に示した表は代表値が平均値、散布度が標準偏差で記載されています。
認知的熟慮性や自己効力感については Shapiro-Wilk検定 の結果がp<0.05で、正規分布していないから、中央値や四分位範囲を記載する必要があるかもね。
まとめ
- 正規分布とは中心が最も高くて、左右対称のデータ
- 正規分布かどうかで分析方法が変わる
- 正規分布かどうかで結果の示し方が変わる
おまけ
今回紹介した論文は、看護師の多重課題困難感について関連する要因を探ろうとする研究でした。多重課題というのは、現場でも良く目にする課題だと思います。その要因が分かれば、実践での困難だけでなく、教育にも繋がることであるのでとても意義深い研究だと思います。
しかし、多重課題困難感が必ずしも悪いわけではなく、多重課題困難感を感じた先にある不安や恐怖、インシデントなどに問題があって、困難感を感じること自体は重要なことであると感じました。色々な視点で論文を解釈することは重要なことなので、論文に記載されている解釈をそのまま読み込むのではなく、自分なりの解釈も加えながら読んでいきましょう。
コメント