Last Updated on 2023年12月28日 by カメさん
こんにちは!看護師のカメさん(@49_kame)です。
この記事は5分程度で読めます。
今回は効果量について解説するよ。
統計において差があるか差が無いかだけでなく、差の程度まで明らかにすることが重要です(差の検定の場合)。そこで重要になるのが効果量です。
差があるか差が無いかを判定するのが有意確率(p値)で、どのくらい差があるかを示すのが効果量になります。有意確率(p値)について詳しく知りたい方は下記の記事を参照してください。
効果量とは?
効果量( effect size)とは、扱うデータの単位(-cmや-時間など)に影響されない標準化された指標です。
効果量はその名の通り効果の程度を表します。統計における効果の程度とは、差の検定ならば差の程度、相関の検定ならば相関の程度(つまり相関係数)、回帰分析ならば影響の程度(つまり決定係数R2)のことです。
信頼区間も差の程度を表すことができるけど、効果量はデータの単位に影響されないという点が大きな特徴だね。
効果量を使うメリット
効果量は特徴として、前述の通り差の程度や相関の程度を標準化しています。そのため同じような研究の報告間でも程度を比較することができます。
一方で信頼区間の場合はn数やデータの測定単位が異なる研究報告間での比較は出来ないよ。
効果量の特徴は「標準化された指標」であること
例えば差の検定について考えましょう。
A病棟の看護師と、B病棟の看護師の職場満足度(点数化できるアンケート)を調査して平均と標準偏差を比較した場合を考えます。下記がその時のエラーバーグラフです。棒グラフが平均値で、エラーバーが標準偏差(ばらつき)です。
平均の差を見ると、A病棟もB病棟も変わりありません。しかし標準偏差(ばらつき)に大きな差があります。ばらつきが大きいということは、本当はもっと大きな平均差があるかもしれないということです。
ここで役に立つのが効果量です。効果量を使うことで、両者のばらつきを一定(標準偏差=1)にして比較することができます。
データのばらつきを考慮して、本当はどのくらい差があるのかを示すのが効果量だよ。ちなみに2つのデータの単位が異なる場合も、効果量であれば比較できるよ。
「有意確率(p値)」と「効果量」は何が違うの?
有意確率(p値)は差の検定であれば、差があるか無いかの確率を判定することはできます。しかしp値では実際の差の大きさを知ることはできません。
そのためp値に加えて効果量を確認することが推奨されています。p<0.05で有意な差がある、かつ、効果量にて差の程度を確認しましょう。
有意確率(p値)はn数が影響する
n数(サンプルサイズ)が大きくなると、有意確率(p値)が小さくなる、つまり有意になりやすいという特徴があります。
一方で効果量はn数に影響されないという特徴があります。サンプルサイズの観点からも効果量は有用な指標であると言えます。
サンプルサイズについて詳しく知りたい方は下記の記事を参照してください。
効果量には種類があるの?
効果量には様々な種類があります。そして、実施する検定の種類によって使用する効果量が異なります。それぞれの検定で使用される効果量と効果の大きさの基準を下記にまとめたので確認してください。
相関係数は効果量の1つだったんだね。ちなみに相関分析については下記の記事にまとめてるから良かったら参照してね。
ノンパラメトリック法(差の検定)の時の効果量は?
ノンパラメトリック法(差の検定)を行う時の効果量は上記の表だと r になっています。ノンパラメトリック法の際の効果量rは検定統計量をZに変換して求めます。検定統計量Zとは平均が0、分散が1となるようにデータを標準化した値のことです。
検定統計量とはデータを基に算出された代表的な値のことだよ。統計では、データから算出した統計量(TやZ)を基に検定を行うよ。
z変換は以下の式で行うことができます。また、SPSSで検定を行った場合は検定統計量はZで算出されるので、そのまま効果量の計算に使用しましょう。
検定統計量をZに変換した後は、下記の式で効果量 r を求めましょう。
r 族と d 族とは?
効果量の指標にはr族とd族があります。一般的に「r」「η(イータ)」「φ(ファイ)」「Cramer(クラメール)のV」といったr族を使用することが推奨されます。
d 族(d-family)とは?
d族には「Cohen(コーエン)のd」「Glas(グラス)のΔ(デルタ)」「Hedge(ヘッジ)のg」などがあります。この中でも、よく使われるのが「Cohenのd」です。
Cohenのdは単に効果量dという時もあるよ。
d≧0.8で差の程度が大きいと判断します。d族のデメリットはd=1よりも大きい値が算出されることがあるため理解しづらいことです。そのため、一般的には後述のr族を使用することが多いです。
r 族(r-family)とは?
r族には「r」「η(イータ)」「φ(ファイ)」「Cramer(クラメール)のV」などがあります。
回帰分析の決定係数(R²)もr族の1つです。回帰分析の際は決定係数(R²)の他に、標準回帰係数(重回帰分析の場合は標準偏回帰係数)も効果の指標として用いることが一般的です。
r族を使用するメリットは、絶対値でr=0〜1の間の値が算出されることです。そのため、前述のd族よりも理解がしやすいという特徴があります。
こだわりが無いなら、r族を使うことをおすすめするよ。
効果量の大きさはどうやって判断するの
効果量には明確な基準はありませんが、以下の表(前述の表と同じ)に示す効果の目安に則り検定結果を解釈することが一般的です。
効果量には様々な種類はありますが、どの効果量も、数字が大きいほど効果の程度が大きいと判断します。
小さな効果量にも意味がある
検定の結果、「効果量が小さい」と算出された場合も、扱うデータによっては小さな効果量であっても重要な意味を持つ場合があります。
研究者であるあなた自身の経験を加味して、その結果が臨床的に意味のあるものかどうかを判断することが重要です。
効果量は何に活用できるの?
効果量を活用する方法は、大きく分けて2つあります。1つ目は、ここまで解説してきた、「効果の程度の判定」です。そして2つ目が「サンプルサイズの設計」です。
1つ目の「効果の程度の判定」は前述の通り、データの差や相関の程度を知るために効果量を算出します。そして2つ目の「サンプルサイズの設計」では、サンプルサイズを計画するための検定力分析の際に、効果量を使用します。
検定力分析とは、「サンプルサイズ」「有意水準(α)」「検定力(1-β)」「効果量」の 4 つの要素を使用するもので、他の 3 つが決まれば残りの 1 つが決まるという関係を活用したものです。
サンプルサイズの設計については下記の記事(現在作成中です)で詳しくまとめているので参照してください。
【サンプルサイズとは?】「研究に必要な対象者数の計算方法を解説!(検定力分析・区間推定)」
効果量の算出方法は?
d族・r族の両方の効果量を算出してくれる統計ソフトはほとんどありません。そのためExcel等を使用して手作業で算出します。
外国語教育研究ハンドブックー研究手法のより良い理解のためにーのWebサイトからExcelファイルをダウンロード出来るため活用してください。ダウンロードしたファイルに必要な数値を入れると効果量を算出することができます。
上記のExcelファイルであればr族・d族ともに算出することができます。
ちなみに、このwebサイトにある書籍は心理学研究の入門書としておすすめされているよ。看護研究は心理学研究に近いところがあるから、おすすめだよ。
d族のみであればG*Powerを使用しても算出できる
G*Poweのインストール方法はサンプルサイズの設計の記事に詳しく記載しているので確認してください。
Determineをクリックすると、各グループのMean や SD を入力してCalculateをクリックすることで効果量を計算することができます。
n1=n2をクリックします。
Mean group1とMean group2にはグループ1とグループ2の平均値をそれぞれ入力します。
SD σ group1とSD σ group2にはグループ1とグループ2の標準偏差をそれぞれ入力します。
例えば、Mean group1:20、Mean group2:30、SD σ group1:15、SD σ group2:15と仮定して「Calculate」をクリックすると効果量が0.6666667と算出されます。
効果量の問題点は?
効果量には問題点もあります。
それは、算出した効果量が今回の標本に限った結果であるということです。つまり効果量に推定の意味はありません。
例えば、研究対象20名で実施した研究で効果量rが0.5(効果量大)であったとしても、母集団の効果量は不明です。そのため、データが正規分布に従うのであれば95%信頼区間も合わせて確認するようにしましょう。
95%信頼区間は推定の意味があるから、母集団を推定した差の程度を確認することができるよ。
95%信頼区間については下記の記事で詳しく解説しているから参照してね。
論文に記載する際の注意点
上記の理由から、算出した効果量を結果に記載する場合は、「本研究の対象では…」と記載するようにしましょう。
一方で、ノンパラメトリックな検定(Mann-Whitney検定やWiIcoxonの符号付順位検定など)において、効果量は有用です。ノンパラメトリックな検定では95%信頼区間を算出することができないため、効果量を算出することで、差の程度を判定することができます。
実際の論文
実際の論文で効果量を見てみましょう。下記の論文は、新人看護師に対して認知行動理論に基づくプログラムを実施して、プログラム前後で自己効力感に変化があるかを調査した研究です。
森 貴弘、國方 弘子、多田 達史、和田 晋一(2020).新人看護師の自己効力感に対する認知行動療法アプローチの効果:パイロット研究Vol. 29, No. 1, pp. 33~41.
この調査では、プログラムによる介入の前後(正確には実施前1回、実施後に2回)で、一般性セルフ・エフィカシー尺度(GSES)、看護師レジリエンス尺度、推論の偏り尺度(TES)のデータを収集して平均値の差の検定・効果量の算出を行なっています。
その結果が以下の表です。
ESと書かれているのが効果量(Effect Size)です。効果量はcohen’s dを使用しており「†††」が効果量大「††」が効果量中、「†」が効果量小として記載されています。効果量の目安は、小(0.20 ~0.49)、中(0.50~0.79)、大(≧0.80)として判定しています。前述の表に記載してある基準と同じ目安で判断していますね。
まとめ
近年、研究結果として95%信頼区間と効果量を記載することが推奨されています。そのため、研究結果を判断する時は有意確率(p値)と合わせて、95%信頼区間と効果量を確認し、「有意に差があり、差の程度は〇〇である」と解釈するようにしましょう。
繰り返しになるけど、臨床研究では統計結果について、あなたの臨床経験を踏まえて意味のある結果かどうかを判断することが重要になるよ。
コメント