Last Updated on 2023年12月28日 by カメさん

こんにちは!看護師のカメさん(@49_kame)です。
この記事は5~6分程度で読めます。

今回は、質的データをダミー変数に変換する方法を解説するよ。
ダミー変数とは、多変量解析(多重回帰分析や多重ロジスティック回帰分析など)の際に質的データを独立変数として扱う際に必要になります。
研究では統計解析のために膨大なデータ(アンケート調査のデータなど)を入力する作業が必要となります。これは単純作業ですが、多大な労力と時間を要します。また正確性も重要になります。そのため、データ入力を専門業者に依頼することも1つの選択肢だと思います。
興味のある方は【アンケート調査のデータ入力は代行業者にお任せ】研究データのデータ入力代行業者を探すならEMEAO!(エミーオ)がおすすめ!で紹介しているので良かったら参照してください。
質的データを独立変数に投入しよう
看護師の研究における多変量解析では、独立変数に量的変数(尺度得点など)と質的変数(性別や学歴など)が混在することがよくあると思います。
量的変数に関しては、データをそのまま独立変数として使用すれば問題ありません。しかし質的な変数についてはダミー変数に変換する必要があります。

ダミー変数にすると多重回帰分析でも多重ロジスティック回帰分析でも質的データを独立変数として分析することができるよ。
ダミー変数とは?
ダミー変数とは?
- 質的変数のカテゴリーを0か1に置き換えたデータ
- 性別であれば男性を0、女性を1
- 疾患の有無であれば、疾患なしが0、疾患あり1など
質的変数をダミー変数に変換してみよう
今回ダミー変数に変換する質的変数は「性別」「最終学歴」「年齢」です。

男と女の2つの属性を設定
専門学校と大学、大学院の3つの属性を設定
20代と30代、40代、50代の4つの属性に設定
ステップ1:属性の数に合わせて列を作ろう
まずは質的データの属性にあった列を設定します。
属性の数ー1の列を作成します。「性別」は1つ、「最終学歴」は2つ、「年齢」は3つの列を作ります。


列とは、縦の表のことだよ。
ステップ2:基準となる0を決めよう
ダミー変数は0、1で表現されます。そして基順となる0を決める必要があります。
今回は「性別」は男性が0、「学歴」は専門学校が0、「年齢」は20代を0と設定します。

基準0は研究者が設定する
質的変数のうち、どの属性を基準0とするかは研究者が決めます。例えば男を基準0にしても良いですし、女を基準0にしても良いです。論文では、どの属性を0にしたかは必ず記載しましょう。
ステップ3:列の項目を設定しよう
それぞれの列の項目を設定しましょう。基準0以外の項目を列の上部に記載します。

何で基準0にした属性は列に含めないの?
今回の例だと、女性の列に記載した属性が0なら自動的に、男性だと分かるからです。また属性が3つ以上ある場合でも同様です。例えば最終学歴で考えると、全ての項目が0なら自動的に専門学校だとわかります。
ステップ4:質的データをダミー変数に変換しよう
準備が整いましたので、質的データをダミー変数に変換しましょう。
基順0を男に設定したので「女の列」に、女であれば1、男であれば0を記載していきます。
基準0を専門学校にしたので「大学の列」に大学であれば1を、「大学院の列」に大学院であれば1を記載します。該当しない場合は0を記載します。
基準0を20代にしたので「30代の列」「40代の列」「50代以上の列」にそれぞれ該当すれば1を、該当しなければ0を記載します。

記載する数字は0か1だけ
専門学校=0、大学=1、大学院=2のような標記はできないため注意してください。上記で解説した通り、「属性-1」の数の列を作成して、それぞれ0か1を記載しましょう。
以上でダミー変数への変換は終了です。

簡単だね。これで量的変数と質的変数を混ぜて分析できるよ!
ダミーデータの結果の解釈は?
ダミー変数を用いて分析した際の結果の解釈について解説します。
オッズ比を例に考えましょう。
オッズ比とは?
独立変数が1変化したら、どのくらい従属変数に影響(倍率)があるかを示す指標。
オッズ比について詳しく知りたい方は、下記の記事を参照してください。
オッズ比は独立変数が1変化した場合を考えます。そのため「男・女」や「あり・なし」のようなダミー変数の場合は0と1なので、1だけ増加するということは男→女、なし→ありの変化ということです。
例えば疾患のなりやすさが従属変数、性別が独立変数だとした時の性別のオッズ比が1.4だとします。この結果は、男(ダミー変数0)に比べて女(ダミー変数1)は1.4倍疾患になりやすいことを表しています。

0→1の変化。つまり独立変数の男0が女1に変化した時に、従属変数には1.4倍の影響を与えるということだね。
ダミー変数を解釈する時は、必ずどちらが0でどちらが1かを確認しよう
ダミー変数の0と 1の割り当ては研究者が決定します。0と1を反対に解釈すると、逆数の結果となってしまいます。
ダミー変数を男0女1だと解釈していが実は男1女0だった場合を考えます。上記では女性だと1.4倍で疾患になりやすいと解釈しましたが、実は反対で1÷1.4(逆数)で女性だと0.71倍で疾患になりやすいという、まったく違う解釈になるので注意しましょう。

なんと論文によっては基順0を書いていない論文もあるよ!
実際の論文のダミー変数を見てみよう
この論文はでは看護師の多重課題困難感に関連する要因を多重ロジスティック回帰分析にて調査した研究です。
分析方法からダミー変数を確認
論文の分析方法の項を見てみましょう。
この論文では従属変数である多重課題困難感と独立変数のうちの性別と年代についてダミー変数を使用しています。
「多重課題困難感」属性は感じない群と感じる群の2つで、感じない群を基準0としています。「性別」属性は男女の2つで、男を基準0としています。「年代」属性は20歳代、30歳代、40歳代、50歳代の4つの属性で、50歳代を基準0としています。
ダミー変数の結果の解釈
まずは性別のオッズ比を基に解説します。男性を基準0としているので、男性が0、女性が1です。このオッズ比は男性0→女性1に変化したときの従属変数への影響を示しています。つまり女性の時は多重課題困難感を感じやすい(従属変数は、多重課題困難感を「感じない」が0、「感じる」が1)という結果です。
年代のダミーについても同様です。20代のダミーであれば、「20代ならば○○倍多重困難感を感じやすい」という解釈です。
前述の通り、基準0をどこに設定したかを確認しましょう。間違えると反対の結果の解釈になるので注意しましょう。

論文を読む時に基準0がどれかを理解していないと、何のことを議論しているか分からなくなるから注意してね。
まとめ

質的変数であってもダミー変数に変換することで多変量解析に投入することができます。
大事なことは、「基準0の設定」と「ダミー変数は0・1しかない」ということです。これを念頭に置きながら独立変数の設定や、論文の解釈をしていきましょう。
この記事を読んだ方におすすめの書籍を下記で紹介しています。良かったら参照してください。
研究では統計解析のために膨大なデータ(アンケート調査のデータなど)を入力する作業が必要となります。これは単純作業ですが、多大な労力と時間を要します。また正確性も重要になります。そのため、データ入力を専門業者に依頼することも1つの選択肢だと思います。
興味のある方は【アンケート調査のデータ入力は代行業者にお任せ】研究データのデータ入力代行業者を探すならEMEAO!(エミーオ)がおすすめ!で紹介しているので良かったら参照してください。
引用・参考文献
- 対馬栄輝(2019).医療系研究論文の読み方・まとめ方.東京図書,東京.
コメント