効果量とは?「有意差あり」の次に必ず見るべき数字を身長差で体感する

用語解説

「ヒューマン&エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん?」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。

今回のお題は効果量——「有意差あり」の次に必ず見るべき、もうひとつの数字。

前回の「有意差・p値」の記事で、最後にエコノが「差の大きさを表す指標は効果量って呼ぶんやけど、それはまた別の記事でやろう」と言うてたアレです。

ダニングクルーガー効果は嘘?〜で「採点精度の相関係数」が出てきたアレ。 「待てる子=成功」はどこまで本当?マシュマロテストを大規模データで再検証(Watts 2018)で「共変量を入れたら関連が縮んだ」と書いたアレ。 それらの数字を「で、それってデカい差なん?」と評価する道具が、効果量です。

「有意」だけ見て満足してしまった方、ここで二段階目の問いを手に入れていってください。


サマリとこの記事でわかること

効果量とは、差や関連の「大きさ」を、ばらつきや指標を揃えて比較できるようにした数値のことです。

この記事でわかること

  • なぜ「有意かどうか」だけでは足りないのか──差の「大きさ」を別に測る必要がある理由
  • 効果量とは何か──身長差を例に Cohen’s d で体感する
  • 相関係数 r も効果量──Watts (2018) で「縮んだ関連」が何を意味するか
  • 効果量の慣例的な大小の目安と、その限界


第1幕:「有意」のあとに、何を見るか

エコノ
エコノ

ヒューマン、前回の記事で「有意差は『差が偶然じゃない』ってことしか言ってない」って話したやろ。覚えてるか?

ヒューマン
ヒューマン

覚えてるで。10万人調べたら0.3点差でも有意になるってやつやろ。あれショックやったわ。俺、テストで10点上がっただけで成長した気しかせえへんかったのに。

エコノ
エコノ

その自信、なんとかせなあかんな……。まあええわ。今日はその続きや。「有意かどうか」だけ見てもアカンってことは、もうひとつ見なあかん数字がある。それが「差の大きさ」を測る数字や。ただ、ここで問題が出てくる。たとえば「身長」を例にしよか。「男女で平均10cm違う」って聞いたら、どう思う?

ヒューマン
ヒューマン

……まあ、デカい違いやな。10cmやろ?

エコノ
エコノ

ほな、テストの点数で「平均10点違う」って聞いたら?

ヒューマン
ヒューマン

それもデカいんちゃう?……あれ、でもテストの満点何点や?

エコノ
エコノ

そこや。100点満点なら10点はデカい。1000点満点なら誤差や。「10」っていう数字だけ見ても、デカいか小さいかわからん。

ヒューマン
ヒューマン

あー、せやな。単位とか規模が違うと比べられへんわ。

エコノ
エコノ

やから研究では、差の大きさを「ものさし揃えて」見るための工夫がある。それを効果量って呼ぶんや。差を、ばらつきとかの共通の基準で割って、研究や分野が違っても比べられる数字に変換する。

ヒューマン
ヒューマン

おお、便利やん。

📝 ここまでのおさらい

  • 有意差は「偶然じゃない」を判定するだけ。差の大きさは別に測る必要がある
  • 「○点差」「○cm差」みたいな生の差は、単位や規模が違うと比較できない
  • 効果量=差の大きさを、共通のものさしで揃えて表す数字

第2幕:身長差で体感する──Cohen’s d

エコノ
エコノ

効果量にはいくつか種類があるんやけど、いちばん有名なのが Cohen’s d ってやつや。「コーエンのディー」と読む。

ヒューマン
ヒューマン

いきなりカタカナの記号出てきた。だいじょうぶか俺。

エコノ
エコノ

だいじょうぶ、考え方シンプルや。さっきの身長の話に戻るで。男女の平均身長差は、だいたい10cm前後ある。

ヒューマン
ヒューマン

せやな。

エコノ
エコノ

でも10cmって、デカいか小さいか判断するには、もう一つ情報が要る。「同性のなかでも身長はどれくらいバラついてるか」や。

ヒューマン
ヒューマン

ばらつき……?

エコノ
エコノ

統計用語で言うと標準偏差ってやつやな。「平均からどれくらい散らばってるかを表す数字」や。

ヒューマン
ヒューマン

また術語増えた。覚えなあかんやつ?

エコノ
エコノ

いや、名前は今は忘れてええ。「ばらつきを数値にしたもん」ぐらいの理解で十分や。今日の主役は効果量やからな。

ヒューマン
ヒューマン

助かる。続けてくれ。

エコノ
エコノ

ええか、男だけで見ても、150cmの人もおれば185cmの人もおる。同じ性別のなかでばらつきがあるやろ。そのばらつき(標準偏差)を「だいたい7cmぶん」やとするわ。男女の平均差は10cm。これを比べたら、「同性のなかのばらつきよりも、男女差の方がデカい」っていう状況や。

ヒューマン
ヒューマン

おお、それなら男女差は確かにデカいって言えるな。

エコノ
エコノ

逆に、もし男女の平均差が10cmやのに、同性内のばらつきが30cmあったら?

ヒューマン
ヒューマン

それは……男女差がばらつきに埋もれてもうてる感じやな。

エコノ
エコノ

せやろ。同じ「10cm差」でも、ばらつきと比べてデカいか小さいかで意味が変わる。この「差を、同性内のばらつきで割った値」が、Cohen’s d や。男女の身長差なら、d はだいたい 1.5〜2 くらいになる。

ヒューマン
ヒューマン

ふむ。で、その「1.5」とか「2」がデカいんか小さいんか、どう判断すんねん。

エコノ
エコノ

ええ質問。慣例的な目安があってな、d = 0.2 で「小さい」、0.5 で「中くらい」、0.8 で「大きい」とされる。

ヒューマン
ヒューマン

ほな男女の身長差はめっちゃデカい部類やな。1.5とか2やもん。

エコノ
エコノ

せや。逆に、心理学の研究でよくあるのは d = 0.3 とか 0.4 くらい。「あるけど劇的ではない」サイズが多い。

ヒューマン
ヒューマン

あー、なるほど。日常でよく見るのは、思ったよりつつましいんやな。

エコノ
エコノ

ただ注意な。この「0.2/0.5/0.8」はあくまで目安や。分野や文脈で意味は変わる。たとえば医療で「死亡率を下げる薬」やと、d がめちゃ小さくても社会的にはとんでもなく重要やったりする。

ヒューマン
ヒューマン

へぇ……基準が絶対やないんやな。

📝 ここまでのおさらい

  • Cohen’s d=平均差を、ばらつき(同性内の標準偏差)で割った効果量の指標
  • 同じ「10cm差」でも、ばらつきと比べてデカいか小さいかで意味が変わる
  • 慣例的な目安は d = 0.2(小)、0.5(中)、0.8(大)。ただし分野や文脈で意味は変わる

第3幕:相関係数 r も効果量

エコノ
エコノ

効果量はもうひとつ、よく出会う形がある。相関係数 r や。

ヒューマン
ヒューマン

相関係数って、あの「2つのものがどれくらい連動して動くか」のやつ?

エコノ
エコノ

そう。-1 から +1 のあいだを動く数字や。+1 に近いほど「片方が増えると片方も増える」、-1 に近いほど「片方が増えると片方は減る」、0 に近いほど「無関係」。あれ自体が、関連の「強さ」を表す効果量として読める。

ヒューマン
ヒューマン

あ、効果量って差だけやないんか。

エコノ
エコノ

せや。「2つのものがどれくらい関連してるか」も効果量に入る。たとえばWatts (2018) のマシュマロテスト再検証、覚えてるか?

ヒューマン
ヒューマン

あー、共変量を入れたら効果が縮んだやつな。

エコノ
エコノ

あれ、何が縮んだかというと、マシュマロを我慢できた時間と、後の学業成績との「関連の強さ」や。最初はそこそこの関連があったのに、家庭環境とか認知能力を考慮に入れて計算しなおしたら、関連がガクッと小さくなった。

ヒューマン
ヒューマン

それが「効果量が縮んだ」ってことか。

エコノ
エコノ

せや。前回の記事で「有意でなくなった」って話したやろ?でも実は、有意・非有意の話と、効果量がデカいかどうかの話は、別なんや。

ヒューマン
ヒューマン

……どう違うん?

エコノ
エコノ

ええか、Watts の場合はこの2つが両方起きてる。「関連が小さくなった(効果量が縮んだ)」のと、「人数が決まってるから、関連が小さいと有意ラインを切る(有意でなくなった)」のが、同時に起きてる。

ヒューマン
ヒューマン

ふんふん。

エコノ
エコノ

でも別のシナリオもある。たとえば、すげぇ大規模な研究で r = 0.05 みたいな超小さい値が出たとする。これ、人数が10万人とかおったら、有意になりうる。「有意(p < .05)やけど、効果量はめっちゃ小さい」って状態や。

ヒューマン
ヒューマン

あー、前回の「10万人で0.3点差」のやつと同じ構造やな。

エコノ
エコノ

ええとこ繋いだな。やから論文を読むときは、「有意かどうか」と「効果量がどれくらいか」を必ずセットで見る。これは鉄則や。

ヒューマン
ヒューマン

「有意やから効いてる」って思ったら、効果量がしょぼかった、って罠もあるんやな。

エコノ
エコノ

そや。逆もある。「有意じゃないから効いてない」って思ったら、効果量はそこそこあるけど人数が足りんかっただけ、っていう罠。両方見て初めて、その差が「実質的に意味あるか」を判断できる。

📝 ここまでのおさらい

  • 相関係数 r も効果量の一種。-1〜+1 のあいだで関連の強さを表す
  • 「有意か」と「効果量がデカいか」は別の話。両方セットで見る必要がある
  • Watts (2018) は「効果量も縮んだし有意でもなくなった」例。逆に「有意やけど効果量は小さい」というケースもある

補足:d と r 以外にもある効果量

ヒューマン
ヒューマン

他にも効果量ってあるんか?

エコノ
エコノ

あるある。たとえば「グループ間の差」を見る分析でよく出てくる η²(イータ二乗) とか、「重回帰分析でモデル全体がどれくらい説明できてるか」を表す R²(アール二乗) とかな。

ヒューマン
ヒューマン

また増えた……。

エコノ
エコノ

覚えんでええ、安心せえ。「効果量」っていう箱の中に、状況に応じて使い分ける指標が何種類か入っとる、ぐらいの理解で十分や。

ヒューマン
ヒューマン

ほな、論文で「η²」とか「R²」って出てきたら?

エコノ
エコノ

「あ、これも効果量の仲間やな」って思ってくれたらええ。具体的な目安がわからんかったら、論文の中で著者がだいたい「これは大きい/小さい」って評価してくれてる。それを参考にすればええ。


この用語の関連する記事

シリーズ:ヒューマン&エコノに学ぶ、研究用語・統計用語

ダニング=クルーガー効果シリーズ

マシュマロテストシリーズ(追試で「縮んだ効果量」が論争の核心)


この記事のまとめ

  • 効果量=差や関連の「大きさ」を、ばらつきや指標を揃えて比較できるようにした数値
  • 「有意差あり」だけでは差の大きさはわからない。効果量で別に測る必要がある
  • Cohen’s d =平均差を、ばらつき(標準偏差)で割った指標。0.2 / 0.5 / 0.8 が小・中・大の目安
  • 相関係数 r も効果量の一種。-1〜+1 のあいだで関連の強さを表す
  • 「有意か」と「効果量がデカいか」は独立した別問題。必ずセットで見る
  • 効果量の目安はあくまで慣例。分野や文脈によって「重要さ」は変わる


執筆後記

身も蓋もないこと言うと、効果量って「差をばらつきで割ってひん曲げた値」なんですよね。「比較できるようにしました」って体やけど、要は無理くり同じ定規に乗っけた、ぐらいの代物って思うと、急に腑に落ちる気がします。

これ、子育てしてるとよく出くわす構造で。うちの子、いきなり「パパ、カレーと読書どっちが好き?」とか聞いてくる。

「いや、それ単位も次元もちゃうやろ……」と思いながらも、無視するわけにもいかんから、頭の中で必死にカレー軸の標準偏差と読書軸の標準偏差見積もって、「カレーは美味い〜不味いの幅、読書は面白い〜つまらんの幅、それぞれのばらつきで割って無次元化したうえで比較すると……」とか考えはじめて、そのあいだに「もういい!」って怒られる。

完全に Cohen’s d を脳内で計算してる親父の図です。馬鹿か。

それでも一応、効果量という雑に偉そうな道具にも、ちゃんと役立つ場面はあって。たとえば「効果量が小さい=無視していい」ってよくある誤解、これは半分罠で。

公衆衛生で「死亡率を0.5%下げる薬」、Cohen’s d で言うたら笑えるくらい小さい。でも膨大な人数で用いれば相応の命を救える。スポーツの「0.05秒縮めるトレーニング」は誤差みたいな効果量やけど、世界選手権の決勝では金と銀を分ける。

効果量は分野横断のものさしやけど、「重要かどうか」までは一発で決めてくれへん。重要さは文脈次第。「カレーと読書」も、子どもにとっては死活問題、親父にとってはどうでもいい。同じ d でも、現場が違えば意味は変わる。

前回の記事と合わせて、ようやく「有意か?」「で、効果量どんなもん?」「で、それ文脈的に重要か?」の三段階の問いが揃った気がします。「有意差あり」とだけ書いてある記事に「ふーん効くんや」で済ませるのは、たぶん損。「で、サイズは?」「Nは?」「現場でも意味あるサイズか?」と、半分ぶん引いて検証する。疲れる。けっこう疲れる。

ただ、この疲れる作業を1回でもやると、次から世の中の「○○に効果あり!」みたいな見出しが、ちょっと違って見えてくる。疑い深くなるんやなくて、解像度が上がる

──まあ、解像度上げたところで、「カレーと読書どっち?」に正解できるようになるわけでは、ないんですけど。

コメント

タイトルとURLをコピーしました