「ヒューマン&エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん?」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。
今回のお題は効果量——「有意差あり」の次に必ず見るべき、もうひとつの数字。
前回の「有意差・p値」の記事で、最後にエコノが「差の大きさを表す指標は効果量って呼ぶんやけど、それはまた別の記事でやろう」と言うてたアレです。
ダニングクルーガー効果は嘘?〜で「採点精度の相関係数」が出てきたアレ。 「待てる子=成功」はどこまで本当?マシュマロテストを大規模データで再検証(Watts 2018)で「共変量を入れたら関連が縮んだ」と書いたアレ。 それらの数字を「で、それってデカい差なん?」と評価する道具が、効果量です。
「有意」だけ見て満足してしまった方、ここで二段階目の問いを手に入れていってください。
サマリとこの記事でわかること
効果量とは、差や関連の「大きさ」を、ばらつきや指標を揃えて比較できるようにした数値のことです。
- なぜ「有意かどうか」だけでは足りないのか──差の「大きさ」を別に測る必要がある理由
- 効果量とは何か──身長差を例に Cohen’s d で体感する
- 相関係数 r も効果量──Watts (2018) で「縮んだ関連」が何を意味するか
- 効果量の慣例的な大小の目安と、その限界
第1幕:「有意」のあとに、何を見るか
ヒューマン、前回の記事で「有意差は『差が偶然じゃない』ってことしか言ってない」って話したやろ。覚えてるか?
覚えてるで。10万人調べたら0.3点差でも有意になるってやつやろ。あれショックやったわ。俺、テストで10点上がっただけで成長した気しかせえへんかったのに。
その自信、なんとかせなあかんな……。まあええわ。今日はその続きや。「有意かどうか」だけ見てもアカンってことは、もうひとつ見なあかん数字がある。それが「差の大きさ」を測る数字や。ただ、ここで問題が出てくる。たとえば「身長」を例にしよか。「男女で平均10cm違う」って聞いたら、どう思う?
……まあ、デカい違いやな。10cmやろ?
ほな、テストの点数で「平均10点違う」って聞いたら?
それもデカいんちゃう?……あれ、でもテストの満点何点や?
そこや。100点満点なら10点はデカい。1000点満点なら誤差や。「10」っていう数字だけ見ても、デカいか小さいかわからん。
あー、せやな。単位とか規模が違うと比べられへんわ。
やから研究では、差の大きさを「ものさし揃えて」見るための工夫がある。それを効果量って呼ぶんや。差を、ばらつきとかの共通の基準で割って、研究や分野が違っても比べられる数字に変換する。
おお、便利やん。
📝 ここまでのおさらい
第2幕:身長差で体感する──Cohen’s d
効果量にはいくつか種類があるんやけど、いちばん有名なのが Cohen’s d ってやつや。「コーエンのディー」と読む。
いきなりカタカナの記号出てきた。だいじょうぶか俺。
だいじょうぶ、考え方シンプルや。さっきの身長の話に戻るで。男女の平均身長差は、だいたい10cm前後ある。
せやな。
でも10cmって、デカいか小さいか判断するには、もう一つ情報が要る。「同性のなかでも身長はどれくらいバラついてるか」や。
ばらつき……?
統計用語で言うと標準偏差ってやつやな。「平均からどれくらい散らばってるかを表す数字」や。
また術語増えた。覚えなあかんやつ?
いや、名前は今は忘れてええ。「ばらつきを数値にしたもん」ぐらいの理解で十分や。今日の主役は効果量やからな。
助かる。続けてくれ。
ええか、男だけで見ても、150cmの人もおれば185cmの人もおる。同じ性別のなかでばらつきがあるやろ。そのばらつき(標準偏差)を「だいたい7cmぶん」やとするわ。男女の平均差は10cm。これを比べたら、「同性のなかのばらつきよりも、男女差の方がデカい」っていう状況や。
おお、それなら男女差は確かにデカいって言えるな。
逆に、もし男女の平均差が10cmやのに、同性内のばらつきが30cmあったら?
それは……男女差がばらつきに埋もれてもうてる感じやな。
せやろ。同じ「10cm差」でも、ばらつきと比べてデカいか小さいかで意味が変わる。この「差を、同性内のばらつきで割った値」が、Cohen’s d や。男女の身長差なら、d はだいたい 1.5〜2 くらいになる。
ふむ。で、その「1.5」とか「2」がデカいんか小さいんか、どう判断すんねん。
ええ質問。慣例的な目安があってな、d = 0.2 で「小さい」、0.5 で「中くらい」、0.8 で「大きい」とされる。
ほな男女の身長差はめっちゃデカい部類やな。1.5とか2やもん。
せや。逆に、心理学の研究でよくあるのは d = 0.3 とか 0.4 くらい。「あるけど劇的ではない」サイズが多い。
あー、なるほど。日常でよく見るのは、思ったよりつつましいんやな。
ただ注意な。この「0.2/0.5/0.8」はあくまで目安や。分野や文脈で意味は変わる。たとえば医療で「死亡率を下げる薬」やと、d がめちゃ小さくても社会的にはとんでもなく重要やったりする。
へぇ……基準が絶対やないんやな。
📝 ここまでのおさらい
第3幕:相関係数 r も効果量
効果量はもうひとつ、よく出会う形がある。相関係数 r や。
相関係数って、あの「2つのものがどれくらい連動して動くか」のやつ?
そう。-1 から +1 のあいだを動く数字や。+1 に近いほど「片方が増えると片方も増える」、-1 に近いほど「片方が増えると片方は減る」、0 に近いほど「無関係」。あれ自体が、関連の「強さ」を表す効果量として読める。
あ、効果量って差だけやないんか。
せや。「2つのものがどれくらい関連してるか」も効果量に入る。たとえばWatts (2018) のマシュマロテスト再検証、覚えてるか?
あー、共変量を入れたら効果が縮んだやつな。
あれ、何が縮んだかというと、マシュマロを我慢できた時間と、後の学業成績との「関連の強さ」や。最初はそこそこの関連があったのに、家庭環境とか認知能力を考慮に入れて計算しなおしたら、関連がガクッと小さくなった。
それが「効果量が縮んだ」ってことか。
せや。前回の記事で「有意でなくなった」って話したやろ?でも実は、有意・非有意の話と、効果量がデカいかどうかの話は、別なんや。
……どう違うん?
ええか、Watts の場合はこの2つが両方起きてる。「関連が小さくなった(効果量が縮んだ)」のと、「人数が決まってるから、関連が小さいと有意ラインを切る(有意でなくなった)」のが、同時に起きてる。
ふんふん。
でも別のシナリオもある。たとえば、すげぇ大規模な研究で r = 0.05 みたいな超小さい値が出たとする。これ、人数が10万人とかおったら、有意になりうる。「有意(p < .05)やけど、効果量はめっちゃ小さい」って状態や。
あー、前回の「10万人で0.3点差」のやつと同じ構造やな。
ええとこ繋いだな。やから論文を読むときは、「有意かどうか」と「効果量がどれくらいか」を必ずセットで見る。これは鉄則や。
「有意やから効いてる」って思ったら、効果量がしょぼかった、って罠もあるんやな。
そや。逆もある。「有意じゃないから効いてない」って思ったら、効果量はそこそこあるけど人数が足りんかっただけ、っていう罠。両方見て初めて、その差が「実質的に意味あるか」を判断できる。
📝 ここまでのおさらい
補足:d と r 以外にもある効果量
他にも効果量ってあるんか?
あるある。たとえば「グループ間の差」を見る分析でよく出てくる η²(イータ二乗) とか、「重回帰分析でモデル全体がどれくらい説明できてるか」を表す R²(アール二乗) とかな。
また増えた……。
覚えんでええ、安心せえ。「効果量」っていう箱の中に、状況に応じて使い分ける指標が何種類か入っとる、ぐらいの理解で十分や。
ほな、論文で「η²」とか「R²」って出てきたら?
「あ、これも効果量の仲間やな」って思ってくれたらええ。具体的な目安がわからんかったら、論文の中で著者がだいたい「これは大きい/小さい」って評価してくれてる。それを参考にすればええ。
この用語の関連する記事
シリーズ:ヒューマン&エコノに学ぶ、研究用語・統計用語
- 有意差・p値とは?コイン投げで体感する「偶然じゃない」の判定の仕組み ——本記事の前提となる「有意性検定」を解説。本記事と必ずセットで読んでほしい一本
ダニング=クルーガー効果シリーズ
- ダニングクルーガー効果は嘘?「馬鹿の山」は原論文に存在しない──4実験と批判を解説 ——下位群と上位群の採点精度の差は、相関係数の差として効果量で報告されている
マシュマロテストシリーズ(追試で「縮んだ効果量」が論争の核心)
- 「待てる子=成功」はどこまで本当?マシュマロテストを大規模データで再検証(Watts 2018) ——共変量を入れた前後で「関連の強さ」がどう縮んだかが核心
- マシュマロテスト完全解体:50年の神話に引導を渡す判決「Sperber 2024」 ——事前登録された分析で「効果量も小さく、有意でもない」という結論
- 効果量=差や関連の「大きさ」を、ばらつきや指標を揃えて比較できるようにした数値
- 「有意差あり」だけでは差の大きさはわからない。効果量で別に測る必要がある
- Cohen’s d =平均差を、ばらつき(標準偏差)で割った指標。0.2 / 0.5 / 0.8 が小・中・大の目安
- 相関係数 r も効果量の一種。-1〜+1 のあいだで関連の強さを表す
- 「有意か」と「効果量がデカいか」は独立した別問題。必ずセットで見る
- 効果量の目安はあくまで慣例。分野や文脈によって「重要さ」は変わる
執筆後記
身も蓋もないこと言うと、効果量って「差をばらつきで割ってひん曲げた値」なんですよね。「比較できるようにしました」って体やけど、要は無理くり同じ定規に乗っけた、ぐらいの代物って思うと、急に腑に落ちる気がします。
これ、子育てしてるとよく出くわす構造で。うちの子、いきなり「パパ、カレーと読書どっちが好き?」とか聞いてくる。
「いや、それ単位も次元もちゃうやろ……」と思いながらも、無視するわけにもいかんから、頭の中で必死にカレー軸の標準偏差と読書軸の標準偏差を見積もって、「カレーは美味い〜不味いの幅、読書は面白い〜つまらんの幅、それぞれのばらつきで割って無次元化したうえで比較すると……」とか考えはじめて、そのあいだに「もういい!」って怒られる。
完全に Cohen’s d を脳内で計算してる親父の図です。馬鹿か。
それでも一応、効果量という雑に偉そうな道具にも、ちゃんと役立つ場面はあって。たとえば「効果量が小さい=無視していい」ってよくある誤解、これは半分罠で。
公衆衛生で「死亡率を0.5%下げる薬」、Cohen’s d で言うたら笑えるくらい小さい。でも膨大な人数で用いれば相応の命を救える。スポーツの「0.05秒縮めるトレーニング」は誤差みたいな効果量やけど、世界選手権の決勝では金と銀を分ける。
効果量は分野横断のものさしやけど、「重要かどうか」までは一発で決めてくれへん。重要さは文脈次第。「カレーと読書」も、子どもにとっては死活問題、親父にとってはどうでもいい。同じ d でも、現場が違えば意味は変わる。
前回の記事と合わせて、ようやく「有意か?」「で、効果量どんなもん?」「で、それ文脈的に重要か?」の三段階の問いが揃った気がします。「有意差あり」とだけ書いてある記事に「ふーん効くんや」で済ませるのは、たぶん損。「で、サイズは?」「Nは?」「現場でも意味あるサイズか?」と、半分ぶん引いて検証する。疲れる。けっこう疲れる。
ただ、この疲れる作業を1回でもやると、次から世の中の「○○に効果あり!」みたいな見出しが、ちょっと違って見えてくる。疑い深くなるんやなくて、解像度が上がる。
──まあ、解像度上げたところで、「カレーと読書どっち?」に正解できるようになるわけでは、ないんですけど。


コメント