効果量とは？「有意差あり」の次に必ず見るべき数字を身長差で体感する

「ヒューマン＆エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん？」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。

今回のお題は効果量——「有意差あり」の次に必ず見るべき、もうひとつの数字。

前回の「有意差・p値」の記事で、最後にエコノが「差の大きさを表す指標は効果量って呼ぶんやけど、それはまた別の記事でやろう」と言うてたアレです。

ダニングクルーガー効果は嘘？〜で「採点精度の相関係数」が出てきたアレ。「待てる子＝成功」はどこまで本当？マシュマロテストを大規模データで再検証（Watts 2018）で「共変量を入れたら関連が縮んだ」と書いたアレ。それらの数字を「で、それってデカい差なん？」と評価する道具が、効果量です。

「有意」だけ見て満足してしまった方、ここで二段階目の問いを手に入れていってください。

サマリとこの記事でわかること
第1幕：「有意」のあとに、何を見るか
第2幕：身長差で体感する──Cohen’s d
第3幕：相関係数 r も効果量
補足：d と r 以外にもある効果量
この用語の関連する記事
執筆後記

サマリとこの記事でわかること

効果量とは、差や関連の「大きさ」を、ばらつきや指標を揃えて比較できるようにした数値のことです。

この記事でわかること

なぜ「有意かどうか」だけでは足りないのか──差の「大きさ」を別に測る必要がある理由
効果量とは何か──身長差を例に Cohen’s d で体感する
相関係数 r も効果量──Watts (2018) で「縮んだ関連」が何を意味するか
効果量の慣例的な大小の目安と、その限界

第1幕：「有意」のあとに、何を見るか

エコノ

ヒューマン、前回の記事で「有意差は『差が偶然じゃない』ってことしか言ってない」って話したやろ。覚えてるか？

ヒューマン

覚えてるで。10万人調べたら0.3点差でも有意になるってやつやろ。あれショックやったわ。俺、テストで10点上がっただけで成長した気しかせえへんかったのに。

エコノ

その自信、なんとかせなあかんな……。まあええわ。今日はその続きや。「有意かどうか」だけ見てもアカンってことは、もうひとつ見なあかん数字がある。それが「差の大きさ」を測る数字や。ただ、ここで問題が出てくる。たとえば「身長」を例にしよか。「男女で平均10cm違う」って聞いたら、どう思う？

ヒューマン

……まあ、デカい違いやな。10cmやろ？

エコノ

ほな、テストの点数で「平均10点違う」って聞いたら？

ヒューマン

それもデカいんちゃう？……あれ、でもテストの満点何点や？

エコノ

そこや。100点満点なら10点はデカい。1000点満点なら誤差や。「10」っていう数字だけ見ても、デカいか小さいかわからん。

ヒューマン

あー、せやな。単位とか規模が違うと比べられへんわ。

エコノ

やから研究では、差の大きさを「ものさし揃えて」見るための工夫がある。それを効果量って呼ぶんや。差を、ばらつきとかの共通の基準で割って、研究や分野が違っても比べられる数字に変換する。

ヒューマン

おお、便利やん。

📝 ここまでのおさらい

有意差は「偶然じゃない」を判定するだけ。差の大きさは別に測る必要がある
「○点差」「○cm差」みたいな生の差は、単位や規模が違うと比較できない
効果量＝差の大きさを、共通のものさしで揃えて表す数字

第2幕：身長差で体感する──Cohen’s d

エコノ

効果量にはいくつか種類があるんやけど、いちばん有名なのが Cohen’s d ってやつや。「コーエンのディー」と読む。

ヒューマン

いきなりカタカナの記号出てきた。だいじょうぶか俺。

エコノ

だいじょうぶ、考え方シンプルや。さっきの身長の話に戻るで。男女の平均身長差は、だいたい10cm前後ある。

ヒューマン

せやな。

エコノ

でも10cmって、デカいか小さいか判断するには、もう一つ情報が要る。「同性のなかでも身長はどれくらいバラついてるか」や。

ヒューマン

ばらつき……？

エコノ

統計用語で言うと標準偏差ってやつやな。「平均からどれくらい散らばってるかを表す数字」や。

ヒューマン

また術語増えた。覚えなあかんやつ？

エコノ

いや、名前は今は忘れてええ。「ばらつきを数値にしたもん」ぐらいの理解で十分や。今日の主役は効果量やからな。

ヒューマン

助かる。続けてくれ。

エコノ

ええか、男だけで見ても、150cmの人もおれば185cmの人もおる。同じ性別のなかでばらつきがあるやろ。そのばらつき（標準偏差）を「だいたい7cmぶん」やとするわ。男女の平均差は10cm。これを比べたら、「同性のなかのばらつきよりも、男女差の方がデカい」っていう状況や。

ヒューマン

おお、それなら男女差は確かにデカいって言えるな。

エコノ

逆に、もし男女の平均差が10cmやのに、同性内のばらつきが30cmあったら？

ヒューマン

それは……男女差がばらつきに埋もれてもうてる感じやな。

エコノ

せやろ。同じ「10cm差」でも、ばらつきと比べてデカいか小さいかで意味が変わる。この「差を、同性内のばらつきで割った値」が、Cohen’s d や。男女の身長差なら、d はだいたい 1.5〜2 くらいになる。

ヒューマン

ふむ。で、その「1.5」とか「2」がデカいんか小さいんか、どう判断すんねん。

エコノ

ええ質問。慣例的な目安があってな、d = 0.2 で「小さい」、0.5 で「中くらい」、0.8 で「大きい」とされる。

ヒューマン

ほな男女の身長差はめっちゃデカい部類やな。1.5とか2やもん。

エコノ

せや。逆に、心理学の研究でよくあるのは d = 0.3 とか 0.4 くらい。「あるけど劇的ではない」サイズが多い。

ヒューマン

あー、なるほど。日常でよく見るのは、思ったよりつつましいんやな。

エコノ

ただ注意な。この「0.2/0.5/0.8」はあくまで目安や。分野や文脈で意味は変わる。たとえば医療で「死亡率を下げる薬」やと、d がめちゃ小さくても社会的にはとんでもなく重要やったりする。

ヒューマン

へぇ……基準が絶対やないんやな。

📝 ここまでのおさらい

Cohen’s d＝平均差を、ばらつき（同性内の標準偏差）で割った効果量の指標
同じ「10cm差」でも、ばらつきと比べてデカいか小さいかで意味が変わる
慣例的な目安は d = 0.2（小）、0.5（中）、0.8（大）。ただし分野や文脈で意味は変わる

第3幕：相関係数 r も効果量

エコノ

効果量はもうひとつ、よく出会う形がある。相関係数 r や。

ヒューマン

相関係数って、あの「2つのものがどれくらい連動して動くか」のやつ？

エコノ

そう。-1 から +1 のあいだを動く数字や。+1 に近いほど「片方が増えると片方も増える」、-1 に近いほど「片方が増えると片方は減る」、0 に近いほど「無関係」。あれ自体が、関連の「強さ」を表す効果量として読める。

ヒューマン

あ、効果量って差だけやないんか。

エコノ

せや。「2つのものがどれくらい関連してるか」も効果量に入る。たとえばWatts (2018) のマシュマロテスト再検証、覚えてるか？

ヒューマン

あー、共変量を入れたら効果が縮んだやつな。

エコノ

あれ、何が縮んだかというと、マシュマロを我慢できた時間と、後の学業成績との「関連の強さ」や。最初はそこそこの関連があったのに、家庭環境とか認知能力を考慮に入れて計算しなおしたら、関連がガクッと小さくなった。

ヒューマン

それが「効果量が縮んだ」ってことか。

エコノ

せや。前回の記事で「有意でなくなった」って話したやろ？でも実は、有意・非有意の話と、効果量がデカいかどうかの話は、別なんや。

ヒューマン

……どう違うん？

エコノ

ええか、Watts の場合はこの2つが両方起きてる。「関連が小さくなった（効果量が縮んだ）」のと、「人数が決まってるから、関連が小さいと有意ラインを切る（有意でなくなった）」のが、同時に起きてる。

ヒューマン

ふんふん。

エコノ

でも別のシナリオもある。たとえば、すげぇ大規模な研究で r = 0.05 みたいな超小さい値が出たとする。これ、人数が10万人とかおったら、有意になりうる。「有意（p < .05）やけど、効果量はめっちゃ小さい」って状態や。

ヒューマン

あー、前回の「10万人で0.3点差」のやつと同じ構造やな。

エコノ

ええとこ繋いだな。やから論文を読むときは、「有意かどうか」と「効果量がどれくらいか」を必ずセットで見る。これは鉄則や。

ヒューマン

「有意やから効いてる」って思ったら、効果量がしょぼかった、って罠もあるんやな。

エコノ

そや。逆もある。「有意じゃないから効いてない」って思ったら、効果量はそこそこあるけど人数が足りんかっただけ、っていう罠。両方見て初めて、その差が「実質的に意味あるか」を判断できる。

📝 ここまでのおさらい

相関係数 r も効果量の一種。-1〜+1 のあいだで関連の強さを表す
「有意か」と「効果量がデカいか」は別の話。両方セットで見る必要がある
Watts (2018) は「効果量も縮んだし有意でもなくなった」例。逆に「有意やけど効果量は小さい」というケースもある

補足：d と r 以外にもある効果量

ヒューマン

他にも効果量ってあるんか？

エコノ

あるある。たとえば「グループ間の差」を見る分析でよく出てくる η²（イータ二乗） とか、「重回帰分析でモデル全体がどれくらい説明できてるか」を表す R²（アール二乗） とかな。

ヒューマン

また増えた……。

エコノ

覚えんでええ、安心せえ。「効果量」っていう箱の中に、状況に応じて使い分ける指標が何種類か入っとる、ぐらいの理解で十分や。

ヒューマン

ほな、論文で「η²」とか「R²」って出てきたら？

エコノ

「あ、これも効果量の仲間やな」って思ってくれたらええ。具体的な目安がわからんかったら、論文の中で著者がだいたい「これは大きい/小さい」って評価してくれてる。それを参考にすればええ。

この用語の関連する記事

シリーズ：ヒューマン＆エコノに学ぶ、研究用語・統計用語

有意差・p値とは？コイン投げで体感する「偶然じゃない」の判定の仕組み ——本記事の前提となる「有意性検定」を解説。本記事と必ずセットで読んでほしい一本
信頼区間とは？「点」ではなく「幅」で読む論文の95% CIをゼロから解説
——本記事の Cohen’s d も相関係数 r も、論文では 95% CI 付きで報告される。点推定の「不確かさ」を区間で見る道具

ダニング＝クルーガー効果シリーズ

ダニングクルーガー効果は嘘？「馬鹿の山」は原論文に存在しない──4実験と批判を解説 ——下位群と上位群の採点精度の差は、相関係数の差として効果量で報告されている

マシュマロテストシリーズ（追試で「縮んだ効果量」が論争の核心）

「待てる子＝成功」はどこまで本当？マシュマロテストを大規模データで再検証（Watts 2018） ——共変量を入れた前後で「関連の強さ」がどう縮んだかが核心
マシュマロテスト完全解体：50年の神話に引導を渡す判決「Sperber 2024」 ——事前登録された分析で「効果量も小さく、有意でもない」という結論

この記事のまとめ

効果量＝差や関連の「大きさ」を、ばらつきや指標を揃えて比較できるようにした数値
「有意差あり」だけでは差の大きさはわからない。効果量で別に測る必要がある
Cohen’s d ＝平均差を、ばらつき（標準偏差）で割った指標。0.2 / 0.5 / 0.8 が小・中・大の目安
相関係数 r も効果量の一種。-1〜+1 のあいだで関連の強さを表す
「有意か」と「効果量がデカいか」は独立した別問題。必ずセットで見る
効果量の目安はあくまで慣例。分野や文脈によって「重要さ」は変わる

執筆後記

身も蓋もないこと言うと、効果量って「差をばらつきで割ってひん曲げた値」なんですよね。「比較できるようにしました」って体やけど、要は無理くり同じ定規に乗っけた、ぐらいの代物って思うと、急に腑に落ちる気がします。

これ、子育てしてるとよく出くわす構造で。うちの子、いきなり「パパ、カレーと読書どっちが好き？」とか聞いてくる。

「いや、それ単位も次元もちゃうやろ……」と思いながらも、無視するわけにもいかんから、頭の中で必死にカレー軸の標準偏差と読書軸の標準偏差を見積もって、「カレーは美味い〜不味いの幅、読書は面白い〜つまらんの幅、それぞれのばらつきで割って無次元化したうえで比較すると……」とか考えはじめて、そのあいだに「もういい！」って怒られる。

完全に Cohen’s d を脳内で計算してる親父の図です。馬鹿か。

それでも一応、効果量という雑に偉そうな道具にも、ちゃんと役立つ場面はあって。たとえば「効果量が小さい＝無視していい」ってよくある誤解、これは半分罠で。

公衆衛生で「死亡率を0.5%下げる薬」、Cohen’s d で言うたら笑えるくらい小さい。でも膨大な人数で用いれば相応の命を救える。スポーツの「0.05秒縮めるトレーニング」は誤差みたいな効果量やけど、世界選手権の決勝では金と銀を分ける。

効果量は分野横断のものさしやけど、「重要かどうか」までは一発で決めてくれへん。重要さは文脈次第。「カレーと読書」も、子どもにとっては死活問題、親父にとってはどうでもいい。同じ d でも、現場が違えば意味は変わる。

前回の記事と合わせて、ようやく「有意か？」「で、効果量どんなもん？」「で、それ文脈的に重要か？」の三段階の問いが揃った気がします。「有意差あり」とだけ書いてある記事に「ふーん効くんや」で済ませるのは、たぶん損。「で、サイズは？」「Nは？」「現場でも意味あるサイズか？」と、半分ぶん引いて検証する。疲れる。けっこう疲れる。

ただ、この疲れる作業を1回でもやると、次から世の中の「○○に効果あり！」みたいな見出しが、ちょっと違って見えてくる。疑い深くなるんやなくて、解像度が上がる。

──まあ、解像度上げたところで、「カレーと読書どっち？」に正解できるようになるわけでは、ないんですけど。