「ヒューマン&エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん?」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。
今回のお題は「有意差」——そして、それを判定するための「p値」
ダニングクルーガー効果は嘘?「馬鹿の山」は原論文に存在しない──4実験と批判を解説で「成績下位グループの採点精度は有意に低かった」と書いたアレ。
「待てる子=成功」はどこまで本当?マシュマロテストを大規模データで再検証(Watts 2018)で「共変量を入れると有意でなくなった」と出てきたアレ。
マシュマロテスト完全解体:50年の神話に引導を渡す判決「Sperber 2024」で「事前登録された分析で有意な予測力が見られなかった」と書いたアレです。
読んでいて「有意って何?」「p < .05ってどういう意味?」と引っかかった方は、ここで解消していってください。
サマリとこの記事でわかること
有意差(統計的有意差)とは、「その差は偶然のいたずらで出たとは考えにくい」と統計的に判定された差のことです。
- 「有意差がある」とはどういう意味か──コイン投げで実感する
- p値とは何か──「偶然でもこれくらい起きるよね」の確率
- 有意水準(5%)はどこから来たのか
- 「有意=重要」「有意=正しい」ではない理由
- 論文で「p < .05」「n.s.」を見たときの読み方
第1幕:「差がある」って、どこからが本物?
ヒューマン、1つ聞いてええか。お前のクラスで100人にテストを2回やったとする。1回目の平均が60点、2回目の平均が62点やった。「成績上がった!」って言えると思うか?
2点上がってるんやから、上がったんちゃうの。
ほな聞くで。同じテストを同じ人にもう1回やったら、体調とか集中力で1〜2点くらい平気でブレるやろ?
……まあ、そうやな。たまたま調子良かっただけかもしれん。
そこや。「差が出た」のは事実やけど、その差がたまたまなのか、本物なのかを分けなあかん。研究で何百人もデータを取っても、この問題は同じように起きるんや。
数が多くてもブレるんか。
せや。人数が増えるとブレは小さくなるけど、ゼロにはならん。やから研究者は「この差は偶然のブレで説明できる範囲か、それともブレじゃ説明つかんほどデカいか」を判定する手続きが要る。その判定で「偶然じゃ説明つかん」と出たときに言うのが——
「有意差がある」?
そういうこっちゃ。「有意」ってのは「意味がある」って字面やけど、統計の世界では「偶然とは考えにくい」くらいの意味やと思ってくれ。
📝 ここまでのおさらい
第2幕:コイン投げで「p値」を体感する
有意差の判定に使うのがp値っていう数字なんやけど、定義から入ると死ぬから、まずコイン投げで考えよう。
コイン投げ。急にカジュアルになったな。
1枚のコインを10回投げて、8回表が出たとする。このコイン、イカサマやと思うか?
うーん……ちょっと怪しいけど、たまたまかもしれん。
せやろ。ほな考え方をひっくり返すで。「このコインは公平で、表が出る確率は50%」と仮定する。そのうえで、「公平なコインでも10回中8回以上表が出ることって、どれくらいあるん?」を計算するんや。
「ズルしてない前提で、こんな偏りが起きる確率」を出すんか。
その通り。計算すると、約5.5%になる。100回やったら5〜6回は起きるレベルや。
思ったより起きるな。
やろ?ほな次、10回中10回表やったらどうや。公平なコインでこれが起きる確率は約0.1%。大体1000回やって1回。
それはさすがにイカサマ疑うわ。
ここで出した「公平なコインでもこれくらい偏る確率」——これがp値や。正確に言うと、「差がない(偶然だけ)と仮定したときに、今回の結果と同じかそれ以上に極端な結果が出る確率」。
……もう1回言ってくれ。
OK、コインに戻そう。「コインは公平」が前提。で、実際に投げたら8回表やった。p値は「公平なコインでも8回以上表が出る確率」=約5.5%。10回全部表なら、p値は約0.1%。p値が小さいほど、「公平って前提、おかしくない?」って疑いが強くなるわけや。
ああ、なるほど。p値が小さい=「偶然にしちゃ出来すぎ」ってことやな。
そういうこと。ほんでここにボーダーラインを引く。「p値がこの線より小さかったら、偶然じゃないと判定しよう」っていう基準。これを有意水準って呼ぶ。
それが5%?
せや。慣例的に5%(0.05)がいちばんよく使われる。論文で「p < .05」って書いてあったら、「偶然でこの結果が出る確率が5%未満やったから、偶然じゃないと判定しました」っていう意味や。
「p < .05で有意」ってそういうことやったんか。あ、ダニング=クルーガーの原論文の記事で出てきたやつ、あれもこういう話やったんやな。
そうそう。あれは「この差、偶然じゃ説明つかんレベルですよ」って言ってるんや。
📝 ここまでのおさらい
第3幕:「有意」は「重要」ではない
ここからがいちばん大事なとこや。「有意差がある」って聞くと、「大きな差がある」「重要な差がある」と思いたくなるやろ?
え、違うん?「有意」って「意味がある」って書くやん。
字面がミスリードなんよな。有意差があるっていうのは「偶然じゃないっぽい」って言ってるだけや。差の大きさについては何も言ってない。
偶然じゃないけど、小さい差ってあるんか?
あるある。たとえば10万人調べたら、テストの平均点が0.3点違うだけでもp < .05になったりする。人数が多いと、ごく小さな差でも「偶然じゃない」って判定されるんや。
0.3点て……それ、実質的に意味あるんか?
ないやろ。でも統計的には「有意」になる。これがp値の落とし穴や。Watts (2018) のマシュマロテスト再検証の記事覚えてるか?
あー、「共変量を入れたら効果が縮んだ」ってやつか。
せや。あの論文でも最初は有意やった相関が、家庭環境や認知能力を調整したら小さくなりすぎて有意じゃなくなった。あの「有意じゃなくなった」は「差がゼロになった」って意味やなくて、「この人数でこの調整をすると、偶然のブレの範囲に収まるレベルまで差が縮んだ」って意味やな。
逆に言うと、調整前の「有意やった」も、差がデカいから有意やったんやなくて、人数が数百人おったから有意になっただけかもしれんってことか。
ええとこ突くな。そうや。やから論文を読むときは、「有意かどうか」だけやなくて、「差の大きさはどれくらいか」を必ずセットで見なあかん。差の大きさを表す指標は効果量って呼ぶんやけど、それはまた別の記事でやろう。
📝 ここまでのおさらい
補足:5%はなぜ5%なのか
さっきからずっと気になってたんやけど、なんで5%なん?4%でも6%でもなくて。
ぶっちゃけ言うと、絶対的な根拠があるわけやない。統計学の歴史のなかで慣例的に広まった基準や。「20回に1回しか起きないレベルなら、まあ偶然じゃないと言ってええやろ」っていう感覚的な線引きやな。
えっ……そんなふわっとしたもんなん?
そうなんよ。実際、2016年にアメリカ統計学会(ASA)が声明を出してる。「p < .05かどうかだけで結論を決める時代は終わりにしよう」って。
統計学会が自分とこの看板に文句つけてるんか。
それだけp値への過度な依存が問題になってたってことやな。「p < .05だからこの薬は効く」「p > .05だから効かない」みたいな白黒思考は危ういで、と。ただ、だからと言ってp値が無意味なわけやない。「偶然かどうかの手がかりの1つ」として使うぶんにはちゃんと役に立つ。万能じゃないだけや。
補足:論文で見かける表記の読み方
論文読んでると「p < .05」以外にもいろいろ出てくるんやけど、あれ何なん。
よく見るやつだけサクッといこか。
p < .05——「p値が0.05未満でした。有意です」。いちばん多い表記。
p < .01——「p値が0.01未満。つまり100回に1回以下のレベル」。5%より厳しい基準でも有意だったよ、というニュアンスや。
p < .001——「1000回に1回以下」。かなり強い結果やと主張してる。
n.s.——「not significant」の略。「有意じゃなかった」。差がなかったという意味やなくて、「偶然の範囲と区別がつかなかった」やで。ここ大事。
n.s.って「差がない」って意味やと思ってた。
その誤解はめちゃくちゃ多い。「有意じゃない=差がない」ではなくて、「今回のデータでは、偶然を超える証拠が見つからなかった」や。次に人数を増やして調べたら有意になるかもしれんし、ならんかもしれん。
この用語が登場する記事
ダニング=クルーガー効果シリーズ(原論文や反論論文で有意差判定が登場)
- ダニングクルーガー効果は嘘?「馬鹿の山」は原論文に存在しない──4実験と批判を解説 ——原論文の4実験で「下位グループの過大評価は有意か」が検証される場面に登場
- ダニング=クルーガー効果の原因はメタ認知ではない?──反論論文解説【Krueger 2002】 ——5つの媒介変数の検証で「有意な媒介効果が見られたか」が争点になる場面に登場
- ダニング=クルーガー効果は「難しいタスク」で逆転する──Burson(2006) 解説 ——課題の難易度ごとに有意差の方向が変わる(逆転する)実証の場面に登場
マシュマロテストシリーズ(追試で「有意→有意でない」の変化が核心)
- マシュマロテスト神話を原典から解体する|全5回まとめ(1972→2024) ——シリーズ全体のハブ記事。各論文の結論が「有意かどうか」で整理されている
- 「待てる子=成功」はどこまで本当?マシュマロテストを大規模データで再検証(Watts 2018) ——共変量の調整で相関が有意でなくなる過程が記事の核心
- マシュマロテスト完全解体:50年の神話に引導を渡す判決「Sperber 2024」 ——事前登録された分析で「有意な予測力が見られなかった」という結論に登場
- 有意差=「偶然のブレでは説明しにくい差」と統計的に判定された差のこと
- p値=「差がない(偶然だけ)と仮定したとき、今回と同じかそれ以上に極端な結果が出る確率」
- p値が小さいほど「偶然にしちゃ出来すぎ」→ 有意差ありと判定される
- 有意水準=有意かどうかを判定するボーダーライン。慣例的に5%(0.05)
- p < .05=「p値が5%未満だったので、有意差ありと判定」
- n.s.(有意でない)≠ 差がない。「今回のデータでは偶然を超える証拠が見つからなかった」という意味
- 「有意」≠「重要」「大きい」。人数が多いとごく小さな差でも有意になる。差の大きさ(効果量)とセットで見る
参考文献
- Wasserstein, R. L., & Lazar, N. A. (2016). “The ASA Statement on p-Values: Context, Process, and Purpose.” The American Statistician, 70(2), 129–133. https://doi.org/10.1080/00031305.2016.1154108 ——アメリカ統計学会によるp値の使い方に関する声明。本記事の「補足:5%はなぜ5%なのか」と「執筆後記」で参照した。p値に関する6つの原則がコンパクトにまとめられている。
執筆後記
「有意差」って、もともとは差を客観的に判定するための道具だったはずなんですよね。「なんか効いた気がする」「上がった気がする」みたいなフワッとした感覚を、偶然と切り分けるためのモノサシ。本来の主役は「差」のほうで、有意差はそれを測る脇役だった。
……はずなんだけど、いつの間にか脇役が主役の座に座ってる。
「有意差があるから差がある」「ないから意味がない」「有意差を出す」「Nを増やして有意差を狙う」。並べてみると、主語がぜんぶ「有意差」になっちゃってる。差を見るための道具だったのに、いつの間にか道具のほうがゴールになり、人が道具に合わせて走り出す。手段が目的を食う、わりとよくあるやつ。
2016年のASA声明は、たぶんこの転倒への「ちょっと待てや」だったんやと思います。「p < .05だけで決めんな」「有意≠効果がデカい」「p値だけじゃ証拠不足」——書いてあることはぜんぶ、「主語を『差』に戻そうや」という話に集約される気がする。
ただ、ASAが偉い人を集めて声明出しても、論文を読むのも記事を書くのも結局は人間なわけで。仕組みをいくら整えても、最後にものを言うのは読み手の構えやなあ、と。
その構えを一言で言うと——「話半分で検証する」。
「有意差あり」と聞いたら「で、効果量どんなもん?Nは?」と返す。「有意差なし」と聞いたら「ただNが足りんかっただけちゃう?」と疑う。鵜呑みにもせず、全否定もせず、半分だけ受け取って残り半分は自分で確かめる。けっこう疲れる態度ではあるけど、有意差を主語の座から引きずり下ろすには、これくらいやらんと戻ってこない気がする。
……って、用語解説の後記にしては妙に説教くさくなってしまったんですが、要するに「有意差ってラベル便利やけど、ラベルだけ見て中身見ないのは損やで」というだけの話です。


コメント