有意差・p値とは？論文の「統計的に有意」をゼロから解説

「ヒューマン＆エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん？」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。

今回のお題は「有意差」——そして、それを判定するための「p値」

ダニングクルーガー効果は嘘？「馬鹿の山」は原論文に存在しない──4実験と批判を解説で「成績下位グループの採点精度は有意に低かった」と書いたアレ。
「待てる子＝成功」はどこまで本当？マシュマロテストを大規模データで再検証（Watts 2018）で「共変量を入れると有意でなくなった」と出てきたアレ。
マシュマロテスト完全解体：50年の神話に引導を渡す判決「Sperber 2024」で「事前登録された分析で有意な予測力が見られなかった」と書いたアレです。

読んでいて「有意って何？」「p < .05ってどういう意味？」と引っかかった方は、ここで解消していってください。

サマリとこの記事でわかること
第1幕：「差がある」って、どこからが本物？
第2幕：コイン投げで「p値」を体感する
第3幕：「有意」は「重要」ではない
補足：5%はなぜ5%なのか
補足：論文で見かける表記の読み方
この用語が登場する記事
参考文献
執筆後記

サマリとこの記事でわかること

有意差（統計的有意差）とは、「その差は偶然のいたずらで出たとは考えにくい」と統計的に判定された差のことです。

この記事でわかること

「有意差がある」とはどういう意味か──コイン投げで実感する
p値とは何か──「偶然でもこれくらい起きるよね」の確率
有意水準（5%）はどこから来たのか
「有意＝重要」「有意＝正しい」ではない理由
論文で「p < .05」「n.s.」を見たときの読み方

第1幕：「差がある」って、どこからが本物？

エコノ

ヒューマン、1つ聞いてええか。お前のクラスで100人にテストを2回やったとする。1回目の平均が60点、2回目の平均が62点やった。「成績上がった！」って言えると思うか？

ヒューマン

2点上がってるんやから、上がったんちゃうの。

エコノ

ほな聞くで。同じテストを同じ人にもう1回やったら、体調とか集中力で1〜2点くらい平気でブレるやろ？

ヒューマン

……まあ、そうやな。たまたま調子良かっただけかもしれん。

エコノ

そこや。「差が出た」のは事実やけど、その差がたまたまなのか、本物なのかを分けなあかん。研究で何百人もデータを取っても、この問題は同じように起きるんや。

ヒューマン

数が多くてもブレるんか。

エコノ

せや。人数が増えるとブレは小さくなるけど、ゼロにはならん。やから研究者は「この差は偶然のブレで説明できる範囲か、それともブレじゃ説明つかんほどデカいか」を判定する手続きが要る。その判定で「偶然じゃ説明つかん」と出たときに言うのが——

ヒューマン

「有意差がある」？

エコノ

そういうこっちゃ。「有意」ってのは「意味がある」って字面やけど、統計の世界では「偶然とは考えにくい」くらいの意味やと思ってくれ。

📝 ここまでのおさらい

データには必ず偶然のブレ（ばらつき）が含まれる
「差が出た」ことと「差が本物である」ことは別の話
有意差がある＝「その差は偶然のブレでは説明しにくい」と統計的に判定された、という意味

第2幕：コイン投げで「p値」を体感する

エコノ

有意差の判定に使うのがp値っていう数字なんやけど、定義から入ると死ぬから、まずコイン投げで考えよう。

ヒューマン

コイン投げ。急にカジュアルになったな。

エコノ

1枚のコインを10回投げて、8回表が出たとする。このコイン、イカサマやと思うか？

ヒューマン

うーん……ちょっと怪しいけど、たまたまかもしれん。

エコノ

せやろ。ほな考え方をひっくり返すで。「このコインは公平で、表が出る確率は50%」と仮定する。そのうえで、「公平なコインでも10回中8回以上表が出ることって、どれくらいあるん？」を計算するんや。

ヒューマン

「ズルしてない前提で、こんな偏りが起きる確率」を出すんか。

エコノ

その通り。計算すると、約5.5%になる。100回やったら5〜6回は起きるレベルや。

ヒューマン

思ったより起きるな。

エコノ

やろ？ほな次、10回中10回表やったらどうや。公平なコインでこれが起きる確率は約0.1%。大体1000回やって1回。

ヒューマン

それはさすがにイカサマ疑うわ。

エコノ

ここで出した「公平なコインでもこれくらい偏る確率」——これがp値や。正確に言うと、「差がない（偶然だけ）と仮定したときに、今回の結果と同じかそれ以上に極端な結果が出る確率」。

ヒューマン

……もう1回言ってくれ。

エコノ

OK、コインに戻そう。「コインは公平」が前提。で、実際に投げたら8回表やった。p値は「公平なコインでも8回以上表が出る確率」＝約5.5%。10回全部表なら、p値は約0.1%。p値が小さいほど、「公平って前提、おかしくない？」って疑いが強くなるわけや。

ヒューマン

ああ、なるほど。p値が小さい＝「偶然にしちゃ出来すぎ」ってことやな。

エコノ

そういうこと。ほんでここにボーダーラインを引く。「p値がこの線より小さかったら、偶然じゃないと判定しよう」っていう基準。これを有意水準って呼ぶ。

ヒューマン

それが5%？

エコノ

せや。慣例的に5%（0.05）がいちばんよく使われる。論文で「p < .05」って書いてあったら、「偶然でこの結果が出る確率が5%未満やったから、偶然じゃないと判定しました」っていう意味や。

ヒューマン

「p < .05で有意」ってそういうことやったんか。あ、ダニング＝クルーガーの原論文の記事で出てきたやつ、あれもこういう話やったんやな。

エコノ

そうそう。あれは「この差、偶然じゃ説明つかんレベルですよ」って言ってるんや。

📝 ここまでのおさらい

p値＝「差がない（偶然だけ）と仮定したとき、今回と同じかそれ以上に極端な結果が出る確率」
p値が小さいほど「偶然にしちゃ出来すぎ」
有意水準＝「ここより小さかったら偶然じゃないと判定する」基準。慣例的に5%（0.05）
論文の「p < .05」＝「偶然でこの結果が出る確率が5%未満 → 有意差あり」

第3幕：「有意」は「重要」ではない

エコノ

ここからがいちばん大事なとこや。「有意差がある」って聞くと、「大きな差がある」「重要な差がある」と思いたくなるやろ？

ヒューマン

え、違うん？「有意」って「意味がある」って書くやん。

エコノ

字面がミスリードなんよな。有意差があるっていうのは「偶然じゃないっぽい」って言ってるだけや。差の大きさについては何も言ってない。

ヒューマン

偶然じゃないけど、小さい差ってあるんか？

エコノ

あるある。たとえば10万人調べたら、テストの平均点が0.3点違うだけでもp < .05になったりする。人数が多いと、ごく小さな差でも「偶然じゃない」って判定されるんや。

ヒューマン

0.3点て……それ、実質的に意味あるんか？

エコノ

ないやろ。でも統計的には「有意」になる。これがp値の落とし穴や。Watts (2018) のマシュマロテスト再検証の記事覚えてるか？

ヒューマン

あー、「共変量を入れたら効果が縮んだ」ってやつか。

エコノ

せや。あの論文でも最初は有意やった相関が、家庭環境や認知能力を調整したら小さくなりすぎて有意じゃなくなった。あの「有意じゃなくなった」は「差がゼロになった」って意味やなくて、「この人数でこの調整をすると、偶然のブレの範囲に収まるレベルまで差が縮んだ」って意味やな。

ヒューマン

逆に言うと、調整前の「有意やった」も、差がデカいから有意やったんやなくて、人数が数百人おったから有意になっただけかもしれんってことか。

エコノ

ええとこ突くな。そうや。やから論文を読むときは、「有意かどうか」だけやなくて、「差の大きさはどれくらいか」を必ずセットで見なあかん。差の大きさを表す指標は効果量って呼ぶんやけど、それは別の記事でじっくりやったから、続けて読んでくれ。

続編はこちら（3部作で完結）：

二段階目：効果量とは？「有意差あり」の次に必ず見るべき数字を身長差で体感する
——身長差で Cohen’s d を、Watts (2018) の「縮んだ関連」で相関係数 r を解説。「有意か？」の次に必要な「差の大きさ」の問い
三段階目（結び）：信頼区間とは？「点」ではなく「幅」で読む論文の95% CIをゼロから解説
——本記事の「有意水準5%」と95%信頼区間は裏表の関係。「20回に1回」をp値（確率）で見せるのが本記事、「幅」で見せるのが信頼区間。3部作の結び

📝 ここまでのおさらい

「有意差がある」＝「差が大きい」ではない。あくまで「偶然とは考えにくい」という判定
人数（サンプルサイズ）が多いと、ごく小さな差でも有意になる
論文を読むときは「有意かどうか」と「差の大きさ（効果量）」をセットで見る
「有意じゃなくなった」＝「差がゼロになった」ではない。偶然の範囲に収まったという意味

補足：5%はなぜ5%なのか

ヒューマン

さっきからずっと気になってたんやけど、なんで5%なん？4%でも6%でもなくて。

エコノ

ぶっちゃけ言うと、絶対的な根拠があるわけやない。統計学の歴史のなかで慣例的に広まった基準や。「20回に1回しか起きないレベルなら、まあ偶然じゃないと言ってええやろ」っていう感覚的な線引きやな。

ヒューマン

えっ……そんなふわっとしたもんなん？

エコノ

そうなんよ。実際、2016年にアメリカ統計学会（ASA）が声明を出してる。「p < .05かどうかだけで結論を決める時代は終わりにしよう」って。

ヒューマン

統計学会が自分とこの看板に文句つけてるんか。

エコノ

それだけp値への過度な依存が問題になってたってことやな。「p < .05だからこの薬は効く」「p > .05だから効かない」みたいな白黒思考は危ういで、と。ただ、だからと言ってp値が無意味なわけやない。「偶然かどうかの手がかりの1つ」として使うぶんにはちゃんと役に立つ。万能じゃないだけや。

補足：論文で見かける表記の読み方

ヒューマン

論文読んでると「p < .05」以外にもいろいろ出てくるんやけど、あれ何なん。

エコノ

よく見るやつだけサクッといこか。

エコノ

p < .05——「p値が0.05未満でした。有意です」。いちばん多い表記。

エコノ

p < .01——「p値が0.01未満。つまり100回に1回以下のレベル」。5%より厳しい基準でも有意だったよ、というニュアンスや。

エコノ

p < .001——「1000回に1回以下」。かなり強い結果やと主張してる。

エコノ

n.s.——「not significant」の略。「有意じゃなかった」。差がなかったという意味やなくて、「偶然の範囲と区別がつかなかった」やで。ここ大事。

ヒューマン

n.s.って「差がない」って意味やと思ってた。

エコノ

その誤解はめちゃくちゃ多い。「有意じゃない＝差がない」ではなくて、「今回のデータでは、偶然を超える証拠が見つからなかった」や。次に人数を増やして調べたら有意になるかもしれんし、ならんかもしれん。

この用語が登場する記事

シリーズ：ヒューマン＆エコノに学ぶ、研究用語・統計用語

効果量とは？「有意差あり」の次に必ず見るべき数字を身長差で体感する
——本記事で予告した「差の大きさを測る指標」を、Cohen’s d と相関係数 r で実装。本記事と必ずセットで読んでほしい一本
信頼区間とは？「点」ではなく「幅」で読む論文の95% CIをゼロから解説
——本記事の「有意水準5%」と裏表の関係にある「95%信頼区間」を解説。p値で見ていた判定を「幅」で読み替える3部作の結び

ダニング＝クルーガー効果シリーズ（原論文や反論論文で有意差判定が登場）

ダニングクルーガー効果は嘘？「馬鹿の山」は原論文に存在しない──4実験と批判を解説 ——原論文の4実験で「下位グループの過大評価は有意か」が検証される場面に登場
ダニング＝クルーガー効果の原因はメタ認知ではない？──反論論文解説【Krueger 2002】 ——5つの媒介変数の検証で「有意な媒介効果が見られたか」が争点になる場面に登場
ダニング＝クルーガー効果は「難しいタスク」で逆転する──Burson(2006) 解説 ——課題の難易度ごとに有意差の方向が変わる（逆転する）実証の場面に登場

マシュマロテストシリーズ（追試で「有意→有意でない」の変化が核心）

マシュマロテスト神話を原典から解体する｜全5回まとめ（1972→2024） ——シリーズ全体のハブ記事。各論文の結論が「有意かどうか」で整理されている
「待てる子＝成功」はどこまで本当？マシュマロテストを大規模データで再検証（Watts 2018） ——共変量の調整で相関が有意でなくなる過程が記事の核心
マシュマロテスト完全解体：50年の神話に引導を渡す判決「Sperber 2024」 ——事前登録された分析で「有意な予測力が見られなかった」という結論に登場

この記事のまとめ

有意差＝「偶然のブレでは説明しにくい差」と統計的に判定された差のこと
p値＝「差がない（偶然だけ）と仮定したとき、今回と同じかそれ以上に極端な結果が出る確率」
p値が小さいほど「偶然にしちゃ出来すぎ」→ 有意差ありと判定される
有意水準＝有意かどうかを判定するボーダーライン。慣例的に5%（0.05）
p < .05＝「p値が5%未満だったので、有意差ありと判定」
n.s.（有意でない）≠ 差がない。「今回のデータでは偶然を超える証拠が見つからなかった」という意味
「有意」≠「重要」「大きい」。人数が多いとごく小さな差でも有意になる。差の大きさ（効果量）とセットで見る

参考文献

Wasserstein, R. L., & Lazar, N. A. (2016). “The ASA Statement on p-Values: Context, Process, and Purpose.” The American Statistician, 70(2), 129–133. https://doi.org/10.1080/00031305.2016.1154108 ——アメリカ統計学会によるp値の使い方に関する声明。本記事の「補足：5%はなぜ5%なのか」と「執筆後記」で参照した。p値に関する6つの原則がコンパクトにまとめられている。

執筆後記

「有意差」って、もともとは差を客観的に判定するための道具だったはずなんですよね。「なんか効いた気がする」「上がった気がする」みたいなフワッとした感覚を、偶然と切り分けるためのモノサシ。本来の主役は「差」のほうで、有意差はそれを測る脇役だった。

……はずなんだけど、いつの間にか脇役が主役の座に座ってる。

「有意差があるから差がある」「ないから意味がない」「有意差を出す」「Nを増やして有意差を狙う」。並べてみると、主語がぜんぶ「有意差」になっちゃってる。差を見るための道具だったのに、いつの間にか道具のほうがゴールになり、人が道具に合わせて走り出す。手段が目的を食う、わりとよくあるやつ。

2016年のASA声明は、たぶんこの転倒への「ちょっと待てや」だったんやと思います。「p < .05だけで決めんな」「有意≠効果がデカい」「p値だけじゃ証拠不足」——書いてあることはぜんぶ、「主語を『差』に戻そうや」という話に集約される気がする。

ただ、ASAが偉い人を集めて声明出しても、論文を読むのも記事を書くのも結局は人間なわけで。仕組みをいくら整えても、最後にものを言うのは読み手の構えやなあ、と。

その構えを一言で言うと——「話半分で検証する」。

「有意差あり」と聞いたら「で、効果量どんなもん？Nは？」と返す。「有意差なし」と聞いたら「ただNが足りんかっただけちゃう？」と疑う。鵜呑みにもせず、全否定もせず、半分だけ受け取って残り半分は自分で確かめる。けっこう疲れる態度ではあるけど、有意差を主語の座から引きずり下ろすには、これくらいやらんと戻ってこない気がする。

……って、用語解説の後記にしては妙に説教くさくなってしまったんですが、要するに「有意差ってラベル便利やけど、ラベルだけ見て中身見ないのは損やで」というだけの話です。