ダニング＝クルーガー効果の原因はメタ認知ではない？──反論論文解説【Krueger 2002】

導入
「回帰効果」と「BTA効果」──2つのキーワードを押さえる
実験の概要──Kruger & Dunning (1999) Study 3 の追試
結果①：操作チェックと再現
結果②：5つの媒介変数の検証──メタ認知は本当に「原因」なのか
結果③：競合する予測の検証
結果④：テストの信頼性を考慮すると
結果⑤：自己焦点──誰が他者情報を無視しているのか
メカニズム：なぜ回帰＋BTA仮説で説明できるのか
批判・限界
まとめと日常への接続──「自分は平均より上」の正体
執筆後記
参考文献
原典で殴るシリーズ（薄味まとめに飽きた人向け）

導入

「自分は平均よりちょっと上だと思う」——あなたもそう感じたことはありませんか。運転の腕前、仕事の能力。聞かれれば、なんとなく「中の上くらいかな」と答えたくなる。実際に測ってみたわけでもないのに。

前回の記事では、ダニング＝クルーガー効果の原典論文（Kruger & Dunning, 1999）を読み解きました。→ダニングクルーガー効果は嘘？「馬鹿の山」は原論文に存在しない──4実験と批判を解説

「できない人ほど自分を過大評価する」という現象と、その原因として提唱された「メタ認知の欠如」仮説。そして後続研究で見解が割れている状況までお伝えしました。

今回取り上げるのは、あの論文が出たわずか3年後に発表された反論論文です。ブラウン大学のJoachim KruegerとRoss A. Muellerが「ちょっと待て、メタ認知なんて持ち出さなくても説明できるぞ」と正面から切り込んだ研究。前回記事の「批判」セクションで触れた「回帰効果」の話を、今回はがっつり原典から掘り下げていきます。

この記事でわかること

Krueger & Mueller (2002) がKruger & Dunning (1999) にどう反論したか
「回帰効果」と「平均以上効果（BTA効果）」の組み合わせで何が説明できるのか
5つの媒介変数（メタ認知指標）を検証した結果、何がわかったか
テストの信頼性を補正すると、誤差の非対称性はどう変わるか
「自己焦点」仮説──成績が低い人と高い人、どちらが他者情報を無視しているか
メタ認知仮説 vs 回帰＋BTA仮説、どちらが支持されたか
この論文から「言えること」と「言えないこと」

【この論文の結論（先にいいます）】
「できない人ほど過大評価する」パターンは、メタ認知の欠如を持ち出さなくても、統計的回帰と「自分は平均より上」バイアスの組み合わせだけで再現できる。

ヒューマン

前回の記事で「回帰効果で説明できるかも」って話があったやん？あれの元ネタか。

エコノ

せやな。前回はさらっと触れただけやったけど、今回はその主張の根拠を実験データまで追っていくで。

ヒューマン

正直、「回帰効果」って言われてもピンとこんのやけど。

エコノ

ざっくり言うと、テストの点が極端に低い人は「次はもうちょい上がるやろ」、極端に高い人は「次はちょい下がるやろ」ってなる現象や。心理の問題やなくて、数学的にそうなるんや。それに加えて「みんな自分は平均より上」って思うクセが乗っかると、ダニング＝クルーガー的なパターンが自動的に出てくる——というのがこの論文の主張やな。

ヒューマン

メタ認知とか関係なく、算数の問題ってこと？

エコノ

そこまで言い切れるかは、データを見てから判断しよか。

Krueger & Mueller (2002) の位置づけ──何に対する反論なのか

今回読んでいく原典はこちらです。

Krueger, J., & Mueller, R. A. (2002). Unskilled, Unaware, or Both? The Better-Than-Average Heuristic and Statistical Regression Predict Errors in Estimates of Own Performance. Journal of Personality and Social Psychology, 82(2), 180–188.

前回記事で扱ったKruger & Dunning (1999) の主張を整理しておきましょう。

Kruger & Dunning (1999) の主張	内容
現象	テストの成績が低い人ほど、自分のパーセンタイル（相対順位）を大幅に過大評価する
原因	メタ認知スキルの欠如。能力が低い人は「自分ができていない」こと自体に気づけない

これに対してKrueger & Mueller (2002) は、こう主張します。

Krueger & Mueller (2002) の主張	内容
現象	同じパターンが再現されることは認める
原因	統計的回帰と平均以上効果（BTA効果）の組み合わせで十分説明できる。メタ認知の媒介は不要
要するに	「メタ認知が足りないから」ではなく、「数学的にそうなるから」

ここで大事な補足を。この論文の第一著者 Joachim Krueger（クルーガー）と、ダニング＝クルーガー効果の Kruger（クルーガー）は別人です。スペルが微妙に違います（Krueger vs Kruger）。紛らわしいのですが、混同しないようご注意ください。

「回帰効果」と「BTA効果」──2つのキーワードを押さえる

本題に入る前に、この論文の主役となる2つの概念を確認しておきます。

統計的回帰（平均への回帰）

テストで極端に良い点や悪い点を取った人は、次にテストを受けると平均に近づく傾向があります。これは心理の問題ではなく、測定誤差がある限り統計的に避けられない現象です。

噛み砕くと、テストの点数には「本当の実力」と「その日のコンディションや運」が混ざっています。たまたま運が悪くて最下位になった人は、次は運が普通に戻る分だけ成績が上がります。たまたま運が良くて最上位になった人は、次は運が普通に戻る分だけ成績が下がります。

自己評価の文脈で言えば、実際のパーセンタイル（x）と推定パーセンタイル（y）の相関が不完全である限り、回帰直線の傾きは1より小さくなります。その結果、低い成績の人は過大評価し、高い成績の人は過小評価する——これは予測される数学的帰結です。

ヒューマン

つまり、メタ認知がどうとか以前に、統計的に「そうなって当然」ってことか？

エコノ

そういうこっちゃ。ただし、回帰効果だけやと上下対称にズレるはずやから、下位群だけが大幅にズレる理由は説明できへん。そこでもう一つの要素が登場するんや。

平均以上効果（Better-Than-Average効果、BTA効果）

多くの人が「自分は平均より上だ」と信じる傾向のことです。運転技術、仕事の能力、対人スキルなど、幅広い領域で確認されています。

この効果が加わると何が起こるか。回帰直線が全体的に上にシフトします。すると、下位群の過大評価はさらに大きくなり、上位群の過小評価はわずかに小さくなる——つまり、ダニング＝クルーガー効果で報告された「非対称な誤差パターン」が、メタ認知を持ち出さなくても再現されるのです。

実験の概要──Kruger & Dunning (1999) Study 3 の追試

Krueger & Mueller (2002) は、Kruger & Dunning (1999) のStudy 3（英文法テスト）を追試しています。

項目	内容
目的	Kruger & Dunning (1999) の結果を再現した上で、メタ認知仮説と回帰＋BTA仮説のどちらが支持されるかを検証
参加者	ブラウン大学の学部生60名（男性25名、女性35名、平均年齢19.63歳）
テスト素材	全米教員試験（NTE）の準備ガイドから選んだ文法問題
条件	難易度で2群に分割：難しいテスト（20問）と易しいテスト（20問）
難しいテスト	平均正答率29%（SD = 14.84）
易しいテスト	平均正答率70%（SD = 16.08）──Kruger & Dunning (1999) のテスト（M = 67.5%）と類似

手続き

参加者はコンピュータ上で1問ずつ回答し、各問題について以下を評定しました。

自分の回答の正確さへの確信度（1〜8点）
自大学の学生の過半数がその問題に正答できるかへの確信度（1〜8点）

すべての問題に回答した後、以下を推定しました。

自分が正答した問題数
自分のパーセンタイル順位（他の参加者と比較して）

結果①：操作チェックと再現

まず「難易度操作が効いているか（操作チェック）」を確認し、そのうえで「Kruger & Dunning (1999) と同じDK型の誤差パターンが再現されるか」を見ます。

テスト	実際の正答数	推定正答数	過大評価？
難しいテスト	M = 5.53 (SD = 2.18)	M = 12.10 (SD = 3.26)	大幅に過大評価（p < .001）
易しいテスト	M = 13.90 (SD = 2.34)	M = 14.40 (SD = 2.46)	ほぼ正確（差は有意でない）

M：平均値　SD：標準偏差

難しいテストでのみ正答数を大幅に過大評価しているという結果です。次に、パーセンタイル推定における平均以上効果（BTA効果）を確認します。

テスト	推定パーセンタイルの平均	50%との比較
難しいテスト	M = 61.27 (SD = 24.08)	t(29) = 2.56, p < .05
易しいテスト	M = 68.77 (SD = 19.41)	t(29) = 3.18, p < .01

両テストとも、参加者の推定パーセンタイルの平均は50%を有意に上回っていました。つまりBTA効果が確認されました。

実際のパーセンタイルと推定パーセンタイルの相関は、難しいテストでr = .44、易しいテストでr = .14でした。どちらも正の相関ではありますが、特に易しいテストのr = .14はかなり弱く、「順位の自己把握がかなり粗い」水準です。ここが重要なポイントです。BTA効果が存在し、かつ実際と推定の相関が不完全である——この2条件が揃えば、回帰＋BTA仮説から非対称な誤差パターンが予測されます。

そして実際に、下位群のパーセンタイル推定値と上位群のパーセンタイル推定値を見ると、以下の通りでした。ここで大事なのは厳密な数値そのものというより、「下位群は大きくプラス、上位群は小さくマイナス」という誤差の形です。

テスト	群	推定パーセンタイル	実際のパーセンタイル	誤差
難しい	下位25%	50%	15%	+35%
難しい	上位25%	76%	86%	−10%
易しい	下位25%	65%	15%	+50%
易しい	上位25%	68%	87%	−19%

Kruger & Dunning (1999) と同様のパターンが再現されました。下位群は大幅に過大評価し、上位群は小幅に過小評価しています。

結果②：5つの媒介変数の検証──メタ認知は本当に「原因」なのか

ここからがこの論文の核心です。ちょっと込み入った話になるので、まず「何をやろうとしているのか」を整理しておきましょう。ダニング＆クルーガー（1999）の主張を図にすると、こうなります。

成績が低い → メタ認知スキルが低い → 自己評価の誤差が大きい

つまり、「成績」と「誤差」は直接つながっているのではなく、真ん中に「メタ認知」という仲介役（統計用語で媒介変数）が挟まっている、というのが彼らの理論です。もしこの構造が正しいなら、仲介役を統計的に固定（コントロール）したとき、「成績→誤差」の関係は弱まるはずです。パイプの途中を塞いだら流れが止まる、というイメージですね。逆に、仲介役を固定しても関係が変わらないなら、「メタ認知が原因だ」という話は怪しくなります。

ヒューマン

ちょっと待って。「統計的に固定する」って、具体的には何をしてるん？

エコノ

考えてみ。「テストの点が高い人ほど誤差が小さい」——これは事実や。でもそれは「メタ認知が高いから誤差が小さい」のか、それとも単に「点が高い＝そもそもズレる余地が少ないだけ」なのか、このままやと区別がつかへん。ほんなら、メタ認知の影響を統計で固定して、それでも成績と誤差の関係が残るかを見たらええって理屈や。

ヒューマン

なるほど。で、固定して相関がガクッと下がったら「メタ認知が仲介してた証拠」になるし、ほとんど変わらなかったら「メタ認知は関係なかったんちゃう」ってなるわけか。

エコノ

そういうこっちゃ。ほんで著者らは、メタ認知っぽい指標を5つ用意して、一つずつ試しとるんや。

5つの媒介変数

ここから5つの指標を順に見ていきますが、結論を先に言います。成績との交絡がないクリーンな4つの指標では、メタ認知の媒介効果はほぼゼロでした。唯一相関を下げたのは、成績そのものが混ざり込んでいた1つだけです。この指標の問題点は後述します。では、その5つの指標を整理します。

#	媒介変数	内容	バイアスの有無
1	正答率予測	確信度を２値化して「正答予測」とし、その正答率を算出	⚠️ バイアスあり（実際の成績と交絡）
2	調整済み正答率	正答率予測からチャンスレベル（運）で正答できる分を差し引いたもの	バイアスなし
3	自己の弁別力	各問題への確信度と実際の正誤の相関（自分の成功・失敗を見分ける力）	バイアスなし
4	他者の弁別力	他者の成功率への確信度と他者の実際の正答率の相関	バイアスなし
5	社会的投射	自己への確信度と他者への確信度の相関（自分の出来を他人にも投影する程度）	バイアスなし

ここで注目すべきは、第1の指標だけが「バイアスあり」とマークされている点です。なぜこの指標にバイアスがあるのか。たとえ話で考えてみましょう。

20問のテストを受けたAさんとBさん。Aさんは16問正解（正答率80%）、Bさんは4問正解（正答率20%）でした。二人とも弁別力はゼロ——つまり、どの問題に正解してどの問題を間違えたか、まったく識別できていません。でも二人とも楽観的なので、「自分は6割くらいできたかな」と思っています。この思い込みに基づいて、20問すべてについて「たぶん正解した」「たぶん間違えた」とランダムに振り分けたとします。
さて、Aさんの場合。実際には20問中16問が正解です。適当に「正解した」と振り分けた問題の中に、本当に正解だった問題がたくさん混ざります。的中率が高くなるのは当然です——だって、そもそもほとんどの問題に正解しているのだから。
一方のBさん。実際には20問中4問しか正解していません。適当に「正解した」と振り分けても、本当に正解だった問題はほとんど含まれません。的中率は低くなります——だって、そもそもほとんどの問題に不正解なのだから。二人の弁別力はまったく同じゼロなのに、この指標では差がつく。メタ認知の差ではなく、単に「もともとの正解数が多い人ほど、当たりやすい」という算数のトリックです。
具体的に計算してみると、Aさんの的中率は 0.8×0.6 + 0.2×0.4 = 0.56、Bさんは 0.2×0.6 + 0.8×0.4 = 0.44 になります。弁別力が同じでも、正答率が違うだけで「当たりやすさ」に差が出てしまう指標なのです。

Kruger & Dunning (1999) のStudy 4でも、各問題の正誤を事後に識別できた数をメタ認知指標として使っていましたが、これも概念的には同じバイアス問題を抱えています——成績が高い人ほど「当たりやすい」構造は変わらないからです。

媒介分析の結果

5つの指標をそれぞれ統制（偏相関を計算）して、「実際のパーセンタイル → 推定誤差」の相関がどう変わるかを見ています。元の相関は難しいテストで−.65、易しいテストで−.80でした。

バイアスのない4つの指標（調整済み正答率・自己の弁別力・他者の弁別力・社会的投射）では、コントロール後もこの相関はほとんど変わりませんでした。唯一相関を下げたのは正答率予測だけ——しかしこれは前述のとおり、成績そのものと交絡しているバイアス入りの指標です。差っ引けば相関に影響が出るのは、言ってしまえば当然です。成績の一部を二重に取り除いているだけですから。

ヒューマン

要するに、メタ認知っぽい指標を5つ試したけど、まともに測れてる4つではパイプを塞いでも流量が変わらんかった、と。唯一変わったやつは、メタ認知じゃなくて成績そのものが混ざってた指標やった、と。

エコノ

完璧な理解やん。ほんで著者らはこう結論づけとる。「非対称な推定誤差を説明するのにメタ認知という仲介役は不要。回帰効果＋BTA効果で統計的に出る話やん」と。

結果③：競合する予測の検証

ここまでで、非対称な誤差パターンの説明候補として2つの仮説が出揃いました。回帰効果とBTA効果です。だったら、それぞれを統計的に取り除いてみたらどうなるか？もし取り除いて非対称性が消えるなら、それが主因だったという証拠になります。逆に取り除いても消えなければ、メタ認知の欠如など別の原因を考える必要がある。著者らはまさにこの検証を行っています。

検証A：回帰効果を取り除いたらどうなるか

検証Aの発想は「下位群の過大評価は、回帰効果の延長線で説明がつくのか？　それとも、回帰では足りない”余分な過大評価”があるのか？」です。

ただし、ここにはひとつ落とし穴があります。下位群のデータを含めて傾向線を引くと、下位群の振る舞い自体が傾向線の形を左右してしまう。検証したい対象で検証の基準を作ってしまう——答案を書いた本人が採点しているようなもので、公平な検証になりません。

だから著者らはこうしました。まず下位群を横に置いておいて、残りの参加者だけで回帰直線（傾向線）を引きます。これが「回帰効果だけで説明できる範囲」の基準です。その傾向線に下位群を当てはめてみて、ぴったり乗れば「回帰の延長で説明がつく」、大きく上にはみ出せば「回帰だけでは説明できない何かがある」となります。

具体的には、最下位四分位（下位8名）を除いた残りの参加者で回帰方程式を算出し、その方程式に下位8名の実際のパーセンタイルを代入して「回帰効果だけで予測される推定値」を求めました。そして実際に下位8名が答えた推定値との差（＝残差）を見ています。

テスト	残差の平均	効果量
難しいテスト	7.79%（メタ認知仮説の予測方向）	d = .25（小さい）
易しいテスト	−1.04%	d = .05（ほぼゼロ）

難テストでは残差7.79%と「方向」としてはメタ認知仮説寄りですが、効果量はd = .25と小さく、「回帰では説明できない余分」が大きいとは言いにくい水準です。易テストでは残差−1.04%（d = .05）とほぼゼロ。回帰効果を統計的に除去すると、下位群の「過剰な」過大評価はほぼ消失しました。

検証B：BTA効果を取り除いたらどうなるか

各参加者の推定誤差から、全体のBTA効果（平均推定パーセンタイル − 50%）を差し引きました。

難しいテストを例にとると、下位25%の過大評価は+35%、上位25%の過小評価は−10%で、非対称性は25%（= 35 − (−10)）あります。ここからBTA効果（11%）を一律に差し引くと、下位は+24%、上位は−21%となり、非対称性は3%まで縮みます。易しいテストでも同様に、BTA補正後には非対称性が大きく減弱しました。

テスト	r	BTA	下位25%誤差	上位25%誤差	非対称性	BTA補正後
難テスト	.44	11%	+35%	−10%	25%	3%
易テスト	.14	19%	+50%	−19%	31%	−7%

さらに著者らは、同じ補正をKruger & Dunning (1999) の4研究にも適用し、いずれの研究でも非対称性が同様に減弱することを示しています（詳細な数値は原著Table 2を参照）。つまり「下位が大きく盛り、上位が少し控えめ」という歪みが、BTAを引くと”ほぼ対称”に近づく——この傾向は、本研究に限らず元論文のデータでも一貫して確認されたのです。

ただし、この補正は全員から一律に差し引く単純な方法です。成績によってBTAの大きさが違う可能性は残ります。それでも、元論文を含む複数研究で一貫して非対称性が縮む以上、「非対称性の主因はBTAである」という著者らの主張には一定の説得力があります。

ヒューマン

つまり、2つの仮説を統計的に除いてみたらどうなった、っちゅう話やな。

エコノ

せやな。回帰効果を除いたら、下位群の「余分な過大評価」はほぼ消えた。BTA効果を除いたら、本研究でも元論文でも非対称性が大きく縮んだ。どっちの角度から見ても、メタ認知を持ち出さなくても説明がつくっちゅう結果や。

結果④：テストの信頼性を考慮すると

ここまでの分析には、実はひとつ大きな前提が隠れています。それは「テストの成績＝その人の本当の実力」という前提です。でも、ちょっと考えてみてください。人の能力を完璧に測れるテストなんて、この世に存在するでしょうか。

その日の体調。たまたま苦手な問題が多かった運の悪さ。集中力が切れたタイミング。どんなに精密なテストを作っても、こうした「ブレ」は避けられません。つまり、テストの点数には「本当の実力」と「その日のブレ」が必ず混ざっているのです。

そしてブレがあるということは、たまたま調子が悪くて最下位になった人は、もう一度テストを受ければ今度は平均のほうに戻ってくる。たまたま絶好調で最上位になった人も、次は平均方向に下がる。これが「平均への回帰」のもうひとつの顔です。

ヒューマン

さっきの「回帰効果」の話とつながるわけか。テスト自体がブレるなら、そのブレの分だけ「見かけの回帰」が余計に大きくなるってことやろ？

エコノ

そういうこっちゃ。下位群の「過大評価」と呼ばれてるものの一部が、実は本人の能力の問題やなくて、テストのブレが作り出した幻かもしれへん。ほんなら、そのブレの大きさを確かめなあかんやろ——というのがこのセクションの話や。

そこで著者らは、テストを前半（奇数番号）と後半（偶数番号）に分割して、ブレの影響を切り分ける工夫をしました。前半の成績で「この人は下位群」と決めて、前半の成績で誤差も計算するのがsame-test法。前半の成績で群を決めて、後半の成績で誤差を計算するのがdifferent-test法です。same-test法では同じ半分のブレが群分けと誤差の両方に乗ってしまうため、見かけのパターンが出やすい。different-test法ではブレが別々なので、誤差由来の非対称性が出にくくなります。

結果はどうだったか。まずテストの信頼性（折半法＋Spearman-Brown補正）を確認すると、難しいテストはr = .17と非常に低く、易しいテストでもr = .56の中程度でした。どちらもsame-test法（同じ半分で群分けも誤差計算も行う）では従来どおりの非対称性が確認されました。ところがdifferent-test法（群分けと誤差計算を別々の半分で行う）に切り替えると、難しいテストでは非対称性が逆転し、易しいテストでも非対称性が大幅に減少しました。

これは何を意味するかというと、ダニング＝クルーガー効果で報告される「下位群の大幅な過大評価」の一部は、テスト自体の測定誤差に起因する統計的なアーティファクト（人工物）であるという可能性です。

ヒューマン

えっ、テストの精度が低いだけで、あのパターンが出てしまうってこと？

エコノ

完全にそれだけとは言い切れへんけど、かなりの部分を説明できるっちゅう話や。特に難しいテストは当てずっぽうに近くなるから、「たまたま最下位になった人」が次は平均に戻る——その戻り幅が大きく見えてまうんや。

結果⑤：自己焦点──誰が他者情報を無視しているのか

最後にもうひとつ、面白い検証があります。テストを受け終えて「さて、自分は何位くらいだろう？」と考えるとき、私たちは何を手がかりにするでしょうか。

たとえば、あなたが易しいテストを受けて「まあ90点は取れたやろ」と感じたとします。問題が簡単だったから、手応えも悪くない。ここで順位を推定するには、もうひとつの情報が必要です——他の人たちは何点くらい取れていそうか。

もし「問題が簡単だったんだから、みんなも95点くらい取ってるやろな」と想定できれば、自分の90点はそこまで上位ではないと判断できます。でも、もしその想定をせずに「90点取れた！　結構上のほうやろ」と自分の手応えだけで順位を決めてしまったら——本当より上位だと思い込みやすくなります（過大評価が起きやすい）。

この「他者の出来を考慮せず、自分の感覚だけで順位を決めてしまう」傾向を、著者らは自己焦点と呼んでいます。

ここでも結論を先に言います。メタ認知仮説は「能力が低い人ほど他者の出来を考慮できない」と予測しますが、実際のデータはその逆でした。他者の成績情報をほとんど順位推定に反映していなかったのは、成績上位群のほうだったのです。

まず下位群。難しいテストでは、自己確信度と推定パーセンタイルの相関が .46、他者確信度との相関が −.60。易しいテストでも自己 .39、他者 −.26。どちらも自己情報と他者情報の両方をそれなりに使っており、偏りは統計的に有意ではありませんでした。

ところが上位群になると景色が変わります。難しいテストでは自己確信度との相関が .48と下位群と同程度なのに対し、他者確信度との相関はわずか −.08。易しいテストでも自己 .43 に対して他者 −.08。どちらのテストでも、上位群は自己情報のほうを有意に強く使用していました（p < .05）。つまり、他者の出来に関する情報が順位推定にほとんど反映されていなかったのです。

ヒューマン

ちょっと待って。さっきの90点の例で言うと、「問題が簡単やったからみんなもできてるはず」って想定ができてないのは、下位群じゃなくて上位群のほうってことか。直感に反するな。

エコノ

せやな。メタ認知仮説やと「能力が低い人ほど他人の出来を見誤る」はずやった。でも実際には、自分の手応えに自信がある上位群のほうが、「他の人も同じくらいできたかも」って情報を軽視してた。これは回帰＋BTA仮説の予測のほうに合致する結果やな。

メカニズム：なぜ回帰＋BTA仮説で説明できるのか

ここまで結果①〜⑤を個別に見てきました。このセクションでは、それらのピースをひとつの絵に組み立てます。

ステップ1：回帰効果——全員の推定が「真ん中寄り」に圧縮される

テストを受けた後、自分の順位を推定する場面を思い浮かべてください。自分が本当は下位10%だったとしても、「さすがにそこまで悪くないやろ」という感覚が働いて、推定値は真ん中のほうに引っ張られます。逆に本当は上位90%でも、「そこまで良くもないかな」と控えめに見積もる。

これは心理の問題というより、不完全な情報から推定するときに統計的に避けられない現象です。結果①で見たとおり、実際のパーセンタイルと推定パーセンタイルの相関はどちらのテストでも1に届きませんでした（難テストr = .44、易テストr = .14）。相関が不完全である限り、推定値は平均方向に圧縮されます。この段階では、下位群が上にズレる幅と、上位群が下にズレる幅はほぼ対称です。つまり、回帰効果だけではダニング＝クルーガー効果の「下位群だけが大幅にズレる」パターンは説明できません。

ステップ2：BTA効果——推定値が丸ごと「上」にシフトする

ここに「自分は平均より上だろう」と思い込むクセ（BTA効果）が加わります。結果①で確認したとおり、両テストとも推定パーセンタイルの平均は50%を有意に上回っていました（難テスト61%、易テスト69%）。これは、ステップ1で真ん中寄りに圧縮された推定値が、全体的にもう一段上にズレるということです。すると何が起こるか。

下位群：回帰で真ん中に引っ張られ（上方向へ）、さらにBTAで上に押し上げられる。ズレが二重に積み重なる。
上位群：回帰で真ん中に引っ張られ（下方向へ）、でもBTAで上に押し戻される。ズレが相殺される。

結果として、下位群の過大評価は大きく、上位群の過小評価は小さい——あの非対称なパターンが出来上がります。結果③でBTA効果を一律に差し引くだけで非対称性がほぼ消えたのは、このメカニズムの裏返しです。

ヒューマン

回帰で上下対称にズレて、BTAで全体が上にシフトするから、下は二重に膨らんで上は相殺される。シンプルやな。でも、結果②〜⑤はこの絵のどこに位置づけられるん？

エコノ

ええ質問やな。結果②の媒介分析は「メタ認知を差っ引いても相関が変わらん」やった。つまりステップ1と2の間に「メタ認知」というパイプを挟む必要がない、という証拠や。結果④はテストのブレを考慮すると非対称性がさらに縮むか逆転した——ステップ1の回帰効果がテストの信頼性に依存してることの裏づけやな。ほんで結果⑤では、他者情報を無視してたのは下位群やなくて上位群やった。メタ認知仮説の予測と逆で、回帰＋BTAの絵のほうに合う。どの角度から切っても同じ方向を指しとるんや。

この2つの要素だけで、Kruger & Dunning (1999) で報告されたパターンを十分に説明できる——というのが著者らの主張です。メタ認知の欠如という「第三の変数」を持ち出す必要はない、と。

批判・限界

この論文自体の限界

サンプルサイズ：参加者60名（各条件30名）は大きくありません。
サンプルの偏り：ブラウン大学というアイビーリーグの学生のみ。前回記事で指摘したKruger & Dunning (1999) と同じWEIRDサンプル問題があります。
テスト領域の限定：英文法という1つの領域でのみ検証しています。

Kruger & Dunning (1999) への批判として

メタ認知の測定問題：Kruger & Dunning (1999) の主要な分析では、「正答率予測（percent correct）」を媒介変数として使っていましたが、この指標は実際の成績と交絡しているとKrueger & Mueller は指摘しています。
実験操作の問題：Kruger & Dunning (1999) のStudy 4（トレーニング実験）は能力（予測変数）を操作したものであり、メタ認知（媒介変数）を独立に操作したものではないと批判しています。
回帰効果の却下理由：Kruger & Dunning (1999) は「回帰効果なら上下対称になるはず」と述べて回帰効果を却下しましたが、BTA効果との組み合わせを考慮していなかったとKrueger & Mueller は主張しています。

まとめと日常への接続──「自分は平均より上」の正体

冒頭の話に戻りましょう。「自分はまあ中の上くらいかな」という感覚。

この論文が示唆するのは、その感覚が必ずしも「メタ認知が足りないから」生じるわけではない、ということです。むしろ、私たちの自己評価システムには構造的に「平均方向に圧縮される」性質と「やや楽観寄りにシフトする」性質が備わっていて、その組み合わせがダニング＝クルーガー的なパターンを生み出している可能性がある。

前回の記事で「回帰効果で説明できるかも」とさらっと書いた部分の中身が、ここまでの話です。「できない人は馬鹿だから気づけない」という通俗的な理解とは、ずいぶん違う風景が見えてきたのではないでしょうか。

もちろん、メタ認知が一切関係ないと断言することもできません。Jansen et al. (2021) の大規模研究はメタ認知の関与を示唆していますし、Krueger & Mueller自身もサンプルサイズの限界を認めています。

ただ、この論文から持ち帰れる視点は明確です。「あの人は能力が低いからわかっていない」と他者を評する前に、そのパターンが統計的な構造から自然に生じうるものだと知っておくこと。「馬鹿は馬鹿だと気づけない」という痛快なストーリーに飛びつく前に、もっと退屈でもっと正確な説明が存在するかもしれない、そんな可能性に目を向けることが、この論文が私たちに求めていることだと思います。

ヒューマン

つまり、前回の記事で出てきた「馬鹿の山」グラフの話にもつながるわけか。あのグラフが原論文にないだけやなくて、そもそもダニング＝クルーガー効果の「原因」自体がまだ決着ついてへんと。

エコノ

そういうこっちゃ。現象としては堅牢に再現されるけど、「なぜそうなるか」については回帰＋BTA派とメタ認知派で見解が割れたままや。安易に「メタ認知が足りないから」と決めつけるのは、少なくとも学術的には時期尚早やな。

この記事のまとめ

Krueger & Mueller (2002) は、Kruger & Dunning (1999) のパターンを再現した上で、その原因に異を唱えた
5つの媒介変数を検証した結果、バイアスのない4つの指標ではメタ認知の媒介効果はほぼゼロだった
回帰効果を取り除くと下位群の「過剰な」過大評価はほぼ消失した
BTA効果を取り除くと本研究・元論文ともに誤差の非対称性が大きく減弱した
テストの信頼性を補正すると非対称性はさらに減少、難しいテストでは逆転した
他者情報を無視していたのは下位群ではなく上位群だった（メタ認知仮説の予測と逆）
ダニング＝クルーガー効果の「現象」は堅牢だが、「原因＝メタ認知の欠如」はまだ決着していない

執筆後記

正直に言うと、この論文は読んでいて「スカッとした感動」がなかった。

主張自体はシンプルです。「平均への回帰」と「自分は平均より上だと思いたがるクセ」——この2つを足し合わせれば、ダニング＝クルーガー効果のパターンは統計的に出てくる。メタ認知なんて持ち出さなくていい。回帰で傾きがグイッと寝て、BTAで回帰直線が上にシフトする。あら不思議、ダニング＝クルーガー効果っぽいグラフの出来上がり——という話です。言われてみれば「まあ、そうやろな」と感覚的に納得できる。

ところが、その「そうやろな」を裏付けるために繰り出される手法が重い。媒介分析、偏相関、Sobel検定、スピアマン＝ブラウンの信頼性補正——統計の道具箱を次々と開けて、「ほら、やっぱりそうでしょ？」と示してくる。感覚を統計で裏付ける論文なので、読後感が「驚き」というより「確認」なんですね。

でも、だからこそ大事な論文だとも思います。「なんとなくそう思う」と「データでそう示せる」の間にはとてつもない距離がある。その距離を、地味な検証の積み重ねで埋めていく作業。派手さはないけれど、学術的にはこういう論文こそが議論の土台を作っていると感じます。派手でキャッチーな論文の方が読んでて楽しいですけれどね。

ダニング＝クルーガー効果はネットのおもちゃになり、名前だけが先行していますが、その原因は今も論争中です。あと数本、この効果に関する論文を解説していこうと思っています。数式こねくり回す論文もあり、正直今白目向きながら読んでます。

参考文献

Kruger, J., & Dunning, D. (1999). Unskilled and Unaware of It: How Difficulties in Recognizing One’s Own Incompetence Lead to Inflated Self-Assessments. Journal of Personality and Social Psychology, 77(6), 1121–1134.

原典で殴るシリーズ（薄味まとめに飽きた人向け）

マシュマロテスト：https://kouzou-structure.com/marshmallow-test-series-summary/
プロスペクト理論：https://kouzou-structure.com/prospect-theory-guide/