ダニング＝クルーガー効果は「難しいタスク」で逆転する──Burson(2006) 解説

ダニング＝クルーガー効果シリーズ　記事一覧
導入
全体像：この論文が何をやろうとしているか
【実験1】大学トリビア──簡単 vs やや難しい（参加者90名）
【実験2】推定課題──5つの領域 × 2つの難易度（参加者40名）
【実験3】単語探しゲーム──信頼性の高い課題で検証（参加者76名）
12課題の統合分析──「感度」と「ズレ」は別物である
メカニズム：ノイズ＋バイアスモデルの全体像
日常への接続──「定期テストの謎」が解ける
執筆後記
参考文献
原典で殴るシリーズ（薄味まとめに飽きた人向け）

ダニング＝クルーガー効果シリーズ　記事一覧

「できない人ほど自信がある」──ネットで無限に湧いてくるこのフレーズ。言いたくなる気持ちはわかります。でも残念ながら、そんな単純な話じゃありません。本シリーズでは原典と反論を一本ずつ読み解き、「結局なにが言えて、なにが言えないのか」を確かめていきます。

Kruger & Dunning (1999)──「できない人ほど自分を過大評価する」の原典を読む
Krueger & Mueller (2002)──回帰効果＋BTA効果で説明がつく？反論論文を読む
Burson et al. (2006)──難しい課題で逆転する「誰が一番ズレるか」（本記事）

導入

学校の定期テスト。結構勉強したし、今回はもろたで！——意気揚々と試験に臨んだら、絶望的に難しい問題が並んでいた。全然わからん。周りもみんな青い顔してる。こりゃ落第やろと意気消沈……。ところが、返却された答案を見てびっくり。まさかの上位。

逆に、「楽勝やったわ」と思っていたのに、蓋を開けたら平均以下だった、なんてことも。面白いのは、「自分はダメだった」と思い込んでいたのは自分だけではなく、クラス全員が同じように思っていたという点です。難しいテストでは、できた人もできなかった人も、みんな揃って「自分はダメだった」と感じる。結果、実際に上位にいた人ほど、自己評価と現実のギャップが大きくなるのです。

前回の記事では、Krueger & Mueller (2002) の反論論文を読み解きました。「できない人ほど過大評価する」パターンは、メタ認知の欠如を持ち出さなくても、統計的回帰と「自分は平均より上」バイアスの組み合わせで再現できる、という主張でした。今回はその議論をさらに一歩進めた論文を取り上げます。「課題の難易度を変えたら、誰が一番ズレるかが逆転する」ことを示した研究です。

ヒューマン

前回の話で「回帰効果＋BTA効果で説明できる」って結論やったやん。もう決着ついたんちゃうの？

エコノ

いや、前回のKrueger & Mueller (2002) はあくまでわりかし「簡単な課題」での話やった。ほんなら「難しい課題ではどうなるんや？」って疑問が残るわけや。

ヒューマン

たしかに。難しい課題でも「できない人ほど過大評価」が起きるんか、って話か。

エコノ

そう。で、今回の論文はまさにそこを突いてきた。結論を先に言うとな、「難しい課題では、優秀な人のほうがズレる」んや。つまり、誰が一番間違うかは、課題の難しさ次第で入れ替わる。そしてそれは「ノイズ＋バイアス」というシンプルな仕組みだけで説明がつく、というのがこの論文の主張や。

この記事でわかること

課題の難易度を変えると「誰が一番ズレるか」が逆転すること
「ノイズ＋バイアスモデル」とは何か
3つの実験（大学トリビア・推定課題・単語探しゲーム）の内容と結果
スプリットサンプル法──「運」の影響を除去する手法
メタ認知仮説 vs ノイズ＋バイアスモデル、決着はついたのか
この論文から「言えること」と「言えないこと」

この論文の結論（先にいいます）

「できない人ほど過大評価」は簡単な課題でしか現れない。難しい課題では逆に、優秀な人のほうが自分の位置を正しく推定できていない。皆等しく推定が下手（ノイズ）＋課題の難しさが生むバイアス、だけで「誰が最もズレるか」の大部分が説明できる。ただ、自分の順位変化への敏感さにおいて上位者がわずかに優れている可能性を認めており、メタ認知の差の存在自体は否定していない。

原典論文の情報

今回読んでいく原典はこちらです。

Burson, K. A., Larrick, R. P., & Klayman, J. (2006). Skilled or Unskilled, but Still Unaware of It: How Perceptions of Difficulty Drive Miscalibration in Relative Comparisons. Journal of Personality and Social Psychology, 90(1), 60–77.

タイトルの “Skilled or Unskilled, but Still Unaware of It” は、Kruger & Dunning (1999) の有名なタイトル “Unskilled and Unaware of It” のもじりになっています。「できる人もできない人も、どっちにしてもわかっていない」というわけです。

全体像：この論文が何をやろうとしているか

前々回（Kruger & Dunning, 1999）と前回（Krueger & Mueller, 2002）の議論を簡単に振り返ります（詳しくは前回記事参照）。Kruger & Dunning (1999) は「できない人ほど自分を過大評価する。原因はメタ認知の欠如だ」と主張しました。Krueger & Mueller (2002) は「いや、回帰効果とBTA効果で説明できる。メタ認知を持ち出す必要はない」と反論しました。

なお、Kruger & Dunningの主張には実は2つの柱がありました。
①できない人ほどズレが大きい（ミスキャリブレーション）
②できない人ほど自分の相対的な位置に鈍感である（感度の差）。
Bursonらの論文はこの両方を検証しています（感度の検証は後半のメタ分析で扱います）。

ただし、この論争には一つ大きな穴がありました。どちらの研究も割と「簡単な課題」しか使っていなかったのです。Kruger & Dunning の4実験はすべて、参加者の平均パーセンタイル推定値が50を上回る（＝全体として「自分は平均以上」と感じている）課題でした。Krueger & Mueller の追試も同様です。パーセンタイルというのは「自分の位置は全体のどれくらい？」という意味です。

Burson et al. は、ここを突きます。「課題の難しさを変えて、全体の平均パーセンタイル推定値が50を下回る（＝みんなが『自分は平均以下だ』と感じている）状況を作ったらどうなるか？」

2つの仮説は異なる予測をします。

【メタ認知仮説（Kruger & Dunning）の予測】
課題が難しくなっても、できない人のほうがズレが大きいはず。メタ認知が欠如しているのはできない人なのだから、課題の難易度にかかわらず彼らが「ズレの主犯」であり続ける。

【ノイズ＋バイアスモデル（本論文）の予測】
簡単な課題では「自分は平均以上」バイアスが全員にかかるので、たまたま本当に平均以上の人が「正解」に近くなる。難しい課題では「自分は平均以下」バイアスが全員にかかるので、今度はたまたま本当に平均以下の人が「正解」に近くなる。つまり、誰が正確に見えるかは、課題の難しさが生むバイアスの方向と、その人の実際の位置の「偶然の一致」で決まる。

【実験1】大学トリビア──簡単 vs やや難しい（参加者90名）

目的

課題の難易度を変えると、パーセンタイル推定値がどう変わるかを確認する。特に、「やや難しい」課題で、Kruger & Dunning (1999) のパターンが消えるかどうかを検証する。

方法

シカゴ大学の学生90名が対象。47名が「簡単版」、43名が「やや難しい版」のシカゴ大学トリビアクイズ（各20問）を受けました。重要な設計上の配慮があります。「難しい版」といっても、正答率は運で当たる確率よりはるかに高い水準でした。つまり「ほとんどの人がまったくできない課題」ではありません。

クイズ後に、参加者は3つのことを回答しました。(1) 20問中何問正解できたと思うか、(2) 他の参加者と比べて自分は何パーセンタイルに位置すると思うか、(3) この課題はどれくらい難しかったか。

結果

まず難易度がきちんと分けられているか。難しい版のほうが実際の正答数が低く（平均10.62問 vs 14.64問）、主観的な難易度評定も高い（3.91 vs 2.96、5段階）。難易度操作は成功しています。

次にパーセンタイル推定値。ここが重要。

条件	平均パーセンタイル推定値
簡単版	62パーセンタイル
やや難しい版	48パーセンタイル

簡単な課題では「自分は平均以上」、やや難しい課題では「ほぼ平均」と推定しています。さて、四分位ごとに分けたらどうなるか。実際の順位と推定パーセンタイルの誤差を比較してみます。

条件	最下位四分位の誤差	最上位四分位の誤差	解釈
簡単版	44.34 pt	16.84 pt	最下位のほうが有意に大きくズレた（K&D 1999 の再現）
やや難しい版	39.23 pt	28.13 pt	有意差なし──パターンが消失

簡単版ではKruger & Dunning (1999) のパターンが再現されましたが、やや難しい版では最下位と最上位のズレの差が消えています。課題の難易度が上がっただけで、「誰がより大きくズレるか」が変わったのです。

この実験から言えること

課題の難易度を変えるだけで、「誰がより大きくズレるか」が変わりました。簡単な課題では下位の人、やや難しい課題では差がなくなるか、あるいは上位の人のほうがズレが大きい。これはメタ認知仮説よりも、ノイズ＋バイアスモデルのほうが整合的です。

ヒューマン

つまり、「できない人が自分を見えてない」んやなくて、課題が簡単やったから下の人のズレが目立っただけ、ってこと？

エコノ

そういうこと。やや難しい版では差が消えてるやろ？メタ認知の欠如が原因やったら、課題の難易度を変えただけで差が消えるのはおかしい。でも「全員が課題の難しさに引っ張られてるだけ」なら、バイアスの方向が変わればズレる人も変わる──筋が通るわけや。

【実験2】推定課題──5つの領域 × 2つの難易度（参加者40名）

目的

実験1のトリビアクイズは「簡単」と「やや難しい」でした。もし課題がさらに難しくなり、平均パーセンタイル推定値が50を大きく下回ったらどうなるか。ノイズ＋バイアスモデルの予測では、今度は「できない人」のほうが正確に見えるはずです。

方法

シカゴ大学の学生40名が参加。複数の領域（ノーベル文学賞の受賞年、大学合格率、ポップソングのチャートイン期間など）で推定課題を行いました。難易度は「正解とみなす範囲」の厳しさで操作。たとえばノーベル賞の受賞年なら、簡単版は「前後30年以内」でOK、難しい版は「前後5年以内」でないとダメ。

結果

全体の平均パーセンタイル推定値は37.04。50を有意に下回っています（t(39) = 4.68, p < .001）。全体として参加者は「自分は平均以下」だと感じていたということです。

領域ごとに見ると、「難しい」と感じる領域ほどパーセンタイル推定値が低くなっています（大学合格率45.98 → ポップソング39.47 → ノーベル賞26.98）。

最下位と最上位のズレの比較は、平均パーセンタイル推定値の水準によって予測どおりに変化しました。

平均推定値の水準	最下位 vs 最上位のズレ
40以上（大学合格率など3つ）	差なし
30〜40（やや難しいポップソング）	最下位のほうが小さい
30未満（ノーベル賞の2条件）	最下位のほうが有意に小さい

つまり、十分に難しい課題では、「できない人」のほうがズレが小さい（＝正確に見える）のです。Kruger & Dunning (1999) の「できない人ほど過大評価する」パターンは、完全に逆転しました。

この実験から言えること

十分に難しい課題では、最上位の人が最も大きくズレ、最下位の人が最も正確に見えるという「逆転」が起きました。これは「できない人のメタ認知が欠如しているからズレが大きい」というメタ認知仮説では説明が困難です。ノイズ＋バイアスモデルの予測と整合的でした。

ただし、この実験には弱点がありました。テストが「その人の実力をどれだけ正確に測れているか」（測定の信頼性）が低かったのです。同じ人が2回受けたら順位がかなり入れ替わってしまうブレがありました（Spearman-Brown折半法で−.24〜.52）。Kruger & Dunning (2002) は「そんな不安定なテストでは、実力差ではなくランダムなブレが結果を支配しているだけだ」と主張しています。この反論に答えるには、実力をもっと正確に測れる課題で同じ結果が出るかを確認する必要があります。

ヒューマン

ちょっと待って。ノーベル賞の受賞年を前後5年以内で当てろって、そんなん誰もできんやろ。

エコノ

まさにそこがポイントや。みんな「こんなんわかるかいな！」って思ってるから、パーセンタイル推定値もめちゃくちゃ低い。で、「自分はたぶん下のほうやろな」と全員が思ってる中で、本当に下のほうにいる人が「たまたま正解に近い」状態になるわけや。

ヒューマン

……つまり、下の人が急に賢くなったわけやないんやな。

エコノ

そういうこっちゃ。バイアスの方向が「下向き」に変わったから、下にいる人の推定値と実際の位置が偶然合致しただけ。上の人はちゃんとできてるのに「自分もダメやろな」って思ってるから、ズレが大きく見えるんやな。

【実験3】単語探しゲーム──信頼性の高い課題で検証（参加者76名）

目的

信頼性の高い課題を使い
(1) ノイズ＋バイアスモデルの予測を再確認する
(2) 回帰効果を除去する「スプリットサンプル法」を適用する。

方法

シカゴ大学の学生76名が参加。「ワードプロスペクター」と呼ばれるゲームで、10文字の単語から4〜6文字の単語をできるだけ多く見つけ出します。たとえば “typewriter” から “type”, “writer”, “trite”, “pewter” など。正しい単語の文字数がプラスのポイントに、存在しない単語はマイナスのポイントになります。

参加者間デザインで、簡単版（typewriter, overthrown、各5分）とやや難しい版（petroglyph, gargantuan、各3分）に分けました。各参加者は2つの単語に取り組みます。

この課題の重要な特徴は、スコアがその人の実力を正確に反映することです。実験2の推定課題は「たまたま当たった／外れた」の影響が大きく、同じ人が2回受けても順位がかなり入れ替わってしまう。一方、この単語探しゲームは同じ人が繰り返し受ければほぼ同じ順位になる。つまり、スコアのブレが小さい分、「能力の差」と「自己評価のズレ」の関係をより正確に検証できます。

また、参加者はある程度自分のスコアを自己採点できます（自分で作った単語リストを見て「これは合ってるだろう」と確認できる）。ただし、スペルの間違いには気づけないし、他の参加者の出来はわからないので、パーセンタイルの正確な推定には限界があります。

結果

パーセンタイル推定値は、予測どおり簡単版のほうが高い（54.39 vs 43.50、F(1, 68) = 5.07, p = .028）。

【四分位ごとのズレ】

条件	全体の平均推定値	最下位のズレ	最上位のズレ
簡単版	59.78	40.22	19.67
難しい版	44.60	23.10	32.80

簡単版ではKruger & Dunning (1999) のパターンが再現（最下位のズレのほうが大きい）。難しい版ではパターンが消失し、方向としては逆転しています（最上位のズレのほうが大きい）。単語探しのような信頼性の高い課題でも、結果は実験1・実験2と同じパターンでした。

スプリットサンプル法──「運」の影響を除去する

ここからがこの実験の核心です。

これまでの分析（Kruger & Dunning, 1999 も含めて）には、ある構造的な問題が潜んでいました。単語A（例：typewriter）で成績グループを作り、そのまま単語Aの自己評価を聞く。一見ふつうのやり方ですが、これだと「たまたまその単語と相性が悪かった（不運だった）人」のズレが水増しされてしまうのです。前回記事で扱った「回帰効果」──極端なスコアは次の測定で平均に近づく──がまさにここで作用しています。

そこでBursonらは、「単語Aの成績でグループ分けし、ズレの測定はまったく別の単語B（例：overthrown）で行う」というスプリットサンプル法を使いました。なぜこれで「運」が消えるのか。日常の例で考えてみましょう。

「期末テストと高熱」で理解するスプリットサンプル法──回帰効果による水増しを除去する

【従来の手法（同じテストで測る）の罠】
いつもは80点を取る実力者のA君がいました。しかしテスト第1回の当日、たまたま39度の高熱を出してしまい（不運のノイズ）、頭が働かず30点しか取れませんでした。結果、A君は「下位グループ」に分類されます。
テスト直後、A君に「何点くらい取れたと思う？」と聞くと、普段の実力をベースに「熱でやばかったけど、まあ60点くらいかな…」と堅実に予測します。
これを研究者が見るとどうなるか？
「実際の点数（30点）に対して、予測（60点）。なんと30点も過大評価している！やはり下位グループは自分の実力が見えていない！」——と勘違いしてしまうのです。

【スプリットサンプル法の解決策】
そこで、スプリットサンプル法（テスト分割法）の出番です。
テスト第1回（高熱の日）の成績は、あくまでA君を「下位グループ」の箱に入れるためだけに使います。そして、自己評価のズレ（誤差）を測るのは、熱が下がった翌週の「テスト第2回」で行うのです。
テスト第2回では、A君の「不運（高熱）」はリセットされています。普段どおり80点を取り、「今回は80点くらいかな」と正確に予測します。
つまり、測定のタイミングを分割（スプリット）して「運」をリセットしてあげるだけで、下位グループの「見かけ上の過大評価」は魔法のように消え去るのです。

スプリットサンプル法を適用すると、ズレの絶対値が大幅に縮小しました。上の表（通常分析）と比較してみましょう。

分析方法	条件	最下位のズレ	最上位のズレ
通常（単語Aで分けて単語Aで測定）	簡単版	40.22 pt	19.67 pt
通常	難しい版	23.10 pt	32.80 pt
スプリット①（単語Aで分けて単語Bで測定）	簡単な単語B	28.59 pt	6.38 pt
スプリット①	難しい単語B	11.98 pt	26.10 pt
スプリット②（単語Bで分けて単語Aで測定）	簡単な単語A	9.57 pt	8.10 pt
スプリット②	難しい単語A	14.33 pt	15.80 pt

通常分析と比べると、スプリット①（分類と測定を別の単語に分離）でズレが縮小し、スプリット②（分類と測定の方向を逆転）ではさらに劇的です。全体の平均推定値がほぼ50に落ち着き、最下位と最上位の差が完全に消失しています。これは「分類に使った単語Bのノイズ（運）が、測定側の単語Aではリセットされている」ことをきれいに示しています。

ヒューマン

めちゃくちゃ縮んでるやん。てことは、Kruger & Dunningが見つけた「できない人ほどズレる」パターンのかなりの部分が、運の水増しやったってこと？

エコノ

著者らの主張はまさにそこや。単語Aでたまたま調子悪かった人が「下位グループ」に入る。でもその人の実力はもっと上やから、自己評価は実力なりの位置に寄る。結果、「実際のスコア」と「自己評価」のギャップが膨らんで見える——さっきのA君と同じ構造やな。

ヒューマン

で、単語Bで測り直すと、その「たまたま」がリセットされるから、ギャップが本来の大きさに戻ると。

エコノ

そういうこっちゃ。運を除いたら、みんな等しくパーセンタイルの推定が下手なだけ。あとは課題の難易度がバイアスの方向を決めてるだけ、というのが著者らの結論や。

12課題の統合分析──「感度」と「ズレ」は別物である

ここまでは、K&Dの主張の第1の柱「できない人ほどズレが大きい（ミスキャリブレーション）」を検証してきました。結果は、ズレの大きさは能力ではなく課題の難易度で決まる。では、第2の柱──「できない人ほど自分の位置に鈍感（感度が低い）」はどうでしょうか。

「感度」とは、実際の成績が上がったとき、自己評価もそれに応じて上がるかどうかの敏感さです。クルーがとダニングの主張では、下位の人は感度が低い（自分が上がっても自己評価が動かない）。ノイズ＋バイアスモデルでは、感度は上位も下位もほぼ同じと予測します。

著者らは3つの実験・12課題すべてのデータを統合し、「実際の成績」と「自己評価（パーセンタイル推定値）」の関係を一枚のグラフにまとめました（論文のFigure 7）。過去の研究（Kruger & Dunningのデータ、点線）と、今回のBursonらの全実験データ（実線）が重ねて描かれています。

このグラフで注目すべきは、どちらの線も右側（上位陣）に行くほど傾きがわずかに急になっていることです。つまり、上位の人のほうが「自分が上がれば推定値も上がる」という反応がやや大きい。

しかし、ここからが重要です。今回のBursonらの実験は、難しい課題を多く含んでいるため、グラフ全体が下方に沈み込んでいます。全員が「自分は平均以下だろう」と思っている状態です。すると、グラフ右端──つまり実際には上位にいる人たちの推定値が、真実の直線（45度線）から最も大きく離れるのです。

上位の人は確かに「感度」では少し優れている。自分の順位が上がれば、推定値もそれなりに追従する。しかし、課題の難しさが生む下方バイアスのパワーがあまりに強いため、感度のわずかな優位は簡単に吹き飛ばされてしまう。結果として、最も真実から遠くズレるのは、能力の高い上位陣になるのです。

重要な点として、著者らはこの結果をもって「メタ認知の差は存在しない」と主張しているわけではありません。感度の差は一貫した傾向として観察されており、別の測定指標（accuracy measures）ではスキルレベルに関連したメタ認知の差を支持するデータも得られています。著者らが否定しているのは、メタ認知の差が「誰が最もズレるか（ミスキャリブレーション）を決める主因である」という点です。

メカニズム：ノイズ＋バイアスモデルの全体像

ここで、3つの実験の結果を「ノイズ＋バイアスモデル」のフレームワークに統合します。このモデルの骨格は以下の2つです。

【ノイズ（noise）】
全員が等しくパーセンタイルの推定が下手。パーセンタイルの推定は、そもそも難しい作業です。自分のスコアを知ることはある程度できても、「他の人がどれくらいできたか」を知る手がかりはほとんどない。結果として、推定値は実際の値に対して大きくブレる（回帰的になる）。このブレはスキルレベルによらず、全員に等しく起きている。

【バイアス（bias）】
課題の難易度が推定値の水準を決める。これはKruger (1999) が報告した知見の一般化です。簡単だと感じた課題では「自分は平均以上」方向にバイアスがかかり、難しいと感じた課題では「自分は平均以下」方向にバイアスがかかる。このバイアスもスキルレベルによらず、全員に等しく適用される。

この2つを組み合わせると、以下のパターンが導かれます。

【簡単な課題】
全員がバイアスで上方にシフト → 実際に上位にいる人は「たまたまバイアスの方向と実際の位置が一致」するので正確に見える。下位の人は「バイアスで上に引っ張られるけど実際は下」なのでズレが大きく見える。→ 「できない人が一番ズレる」パターン。

【難しい課題】
全員がバイアスで下方にシフト → 実際に下位にいる人は「たまたまバイアスの方向と実際の位置が一致」するので正確に見える。上位の人は「バイアスで下に引っ張られるけど実際は上」なのでズレが大きく見える。→ 「できる人が一番ズレる」パターン。

【中程度の課題】
バイアスがほぼゼロ → 全員のズレが似たような大きさになる。→ 「誰も大して正確ではない」パターン。

ヒューマン

ほんなら、この3つの実験の結果は全部この枠組みで説明がつくわけか。

エコノ

そういうこっちゃ。実験1の簡単版は「できない人のほうがズレた」──これは上方バイアスと下位の位置が不一致やから。やや難しい版は「差がなくなった」──バイアスがほぼゼロやから。実験2のノーベル賞条件は「できる人のほうがズレた」──下方バイアスと上位の位置が不一致やから。全部、同じ一つの枠組みで説明できる。

ヒューマン

でもメタ分析で「上位のほうがわずかに感度が高い」って出てたやん。それはメタ認知の差ちゃうの？

エコノ

ええとこ突くな。著者らもそこは認めてる。上位の人は確かに「自分の相対的な位置」への敏感さがわずかに高いかもしれん。でもその差は、ズレの大きさを左右する主要因にはなってない。ズレを決めてるのは圧倒的に「課題の難しさが生む全員共通のバイアス」や。メタ認知の差は存在するかもしれんけど、「誰が一番間違うか」を決める主役やない、というのが著者らの立場や。

なお、著者らは難しい課題で上位者がズレる理由として、メタ認知的な追加メカニズム（運の不透明性、自己ハンディキャッピング、社会的謙遜など）の可能性も検討しています。しかし、これらの追加メカニズムを支持する直接的な証拠がないため、より節約的なノイズ＋バイアスモデルを現時点では支持する──というのが著者らの最終的な立場です。つまり、代替仮説を「論破した」わけではなく、直接的な証拠がない以上、よりシンプルな説明を採用するというオッカムの剃刀的な判断です。

日常への接続──「定期テストの謎」が解ける

冒頭のエピソードを思い出してください。結構勉強したのに、絶望的に難しい問題が並んでいて「こりゃ落第や」と思った。でも蓋を開けたらまさかの上位だった。

これは、まさに本論文が記述しているメカニズムそのものです。テストが難しいと、クラス全員が「自分はダメだった」と感じる。実際に上位だった人も、手応えのなさに引きずられて自己評価が沈む。結果、「落ちたと思ったのに受かっていた」という経験が生まれるわけです。逆に、簡単なテストではみんなが「できた」と感じるので、実際には下位だった人ほど、自分の出来を過大評価してしまう。

つまり、誰が一番ズレるかは、テストの難しさが決めていたのです。この知見から「だから自信を持てばいい」と結論するのは早計です。むしろ本論文が教えてくれるのは、自己評価のズレは個人の能力の問題というより、状況（課題の難しさ）に大きく依存する構造的な現象だということです。

「あの人は自分の能力がわかっていない」と誰かを見下す前に、その人が置かれた状況を考える必要がある。簡単な仕事ばかりしていれば自分を過大評価しがちになるし、難しい仕事ばかりしていれば過小評価しがちになる。それはメタ認知の「欠如」ではなく、人間の判断に構造的に組み込まれた特性なのかもしれません。

この記事のまとめ

「できない人ほど過大評価する」パターンは、簡単な課題でのみ成り立つ
難しい課題では逆転し、「できる人」のほうがズレが大きくなる
ノイズ＋バイアスモデル：全員が等しく推定が下手（ノイズ）＋課題の難しさがバイアスの方向を決める
スプリットサンプル法で「運」の影響を除去すると、回帰効果により極端な四分位のズレは大幅に縮小する
上位の人はわずかに「感度」が高い可能性があり、著者らもメタ認知の差の存在自体は否定していない。ただしそれは「誰が最もズレるか」を決める主因ではない
「誰が一番間違うか」は、個人のメタ認知の差よりも、課題の難しさと実際の位置の偶然の一致で決まる

執筆後記

この論文は、「前回のKrueger & Mueller (2002) の一般化だ」という視点で読むと非常にわかりやすくなります。

前回の「回帰効果＋BTA効果」という枠組みを思い出してください。あの枠組みでは、ノイズ（回帰効果）とBTA（better-than-average）という2つの要素を並列で扱っていました。しかし、このBTAは「簡単な課題で発生する上方バイアス」の一形態に過ぎなかったのです。

本論文の「ノイズ＋バイアス」モデルでは、バイアスの方向が課題の難易度によって連続的に変わります。簡単なら上方、難しければ下方、中間ならほぼゼロ。つまり、BTAは「バイアス」という上位概念の中に包括され、その特殊ケースとして位置づけられるわけです。

この見方で読むと、前回と今回の関係がすっきりします。Krueger & Muellerは「回帰＋BTAで説明がつく」と示した。でもそれは「簡単な課題」だけ見た場合の特殊解です。Bursonらは「課題の難易度」という軸を導入することで、その特殊解をより広い一般解に拡張した。回帰効果（ノイズ）はそのまま、BTAは「難易度で方向が変わるバイアス」にアップグレードされた。それだけのことのように読みました。ただし、この”それだけ”が見えるまでに、学術界では1999年から7年かかっています。

参考文献

Krueger, J., & Mueller, R. A. (2002). Unskilled, Unaware, or Both? The Better-Than-Average Heuristic and Statistical Regression Predict Errors in Estimates of Own Performance. Journal of Personality and Social Psychology, 82(2), 180–188.

Kruger, J., & Dunning, D. (1999). Unskilled and Unaware of It: How Difficulties in Recognizing One’s Own Incompetence Lead to Inflated Self-Assessments. Journal of Personality and Social Psychology, 77(6), 1121–1134.

原典で殴るシリーズ（薄味まとめに飽きた人向け）

マシュマロテスト：https://kouzou-structure.com/marshmallow-test-series-summary/
プロスペクト理論：https://kouzou-structure.com/prospect-theory-guide/

ダニング＝クルーガー効果シリーズ 記事一覧

導入

この論文の結論（先にいいます）

原典論文の情報

全体像：この論文が何をやろうとしているか

【実験1】大学トリビア──簡単 vs やや難しい（参加者90名）

目的

方法

結果

この実験から言えること

【実験2】推定課題──5つの領域 × 2つの難易度（参加者40名）

目的

方法

結果

この実験から言えること

【実験3】単語探しゲーム──信頼性の高い課題で検証（参加者76名）

目的

方法

結果

スプリットサンプル法──「運」の影響を除去する

12課題の統合分析──「感度」と「ズレ」は別物である

メカニズム：ノイズ＋バイアスモデルの全体像

日常への接続──「定期テストの謎」が解ける

執筆後記

参考文献

原典で殴るシリーズ（薄味まとめに飽きた人向け）

コメント

ダニング＝クルーガー効果シリーズ　記事一覧