ダニングクルーガー効果の原因は？Jansen(2021)が数理モデルで迫る自己評価の構造

ダニング＝クルーガー効果シリーズ　記事一覧
導入
2つの仮説──「事前の思い込み」か「レーダーの性能差」か
モデルの構造──自己評価を数式にするとどうなるか
2つのモデルの違い──事前の思い込みだけか、レーダー性能の差もあるか
実験：約4,000人×2領域の大規模検証
結果解析方法
結果はパフォーマンス依存モデルの勝利
この論文の限界と注意点
日常への接続──「手応え」を信じすぎていないか
まとめ
執筆後記
参考文献
原典で殴るシリーズ（薄味まとめに飽きた人向け）

ダニング＝クルーガー効果シリーズ　記事一覧

「できない人ほど自信がある」──ネットで無限に湧いてくるこのフレーズ。言いたくなる気持ちはわかります。でも残念ながら、そんな単純な話じゃありません。本シリーズでは原典と反論を一本ずつ読み解き、「結局なにが言えて、なにが言えないのか」を確かめていきます。

Kruger & Dunning (1999)──「できない人ほど自分を過大評価する」の原典を読む
Krueger & Mueller (2002)──回帰効果＋BTA効果で説明がつく？反論論文を読む
Burson et al. (2006)──難しい課題で逆転する「誰が一番ズレるか」
Jansen et al. (2021)──数理モデルで迫る「思い込み」vs「鈍感さ」（本記事）
McIntosh et al. (2022)──メタ認知を精密に測ったら「二重の呪い」が崩れた

シリーズ全体のまとめ・Q&Aはこちら→ダニング＝クルーガー効果を原典から解説｜全5回シリーズ＋Q&A

導入

第1回でKruger & Dunning（1999）の原典を読み、「できない人ほど自分を過大評価する」という現象と、その原因として提唱された「メタ認知の欠如＝二重の呪い」仮説を確認しました。第2回のKrueger & Mueller（2002）では、統計的回帰＋平均以上効果（BTA効果）の組み合わせだけで同じパターンが再現できると示されました。第3回のBurson et al.（2006）では、課題の難易度を変えると「誰が一番ズレるか」が逆転することが示され、ノイズ＋バイアスモデルという一般的な枠組みが提案されました。

しかし3本を通じて一貫していたのは、「なぜ低い人が過大評価するのか」の原因について決着がついていないことです。メタ認知の欠如なのか、統計的な構造なのか、はたまたその両方なのか——そこで話を終えていたはずです。

今回取り上げるのは、その「原因」に正面から切り込んだ論文です。考えてみてください。テスト後に「自分は何問正解したと思いますか？」と聞かれたとき、あなたの頭の中では何が起きているでしょうか。
おそらく2つのことを同時にやっているはずです。1つは「あの問題は合ってたはず、あの問題は怪しかった」という個別の手応えの振り返り。もう1つは「まあ自分はこの分野、そこそこできるほうだし」という漠然とした自己イメージ。この2つがどう混ざり合って最終的な自己評価になるのか——それを数式で表現し、約4,000人ずつの大規模データで検証したのがJansenら（2021）の研究です。

ヒューマン

シリーズ4本目か。ここまで「現象は再現されるけど原因は議論中」で来てたやんな。

エコノ

せやな。第1回の原典ではメタ認知の欠如が原因やと主張された。第2回ではそれに対して回帰＋BTAで説明がつくと反論された。第3回ではさらにノイズ＋バイアスモデルで一般化された。けど結局、「ベイズ推論の偏りだから」で説明できるのか、それともやっぱりメタ認知の問題なのか、まだ決着がついてへんかった。今回はそこに数理モデルで切り込んだ論文や。

ヒューマン

数理モデル…数式出てくるんか？

エコノ

出てくる。けど安心しろ。数式の意味は全部言葉で説明するから、読み飛ばしても本筋は追える。逆に式が好きな人には、なかなか美しい構造してるで。

この記事でわかること

ダニング＝クルーガー効果を生む2つの仮説（「ベイズ的な事前の思い込み」 vs 「正誤判断の鈍さ」）
これまでのシリーズで登場した「回帰＋BTA」「ノイズ＋バイアス」との関係
Jansen(2021)が構築した「合理的自己評価モデル」の仕組み
約4,000人×2実験（文法＋論理推論）の大規模検証結果
2つのモデルのどちらがデータをよく説明したか
従来の四分位分析では見えなかった「曲線」の正体

この論文の結論（先にいいます）

「事前の思い込み」だけでも大まかなパターンは再現できるが、低成績側で過大評価が膨らむ形状までは説明しきれない。約4,000人×2実験の結果、数理モデルによる比較で「成績が低い人ほど自分の正誤を見抜く力が低い」という要素を加えたモデルが有意に勝った。1999年の「二重の呪い」を数式で裏づけた形になる。従来の四分位分析では差は見えず、1点刻みの粒度で初めて区別できた。

原典の提示

今回読んでいく原典はこちらです。

Jansen, R. A., Rafferty, A. N., & Griffiths, T. L. (2021). A rational model of the Dunning–Kruger effect supports insensitivity to evidence in low performers. Nature Human Behaviour, 5(6), 756–763.

第1回の記事で「大規模データでダニング＝クルーガー効果を裏付けた」と簡潔に紹介しましたが、今回はこの論文の中身——特にモデルの構造と、2つの仮説の比較——を掘り下げていきます。

2つの仮説──「事前の思い込み」か「レーダーの性能差」か

Jansenらの出発点は、ダニング＝クルーガー効果に対する2つの心理学的説明を数学的に区別できる形にすることでした。

仮説1：ベイズ推論仮説──事前の思い込みが原因

ベイズ推論とは、「すでに持っている思い込み（事前信念）」と「新しく得た証拠」を掛け合わせて判断を更新する考え方です。

人間はいわば素人統計学者で、事前の信念（自分はそこそこできるはず）とテスト中の手応え（あの問題は合ってたっぽい）を組み合わせて自分の能力を推定している、という考え方です。プロの統計学者なら証拠（テストの手応え）に正しく重みをつけて最終判断を出せるけれど、素人だから事前の思い込みに引きずられやすい。

この仮説のポイントは、全員が同じ精度で自分の正誤を判断できるという前提に立つことです。低い人が過大評価するのは、メタ認知が劣っているからではなく、「自分はまあまあできるだろう」という楽観的な事前信念に引っ張られるから——要するに平均への回帰の心理学版です。

仮説2：パフォーマンス依存推定仮説（正誤判断の鈍さが原因）

こちらは第1回で読んだダニングとクルーガーが元々主張していた「二重の呪い」に近い考え方です。低パフォーマンスの人は、テスト中に自分が正解したか間違えたかを見抜く、つまり比喩的に書くと「エラー探知レーダー」の性能が低い。つまり、事前の信念だけでなく、テスト後の振り返り精度にも能力差がある、というものです。

	ベイズ推論仮説	パフォーマンス依存推定仮説
過大評価の原因	事前の思い込み（「自分はできるはず」）	エラー探知レーダーの性能が低い
エラー探知レーダー	全員同じ性能	成績が低い人ほど性能が低い
メタ認知の役割	関係なし	中心的
ダニング＝クルーガーの主張との関係	代替説明（回帰の心理版）	支持・精緻化

ヒューマン

ちょっと待って。仮説1のほうは第2回・第3回で出てきた「回帰効果」とか「ノイズ＋バイアスモデル」と似てへんか？

エコノ

まさに。第2回で扱ったKrueger & Muellerは、回帰効果という統計的な構造と、BTA効果の組み合わせで説明がつくと主張した。第3回のBursonは、そのBTAを「課題の難しさで方向が変わるバイアス」に一般化して、ノイズ＋バイアスモデルにまとめた。どちらも「全員が等しく」という前提の上での話やった。今回のJansenの仮説1は、その「全員共通の思い込み」をベイズ推論の事前分布として数式化した——ここまでは先行研究の延長線上や。ほんで仮説2が加えたのが、「正誤判断精度の個人差」。ここがJansenの独自の一手や。

モデルの構造──自己評価を数式にするとどうなるか

ここからはJansenらが構築した数理モデルの話に入ります。数式が出てきますが、式を追えなくても本筋は理解できるように説明します。数式が出てきた箇所は【1行要約】だけ読めば先に進んでOKです。

基本の枠組み：3つの要素

Jansenらのモデルは、人が自己評価をするとき、3つの要素を使っていると仮定します。

各問題の正誤についての信念（「あの問題は合ってたはず」）
自分の能力についての事前の信念（「自分はこの分野、まあまあだろう」）
課題の難しさについての信念（「あのテスト、結構難しかった」）

そしてベイズの定理に従って、テスト後の能力推定を計算します。

正誤判断のモデル（尤度関数）

まず、ある人 p が問題 i に正解したと信じる確率を、項目反応理論（IRT）のRaschモデルで表します。Raschモデルとは、「その人の能力」と「問題の難しさ」の差だけで正解確率が決まるという、シンプルな数理モデルです。式の左辺は「自分は正解したと信じる確率」を意味します。

P(X_{p,i} = 1 \mid \theta_p, \beta_i) = \frac{1}{1 + e^{-(\theta_p - \beta_i)}}

ここで θp は人 p の知覚された能力、βi は問題 i の難しさです。

【1行要約】 「自分の能力」が「問題の難しさ」を上回っていれば正解したと思いやすく、下回っていれば間違えたと思いやすい、というシンプルな関数です。

エラー探知レーダー（ε）──自分の正誤を見抜く力

しかし現実には、人は自分の正誤を完璧には判断できません。正解したのに「間違えたかも」と思ったり、間違えたのに「合ってるはず」と思ったりします。

ここがこの論文の核心です。 Jansenらのモデルでは、この「自分の正誤を見抜く力」をエラー探知レーダーに喩えることができます。その精度を数値化したのが ε（イプシロン）です。第1回の記事で紹介した、Kruger & Dunning（1999）が主張した「二重の呪い」——できない人は、自分ができていないことにすら気づけない——。あのメタ認知の欠如を、Jansenらは ε というたった一つの数値に翻訳したわけです。そしてこのパラメータが「全員同じ」か「成績で変わる」かで、2つの仮説の命運が分かれます。

P(X_{p,i} = 1 \mid \theta_p, \beta_i, \varepsilon) = (1 - \varepsilon) \cdot \frac{1}{1 + e^{-(\theta_p - \beta_i)}} + \varepsilon \cdot \frac{1}{1 + e^{(\theta_p - \beta_i)}}

【1行要約】 ε = 0 なら完璧なレーダー（すべての正誤を正確に見抜ける）、ε = 0.5 ならレーダーが完全に故障した状態（コイン投げと同じ）。

ヒューマン

このεって、第1回の記事で出てきた「二重の呪い」を数値にしたもんってことか？「できない人は、自分ができてへんことにも気づけへん」ってやつ。

エコノ

その通り。ダニングらが1999年に言葉で説明してた「メタ認知の欠如」を、Jansenらが ε というたった一つの数値に落とし込んだ。εが0なら「レーダー完璧、自分の正誤が全部わかる人」、0.5なら「レーダー故障、全然わからん人」。この「気づけなさ」を数値で測れるようにしたのが、この論文の最大の功績や。

ヒューマン

で、そのレーダーの性能が全員同じなら「思い込みが原因」、成績で変わるなら「メタ認知の問題」ってことか。なるほど、そう聞くとこの ε が論文のカギなんやな。

エコノ

そういうこっちゃ。このたった一つのパラメータの扱いだけで、2つの仮説の命運が分かれる。美しい設計やろ。

推測（当てずっぽう）の考慮

選択式テストでは、わからなくても当てずっぽうで正解することがあります。5択問題なら、ランダムに選んでも20%の確率で正解します。この当て推量パラメータ g も組み込まれています（本研究では g = 0.2、つまり5択を想定）。

事前分布（プライヤー）

能力 θp と問題の難しさ βi はそれぞれ正規分布に従うと仮定されています。ここで重要なのは、能力の事前分布の平均値 μθ です。これがベイズ推論における「初期設定」にあたります。高ければ「自分はできるはず」という楽観を、低ければ「自分はあまりできないだろう」という悲観を表します。

ベイズの定理で事後分布を計算

P(\theta_p, \beta_i \mid X_{p,i} = 1) \propto P(X_{p,i} = 1 \mid \theta_p, \beta_i, \varepsilon) \cdot P(\theta_p) \cdot P(\beta_i)

【1行要約】 テスト後の自己評価＝テスト中の手応え × 事前の自己イメージ × 課題の難しさへの信念。人間は、これら3つの情報をベイズの定理で統合して、最終的な評価を出す。

パラメータまとめ

ここまで、及びこれから登場するギリシャ文字を整理しておきます。本文中で迷子になったら、ここに戻ってきてください。

記号	名前	ざっくり言うと
θ	能力	モデル内での「その人の潜在的な実力」。高いほど正解しやすい
β	問題の難易度	高いほど難しい問題。θ との差で正解確率が決まる
ε	エラー探知レーダーの性能	レーダーの不正確さ。0 なら完璧、0.5 なら完全故障
ε₀	レーダー性能のベースライン	最低成績者のレーダーの不正確さ（切片）。ここから成績に応じて改善する
α	成績による改善の傾き	成績が上がるとレーダーの不正確さがどれだけ下がるか。大きいほど「できる人とできない人の差」が開く
μθ	事前信念の楽観度	テスト前の「自分はこれくらいできるはず」という初期設定。プラスなら楽観、マイナスなら悲観
g	当てずっぽう率	わからなくても当たる確率。5択なら 0.2（20%）

2つのモデルの違い──事前の思い込みだけか、レーダー性能の差もあるか

モデル1：ベイズ推論モデル（ε は一定）

全員が同じ性能のエラー探知レーダーを持っている、つまり正誤を見抜く力に個人差はないと仮定します。パラメータは μθ（事前信念の楽観度）と ε（レーダーの精度）の2つ。このモデルでは、事前の思い込みに引きずられる効果だけで、低成績者は過大評価、高成績者は過小評価するパターンが出ます。

【このモデルが予測するグラフの形】真のスコアと推定スコアの関係は直線的になります。

モデル2：パフォーマンス依存推定モデル（εp は成績で変わる）

低成績者ほど正誤判断が不正確になると仮定します。具体的には：

\varepsilon_p = \varepsilon_0 - \alpha \cdot \frac{\sum_i x_i}{n}

ε0 は最低成績者の正誤判断精度、α は成績による改善の度合い、n は最大スコアです。パラメータは μθ、ε0、α の3つ。

【1行要約】 成績が低い人ほど εp が大きく（エラー探知レーダーの性能が低く）、成績が高い人ほど εp が小さい（レーダーが高性能）。

【このモデルが予測するグラフの形】真のスコアと推定スコアの関係に曲がり（二次関数的な成分）が加わります。低成績側でより大きな過大評価が生じるのです。

	ベイズ推論モデル	パフォーマンス依存推定モデル
エラー探知レーダー（ε）	全員同じ性能	成績が低いほど性能が低い
パラメータ数	2個（μθ, ε）	3個（μθ, ε0, α）
予測されるグラフの形	直線的	低成績側で膨らむ曲線
ダニング＝クルーガーの説明	事前の思い込みへの回帰で説明可能	メタ認知の欠如が追加で必要

重要なのは、2つのモデルの予測が最も大きく食い違うのはグラフの両端の極端に成績が低い層と高い層だという点です。この差を見分けるには、従来の四分位グルーピングでは解像度が足りず、大規模データを1点刻みで比較する必要があります。

実験：約4,000人×2領域の大規模検証

なぜ大規模データが必要だったのか

第1回の記事で触れたように、元のKruger & Dunning（1999）の実験は数十人〜百数十人程度のコーネル大学生でした。さらに、先行研究ではデータを四分位（上位25%、上位中間、下位中間、下位25%）にグループ分けして分析するのが一般的でした。しかしJansenらは、四分位では4つのデータ点しかなく、2つのモデルの微妙な違い（直線 vs 曲線）を区別するには粗すぎると指摘しています。

エコノ

これ、このシリーズの読者にとっては重要な話やで。第1回のKruger & Dunningも、第2回のKrueger & Muellerも、第3回のBursonも、全部四分位で分析しとった。その粒度やと、「回帰で説明できるのか、メタ認知が必要なのか」を区別するには粗すぎた、というのがJansenらの指摘や。つまり、過去20年の論争が決着しなかった一因は、分析の解像度にあったかもしれんということやな。

そこで彼らは、Amazon Mechanical Turkで約4,000人ずつの2つの実験を実施しました。これは元の研究の約80倍の規模です。

文法テスト（参加者3,515人）

項目	内容
参加者	3,515人（男性1,698人、女性1,780人、平均年齢36.54歳）
課題	Kruger & Dunning（1999）の原問題に基づく英文法問題20問（5択）
平均スコア	10.17 / 20（標準偏差 3.40）
平均推定スコア	12.49（標準偏差 3.91）
平均パーセンタイル自己評価	58.48（標準偏差 20.57）

論理推論テスト（参加者3,543人）

項目	内容
参加者	3,543人（女性1,778人、男性1,731人、平均年齢36.59歳）
課題	LSAT（ロースクール入試）から抜粋した論理推論問題20問（5択）
平均スコア	9.45 / 20（標準偏差 3.59）
平均推定スコア	10.86（標準偏差 4.05）
平均パーセンタイル自己評価	52.44（標準偏差 20.84）

結果解析方法

モデルフィッティングの方法──「ダイヤル合わせ」で現実に迫る

ここで行われている「モデルフィッティング」とは何か。専門用語を脇に置いて、一言で表すとこうなります。

「人間の心理を真似たシミュレーションの設定（ダイヤル）を少しずつ回してみて、約4,000人のリアルなデータと一番ぴったり重なる設定を探す作業」

もう少し具体的に見ていきましょう。

ステップ1：3つの「ダイヤル」を用意する

Jansenらは、自己評価を左右する要素を3つの調整ダイヤルとして設定しました。

ダイヤル1：事前の自信（μ_θ）
テストを受ける前の「自分はどれくらいできる人間か」というベイズ推論の初期設定。プラスなら楽観的、マイナスなら悲観的
ダイヤル2：エラー探知レーダーの性能（ε）
自分が解いた問題が合っているか間違っているかを見抜くレーダーの精度。数値が大きいほどレーダーの性能が低く、自分の間違いに気づけない
ダイヤル3：成績による鈍さの悪化度（α）
テストの点数が低い人ほど、自分の間違いに気づけなくなる度合い

ステップ2：何千通りもの「架空の人間」をテストする

次に、3つのダイヤルを少しずつ動かしながら、何千通りもの組み合わせを作ります（これを「グリッドサーチ」と呼びます）。「自信は平均的だけど自分の間違いには全く気づけない人」「自信過剰だけど間違いには気づける人」など、あらゆるパターンの架空の人間をコンピュータ上で生成し、高度なシミュレーション手法（MCMC：10,000回の反復計算）を使って「もしこの設定の人間がテストを受けたら、自分の点数を何点だと予想するか」を計算しました。

ステップ3：2つの学説を「ダイヤルの組み合わせ」で再現する

このダイヤルを使って、対立する2つの学説をそれぞれコンピュータ上に再現しました。

モデルA（ベイズ推論モデル）
ダイヤル1と2だけを使う。「エラー探知レーダーの性能（ダイヤル2）は成績が良くても悪くても全員同じ。過大評価は事前の思い込みだけで生じる」という設定
モデルB（パフォーマンス依存モデル）
ダイヤル1・2に加えてダイヤル3もオンにする。「成績が低い人ほど鈍さが悪化する」という設定

ステップ4：実際の約4,000人のデータと「答え合わせ」をする

ここが最も重要なステップです。シミュレーションが弾き出したモデルAとモデルBの「予測カーブ」を、実際に集めた約4,000人のリアルなデータの上に重ね合わせました。

過去の研究では参加者を4グループ（四分位）に大雑把に分けて比べていましたが、Jansenらは「0点の人、1点の人、2点の人…20点の人」と1点刻みの細かい解像度でズレを比較しました。そして、各ダイヤルの組み合わせごとにデータとのズレの合計を算出し、最もズレが小さくなる設定を探索しています。

ステップ5：どちらのモデルが「現実」に近いかを判定する

最後に、統計的な採点システムを使って、モデルAとモデルBのどちらが実際のデータをより正確に再現できているかを厳密に判定しました。

ヒューマン

なるほど、要するにダイヤル3のON／OFFで、どっちが現実のデータを説明できてるかを試したってこっちゃな？

エコノ

そういうこっちゃ。で、結果はこの後の数字が示す通り、ダイヤル3をオンにしたモデルBのほうが圧倒的にデータに合ってた。ここからは具体的な数字を見ていこう。

結果はパフォーマンス依存モデルの勝利

文法テストの結果

モデル	最適パラメータ	SSE	BIC
ベイズ推論モデル	ε = 0.4, μ_θ = 0.05	49,591.58	19,303.07
パフォーマンス依存モデル	ε_0 = 0.45, μ_θ = 0.05, α = 0.1	49,073.04	19,274.29

尤度比検定：χ²(1) = 36.95, p < 0.001, φ = 0.62 対数ベイズファクター：16.14（パフォーマンス依存モデル支持）

論理推論テストの結果

モデル	最適パラメータ	SSE	BIC
ベイズ推論モデル	ε = 0.45, μ_θ = −0.1	55,801.41	19,846.55
パフォーマンス依存モデル	ε_0 = 0.5, μ_θ = −0.15, α = 0.15	54,912.32	19,797.82

尤度比検定：χ²(1) = 56.91, p < 0.001 対数ベイズファクター：26.15（パフォーマンス依存モデル支持）

結果の読み方──「採点表」の見かた

SSE（二乗誤差の合計）──モデルの予測と実際のデータの「ズレ」を全部足し合わせた数字です。小さいほどデータにピッタリ合っていることを意味します。
BIC（ベイズ情報量基準）──データへのフィットの良さとモデルの「複雑さ」の両方を加味した採点指標です。パラメータが多いモデルはデータに合わせやすいけれど、その分「ズルしている」可能性もある。BICはそのズルさにペナルティをかける役割を果たします。小さいほど優秀です。
尤度比検定──「ダイヤル3を追加したことで、統計的に意味のある改善があったか」を検定する方法です。p 値が小さければ小さいほど、「たまたまではなく本当にモデルが改善した」と言えます。
対数ベイズファクター──「2つのモデルのうち、どちらがどれくらい優勢か」を数値で示す指標です。値が大きいほど一方のモデルを強く支持しています。

この結果が意味すること

両方のテストで、パフォーマンス依存推定モデル（成績が低い人ほどエラー探知レーダーの性能が低い）のほうが、ベイズ推論モデル（全員同じレーダー性能）よりも統計的に有意にデータをよく説明しました。

「事前の思い込みに引っ張られているだけ」でも、ダニング＝クルーガー効果の大まかなパターンは再現できます。しかし、それだけでは「低成績側で過大評価が加速度的に膨らむ」というデータの形までは捕えきれない。「成績が低い人はエラー探知レーダーの性能そのものが低い」という要素を加えて初めて、データの細かな形状まで説明できたということです。

さらにJansenらは、データに直線モデルと二次関数モデルのどちらが合うかも検証しています。文法テスト、論理推論テストのいずれも二次関数モデルのほうが有意に良い適合を示しました。これは、低成績側での過大評価が直線的ではなく加速度的に膨らむことを意味しています。

ヒューマン

なるほど。数字いっぱいで頭パンクしそうやけど、要するに「成績低い人はエラー探知レーダーの性能も低い」ってモデルのほうが、数千人集めて取ってきたデータの形に合ってたってことか。

エコノ

そういうこっちゃ。ただし注意点もある。「パフォーマンス依存モデルが勝った」いうのは、あくまでこの2つのモデルを比べたときの話やで。もっと別のモデルがさらによく説明する可能性は排除されてへん。

四分位で見ると違いが消える問題

興味深いのは、Jansenらが従来の四分位グルーピングでもデータを表示したところ、2つのモデルの違いがほとんど見えなくなったという点です。四分位で平均化すると4つのデータ点しか残らず、直線と曲線の違いが潰れてしまうのです。

先行研究の多くが四分位でデータをまとめていたため、2つの仮説を区別できなかった。Jansenらが各スコアごとにデータを比較するアプローチを取ったからこそ、この違いが見えたわけです。第2回のKrueger & Muellerも、第3回のBursonも、四分位ベースの分析でした。過去20年のこの論争が膠着していた背景には、分析の解像度という方法論的な制約もあったのかもしれません。

この論文の限界と注意点

Amazon Mechanical Turkの参加者：クラウドソーシングの参加者は母集団を完全には代表しない。ただし著者らは、第1回で指摘した外的妥当性の問題——元の研究がコーネル大学生だけだった点——に比べれば、はるかに多様な参加者であると指摘しています。
一回きりの事後判断：この研究では、テスト後に一度だけ「何問正解したか」を尋ねています。各問題ごとに「この問題は正解した自信がありますか」と聞く方式とは異なります。今後の研究として、問題ごとの確信度判断を時系列で予測するモデルの実装を挙げています。

日常への接続──「手応え」を信じすぎていないか

テスト後に「まあまあできた」と思ったのに、結果を見て愕然とした経験はないでしょうか。第3回の記事（Burson et al.）では、課題が難しいとクラス全員が「自分はダメだった」と感じることを扱いました。今回の論文はそこからさらに一歩進みます。

自分の正誤判断が正確だと思っているその確信自体が、能力に依存している。つまり、わからない人ほど「自分はわかっている」と思いやすいのは、性格の問題でも根拠のない自信でもなく、正誤を見分けるためのエラー探知レーダーが十分に機能していないから。

これは子育てや教育の場面で考えると、少し見え方が変わります。テストで悪い点を取った子どもに「なんでこの問題が間違いだとわからなかったの」と問い詰めても、本人には本当にわからないかもしれない。なぜなら、間違いに気づくための知識がまだ足りていないから。第1回で紹介したStudy 4（Kruger & Dunning原論文）で示されたように、能力を上げることが自己認識の改善につながるなら、まず必要なのは責めることではなく、学ぶ機会を提供することなのかもしれません。

ただし、Jansenらのモデルはもう一つの要素——ベイズ的な事前の思い込み——も組み込んでいます。「自分はそこそこできるだろう」というベイズ推論の初期設定も過大評価に寄与しているわけです。エラー探知レーダーの性能だけが原因ではない。事前の思い込みとレーダーの性能差、両方が絡み合っている——これが、この論文が「どちらか一方」ではなく「両方の仮説を統合的に扱うモデル」を構築した理由でもあります。

まとめ

この記事のまとめ

Jansen et al.（2021）はダニング＝クルーガー効果の原因を2つの数理モデルで比較した
仮説1（ベイズ推論）：事前の思い込みへの回帰だけで過大評価が生じる → 全員同じレーダー性能。第2回・第3回で登場した「回帰＋BTA」「ノイズ＋バイアス」を心理学的メカニズムとして数式化したもの
仮説2（パフォーマンス依存推定）：成績が低い人ほどエラー探知レーダーの性能が低い → ε が成績依存。第1回で登場した「二重の呪い」を数値化したもの
約4,000人×2実験の結果、仮説2のほうが統計的に有意にデータをよく説明した
ただしこれは「メタ認知を直接測定した」のではなく「モデルのフィット」の話である
従来の四分位グルーピング（第1〜3回の先行研究すべてで使用）では2つの仮説を区別できなかった → 大規模データと細かい分析粒度の重要性

事前の思い込みだけでは足りない。レーダー性能の差を入れないとデータの形を説明できなかった——これは1999年にKruger & Dunningが言葉で主張した「二重の呪い」を、22年越しに数式とデータで裏づけた形になります。ただし、第2回で見たKrueger & Muellerの「回帰＋BTAで十分」という主張や、第3回で見たBursonの「ノイズ＋バイアスで十分」という主張が完全に否定されたわけでもありません。ベイズ推論モデルでも「大まかなパターン」は再現できていたからです。Jansenの貢献は、データの細かな形状を捕えるには事前の思い込みだけでは不十分だと、定量的に示した点にあるのでしょう。

執筆後記

正直に白状します。今回の論文、読むのがしんどかった。

第2回の記事の執筆後記で「数式こねくり回す論文もあり、正直今白目向きながら読んでます」と書きましたが、あれはこの論文のことでした。

第1回に取り上げたKruger & Dunning（1999）の原典は、心理学の論文としてはかなり読みやすい部類でした。実験の設計もシンプルだし、結果の見せ方も「四分位に分けてグラフにしました、はいどーん」という感じで、統計の専門知識がなくてもストーリーを追える。だからこそ25年経っても広く引用され、一般向けの解説記事も山ほど書かれてきたわけです。

ところがJansen et al.（2021）になると、景色が一変します。ベイズ、項目反応理論、モンテカルロ法、尤度比検定……。1999年の原典から約20年、研究の武器が完全にアップグレードされている。同じ「ダニング＝クルーガー効果」を扱っているのに、論文を開いた瞬間の圧が違う。数式が本気すぎる。ぶっちゃけ式を見ながら、「さぁて気合いれて解読するか」って感じです。というか今でも雰囲気的です。

記事の中では「数式を飛ばしても大丈夫」と書きましたが、書いている本人が一番飛ばしたかったかもしれません（笑）。素人統計学者どころか、素人が統計学者の論文を必死に読んでいる状態です。幸い、モンテカルロもベイズも仕事で過去に多少かじっているおかげで今回はギリギリ食らいつけましたが、正直に白状すると、今でも統計手法まわりの箇所はふわっとしか読めていません。次の論文でこれ以上の手法を持ち出されたら、いよいよ読めなくなるかもしれません。

ダニング＝クルーガー効果といえば、ネットでは「できない人ほど自信がある」の一言で消費され、他人を揶揄するためのおもちゃにされがちです。でもその裏側では、ベイズ推論、項目反応理論、MCMCシミュレーション——これだけの数理的武装を投入して、「なぜそうなるのか」を本気で解き明かそうとしている研究者がいる。しかも4,000人規模のデータで、仮説同士を1点刻みで殴り合わせている。ネットミームとして気軽に振り回される概念の裏に、ここまでガチな知的格闘が積み重なっていることを、この論文は思い知らせてくれました。

参考文献

Kruger, J., & Dunning, D. (1999). Unskilled and unaware of it: How difficulties in recognizing one’s own incompetence lead to inflated self-assessments. Journal of Personality and Social Psychology, 77(6), 1121–1134.

Krueger, J., & Mueller, R. A. (2002). Unskilled, unaware, or both? The better-than-average heuristic and statistical regression predict errors in estimates of own performance. Journal of Personality and Social Psychology, 82(2), 180–188.

Burson, K. A., Larrick, R. P., & Klayman, J. (2006). Skilled or unskilled, but still unaware of it: How perceptions of difficulty drive miscalibration in relative comparisons. Journal of Personality and Social Psychology, 90(1), 60–77.

原典で殴るシリーズ（薄味まとめに飽きた人向け）

マシュマロテスト：https://kouzou-structure.com/marshmallow-test-series-summary/
プロスペクト理論：https://kouzou-structure.com/prospect-theory-guide/

ダニング＝クルーガー効果シリーズ 記事一覧

導入

この論文の結論（先にいいます）

原典の提示

2つの仮説──「事前の思い込み」か「レーダーの性能差」か

仮説1：ベイズ推論仮説──事前の思い込みが原因

仮説2：パフォーマンス依存推定仮説（正誤判断の鈍さが原因）

モデルの構造──自己評価を数式にするとどうなるか

基本の枠組み：3つの要素

正誤判断のモデル（尤度関数）

エラー探知レーダー（ε）──自分の正誤を見抜く力

推測（当てずっぽう）の考慮

事前分布（プライヤー）

ベイズの定理で事後分布を計算

パラメータまとめ

2つのモデルの違い──事前の思い込みだけか、レーダー性能の差もあるか

モデル1：ベイズ推論モデル（ε は一定）

モデル2：パフォーマンス依存推定モデル（εp は成績で変わる）

実験：約4,000人×2領域の大規模検証

なぜ大規模データが必要だったのか

文法テスト（参加者3,515人）

論理推論テスト（参加者3,543人）

結果解析方法

モデルフィッティングの方法──「ダイヤル合わせ」で現実に迫る

ステップ1：3つの「ダイヤル」を用意する

ステップ2：何千通りもの「架空の人間」をテストする

ステップ3：2つの学説を「ダイヤルの組み合わせ」で再現する

ステップ4：実際の約4,000人のデータと「答え合わせ」をする

ステップ5：どちらのモデルが「現実」に近いかを判定する

結果はパフォーマンス依存モデルの勝利

文法テストの結果

論理推論テストの結果

結果の読み方──「採点表」の見かた

この結果が意味すること

四分位で見ると違いが消える問題

この論文の限界と注意点

日常への接続──「手応え」を信じすぎていないか

まとめ

執筆後記

参考文献

原典で殴るシリーズ（薄味まとめに飽きた人向け）

コメント

ダニング＝クルーガー効果シリーズ　記事一覧