メタ認知を精密に測ったら「二重の呪い」が崩れた McIntosh(2022)

用語解説

ダニング=クルーガー効果シリーズ 記事一覧

「できない人ほど自信がある」──ネットで無限に湧いてくるこのフレーズ。言いたくなる気持ちはわかります。でも残念ながら、そんな単純な話じゃありません。本シリーズでは原典と反論を一本ずつ読み解き、「結局なにが言えて、なにが言えないのか」を確かめていきます。

  1. Kruger & Dunning (1999)──「できない人ほど自分を過大評価する」の原典を読む
  2. Krueger & Mueller (2002)──回帰効果+BTA効果で説明がつく?反論論文を読む
  3. Burson et al. (2006)──難しい課題で逆転する「誰が一番ズレるか」
  4. Jansen et al. (2021)──数理モデルで迫る「思い込み」vs「鈍感さ」
  5. McIntosh et al. (2022)──メタ認知を精密に測ったら「二重の呪い」が崩れた(本記事)

導入

前回の記事で、Jansen et al.(2021)の数理モデルが「エラー探知レーダーの性能差」——つまりメタ認知の差——を組み込んだモデルのほうがデータをよく説明する、と結論づけました。1999年にKruger & Dunningが言葉で主張した「二重の呪い」が、22年越しに数式で裏づけられた形になった、と書きました。……のですが。

今回取り上げる論文は、その結論に真っ向から異を唱えます。

ヒューマン
ヒューマン

ちょっと待て。前回のJansenでは「エラー探知レーダーの性能差を入れないとデータの形が説明できない」って結論やったやん。それが今回いきなり否定されるんか?

エコノ
エコノ

そう。で、ここが重要なんやけど、JansenとMcIntoshでは「メタ認知を調べる方法」がまったく違う。Jansenは数理モデルのパラメータとしてメタ認知の代理変数(ε)を推定した。McIntoshは信号検出理論を使って、問題ごとの確信度評定からメタ認知を直接測定した。同じ「メタ認知」という言葉を使っているけど、測り方が違えば答えも変わりうる。

ヒューマン
ヒューマン

モデルで推定するか、直接測るか。その違いが結論をひっくり返したってことか。

エコノ
エコノ

ひっくり返った、と言い切るにはまだ早い。この論文をちゃんと読んでから判断しよう。ただ、一つ確かなのは、ネットで気軽に振り回されてる「できない人ほど自信過剰」というイメージが、少なくともこの論文のデータでは成り立ってへんかった、ということや。

この記事でわかること

  • ダニング=クルーガー効果の「二重の呪い」仮説を検証するために、メタ認知を精密に測る方法(信号検出理論)とは何か
  • メタ認知の3つの側面:感度(sensitivity)、効率(efficiency)、バイアス(bias)の違い
  • 151人の行列推理課題で、メタ認知と成績の関係はどうだったか
  • パス解析で「DKEパターンの何%がメタ認知で説明されるか」を検証した結果
  • 前回のJansen(2021)と結論が対立する理由
  • 「二重の呪い」仮説に対する著者らの最終的な評価

この論文の結論(先にいいます)

メタ認知の「感度」は成績が低いほど落ちたが、これは情報量の差であって処理の質(「効率」)には差なし。自信過剰でもなく、むしろ適切に自信が低い。パス解析で見ると、DKEを駆動していたのは圧倒的に成績スコアで、メタ認知の寄与はほぼゼロだった。ただし「メタ認知は無関係」とまでは言っていない——「主因ではない」が主張。


今回読んでいく原典はこちらです。

McIntosh, R. D., Moore, A. B., Liu, Y., & Della Sala, S. (2022). Skill and self-knowledge: empirical refutation of the dual-burden account of the Dunning–Kruger effect. Royal Society Open Science, 9, 191727.


【メタ認知を測る】「二重の呪い」を検証

問題の整理:前回までの到達点

ここまでのシリーズの流れを振り返ります。

第1回のKruger & Dunning(1999)は、「できない人はメタ認知が欠如しているから、自分のできなさに気づけない」という「二重の呪い」仮説を提唱しました。第2回のKrueger & Mueller(2002)と第3回のBurson et al.(2006)は、それぞれ「回帰効果+BTA効果」「ノイズ+バイアスモデル」で、メタ認知を持ち出さなくてもDKEパターンは再現できると反論。第4回のJansen et al.(2021)は、数理モデルの比較を通じて「エラー探知レーダーの性能差(ε)」を入れたモデルのほうがデータに合うことを示し、二重の呪いを数式で裏づけた。

しかしMcIntoshらは、ここまでの研究にある共通の弱点を突きます。

これらの研究はすべて、メタ認知を適切に測定していない。

テスト後に「あなたは何問正解したと思いますか」と一度だけ聞く方法では、メタ認知を正しく測れない、と指摘したのです。たまたま当たっただけかもしれないし、「まあ半分くらいかな」と適当に答えただけかもしれない。推定誤差が小さいことが、必ずしもメタ認知が優れていることを意味しないのです。

ヒューマン
ヒューマン

たしかに。第1回の原典でも、テスト後に「何問正解したと思う?」って聞いてただけやったな。Jansenも、自己推定スコアと実際のスコアのズレをモデルで分析する方式やった。

エコノ
エコノ

そう。Jansenのεは「正誤判断の鈍さ」をモデル内で推定したパラメータであって、メタ認知を直接測ったわけやない。McIntoshの言い分はこうや——「メタ認知が原因だと主張するなら、メタ認知そのものをちゃんと測りや?」。ほんでそのために持ち出したのが、信号検出理論に基づくメタ認知測定の枠組みや。

メタ認知を「精密に測る」とはどういうことか

通常のテストでは、参加者は問題を解いて「正解か不正解か」だけが記録されます。しかし今回の研究では、「各問題」について「自分の回答にどのくらい自信があるか」を4段階で評定してもらいます。すると、こんなデータが手に入ります:「この問題は正解で、自信は4(とても確信)」「この問題は不正解で、自信は2(やや不確か)」。90問分のこうしたデータから、メタ認知の3つの側面を別々に測定できるのです。この3つの側面のうち「どれが成績と連動しているか」がわかれば、二重の呪い仮説の真偽を判定できます。

メタ認知の3つの側面

ここからは3つの指標を順番に説明します。核心は「レーダーの性能」「レーダーの処理の質」「レーダーの初期設定」の3つだと思ってください。前回記事のエラー探知レーダーの比喩を引き継ぎます。

【① メタ認知感度(meta-d′)──レーダーが拾える情報量

自分が正解した問題では自信が高く、間違えた問題では自信が低い——この一致度が高いほど、メタ認知感度が高いといえます。数値的にはmeta-d′(メタ・ディープライム)で表されます。

meta-d′が高い=エラー探知レーダーがキャッチできる情報が多い。低い=レーダーに入ってくる信号が少ない。重要なのは、認知課題そのもので使える情報が少ない人は、メタ認知で使える情報も必然的に少なくなる、という点です。数学が苦手な人に微分の問題を解かせたら、「自分は合ってるか間違ってるか」を判断する材料もそもそも乏しい。これは当たり前です。

【② メタ認知効率(meta-d′ / d′)──レーダーの処理の質

メタ認知感度(meta-d′)を、認知感度(d′:問題を正しく解く力)で割った値です。

これの意味は「手持ちの情報をどれだけ上手にメタ認知に活用できているか」です。meta-d′ / d′ = 1 なら、認知で使える情報を100%メタ認知にも活用できている理想的な状態。1未満なら、情報の一部がメタ認知の段階で失われている。

ここが二重の呪い仮説の試金石です。二重の呪いは、成績の低い人はメタ認知の処理そのものが劣っている(効率が低い)と予測します。もし効率に成績差がなければ、「できない人のメタ認知は壊れている」とは言えません。

③ メタ認知バイアス──レーダーの初期設定(全体的な自信の高低)

正解した問題の平均自信度と、不正解の問題の平均自信度を、等しく重みづけして平均した値です。成績に関係なく、その人がどれくらい自信が高い(あるいは低い)かを表します。「できない人は自信過剰」というのがDKEの世の中のイメージですから、もしそれが本当なら、成績の低い人ほどメタ認知バイアスが高い(自信過剰)はずです

指標比喩何を測っているか二重の呪いが正しいなら
メタ認知感度
(meta-d′)
レーダーが拾う情報量正誤の見分けに使える情報の量低成績者で低い
(ほぼ確実)
メタ認知効率
(meta-d′ / d′)
レーダーの処理の質手持ちの情報の活用度低成績者で低い
(これが本命)
メタ認知バイアスレーダーの初期設定全体的な自信の高低低成績者で高い
(自信過剰)
ヒューマン
ヒューマン

なるほど。感度は「そもそも情報が少ないから低くなる」のは当たり前で、効率が「その人のメタ認知の腕前そのもの」ってわけか。

エコノ
エコノ

その通り。たとえば英語の苦手な人にTOEICを受けさせたら、「自分がどの問題を間違えたか」を見分ける材料が少ない(感度が低い)。これは当然や。でも「手持ちの材料を活用する腕前」まで劣っているかどうかは、別の話。その「腕前」を測るのが効率や。Jansenのεは、この2つを区別せずにまとめて1つのパラメータに押し込んでいた。McIntoshはそれを分離したわけや。


【実験デザイン】

項目内容
参加者151人(大学生・卒業生、平均年齢24.4歳)
課題行列推理課題(3×3の図形マトリクスから欠けた要素を2択で選ぶ)
ベースラインブロック48問(自信度評定なし)──参加者の「実力」を測定
テストブロック90問(各問題の後に自信度を4段階で評定)──メタ認知の測定に使用
テスト後のグローバル推定①相対推定(100人中で何位か)②絶対推定(正答率の自己推定)

実験デザインのポイントは2つあります。

第一に、ベースラインとテストを分離していること。ベースラインブロック(48問)で参加者の認知スキルを測り、テストブロック(90問)で成績・自己推定・メタ認知を別々に測定しています。これにより、第2回の記事で議論した「回帰効果の水増し問題」(同じテストでグループ分けと推定誤差を計算するダブルディッピング)を回避しています。

第二に、問題ごとの自信度評定を取っていること。テスト後に一度だけ「何問正解した?」と聞くのではなく、90問それぞれについて「自分の回答にどのくらい自信があるか」を1(とても不確か)〜4(とても確信)で答えてもらっています。これがメタ認知測定の基礎データになります。この測定方法がこの論文のキモとなります。


【結果①】DKEパターンの再現

まず確認すべきは、DKEパターンそのものが出現したかどうかです。出現しなければ、原因を調べようがありません。ベースラインの認知スキルとテストの推定誤差の間に、有意な負の相関が確認されました。

推定誤差の種類Spearman ρp値
相対推定誤差(「100人中で何位か」のズレ)−0.57p = 1.6 × 10⁻¹⁴
絶対推定誤差(正答率の推定のズレ)−0.43p = 5.0 × 10⁻⁸

成績が低い人ほど過大評価、成績が高い人ほど過小評価するという、おなじみのDKEパターンです。ベースラインとテストを分離しているため、第2回で議論したダブルディッピングによる水増しは抑えられています。


【結果②】メタ認知の3指標と成績の関係

ここからが本論文の核心。先ほど説明した3つの指標が、成績とどう関連していたかを見ていきます。

メタ認知感度(meta-d′):予想通り、成績に連動

認知感度(d′)とメタ認知感度(meta-d′)のSpearman相関は ρ = 0.66 でした。成績が高い人ほど、自分の正誤をよく見分けられていた。そして両者の関係は、ほぼ1対1の直線(unity line)に近かった。

これは「当然の結果」であり、心理学的にはあまり面白くありません。問題を正しく解く力が弱い人は、自分の正誤を判断する材料も乏しい。情報がないのだから、メタ認知でキャッチできる信号も少ない。

メタ認知効率(meta-d′ / d′):成績との関連なし

ここが最大の焦点です。メタ認知効率と認知感度の相関は ρ = −0.13(95% CI: −0.29〜0.05)でした。信頼区間がゼロをまたいでおり、有意ではありません。成績が低い人のメタ認知の「処理の質そのもの」は、成績が高い人と変わらなかった。

これは二重の呪い仮説の「メタ認知の処理メカニズム自体が能力に依存する」に対する直接的な反証です。前回のJansenの ε パラメータが捉えていたのは、この「効率」の差ではなく、「感度」の差(つまり情報量の差)に過ぎなかった可能性を示唆します。

メタ認知バイアス:低成績者は自信過剰ではなく、適切に謙虚

メタ認知バイアスと認知感度の相関は ρ = 0.30(95% CI: 0.13〜0.45)。正の相関です。つまり、成績の低い人のほうが自信が低く、成績の高い人のほうが自信が高い。通俗的なDKEイメージ「できない人ほど自信過剰」の正反対です。

ヒューマン
ヒューマン

え、正の相関かい?てことは、成績悪い人のほうが自信ないってこと?ネットでよく言われてる「できない人ほど自信がある」と真逆やんか。

エコノ
エコノ

そう。しかもこれは、成績の影響を調整したバイアス指標での話やで。正解のときの平均自信と、不正解のときの平均自信を等しく重みづけして平均してるから、「たくさん正解してるから平均自信が高い」っていう単純な効果は取り除かれてる。それでもなお、成績が低い人のほうが自信が低い。

ヒューマン
ヒューマン

じゃあ、成績が一番低い人の自信って、どれくらいのレベルなん?

エコノ
エコノ

おもろいデータがある。最も成績が低い人たちの全体的な平均自信度は、4段階で約2.3。これは、最も成績が高い人たちが「間違えた問題」に対して報告する自信度とほぼ同じや。つまり、成績が低い人の全体的な自信レベルは、トップの人が「これは難しすぎてわからんかった」と感じているときの自信レベルと同じ。自信過剰どころか、相応に謙虚やということやな。

指標認知感度との相関(ρ)95% CI二重の呪いの予測実際の結果
メタ認知感度0.66(0.50, 0.80)正の相関 ✓予測通り
(だが心理学的に当然)
メタ認知効率−0.13(−0.29, 0.05)正の相関 ✗関連なし
(二重の呪いに反する)
メタ認知バイアス0.30(0.13, 0.45)負の相関 ✗正の相関
(通説と逆)

【結果③】パス解析──DKEを駆動しているのは何か

ここまでの分析で、メタ認知の3指標と成績の関係はわかりました。しかしMcIntoshらはさらに踏み込みます。メタ認知の差が実際にDKEパターンを引き起こしているのかどうかを、パス解析で定量的に検証したのです。パス解析とは何かをざっくり言うと、「AからBへの因果的な経路が複数あるとき、それぞれの経路がどれくらいの強さで効いているか」を数値で見積もる方法です。マシュマロテストでも取り扱っています。

McIntoshらのモデルでは、認知スキル(ベースラインの成績)から推定誤差(DKE)への経路を4本設定しています。

  1. 認知パフォーマンス(テストの成績)を経由する経路
  2. メタ認知感度を経由する経路
  3. メタ認知効率を経由する経路
  4. メタ認知バイアスを経由する経路

二重の呪い仮説が正しければ、メタ認知を経由する3本の経路が、DKEパターンに有意に寄与するはずです。

パス解析の結果

DKEパターンを駆動していたのは、圧倒的に認知パフォーマンス(テストの成績)の経路でした。

【相対推定誤差の場合】

経路強さ(縮約モデル)95% CI
認知パフォーマンス−0.68(−0.79, −0.57)
メタ認知全体+0.14(0.08, 0.20)
うちメタ認知感度+0.10(0.04, 0.15)
うちメタ認知バイアス+0.04(0.01, 0.08)

DKEは「成績が低い人ほど過大評価する」パターン(負の相関)ですから、DKEを促進するのは負の経路です。認知パフォーマンスの経路は −0.68 で、DKEを強力に駆動しています。一方、メタ認知の経路は全体で +0.14——つまり、DKEをわずかに打ち消す方向に働いていました。

ヒューマン
ヒューマン

メタ認知が打ち消す方向って…? メタ認知はDKEを和らげてるってこと?

エコノ
エコノ

そう読める。成績が低い人はメタ認知感度も低い。でもメタ認知感度が低いこと自体は、推定誤差を大きくする方向には働いていない。むしろわずかに自己推定を正確にする方向に効いている。で、成績そのものが推定誤差の計算に直接入るから、成績が低い→推定誤差が大きい、という関係がDKEの本体やということや。

ヒューマン
ヒューマン

それって第2回で扱ったKrueger & Muellerの「回帰効果で説明がつく」って主張と同じやないか?

エコノ
エコノ

ほぼ同じ結論に帰着する。McIntoshら自身も、DKEは不確かな自己推定が成績の中間値に回帰することで生じる統計的アーティファクトだ、と明言している。Bursonの「ノイズ+バイアスモデル」とも整合する。20年以上前のKrueger & Muellerの洞察が、最新のメタ認知測定法を使っても支持されたわけや。


なぜJansenと結論が違うのか

ここまで読んで、前回記事との矛盾が気になっている読者も多いと思います。Jansen et al.(2021)は「レーダー性能差(ε)を入れたモデルのほうがデータに合う」と結論し、McIntosh et al.(2022)は「メタ認知はDKEの原因ではない」と結論する。どちらが正しいのでしょうか。

両者の違いを整理すると、以下のようになります。

Jansen et al. (2021)McIntosh et al. (2022)
方法数理モデルのパラメータ推定信号検出理論による直接測定
メタ認知の測り方εという1つのパラメータで代理感度・効率・バイアスに分離
自己評価データテスト後のグローバル推定(1回きり)問題ごとの4段階確信度評定(90回)
サンプルサイズ約4,000人×2(MTurk)151人(大学生・卒業生)
分析粒度1点刻みのモデルフィット個人レベルの相関とパス解析
結論ε を成績依存にしたモデルが勝つメタ認知はDKEを駆動していない

両者は矛盾しているように見えますが、矛盾の核心は「メタ認知」の定義と測定方法の違いにあります。

Jansenのεは「正誤判断の精度」を1つの数値にまとめたものでした。εが成績に依存するほうがモデルフィットが良い——これは確かです。しかしMcIntoshの枠組みで言えば、このεは「メタ認知感度」と「メタ認知効率」を区別していません。McIntoshが示したように、感度は成績に連動する(当然の帰結)けれど、効率は連動しない。Jansenのεが捉えていたのは、主に感度の差(情報量の差)であって、メタ認知処理の質の差ではなかった可能性があるのです。

もう一つ重要な違いがあります。Jansenはグローバル推定(テスト後の1回きりの自己評価)をモデルで分析しましたが、McIntoshは、グローバル推定はそもそもメタ認知の適切な測定ではないと論じています。一発の推定で当たったからといってメタ認知が優れているとは限らない——たまたまかもしれない。問題ごとの確信度評定を積み上げて初めて、メタ認知の真の質が測定できるのだ、と。

ただし、McIntoshの研究にも限界があります(後述)。サンプルサイズが151人とJansenの約4,000人に比べて小さく、課題も行列推理の1種類だけです。「二重の呪いが完全に否定された」と結論するのは早計でしょう。


この論文の限界と注意点

  1. サンプルの規模と多様性の制約:151人は心理学の実験としては適切な規模だが、Jansen et al.の約4,000人×2に比べると桁が違う。特にメタ認知効率と成績の弱い相関を検出する検出力が十分だったかは議論の余地がある。また、参加者は大学生・卒業生が中心で、年齢・教育レベルの幅が限定的であり、Jansenが使ったMTurk参加者のほうが人口統計学的には多様だった。サンプルサイズの小ささと参加者層の偏りが重なっているため、結果の一般化には慎重さが求められる。
  2. 課題が1種類のみ:行列推理課題だけでの検証であり、文法やユーモアなど他の知的課題に一般化できるかは不明。

日常への接続──「あの人、ダニング=クルーガーだよね」の危うさ

的外れな発言を自信たっぷりにする同僚を見て、「典型的なダニング=クルーガーだ」と思った瞬間。McIntoshの研究結果を踏まえると、その直感的な解釈は2つの点で危うい。

第一に、成績が低い人は実は自信過剰ではなかった。問題ごとの自信度を精密に分析すると、成績の低い人は成績の高い人よりも自信が低く、その程度は適切だった。「できない人ほど自信がある」は、少なくともこの実験では事実ではなかったのです。

第二に、仮にDKEのパターン(低成績者ほど過大評価)が観察されたとしても、それを生み出しているのはメタ認知の欠如ではなく、成績スコアそのものだった。自己推定は誰にとっても不正確で、中間値に引きずられる。成績が低い人はその結果として過大評価「に見え」、成績が高い人は過小評価「に見える」。これは統計的な回帰の産物であり、「できない人はバカだから気づけない」というストーリーとは本質的に異なります。

ただし、逆方向の過度な一般化にも注意が必要です。McIntoshらは、メタ認知が自己評価に一切影響しないとは主張していません。否定しているのは、メタ認知がDKEパターンの主因であるという解釈です。また、「間違った課題表象を持っている人」——つまり、問題の解き方そのものを根本的に誤解している場合——には、能力の低さと高い自信が体系的に結びつくケースがありうる、とも付言しています。


まとめ

この記事のまとめ

  • McIntosh et al.(2022)は、信号検出理論に基づくメタ認知測定法を用いて、DKEの「二重の呪い」仮説を検証した
  • メタ認知感度(正誤の見分けに使える情報量)は成績に連動した → ただしこれは認知情報の制約から当然の帰結
  • メタ認知効率(メタ認知処理の質そのもの)は成績と無関係だった → 二重の呪いの「強い版」に反する
  • メタ認知バイアスは成績と正の相関 → 低成績者は自信過剰ではなく、適切に謙虚だった
  • パス解析の結果、DKEパターンは圧倒的に成績スコアで駆動されており、メタ認知の寄与はほぼゼロ、もしくはDKEを打ち消す方向
  • DKEは統計的回帰のアーティファクトであり、メタ認知についてはほとんど何も教えてくれない——というのが著者らの結論

メタ認知を精密に測ったら、DKEの中にメタ認知の因果的な役割はほとんど見つからなかった。これはJansen et al.(2021)が数理モデルで到達した結論「エラー探知レーダーの性能差を入れないとデータの形を説明できない」と緊張関係にあります。両者の溝は、「メタ認知」という概念をどのレベルで測定するかの違いに帰着するのかもしれません。モデルのフィットが良いことと、実際にメタ認知が原因であることは、同じではない——この点が、今回の論文の最も重要な教訓でしょう。


執筆後記

今回のシリーズを書いていて一番おもろいと感じたのは、前回と今回のJansenとMcIntoshの対立構造そのものでしょうね。

McIntoshの批判の核心は、「テスト後に一度だけ『何問正解したと思う?』と聞くグローバル推定では、メタ認知を正しく測れない」というものでした。だから90問それぞれに確信度評定を取り、信号検出理論で感度・効率・バイアスを分離するという精緻な測定に踏み込んだ。——しかし、その精緻さの代償として、サンプルは151人、課題は行列推理の1種類だけです。

一方のJansenの強みは、約4,000人×2という桁違いのサンプルサイズと、1点刻みの数理モデルという分析の粒度にあります。「四分位でまとめたら見えない差が、1点刻みなら見える」と主張した。——しかし、その大規模データの土台になっているのは、まさにMcIntoshが「甘い」と批判した、テスト後1回きりのグローバル推定なのです。

つまり、こういう構図になっている。

  • McIntosh:「測り方が甘いぞ」→ 精密に測りに行く → でもサンプルが小さい
  • Jansen:「データが少ないぞ」→ 大規模に取りに行く → でも測り方が粗い

片方が相手の弱点を突いて改善したら、別の弱点が生まれる。それぞれの研究が一長一短を抱えたまま、真正面からぶつかっている。どちらかが「正解」で片方が「間違い」という話ではなく、研究デザインのトレードオフが結論の違いとなって表れている。これは研究方法論としても、読み物としても、かなり贅沢な対立だと思います。

構造的に振り返ると、第1回(Kruger & Dunning 1999)は「メタ認知が原因」と主張した。第2回(Krueger & Mueller 2002)と第3回(Burson 2006)は「統計的構造で十分」と反論した。第4回(Jansen 2021)はメタ認知側に揺り戻した。そして第5回(McIntosh 2022)が再び統計的構造側に振り子を戻す。振り子が戻るたびに、議論の精度は上がっている。2002年の「回帰で説明がつく」と2022年の「メタ認知を精密に測ってもDKEは駆動されていない」では、否定の解像度がまるで違います。

そしてこの解像度の話は、JansenとMcIntoshの対立にもそのまま当てはまる。Jansenはサンプルサイズの解像度を上げた(4,000人×2 vs 従来の数十〜数百人)。McIntoshはメタ認知測定の解像度を上げた(3指標分離 vs 1パラメータ)。どちらも「解像度を上げたら、見えなかったものが見えた」と主張している。しかし、両者が上げた解像度の軸が違うから、見えたものも違う。この構造は、第4回の記事で取り上げた「四分位では見えなかった差が1点刻みで見えた」というJansenの主張の鏡写しのようですね。解像度を上げたほうが正確に見える、という原則は、どちら側にも等しく適用されるのです。

この対立に決着をつけるには、McIntoshの精密な測定法をJansenの規模で実施する研究が必要になるでしょう。4,000人に90問ずつ確信度評定を取ったらどうなるか。

早いところお二人のグループ共同研究してくれよ。とか思うのは私だけ?


参考文献

Jansen, R. A., Rafferty, A. N., & Griffiths, T. L. (2021). A rational model of the Dunning–Kruger effect supports insensitivity to evidence in low performers. Nature Human Behaviour, 5(6), 756–763.

McIntosh, R. D., Moore, A. B., Liu, Y., & Della Sala, S. (2022). Skill and self-knowledge: empirical refutation of the dual-burden account of the Dunning–Kruger effect. Royal Society Open Science, 9, 191727.


原典で殴るシリーズ(薄味まとめに飽きた人向け)

コメント

タイトルとURLをコピーしました