信頼区間とは？「点」ではなく「幅」で読む論文の95% CIをゼロから解説

「ヒューマン＆エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん？」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。

今回のお題は信頼区間——「論文の数字、なんで一個じゃなくて二個並んでるん？」問題。

論文や記事を読んでて、「平均得点は5.2点だった（95% CI [4.8, 5.6]）」みたいな表記に出会ったことはないでしょうか。「5.2」はわかる。けど、後ろの「[4.8, 5.6]」って何やねん。

実はこの「[4.8, 5.6]」、前回の効果量の記事で出てきた「日本人男子の平均身長171cm」みたいな数字にこっそり付いてる、「点推定の不確かさ」を表す幅なんです。「点」じゃなくて「幅」で読むための数字。

これが今回のお題、信頼区間（95% CI）。3部作の三段目です。

前々回の「有意差・p値」で「偶然かどうか」、前回の「効果量」で「差の大きさ」をやってきました。今回はその結びとして、結果の「不確かさ」を表す道具です。

マシュマロテストシリーズで何度も出てきた「共変量を入れたら有意でなくなった」のアレも、この記事を読み終えたら、信頼区間の言葉で立体的に読み替えられるようになります。

サマリとこの記事でわかること
第1幕：「171cm」という数字、どこまで信じる？
第2幕：「95%」って、何が95%？
第3幕：信頼区間と「有意差」の意外な関係
補足：「95%」の厳密な意味
補足：論文で見かける表記の読み方
この用語の関連する記事
執筆後記

サマリとこの記事でわかること

信頼区間とは、推定値が「だいたいこの範囲に収まる」という不確かさの幅を、区間で表した統計指標です。

この記事でわかること

「点推定」だけでは足りない理由──「平均身長171cm」でわかる「幅」の意味
95%信頼区間（95% CI）とは何か──「20回に19回」の感覚で体感する
サンプルサイズが増えると、信頼区間はどう変わるか
信頼区間と有意差の意外な関係──「ゼロをまたぐかどうか」が鍵
「95%」の厳密な意味と、論文での表記の読み方

第1幕：「171cm」という数字、どこまで信じる？

エコノ

ヒューマン、前回の効果量の記事で身長の話したやろ。今日もそこから入ろか。

ヒューマン

男女の平均身長差で d を体感したやつな。

エコノ

せや。あのとき身長の話したやろ。男子の平均はだいたい171cmやけど、これ誰がどうやって測った数字や思う？

ヒューマン

……日本人全員、数千万人を測ったわけではないよな。

エコノ

ないない。文部科学省の体力テストとか、せいぜい何万人かのサンプルから推定しとる。じゃあ、その平均、ピッタリ171.0cmやと言い切ってええんか？

ヒューマン

……たまたまそのサンプルが背の高い子に偏ってたら、170.8cmかもしれんし、171.2cmかもしれん。

エコノ

それや。「たまたま」の幅がどれくらいあるかを、別に示しとかなあかん。論文っぽく書くとこんな感じや——「日本人男子の平均身長 171.0cm（95% CI [170.9, 171.1]）」。「ホンマの平均は170.9〜171.1cmのどっかや」って意味やな。

ヒューマン

おお、急に論文の顔になったやんけ。

エコノ

これを統計の言葉で信頼区間って呼ぶ。研究の世界では「95%信頼区間」がよく使われる。論文では「95% CI」って略される。

ヒューマン

CIってこれの略やったんか。統計、ホンマ略語多いな……。

エコノ

Confidence Interval の略や。Confidence＝信頼、Interval＝区間。そのまんまや。

ヒューマン

ほな、論文で「平均5.2点、95% CI [4.8, 5.6]」って書いてあったら、「だいたい4.8〜5.6点のどっかや」って意味なんやな。

エコノ

そういうこっちゃ。「5.2」っていう一個の数字、これを点推定って呼ぶんやけど、点推定だけやとその数字がどれくらい当てになるかわからん。幅を一緒に出すことで、「点」やなくて「だいたいこの範囲」として読めるようにしてるわけや。

📝 ここまでのおさらい

データから出した「5.2」「171cm」みたいな1個の数字を、点推定と呼ぶ
点推定だけやと、その数字がどれくらい当てになるかはわからない
「だいたいこの幅のどこかにホンマの値があります」という幅で示したのが信頼区間
論文では「95% CI [下限, 上限]」みたいに表記される。CI ＝ Confidence Interval

第2幕：「95%」って、何が95%？

ヒューマン

で、なんで95%なん？

エコノ

ええ質問や。これは前々回のp値の記事で出てきた「有意水準5%」と表裏一体なんよ。あの5%を、区間の形に翻訳したのが「95%信頼区間」やと思ってくれ。

ヒューマン

えっ、繋がってるん？

エコノ

ガッツリ繋がっとる。両方とも「20回に1回くらいの偶然」を線引きにしてる。ただ見せ方が違うだけや。p値は「あなたの結果、偶然で出る確率は◯%です」って確率で見せる。信頼区間は「同じ調査を何度もやったら、95回くらいの幅にホンマの値が入ります」って範囲で見せる。

ヒューマン

同じ調査を何度も……？

エコノ

頭が混乱するやろ。とりあえずいまは「20回に19回くらいの確率で、ホンマの値を捕まえてる幅」くらいの理解でええ。厳密には少し違うんやけど、それは補足で扱うわ。

ヒューマン

わかった、深追いはあとや。

エコノ

で、ここで大事なんが、人数（サンプルサイズ）と信頼区間の関係や。聞いた人数が増えたら、信頼区間はどうなると思う？

ヒューマン

……うーん、多い方が当てになる気がするから、幅が狭くなる？

エコノ

正解。100人測った平均身長171cmなら、信頼区間はだいたい±1cmくらい（[170, 172]）でわりと広い。10,000人測ったら、±0.1cmくらい（[170.9, 171.1]）まで縮む。同じ「171cm」でも、人数によって「どれくらい当てになる数字か」がぜんぜん違うわけや。

ヒューマン

あー、なるほど。論文や統計資料の冒頭に「N=◯◯」って小さく書いてあるやつ、なんかの儀式かと思ってスルーしてたわ。

エコノ

儀式ちゃう。あれを見ないと、CIの幅は判断でけへん。逆に言うと、Nがアホみたいにデカい研究は、点推定が小さくてもCIがめっちゃ狭くて「有意」になりやすい。これ、効果量の記事で「10万人で0.3点差でも有意になる」って言うた話と同じ構造や。

ヒューマン

あ、あれな。10万人やとCIがキュッと狭くなって、0.3点でもゼロを含まんようになる、っていうことか。

エコノ

そう繋がる。やから論文で結果を見るときは、点推定（5.2 とか）と、人数（N=○○）と、信頼区間（95% CI […]）の3点セットで読むんが基本や。

📝 ここまでのおさらい

95%信頼区間＝「20回に19回くらいは、ホンマの値を含む幅」（感覚的理解）
p値の「有意水準5%」と裏表の関係。両方とも「20回に1回」が線引き
サンプルサイズ（N）が増えると、CIは狭くなる（精度が上がる）
論文の結果は「点推定・N・信頼区間」の3点セットで読む

第3幕：信頼区間と「有意差」の意外な関係

エコノ

ここからが地味に強力なとこや。信頼区間を見たら、有意差があるかどうかも一発でわかる。

ヒューマン

えっ、いちいちp値見んでもええんか？

エコノ

ええんや。ルールはシンプル。「差の95%信頼区間がゼロをまたいでなかったら、p < .05で有意」「またいでたら、有意やない」。これだけ。

ヒューマン

……どういうこと？

エコノ

たとえば「1組と2組の数学テスト、平均点の差は5点。95% CI は [2点, 8点]」って結果が出たとする。下限が2点、上限が8点。ゼロは含まれてへん。

ヒューマン

差は最低でも2点、最大でも8点、ってことか。

エコノ

せや。「差がゼロ（差がない）」っていう可能性は、信頼区間の幅の外。やから「有意な差」と判定される。

ヒューマン

逆に、CI が [−1点, 11点] やったら？

エコノ

ええ問い。下限が−1点、上限が11点。ゼロをまたいでる。これは「差がない可能性も否定でけへん」状態。やから「有意やない」と判定される。

ヒューマン

あ、なるほど。差のCIにゼロが入ってるかどうかが、有意かどうかと同じことなんやな。

エコノ

せや。Watts (2018)のマシュマロテスト再検証の記事で「共変量を入れたら有意でなくなった」って話、覚えてるか？

ヒューマン

覚えてる。家庭環境とか入れたら相関が縮んだやつや。あの記事、統計の細かい話はそこまで突っ込まんかったよな。

エコノ

せやな。実は論文の本文表でもCIの数値は明示されてないんや。β（標準化係数）と標準誤差（SE）で報告されとる。けど、それを信頼区間に翻訳してみたら、βがズルズル縮んで、最後にCIがゼロを飲み込む様子が見えてくる——

調整した共変量	β（点推定）	95% CI（SEから換算）	判定
なし（生の相関）	0.24	[0.16, 0.31]	ゼロまたがん → 有意
＋家庭背景・幼少期の認知能力	0.08	[0.01, 0.15]	ギリまたがん → 有意
＋54ヶ月時点の認知・行動	0.05	[−0.01, 0.11]	ゼロまたぐ → 有意やない

ヒューマン

おお、βがズルズル縮んで、最後にCIがゼロを飲み込んだ感じやな。

エコノ

せや。「有意でなくなった」って一言の裏では、こういうβの縮小とCIの拡大が起きとる。同じ事象を2通りの言葉で言えるわけや。

ヒューマン

同じことを2つの言葉で言えるんやな。

エコノ

やから論文を読むときは、信頼区間を見るだけで「有意か？」と「だいたいどのへんで、どれくらいの幅か？」が両方わかる。p値だけ見るより情報量が多いから、近年は「p値より信頼区間を見せろ」って流れになっとる。

ヒューマン

それ、もっと早く教えてくれよ。p値ばっか追いかけてたわ。

エコノ

すまんすまん。ただし、信頼区間にも限界はある。CIが狭いってのは「データのばらつき的に、絞り込めてる」って話やけど、「結論が正しい」って意味やない。データそのものが偏ってたら、めっちゃ狭いCIで「ズレた値」を中心にした幅が出ることもある。

ヒューマン

……「正確」と「正しい」は別、と。難しいな。

エコノ

せや。CIが教えてくれるのは「データの揺らぎ的にどれくらいの幅で推定したか」やけど、データの偏り（バイアス）の問題は別もん。そこは効果量や研究デザイン（交絡の記事でやったやつ）で確かめなあかん。

📝 ここまでのおさらい

差の95%信頼区間がゼロをまたぐかどうかで、有意差の有無がわかる（同じことを別の言葉で言うてる）
Watts (2018)で「有意でなくなった」のは、βが0.24→0.08→0.05とズルズル縮んで、最後にCIがゼロをまたいだ事象（論文本文はβ+SE表記、本記事でCIに換算）
p値だけより、CIのほうが情報量が多い（点推定と幅が両方わかる）
ただしCIが狭くても「正確」なだけで「正しい」とは限らない（バイアスは別問題）

補足：「95%」の厳密な意味

ヒューマン

さっき、エコノが「厳密には少し違うんやけど」って濁してたやろ。あれ気になってた。教えてくれ。

エコノ

ええ突っ込みやな。実は「95%信頼区間にホンマの値が95%の確率で入っている」っていうのは、厳密に言うと違うんよ。

ヒューマン

えっ、違うん？さっきまでそう思ってたで。

エコノ

正確には「同じやり方で調査を何回も繰り返したら、そのうち95%ぶんの信頼区間がホンマの値を含む」っていう意味や。今目の前にある1個の区間について「この中にホンマの値が95%の確率で入ってる」とは言えへん。区間が固定されたら、ホンマの値が入ってるか入ってないかは0か100かのどっちかや。

ヒューマン

……ちょっと何言うてるかわからんわ。

エコノ

やろな。これがいわゆる「頻度論的解釈」いうやつで、初学者がいちばん混乱するとこや。とりあえず最初は「20回に19回くらいはホンマの値を含む幅」くらいの理解で読み進めて、問題が起きてからきっちり勉強すればええ。

ヒューマン

助かる。雰囲気で読めるならそれでええ。

エコノ

ただし、論文や統計の議論で「95%CIにホンマの値が95%の確率で入ってる」って雑に言うてる人がおったら、「あ、雰囲気で読んどるな」って思ってくれてええ。専門家のあいだではキッチリ区別される。

補足：論文で見かける表記の読み方

ヒューマン

論文で具体的にどんな書き方するん？

エコノ

よく見るパターンをざっと並べるで。

表記	意味	読みのポイント
M = 5.2, 95% CI [4.8, 5.6]	平均値 5.2、信頼区間 4.8〜5.6	たぶんいちばん多い表記
β = .22, 95% CI [.10, .34]	回帰係数 0.22、信頼区間 0.10〜0.34	ゼロをまたいでへん → 有意
d = 0.50, 95% CI [0.20, 0.80]	効果量（Cohen’s d） 0.50、信頼区間 0.20〜0.80	効果量の記事のdもCI付きで報告される
OR = 1.5 (95% CI: 1.1–2.0)	オッズ比 1.5、信頼区間 1.1〜2.0（医学系で頻出）	「1をまたいでなかったら有意」（基準が0でなく1）

ヒューマン

おお、見るときに「ゼロまたいでるか？1またいでるか？」だけチェックすればええんか。

エコノ

せや。あとは「幅の広さ」を見て、推定がどれくらい絞れてるかを判断する。これだけで論文の結果セクションが格段に読みやすくなる。

この用語の関連する記事

シリーズ：ヒューマン＆エコノに学ぶ、研究用語・統計用語

有意差・p値とは？論文の「統計的に有意」をゼロから解説 ——本記事と裏表の関係にある「5%」をp値の側から解説。CIと一緒に読むと理解が立体的になる
効果量とは？「有意差あり」の次に必ず見るべき数字を身長差で体感する ——「差の大きさ」を測る指標。効果量自身も信頼区間付きで報告される

マシュマロテストシリーズ（「有意でなくなった」を信頼区間で読み替える）

マシュマロテスト神話を原典から解体する｜全5回まとめ（1972→2024） ——シリーズ全体のハブ記事。共変量調整による「有意差の消失」が論争の核心
「待てる子＝成功」はどこまで本当？マシュマロテストを大規模データで再検証（Watts 2018） ——本記事で扱う「差のCIがゼロをまたぐ」現象は、Watts論文の「共変量を入れたら有意でなくなった」を別の言葉で言い直したもの

ダニング＝クルーガー効果シリーズ（精密測定と信頼区間）

ダニング＝クルーガー効果を原典から解説｜全5回シリーズ＋Q&A ——25年の論争のハブ記事。各論文で報告される効果量・回帰係数には信頼区間が付随する

この記事のまとめ

信頼区間（95% CI）＝点推定の「不確かさ」を区間で表した数値
「点推定」だけでは、その数字がどれくらい当てになるかわからない。幅を一緒に見る
95%信頼区間＝「20回に19回くらいはホンマの値を含む幅」（感覚的理解。厳密には頻度論的解釈）
サンプルサイズ（N）が大きくなると、CIは狭くなる（精度が上がる）
差のCIがゼロをまたいでなかったら有意、またいでたら有意でない（p値と同じ判定を別の言葉でしている）
ORの場合は「1をまたぐかどうか」が基準
CIが狭い＝「正確」だが、「正しい」とは限らない（バイアスは別問題）
論文の結果は「点推定・N・信頼区間」の3点セットで読む

執筆後記

私、カメラが趣味でしてね。たまーに、自分でも「えっ、これ俺が撮ったの？」って二度見するくらい、すごい一枚が撮れることがある。ただ、その次のショットがとんでもなく下手くそだったりする。この振れ幅の大きさが、素人カメラマンの本質なんですよね。

たまの神一枚がいいからって、自分の腕を「あの一枚」基準で語ったらダメ。あれは点推定。しかも、たまたま光と風と被写体と俺の指が奇跡的に整っただけの、信頼区間の端っこにポロッと落ちた1サンプルにすぎない。本当の実力は、その奇跡の一枚と、隣のピンボケ一枚と、もう一枚向こうのブレ一枚、ぜんぶひっくるめた「幅」のどこかにある。

対して、ブライダルカメラマンの人たちはまったく違う。あの仕事、失敗が許されない。新郎新婦の入場、誓いのキス、ケーキ入刀、ぜんぶ一発勝負で、「今日はちょっとピント外しちゃいました」では済まない。だから職業として食えている人ほど、振れ幅が極端に狭い。私、プロの仕事で大事なのはあたり千金の一発を出すことではなくて、下振れがないことだと思っている。狭くて安定した信頼区間を、お客さんに売っているわけです。

これ、論文の数字の話とまるごと同じ構造で。点推定だけ見たら、素人のいちばんいい一枚も、プロのいつも通りの一枚も、見栄えは似たり寄ったりかもしれない。けど、幅を見たら別物。素人は[ピンボケ, 神々しい]、プロは[ちゃんとした, ちゃんとした]。同じ「いい写真」でも、再現性がぜんぜん違う。

論文の世界で「CIが狭い」というのは、たぶんこのブライダルカメラマンの仕事に似ている。地味だけど、何回やっても結果がブレない。一方、「CIがとても広い」研究は、素人カメラマンがたまたま一発当てた一枚みたいなもので、もう一回やったらぜんぜん違う数字が出てくるかもしれない。

3部作の結びとしてまとめると、こんな感じです。「有意か？」（p値）、「で、どれくらいの大きさ？」（効果量）、「で、どれくらい絞れている？（振れ幅は？）」（信頼区間）。この3つを揃えて初めて、論文の結果セクションがちゃんと読める。逆に言うと、これまで「p<.05、有意！」だけで満足してきた読み方は、素人写真家の神一枚だけで自分の腕を語っていたようなもの、かもしれません。