信頼区間とは?「点」ではなく「幅」で読む論文の95% CIをゼロから解説

用語解説

「ヒューマン&エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん?」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。

今回のお題は信頼区間——「論文の数字、なんで一個じゃなくて二個並んでるん?」問題。

論文や記事を読んでて、「平均得点は5.2点だった(95% CI [4.8, 5.6])」みたいな表記に出会ったことはないでしょうか。「5.2」はわかる。けど、後ろの「[4.8, 5.6]」って何やねん。

実はこの「[4.8, 5.6]」、前回の効果量の記事で出てきた「日本人男子の平均身長171cm」みたいな数字にこっそり付いてる、「点推定の不確かさ」を表す幅なんです。「点」じゃなくて「幅」で読むための数字。

これが今回のお題、信頼区間(95% CI)。3部作の三段目です。

前々回の「有意差・p値」で「偶然かどうか」、前回の「効果量」で「差の大きさ」をやってきました。今回はその結びとして、結果の「不確かさ」を表す道具です。

マシュマロテストシリーズで何度も出てきた「共変量を入れたら有意でなくなった」のアレも、この記事を読み終えたら、信頼区間の言葉で立体的に読み替えられるようになります。


サマリとこの記事でわかること

信頼区間とは、推定値が「だいたいこの範囲に収まる」という不確かさの幅を、区間で表した統計指標です。

この記事でわかること

  • 「点推定」だけでは足りない理由──「平均身長171cm」でわかる「幅」の意味
  • 95%信頼区間(95% CI)とは何か──「20回に19回」の感覚で体感する
  • サンプルサイズが増えると、信頼区間はどう変わるか
  • 信頼区間と有意差の意外な関係──「ゼロをまたぐかどうか」が鍵
  • 「95%」の厳密な意味と、論文での表記の読み方

第1幕:「171cm」という数字、どこまで信じる?

エコノ
エコノ

ヒューマン、前回の効果量の記事で身長の話したやろ。今日もそこから入ろか。

ヒューマン
ヒューマン

男女の平均身長差で d を体感したやつな。

エコノ
エコノ

せや。あのとき身長の話したやろ。男子の平均はだいたい171cmやけど、これ誰がどうやって測った数字や思う?

ヒューマン
ヒューマン

……日本人全員、数千万人を測ったわけではないよな。

エコノ
エコノ

ないない。文部科学省の体力テストとか、せいぜい何万人かのサンプルから推定しとる。じゃあ、その平均、ピッタリ171.0cmやと言い切ってええんか?

ヒューマン
ヒューマン

……たまたまそのサンプルが背の高い子に偏ってたら、170.8cmかもしれんし、171.2cmかもしれん。

エコノ
エコノ

それや。「たまたま」の幅がどれくらいあるかを、別に示しとかなあかん。論文っぽく書くとこんな感じや——「日本人男子の平均身長 171.0cm(95% CI [170.9, 171.1])」。「ホンマの平均は170.9〜171.1cmのどっかや」って意味やな。

ヒューマン
ヒューマン

おお、急に論文の顔になったやんけ。

エコノ
エコノ

これを統計の言葉で信頼区間って呼ぶ。研究の世界では「95%信頼区間」がよく使われる。論文では「95% CI」って略される。

ヒューマン
ヒューマン

CIってこれの略やったんか。統計、ホンマ略語多いな……。

エコノ
エコノ

Confidence Interval の略や。Confidence=信頼、Interval=区間。そのまんまや。

ヒューマン
ヒューマン

ほな、論文で「平均5.2点、95% CI [4.8, 5.6]」って書いてあったら、「だいたい4.8〜5.6点のどっかや」って意味なんやな。

エコノ
エコノ

そういうこっちゃ。「5.2」っていう一個の数字、これを点推定って呼ぶんやけど、点推定だけやとその数字がどれくらい当てになるかわからん。幅を一緒に出すことで、「点」やなくて「だいたいこの範囲」として読めるようにしてるわけや。

📝 ここまでのおさらい

  • データから出した「5.2」「171cm」みたいな1個の数字を、点推定と呼ぶ
  • 点推定だけやと、その数字がどれくらい当てになるかはわからない
  • 「だいたいこの幅のどこかにホンマの値があります」という幅で示したのが信頼区間
  • 論文では「95% CI [下限, 上限]」みたいに表記される。CI = Confidence Interval

第2幕:「95%」って、何が95%?

ヒューマン
ヒューマン

で、なんで95%なん?

エコノ
エコノ

ええ質問や。これは前々回のp値の記事で出てきた「有意水準5%」と表裏一体なんよ。あの5%を、区間の形に翻訳したのが「95%信頼区間」やと思ってくれ。

ヒューマン
ヒューマン

えっ、繋がってるん?

エコノ
エコノ

ガッツリ繋がっとる。両方とも「20回に1回くらいの偶然」を線引きにしてる。ただ見せ方が違うだけや。p値は「あなたの結果、偶然で出る確率は◯%です」って確率で見せる。信頼区間は「同じ調査を何度もやったら、95回くらいの幅にホンマの値が入ります」って範囲で見せる。

ヒューマン
ヒューマン

同じ調査を何度も……?

エコノ
エコノ

頭が混乱するやろ。とりあえずいまは「20回に19回くらいの確率で、ホンマの値を捕まえてる幅」くらいの理解でええ。厳密には少し違うんやけど、それは補足で扱うわ。

ヒューマン
ヒューマン

わかった、深追いはあとや。

エコノ
エコノ

で、ここで大事なんが、人数(サンプルサイズ)と信頼区間の関係や。聞いた人数が増えたら、信頼区間はどうなると思う?

ヒューマン
ヒューマン

……うーん、多い方が当てになる気がするから、幅が狭くなる?

エコノ
エコノ

正解。100人測った平均身長171cmなら、信頼区間はだいたい±1cmくらい([170, 172])でわりと広い。10,000人測ったら、±0.1cmくらい([170.9, 171.1])まで縮む。同じ「171cm」でも、人数によって「どれくらい当てになる数字か」がぜんぜん違うわけや。

ヒューマン
ヒューマン

あー、なるほど。論文や統計資料の冒頭に「N=◯◯」って小さく書いてあるやつ、なんかの儀式かと思ってスルーしてたわ。

エコノ
エコノ

儀式ちゃう。あれを見ないと、CIの幅は判断でけへん。逆に言うと、Nがアホみたいにデカい研究は、点推定が小さくてもCIがめっちゃ狭くて「有意」になりやすい。これ、効果量の記事で「10万人で0.3点差でも有意になる」って言うた話と同じ構造や。

ヒューマン
ヒューマン

あ、あれな。10万人やとCIがキュッと狭くなって、0.3点でもゼロを含まんようになる、っていうことか。

エコノ
エコノ

そう繋がる。やから論文で結果を見るときは、点推定(5.2 とか)と、人数(N=○○)と、信頼区間(95% CI […])の3点セットで読むんが基本や。

📝 ここまでのおさらい

  • 95%信頼区間=「20回に19回くらいは、ホンマの値を含む幅」(感覚的理解)
  • p値の「有意水準5%」と裏表の関係。両方とも「20回に1回」が線引き
  • サンプルサイズ(N)が増えると、CIは狭くなる(精度が上がる)
  • 論文の結果は「点推定・N・信頼区間」の3点セットで読む

第3幕:信頼区間と「有意差」の意外な関係

エコノ
エコノ

ここからが地味に強力なとこや。信頼区間を見たら、有意差があるかどうかも一発でわかる。

ヒューマン
ヒューマン

えっ、いちいちp値見んでもええんか?

エコノ
エコノ

ええんや。ルールはシンプル。「差の95%信頼区間がゼロをまたいでなかったら、p < .05で有意」「またいでたら、有意やない」。これだけ。

ヒューマン
ヒューマン

……どういうこと?

エコノ
エコノ

たとえば「1組と2組の数学テスト、平均点の差は5点。95% CI は [2点, 8点]」って結果が出たとする。下限が2点、上限が8点。ゼロは含まれてへん。

ヒューマン
ヒューマン

差は最低でも2点、最大でも8点、ってことか。

エコノ
エコノ

せや。「差がゼロ(差がない)」っていう可能性は、信頼区間の幅の外。やから「有意な差」と判定される。

ヒューマン
ヒューマン

逆に、CI が [−1点, 11点] やったら?

エコノ
エコノ

ええ問い。下限が−1点、上限が11点。ゼロをまたいでる。これは「差がない可能性も否定でけへん」状態。やから「有意やない」と判定される。

ヒューマン
ヒューマン

あ、なるほど。差のCIにゼロが入ってるかどうかが、有意かどうかと同じことなんやな。

エコノ
エコノ

せや。Watts (2018)のマシュマロテスト再検証の記事で「共変量を入れたら有意でなくなった」って話、覚えてるか?

ヒューマン
ヒューマン

覚えてる。家庭環境とか入れたら相関が縮んだやつや。あの記事、統計の細かい話はそこまで突っ込まんかったよな。

エコノ
エコノ

せやな。実は論文の本文表でもCIの数値は明示されてないんや。β(標準化係数)と標準誤差(SE)で報告されとる。けど、それを信頼区間に翻訳してみたら、βがズルズル縮んで、最後にCIがゼロを飲み込む様子が見えてくる——

調整した共変量β(点推定)95% CI(SEから換算)判定
なし(生の相関)0.24[0.16, 0.31]ゼロまたがん → 有意
+家庭背景・幼少期の認知能力0.08[0.01, 0.15]ギリまたがん → 有意
+54ヶ月時点の認知・行動0.05[−0.01, 0.11]ゼロまたぐ → 有意やない
ヒューマン
ヒューマン

おお、βがズルズル縮んで、最後にCIがゼロを飲み込んだ感じやな。

エコノ
エコノ

せや。「有意でなくなった」って一言の裏では、こういうβの縮小とCIの拡大が起きとる。同じ事象を2通りの言葉で言えるわけや。

ヒューマン
ヒューマン

同じことを2つの言葉で言えるんやな。

エコノ
エコノ

やから論文を読むときは、信頼区間を見るだけで「有意か?」と「だいたいどのへんで、どれくらいの幅か?」が両方わかる。p値だけ見るより情報量が多いから、近年は「p値より信頼区間を見せろ」って流れになっとる。

ヒューマン
ヒューマン

それ、もっと早く教えてくれよ。p値ばっか追いかけてたわ。

エコノ
エコノ

すまんすまん。ただし、信頼区間にも限界はある。CIが狭いってのは「データのばらつき的に、絞り込めてる」って話やけど、「結論が正しい」って意味やない。データそのものが偏ってたら、めっちゃ狭いCIで「ズレた値」を中心にした幅が出ることもある。

ヒューマン
ヒューマン

……「正確」と「正しい」は別、と。難しいな。

エコノ
エコノ

せや。CIが教えてくれるのは「データの揺らぎ的にどれくらいの幅で推定したか」やけど、データの偏り(バイアス)の問題は別もん。そこは効果量や研究デザイン(交絡の記事でやったやつ)で確かめなあかん。

📝 ここまでのおさらい

  • 差の95%信頼区間がゼロをまたぐかどうかで、有意差の有無がわかる(同じことを別の言葉で言うてる)
  • Watts (2018)で「有意でなくなった」のは、βが0.24→0.08→0.05とズルズル縮んで、最後にCIがゼロをまたいだ事象(論文本文はβ+SE表記、本記事でCIに換算)
  • p値だけより、CIのほうが情報量が多い(点推定と幅が両方わかる)
  • ただしCIが狭くても「正確」なだけで「正しい」とは限らない(バイアスは別問題)

補足:「95%」の厳密な意味

ヒューマン
ヒューマン

さっき、エコノが「厳密には少し違うんやけど」って濁してたやろ。あれ気になってた。教えてくれ。

エコノ
エコノ

ええ突っ込みやな。実は「95%信頼区間にホンマの値が95%の確率で入っている」っていうのは、厳密に言うと違うんよ。

ヒューマン
ヒューマン

えっ、違うん?さっきまでそう思ってたで。

エコノ
エコノ

正確には「同じやり方で調査を何回も繰り返したら、そのうち95%ぶんの信頼区間がホンマの値を含む」っていう意味や。今目の前にある1個の区間について「この中にホンマの値が95%の確率で入ってる」とは言えへん。区間が固定されたら、ホンマの値が入ってるか入ってないかは0か100かのどっちかや。

ヒューマン
ヒューマン

……ちょっと何言うてるかわからんわ。

エコノ
エコノ

やろな。これがいわゆる「頻度論的解釈」いうやつで、初学者がいちばん混乱するとこや。とりあえず最初は「20回に19回くらいはホンマの値を含む幅」くらいの理解で読み進めて、問題が起きてからきっちり勉強すればええ。

ヒューマン
ヒューマン

助かる。雰囲気で読めるならそれでええ。

エコノ
エコノ

ただし、論文や統計の議論で「95%CIにホンマの値が95%の確率で入ってる」って雑に言うてる人がおったら、「あ、雰囲気で読んどるな」って思ってくれてええ。専門家のあいだではキッチリ区別される。


補足:論文で見かける表記の読み方

ヒューマン
ヒューマン

論文で具体的にどんな書き方するん?

エコノ
エコノ

よく見るパターンをざっと並べるで。

表記意味読みのポイント
M = 5.2, 95% CI [4.8, 5.6]平均値 5.2、信頼区間 4.8〜5.6たぶんいちばん多い表記
β = .22, 95% CI [.10, .34]回帰係数 0.22、信頼区間 0.10〜0.34ゼロをまたいでへん → 有意
d = 0.50, 95% CI [0.20, 0.80]効果量(Cohen’s d) 0.50、信頼区間 0.20〜0.80効果量の記事のdもCI付きで報告される
OR = 1.5 (95% CI: 1.1–2.0)オッズ比 1.5、信頼区間 1.1〜2.0(医学系で頻出)「1をまたいでなかったら有意」(基準が0でなく1)
ヒューマン
ヒューマン

おお、見るときに「ゼロまたいでるか?1またいでるか?」だけチェックすればええんか。

エコノ
エコノ

せや。あとは「幅の広さ」を見て、推定がどれくらい絞れてるかを判断する。これだけで論文の結果セクションが格段に読みやすくなる。


この用語の関連する記事

シリーズ:ヒューマン&エコノに学ぶ、研究用語・統計用語

マシュマロテストシリーズ(「有意でなくなった」を信頼区間で読み替える)

ダニング=クルーガー効果シリーズ(精密測定と信頼区間)


この記事のまとめ

  • 信頼区間(95% CI)=点推定の「不確かさ」を区間で表した数値
  • 「点推定」だけでは、その数字がどれくらい当てになるかわからない。幅を一緒に見る
  • 95%信頼区間=「20回に19回くらいはホンマの値を含む幅」(感覚的理解。厳密には頻度論的解釈)
  • サンプルサイズ(N)が大きくなると、CIは狭くなる(精度が上がる)
  • 差のCIがゼロをまたいでなかったら有意、またいでたら有意でない(p値と同じ判定を別の言葉でしている)
  • ORの場合は「1をまたぐかどうか」が基準
  • CIが狭い=「正確」だが、「正しい」とは限らない(バイアスは別問題)
  • 論文の結果は「点推定・N・信頼区間」の3点セットで読む

執筆後記

私、カメラが趣味でしてね。たまーに、自分でも「えっ、これ俺が撮ったの?」って二度見するくらい、すごい一枚が撮れることがある。ただ、その次のショットがとんでもなく下手くそだったりする。この振れ幅の大きさが、素人カメラマンの本質なんですよね。

たまの神一枚がいいからって、自分の腕を「あの一枚」基準で語ったらダメ。あれは点推定。しかも、たまたま光と風と被写体と俺の指が奇跡的に整っただけの、信頼区間の端っこにポロッと落ちた1サンプルにすぎない。本当の実力は、その奇跡の一枚と、隣のピンボケ一枚と、もう一枚向こうのブレ一枚、ぜんぶひっくるめた「幅」のどこかにある。

対して、ブライダルカメラマンの人たちはまったく違う。あの仕事、失敗が許されない。新郎新婦の入場、誓いのキス、ケーキ入刀、ぜんぶ一発勝負で、「今日はちょっとピント外しちゃいました」では済まない。だから職業として食えている人ほど、振れ幅が極端に狭い。私、プロの仕事で大事なのはあたり千金の一発を出すことではなくて、下振れがないことだと思っている。狭くて安定した信頼区間を、お客さんに売っているわけです。

これ、論文の数字の話とまるごと同じ構造で。点推定だけ見たら、素人のいちばんいい一枚も、プロのいつも通りの一枚も、見栄えは似たり寄ったりかもしれない。けど、幅を見たら別物。素人は[ピンボケ, 神々しい]、プロは[ちゃんとした, ちゃんとした]。同じ「いい写真」でも、再現性がぜんぜん違う。

論文の世界で「CIが狭い」というのは、たぶんこのブライダルカメラマンの仕事に似ている。地味だけど、何回やっても結果がブレない。一方、「CIがとても広い」研究は、素人カメラマンがたまたま一発当てた一枚みたいなもので、もう一回やったらぜんぜん違う数字が出てくるかもしれない。

3部作の結びとしてまとめると、こんな感じです。「有意か?」(p値)、「で、どれくらいの大きさ?」(効果量)、「で、どれくらい絞れている?(振れ幅は?)」(信頼区間)。この3つを揃えて初めて、論文の結果セクションがちゃんと読める。逆に言うと、これまで「p<.05、有意!」だけで満足してきた読み方は、素人写真家の神一枚だけで自分の腕を語っていたようなもの、かもしれません。

コメント

タイトルとURLをコピーしました