回帰分析とは?「共変量を入れたら効果が消えた」を理解するための基礎知識

用語解説

「ヒューマン&エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん?」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。

今回のお題は回帰分析Wattsのマシュマロテスト追試の記事で、「共変量を入れると予測力が縮む」と書いたアレ。読んでいて「なんとなくわかったけど、ちゃんとはわかってない気がする」と思った方は、ここで解消していってください。


サマリとこの記事でわかること

回帰分析とは、あるもの(原因側)が変わったとき、別のもの(結果側)がどれくらい動くかを、データに「線」を引くことで調べる統計手法です。

この記事でわかること

  • 回帰分析とは何か──データに「線を引く」とはどういうことか
  • 「傾き」の意味──「勉強を1時間増やしたら点数は何点上がるか」
  • なぜ1本の線だけでは足りないのか──アイスと水難事故の関係
  • 「共変量を入れる」とは何をしているのか──重回帰分析の考え方


第1幕:データに「線を引く」

ヒューマン
ヒューマン

回帰分析って名前からしてもう意味わからんのやけど。

エコノ
エコノ

使い方としては、ざっくり言うと「データに一番しっくりくる線を引く方法」や。たとえばな、クラスの30人に「昨日の勉強時間」と「今日のテストの点数」を聞いたとするやろ。

ヒューマン
ヒューマン

おう。

エコノ
エコノ

横軸に勉強時間、縦軸にテストの点をとって、30人分の点を打つ。バラバラに散らばるけど、なんとなく「勉強した人ほど点が高い」っぽい傾向が見えるとする。そこに、全体の傾向を一番うまく要約する「線」を1本引く。これが回帰分析や。

ヒューマン
ヒューマン

散布図に線を引くだけ? そんなん、目分量でもいけるやん。

エコノ
エコノ

目分量やと人によって線の位置が変わるやろ。回帰分析は「すべてのデータ点からのズレが一番小さくなる線」を数学的に計算するんや。誰がやっても同じ線が出る。で、ここからが大事なんやけど——その線の傾きに意味があるねん。

ヒューマン
ヒューマン

傾き?

エコノ
エコノ

「勉強時間が1時間増えたら、テストの点は何点上がるか」。これがその線の傾きや。たとえば傾きが5やったら、「1時間増えるごとに5点上がる」ってこと。

ヒューマン
ヒューマン

おお、それはわかりやすい。傾きが大きいほど「勉強したら点が上がる」ってことやな。

エコノ
エコノ

そういうこと。で、この「傾き」のことを回帰係数って呼ぶ。「テストの成績が1単位上がると、テストの点がどれくらい動くか」を表してたんや。

📝 ここまでのおさらい

  • 回帰分析=データに「一番しっくりくる線」を引いて、2つのものの関係を調べる方法
  • その線の傾きが回帰係数(BやβやB)。「こっちが1単位増えたら、あっちが何単位動くか」
  • 原因→結果の変数が1つずつのとき、単回帰と呼ぶ

第2幕:1本の線だけでは足りない理由

ここまでは「勉強時間→テストの点」のように、関係が1対1の場合の話でした。でも、現実はもう少し厄介です。

エコノ
エコノ

ちょっとクイズ出すわ。「アイスクリームの売上が増えると、水難事故が増える」。これ、データで線を引いたら本当にきれいな右肩上がりの線が引けるんや。ほんなら、「アイスを食べると溺れやすくなる」って結論でいい?

ヒューマン
ヒューマン

いや、それはおかしいやろ。暑い日はアイスも売れるし、海やプールにも行くし。「気温」が裏におるんやないか。

エコノ
エコノ

ええとこ突くな。その「裏におる」やつのことを、統計では交絡変数って呼ぶ。気温がアイスの売上にも水難事故にも影響してるから、アイスと水難事故のあいだに見かけ上の関係が出てるだけや。

ヒューマン
ヒューマン

つまり、線は引けるけど、その線が「本当の関係」とは限らんってことか。

エコノ
エコノ

そういうこっちゃ。Wattsのマシュマロテストの記事で出てきた話を思い出してみ。マシュマロテストで長く待てた子は将来の成績がいい——という線が引けたんやけど、「家庭環境」っていう裏のやつを考慮したら、その線がぐっと平たくなった。

ヒューマン
ヒューマン

あー、「共変量を入れたら効果が縮んだ」ってあの話か。でも「共変量を入れる」って、具体的に何をしてるん?

エコノ
エコノ

それが次の話や。

📝 ここまでのおさらい

  • データに線を引けたとしても、それが「本当の関係」とは限らない
  • 裏にある別の要因(交絡変数)が両方に影響しているだけかもしれない
  • アイスの売上と水難事故の関係=見かけ上の関係。裏にいるのは気温

第3幕:「共変量を入れる」とは何をしているのか

エコノ
エコノ

さっきのアイスの例に戻ろか。「アイスの売上→水難事故」に線を引いたら、きれいな右肩上がりやった。でも気温が怪しい。ほんなら、気温の影響を取り除いた上で、アイスと水難事故の関係だけを見たい。

ヒューマン
ヒューマン

取り除くって、どうやるん?

エコノ
エコノ

回帰分析の式に「気温」も一緒に入れるんや。「水難事故=アイスの売上×傾きA+気温×傾きB」みたいに。こうすると、気温が同じ条件のもとで、アイスの売上だけが変わったときに水難事故がどれくらい動くかが出る。

ヒューマン
ヒューマン

あー、なるほど。「気温を揃えた上で」って条件をつけるわけか。

エコノ
エコノ

そう。で、そうやって気温を入れたら、アイスの売上の傾き(回帰係数)がほぼゼロになったとする。そしたら「アイスの売上自体は水難事故と関係なかった。見かけの関係は気温のせいだった」って結論になる。

ヒューマン
ヒューマン

おおー。で、これが「共変量を入れる」ってことなんか。

エコノ
エコノ

そういうこっちゃ。こうやって原因側の変数が2つ以上になるものを重回帰分析って呼ぶ。「重」は「複数」って意味や。Wattsの記事で出てきた「共変量を投入する」ってのは、「疑わしい裏の変数を片っ端から式に入れて、マシュマロの予測力が本物かどうかを確かめた」ってことやな。

ヒューマン
ヒューマン

それで、家庭環境とか母親の学歴とかを入れたら、マシュマロの傾きがほとんど消えたんやんな。

エコノ
エコノ

そう。「マシュマロで待てた→将来の成績がいい」の線は引けるけど、「家庭環境が良い→マシュマロでも待てるし→将来の成績もいい」という裏の構造があった。共変量を入れたら、マシュマロ独自の傾き(回帰係数)が縮んだ。これが「効果が消えた」の正体や。

ヒューマン
ヒューマン

なるほどなぁ。「共変量を入れたら効果が消えた」って、こんなシンプルな話やったんか。

エコノ
エコノ

概念としてはシンプルや。ちょっと実際の数字で見てみよか。Wattsの記事で出てきた表、覚えてる?

ヒューマン
ヒューマン

なんか段階的に数字が小さくなっていく表があったような……。

エコノ
エコノ

それそれ。あれを今の話で読み解くとこうなる。まず、何も共変量を入れずに「マシュマロの待ち時間→将来の学力」に線を引いたら、傾きはβ = .24やった。

ヒューマン
ヒューマン

それが「素のまま」の関連の強さやな。

エコノ
エコノ

せや。次に、家庭の収入とか母親の学歴とか、家庭環境を共変量に入れた。そしたら傾きがβ = .08に縮んだ。約三分の一や。

ヒューマン
ヒューマン

え、そんなに減るんか。

エコノ
エコノ

さらに、マシュマロテストを受けた時点での子ども自身の認知能力——語彙力とか読み書きの初期スキルとか——も共変量に追加したら、β = .05まで下がった。素のままの五分の一や。しかも統計的に有意とは言えん水準になった。

ヒューマン
ヒューマン

つまり、「マシュマロで待てたかどうか」自体の予測力は、家庭環境と認知能力の差を拾ってただけやったと。

エコノ
エコノ

そういうことや。「共変量を入れたら効果が消えた」って一文の中身は、この「.24 → .08 → .05」という段階的な縮小プロセスやったんや。一気にゼロになったんやなくて、何を入れたらどれだけ縮んだかが見える。これが重回帰分析の力やな。

ヒューマン
ヒューマン

数字で見ると腰にくるな。あと、これで「マシュマロは嘘だった」とは言えへんわけやな。「環境の代理指標だった可能性が高い」ってことやろ。

エコノ
エコノ

完璧な理解や。ただ、実際には「何を共変量として入れるか」で結論が変わりうるから、そこは研究者の判断が問われるんやけどな。その話はまた別の機会にしよか。

📝 ここまでのおさらい

  • 重回帰分析=原因側の変数を複数同時に入れて、それぞれの「独自の傾き」を調べる方法
  • 共変量を入れる」=疑わしい裏の変数を式に追加して、見かけの関係か本物の関係かを確かめること
  • 共変量を入れたら傾きが縮む=その変数の「独自の影響」は小さかったということ
  • Wattsの例:β = .24(素のまま)→ .08(家庭環境を追加)→ .05(認知能力も追加)──「効果が消えた」の中身はこの段階的な縮小

補足:回帰分析で「因果」は証明できない

ここまでで「共変量を入れる」の意味は掴めたと思います。最後に、一つだけ釘を刺しておきます。

ヒューマン
ヒューマン

じゃあさ、回帰分析で「これが原因です」って言えるんやな?共変量入れて傾きが残ったら、それが原因ってことやろ。

エコノ
エコノ

それが一番陥りやすい誤解や。回帰分析は「関連の強さ」を見る道具であって、「因果の向き」を決める道具やない。

ヒューマン
ヒューマン

え、どういうこと?

エコノ
エコノ

たとえば「練習量が多いチームほど勝率が高い」という回帰分析の結果があったとする。でも、「もともと強いチームほど練習する余裕がある」のかもしれへん。どっちが原因でどっちが結果かは、データに線を引いただけじゃわからへん。

ヒューマン
ヒューマン

あー、矢印の向きが決まらんのか。じゃあ、「共変量を入れて傾きが消えた」も、「因果がない」の証明ではないってこと?

エコノ
エコノ

そういうこっちゃ。「別の変数で説明がつく可能性がある」ということを示してるにすぎへん。回帰分析は「関連を数値化する」道具。「因果を証明する」道具やない。この一線を引けるかどうかが、統計リテラシーの分水嶺やと俺は思っとる。


この用語に関連する記事

マシュマロテストシリーズ(重回帰分析が結論を覆した事例)


この記事のまとめ

  • 回帰分析=データに「一番しっくりくる線」を引いて、2つのものの関係を調べる方法
  • その線の傾き=回帰係数(B, β)。「こっちが1単位増えたら、あっちが何単位動くか」
  • 原因側が1つなら単回帰、2つ以上なら重回帰
  • 共変量を入れる=疑わしい裏の変数を式に追加して、見かけの関係か本物かを確かめること
  • 共変量を入れて傾きが縮む→その変数の「独自の影響」は小さかったということ


執筆後記

「マシュマロテスト」でググると、Mischelの原典紹介のあとに、ほぼ必ずWatts (2018) の話が出てきます。そして多くの記事にはこう書いてある。「共変量を入れると有意差が消えた」「マシュマロテストは否定された」。

でも、「共変量を入れる」って具体的に何をしているのか。そこを正確に説明している記事を、私はほとんど見たことがありません。

「家庭環境を考慮すると効果が消えた」——この一文は事実です。でも「考慮する」の中身がわからないと、読者の頭には「なんか統計的にやったら消えたらしい」くらいしか残らない。もっと困るのは、「共変量を入れたら消えた=マシュマロテストは嘘だった」という雑な否定に着地してしまうケースです。Wattsたちが示したのは「嘘だった」ではなく「環境の代理指標だった可能性が高い」という、もっと繊細な話なのに。

この記事を書いた動機は、まさにそこにあります。自分たちの論文解説記事で「共変量を投入すると効果が縮んだ」「回帰係数β = .219」と書いておきながら、その意味を読者に丸投げしているのが気持ち悪かったのです。「なんとなくわかったけど、ちゃんとはわかってない」——冒頭に書いたこのフレーズをどうにかしたかった。

回帰分析という道具の骨格さえ掴めば、「共変量を入れる」は「疑わしい裏の変数を式に入れて、見かけの関係か本物かを仕分ける」というシンプルな操作に翻訳できる。それがわかるだけで、論文解説記事の読み方は一段変わるはずです。「マシュマロは否定された」で止まるか、「何を共変量に入れて、何がどう縮んだのか」まで追えるか。その差は、たった一つの統計手法の骨格を知っているかどうかで決まります。この記事がその橋渡しになれば、書いた甲斐があります。

コメント

タイトルとURLをコピーしました