「ヒューマン&エコノに学ぶ、研究用語・統計用語」は、論文解説記事を読んでいて「ん?」となった用語を、掛け合い形式で解きほぐすシリーズです。統計の授業を受けたことがない方を想定しています。この記事は掛け合いが主役です。
今回のお題は回帰分析。Wattsのマシュマロテスト追試の記事で、「共変量を入れると予測力が縮む」と書いたアレ。読んでいて「なんとなくわかったけど、ちゃんとはわかってない気がする」と思った方は、ここで解消していってください。
サマリとこの記事でわかること
回帰分析とは、あるもの(原因側)が変わったとき、別のもの(結果側)がどれくらい動くかを、データに「線」を引くことで調べる統計手法です。
- 回帰分析とは何か──データに「線を引く」とはどういうことか
- 「傾き」の意味──「勉強を1時間増やしたら点数は何点上がるか」
- なぜ1本の線だけでは足りないのか──アイスと水難事故の関係
- 「共変量を入れる」とは何をしているのか──重回帰分析の考え方
第1幕:データに「線を引く」
回帰分析って名前からしてもう意味わからんのやけど。
使い方としては、ざっくり言うと「データに一番しっくりくる線を引く方法」や。たとえばな、クラスの30人に「昨日の勉強時間」と「今日のテストの点数」を聞いたとするやろ。
おう。
横軸に勉強時間、縦軸にテストの点をとって、30人分の点を打つ。バラバラに散らばるけど、なんとなく「勉強した人ほど点が高い」っぽい傾向が見えるとする。そこに、全体の傾向を一番うまく要約する「線」を1本引く。これが回帰分析や。
散布図に線を引くだけ? そんなん、目分量でもいけるやん。
目分量やと人によって線の位置が変わるやろ。回帰分析は「すべてのデータ点からのズレが一番小さくなる線」を数学的に計算するんや。誰がやっても同じ線が出る。で、ここからが大事なんやけど——その線の傾きに意味があるねん。
傾き?
「勉強時間が1時間増えたら、テストの点は何点上がるか」。これがその線の傾きや。たとえば傾きが5やったら、「1時間増えるごとに5点上がる」ってこと。
おお、それはわかりやすい。傾きが大きいほど「勉強したら点が上がる」ってことやな。
そういうこと。で、この「傾き」のことを回帰係数って呼ぶ。「テストの成績が1単位上がると、テストの点がどれくらい動くか」を表してたんや。
📝 ここまでのおさらい
第2幕:1本の線だけでは足りない理由
ここまでは「勉強時間→テストの点」のように、関係が1対1の場合の話でした。でも、現実はもう少し厄介です。
ちょっとクイズ出すわ。「アイスクリームの売上が増えると、水難事故が増える」。これ、データで線を引いたら本当にきれいな右肩上がりの線が引けるんや。ほんなら、「アイスを食べると溺れやすくなる」って結論でいい?
いや、それはおかしいやろ。暑い日はアイスも売れるし、海やプールにも行くし。「気温」が裏におるんやないか。
ええとこ突くな。その「裏におる」やつのことを、統計では交絡変数って呼ぶ。気温がアイスの売上にも水難事故にも影響してるから、アイスと水難事故のあいだに見かけ上の関係が出てるだけや。
つまり、線は引けるけど、その線が「本当の関係」とは限らんってことか。
そういうこっちゃ。Wattsのマシュマロテストの記事で出てきた話を思い出してみ。マシュマロテストで長く待てた子は将来の成績がいい——という線が引けたんやけど、「家庭環境」っていう裏のやつを考慮したら、その線がぐっと平たくなった。
あー、「共変量を入れたら効果が縮んだ」ってあの話か。でも「共変量を入れる」って、具体的に何をしてるん?
それが次の話や。
📝 ここまでのおさらい
第3幕:「共変量を入れる」とは何をしているのか
さっきのアイスの例に戻ろか。「アイスの売上→水難事故」に線を引いたら、きれいな右肩上がりやった。でも気温が怪しい。ほんなら、気温の影響を取り除いた上で、アイスと水難事故の関係だけを見たい。
取り除くって、どうやるん?
回帰分析の式に「気温」も一緒に入れるんや。「水難事故=アイスの売上×傾きA+気温×傾きB」みたいに。こうすると、気温が同じ条件のもとで、アイスの売上だけが変わったときに水難事故がどれくらい動くかが出る。
あー、なるほど。「気温を揃えた上で」って条件をつけるわけか。
そう。で、そうやって気温を入れたら、アイスの売上の傾き(回帰係数)がほぼゼロになったとする。そしたら「アイスの売上自体は水難事故と関係なかった。見かけの関係は気温のせいだった」って結論になる。
おおー。で、これが「共変量を入れる」ってことなんか。
そういうこっちゃ。こうやって原因側の変数が2つ以上になるものを重回帰分析って呼ぶ。「重」は「複数」って意味や。Wattsの記事で出てきた「共変量を投入する」ってのは、「疑わしい裏の変数を片っ端から式に入れて、マシュマロの予測力が本物かどうかを確かめた」ってことやな。
それで、家庭環境とか母親の学歴とかを入れたら、マシュマロの傾きがほとんど消えたんやんな。
そう。「マシュマロで待てた→将来の成績がいい」の線は引けるけど、「家庭環境が良い→マシュマロでも待てるし→将来の成績もいい」という裏の構造があった。共変量を入れたら、マシュマロ独自の傾き(回帰係数)が縮んだ。これが「効果が消えた」の正体や。
なるほどなぁ。「共変量を入れたら効果が消えた」って、こんなシンプルな話やったんか。
概念としてはシンプルや。ちょっと実際の数字で見てみよか。Wattsの記事で出てきた表、覚えてる?
なんか段階的に数字が小さくなっていく表があったような……。
それそれ。あれを今の話で読み解くとこうなる。まず、何も共変量を入れずに「マシュマロの待ち時間→将来の学力」に線を引いたら、傾きはβ = .24やった。
それが「素のまま」の関連の強さやな。
せや。次に、家庭の収入とか母親の学歴とか、家庭環境を共変量に入れた。そしたら傾きがβ = .08に縮んだ。約三分の一や。
え、そんなに減るんか。
さらに、マシュマロテストを受けた時点での子ども自身の認知能力——語彙力とか読み書きの初期スキルとか——も共変量に追加したら、β = .05まで下がった。素のままの五分の一や。しかも統計的に有意とは言えん水準になった。
つまり、「マシュマロで待てたかどうか」自体の予測力は、家庭環境と認知能力の差を拾ってただけやったと。
そういうことや。「共変量を入れたら効果が消えた」って一文の中身は、この「.24 → .08 → .05」という段階的な縮小プロセスやったんや。一気にゼロになったんやなくて、何を入れたらどれだけ縮んだかが見える。これが重回帰分析の力やな。
数字で見ると腰にくるな。あと、これで「マシュマロは嘘だった」とは言えへんわけやな。「環境の代理指標だった可能性が高い」ってことやろ。
完璧な理解や。ただ、実際には「何を共変量として入れるか」で結論が変わりうるから、そこは研究者の判断が問われるんやけどな。その話はまた別の機会にしよか。
📝 ここまでのおさらい
補足:回帰分析で「因果」は証明できない
ここまでで「共変量を入れる」の意味は掴めたと思います。最後に、一つだけ釘を刺しておきます。
じゃあさ、回帰分析で「これが原因です」って言えるんやな?共変量入れて傾きが残ったら、それが原因ってことやろ。
それが一番陥りやすい誤解や。回帰分析は「関連の強さ」を見る道具であって、「因果の向き」を決める道具やない。
え、どういうこと?
たとえば「練習量が多いチームほど勝率が高い」という回帰分析の結果があったとする。でも、「もともと強いチームほど練習する余裕がある」のかもしれへん。どっちが原因でどっちが結果かは、データに線を引いただけじゃわからへん。
あー、矢印の向きが決まらんのか。じゃあ、「共変量を入れて傾きが消えた」も、「因果がない」の証明ではないってこと?
そういうこっちゃ。「別の変数で説明がつく可能性がある」ということを示してるにすぎへん。回帰分析は「関連を数値化する」道具。「因果を証明する」道具やない。この一線を引けるかどうかが、統計リテラシーの分水嶺やと俺は思っとる。
この用語に関連する記事
マシュマロテストシリーズ(重回帰分析が結論を覆した事例)
- 回帰分析=データに「一番しっくりくる線」を引いて、2つのものの関係を調べる方法
- その線の傾き=回帰係数(B, β)。「こっちが1単位増えたら、あっちが何単位動くか」
- 原因側が1つなら単回帰、2つ以上なら重回帰
- 共変量を入れる=疑わしい裏の変数を式に追加して、見かけの関係か本物かを確かめること
- 共変量を入れて傾きが縮む→その変数の「独自の影響」は小さかったということ
執筆後記
「マシュマロテスト」でググると、Mischelの原典紹介のあとに、ほぼ必ずWatts (2018) の話が出てきます。そして多くの記事にはこう書いてある。「共変量を入れると有意差が消えた」「マシュマロテストは否定された」。
でも、「共変量を入れる」って具体的に何をしているのか。そこを正確に説明している記事を、私はほとんど見たことがありません。
「家庭環境を考慮すると効果が消えた」——この一文は事実です。でも「考慮する」の中身がわからないと、読者の頭には「なんか統計的にやったら消えたらしい」くらいしか残らない。もっと困るのは、「共変量を入れたら消えた=マシュマロテストは嘘だった」という雑な否定に着地してしまうケースです。Wattsたちが示したのは「嘘だった」ではなく「環境の代理指標だった可能性が高い」という、もっと繊細な話なのに。
この記事を書いた動機は、まさにそこにあります。自分たちの論文解説記事で「共変量を投入すると効果が縮んだ」「回帰係数β = .219」と書いておきながら、その意味を読者に丸投げしているのが気持ち悪かったのです。「なんとなくわかったけど、ちゃんとはわかってない」——冒頭に書いたこのフレーズをどうにかしたかった。
回帰分析という道具の骨格さえ掴めば、「共変量を入れる」は「疑わしい裏の変数を式に入れて、見かけの関係か本物かを仕分ける」というシンプルな操作に翻訳できる。それがわかるだけで、論文解説記事の読み方は一段変わるはずです。「マシュマロは否定された」で止まるか、「何を共変量に入れて、何がどう縮んだのか」まで追えるか。その差は、たった一つの統計手法の骨格を知っているかどうかで決まります。この記事がその橋渡しになれば、書いた甲斐があります。


コメント