相関と散布図
「勉強時間が長い人ほど点数が高い」——2つの量の関係の強さを1つの数字にしたのが相関係数 です。 は から の値を取り、 に近いほど右上がりの直線に、 に近いほど右下がりの直線に近づきます。
触ってみる
点をドラッグして がどう変わるか観察してください。
やってみてほしい実験:
- 1点だけを左上の隅へ引きずる → が激変するはず。相関係数は外れ値に非常に弱い
- 点を円形に並べる → 「きれいな関係」があるのに 。相関係数は直線的な関係しか測れない
- 全点を横一列に並べる → 縦の散らばりがなくなると は定義不能に近づく
種明かし
相関係数の正体は、共分散を「それぞれの散らばり」で割って規格化したものです。
分子の は「 も も平均より大きい(または小さい)点」でプラスになります。 つまり右上と左下に点が多ければ 。それだけの話です。
相関 ≠ 因果
アイスの売上と水難事故は強く相関しますが、アイスを禁止しても事故は減りません。裏に「気温」という交絡因子がいるからです。 相関係数は「一緒に動く度合い」しか測っておらず、どちらが原因かは何も語りません。データ分析で最も多い誤用がここです。
理解チェック
のデータに外れ値を1点加えたら になりました。逆に、 を上げる外れ値はあり得るでしょうか?
答えを見る
あり得ます。点群の右上の延長線上の遠くに1点置くと、 は 1 に近づきます。上の図で試してください。外れ値は相関を「壊す」だけでなく「捏造」もできる——散布図を見ずに だけ報告してはいけない理由です。