テデトクログイン

← コースに戻る

相関と散布図

「勉強時間が長い人ほど点数が高い」——2つの量の関係の強さを1つの数字にしたのが相関係数 rr です。 rr1-1 から +1+1 の値を取り、+1+1 に近いほど右上がりの直線に、1-1 に近いほど右下がりの直線に近づきます。

触ってみる

点をドラッグして rr がどう変わるか観察してください。

点をドラッグして相関係数 r の変化を観察。1点を隅へ引きずってみてください

やってみてほしい実験:

種明かし

相関係数の正体は、共分散を「それぞれの散らばり」で割って規格化したものです。

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}}

分子の (xixˉ)(yiyˉ)(x_i - \bar{x})(y_i - \bar{y}) は「xxyy も平均より大きい(または小さい)点」でプラスになります。 つまり右上と左下に点が多ければ r>0r > 0。それだけの話です。

相関 ≠ 因果

アイスの売上と水難事故は強く相関しますが、アイスを禁止しても事故は減りません。裏に「気温」という交絡因子がいるからです。 相関係数は「一緒に動く度合い」しか測っておらず、どちらが原因かは何も語りません。データ分析で最も多い誤用がここです。

理解チェック

r=0.9r = 0.9 のデータに外れ値を1点加えたら r=0.3r = 0.3 になりました。逆に、rr上げる外れ値はあり得るでしょうか?

答えを見る

あり得ます。点群の右上の延長線上の遠くに1点置くと、rr は 1 に近づきます。上の図で試してください。外れ値は相関を「壊す」だけでなく「捏造」もできる——散布図を見ずに rr だけ報告してはいけない理由です。