テデトクログイン

← コースに戻る

相関の落とし穴と読み方

ウォームアップ — 第1章の振り返り

1 / 1

赤い点をドラッグして、5個のデータの平均をちょうど60にしてください。

データ = [45, 55, 60, 70, 50.00] / 平均 = 56.00

前回、散布図の点をドラッグして相関係数 rr が動くのを見ました。 今回は rrを理解し、実務でだまされないための読み方を固めます。

相関係数の正体は「標準化した共分散」

r=sxysxsy=1n1i=1n(xixˉsx)(yiyˉsy)r = \frac{s_{xy}}{s_x s_y} = \frac{1}{n-1}\sum_{i=1}^n \left(\frac{x_i - \bar{x}}{s_x}\right)\left(\frac{y_i - \bar{y}}{s_y}\right)

前回のレッスンの言葉で言えば、各点を偏差値のものさしに載せ替えてから掛けて平均したものです。 だから単位に依存せず、必ず 1r1-1 \le r \le 1 に収まります。

だまされない4箇条

  1. 外れ値1つで激変する — 下のチャレンジで実際に壊してもらいます
  2. 直線関係しか測れない — U字型の完璧な関係でも r0r \approx 0
  3. 相関≠因果 — アイスの売上と水難事故(裏に気温)。交絡を疑う
  4. 範囲の切断 — 合格者だけのデータで「入試の点数と入学後の成績は無相関」に見える現象。選抜されたデータでは相関は薄まります

クロス集計とシンプソンのパラドックス

カテゴリカルなデータではクロス集計表を使いますが、群を分けると相関の向きが逆転することがあります(シンプソンのパラドックス)。 「全体では治療Aが優勢、男女別に見るとどちらもBが優勢」——集計の単位を変えて必ず確認する習慣が防御策です。

操作チャレンジ — 図で解く3問

1 / 3

赤い点を1つ動かして、相関係数 r を0.30未満まで壊してください。

r = 1.00