テデトクログイン

← コースに戻る

分散・標準偏差を使いこなす

前回のレッスンでは、ヒストグラムの階級幅を動かし、シーソーで平均と中央値の違いを体感しました。 今回は同じ道具を「読む」から「計算して使う」に進めます。統計検定2級の頻出地帯です。

分散の計算、2つの顔

定義通りの計算は「偏差→2乗→平均」でした:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

実務と試験で多用するのは、展開して得られるもう1つの顔です:

s2x2(xˉ)2(2乗の平均平均の2乗)s^2 \approx \overline{x^2} - (\bar{x})^2 \quad \text{(2乗の平均} - \text{平均の2乗)}

「2乗の平均」と「平均の2乗」の差——この形はこの先、確率変数の分散 V(X)=E(X2)(E(X))2V(X) = E(X^2) - (E(X))^2 として何度も再登場します。ここが初出です。

データを一様に変換すると何が起きるか

全員の点数を aa 倍して bb 点足す(y=ax+by = ax + b)と:

偏差値はこの変換の応用です。平均50・標準偏差10になるように

T=50+10×xxˉsxT = 50 + 10 \times \frac{x - \bar{x}}{s_x}

とデータを引き伸ばしたものさしの規格化でした。中身の xxˉsx\frac{x-\bar{x}}{s_x} は「平均から標準偏差何個分離れているか」——第5章でz値という名前で主役になります。

箱ひげ図と四分位範囲

散らばりの指標は標準偏差だけではありません。データを4等分する四分位数を使うと:

外れ値に引きずられにくいのが強みで、平均・標準偏差ペアと使い分けます(歪んだ分布では中央値・IQRが安全)。

操作チャレンジ — 図で解く3問

計算式を、手の感覚と一致させましょう。

1 / 3

赤い点をドラッグして、5個のデータの平均をちょうど60にしてください。

データ = [45, 55, 60, 70, 50.00] / 平均 = 56.00