記述統計 — データを1枚の図にする

150人分の試験の点数表を渡されて「どんな結果だった?」と聞かれたら、どう答えますか。 150個の数字を読み上げるわけにはいきません。統計学の最初の仕事は、データの山を要約して1枚の図・数個の数字に圧縮することです。

触ってみる — 同じデータ、違う顔

まずはヒストグラム。データを「階級」に区切って本数を数えた図ですが、実は階級幅の選び方ひとつで印象が激変します。

階級幅5

同じ150人の試験データ。階級幅を1〜25点まで動かしてみてください

幅を狭くすると山が2つあることが見えてきます(実はこのデータ、2つのグループの混合です)。広げすぎるとその構造は消え、狭すぎるとノイズだらけになります。「ヒストグラムは1つ描いて終わり」ではなく、幅を動かして眺めるものなのです。

次に「中心」を1つの数字で表しましょう。代表は平均と中央値です。

\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i

平均はデータの「重心」、つまりシーソーがつり合う支点です。一方、中央値は「並べたときの真ん中の人」。

データ点(グレー)を横にドラッグ。赤 = 平均(シーソーの支点)、青 = 中央値

右端の点を1つだけ、ずーっと遠くへ引きずってみてください。 平均(赤)は外れ値に引きずられ、中央値(青)はほとんど動かないはずです。「平均年収」が実感より高く感じるのは、ごく少数の高所得者がシーソーの支点を引っ張っているからです。

中心だけでは「全員60点」と「0点と120点が半々」を区別できません。散らばりを測るのが分散と標準偏差です。

s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2, \qquad s = \sqrt{s^2}

偏差(平均からのずれ)を2乗して平均する——2乗するのは、プラスとマイナスのずれが打ち消し合わないようにするためです。日本でおなじみの偏差値は、平均50・標準偏差10になるようデータを引き伸ばした「ものさしの規格化」にすぎません。

ある会社の給与データでは平均が中央値よりかなり大きいそうです。給与分布はどんな形をしていると推測できますか?

答えを見る

右に長い裾を持つ(右に歪んだ)分布です。少数の高給与がシーソーの支点(平均)を右へ引きずる一方、中央値は「真ん中の人」なので動きません。上の図で再現できます。