記述統計 — データを1枚の図にする
150人分の試験の点数表を渡されて「どんな結果だった?」と聞かれたら、どう答えますか。 150個の数字を読み上げるわけにはいきません。統計学の最初の仕事は、データの山を要約して1枚の図・数個の数字に圧縮することです。
触ってみる — 同じデータ、違う顔
まずはヒストグラム。データを「階級」に区切って本数を数えた図ですが、実は階級幅の選び方ひとつで印象が激変します。
幅を狭くすると山が2つあることが見えてきます(実はこのデータ、2つのグループの混合です)。 広げすぎるとその構造は消え、狭すぎるとノイズだらけになります。 「ヒストグラムは1つ描いて終わり」ではなく、幅を動かして眺めるものなのです。
中心はどこか — 平均と中央値
次に「中心」を1つの数字で表しましょう。代表は平均と中央値です。
平均はデータの「重心」、つまりシーソーがつり合う支点です。一方、中央値は「並べたときの真ん中の人」。
右端の点を1つだけ、ずーっと遠くへ引きずってみてください。 平均(赤)は外れ値に引きずられ、中央値(青)はほとんど動かないはずです。 「平均年収」が実感より高く感じるのは、ごく少数の高所得者がシーソーの支点を引っ張っているからです。
散らばりの指標
中心だけでは「全員60点」と「0点と120点が半々」を区別できません。散らばりを測るのが分散と標準偏差です。
偏差(平均からのずれ)を2乗して平均する——2乗するのは、プラスとマイナスのずれが打ち消し合わないようにするためです。 日本でおなじみの偏差値は、平均50・標準偏差10になるようデータを引き伸ばした「ものさしの規格化」にすぎません。
理解チェック
ある会社の給与データでは平均が中央値よりかなり大きいそうです。給与分布はどんな形をしていると推測できますか?
答えを見る
右に長い裾を持つ(右に歪んだ)分布です。少数の高給与がシーソーの支点(平均)を右へ引きずる一方、中央値は「真ん中の人」なので動きません。上の図で再現できます。