【統計検定2級】中央値

中央値

中央値とは、データを小さい順に並べた時、真ん中に位置する値です。
例えば、次の5人の年収データの中央値は、400万円となります。

人数が偶数だった場合は、真ん中の2つの値を足して2で割ります。
例えば、次の6人の年収データの中央値は、450万円となります。

このように、データ全体の様子を1つの数値で表した統計量の一種です。
統計量の中でも、「要約統計量」や「代表値」と呼ばれます。

年収では中央値を使う

年収で中央値が使われる理由は、中央値と平均値に次のような特徴があるからです。

・中央値・・・外れ値に強い (影響を受けにくい)
・平均値・・・外れ値に弱い (影響を受けやすい)

例えば、下記のように5人の年収のデータがあるとします。

この時、中央値は400万円、平均値は2080万円です。
このように、平均値は、外れ値の影響を受けます。

私達が知りたい年収の特徴は、普通の人たちの年収であり、ごく一部の特殊な年収(外れ値)は考慮して欲しくありません。

従って、年収の特徴を表す時は、中央値が使われます。

中央値と平均値が近い値なら平均値を使う

算出方法が異なる中央値と平均値ですが、2つが近い値となるデータ群もあります。

それは、平均値を基準に、低い方にも高い方にも同程度のデータ数が同程度の範囲に散らばっているようなデータ群です。

例えば、成人男性の身長は、だいたいみんな150cm~200cmの範囲であり、平均値より高い人も低い人も、同程度の人数がいることはイメージできると思います。

このような時は、中央値と平均値は近い値になります。

中央値と平均値がどちらもよく特徴を表している場合は、平均値の使用がおすすめです。
理由は、次の2点です。

・平均値は、みんなが知ってる統計量であるため。
・平均値は、データ全体を参照した値であるため。

最終的には、データから抽出したい情報にも依存しますが、上記の例のように、外れ値がなく、中央値のメリットが活かせないようなデータなら、全てのデータを参照している平均値を使いましょう。

まとめ

中央値とは、データを小さい順に並べた時、真ん中に位置する値です。
人数が偶数だった場合は、真ん中の2つの値を足して2で割ります。

外れ値を無視してランキング中位に着目したい時は中央値、データ全体の値を参照したい時は平均値を使いましょう。

コメント