【統計検定2級】標準偏差

標準偏差

標準偏差は、データのバラツキ具合を表現する統計量です。
データが、平均値から遠くまで散らばっているほど大きな値となります。

標準偏差の求め方

標準偏差の計算式は、次のとおりです。

母集団の標準偏差(σ)も標本の標準偏差(s)も同様の式で算出できます。

計算方法を文章で説明しますと、次のようになります。

 ① データの平均値を算出する。
 ② 各データの値から、①で求めた平均値を引いて2乗する。
 ③ 全部のデータで②の処理を行い、全て足し合わせる。
 ④ ③で得た値をデータの数で割る。※
 ⑤ ④で得た値のルートを算出する。

※①~④まで計算した値を「分散」と言います。

④の時に、(データの数-1)とする場合がありますが、ここでは、データ数で割る標準偏差について説明を続けます。

計算時の分母は、算出された値の利用方法により異なります。
分母n :データを要約したい。(記述統計)
分母n-1:データから全体の標準偏差を推測したい。(推測統計)

以下の分散のページで、もう少し詳しく説明しています。

標準偏差の算出と考察

標準偏差の具体例

次の2人の月収データがあります。ここから、標準偏差を求めてみましょう。

① データの平均値を算出する。
 Aさん:(32+31+28+29)÷4=30
 Bさん:(10+50+55+5)÷4=30

② 各データの値から、①で求めた平均値を引いて2乗する。
 Aさん:(32-30)^2=4、(31-30)^2=1、(28-30)^2=4、(29-30)^2=1
 Bさん:(10-30)^2=400、(50-30)^2=400、(55-30)^2=625、(5-30)^2=625

③ 全部のデータで②の処理を行い、全て足し合わせる。
 Aさん:4+1+4+1=10
 Bさん:400+400+625+625=2050

④ ③で得た値をデータの数で割る。
 Aさん:10÷4=2.5
 Bさん:2050÷4=512.5

⑤ ④で得た値のルートを算出する。
 Aさん:√2.5≒1.58
 Bさん:√512.5≒22.64

2人の標準偏差は、Aさんが1.58万、Bさんが22.64万となります。

標準偏差の特徴と考察

求めた標準偏差について、考察してみましょう。

一般に、平均値から±標準偏差2個分を超える値は、かなり珍しい値とされています。

例えば、Aさんの次の月収が32万だったとします。
これは平均値から±標準偏差2個分の範囲(26.84~33.16万)の中に収まっているので、これまでの月収水準から考えても、珍しい値ではありません。

逆に35万の月収だった場合は、これまでの月収水準から考えると珍しく高いと言えます。

Bさんについてはどうでしょうか。

Bさんの平均値から±標準偏差2個分の範囲は、-15.28~75.28万ですので、平均値の2倍にもなる「60万」を受け取れたとしても、珍しいことではありません。

また、多少赤字になることも珍しくはないと言えます。

【補足】
データが「正規分布」に従うことを仮定すると、平均値を軸に±標準偏差1個分の範囲に約68%のデータが入り、±標準偏差2個分の範囲に約95%のデータが入ります。

つまり、±標準偏差2個分を超えるデータは、全体の約5%しかないことになります。

これは分布を仮定した場合のパーセンテージになりますが、平均値から標準偏差2個分より大きいデータ、小さいデータが、どの程度特殊かを理解することができます。

標準偏差を使った身近な例

標準偏差を使った身近な例として、偏差値があります。

偏差値は、50を基準にして、次のように計算される指標です。
 ・平均値から標準偏差2個分高い成績なら、偏差値=70
 ・平均値から標準偏差1個分高い成績なら、偏差値=60
 ・平均値から標準偏差1個分低い成績なら、偏差値=40
 ・平均値から標準偏差2個分低い成績なら、偏差値=30

まとめ

標準偏差は、データのバラツキ具合を表現する統計量です。
データが、平均値から遠くまで散らばっているほど大きな値となります。

一般に、平均値から±標準偏差2個分を超える値は、かなり珍しい値とされています。
データに正規分布を仮定すると、平均値を軸に±標準偏差1個分の範囲に約68%のデータ、±標準偏差2個分の範囲に約95%のデータが入ります。

コメント