標準偏差
標準偏差は、データのバラツキ具合を表現する統計量です。
データが、平均値から遠くまで散らばっているほど大きな値となります。
標準偏差の求め方
標準偏差の計算式は、次のとおりです。

母集団の標準偏差(σ)も標本の標準偏差(s)も同様の式で算出できます。
計算方法を文章で説明しますと、次のようになります。
① データの平均値を算出する。
② 各データの値から、①で求めた平均値を引いて2乗する。
③ 全部のデータで②の処理を行い、全て足し合わせる。
④ ③で得た値をデータの数で割る。※
⑤ ④で得た値のルートを算出する。
※①~④まで計算した値を「分散」と言います。
④の時に、(データの数-1)とする場合がありますが、ここでは、データ数で割る標準偏差について説明を続けます。
計算時の分母は、算出された値の利用方法により異なります。
分母n :データを要約したい。(記述統計)
分母n-1:データから全体の標準偏差を推測したい。(推測統計)
以下の分散のページで、もう少し詳しく説明しています。
標準偏差の算出と考察
標準偏差の具体例
次の2人の月収データがあります。ここから、標準偏差を求めてみましょう。

① データの平均値を算出する。
Aさん:(32+31+28+29)÷4=30
Bさん:(10+50+55+5)÷4=30
② 各データの値から、①で求めた平均値を引いて2乗する。
Aさん:(32-30)^2=4、(31-30)^2=1、(28-30)^2=4、(29-30)^2=1
Bさん:(10-30)^2=400、(50-30)^2=400、(55-30)^2=625、(5-30)^2=625
③ 全部のデータで②の処理を行い、全て足し合わせる。
Aさん:4+1+4+1=10
Bさん:400+400+625+625=2050
④ ③で得た値をデータの数で割る。
Aさん:10÷4=2.5
Bさん:2050÷4=512.5
⑤ ④で得た値のルートを算出する。
Aさん:√2.5≒1.58
Bさん:√512.5≒22.64
2人の標準偏差は、Aさんが1.58万、Bさんが22.64万となります。
標準偏差の特徴と考察
求めた標準偏差について、考察してみましょう。
一般に、平均値から±標準偏差2個分を超える値は、かなり珍しい値とされています。
例えば、Aさんの次の月収が32万だったとします。
これは平均値から±標準偏差2個分の範囲(26.84~33.16万)の中に収まっているので、これまでの月収水準から考えても、珍しい値ではありません。
逆に35万の月収だった場合は、これまでの月収水準から考えると珍しく高いと言えます。
Bさんについてはどうでしょうか。
Bさんの平均値から±標準偏差2個分の範囲は、-15.28~75.28万ですので、平均値の2倍にもなる「60万」を受け取れたとしても、珍しいことではありません。
また、多少赤字になることも珍しくはないと言えます。
【補足】
データが「正規分布」に従うことを仮定すると、平均値を軸に±標準偏差1個分の範囲に約68%のデータが入り、±標準偏差2個分の範囲に約95%のデータが入ります。
つまり、±標準偏差2個分を超えるデータは、全体の約5%しかないことになります。
これは分布を仮定した場合のパーセンテージになりますが、平均値から標準偏差2個分より大きいデータ、小さいデータが、どの程度特殊かを理解することができます。
標準偏差を使った身近な例
標準偏差を使った身近な例として、偏差値があります。
偏差値は、50を基準にして、次のように計算される指標です。
・平均値から標準偏差2個分高い成績なら、偏差値=70
・平均値から標準偏差1個分高い成績なら、偏差値=60
・平均値から標準偏差1個分低い成績なら、偏差値=40
・平均値から標準偏差2個分低い成績なら、偏差値=30
まとめ
標準偏差は、データのバラツキ具合を表現する統計量です。
データが、平均値から遠くまで散らばっているほど大きな値となります。
一般に、平均値から±標準偏差2個分を超える値は、かなり珍しい値とされています。
データに正規分布を仮定すると、平均値を軸に±標準偏差1個分の範囲に約68%のデータ、±標準偏差2個分の範囲に約95%のデータが入ります。
コメント