【統計検定2級】分散

分散

分散は、データのバラツキ具合を表現する統計量です。
データが、平均値から遠くまで散らばっているほど大きな値となります。

後述の計算式からも分かるとおり、分散の単位は、元の単位の2乗になります。
単位が変わると分かりづらいので、データの要約の際は、分散をルートした標準偏差の方がよく使われます。

分散の求め方

分散の式は2パターンあります。

実際にデータを扱う際、サンプルサイズ(n)が大きい場合は結果への影響は少ないですが、統計検定を受ける場合など、学問として学ぶ場合は意識しましょう。

分散(記述統計)

分母がnの分散です。目の前にあるデータのみ興味があり、データの要約をしたい時には、こちらの分散(標本分散)の式を用います。

例えば、あたたが注目している5人の身長を把握できました。この5人の身長について、散らばりを把握する場合が該当します。

それでは、計算ステップを確認していきます。全部で4ステップです。

 ① データの平均値を算出する。
(170+165+180+160+175)/5=170

 ② 各データの値から、①で求めた平均値を引いて2乗する。
(170-170)^2=0、(165-170)^2=25、(180-170)^2=100、(160-170)^2=100、(175-170)^2=25

 ③ 全部のデータで②の処理を行い、全て足し合わせる。
0+25+100+100+25=250

 ④ ③で得た値をデータの数で割る。
250/5=50 (cm^2)

分散は、50 (cm^2)となりました。単位は、元のcmの2乗になります。

不偏分散(推測統計)

分母が(n-1)の分散です。目の前にあるデータ(標本)から、全体の分散(母分散)を推測したい時に用います。

例えば、とある学年からランダムに5人の生徒の身長を把握できました。
この5人の身長から、学年全体の身長の分散(母分散)を推測する場合が該当します。

計算の流れは前項と同じですが、最後に(データの数-1)で割るところが異なります。

 ① データの平均値を算出する。
 ② 各データの値から、①で求めた平均値を引いて2乗する。
 ③ 全部のデータで②の処理を行い、全て足し合わせる。
 ④ ③で得た値を(データの数-1)で割る。

一致性と不偏性

母集団の推定量には、「一致性」と「不偏性」という2つの判断基準が存在ます。

・一致性:サンプルサイズ(n)が大きい時に真の値に近づく性質
・不偏性:推定量の期待値が真の値である性質

2パターンの分散についての判定は、以下のとおりです。

・分散:一致性あり・不偏性なし(母分散の一致推定量)
・不偏分散:一致性あり・不偏性あり(母分散の一致推定量&不偏推定量)

この事より、推定量を求める場合は、不偏分散が適しています。

まとめ

分散は、データのバラツキ具合を表現する統計量で、単位は元の単位の2乗になります。

計算時の分母は、算出された値の利用方法により異なります。
分母n :データを要約したい。(記述統計)
分母n-1:データから全体の分散を推測したい。(推測統計)

コメント