正規分布
正規分布は、最も一般的な確率分布で、多くの統計手法の前提ともなる重要な分布です。様々な場面で目にするので、統計学を学ぶ上で、避けては通れない分布と言えます。
また、実際のデータでも正規分布に従うものが多くあるので、実用的でもあります。
分布の外観と確率密度関数
正規分布の外観は、次のようになります。

正規分布は、平均値を中心に左右対称の分布です。中心の平均値付近の頻度が高く、そこから離れるにつれて、徐々に頻度は減少します。
また、正規分布の確率密度関数は、次の通りです。

データの値を除き、σ^2(分散)とμ(平均値)以外は定数ですので、分散と平均値が決まれば、正規分布の形も決まります。
また、「N (μ, σ^2)」と表記します。(Nは、正規分布の英語「normal distribution」から)
正規分布の具体例
正規分布に従うと言われるデータには、例えば次のようなものがあります。
・同年代の身長
・あなたの平日の睡眠時間
・ある製品のサイズ
・ある製品の耐久年数
おおよその平均値のイメージがついて、そこに誤差(個体差)があるものは、正規分布に従っていると考えて大きな間違いはないでしょう。
また、次のものは「中心極限定理」に従い、正規分布となることが分かっています。
・サンプルの平均値
決定因子(平均値と分散)
前述のとおり、正規分布の形状を決定する因子は、σ^2(分散)とμ(平均値)です。
それぞれが、分布の形状に与える影響について、見ていきましょう。
平均値が変わるとどうなるか
平均値が変わる時、分布の形はそのままに、位置が左右にスライドします。
正規分布は平均値がピークとなる分布ですので、平均値が増減するとピークの位置も連動します。

分散が変わるとどうなるか
分散が変わる時、位置はそのままに、分布の形(とがり具合)が変わります。
そもそも分散というのは、平均値からの散らばり具合を表す統計量です。
この値が小さくなると、より平均値周辺にデータが集まり、値が大きくなると、より平均値から離れたところでデータがみられるようになります。
分散の定義そのままなので、分布の挙動もイメージしやすいでしょう。

標準偏差との関係
データが正規分布に従う場合、次のことが言えます。
・平均値±σの範囲に、データ全体の約68%含まれる。
・平均値±2σの範囲に、データ全体の約95%含まれる。
・平均値±3σの範囲に、データ全体の約99%含まれる。

一般的に、平均値±2σの範囲を超えるデータについては、かなり珍しいデータとされています。
これは、データ全体の約5%しか該当しないため、感覚的にも珍しいと感じると思います。
標準偏差について確認したい方は、以下の記事を参考にしてください。
なお、テストの成績ではおなじみの「偏差値」は、平均値±σの考え方がベースとなっています。
偏差値は、平均値を50として、σ1個平均値から離れるごとに偏差値が10変動します。
・平均値から標準偏差0.5個分高い成績なら、偏差値=55
・平均値から標準偏差1個分高い成績なら、偏差値=60
・平均値から標準偏差1個分低い成績なら、偏差値=40
このことより、偏差値からは、受検者全体における自分の立ち位置が見えてきます。
・70以上:非常に良い成績(全体の上位2.3%以内)
・60以上:割りと良い成績(全体の上位15.9%以内)
・50周辺:普通の成績
・40以下:割りと悪い成績(全体の下位15.9%以内)
・30以下:非常に悪い成績(全体の下位2.3%以内)
正規分布における標本平均
正規分布N (μ, σ^2)に従う標本について、その標本平均は、N (μ, (σ/√n)^2)に従います。書き直すと、N (μ, (σ^2)/n)です。
統計検定2級の練習問題にも出題されていたので、受検する場合は覚えておきましょう。
まとめ
正規分布は、平均値を中心に左右対称の分布です。分布のピークは平均値で、そこから離れるにつれて徐々に頻度は減少します。
正規分布の形状を決定する因子は、σ^2(分散)とμ(平均値)です。
平均値が変わると分布の位置が左右にスライドし、分散が変わると分布の形(とがり具合)が変わります。
また、データが正規分布に従う場合、次のことが言えます。
・平均値±σの範囲に、データ全体の約68%含まれる。
・平均値±2σの範囲に、データ全体の約95%含まれる。
・平均値±3σの範囲に、データ全体の約99%含まれる。
コメント