【統計検定2級】ローレンツ曲線・ジニ係数

ローレンツ曲線

ローレンツ曲線は、分布の不平等さを表すグラフです。
平等であれば45°の直線を示しますが、不平等であるほど、下方に湾曲していきます。

ここでは例として、架空の500世帯の月収について作成してみます。
作成手順は、次のとおりです。

①世帯を月収の低い順に並べる
②世帯をいくつかの階級に分ける(今回は5つとします)
③度数と値の累積相対度数を求める
④プロットする(横軸:度数(世帯数)、縦軸:値(月収))

まずは、全く平等な例を見てみましょう。

【補足】
値(月収)の累積相対度数の求め方は、まず全世帯分の収入を計算します。
(20×100+20×100+20×100+20×100+20×100=10,000万円)

その中で、各階級が占める収入を考えていきます。
(1つ目の階級なら、20×100=2000万を占めるため、2000÷10,000=0.2)

後は、通常の累積相対度数の求め方と同じです。

この例では、全ての世帯の月収を20万円としました。
従って、全階級の平均月収も20万になり、階級が上がっても均等な上昇を見せています。

このように、均等なデータだとローレンツ曲線は、45°一直線のグラフになります。

 

次は、偏りのあるデータをグラフ化します。

偏りのあるデータをグラフ化すると、45°の直線(完全平等線)から歪みました。

この例ですと、収入の低い方から20%の世帯数(100世帯)を抽出しても、収入は全体の8%分しか抽出されていないということです。

ローレンツ曲線は、完全平等線から歪めば歪むほど、値に偏りがあると判断できます。

ジニ係数

ジニ係数は、ローレンツ曲線で表される偏りを、数値で表したものです。

次の式で求めることができます。
ジニ係数=(完全平等線とローレンツ曲線で囲んだ面積(赤色))×2

ジニ係数は、0~1の値を取り、0は完全に均等である状態で、1は全くの不均等な状態です。

今回の例だと、以下のような状態です。
 0:全世帯の月収が同じ。
 1:400世帯超の月収が0円で、一部世帯のみ月収がある。(世紀末…)

なお、ジニ係数は、面積(の割合)より求めるため、ジニ係数が同じ値であっても、ローレンツ曲線の形状まで同じとは限りません。

まとめ

ローレンツ曲線は、分布の不平等さを表すグラフです。
平等であれば45°の直線を示しますが、不平等であるほど、下方に湾曲していきます。

ジニ係数は、ローレンツ曲線で表される偏りを、数値で表したものです。
(完全平等線とローレンツ曲線で囲んだ面積)×2で求めることができ、0~1の値を取ります。
0は完全に均等である状態で、1は全くの不均等な状態です。