• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      洛倫茲曲線的半?yún)?shù)估計(jì)

      2013-05-12 10:21:54俞翰君
      統(tǒng)計(jì)與信息論壇 2013年5期
      關(guān)鍵詞:洛倫茲參數(shù)估計(jì)基尼系數(shù)

      俞翰君

      (北京大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京 100871)

      洛倫茲曲線的半?yún)?shù)估計(jì)

      俞翰君

      (北京大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京 100871)

      洛倫茲曲線與基尼系數(shù)是研究社會(huì)收入分配差異的重要工具。社會(huì)收入分配是一個(gè)復(fù)雜的過程,用盡可能精確的曲線給出洛倫茲曲線的估計(jì)進(jìn)而給出基尼系數(shù)的估計(jì),歷來是統(tǒng)計(jì)學(xué)者和經(jīng)濟(jì)學(xué)者的工作目標(biāo)。基于將參數(shù)方法與非參數(shù)方法相結(jié)合的思想給出洛倫茲曲線的半?yún)?shù)估計(jì),進(jìn)而導(dǎo)出基尼系數(shù)的估計(jì),并據(jù)此進(jìn)行了實(shí)證分析。

      收入分布函數(shù);洛倫茲曲線;基尼系數(shù);Beta分布;Pareto分布;半?yún)?shù)估計(jì)

      一、引 言

      奧地利統(tǒng)計(jì)學(xué)家洛倫茲1907年在研究社會(huì)財(cái)富分配狀況時(shí)提出了著名的洛倫茲曲線,即在一個(gè)總體(國家、地區(qū))內(nèi)以“最貧窮的人口計(jì)算起一直到最富有人口”的人口百分比對應(yīng)其收入百分比的點(diǎn)組成的曲線,如圖1中的曲線OL。通過洛倫茲曲線,可以直觀地看到一個(gè)國家或地區(qū)收入分配平等或不平等的狀況。

      意大利經(jīng)濟(jì)學(xué)家基尼1912年根據(jù)洛倫茲曲線提出了定量測定收入分配差異程度的指標(biāo)——基尼系數(shù)?;嵯禂?shù)是比例數(shù)值,取值在0和1之間,即圖1中A的面積與A+B面積之比,是國際上用來綜合考察居民收入分配差異狀況的一個(gè)重要分析指標(biāo)。

      圖1 洛倫茲曲線圖

      為了獲得基尼系數(shù)需要用到洛倫茲曲線,而為了獲得洛倫茲曲線需知道收入分布函數(shù)。收入分布函數(shù)是某地區(qū)的全體居民中,個(gè)人收入不超過某值的居民所占的比例[1]。在統(tǒng)計(jì)上估計(jì)收入分布函數(shù)的方法主要有兩種:參數(shù)方法和非參數(shù)方法。參數(shù)方法假定收入分布函數(shù)類型已知,利用樣本數(shù)據(jù)對分布中的未知參數(shù)給出估計(jì)從而擬合分布函數(shù)曲線。19世紀(jì)末,意大利經(jīng)濟(jì)學(xué)家帕累托提出了擬合收入分布的模型——Pareto分布。該分布得到了廣泛應(yīng)用。此外,對數(shù)正態(tài)分布、Gamma分布、Beta分布和Weibull分布等也曾用來刻畫收入分布函數(shù),這些收入分布函數(shù)各有千秋:James B.McDonald等人在研究中發(fā)現(xiàn)Pareto分布估計(jì)高收入階層較精確;Beta分布、對數(shù)正態(tài)分布和Gamma分布對中等收入階層估計(jì)較為精確[2-3];另一種方法是非參數(shù)方法,非參數(shù)方法主要是利用經(jīng)驗(yàn)分布函數(shù)、核密度函數(shù)以及樣條等方法直接對收入分布函數(shù)進(jìn)行估計(jì)。胡祖光等利用核密度函數(shù)給出了中國城鄉(xiāng)居民收入分布的動(dòng)態(tài)演進(jìn)[4]91-111;黃恒君等給出了基于B樣條的收入分布函數(shù)形式[5]。

      2007年Cowell等給出了洛倫茲曲線的半?yún)?shù)估計(jì),其主要思想是考慮到收入分布的上尾受污染的可能性較大,對收入選取一個(gè)適當(dāng)?shù)拈T限值x0,x0以下的收入用經(jīng)驗(yàn)分布函數(shù)估計(jì),x0以上的收入用Pareto分布估計(jì)[6],并將該方法應(yīng)用于英國1981年的7 470個(gè)家庭的可支配收入數(shù)據(jù)中。

      通過比較發(fā)現(xiàn),參數(shù)方法和非參數(shù)方法估計(jì)收入分布函數(shù)各有優(yōu)缺點(diǎn):參數(shù)方法估計(jì)的模型形式單一,統(tǒng)計(jì)上較為容易處理,但社會(huì)收入分配是一個(gè)復(fù)雜的過程,一般而言不可能完全用一條較為理想的曲線來描述,因此擬合效果往往不夠理想;非參數(shù)方法由于本質(zhì)上是利用頻率來估計(jì)概率,因而理論上比較理想,但是該方法在統(tǒng)計(jì)上處理較為復(fù)雜,特別是當(dāng)數(shù)據(jù)受到污染時(shí)(如記錄錯(cuò)誤或受訪者不愿意回答等,主要出現(xiàn)在特別高和特別低的收入數(shù)據(jù)中)可能會(huì)導(dǎo)致結(jié)果不準(zhǔn)確;半?yún)?shù)方法綜合了參數(shù)方法和非參數(shù)方法各自的優(yōu)點(diǎn),克服了它們各自的缺陷,通過對實(shí)際問題的縝密研究,靈活地界定了參數(shù)方法和非參數(shù)方法的應(yīng)用范圍,擬合數(shù)據(jù)時(shí)可以更好地與實(shí)際吻合,并可以根據(jù)實(shí)際情況調(diào)整參數(shù)估計(jì)和非參數(shù)估計(jì)的范圍。

      Cowell等在研究收入分布時(shí)僅對高收入數(shù)據(jù)運(yùn)用參數(shù)方法。本文擬選擇兩個(gè)門限值x1和x2(x1<x2),對x1和x2中間部分用經(jīng)驗(yàn)分布函數(shù)估計(jì),兩點(diǎn)之外用分布函數(shù)估計(jì),大于x2的部分用擬合效果比較好的Pareto分布,小于x1的部分嘗試用Beta分布,由此可導(dǎo)出洛倫茲曲線,進(jìn)而得到基尼系數(shù)。

      洛倫茲曲線的半?yún)?shù)估計(jì)方法克服了參數(shù)方法和非參數(shù)方法的缺陷,其優(yōu)點(diǎn)如下:一是充分利用了參數(shù)方法和非參數(shù)方法的優(yōu)點(diǎn),能夠使擬合的結(jié)果更加符合實(shí)際情況;二是可以根據(jù)實(shí)際情況調(diào)整參數(shù)估計(jì)和非參數(shù)估計(jì)的運(yùn)用范圍,有利于一個(gè)地區(qū)在不同時(shí)期或不同地區(qū)在同一時(shí)期的洛倫茲曲線的比較。

      二、洛倫茲曲線的半?yún)?shù)估計(jì)方法

      (一)收入分布函數(shù)的半?yún)?shù)表達(dá)

      由于計(jì)算基尼系數(shù)所用的數(shù)據(jù)是家庭平均收入,本文中收入分布函數(shù)的定義為某地區(qū)的全體家庭中,家庭平均收入不超過某值的家庭所占的比例。假設(shè)某地區(qū)的家庭平均收入為隨機(jī)變量X,令為所有單變量收入分布函數(shù)的集合,其支撐為,x0=inf為X的最低值。X服從的分布函數(shù)F∈,則家庭平均收入不超過x的家庭所占的比例為F(x)=P(X≤x)。

      F可以為不含參數(shù)的經(jīng)驗(yàn)分布函數(shù)Fn,也可以為含參數(shù)的分布函數(shù)Fθ。常見的含參數(shù)的收入分布函數(shù)有Beta分布、Dagum分布、Gamma分布、Lognormal分布、Pareto 分布、Singh-Maddala分布、Weibull分布等。

      由于Pareto分布擬合高收入數(shù)據(jù)較為理想,因此大于x2的部分采用Pareto分布進(jìn)行擬合,其密度函數(shù)為:

      未知參數(shù)為θ。

      由于Beta分布的支撐有界,且擬合中低收入數(shù)據(jù)較為理想,故位于x0與x1之間的部分采用Beta分布進(jìn)行擬合,其密度函數(shù)為:

      (二)洛倫茲曲線的半?yún)?shù)表達(dá)

      對于給定的收入分布函數(shù)F,C(F;u)關(guān)于u的圖像為廣義洛倫茲曲線。L(F;u)關(guān)于u的圖像為相對洛倫茲曲線。本文的研究對象為相對洛倫茲曲線,以下簡稱為洛倫茲曲線。

      為得到洛倫茲曲線的半?yún)?shù)表達(dá),首先要求出收入分布函數(shù)F(x)對應(yīng)的Q(F;u)。因x1和x2為兩個(gè)不同的門限值,則存在α1=Fn(x1)和α2=Fn(x2),滿足x1=Q(Fn;α1)和x2=Q(Fn;α2),故式(1)也可化為:

      為簡便起見,記F1(x)=F(x;p,q)α1,F(xiàn)2(x)=α2+(1-α2)F(x;θ),則100u%最底層家庭的平均收入C(F;u)為:

      通過分段計(jì)算C(F;u),得到:

      (三)Pareto分布的參數(shù)估計(jì)

      收入分布函數(shù)的高收入部分利用Pareto分布進(jìn)行擬合,需要對未知參數(shù)θ進(jìn)行估計(jì)。Pareto分布的密度函數(shù)形式簡單,考慮采用極大似然方法估計(jì)θ。若k個(gè)最高的收入樣本yn-k+1,yn-k+2,…,yn服從Pareto分布,求得θ的極大似然估計(jì)為:

      (四)Beta分布的參數(shù)估計(jì)

      收入分布函數(shù)的低收入部分利用Beta分布進(jìn)行擬合,需要對未知參數(shù)p和q進(jìn)行估計(jì)。由于Beta分布的密度函數(shù)含有beta函數(shù),求解極大似然估計(jì)較為困難,故采用矩估計(jì)的方法估計(jì)未知參數(shù)。若m個(gè)最低的收入樣本y1,y2,…,ym服從Beta分布,求得p和q的矩估計(jì)表達(dá)式為:

      (五)門限值的選取

      對門限值x1和x2(x1<x2)的選取是估計(jì)收入分布函數(shù),進(jìn)而得到洛倫茲曲線的關(guān)鍵。首先考慮x2的選取方法。驗(yàn)證數(shù)據(jù)是否服從Pareto分布的比較常用的方法是利用Pareto分布的Q-Q圖[7]573-579。重新整理Pareto分布的分布函數(shù),有:

      其次考慮x1的選取方法。對x1的選取采用如下準(zhǔn)則:

      1.依次取前m 個(gè)收入樣本y1,y2,…,ym,m=m0,…,n-k(m為一個(gè)變化的數(shù),每取完一組收入樣本后其值增加1,再取下一組,其中m0要大于一定的值以防止參數(shù)估計(jì)時(shí)出現(xiàn)過度擬合,k為已確定的服從Pareto分布的樣本個(gè)數(shù)),分別利用給定的參數(shù)估計(jì)方法計(jì)算參數(shù)值^pm和^qm。

      6.在通過KS檢驗(yàn)的m中選擇使得Gm達(dá)到最小的m,則對應(yīng)的臨界值為x1=y(tǒng)m,即yi,i=1,2,…,m服從Beta分布。

      (六)基尼系數(shù)的計(jì)算方法

      由于上述洛倫茲曲線L(F;u)形式較為復(fù)雜,用積分方法計(jì)算基尼系數(shù)不易,故本文采用“離散模擬法”計(jì)算基尼系數(shù),方法如下:

      1.根據(jù)式(6),得到μ(F)。

      三、實(shí)證分析

      (一)數(shù)據(jù)來源

      利用“中國營養(yǎng)和健康調(diào)查”(China Nutrition and Health Survey,以下簡稱 CHNS)2009年的城鎮(zhèn)家庭人均年收入數(shù)據(jù)進(jìn)行數(shù)據(jù)分析[8]。該調(diào)查由美國北卡羅萊納大學(xué)教堂山校區(qū)的羅萊納州人口中心和中國疾病控制和預(yù)防中心的國家營養(yǎng)和食品安全所聯(lián)合執(zhí)行。調(diào)查依據(jù)地理位置、經(jīng)濟(jì)發(fā)展程度、公共資源的豐富程度和健康指數(shù),對中國東、中和西部8個(gè)省份(分別為遼寧、江蘇、山東、河南、湖北、湖南、廣西和貴州)隨機(jī)抽取家庭戶作為樣本。這些省份無論在地理位置還是經(jīng)濟(jì)發(fā)展水平上都具有多樣性,因此可以作為一個(gè)比較有代表性的樣本來研究當(dāng)代中國[5]。

      下文將對CHNS2009年城鎮(zhèn)家庭人均年收入的1 401個(gè)數(shù)據(jù)(數(shù)據(jù)經(jīng)過CPI平減,且去掉了非正的收入數(shù)據(jù))進(jìn)行分析,將分別給出參數(shù)估計(jì)值、擬合的收入分布函數(shù)、擬合的洛倫茲曲線和基尼系數(shù)估計(jì)值。

      (二)數(shù)據(jù)描述

      該數(shù)據(jù)的描述性統(tǒng)計(jì)量如表1所示。

      表1 數(shù)據(jù)描述統(tǒng)計(jì)量表

      (三)收入分布函數(shù)的擬合

      1.Pareto分布參數(shù)估計(jì)與門限值。由第二部分知,可以先通過式(10)確定哪些數(shù)據(jù)服從Pareto分布,再進(jìn)行參數(shù)估計(jì)。繪制Pareto分布Q-Q圖,得到圖2。

      圖2 Pareto分布Q-Q圖

      由圖2知,圖像彎曲而非直線,說明數(shù)據(jù)整體不服從Pareto分布。由于Pareto分布擬合高收入數(shù)據(jù)較為準(zhǔn)確,為了使圖像清晰,選取年人均收入最高的40個(gè)數(shù)據(jù)繪制圖像,得到圖3。

      從圖3可以看出,最高的10個(gè)收入樣本近似位于一條直線上,可認(rèn)為該10個(gè)數(shù)據(jù)服從Pareto分布,故門限值為x2=77 932.52,α2=Fn(x2)=0.993 6。

      圖3 40個(gè)高收入數(shù)據(jù)的Pareto分布Q-Q圖

      3.收入分布函數(shù)表達(dá)式與圖像。由式(2)并結(jié)合參數(shù)估計(jì)值與門限值,得到該組數(shù)據(jù)的收入分布函數(shù)半?yún)?shù)表達(dá)式為:

      2.Beta分布參數(shù)估計(jì)與門限值。為確定Beta分布的參數(shù)與門限值,需按照上文給出的方法,依次計(jì)算前m(m=m0,…,1 391,這里取m0=10)個(gè)收入數(shù)據(jù)估計(jì)的參數(shù)并比較估計(jì)的優(yōu)劣,從中選出最好的估計(jì)。通過循環(huán)計(jì)算,最終得到門限值為x1=21 514.33,α1=Fn(x1)=0.811 6,參數(shù)=1.117 3和=1.459 8,則 Beta 分 布 的分 布 函 數(shù) 為:

      繪制收入分布函數(shù)圖像,得到圖4。

      圖4 收入分布函數(shù)擬合圖像

      (三)洛倫茲曲線的擬合

      利用擬合的收入分布函數(shù)及式(5)和(6),繪制出如圖5所示的洛倫茲曲線。

      圖5 洛倫茲曲線擬合圖像

      (四)基尼系數(shù)的估計(jì)

      利用第二部分的方法,得到基尼系數(shù)的估計(jì)值^G=0.455 7,即2009年中國城鎮(zhèn)基尼系數(shù)的估計(jì)值為0.455 7。

      四、結(jié) 論

      考慮到參數(shù)方法和非參數(shù)方法在估計(jì)洛倫茲曲線中各有利弊,本文先對收入分布函數(shù)進(jìn)行半?yún)?shù)估計(jì),進(jìn)而給出洛倫茲曲線的半?yún)?shù)表達(dá)。

      首先,根據(jù)擬合優(yōu)度準(zhǔn)則和Q-Q圖選擇了收入的兩個(gè)門限值x1和x2(x1<x2),對x1以下的部分用Beta分布估計(jì),x2以上的部分用Pareto分布估計(jì),分布的選取依據(jù)為以往的文獻(xiàn)研究;對x1和x2之間的部分用經(jīng)驗(yàn)分布函數(shù)估計(jì),經(jīng)驗(yàn)分布函數(shù)能夠起到較好的連接作用。選定分布函數(shù)之后,利用極大似然估計(jì)和矩估計(jì)對未知參數(shù)進(jìn)行估計(jì),進(jìn)而得到了收入分布函數(shù)的半?yún)?shù)表達(dá)。根據(jù)洛倫茲曲線的定義,由已知的收入分布函數(shù)表達(dá)式推導(dǎo)得出洛倫茲曲線的半?yún)?shù)表達(dá),并給出了基尼系數(shù)的估計(jì)方法。

      其次,將所給方法應(yīng)用于CHNS 2009年城鎮(zhèn)居民家庭年人均收入數(shù)據(jù)中,給出了收入分布函數(shù)和洛倫茲曲線的圖像,并通過計(jì)算得到了基尼系數(shù)的估計(jì)值為0.455 7。該結(jié)果表明,中國2009年城鎮(zhèn)居民家庭人均年收入差距較大,貧富分化較顯著。

      本文的優(yōu)點(diǎn)在于,不采用單一的分布函數(shù)估計(jì)收入分布函數(shù)和洛倫茲曲線,而是根據(jù)分布函數(shù)各自的特點(diǎn)確定其適用范圍,使估計(jì)的效果更準(zhǔn)確。本文的不足之處在于,收入分布函數(shù)的非參數(shù)部分利用的是經(jīng)驗(yàn)分布函數(shù),雖然直觀并且形式簡單,但不光滑,估計(jì)效果可能不夠理想。

      [1] 祁丹丹,王青.加入WTO以來我國農(nóng)民收入變動(dòng)趨勢分析及收入預(yù)測[J].西北農(nóng)林科技大學(xué)學(xué)報(bào);社會(huì)科學(xué)版,2011,11(2).

      [2] McDonald James B.Some Generalized Functions for the Size Distributionof Income[J].Econometrica,1984,52(3).

      [3] Singh S K,Maddala G S.A Function for Size Distribution of Incomes[J].Econometrica,1976,44(5).

      [4] 胡祖光.基尼系數(shù)與收入分布研究[M].杭州:浙江工商大學(xué)出版社,2010.

      [5] 黃恒君,劉黎明.一種收入分布函數(shù)序列的擬合方法及擴(kuò)展應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2011,26(12).

      [6] Cowell Frank A,Victoria-Feser Maria-Pia.Modelling Lorenz Curves:Robust and Semi-parametric Issues[C].New York:Springer Science+Business Media,2008.

      [7] Norman L,Kotz J S,Balakrishnan N.Continuous Univariate Distributions[M].2nd ed.New York:Wiley,1995.

      [8] CHNS 2009年數(shù)據(jù)[DB/OL].(2011-01-01)[2012-03-18].https://www.cpc.unc.edu/projects/china.

      The Semi Parametric Estimation of Lorenz Curves

      YU Han-jun
      (School of Mathematical Sciences,Peking University,Beijing 100871,China)

      Lorenz curves and Gini index are important in dealing with the gap of social income distribution.The allocation of social income is a very complicated process,and it is for decades the goal of statisticians and economists to estimate the Lorenz curves as accurate as possible.This paper is based on the thought of combining parametric approach with nonparametric approach to give the semi parametric approach of Lorenz curves and furthermore the estimation of Gini index.An example with true data is analyzed by the whole approach.

      income distribution;Lorenz curves;Gini index;Beta distribution;Pareto distribution;semi parametric estimation

      F224.0

      A

      1007-3116(2013)05-0019-06

      2012-11-16

      俞翰君,女,山東濟(jì)南人,博士生,研究方向:生物醫(yī)學(xué)統(tǒng)計(jì),可靠性分析。

      (責(zé)任編輯:崔國平)

      猜你喜歡
      洛倫茲參數(shù)估計(jì)基尼系數(shù)
      基于KF-LESO-PID洛倫茲慣性穩(wěn)定平臺控制
      高中物理解題中洛倫茲力的應(yīng)用
      基于新型DFrFT的LFM信號參數(shù)估計(jì)算法
      基尼系數(shù)
      新視角下理論基尼系數(shù)的推導(dǎo)及內(nèi)涵
      Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
      基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
      基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
      全國總體基尼系數(shù)的地區(qū)特征研究
      橫看成嶺側(cè)成峰,洛倫茲力不做功
      火花(2015年7期)2015-02-27 07:43:57
      阿坝| 同德县| 教育| 达拉特旗| 聊城市| 海阳市| 岑溪市| 镇坪县| 兴义市| 中卫市| 循化| 兴仁县| 阿合奇县| 广灵县| 镶黄旗| 清徐县| 阿拉善右旗| 宝应县| 榆树市| 响水县| 乌拉特中旗| 周口市| 齐河县| 启东市| 依兰县| 兴隆县| 舟曲县| 永城市| 上饶县| 锡林郭勒盟| 开阳县| 内乡县| 聂拉木县| 若羌县| 桂平市| 武川县| 綦江县| 伊金霍洛旗| 宝坻区| 桃园市| 昭觉县|