□岳 青 胡榮金 馮繼妙
《中共中央國務(wù)院關(guān)于支持浙江高質(zhì)量發(fā)展建設(shè)共同富裕示范區(qū)的意見》 要求 “實施擴大中等收入群體行動計劃”。《浙江高質(zhì)量發(fā)展建設(shè)共同富裕示范區(qū)實施方案》將 “率先基本形成以中等收入群體為主體的橄欖型社會結(jié)構(gòu),努力成為地區(qū)、城鄉(xiāng)和收入差距持續(xù)縮小的省域范例” 作為推動共同富裕的目標(biāo)之一。從中央到地方黨委政府都很重視中等收入群體規(guī)模,將“擴中提低” 作為縮小居民收入差距,推動實現(xiàn)共同富裕的一項戰(zhàn)略任務(wù)來抓。
中等收入群體是經(jīng)濟社會發(fā)展的 “壓艙石” “穩(wěn)定器”。推動更多低收入群體邁入中等收入群體行列,擴大中等收入群體規(guī)模,首先需要確定中等收入群體的規(guī)模有多大,哪些人屬于中等收入群體,哪些人屬于 “邊緣群體”。即將跨入或跌出中等收入群體行列。這實際上就是中等收入群體規(guī)模測算及識別研究的問題。明確中等收入群體的規(guī)模大小和識別方法,有利于黨委政府正確認識居民群體收入分布情況,精確瞄準中低收入群體,科學(xué)制定擴中提低政策,推動實現(xiàn)共同富裕。
本文基于臺州市住戶調(diào)查數(shù)據(jù)開展中等收入群體的規(guī)模測算及識別研究,分析臺州市居民群體收入分布特征,科學(xué)認識臺州市中等收入群體規(guī)模,精準識別中低收入“邊緣群體”,以期為黨委政府精準施策提供決策參考。
隨著共同富裕的不斷推進,中等收入群體已是一個被廣泛提及的概念,但是對于中等收入群體的定義仍然較為模糊,還沒有一個較為權(quán)威的界定標(biāo)準。
根據(jù) 《浙江高質(zhì)量發(fā)展建設(shè)共同富裕示范區(qū)實施方案》,浙江省推動實現(xiàn)共同富裕的目標(biāo)之一是率先基本形成以中等收入群體為主體的橄欖型社會結(jié)構(gòu)。橄欖型社會結(jié)構(gòu)具體而言,就是到2025 年,家庭年可支配收入(以3 口之家來核算)10 萬元—50 萬元的群體比例要達到80%、20 萬元—60 萬元的群體比例要達到45%。
為了給黨委政府推動共同富裕提供決策參考,本文結(jié)合浙江實際,將中等收入群體的界定標(biāo)準確定如下:以三口之家為準,家庭年可支配收入達到20 萬元—60 萬元的群體即為中等收入群體,換句話說,人均年可支配收入達到6.67 萬元—20 萬元的群體即為中等收入群體。
該部分基于臺州市住戶調(diào)查數(shù)據(jù),通過核密度估計的方式擬合臺州市居民收入分布曲線,測算臺州市中等收入群體規(guī)模。
假設(shè)獨立同分布F 的n 個樣本點為x1,x2,…,xn,其概率密度函數(shù)為f,則核密度估計為以下形式:
其中,k()為核函數(shù),已有研究表明核函數(shù)的選擇對最終估計結(jié)果的影響并不顯著。本文選擇Gaussian 核作為核函數(shù),其表達式如下:
h 為一個平滑參數(shù),稱作窗寬,最優(yōu)窗寬的估計公式如下:
我們綜合城鎮(zhèn)化率、人均生產(chǎn)總值、全體居民人均可支配收入以及城鄉(xiāng)常住居民人均可支配收入排名情況,將臺州市9 個縣(市、區(qū))劃分為三組:椒江區(qū)、路橋區(qū)、玉環(huán)市為高人均組,黃巖區(qū)、臨海市、溫嶺市為中人均組,天臺縣、仙居縣、三門縣為低人均組。根據(jù)上述核密度估計方法,選取Gaussian 核作為核函數(shù),擬合出臺州市及分區(qū)域居民人均年可支配收入的分布情況,如圖1 所示。
圖1 臺州市人均年可支配收入核密度估計圖
根據(jù)圖1,從臺州市整體看,居民人均年可支配收入為單峰平滑分布,以6.67 萬元為分界,低收入群體的比例顯著高于中高收入群體。分區(qū)域看,高人均組的可支配收入分布更加矮平,低、中、高收入群體分布更加均勻;低人均組的可支配收入分布主要集中在低收入,中高收入群體分布較少;中人均組分布則介于兩者之間,與全市收入分布曲線高度重合。
另外,我們根據(jù)核密度估計方法測算了臺州市及分區(qū)域的中等收入群體規(guī)模,如表1 所示。從臺州市整體看,臺州市低收入群體比重為72.3%,中等收入群體比重為26.4%,低收入群體比重過大,“擴中提低” 任重道遠。分區(qū)域看,高人均組中等收入群體比重高達36.4%,離浙江省2025 年中等收入群體達45%的目標(biāo)還差8.6 個百分點。低人均組中等收入群體比重僅為19.8%,是臺州市 “擴中提低”的重點攻堅區(qū)域。中人均組的群體收入分布與臺州市整體分布非常接近。
表1 臺州市各收入群體比重(單位:%)
中等收入群體的比重從宏觀上顯示了居民收入分布情況。然而,具體到 “擴中提低” 政策制定,需要知道哪些家庭屬于中等收入水平,哪些家庭屬于低收入水平,哪些家庭達到中等收入水平但是還不穩(wěn)固,哪些家庭屬于低收入群體但是幫一幫、扶一扶就能達到中等收入水平,這就是中等收入群體識別問題。由于法律法規(guī)限制,家庭收入信息不可獲得,只能通過其他指標(biāo)特征開展識別研究。
中等收入群體識別特征的選取應(yīng)當(dāng)遵循以下兩個原則:一是相關(guān)性原則,選取的識別特征應(yīng)當(dāng)與家庭可支配收入存在相關(guān)性,能夠間接反映或影響家庭收入;二是可推廣原則,選取的識別特征應(yīng)當(dāng)在相關(guān)部門具有行政記錄信息,具有全省推廣性。
根據(jù)以上兩個選取原則,選取了以下五個方面的特征:(1)家庭資產(chǎn)信息:是否有房、建筑面積、家用汽車數(shù)量、家用汽車總價值區(qū)間;(2)家庭規(guī)模結(jié)構(gòu)信息:家庭常住人數(shù)、老年人數(shù)占比、大專及以上文化程度人數(shù)和占比、戶主文化程度;(3)家庭戶籍信息:地區(qū)、城鎮(zhèn)/農(nóng)村;(4)家庭就業(yè)信息:就業(yè)率、雇主占比、體制內(nèi)雇員占比、其他雇員占比、個體自營占比;(5)家庭支出信息:租賃房房租、是否繳納養(yǎng)老保險。
1.隨機森林分類模型。所謂隨機森林分類模型就是由很多決策樹分類模型集合而成的組合分類模型{h1(x),h2(x),…,hk(x)},對于給定的自變量x,每個決策樹分類模型均會產(chǎn)生一個分類結(jié)果,隨機森林分類模型結(jié)果根據(jù)多數(shù)投票決定。大量理論和實證研究表明隨機森林不易出現(xiàn)過擬合,非常適于先驗知識不清的應(yīng)用問題。
2.隨機森林分類模型結(jié)果分析。將住戶調(diào)查數(shù)據(jù)按家庭人均年可支配收入進行分類:家庭人均年可支配收入低于66667 元的家庭為低收入群體,家庭人均年可支配收入介于66667—200000 元的家庭為中等收入群體,高于200000 元的家庭為高收入群體?;谏鲜鲭S機森林分類模型,以70%的原始數(shù)據(jù)作為訓(xùn)練集,30%的原始數(shù)據(jù)作為測試集,決策樹數(shù)量為1000。隨機森林分類模型評估結(jié)果如表2 所示。
根據(jù)表2,隨機森林分類模型對于家庭類別的預(yù)測準確率達到79.5%。這意味著給定100 個家庭,隨機森林分類模型能夠準確判斷80個家庭的收入類別。所以,隨機森林分類模型為判斷家庭收入類別提供了一個較為可行的方法。
表2 隨機森林分類模型評估結(jié)果(單位:%)
(三)家庭可支配收入評估——基于隨機森林回歸模型
1.隨機森林回歸模型。隨機森林分類模型用于離散變量的類別預(yù)測問題,而隨機森林回歸模型則主要應(yīng)用于連續(xù)型變量的回歸問題。與隨機森林分類模型類似,隨機森林回歸模型通過構(gòu)造出n 棵家庭可支配收入決策樹,取n 棵決策樹輸出值的均值作為家庭可支配收入的評估結(jié)果。
2.隨機森林回歸模型結(jié)果分析。該部分比較兩種建模方法對家庭年可支配收入進行評估的優(yōu)劣,第一種方法以住戶調(diào)查數(shù)據(jù)總體樣本建立隨機森林回歸模型,第二種方法將住戶調(diào)查數(shù)據(jù)按收入類別劃分為低收入、中等收入和高收入三個樣本,分別建立低收入群體和中等收入群體的收入評估模型,高收入群體由于樣本過少且不是 “擴中提低” 重點群體,暫不作考慮。
將樣本數(shù)據(jù)中的70%作為訓(xùn)練集,30%作為測試集,以上文選取的中等收入群體識別特征作為輸入特征,決策樹數(shù)量為1000,得到兩種方法的隨機森林回歸模型評估結(jié)果(如表3)。
表3 隨機森林回歸模型評估結(jié)果
MAE 為預(yù)測值與實際值絕對誤差的平均值,R2為擬合優(yōu)度,平均值為相應(yīng)樣本中所有家庭的可支配收入平均值,百分比為MAE 與平均值的比值。根據(jù)表3,以總體樣本建模不僅擬合優(yōu)度R2較低,僅為0.3,而且平均誤差MAE 也較大,為65824.8 元,達到總體樣本平均值的37.89%;分群體建模則大大提高了收入評估模型的擬合優(yōu)度和準確性,中等收入和低收入群體收入評估模型的擬合優(yōu)度R2分別提高到0.64 和0.62,平均誤差MAE 分 別 為57700.1 和32762.2,分別為樣本平均值的20.46%和26.58%,相對于總體樣本的37.89%大為降低。
為了直觀比較兩種建模方法對收入評估的準確性和擬合度,我們從測試集中隨機選擇了50 個家庭的預(yù)測值與實際值繪制了圖2。根據(jù)圖2,兩種方法建立的模型均有較高擬合度,但與總體模型相比,分群體建立模型擬合程度更高,評估更加精準。
圖2 兩種建模方法的擬合結(jié)果比較
綜合隨機森林分類和回歸模型的分析結(jié)果,可以得到中等收入群體識別方法:歸集家庭18 個識別特征數(shù)據(jù)以后,先使用隨機森林分類模型判斷出家庭的收入類別屬于低收入群體、中等收入群體還是高收入群體,若判斷出該家庭屬于低收入或中等收入群體,則使用相應(yīng)群體的回歸模型進一步評估年可支配收入;若判斷出該家庭屬于高收入群體,則使用總體樣本回歸模型進一步評估年可支配收入。
臺州市中等收入群體比重為26.4%,其中椒江、路橋、玉環(huán)中等收入群體比重為36.4%,黃巖、臨海、溫嶺比重為26.1%,天臺、仙居、三門三縣比重為19.8%。為達成臺州市2025 年中等收入群體比重45%的目標(biāo),黨委政府應(yīng)高度重視補齊天臺、仙居、三門三縣短板,以最大的政策力度、最多的資源投入深入推進三縣 “擴中提低”工作,促進三縣低收入群體增收致富,擴大三縣中等收入群體規(guī)模。
輸入家庭的18 個識別特征,隨機森林分類模型能夠以79.5%的準確率輸出該家庭屬于高收入、中等收入還是低收入群體,隨機森林回歸模型則能夠較為準確地輸出該家庭的可支配收入。地方黨委政府應(yīng)打通各行政部門壁壘,集成轄區(qū)家庭的識別特征行政記錄數(shù)據(jù),以隨機森林分類模型和回歸模型識別家庭類別、評估家庭收入,并建立轄區(qū)家庭 “全面覆蓋+精準畫像”共同富?;A(chǔ)數(shù)據(jù)庫,動態(tài)監(jiān)測家庭收入情況和轄區(qū)中等收入群體比重變化,精準識別 “邊緣群體”,為黨委政府制定 “擴中提低” 政策、推動實現(xiàn)共同富裕提供決策參考。