麥繼芳,劉 惠,趙海清
(嶺南師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東 湛江 524048)
人口是反映一個(gè)國家或地區(qū)的國情、國力、社會(huì)狀況等基本情況的一個(gè)重要指標(biāo),合理準(zhǔn)確的對人口進(jìn)行預(yù)測,把握人口結(jié)構(gòu)信息,對研究未來經(jīng)濟(jì)發(fā)展規(guī)劃、人口發(fā)展規(guī)劃、推進(jìn)城市化進(jìn)程,維持可持續(xù)發(fā)展至關(guān)重要[1].人口問題是制約我國經(jīng)濟(jì)發(fā)展的關(guān)鍵因素.為更好地推動(dòng)我國經(jīng)濟(jì)發(fā)展,促進(jìn)我國經(jīng)濟(jì)結(jié)構(gòu)調(diào)整,需及時(shí)掌握人口數(shù)量規(guī)模和人口結(jié)構(gòu)等信息,才能更好地統(tǒng)籌人口、社會(huì)、環(huán)境、資源和經(jīng)濟(jì)的協(xié)同發(fā)展.人口普查是了解人口信息的一種方式,人口普查每10 年進(jìn)行一次,尾數(shù)逢0 的年份為普查年度[2]. 隨著經(jīng)濟(jì)、醫(yī)療、科學(xué)技術(shù)等快速發(fā)展,人口數(shù)量信息變化較大,10 年一次人口普查的數(shù)據(jù)在后期逐漸失去參考價(jià)值,而人口普查需要消耗大量的人力物力等資源,縮短普查年限顯得不切實(shí)際.顯然,及時(shí)了解人口數(shù)量情況,掌握人口數(shù)量信息,對制定科學(xué)有效的經(jīng)濟(jì)決策具有重要意義.因此,若利用現(xiàn)有的行政記錄信息等所獲取的數(shù)據(jù)就能預(yù)測人口數(shù)量規(guī)模,這將為社會(huì)經(jīng)濟(jì)發(fā)展帶來極大的推力.
人口數(shù)量受很多復(fù)雜因素的影響.郝斌巧等指出,人口數(shù)量變化受育齡婦女人數(shù)、人口政策、醫(yī)療水平等因素的影響[1].坎南等學(xué)者提出,經(jīng)濟(jì)發(fā)展、勞動(dòng)力與人口數(shù)量之間存在一個(gè)均衡點(diǎn)[3].這說明了人口數(shù)量與經(jīng)濟(jì)、勞動(dòng)力、醫(yī)療水平、政策等因素之間存在一定的關(guān)系.參考已有的研究成果和結(jié)合實(shí)際情況,本文挑選就業(yè)人數(shù)、醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)等因素,結(jié)合使用LASSO 變量選擇方法挑選變量,并使用部分線性可加模型構(gòu)建人口數(shù)量模型.
本文數(shù)據(jù)來源于國家統(tǒng)計(jì)局網(wǎng)站,選取2002 年至2017 廣東、山東、浙江、湖南、四川5 個(gè)省的數(shù)據(jù).由于“就業(yè)人數(shù)”屬于勞動(dòng)力指標(biāo);“地區(qū)生產(chǎn)總值指數(shù)”“居民教育類消費(fèi)價(jià)格指數(shù)”“住宅商品房平均銷售價(jià)格”和“其他商品房平均銷售價(jià)格”屬于經(jīng)濟(jì)指標(biāo);“醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)”體現(xiàn)了社會(huì)醫(yī)療的完善程度,因此,依據(jù)參考文獻(xiàn)[1]和[3]所提出的觀點(diǎn):勞動(dòng)力、醫(yī)療水平、經(jīng)濟(jì)發(fā)展與人口數(shù)量存在一定關(guān)系.本文初步挑選“地區(qū)生產(chǎn)總值指數(shù)”“住宅商品房平均銷售價(jià)格”“其他商品房平均銷售價(jià)格”“普通高中畢業(yè)生數(shù)”“就業(yè)人數(shù)”“居民教育類消費(fèi)價(jià)格指數(shù)”“醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)”作為人口數(shù)量的影響因素.根據(jù)現(xiàn)實(shí)意義可知,人口結(jié)構(gòu)比重也是影響人口數(shù)量的重要因素,因此,本文也將“少年兒童撫養(yǎng)比”和“老年人口撫養(yǎng)比”考慮為人口數(shù)量的影響因素.
選取5 個(gè)省的人口數(shù)量為因變量,自變量總共9 個(gè),分別為:地區(qū)生產(chǎn)總值指數(shù)(x1)、住宅商品房平均銷售價(jià)格(x2)、其他商品房平均銷售價(jià)格(x3)、普通高中畢業(yè)生數(shù)(x4)、就業(yè)人口數(shù)量(x5)、居民教育類消費(fèi)價(jià)格指數(shù)(x6)、醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)(x7)、少年兒童撫養(yǎng)比(x8)、老年人口撫養(yǎng)比(x9).針對缺失數(shù)據(jù),本文使用核估計(jì)求取均值來替代缺失值,對人口數(shù)量取對數(shù)變換處理,即y=loge(人口數(shù)量),其目的是減少量綱的影響.
1996 年Robert Tibshirani 提出了一種新型的變量選擇方法[4],即Least Absolute Shrinkage and Selection Operator(LASSO).與其他變量選擇方法比較,LASSO 方法能夠較準(zhǔn)確地選擇出重要變量,同時(shí)還具備變量選擇的穩(wěn)定性.LASSO 方法能夠同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì),此外,還可以適度壓縮參數(shù)[5].
設(shè)yi和xi=(xi1,…,xip)分別是被解釋變量和解釋變量的觀測值,同時(shí)假設(shè)yi與xij相互獨(dú)立,且xij已被標(biāo)準(zhǔn)化.則定義LASSO 方法的估計(jì)量為:
其中,式子(2)中的前半部分表示模型的擬合度,后半部分表示參數(shù)的懲罰限制項(xiàng).調(diào)和系數(shù)γ ≥ 0,當(dāng)γ越小,表示該系數(shù)對模型的懲罰限制力度越小,被壓縮為零的變量系數(shù)數(shù)目越少;相反地,當(dāng)γ 越大,表示該系數(shù)對模型的懲罰限制力度越大,被保留下來的變量數(shù)目就越少.
這里,嘗試使用LASSO 變量選擇和逐步回歸的方法挑選變量,使用LASSO 變量選擇得到變量選擇結(jié)果見圖1.由圖1 可依次挑選出自變量x5,x4,x1,x7,x8.使用逐步歸回分析方法可剔除掉變量x2,x4,x8,x9,剩余變量x1,x3,x5,x6,x7.
圖1 LASSO 變量選擇
設(shè)隨機(jī)變量y 與x1,x2,…,xp一般變量線性回歸模型為:
模型中y 為被解釋變量,而x1,x2,…,xp是p 個(gè)解釋變量.被解釋變量y 由兩部分決定:一部分是誤差項(xiàng)隨機(jī)變量ε,另一部分是p 個(gè)自變量的線性函數(shù)β0+β1x1+β2x2+…+βpxp.其中,β0稱為回歸常數(shù),β1,β2,…,βp稱為偏回歸系數(shù),ε 是隨機(jī)誤差,隨機(jī)誤差項(xiàng)滿足ε~N(0,1).
分別對LASSO 方法挑選出的自變量和逐步回歸方法所選的自變量與因變量建立簡單線性回歸模型,分別稱為模型一和模型二,得到擬合結(jié)果如表1 所示.由表1 可知,模型一和模型二的調(diào)整R2都較小,整體模型的F 值都較小,P 值較大,顯然,兩個(gè)模型都沒有通過顯著性檢驗(yàn).
表1 簡單線性回歸模型結(jié)果
Hastie T 和Tibshirani R 提出廣義可加模型[6].廣義可加模型綜合了可加模型和線性模型的特點(diǎn),不要求因變量與自變量滿足線性關(guān)系,適用于非線性關(guān)系方面的研究.部分線性可加模型實(shí)際上是廣義可加模型和線性模型的結(jié)合,屬于半?yún)?shù)模型,該模型是由Engel 等人提出來的[12].其表達(dá)形式為:
其中,X(t),Y ∈(Ω,B,P),Y 為該概率空間上的隨機(jī)變量,E[X(t)]=0,且有α(t)平方可積斜率函數(shù)(α(t)∈τ),Z=(z1,…,zq)為q 維隨機(jī)向量,為非參數(shù)可加函數(shù)[7]. ε 為隨機(jī)誤差,滿足E(ε|X,Z)=0.
常見的非參數(shù)函數(shù)估計(jì)方法有樣條估計(jì)和局部多項(xiàng)式估計(jì)等非參數(shù)估計(jì)方法.樣條估計(jì)方法是對目標(biāo)函數(shù)進(jìn)行全局逼近,能達(dá)到很好的效果[8].具體地,定義X(t)的協(xié)方差函數(shù)及其經(jīng)驗(yàn)協(xié)方差函數(shù)分別為:
由Mecer 定理,C(t,s)和(t,s)具有譜分解形式,即:
其中γ1>γ2>…>0 和γ^1≥γ^2≥…≥γ^n+1=0 分別為C(t,s)和(t,s)的特征值.{vk}和{v^k}分別為對應(yīng)的標(biāo)準(zhǔn)正交基.根據(jù)Karhunen-Loéve 定理可知:
其 中Uk=∫01X(t)vk(t)dt,Wk=∫01α(t)vl(t)dt,且 滿 足E(Uk)=0,Var(Uk)=γk. 又 因 為{vk} 正 交,故其中m=m(n)是截?cái)鄥?shù).
分別對LASSO 方法挑選出的自變量和逐步回歸方法所選的自變量與因變量建立部分線性可加模型,分別稱為模型三和模型四.使用統(tǒng)計(jì)軟件R 語言實(shí)現(xiàn)計(jì)算,所得結(jié)果分別如表2 和表3 所示.從調(diào)整R2來看,R12=0.928>R22=0.708,模型三的擬合效果相較模型四更佳;從模型的解釋能力來看,91.9%>72.9%,顯然,模型三的解釋能力更好;故選擇模型三為本文最優(yōu)模型.在顯著性水平為0.05 時(shí),模型三的線性部分僅有變量普通高中畢業(yè)生數(shù)(x4)顯著;非參數(shù)部分顯著的變量是:就業(yè)人數(shù)(x5)、醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)(x7).因此,最終可得人口數(shù)最優(yōu)化模型為:
表2 線性部分模型回歸結(jié)果
表3 非線性部分模型的回歸結(jié)果
圖2 為模型三的置信帶圖形.由圖2 可知,非參數(shù)部分中就業(yè)人數(shù)(x5)呈先加速上升后減速上升的趨勢,醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)(x7)總體上呈現(xiàn)先緩慢增長后逐漸持平的趨勢;此外,這兩個(gè)變量的置信帶相對較窄,說明樣本點(diǎn)基本分布在擬合曲線附近,故也反映出模型擬合結(jié)果較理想.
圖2 非參數(shù)部分相應(yīng)函數(shù)的擬合及其置信帶
為驗(yàn)證模型的準(zhǔn)確性,利用該模型擬合出2018 年的人口數(shù)量,并將2018 年人口數(shù)量擬合值設(shè)為自變量,2018 年的人口數(shù)量真實(shí)數(shù)據(jù)設(shè)為因變量,使用線性回歸模型進(jìn)行擬合分析,結(jié)果如表4 所示.由表4 可知,該線性回歸模型的調(diào)整R2=0.992;F= 515.61;P=1.871×10-4,表明該模型擬合效果很好,2018 年的真實(shí)人口數(shù)量與2018 年擬合人口數(shù)量幾乎是呈線性關(guān)系,且真實(shí)人口數(shù)量基本可由擬合人口數(shù)量表達(dá).
表4 擬合值與真實(shí)值線性回歸結(jié)果
由部分線性可加模型分析結(jié)果可知,人口數(shù)量主要受普通高中畢業(yè)生數(shù)、就業(yè)人數(shù)和醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)幾個(gè)因素的影響.普通高中畢業(yè)生數(shù)與人口數(shù)量呈線性正相關(guān)關(guān)系;就業(yè)人數(shù)和醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)與人口數(shù)量呈非線性非參數(shù)關(guān)系,就業(yè)人數(shù)呈先加速上升后減速上升的情形,醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)總體上呈現(xiàn)下降的趨勢.實(shí)際上,一開始,隨著人口的增長,普通高中生人數(shù)也隨之不斷增加;而就業(yè)人數(shù)一開始隨著人口數(shù)量增長急加速增長,到后面隨著大城市勞動(dòng)力需求量的逐漸飽和,就業(yè)人員增長速度也逐漸減慢;醫(yī)療機(jī)構(gòu)數(shù)總體上隨著人口增長,數(shù)量有所上升,但上升的速度緩慢,直至后面逐漸飽和.顯然,本文的研究結(jié)果與實(shí)際情況基本吻合,這證明了部分線性可加模型適用于擬合人口數(shù)量模型.本研究結(jié)論為相關(guān)管理部門快速估算出人口數(shù)量提供一種簡易方法,有利于及時(shí)做好相關(guān)政策調(diào)整、更好調(diào)控人口數(shù)量、推動(dòng)人口均衡和可持續(xù)發(fā)展.