胡雪 劉旺俊 吳崇勝 張穎
關(guān)鍵詞:面板數(shù)據(jù);R語(yǔ)言;固定效應(yīng)模型;隨機(jī)效應(yīng)模型;時(shí)間序列;多水平模型
面板數(shù)據(jù)同時(shí)包含橫截面和時(shí)間序列兩個(gè)維度的數(shù)據(jù),能夠提供大量的數(shù)據(jù)信息,并能通過(guò)對(duì)不同個(gè)體、不同時(shí)間點(diǎn)的比較得出更有價(jià)值的成果。通過(guò)面板數(shù)據(jù)分析,可以得出某個(gè)國(guó)家、某個(gè)群體、某個(gè)企業(yè)等的動(dòng)態(tài)變化過(guò)程,推論變量之間的因果關(guān)系[1]。
1 面板數(shù)據(jù)的定義
面板數(shù)據(jù)(Panel data) ,包括橫斷面數(shù)據(jù)和時(shí)間序列兩個(gè)維度,最早是由Mundak(1961) 、Balestra和Ner?love(1966)引入計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域。面板數(shù)據(jù)包含每個(gè)個(gè)體或者單位的各個(gè)變量在時(shí)間序列不同時(shí)點(diǎn)上的測(cè)量結(jié)果,即將橫斷面和時(shí)間序列數(shù)據(jù)融合在一起的數(shù)據(jù)集。其中,橫斷面的單位面可以是個(gè)體、地區(qū)、國(guó)家等。如果在面板數(shù)據(jù)中,每個(gè)時(shí)期在樣本中的個(gè)體完全一樣,則稱(chēng)為“平衡面板數(shù)據(jù)”(balanced panel) ;反之,則稱(chēng)為“非平衡面板數(shù)據(jù)”(unbalanced panel) 。
2 面板數(shù)據(jù)的應(yīng)用情況
綜合近幾年文獻(xiàn),可以看到面板數(shù)據(jù)分析在實(shí)踐領(lǐng)域中應(yīng)用廣泛,涉及金融、經(jīng)濟(jì)增長(zhǎng)、產(chǎn)業(yè)結(jié)構(gòu)、技術(shù)創(chuàng)新等宏觀領(lǐng)域以及就業(yè)、家庭消費(fèi)、入學(xué)、企業(yè)管理、市場(chǎng)營(yíng)銷(xiāo)等微觀領(lǐng)域。如利用面板數(shù)據(jù)研究新冠疫情對(duì)航運(yùn)貿(mào)易的影響[2]、退休對(duì)幸福感和孤獨(dú)感的影響[3]等。
在我國(guó)COVID-19疫情時(shí)空演變特征研究[4]中,通過(guò)選取疫情暴發(fā)當(dāng)年的314個(gè)城市329天(2020年1月24日至12月18日)面板數(shù)據(jù),采用多種分析方法分析了COVID-19疫情的時(shí)空變化特征,其中動(dòng)態(tài)面板空間杜賓模型(Spatial Dubin Model, SDM) 估計(jì)結(jié)果顯示314個(gè)城市現(xiàn)存確診數(shù)具有顯著的時(shí)空自相關(guān)性(P=0.017) 且不同階段有明顯差異??臻g自相關(guān)表現(xiàn)為鄰近地區(qū)的疫情對(duì)本地形成加劇效應(yīng),時(shí)間自相關(guān)性則在不同時(shí)期表現(xiàn)出不同的效應(yīng)(全樣本和前期樣本的空間滯后項(xiàng)的估計(jì)系數(shù)分別為210.64和-48.14) 。
在利用面板數(shù)據(jù)研究手足口病與氣溫關(guān)系應(yīng)用[1]中,該研究選取了中國(guó)有地域代表性的7個(gè)城市2010 年1~12月的手足口病發(fā)病報(bào)告數(shù)據(jù)和氣溫?cái)?shù)據(jù),研究顯示氣溫對(duì)手足口病報(bào)告發(fā)病率的影響有統(tǒng)計(jì)學(xué)意義(t=10.43, P<0.01) ,同時(shí)采用面板數(shù)據(jù)模型(panel data model) 優(yōu)于最小二乘回歸模型(least squaremodel) 。在流行病學(xué)研究中,對(duì)于多個(gè)地區(qū)連續(xù)監(jiān)測(cè)的傳染病數(shù)據(jù),當(dāng)?shù)貐^(qū)之間存在較大差異時(shí),用面板數(shù)據(jù)模型更為合理。
在應(yīng)用面板數(shù)據(jù)模型研究人群血糖與血尿酸水平關(guān)系的研究[5]中。該研究顯示血糖與血尿酸的關(guān)系為互為因果。血糖對(duì)血尿酸影響的面板數(shù)據(jù)模型結(jié)果顯示,隨著空腹血糖水平的升高,血尿酸水平先升高后降低,拐點(diǎn)值為5.07mmol/L。因此糖尿病患者早期除了藥物治療外,還應(yīng)該加強(qiáng)身體鍛煉、情緒的管理、平衡飲食等,預(yù)防高尿酸血癥的發(fā)生;血尿酸對(duì)血糖影響的面板數(shù)據(jù)模型結(jié)果顯示,空腹血糖水平隨血尿酸水平的先下降后上升,拐點(diǎn)值為632.04μmol/L,血尿酸累積到更高水平時(shí)(超過(guò)拐點(diǎn)值)才會(huì)增大糖尿病的患病風(fēng)險(xiǎn),因此在日常生活中,高尿酸血癥患者除了控制血尿酸外,還應(yīng)該注意其他因素的控制,養(yǎng)成良好的生活習(xí)慣,以降低糖尿病的發(fā)病風(fēng)險(xiǎn)。面板數(shù)據(jù)模型使人們更深入地理解血糖與血尿酸之間的相互作用規(guī)律,為更好地開(kāi)展2型糖尿病和高尿酸血癥的預(yù)防控制工作提供科學(xué)依據(jù),同時(shí)新的統(tǒng)計(jì)學(xué)方法也為其他疾病指標(biāo)之間相互關(guān)系的研究提供借鑒。
盡管面板數(shù)據(jù)有許多優(yōu)點(diǎn),但由于面板數(shù)據(jù)包含二維的數(shù)據(jù)結(jié)構(gòu),在利用它建模時(shí)對(duì)模型的設(shè)定及參數(shù)的估計(jì)比較復(fù)雜,建模不當(dāng)將會(huì)造成較大的偏差,估計(jì)結(jié)果與實(shí)際將相差甚遠(yuǎn),從而對(duì)人們的判斷產(chǎn)生嚴(yán)重誤導(dǎo),導(dǎo)致有些研究者不知如何應(yīng)用,選擇合適的分析工具很有必要。R語(yǔ)言作為一個(gè)開(kāi)源的數(shù)據(jù)分析環(huán)境,在數(shù)據(jù)操作、數(shù)據(jù)可視化等技術(shù)領(lǐng)域?yàn)閺V大用戶提供了便捷,本研究將以R語(yǔ)言為基礎(chǔ),對(duì)目前現(xiàn)有關(guān)于面板數(shù)據(jù)的應(yīng)用R包的基本信息和主要功能進(jìn)行整體介紹,為面板數(shù)據(jù)的研究分析提供便捷性和可操作性。
3 面板數(shù)據(jù)的常見(jiàn)模型和R 軟件包
第一種是混合估計(jì)模型:混合估計(jì)模型在橫截面上既沒(méi)有個(gè)體間的影響,也沒(méi)有結(jié)構(gòu)的變化?;旌瞎烙?jì)模型與普通的線性回歸模型沒(méi)有本質(zhì)上的區(qū)別[6]。
第二種是固定效應(yīng)模型:一般分為三種類(lèi)別,包括只含有個(gè)體固定效應(yīng)的模型稱(chēng)為個(gè)體固定效應(yīng)模型;只含有時(shí)間效應(yīng)的為時(shí)間固定效應(yīng)模型;既包括個(gè)體效應(yīng)也包括時(shí)間效應(yīng)的為雙向固定效應(yīng)模型[7]。
第三種是隨機(jī)效應(yīng)模型:個(gè)體效應(yīng)和時(shí)間效應(yīng)與所有的解釋變量均不相關(guān),也就是說(shuō),異質(zhì)性截距反映在隨機(jī)的擾動(dòng)項(xiàng)里。
隨機(jī)效應(yīng)模型與固定效應(yīng)模型的區(qū)別在于對(duì)個(gè)體差別的定義,固定效應(yīng)模型刻畫(huà)了不同個(gè)體的特殊影響,個(gè)體間的差別反映在每個(gè)個(gè)體都有各自截距項(xiàng);而隨機(jī)效應(yīng)模型則假設(shè)個(gè)體間的差別是隨機(jī)的。
4 面板數(shù)據(jù)的R 語(yǔ)言程序包
通過(guò)在R語(yǔ)言CRAN官網(wǎng)檢索和查詢文獻(xiàn)及書(shū)籍,一共檢索到12個(gè)常用R包用于面板數(shù)據(jù)分析,以下匯總了各個(gè)R包的基本信息(作者、版本日期、更新情況)及主要函數(shù)、應(yīng)用情況。
5 應(yīng)用實(shí)例分析
5.1 個(gè)體固定效應(yīng)的面板數(shù)據(jù)分析
利用1970—1986年期間美國(guó)48個(gè)州截面數(shù)據(jù)的時(shí)間序列,研究不同類(lèi)型的公共基礎(chǔ)設(shè)施對(duì)全州生產(chǎn)量的貢獻(xiàn)。主要變量包括:gsp(全州生產(chǎn)量)、pcap(公共資本)、unemp(失業(yè)率)、pc(私有資本)、emp(非農(nóng)業(yè)的勞動(dòng)投入)、state(州)和year(年份)。
從以上結(jié)果可知,模型對(duì)因變量的解釋率很高(RSquared=0.94),且P 值(<2.22e-16) <0.05,在0.05 水平上回歸模型有顯著意義。
從回歸分析的各個(gè)自變量的參數(shù)估計(jì)表格可看到,PC(私人資本)、emp(非農(nóng)業(yè)的勞動(dòng)投入)、unemp (失業(yè)率)的P 值<0.05,說(shuō)明這三個(gè)自變量對(duì)全州生產(chǎn)量有顯著影響,且PC(私有資本)、emp(非農(nóng)業(yè)的勞動(dòng)投入)對(duì)生產(chǎn)量是正向影響(估計(jì)值為正數(shù)),unemp (失業(yè)率)對(duì)生產(chǎn)量是負(fù)向影響(估計(jì)值為負(fù)數(shù))。
5.2 多水平模型
對(duì)同一個(gè)受試者多次調(diào)查幸福感,研究不同社區(qū)指標(biāo)對(duì)幸福感的影響。主要變量包括:Score(幸福感)、id(不同社區(qū))、Zbuild(標(biāo)準(zhǔn)化后社區(qū)建筑密度)、Zroad(標(biāo)準(zhǔn)化后社區(qū)路網(wǎng)密度)、Zgreenpro(標(biāo)準(zhǔn)化后社區(qū)綠地占比)、Zincome(受試者收入)、Sex(性別:男、女)和Age(年齡)、Job(工作:退休、無(wú)業(yè)、在業(yè))、Mar(婚姻:離異/喪偶、未婚、已婚)、Edu(學(xué)歷:初小、高中、大學(xué))。
從標(biāo)準(zhǔn)化回歸系數(shù)來(lái)看,有統(tǒng)計(jì)學(xué)意義的有綠地密度,學(xué)歷和年齡。綠地密度的β 為正,說(shuō)明綠地密度正向影響幸福感。學(xué)歷為因子變量,以初小為基準(zhǔn),大學(xué)比初小幸福感高0.113,而高中對(duì)比初小則沒(méi)有統(tǒng)計(jì)學(xué)意義。年齡最高,幸福感反而降低。
6 討論
本文基于面板數(shù)據(jù),在CRAN和相關(guān)書(shū)籍中檢索總結(jié)了12個(gè)常用的R包,包含各個(gè)R包的基本模型、主要函數(shù)和適用情形,并用R語(yǔ)言舉例了兩種情形及結(jié)果展示,期望為用R語(yǔ)言進(jìn)行面板數(shù)據(jù)分析的工作者提供參考。
正文列舉的12個(gè)R包包含各種模型,那么如何根據(jù)研究的樣本數(shù)據(jù)情形選取合適的R包?
面板數(shù)據(jù)樣本結(jié)構(gòu)和分析模型復(fù)雜,針對(duì)特定的數(shù)據(jù)結(jié)構(gòu)和特點(diǎn),選用合適的工具,不僅能節(jié)省時(shí)間,而且還可以形成特色的分析。而R語(yǔ)言作為完全開(kāi)源的軟件,其豐富的算法工具包和函數(shù),幾乎能滿足各類(lèi)型面板數(shù)據(jù)分析的需要。相比于其他大多數(shù)的分析軟件,R語(yǔ)言具有以下的優(yōu)勢(shì):
1) R語(yǔ)言中包含很多軟件包,都是免費(fèi)發(fā)行的,其中的源代碼對(duì)用戶都可見(jiàn),用戶可根據(jù)自己的需求,自由下載參考并使用。
2) R語(yǔ)言兼容性強(qiáng),可在多種平臺(tái)下運(yùn)行,包括UNIX、Windows等。
3) R語(yǔ)言的擴(kuò)展包功能強(qiáng)大、涉及領(lǐng)域廣,且更新速度快。
4) 在R擴(kuò)展包中,有詳細(xì)的介紹/使用文檔及R代碼文件夾,可方便查看幫助文檔和代碼。
5) R語(yǔ)言有強(qiáng)大的繪圖功能,在可視化分析中擁有多種多樣的展現(xiàn)形式和豐富的交互方式。
6) R語(yǔ)言語(yǔ)法結(jié)構(gòu)簡(jiǎn)單,能較快地學(xué)習(xí)和使用。
綜合以上優(yōu)勢(shì),相信R語(yǔ)言在面板數(shù)據(jù)分析領(lǐng)域的發(fā)展將會(huì)越來(lái)越強(qiáng)大。