張 波,方國(guó)斌,2
【統(tǒng)計(jì)理論與方法】
高維面板數(shù)據(jù)降維與變量選擇方法研究
張 波1,方國(guó)斌1,2
(1.中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院,北京100872;2.安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽蚌埠233030)
從介紹高維面板數(shù)據(jù)的一般特征入手,在總結(jié)高維面板數(shù)據(jù)在實(shí)際應(yīng)用中所表現(xiàn)出的各種不同類型及其研究理論與方法的同時(shí),主要介紹高維面板數(shù)據(jù)因子模型和混合效應(yīng)模型;對(duì)混合效應(yīng)模型隨機(jī)效應(yīng)和邊際效應(yīng)中的高維協(xié)方差矩陣以及經(jīng)濟(jì)數(shù)據(jù)中出現(xiàn)的多指標(biāo)大維數(shù)據(jù)的研究進(jìn)展進(jìn)行述評(píng);針對(duì)高維面板數(shù)據(jù)未來(lái)的發(fā)展方向、理論與應(yīng)用中尚待解決的一些關(guān)鍵問(wèn)題進(jìn)行分析與展望。
高維;面板數(shù)據(jù);降維;變量選擇
在社會(huì)現(xiàn)象觀測(cè)和科學(xué)實(shí)驗(yàn)過(guò)程中經(jīng)常會(huì)產(chǎn)生面板數(shù)據(jù)。這類數(shù)據(jù)通過(guò)對(duì)多個(gè)個(gè)體在不同時(shí)間點(diǎn)上進(jìn)行重復(fù)測(cè)度,得到每個(gè)個(gè)體在不同樣本點(diǎn)上的多重觀測(cè)值,形成時(shí)間序列和橫截面相結(jié)合的數(shù)據(jù),也就是所謂的“面板數(shù)據(jù)”。由于應(yīng)用背景的不同,面板數(shù)據(jù)有時(shí)也稱作縱向數(shù)據(jù)(longitudinal data)。面板數(shù)據(jù)廣泛產(chǎn)生于經(jīng)濟(jì)學(xué)、管理學(xué)、生物學(xué)、心理學(xué)、健康科學(xué)等諸多領(lǐng)域。
隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)采集、存儲(chǔ)和處理能力不斷提高,所謂的高維數(shù)據(jù)分析問(wèn)題不斷涌現(xiàn)。對(duì)于多元統(tǒng)計(jì)分析而言,高維問(wèn)題一般指如下兩種情形:一種是變量個(gè)數(shù)p較大而樣本量n相對(duì)較小,例如藥物試驗(yàn)中有成千上萬(wàn)個(gè)觀測(cè)指標(biāo)而可用于實(shí)驗(yàn)觀測(cè)的病人個(gè)數(shù)較少;另一種是變量個(gè)數(shù)p不大但是樣本個(gè)數(shù)n較多,例如一項(xiàng)全國(guó)調(diào)查牽涉到大量的調(diào)查對(duì)象,而觀測(cè)指標(biāo)個(gè)數(shù)相對(duì)較少。面板數(shù)據(jù)高維問(wèn)題較多元(時(shí)序)高維問(wèn)題更為復(fù)雜,因?yàn)槊姘鍞?shù)據(jù)至少包括兩個(gè)維度:時(shí)間和橫截面。在實(shí)際應(yīng)用中,不同個(gè)體在不同時(shí)間進(jìn)行觀測(cè)時(shí)可以獲得多個(gè)指標(biāo)值。為了以下論述的方便,用p表示指標(biāo)個(gè)數(shù),T表示觀測(cè)期長(zhǎng)度,N表示個(gè)體(individual)或主題(subject)個(gè)數(shù)。數(shù)理統(tǒng)計(jì)中所提到的高維(大維)問(wèn)題,通常是指?jìng)€(gè)體數(shù)N、時(shí)期長(zhǎng)度T或指標(biāo)個(gè)數(shù)p這三個(gè)變量中的一個(gè)或多個(gè)可以趨向于無(wú)窮。具體應(yīng)用中,只要N、T和p中有一個(gè)或多個(gè)大于某個(gè)給定的臨界值,都稱為高維問(wèn)題。
本文主要研究?jī)煞N基本類型的高維面板問(wèn)題:一類為面板數(shù)據(jù)分析中解釋變量個(gè)數(shù)p非常多,超過(guò)個(gè)體數(shù)N和時(shí)期數(shù)T,比如零售商業(yè)網(wǎng)點(diǎn)成千上萬(wàn)種商品掃描數(shù)據(jù),央行和國(guó)家統(tǒng)計(jì)部門得到的多個(gè)指標(biāo)在不同個(gè)體宏觀經(jīng)濟(jì)觀測(cè)數(shù)據(jù)等;另一類是混合效應(yīng)模型中隨機(jī)效應(yīng)和固定效應(yīng)設(shè)定時(shí)方差協(xié)方差矩陣所需確定的參數(shù)個(gè)數(shù)較多,某些參數(shù)的值趨向于零,要對(duì)方差協(xié)方差矩陣進(jìn)行變量選擇,此時(shí)針對(duì)固定效應(yīng)和隨機(jī)效應(yīng)可以采用不同的變量選擇策略。
大型數(shù)據(jù)集構(gòu)成的社會(huì)經(jīng)濟(jì)面板的特點(diǎn)是具有成百上千個(gè)觀測(cè)指標(biāo),也就是具有所謂的高維特征。由于這種特征的存在,采用經(jīng)典統(tǒng)計(jì)計(jì)量分析方法很難進(jìn)行處理。因子模型(factor model)不僅可以有效降低數(shù)據(jù)的維度,而且可以充分體現(xiàn)面板數(shù)據(jù)內(nèi)部的序列相依性和截面相依性,因此可以針對(duì)不同的應(yīng)用領(lǐng)域建立相應(yīng)的因子模型對(duì)高維面板數(shù)據(jù)進(jìn)行分析。例如構(gòu)建套利定價(jià)模型時(shí),將多個(gè)證券的投資組合用公因子表示,進(jìn)行收益率預(yù)測(cè);研究經(jīng)濟(jì)周期變動(dòng),尤其是重大事件對(duì)經(jīng)濟(jì)發(fā)展影響時(shí),將各經(jīng)濟(jì)體的產(chǎn)出指標(biāo)用幾個(gè)公因子表示,用因子模型分析各經(jīng)濟(jì)體同步變動(dòng)情況以及重大事件對(duì)各經(jīng)濟(jì)體的沖擊大小,等等。
面板數(shù)據(jù)因子模型是對(duì)解釋變量或者誤差成分項(xiàng)進(jìn)行因子分解后所建立的模型。實(shí)際應(yīng)用中,當(dāng)模型中解釋變量的個(gè)數(shù)較多,例如p大于N,就可以對(duì)解釋變量進(jìn)行因子分解,用少數(shù)幾個(gè)公因子和與之對(duì)應(yīng)的因子載荷表示大量解釋變量,從而起到降維的效果。對(duì)誤差成分進(jìn)行因子分解主要是為了體現(xiàn)個(gè)體或時(shí)間的共同趨勢(shì)和交互效應(yīng),其中因子分解的方法一般采用多元統(tǒng)計(jì)分析中的主成分法,為了進(jìn)一步研究的需要,有時(shí)候還要采用極大似然法或者回歸法計(jì)算因子得分,并將因子得分代入模型進(jìn)行估計(jì)。
因子模型中采用較廣泛的是動(dòng)態(tài)因子模型(dynamic factor model),這主要是因?yàn)閯?dòng)態(tài)因子模型能夠較好體現(xiàn)變量前后時(shí)期之間的相關(guān)性,便于進(jìn)行外推預(yù)測(cè),體現(xiàn)序列的內(nèi)在結(jié)構(gòu)。面板數(shù)據(jù)動(dòng)態(tài)因子模型的一般形式如下:
其中Xit表示第i個(gè)橫截面單元在第t時(shí)刻的解釋變量(協(xié)變量)的觀測(cè)向量(i=1,2,...,N;t=1,2,...,T);Yit+h表示第i個(gè)橫截面單元在第t+h時(shí)刻的被解釋變量(響應(yīng)變量)的觀測(cè)(預(yù)測(cè))值,若h≠0,則模型(2)為一個(gè)預(yù)測(cè)模型;Ft是r×1維潛在因子向量;Λ′是p×r維因子載荷向量;eit是Xit的特質(zhì)性成分;Zit表示已觀測(cè)變量(例如Yt的滯后變量)或不可觀測(cè)的Ft的滯后項(xiàng)組成的q×1維向量;βF和βw分別是r×1維和q×1維向量,表示潛在因子和已觀測(cè)變量的系數(shù);εit+h表示模型(2)的隨機(jī)(預(yù)測(cè))誤差。一般稱模型(1)為因子模型,模型(2)為動(dòng)態(tài)模型。
動(dòng)態(tài)因子模型在對(duì)解釋變量(協(xié)變量)進(jìn)行降維的同時(shí),盡可能用較少公因子體現(xiàn)解釋變量的大部分信息。對(duì)于社會(huì)經(jīng)濟(jì)現(xiàn)象中大量存在的高維面板數(shù)據(jù)而言,動(dòng)態(tài)因子模型提供了高維問(wèn)題降維的一種思路。相比較其他統(tǒng)計(jì)建模方法而言,動(dòng)態(tài)因子模型充分考慮到橫截面相關(guān)和序列相關(guān)對(duì)面板數(shù)據(jù)建模的影響,正確揭示了面板數(shù)據(jù)內(nèi)部相依特征,能夠更加合理地解釋某些社會(huì)經(jīng)濟(jì)現(xiàn)象的變化規(guī)律。在動(dòng)態(tài)因子模型估計(jì)和檢驗(yàn)過(guò)程中,通過(guò)對(duì)統(tǒng)計(jì)量的漸近性和協(xié)方差矩陣的結(jié)構(gòu)特征進(jìn)行研究,推動(dòng)了諸如隨機(jī)矩陣?yán)碚?、譜分解理論、高維變量選擇等理論的進(jìn)一步發(fā)展。近年來(lái),動(dòng)態(tài)因子模型已逐漸運(yùn)用于大型宏觀數(shù)據(jù)集的分析中。研究者分別從動(dòng)態(tài)因子模型形式的設(shè)定、協(xié)方差結(jié)構(gòu)和潛在因子的估計(jì)等方面進(jìn)行了理論探討,同時(shí)相關(guān)的應(yīng)用研究也正在逐步展開(kāi)。
(一)動(dòng)態(tài)因子模型的設(shè)定和估計(jì)
高維面板數(shù)據(jù)集普遍存在序列相關(guān)和(弱)截面相關(guān),Stock和Watson提出在因子模型中加入觀測(cè)變量的滯后項(xiàng)進(jìn)行前向預(yù)測(cè),從而充分考慮時(shí)間序列的相關(guān)性(動(dòng)態(tài)性)[1]。他們?cè)跁r(shí)齊因子模型的基礎(chǔ)上采用時(shí)變因子載荷刻畫(huà)序列和截面相依。在對(duì)美國(guó)聯(lián)邦儲(chǔ)備委員會(huì)工業(yè)產(chǎn)品指數(shù)的預(yù)測(cè)中,該模型與自回歸模型(AR)和向量自回歸模型(VAR)相比預(yù)測(cè)誤差(MSE)相對(duì)較小。Stock和Watson進(jìn)一步將VAR和動(dòng)態(tài)因子模型相結(jié)合,運(yùn)用這種近似因子模型研究貨幣政策沖擊對(duì)宏觀經(jīng)濟(jì)的影響,討論動(dòng)態(tài)因子個(gè)數(shù)估計(jì)和VAR基礎(chǔ)上的因子約束檢驗(yàn)問(wèn)題[2];Pesaran和Chudik在無(wú)限維向量自回歸模型中采用動(dòng)態(tài)因子,以體現(xiàn)具有顯著效果的某個(gè)變量或截面單元對(duì)當(dāng)期和滯后期其他變量的影響[3];Song、Hardle、Ritov考慮到時(shí)間序列中往往存在非平穩(wěn)性和可能的周期性,提出了一種兩步估計(jì)方法[4]:第一步,采用分組LASSO(最小絕對(duì)收縮和選擇算子)類型的技術(shù)選擇時(shí)間基函數(shù),運(yùn)用平滑函數(shù)主成分分析選擇空間基函數(shù);第二步,運(yùn)用動(dòng)態(tài)因子模型獲得一個(gè)去除趨勢(shì)(又稱退勢(shì))的低維隨機(jī)過(guò)程,并將這種廣義動(dòng)態(tài)半?yún)?shù)因子模型應(yīng)用于氣溫、核磁共振和隱含波動(dòng)面數(shù)據(jù)的分析中。
動(dòng)態(tài)因子載荷的估計(jì)也得到了進(jìn)一步的研究。Forni等人提出了一種兩階段“廣義主成分”估計(jì)方法,第一步估計(jì)公共成分的協(xié)方差,第二步確定主成分分析的權(quán)重,這種分析放寬了對(duì)特性因子的結(jié)構(gòu)約束[5];Deistler和Zinner討論了廣義線性動(dòng)態(tài)因子模型的結(jié)構(gòu)特征,包括可識(shí)別性,模型估計(jì)等一系列問(wèn)題[6];因子載荷陣用隨機(jī)游走表示顯然缺乏實(shí)際證據(jù),Banerjee和Marcellino研究表明運(yùn)用因子載荷中的時(shí)間變動(dòng)進(jìn)行預(yù)測(cè)效果較差,尤其是小樣本情形[7];傳統(tǒng)的假設(shè)要求特性因子的結(jié)構(gòu)為對(duì)角矩陣,然而由于因子載荷中可能存在結(jié)構(gòu)突變,這一條件很難得到滿足,Breitung和Eickmeier提出構(gòu)造LR、LM和Wald統(tǒng)計(jì)量對(duì)靜態(tài)和動(dòng)態(tài)因子模型結(jié)構(gòu)突變進(jìn)行檢驗(yàn),并將其運(yùn)用于美國(guó)和歐元區(qū)國(guó)家經(jīng)濟(jì)增長(zhǎng)模式轉(zhuǎn)變的研究[8]。
因子個(gè)數(shù)的選擇是因子分析必須考慮的問(wèn)題之一。在高維動(dòng)態(tài)因子模型中,因子個(gè)數(shù)的選擇可以不依賴于復(fù)雜的協(xié)方差矩陣;Bai和Ng提出了高維面板數(shù)據(jù)選擇因子個(gè)數(shù)的一種準(zhǔn)則,這種準(zhǔn)則考慮由因子模型的類型來(lái)決定因子個(gè)數(shù),而不是采用數(shù)據(jù)驅(qū)動(dòng)的方法[9];Hallin和Liska運(yùn)用譜密度矩陣的特征值識(shí)別廣義動(dòng)態(tài)因子模型的因子個(gè)數(shù)[10];動(dòng)態(tài)因子模型不僅要確定因子個(gè)數(shù),還要確定解釋變量的滯后階數(shù),Harding和Nair對(duì)傳統(tǒng)的碎石圖(scree plot)方法予以了推廣,并運(yùn)用隨機(jī)矩陣?yán)碚摵蚐tieltjes變換對(duì)特征值的分布進(jìn)行分析,得出了基于矩的因子個(gè)數(shù)和滯后階數(shù)的一致估計(jì)方法[11]。
高維面板數(shù)據(jù)分析中,因子個(gè)數(shù)的多少?zèng)Q定了最終維數(shù)的大小,同時(shí)也決定了因子模型解釋能力的大小。在盡量減少原有信息損失的同時(shí),選擇合理的公因子個(gè)數(shù)將是一個(gè)長(zhǎng)期討論的問(wèn)題。
(二)因子載荷陣協(xié)方差結(jié)構(gòu)和潛在因子估計(jì)
在金融學(xué)的套利定價(jià)理論中,多因子模型可以用于減少維度和估計(jì)協(xié)方差矩陣。好的協(xié)方差矩陣估計(jì)量可以避免過(guò)度放大估計(jì)誤差,協(xié)方差矩陣的最小和最大特征值對(duì)應(yīng)于證券投資組合的極小和極大的方差,協(xié)方差矩陣的特征向量可用于優(yōu)化投資組合。應(yīng)用因子模型的協(xié)方差矩陣在進(jìn)行證券投資組合選擇時(shí),所包含的統(tǒng)計(jì)含義和實(shí)際意義比較明顯,而估計(jì)高維協(xié)方差矩陣則相對(duì)比較困難,F(xiàn)an、Fan、Lv研究了高維因子模型的維數(shù)對(duì)協(xié)方差矩陣估計(jì)的影響,并通過(guò)對(duì)樣本協(xié)方差矩陣估計(jì)和基于因子模型估計(jì)進(jìn)行比較,得出了協(xié)方差矩陣的逆矩陣更有利于揭示因子結(jié)構(gòu)的結(jié)論[12];由于投資組合的優(yōu)化配置和投資組合方差的減少都與協(xié)方差矩陣的逆矩陣有關(guān),因此在優(yōu)化投資組合配置中研究因子結(jié)構(gòu)具有重要意義,但其風(fēng)險(xiǎn)評(píng)價(jià)效果欠佳,Hautsch和Kyj基于已實(shí)現(xiàn)協(xié)方差多重標(biāo)度譜分解(Multi-scale spetral decomposition)分析高維動(dòng)態(tài)協(xié)方差,將該原理運(yùn)用于標(biāo)準(zhǔn)普爾500股票全局最小方差(GMV)投資組合的構(gòu)建,檢驗(yàn)基于協(xié)方差矩陣的投資組合樣本外預(yù)測(cè)的效果[13]。
協(xié)方差矩陣結(jié)構(gòu)的研究目前主要運(yùn)用于投資組合的構(gòu)建,已有研究主要從協(xié)方差矩陣的特征根和特征向量以及協(xié)方差矩陣的逆矩陣出發(fā),而對(duì)于高維情形,協(xié)方差矩陣的估計(jì)受維度影響。
潛在因子(latent factor),又稱隱性因子或公因子,潛在因子的估計(jì)主要是指因子載荷矩陣的估計(jì)。一般通過(guò)對(duì)解釋變量(協(xié)變量)的N×N階非負(fù)定矩陣的特征分析進(jìn)行因子載荷矩陣和因子過(guò)程的估計(jì)。解釋變量的個(gè)數(shù)(N)和時(shí)期長(zhǎng)度(T)之間長(zhǎng)度往往不一致,對(duì)于高維數(shù)據(jù)而言,如果N>T,可以采用Bai提出的最小二乘法進(jìn)行潛在因子的估計(jì)[14];對(duì)于合適的變量個(gè)數(shù)N和非平穩(wěn)因子估計(jì),Pan和Yao通過(guò)求解幾個(gè)非線性規(guī)劃問(wèn)題來(lái)解決[15];Lam,Yao、Bathi研究表明:當(dāng)所有因子都比較強(qiáng)大并且因子載荷矩陣每一列的范數(shù)都是N的1/2次方階數(shù)時(shí),因子載荷矩陣估計(jì)的弱一致L2范數(shù)與N的收斂比率獨(dú)立,并運(yùn)用這種估計(jì)方法進(jìn)行了三支股票的隱含波動(dòng)面建模分析[16]。
潛在因子的估計(jì)主要基于因子載荷矩陣的分析。由于潛在因子既代表解釋變量的共同行為,又是因子模型分析基礎(chǔ),高維數(shù)據(jù)分析中潛在因子的估計(jì)方法將決定協(xié)方差矩陣結(jié)構(gòu)特征的刻畫(huà)。
面板數(shù)據(jù)內(nèi)部相依包括序列相依和截面相依。高維面板數(shù)據(jù)分析中,橫截面相依對(duì)模型的估計(jì)和檢驗(yàn)影響較大。近年來(lái),截面相依的處理逐漸得到重視,包括相依類型刻畫(huà)和度量等。由于序列相依和橫截面相依經(jīng)常同時(shí)出現(xiàn),所以在討論橫截面相關(guān)時(shí)通常也會(huì)考慮序列相依。
在空間相依存在的情況下,也就是存在個(gè)體的異質(zhì)性,處理這種相依性的一般方法就是進(jìn)行空間加權(quán)和引入空間滯后算子建立空間滯后模型。假設(shè)對(duì)如下簡(jiǎn)單的混合回歸模型進(jìn)行估計(jì):
其中y是NT×1向量,X是NT×K矩陣,β是K× 1向量,ε是NT×1向量。在考慮橫截面相依的條件下,各個(gè)個(gè)體的相依關(guān)系通過(guò)空間加權(quán)矩陣來(lái)表示。按照相依結(jié)構(gòu)的不同,空間相依又可以分成兩類:第一類是解釋變量的個(gè)體相依,稱之為空間滯后模型;第二類是誤差項(xiàng)的空間相依,稱之為空間誤差模型。
(一)空間權(quán)重的設(shè)定
空間權(quán)重的設(shè)定是空間經(jīng)濟(jì)學(xué)中的一個(gè)重要問(wèn)題,一般空間權(quán)重都是預(yù)先設(shè)定的。計(jì)量經(jīng)濟(jì)分析中,空間權(quán)重可采用經(jīng)濟(jì)距離表示,也可采用分塊權(quán)重(block weights),例如將中國(guó)一個(gè)省內(nèi)的多個(gè)地區(qū)各看作一個(gè)分塊。Anselin提出一種空間滯后模型,或稱混合空間自回歸模型[17],其特點(diǎn)是在模型的右端項(xiàng)設(shè)置一個(gè)空間滯后解釋變量,雖然這種方法針對(duì)的是截面情形,但是通過(guò)堆棧(stacked)的方法很容易運(yùn)用于面板建模,即用如下模型:
其中ρ是空間自回歸參數(shù),It是T階單位陣,WN是N階權(quán)重矩陣,表示Kronecker積,其他字母和符號(hào)的含義如前。
空間滯后模型在一些社會(huì)或空間交互效應(yīng)的文獻(xiàn)中得到應(yīng)用。Brueckner和Jan分別將其運(yùn)用于空間反應(yīng)函數(shù)(spatial reaction function)和社會(huì)乘子(social multiplier)的參數(shù)估計(jì)當(dāng)中[18];Anselin進(jìn)一步提出所謂的空間乘子(spatial multiplier),并將其用于空間體系中設(shè)定被解釋變量為解釋變量和隨機(jī)誤差項(xiàng)的函數(shù)[19]。
(二)空間誤差模型
與空間滯后模型相比,空間誤差模型并不要求建立一個(gè)空間交互作用的理論模型,而是考慮非球形誤差項(xiàng)協(xié)方差矩陣。空間誤差模型除了直接表示協(xié)方差結(jié)構(gòu)以外,還可以采用空間誤差過(guò)程、空間誤差成分和公因子(common factors,或稱共同因子)模型,其中公因子模型是當(dāng)前正在發(fā)展的一種主流方法,尤其適用于高維面板數(shù)據(jù)的分析。空間誤差模型使用加權(quán)矩陣來(lái)表示相對(duì)位置和近鄰程度,模型中相鄰關(guān)系的設(shè)定不同于協(xié)方差矩陣的空間相依范圍的設(shè)定。通過(guò)對(duì)模型誤差項(xiàng)結(jié)構(gòu)的分析,Anselin、Bera和Anselin提出了兩種常用的空間誤差模型:空間自回歸(SAR)模型和空間移動(dòng)平均(SMA)模型。這兩種模型分別運(yùn)用于討論誤差項(xiàng)存在橫截面誤差自相關(guān)和共同變動(dòng)情形[19-20]??臻g誤差成分模型(SEC)由Kelejian和Robinson提出,與SAR和SMA不同,SEC的誤差項(xiàng)被分解成局部效應(yīng)(local effect)和溢出效應(yīng)(spillover effect)兩部分[21]。在異質(zhì)性面板的誤差成分模型中,時(shí)間成分被表示成不可觀測(cè)的共同效應(yīng)或因子(factor),它包含了所有的橫截面單元。與標(biāo)準(zhǔn)的誤差成分不同的是,每一個(gè)橫截面單元在這個(gè)因子上有不同的因子載荷。最簡(jiǎn)單的形式是所謂的單因子結(jié)構(gòu),這時(shí)誤差項(xiàng)可以表示為:其中δi表示因子ft在橫截面上的載荷,uit是均值為0的獨(dú)立同分布的誤差項(xiàng)。共同因子模型已經(jīng)推廣到多重因子情形。
(一)面板數(shù)據(jù)混合效應(yīng)模型
混合效應(yīng)模型是面板數(shù)據(jù)研究中最重要的模型之一,該類模型的研究已比較充分[22]。此類模型包括線性和非線性參數(shù)混合效應(yīng)模型、半(非)參數(shù)混合效應(yīng)模型、廣義線性混合效應(yīng)模型。線性和非線性參數(shù)混合效應(yīng)模型是兩種參數(shù)混合效應(yīng)模型,從貝葉斯的角度看,這兩種模型分別是分層線性和非線性模型。線性混合效應(yīng)模型是指響應(yīng)(被解釋)變量和協(xié)變量(解釋變量)為線性關(guān)系,線性混合效應(yīng)模型(LME)一般可表示為:
其中bi~N(0,D),εi~N(0,Ri),i=1,…,n,yi和εi分別是第i個(gè)個(gè)體的解釋變量向量和測(cè)度誤差,β和bi分別是固定效應(yīng)(總體參數(shù))和隨機(jī)效應(yīng)(個(gè)體參數(shù)),Xi和Zi是相關(guān)的固定效應(yīng)和隨機(jī)效應(yīng)的設(shè)計(jì)陣。固定效應(yīng)部分對(duì)應(yīng)總體參數(shù)估計(jì),隨機(jī)效應(yīng)部分對(duì)應(yīng)個(gè)體參數(shù)估計(jì)。
非線性混合效應(yīng)模型(NLME)中響應(yīng)變量和協(xié)變量是非線性形式,模型中非線性函數(shù)已知,只有非參數(shù)是未知的。分層非線性模型或NLME模型的一般形式可表示為[22]60-61:
其中
其中f(·)是已知函數(shù),f(Xi,βi)=[f(Xi1,βi),…,f(Xin,βi)]T,Xi=[xi1,…,xin]是設(shè)計(jì)陣,βi是第i個(gè)個(gè)體的特有參數(shù)。在非線性混合效應(yīng)模型中,d(·)是設(shè)計(jì)陣Ai和Bi的已知函數(shù),β和bi分別是固定效應(yīng)和隨機(jī)效應(yīng)向量。
面板研究中,通常認(rèn)為來(lái)自不同個(gè)體的數(shù)據(jù)相互獨(dú)立,而來(lái)自同一個(gè)體的數(shù)據(jù)是相關(guān)的,這種相關(guān)可能是由于個(gè)體間的異質(zhì)性,也可能是由于測(cè)度誤差的序列相關(guān)所致,而忽略這些相關(guān)性可能導(dǎo)致估計(jì)結(jié)果并非有效。面板分析的核心問(wèn)題就是選擇合適的模型和正確估計(jì)方差協(xié)方差成分的方法,這也是面板數(shù)據(jù)分析與其他類型的數(shù)據(jù)分析都面臨的主要問(wèn)題。選擇線性模型還是選擇非線性模型,主要根據(jù)響應(yīng)變量和協(xié)變量之間的關(guān)系,并需要根據(jù)不同的應(yīng)用背景以及圖形的直觀解釋,如果假定響應(yīng)變量和協(xié)變量之間沒(méi)有任何非線性關(guān)系,就可以采用非參數(shù)方法進(jìn)行研究。
在估計(jì)混合效應(yīng)模型隨機(jī)效應(yīng)和固定效應(yīng)方差協(xié)方差成分的時(shí)候,由于待估參數(shù)較多,所以有時(shí)需要進(jìn)行變量選擇,相對(duì)而言固定效應(yīng)變量選擇比較直觀,隨機(jī)效應(yīng)變量選擇難度稍大,因?yàn)槠浞讲罱Y(jié)構(gòu)較為復(fù)雜。Chen和Dunson提出了采用分層貝葉斯模型識(shí)別0方差的隨機(jī)效應(yīng),通過(guò)再參數(shù)化混合模型使得隨機(jī)效應(yīng)分布的協(xié)方差參數(shù)函數(shù)與回歸系數(shù)結(jié)合成標(biāo)準(zhǔn)正態(tài)潛變量,以選擇隨機(jī)效應(yīng)方差的混合先驗(yàn)進(jìn)行多個(gè)隨機(jī)效應(yīng)的變量選擇[23];Vaida和Blanchard提出了采用條件赤池信息準(zhǔn)則(cAIC)對(duì)混合效應(yīng)模型進(jìn)行變量選擇的方法[24];顯著的隨機(jī)效應(yīng)選擇依賴于協(xié)方差選擇策略,Dziak等人對(duì)縱向數(shù)據(jù)的變量選擇方法進(jìn)行了綜述[25]。
(二)高維面板混合效應(yīng)模型的變量選擇
面板數(shù)據(jù)分析中經(jīng)常存在很多變量,這些潛在的預(yù)測(cè)子(potential predictors)個(gè)數(shù)可能很大,尤其是為了減少可能的建模偏差而引入非線性項(xiàng)和協(xié)變量的交互效應(yīng)時(shí)。事實(shí)上通常在模型中包含著一個(gè)重要變量的子集,也就是所謂的最優(yōu)子集(best subset),它能夠增強(qiáng)模型的可預(yù)測(cè)性,并且能夠使得模型更加精簡(jiǎn),變量選擇的終極目標(biāo)也就是找到這個(gè)最優(yōu)子集。線性回歸模型中存在很多子集選擇準(zhǔn)則,一些傳統(tǒng)的變量選擇方法(如Mallows信息準(zhǔn)則(Cp)、赤池信息準(zhǔn)則(AIC)、舒瓦茨信息準(zhǔn)則(BIC))也已推廣到面板數(shù)據(jù)中,而更多的是考慮采用懲罰似然的方法,例如在線性混合效應(yīng)模型(6)的變量選擇中,令ei(β,θ)為給定xi和zi時(shí)yi的條件似然函數(shù)的對(duì)數(shù),定義懲罰條件對(duì)數(shù)似然函數(shù)為:
其中pλj(·)是帶有正則化參數(shù)λ的懲罰函數(shù),最大化上式得出懲罰似然估計(jì)量,λ控制模型的懲罰性,可以設(shè)成固定值或者通過(guò)數(shù)據(jù)驅(qū)動(dòng)的選擇方法,例如采用廣義交叉驗(yàn)證(GCV);懲罰函數(shù)pλj(·)的選擇在罰似然變量選擇中非常重要,不恰當(dāng)?shù)牧P函數(shù)達(dá)不到應(yīng)有的效果。若令懲罰函數(shù)為熵或者L0懲罰,即:
其中I(·)是示性函數(shù),所有的λj=λ,帶有熵懲罰的懲罰似然函數(shù)可以寫(xiě)作:
其中|M|=∑jI(|βj|≠0)代表候選模型的參數(shù)個(gè)數(shù)。
在誤差項(xiàng)獨(dú)立同分布假設(shè)下,進(jìn)行線性回歸模型懲罰最小二乘估計(jì)時(shí),一些其他類型的懲罰被引入。懲罰函數(shù)pλj(·)的形式?jīng)Q定了估計(jì)量的優(yōu)劣。定義Lp懲罰為pλj(|βj|)=λjp-1|βj|p,p>0,這樣最小二乘L2懲罰得到脊(ridge)回歸估計(jì)量;0<p<2的Lp懲罰就是橋(bridge)回歸,介于最優(yōu)子集選擇和脊回歸之間。L1懲罰下,懲罰似然估計(jì)量是最小絕對(duì)收縮和選擇運(yùn)算子(LASSO)。Fan和Li建議使用平滑切割絕對(duì)偏差(SCAD)懲罰,這種方法有兩個(gè)調(diào)整參數(shù),而SCAD估計(jì)量和LASSO估計(jì)量很相似,它能得出一個(gè)稀疏和連續(xù)的解,并且認(rèn)為SCAD比LASSO有更低的偏差[26];Zou在LASSO的基礎(chǔ)上提出了適應(yīng)最小絕對(duì)收縮和選擇運(yùn)算子(ALASSO),這種方法具有所謂的神諭(oracle)性質(zhì)[27]。
Liang和Zeger提出了一種廣義估計(jì)方程(GEE)的方法對(duì)聚類(clustered)或面板數(shù)據(jù)擬合回歸模型,響應(yīng)變量可以是連續(xù)的或離散的[28],可將這種方法視為擬似然(quasi-likelihood)的一種推廣,是一種偽似然(Pseudo-likelihood)方法。GEE不用假定變量的分布,克服了似然函數(shù)不能表示的問(wèn)題,并且不需要方差獨(dú)立假設(shè),這些與傳統(tǒng)的變量選擇方法(比如Cp,AIC和BIC等)有很大區(qū)別,可運(yùn)用交叉驗(yàn)證(CV)方法選擇較小的廣義殘差平方和(GRSS)或者期望預(yù)報(bào)偏差(EPB)。SCAD和LASSO與GEE相結(jié)合,得出懲罰廣義估計(jì)方程(PGEE),F(xiàn)u研究了Lq懲罰的PGEE的漸近性質(zhì)以及具體實(shí)現(xiàn),并建議采用廣義交叉驗(yàn)證(GCV)選擇正則化參數(shù)λj[29]。
混合效應(yīng)模型中方差選擇問(wèn)題的研究文獻(xiàn)相對(duì)較少,大多數(shù)變量過(guò)程采用參數(shù)或半?yún)?shù)方法研究(不)具有隨機(jī)效應(yīng)或不可觀測(cè)的數(shù)據(jù)。但是,這些過(guò)程主要用來(lái)選擇顯著的固定效應(yīng),與之不同的是Bondell,Krishna、Ghosh的工作,他們考慮了線性混合效應(yīng)的選擇[30];Ibrahim等人使用了一種新穎的再參數(shù)化方法,將混合效應(yīng)的選擇看做模型中具有很多缺失數(shù)據(jù)的分組變量選擇,其中的缺失數(shù)據(jù)代表隨機(jī)效應(yīng)[31];Ni等人提出了面板數(shù)據(jù)半?yún)?shù)混合模型中同時(shí)進(jìn)行變量選擇和模型估計(jì)的雙懲罰似然方法,這種方法將兩種懲罰相結(jié)合,考慮在普通對(duì)數(shù)似然上加入兩類懲罰:非參數(shù)基線函數(shù)的粗糙性懲罰和獲取模型稀疏性線性系數(shù)的非凹收縮懲罰,Ni等人認(rèn)為這種方法可以對(duì)缺失數(shù)據(jù)進(jìn)行正確推斷,如果模型設(shè)置正確,這種推斷更為有效,而且易于計(jì)算[32]。
高維數(shù)據(jù)變量選擇討論的主要問(wèn)題是解釋變量的個(gè)數(shù)較多,超過(guò)(甚至遠(yuǎn)大于)個(gè)體數(shù)情形。對(duì)于面板數(shù)據(jù)而言,這些協(xié)變量有可能是實(shí)際觀測(cè)到的解釋變量,也可能是模型設(shè)定過(guò)程中產(chǎn)生的成分(component)變量,例如隨機(jī)效應(yīng)成分和固定效應(yīng)成分。針對(duì)這兩種不同情形,主要采用高維因子模型和混合效應(yīng)模型的變量選擇方法
在此主要討論高維面板數(shù)據(jù)分析和混合效應(yīng)模型的變量選擇問(wèn)題。高維數(shù)據(jù)變量選擇方法還在不斷發(fā)展,半?yún)?shù)、貝葉斯統(tǒng)計(jì)等方法論已經(jīng)廣泛運(yùn)用于這類問(wèn)題中。從生物學(xué)和醫(yī)學(xué)角度開(kāi)展的研究較多,因?yàn)榇罅孔兞亢蛥?shù)中存在所謂的稀疏性(sparsity),所以變量選擇方法很適合于對(duì)這類問(wèn)題的處理。無(wú)論是現(xiàn)有的哪種變量選擇方法,都很難做到既不損失原有信息,又能正確地決策判斷。社會(huì)經(jīng)濟(jì)應(yīng)用中,針對(duì)大規(guī)模數(shù)據(jù)集的處理,僅僅從降維角度去考慮顯然不夠,更多地還是要提高模型對(duì)數(shù)據(jù)的擬合效果。所以,高維變量選擇技術(shù)在經(jīng)濟(jì)管理中的應(yīng)用仍亟待開(kāi)展。
從未來(lái)的發(fā)展看,高維面板數(shù)據(jù)分析主要應(yīng)該關(guān)注以下五個(gè)方面的問(wèn)題:
(一)變量選擇技術(shù)的發(fā)展
對(duì)于高維問(wèn)題而言,首先要解決的問(wèn)題就是降維。無(wú)論是變量選擇還是變量替換,其目的都是為了降低數(shù)據(jù)的維度,然而在實(shí)際應(yīng)用中,甄別各變量對(duì)總體的影響,僅從相關(guān)性學(xué)習(xí)的角度分析顯然不夠。例如大型宏觀經(jīng)濟(jì)數(shù)據(jù)集中所研究的各個(gè)指標(biāo)之間可能滿足同步關(guān)系,也可能是超前或者滯后關(guān)系,在對(duì)這些非同步關(guān)系進(jìn)行相關(guān)分析時(shí)可能體現(xiàn)出較小的相關(guān)性,這也是了解宏觀經(jīng)濟(jì)走向不可或缺的重要指示器。
(二)選擇合適的模型
通過(guò)降維和變量選擇,使高維問(wèn)題的維度得到了下降,此時(shí)還應(yīng)考慮:采用傳統(tǒng)建模方法進(jìn)行建模是否恰當(dāng)?能否再建立一套新的建模方法?從現(xiàn)有的發(fā)展來(lái)看,采用與經(jīng)典方法不同的建模策略是比較好的選擇。無(wú)論是懲罰似然估計(jì)還是高維因子模型的主成分估計(jì),建模過(guò)程根據(jù)降維的需要都進(jìn)行了改進(jìn)。根據(jù)實(shí)際應(yīng)用背景選擇合適的模型,不僅是高維問(wèn)題,也是所有的統(tǒng)計(jì)建模過(guò)程中需要面對(duì)的問(wèn)題。
(三)改進(jìn)模型的估計(jì)方法
傳統(tǒng)模型的估計(jì)方法已經(jīng)有了比較完整的理論體系。對(duì)于高維問(wèn)題而言,現(xiàn)有估計(jì)方法是對(duì)一些既有方法的改進(jìn)。例如懲罰似然、LASSO等方法。在將來(lái)的研究中,有可能采用更加復(fù)雜的迭代方法,因選擇好的算法對(duì)于高維問(wèn)題顯得尤為重要。在混合效應(yīng)模型的變量選擇中,一些相對(duì)較為復(fù)雜的方法需要解決的主要問(wèn)題還是算法的實(shí)現(xiàn)與優(yōu)化。當(dāng)然,模擬結(jié)果還需要在實(shí)證研究中予以驗(yàn)證。
(四)估計(jì)和檢驗(yàn)統(tǒng)計(jì)量的構(gòu)建與實(shí)施
對(duì)于一些相對(duì)比較復(fù)雜的高維問(wèn)題,如缺失數(shù)據(jù),分類數(shù)據(jù),分段數(shù)據(jù)等特殊類型的高維數(shù)據(jù),估計(jì)和檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造還應(yīng)進(jìn)一步探索。在追求無(wú)偏性、有效性、一致性和充分性的同時(shí),研究穩(wěn)健統(tǒng)計(jì)量是解決特殊類型數(shù)據(jù)問(wèn)題的必要條件。合適的統(tǒng)計(jì)量應(yīng)該是能夠得出正確結(jié)論的統(tǒng)計(jì)量,而不僅僅是追求形式上和分布上的一致。神諭(oracle)性質(zhì)是估計(jì)量所要具備的較好特征。
(五)大樣本情況下的漸近性質(zhì)
由于高維問(wèn)題所研究的數(shù)據(jù)量往往比較大,而樣本容量相對(duì)不多,故其漸近性質(zhì)的討論與傳統(tǒng)的大樣本性質(zhì)分析有一定的區(qū)別。隨著對(duì)高維問(wèn)題研究的深入,一些不可觀測(cè)的大樣本問(wèn)題逐漸出現(xiàn),如重復(fù)構(gòu)造的數(shù)據(jù)結(jié)構(gòu)、采用再抽樣(resampling)方法提取數(shù)據(jù)等等。這類問(wèn)題引發(fā)的思考是:原始問(wèn)題并非大樣本,因模型轉(zhuǎn)換和參數(shù)估計(jì)過(guò)程中產(chǎn)生的大樣本問(wèn)題,其漸近性質(zhì)應(yīng)如何考慮?
[1] Stock J H,Watson M W.Forecasting Using Principal Components from a Large Number of Predictors[J].Journal of the American Statistical Association,2002,97(460).
[2] Stock J H,Watson M W.Implications of Dynamic Factor Models for VAR Analysis[R].NBER Working Paper,2005.
[3] Pesaran M H,Chudik A.Econometric Analysis of High Dimensional VARs Featuring a Dominant Unit[R].ECB WorkingPaper,2010.
[4] Song S,H?rdle,W,Ritov Y.Dynamic Factor Models for High Dimensional Nonstationary Time Series[R].Forthcoming,2010.
[5] Forni M,Hallin M,Lippi M,Reichlin L.The Generalized Dynamic Factor Model:One-Sided Estimation and Forecasting[J].Journal of the American Statistical Association,2005,100(471).
[6] Deistler M,Zinner C.Modelling High-Dimensional Time Series by Generalized Linear Dynamic Factor Models:An Introductory Survey[J].Communications in Information and Systems,2007,7(2).
[7] Banerjee A,Marcellino M.Factor-Augmented Error Correction Models[C]//Castle J,Shepard N.The Methodology and Practice of Econometrics.Oxford:Oxford University Press,2008.
[8] Breitung J,Eickmeier S.Testing for Structural Breaks in Dynamic Factor Models[J].Journal of Econometrics,2011,163(1).
[9] Bai J,Ng S.Determining the Number of Factors in Approximate Factor Models[J].Econometrica,2002,70(1).
[10]Hallin M,Liska R.Determining the Number of Factors in the General Dynamic Factor Model[J].Journal of the American Statistical Association,2007,102(478).
[11]Harding M,Nair K K.Estimating the Number of Factors and Lags in High Dimensional Dynamic Factor Models[R].Mimeo,2009.
[12]Fan J,F(xiàn)an Y,Lv J.High Dimensional Covariance Matrix Estimation Using a Factor Model[J].Journal of Econometrics,2008,147(1).
[13]Hautsch N,Kyj L M.Forecasting Vast Dimensional Covariances Using a Dynamic Multi-scale Realized Spectral Components Model[R].Humboldt-Universit at zu Berlin,2010.
[14]Bai J.Inferential Theory for Factor Models of Large Dimensions[J].Econometrica,2003,71(1).
[15]Pan J,Yao Q.Modelling Multiple Time Series Via Common Factors[J].Biometrika,2008,95(2).
[16]Lam C,Yao Q,Bathia N.Estimation of Latent Factors for High-Dimensional Time Series[J].Biometrika 2011,98(4).
[17]Anselin L.A Test for Spatial Autocorrelation in Seemingly Unrelated Regressions[J].Economics Letters,1988,28(4).
[18]Brueckner,Jan K.Strategic Interaction Among Governments:An Overview of Empirical Studies[J].International Regional Science Review,2003,26(2).
[19]Anselin L.Bera A.Spatial Dependence in Linear Regression Models with an Introduction to Spatial Econometrics[C]//Ullah Amman,Giles David E A.Handbook of Applied Economic Statistics,New York:Marcel Dekker,1998.
[20]Anselin L.Spatial Externalities,Spatial Multipliers and Spatial Econometrics[J].International Regional Science Review,2003,26(2).
[21]Kelejian Harry H,Robinson Dennis P.Spatial Correlation:A Suggested Alternative to the Autoregressive Model[C]//Anselin Luc,F(xiàn)lorax Raymond J G M.New Directions in Spatial Econometrics,Berlin:Springer-Verlag,1995.
[22]Davidian M,Giltinan D M.Nonlinear Models for Repeated Measurement Data[M].London:Chapman and Hall,1995.
[23]Chen Z,Dunson D.Random Effects Selection in Linear Mixed Models[J].Biometrics,2003,59(4).
[24]Vaida F,Blanchard S.Conditional Akaike Information for Mixed-Effects Models[J].Biometrika,2005,92(2).
[25]Dziak,John J,Li R.An Overview on Variable Selection for Longitudinal Data[C]//Hong D.Quantitative Medical Data Analysis Using Mathematical Tools and Statistical Techniques.World Scientific,2010.
[26]Fan J,Li R.Variable Selection Via Nonconcave Penalized Likelihood and its Oracle Properties[J].Journal of the American Statistical Association,2001,96(456).
[27]Zou H.The Adaptive Lasso and Its Oracle Properties[J].Journal of the American Statistical Association,2006,101(476).
[28]Liang K Y,Zeger S L.Longitudinal Data Analysis Using Generalized Linear Models[J].Biometrika,1986,73(1).
[29]Fu W.Penalized Estimating Equations[J].Biometrics,2003,59(1).
[30]Bondell H D,Krishna A,Ghosh S K.Joint Variable Selection for Fixed and Random Effects in Linear Mixed-Effects Models[J].Biometrics,2010,66(4).
[31]Ibrahim J G,Zhu H,Garcia R I,Guo R.Fixed and Random Effects Selection in Mixed Effects Models[J].Biometrics,2010,67(2).
[32]Ni X,Zhang D,Zhang H H.Variable Selection for Semiparametric Mixed Models in Longitudinal Studies[J].Biometrics,2010,66(1).
A Review of Dimensional Deduction and Variable Selection for High Dimensional Panel Data
ZHANG Bo1,F(xiàn)ANG Guo-bin1,2
(1.School of Statistics,Renmin University of China,Beijing 100872,China;2.School of Statistics and Applied Mathematics,Anhui University of Finance and Economics,Bengbu 233030,China)
The aim of this paper is to review some important aspects in the study of high dimensianl panel data.Differential types and methods in the high dimensioanl panel data are disscused,literaures about random effect and marginal effect high dimensional varianc-covariance matrix in mixed model are reviewed.The advances of multi indicators large dimensional data factor model are sumarized.Some unresolved key issues,the future development in the theory and application are commented and previewed.
high dimensional;panel data;dimensional reduction;variable selection
book=21,ebook=18
O212∶F222.3
A
1007-3116(2012)06-0021-08
(責(zé)任編輯:郭詩(shī)夢(mèng))
2011-11-14;修復(fù)日期:2012-04-22
中國(guó)人民大學(xué)科學(xué)研究基金項(xiàng)目(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助)《基于高頻和超高維數(shù)據(jù)的中國(guó)金融市場(chǎng)若干重大問(wèn)題研究》(10XNL007);國(guó)家自然科學(xué)基金項(xiàng)目《基于高頻數(shù)據(jù)的股市極端風(fēng)險(xiǎn)測(cè)度及其防范研究》(71071155)
張 波,男,黑龍江拜泉人,教授,博士生導(dǎo)師,研究方向:隨機(jī)分析,高頻數(shù)據(jù)分析;方國(guó)斌,男,安徽宿松人,博士生,副教授,研究方向:高維數(shù)據(jù)分析,金融數(shù)據(jù)統(tǒng)計(jì)分析。