趙 娜,洪廣彬
(1.南開(kāi)大學(xué) 經(jīng)濟(jì)學(xué)院,天津 300071;2.塔夫茨大學(xué) 經(jīng)濟(jì)系,馬薩諸塞州 梅德福02155)
在微觀經(jīng)濟(jì)研究中,通常需要考慮計(jì)量經(jīng)濟(jì)模型的內(nèi)生性問(wèn)題。所謂內(nèi)生性,是指模型由于遺漏變量、存在測(cè)量誤差以及回歸元和因變量間具有相互因果關(guān)系等,造成某些回歸元與隨機(jī)擾動(dòng)項(xiàng)之間相關(guān),從而導(dǎo)致模型參數(shù)估計(jì)有偏或者不一致[1],如何解決內(nèi)生性問(wèn)題一直是學(xué)術(shù)界普遍關(guān)心的熱點(diǎn)話題。傳統(tǒng)的工具變量(Instrument Variable,IV)估計(jì)是學(xué)者們最早提出解決內(nèi)生性問(wèn)題的方法,已被廣泛用于處理線性計(jì)量模型的內(nèi)生性問(wèn)題。然而,Martens等提出選擇合理的工具變量是實(shí)際應(yīng)用中面臨的重要難題,這是由于IV估計(jì)在實(shí)際應(yīng)用中會(huì)受到諸多限制[2];Nelson等在討論IV估計(jì)量的精確樣本分布特征時(shí),發(fā)現(xiàn)樣本容量較小會(huì)導(dǎo)致參數(shù)的有偏估計(jì)[3];Bound等研究指出,工具變量與內(nèi)生回歸元之間的弱相關(guān)性會(huì)引起模型參數(shù)估計(jì)的嚴(yán)重偏倚和非一致性[4]。
為更好地解決內(nèi)生性問(wèn)題,由傳統(tǒng)IV估計(jì)方法衍生形成的兩階段估計(jì)方法逐漸被學(xué)者們廣泛采用。兩階段最小二乘法(Two-Stage Least Squares,2SLS)主要應(yīng)用于經(jīng)典的線性計(jì)量經(jīng)濟(jì)模型中,不僅能夠大大簡(jiǎn)化完整信息極大似然估計(jì)的計(jì)算復(fù)雜難題,而且估計(jì)結(jié)果具有良好性質(zhì)[5]。隨著計(jì)量經(jīng)濟(jì)學(xué)的發(fā)展和微觀統(tǒng)計(jì)數(shù)據(jù)的完善,現(xiàn)代社會(huì)科學(xué)領(lǐng)域的經(jīng)驗(yàn)性研究越來(lái)越多地開(kāi)始使用非線性計(jì)量模型,如離散選擇模型、計(jì)數(shù)模型和受限因變量模型等,然而相關(guān)研究發(fā)現(xiàn),當(dāng)內(nèi)生回歸元為服從某一特定分布的離散型變量時(shí),忽略內(nèi)生回歸元的特殊性質(zhì)而仍然采用2SLS法,就會(huì)導(dǎo)致非一致的參數(shù)估計(jì)量[1,5]。因此,適用于線性模型的2SLS方法不能直接推廣到非線性模型中使用,而兩階段預(yù)測(cè)值替代(Two-Stage Predictor Substitution,2SPS)和兩階段殘差引入(Two-Stage Residuals Inclusion,2SRI)方法則應(yīng)運(yùn)而生,并被 Shin[6]、Fabbri等[7]學(xué)者迅速應(yīng)用于大量的實(shí)證研究中。
在健康經(jīng)濟(jì)學(xué)領(lǐng)域中,學(xué)者們常常采用計(jì)數(shù)模型探討健康狀況與醫(yī)療需求等問(wèn)題。在這類研究中,大多是從有無(wú)保險(xiǎn)、健康狀況、職業(yè)狀態(tài)等方面進(jìn)行分析,而這些影響因素也往往表現(xiàn)為服從二項(xiàng)分布或多項(xiàng)分布的變量,并且具有內(nèi)生性,例如 Deb[8]、Geraci等[9]探討了醫(yī)療保險(xiǎn)類型與醫(yī)療需求的關(guān)系。近些年來(lái),國(guó)內(nèi)學(xué)者也開(kāi)始采用計(jì)數(shù)模型分析中國(guó)醫(yī)療保障與醫(yī)療服務(wù)需求的關(guān)系,但較少利用2SPS和2SRI處理內(nèi)生性問(wèn)題[10-11]。盡管 2SPS和 2SRI方法都會(huì)得到不一致的參數(shù)估計(jì)量,但是基于2SRI方法構(gòu)造的內(nèi)生性檢驗(yàn)卻具有良好性質(zhì)[1]。Staub通過(guò)對(duì)比分析豪斯曼檢驗(yàn)和基于2SRI法構(gòu)造的沃爾德檢驗(yàn)的有限樣本表現(xiàn),發(fā)現(xiàn)后者計(jì)算簡(jiǎn)潔且檢驗(yàn)結(jié)果更穩(wěn)?。?2]。Geraci等通過(guò)包含離散內(nèi)生解釋變量的計(jì)數(shù)模型,比較了基于2SRI方法構(gòu)造的Wald、LR和LM檢驗(yàn)方法,結(jié)果驗(yàn)證了LM檢驗(yàn)統(tǒng)計(jì)量在有限樣本下的有效性[9]。
在現(xiàn)有文獻(xiàn)的基礎(chǔ)上,本文延續(xù)前人的研究工作[8-9],在包含多項(xiàng)分布內(nèi)生回歸元計(jì)數(shù)模型的基礎(chǔ)上,采用蒙特卡洛模擬實(shí)驗(yàn),從模型形式的設(shè)定、計(jì)數(shù)數(shù)據(jù)分布特征和樣本容量等方面,對(duì)三種兩階段估計(jì)方法(2SLS、2SPS、2SRI)進(jìn)行系統(tǒng)的比較分析,并對(duì)Wald、LR、LM三種內(nèi)生性檢驗(yàn)方法的檢驗(yàn)功效和過(guò)度拒絕特征進(jìn)行綜合評(píng)價(jià)。
在探討2SPS和2SRI方法的有限樣本特征時(shí),研究數(shù)據(jù)的生成過(guò)程主要有兩種:傳統(tǒng)方法是在簡(jiǎn)約型方程與行為方程中引入隨機(jī)生成但彼此相關(guān)的誤差項(xiàng),并將這種相關(guān)性由簡(jiǎn)約型方程傳遞給內(nèi)生變量,從而導(dǎo)致由簡(jiǎn)約型方程生成的變量在行為方程中與其誤差項(xiàng)相關(guān),最終造成行為方程具有內(nèi)生性[5,12];另一種方法是將隨機(jī)生成的潛在因子同時(shí)引入簡(jiǎn)約型方程和行為方程中,使行為方程中的誤差項(xiàng)與部分回歸元相關(guān)而造成內(nèi)生性[8-9]。與傳統(tǒng)方法相比,后者的優(yōu)勢(shì)在于能夠用潛在因子來(lái)表示個(gè)體不可觀察異質(zhì)性對(duì)于簡(jiǎn)約型方程與行為方程的影響,會(huì)具有更豐富的經(jīng)濟(jì)學(xué)含義和現(xiàn)實(shí)意義。因此,設(shè)定帶有內(nèi)生變量的非線性模型為:
其中M(·)是已知某種形式的非線性方程;i為樣本個(gè)體序號(hào);xoi為一個(gè)1×K的可觀測(cè)外生變量向量;xei為一個(gè)1×S的協(xié)變量向量,且與一系列S個(gè)不可觀測(cè)的干擾變量qi相關(guān),因此為內(nèi)生變量向量,同時(shí)假定不可觀測(cè)干擾變量qi的個(gè)數(shù)與內(nèi)生協(xié)變量xei的個(gè)數(shù)相同[5,9];β0、βe和 λ 是模型的參數(shù)向量;ε 為模型隨機(jī)誤差項(xiàng),且E(εi|xoi;xei;qi)=0。模型(1)的條件均值方程為:
由于模型存在內(nèi)生性問(wèn)題的根本原因是協(xié)變量xei與不可觀測(cè)干擾變量qi之間具有相關(guān)關(guān)系,因此為解決內(nèi)生性問(wèn)題,需要引入工具變量來(lái)處理內(nèi)生性所導(dǎo)致的估計(jì)偏差。這里,構(gòu)造S個(gè)包含內(nèi)生協(xié)變量xei與不可觀測(cè)干擾變量qi的簡(jiǎn)約型模型,即:
其中r(·)為已知某種形式的非線性函數(shù);zi=[xoi,wi],其中wi為一個(gè)1×S+的工具變量向量,如果wi為一個(gè)有效的工具變量向量,應(yīng)該滿足以下條件:wi與內(nèi)生協(xié)變量xei高度相關(guān)、與外生變量xoi和隨機(jī)誤差項(xiàng)εi均不相關(guān),并且工具變量之間互不相關(guān),同時(shí)工具變量的個(gè)數(shù)不應(yīng)小于內(nèi)生協(xié)變量的個(gè)數(shù),即S+≥S;αs是模型的回歸系數(shù);qis為模型的隨機(jī)誤差項(xiàng)。
在一般非線性模型的基礎(chǔ)上,用服從多項(xiàng)分布的變量di代替模型(1)中的xei,并設(shè)定因變量yi對(duì)外生變量集xoi、多項(xiàng)分布變量集di和不可觀測(cè)干擾變量集qi建立計(jì)數(shù)模型,其條件均值方程為:
由于計(jì)數(shù)變量的取值具有非負(fù)、離散和過(guò)度分散的特點(diǎn),本文設(shè)定計(jì)數(shù)變量yi服從負(fù)二項(xiàng)分布,則條件概率密度函數(shù)可以表示為:
其中μi為yi的條件均值,即μi=E(yi|xi;di;qi) =exp(xiβ0+diβe+qiλ);φ 為過(guò)度分散系數(shù),即 φ =1/α(α > 0);yi的條件方差可表示為μi(1+φμi)。本文采用隨機(jī)效應(yīng)模型生成虛擬變量dij,表示個(gè)體i根據(jù)隨機(jī)生成的效用值來(lái)選擇選項(xiàng)j,以滿足其自身預(yù)期效用最大化,而個(gè)體 i選擇選項(xiàng)j的預(yù)期效用為EVij=αj+qij,如果選項(xiàng)j能夠使個(gè)體i的預(yù)期效用達(dá)到最大,那么EVij≥ EVik(k≠ j)必然成立;虛擬變量dij表示個(gè)體i的選擇結(jié)果,如果個(gè)體i選擇了選項(xiàng) j,dij=1,否則dij=0;同時(shí),將選項(xiàng)0的效用進(jìn)行標(biāo)準(zhǔn)化,即EVi0=0,并且用多項(xiàng) Logit模型估計(jì)dij的取值概率分布,即設(shè)定dij的簡(jiǎn)約型方程為多項(xiàng)Logit形式:
在2SLS的估計(jì)過(guò)程中,首先以計(jì)數(shù)模型中的每個(gè)內(nèi)生協(xié)變量dij為因變量、以工具變量zi為自變量,構(gòu)造簡(jiǎn)約型模型dij=αj+qij,并進(jìn)行最小二乘估計(jì);然后利用估計(jì)模型得到預(yù)測(cè)值,并用替代行為方程中的di后,再進(jìn)行最小二乘法估計(jì)。如果忽略不可觀測(cè)干擾變量qi的存在,就相當(dāng)于未考慮內(nèi)生性問(wèn)題,即是把qiλ項(xiàng)并入誤差項(xiàng) ε中,那么估計(jì)的實(shí)際誤差項(xiàng) εOLS應(yīng)為 εOLS=qiλ + ε,而qi與di相關(guān),會(huì)造成誤差項(xiàng)與內(nèi)生協(xié)變量di相關(guān),出現(xiàn)內(nèi)生性問(wèn)題,最終會(huì)導(dǎo)致嚴(yán)重的估計(jì)偏差;但在2SLS的第二步估計(jì)中,采用代替di,使得被OLS忽視的不可觀測(cè)干擾變量qi被合并到誤差項(xiàng)中,此時(shí)的模型實(shí)際誤差項(xiàng)ε2SLS為而被估計(jì)的模型為,這樣誤差項(xiàng)與di和xi均不相關(guān),內(nèi)生性問(wèn)題得以解決。因此,當(dāng)簡(jiǎn)約型方程和行為方程均滿足線性條件時(shí),2SLS可以很好地解決模型的內(nèi)生性問(wèn)題。
2SPS可以看作是2SLS在非線性模型中的拓展,這兩種估計(jì)方法的步驟類似,但是2SPS法允許簡(jiǎn)約型方程與行為方程都可以選擇更加符合現(xiàn)實(shí)的非線性模型,因而模型參數(shù)的估計(jì)方法也變成了非線性最小二乘法或者極大似然估計(jì)法。在第一階段中,采用多項(xiàng)Logit模型估計(jì)簡(jiǎn)約型回歸方程,得到預(yù)測(cè)值為然后,去掉計(jì)數(shù)模型中不可觀測(cè)的干擾變量qi,同時(shí)用第一階段的代替內(nèi)生協(xié)變量di,并利用非線性最小二乘法或其他估計(jì)方法來(lái)估計(jì)行為方程yi=M(xoi如果 M(·) 是非線性函數(shù)形式,那么βe和qiλ都不能從非線性函數(shù)中分離出來(lái),并會(huì)被合并到誤差項(xiàng)中,所以內(nèi)生協(xié)變量與誤差項(xiàng)間的相關(guān)性并沒(méi)有被完全消除。因此,2SPS方法實(shí)際上不能很好地解決非線性模型中的內(nèi)生性問(wèn)題。
2SRI方法的第一階段估計(jì)過(guò)程與2SPS方法相似,同樣需要用多項(xiàng)Logit模型估計(jì)簡(jiǎn)約型回歸方程,并得到多項(xiàng)選擇的預(yù)測(cè)結(jié)果 ^Pr(dij|zi);然后,計(jì)算估計(jì)模型的殘差值,并將其引入計(jì)數(shù)模型結(jié)構(gòu)型方程中,替換不可觀測(cè)的干擾變量qij,得到:
這里,殘差e2SRI的計(jì)算方式有兩種:第一種是由學(xué)者Cameron等提出的,并命名為原始?xì)埐?raw residuals)[13]:
第二種計(jì)算方式是由Pagan等于1989年提出的標(biāo)準(zhǔn)化殘差(standardized residuals),即對(duì)第一階段估計(jì)的殘差結(jié)果進(jìn)行單位方差標(biāo)準(zhǔn)化,具體形式為[14]:
那么,模型(7)可以被重新表示為:由于模型(10)中不可觀測(cè)的干擾變量被簡(jiǎn)約型回歸方程所估計(jì)并引入計(jì)數(shù)模型中,因而遺漏變量問(wèn)題得以解決,并且誤差項(xiàng)和均不相關(guān),所以計(jì)數(shù)模型的內(nèi)生性被消除。然而,已有研究文獻(xiàn)并沒(méi)有對(duì)這兩種殘差形式的性質(zhì)得出一致的理論分析結(jié)論,本文將在后續(xù)蒙特卡洛模擬實(shí)驗(yàn)中對(duì)二者的有限樣本特征進(jìn)行探討。
關(guān)于計(jì)量經(jīng)濟(jì)學(xué)模型的內(nèi)生性檢驗(yàn),可以采用Wald、LR、LM三種檢驗(yàn)統(tǒng)計(jì)量,三種檢驗(yàn)方法都是基于極大似然估計(jì),并在大樣本下都具有漸近一致性,但這三種檢驗(yàn)方法在針對(duì)帶有多項(xiàng)分布內(nèi)生回歸元的計(jì)數(shù)模型時(shí),其有限樣本特征卻未被詳細(xì)討論。因此,本文將基于這類計(jì)數(shù)模型對(duì)檢驗(yàn)方法的有限樣本性質(zhì)進(jìn)行探討。一般地,原假設(shè)常常表述為模型中不存在內(nèi)生性問(wèn)題,亦即模型中不存在被忽略的不可觀測(cè)干擾變量,因此計(jì)數(shù)模型內(nèi)生性檢驗(yàn)的原假設(shè)為 H0:λi=0(i=1,2,…,S);如果假設(shè)檢驗(yàn)的結(jié)果表明原假設(shè)被拒絕,那么就說(shuō)明原模型中存在內(nèi)生性問(wèn)題。
Wald檢驗(yàn)原理:是測(cè)量非約束估計(jì)量與約束估計(jì)量之間的距離,即只需估計(jì)非約束模型,所以適用于估計(jì)約束模型時(shí)比較困難的情形。為了方便討論,這里將若干約束條件以聯(lián)合檢驗(yàn)的形式給出H0:r(β)=q,構(gòu)造Wald統(tǒng)計(jì)量如下所示:
其中r(β)表示由J個(gè)參數(shù)約束條件組成的列向量;R(β)=r(β)/;r表示由0組成的列向量;表示非約束模型的參數(shù)估計(jì)量;^V是^β的方差協(xié)方差矩陣。在約束條件成立的條件下,上述構(gòu)造的Wald統(tǒng)計(jì)量漸近服從χ2(J)分布,其中J表示被檢驗(yàn)的約束條件個(gè)數(shù)。
LR檢驗(yàn)的基本思想:如果原假設(shè)H0對(duì)于模型的約束是有效的,那么施加相應(yīng)的約束不應(yīng)該使模型似然函數(shù)的最大值顯著減少。也就是說(shuō),LR檢驗(yàn)的實(shí)質(zhì)是比較有無(wú)約束條件下似然函數(shù)的最大值,用二者之間的比值構(gòu)造LR統(tǒng)計(jì)量為:
LM檢驗(yàn)的判定依據(jù):相對(duì)于約束模型估計(jì)的殘差平方和,無(wú)約束模型估計(jì)的殘差平方和是否顯著減少;如果無(wú)約束模型估計(jì)的殘差平方和顯著減少,則表明約束條件無(wú)效,即拒絕原假設(shè) H0。該檢驗(yàn)只需要估計(jì)約束模型,無(wú)須估計(jì)無(wú)約束模型,并且在原假設(shè)成立的條件下,該統(tǒng)計(jì)量也漸近服從χ2(J)分布。設(shè)定I()為信息矩陣,其逆矩陣為的方差協(xié)方差矩陣,則LM統(tǒng)計(jì)量形式為:
本文探討包含多項(xiàng)分布內(nèi)生變量計(jì)數(shù)模型的兩階段估計(jì)方法的有限樣本性質(zhì),所有模擬計(jì)算均由軟件Stata13實(shí)現(xiàn)。所設(shè)計(jì)實(shí)驗(yàn)的數(shù)據(jù)生成過(guò)程(Data Generate Process,DGP),具體可分為如下幾個(gè)步驟:
第一步,利用多項(xiàng)選擇Logit模型生成個(gè)體i的預(yù)期效用(EVi),并基于此在三個(gè)選項(xiàng)集(j=0,1,2)中進(jìn)行選擇決策。設(shè)定個(gè)體i選擇選項(xiàng)j的預(yù)期效用按如下形式生成:
其中 obsi~i.i.d.N(0,1);inst1i和 inst2i代表工具變量,inst1i是由服從(0,1)的均勻分布生成的虛擬變量 I[U(0,1) < 0.5],inst2i~ N(0,1);qi1和 qi2均服從相同的logistic分布,且相互獨(dú)立。
第二步,如果個(gè)體i在選項(xiàng)j上獲得的預(yù)期效用值(EVij)最大,那么個(gè)體 i的選擇結(jié)果所對(duì)應(yīng)的虛擬變量dij取值為 1,否則取值為 0;若EVi1=max(EVi0;EVi1;EVi2),那么di1=1,否則di1=0。
第三步,計(jì)數(shù)因變量yi服從負(fù)二項(xiàng)分布,可以通過(guò)泊松分布以伽瑪分布為權(quán)重的連續(xù)混合分布抽樣獲得,其混合概率密度函數(shù)為:
其中 Γ(·) 表示伽瑪積分;vi~ Gamma(φ,1/φ)??紤]到計(jì)數(shù)變量的取值具有非負(fù)、離散和過(guò)度分散的特點(diǎn),設(shè)定兩個(gè)數(shù)據(jù)生成過(guò)程(DGP1和 DGP2),其分散系數(shù)φ分別設(shè)定為1和3,φ值越小表示計(jì)數(shù)數(shù)據(jù)越分散。
第四步,設(shè)定yi的條件均值μi為常用的指數(shù)函數(shù)形式為:
其中k為一常數(shù),DGP1和DGP2中分別設(shè)定取值為1和 -1。內(nèi)生性是通過(guò)生成并在多項(xiàng)選擇和計(jì)數(shù)模型的生成方程中加入滿足特定概率分布的潛在因子qij來(lái)完成的,設(shè)定 λi1= -0.1、λi2= -0.5;若 λi1=λi2=0,表明潛在因子 qij未進(jìn)入計(jì)數(shù)數(shù)據(jù)均值方程,即內(nèi)生性問(wèn)題不存在。
為考察不同估計(jì)方法對(duì)模型參數(shù)估計(jì)的實(shí)際影響,采用如下五種估計(jì)方法對(duì)上述計(jì)數(shù)模型進(jìn)行估計(jì):
第一種,真實(shí)模型(True model,即數(shù)據(jù)生成過(guò)程反向)的極大似然估計(jì);第二種,簡(jiǎn)化模型(Nave model,即排除潛在因子影響)的極大似然估計(jì);第三種,2SLS;第四種,2SPS;第五種,2SRI。為了比較這些估計(jì)方法的優(yōu)劣,構(gòu)建了三種衡量指標(biāo):平均偏差、方差、均方誤差,其中平均偏差是用來(lái)觀察估計(jì)方法的準(zhǔn)確性,表示模擬實(shí)驗(yàn)中估計(jì)參數(shù)與真實(shí)參數(shù)之間的誤差平均值;方差為模擬中估計(jì)參數(shù)的方差,用來(lái)觀察估計(jì)方法的穩(wěn)健性;均方誤差為參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值,用來(lái)衡量估計(jì)參數(shù)與真實(shí)參數(shù)間的平均絕對(duì)偏離程度。在每種估計(jì)方法的討論中,還分別將行為方程設(shè)定為負(fù)二項(xiàng)回歸方程和泊松回歸方程,前者是計(jì)數(shù)模型的正確設(shè)定,而后者的設(shè)定則違背了計(jì)數(shù)數(shù)據(jù)分散的性質(zhì),但選用泊松分布能夠更好地觀察不同方法在錯(cuò)誤設(shè)定下的具體表現(xiàn)??疾觳煌烙?jì)和檢驗(yàn)方法受樣本容量的影響,在每個(gè)數(shù)據(jù)生成過(guò)程中均選擇樣本容量分別為 N=300、2 000、5 000,模擬次數(shù)為5 000次。根據(jù)不同的估計(jì)結(jié)果,又進(jìn)一步考察了Wald、LR、LM三種檢驗(yàn)方法在檢驗(yàn)?zāi)P蛢?nèi)生性問(wèn)題時(shí)的有效性。
表1報(bào)告了虛擬變量dij和計(jì)數(shù)因變量yi的描述性統(tǒng)計(jì)結(jié)果。由表1可以看出,在不同的數(shù)據(jù)生成過(guò)程中,dij的邊際概率分布是不變的;從yi的均值和方差來(lái)看,與DGP2相比,由DGP1生成計(jì)數(shù)數(shù)據(jù)yi的“過(guò)度分散”特征更為明顯;同時(shí),由DGP2生成的yi還顯示出了“超額零”的情形。
表1 虛擬變量和計(jì)數(shù)因變量的描述性統(tǒng)計(jì)表單位:%
1.計(jì)數(shù)數(shù)據(jù)的概率分布被正確設(shè)定(即行為方程被設(shè)定為負(fù)二項(xiàng)回歸模型)的情形。表2給出了在兩種數(shù)據(jù)生成過(guò)程中內(nèi)生虛擬變量系數(shù)(γ1和 γ2)的估計(jì)結(jié)果,其中 2SRI(R)和 2SRI(S)分別表示在2SRI方法第一階段估計(jì)殘差的兩種形式:原始?xì)埐詈蜆?biāo)準(zhǔn)化殘差,其結(jié)果表明了這五種估計(jì)方法在DGP1和DGP2中的表現(xiàn)基本相似:其一,真實(shí)模型的極大似然估計(jì)表現(xiàn)最好,并且參數(shù)估計(jì)結(jié)果隨樣本容量的增加而更加準(zhǔn)確,這與筆者的預(yù)期相一致;其二,忽略了內(nèi)生性簡(jiǎn)化模型的極大似然估計(jì)結(jié)果卻顯示了較大的估計(jì)偏差,盡管方差和均方誤差相對(duì)較小,但平均偏差很大且符號(hào)為負(fù),說(shuō)明系數(shù)估計(jì)值均小于其真值,甚至對(duì)γ2會(huì)給出符號(hào)相反的估計(jì)值,而且這種估計(jì)偏差不會(huì)隨樣本容量增大而顯著減小,可見(jiàn)在估計(jì)模型時(shí)忽略內(nèi)生性問(wèn)題會(huì)導(dǎo)致嚴(yán)重的估計(jì)偏差,從而得到錯(cuò)誤的估計(jì)結(jié)論;其三,在三種樣本容量條件下2SPS和2SRI方法的平均偏差均小于簡(jiǎn)化模型的極大似然估計(jì),但與真實(shí)模型相比仍有較大偏差,但平均偏差、方差和均方誤差三個(gè)衡量指標(biāo)會(huì)隨著樣本容量增大而減小,這說(shuō)明兩階段方法估計(jì)在大樣本的情況下表現(xiàn)更優(yōu);其四,采用標(biāo)準(zhǔn)化殘差的2SRI方法,在三種衡量指標(biāo)上都要優(yōu)于使用原始?xì)埐畹?SRI方法和2SPS方法。
為更好地評(píng)價(jià)上述估計(jì)方法,參考Geraci等的做法[9],本文還構(gòu)造了一種綜合了兩個(gè)系數(shù)估計(jì)誤差的合成指標(biāo)——總體誤差,其定義為每次模擬中兩個(gè)參數(shù)估計(jì)誤差的絕對(duì)值之和。圖1繪制了不同DGP和樣本容量下的總體誤差概率密度圖,并在圖中給出了不同情形下的總體誤差均值??梢钥吹?,總體誤差均值在2SRI(S)、2SRI(R)、2SPS之間存在如下關(guān)系:2SRI(S)<2SRI(R)<2SPS,表明 2SRI(S)在估計(jì)方面更具有優(yōu)勢(shì),這與表2的結(jié)論一致。同時(shí),在計(jì)數(shù)數(shù)據(jù)更為集中(即DGP2)的情況下,兩階段估計(jì)方法的估計(jì)總體偏差相對(duì)更小,估計(jì)結(jié)果也相對(duì)更好。
表2 基于負(fù)二項(xiàng)回歸模型估計(jì)的模擬結(jié)果表
圖1 基于負(fù)二項(xiàng)回歸模型估計(jì)的總體誤差概率密度圖
2.計(jì)數(shù)數(shù)據(jù)的概率分布被錯(cuò)誤設(shè)定為泊松分布 的情形。表3給出了模型被錯(cuò)誤設(shè)定下各種估計(jì)方法的衡量指標(biāo),其結(jié)果表明:與正確設(shè)定的情形相比,每種估計(jì)方法在錯(cuò)誤設(shè)定下的估計(jì)偏差都有不同程度的增大,但由DGP2生成的計(jì)數(shù)數(shù)據(jù)相對(duì)更為集中,所以泊松分布錯(cuò)誤設(shè)定下估計(jì)方法的表現(xiàn)要優(yōu)于DGP1。盡管如此,錯(cuò)誤設(shè)定下的真實(shí)模型的極大似然估計(jì)仍然給出了可靠的估計(jì)結(jié)果,而簡(jiǎn)化模型的估計(jì)結(jié)果還是存在很大的平均偏差。同時(shí),表3還給出了忽略模型非線性的2SLS的估計(jì)結(jié)果。筆者發(fā)現(xiàn),由于忽略了模型的非線性,2SLS的參數(shù)估計(jì)結(jié)果具有很大的平均偏差、方差和均方誤差,這說(shuō)明2SLS方法并不適合估計(jì)非線性計(jì)數(shù)模型,而2SPS和2SRI則給出了相對(duì)較小的估計(jì)偏差,其中采用標(biāo)準(zhǔn)化殘差的2SRI方法的優(yōu)勢(shì)更加明顯一些。
圖2 基于泊松回歸模型估計(jì)的總體誤差概率密度圖
表3 基于泊松回歸模型估計(jì)的模擬結(jié)果表
MSE 6.828 5.384 1.365 1.077 0.573 0.494 6.857 7.311 1.069 0.812 0.504 0.417
同樣地,在圖2中繪制了錯(cuò)誤設(shè)定下的2SRI和2SPS估計(jì)的總體誤差的概率密度圖。圖2連同表3和表4都印證了使用標(biāo)準(zhǔn)化殘差的2SRI方法的優(yōu)越性。該方法估計(jì)參數(shù)的參數(shù)方差,均方誤差和總體誤差都要小于其他兩種方法,展示出更好的穩(wěn)定性和準(zhǔn)確性,這說(shuō)明已經(jīng)發(fā)現(xiàn)的2SRI(S)在正確設(shè)定下的較優(yōu)表現(xiàn)在泊松錯(cuò)誤的設(shè)定時(shí)仍然成立。然而,一個(gè)與正確設(shè)定下不同的結(jié)論是,在錯(cuò)誤設(shè)定下2SPS和2SRI(R)兩種估計(jì)方法的四種衡量指標(biāo)都很相近,說(shuō)明使用原始?xì)埐畹?SRI方法相較于2SPS的優(yōu)勢(shì)在錯(cuò)誤模型設(shè)定下被嚴(yán)重削弱,兩者沒(méi)有明顯的優(yōu)劣差別。綜上可以看出,如果忽略模型的內(nèi)生性問(wèn)題和錯(cuò)誤設(shè)定計(jì)數(shù)變量的概率分布都會(huì)導(dǎo)致嚴(yán)重的估計(jì)偏差,但2SRI方法具有相對(duì)更為準(zhǔn)確和穩(wěn)定的優(yōu)勢(shì),而且采用標(biāo)準(zhǔn)化殘差的2SRI方法要比原始?xì)埐畋憩F(xiàn)得更好。
通過(guò)上述估計(jì)方法的模擬實(shí)驗(yàn)結(jié)果表明,在估計(jì)包含多項(xiàng)分布內(nèi)生變量的計(jì)數(shù)模型時(shí),2SRI方法具有明顯優(yōu)勢(shì)。下面將基于2SRI方法,利用蒙特卡洛模擬實(shí)驗(yàn),從水平扭曲和檢驗(yàn)功效兩個(gè)方面考察計(jì)量經(jīng)濟(jì)學(xué)中常用的三種檢驗(yàn)方法——Wald、LR、LM檢驗(yàn)方法的表現(xiàn),包括檢驗(yàn)方法的有效性、模型錯(cuò)誤設(shè)定對(duì)檢驗(yàn)效果的影響等。表4~6報(bào)告了在不同樣本容量和數(shù)據(jù)生成過(guò)程中,基于負(fù)二項(xiàng)分布設(shè)定的外生性檢驗(yàn)的拒絕概率,其結(jié)果顯示在負(fù)二項(xiàng)分布的正確設(shè)定下,三種檢驗(yàn)方法的檢驗(yàn)水平與名義顯著性水平均相差不大,表明檢驗(yàn)統(tǒng)計(jì)量具有合理的檢驗(yàn)水平性質(zhì)。當(dāng)樣本容量為N=300時(shí),三種檢驗(yàn)方法的功效都比較小,但隨著樣本容量的增加,三種檢驗(yàn)方法的功效也逐漸趨近于1,這表明在實(shí)際應(yīng)用時(shí),研究者應(yīng)盡可能采用較大容量樣本來(lái)檢驗(yàn)?zāi)P偷膬?nèi)生性問(wèn)題,以保證檢驗(yàn)結(jié)果的可靠性。同時(shí)還發(fā)現(xiàn),與采用原始?xì)埐畹?SRI方法相比,基于標(biāo)準(zhǔn)化殘差的2SRI方法進(jìn)行的內(nèi)生性檢驗(yàn)方法的功效會(huì)有所提高。
表4 基于負(fù)二項(xiàng)回歸模型的外生性檢驗(yàn)拒絕概率表(N=300)
表5 基于負(fù)二項(xiàng)回歸模型的外生性檢驗(yàn)拒絕概率表(N=2 000)
表6 基于負(fù)二項(xiàng)回歸模型的外生性檢驗(yàn)拒絕概率表(N=5 000)
當(dāng)計(jì)數(shù)數(shù)據(jù)被錯(cuò)誤設(shè)定為泊松分布時(shí),同樣模擬了三種檢驗(yàn)方法的外生性檢驗(yàn)拒絕概率(見(jiàn)表7~9),其結(jié)果顯示:由于忽略了數(shù)據(jù)的過(guò)度散布特征,Wald和LR檢驗(yàn)方法均發(fā)生了嚴(yán)重的水平扭曲現(xiàn)象,遠(yuǎn)大于名義檢驗(yàn)水平值,同時(shí)二者的檢驗(yàn)功效相對(duì)較高,并隨著樣本容量增大而增大,但二者的檢驗(yàn)水平扭曲程度并未明顯減小;LM檢驗(yàn)水平扭曲較小,始終比較接近于名義水平值,但其檢驗(yàn)功效偏差較大,隨著樣本容量的增加,三種方法的檢驗(yàn)功效均接近于1;同時(shí),DGP2的模擬檢驗(yàn)結(jié)果總體要優(yōu)于DGP1,這主要是因?yàn)橛蒁GP2生成的計(jì)數(shù)數(shù)據(jù)的過(guò)度散布程度相對(duì)較小,所以三種檢驗(yàn)方法在樣本容量為2 000和5 000時(shí)都顯示出合理的檢驗(yàn)水平與功效。
表7 基于泊松回歸模型的外生性檢驗(yàn)拒絕概率表(N=300)
表8 基于泊松回歸模型的外生性檢驗(yàn)拒絕概率表(N=2 000)
表9 基于泊松回歸模型的外生性檢驗(yàn)拒絕概率表(N=5 000)
在2SRI方法的第一階段中,關(guān)于殘差定義有兩種方法:原始?xì)埐詈蜆?biāo)準(zhǔn)化殘差,為探討不同的殘差定義對(duì)三種檢驗(yàn)方法效果的影響,繪制了基于不同名義水平和兩種殘差定義的檢驗(yàn)功效對(duì)比圖(見(jiàn)圖3)。從圖3中可以看到,在不同的數(shù)據(jù)生成過(guò)程中,三種檢驗(yàn)方法在標(biāo)準(zhǔn)化殘差定義下均顯示了更大的檢驗(yàn)功效,尤其是在名義水平小于0.10時(shí)。圖4展示了在模型被誤設(shè)為泊松分布時(shí)的情形,結(jié)果與圖3相似,無(wú)論模型是否被正確設(shè)定,標(biāo)準(zhǔn)化殘差處理都會(huì)使內(nèi)生性檢驗(yàn)的結(jié)果相對(duì)更有效。
進(jìn)一步,基于前文2SRI方法的模擬情況,把第一階段生成的誤差項(xiàng)(即不可觀測(cè)的潛在因子qi1和qi2)和兩種定義下得到的殘差進(jìn)行對(duì)比分析,以探究采用標(biāo)準(zhǔn)化殘差的2SRI方法表現(xiàn)穩(wěn)健的原因。圖5分別繪制了生成的潛在因子對(duì)原始?xì)埐詈蜆?biāo)準(zhǔn)化殘差進(jìn)行回歸估計(jì)的擬合圖以及三者的概率分布圖,其結(jié)果表明與原始?xì)埐钕啾?,?biāo)準(zhǔn)化的殘差更好地?cái)M合了潛在因子的可能取值范圍,而且從三者的概率密度曲線上來(lái)看,對(duì)第一階段估計(jì)的殘差結(jié)果進(jìn)行單位方差標(biāo)準(zhǔn)化增大了殘差的方差,從而能夠更好地近似潛在因子誤差項(xiàng),并據(jù)此得到更有效的內(nèi)生性檢驗(yàn)結(jié)果。
圖3 基于兩種不同殘差定義和負(fù)二項(xiàng)分布設(shè)定的檢驗(yàn)方法功效表現(xiàn)圖(N=5 000)
圖4 基于兩種不同殘差定義和泊松分布設(shè)定的檢驗(yàn)方法功效表現(xiàn)圖(N=5 000)
圖5 潛在因子和估計(jì)殘差的擬合圖與概率分布圖
本文通過(guò)蒙特卡洛模擬實(shí)驗(yàn),在數(shù)據(jù)分布特征、模型設(shè)定和樣本容量等不同情形下,研究包含多項(xiàng)分布內(nèi)生回歸元計(jì)數(shù)模型的兩階段估計(jì)方法(2SLS、2SPS、2SRI)的表現(xiàn),并從水平扭曲和功效兩個(gè)方面評(píng)價(jià) Wald、LR、LM三種內(nèi)生性檢驗(yàn)方法的有效性。蒙特卡洛模擬實(shí)驗(yàn)的數(shù)據(jù)生成過(guò)程,主要包括離散選擇模型、內(nèi)生性問(wèn)題的處理以及計(jì)數(shù)數(shù)據(jù)的隨機(jī)抽樣,大量模擬結(jié)果顯示:在忽略模型非線性形式、內(nèi)生性或者錯(cuò)誤設(shè)定計(jì)數(shù)數(shù)據(jù)分布特征時(shí),2SLS和2SPS會(huì)導(dǎo)致較為嚴(yán)重的估計(jì)偏差,但2SRI估計(jì)量則具有良好的有限樣本表現(xiàn),而且采用標(biāo)準(zhǔn)化殘差定義的方法可以使2SRI方法的估計(jì)結(jié)果更加準(zhǔn)確穩(wěn)定;蒙特卡洛模擬結(jié)果進(jìn)一步表明,基于2SRI估計(jì)方法的三種內(nèi)生性檢驗(yàn)方法,在計(jì)數(shù)數(shù)據(jù)分布設(shè)定正確時(shí)都具有合理的實(shí)際檢驗(yàn)水平和功效,但在忽略計(jì)數(shù)數(shù)據(jù)過(guò)度分散特征時(shí),Wald和LR檢驗(yàn)會(huì)發(fā)生嚴(yán)重的水平扭曲,而LM檢驗(yàn)統(tǒng)計(jì)量會(huì)更有效;同時(shí),在內(nèi)生性檢驗(yàn)的模擬實(shí)驗(yàn)中,本文還發(fā)現(xiàn)基于標(biāo)準(zhǔn)化殘差的2SRI估計(jì)可以使三種檢驗(yàn)方法都獲得更大的檢驗(yàn)功效,即減小了第二類錯(cuò)誤的發(fā)生概率,并通過(guò)對(duì)生成潛在因子與兩種定義殘差進(jìn)行比較分析,發(fā)現(xiàn)標(biāo)準(zhǔn)化定義的殘差方差要大于原始?xì)埐?,能夠使其更好地近似生成離散選擇模型中的潛在因子。因此,基于標(biāo)準(zhǔn)化殘差定義的相關(guān)估計(jì)和檢驗(yàn)方法在有限樣本下更加有效。