蔣青嬗,鐘世川
(廣東外語外貿(mào)大學a.數(shù)學與統(tǒng)計學院;b.廣州國際商貿(mào)中心重點研究基地,廣州 510006)
隨機前沿分析(SFA)是效率測算的常用方法,在經(jīng)濟、管理等領域應用較廣。目前SFM有大量理論和實證研究[1-3],但暫無研究涉及SFM的變量選擇。變量選擇對于建模非常重要。如果模型內(nèi)包含較多變量,模型的復雜度增加、解釋能力差且可能導致多重共線性問題。在完全共線性情況下,估計量不存在。在近似共線性情況下,估計量非有效且估計量的經(jīng)濟意義不合理。同時,變量的顯著性檢驗失去意義,極可能將重要變量剔除。對于隨機前沿分析,影響因素分析、要素投入比計算和技術效率測算是核心部分。變量選擇有助于挑選出顯著影響產(chǎn)出的投入,避免資源浪費。變量選擇對應的參數(shù)估計的精度較高,要素投入比計算較準確,從而得出的要素分配更合理。基于上述分析,對SFM進行變量選擇具有一定的可行性。
傳統(tǒng)的變量選擇方法有全部子集法和逐步回歸法。該類方法效率較低且穩(wěn)定性較差。當變量數(shù)目增加時可能存在維數(shù)災難問題。考慮到傳統(tǒng)變量選擇方法的不足,懲罰方法應運而生。懲罰方法通過把較小的系數(shù)壓縮為零來進行變量選擇。該法較穩(wěn)定且計算量較少。目前有較多變量選擇的理論研究。在懲罰函數(shù)構建上,Antoniadis和Fan(2001)[4]、Fan和Li(2001)[5]提出懲罰函數(shù)的構建標準,F(xiàn)an和Li(2001)[5]構造了滿足上述要求的SCAD懲罰。Tibshirani和 Zou(1996)[6]分別構造了 Lasso懲罰和Alasso懲罰,Yuan和Li(2006)[7]、Wang和Leng(2008)[8]分別構造了集群Lasso懲罰和集群Alasso懲罰。
本文研究SFM的變量選擇問題。隨機前沿模型包含復合殘差項,該項由雙邊誤差項(刻畫隨機誤差)和單邊技術無效率項(刻畫技術無效率程度)組合而成。在形式上,隨機前沿模型復雜于經(jīng)典的線性模型。由于復合殘差項的特殊性,已有的針對于線性模型的變量選擇方法并不能直接套用。本文開創(chuàng)性地使用Alasso懲罰方法對隨機前沿模型進行變量選擇,通過數(shù)值模擬考察變量選擇的有效性和參數(shù)估計的效果。
引入經(jīng)典的隨機生產(chǎn)前沿模型:
其中Y=(y1,…,yN)′為因變量,衡量N個生產(chǎn)單元的產(chǎn)出;X為N×p階自變量矩陣,衡量N個生產(chǎn)單元在p種要素間的投入;β=(β1,…,βp)′為參數(shù)變量;ε為復合誤差項。該誤差項包含兩部分:v為雙邊隨機誤差,服從正態(tài)分布,即v~N(0,)。u為單邊誤差項,可刻畫技術無效率程度,服從半正態(tài)分布,即IN表示單位矩陣。v和u相互獨立且與自變量X不相關。模型中的未知參數(shù)為β,和。
對于隨機前沿模型,常用的估計方法有修正最小二乘法、廣義矩估計、極大似然估計和貝葉斯估計。相對來說,極大似然估計操作簡單且估計量有效。接下來介紹隨機模型模型的極大似然估計法,下文的變量選擇方法也以極大似然估計法為基礎。
對于雙邊誤差項vi和單邊技術無效率項ui,其密度函數(shù)可分別表示為:
由于vi和ui獨立,i=1,…,N,故ui和vi的聯(lián)合密度函數(shù)可表示為:
由于εi=vi-ui,從而εi和ui的聯(lián)合概率密度函數(shù)為:
將f(ui,εi)對ui積分,推導可得到εi的邊際密度函數(shù):
從而模型的對數(shù)似然函數(shù)(已去除常數(shù)項)如下:
其中εi=yi-Xiβ,Xi為自變量矩陣的第i行,i=1,…,N。
式(6)的未知參數(shù)集合為φ={λ,σ2,β},最大化式(8)可得到參數(shù)估計量由于反解可得和的估計量和
基于Alasso懲罰函數(shù)的優(yōu)勢,此處使用Alasso懲罰函數(shù)對隨機前沿模型進行變量選擇。隨機前沿模型的待估參數(shù)集為φ={λ,σ2,β},由于只需對自變量進行選擇,所以只對參數(shù)變量β施加懲罰。上述目標分兩個步驟完成:
步驟1:計算基于Lasso懲罰的參數(shù)估計。
步驟2:使用參數(shù)估計獲得懲罰權重,令:
該步驟的目標函數(shù)為:
步驟1和步驟2的目標函數(shù)無法得出顯示解,對應的參數(shù)估計可迭代至收斂。本文取收斂規(guī)則為10-6,其中和分別為第w次和第w+1次迭代得到的估計量。不斷迭代直至達到收斂規(guī)則。最終可得參數(shù)集φ的估計。
上述步驟中,參數(shù)r控制著懲罰的力度。如果r過大,較多的參數(shù)被壓縮至零,容易導致欠擬合。如果r過小,無法達到變量選擇的目的。常用的選取r的方法有交叉驗證、AIC準則和BIC準則等,其中基于BIC準則的變量選擇具有更好的稀疏性。本文的側(cè)重點在于變量選擇的準確性和模型的稀疏性,所以用BIC準則決定懲罰參數(shù)r。
步驟1和步驟2可對隨機前沿模型進行變量選擇并得出模型中的未知參數(shù)的估計。技術效率的測算是隨機前沿模型的目標。Jondrow等(1982)[9]認為單邊誤差項u基于復合誤差項ε的條件分布包含了復合誤差中關于單邊誤差的所有信息,其令該條件分布的期望或者眾數(shù)作為單邊誤差項的估計,即最終技術效率的估計為本文雖然對隨機前沿模型進行變量選擇,但對技術效率的估計仍可沿用JLMS方法。
推導可知ui基于εi的條件分布服從截斷正態(tài)分布,即,其中。該分布的期望或者眾數(shù)可作為技術無效率項的點估計,即:
相應技術效率的估計為TEi=exp(-ui),其中ui為ui的點估計。
本文模擬的目的在于考察變量選擇的準確性及參數(shù)估計的精度。對于變量選擇的準確性,考察了三個衡量指標:①重要變量被錯誤剔除的比例。②非重要變量被正確剔除的比例。③正確識別真實模型的比例。如果第一個指標越小,那么第二個和第三個指標就越大,變量選擇的準確性也越高。對于參數(shù)估計的精度,考察估計量的偏差、標準差和均方誤差。如果上述三個指標越小,則參數(shù)估計的精度越高。
此處設計如下三組模擬:
(1)取N=300,p=6,考慮如下隨機前沿模型:
其中X為N×p階自變量矩陣,X內(nèi)的元素服從(1,5)的均勻分布。由于本文著重于變量選擇,為了模擬的簡潔性,此處的模擬不包含截距項;(β1,β2,β3,β4)=(1,2,3,4) ;隨機誤差項v~N(0,IN) ,無效率項u~N+(0,22IN),從而的真值為2的真值為5。
(2)取N=500,其余的定義同模擬(1)。
(3)取N=800,其余的定義同模擬(1)。
模擬(2)和模擬(3)的樣本容量大于模擬(1),有助于分析大樣本下的效果。在模擬分析時,本文同時采用普通極大似然估計方法對隨機前沿模型進行估計并比較本文提出方法(用AVS表示)和普通極大似然估計方法(用LME表示)在變量選擇和參數(shù)估計方面的表現(xiàn)?;谏鲜龇椒ǖ哪M(1)、模擬(2)和模擬(3)均模擬200次。分析結(jié)果如表1和表2所示:
表1 變量選擇的準確性 (單位:%)
表2 參數(shù)估計的效果
由表1可知,AVS法和LME對應的指標NZZ均為0,這表明雖然本文側(cè)重于變量選擇,但AVS法和LME均不會把重要變量剔除掉,重要變量的可靠性得到保證。同時,由于進行變量選擇后隨機前沿模型仍包含所有的重要變量,所以不會造成遺漏變量、參數(shù)估計有偏和不一致的問題。AVS法對應的指標ZZ和Z遠高于LME,這說明AVS法能以較高的正確率將模型中的非重要變量剔除掉并識別出真實模型,變量選擇的準確度較高。當樣本容量增加時,AVS法對應的指標ZZ和Z小幅度增加,變量選擇的準確性也增加。而LME因其較低的準確率基本不具備變量選擇的功能。雖然隨著樣本容量的增加,LME對應的指標ZZ和Z增加,但仍處于較低的水平,故可認為LME基本不具備變量選擇的功能。
表2清楚地展示了AVS法和LME法對應參數(shù)估計的偏差、標準差和均方誤差。β5、β6的真值為零且AVS和LME能以較高的比例剔除掉這兩個參數(shù)對應的變量,故此處不考慮β5、β6的參數(shù)估計效果。由于變量個數(shù)、指標數(shù)較多,為更直觀簡潔地比較AVS法和LME的參數(shù)表現(xiàn),此處把AVS法和LME得出的參數(shù)估計的偏差、標準差和均方誤差分別提取出來并繪制成如圖1。參數(shù)β1、β2、β3、β4和參數(shù)λ、σ2在偏差、標準差和均方誤差方面相差較大,故此處把β1、β2、β3、β4和λ、σ2分開處理。圖 1(a)、圖1(c)、圖 1(e)分別對應β1、β2、β3、β4的估計在模擬(1)、模擬(2)、模擬(3)處的偏差、標準差和均方誤差,圖1(b)、圖1(d)、圖1(f)分別對應λ、σ2的估計在模擬(1)、模擬(2)、模擬(3)處的偏差、標準差和均方誤差。每個圖包含兩條線,AVS和LME。判斷AVS法是否優(yōu)于LME法即為判斷AVS線是否有較多的點位于LME線的下方。
圖1 AVS法和LME估計效果比對
從圖1(a)中可知,AVS線大部分位于LME線的上方。12個點中,AVS有9個點高于LME。對于AVS線,第1、2、3點先上升后下降,第4、5、6點先下降后上升,第7、8、9點和第10、11、12點均連續(xù)下降。對于LME線,第1、2、3點連續(xù)上升,第4、5、6點連續(xù)下降,第7、8、9點平行下降,第10、11、12點先上升后下降。從圖1(b)中可知,AVS線幾乎完全位于LME線的上方。6個點中,AVS有5個點高于LME。對于AVS線,第1、2、3點連續(xù)下降,第4、5、6點先下降后上升。對于LME線,第1、2、3點先上升后下降,第4、5、6點連續(xù)上升。上述分析表明AVS法的參數(shù)估計的偏差大于LME。隨著樣本量的增加,部分參數(shù)估計的偏差絕對值增加,部分參數(shù)估計的偏差絕對值減少,偏差的表現(xiàn)不穩(wěn)定。
從圖1(c)中可知,AVS線大部分位于LME線的下方。12個點中,AVS有10個點低于LME。對于AVS線,第1、2、3點,第4、5、6點,第7、8、9點和第10、11、12點均連續(xù)下降。LME線也如此。從圖1(d)中可知,AVS線完全位于LME線的上方,AVS的6個點均高于LME。對于AVS線,第1、2、3點和第4、5、6點均連續(xù)下降。LME線也如此。上述分析表明,對于參數(shù)β1、β2、β3、β4,AVS法的標準差低于LME,這說明變量選擇方法能有效減少自變量對應的參數(shù)估計的標準差。對于參數(shù)λ和σ2,AVS法的標準差要高于LME。隨著樣本容量的增加,AVS法和LME對應的標準差均逐漸減少。
從圖1(e)中可知,AVS線大部分位于LME線的下方。12個點中,AVS有10個點低于LME。對于AVS線,第1、2、3點,第4、5、6點,第7、8、9點和第10、11、12點均連續(xù)下降。LME線也如此。從圖1(f)中可知,AVS線完全位于LME線的上方,AVS的6個點均高于LME。對于AVS線,第1、2、3點和第4、5、6點均連續(xù)下降。LME線也如此。上述分析表明,對于參數(shù)β1、β2、β3、β4,AVS法的均方誤差低于LME。對于參數(shù)λ和σ2,AVS法的均方誤差均高于LME。該結(jié)果較好理解。參數(shù)λ和σ2的估計與殘差密切相關,引入越多的變量,殘差會擬合得越好。
綜上可知,對于自變量對應參數(shù)β1、β2、β3、β4,AVS法的估計效果優(yōu)于LME法。對于參數(shù)λ和σ2,AVS法的估計效果次于LME法。
本文首次使用Alasso懲罰方法對隨機前沿模型進行變量選擇和參數(shù)估計,Alasso懲罰方法為連續(xù)最優(yōu)化過程,具有較好的穩(wěn)定性和較少的計算量。接著使用蒙特卡羅模擬考察變量選擇的準確性和參數(shù)估計的效果。
模擬結(jié)果表明:(1)隨機前沿模型常用的LME方法基本不具備變量選擇的功能,LME方法不能有效識別模型中非重要的要素投入。(2)AVS能以較高的準確率剔除非重要變量、保留重要變量和識別真實模型,變量選擇的準確性較高。所以在進行影響因素分析時,AVS法的結(jié)果更為可靠。(3)對于自變量對應的參數(shù)估計,AVS法的偏差大部分高于LME,但標準差和均方誤差均低于LME,這說明變量選擇方法能有效減少自變量對應的參數(shù)估計的標準差和均方誤差,從而使自變量對應的參數(shù)估計的精度增加,參數(shù)估計的總體效果更優(yōu)。在進行要素投入比計算或者影響因素分析時,使用AVS法較優(yōu)。
基于上述模擬分析可知,文中方法在要素投入比計算和影響因素分析時較有效,因此可將模型應用到此類問題的分析中。變量選擇對應的參數(shù)估計的精度較高,要素投入比計算較準確,從而得出的要素分配更合理。此外,變量選擇也有助于挑選出顯著影響產(chǎn)出的投入,從而生產(chǎn)單元無需過多關注不顯著的投入,避免了資源浪費。本文模型以產(chǎn)出隨機前沿模型為基礎,做少許變化即可把文中方法應用到成本隨機前沿模型。面板數(shù)據(jù)同時考慮了空間相關性性和時間依賴性,具有更高的自由度和更豐富的信息量。文中方法也可順利拓展到面板隨機前沿模型的變量選擇。