甘勝進(jìn),王瓊瑾
(1.福建師范大學(xué)福清分校電子與信息工程學(xué)院,福建 福清 350300;2.臺灣政治大學(xué)統(tǒng)計(jì)學(xué)系,臺北 11605;3.華東師范大學(xué)經(jīng)濟(jì)與管理學(xué)部統(tǒng)計(jì)學(xué)院,上海 20062)
經(jīng)典的多元線性回歸模型y=β0+βTX+ε,其中響應(yīng)變量y是一維,p維解釋變量X=(x1,x2,…,xp)T,誤差ε的數(shù)學(xué)期望為0、方差為σ2.為了較方便獲取回歸系數(shù)的樣本估計(jì)量性質(zhì),通常假設(shè)X是確定性變量[1-2],或者假定是隨機(jī)變量,但未給出其估計(jì)量漸近分布[3].本文考慮一類特殊多總體線性回歸模型,并且假定解釋變量X是隨機(jī)的,每個(gè)子總體上有部分變量的回歸系數(shù)相同,具體地來講,在第i個(gè)子總體下:
(1)
在導(dǎo)出估計(jì)量漸近分布之前,有必要對一些符號作如下說明.
cov(X2)=Σ22, cov(X1,X2)=Σ12,
(2)
這里,投影矩陣
引理1當(dāng)ni→∞ 時(shí),
依分布收斂.
根據(jù)引理1,當(dāng)ni→∞ 時(shí),可得下式:
(3)
(4)
(5)
直觀上講,依據(jù) (3) 式,
其中,
故
其中,
基于以上討論,根據(jù)中心極限定理可得以下定理.
其中,
由定理1可知,
其中,
不難看出,新估計(jì)量與原估計(jì)量漸近方差差別為一個(gè)半正定矩陣,結(jié)合 (4) 式和定理1可知,當(dāng)X1與X2不相關(guān)時(shí),新估計(jì)量只對α有改進(jìn)效果,對βi不起作用.事實(shí)上,無論X1與X2關(guān)系如何,增加樣本容量導(dǎo)致方差減小,如果X1與X2不相關(guān),那么X1不能提供有關(guān)X2的任何線性信息.
模型1X=(X1,X2,…,X5)T~N(0,Σ),其中,
ε~N(0,1),X與ε相互獨(dú)立.
組1:Y=6X1+8X2+19X3+X4+4X5+ε;
組2:Y=6X1+8X2+26X3+23X4+12X5+ε;
組3:Y=6X1+8X2+25X3+16X4+10X5+ε;
組4:Y=6X1+8X2+15X3+14X4+30X5+ε;
組5:Y=6X1+8X2+2X3+18X4+7X5+ε;
組6:Y=6X1+8X2+5X3+22X4+9X5+ε.
圖1表示模型1中100次蒙特卡羅模擬下兩種估計(jì)方法各組參數(shù)的均方誤差的箱線圖,每次模擬樣本容量組1至組6分別為50、55、60、65、70、80.右上標(biāo)為old表示在各個(gè)組內(nèi)利用最小二乘估計(jì)方法,右上標(biāo)為new表示本文建議的方法,其中每組前四個(gè)箱線圖分別是共同參數(shù)6、8兩種方法估計(jì)比較,后6個(gè)則依次是不同三個(gè)系數(shù)估計(jì)性能比較,通過箱線圖可知,本文建議的方法明顯好于直接利用組內(nèi)最小二乘估計(jì)方法,而且相同系數(shù)估計(jì)遠(yuǎn)優(yōu)于不同回歸系數(shù)估計(jì),這是因?yàn)橄嗤糠掷昧烁鄻颖?,估?jì)量方差更小.
圖1 模型1中各組新方法與原方法估計(jì)參數(shù)的MSE箱線圖Fig.1 Boxplots of MSE between new method and old method in parametric estimate under model 1
模型2X=(X1,X2,…,X5)T~N(0,Σ),其中,
ε~N(0,1),X與ε相互獨(dú)立.
組1:Y=-X1+X2+1.98X3+0.42X4+1.76X5+ε;
組2:Y=-X1+X2-1.9X3+X4-1.7X5+ε;
組3:Y=-X1+X2-1.6X3+0.18X4+0.85X5+ε;
組4:Y=-X1+X2-0.93X3+1.28X4+0.92X5+ε;
組5:Y=-X1+X2+0.65X3-1.2X4+1.85X5+ε;
組6:Y=-X1+X2-1.17X3+1.69X4-1.87X5+ε.
圖2為模型2下100次蒙特卡羅重復(fù)兩種方法估計(jì)的箱線圖,每次模擬組1至組6樣本容量分別為100、150、200、250、300、350.從圖中可知,當(dāng)公共回歸系數(shù)對應(yīng)回歸變量與不同系數(shù)對應(yīng)的回歸變量之間無相關(guān)性時(shí),本文建議的方法僅對公共回歸系數(shù)估計(jì)有效,不同部分估計(jì)效果變化不大,印證了定理1.
圖2 模型2中各組新方法與原方法估計(jì)參數(shù)的MSE箱線圖Fig.2 Boxplots of MSE between new method and old method in parametric estimate under model 2
本文給出了多總體部分公共系數(shù)線性回歸模型估計(jì)方法,并給出該方法估計(jì)量的大樣本性質(zhì),其漸近方差小于直接利用最小二乘估計(jì),蒙特卡羅模擬進(jìn)一步證實(shí)了該結(jié)論.本文方法在大數(shù)據(jù)時(shí)代意義比較明顯,假設(shè)每個(gè)子總體代表每個(gè)相距較遠(yuǎn)地區(qū),每個(gè)地區(qū)產(chǎn)生符合該模型的數(shù)據(jù)量非常大,現(xiàn)在要估計(jì)各個(gè)子總體模型中參數(shù),本文建議的方法只需要在各個(gè)子總體內(nèi)估計(jì)參數(shù),處理后的參數(shù)傳輸?shù)胶笈_,后臺通過加權(quán)平均估計(jì)出公共參數(shù),然后傳輸?shù)礁鱾€(gè)子總體估計(jì)不同部分參數(shù),整個(gè)過程只須傳輸參數(shù),避免了大數(shù)據(jù)傳輸帶來的各種問題.其流程圖如圖3.
圖3 算法示意圖Fig.3 Diagram of algorithm
算法的另外一個(gè)優(yōu)點(diǎn)是各個(gè)子總體內(nèi)運(yùn)算是并行的,可以極大地減少計(jì)算時(shí)間.
華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年3期