尚云艷 祝師強(qiáng) 孫浩
摘 要:“應(yīng)用回歸分析”課程是高校應(yīng)用統(tǒng)計(jì)學(xué)專業(yè)均開(kāi)設(shè)的專業(yè)核心課程,多元線性回歸模型是非常重要的知識(shí)內(nèi)容,但是由于其理論內(nèi)容復(fù)雜,學(xué)生學(xué)習(xí)難度大,針對(duì)此問(wèn)題,本文從權(quán)的概念出發(fā),利用權(quán)倒數(shù)的性質(zhì)論證了加權(quán)線性回歸的合理性。并以北京市15個(gè)經(jīng)濟(jì)開(kāi)發(fā)區(qū)的銷(xiāo)售收入數(shù)據(jù)為例,運(yùn)用加權(quán)最小二乘估計(jì)方法改進(jìn)模型,最后從殘差圖和擬合值絕對(duì)誤差(率)兩個(gè)方面進(jìn)行比較,結(jié)果均表明加權(quán)線性回歸效果好。該方法應(yīng)用于教學(xué),為教學(xué)內(nèi)容的設(shè)計(jì)提供了新的思路,便于學(xué)生掌握并深入學(xué)習(xí)。
關(guān)鍵詞:異方差;加權(quán)最小二乘估計(jì);殘差分析;權(quán)
文獻(xiàn)標(biāo)識(shí)碼:A
回歸分析的發(fā)展經(jīng)歷了很長(zhǎng)的一段歷史,早在18世紀(jì),F(xiàn).Galton提出利用最小二乘原理進(jìn)行回歸分析[1],從那時(shí)開(kāi)始,回歸分析就越來(lái)越備受關(guān)注,但是隨著回歸分析的普及,在實(shí)際應(yīng)用中往往出現(xiàn)違背線性回歸假設(shè)的情況,比如,隨機(jī)誤差異方差、隨機(jī)誤差存在序列相關(guān)性、數(shù)據(jù)觀測(cè)值異常等問(wèn)題[2]。特別是對(duì)隨機(jī)誤差異方差的情況,加權(quán)線性回歸是對(duì)普通線性回歸的一種改進(jìn),但是文獻(xiàn)[3-4]中并未證明加權(quán)線性回歸的合理性?;貧w診斷是回歸分析中必不可少的內(nèi)容,由于回歸假設(shè)都是針對(duì)隨機(jī)誤差項(xiàng)提出的,所以要從分析隨機(jī)誤差項(xiàng)ε的估計(jì)量(殘差)入手,通過(guò)從殘差和殘差圖分析來(lái)考察模型的合理性[5]。
本文主要討論在隨機(jī)誤差異方差的情況下,怎樣建立合理、合適的模型。根據(jù)以往的經(jīng)驗(yàn),處理隨機(jī)誤差異方差問(wèn)題的方法有加權(quán)最小二乘法(WLS)、BOX-COX變換法和方差穩(wěn)定性變換法,這些方法應(yīng)用于實(shí)際,可以消除或者減弱異方差對(duì)擬合模型造成的不良影響。教科書(shū)上僅對(duì)加權(quán)線性回歸的原理有所介紹,但是并沒(méi)有涉及其本質(zhì)內(nèi)容。本文通過(guò)權(quán)、權(quán)函數(shù)、權(quán)倒數(shù)的性質(zhì)揭示了加權(quán)線性回歸的本質(zhì),論證了其合理性。以北京市經(jīng)濟(jì)開(kāi)發(fā)區(qū)的銷(xiāo)售收入數(shù)據(jù)為例,利用加權(quán)最小二乘法建立數(shù)學(xué)模型,并且進(jìn)行比較分析,模擬結(jié)果表明加權(quán)線性回歸比普通線性回歸有一定的改進(jìn)之處。
1 線性回歸的基本假定[6-7]
線性回歸模型I(矩陣形式)
4 實(shí)例分析
4.1 問(wèn)題描述
本文數(shù)據(jù)來(lái)源于文獻(xiàn)[6],因變量Y為各開(kāi)發(fā)區(qū)的銷(xiāo)售收入(百萬(wàn)元),自變量X1為截至1998年底各開(kāi)發(fā)區(qū)累計(jì)招商數(shù)目,X2為招商企業(yè)注冊(cè)資本(百萬(wàn)元),15個(gè)開(kāi)發(fā)區(qū)的具體數(shù)據(jù)如表1所示。
從因變量Y的直方圖(圖1)也可以看出銷(xiāo)售收入信息呈右偏態(tài)分布,即數(shù)據(jù)具有異方差特征。
4.2 多元線性回歸模型
若對(duì)上述數(shù)據(jù)進(jìn)行最小二乘回歸,得到結(jié)果如表2所示,造成回歸系數(shù)方差較大且不能通過(guò)顯著性檢驗(yàn)的原因可能是異方差性;另外,模型的決定系數(shù)為0.8419,擬合度值并不高,有提高的可能性。
4.3 加權(quán)線性回歸模型的建立
由于4.2中普通殘差的絕對(duì)值與自變量X中X1的等級(jí)相關(guān)系數(shù)為0.4429,與X2的等級(jí)相關(guān)系數(shù)為0.7214,于是根據(jù)2.1,選擇X2構(gòu)造權(quán)函數(shù),即W=diag(1Xm1,1Xm2)。
根據(jù)對(duì)數(shù)似然值越大,回歸模型擬合效果越好的原則,表3列出了m值的選擇過(guò)程。
表3表明,當(dāng)m=2.5時(shí),對(duì)數(shù)似然統(tǒng)計(jì)量的值最大,于是m的最優(yōu)值為2.5。同時(shí),回歸模型結(jié)果如表4所示。
與表2相比,表4中常系數(shù)方差變小,且通過(guò)了顯著性檢驗(yàn),另外,模型決定系數(shù)為0.8494也大于之前的0.8419。
4.4 方法比較
對(duì)加權(quán)線性回歸模型做殘差圖,結(jié)果如下所示:
圖2中,從左至右圖形中的大部分散點(diǎn)并沒(méi)有向外側(cè)擴(kuò)散,反而有收斂趨勢(shì),可見(jiàn)“權(quán)”對(duì)異方差問(wèn)題有一定的修正效果。
普通最小二乘和加權(quán)最小二乘的擬合值與殘差的比較結(jié)果如表5所示,顯然,加權(quán)最小二乘的效果較好。
4.5 回歸診斷
從圖示結(jié)果可以看出,圖3中殘差值并未出現(xiàn)極端上升或下降趨勢(shì),是隨機(jī)均勻分布的。
結(jié)語(yǔ)
本文對(duì)多元加權(quán)線性回歸模型的原理與本質(zhì)內(nèi)容作了梳理,利用權(quán)倒數(shù)的性質(zhì),論證了加權(quán)線性回歸的參數(shù)估計(jì)也具有“最優(yōu)”無(wú)偏性,同時(shí)結(jié)合數(shù)據(jù)案例驗(yàn)證了加權(quán)線性回歸是解決異方差問(wèn)題的有效途徑,不管是從殘差圖還是擬合值絕對(duì)誤差來(lái)講,效果都有所改善,回歸診斷結(jié)果也表現(xiàn)良好,即模型較優(yōu)。文章的理論為以后的教學(xué)和學(xué)生學(xué)習(xí)運(yùn)用加權(quán)線性回歸解決此類(lèi)問(wèn)題提供了充分的理論依據(jù),為學(xué)生深入學(xué)習(xí)多元線性回歸模型提供了更多的可能性。
參考文獻(xiàn):
[1]G.A.F.塞伯.線性回歸分析[M].方開(kāi)泰,等,譯.北京:科學(xué)出版社,1987,1.
[2]Fabsitz,R.et al.Regression Analysis of Data with Correlated Errors.An Example from the NHLBI Twin Study[J].Chron.Dis.1985,38(2):165.
[3]何曉群,劉文卿.淺談加權(quán)最小二乘法及其殘差圖[J].統(tǒng)計(jì)研究,2006(4):53-57.
[4]林天水,陳佩樹(shù).一元線性回歸中異方差的處理[J].統(tǒng)計(jì)與決策,2015(17):86-88.
[5]胡菊華.基于殘差分析的線性回歸模型的診斷與修正[J].統(tǒng)計(jì)與決策,2019(24):5-8.
[6]何曉群,劉文卿.應(yīng)用回歸分析[M].北京:中國(guó)人民大學(xué)出版社,2012.
[7]茆詩(shī)松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2012.
基金項(xiàng)目:2021年度陜西省教育科學(xué)“十四五”規(guī)劃一般課題“理實(shí)一體化的BOPPPS與‘六個(gè)下功夫相融合下數(shù)學(xué)教學(xué)模式創(chuàng)新研究”(編號(hào):SGH21Y0293);2020年11月陜西省教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目“大數(shù)據(jù)下的數(shù)學(xué)課程教學(xué)模式改革與實(shí)踐”(編號(hào):202002021019)
作者簡(jiǎn)介:尚云艷(1986— ),女,陜西咸陽(yáng)人,碩士,講師,研究方向:質(zhì)量控制。FEA13F87-8594-4C1A-B251-F71883B69B98