劉兆君
(山東工商學院數(shù)學與信息科學學院,山東煙臺264005)
?
伴隨置信度的線性回歸模型
劉兆君
(山東工商學院數(shù)學與信息科學學院,山東煙臺264005)
摘要:針對正態(tài)余項的線性回歸模型,研究伴隨置信度的線性回歸模型。在一定概率下,設計隨機變量以均值為中心的置信區(qū)間,建立機會約束規(guī)劃,并在一定置信度下轉化為確定性規(guī)劃,應用LINGO 11優(yōu)化軟件求解,構造出伴隨置信度的線性回歸模型,實現(xiàn)對隨機變量觀測值信息的動態(tài)應用,可以實現(xiàn)伴隨置信度的預測。實證分析表明,該模型可以依置信度不同程度地反映觀測數(shù)據(jù)的多方面信息,選擇最佳線性回歸方程,更好滿足需要。該模型有異于線性分位數(shù)回歸模型的優(yōu)點,豐富了線性回歸分析的研究內(nèi)容。
關鍵詞:線性分位數(shù)回歸模型;機會約束規(guī)劃;線性回歸方程;置信度;非線性規(guī)劃
一般地,做統(tǒng)計數(shù)據(jù)分析比較常用的線性模型有傳統(tǒng)的均值模型[1]391-415、最小一乘(線性中位數(shù))回歸模型[2]、線性分位數(shù)回歸模型等[3-8]。為討論問題方便,我們事先約定,所謂的傳統(tǒng)均值模型是指隨機余項是以零為均值的正態(tài)同方差分布,并且討論中所有模型的因變量都是連續(xù)型隨機變量。很明顯,上述三種常用的線性模型,依據(jù)它們隨機誤差余項之間的關系,容易判定其有如下關系:從均值模型、最小一乘(線性中位數(shù))回歸模型到線性分位數(shù)回歸模型是特例到一般的關系,即均值模型是最小一乘(線性中位數(shù))回歸模型的特例,最小一乘(線性中位數(shù))回歸模型是線性分位數(shù)回歸模型的特例。尤其是以零均值正態(tài)同方差分布為隨機誤差余項的均值模型,由于正態(tài)分布為關于均值對稱的分布,其均值與中位數(shù)相等,因此既可將其看成是均值模型,也可認為是線性中位數(shù)回歸模型的特例,所以可以用最小一乘法研究均值模型,并且從這個意義上講,最小二乘法也是研究特殊的線性中位數(shù)回歸模型的一種方法。至此,我們關注的是上述三者關系鏈的兩端,即均值模型與線性分位數(shù)回歸模型的對比研究問題。實際上,線性分位數(shù)回歸模型就是用一定累積概率下隨機因變量取值的最大值來預測隨機因變量的可能取值,由此設想,也可以用一定概率下隨機因變量取值的均值來預測隨機因變量的可能取值。事實上,按照均值中心論的思想,可以將隨機變量的一組觀測值,視為隨機變量在其均值附近,在一定概率水平下取值的反映。因此,可以建立一定概率水平下的機會約束規(guī)劃,并將它轉化為一定置信度下的等價的確定性規(guī)劃,運用LINGO 11優(yōu)化軟件編程求解,得到伴隨一定置信度的線性回歸方程,依置信度不同程度地反映隨機變量的多方面信息,幫助我們從優(yōu)、按需選擇伴隨置信度的線性回歸方程,實現(xiàn)伴隨置信度的預測,有利于科學決策。
設隨機變量與一般變量之間的線性關系式為:其中x1,x2,…,xn為可以精確測量或可以控制的一般變量,Y是可觀測其值的隨機變量,a0,a1,…,an是未知參數(shù),ε是不可觀測其值的隨機變量,假設ε ~N(0,σ2)。
為了估計的需要,做了m次獨立觀測試驗,得到m組獨立觀測樣本值:將上述樣本值代入式(1)可得:其中ε1,ε2,…,εm相互獨立,都服從N(0,σ2i),稱為n元線性回歸模型。
顯然,式(3)的觀測值是yi,i=1,2,…,m。
本文的目的就是在給定置信度αi<1下,利用觀測樣本值式(2),估計未知參數(shù)a0,
a1,…,an,σi,得到估計,確定n元線性回歸方程:
稱為伴隨置信度α(0<α<1)的n元線性回歸方程。給定概率αi,0<αi<1,由式(4)得:
整理得:
因此,對Yi的觀測值yi,可以有置信度α下的確定性規(guī)劃等價式:
其中第一目標函數(shù)式(12),可轉變?yōu)榫€性規(guī)劃問題[9],可以運用多目標加權化單目標法,求解上述多目標線性規(guī)劃,應用LINGO 11優(yōu)化軟件,編程求解一個單目標線性規(guī)劃,得到未知參數(shù)a0,a1,…,an,σi的估計值從而確立置信度為α的n元線性回歸方程式(5)。
實際應用中,有時會出現(xiàn)諸αi或諸σi相等的情況,我們只須對式(9)~(11)以及式(12)~(14)進行適當調(diào)整即可。而當αi與σi同時相等時,如αi=β,σi=σ,為方便應用,僅對式(12)~(14)進行適當調(diào)整,有置信度α=βm下的確定性規(guī)劃等價式:
為實用方便,一般取諸αi相等。
大氣污染近年來為人們所關注,能夠較科學地預測未來廢氣排放的情況,對治理大氣污染至關重要。本文以某省工業(yè)廢氣排放量及各影響因素的統(tǒng)計數(shù)據(jù)(如表1所示)為依據(jù)[10],建立該省工業(yè)廢氣排放量與各影響因素的伴隨置信度的線性回歸模型,更好滿足實際需要。
表1 某省工業(yè)廢氣排放量及影響因子數(shù)據(jù)
假設y表示廢氣排放量,x1表示工業(yè)總產(chǎn)值,x2表示能耗,x3表示治理設備數(shù)。
設置信度α1=0.9510,建立伴隨置信度的線性回歸模型:
εi~N(0,σ2),1≤i≤10,且相互獨立,為求伴隨置信度和回歸模型,對于置信度為建立下列非線性規(guī)劃模型:
minσ (20)
將表1中有關數(shù)據(jù)代入式(19)、(21),將兩個單目標式(19)、(20)同取權重0.5,相加得單目標函數(shù),并利用LINGO 11編程求解,可得:
得伴隨置信度α1=0.9510的線性回歸方程:
由式(22)計算回歸值的平均相對誤差3.03%,結果如表2所示。
表2 伴隨置信度α1=0.9510的線性回歸估計效果
同理,對于伴隨置信度α2=0.5010,α3=0.7010,α4=0.9010,也可以分別按上述過程求線性回歸方程,分別為:
計算回歸值,得到平均相對誤差分別為3.05%、3.05%和3.03%,得到的σ估計值分別為7.947、5.248和3.328。
利用傳統(tǒng)最小二乘法確定的線性回歸方程為[10]:
估計的σ值為σ=3.246,平均相對誤差為3.91%。
利用一般的最小一乘法確定的線性回歸方程為:
平均相對誤差為3.04%。
經(jīng)過簡單對比可以發(fā)現(xiàn),傳統(tǒng)最小二乘法確定的線性回歸方程式(26)和伴隨置信度的線性回歸方程式(22)、(23)、(24)與(25)相比,其預測效果明顯較差,σ估計值比置信度α1=0.9510估計的σ∧α1明顯大,由此可以推測傳統(tǒng)最小二乘法確定的線性回歸方程的質量較差。一般的最小一乘法確定的線性回歸方程式(27)的預測效果也略差于置信度α1=0.9510的線性回歸方程式(22)的預測效果,況且一般最小一乘法尚不具備方差估計及伴隨置信度的功能。
從伴隨不同置信度的線性回歸方程的對比分析中可以發(fā)現(xiàn),置信度增高,其線性回歸方程的預測平均相對誤差有變小趨勢,預測效果趨好;置信度越高,因變量Y的根方差σ的估計值越小,其線性回歸方程的預測穩(wěn)定性越好。如果把平均相對誤差與根方差σ做為評價線性回歸方程的預測質量指標,則表明置信度增高,其線性回歸方程的預測質量變好。
更重要的是,從伴隨不同置信度的線性回歸方程式(23)、(24)、(25)與(22)的對比分析中可以發(fā)現(xiàn),隨著置信度的提高,線性回歸方程預測質量的提升,影響工業(yè)廢氣排放量的因素x1的系數(shù)逐漸變大,而因素x2與因素x3的系數(shù)卻逐漸變小,這說明隨著數(shù)據(jù)分析的逐漸深入、預測質量的提升,不同因素對工業(yè)廢氣排放量的影響作用越來越清楚地顯現(xiàn)出來,因素x1的影響作用在提升,而因素x2與因素x3的影響作用在下降,因此因素x1的影響作用是主要的,而因素x2與因素x3的影響作用次之。這種動態(tài)實證分析過程不是一個線性回歸方程所能比擬的,這就為我們控制工業(yè)廢氣排放量指明了方向,即在現(xiàn)有生產(chǎn)技術及廢氣治理技術條件下,因素x1工業(yè)總產(chǎn)值是控制的主要因素。
當然,實用中我們可以根據(jù)實際需要選用不同置信度的回歸方程。最有意義的是清楚了所使用的線性回歸方程及其預測結果的置信度,為科學決策提供了依據(jù)。
很明顯,機會約束規(guī)劃式(9)、(10)和(11)的建立方法具有一般性,我們也可以按最小二乘法設立目標函數(shù),建立機會約束規(guī)劃。只是由于最小一乘法具有較好的穩(wěn)健性,所以選擇以最小一乘法建立機會約束規(guī)劃。
伴隨置信度的線性回歸模型,是遵循以一定概率下隨機因變量取值的均值,來預測隨機因變量可能取值的研究思想得到的研究成果。伴隨的置信度就是對線性回歸模型及其以均值做為預測結果的不確定性風險的刻劃。而線性分位數(shù)回歸模型實質是研究利用一定累積概率下隨機因變量取值的最大值來預測隨機因變量的可能取值,雖然也具備一定的不確定性風險意義,但由于是累積概率,過于抽象,在實際應用中無法刻劃具體預測的不確定性風險。因此,伴隨置信度的線性回歸模型中置信度的變化,一方面可以調(diào)整預測的效果,另一方面又可以調(diào)整預測值的可靠度;而線性分位數(shù)回歸模型中概率的變化是為了全面刻劃因變量分布的特征,得到較全面的分析結果[4]。這就是兩種線性回歸模型的區(qū)別,也是伴隨置信度的線性回歸模型的優(yōu)點所在。
與傳統(tǒng)的均值模型相比,伴隨置信度的線性回歸模型,除了具有能對預測結果的不確定性風險進行刻劃的優(yōu)點外,還具有借助不同置信度對隨機觀測值所含有的信息加以動態(tài)的不同程度利用的特點,通過伴隨不同置信度的回歸方程可知,由于不同程度的信息挖掘得到伴隨不同風險的預測結果。
伴隨置信度的線性回歸模型,由于模型要求在一定置信度下,將隨機變量所有觀測值做為具有最小方差的正態(tài)分布的均值附近,因此適合分析的樣本數(shù)據(jù)分布特征與傳統(tǒng)的均值模型基本相同,一般適合樣本數(shù)據(jù)比較集中、少有最好沒有離群的異常點的數(shù)據(jù),否則會導致回歸方程向離群點的不良傾斜,影響預測的穩(wěn)健性。
伴隨置信度的線性回歸模型,就是在一定置信度下,將隨機變量所有觀測值做為具有最小方差的正態(tài)分布的均值附近,依據(jù)此概率思想,按最小一乘法建立關于均值的機會約束規(guī)劃,求得回歸方程。因此,該模型具有最小一乘法估計的性質,即較好的穩(wěn)健性、線性回歸方程通過至少n+1個樣本點與漸近正態(tài)性。又由于該模型確定的線性回歸方程是擁有最小方差的正態(tài)分布的均值,故此線性回歸方程的預測效果較好,具有較好的預測穩(wěn)定性。
參考文獻:
[1]魏宗舒.概率論與數(shù)理統(tǒng)計教程[M].北京:高等教育出版社,1983.
[2]陳希孺.最小一乘線性回歸(下)[J].數(shù)理統(tǒng)計與管理,1989(6).
[3]陳建寶,丁軍軍.分位數(shù)回歸技術綜述[J].統(tǒng)計與信息論壇,2008,23(3).
[4]張濤.工資收入差異的解釋:基于分位數(shù)回歸的經(jīng)驗研究[J].統(tǒng)計與信息論壇,2011,26(11).
[5]姜勵卿,錢文榮.公共部門與非公共部門工資差異的分位數(shù)回歸分析[J].統(tǒng)計研究,2012,29(1).
[6]劉鑫,趙濤.基于分位數(shù)回歸的天津市二氧化碳排放影響因素研究[J].環(huán)境衛(wèi)生工程,2014,22(1).
[7]壽暉,張永安.基于分位數(shù)回歸商業(yè)銀行系統(tǒng)性風險研究[J].技術經(jīng)濟與管理研究,2014(9).
[8]張雨,劉倩,曾林蕊.生長曲線模型的分位數(shù)回歸[J].應用概率統(tǒng)計,2014,30(3).
[9]王新宇,趙紹娟.基于分位數(shù)回歸模型的滬深股市風險測量研究[J].中國礦業(yè)大學學報,2008,37(3).
[10]鄭敏敏,肖秀欽,陳慶華,等,福建省工業(yè)廢氣排放量的因子分析與灰色預測[J].環(huán)境科學與管理,2012,37(4).
(責任編輯:崔國平)
【統(tǒng)計理論與方法】
Model of Linear Regression with Confidence Degree
LIU Zhao-jun
(School of Mathematics and Information Science,Shandong Institute of Business and Technology,Yantai 264005,China)
Abstract:For linear regression model with normal remainder,we studied linear regression model with confidencedegree.Underacertainprobability,bydesigningrandomvariablemean-centeredconfidenceinterval,book=7,ebook=8we set up a chance constrained programming,then turned it into a certain programming with a confidence degree and made use of Lingo11optimization software to solve the certain programming.At last we structured linear regression model with confidence degree and realized the dynamic application for random variable observed values information,we can predict with confidence degree.Empirical analysis shows the model can reflect in varying degrees on multifaceted information at observed data according to confidence degree and help us to select the best linear regression equation and better meet our needs.The model has the advantages of different from the linear quantile regression model,it enriches the content of linear regression analysis.
Key words:linear quantile regression model;chance constrained programming;linear regression equation;confidence degree;nonlinear programming
收稿日期:2015-02-26
文章編號:1007-3116(2015)07-0003-05
文獻標志碼:A
中圖分類號:O212∶F222.3
作者簡介:劉兆君,男,山東龍口人,教授,研究方向:不確定性的數(shù)學理論。