周文楠 朱睿宇
【摘 要】在如今快速發(fā)展的背景下,我國正以非??斓乃俣茸汾s發(fā)達國家,本文建立二元回歸方程,通過分析具有代表性的北京市能源使用變化,來具體分析我國各產(chǎn)業(yè)所占比重的變化、煤炭使用情況的變化以及發(fā)展的狀況。應(yīng)用線性回歸的知識,利用R語言軟件進行二元回歸方程的建模及相應(yīng)指標的檢驗,得出二元回歸方程,并對相關(guān)參數(shù)、復共線性等進行檢驗,并觀測模型的擬合系數(shù),以得到最終模型。
【關(guān)鍵詞】R語言;多元回歸方程;殘差分析;復共線性
一、問題的提出
如今我國正處在“四個全面”的關(guān)鍵發(fā)展階段中,可持續(xù)發(fā)展仍然十分重要。國家統(tǒng)計局1985年對三次產(chǎn)業(yè)的劃分作了專門的規(guī)定,即:(1)第一產(chǎn)業(yè)是農(nóng)業(yè);(2)第二產(chǎn)業(yè)是工業(yè)和建筑業(yè);(3)第三產(chǎn)業(yè)是除上述各業(yè)以外的其他產(chǎn)業(yè)。北京市作為我國的首都,其能源消費具有一定的代表性。
一方面,在我國,煤炭的用途十分廣泛,主要用于發(fā)電、建材、工業(yè)鍋爐、生活等第一、二產(chǎn)業(yè)。另一方面,在發(fā)達國家中,第三產(chǎn)業(yè)經(jīng)濟在經(jīng)濟總量中所占的比重都很大,如美國2013年的第三產(chǎn)業(yè)經(jīng)濟所占比重約為78.0%,我國則約為46.1%??梢姷谌a(chǎn)業(yè)是否發(fā)達在一定程度可反映出國家的發(fā)達水平。
由于在各產(chǎn)業(yè)上消耗能源的多少與產(chǎn)生的經(jīng)濟效益有直接關(guān)系,所以根據(jù)2013年北京市統(tǒng)計年鑒,我就1980-2012年能源消費總量與第三產(chǎn)業(yè)能源消費量、萬元地區(qū)生產(chǎn)總值能耗(噸標準煤)三者的關(guān)系展開了分析。
二、基本假設(shè)
1、用于建模的數(shù)據(jù)真實可靠;2、用2010-2012年的數(shù)據(jù)進行模型預測功能的檢驗;3、假設(shè)誤差項服從高斯馬爾科夫假設(shè)。
三、符號說明
:為能源消費總量的列向量,,其中為從1980年開始的第i年的能源消費總量。
:為第三產(chǎn)業(yè)的列向量,,其中為從1980年開始的第i年的第三產(chǎn)業(yè)能源消費量。
:為第三產(chǎn)業(yè)的列向量,,其中為從1980年開始的第i年的萬元地區(qū)生產(chǎn)總值能耗(噸標準煤)。
:二元回歸方程中的常數(shù)項。
:二元回歸方程中的回歸參數(shù)項。
:二元回歸方程中的回歸參數(shù)項。
e:二元回歸方程中的誤差列向量,,其中為從1980年開始的第i年的誤差。
四、模型的建立與求解
(一)模型的建立
通過應(yīng)用線性回歸的知識,針對數(shù)據(jù)建立了如下的二元回歸方程:
其中各符號的含義見上符號說明。
(二)模型的求解
本文采用了R語言中的回歸分析方法(取),求解過程如下:、、的檢驗p值分別為<2e-16、<2e-16、6.11e-14,均使假設(shè)成立();且估計值分別為,,;且相關(guān)系數(shù),修正后的相關(guān)系數(shù),可知回歸方程擬合程度非常高。接下來對誤差e進行檢驗。
若殘差是來自正態(tài)分布的總體,則殘差應(yīng)都在一條直線上。而殘差幾乎都在所示虛線周圍,存在異常點1、11、17。對于近似服從正態(tài)分布的標準化殘差,應(yīng)該有95%的樣本點落在[-2,2]的區(qū)間內(nèi),這也是判斷異常點的直觀方法。雖然1、11、17均被標為異常點,但都在[-2,2]區(qū)間內(nèi),所以不剔除。雖然cook統(tǒng)計量值越大的點越可能是異常值,但具體閥值是多少較難判別,最大的cook統(tǒng)計量為0.3,較小,所以不需要剔除1、29、30三點。
可以看出,的特征向量為,而條件數(shù),,可認為復共線性的程度很小。
通過以上步驟的求解,可以得出二元回歸方程:
為了檢驗?zāi)P偷念A測功能,只用了數(shù)據(jù)中的前30組,剩下的三組用于檢驗。結(jié)果如下:,分別為真實值、擬合值與誤差。
本文也將真實值與擬合值進行了比較??梢钥闯?,真實值與擬合值所成直線的斜率大致為1,且相關(guān)系數(shù),修正后的相關(guān)系數(shù),十分接近1,即真實值與擬合值相差不大,此二元回歸方程擬合效果好。
五、模型分析
(一)模型優(yōu)點:
1、模型的待估參數(shù)的檢驗p值非常小;2、模型的誤差服從正態(tài)分布;3、模型的擬合值與實際值差距不大,方程擬合效果好。
(二)模型缺點:
模型的預測功能稍有欠缺,差距不小。
六、模型的意義
通過本文的分析,得出以下實際結(jié)論:
(一)我國的第三產(chǎn)業(yè)所占比重正在逐步增大,這是很重要的一項指標,表明我國正在一步步邁向發(fā)達國家;
(二)第三產(chǎn)業(yè)所占比重增大也表明我國人民的生活質(zhì)量提高,服務(wù)業(yè)等占的比重越來越大,人們?nèi)粘I疃嗔烁嗟臅r間去享受生活;
(三)萬元地區(qū)生產(chǎn)總值能耗(噸標準煤)的下降說明了我國對煤炭這種不可再生資源的使用量降低了,并且更加環(huán)保,符合可持續(xù)發(fā)展觀;表示我國的工業(yè)等產(chǎn)業(yè)的生產(chǎn)方式也發(fā)生了一定的改變,不再依賴煤礦的燃燒。。
(四)萬元地區(qū)生產(chǎn)總值能耗(噸標準煤)的下降也說明了我國在發(fā)展過程中使用了更多別的能源,如水力等可再生能源,越來越注重環(huán)保大局,也可以一定程度上緩解霧霾的危機。
參考文獻:
[1]王松桂 陳敏 陳立萍,《線性統(tǒng)計模型——線性回歸與方差分析》,高等教育出版社,1999年9月第一版。
[2]何曉群等,《應(yīng)用回歸分析》,中國人民大學出版社,2001年第三版。
[3]孫榮恒,《應(yīng)用數(shù)理統(tǒng)計》,北京科學出版社,1998年。