董小剛, 趙 浪, 林詩明, 王純杰
(長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長春 130012)
?
嶺回歸和主成分回歸下的農(nóng)業(yè)總產(chǎn)值因素分析
董小剛, 趙 浪, 林詩明, 王純杰
(長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長春 130012)
選取7個影響吉林省農(nóng)業(yè)總產(chǎn)值的因素,運用SAS軟件建立了農(nóng)業(yè)總產(chǎn)值的多元回歸模型。為解決經(jīng)典線性回歸模型的多重共線性問題, 運用主成分回歸模型和嶺回歸模型對其進(jìn)行了修正,最后對這兩個修正模型進(jìn)行了比較分析,得出嶺回歸模型相對較優(yōu)的結(jié)論。
SAS軟件; 多重共線性; 主成分回歸; 嶺回歸
吉林省地處中國東北中部地區(qū),擁有遼闊的平原地帶和富饒的水域環(huán)境等自然資源,素有“黑土地之鄉(xiāng)”的美稱,其人均耕地面積處于全國前列,是中國重要的糧食生產(chǎn)基地之一。無論是從地理位置還是從擁有的自然資源來看,吉林省都具有高效農(nóng)業(yè)發(fā)展的優(yōu)勢,了解吉林省農(nóng)業(yè)總產(chǎn)值的影響因素,提出有利于吉林省農(nóng)業(yè)發(fā)展的政策建議,有效促進(jìn)農(nóng)業(yè)的發(fā)展,這對吉林省以及全國都有重要的影響。文中將通過建立多元線性回歸模型分析影響吉林省農(nóng)業(yè)總產(chǎn)值的影響因素。
很多因素影響農(nóng)業(yè)總產(chǎn)值,哪些才是主要的影響因素,這又是一個復(fù)雜的問題。由于農(nóng)業(yè)發(fā)展直接影響國民生活,因此影響農(nóng)業(yè)產(chǎn)值因素的分析一直以來備受關(guān)注,梅玟[1]從時間序列分析的角度研究了政策因素對安徽省農(nóng)業(yè)產(chǎn)值增長的制約;湯鵬主[2]采用協(xié)整分析方法,并基于VAR模型對變量建立脈沖響應(yīng)函數(shù)和進(jìn)行方差分解,對財政支農(nóng)支出和農(nóng)業(yè)產(chǎn)值兩者的關(guān)系進(jìn)行了研究;孫楊[3]通過線性回歸的方式研究了農(nóng)業(yè)機(jī)械化水平對農(nóng)業(yè)總產(chǎn)值的影響;高雯[4]對農(nóng)業(yè)總產(chǎn)值與化肥施用量、農(nóng)用機(jī)械總動力、有效灌溉面積、成災(zāi)面積進(jìn)行了回歸分析;張溥[5]分析了中國農(nóng)業(yè)產(chǎn)值影響因素并對影響因素與農(nóng)業(yè)產(chǎn)值之間進(jìn)行了多元回歸分析;鐘雅珊[6]通過多元對數(shù)計量經(jīng)濟(jì)模型研究了農(nóng)業(yè)生產(chǎn)總值與農(nóng)用機(jī)械總動力、第一產(chǎn)業(yè)就業(yè)人數(shù)、財政對農(nóng)業(yè)的支出的關(guān)系。上述研究中,涉及對農(nóng)業(yè)總產(chǎn)值的影響因素相當(dāng)有限,難以看出這些因素綜合起來對農(nóng)業(yè)總產(chǎn)值的影響,文中將對被解釋變量為農(nóng)業(yè)總產(chǎn)值,解釋變量為7個對農(nóng)業(yè)總產(chǎn)值影響較大的因素進(jìn)行多元回歸分析。即:農(nóng)業(yè)總產(chǎn)值Y為被解釋變量,指從事農(nóng)林牧漁業(yè)總產(chǎn)值[3-6];農(nóng)業(yè)從業(yè)人員X1,指從事農(nóng)林牧漁業(yè)的勞動者人數(shù);農(nóng)作物播種面積X2,指實際播種或移植有農(nóng)作物的面積;有效灌溉面積X3,指具有一定水源配套設(shè)備的耕地面積;農(nóng)業(yè)機(jī)械總動力X4,指主要用于農(nóng)林牧漁業(yè)的各種動力總和;農(nóng)村用電量X5,指農(nóng)村范圍內(nèi)從事生產(chǎn)經(jīng)營、日常生活用電總量;化肥使用量X6,指本年內(nèi)實際用于農(nóng)業(yè)生產(chǎn)的化肥數(shù)量;財政支農(nóng)支出X7,指國家財政對農(nóng)村各項生產(chǎn)的支出。文中影響因素指標(biāo)和數(shù)據(jù)皆來源《吉林省統(tǒng)計年鑒2015》,數(shù)據(jù)分析均在SAS9.4環(huán)境中[7]實現(xiàn)。
[8]
對農(nóng)業(yè)總產(chǎn)值增長的研究方法多種多樣,有采用柯布—道格拉斯生產(chǎn)函數(shù)模型[9],有采用脈沖響應(yīng)函數(shù)方法來分析[10],也有基于灰色關(guān)聯(lián)度分析[11];常見的是采用逐步回歸分析的方法來分析[12-14]。文中分別采用了主成分回歸和嶺回歸兩種方法來對影響農(nóng)業(yè)總產(chǎn)值因素進(jìn)行分析,并對這兩種方法進(jìn)行比較分析。
首先,對被解釋變量Y和各個解釋變量Xi進(jìn)行相關(guān)分析,從輸出的結(jié)果可以看出,被解釋變量與解釋變量之間具有很大的相關(guān)性,除了Y和X1的相關(guān)系數(shù)為0.5左右,其余的都為0.9左右,其中Y與X4的相關(guān)系數(shù)甚至高達(dá)0.992;再通過繪制散點圖,考察被解釋變量Y隨各解釋變量Xi的變化情況。從被解釋變量與各個解釋變量的“散點圖矩陣”也可以看出,除了解釋變量X1外,被解釋變量Y與其他的解釋變量Xi均成線性趨勢關(guān)系,說明可以考慮建立一個多元線性回歸模型。再對各個解釋變量間進(jìn)行相關(guān)分析,從輸出的相關(guān)系數(shù)矩陣可以看出,各相關(guān)系數(shù)對應(yīng)的P值都很小,說明各個解釋變量之間是顯著相關(guān)的。
設(shè)被解釋變量Y與解釋變量X1,X2,…,X7的多元線性回歸模型的一般形式為:
式中:β0,β1,β2,…,β7----未知參數(shù);
β0----回歸常數(shù);
β1,β2,…,β7----回歸系數(shù);
ε----隨機(jī)誤差。
運用普通最小二乘估計的方法求得各個參數(shù)估計值。擬合出回歸模型:
0.077 3X3+0.298 7X4+50.167 3X5+
由方差分析表可知,F統(tǒng)計量的值為1 051.99,所對應(yīng)的P值<0.000 1,說明模型整體擬合得很好;復(fù)決定系數(shù)R2=0.996 2,調(diào)整后的R2=0.995 3,說明模型對樣本的擬合效果很好。再由參數(shù)估計表知,解釋變量X2,X3,X4,X6,X7的t檢驗統(tǒng)計量所對應(yīng)的P值均>0.05,說明這些變量對被解釋變量影響不顯著。在上述分析中已知各個解釋變量之間具有很大的相關(guān)性,則出現(xiàn)解釋變量檢驗效果不顯著可能是存在多重共線性的緣故。
共線性診斷見表1。
根據(jù)spearman相關(guān)系數(shù)表知樣本等級相關(guān)系數(shù)rs的t檢驗統(tǒng)計量所對應(yīng)的P值均>0.05,說明不存在異方差性;由Durbin-Watson D診斷表知DW=1.778,經(jīng)查DW檢驗表知dL=0.877,dU=1.749,dU 表1 共線性診斷 考慮到各個解釋變量之間的單位不同,先把原始數(shù)據(jù)標(biāo)準(zhǔn)化,這樣可以消除量綱對數(shù)據(jù)結(jié)構(gòu)的影響。 3.1 主成分回歸 主成分回歸方法與普通最小二乘回歸方法不同,當(dāng)存在多重共線性關(guān)系時,主成分回歸是以犧牲無偏性換取方差的大幅度減小,最終降低均方誤差,達(dá)到回歸估計最優(yōu)的目的;主成分回歸主要運用主成分分析里面降維思想,由于主成分分析是在不至于損失太多信息的情況下利用正交旋轉(zhuǎn)變換把多個指標(biāo)轉(zhuǎn)化為幾個綜合指標(biāo),且各個綜合指標(biāo)之間互不相關(guān),所以再用這些綜合指標(biāo)來進(jìn)行回歸分析就很好地消除了多重共線性帶來的影響。 相關(guān)矩陣的特征值見表2。 表2 相關(guān)矩陣的特征值 表2中,最大的特征值為5.817 588 52,最小的是0.004 657 35。再看看累積貢獻(xiàn)率,第一個主成分為83.11%,說明第一個主成分里面包含了原始數(shù)據(jù)里面的83.11%的信息量,前兩個主成分的累積含有原始數(shù)據(jù)里面的95.85%的信息量。所以取兩個主成分就足夠。即: Z1= 0.254 386STDX1+0.385 153STDX2+0.393 001STDX3+0.407 750STDX4+ Z2= 0.825 713STDX1-0.273 124STDX2+0.109 378STDX3-0.176 918STDX4- 再用Y對這兩個主成分Z1,Z2作普通最小二乘回歸,得到主成分回歸方程為: 從方差分析表可以看出,F統(tǒng)計量的值為1 223.46,其P值<0.000 1,說明該模型整體擬合得很好;復(fù)決定系數(shù)R2=0.986 3,調(diào)整后的R2=0.985 5,說明這個模型對樣本的擬合效果很好。再由參數(shù)估計表知,Z1,Z2的t檢驗統(tǒng)計量的P值均<0.01,即參數(shù)通過檢驗。綜上所述,該主成分回歸模型可行,該模型為: 將Z1,Z2代入上式即得標(biāo)準(zhǔn)化的主成分回歸方程: 還原為原始數(shù)據(jù)的主成分回歸方程為: 從模型(8)可知,X1每增加一個單位,Y就減少0.616 45個單位;X2每增加一個單位,Y就增加0.219 09個單位;X3每增加一個單位,Y就增加0.263 75個單位;X4每增加一個單位,Y就增加0.219 09個單位;X5每增加一個單位,Y就增加12.606 3個單位;X6每增加一個單位,Y就增加1.116 61個單位;X7每增加一個單位,Y就增加1.862 83個單位。說明農(nóng)業(yè)總產(chǎn)值與農(nóng)業(yè)從業(yè)人員(X1)表現(xiàn)出負(fù)相關(guān)的關(guān)系,農(nóng)業(yè)總產(chǎn)值與其他影響因素都表現(xiàn)為正相關(guān)的關(guān)系,且在各個因素中,農(nóng)村用電量(X5)對農(nóng)業(yè)總產(chǎn)值的影響處于最大,化肥使用量(X6)和財政支農(nóng)支出(X7)對農(nóng)業(yè)總產(chǎn)值的影響也很大。農(nóng)業(yè)總產(chǎn)值實際值與主成分回歸擬合值的對比折線圖如圖1所示。 圖1 農(nóng)業(yè)總產(chǎn)值實際值與主成分回歸擬合值的對比折線圖 從圖中可以看出,該模型擬合出來的值與實際值接近。 3.2 嶺回歸分析 嶺回歸(ridge regression)是對普通最小二乘估計的一種改進(jìn)方法,由霍爾(A.E.Hoerl)在1962年首次提出來,1970年霍爾又和肯納德(Kennard)對嶺估計給予了詳細(xì)討論。當(dāng)解釋變量間存在多重共線性,|X′X|≈0時,如果把一個正常數(shù)矩陣kI(k>0)加到X′X中,則X′X+kI接近奇異的程度就會比X′X接近奇異的程度小很多,進(jìn)而改進(jìn)普通最小二乘估計,達(dá)到消除共線性影響的效果。用嶺回歸方法消除多重共線性的問題,其實就是一種解釋變量選元過程。嶺跡圖如圖2所示。 由圖2可以看出,當(dāng)k值較小時,X5的標(biāo)準(zhǔn)化嶺回歸系數(shù)的絕對值比較大,并且隨著k的增大而迅速減小,根據(jù)原則二[8]將X5剔除;X3的標(biāo)準(zhǔn)化嶺回歸系數(shù)相對穩(wěn)定并且系數(shù)的絕對值比較小,則根據(jù)原則一[8]可將其剔除;同樣,可將變量X2剔除。再對剩余的變量X1,X4,X6,X7重新作嶺回歸分析,嶺跡圖如圖3所示。 圖2 嶺跡圖 圖3 重嶺回歸嶺跡圖 從圖3可以看出,嶺回歸模型的嶺參數(shù)k處于0.20~0.30時,嶺參數(shù)基本處于穩(wěn)定狀態(tài),因此取嶺參數(shù)k=0.25,此時Y對X1,X4,X6,X7標(biāo)準(zhǔn)化后嶺回歸方程為: 由方差分析表可知,F統(tǒng)計量的值為1 115.07,所對應(yīng)的P值<0.000 1,說明嶺回歸模型整體擬合效果很好;復(fù)決定系數(shù)R2=0.992 9,調(diào)整后的R2=0.992 0,說明此模型對已知樣本的擬合效果非常好。再由參數(shù)估計表知,X1,X4,X6,X7的t檢驗統(tǒng)計量的P值均<0.01,即參數(shù)通過檢驗。綜上所述,此嶺回歸模型可行。再對模型進(jìn)行多重共線性檢驗,見表3。 表3 共線性診斷 由表3可知,最大方差膨脹值和最大條件指數(shù)分別為28.139 32和12.649 29,這比普通最小二乘回歸下的最大方差膨脹值(145.814 65)和最大條件指數(shù)(139.486 75)有了很大的減少,說明嶺回歸模型在很大程度上消除了多重共線性的影響。 由模型(9)可知,X1每增加一個單位,Y就減少0.007 02個單位;X4每增加一個單位,Y就增加0.356 02個單位;X6每增加一個單位,Y就增加0.273 53個單位;X7每增加一個單位,Y就增加0.318 85個單位。說明農(nóng)業(yè)總產(chǎn)值Y和農(nóng)業(yè)從業(yè)人員(X1)存在著負(fù)相關(guān)關(guān)系,農(nóng)業(yè)機(jī)械總動力(X4)、化肥使用量(X6)、財政支農(nóng)支出(X7)為影響農(nóng)業(yè)總產(chǎn)值Y的主要因素。農(nóng)業(yè)總產(chǎn)值實際值與嶺回歸擬合值的對比折線圖如圖4所示。 圖4 農(nóng)業(yè)總產(chǎn)值實際值與嶺回歸擬合值的對比折線圖 從圖中可以看出,該模型擬合出來的值與實際值接近。 3.3 模型對比分析 在上述分析中,分別運用了主成分回歸法和嶺回歸法來消除多重共線性的影響,最終得出兩個模型,見表4。 表4 解釋變量選擇準(zhǔn)則 從模型檢驗和參數(shù)檢驗來看,各個檢驗統(tǒng)計量的P值均<0.01,說明模型與參數(shù)均通過檢驗;從C(p)準(zhǔn)則來看,2.000 0<4.000 0,說明主成分回歸模型相對較優(yōu);從R2準(zhǔn)則來看,0.986 3<0.992 9,說明嶺回歸模型相對較優(yōu);從AIC準(zhǔn)則來看,-151.455 1>-171.012 0,說明嶺回歸模型相對較優(yōu)。并且?guī)X回歸的變量解釋更加符合實際,綜上分析,嶺回歸模型相對較優(yōu),即: 因此,影響農(nóng)業(yè)總產(chǎn)值Y的主要因素有農(nóng)業(yè)機(jī)械總動力(X4)、化肥使用量(X6)、財政支農(nóng)支出(X7)。而農(nóng)業(yè)總產(chǎn)值Y受農(nóng)業(yè)從業(yè)人員因素(X1)的影響很小,并且農(nóng)業(yè)總產(chǎn)值Y和農(nóng)業(yè)從業(yè)人員因素(X1)表現(xiàn)出負(fù)相關(guān)的關(guān)系。 4.1 農(nóng)業(yè)勞動力投入 從模型(10)可以看出,農(nóng)業(yè)總產(chǎn)值和農(nóng)業(yè)從業(yè)人員存在著負(fù)相關(guān)的關(guān)系,且系數(shù)絕對值較小,反映出勞動力過剩、利用效率低下的狀況。進(jìn)入21世紀(jì)以來,科技快速發(fā)展,農(nóng)業(yè)機(jī)械化水平越來越高,逐漸取代了手工勞動,農(nóng)業(yè)從業(yè)人員的增加不再是拉動農(nóng)業(yè)產(chǎn)值的重要途徑。為了解決這一問題,政府應(yīng)該拓寬農(nóng)村從業(yè)人員的工作渠道,轉(zhuǎn)移一定量的農(nóng)業(yè)勞動力到其他產(chǎn)業(yè),并對繼續(xù)從事農(nóng)業(yè)的勞動力進(jìn)行培訓(xùn)教育,使其掌握先進(jìn)的技術(shù)來提高農(nóng)業(yè)產(chǎn)出。 4.2 農(nóng)業(yè)機(jī)械總動力 從模型(10)可以看出,農(nóng)業(yè)總產(chǎn)值和農(nóng)業(yè)機(jī)械總動力存在著正相關(guān)的關(guān)系,且系數(shù)絕對值最大,表明了農(nóng)用機(jī)械總動力對農(nóng)業(yè)總產(chǎn)值有著最大的影響,農(nóng)業(yè)機(jī)械化是現(xiàn)代農(nóng)業(yè)科技水平的表現(xiàn),也是農(nóng)業(yè)產(chǎn)值增加的關(guān)鍵。因此,吉林省政府應(yīng)該加大對大型拖拉機(jī)、收割機(jī)、農(nóng)藥噴灑機(jī)等大型機(jī)械設(shè)備的投入,來大幅度提高農(nóng)業(yè)生產(chǎn)率和生產(chǎn)力水平。 4.3 財政支農(nóng)支出 從模型(10)可以看出,農(nóng)業(yè)總產(chǎn)值和財政支農(nóng)支出存在著正相關(guān)的關(guān)系,且系數(shù)的絕對值第二大,表明財政支農(nóng)支出對農(nóng)業(yè)總產(chǎn)值起著至關(guān)重要的影響,增加農(nóng)業(yè)財政支出力度會引起農(nóng)業(yè)總產(chǎn)值的增加。因此,吉林省政府應(yīng)該加大對農(nóng)業(yè)的財政傾斜力度,保持對農(nóng)業(yè)補貼的持續(xù)、穩(wěn)定增長,并對吉林省財政支農(nóng)支出的結(jié)構(gòu)進(jìn)行調(diào)整,對財政支農(nóng)支出資金的管理體制進(jìn)行完善。同時,積極引導(dǎo)社會力量投資于農(nóng)業(yè)的生產(chǎn)、技術(shù)開發(fā)、新品種推廣,以彌補國家財政的不足。 4.4 化肥使用量 從模型(10)可以看出,農(nóng)業(yè)總產(chǎn)值和化肥的使用量存在著正相關(guān)的關(guān)系,且系數(shù)的絕對值第三大,表明化肥使用量對農(nóng)業(yè)總產(chǎn)值的影響較大,增加化肥的投入量會引起農(nóng)業(yè)產(chǎn)值的增加。但在實際中,我們不僅不能大規(guī)模的增加化肥的投入量,反而應(yīng)該對其采取謹(jǐn)慎的態(tài)度,合理施用。過量施肥會增加不必要的成本,降低了農(nóng)作物的產(chǎn)出,更為嚴(yán)重的是導(dǎo)致了土地鹽堿化、土壤肥力的下降,不利于農(nóng)業(yè)的可持續(xù)發(fā)展。因此,化肥的使用必須合理,在保證農(nóng)產(chǎn)品需要的基礎(chǔ)上,對化肥實行有效配置,對氮磷鉀合理配置,提高化肥的利用率,保證農(nóng)業(yè)總產(chǎn)值的穩(wěn)定增長。 [1] 梅玟.安徽省農(nóng)業(yè)產(chǎn)值增長制約因素的相關(guān)分析[J].技術(shù)經(jīng)濟(jì),2006,25(7):84-86. [2] 湯鵬主.財政支農(nóng)支出和農(nóng)業(yè)產(chǎn)值增長的關(guān)系[J].現(xiàn)代經(jīng)濟(jì)探討,2008(8):71-75. [3] 孫楊.農(nóng)業(yè)總產(chǎn)值影響因素的分析:以機(jī)械總動力為影響因子[J].內(nèi)蒙古科技與經(jīng)濟(jì),2008(11):2-3. [4] 高雯.我國“兩型”農(nóng)業(yè)發(fā)展影響因素分析[J].安徽農(nóng)業(yè)科學(xué),2011,39(27):17049-17051. [5] 張溥.中國農(nóng)業(yè)產(chǎn)值影響因素分析[J].商場現(xiàn)代化,2013(5):106-107. [6] 鐘雅珊.農(nóng)業(yè)總產(chǎn)值的影響因素綜合分析[J].經(jīng)濟(jì)研究,2013(29):56-60. [7] 夏坤莊.深入解析SAS[M].北京:機(jī)械工業(yè)出版社,2015:442-469. [8] 何曉群.應(yīng)用回歸分析[M].4版.北京:中國人民大學(xué)出版社,2015:57-203. [9] 漆文萍.農(nóng)業(yè)總產(chǎn)值指數(shù)影響因素的模型分析:以江西省為例[J].南昌大學(xué)學(xué)報,2005,36(4):67-72. [10] 李國璋.我國農(nóng)業(yè)產(chǎn)值的影響因素分析[J].統(tǒng)計與決策,2007(22):83-85. [11] 徐靜.吉林省農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)的灰色關(guān)聯(lián)度分析[J].企業(yè)導(dǎo)報,2013(23):159-160. [12] 迪娜·帕夏爾汗.影響新疆農(nóng)林牧漁產(chǎn)值增長因素的逐步回歸分析法:基于1979-2013年時間序列數(shù)據(jù)[J].新疆農(nóng)業(yè)科技,2015(3):1-3. [13] 呂海燕.基于逐步回歸分析的河南糧食產(chǎn)量因素研究[J].河南科學(xué),2013,31(12):2133-2136. [14] 王純杰,董小剛,陳嘉,等.基于分位數(shù)回歸的長春市職工工資水平的分析[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2010,31(4):367-373. Agriculture output factor analysis with ridge regression and principal component regression DONG Xiaogang, ZHAO Lang, LIN Shiming, WANG Chunjie (School of Basic Sciences, Changchun University of Technology, Changchun 130012, China) Seven factors influencing agricultural output of Jilin Province are selected and then the multiple regression model for the output is established with SAS software. To solve the multicollinearity problem in the classical linear regression model, we adjust the model with both the principal component regression and ridge regression model. The improved the models are compared and it comes to a conclusion that the ridge regression has better performance. SAS software; multicollinearity; principal component regression; ridge regression. 10.15923/j.cnki.cn22-1382/t.2017.1.01 2016-10-17 國家自然科學(xué)基金資助項目(11301037,11571051); 吉林省教育廳“十三五”規(guī)劃項目(2016317) 董小剛(1961-),男,漢族,吉林長春人,長春工業(yè)大學(xué)教授,博士,主要從事數(shù)理統(tǒng)計方向研究,E-mail:dongxiaogang@ccut.edu.cn. C 812 A 1674-1374(2017)01-0001-073 主成分回歸和嶺回歸分析
4 結(jié)論與建議