摘要:用一個因變量與多個自變量進行回歸是多數(shù)求解問題中采用的方法,但進行多元線性回歸得到的回歸方程經(jīng)過檢驗后發(fā)現(xiàn)擬合效果往往不好。因此,本文以“低保標準”這一實際問題為例,通過多因變量的多元回歸算法分析不同地區(qū)“低保標準”之間的相關(guān)性,能夠有效地避免丟失各地區(qū)之間相互關(guān)聯(lián)的信息,說明多因變量的多元回歸算法可以更好地解決實際問題。
關(guān)鍵詞:多因變量的多元回歸算法、嶺回歸、相關(guān)性
0 引言
對于多對多的回歸問題,可以轉(zhuǎn)化為多個多元回歸問題來解決。但對求解各地之間低保標準的相關(guān)性的問題,每個地區(qū)的因變量之間存在著一定的聯(lián)系,如果分別建立各地區(qū)的低保標準與其指標自變量的回歸關(guān)系式,會丟失各地低保標準之間相互關(guān)聯(lián)的信息。這就需要多因變量的多元回歸算法來分析實際問題。
1 算法過程
1.1 多元線性回歸及回歸診斷
在這里選取了北京、上海市2010-2016年的相關(guān)數(shù)據(jù)(如表1,表2所示),在SAS軟件下編程進行了分析。
對該模型進行回歸診斷,結(jié)果如下:
圖1
經(jīng)驗表明:當VIFj≥10時,就說明自變量xj與其余自變量之間存在嚴重的多重共線性關(guān)系,Eigenvalue(特征根)有幾個接近于0,就有幾個多重共線性關(guān)系,conditon index(條件數(shù))在10~100之間時,變量存在著較強的共線性關(guān)系。根據(jù)這些統(tǒng)計量的檢驗,我們可以發(fā)現(xiàn)多因變量多元線性回歸結(jié)果存在較強的多重共線性關(guān)系,且P值較大,不能通過檢驗,然而同類之間的因變量、指標變量均具有較強的相關(guān)性,因此利用多因變量多元逐步回歸以及嶺回歸的方法對結(jié)果進行修正。
表1 北京市2010-2016年的相關(guān)數(shù)據(jù)
表2 上海市2010-2016年的相關(guān)數(shù)據(jù)
1.2 多因變量的多元逐步回歸
多因變量的多元逐步回歸與一個因變量的逐步回歸的基本步驟基本類似,其不同之處在于,由于因變量的個數(shù)大于一,因此,在逐步回歸的過程中,引入和剔除自變量時需要計算這些變量對因變量的貢獻率,此時,需要利用新的統(tǒng)計量(Vi統(tǒng)計量)來進行描述。
回歸方程的具體表達式:
其中,
殘差平方和:
復相關(guān)系數(shù):
(復相關(guān)系數(shù)是反映一個因變量與一組自變量之間相關(guān)程度的指標)
這里選取了北京、上海市2010-2016年的相關(guān)數(shù)據(jù),在SAS軟件下編程進行了分析,得到的結(jié)果如下:
其中,x1,x4,x5分別代表人均GDP、職工平均工資、最低工資標準, 分別代表北京、上海的預(yù)測數(shù)據(jù)。
兩回歸方程經(jīng)檢驗都是高度顯著的(p<0.05),復相關(guān)系數(shù)R1=0.9973,決定系數(shù)(R21=0.9947),復相關(guān)系數(shù)R2=0.9999(R22=0.9998)。
因此回歸方程通過檢驗,且擬合效果較好。
1.3 嶺回歸
在對方程進行多因變量多元線性回歸時,最小二乘矩陣X'X的特征根有多個接近于0,變量之間的多重線性關(guān)系較強。嶺回歸的基本思想是給矩陣加入一個正的常數(shù)矩陣k*I,則X'X+kI接近奇異的程度會顯著減小,從而克服變量間的共線性關(guān)系。
當k≈0.01時,嶺跡已經(jīng)趨于平穩(wěn),從而克服了變量間的多重共線性關(guān)系,擬合效果較好。得到的回歸方程如下:
2 實驗結(jié)果及分析
實驗的預(yù)報和控制:
圖2
圖3
由圖2與圖3可知,多因變量的多元回歸算法的預(yù)測效果較好。
3 總結(jié)
通過多因變量的多元回歸算法來分析因變量之間的相關(guān)性,能夠防止丟失因變量間的關(guān)聯(lián)信息,得到更符合實際情況的分析結(jié)果。本文以“低保標準”實際問題為例,用多因變量的多元回歸算法求解了北京市與上海市之間的低保標準相關(guān)性問題,檢驗了算法較好的預(yù)測效果。由于多因變量的多元回歸可以快速有效地解決實際問題,所以該算法可以得到廣泛的應(yīng)用。
作者簡介:董霖,女,就讀于延邊大學,主要研究領(lǐng)域為計算機科學與技術(shù)。
候琳珊等. 基于擴頻和歸一化的圖像識別算法研究