王華麗
摘 要:多元線性回歸是簡單線性回歸的推廣,研究的是一個變量與多個變量之間的依賴關(guān)系。作為質(zhì)量統(tǒng)計軟件領(lǐng)域的領(lǐng)導(dǎo)者,MINITAB是一個精確的、強(qiáng)大的、使用方便的統(tǒng)計軟件。多元回歸分析預(yù)測法,是指通過對兩個或兩個以上的自變量與一個因變量的相關(guān)分析,建立預(yù)測模型進(jìn)行預(yù)測的方法。當(dāng)自變量與因變量之間存在線性關(guān)系時,稱為多元線性回歸分析。該文通過一個具體實(shí)例介紹如何運(yùn)用MINITAB軟件,建立兒子身高與父母身高、年鍛煉次數(shù)的多元線性回歸模型,并對MINITAB的輸出結(jié)果進(jìn)行分析,得出方程效果良好的結(jié)論。
關(guān)鍵詞:MINITAB軟件 多元線性回歸 顯著性 實(shí)例分析
中圖分類號:O212 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)10(b)-0022-02
回歸分析是數(shù)據(jù)分析中使用很多的一種方法?;貧w分析是定量的給出變量間的變化規(guī)律,它不僅提供變量間的回歸方程,而且可以判斷所建立回歸方程的有效性。在方程有效性的前提下,可以用方程做預(yù)測和控制,并了解預(yù)測和控制的精度。多元回歸分析預(yù)測法,是指通過對兩個或兩個以上的自變量與一個因變量的相關(guān)分析,建立預(yù)測模型進(jìn)行預(yù)測的方法。當(dāng)自變量與因變量之間存在線性關(guān)系時,稱為多元線性回歸分析。
MINITAB軟件是現(xiàn)代質(zhì)量管理統(tǒng)計的領(lǐng)導(dǎo)者,全球六西格瑪實(shí)施的共同語言,它以無可比擬的強(qiáng)大功能和簡易的可視化操作獲得了廣大質(zhì)量學(xué)者和統(tǒng)計專家的青睞。MINITAB軟件是為質(zhì)量改善、教育和研究應(yīng)用領(lǐng)域提供統(tǒng)計軟件和服務(wù),是質(zhì)量管理和六西格瑪實(shí)施軟件工具,更是持續(xù)質(zhì)量改進(jìn)的良好工具軟件。
1 多元線性回歸分析的一般模型
多元線性回歸分析的一般模型為:設(shè)是個自變量(解釋變量),是因變量,多元線性回歸模型的理論假設(shè)是
其中,是個未知參數(shù),稱為回歸常數(shù),稱為回歸系數(shù),為隨機(jī)誤差。
2 MINITAB軟件建立模型
下面通過一個實(shí)例來詳細(xì)講解,如何運(yùn)用MINITAB軟件進(jìn)行多元線性回歸?,F(xiàn)抽取20個家庭調(diào)查資料的部分變量,數(shù)據(jù)見表1,試對父母身高與兒子身高進(jìn)行回歸分析。
使用MINITAB軟件,輸入表1中數(shù)據(jù),選擇指令“統(tǒng)計>回歸>回歸”,在出現(xiàn)界面輸入相應(yīng)的變量名;打開“圖形”窗,選擇“四合一”及在“殘差與變量”中填入各自變量名稱;打開“存儲”窗,選擇“殘差”、“標(biāo)準(zhǔn)化殘差”及“擬合值”,點(diǎn)擊“確定”后,得到輸出結(jié)果。
MINITAB輸出結(jié)果:
回歸方程:
兒子身高=-23.7+0.303父親身高+0.880母親身高+0.0593鍛煉次數(shù)
S=1.11974 R-sq=96.33% R-sq(調(diào)整)=95.65%
回歸方程擬合出來以后,我們要解決以下幾個問題:(1)給出方程顯著性檢驗(yàn),從總體上判定回歸方程有效與否。(2)給出方程總效果好壞的度量。(3)在回歸方程效果顯著時,對各個回歸系數(shù)進(jìn)行顯著性檢驗(yàn),將效應(yīng)不顯著的自變量刪除,以優(yōu)化模型,這點(diǎn)在多元回歸中尤為重要。(4)殘差診斷,檢驗(yàn)數(shù)據(jù)是否符合回歸的基本假定,檢驗(yàn)整個回歸模型與數(shù)據(jù)擬合的是否很好,可否進(jìn)一步改進(jìn)回歸方程來優(yōu)化現(xiàn)有模型。
3 MINITAB輸出結(jié)果分析
如何判斷整個回歸方程是否有意義?就要進(jìn)行回歸方程顯著性檢驗(yàn),也就是要檢驗(yàn)下列問題:H0:模型無意義,H1模型有意義。本例(表3)ANOVA表中P =0<0.05,所以拒絕H0:模型無意義,接受H1模型有意義。說明在顯著性水平a=0.05下,線性回歸方程總效果是顯著的。
如果實(shí)際觀測值與擬合出來的回歸線很接近,就說明回歸線與數(shù)據(jù)擬合的很好,就可以說回歸方程的總效果很好。(表2)我們通常用Rsq、Rsq(adj)、S作為回歸方程總效果的度量,以此來比較幾種回歸方程效果的好壞。Rsq是回歸平方和占離差平方和的比率,其數(shù)值越接近1代表模型擬合的越好。當(dāng)然Rsq并不是回歸模型擬合效果的最好度量指標(biāo),因?yàn)楫?dāng)多一個自變量加入模型時,不管這個自變量是否顯著,回歸平方和就會增大,Rsq也會增大,這樣就看不出新增加的自變量是否有意義,這點(diǎn)在多元回歸中更為明顯。因此我們用Rsq(adj)去修正Rsq,以考慮總項(xiàng)數(shù)給模型帶來的影響。Rsq(adj)≤Rsq兩者數(shù)值越接近越好,另一個指標(biāo)是殘差標(biāo)準(zhǔn)差,它是從觀察值與擬合回歸線的平均偏離程度來度量的,也是回歸模型中標(biāo)準(zhǔn)差σ的估計值。對于幾個不同的回歸方程的效果加以比較時,S是個最重要的指標(biāo),那個S最小,哪個回歸方程就最小。
從本例輸出結(jié)果看Rsq96.33%,Rsq(adj)=95.65%來看,兩者很接近,S=1.11974比較小,模型還可以。
回歸方程顯著時,做回歸系數(shù)顯著性檢驗(yàn),一般假設(shè)H0:β=0,H1:β≠0,若P<0.05,則回歸系數(shù)不為零,說明系數(shù)對應(yīng)的自變量是顯著的。當(dāng)只有一個自變量時,回歸方程顯著性檢驗(yàn)與回歸系數(shù)檢驗(yàn)是等價的,但是當(dāng)自變量不止一個時,回歸總效果顯著不能排除某幾個變量是無意義的。我們進(jìn)行回歸方程系數(shù)檢驗(yàn)的目的,就是要找出是否有“濫竽充數(shù)”的自變量,把這些多余的自變量從方程中刪除掉,以修正現(xiàn)有模型。
從本例輸出結(jié)果看到三個自變量P值都小于0.05,故三個都為顯著因子。
模型中,X1系數(shù)0.303表示:如果父親比同一代人的平均身高多1cm,那么他的兒子將比兒子那一代人的平均身高多出0.303 cm;X2的系數(shù)解釋也是如此;X3的系數(shù)表示參加體育鍛煉的次數(shù)和身高之間存在正相關(guān);常數(shù)項(xiàng)一般沒有與它相對應(yīng)的實(shí)際意義上的解釋。
參考文獻(xiàn)
[1] 張海燕.基于多元線性回歸模型的四川農(nóng)村居民收入增長分析[J].統(tǒng)計觀察,2010(13):88-90.
[2] 孫雪飛.回歸分析在房地產(chǎn)銷售中的應(yīng)用[J].科技咨詢導(dǎo)報,2007(26):168-169.
[3] 馬逢時.六西格瑪管理統(tǒng)計指南[M].北京:中國人民大學(xué)出版社,2012.endprint