摘 要:多元線性回歸模型是一種常用的數(shù)學應(yīng)用模型,它反映了多個自變量與函數(shù)之間的線性關(guān)系,本文運用Matlab軟件確定模型參數(shù)來得到回歸方程,然后通過此回歸方程分析變量之間的相關(guān)關(guān)系,并給出實例分析過程。
關(guān)鍵詞:多元線性回歸模型;Matlab;實現(xiàn)
1 引言
多元統(tǒng)計分析是數(shù)理統(tǒng)計的一個分支,考察和分析大量數(shù)據(jù)的結(jié)構(gòu)和特征,從中提取主要而準確的信息,能幫助我們正確認識事物客觀存在的統(tǒng)計規(guī)律。它不僅能夠把隱藏在大規(guī)模原始數(shù)據(jù)群體中的重要信息提煉出來,而且能夠把握住數(shù)據(jù)群體的主要特征,從而得到變量間相關(guān)關(guān)系的數(shù)學表達式,利用概率統(tǒng)計知識對此關(guān)系進行分析,以判別其有效性。
2 Matlab軟件在統(tǒng)計應(yīng)用上的地位非常重要
Matlab軟件作為具影響力、活力的科學計算軟件,其統(tǒng)計功能已直追任何其他專用的統(tǒng)計軟件,Matlab軟件統(tǒng)計工具箱幾乎包括了數(shù)理統(tǒng)計方面主要的概念、理論、方法和算法。再加上Matlab操作簡單、語言簡潔、具有強大的數(shù)據(jù)可視化能力以及良好的開放性等優(yōu)點,現(xiàn)已是國內(nèi)外眾多統(tǒng)計學者喜愛的分析數(shù)據(jù)工具。本文就Matlab軟件在多元線性回歸模型中的應(yīng)用進行研究,結(jié)合實例分析過程。
3 實例應(yīng)用
例1 已知表1數(shù)據(jù)中分別給出了5種物質(zhì)在不同濃度下的顏色讀數(shù),其中三基色B、G、R,色調(diào)H、飽和度S隨著濃度的變化而變化。討論5組數(shù)據(jù)并判斷這些數(shù)據(jù)是否能夠確定讀數(shù)和物質(zhì)濃度之間的關(guān)系,并根據(jù)做出的關(guān)系制定出一些準則來評價這5組數(shù)據(jù)優(yōu)劣。
3.1 組胺濃度的數(shù)學建模及數(shù)據(jù)優(yōu)劣分析
下表1所示為組胺濃度與顏色讀數(shù)原始數(shù)據(jù):
以組胺物質(zhì)濃度等級劃分,共有10組數(shù)據(jù),將第1組數(shù)據(jù)(濃度為100ppm)作為待檢驗數(shù)據(jù),以2-10組數(shù)據(jù)作為擬合數(shù)據(jù)。以物質(zhì)濃度
作為因變量,以顏色讀數(shù)(B、G、R、H、S)為自變量,進行“多元線性回歸擬合”。通過調(diào)用MATLAB軟件中的regress函數(shù)擬合得到相關(guān)擬合回歸系數(shù)(表2):
即得到的5元1次方程為:
將第1組數(shù)據(jù)(35,64,109,11,72)代入上式得: =100.2484ppm,得到此時的絕對誤差為 δ=100.2484-100≈0.25,引用誤差為γ =0.25/100=0.25%(量程0-100ppm)。
同理可得,改進MATLAB程序?qū)崿F(xiàn)循環(huán)處理,依次將第2到第10組數(shù)據(jù)作為待檢測數(shù)據(jù),建立數(shù)學模型,并進行絕對誤差和引用誤差統(tǒng)計如下表3:
從以上表4統(tǒng)計中分析,平均引用誤差 =1.49%,其最大引用誤差為 =3.92%,因此附件給出的組胺物質(zhì)濃度與顏色讀數(shù)的數(shù)據(jù)質(zhì)量比較好。
3.2 其它物質(zhì)濃度的數(shù)學建模及數(shù)據(jù)優(yōu)劣分析
對于其他物質(zhì)濃度,按照上述的建立的數(shù)學模型進行重復(fù)建模并分析,通過統(tǒng)計得到分析數(shù)據(jù)如下表5:
(1)數(shù)據(jù)優(yōu)劣分析:
從所建立的數(shù)學模型,以平均引用誤差 大小作為考量數(shù)據(jù)優(yōu)劣的準則,從這5組數(shù)據(jù)中,數(shù)據(jù)優(yōu)劣程度依次為:組胺>溴酸鉀>奶中尿素>硫酸鋁鉀>工業(yè)堿。
(2)原因分析:
組胺、溴酸鉀、奶中尿素這三個物質(zhì)在樣本參考數(shù)據(jù)的預(yù)測范圍內(nèi),平均引用誤差 相對較小,參考本模型的數(shù)據(jù)優(yōu)劣評估準則,判定為數(shù)據(jù)質(zhì)量較高。工業(yè)堿和硫酸鋁鉀平均引用誤差 相對較大,從模型分析可得,其主要原因是這兩種物質(zhì)的樣本數(shù)據(jù),一是濃度范圍較窄(工業(yè)堿物質(zhì)濃度范圍:0-11.8ppm, 硫酸鋁鉀:0-5.0 ppm),并且其顏色讀數(shù)的精度與分辨力都較低。
(3)結(jié)論:
①這5組數(shù)據(jù)中組胺、溴酸鉀、奶中尿素基本上可以反應(yīng)出顏色讀數(shù)和物質(zhì)濃度之間的關(guān)系。工業(yè)堿和硫酸鋁鉀的樣本數(shù)據(jù)不能反應(yīng)數(shù)據(jù)的物質(zhì)濃度和顏色讀數(shù)之間關(guān)系。
②其中組胺、溴酸鉀、奶中尿素數(shù)據(jù)質(zhì)量較高;工業(yè)堿和硫酸鋁鉀樣本數(shù)據(jù)質(zhì)量較低。
本文結(jié)合實例,可以知道Matlab軟件對于多元統(tǒng)計分析的作用重大,它因為自身的優(yōu)良運算性能和優(yōu)勢特點,不僅可以更好的完成分析計算的工作,更重要的是提高了對于多元統(tǒng)計分析的理解能力。
作者簡介:
黃玉,女,壯族,廣西貴港人,講師,研究方向:概率論與數(shù)理統(tǒng)計.