任淑紅+李武選
摘 要:目的:尋找最優(yōu)的數(shù)據(jù)擬合方法;方法:以數(shù)據(jù)為基礎(chǔ),分別用統(tǒng)計(jì)方法中的趨勢(shì)法、分段法、AID法(Automatic Interaction Detection)進(jìn)行擬合,通過(guò)比較擬合值與實(shí)際值,并計(jì)算各方法的均方誤差,分析上述3種方法的擬合精度;結(jié)果:分段法所擬合的數(shù)據(jù)誤差最小,擬合精度最高;結(jié)論:對(duì)于收集的可靠數(shù)據(jù)進(jìn)行擬合時(shí),須采用多個(gè)適用的擬合方法分別擬合,并進(jìn)行比較后選擇一個(gè)模型顯著,精度高的作為最終決策模型,效果會(huì)更好。
關(guān)鍵詞:擬合方法比較;趨勢(shì)法;分段法;AID法;應(yīng)用條件;擬合精度
中圖分類號(hào): C37 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1673-1069(2017)04-122-2
1 概述
擬合方法是統(tǒng)計(jì)預(yù)測(cè)的前提,擬合模型建立的不好,何談?lì)A(yù)測(cè)效果?鑒于近30年來(lái)的各種規(guī)劃涉及的預(yù)測(cè)方法應(yīng)有盡有,但這些預(yù)測(cè)存在的一個(gè)嚴(yán)重問(wèn)題是相差幾百萬(wàn)、幾千萬(wàn)都絲毫沒(méi)有影響到“規(guī)劃”的所謂科學(xué)性、合理性,這正是做課題人員的統(tǒng)計(jì)預(yù)測(cè)知識(shí)缺乏,而導(dǎo)致規(guī)劃中預(yù)測(cè)結(jié)果的“寬范圍”特殊性,使的規(guī)劃?rùn)z查執(zhí)行進(jìn)度時(shí)出現(xiàn)預(yù)測(cè)結(jié)果與后期實(shí)際結(jié)果相差得經(jīng)過(guò)很長(zhǎng)的時(shí)間才有可能,甚至永遠(yuǎn)不可能實(shí)現(xiàn)的困境。這里基于數(shù)據(jù)本身的特征進(jìn)行擬合效果比較,進(jìn)而達(dá)到擬合效果高精度實(shí)現(xiàn)。關(guān)于數(shù)據(jù)本身的規(guī)律大體上表現(xiàn)為兩大類,一類是橫截面數(shù)據(jù)的擬合,這一類大多涉及到多元回歸問(wèn)題,更多的是對(duì)所建模型利用樣本區(qū)間以外的影響因素?cái)?shù)據(jù)進(jìn)行預(yù)測(cè);另一類是時(shí)間序列數(shù)據(jù)的預(yù)測(cè),更注重于趨勢(shì)預(yù)測(cè)。本文主要研究時(shí)間序列數(shù)據(jù)的擬合問(wèn)題。
在時(shí)間序列預(yù)測(cè)中,當(dāng)序列存在明顯的趨勢(shì)成分時(shí),需要使用趨勢(shì)預(yù)測(cè)法[1]進(jìn)行預(yù)測(cè)。然而有時(shí)候單一形式曲線的預(yù)測(cè)效果并不是很好。對(duì)此,李武選通過(guò)對(duì)旅游外匯收入數(shù)據(jù)采用分段擬合技術(shù)[2]建立模型進(jìn)行預(yù)測(cè),取得比單一形式曲線更好的擬合精度;方開(kāi)泰使用AID法[3]將數(shù)據(jù)分區(qū)間進(jìn)行擬合,發(fā)現(xiàn)AID法在有異常數(shù)據(jù)的預(yù)測(cè)中比單一形式曲線有更好的效果。錢曉莉[4]將AID法應(yīng)用于通過(guò)企業(yè)的廣告費(fèi)用預(yù)測(cè)銷售收入的實(shí)例中,指出該法適宜于對(duì)含有特異值的樣本進(jìn)行預(yù)測(cè)。本文通過(guò)對(duì)某地的有關(guān)預(yù)報(bào)數(shù)據(jù)進(jìn)行實(shí)證分析,用這3種擬合方法進(jìn)行擬合,并比較三者的擬合效果。
2 研究方法及其應(yīng)用條件
2.1 趨勢(shì)擬合法
在趨勢(shì)擬合法中主要有線性趨勢(shì)和非線性趨勢(shì)兩種方法。線性趨勢(shì)是指研究現(xiàn)象隨著時(shí)間的推移而呈現(xiàn)出穩(wěn)定增長(zhǎng)或下降的線性變化規(guī)律,其線性擬合方程為yt=b1+b1t,其中待定系數(shù)和可根據(jù)最小二乘法求解。當(dāng)所要研究現(xiàn)象呈現(xiàn)出某種非線性趨勢(shì),則需要擬合適當(dāng)?shù)内厔?shì)曲線。這種方法應(yīng)用要求時(shí)間序列數(shù)據(jù)本身具有明顯的趨勢(shì)特征,如線性或者非線性特征。
2.2 分段擬合法
分段擬合法根據(jù)所要研究對(duì)象隨時(shí)間的推移呈現(xiàn)出不同類型的趨勢(shì)變化將其分段,針對(duì)每段進(jìn)行擬合,最后整合出整體數(shù)據(jù)的擬合情況。此法應(yīng)用條件是數(shù)據(jù)自然的規(guī)律要具有線性及非線性或者拐點(diǎn)等特征。
2.3 AID擬合法
AID擬合法是將有序樣本數(shù)據(jù)合理分類,劃分各類的原則是最優(yōu)分割原則,最后根據(jù)要擬合的值所屬類的平均值作為其擬合值。該法的應(yīng)用條件是數(shù)據(jù)本身應(yīng)具有明顯的波動(dòng)聚集特征。
3 實(shí)證分析
3.1 數(shù)據(jù)來(lái)源
本文研究方法使用的實(shí)際數(shù)據(jù)(見(jiàn)表1):
該數(shù)據(jù)具有適用于上述3種擬合方法的基本要求,可以使用上述方法建立擬合模型并可以進(jìn)行擬合。
3.2 趨勢(shì)擬合法
用SPSS20.0軟件中11 種常用的趨勢(shì)曲線進(jìn)行擬合,依據(jù)最大作為選擇標(biāo)準(zhǔn),可得較滿意S曲線擬合。
結(jié)果說(shuō)明:以上兩個(gè)p值均小于0.05,表明模型中變量之間的關(guān)系在統(tǒng)計(jì)意義上是顯著的;統(tǒng)計(jì)量F=10.120,Sig=0.011<0.05,表明S曲線模型整體上是統(tǒng)計(jì)顯著的,即模型可用。
3.3 分段擬合法
通過(guò)對(duì)數(shù)據(jù)做散點(diǎn)圖可看出將該時(shí)間序列分為三段較好,第一段包括前四個(gè)時(shí)間序列數(shù)據(jù),第二段包括接下來(lái)的中間的三個(gè)數(shù)據(jù),第三段包括剩下的四個(gè)數(shù)據(jù),然后針對(duì)每段建立模型進(jìn)行擬合。在對(duì)每段進(jìn)行擬合時(shí),通過(guò)SPSS20.0軟件中11 種常用的趨勢(shì)曲線進(jìn)行擬合,根據(jù)擬合優(yōu)度系數(shù)最大以及模型中系數(shù)與模型整體的統(tǒng)計(jì)顯著性選擇最優(yōu)的擬合模型。
結(jié)果說(shuō)明:以上三個(gè)模型,對(duì)系數(shù)的t檢驗(yàn)以及對(duì)整個(gè)模型的F檢驗(yàn)結(jié)果都是統(tǒng)計(jì)顯著的,故模型均是合理的,可以用來(lái)擬合。
3.4 AID擬合法
先將該時(shí)間序列數(shù)據(jù)分類。最優(yōu)分割原則是使組內(nèi)離差平方和達(dá)到極小,并且每次分類時(shí)都將一組數(shù)據(jù)只分成兩類。由總離差平方和=組內(nèi)離差平方和+組間離差平方和可知,要使組內(nèi)離差平方和極小化,則要使組間離差平方和極大化。計(jì)算可得總體均值=6.91。組間平方和QA=n1(·1-)2+n2(·2-)2,其中nj為第j(j=1,2)類包含的數(shù)據(jù)的個(gè)數(shù),·j為第j(j=1,2)類的均值。分別以t=1,2…10為分割點(diǎn)計(jì)算QA,得QA在以t=4為分割點(diǎn)時(shí)最大,故將t=4作為分割點(diǎn),把數(shù)據(jù)分成兩類{y1~y4},{y5~y11}。相對(duì)于全部數(shù)據(jù)的個(gè)數(shù)來(lái)說(shuō),第二類包含的數(shù)據(jù)仍較多,故將第二類{y5~y11}繼續(xù)分類,重復(fù)上述步驟,得以t=7作為分割點(diǎn),將{y5~y11}分為{y5~y7},{y8~y11}。因此,最終將該數(shù)據(jù)分為三類,分別是{y1~y4},{y5~y7},{y8~y11}。t也相應(yīng)地分成三個(gè)區(qū)間:[1,4], [5,7], [8,11] ,每一類的平均值分別為2.3, 14.5, 5.8。然后進(jìn)行擬合,根據(jù)將要擬合的值所屬類的平均值作為其最終擬合值。
3.5 3種擬合方法的比較
在比較擬合精度時(shí),可選取的評(píng)價(jià)指標(biāo)有均方誤差、絕對(duì)誤差、相對(duì)誤差等,本文采用均方誤差來(lái)評(píng)價(jià)擬合方法的優(yōu)劣。根據(jù)MSE=(yt-t)2/n,通過(guò)計(jì)算可得:趨勢(shì)擬合法的均方誤差;分段擬合法的均方誤差;AID擬合法的均方誤差。
比較均方誤差的大小,可看出分段法的效果最好,AID法次之,最后是趨勢(shì)法;從個(gè)性離差值上比較來(lái)看,分段擬合也同樣有最好的預(yù)測(cè)效果;同時(shí),通過(guò)3種方法殘差個(gè)值的絕對(duì)值大小比較,也可得到相同的結(jié)論。
4 結(jié)論
預(yù)測(cè)的基礎(chǔ)是基于樣本數(shù)據(jù)的擬合模型最優(yōu),本文研究的結(jié)論是對(duì)于本預(yù)報(bào)數(shù)據(jù)而言,基于上述3種方法擬合模型的結(jié)果,分段法是將時(shí)間序列數(shù)據(jù)分段進(jìn)行擬合,可以更好地根據(jù)每段的變化趨勢(shì)擬合曲線,使每段的擬合值誤差減小,進(jìn)而提高整體的擬合效果;AID法是將時(shí)間序列數(shù)據(jù)按最優(yōu)分割原則分類,將相近的樣本數(shù)據(jù)分到了一類,對(duì)于有異常數(shù)據(jù)的樣本擬合能達(dá)到更好的效果。
在實(shí)踐中,我們可以用AID法中的最優(yōu)分割原則將時(shí)間序列數(shù)據(jù)分類,并將該分類結(jié)果作為分段法的分段依據(jù),然后在每一段內(nèi)使用趨勢(shì)法進(jìn)行擬合,以達(dá)到更好的擬合效果。
另外,還可以用加權(quán)組合的方法來(lái)擬合,通過(guò)賦予上述3種擬合方法合理的權(quán)重,然后對(duì)3組擬合值進(jìn)行加權(quán)組合得到新的擬合值。
參 考 文 獻(xiàn)
[1] 賈俊平,何曉群,金勇進(jìn).統(tǒng)計(jì)學(xué)[M].北京:中國(guó)人民大學(xué)出版社,2009:374-392.
[2] 李武選,王小建,李源,等基于30年入境旅游外匯收入的最佳建模與預(yù)測(cè)[J].統(tǒng)計(jì)與信息論壇,2009,24(4):21-26.
[3] 方開(kāi)泰.實(shí)用多元統(tǒng)計(jì)分析[M].上海:華東師范大學(xué)出版社,1989:246-252.
[4] 錢曉莉.AID法在回歸分析中的應(yīng)用[J].統(tǒng)計(jì)科學(xué)與實(shí)踐,1999(9):16-17.
[5] 沈世偉,佴磊,徐燕.準(zhǔn)等時(shí)距QGM(1,1)模型分段預(yù)測(cè)法及其在草炭土路基沉降預(yù)測(cè)中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào),2011,41(4):1099-1103.