摘要:文章基于3個案例,比較分析SPSS軟件中幾種非線性回歸模型,探討其分段擬合功能。SPSS非線性回歸在特定情況下展現(xiàn)出較強(qiáng)的精準(zhǔn)預(yù)測能力,文章為學(xué)習(xí)建模預(yù)測的學(xué)者提供一個新的思路,為大數(shù)據(jù)時代特定類型數(shù)據(jù)的預(yù)測提供一種有效方法。
關(guān)鍵詞:SPSS軟件;非線性回歸;分段擬合;曲線估計
中圖分類號:C81 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2025)01-0085-04 開放科學(xué)(資源服務(wù)) 標(biāo)識碼(OSID) :
0 引言
非線性回歸涵蓋多種模型,包括曲線擬合、多元回歸等。本文主要探討SPSS軟件“非線性回歸模塊”中的分段擬合模型。非線性回歸能夠擬合穩(wěn)健回歸、時間序列數(shù)據(jù)等多種復(fù)雜模型,在回歸建模和預(yù)測中具有重要應(yīng)用[1]。其原理是選擇一個非線性的回歸模型,根據(jù)數(shù)學(xué)表達(dá)式中的參數(shù)數(shù)目,選擇相應(yīng)數(shù)目的初始參數(shù)。這些參數(shù)可通過曲線擬合結(jié)果或公式計算得到。有數(shù)學(xué)表達(dá)式和初始參數(shù)就可交給SPSS去擬合。非線性回歸一般也是采用最小二乘法對該模型中的參數(shù)進(jìn)行估計,用參數(shù)估計值代替初始參數(shù),將方程再次展開,進(jìn)行線性化轉(zhuǎn)換,從而又可求出一批參數(shù)估計值,使得該函數(shù)值取值最小化,如此反復(fù)迭代求解,直至參數(shù)估計值收斂和殘差平方和最小為止[2]。本研究旨在通過案例分析比較不同回歸模型的擬合優(yōu)度和殘差,探究非線性分段擬合在特定情況下的適用性。
1 研究方法
本研究采用SPSS軟件中的曲線估計、時間序列分析和非線性回歸三種模型進(jìn)行擬合。為避免年份數(shù)據(jù)對高次項參數(shù)值的影響,除時間序列分析外,其他模型的自變量均采用序號代替年份,擬合精度保持不變[3-4]。
1.1 曲線估計
曲線估計的基本原理是通過變量轉(zhuǎn)換將曲線直線化,然后用最小二乘法進(jìn)行擬合,最后將線性模型轉(zhuǎn)換回原始變量的表達(dá)式上。SPSS軟件的曲線估計模塊提供10種常用的曲線方程(二次方程、三次方程、指數(shù)方程、冪函數(shù)、Logistic函數(shù)等) 。一般來說曲線估計是廣義非線性回歸的首選模型,特點是模型簡單、快速和實用。
1.2 指數(shù)平滑法
指數(shù)平滑法是時間序列分析模塊的重要模塊之一,是通過平滑系數(shù)α 來計算出的一系列平滑值來消除原始時間序列中的不規(guī)則變動,從而揭示現(xiàn)象的長期趨勢的規(guī)律和預(yù)測。社會經(jīng)濟(jì)活動中很多數(shù)據(jù)都是依時間順序構(gòu)成的集合體,與一般的回歸分析不同,有關(guān)時間序列分析的統(tǒng)計技巧,幾乎都是基于對自相關(guān)性處理的技巧[3]。是大數(shù)據(jù)背景條件下金融經(jīng)濟(jì)實證分析建模的主要方法之一,具有非常重要的實踐價值。
1.3 非線性回歸
非線性回歸是一種特殊的統(tǒng)計學(xué)方法,優(yōu)勢是預(yù)測結(jié)果更為精準(zhǔn),假設(shè)條件少,可供選擇的回歸模型多,適合各種不能轉(zhuǎn)換為線性回歸模型的非線性回歸分析等。本文主要是介紹非線性回歸中的分段擬合的優(yōu)勢。
2 實證分析
2.1 實證分析案例1
案例引用某汽車企業(yè)1993—2001年的汽車銷量數(shù)據(jù)[4],選擇該案例的原因是此汽車企業(yè)在1993—2001年發(fā)展較為迅速,銷量數(shù)據(jù)具有代表性,能夠反映中國汽車市場的整體增長趨勢。管理者希望能夠用SPSS軟件建模并預(yù)測出至2002年和2003年的汽車銷量。觀測數(shù)據(jù)見圖1和表1。分析思路使用曲線估計和指數(shù)平滑法進(jìn)行擬合,再采用非線性回歸的分段擬合,試比較擬合優(yōu)度指標(biāo)R方和殘差,選擇最佳的預(yù)測模型。
三種模型的殘差比較和預(yù)測值序列圖見圖2。結(jié)果顯示非線性分段擬合效果最好,殘差最小,R方最大。殘差值比較結(jié)果顯示,Holt指數(shù)平滑模型的殘差較大,三次方程與非線性模型的殘差始終緊密地糾纏在一起,但在時間序列的末端,非線性的分段擬合誤差更接近于零點。根據(jù)預(yù)測結(jié)果來看三次方程的預(yù)測值偏高,而非線性分段擬合預(yù)測結(jié)果是最低的,與三次方程出現(xiàn)明顯的差異,因三次方程的R方也是相當(dāng)高的(R方=0.994) 。從統(tǒng)計學(xué)理論角度分析非線性分段擬合效果最好(R方=0.998) 。其分段擬合模型的數(shù)學(xué)表達(dá)式如下:
y=(Tlt;1998) (a+b T)+(T≥1998) (c+d T)
式中,Y 為因變量(汽車銷量) ,T 為自變量(年份) ,a,b,c,d分別為其參數(shù)估計值。
該案例的特征是數(shù)據(jù)簡單、特征明顯。但是,不同的模型之間還是表現(xiàn)出明顯的差異,使研究者不得不考慮理論與現(xiàn)實之間如何取舍的問題,這也是數(shù)據(jù)分析師在現(xiàn)實工作中很可能會時刻面臨的一個尷尬的困境。最終,作者更傾向于使用非線性分段擬合模型來預(yù)測未來。
2.2 實例2
某種肉雞在良好的環(huán)境條件下生長過程的數(shù)據(jù)資料見表2和圖3,是統(tǒng)計學(xué)教材上用來講解Logistic 生長曲線的典型案例[5]。目前Logistic生長曲線已廣泛應(yīng)用于動植物的生長發(fā)育、遺傳育種、資源開發(fā)等方面的建模研究[6]。分析思路考慮采用Logistic生長曲線,再用時間序列的指數(shù)平滑法擬合,最后用非線性分段擬合,通過對3個模型的功能的實證分析,構(gòu)建最佳擬合回歸方程。
Logistic生長曲線擬合結(jié)果,R方=0.983,生長曲線的上限為2.827[5],參數(shù)a=7.061,b=0.595。從指數(shù)平滑模型中擇優(yōu)選擇出來的模型是Damped模型,R方為0.951,正態(tài)化的BIC為-1.876。非線性分段回歸模型結(jié)果和模型R方=0.996,非線性分段擬合模型的表達(dá)式如下:
y=(T lt; 8) (a+b T) + (T ≥ 8) (c + d T)
式中:Y 是因變量(體重/kg) ,T 是自變量(周齡) 。a,b,c,d 為參數(shù)估計值。3 個模型的殘差值比較見圖4左。
從3個模型的擬合優(yōu)度統(tǒng)計量R方和殘差圖來看(圖4左) ,非線性分段擬合的效果都是較為明顯的。從預(yù)測的角度來看,在時間序列的末端3個模型的預(yù)圖2 某汽車企業(yè)1993—2001年銷量三個模型回歸殘差比較 測效果相當(dāng),都非常接近于殘差的零點。尤其是Lo?gistic生長曲線和指數(shù)平滑的Damped模型(圖4右) 。這一結(jié)果反映了擬合原理的差異,非線性分段擬合的模型最佳,從生產(chǎn)實際角度,Logistic生長曲線的預(yù)測結(jié)果更接近于實際。
2.3 實例3
數(shù)據(jù)來自上海市1979—2004年年末人口數(shù)統(tǒng)計資料[3],選擇此案例原因在于上海是中國最大的城市之一,其人口數(shù)據(jù)具有廣泛性和代表性,能反映城市化進(jìn)程中人口變化的特點和趨勢。原始數(shù)據(jù)和時間序列圖見表3和圖5。嘗試選擇3種非線性回歸模型,實證分析哪一種模型是最佳的模型?預(yù)測2005 和2006年年末人口數(shù)。
曲線估計最終選擇出來的模型是三次方程。R 方=0.992,模型檢驗匯總結(jié)果,F(xiàn)=964.672,P=0.000。從時間序列的指數(shù)平滑的4個模型中,按照專家建模器自動選擇出來的最佳模型是Brown衰減趨勢模型,R方=0.998,正態(tài)化的BIC=2.222,模型精度有進(jìn)一步的改善。該模型適用于具有線性趨勢并沒有季節(jié)性的序列。其平滑參數(shù)是水平和趨勢,并假定二者等同。Brown模型是Holt模型的特例。Brown指數(shù)平滑法與ARIMA(0,2,2) 模型極為相似。模型參數(shù)估計值α=1(水平和趨勢) 。
依據(jù)原始的時間序列圖來看(圖5) ,時間可分為1979—1988 年,1989—1998 年,1999—2004 年三段,可采用非線性分段回歸模型,結(jié)果顯示,模型R方=0.999,擬合效果明顯提高,表達(dá)式如下:
y=(Tlt;1989) (a + b T)+(1989≤Tlt;1998) (c+d T)+(T≥1998) (e+f T)
三個模型的殘差值和預(yù)測值比較見圖6??梢钥闯鋈齻€模型的最終預(yù)測結(jié)果非常接近。但是從理論上講,最佳模型是非線性分段擬合模型,因為R方值是最大的,殘差是最小的。
3 討論
3.1 曲線估計模型的選擇
按照統(tǒng)計學(xué)的基本原理和SPSS軟件的回歸模塊的設(shè)計,曲線估計是本文案例的首選模型。曲線估計的11個模型中擬合效果較為突出的是三次方程,模型中的參數(shù)數(shù)量是較多的,本文中的實例1和實例3就是如此。實例2選擇Logistic生長函數(shù)。曲線估計模型的特點是絕大多數(shù)的曲線方程都可作為非線性回歸的數(shù)學(xué)表達(dá)式繼續(xù)進(jìn)行非線性回歸,初始參數(shù)就是曲線估計的模型參數(shù)。優(yōu)點是通過非線性回歸模型的二次擬合后,模型的擬合效果都會有不同程度的提高。缺點是某些模型如三次方程的參數(shù)數(shù)量較多,可能導(dǎo)致模型復(fù)雜度增加,解釋性降低。局限性是用戶不能隨意定義新的模型,只能選擇SPSS提供的固定模型。
3.2 時間序列分析技術(shù)
本文給出的三個實例都須進(jìn)行時間序列建模分析。采用時間序列模塊的專家建模器和指數(shù)平滑模型,時間序列分析技術(shù)適用于那些隨時間變化的數(shù)據(jù)集,特別是當(dāng)數(shù)據(jù)存在明顯的趨勢、季節(jié)性或周期性特征時。專家建模器的優(yōu)點是不需要設(shè)置任何參數(shù),在定義好日期變量后,只須確定一個因變量進(jìn)入選項欄中,就能完成時間序列建模并輸出結(jié)果,對非統(tǒng)計學(xué)專業(yè)學(xué)者較為友好。缺點是在某些特殊或復(fù)雜情況下,可能無法達(dá)到預(yù)期效果。時間序列分析技術(shù)還有一個強(qiáng)大的優(yōu)勢,通過ARIMA模型可以擬合各種具有復(fù)雜背景噪聲和周期性波動的時間序列[7],本文并無涉及這些內(nèi)容。
3.3 非線性分段回歸的功能和評價
非線性分段回歸模型的公式是簡單的線性回歸,表達(dá)式只能寫在一個邏輯表達(dá)式中,見案例1、2、3。擬合前給出相應(yīng)的初始參數(shù),例如實例1和實例2中需要4個初始參數(shù),實例3需要6個初始參數(shù),但設(shè)置需要在非線性參數(shù)設(shè)置欄內(nèi)輸入相應(yīng)的字母符號和參數(shù)值1。非線性回歸適合各種不能轉(zhuǎn)換為線性回歸模型的非線性回歸分析。優(yōu)點是能夠更準(zhǔn)確地描述和預(yù)測數(shù)據(jù)中的非線性關(guān)系,提高預(yù)測結(jié)果的準(zhǔn)確性。缺點是初始參數(shù)的設(shè)置雖相對簡單,但選擇合適的參數(shù)值仍然是一個挑戰(zhàn),特別是當(dāng)參數(shù)數(shù)目較多時。局限性是雖然初始參數(shù)的正負(fù)符號不需要約束,但參數(shù)的取值范圍仍需合理設(shè)定,以避免模型的不穩(wěn)定性和過擬合。
3.4 不同模型之間的比較
本文通過3個案例或幾個回歸模型的實證分析,證明SPSS的非線性回歸模型,特別是分段擬合模型可能在某些時間序列數(shù)據(jù)有著更好的擬合結(jié)果。本文不強(qiáng)調(diào)SPSS的非線性分段回歸就是最好的回歸模型。從各種統(tǒng)計軟件的角度來看SPSS只是其中的一個軟件,李??萚6]比較的SPSS、SAS等4種不同的統(tǒng)計軟件的非線性回歸的運(yùn)算速度和計算精度,提出SPSS 在計算速度和精度等方面是比較好的,但是,SAS在非線性回歸中的功能是最為完善的,如果要提高模型的精度可以通過調(diào)整收斂標(biāo)準(zhǔn)來完成,這是SAS算法的優(yōu)勢。何勇鳳等[8]用R2.15.0統(tǒng)計軟件中的“segmented”模塊研究鱸鯉仔魚的早期異速生長模式,取得不錯的效果。張文彤等[4]采用不同回歸方程對汽車銷售數(shù)據(jù)建模比較,結(jié)果顯示分段擬合的決定系數(shù)較高,但最后選擇三次方程來預(yù)測未來的汽車銷量。依據(jù)是三次方程的預(yù)測結(jié)果明顯高于非線性分段擬合的預(yù)測結(jié)果。說明選擇模型時要根據(jù)專業(yè)知識和相關(guān)背景信息進(jìn)行科學(xué)的決策。
4 結(jié)論
本文通過SPSS統(tǒng)計軟件的曲線估計、指數(shù)平滑法和非線性回歸等模型對3個實例進(jìn)行實證分析。結(jié)果顯示,通過比較曲線估計、指數(shù)平滑法和非線性回歸3 種模型,發(fā)現(xiàn)非線性分段回歸模型在特定情況下優(yōu)于其他模型,強(qiáng)調(diào)非線性回歸模型的靈活性和適用性,可根據(jù)實際數(shù)據(jù)特征選擇合適的回歸方程,并通過調(diào)整參數(shù)來提高模型精度。總體來看,通過擬合精度比較和殘差分析,對一些簡單的時間序列資料,非線性回歸顯示出強(qiáng)大的精準(zhǔn)預(yù)測功能。擬合模型不復(fù)雜,參數(shù)設(shè)置相對簡單。本文為學(xué)習(xí)建模預(yù)測的學(xué)者提供一個新的思路,為大數(shù)據(jù)時代精確預(yù)測提供理論依據(jù)。
參考文獻(xiàn):
[1] 趙曉進(jìn),粱芝棟,邵立杰,等.基于SPSS非線性回歸的長期趨勢預(yù)測[J].統(tǒng)計與決策,2021,37(23):20-22.
[2] 張文彤.SPSS統(tǒng)計分析高級教程[M].北京:高等教育出版社,2004.
[3] 賴國毅,陳超.SPSS 17.0中文版常用功能與應(yīng)用實例精講[M].北京:電子工業(yè)出版社,2010.
[4] 張文彤,鐘云飛.IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹[M].北京:清華大學(xué)出版社,2013.
[5] 李春喜,姜麗娜,邵云,等.生物統(tǒng)計學(xué)[M].5版.北京:科學(xué)出版社,2013.
[6] 李海奎,肖亞麗,苗軍.常用統(tǒng)計軟件中非線性回歸功能的分析與評價[J].河南農(nóng)業(yè)大學(xué)學(xué)報,2003,37(2):200-204.
[7] ALA’RAJ M,MAJDALAWIEH M,NIZAMUDDIN N.Modelingand forecasting of COVID-19 using a hybrid dynamic modelbased on SEIRD with ARIMA corrections[J].Infectious DiseaseModelling,2021,6:98-111.
[8] 何勇鳳,吳興兵,朱永久,等.鱸鯉仔魚的異速生長模式[J].動物學(xué)雜志,2013,48(1):8-15.
【通聯(lián)編輯:李雅琪】
基金項目:河南省一流本科課程項目資助(豫教[2020]13156)