王向前, 吳東隆, 鄭健彤
(1.安徽理工大學(xué) 經(jīng)濟(jì)與管理學(xué)院,安徽 淮南 232001; 2.天津理工大學(xué) 管理學(xué)院,天津 300384)
隨著我國“一帶一路”戰(zhàn)略的實施推進(jìn),推動了我國經(jīng)濟(jì)貿(mào)易的快速發(fā)展,同時帶來了港口貨運(yùn)量的與日俱增,對港口的建設(shè)和運(yùn)營管理提出了新的考驗,為提高港口的運(yùn)轉(zhuǎn)效率和增強(qiáng)港口的競爭力,準(zhǔn)確的預(yù)測港口吞吐量對于港口建設(shè),運(yùn)營和發(fā)展起到重要的作用。目前用于吞吐量預(yù)測的方法較多,主要有時間序列預(yù)測方法[1]、神經(jīng)網(wǎng)絡(luò)預(yù)測方法[2]和支持向量回歸預(yù)測方法[3]等,神經(jīng)網(wǎng)絡(luò)預(yù)測方法具有較強(qiáng)的非線性映射能力且擁有較強(qiáng)的適應(yīng)能力,但需要大量的數(shù)據(jù),訓(xùn)練時間較長。時間序列預(yù)測方法對于線性數(shù)據(jù)具有較強(qiáng)的處理能力,挖掘其中存在的規(guī)律來預(yù)測未來數(shù)據(jù),但需求樣本數(shù)據(jù)多且對于非線性數(shù)據(jù)擬合效果較差;支持向量回歸預(yù)測方法對非線性小樣本數(shù)據(jù)擬合效果好,但對于大樣本處理能力差。
由于港口貨物吞吐量受到多重因素的影響,因此在相關(guān)文獻(xiàn)研究的基礎(chǔ)上[4~14]提出多因素時間序列預(yù)測方法與支持向量回歸預(yù)測方法相結(jié)合的ARIMAX-SVR組合模型[15~17],組合模型將兩種模型的優(yōu)點相結(jié)合,同時又彌補(bǔ)了兩種模型的缺點;通過文獻(xiàn)研究發(fā)現(xiàn)在同類研究中考慮多因素影響的港口吞吐量ARIMAX模型尚未有過,具備一定的先進(jìn)性。通過選取天津港貨物吞吐量1999~2018年的相關(guān)數(shù)據(jù)進(jìn)行實證分析來檢驗?zāi)P偷臏?zhǔn)確性,旨在為港口貨物吞吐量預(yù)測提供新的方法,提高預(yù)測精度,為港口建設(shè),運(yùn)營和發(fā)展提供支撐,提高天津港的運(yùn)轉(zhuǎn)效率和競爭力。
Pearson相關(guān)系數(shù)是用來反映兩個變量線性相關(guān)程度的統(tǒng)計量,Pearson相關(guān)系數(shù)的定義如下:
(1)
自回歸移動平均(ARMA)模型是自回歸模型和移動平均模型的結(jié)合,定義如下:
(2)
其中:yt為當(dāng)前序列值,μ為常數(shù)項,p為階數(shù),γi為自相關(guān)系數(shù),q為階數(shù),δi為偏相關(guān)系數(shù),εt為殘差項。
差分自回歸移動平均(ARIMA)模型與ARMA模型的區(qū)別是ARIMA模型需要對時間序列進(jìn)行d階差分使我們得到平穩(wěn)的時間序列。建模過程如圖1所示:
ARIMAX模型構(gòu)造前必須滿足響應(yīng)序列yt和輸入變量x1t,x2t,…,xnt為平穩(wěn)序列,若不是平穩(wěn)序列則需采用差分使時間序列變平穩(wěn),然后再構(gòu)造響應(yīng)變量與輸入變量之間的模型。
(3)
其中:Θi(B)為第i個輸入變量的自回歸系數(shù)多項式,φi(B)為第i個輸入變量的移動平均系數(shù)多項式,li為第i個輸入變量的滯后階數(shù),εt為殘差序列,Θi為殘差序列的自回歸系數(shù)多項式,φi為殘差序列的移動平均回歸系數(shù)多項式,at為零均值白噪聲序列。建模步驟如下:
第一步:對輸入變量x1t,x2t,…,xnt進(jìn)行平穩(wěn)性檢驗,如不平穩(wěn)則進(jìn)行d階差分使其平穩(wěn);
第二步:對d階差分平穩(wěn)的輸入變量x1t,x2t,…,xnt構(gòu)建ARMA模型并檢驗殘差序列εt是否為白噪聲序列;
第三步:利用建立的輸入變量ARMA模型擬合ARIMAX模型和殘差序列at。
支持向量機(jī)回歸(SVR)是一種非線性回歸模型,為了很好地處理非線性時間序列,需要對非線性時間序列進(jìn)行分類,將時間序列從線性不可分的低維空間映射到線性可分的高維空間,首先為將時間序列映射到高維空間引入核函數(shù),本文采用高斯核函數(shù):
(4)
相比其他核函數(shù)而言,高斯核函數(shù)參數(shù)選擇容易。通過十折交叉驗證確定最優(yōu)的核參數(shù)(懲罰因子C和容忍因子σ)。
貨物吞吐量是多重因素共同作用的結(jié)果,所以在分析時應(yīng)將影響因素考慮進(jìn)去,影響貨物吞吐量的因素較多,主要將其劃分為兩大類,第一類為港口自身條件因素,其中包括貨運(yùn)量,貨物周轉(zhuǎn)量,萬噸級泊位數(shù),倉庫總面積,裝卸機(jī)械臺數(shù)和水運(yùn)從業(yè)人數(shù)六個影響因素;第二類為經(jīng)濟(jì)腹地影響因素,包括人均生產(chǎn)總值,進(jìn)出口貿(mào)易總額,城鎮(zhèn)居民人均消費(fèi)支出,農(nóng)村居民人均消費(fèi)支出,社會消費(fèi)品零售總額和交通固定資產(chǎn)投資六個影響因素。
選取1999~2018年度天津港相關(guān)數(shù)據(jù)(港口自身條件、經(jīng)濟(jì)腹地因素)進(jìn)行分析,數(shù)據(jù)均來源于國家統(tǒng)計年鑒和中國港口年鑒。由于2019年中國港口統(tǒng)計年鑒尚未公布,所以天津港2018年萬噸級泊位數(shù),倉庫總面積,裝卸機(jī)械臺數(shù)和水運(yùn)從業(yè)人數(shù)影響因素數(shù)據(jù)暫時缺失,為了保證預(yù)測結(jié)果的精度,在模型建立前選用BP神經(jīng)網(wǎng)絡(luò)法對缺失數(shù)據(jù)進(jìn)行補(bǔ)插,設(shè)定網(wǎng)絡(luò)迭代次數(shù)為5000次,期望誤差為1e-8,學(xué)習(xí)速率為0.01,隱含層神經(jīng)元個數(shù)為6;利用Matlab分析軟件在分別經(jīng)過204,179,572,409次訓(xùn)練達(dá)到期望誤差后輸出缺失數(shù)據(jù)。訓(xùn)練過程如圖2所示,誤差如圖3所示。
對數(shù)據(jù)進(jìn)行Pearson相關(guān)系數(shù)分析得到表1,由此可知除去貨運(yùn)量,貨物周轉(zhuǎn)量和水運(yùn)從業(yè)人員外;萬噸級泊位數(shù),倉庫總面積,裝卸機(jī)械臺數(shù)GDP,進(jìn)出口貿(mào)易總額,城鎮(zhèn)居民人均消費(fèi)支出,農(nóng)村居民人均消費(fèi)支出,社會消費(fèi)品零售總額,交通固定資產(chǎn)投資9個影響因素相關(guān)系數(shù)均通過顯著性檢驗,貨運(yùn)量與這9個影響因素的相關(guān)性分別為0.954,0.850,0.971,0.953,0.967,0.921,0.890,0.922,0.743。此處認(rèn)定相關(guān)性大于0.9屬于強(qiáng)相關(guān),由此篩選出萬噸級泊位數(shù)x1,裝卸機(jī)械臺數(shù)x2,GDPx3,進(jìn)出口貿(mào)易總額x4,城鎮(zhèn)居民人均消費(fèi)支出x5,社會消費(fèi)品零售總額x66個關(guān)鍵影響因素。
表1 Pearson相關(guān)性分析
(1)平穩(wěn)性檢驗
首先畫出天津港貨物吞吐量的時序圖,從圖4可以直觀看出曲線在長時期內(nèi)呈現(xiàn)出持續(xù)上升趨勢;再通過ADF單位根檢驗得到當(dāng)P值小于顯著性水平0.05時拒絕原假設(shè),認(rèn)為原始時間序列穩(wěn)定,P=0.99>0.05,不拒絕原假設(shè),認(rèn)為時間序列不穩(wěn)定。對時間序列進(jìn)行三階差分,從圖5可以初步認(rèn)為時間序列平穩(wěn),再進(jìn)行ADF單位根檢驗P=0.01<0.05,拒絕原假設(shè),三階差分后的時間序列平穩(wěn)。
(2)模型定階
從自相關(guān)圖和偏相關(guān)圖(圖6)中可以看出在滯后一階后自相關(guān)縮小至零且過程不是一個突然地過程,而是一個漸變的過程,認(rèn)為自相關(guān)1階拖尾;偏相關(guān)也并不是一個突然的過程,認(rèn)為偏相關(guān)1階拖尾。從上述分析可以選擇模型ARIMA(1,3,1),AIC=320.78。建立模型:
yt=-0.6607yt-1-0.8746εt-1+εt,Var(εt)
=0,5514586
(3)模型檢驗
利用LB檢驗對殘差序列進(jìn)行檢驗,殘差序列P=0.5553>0.05,認(rèn)為殘差序列為白噪聲序列;畫出殘差的QQ圖(圖7)可以判斷圖中殘差基本落在線上,符合正態(tài)性假設(shè);ARIMA(1,3,1)模型擬合效果好,可用作預(yù)測。
(4)模型預(yù)測
利用ARIMA(1,3,1)模型對原始時間序列做預(yù)測,預(yù)測2019~2023未來五年的天津港貨物吞吐量數(shù)據(jù),預(yù)測相對誤差為4.55%,結(jié)果如表2所示。
(1)平穩(wěn)性檢驗
擬合ARIMAX模型要求響應(yīng)變量和輸入變量均為平穩(wěn)序列,從2.3分析中可以得到響應(yīng)變量yt的相關(guān)數(shù)據(jù);對所需的6個輸入變量重復(fù)2.3步驟得到6個輸入變量均為非平穩(wěn)序列,進(jìn)行三階差分后經(jīng)ADF檢驗x3=0.3502,x4=0.0853,x6=0.1579均大于0.05,但從得到的時序圖來看基本平穩(wěn)(圖8),在觀測值較少的情況下顯著性水平α可適當(dāng)放寬[17],所以此處認(rèn)定x3,x4,x6是平穩(wěn)序列。
(2)模型定階
由2.2分析結(jié)果可知,如果要建立響應(yīng)變量和輸入變量的線性回歸分析模型,自變量的個數(shù)會很多,它們之間又具有高度相關(guān)性,這可能會導(dǎo)致參數(shù)估計遇到很大問題,所以我們采用轉(zhuǎn)移函數(shù)結(jié)構(gòu)來避免上述問題的發(fā)生。
此處直接使用R語言中auto.arima函數(shù)對差分后的輸入變量進(jìn)行定階,3x1的擬合模型為ARMA(1,0),AIC=117.18;3x2的擬合模型為ARMA(0,2),AIC=244.93;3x3的擬合模型為ARMA(0,0),AIC=353.25;3x4的擬合模型為ARMA(2,0),AIC=295.07;3x5的擬合模型為ARMA(0,0),AIC=264.45;3x6的擬合模型為ARMA(0,0),AIC=302.07;對殘差序列進(jìn)行LB檢驗,P值(0.4308,0.9549,0.1598,0.9944,0.1545,0.1642)均顯著大于α=0.05,這表明模型擬合效果好。
對萬噸級泊位數(shù)取差分后建立擬合模型如下:
3x1t=-0.6326x1t-1+εt,Var(εt)=44.9
對裝卸機(jī)械臺數(shù)取差分后建立擬合模型如下:
3x2t=-1.4602εt-1+0.6111εt-2+εt,Var(εt)=64683
對腹地進(jìn)出口貿(mào)易總額差分后建立擬合模型如下:
3x4t=-0.8476x4t-1-0.5289x4t-2+εt,Var(εt)=1359302
(3)模型擬合
根據(jù)上述分析得到的輸入變量模型,采用R語言TSA包中的arimax函數(shù)來擬合ARIMAX模型,擬合的ARIMAX模型AIC=264.99,LB檢驗殘差序列P=0.5737>0.05,這說明ARIMAX擬合效果好且該模型要明顯優(yōu)于不考慮影響因素的ARIMA模型。擬合模型如下:
(4)模型預(yù)測
使用上述建立的ARIMAX模型對原始時間序列進(jìn)行擬合并預(yù)測2019~2023未來五年的天津港貨物吞吐量數(shù)據(jù),該模型的相對誤差為1.09%,預(yù)測效果要明顯優(yōu)于ARIMA模型,結(jié)果見表2。
建立的ARIMAX模型對于時間序列的線性關(guān)系具有較強(qiáng)的處理能力,而貨物吞吐量具有隨機(jī)性和時變性的特點,為提高模型預(yù)測的精度,對ARIMAX模型得到的殘差序列運(yùn)用對非線性數(shù)據(jù)處理能力較強(qiáng)的SVR模型進(jìn)行擬合,尋求高精度的模型,降低預(yù)測誤差。預(yù)測步驟如圖9所示:
采用高斯核函數(shù)作為SVR對殘差訓(xùn)練的回歸模型,為進(jìn)一步降低擬合誤差,提高預(yù)測模型的精度,需要尋找最優(yōu)的懲罰因子C和容忍因子σ,C和σ控制SVR模型的擬合誤差,C越大擬合誤差越小,但會導(dǎo)致訓(xùn)練時間過長,σ值越小擬合誤差越小,但σ值太小會導(dǎo)致過擬合。采用十折交叉驗證方法搜尋最優(yōu)參數(shù),在經(jīng)過63次迭代后得到最優(yōu)參數(shù),如圖10所示。
顏色越深表明得到的擬合誤差越小,即在C=32和σ=1時模型擬合效果最優(yōu)。將十折交叉驗證法得到的最優(yōu)參數(shù)C,σ?guī)氲叫拚P椭械玫狡骄鄬φ`差為0.43%,結(jié)果如圖11所示,通過對比分析(表2)可得經(jīng)過SVR模型修正后的ARIMAX模型精度更高。
表2 天津港貨物吞吐量預(yù)測結(jié)果
為適應(yīng)經(jīng)濟(jì)發(fā)展形式,以天津港為例,在建立ARIMA模型的基礎(chǔ)上運(yùn)用Pearson相關(guān)性分析篩選出的6個對吞吐量影響較大的因素作為輸入變量,構(gòu)建了ARIMAX預(yù)測模型對天津港貨物吞吐量進(jìn)行預(yù)測,為保障預(yù)測結(jié)果的有效性,尋求更高精度的預(yù)測模型,降低預(yù)測誤差,引入SVR模型對ARIMAX模型進(jìn)行修正,建立了ARIMAX-SVR組合模型進(jìn)行預(yù)測。
從實證分析結(jié)果來看,ARIMAX-SVR組合模型精度為0.43%, ARIMAX和ARIMA精度分別為1.09%和4.55%,這說明組合模型預(yù)測效果更好,更加適用于貨物吞吐量的預(yù)測,通過該模型對未來港口貨物吞吐量進(jìn)行預(yù)測,能夠較好的為港口的未來建設(shè),經(jīng)營和業(yè)務(wù)的發(fā)展提供重要借鑒意義。由于類似對模型的研究相對較少,所以該模型相較于其他同類研究具有一定的先進(jìn)性。