劉銘基,田雅楠,張 亮,金 博
(1.東北財經(jīng)大學(xué) 國際商學(xué)院,遼寧 大連 116025;2.大連理工大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,遼寧 大連 116024)
民航周轉(zhuǎn)量是衡量民用航空運(yùn)輸生產(chǎn)的主要經(jīng)濟(jì)指標(biāo),研究其準(zhǔn)確預(yù)測對國內(nèi)民用航空運(yùn)輸業(yè)的發(fā)展建設(shè)具有重要意義。通過對民航周轉(zhuǎn)量的預(yù)測,有助于合理制定基礎(chǔ)設(shè)施建設(shè)規(guī)劃,完善其管理和運(yùn)行方式,使其很好地適應(yīng)日益增長的航空運(yùn)輸需求,有效促進(jìn)民航貨運(yùn)的快速發(fā)展。2021年全國民航工作會議、全國民航安全工作會議介紹到在2020年,在新冠肺炎疫情對全球民航業(yè)造成巨大沖擊的情況下,由于中國疫情防控措施得力有效,中國民航在全球率先觸底反彈,成為全球恢復(fù)最快、運(yùn)行最好的航空市場。
數(shù)據(jù)顯示,2020年全年民航完成運(yùn)輸總周轉(zhuǎn)量、旅客運(yùn)輸量、貨郵運(yùn)輸量798.5億噸公里、4.2億人次、676.6萬噸,相當(dāng)于2019年的61.7%、63.3%、89.8%。中國民航旅客運(yùn)輸量連續(xù)15年穩(wěn)居世界第二。中國民航業(yè)的快速發(fā)展使得有關(guān)民航指標(biāo)科學(xué)預(yù)測成為大勢所趨。
《中國民航發(fā)展階段評估報告》也指出,目前中國基本具備了單一航空運(yùn)輸強(qiáng)國特征,將開啟多領(lǐng)域民航強(qiáng)國建設(shè)新征程,這意味著中國民航基本實現(xiàn)了從航空運(yùn)輸大國向單一航空運(yùn)輸強(qiáng)國的“轉(zhuǎn)段進(jìn)階”。面對這一成就,需要繼續(xù)強(qiáng)化中國民航運(yùn)輸航空領(lǐng)域基本特征成熟度,鞏固航空運(yùn)輸強(qiáng)國地位。然而,在交通運(yùn)輸尤其是航空運(yùn)輸?shù)念A(yù)測時,預(yù)測模型需要克服這個行業(yè)特有的周期性強(qiáng)、受天氣和季節(jié)的影響大、易受突發(fā)事件的干擾等挑戰(zhàn)。是否在模型中巧妙地解決這些問題也成為衡量預(yù)測模型的標(biāo)準(zhǔn)之一。
基于以上背景,對民航周轉(zhuǎn)量的預(yù)測方法的研究十分必要,提高預(yù)測精度成為首先要解決的問題。在模型的選取上,截止至2021年2月18日,在知網(wǎng)上以“Prophet模型”為主題進(jìn)行檢索,去除無關(guān)內(nèi)容(網(wǎng)絡(luò)通信中的專業(yè)名詞Prophet),共有32篇。涉及領(lǐng)域廣泛,涵蓋經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、工學(xué)、氣象學(xué)等領(lǐng)域。證明了Prophet模型具有普適性強(qiáng)的特點(diǎn),然而Prophet模型在國內(nèi)相關(guān)研究及運(yùn)用較少,在民航預(yù)測相關(guān)領(lǐng)域還處于一個接近空白的階段。NeuralProphet模型則是在2020年提出的,是由Prophet模型優(yōu)化改造的新模型。所以該文將以該模型為核心進(jìn)行探討,首先從單個模型間的比較入手,選出準(zhǔn)確性最高的模型,其次討論組合模型在民航周轉(zhuǎn)量預(yù)測上的準(zhǔn)確性,最后挑選出最適合的預(yù)測模型并提供不同權(quán)重下的預(yù)測效果。
在預(yù)測民航總周轉(zhuǎn)量時采用的單一模型主要分為傳統(tǒng)統(tǒng)計預(yù)測方法和基于機(jī)器學(xué)習(xí)的預(yù)測方法。蔡文婷等建立航空客運(yùn)量多元回歸模型,并通過歷史數(shù)據(jù)檢驗以及與傳統(tǒng)模型比較檢驗, 發(fā)現(xiàn)多元回歸模型適合進(jìn)行民航客運(yùn)量的中短期預(yù)測。劉楊對線性模型的預(yù)測能力進(jìn)行了評估,并得出使用半?yún)?shù)部分線性回歸方法建立的民航客運(yùn)量的預(yù)測模型最佳的結(jié)論。李明捷等運(yùn)用灰色預(yù)測方法對未來的旅客周轉(zhuǎn)量進(jìn)行預(yù)測,考慮到了系統(tǒng)性和動態(tài)性的特點(diǎn)。齊子薇應(yīng)用時間序列分析方法,利用民航客運(yùn)量2016年6月—2018年4月的逐月數(shù)據(jù)進(jìn)行分析并建立預(yù)測模型,利用2018年5月客運(yùn)量對模型進(jìn)行檢驗后發(fā)現(xiàn),自回歸移動平均模型ARIMA(1,0,0)能較好地模擬中國民航客運(yùn)量的變化趨勢,有良好的預(yù)測效果。陳聰聰?shù)然趪鴥?nèi)生產(chǎn)總值、外國人入境游客、定期航班航線里程、鐵路客運(yùn)量、第三產(chǎn)業(yè)增加值等影響民航客運(yùn)量的主要因素,利用超極限學(xué)習(xí)機(jī)的算法模型對民航客運(yùn)量進(jìn)行預(yù)測,結(jié)果表明基于ELM預(yù)測模型具有較好的預(yù)測精度。Rafael等提出SARIMA阻尼趨勢灰色預(yù)測模型(SDTGM),SDTGM根據(jù)歷史數(shù)據(jù)計算季節(jié)性阻尼因子,與傳統(tǒng)的DTGM相比,不確定度更小。李偉等利用LSTM神經(jīng)元的記憶特性,從客運(yùn)歷史數(shù)據(jù)中查找和構(gòu)建特征空間,提取客運(yùn)量時間序列的非線性特征,通過對網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)和超參數(shù)優(yōu)化,使模型能夠?qū)γ窈娇瓦\(yùn)數(shù)據(jù)進(jìn)行高精度的擬合以及對未來運(yùn)輸高峰的精準(zhǔn)預(yù)測。張良勇等基于BP神經(jīng)網(wǎng)絡(luò)從經(jīng)濟(jì)、旅游、競爭、機(jī)場運(yùn)營能力四個方面構(gòu)建影響北京民航客運(yùn)量的指標(biāo)體系,通過相關(guān)分析最終將得到8個影響北京民航客運(yùn)量的因素作為BP神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn),發(fā)現(xiàn)當(dāng)BP神經(jīng)網(wǎng)絡(luò)的隱含層為11個時模型的性能最優(yōu)。Marc 等基于協(xié)整理論,構(gòu)建了可以直接預(yù)測德國機(jī)場的客運(yùn)量和航班量的模型,將其與經(jīng)典模型方法進(jìn)行對比后得出新模型更優(yōu)的結(jié)論,并用于評估2016-2018年英國脫歐對德國機(jī)場交通量的影響。Tobias等提出了兩種城市間航空客運(yùn)量估算的重力模型。模型包含描述總體經(jīng)濟(jì)活動和城市對地理特征的變量,而不是描述航空服務(wù)特征的變量。因此,這兩種模型都適用于目前沒有航空服、歷史數(shù)據(jù)無法獲得,或描述當(dāng)前航空運(yùn)輸服務(wù)水平的因素?zé)o法獲得或無法準(zhǔn)確預(yù)測的城市對。Jieh-Haur Chen等利用k均值聚類和決策樹C5.0分類,研究空中交通量與宏觀經(jīng)濟(jì)發(fā)展之間的內(nèi)在關(guān)系,為預(yù)測模型確定影響因素提供新的思路。
不少學(xué)者也采用了組合模型的方式對不同問題進(jìn)行了預(yù)測。葛娜等運(yùn)用了加權(quán)集合的方式調(diào)整Prophet和LSTM神經(jīng)網(wǎng)絡(luò)模型的權(quán)重,形成組合模型后對某企業(yè)銷售量進(jìn)行預(yù)測,發(fā)現(xiàn)結(jié)果優(yōu)于單項預(yù)測模型。趙英等同樣利用Prophet和LSTM兩個模型對機(jī)房溫度進(jìn)行建模,不同的是他采用BP神經(jīng)網(wǎng)絡(luò)對兩種模型的預(yù)測結(jié)果進(jìn)行非線性組合來確定個模型權(quán)重,并得到了較好的預(yù)測結(jié)果。除了權(quán)重法和非線性組合法,María等利用1990-2013年數(shù)據(jù)將多種時間序列模型比較后得出,相比于其他時間序列預(yù)測模型,在預(yù)測美國航空客運(yùn)量時“ARIMA+GARCH+Bootstrap”表現(xiàn)最佳。常恬君等則采用以Prophet為基礎(chǔ)模型,利用隨機(jī)森林算法對模型進(jìn)行優(yōu)化的方式形成新的優(yōu)化模型。以上文獻(xiàn)為筆者創(chuàng)建組合模型提供了靈感和方向。
Prophet是一個基于STL分解思想的預(yù)測時間序列數(shù)據(jù)的機(jī)器學(xué)習(xí)框架,由Facebook公司在2017年進(jìn)行開源。在這個模型中,非線性趨勢與年、周、日季節(jié)性,加上節(jié)假日效應(yīng)進(jìn)行擬合。它對具有強(qiáng)烈的季節(jié)性效應(yīng)和幾個季節(jié)的歷史數(shù)據(jù)的時間序列擬合效果較好。此外,Prophet對數(shù)據(jù)缺失和趨勢變化具有很強(qiáng)的穩(wěn)健性,通常能很好地處理異常值。Prophet工作流程如圖1所示。
圖1 Prophet模型運(yùn)行流程
Prophet使用了一個可分解的時間序列模型,該模型有三個主要的模型組成部分:趨勢、周期性和節(jié)假日,將它們結(jié)合可構(gòu)成這個模型。
y
(t
)=g
(t
)+s
(t
)+h
(t
)+ε
(1)
其中,y
(t
)為時間序列在時間t
的觀測值;g
(t
)為趨勢項,模擬了時間序列值的非周期性變化;s
(t
)為周期項,代表了周期性變化(例如,每周、每月和每年的季節(jié)性);h
(t
)為節(jié)假日項,代表了在一天或多天的潛在不規(guī)則時間表上發(fā)生的假期影響;ε
為誤差項,假定為正態(tài)分布的噪聲因子。g
(t
)的公式為:(2)
其中,C
為飽和值,或者說是承載能力、容量;k
為增長率;b
為偏移量;t
為時間,明顯地隨著t
的增長,1+e(-(-))趨近于1,于是1+e(-(-))趨近于C
。s
(t
)的公式為:(3)
其中,T
為周期;n
為周期數(shù)的一半。h
(t
)的公式為:(4)
Z
(t
)=[1(t
∈D
),…,1(t
∈D
)]h
(t
)=Z
(t
)k
k
~N
(0,σ
)其中,Z
(t
)為指示函數(shù);L
為節(jié)假日個數(shù);k
為節(jié)假日的影響范圍。使訓(xùn)練集和預(yù)測的相同節(jié)假日設(shè)置為一個虛擬變量,D
為第i
個虛擬變量;k
為窗口期中設(shè)定的節(jié)假日的影響。該文使用python的fbprophet包進(jìn)行Prophet模型的實現(xiàn)。
NeuralProphet用于基于神經(jīng)網(wǎng)絡(luò)對時間序列數(shù)據(jù)進(jìn)行建模。它基于PyTorch運(yùn)行,并吸收Facebook Prophet和AR-Net的特點(diǎn)。
其組成部分有趨勢、季節(jié)性、自動回歸、特殊事件、未來回歸項和滯后回歸項。其中,前幾部分與Prophet模型類似,趨勢通過使用變化點(diǎn)來建立線性或逐個線性趨勢的模型。季節(jié)性使用傅里葉項建模,因此可以處理高頻率數(shù)據(jù)的多種季節(jié)性。自動回歸使用AR-Net的實現(xiàn)來處理,AR-Net是一個用于時間序列的自動回歸前饋神經(jīng)網(wǎng)絡(luò)。未來回歸因子是指在預(yù)測期有已知未來值的外部變量。滯后回歸因子是指只有觀察期有值的外部變量,使用單獨(dú)的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。未來的回歸項和特殊事件都被建模為模型的協(xié)變量,并有專門的參數(shù)。
從名字不難看出,它和Prophet有密切聯(lián)系,相比較于Prophet,其優(yōu)勢有:
(1)使用PyTorch作為后端進(jìn)行優(yōu)化的梯度下降法。
(2)使用AR-Net對時間序列的自相關(guān)進(jìn)行建模。
(3)使用seepearate前饋神經(jīng)網(wǎng)絡(luò)對滯后回歸者進(jìn)行建模。
(4)可配置的FFNNs非線性深層。
(5)可調(diào)整到特定的預(yù)測范圍(大于1)。
(6)自定義損失和指標(biāo)。
NeuralProphet模型在GitHub進(jìn)行開源,目前處于開發(fā)階段,有些功能還不是很完善。該文使用的為2021年1月最新的0.27版本。在后續(xù)版本中,會有更多的更新內(nèi)容,如為預(yù)測增加置信區(qū)間,為趨勢項增加邏輯斯蒂增長模型(Logistic growth model)以及增加對面板數(shù)據(jù)的支持等。
t
時刻的預(yù)測值為P
(t
),ARIMA模型的預(yù)測值為A
(t
),t
=1,2,…,N
,并分別給兩個模型分別賦予動態(tài)權(quán)值w
和w
。此時,定義集成后的Prophet-ARIMA組合預(yù)測模型為:(5)
其中,t
為預(yù)測值出現(xiàn)的時間,PA(t
)為Prophet模型和ARIMA的預(yù)測數(shù)據(jù)通過權(quán)重相加得到的結(jié)果。該文選取民航貨物周轉(zhuǎn)量、民航貨郵周轉(zhuǎn)量、民航旅客周轉(zhuǎn)量和民航總周轉(zhuǎn)量于2005年至2017年的月度數(shù)據(jù)作為訓(xùn)練集,預(yù)測2018年1月至2019年6月的月度數(shù)據(jù)。數(shù)據(jù)來自中經(jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫。
圖2為Prophet擬合歷史數(shù)據(jù)及預(yù)測未來的情況。垂直虛線的位置為趨勢變化點(diǎn),在趨勢變化點(diǎn)處趨勢項進(jìn)行改變。
圖2 Prophet模型預(yù)測情況
在對參數(shù)進(jìn)行調(diào)整時,乘法季節(jié)性(seasonality_mode='multiplicative')是一個重要參數(shù)。時間序列具有明顯的周期性,但季節(jié)性并不像先知所假設(shè)的那樣是一個恒定的加法因子。這時可以使用乘法季節(jié)性來進(jìn)行調(diào)整。
圖3為NeuralProphet擬合歷史數(shù)據(jù)及預(yù)測未來的情況。在對參數(shù)進(jìn)行調(diào)整時,這里有一個重要的參數(shù),趨勢變化點(diǎn)的范圍(changepoints_range)。模型默認(rèn)設(shè)置為0.8,即趨勢變更點(diǎn)只對時間序列的前80%進(jìn)行推斷,以便有足夠的空間(runway)來預(yù)測未來的趨勢,并避免在時間序列結(jié)束時過度擬合波動。這個默認(rèn)值在很多情況下有效,但不是所有情況。經(jīng)過試驗,由于這里將其設(shè)置為0.9,擴(kuò)大了趨勢變更點(diǎn)的覆蓋范圍,以便更好地適應(yīng)數(shù)據(jù)變化情況。
圖3 NeuralProphet模型預(yù)測情況
w
和w
,取系數(shù)w
為[0.05,0.95]遞增的19個數(shù)值,因w
+w
=1,所以對應(yīng)的權(quán)重系數(shù)w
為[0.95,0.05]遞減的19個數(shù)值。將19組權(quán)值系數(shù)w
和w
分別與各自對應(yīng)的模型在各時刻下的預(yù)測結(jié)果相乘,然后將同一時刻兩模型對應(yīng)的帶有權(quán)值系數(shù)的預(yù)測結(jié)果相加,最后輸出經(jīng)帶權(quán)系數(shù)相加后的組合模型預(yù)測結(jié)果、對應(yīng)的權(quán)值系數(shù)w
和w
以及時刻t
。經(jīng)過以上流程的循環(huán)計算,得到19組加權(quán)集成后的預(yù)測結(jié)果,記為:
PA(t
),i
=1,2,…,19,t
=1,2,…,n
(6)
w
和w
的組合情況如表1所示。表1 組合模型及對應(yīng)權(quán)值
采用以下評價指標(biāo)對模型進(jìn)行評價,數(shù)值越低表明誤差越小。
MSE(Mean Squared Error,均方誤差):
(7)
RMSE(Root Mean Squared Error,均方根誤差):
(8)
MAE(Mean Absolute Error,平均絕對誤差):
(9)
MAPE(Mean Absolute Percentage Error,平均絕對百分比誤差):
(10)
SMAPE(Symmetric Mean Absolute Percentage Error,對稱平均絕對百分比誤差):
(11)
為進(jìn)一步驗證模型的應(yīng)用性能,該文選取Triple Exponential Smoothing(三次指數(shù)平滑法)、ARIMA作為對比模型。并使用五種評價指標(biāo)進(jìn)行對比,各模型評估對比結(jié)果如表2所示,表中黑色加粗處為本列最小指標(biāo)。各單獨(dú)模型與組合模型的預(yù)測結(jié)果對比如圖4所示。
圖4 預(yù)測結(jié)果對比
表2 不同模型性能對比
續(xù)表2
從圖4可以看到,通過模型的不斷組合,預(yù)測也逐漸接近真實值。需要注意,由于使用5種評價指標(biāo),計算方法不同,存在5種不同評價指標(biāo)的最小值不同時存在于同一模型的情況,這是很正常的。這時可以同時考慮5種指標(biāo)來選擇最佳模型。
通過對民航貨物周轉(zhuǎn)量、民航貨郵周轉(zhuǎn)量、民航旅客周轉(zhuǎn)量和民航總周轉(zhuǎn)量四種民航周轉(zhuǎn)量構(gòu)建不同模型并運(yùn)用5種評價指標(biāo)進(jìn)行對比,得到最優(yōu)模型,如表3所示。
表3 模型對比
就單一模型來看,相較于傳統(tǒng)的Triple Exponential Smoothing 和ARIMA模型,Prophet模型和NeuralProphet模型表現(xiàn)較優(yōu),可以方便地根據(jù)實際問題調(diào)整參數(shù)以適應(yīng)實際不同的數(shù)據(jù),這給時間序列數(shù)據(jù)本身進(jìn)行STL分解進(jìn)行建模的思想進(jìn)行民航預(yù)測提供了一種新思路。在進(jìn)一步研究后發(fā)現(xiàn),在應(yīng)對不同種類的周轉(zhuǎn)量時,被賦予不同權(quán)重的Prophet-ARIMA組合模型在預(yù)測效果上最佳。但以上模型無法準(zhǔn)確地預(yù)測突發(fā)事件下的周轉(zhuǎn)率等指標(biāo)。因此,如何通過改進(jìn)或者融合使得模型能較好地預(yù)測突發(fā)事件有待進(jìn)一步思考與研究。