王 飛, 孫鵬飛
(中國(guó)民航大學(xué)空中交通管理學(xué)院, 天津 300300)
隨著中國(guó)社會(huì)的進(jìn)步與民航事業(yè)的發(fā)展,航班量持續(xù)增加,空域資源日益緊張,空管的協(xié)調(diào)壓力持續(xù)增大,為了緩解空域擁擠和降低管制員的負(fù)荷,需要對(duì)空中交通流進(jìn)行優(yōu)化和管理。流量預(yù)測(cè)是空中交通管理的重要內(nèi)容,流量預(yù)測(cè)一般分為中長(zhǎng)期預(yù)測(cè)與短期預(yù)測(cè),中長(zhǎng)期預(yù)測(cè)可以為航空公司運(yùn)營(yíng)調(diào)整、機(jī)場(chǎng)建設(shè)和改造提供參考,流量短期預(yù)測(cè)可以為管制員提供輔助決策信息,對(duì)優(yōu)化交通流和減少延誤更具現(xiàn)實(shí)意義。因此,對(duì)空中交通流量進(jìn)行短期預(yù)測(cè)是很有必要的。
目前中外學(xué)者對(duì)空中交通流量短期預(yù)測(cè)的主要研究方法有:①基于飛行計(jì)劃的預(yù)測(cè)方法,該方法簡(jiǎn)單易行,但在航路飛行時(shí),不確定因素較多,預(yù)測(cè)精度較差,并且航班量巨大時(shí),運(yùn)算較為復(fù)雜,速度較慢;②基于數(shù)理統(tǒng)計(jì)的預(yù)測(cè)方法,主要考慮了空中交通流的線(xiàn)性特征,操作較為簡(jiǎn)便,但對(duì)非線(xiàn)性因素考慮不足,具有局限性;③智能預(yù)測(cè)方法,具有較強(qiáng)的自學(xué)習(xí)能力、適應(yīng)性和魯棒性,可以在大量的數(shù)據(jù)中挖掘出復(fù)雜的數(shù)據(jù)關(guān)系,但數(shù)據(jù)較少時(shí)無(wú)法準(zhǔn)確地獲取數(shù)據(jù)的特征,預(yù)測(cè)效果較差;④基于非線(xiàn)性混沌理論的預(yù)測(cè)方法,該方法要求非常恰當(dāng)?shù)闹貥?gòu)系統(tǒng)相空間,但相空間重構(gòu)參數(shù)難以準(zhǔn)確確定,主觀性較強(qiáng)。
空中交通流已被證實(shí)具有復(fù)雜的非線(xiàn)性特征,楊陽(yáng)[1]對(duì)空域扇區(qū)流量時(shí)間序列具備混沌特性進(jìn)行了驗(yàn)證,王飛[2]對(duì)短期空中交通流的時(shí)間序列進(jìn)行了非線(xiàn)性檢驗(yàn),驗(yàn)證了5 min時(shí)間尺度的空中交通流時(shí)間序列是非線(xiàn)性的。
針對(duì)空中交通非線(xiàn)性系統(tǒng),傳統(tǒng)方法在刻畫(huà)內(nèi)部結(jié)構(gòu)、揭示演化機(jī)理、預(yù)測(cè)發(fā)展趨勢(shì)等方面存在結(jié)構(gòu)性瓶頸;由于空中交通流容易受到天氣和人為等因素的影響,具有較強(qiáng)的非線(xiàn)性,利用單一方法直接進(jìn)行預(yù)測(cè)時(shí),難以取得較好的預(yù)測(cè)效果。分解集成方法自提出以來(lái),在復(fù)雜非線(xiàn)性系統(tǒng)應(yīng)用方面顯示出良好的應(yīng)用前景。分解集成方法在空中交通流預(yù)測(cè)領(lǐng)域的研究處于起步階段,但該方法在股票、油價(jià)、電力預(yù)測(cè)等領(lǐng)域均有應(yīng)用,尤其是地面交通領(lǐng)域的研究成果可為空中交通流量短期預(yù)測(cè)提供借鑒。賀毅岳等[3]提出了經(jīng)驗(yàn)?zāi)B(tài)分解下基于支持向量回歸的股票價(jià)格集成預(yù)測(cè)方法(empirical mode decomposition and SVR based stock price integrated forecasting,EMD-SVRF),實(shí)現(xiàn)了對(duì)非平穩(wěn)、非線(xiàn)性股票價(jià)格時(shí)間序列的高精度預(yù)測(cè)。汪子述[4]構(gòu)建了基于數(shù)據(jù)特征驅(qū)動(dòng)重構(gòu)的分解集成模型,并通過(guò)對(duì)原油價(jià)格進(jìn)行預(yù)測(cè),證明了該模型具有更高的預(yù)測(cè)準(zhǔn)確度和更少的預(yù)測(cè)時(shí)間。周程等[5]提出了一種基于趨勢(shì)分解和小波變換的多重“分解-集成”預(yù)測(cè)方法,利用趨勢(shì)分解將貨運(yùn)量分解為趨勢(shì)項(xiàng)和非趨勢(shì)項(xiàng),通過(guò)小波分解將非趨勢(shì)項(xiàng)進(jìn)一步分解成低頻項(xiàng)和高頻項(xiàng),分別建立預(yù)測(cè)模型,選用相加集成得到貨運(yùn)量預(yù)測(cè)值,降低了問(wèn)題復(fù)雜度,有效提高了預(yù)測(cè)性能。Wang等[6]提出了一種EMD-ARIMA(empirical mode decomposition and autoregressive integrated moving average)組合模型,對(duì)5~20 min內(nèi)的高速公路車(chē)輛速度進(jìn)行了預(yù)測(cè),并將EMD-ARIMA組合模型與差分自回歸移動(dòng)平均模型(autoregressive integrated moving average, ARIMA),人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)等傳統(tǒng)預(yù)測(cè)方法進(jìn)行比較,發(fā)現(xiàn)提出的組合預(yù)測(cè)模型結(jié)果更好。Majumder等[7]提出了一種基于變分模態(tài)分解(variational mode decomposition, VMD)和新內(nèi)核極限學(xué)習(xí)機(jī)的組合預(yù)測(cè)模型,用于太陽(yáng)能輻射的預(yù)測(cè),與其他模型作比較,有更高的預(yù)測(cè)精度。
為了對(duì)空中交通流量進(jìn)行短期預(yù)測(cè),現(xiàn)提出基于分解集成方法的組合預(yù)測(cè)模型。首先,對(duì)流量時(shí)序數(shù)據(jù)進(jìn)行集合經(jīng)驗(yàn)?zāi)B(tài)分解,得到若干分量,通過(guò)復(fù)雜度檢驗(yàn)將這些分量分為高頻和低頻,高頻的分量采用BP(back propagation)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),低頻的分量使用最小二乘法進(jìn)行預(yù)測(cè)。最后對(duì)各分量預(yù)測(cè)的結(jié)果采用線(xiàn)性加和進(jìn)行集成預(yù)測(cè),得到最終的預(yù)測(cè)結(jié)果。
經(jīng)典模態(tài)分解(empirical mode decomposition,EMD)是一種自適應(yīng)信號(hào)時(shí)頻處理方法,此方法可以根據(jù)數(shù)據(jù)的時(shí)間尺度特征進(jìn)行分解,非常適用于非線(xiàn)性數(shù)據(jù)的處理[8]。但EMD分解存在著模態(tài)混疊問(wèn)題,集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble empirical mode decomposition,EEMD)可有效克服這個(gè)問(wèn)題[9]。
EEMD分解的具體步驟如下。
Step 1將白噪聲ω(t)加入到原信號(hào)X(t)里得到信號(hào)Y(t),表示為
Y(t)=X(t)+ω(t)
(1)
Step 2對(duì)信號(hào)Y(t)進(jìn)行EMD分解,得到n個(gè)模態(tài)分量ci(t)和一個(gè)殘差r(t),表示為
(2)
Step 3重復(fù)Step 1、Step 2m次,對(duì)信號(hào)Y(t)加入不同的白噪聲,得到m組模態(tài)分量和m個(gè)殘差。根據(jù)文獻(xiàn)[8],所添加的白噪聲應(yīng)符合關(guān)系式
(3)
式(3)中:λ為輸入信號(hào)與經(jīng)過(guò)EEMD分解后分量加和的誤差;ε為所加白噪聲的幅值系數(shù);m為添加白噪聲的次數(shù)。
Step 4對(duì)得到的數(shù)據(jù)求均值,得到最終的n個(gè)模態(tài)分量imfi(t)和一個(gè)殘差res(t),即
(4)
(5)
BP神經(jīng)網(wǎng)絡(luò)是一種采用誤差反向傳播算法的神經(jīng)網(wǎng)絡(luò),它在結(jié)構(gòu)上分為輸入層、隱含層和輸出層,如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1 The structure of BP neural network
BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),具體步驟如下。
Stpe 1信息正向傳播。信息從輸入層傳遞到隱含層,再傳遞到輸出層,隱含層神經(jīng)元的輸入ui為
(6)
式(6)中:n為輸入層節(jié)點(diǎn)數(shù);wij為輸入層節(jié)點(diǎn)j與隱含層節(jié)點(diǎn)i之間的權(quán)重;xj為輸入層節(jié)點(diǎn);a1i為隱含層節(jié)點(diǎn)i的閾值。
隱含層神經(jīng)元的輸出pi為
(7)
式(7)中:f為隱含層的傳遞函數(shù)。
輸出層神經(jīng)元的輸入qk為
(8)
式(8)中:r為隱含層的節(jié)點(diǎn)數(shù);wki為隱藏層節(jié)點(diǎn)i與輸出層節(jié)點(diǎn)k之間的權(quán)重;a2k為輸出層節(jié)點(diǎn)k的閾值。
輸出層神經(jīng)元的輸出yk為
(9)
式(9)中:φ為輸出層的傳遞函數(shù)。
Step 2誤差反向傳播。得到訓(xùn)練的結(jié)果后與實(shí)際的數(shù)據(jù)進(jìn)行比對(duì),計(jì)算得到訓(xùn)練數(shù)據(jù)與實(shí)際數(shù)據(jù)的誤差E為
(10)
式(10)中:m為輸出層節(jié)點(diǎn)的數(shù)量;Tk為輸出層節(jié)點(diǎn)k的期望輸出值。
利用誤差去調(diào)整權(quán)值和閾值,使誤差沿梯度方向下降,經(jīng)過(guò)多次迭代后,得到誤差最小的權(quán)值和閾值,停止訓(xùn)練。
最小二乘法(ordinary least squares, OLS)是一種擬合算法,它通過(guò)尋找最小化誤差的平方和擬合曲線(xiàn),是一種簡(jiǎn)便的線(xiàn)性擬合方法。以直線(xiàn)擬合的例子講解最小二乘法的原理。最小二乘法擬合的原理如下。
(11)
(12)
為了求得Q的最小值,將Q對(duì)a0和a1分別求偏導(dǎo),即
(13)
(14)
進(jìn)而可計(jì)算得到a0、a1,即
(15)
(16)
數(shù)據(jù)來(lái)源于三亞4號(hào)扇區(qū)2017年9月2—19日共計(jì)18 d時(shí)間尺度為30 min的流量數(shù)據(jù),如圖2所示,將前17 d的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),第18天前12 h的數(shù)據(jù)對(duì)預(yù)測(cè)模型的預(yù)測(cè)效果進(jìn)行驗(yàn)證。
圖2 原始交通流時(shí)間序列Fig.2 Original traffic flow time series
為了評(píng)估預(yù)測(cè)模型性能,選擇了均方根誤差(root mean squared error,RMSE);平均絕對(duì)誤差(mean absolute error,MAE);均等系數(shù)(equal coefficient,EC)作為評(píng)價(jià)指標(biāo),計(jì)算公式為
(17)
(18)
(19)
首先對(duì)18 d共計(jì)432 h的流量數(shù)據(jù)進(jìn)行EEMD分解,根據(jù)文獻(xiàn)[9]的研究,添加白噪聲的次數(shù)為100時(shí),白噪聲的幅值系數(shù)取0.01~0.5較為適宜。經(jīng)過(guò)嘗試比較后,設(shè)置添加白噪聲的次數(shù)為100,白噪聲的幅值系數(shù)為0.1,經(jīng)過(guò)分解后得到模態(tài)分量imfi(t)(i=1,2,…,8)與殘差res(t),如圖3所示。
圖3 EEMD分解后的分量Fig.3 The component value after EEMD decomposition
通過(guò)復(fù)雜度檢驗(yàn)可以確定高復(fù)雜度與低復(fù)雜度分量,大于0.5的分量被認(rèn)為具有高復(fù)雜度,小于0.5的具有低復(fù)雜度[4]。針對(duì)不同復(fù)雜度的分量采用不同的方法進(jìn)行預(yù)測(cè),可以降低運(yùn)算時(shí)間,提高預(yù)測(cè)準(zhǔn)確度。通過(guò)計(jì)算排列熵來(lái)確定分量的復(fù)雜度,使用平均互信息估計(jì)相空間重構(gòu)的延遲時(shí)間,使用虛假最近鄰點(diǎn)算法估計(jì)相空間重構(gòu)的嵌入維數(shù),并對(duì)排列熵歸一化處理,得到最終的排列熵。設(shè)置閾值為0.5,大于0.5的定義為高頻分量,小于0.5的定義為低頻分量,如表1所示。
表1 各分量的排列熵
為了更好地驗(yàn)證模型的預(yù)測(cè)效果,取各分量前17 d共計(jì)408 h的數(shù)據(jù)ai(其中i為天數(shù),i=1,2,…,17)作為訓(xùn)練集。取第18天前12 h的數(shù)據(jù)b18作為驗(yàn)證集。
BP神經(jīng)網(wǎng)絡(luò)具有良好的非線(xiàn)性映射能力和自學(xué)習(xí)能力,由于高頻分量的復(fù)雜度較高,預(yù)測(cè)難度較大,所以對(duì)于高頻分量,采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。設(shè)置訓(xùn)練次數(shù)為5 000次,收斂誤差為10-7,權(quán)值的學(xué)習(xí)算法設(shè)置為trainlm,選擇ai(i=1,2,…,16)作為訓(xùn)練集上的輸入,設(shè)置輸入層節(jié)點(diǎn)數(shù)為16,選擇a17作為訓(xùn)練集上的輸出,設(shè)置輸出層的節(jié)點(diǎn)數(shù)為1。目前,隱含層節(jié)點(diǎn)數(shù)的設(shè)定還沒(méi)有一套系統(tǒng)的方法,通常是通過(guò)一系列試算確定[10]。通過(guò)試算確定了imfi(t)(i=1,2,…,7)的隱含層節(jié)點(diǎn)個(gè)數(shù)為8、5、5、5、3、3、3。
最小二乘法是一種簡(jiǎn)便的線(xiàn)性擬合算法,具有計(jì)算快速的優(yōu)點(diǎn)。由于低頻分量的復(fù)雜度較低,采用最小二乘法進(jìn)行擬合,可以降低計(jì)算成本,減少預(yù)測(cè)的時(shí)間。通過(guò)多次實(shí)驗(yàn)后確定imf8和res擬合多項(xiàng)式的次數(shù)為4和6。最后依次進(jìn)行了預(yù)測(cè),如圖4所示。
圖4 各分量實(shí)際值與預(yù)測(cè)值的對(duì)比Fig.4 Comparison of actual and predicted values of each component
為了進(jìn)一步對(duì)模型預(yù)測(cè)效果進(jìn)行分析,計(jì)算了各分量預(yù)測(cè)模型的評(píng)價(jià)指標(biāo),如表2所示。
表2 各分量的評(píng)價(jià)指標(biāo)值
(20)
計(jì)算本文模型預(yù)測(cè)數(shù)據(jù)的評(píng)價(jià)指標(biāo),如表3所示。
表3 EEMD-BP-OLS的評(píng)價(jià)指標(biāo)值
經(jīng)過(guò)分析發(fā)現(xiàn),本文中預(yù)測(cè)模型在1~6 h的RMSE值和MAE值均比7~12 h的值小,在1~6 h的EC值為0.905 0,大于7~12 h的0.840 8,說(shuō)明本模型在1~6 h的預(yù)測(cè)精度要比7~12 h的高。
為了更好地驗(yàn)證本文組合模型的性能,選取了EMD-BP-OLS模型,BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè),如圖5所示(30 min尺度)。
圖5 各模型的預(yù)測(cè)值Fig.5 Predicted values of each model
為了進(jìn)一步比較不同模型的預(yù)測(cè)性能,計(jì)算了各模型的評(píng)價(jià)指標(biāo),如表4所示。
表4 各模型的評(píng)價(jià)指標(biāo)值
分析發(fā)現(xiàn),本文中EEMD-BP-OLS模型相對(duì)于EMD-BP-OLS模型和BP模型,RMSE值和MAE值更小,EC值為0.853 2,大于其他兩個(gè)模型。而EMD-BP-OLS模型相對(duì)于BP模型,RMSE值,MAE值相差不大, EC值為0.807 6,要小于BP模型的EC值,說(shuō)明選擇合適的分解方法直接影響預(yù)測(cè)效果。
為了更好地研究不同時(shí)間尺度對(duì)本文預(yù)測(cè)模型的影響,選取了15 min和60 min時(shí)間尺度的數(shù)據(jù)進(jìn)行預(yù)測(cè),如圖6所示。
圖6 不同時(shí)間尺度預(yù)測(cè)結(jié)果對(duì)比Fig.6 Predicted values comparison of different time scale
為了更好地分析時(shí)間尺度對(duì)預(yù)測(cè)精度的影響,計(jì)算了不同尺度下的評(píng)價(jià)指標(biāo),如表5所示。
表5 各尺度的評(píng)價(jià)指標(biāo)值
經(jīng)過(guò)分析發(fā)現(xiàn),15 min時(shí)間尺度的預(yù)測(cè)準(zhǔn)確度較低,甚至出現(xiàn)了負(fù)值,EC值最小,為0.737 6,60 min時(shí)間尺度的EC值最大,為0.924 0。由于空中交通易受天氣、人為干擾等隨機(jī)因素影響,在15 min統(tǒng)計(jì)尺度的流量數(shù)據(jù)上體現(xiàn)更為明顯,波動(dòng)性較大,因此難以準(zhǔn)確預(yù)測(cè)。統(tǒng)計(jì)尺度越大,部分的隨機(jī)因素影響會(huì)被抵消,更有利于預(yù)測(cè)。
利用基于分解集成方法的組合預(yù)測(cè)模型對(duì)空中交通流量進(jìn)行短期預(yù)測(cè),結(jié)果顯示:本文模型在1~6 h的RMSE值和MAE值均小于其在7~12 h上的,且1~6 h的EC值更大,達(dá)到了0.905 0,說(shuō)明本文模型在1~6 h預(yù)測(cè)的精度更高,更適應(yīng)于短期流量的預(yù)測(cè)。這一結(jié)果也符合空中交通流具有混沌、分形特征,短期預(yù)測(cè)的準(zhǔn)確性是能夠得到保障的;通過(guò)比較不同的預(yù)測(cè)模型,本文提出的預(yù)測(cè)模型精度更高,誤差更小,EC值為0.864 7,說(shuō)明本文的分解集成方法可以充分提取數(shù)據(jù)的特征信息,降低了數(shù)據(jù)的復(fù)雜度。針對(duì)不同特征的分量采用不同的算法進(jìn)行預(yù)測(cè),充分體現(xiàn)了“分而治之”的思想,提高了預(yù)測(cè)的精度。而EMD-BP-OLS模型相對(duì)于BP模型RMSE值和MAE值相差不大,且EC值更小,說(shuō)明需要根據(jù)實(shí)際情況合理選擇分解方法;通過(guò)比較不同時(shí)間尺度的預(yù)測(cè)結(jié)果,發(fā)現(xiàn)60 min時(shí)間尺度的EC值最高,達(dá)到0.924 0,準(zhǔn)確度較高,其次是30 min時(shí)間尺度,為0.864 7,15 min時(shí)間尺度最低,只有0.737 6,誤差較大,說(shuō)明本文的預(yù)測(cè)模型更適合用于30 min和60 min時(shí)間尺度的流量短期預(yù)測(cè)。