孟琪琳,竇 燕
(新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,新疆 烏魯木齊 830012)
鐵路運(yùn)輸在交通運(yùn)輸業(yè)發(fā)展中起著重要作用,是國民經(jīng)濟(jì)發(fā)展的動(dòng)力,隨著我國現(xiàn)代綜合交通運(yùn)輸體系更加完善,鐵路成為旅客運(yùn)輸?shù)妮^優(yōu)方式[1-2]。鐵路客運(yùn)量預(yù)測(cè)作為鐵路項(xiàng)目經(jīng)濟(jì)效益以及修建可行性的關(guān)鍵,精準(zhǔn)的預(yù)測(cè)有助于鐵路交通規(guī)劃設(shè)計(jì)、科學(xué)管理以及最優(yōu)資源配置[3-5]。鐵路客運(yùn)受天氣、地域、環(huán)境等因素的影響是一個(gè)復(fù)雜的系統(tǒng),所統(tǒng)計(jì)的客運(yùn)數(shù)據(jù)存在強(qiáng)波動(dòng)性、非線性的特征,難以進(jìn)行精準(zhǔn)預(yù)測(cè)。因此,研究鐵路客運(yùn)量預(yù)測(cè)時(shí),首先需要將原始數(shù)據(jù)進(jìn)行分解處理,有效降低數(shù)據(jù)的波動(dòng)性,優(yōu)化其平穩(wěn)性;其次綜合利用不同神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì)充分提取數(shù)據(jù)間的特征,有效挖掘非線性數(shù)據(jù)間的特征信息,準(zhǔn)確把握鐵路客運(yùn)歷史數(shù)據(jù)的變化規(guī)律,提高可預(yù)測(cè)性。
小波分析法可以反映我國鐵路客運(yùn)量在不同時(shí)間尺度的周期波動(dòng)強(qiáng)弱,具有較強(qiáng)的時(shí)間頻率分析能力,其優(yōu)點(diǎn)在于簡(jiǎn)單靈活,能夠獲取更多時(shí)間信息,在各個(gè)領(lǐng)域都有運(yùn)用[6-7]。經(jīng)驗(yàn)?zāi)B(tài)分解方法(EMD)是一種自適應(yīng)性強(qiáng)的時(shí)間序列數(shù)據(jù)分析算法,不受分解層數(shù)以及小波基選擇影響,可以將一個(gè)復(fù)雜的非線性信號(hào)進(jìn)行平穩(wěn)性處理,得到一系列光滑的分量,減少數(shù)據(jù)隨機(jī)性和波動(dòng)性[8-9]。長短期神經(jīng)網(wǎng)絡(luò)(LSTM)適合處理預(yù)測(cè)間隔和延遲相對(duì)較長的時(shí)間序列,可以提取數(shù)據(jù)長期以來的特征,在捕捉時(shí)空關(guān)系方面具有優(yōu)越性能,常用于捕獲數(shù)據(jù)中的復(fù)雜非線性關(guān)系[10-11];該算法解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在訓(xùn)練期間梯度消失的問題,對(duì)于長期規(guī)律學(xué)習(xí)效率較高,在許多復(fù)雜的非線性問題方面處理效果顯著[12-15]。
研究通過組合模型集合各單項(xiàng)模型優(yōu)勢(shì)來提高預(yù)測(cè)精度[16-17],將原始數(shù)據(jù)通過EMD 算法對(duì)原始序列進(jìn)行分解得到各內(nèi)涵模態(tài)分量(IMFs)及殘差分量(Res),并利用樣本熵值對(duì)分解所得分量進(jìn)行重構(gòu);引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)與LSTM相結(jié)合,實(shí)現(xiàn)網(wǎng)絡(luò)的并行學(xué)習(xí),在特征提取與降維等方面具有優(yōu)勢(shì),能夠更好地處理時(shí)間序列數(shù)據(jù),維持序列數(shù)據(jù)前后的相互關(guān)系。結(jié)果表明,使用EMD-CNN-LSTM組合預(yù)測(cè)模型預(yù)測(cè)我國鐵路客運(yùn)量更加有效。
小波分析又叫小波變換,是在Fourier 變換的基礎(chǔ)上發(fā)展而來的一種時(shí)頻局部化分析方法,可以對(duì)數(shù)據(jù)進(jìn)行多時(shí)間尺度周期性分析。其中,小波實(shí)部系數(shù)圖可以反映鐵路客運(yùn)量在不同時(shí)間尺度的周期變化和分布規(guī)律;小波系數(shù)可以反映鐵路客運(yùn)量大小,小波系數(shù)為正,說明鐵路客運(yùn)量偏大;小波系數(shù)為負(fù),說明鐵路客運(yùn)量偏小;小波方差圖則反映鐵路客運(yùn)量在不同時(shí)間尺度的周期波動(dòng)強(qiáng)弱。
EMD 算法適用于非線性、非平穩(wěn)性數(shù)據(jù)的處理,并且可以有效減少模態(tài)混疊對(duì)序列分解的干擾性,實(shí)現(xiàn)序列的深層次平穩(wěn)化。該算法的本質(zhì)是將信號(hào)中不同頻率的波動(dòng)或趨勢(shì)項(xiàng)逐級(jí)分解,形成一系列具有平穩(wěn)性且相互影響甚微的數(shù)據(jù)序列[18]。為了使得到的各IMFs 分量有意義,需要滿足2 個(gè)條件。一是該分量的極值點(diǎn)與過零點(diǎn)的數(shù)目必須一致或相差必須少于1 個(gè);二是對(duì)于每一個(gè)時(shí)間點(diǎn),該分量的局部極大值和局部最小值構(gòu)成的上下包絡(luò)線均值為零,即上下包路線關(guān)于時(shí)間軸逐步對(duì)稱。
熵是衡量系統(tǒng)復(fù)雜度的一種定量描述工具,樣本熵概念來自物理學(xué)意義上的近似熵概念,20世紀(jì)末由Pincus 和Richman 等[19-20]提出。樣本熵作為近似熵的一種改進(jìn)算法,本身不依賴于數(shù)據(jù)長度,可以減少近似熵產(chǎn)生的誤差[21],有效反映時(shí)間序列中的復(fù)雜性。其熵值大小準(zhǔn)確反映時(shí)間序列的情況,樣本熵值越小,序列的復(fù)雜性就越低;反之,序列的復(fù)雜性就越高。
CNN 是一種近年來在機(jī)器學(xué)習(xí)領(lǐng)域用途較廣的模型,由卷積層、池化層和全連接層構(gòu)成。其中,卷積層在提取特征中依靠卷積核對(duì)數(shù)據(jù)特征進(jìn)行提??;池化方式則采用ReLU 激活函數(shù),用來忽略部分特征;全連接層將池化之后的神經(jīng)元展開為向量形式。整體通過局部連接和共享權(quán)值的模式,交替運(yùn)用卷積層、池化層和全連接層,最大程度地提取輸入數(shù)據(jù)中的局部特征,減少人為提取特征的誤差。CNN 在時(shí)間序列預(yù)測(cè)中學(xué)習(xí)數(shù)據(jù)關(guān)系能力較弱,因而將其與LSTM方法結(jié)合。
RNN在時(shí)間序列預(yù)測(cè)分析中得到廣泛使用,主要是由輸入層、隱含層以及輸出層3個(gè)層次所構(gòu)成,與普通神經(jīng)網(wǎng)絡(luò)相比其優(yōu)點(diǎn)在于隱含層內(nèi)的神經(jīng)元之間相互連接,隱含層的每次計(jì)算結(jié)果都與當(dāng)前輸入以及上一次的隱含層結(jié)果之間不是相互獨(dú)立的,RNN 網(wǎng)絡(luò)對(duì)之前的信息具有記憶能力并應(yīng)用于當(dāng)前輸出的計(jì)算中。LSTM是一種RNN的變體,基于RNN 增加了新的記憶單元與門控機(jī)制,可以有效地解決RNN 的梯度爆炸或者消失問題,處理數(shù)據(jù)長距離依賴問題。LSTM 模型在每個(gè)神經(jīng)元內(nèi)部增加了輸入門、遺忘門和輸出門3 類控制記憶單元狀態(tài)的門結(jié)構(gòu),這些結(jié)構(gòu)都可以讓信息選擇性通過,對(duì)神經(jīng)網(wǎng)絡(luò)模型中各個(gè)時(shí)刻的數(shù)據(jù)狀態(tài)產(chǎn)生影響。
(1)時(shí)序數(shù)據(jù)分解。運(yùn)用EMD 分解算法將原始序列分解得到各IMFs 分量與Res 分量,利用各分量波動(dòng)的相似性和樣本熵值的相近程度對(duì)各分量進(jìn)行重構(gòu)處理得到新序列。
(2)模型預(yù)測(cè)。將經(jīng)分解后重構(gòu)的序列經(jīng)歸一化處理后分為訓(xùn)練集、測(cè)試集,對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行模型訓(xùn)練,使用CNN-LSTM 組合模型對(duì)重構(gòu)序列的測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果進(jìn)行反歸一化處理,獲得各分量序列預(yù)測(cè)結(jié)果。
(3)分量預(yù)測(cè)結(jié)果疊加。將各分量序列預(yù)測(cè)結(jié)果進(jìn)行疊加獲得最終鐵路客運(yùn)量的預(yù)測(cè)結(jié)果,并對(duì)預(yù)測(cè)結(jié)果與原始數(shù)據(jù)進(jìn)行誤差分析。
(4)模型效果評(píng)價(jià)。將EMD-CNN-LSTM 組合預(yù)測(cè)模型與其他模型的預(yù)測(cè)結(jié)果進(jìn)行比較,根據(jù)評(píng)價(jià)指標(biāo)衡量組合模型的有效性。
我國鐵路客運(yùn)量在月尺度上都具有上升趨勢(shì),1990 年1 月—2020 年1 月全國鐵路月尺度客運(yùn)量變化趨勢(shì)如圖1 所示。根據(jù)趨勢(shì)線可以看出,全國鐵路客運(yùn)量近30 年呈上升趨勢(shì),客運(yùn)量不斷增加,其上升速率0. 0002/月,線性擬合R2=0.722,模型擬合較好。1990 年—2020 年我國鐵路客運(yùn)量年平均增長率4.6%,“十三五(2016—2020 年)”以來隨著鐵路系統(tǒng)的完善,客運(yùn)量的平均增長率達(dá)8.9%。從近期發(fā)展環(huán)境看,我國客運(yùn)網(wǎng)絡(luò)仍在逐步完善,隨著人口的不斷遷移,鐵路客運(yùn)量仍將繼續(xù)上升,維持穩(wěn)中有進(jìn)的發(fā)展趨勢(shì)。
圖1 1990年1月—2020年1月全國鐵路月尺度客運(yùn)量變化趨勢(shì)Fig.1 Variation trend of monthly national railway passenger volume from January 1990 to January 2020
在周期分析階段,運(yùn)用小波分析法,分析2015—2019年數(shù)據(jù)的周期特征。鐵路客運(yùn)量月尺度小波分析如圖2所示。由圖2a可知,振蕩能量明顯的時(shí)間尺度有3~6 月、7~11 月、13~22 月、52~61 月。52~61 月特征尺度的振蕩能量強(qiáng),變化周期明顯;13~22 月特征尺度的振蕩能量變?nèi)酰兓芷谧內(nèi)酰?~11 月尺度能量強(qiáng)度和周期分布表現(xiàn)次之;3~6 月特征尺度能量最弱,總體上變化周期穩(wěn)定。由圖2b可知,我國鐵路客運(yùn)量在月尺度上存在4 個(gè)明顯峰值,分別對(duì)應(yīng)5,9,18和56月尺度,其中第1峰值為56 月尺度,為第1 主周期;第2,3 峰值出現(xiàn)在18,9 月尺度,分別為第2,3 主周期;第4 峰值為5月尺度,振蕩最弱,為第4主周期。
圖2 鐵路客運(yùn)量月尺度小波分析Fig.2 Monthly wavelet analysis of railway passenger volume
根據(jù)小波方差,繪制4 個(gè)主周期小波系數(shù)隨時(shí)間變化的過程,鐵路客運(yùn)量月尺度主周期疊加趨勢(shì)如圖3 所示。在5 月特征尺度上,變化的平均周期為3個(gè)月左右,大約經(jīng)歷了20個(gè)變化周期;在9月特征尺度上,平均變化周期為6 個(gè)月左右,大約經(jīng)歷了10 個(gè)變化周期;在18 月特征尺度上,平均變化周期為12個(gè)月左右,大約經(jīng)歷了5個(gè)變化周期;在56月特征尺度上,經(jīng)歷周期變化較少,約2個(gè)變化周期,周期為30 個(gè)月左右。根據(jù)小波系數(shù)變化可以判別出在不同時(shí)段各尺度影響周期變化的強(qiáng)度,可以看出5 月尺度前期表現(xiàn)為較低能量平穩(wěn)振蕩,中期強(qiáng)度部分上升隨之下降,之后又上升維持穩(wěn)定的變化趨勢(shì);9 月尺度、18 月尺度前期變化幅度較小,后期有加強(qiáng)的變化;56 月尺度則呈現(xiàn)下降趨勢(shì)??傮w上,疊加周期趨勢(shì)與實(shí)際變化基本符合,主周期以5,9,18 和56 月尺度為主。由于主要考慮主周期的小波系數(shù)疊加周期,但還會(huì)出現(xiàn)不同時(shí)期的其他周期,忽略了其他相對(duì)較小時(shí)間尺度的振蕩周期,因而周期實(shí)際振蕩出現(xiàn)部分偏差。綜上所述,我國客運(yùn)量在月尺度上具有明顯的周期性。
圖3 鐵路客運(yùn)量月尺度主周期疊加趨勢(shì)Fig.3 Superposition trend of monthly main period of railway passenger volume
根據(jù)對(duì)原始序列的趨勢(shì)分析,可以看出其整體的變化過程波動(dòng)較大,非線性、非平穩(wěn)性和趨勢(shì)性顯著,需要對(duì)序列進(jìn)行分解,得到波動(dòng)性較小的分量序列進(jìn)行預(yù)測(cè)。CNN-LSTM具有特征提取能力,可以挖掘特征向量,使用該模型可以較好地提取原始序列的趨勢(shì)、周期特征,從而提升預(yù)測(cè)性能。將該數(shù)據(jù)集的前80%劃分為訓(xùn)練集,后20%劃分為預(yù)測(cè)集。在訓(xùn)練過程中使得模型能夠更快地讓參數(shù)趨于收斂,提高預(yù)測(cè)精度,并對(duì)預(yù)測(cè)時(shí)所需的數(shù)據(jù)進(jìn)行歸一化處理。為評(píng)估模型預(yù)測(cè)效果,采用均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)和平均絕對(duì)值誤差(MAE)評(píng)價(jià)指標(biāo)來衡量。
由于數(shù)據(jù)隨機(jī)性較高,為提高預(yù)測(cè)精度,需要將全國鐵路客運(yùn)量數(shù)據(jù)進(jìn)行分解,采用EMD 分解算法對(duì)其進(jìn)行進(jìn)一步的平穩(wěn)化處理。EMD 分解余量信號(hào)圖如圖4所示。由圖4可知,利用EMD算法對(duì)原始序列進(jìn)行分解,將其從高頻到低頻逐級(jí)分解為5個(gè)固有模態(tài)分量和1個(gè)殘差分量,各分量數(shù)據(jù)相較于最初數(shù)據(jù),其振動(dòng)周期逐漸增加、波動(dòng)趨勢(shì)逐漸平緩,平穩(wěn)性明顯優(yōu)化。5個(gè)固有模態(tài)分量分別反映不同影響因素在不同尺度下對(duì)波動(dòng)量數(shù)據(jù)的影響,殘差分量則表示波動(dòng)量序列的長期變化趨勢(shì)。
圖4 EMD分解余量信號(hào)圖Fig.4 EMD margin signal
為評(píng)估EMD 分解后的數(shù)據(jù)是否會(huì)造成原始序列信息的丟失,將原始序列與EMD 分解所得分量進(jìn)行重構(gòu)誤差分析,原始序列與EMD 分量重構(gòu)誤差如圖5所示。由圖5可知,通過求解分解后各分量與余量的重構(gòu)誤差,得到平均誤差為-2.102×10-15,分解損失量較小,EMD 算法在保留原始信息的情況下,降低了原始數(shù)據(jù)的復(fù)雜度。數(shù)據(jù)經(jīng)過EMD分解后得到5 個(gè)分量,對(duì)逐個(gè)分量進(jìn)行預(yù)測(cè),預(yù)測(cè)過程中每個(gè)分量都會(huì)產(chǎn)生預(yù)測(cè)誤差,分量越多會(huì)導(dǎo)致產(chǎn)生的誤差越大,最后在疊加預(yù)測(cè)結(jié)果時(shí),所得累積的誤差就越大,對(duì)預(yù)測(cè)結(jié)果的精度產(chǎn)生影響。因此,為了更準(zhǔn)確地對(duì)鐵路客運(yùn)序列進(jìn)行分析和預(yù)測(cè),減少預(yù)測(cè)模型的計(jì)算規(guī)模,增強(qiáng)模型的預(yù)測(cè)性能,對(duì)分解得到的各分量依據(jù)樣本熵值進(jìn)行重構(gòu)處理。
EMD分解所得各分量樣本熵值如表1所示。通過綜合比較各分量波動(dòng)的相似性、樣本熵值的相近程度對(duì)各分量進(jìn)行重構(gòu),使用預(yù)測(cè)模型對(duì)各重構(gòu)分量進(jìn)行預(yù)測(cè),達(dá)到提升預(yù)測(cè)精度的效果。IMF1,IMF2,IMF3 和IMF4 分量樣本熵值較大,表明分量的隨機(jī)性較強(qiáng),且隨時(shí)間的變化波動(dòng)較大,反映了氣候等外界隨機(jī)因素對(duì)鐵路客運(yùn)量的影響,因此將IMF1,IMF2,IMF3,IMF4 分量重構(gòu)為高頻序列;IMF5和Res分量波動(dòng)頻率依次減弱,表明分量受外界隨機(jī)影響較小,隨時(shí)間波動(dòng)較為平緩,因而將IMF5 和Res 分量重構(gòu)為低頻序列。各分量重構(gòu)序列圖如圖6所示,數(shù)據(jù)的隨機(jī)性明顯降低。
表1 EMD分解所得各分量樣本熵值Tab.1 Sample entropy of each component obtained by EMD
對(duì)于數(shù)據(jù)量不大的數(shù)據(jù)集,如果設(shè)計(jì)的網(wǎng)絡(luò)模型過于復(fù)雜容易導(dǎo)致過擬合現(xiàn)象。為驗(yàn)證提出的EMD-CNN-LSTM組合模型對(duì)各分量的預(yù)測(cè),對(duì)其重構(gòu)分量進(jìn)行仿真計(jì)算。分別對(duì)CNN和LSTM參數(shù)進(jìn)行固定,之后將CNN 和LSTM 網(wǎng)絡(luò)層數(shù)的選取做出調(diào)整,通過計(jì)算RMSE 的大小評(píng)估預(yù)測(cè)效果,CNN-LSTM 層數(shù)選取結(jié)果如表2 所示。在CNN 和LSTM 層數(shù)取2 和1 時(shí),預(yù)測(cè)效果MAE 和RMSE 達(dá)到最小且模型不存在過擬合現(xiàn)象。因此,將CNN層數(shù)定為2層、LSTM層數(shù)定為1層。
表2 CNN-LSTM層數(shù)選取結(jié)果Tab.2 Selection results of CNN-LSTM layers
應(yīng)用CNN-LSTM 組合模型,預(yù)測(cè)分解重構(gòu)所得的高頻序列及低頻序列。為驗(yàn)證模型預(yù)測(cè)效果,選用測(cè)試集數(shù)據(jù)預(yù)測(cè)分析我國鐵路客運(yùn)量,各分解重構(gòu)序列預(yù)測(cè)結(jié)果如圖7 所示,各分解重構(gòu)序列預(yù)測(cè)絕對(duì)誤差如表3所示。
表3 各分解重構(gòu)序列預(yù)測(cè)預(yù)測(cè)絕對(duì)誤差Tab.3 Absolute prediction errors of each decomposition and reconstruction sequence
圖7 各分解重構(gòu)序列預(yù)測(cè)結(jié)果Fig.7 Prediction results of each decomposition and reconstruction sequence
由圖7 和表3 可知,各分量序列預(yù)測(cè)曲線與實(shí)際曲線擬合優(yōu)度較好,平均絕對(duì)誤差在0. 2045~0. 1869區(qū)間變化,維持在較低水平。最后,將各分量序列的預(yù)測(cè)結(jié)果進(jìn)行疊加,得到最終鐵路客運(yùn)量的預(yù)測(cè)結(jié)果。EMD-CNN-LSTM 模型預(yù)測(cè)結(jié)果如圖8所示。由圖8可知,最終預(yù)測(cè)值曲線與原始序列曲線較為接近。通過計(jì)算預(yù)測(cè)值與原始序列之間的絕對(duì)誤差與相對(duì)誤差可知,其絕對(duì)誤差在0. 0008~0. 6755 之間,平均絕對(duì)誤差為0. 2545,誤差較小,模型具有較高的可行性。
圖8 EMD-CNN-LSTM模型預(yù)測(cè)結(jié)果Fig.8 Prediction results of EMD-CNN-LSTM model
運(yùn)用EMD-CNN-LSTM,CNN-LSTM,LSTM,隨機(jī)森林,GBDT,XGBoost 6 種模型預(yù)測(cè)我國鐵路客運(yùn)量,得到預(yù)測(cè)結(jié)果。不同模型的預(yù)測(cè)結(jié)果比較如圖9 所示。并依據(jù)RMSE,MAE 以及MAPE 3 種評(píng)價(jià)指標(biāo),分析EMD-CNN-LSTM 組合模型的預(yù)測(cè)優(yōu)勢(shì),各模型預(yù)測(cè)結(jié)果精度評(píng)價(jià)如表4所示。
圖9 不同模型的預(yù)測(cè)結(jié)果比較Fig.9 Comparison of prediction results of different models
由圖9 可知,與其他模型相比,EMD-CNNLSTM 組合模型所得的預(yù)測(cè)結(jié)果與原始序列更為接近,預(yù)測(cè)效果更好。由表4 可知,EMD-CNNLSTM 組合模型的精度優(yōu)于其他模型,通過比較EMD-CNN-LSTM和CNN-LSTM,RMSE下降24.3%,MAE下降7.4%,MAPE下降14.3%,由此可知序列的分解提高了預(yù)測(cè)結(jié)果的有效性;通過比較EMDCNN-LSTM,CNN-LSTM,LSTM,隨機(jī)森林,GBDT,XGBoost 模型,RMSE,MAE,MAPE 均有明顯下降,由此可知EMD-CNN-LSTM 模型所得到的預(yù)測(cè)結(jié)果有效性更好,在預(yù)測(cè)過程中,對(duì)數(shù)據(jù)進(jìn)行分解實(shí)現(xiàn)數(shù)據(jù)的深度平穩(wěn)化是提高預(yù)測(cè)精度的關(guān)鍵因素之一。
為了解決鐵路客運(yùn)量數(shù)據(jù)強(qiáng)隨機(jī)性及不平穩(wěn)性對(duì)預(yù)測(cè)精度的影響問題,提出一種基于數(shù)據(jù)分解的鐵路客運(yùn)量組合預(yù)測(cè)模型?;贓MD 分解方法,分解處理原始數(shù)據(jù)序列,得到弱波動(dòng)、較平穩(wěn)的分量,并為減少預(yù)測(cè)誤差使用樣本熵對(duì)分量進(jìn)行重構(gòu);針對(duì)各分量序列,采用CNN-LSTM 組合模型進(jìn)行預(yù)測(cè),并將各分量預(yù)測(cè)結(jié)果疊加得出最終預(yù)測(cè)結(jié)果。研究結(jié)論如下。
(1)在分析我國月尺度鐵路客運(yùn)量特征過程中,發(fā)現(xiàn)客運(yùn)量具有明顯的趨勢(shì)性及周期性。根據(jù)對(duì)我國鐵路客運(yùn)量的特征分析,考慮到時(shí)間序列的強(qiáng)隨機(jī)性,使用EMD 分解算法對(duì)原始數(shù)據(jù)序列進(jìn)行分解,優(yōu)化數(shù)據(jù)的平穩(wěn)性,提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。
(2)使用樣本熵對(duì)過多分量進(jìn)行重新合并,減少多分量預(yù)測(cè)合并時(shí)的累計(jì)誤差,將分量傳送至CNN-LSTM 組合模型中,該模型可以較好地捕捉數(shù)據(jù)的長期特征,使得預(yù)測(cè)更為精準(zhǔn)。結(jié)果表明,EMD-CNN-LSTM組合模型預(yù)測(cè)值與真實(shí)值的誤差較小,驗(yàn)證了模型具有較高的可行性。
(3) 比較EMD-CNN-LSTM, CNN-LSTM,LSTM,隨機(jī)森林,GBDT,XGBoost 模型預(yù)測(cè)結(jié)果,證實(shí)EMD-CNN-LSTM 組合模型的預(yù)測(cè)效果優(yōu)于其他模型。在預(yù)測(cè)過程中,對(duì)數(shù)據(jù)進(jìn)行分解實(shí)現(xiàn)數(shù)據(jù)的深度平穩(wěn)化是提高預(yù)測(cè)精度的關(guān)鍵因素。
(4)受客觀條件所限,一些與鐵路客運(yùn)量相關(guān)的影響因素(如氣候、票價(jià)等)尚未考慮在內(nèi),也是影響鐵路客運(yùn)量預(yù)測(cè)精度的因素之一,未來可以進(jìn)行探究。