施雪蓉 王寵惠 劉東杰 張瀟 張博
(甘肅農(nóng)業(yè)大學(xué) 甘肅省蘭州市 730070)
城市軌道交通技術(shù)的飛速發(fā)展給人口基數(shù)不斷增大的城市提供了一個(gè)較為合理的出行方案。但也存在一些問(wèn)題:一方面,由于需求與供給能力的不均衡性,在城市軌道交通網(wǎng)絡(luò)上常會(huì)造成難以預(yù)見(jiàn)的客流擁塞狀況,給地鐵的安全運(yùn)營(yíng)帶來(lái)極大的挑戰(zhàn);另一方面,城市交通擁堵問(wèn)題逐漸成為制約經(jīng)濟(jì)發(fā)展的重要影響因子,因此以地鐵為代表的城市軌道交通系統(tǒng)得到了極大的發(fā)展空間。它可以為各個(gè)站點(diǎn)提供合理依據(jù)來(lái)分配人力物力,從而便捷市民的出行,或者為應(yīng)對(duì)突發(fā)事件提供有效保障。例如今年年初突發(fā)的疫情事件,我們就可以通過(guò)分析預(yù)測(cè)得知某一站在某一時(shí)段內(nèi)的人流量,從而設(shè)立相對(duì)合理的防疫點(diǎn)和防疫工作人員。預(yù)測(cè)客流可以為未來(lái)軌道交通和城市的規(guī)劃建設(shè)提供可行的數(shù)據(jù)支持。
長(zhǎng)期和短期記憶網(wǎng)絡(luò)(通常稱為" LSTM")是存在長(zhǎng)期學(xué)習(xí)依賴關(guān)系的RNN 的一種,是為了解決長(zhǎng)期依賴問(wèn)題而被提出的。LSTM 的重中之重就是神經(jīng)元的所處的狀態(tài),上水平線包含在整個(gè)結(jié)構(gòu)的內(nèi)部。它的狀態(tài)類似于一個(gè)運(yùn)輸帶。其線性作用非常小且運(yùn)用于整個(gè)結(jié)構(gòu)。運(yùn)輸帶上的數(shù)據(jù)易于傳播且狀態(tài)不會(huì)隨之變化。如圖1所示。
Sigmod 層輸出0~1 之間的數(shù)字,描述了一個(gè)神經(jīng)元有多少信息能夠通過(guò)。輸出"0":"所有不能通過(guò)";輸出"1":"全部允許通過(guò)"。一個(gè)深度模型有三個(gè)用于保護(hù)和控制神經(jīng)元狀態(tài)的門(mén)限。
為了控制存儲(chǔ)單元狀態(tài)c 中的信息量設(shè)計(jì)了兩個(gè)門(mén):遺忘門(mén)(forget gate)與輸入門(mén)(input gate)。為了便于演示,許多文檔都添加了一個(gè)名為"候選門(mén)"的門(mén)。
本文以天津市地鐵9 號(hào)線塘沽站客流為例進(jìn)行客流預(yù)測(cè)分析
首先,原始的AFC(自動(dòng)票價(jià)收集系統(tǒng))乘客流量數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后轉(zhuǎn)換為一維時(shí)間序列,可以通過(guò)BPNN,LSTM 和RF神經(jīng)網(wǎng)絡(luò)直接進(jìn)行訓(xùn)練。然后從時(shí)間維度分析天津地鐵客流數(shù)據(jù),以了解天津地鐵客流的分布特征。然后構(gòu)建三種神經(jīng)網(wǎng)絡(luò):BPNN(反向傳播神經(jīng)網(wǎng)絡(luò)),LSTM(長(zhǎng)期短期記憶)和RF(隨機(jī)森林)來(lái)分析和調(diào)整數(shù)據(jù),最后將三種模型比較分析,選出相對(duì)優(yōu)于其他模型的LSTM 預(yù)測(cè)模型,基于網(wǎng)格搜索算法確定LSTM 模型的最優(yōu)超參數(shù)組合。最后以塘沽站客流為例,利用LSTM 模型對(duì)客流數(shù)據(jù)進(jìn)行預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析。
表1:AFC 數(shù)據(jù)字段注釋
表2:LSTM 模型超參數(shù)取值
表3:各項(xiàng)指數(shù)具體數(shù)值
圖1:LSTM 核心構(gòu)造
2.1.1 客流量數(shù)據(jù)預(yù)處理
圖2:LSTM 模型結(jié)構(gòu)圖
圖3:BPNN 預(yù)測(cè)周五進(jìn)站
圖4:BPNN 預(yù)測(cè)周五出站
圖5:BPNN 預(yù)測(cè)周天進(jìn)站
2.1.1.1 模型原理(以LSTM 為例)
圖6:BPNN 預(yù)測(cè)周天出站
圖7:LSTM 預(yù)測(cè)周五進(jìn)站
圖8:LSTM 預(yù)測(cè)周五出站
圖9:LSTM 預(yù)測(cè)周天進(jìn)站
該模型擅長(zhǎng)處理時(shí)間序列數(shù)據(jù),因此在數(shù)據(jù)預(yù)處理之后,將AFC 數(shù)據(jù)建模為一維時(shí)間序列數(shù)據(jù)。常見(jiàn)的時(shí)間序列預(yù)測(cè)方案主要包括單步預(yù)測(cè),多步預(yù)測(cè)和滾動(dòng)預(yù)測(cè):單步預(yù)測(cè),使用前n 個(gè)歷史數(shù)據(jù){x1,...} Xn-1} xn}來(lái)預(yù)測(cè)下一個(gè)數(shù)據(jù) Xn +1;多步預(yù)測(cè),在預(yù)測(cè)m 個(gè)數(shù)據(jù){Xn 十l,...,xn +1}之后,使用前n 個(gè)歷史數(shù)據(jù){x}}...}J(n_}} Xn};滾動(dòng)預(yù)測(cè),下一個(gè)將Xn+1,隨著新的歷史數(shù)據(jù)繼續(xù)用于預(yù)測(cè);從預(yù)測(cè)效果的角度來(lái)看,單步預(yù)測(cè)的準(zhǔn)確性要高于多步預(yù)測(cè)和滾動(dòng)預(yù)測(cè)的準(zhǔn)確性。地鐵客流的單步預(yù)測(cè)方法為了進(jìn)行預(yù)測(cè),將預(yù)測(cè)步驟n 用作模型的超參數(shù)。本節(jié)采用網(wǎng)格搜索算法來(lái)選擇最優(yōu)的超參數(shù)參數(shù)組合。
2.1.1.2 AFC 數(shù)據(jù)預(yù)處理
AFC 數(shù)據(jù)部分字段注釋如表1所示 AFC 數(shù)據(jù)字段注釋,分別包含了進(jìn)站和出站的站名、線路、時(shí)間等字段:
原始的AFC 數(shù)據(jù)是天津地鐵各個(gè)線路在從星期一至星期六選擇的任意一天的全日客流數(shù)據(jù)。過(guò)濾從06:00:00 到24:00:00 的每日客流數(shù)據(jù)作為訓(xùn)練集。預(yù)測(cè)客流時(shí),必須在特定時(shí)間間隔內(nèi)指定客流數(shù)據(jù)。此部分以五分鐘為間隔對(duì)客流量計(jì)數(shù)和預(yù)測(cè)。由于在同一天的不同時(shí)間,客流值相差很大,因此需要對(duì)客流數(shù)據(jù)進(jìn)行歸一化,將客流數(shù)據(jù)映射到規(guī)定范圍內(nèi)處理,再用于模型訓(xùn)練??紤]到地鐵的實(shí)際運(yùn)行,按站點(diǎn)比按線路預(yù)測(cè)客流更具研究性。因此,本節(jié)以天津地鐵9 號(hào)線塘沽站的客流數(shù)據(jù)為例,通過(guò)模型進(jìn)行訓(xùn)練和預(yù)測(cè)。原始AFC 數(shù)據(jù)不能直接用于訓(xùn)練BPNN,LSTM 和RF 模型。數(shù)據(jù)必須先進(jìn)行預(yù)處理,然后才能用于模型訓(xùn)練。
圖10:LSTM 預(yù)測(cè)周天出站
圖11:RF 預(yù)測(cè)周五進(jìn)站
圖12:RF 預(yù)測(cè)周五出站
圖13:RF 預(yù)測(cè)周天進(jìn)站
圖14:RF 預(yù)測(cè)周天出站
為了將原始AFC 數(shù)據(jù)建模為一維時(shí)間序列數(shù)據(jù),BPNN,LSTM 和RF 模型用于訓(xùn)練和預(yù)測(cè)。需要經(jīng)過(guò)以下數(shù)據(jù)預(yù)處理:
(1)過(guò)濾06:00:00 至24:00:00 的客流記錄,為了使開(kāi)始和結(jié)束的客流時(shí)間與地鐵的實(shí)際運(yùn)營(yíng)時(shí)間保持一致,根據(jù)原始AFC 數(shù)據(jù)中的OD_Entry_Tm(入站時(shí)間)字段,從06:00:00 統(tǒng)一過(guò)濾AFC客流到24:00:00 數(shù)據(jù)。
(2)過(guò)濾9 號(hào)線塘沽站客流數(shù)據(jù),根據(jù)原始數(shù)據(jù)中的ODEntry-Line-ID 和OD-Entry-Station-ID(傳入站名ID)字段,過(guò)濾出9號(hào)線客流數(shù)據(jù),并計(jì)算出特定線路的客流數(shù)據(jù)。
(3)每隔五分鐘計(jì)算一次客流數(shù)量。五分鐘的間隔不僅可以確保模型預(yù)測(cè)的準(zhǔn)確性,還可以體現(xiàn)出客流的變化。為了便于統(tǒng)計(jì)客流,將原始AFC 數(shù)據(jù)中的字符串時(shí)間轉(zhuǎn)換為整數(shù)時(shí)間,以分鐘為單位。
(4)歸一化原始數(shù)據(jù)。通常需要對(duì)時(shí)間序列數(shù)據(jù)的預(yù)測(cè)進(jìn)行歸一化。將客流數(shù)據(jù)歸一化到相同范圍內(nèi)可以使模型盡快收斂,并提高預(yù)測(cè)效果。本節(jié)采用最小最大歸一化方法,將天津地鐵客流量原始數(shù)據(jù)歸一化到0 到1 范圍內(nèi)。式中X 為樣本值,Xmin 為所有樣本的最小值,Xmax 為所有樣本的最大值:
(5)劃分訓(xùn)練集和測(cè)試集。訓(xùn)練集用于模型訓(xùn)練階段,以探索數(shù)據(jù)之間的潛在關(guān)系;測(cè)試集用于測(cè)試階段,以評(píng)估模型的有效性。測(cè)試集和訓(xùn)練集彼此獨(dú)立,需要分開(kāi)。
2.1.2 天津地鐵客流量數(shù)據(jù)分析
通過(guò)對(duì)原始AFC 數(shù)據(jù)的預(yù)處理,對(duì)天津地鐵客流數(shù)據(jù)進(jìn)行詳細(xì)分析,以了解天津地鐵客流在時(shí)間維度上的分布特征,為后續(xù)的模型訓(xùn)練奠定基礎(chǔ)??紤]到工作日和非工作日之間的客流變化存在一定偏差,因此將數(shù)據(jù)集分為兩部分(即周一至周四和周一至周六)進(jìn)行研究。本節(jié)將首先對(duì)它們的客流分布進(jìn)行分析,并觀察其分布差異。
周一到周四與周一到周六客流量分布對(duì)比:以5 分鐘為時(shí)間間隔,整理得出天津地鐵9 號(hào)線塘沽站在周一到周四和周一到周六的客流分布情況,然后分別就進(jìn)出站客流分布規(guī)律進(jìn)行分析。
由圖2-1、圖2-2、圖2-3、圖2-4 可以看出,天津地鐵9 號(hào)線塘沽站客流量一天之內(nèi)存在較為明顯的早晚高峰,整體存在周期性變化。
通過(guò)應(yīng)用大數(shù)據(jù)分析技術(shù)對(duì)抽油機(jī)懸點(diǎn)載荷進(jìn)行了研究,依據(jù)現(xiàn)場(chǎng)實(shí)際生產(chǎn)數(shù)據(jù)確定出了抽油機(jī)最優(yōu)懸點(diǎn)載荷利用率為67%,基于最優(yōu)懸點(diǎn)載荷利用率可以進(jìn)行適當(dāng)?shù)膮?shù)調(diào)整及抽油機(jī)選型,從而實(shí)現(xiàn)抽油機(jī)低能耗高效運(yùn)行,延長(zhǎng)收油機(jī)使用年限并現(xiàn)場(chǎng)調(diào)平衡50井次,調(diào)沖程、沖速62井次,優(yōu)化設(shè)計(jì)標(biāo)柱197次,年節(jié)電26.55×104kWh。
2.2.1 以LSTM 模型為例搭建
LSTM 模型建立過(guò)程:
在構(gòu)建過(guò)程中,LSTM 模型通常包含4 層結(jié)構(gòu):
(1)輸入層;
(2)LSTM 層;
(3)全連接層;
(4)輸出層。
在建立LSTM 模型時(shí),要指定損失函數(shù)。
地鐵客流預(yù)測(cè)是一個(gè)回歸問(wèn)題,對(duì)比絕對(duì)值損失函數(shù)和平方損失函數(shù),發(fā)現(xiàn)后者會(huì)放大真實(shí)值和估計(jì)值之間的距離,并懲罰較大的偏差誤差。因此,在LSTM 模型的構(gòu)建中選擇平方損失函數(shù)。
由于LSTM 深度神經(jīng)網(wǎng)絡(luò)模型更復(fù)雜且具有許多參數(shù),因此很容易在訓(xùn)練過(guò)程中過(guò)度擬合。如圖2所示。
2.2.2 LSTM 模型基于網(wǎng)格搜索算法調(diào)參
在本文中,歸一化數(shù)據(jù)的MAE 指數(shù)用于評(píng)估模型在網(wǎng)格搜索中的性能,并比較LSTM 和傳統(tǒng)機(jī)器學(xué)習(xí)模型的效果。如表2所示。
上一部分的分析表明,天津地鐵的客流數(shù)據(jù)在周一至周四以及周一至周六的分布上有很大差異。因此,使用網(wǎng)格搜索算法來(lái)找到模型的最佳超參數(shù)組合。將平均絕對(duì)誤差用作評(píng)估指標(biāo),并且按照從小到大的順序排列誤差。從網(wǎng)格搜索結(jié)果中,我們可以看到,從周一到周四,當(dāng)訓(xùn)練次數(shù)、批處理數(shù)量、LSTM 層中神經(jīng)元的數(shù)量以及步長(zhǎng)為24、8 和4 時(shí),LSTM 深度神經(jīng)網(wǎng)絡(luò)的性能最佳。基于這四個(gè)最佳超參數(shù)值,將構(gòu)建一個(gè)LSTM 模型來(lái)預(yù)測(cè)周一至周四的客流數(shù)據(jù)。
結(jié)果如圖3、圖4、圖5、圖6所示。
結(jié)果如圖7、圖8、圖9、圖10所示。
結(jié)果如圖11、圖12、圖13、圖14所示。
模型訓(xùn)練初期采用兩個(gè)數(shù)據(jù)集(即周一到周四的數(shù)據(jù)預(yù)測(cè)周五的客流量和周一到周六的數(shù)據(jù)預(yù)測(cè)周天數(shù)據(jù))放入模型進(jìn)行預(yù)測(cè)比對(duì),因?yàn)槟P途哂幸欢▽W(xué)習(xí)性,可以忽略隨機(jī)因素的影響,因此選擇周一到周六的數(shù)據(jù)作為最終訓(xùn)練數(shù)據(jù)集,得出模型規(guī)律以便于對(duì)將來(lái)的數(shù)據(jù)做出預(yù)測(cè)。
上述三種模型均用到如下指標(biāo):MAE、RMSE、MAPE、R2。以周天出站的預(yù)測(cè)結(jié)果為例,各項(xiàng)指標(biāo)具體數(shù)值如表3所示。
對(duì)于MAE 指標(biāo)來(lái)說(shuō),數(shù)值大小與預(yù)測(cè)值的誤差成正比;RMSE 是指均方根誤差,它用來(lái)衡量觀測(cè)值和真實(shí)值之間的偏差,數(shù)值大小與偏差值成正比;MAPE 是指平均絕對(duì)百分比誤差,數(shù)值大小與預(yù)測(cè)值的誤差成正比,當(dāng)預(yù)測(cè)值與真實(shí)值完全吻合時(shí)它的值為0,即為完美模型;R2為擬合優(yōu)度,最大值為1,值越接近1 說(shuō)明擬合程度越好。
由數(shù)據(jù)模型預(yù)測(cè)圖和和項(xiàng)指標(biāo)精確數(shù)值進(jìn)行對(duì)比分析,得出結(jié)論:利用網(wǎng)格搜索算法查找模型的最優(yōu)超參數(shù)組合確定LSTM 為最優(yōu)訓(xùn)練模型。
本研究首先進(jìn)行數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)轉(zhuǎn)換為一維時(shí)間序列數(shù)據(jù),用于對(duì)BPNN、LSTM、RF 模型進(jìn)行訓(xùn)練。然后從時(shí)間維度上對(duì)地鐵客流量數(shù)據(jù)進(jìn)行分析,主要研究了周一到周四和周一到周六的客流量分布差異和周期性變化規(guī)律根據(jù)訓(xùn)練數(shù)據(jù)結(jié)果以及數(shù)據(jù)的學(xué)習(xí)性確定周一到周六的客流量為最佳訓(xùn)練數(shù)據(jù)。進(jìn)而搭建BPNN、LSTM、RF 深度神經(jīng)網(wǎng)絡(luò)模型,利用網(wǎng)格搜索算法查找模型的最優(yōu)超參數(shù)組合確定LSTM 為最優(yōu)訓(xùn)練模型。最后以天津地鐵9 號(hào)線塘沽站的進(jìn)站客流為例,使用LSTM 深度神經(jīng)網(wǎng)絡(luò)模型對(duì)地鐵客流進(jìn)行預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析。由預(yù)測(cè)數(shù)據(jù)可知,直觀分析得到LSTM 模型在周一到周六上,有較高的預(yù)測(cè)精度。由平均絕對(duì)誤差隨著訓(xùn)練迭代次數(shù)增加的變化趨勢(shì)可知,LSTM 模型能更快速學(xué)習(xí)到在周一到周六時(shí),客流量數(shù)據(jù)的變化規(guī)律。由預(yù)測(cè)數(shù)據(jù)和真實(shí)數(shù)據(jù)的對(duì)比可以得到,LSTM 模型在預(yù)測(cè)周一到周六的客流數(shù)據(jù)時(shí),預(yù)測(cè)曲線更加平滑。
隨著我國(guó)近幾年現(xiàn)代化建設(shè)的不斷發(fā)展,信息化和智能技術(shù)作用的領(lǐng)域越來(lái)越廣泛,而城市軌道交通更是衡量城市經(jīng)濟(jì)發(fā)展的重要指標(biāo)。它的發(fā)展更應(yīng)該借助于這些新興技術(shù)(例如大數(shù)據(jù)技術(shù)、云計(jì)算、物聯(lián)網(wǎng)等)來(lái)完善自己的體系架構(gòu),謀求全方位高水平建設(shè)。在“軌道交通+數(shù)字經(jīng)濟(jì)”引領(lǐng)數(shù)字科技的新風(fēng)向下,城市軌道發(fā)展、“云票務(wù)”、大力推進(jìn)地下隱蔽資源開(kāi)發(fā)等項(xiàng)目。”“精耕細(xì)作”的地鐵商業(yè)資源、地下“黃金走廊”、“地上”、“云經(jīng)濟(jì)”為城市經(jīng)濟(jì)發(fā)展注入了新的血液。