宋溢露,羊 釗
(1.南京航空航天大學(xué) 民航學(xué)院,南京 211106; 2.南京航空航天大學(xué) 通用航空與飛行學(xué)院,南京 211106)
隨著飛機(jī)出行方式的普及化,機(jī)場旅客吞吐量增長迅速,民航發(fā)展處于重要的戰(zhàn)略機(jī)遇期[1],人民對安全、便捷的航空出行方式仍有更高期待.2021年全國民航運(yùn)輸機(jī)場完成旅客吞吐量9.07億人次,比上年增長5.9%[2].隨著民航業(yè)的復(fù)蘇,機(jī)場陸側(cè)出租車業(yè)務(wù)量持續(xù)增長,為緩解機(jī)場出租車資源供給與機(jī)場到港旅客運(yùn)輸需求不匹配造成的矛盾,需要提高機(jī)場出租車集疏運(yùn)系統(tǒng)運(yùn)行效率,準(zhǔn)確把握乘坐出租車的機(jī)場旅客短時流量.若能實(shí)現(xiàn)精度更高的機(jī)場出租車旅客短時流量預(yù)測,將有利于機(jī)場合理分配陸側(cè)資源,緩解機(jī)場陸側(cè)交通壓力,完善機(jī)場集疏運(yùn)系統(tǒng),實(shí)現(xiàn)旅客出行便捷高效的建設(shè)目標(biāo).
機(jī)場到港旅客出租車需求預(yù)測涉及機(jī)場流量預(yù)測和地面交通流量預(yù)測兩個方面.在機(jī)場流量預(yù)測方面,方法可以分為基于線性假設(shè)的、基于非線性假設(shè)的及基于線性假設(shè)與非線性假設(shè)組合的.其中,基于線性假設(shè)的方法有ARIMA模型[3]等,基于非線性假設(shè)的方法有神經(jīng)網(wǎng)絡(luò)[4]、神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸[5]模型等,基于線性假設(shè)與非線性假設(shè)組合的有卡曼濾波預(yù)測模型和反向傳播神經(jīng)網(wǎng)絡(luò)模型[6]組合等.在地面交通流量預(yù)測方面,近幾年的研究較多運(yùn)用機(jī)器學(xué)習(xí)的方法.按照預(yù)測對象,可以分為路段流量、公交車流量、出租車(包括網(wǎng)約車)流量及地鐵流量.其中,路段流量預(yù)測方法包括狀態(tài)頻率記憶神經(jīng)網(wǎng)絡(luò)[7]、線性模型的深度學(xué)習(xí)模型[8]、一種定制的機(jī)器學(xué)習(xí)方法[9]、支持向量機(jī)[10]等,公交車流量預(yù)測方法包括人工神經(jīng)網(wǎng)絡(luò)模型[11]、深度神經(jīng)網(wǎng)絡(luò)(DNN)-自動編碼器(SAE)[12]等,出租車流量預(yù)測方法包括ST-Attn模型[13]等,地鐵流量預(yù)測方法包括ARIMA模型[14]、 LSTM模型及其變體[15-16]等.
目前,關(guān)于機(jī)場出租車需求預(yù)測的研究分為宏觀和微觀兩個方面.其中宏觀方面指將旅客視為一個整體,根據(jù)旅客的宏觀特征,預(yù)測其出租車需求.微觀方面指將旅客視為個體,在對機(jī)場客流量整體預(yù)測的基礎(chǔ)上,運(yùn)用離散選擇模型搭建旅客交通方式選擇模型,得到機(jī)場陸側(cè)交通方式分擔(dān)率,間接得到出租車需求.
現(xiàn)有的機(jī)場出租車需求預(yù)測存在著以下兩個局限:一是多從個體擴(kuò)展到群體的角度出發(fā),采用離散選擇的方法,這類預(yù)測模型要求提供詳盡的自變量信息,包含旅客個人信息等,數(shù)據(jù)采集及建模具有一定難度;二是對機(jī)場陸側(cè)多種交通方式的交互影響考慮有所欠缺,利用天氣、到港旅客流量對特定陸側(cè)交通方式流量進(jìn)行預(yù)測,大多采用單個交通方式單獨(dú)預(yù)測,不考慮其他交通方式的影響.
鑒于此,本文基于LightGBM模型,從群體角度出發(fā),考慮其他交通方式的影響,對機(jī)場到港旅客出租車流量進(jìn)行直接預(yù)測.首先收集機(jī)場到港旅客出租車訂單數(shù)據(jù)、機(jī)場到港飛機(jī)數(shù)據(jù)、機(jī)場天氣報文數(shù)據(jù)和機(jī)場到港旅客地鐵閘門數(shù)據(jù),對數(shù)據(jù)進(jìn)行時間歸屬、噪點(diǎn)過濾、平移切分、求解處理,利用斯皮爾曼相關(guān)系數(shù)分析數(shù)據(jù),搭建LightGBM模型并根據(jù)具體情景采取網(wǎng)格法或貝葉斯優(yōu)化進(jìn)行參數(shù)標(biāo)定,預(yù)測機(jī)場到港旅客出租車流量,并與其他預(yù)測模型進(jìn)行對比.精確預(yù)測機(jī)場到港旅客乘坐出租車短時需求,有助于緩解機(jī)場出租車資源供給與機(jī)場到港旅客運(yùn)輸需求不匹配造成的矛盾,提高機(jī)場出租車集疏運(yùn)系統(tǒng)運(yùn)行效率,從而實(shí)現(xiàn)旅客出行便捷高效的建設(shè)目標(biāo).
本文依托美國紐約肯尼迪國際機(jī)場2020年1、2月的機(jī)場到港旅客開展機(jī)場到港旅客短時需求預(yù)測研究.選取的數(shù)據(jù)包括機(jī)場到港旅客出租車訂單數(shù)據(jù)、機(jī)場到港飛機(jī)數(shù)據(jù)、機(jī)場天氣報文數(shù)據(jù)和機(jī)場到港旅客地鐵閘門數(shù)據(jù).其中,機(jī)場到港旅客出租車訂單數(shù)據(jù)內(nèi)包含旅客出發(fā)地點(diǎn)、出發(fā)時間和人數(shù);機(jī)場到港飛機(jī)數(shù)據(jù)包括機(jī)場到港航班機(jī)型數(shù)據(jù)、機(jī)場各時間段到港航班架次數(shù)據(jù)和機(jī)場到港航班客座率數(shù)據(jù);機(jī)場天氣報文數(shù)據(jù)包括風(fēng)速、溫度、露點(diǎn)溫度、能見度、氣壓、是否下毛毛雨、是否降雨、是否有雷暴、是否有霧、是否降雪和是否有霾;機(jī)場到港旅客地鐵閘門數(shù)據(jù)包括紐約R414、R535、R536這3條經(jīng)過肯尼迪國際機(jī)場站點(diǎn)的地鐵線路每4 小時各個站點(diǎn)閘門的過閘人數(shù).
對機(jī)場到港旅客出租車訂單數(shù)據(jù)進(jìn)行噪點(diǎn)過濾和時間歸屬處理,得到機(jī)場到港旅客乘坐出租車流量時間序列數(shù)據(jù).對機(jī)場到港飛機(jī)數(shù)據(jù)進(jìn)行求解處理,求得機(jī)場到港旅客下機(jī)數(shù)量,求解公式為:
(1)
其中:f為機(jī)場到港旅客下機(jī)數(shù)量,Ni為第i種機(jī)型到港航班數(shù)量,Si為第i種機(jī)型的可用座位數(shù),PLF為客座率,I為機(jī)型總數(shù);對得到的機(jī)場到港旅客下機(jī)數(shù)量進(jìn)行時間歸屬處理,求得機(jī)場到港旅客下機(jī)流量時間序列數(shù)據(jù)和機(jī)場到港旅客前1小時下機(jī)流量時間序列數(shù)據(jù),兩者組合,得到機(jī)場到港旅客下機(jī)流量時間序列數(shù)據(jù)集.對機(jī)場到港旅客乘坐地鐵閘門數(shù)據(jù)進(jìn)行數(shù)據(jù)切分和時間歸屬處理,得到機(jī)場到港旅客乘坐地鐵流量時間序列數(shù)據(jù),對天氣報文數(shù)據(jù)進(jìn)行數(shù)據(jù)切分和時間歸屬處理,得到天氣時間序列數(shù)據(jù),其中,由于1~2月均未發(fā)生雷暴,將該項(xiàng)數(shù)據(jù)刪除.將生成的數(shù)據(jù)結(jié)合包含月份、日期、星期的時間特征,得到處理后的綜合時間數(shù)據(jù)集,示例如表1.
采用斯皮爾曼相關(guān)系數(shù)對處理好的綜合時間數(shù)據(jù)集進(jìn)行分析.斯皮爾曼相關(guān)系數(shù)可以消除量綱,并對非正態(tài)分布的數(shù)據(jù)進(jìn)行相關(guān)性分析.計算得到的斯皮爾曼系數(shù)范圍在-1~1之間,絕對值越接近1,表明越相關(guān),絕對值越接近0,表明越不相關(guān).斯皮爾曼系數(shù)對應(yīng)的p值表示兩類數(shù)據(jù)的相關(guān)性用斯皮爾曼系數(shù)衡量是否合適,p值越接近0,表明越適用.得到的斯皮爾曼相關(guān)系數(shù)與相應(yīng)p值如圖1所示.
圖1 斯皮爾曼系數(shù)相關(guān)熱力圖Figure 1 Spearman coefficient thermodynamic diagram
由圖1可知,機(jī)場到港旅客出租車流量與地鐵流量的斯皮爾曼相關(guān)系數(shù)p值小于0.05,通過顯著性檢驗(yàn),斯皮爾曼相關(guān)系數(shù)適用于衡量兩者相關(guān)性,且兩者相關(guān)系數(shù)為0.57,表明機(jī)場到港旅客出租車流量與地鐵流量具有一定的相關(guān)性,在建立模型時在自變量中加入機(jī)場到港旅客地鐵流量將會有助于提高模型預(yù)測精度.
LightGBM模型構(gòu)建整體思路如圖2.
圖2 LightGBM模型構(gòu)建整體思路Figure 2 LightGBM model construction idea
本文采用LightGBM模型對機(jī)場到港旅客出租車流量進(jìn)行預(yù)測,采集到的數(shù)據(jù)均為機(jī)場到港旅客機(jī)場出租車需求的外部特征,LightGBM作為一種典型的機(jī)器學(xué)習(xí)方法,可以從外部數(shù)據(jù)包含的有限特征集合中推斷出新的特征,提高模型預(yù)測精度.
LightGBM是2017年提出的新的boosting框架模型[17],該方法在傳統(tǒng)的梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)基礎(chǔ)上引入了梯度單邊采樣技術(shù)(Gradient-based One-Side Sampling,GOSS)與獨(dú)立特征合并技術(shù)(Exclusive Feature Bundling,EFB),可以在保證精度的前提下降低內(nèi)存消耗.
其中,梯度提升決策樹基本思想為:一次性迭代變量,迭代過程中,逐一增加子模型,并且保證損失函數(shù)不斷減小.其目標(biāo)是找到一個函數(shù)F*(x),使得x映射到y(tǒng)的損失函數(shù)L(y,F(x))到達(dá)最小.
(2)
其中:F(x)為預(yù)測函數(shù),F*(x)為目標(biāo)預(yù)測函數(shù),L(y,F(x))為損失函數(shù).預(yù)測函數(shù)F(x)為若干個弱分類器f(x)線性組合的形式.
F(x)=?0f0(x)+?1f1(x)+…+?mfm(x)
(3)
其中:F(x)為預(yù)測函數(shù),f(x)為弱分類器,?為弱分類器的參數(shù).
梯度單邊采樣技術(shù)根據(jù)梯度值給數(shù)據(jù)加以不同的采樣權(quán)重,保留具有大梯度的數(shù)據(jù),隨機(jī)采樣具有小梯度的數(shù)據(jù),并保持?jǐn)?shù)據(jù)原來的分布.這種采樣方法相比均勻隨機(jī)采樣能獲得更準(zhǔn)確的信息增益.為減少訓(xùn)練時的樣本特征.獨(dú)立特征合并技術(shù)將高維特征中的互斥特征綁定在一起形成一個特征,從而減少特征維度,在不影響精度的情況下提升訓(xùn)練速度.
貝葉斯優(yōu)化是一種有效的全局優(yōu)化算法,基本思想為假設(shè)先驗(yàn)分布,得到后驗(yàn)分布并修改原分布置信度,它解決了根據(jù)黑盒目標(biāo)函數(shù)獲取的信息,找到下一個評估位置,從而不斷逼近最優(yōu)解的問題.貝葉斯優(yōu)化最終優(yōu)化目標(biāo)為在全集A中尋找使f(x)值達(dá)到最值的x集合,在實(shí)踐中,可通過取正負(fù)號在最小值和最大值之間轉(zhuǎn)換,本文為取最小值.
(4)
其中:x*為目標(biāo)取得的值,f(x)為目標(biāo)函數(shù),A為全集.
貝葉斯優(yōu)化有兩個關(guān)鍵部分,首先是使用概率模型代理原始評估代價高昂的復(fù)雜目標(biāo)函數(shù),其次是利用代理模型的后驗(yàn)信息構(gòu)造主動選擇策略.假設(shè)超參數(shù)優(yōu)化的函數(shù)f(x)服從高斯過程, 根據(jù)已有的N組試驗(yàn)的輸入輸出{x,f(x)}, 計算f(x)的后驗(yàn)分布p(f(x)|x)來估計f(x).
(5)
其中:p(f(x)|x)為f(x)的后驗(yàn)分布,p(f(x))為先驗(yàn)概率,p(x|f(x))為樣本x相對于函數(shù)f(x)的條件概率,p(x)為用于歸一化的證據(jù)因子.
當(dāng)貝葉斯優(yōu)化用于機(jī)器學(xué)習(xí)模型的參數(shù)標(biāo)定時,與傳統(tǒng)的網(wǎng)格搜索法不同,當(dāng)前的最優(yōu)值搜索是在之前搜索結(jié)果的基礎(chǔ)上,充分利用已知數(shù)據(jù)點(diǎn)的信息來進(jìn)行的,通過概率代理模型和采集函數(shù)估計最優(yōu)點(diǎn)最有可能出現(xiàn)的位置,因此貝葉斯優(yōu)化調(diào)參迭代次數(shù)少,調(diào)參時間短,但也可能陷入局部最優(yōu)解而未找到全局最優(yōu)解.
機(jī)場作為一個大型綜合交通樞紐,連接飛機(jī)、汽車、地鐵等多種不同交通方式,在旅客下機(jī)至乘坐上陸側(cè)交通工具的過程,存在著多種突發(fā)情況,如天氣、流量控制等原因?qū)е侣每拖聶C(jī)時間延后,地鐵故障停運(yùn)等原因?qū)е鲁俗渌煌ǚ绞搅髁慷冈龅?網(wǎng)格法參數(shù)標(biāo)定可以找出參數(shù)的全局最優(yōu)解,但調(diào)參時間相對較長,貝葉斯優(yōu)化參數(shù)標(biāo)定調(diào)參時間短,但可能陷入局部最優(yōu)解.因此,提出兩種調(diào)參方式,適用于不同情況,在平常條件下,采取網(wǎng)格法參數(shù)標(biāo)定,在突發(fā)情況下,采取貝葉斯優(yōu)化參數(shù)標(biāo)定.
LightGBM模型實(shí)現(xiàn)算法控制與優(yōu)化的主要參數(shù)包括學(xué)習(xí)率、決策樹數(shù)量、決策樹葉子數(shù)量.其他參數(shù)設(shè)定如下:L1正則化權(quán)重項(xiàng)為0;L2正則化權(quán)重項(xiàng)為0;樹的最大深度不受限制;葉節(jié)點(diǎn)樣本的最少數(shù)量為20;弱學(xué)習(xí)器的類型選擇gbdt;確定使用所有數(shù)據(jù)訓(xùn)練弱學(xué)習(xí)器;構(gòu)建弱學(xué)習(xí)器時,對特征隨機(jī)采樣的比例選擇1;學(xué)習(xí)目標(biāo)選擇使用L2正則項(xiàng)的回歸模型.
2.3.1 網(wǎng)格法參數(shù)標(biāo)定
采用網(wǎng)格法對學(xué)習(xí)率、決策樹數(shù)量、決策樹葉子數(shù)量這3個主要參數(shù)進(jìn)行標(biāo)定,將均方誤差MSE最小作為目標(biāo)函數(shù),參數(shù)調(diào)整過程如圖3所示.
圖3 LightGBM模型參數(shù)調(diào)整過程Figure 3 LightGBM model parameter adjustment process
最終主要參數(shù)標(biāo)定結(jié)果為學(xué)習(xí)率取0.13,決策樹數(shù)量取203,決策樹葉子數(shù)量取6.
2.3.2 貝葉斯優(yōu)化參數(shù)標(biāo)定
采用貝葉斯優(yōu)化對學(xué)習(xí)率、決策樹數(shù)量、決策樹葉子數(shù)量這3個主要參數(shù)進(jìn)行標(biāo)定,將均方誤差MSE最小作為目標(biāo)函數(shù).最終主要參數(shù)標(biāo)定結(jié)果為學(xué)習(xí)率取0.05,決策樹數(shù)量取285,決策樹葉子數(shù)量取20.
利用網(wǎng)格法與貝葉斯優(yōu)化參數(shù)標(biāo)定的結(jié)果,分別訓(xùn)練LightGBM模型,采用平均絕對誤差MAE、均方誤差MSE、均方根誤差RMSE、R2和平均絕對百分比誤差MAPE對模型預(yù)測精確度進(jìn)行比較,采用參數(shù)標(biāo)定用時對速度進(jìn)行比較,結(jié)果見表2.
表2 網(wǎng)格法與貝葉斯優(yōu)化參數(shù)標(biāo)定性能結(jié)果比較Table 2 Comparison of calibration performance between grid method and Bayesian optimization
由表2可知,網(wǎng)格法參數(shù)標(biāo)定的參數(shù)訓(xùn)練出的模型準(zhǔn)確性更強(qiáng),但參數(shù)標(biāo)定時間較長,貝葉斯優(yōu)化參數(shù)標(biāo)定時間短,但標(biāo)定的參數(shù)訓(xùn)練出的模型準(zhǔn)確性略遜于網(wǎng)格法.
為了驗(yàn)證LightGBM模型的準(zhǔn)確性和可靠性,采用平均絕對誤差MAE、均方誤差MSE、均方根誤差RMSE、R2和平均絕對百分比誤差MAPE對模型預(yù)測結(jié)果進(jìn)行衡量.同時,引入梯度提升回歸樹(GBRT)模型、長短期記憶網(wǎng)絡(luò)(LSTM)模型、隨機(jī)森林模型、支持向量機(jī)回歸(SVR)模型和XGBoost模型對數(shù)據(jù)分別進(jìn)行預(yù)測,比較不同模型的性能.按照固定比例隨機(jī)劃分測試集,重復(fù)多次實(shí)驗(yàn),各模型MAE、RMSE、R2、MAPE見圖4.
圖4 各模型性能評價Figure 4 Performance evaluation of each model
由圖4可知,LightGBM模型在MAE、RMSE、R2、MAPE指標(biāo)中均表現(xiàn)良好.將LightGBM模型、梯度提升回歸樹(GBRT)模型、長短期記憶網(wǎng)絡(luò)(LSTM)模型、隨機(jī)森林模型、支持向量機(jī)回歸(SVR)模型和XGBoost模型的5次測試結(jié)果取平均值,結(jié)果見表3.
表3 各模型平均性能值
由表3可知,LightGBM模型MAE、MSE、RMSE、R2、MAPE均優(yōu)于其他模型,相比于其他模型,對于機(jī)場到港旅客乘坐出租車短時需求預(yù)測的精度更高.
本文以機(jī)場到港旅客乘坐出租車短時需求為研究對象,從群體角度出發(fā),考慮其他交通方式的影響,基于交通方式的交互直接預(yù)測機(jī)場乘坐出租車的到港旅客流量.首先收集機(jī)場到港旅客出租車訂單數(shù)據(jù)、機(jī)場到港飛機(jī)數(shù)據(jù)、機(jī)場天氣報文數(shù)據(jù)和機(jī)場到港旅客地鐵閘門數(shù)據(jù),對數(shù)據(jù)進(jìn)行時間歸屬、噪點(diǎn)過濾、平移切分、求解處理,利用斯皮爾曼相關(guān)系數(shù)分析數(shù)據(jù),搭建LightGBM模型,根據(jù)具體情景采取網(wǎng)格法或貝葉斯優(yōu)化進(jìn)行參數(shù)標(biāo)定,預(yù)測機(jī)場到港旅客乘坐出租車流量,并與其他6個預(yù)測模型進(jìn)行對比,結(jié)果均優(yōu)于其他模型,相比于以往研究,考慮乘坐地鐵旅客數(shù)量對乘坐出租車旅客需求的影響,預(yù)測精度更高.
不同的國家地區(qū)旅客出行需求存在差異,本文由于數(shù)據(jù)收集的限制,以國外機(jī)場到港旅客乘坐出租車短時需求作為研究對象,其研究結(jié)果不適用于國內(nèi)地區(qū).但本文的研究方法具有可移植性.同時,本文只對比了單個機(jī)器學(xué)習(xí)的方法,在未來的研究中,可以采取多個機(jī)器學(xué)習(xí)方法的組合,進(jìn)一步提高機(jī)場到港旅客乘坐出租車短時需求預(yù)測精度.