趙春風
摘要 機場是區(qū)域經(jīng)濟社會發(fā)展的重要引擎,而旅客吞吐量是衡量機場開放與活躍程度的重要標志,也是指導機場科學制定運營計劃的重要指標,因此有必要對機場旅客吞吐量進行預測。文章通過分析用于機場旅客吞吐量預測所需的多源數(shù)據(jù)構(gòu)成、采集方法及數(shù)據(jù)項,提出了多源數(shù)據(jù)處理流程,構(gòu)建了旅客吞吐量預測框架,通過多源數(shù)據(jù)技術和相關算法,設計了旅客吞吐量預測、決策和統(tǒng)計查詢等預測系統(tǒng)的功能模塊,最后結(jié)合祿口機場近五年的旅客吞吐量數(shù)據(jù),對提出的方法與系統(tǒng)進行驗證,結(jié)果表明預測誤差小于3%,表現(xiàn)出良好的預測效果。
關鍵詞 旅客吞吐量;預測;多源數(shù)據(jù)
中圖分類號 TP311.13文獻標識碼 A文章編號 2096-8949(2024)08-0005-04
0 引言
南京祿口國際機場作為江蘇省省會機場,2019年旅客年吞吐量均突破3 000萬人次,發(fā)展勢頭良好。然而據(jù)統(tǒng)計數(shù)據(jù)顯示,江蘇省人口占華東地區(qū)的20%,而民航客運量僅占12%,民航發(fā)展水平低于華東地區(qū)平均水平。南京祿口機場是我國重要的交通樞紐之一,如何合理預測其吞吐量并進行精準管理,對于優(yōu)化航班安排與資源配置、提升旅客體驗至關重要。近年來,隨著大數(shù)據(jù)技術的發(fā)展與成熟,為海量數(shù)據(jù)分析提供了基礎,開展基于多源數(shù)據(jù)的分析與預測工作成為可能[1-4]。該研究旨在依托大數(shù)據(jù)技術,設計一種先進、適用的機場旅客吞吐量預測方法和系統(tǒng),為進一步提升祿口機場運輸管理水平提供支撐。
1 數(shù)據(jù)來源分析
1.1 數(shù)據(jù)來源構(gòu)成
機場樞紐作為城市交通的重要節(jié)點,集聚了多種不同的交通方式,可將客流數(shù)據(jù)分為私家車數(shù)據(jù)、出租車(含網(wǎng)約車)數(shù)據(jù)、公交車數(shù)據(jù)、地鐵數(shù)據(jù)、高鐵數(shù)據(jù)等。同時不同種類的數(shù)據(jù)具有不同的信息來源,具體數(shù)據(jù)詳見表1。
在表1數(shù)據(jù)來源方式中,票務和閘機數(shù)據(jù)的記錄結(jié)構(gòu)和形式相對簡單,多為出行行為的起訖點記錄、出行時間記錄和少量的出行者屬性記錄,而手機信令數(shù)據(jù)、公路卡口視頻監(jiān)控數(shù)據(jù)、公交卡刷卡數(shù)據(jù)、收費站數(shù)據(jù)、衛(wèi)星定位數(shù)據(jù)等具有信息量豐富、信息記錄形式多樣、信息處理方式復雜等特點,因此主要對這五種數(shù)據(jù)采集技術進行分析。
1.2 手機信令數(shù)據(jù)采集
手機信令數(shù)據(jù)是移動通信網(wǎng)絡滿足自身運行需要而生成和記錄的數(shù)據(jù),其主要依賴于移動通信網(wǎng)絡基站和移動平臺,即手機與基站之間的信息交互。手機信令數(shù)據(jù)可分為主動行為數(shù)據(jù)和被動行為數(shù)據(jù)兩種:主動行為數(shù)據(jù)是手機用戶使用手機進行了短信收發(fā)、撥打電話等行為而產(chǎn)生的信令數(shù)據(jù);被動行為數(shù)據(jù)是在手機用戶本身并未對手機進行任何操作時,由于跨越基站所覆蓋位置區(qū)或基站定期更新信令源位置所產(chǎn)生的信令數(shù)據(jù)[5]。手機信令記錄產(chǎn)生的原理如圖1所示。
手機信令數(shù)據(jù)本身包含的信息眾多,在交通應用方面通常包括采集時間、空間位置等數(shù)據(jù),其原始數(shù)據(jù)記錄如表2所示。
由于無線信號和傳輸系統(tǒng)的不穩(wěn)定性,會產(chǎn)生大量無效冗余數(shù)據(jù)、噪聲數(shù)據(jù)、漂移數(shù)據(jù)等,因此,在使用手機信令數(shù)據(jù)進行相關的交通分析之前,需要通過噪聲數(shù)據(jù)剔除、數(shù)據(jù)空間位置匹配等方法對原始數(shù)據(jù)進行加工處理,最終得到可用于分析的數(shù)據(jù)源。
1.3 公路卡口視頻監(jiān)控數(shù)據(jù)采集
由于人工智能技術快速發(fā)展及GPU服務器算力顯著提升,可從視頻中自動提取動態(tài)交通信息,作為客流分析的來源之一。視頻監(jiān)控系統(tǒng)經(jīng)過機器學習之后,可識別的交通信息如表3所示。
1.4 公交卡刷卡數(shù)據(jù)采集
公交IC卡數(shù)據(jù)已成為交通客流分析的有效數(shù)據(jù)源,主要包括卡號、刷卡時間、乘坐車號和線路等字段。不同的卡號代表不同的乘客,根據(jù)卡號信息查找乘客一天的刷卡次數(shù),從而確定乘客換乘或者二次出行信息。刷卡時間即乘客上車時間,根據(jù)線路上某具體車輛的運營調(diào)度信息以及線路站點順序,依據(jù)刷卡時間來判斷乘客的上車站點[6]。
1.5 收費站數(shù)據(jù)采集
南京祿口機場高速公路設置一處主線收費站,其產(chǎn)生的收費流水數(shù)據(jù)主要包括收費站編號、出入口時間、通行卡號、收費車道號、車型、流水號、收費金額等字段,如表4所示。可通過關聯(lián)與相關性挖掘、分類與回歸、聚類分析、離群點分析等方式對高速公路收費流水進行描述性和預測性挖掘,作為祿口機場客流分析的依據(jù)。
1.6 衛(wèi)星定位數(shù)據(jù)采集
通過安裝在公交車、出租車(含網(wǎng)約車)的衛(wèi)星定位裝置,獲取車輛運行過程中的位置、速度、方向等信息,根據(jù)這些數(shù)據(jù)分析車輛到達或離開祿口機場的狀態(tài),進而估計旅客出行行為和數(shù)量。如表5所示,顯示了公交車、出租車(含網(wǎng)約車)的衛(wèi)星定位數(shù)據(jù)字段。
2 預測系統(tǒng)設計
2.1 數(shù)據(jù)質(zhì)量優(yōu)化提升
首先需要依據(jù)祿口機場覆蓋區(qū)域確定數(shù)據(jù)采集范圍,以便精確獲取對預測有直接貢獻的數(shù)據(jù),進而提高算法模型精度;其次需要對采集的多源數(shù)據(jù)進行融合處理,剔除冗余數(shù)據(jù),綜合得到用于統(tǒng)計旅客數(shù)量的特征數(shù)據(jù)。對于同一個人擁有多部手機的情況,還需要結(jié)合位置與時間信息,通過關聯(lián)時空軌跡判斷真實的旅客信息,將多部手機的信令數(shù)據(jù)轉(zhuǎn)化為同一條旅客出行數(shù)據(jù)。該研究提出的多源數(shù)據(jù)優(yōu)化處理流程如圖2所示。
2.2 預測框架與流程
祿口機場旅客吞吐量預測系統(tǒng)由數(shù)據(jù)采集與處理、預測輸出等模塊組成[7-8]。其中,數(shù)據(jù)采集與處理模塊負責與旅客相關的數(shù)據(jù)采集及清洗處理,同時,引入酒店、氣象、節(jié)假日等數(shù)據(jù),作為控制因素,調(diào)節(jié)預測結(jié)果,以此提升預測模型的適應性;預測輸出模塊主要用于輸出預測旅客吞吐量,為應用業(yè)務系統(tǒng)提供決策數(shù)據(jù)。預測系統(tǒng)的基本框架與流程如圖3所示。
數(shù)據(jù)采集與處理:由于現(xiàn)場存在環(huán)境干擾、設備誤差等客觀因素,將會產(chǎn)生具有毛刺特征的異常數(shù)據(jù),因此系統(tǒng)集成了中位值、算術平均、遞推平均、加權(quán)平均、一階滯后等數(shù)據(jù)濾波算法,對采集到的數(shù)據(jù)進行分析與處理,為后續(xù)預測工作提供可靠的數(shù)據(jù)源。
預測輸出:基于機器學習算法對歷史數(shù)據(jù)進行分析和建模,并對算法模型進行優(yōu)化,預測機場旅客吞吐量,分析旅客吞吐量變化規(guī)律和趨勢,通過可視化工具呈現(xiàn)預測與分析結(jié)果。
2.3 預測算法原理
時間序列預測算法是一種定量的回歸預測方法,運用過去的時間序列數(shù)據(jù)統(tǒng)計分析,推測出事物的發(fā)展趨勢。考慮由于偶然因素而產(chǎn)生的隨機波動影響,需要對數(shù)據(jù)進行預處理,進而開展數(shù)據(jù)統(tǒng)計分析和未來趨勢預測。該研究基于Prophet時間序列預測算法對祿口機場旅客流量進行預測分析。
y(t)=g(t)+s(t)+h(t)+εt (1)
式中,g(t)——趨勢變化函數(shù),用來分析時間序列中非周期性的變化;s(t)——季節(jié)周期項,一般以年或以周為單位;h(t)——節(jié)假日項,表示節(jié)假日因素造成的影響變化;εt——誤差項,表示突發(fā)事件的影響,通常為高斯噪聲。
由于該研究中以年為單位預測,故暫不考慮節(jié)假日項,并結(jié)合季節(jié)周期性影響模型,則Prophet模型為:
(2)
式中,P——時間序列周期長度,該研究中P取值為365,可對年度數(shù)據(jù)進行周期效應估計。原始數(shù)據(jù)經(jīng)過格式轉(zhuǎn)換、異常值處理之后得到標準化后的客流量數(shù)據(jù),將其代入構(gòu)建的Prophet模型進行訓練,按非周期性變化的趨勢項、季節(jié)周期項對模型進行分解和訓練,根據(jù)訓練結(jié)果進一步優(yōu)化模型,以提升模型預測的精確度。
2.4 預測系統(tǒng)功能設計
預測系統(tǒng)的核心功能包括旅客吞吐量預測、預測決策、統(tǒng)計查詢?nèi)糠帧F渲?,旅客吞吐量預測主要是結(jié)合多源數(shù)據(jù),依托上述預測框架和預測流程,自動生成吞吐量數(shù)據(jù);預測決策是依據(jù)旅客吞吐量預測數(shù)據(jù),制訂輔助決策計劃;統(tǒng)計查詢是依據(jù)旅客吞吐量預測數(shù)據(jù)和預測決策數(shù)據(jù),生成統(tǒng)計查詢報表。預測系統(tǒng)功能如圖4所示。
(1)旅客吞吐量預測:依據(jù)獲取的多源出行數(shù)據(jù),并結(jié)合氣象、酒店住宿等數(shù)據(jù),預測機場旅客吞吐量,其功能包括旅客年吞吐量、旅客月吞吐量、旅客日吞吐量、旅客節(jié)假日吞吐量、旅客特殊條件吞吐量。
(2)預測決策:依托旅客吞吐量預測,并結(jié)合祿口機場管理規(guī)則及約束條件,系統(tǒng)自動建模生成決策模型,輸出預測決策數(shù)據(jù),其功能包括生產(chǎn)計劃決策、資金計劃決策、安保計劃決策、保養(yǎng)計劃決策、地面交通決策。
(3)統(tǒng)計查詢:依托旅客吞吐量預測和決策結(jié)果,并結(jié)合祿口機場生產(chǎn)管理業(yè)務需求,實現(xiàn)預測一張圖、旅客吞吐量查詢、預測決策查詢、統(tǒng)計分析報表、打印輸出等功能。
3 預測有效性驗證
南京祿口機場旅客吞吐量預測系統(tǒng)的主要作用是為機場管理決策提供依據(jù),因此,需要對預測系統(tǒng)的有效性進行驗證,預測誤差可作為評價預測系統(tǒng)有效性的重要指標。利用該研究提出的方法和系統(tǒng),預測南京祿口機場最近五年的旅客吞吐量,并將預測結(jié)果與中國民用航空局每年發(fā)布的《全國民用運輸機場生產(chǎn)統(tǒng)計公報》數(shù)據(jù)進行對比,以此分析預測值與真實值的誤差。該文選取平均絕對誤差(MAE)、相對百分比誤差(MAPE)、對稱平均絕對百分比誤差(SMAPE)三個指標進行評價。預測結(jié)果的各項評價指標值如表6所示,從表中可以得出,祿口機場旅客吞吐量預測結(jié)果的評價指標MAPE與SMAPE均小于3%,各項誤差值均在實際需求可接受的合理范圍內(nèi),驗證了該文方法的有效性。
4 結(jié)語
機場旅客吞吐量預測對于機場合理安排調(diào)度任務、提升機場管理與服務水平具有重要作用。該文分析了用于機場旅客吞吐量預測的多源數(shù)據(jù)構(gòu)成與采集方法,提出了數(shù)據(jù)質(zhì)量優(yōu)化思路,通過研究旅客吞吐量預測架與流程,設計了南京祿口機場旅客吞吐量預測系統(tǒng),并結(jié)合歷史真實吞吐量數(shù)據(jù),對預測結(jié)果進行驗證,結(jié)果表明該文提出的預測方法與系統(tǒng)能夠較好地預測機場旅客吞吐量。由于旅客出行行為受多種復雜因素的交叉影響,如飛機準點率、票價等因素,因此,在下一步的研究工作中,還將引入這些因素對模型進行完善,以期進一步提升預測模型的魯棒性。
參考文獻
[1]顧凱. 大數(shù)據(jù)技術在智慧機場領域的應用研究[J]. 軟件工程, 2021(5): 59-62.
[2]關華, 王麗娟, 程宇, 等. 機場客源大數(shù)據(jù)應用研究與設計[J]. 電腦編程技巧與維護, 2020(9): 96-98.
[3]牛虎. 大數(shù)據(jù)時代下的機場旅客數(shù)據(jù)價值挖掘[J]. 綜合運輸, 2015(11): 90-93+133.
[4]楊飛, 徐平, 張卓劍, 等. 大數(shù)據(jù)時代下機場客戶關系分析與實施模式研究[J]. 電子商務, 2014(9): 16-17.
[5]姚海芳, 劉云溪, 劉勁松. 基于手機信令大數(shù)據(jù)的機場腹地識別算法研究[J]. 地理與地理信息科學, 2021(2): 77-83.
[6]馬美蓮. 基于大數(shù)據(jù)視角的機場短時客流量時空分布研究[D]. 深圳:深圳大學, 2018.
[7]吉向東. 基于大數(shù)據(jù)技術的智慧機場管理平臺的設計與研究[J]. 信息系統(tǒng)工程, 2020(7): 40-41.
[8]柏玉鋒. 大數(shù)據(jù)技術在智慧機場中的典型應用場景研究[J]. 智能建筑, 2019(2): 67-70.