趙烜
摘要:民航領(lǐng)域存在由于旅客noshow而導致座位虛耗問題,從而直接影響航空公司的收益。準確提取旅客noshow規(guī)則、分析noshow行為,是航空公司提高市場競爭力的有效手段。本文研究并分析noshow規(guī)則提取算法相關(guān)研究成果,討論此領(lǐng)域的各種數(shù)據(jù)挖掘算法,為航司實現(xiàn)noshow精細化管理提供輔助決策技術(shù)。
關(guān)鍵詞:noshow;預測模型;算法研究
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2020)05-0119-02
0引言
在民航市場中,通常存在旅客訂座后未能成行的現(xiàn)象,這種行為稱為noshow,noshow行為的產(chǎn)生導致航班起飛時仍然存在空余座位,降低了航空公司的收入。目前國內(nèi)航空公司一般采用超售的方式與noshow形成對沖,然而,這將大大提升拒載的可能性,增加航司的賠付風險。
因此準確預測旅客的noShow行為將有利于航司對航班進行精細化管控,提升座位利用率,增加公司的收入。本文總結(jié)了目前比較有效的幾種noshow行為分析算法,為航司提供算法選擇理論依據(jù)。
1時間序列預測算法
對航司收益管理而言,精準預測特定時刻特定航班可能存在的noshow行為至關(guān)重要。將航班成行的歷史數(shù)據(jù)視為時間序列,提取與noshow相關(guān)的字段,通過時間序列預測算法進行預測,是一種較為普遍的方式。常用的算法包括兩類,(1)傳統(tǒng)算法:多元回歸分析法、ARIMA、指數(shù)平滑法等。(2)機器學習算法:BP神經(jīng)網(wǎng)絡、CNN、LSTM等。
傳統(tǒng)算法通常分為以下幾步:
第二步:選擇適當?shù)臅r間序列預測算法,建立預測模型。
第三步:參數(shù)詞優(yōu)。通過歷史數(shù)據(jù),不斷調(diào)整模型中涉及的超參數(shù),選擇最優(yōu)的參數(shù)組合,使得擬合誤差達到最低。
機器學習算法在處理長周期時間序列數(shù)據(jù)方面具有天然優(yōu)勢,建模之前需要采用留出法、交叉驗證法等處理技術(shù),將歷史noshow數(shù)據(jù)劃分為訓練集、測試集。訓練集進行模型的建立、參數(shù)調(diào)優(yōu),然后在測試集進行泛化性能驗證。然而由于機器學習算法涉及諸多超參數(shù)的選擇,導致訓練階段工作量較大,并且隨著新增noShow數(shù)據(jù)的加入,通常需要重新訓練模型得到當前數(shù)據(jù)集的最優(yōu)超參數(shù)組合。正是由于此原因,導致機器學習算法在noshow分析領(lǐng)域具有一定局限性,普適性較低。
由于時間序列預測算法僅從航班維度出發(fā)建立擬合預測模型,評估潛在的noshow行為,不能充分利用單一旅客在整個訂票過程中的其他行為數(shù)據(jù),往往這些過程數(shù)據(jù)能夠準確反映出旅客是否能夠成行。因此,基于旅客訂票全流程的預測方法受到各航司的青睞。
2基于旅客訂票行為的預測算法
2.1基于支持向量機的預測模型
支持向量機(SVM)是一種較為常用的機器學習算法,既可用于分類任務,也可用于回歸任務,在各領(lǐng)域中具有較好的應用效果。黃文吲”采用支持向量機建立了旅客noshow預測系統(tǒng),并通過實際案例,分別討論了線性核、RBF核、多項式核的預測效果,并給出使用建議。在noshow行為預測領(lǐng)域,SVM算法的流程如下:
(1)建立歷史擬合數(shù)據(jù)集{x1,y1}。其中x是向量,表示訂票行為屬性集,包含:訂票日期、出票日期、修改日期、出發(fā)地、到達地、航班號、旅客性質(zhì)(是否高端)、性別、年齡、艙位、是否團體、是否商務等;y;的取值為O或者1,1表示noshow,0表示正常成行。
(2)為避免過擬合,采用軟間隔的支持向量機算法,即容許一部分樣本分類錯誤。建立約束問題:
(3)采用SMO算法求解(2)中的優(yōu)化問題,計算參數(shù)的取值,進而得到預測模型。
在使用支持向量機算法時,核函數(shù)K的選取直接影響算法的性能,常用的核函數(shù)分為:線性核、RBF核(高斯核)、多項式核、拉普拉斯核等。然而,如何準確選擇合適的核函數(shù)仍然是一項未解決的問題,在使用支持向量機算法時可以考慮多核函數(shù)學習。noshow行為預測是典型的非線性問題,一般選擇非線性核函數(shù)。
2.2基于決策樹的預測模型
決策樹是一種常用的機器學習分類技術(shù),包含一個根節(jié)點、若干個葉子結(jié)點和內(nèi)部節(jié)點。其基本思想是采用樹的結(jié)構(gòu)進行分類任務,每一條樹的分支代表一個規(guī)則,常用的決策樹算法包括:ID3、C4.5、c5.O等。決策樹算法在noShow規(guī)則提取中具有重要應用,文獻采用C4.5算法對noshow行為進行建模分析,得到較好的分析效果;曹衛(wèi)東等利用C5.O構(gòu)建決策樹模型,再采用Apriori算法對因子進行關(guān)聯(lián)規(guī)則分析,最終得到noshow預測準確率為99.75%的決策樹模型。
使用決策樹算法之前,依然需要構(gòu)建noshow數(shù)據(jù)集{xi,yi},然后進行模型的訓練與優(yōu)化。其核心是如何準確地選擇最優(yōu)劃分屬性,并且盡量滿足分支結(jié)點中包含的樣本集合盡可能多的屬于一個類別。常用的劃分準則分為以下幾類:
C4.5算法采用增益率作為屬性劃分準則,c5.0貝0是在C4.5基礎(chǔ)上建立起來的,可處理大數(shù)據(jù)量的數(shù)據(jù)集。
在使用決策樹算法進行noshow行為分析時,為避免過擬合現(xiàn)象出現(xiàn),通常需要進行預剪枝或者后剪枝處理,以便的到泛化能力較強的決策樹模型,這也就增加了建模過程的復雜度,并且經(jīng)過剪枝處理后的決策樹依然存在欠擬合、過擬合的風險。
3結(jié)語
noshow行為分析對于航空公司提高營業(yè)收入至關(guān)重要,準確的預測結(jié)果能夠指導航班管控人員把握旅客數(shù)據(jù)。本文研究了幾種noshow行為分析算法,并分析算法的優(yōu)缺點,可以協(xié)助航空公司準確把握旅客動態(tài),為精細化管控提供輔助決策技術(shù)。