• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RFM模型的隨機(jī)森林算法對(duì)民航客戶的流失分析

      2021-01-27 06:53:28寇勇剛
      關(guān)鍵詞:決策樹(shù)航空公司森林

      楊 琳,白 釗,寇勇剛

      (1.中國(guó)民用航空飛行學(xué)院機(jī)場(chǎng)工程與運(yùn)輸管理學(xué)院,四川 廣漢 618307;2.深聯(lián)公務(wù)航空有限公司,廣東 深圳 518000)

      0 引 言

      從近幾年民航局發(fā)布的數(shù)據(jù)來(lái)看,航空公司客戶流失率每年都高達(dá)30%,而且還在持續(xù)增長(zhǎng),導(dǎo)致航空公司的市場(chǎng)占有率降低,收益也受到影響。航空公司為了保有其在市場(chǎng)中的占有率,過(guò)去采取的策略是通過(guò)打價(jià)格戰(zhàn)的方式來(lái)吸引新客戶,不僅耗費(fèi)了企業(yè)的運(yùn)營(yíng)成本,還忽視了對(duì)存量客戶必要的關(guān)懷及維護(hù)。以往研究表明,開(kāi)發(fā)新客戶的成本是維護(hù)現(xiàn)有客戶成本的5~6倍[1],另一方面,流失的成本對(duì)航空公司也構(gòu)成了巨大的利益損失。因此,面對(duì)客戶流失產(chǎn)生的負(fù)面影響,維系現(xiàn)有客戶比開(kāi)發(fā)新客戶更有效。企業(yè)不能再僅僅是開(kāi)發(fā)新客戶,也要留意對(duì)現(xiàn)有客戶的關(guān)心及維護(hù),提升現(xiàn)有客戶的忠誠(chéng)度,這樣才能持續(xù)提高企業(yè)的效益。由于航空行業(yè)存在特殊性,消費(fèi)的終止不能夠完全地定義航空公司客戶的流失,航空客戶流失的定義應(yīng)該更廣泛。因此,怎樣將客戶流失率降低成為航空公司管理的重中之重。應(yīng)維云[2]將隨機(jī)森林方法用于銀行的客戶流失預(yù)測(cè)中,證明算法比傳統(tǒng)的預(yù)測(cè)算法的精度要高。丁君美等人[3]將改進(jìn)的隨機(jī)森林算法用于電信業(yè)的客戶流失預(yù)測(cè)中,證明有更高的精度。崔亞琦[4]基于C5.0算法對(duì)航空客戶進(jìn)行流失分析,得到較好的準(zhǔn)確性和預(yù)測(cè)性。但國(guó)內(nèi)尚未有學(xué)者將隨機(jī)森林算法應(yīng)用于航空客戶的流失預(yù)測(cè)中。本文將RFM模型與隨機(jī)森林算法相結(jié)合,用于客戶流失率預(yù)測(cè),并將隨機(jī)森林算法與其他算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果顯示這一模型用于航空客戶流失率的預(yù)測(cè)中是有效的。最后將流失的客戶進(jìn)行分類,得出客戶流失的原因,為民航企業(yè)挽留客戶提供可靠的依據(jù)。

      1 民航企業(yè)RFM模型

      RFM模型是在不同的客戶行為的條件下,對(duì)客戶價(jià)值評(píng)估所應(yīng)用的模型中最廣泛的一種。RFM模型通常定義的3個(gè)指標(biāo)是消費(fèi)時(shí)間(Recency)、消費(fèi)頻率(Frequency)、消費(fèi)金額(Monetary),并用這3項(xiàng)指標(biāo)來(lái)量化客戶價(jià)值[5-6]。以客戶的行為為依據(jù)來(lái)判斷該客戶為企業(yè)所帶來(lái)的實(shí)際價(jià)值,以動(dòng)態(tài)的方式顯示一個(gè)客戶的全部輪廓[7]。該民航企業(yè)的RFM模型滿足如下假設(shè):近期購(gòu)買過(guò)機(jī)票的客戶再次為企業(yè)創(chuàng)造價(jià)值的概率大于近期沒(méi)有購(gòu)買過(guò)機(jī)票的客戶,對(duì)企業(yè)提供即時(shí)的商品或是服務(wù)的反應(yīng)程度也更靈敏;近期乘坐飛機(jī)次數(shù)高的客戶為企業(yè)再次創(chuàng)造價(jià)值的概率高于近期乘坐飛機(jī)次數(shù)低的客戶,消費(fèi)頻率高的客戶忠誠(chéng)度也更高,通過(guò)增加顧客的消費(fèi)次數(shù)來(lái)降低競(jìng)爭(zhēng)對(duì)手的市場(chǎng)占有率;由于消費(fèi)金額在民航企業(yè)的直接體現(xiàn)為飛機(jī)總里程,所以飛機(jī)總里程數(shù)較高的客戶再次為企業(yè)創(chuàng)造價(jià)值的可能性較高[8-9]。因?yàn)楹娇展镜钠眱r(jià)受到飛行距離和艙位不同等級(jí)的影響,同樣的票價(jià)對(duì)航空公司的價(jià)值有可能不同。再者,航空公司會(huì)員的入會(huì)時(shí)間長(zhǎng)短也會(huì)在客戶價(jià)值中產(chǎn)生一定的影響。由于航空客戶的消費(fèi)金額受飛機(jī)里程、促銷活動(dòng)等多種不同因素的影響,在同樣的消費(fèi)金額下不同的航空客戶對(duì)航空公司的價(jià)值是不同的,因此傳統(tǒng)RFM模型的消費(fèi)金額這個(gè)指標(biāo)用于航空公司客戶價(jià)值分析并不適合[10]。本文基于傳統(tǒng)意義上的RFM指標(biāo),將航空客戶在觀測(cè)窗口內(nèi)的平均折扣系數(shù)C指標(biāo)代替原有模型中的消費(fèi)金額M,由于航空公司的會(huì)員機(jī)制,入會(huì)時(shí)間的長(zhǎng)短也會(huì)在客戶價(jià)值中產(chǎn)生一定的影響,所以在傳統(tǒng)的RFM模型中增加了客戶入會(huì)的時(shí)間長(zhǎng)度L,作為客戶分類的另一分類指標(biāo)。最終,本文確定了民航企業(yè)的RFM模型的5大指標(biāo),分別為:L(旅客入會(huì)的時(shí)間長(zhǎng)短/日)、R(客戶最后一次的消費(fèi)時(shí)間至截止統(tǒng)計(jì)數(shù)據(jù)的時(shí)間間隔/日)、F(特定時(shí)間內(nèi)旅客的飛行次數(shù)/次)、M(一定時(shí)間內(nèi)積累的飛行里程/km)、C(艙位所對(duì)應(yīng)的平均折扣),利用隨機(jī)森林算法進(jìn)行客戶流失預(yù)測(cè)分析。

      2 隨機(jī)森林

      隨機(jī)森林是將多棵樹(shù)集成的一種算法,決策樹(shù)為隨機(jī)森林的基本單元,而它的本質(zhì)是集成學(xué)習(xí)的方法。集成學(xué)習(xí)方法屬于機(jī)器學(xué)習(xí)的一大分支[11],多應(yīng)用在數(shù)據(jù)有缺失、空白或挖掘其他數(shù)據(jù)價(jià)值時(shí),在預(yù)測(cè)或降低客戶流失率中該算法的適用性及優(yōu)越性都比一般的傳統(tǒng)算法更好[12]。隨機(jī)森林采用從N個(gè)樣本中允許重復(fù)抽取N個(gè)樣本生成的非剪枝的決策樹(shù)模型的集合[13]。從所有屬性(所有屬性個(gè)數(shù)為p)中隨機(jī)選擇m(m可設(shè)為p,或用交叉驗(yàn)證選擇m的大小)個(gè)屬性生成每棵樹(shù)的每個(gè)節(jié)點(diǎn),劃分信息增益最大的屬性,從而得到非剪枝的CART決策樹(shù)(分類回歸決策樹(shù))[14-16]。按上述構(gòu)建方法,構(gòu)造k顆樹(shù),將決策樹(shù)集中在一起生成隨機(jī)森林,將隨機(jī)森林的分類結(jié)果進(jìn)行整合后輸出客戶流失概率。由于先用隨機(jī)方法抽取訓(xùn)練樣本,再隨機(jī)選擇m個(gè)分類屬性,隨機(jī)森林不會(huì)產(chǎn)生過(guò)擬合現(xiàn)象[17-18]。

      隨機(jī)森林bagging的算法過(guò)程如下:

      1)采用bootstraping方法(自助法)在最初樣本集中隨機(jī)抽取n個(gè)訓(xùn)練樣本,通過(guò)k輪抽取得到k個(gè)訓(xùn)練集。其中k個(gè)訓(xùn)練集之間的關(guān)系是相互獨(dú)立的,元素可以有重復(fù)[19]。

      2)在k個(gè)訓(xùn)練集中訓(xùn)練k個(gè)模型,一般這個(gè)模型為CART算法分類決策樹(shù)。

      3)k個(gè)模型產(chǎn)生的結(jié)果,得出最終可能的概率。

      劃分屬性為s,劃分值為v,劃分后的節(jié)點(diǎn)為t,左節(jié)點(diǎn)s

      (1)

      采用不同屬性劃分信息增益得到的Gini值增益為:

      (2)

      其中,給定節(jié)點(diǎn)的Gini值為Gini(·),與子女節(jié)點(diǎn)相關(guān)聯(lián)的記錄個(gè)數(shù)為父節(jié)點(diǎn)的記錄總數(shù),記為n,Gini值最大的劃分為最好的劃分[21]。式(2)計(jì)算增益時(shí)每個(gè)Gini(parent)值都一樣,因此不予討論,只對(duì)比求和項(xiàng),用Δ表示如下:

      (3)

      將式(1)代入式(3)得:

      根據(jù)計(jì)算得到的Δ作為劃分子節(jié)點(diǎn)的依據(jù),由此生成一顆決策樹(shù)。

      3 基于改進(jìn)RFM模型隨機(jī)森林實(shí)證分析

      3.1 數(shù)據(jù)獲取

      本文從某航空公司的民航訂票系統(tǒng)中提取了12110名會(huì)員從2019年1月1日至2019年6月30日半年間的訂票記錄,其中包含會(huì)員編號(hào)、性別、年齡、會(huì)員卡級(jí)別、起飛城市、到達(dá)城市、艙位等級(jí)、票價(jià)、折扣、入會(huì)時(shí)間等數(shù)據(jù)。

      由于Excel對(duì)抽取量較大的數(shù)據(jù)處理起來(lái)較為困難,本文利用Spss數(shù)據(jù)處理軟件對(duì)數(shù)據(jù)量較大的數(shù)據(jù)集進(jìn)行預(yù)先處理,統(tǒng)計(jì)計(jì)算所需的指標(biāo)數(shù)據(jù),并按照常旅客的會(huì)員編號(hào)進(jìn)行歸類。整理所得的具體數(shù)據(jù)字段如表1所示。

      表1 實(shí)證分析數(shù)據(jù)字段

      3.2 數(shù)據(jù)預(yù)處理

      本文的數(shù)據(jù)以2019年6月30日為結(jié)束時(shí)間,選取寬度為半年的時(shí)間段(2019年1月1日至2019年6月30日),作為觀測(cè)窗口,形成最終的數(shù)據(jù)集,數(shù)據(jù)集包含了抽取觀測(cè)窗口內(nèi)的所有常旅客的詳細(xì)數(shù)據(jù)。數(shù)據(jù)清理主要包含丟棄票價(jià)為空的數(shù)據(jù);丟棄票價(jià)為0、平均折扣率為0、總飛行公里數(shù)為0的數(shù)據(jù)。清理后的有效數(shù)據(jù)為10024條。對(duì)應(yīng)改進(jìn)的RFM模型中的5個(gè)指標(biāo)L、R、F、M、C分別為:L=LODA_TIME-FPP_DATE(數(shù)據(jù)獲取截止日期-客戶入會(huì)日期)、R=LOAD_TIME-LAST_FLIGHT_DAY(數(shù)據(jù)獲取截止日期-最后一次乘機(jī)時(shí)間)、F=FLIGHT_COUNT(觀測(cè)窗口內(nèi)的乘機(jī)次數(shù))、M=SEG_KM_SUM(觀測(cè)窗口的總飛行里程)、C=AVG_DISCOUNT(平均折扣率)。

      其中已知已流失的客戶數(shù)量為3276個(gè),未流失的客戶數(shù)量為6748個(gè),該航空公司已流失的客戶達(dá)到了32.7%。本次研究將處理好的數(shù)據(jù)隨機(jī)拆分為2個(gè)部分,包括用于訓(xùn)練模型的數(shù)據(jù)為70%,用于驗(yàn)證模型的數(shù)據(jù)為30%。表2為部分處理后的數(shù)據(jù)。

      表2 客戶信息

      3.3 隨機(jī)森林方法的實(shí)現(xiàn)

      本實(shí)驗(yàn)利用十折交叉驗(yàn)證法,其中指標(biāo)選擇為旅客乘機(jī)的平均折扣率、總飛行里程、半年內(nèi)的乘機(jī)次數(shù)、入會(huì)的時(shí)間長(zhǎng)、最后一次乘機(jī)時(shí)間距獲取數(shù)據(jù)截止日期的時(shí)長(zhǎng)。對(duì)有效數(shù)據(jù)進(jìn)行預(yù)處理后,采用隨機(jī)森林屬性檢測(cè)方法對(duì)數(shù)據(jù)進(jìn)行分析,通過(guò)參數(shù)調(diào)試,確定mtry為2,Ntree為820為最優(yōu)參數(shù),使用ROC曲線以及AUC的值評(píng)估模型的性能。本實(shí)驗(yàn)結(jié)果的AUC值為0.920,同時(shí)得出MDA(Mean Decrease Accuracy)值和MDG(Mean Decrease Gini)值如表3所示,ROC_AUC曲線如圖1所示。

      表3 基于改進(jìn)RFM模型隨機(jī)森林重要性檢測(cè)結(jié)果

      圖1 ROC_AUC曲線

      對(duì)客戶流失進(jìn)行預(yù)測(cè)的其他方法也有很多,為了驗(yàn)證本文算法的有效性,本文將隨機(jī)森林算法與邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、CART決策樹(shù)、ID3算法、C5.0算法等算法進(jìn)行比較,結(jié)果如表4所示。

      表4 不同算法模型表現(xiàn)

      由表4可知,隨機(jī)森林的ROC_AUC的得分最高,為0.92,相較于邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)算法、ID3算法以及C5.0算法都提升不少,并且準(zhǔn)確率也達(dá)到6種方法中的最高值87.0%,模型的評(píng)價(jià)較好,可滿足流失客戶預(yù)測(cè)的要求。

      3.4 客戶流失的重要性分析

      隨機(jī)森林中的平均降低精度(Mean Decrease Accuracy)和基尼指數(shù)(Mean Decrease Gini)是衡量變量的2個(gè)最重要的指標(biāo)[22-23],若數(shù)值越大,變量越重要。對(duì)流失客戶的5個(gè)指標(biāo)進(jìn)行重要性檢測(cè),得到的重要性可視化結(jié)果如圖2所示。

      圖2 重要性可視化

      從平均降低精度與基尼指數(shù)來(lái)看,在流失客戶中,最重要的因素為飛行總里程數(shù),其次為最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束的時(shí)長(zhǎng)、平均折扣率。平均降低精度中影響最低的因素為會(huì)員長(zhǎng)度,其次為飛行次數(shù);基尼指數(shù)中影響最低的因素為飛行次數(shù),其次為會(huì)員的長(zhǎng)度。

      根據(jù)對(duì)平均降低精度與基尼指數(shù)進(jìn)行分析后,得出影響客戶流失較為重要的因素為飛行總里程數(shù),最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束的時(shí)長(zhǎng)以及平均折扣率,影響較低的因素為飛行次數(shù)以及會(huì)員的長(zhǎng)度。

      3.5 結(jié)果分析及建議

      將流失客戶的數(shù)據(jù)進(jìn)行歸一化處理,并利用K-means算法對(duì)已流失客戶的L、R、F、M、C這5個(gè)指標(biāo)進(jìn)行分析,通過(guò)肘部法確定了最佳的聚類個(gè)數(shù)為4個(gè)??蛻舴诸惖慕Y(jié)果如表5所示??蛻籼卣骼走_(dá)圖如圖3所示。

      表5 客戶分類表

      圖3 客戶特征雷達(dá)圖

      從分類結(jié)果可知,第2類流失客戶群與第4類流失客戶群所占的人數(shù)較多,從特征雷達(dá)圖中可以看出,第2類流失客戶群入會(huì)時(shí)間較短,最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束時(shí)長(zhǎng)較長(zhǎng),而飛行總里程、平均折扣率、與飛行次數(shù)都較少,說(shuō)明這類客戶屬于沖動(dòng)消費(fèi)型客戶,對(duì)于這類客戶航空公司應(yīng)該進(jìn)一步了解客戶的需求,推出一些折扣機(jī)票吸引這些客戶回頭進(jìn)行多次消費(fèi)。第4類流失客戶群入會(huì)時(shí)間較長(zhǎng),但最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束時(shí)長(zhǎng)也較長(zhǎng),飛行次數(shù)、飛行總里程數(shù)及平均折扣率都較低,這些客戶已經(jīng)長(zhǎng)時(shí)間沒(méi)有選擇過(guò)該航空公司的產(chǎn)品以及服務(wù),對(duì)于這些有偏好基礎(chǔ)的客戶,可以向其提供折扣力度較大的機(jī)票,促使這類客戶在本公司消費(fèi)或在合作伙伴處消費(fèi),達(dá)到與合作伙伴互利共贏的目的,同時(shí)也能挽回已流失的客戶。

      4 結(jié)束語(yǔ)

      本文利用某航空公司的客戶數(shù)據(jù)實(shí)現(xiàn)流失客戶的預(yù)測(cè)。將不同的客戶流失預(yù)測(cè)模型表現(xiàn)進(jìn)行對(duì)比與分析,提出了在RFM模型的基礎(chǔ)上使用隨機(jī)森林算法,與一般的隨機(jī)森林模型對(duì)比,基于RFM模型的隨機(jī)森林算法擁有數(shù)據(jù)處理耗時(shí)短,可篩選出有意義的評(píng)價(jià)指標(biāo),算法速度快、效率高、準(zhǔn)確度高等優(yōu)點(diǎn),而民航客戶數(shù)據(jù)往往具有變量多、噪聲復(fù)雜且數(shù)據(jù)容易出現(xiàn)缺失與空白等特點(diǎn),使用隨機(jī)森林算法的預(yù)測(cè)模型,對(duì)民航客戶流失預(yù)測(cè)的實(shí)際應(yīng)用參考價(jià)值較大。對(duì)已流失的客戶進(jìn)行聚類分析,為航空公司挽回客戶提供了相對(duì)應(yīng)的策略。

      本文的不足在于航空客戶數(shù)據(jù)覆蓋范圍具有一定局限性,用于實(shí)證分析的數(shù)據(jù)相對(duì)于現(xiàn)在的民航客戶數(shù)據(jù)還較少。并且,雖然在RFM模型的基礎(chǔ)上使用隨機(jī)森林算法的客戶流失預(yù)測(cè)模型在預(yù)測(cè)效果上有一定提升,耗時(shí)也相對(duì)較短,但準(zhǔn)確率以及精度還有待提升,可考慮將隨機(jī)森林算法與其他不同模型進(jìn)行融合,使模型得到更好的評(píng)價(jià)。

      猜你喜歡
      決策樹(shù)航空公司森林
      航空公司的低成本戰(zhàn)略及其實(shí)施對(duì)策探討
      IATA上調(diào)2021年航空公司凈虧損預(yù)測(cè)
      大飛機(jī)(2021年4期)2021-07-19 04:46:34
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      FLIGHTRISK
      哈Q森林
      哈Q森林
      哈Q森林
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      航空公司客票直銷的現(xiàn)狀與分析
      栾川县| 泰安市| 清水河县| 肇庆市| 平泉县| 镇宁| 蒲城县| 漯河市| 绥德县| 紫阳县| 庄河市| 林甸县| 左贡县| 新宁县| 大英县| 张掖市| 鹤山市| 大余县| 莱州市| 东乌珠穆沁旗| 天祝| 湖口县| 尉氏县| 长沙县| 黑水县| 彭山县| 阳东县| 定远县| 沂南县| 漠河县| 治县。| 晋中市| 正镶白旗| 二连浩特市| 泰安市| 壤塘县| 岫岩| 永胜县| 宁远县| 民勤县| 镇坪县|