• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      民航旅客旅行模式發(fā)現(xiàn)及職業(yè)類型畫像方法研究

      2024-01-15 12:41:48中國民航信息網(wǎng)絡(luò)股份有限公司趙耀帥
      中國信息化 2023年12期
      關(guān)鍵詞:同行者導(dǎo)游旅客

      文 | 中國民航信息網(wǎng)絡(luò)股份有限公司 趙耀帥

      一、引言

      在互聯(lián)網(wǎng)經(jīng)濟時代,基于大數(shù)據(jù)行為數(shù)據(jù)的用戶畫像已經(jīng)成為企業(yè)了解用戶偏好、提供個性化服務(wù)和精準(zhǔn)推薦的重要手段。在民航領(lǐng)域,隨著市場競爭日益激烈,從不同維度(如旅行偏好、旅行模式、旅行目的地、旅行目的和市場價值等)對旅客進行畫像,為不同類型的旅客提供精準(zhǔn)、定向服務(wù),已經(jīng)成為一種普遍的服務(wù)方式。

      推測旅客的職業(yè)類別并發(fā)現(xiàn)他們不同的旅行模式對民航企業(yè)(如航空公司、售票代理和機場運營商)提高服務(wù)質(zhì)量非常有幫助。例如,航空公司可以為對時間要求嚴(yán)格的商務(wù)人士提供便捷的往返機場接送服務(wù)。這樣的精準(zhǔn)服務(wù)將提高民航企業(yè)的客戶黏性并增強市場競爭力。

      二、相關(guān)定義

      定義1.旅客姓名記錄(PNR)。旅客姓名記錄r=(Pr,Ar)是關(guān)于一組旅客的旅行信息,他們一起訂購飛機票并一同前往相同目的地。其中Pr=pi表示旅客組的集合,而Ar包括了所有旅客的個人和旅行信息,包括旅客ID、年齡、性別、航班號、訂票時間、出發(fā)地等信息。

      定義2.共行網(wǎng)絡(luò)。一個共行網(wǎng)絡(luò)是一個圖G=(V,E,X,W),其中V是節(jié)點集,每個節(jié)點pi∈V代表一個旅客;E是邊集,每條邊eij∈E表示旅客pi和pj在PNR集中至少有一次共行關(guān)系;X是一組特征向量,每個向量Xi∈X是旅客pi的特征向量;W是一組權(quán)重,元素wij∈W表示邊eij的強度。可以簡單地將共行次數(shù)作為共行網(wǎng)絡(luò)中旅客之間的權(quán)重。

      定義3.推斷旅客職業(yè)類型。給定一個共行網(wǎng)絡(luò)G=(V,E,X,W),目標(biāo)是學(xué)習(xí)一個函數(shù):

      f:G→L

      其中L是問題的標(biāo)簽空間,即旅客可能的所有職業(yè)類型。

      三、旅客出行模式發(fā)現(xiàn)

      本文分別從個體旅客和旅客群體的角度觀察旅客的出行模式,比較了三種職業(yè)的出行模式,并基于數(shù)據(jù)集計算了每種職業(yè)的出行模式。

      (一)個體旅行模式

      個體出行模式指的是旅客的個人出行習(xí)慣和偏好,包含五個維度。

      一是預(yù)訂提前時間。人們通常提前預(yù)訂機票,但對于不同類型的人,提前的時間是各不相同的。分析可以看出,運動員和導(dǎo)游的分布非常集中(運動員為8至10天,導(dǎo)游為10至13天),并且有明顯的峰值(運動員為9天,導(dǎo)游為12天);相反,學(xué)者的分布相對均勻,沒有峰值,更類似于所有旅客的總體分布。這些結(jié)果表明,運動員和導(dǎo)游在旅行計劃方面更為擅長,而學(xué)者傾向于隨機旅行。

      二是出發(fā)時間。不同類型的旅客對出發(fā)時間有不同的需求。分析顯示一天離散的24小時內(nèi)不同職業(yè)旅客出發(fā)時間的分布情況??梢钥闯觯\動員的出發(fā)時間主要集中在上午,峰值約在上午10點;導(dǎo)游通常在早上(大約上午8點)或晚上(大約晚上8點)出發(fā),但在工作時間內(nèi)出發(fā)的次數(shù)較少;而學(xué)者在整個白天有相對均勻的分布,類似于所有旅客的總體分布。認為這是因為運動員需要在白天旅行,既不太早也不太晚,以確保休息和節(jié)省能量;而導(dǎo)游需要在白天節(jié)省時間;但學(xué)者對此沒有嚴(yán)格的要求。

      三是月旅行次數(shù)。人們的旅行通常會展現(xiàn)出季節(jié)性的變化。分析看出,運動員在冬季的旅行次數(shù)遠遠超過夏季,月變化非常大;相反,導(dǎo)游夏季的旅行次數(shù)較冬季多,但變化較??;而學(xué)者每個月的旅行次數(shù)相對均勻,僅在7月至11月間略微增加。顯然,體育聯(lián)賽安排、旅游季節(jié)性和學(xué)術(shù)季節(jié)性的季節(jié)因素是完全不同的。

      四是往返比。有些人在旅行結(jié)束時總是返回原地,而其他人經(jīng)常在各地之間旅行。分析顯示了不同職業(yè)旅客的往返比??梢钥吹綄W(xué)者的往返比遠高于其他類型的旅客,甚至高于所有旅客的總體比率,而導(dǎo)游和運動員的往返比則較低。猜測這是因為學(xué)者通常必須在旅行后立即返回工作,而導(dǎo)游經(jīng)常有包含許多城市的循環(huán)旅行,而運動員也需要在一段時間內(nèi)為比賽而在許多城市間旅行。

      五是目的地偏好。在現(xiàn)實生活中,有些人通常在幾個主要城市之間旅行,而其他人可能會隨機地去不同的城市??梢允褂寐每驮诓煌康牡厣下眯写螖?shù)的標(biāo)準(zhǔn)偏差來表示他/她的目的地偏好。分析看到導(dǎo)游的平均標(biāo)準(zhǔn)偏差遠大于其他類型的旅客,這表明導(dǎo)游經(jīng)常完全隨機地前往各種目的地。相比之下,運動員和學(xué)者的目的地相對穩(wěn)定,但仍然比所有旅客的整體水平更為多樣化。

      (二)團體出行模式

      團體出行模式指的是與其他人一起旅行的旅客的特征,從以下四個維度觀察:

      一是年齡差異。有些人經(jīng)常與同齡人一起旅行,而其他人可能與各個年齡段的人一起旅行。分析發(fā)現(xiàn),運動員主要與同齡人一起旅行,而學(xué)者的分布相對較廣,導(dǎo)游幾乎與各個年齡段的人一起旅行。

      二是性別差異。類似于年齡差異,一個旅客與所有同行者之間的性別差異也是一個非常重要的團體出行模式。分析看到,運動員幾乎只與相同性別的人同行,而學(xué)者和導(dǎo)游對同行者的性別沒有明顯的偏好。

      三是乘機人數(shù)差異。當(dāng)人們與他人同行時,有些人傾向于與同伴一起辦理乘機手續(xù),而其他人則喜歡獨自辦理乘機手續(xù)。通過計算一個旅客與所有同行者之間的乘機人數(shù)差異來表示這種團體模式。分析看到,學(xué)者通常與同行者緊密一起辦理乘機手續(xù),而運動員次之,導(dǎo)游與同行者的乘機人數(shù)差異很大??梢哉J為這是因為學(xué)者通常與少數(shù)人同行,而運動員通常與一定數(shù)量的隊友同行,而導(dǎo)游通常與龐大的旅游團同行。

      四是航空座位距離。在旅行時,有些人喜歡在飛行中靠近同伴,而其他人可能不太在意。分析發(fā)現(xiàn),運動員最喜歡坐在他們的同行者旁邊,緊隨其后的是學(xué)者,而導(dǎo)游傾向于在一定的距離內(nèi)靠近他們的同行者。

      四、旅客職業(yè)類型推斷

      本節(jié)詳細介紹旅客職業(yè)類型推斷的解決方案。首先,要構(gòu)建復(fù)雜的特征來捕捉特征和旅行模式;然后,提出一種新穎的迭代分類算法。

      (一)特征構(gòu)建

      從各個方面基于旅客的歷史旅客姓名記錄(PNR)設(shè)計了一系列特征。

      首先基于旅客的個人旅行模式構(gòu)建主要特征如下:

      ·f-1:總旅行次數(shù)

      ·f-2:總旅行里程

      ·f-3:目的地數(shù)量

      ·f-4:不同目的地的旅行時間標(biāo)準(zhǔn)差

      然后,基于旅客的群體旅行模式構(gòu)建主要特征:

      ·f-25:同行者數(shù)量

      ·f-26:與他人同行的次數(shù)

      ·f-27:與同行者的平均年齡差異

      ·f-28:與同行者的平均性別差異

      ·f-29:與同行者的平均辦理登機數(shù)差異

      ·f-30:與同行者的平均座位距離

      除了上述旅行模式特征外,在旅客共行網(wǎng)絡(luò)的背景下,構(gòu)建了幾個鏈接結(jié)構(gòu)特征,以捕捉旅客的局部鏈接信息:

      ·f-34:聚類系數(shù):節(jié)點聚類系數(shù)是其相鄰節(jié)點仍然互相鄰居的概率,反映了鄰居的結(jié)巴程度。

      ·f-35:自我組件數(shù)量:自我組件數(shù)是其相鄰節(jié)點之間連接組件的數(shù)量,反映了鄰居的緊密程度。

      ·f-36:嵌套度:節(jié)點的嵌套度定義為節(jié)點與其鄰居之間的邊的Jaccard系數(shù)的平均值,反映了節(jié)點在鄰居中糾纏的程度。

      (二)條件隨機場

      條件隨機場是全局協(xié)同推理模型之一,它表示在給定觀察變量的情況下一組隱藏隨機變量的條件分布。

      給定一個共行網(wǎng)絡(luò)G=(V,E,X,W),用Y表示對應(yīng)于旅客集合V的標(biāo)簽變量的集合。設(shè)x是對X的取值,y是對Y的取值。CRFF定義了在觀測值x的條件下隱藏狀態(tài)y的條件分布P (y | x)。

      令c為一個團,即F中的一組變量,使得每個節(jié)點對u,v ∈c都由一條邊連接。設(shè)C為F中的團集合。然后,CRF將條件分布分解為團勢能的乘積,其中xc和yc分別是團c中的條件變量和目標(biāo)變量。團勢是在c上定義的非負實值函數(shù),表示團中變量之間的兼容性。給定一個賦值,它的勢能值越大,賦值可能性就越大。通過使用團勢能,網(wǎng)絡(luò)G中目標(biāo)變量的條件分布定義為:

      其中Z (x)是歸一化因子,確保概率分布總和為1:

      構(gòu)建CRF。構(gòu)建CRF的主要任務(wù)是確定變量之間的依賴關(guān)系,即指定團和為團勢能定義特征函數(shù)。給定一個共同旅行網(wǎng)絡(luò)G=(V,E,X,W),所有旅客V的標(biāo)簽對應(yīng)于CRFF中的目標(biāo)變量Y,X是條件變量。在F中,如果G中存在旅客vi 和vj 之間的邊,則在目標(biāo)變量之間建立一條邊。然后定義兩種類型的團:

      證據(jù)團。證據(jù)團是一個由目標(biāo)變量和其內(nèi)容特征之一組成的二元團,它指示目標(biāo)變量在給定特征的條件下的直接依賴性。

      兼容性團。兼容性團完全由目標(biāo)變量組成,它指示目標(biāo)變量之間的相關(guān)性。

      然后,需要為團勢能定義特征函數(shù)。在這里只定義二元分類模型的勢能函數(shù)。對于二元證據(jù)團,使用形式為的指示函數(shù),其中對于三元兼容性團,簡單地使用單一特征函數(shù)來跟蹤這三個標(biāo)簽是否相同:

      學(xué)習(xí)與推斷。最大似然估計(MLE)可用于學(xué)習(xí)CRF的參數(shù)。在模型推斷過程中,直接計算期望特征函數(shù)通常是一個NP難問題。因此,不能執(zhí)行精確推斷,需要在CRF中使用近似推斷算法。循環(huán)信念傳播(LBP)和馬爾可夫鏈蒙特卡羅(MCMC)是兩種常用的近似推斷算法。在這項工作中,使用LBP來學(xué)習(xí)CRF的模型參數(shù)并推斷旅客的職業(yè)標(biāo)簽。

      (三)迭代分類算法

      迭代分類算法是一種廣泛使用的局部協(xié)同推斷框架。ICA首先使用傳統(tǒng)基本分類器f僅基于其靜態(tài)特征為每個節(jié)點預(yù)測一個標(biāo)簽。然后,它基于當(dāng)前預(yù)測的節(jié)點標(biāo)簽構(gòu)建動態(tài)關(guān)系特征。接下來,ICA通過f同時使用基本特征和關(guān)系特征重新預(yù)測節(jié)點標(biāo)簽。特征計算和標(biāo)簽預(yù)測的過程將重復(fù)進行,直到收斂或達到固定迭代次數(shù)。

      五、實驗評估

      選擇三個經(jīng)典的分類器,即隨機森林、多層感知機和LogitBoost(LB)作為基準(zhǔn)模型,并且還將它們作為構(gòu)建迭代分類器的基本分類器,分別表示為ICA-RF、ICAMLP和ICA-LB。設(shè)置最大迭代次數(shù)N=100。

      (一)特征重要性

      為了評估不同特征的重要性,需要計算每種方法中每個特征的顯著性(即P值)和貢獻。為了測量特征的貢獻,依次從每種方法中刪除一個特征,并計算由該特征引起的性能降級。最后,根據(jù)每個特征在所有方法上的平均P值(p)和貢獻(c),得到不同數(shù)據(jù)集中最重要的特征(p <0.05且c >2.0%)。

      (二)時間復(fù)雜度

      在相同的環(huán)境中進行所有實驗(一臺普通PC,配備1.7 GHz CPU和4G RAM)。所有ICA方法都能在3秒內(nèi)完成訓(xùn)練過程,然而CRFs在每個數(shù)據(jù)集上的訓(xùn)練需要超過40分鐘,推斷至少需要12秒。因此,在實際應(yīng)用中,ICA可能更適合處理大規(guī)模實時業(yè)務(wù)數(shù)據(jù)。

      六、結(jié)語

      本文研究了民航領(lǐng)域的用戶畫像問題,對民航企業(yè)更好地了解旅客需求并提高服務(wù)質(zhì)量非常有幫助。本文從旅客的歷史行為中發(fā)現(xiàn)不同類型旅客的旅行模式,然后提出了一種全局和一種局部的協(xié)同推斷算法,以根據(jù)旅客之間的共同旅行關(guān)系推斷旅客的職業(yè)。實驗證明提出的方法能夠有效地推斷機上旅客的職業(yè)。本文提出的方法可以輕松擴展以處理其他旅客畫像問題,如推斷旅客的旅行偏好、目的地、市場價值和關(guān)系類型等。

      猜你喜歡
      同行者導(dǎo)游旅客
      金牌“導(dǎo)游”
      尋找火星導(dǎo)游
      軍事文摘(2023年14期)2023-08-06 15:39:52
      Being a Tour Guide in Shuangqing Villa在雙清別墅做導(dǎo)游
      非常旅客意見簿
      跟著西安導(dǎo)游吃,準(zhǔn)沒錯
      奇妙博物館(2021年2期)2021-03-18 03:29:57
      我是人
      故事大王(2018年3期)2018-05-03 09:55:52
      成長的見證人
      成長的見證人
      四季兼程 甘苦同行
      給小旅客的禮物
      空中之家(2016年1期)2016-05-17 04:47:43
      大连市| 扎赉特旗| 边坝县| 九龙城区| 府谷县| 海城市| 盱眙县| 自治县| 盐亭县| 阜康市| 长治市| 宝兴县| 杭州市| 张家港市| 南开区| 大埔区| 望都县| 台湾省| 宿松县| 辛集市| 宁河县| 沛县| 定南县| 琼结县| 泾川县| 灌云县| 盐山县| 崇阳县| 禹州市| 敖汉旗| 临湘市| 沿河| 富锦市| 宁波市| 花垣县| 苍山县| 含山县| 廊坊市| 桑植县| 全南县| 茂名市|