劉云翔 陳斌 林濤 施偉
摘? 要: 為了有效判別行駛車輛內(nèi)車載乘客手機數(shù)量實際匹配的乘客人數(shù),提出一種將聚類算法和呼叫指紋識別算法相組合的算法(CHC?CFA)。運用組合算法結(jié)合車輛內(nèi)乘客攜帶手機的實時軌跡數(shù)據(jù)以及歷史呼叫指紋數(shù)據(jù)建立同一用戶識別模型,有效地判別出車輛內(nèi)實際乘客人數(shù),用于判別行駛車輛是否存在超員的異常問題,也可以對當前HOV車道的車輛內(nèi)乘客數(shù)實時監(jiān)測提供一種新的輔助檢測方法。實驗結(jié)果表明,該模型能有效判別行駛車輛內(nèi)車載乘客手機數(shù)量實際匹配的乘客人數(shù)并有較高的檢測準確率。
關(guān)鍵詞: 同一用戶識別; 移動大數(shù)據(jù); CHC?CFA; 數(shù)據(jù)獲取; 維度分析; 識別模型
中圖分類號: TN919?34? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)06?0070?05
Same user identification analysis model based on mobile big data
LIU Yunxiang1, CHEN Bin1, LIN Tao1, SHI Wei 2
(1. School of Computer Science and Information Engineering, Shanghai Institute of Technology, Shanghai 201400, China;
2. School of Automobile Engineering, Jiangsu Automobile Technician Institute, Yangzhou 225000, China)
Abstract: A combined algorithm CHC?CFA (condensed hierarchical clustering?call fingerprint algorithm) is proposed, which combines the clustering algorithm and call fingerprint recognition algorithm, so as to effectively identify the number of passengers actually matched with the number of mobile phones of passengers in the running vehicle. The same user identification model is established with the combined algorithm in combination of the real?time trajectory data and the historical call fingerprint data of the mobile phone carried by passengers in the vehicle. It can effectively identify the actual number of passengers inside the vehicle, which can be used to identify whether the running vehicle is overloaded, and also provide a new auxiliary detection method for the real?time monitoring of the number of passengers in the current HOV lane. The experiments show that the model can effectively identify the number of passengers actually matched with the number of mobile phones of passengers in? a running vehicle, and has high detection accuracy.
Keywords: same user identification; mobile big data; CHC?CFA; data acquisition; dimensional analysis; identification model
根據(jù)國家統(tǒng)計局2018年發(fā)布的《中國改革開放40年通信業(yè)發(fā)展報告》顯示,到2017年底,我國移動電話用戶數(shù)量已經(jīng)達到近14.17億戶,移動電話的普及率由1995年的0.3部/百人提高到2017年的102.5部/百人。隨著個人智能移動手機終端的迅速普及,出行群體中手機擁有率和使用率已經(jīng)達到非常高的比例,研究學(xué)者逐步意識到個人移動終端可以作為一種非常理想的智能交通探測平臺[1]。目前,用戶的智能移動手機內(nèi)都集成GPS模塊、陀螺儀、加速感應(yīng)器等多種傳感器,可以為用戶提供基本的位置查詢與導(dǎo)航等相關(guān)服務(wù),通過采集出行群體中攜帶的手機相關(guān)數(shù)據(jù)可以對道路交通數(shù)據(jù)信息進行分析,這是一種新興的智能交通動態(tài)監(jiān)測手段[1?2]。在我國,一般情況下道路行駛車輛內(nèi)車載乘客每人攜帶手機數(shù)多至兩三部,攜帶一部手機的乘客通常也會存在雙卡用戶。
針對手機時空軌跡數(shù)據(jù)以及手機信令進行大數(shù)據(jù)模式挖掘的研究長期被眾多國內(nèi)外不同領(lǐng)域?qū)<覍W(xué)者進行分析研究,每個領(lǐng)域的研究者根據(jù)自身研究方向出發(fā),從手機時空軌跡數(shù)據(jù)及信令信息挖掘分析出眾多有價值的研究成果。但在智能交通領(lǐng)域,針對行駛車輛內(nèi)乘客人員數(shù)量監(jiān)測方面,采用車輛內(nèi)乘客手機數(shù)據(jù)信息進行乘客實際人數(shù)判別的研究并不多見。為了有效判別行駛車輛內(nèi)車載乘客手機數(shù)量實際匹配的乘客人數(shù),本文將凝聚層次聚類算法與呼叫指紋識別算法進行組合分析,通過挖掘與某一車輛相匹配的乘客手機數(shù)據(jù),根據(jù)手機乘客攜帶手機的交往圈特征(包括呼叫特征、短信特征)、位置特征、手機開關(guān)機上報日志時間等相關(guān)特征進行研究分析,首先通過手機開關(guān)機上報日志時間進行初步判斷,其次,基于凝聚層次聚類算法對位置特征進行分析,找出疑似同一用戶的卡號,再對這些卡號基于改進的呼叫指紋識別算法得出車輛內(nèi)乘客攜帶手機數(shù)量實際對應(yīng)的乘客人數(shù)。建立同一用戶識別分析模型,可對道路上行駛車輛內(nèi)人員的分布情況進行研究分析,可用于判別行駛車輛是否存在超員的異常問題,也可以對當前HOV車道的車輛內(nèi)乘客數(shù)實時監(jiān)測提供一種新的輔助檢測方法[3?6]。
算法公式如下:
式中,分子是指術(shù)語在該文本文檔中存在的數(shù)值;分母是所有術(shù)語在該篇文本文檔里出現(xiàn)的數(shù)值之和。
式中:[N]表示整個文本文檔集中所有文檔的數(shù)量;[d:ti∈d]表示整個文本文檔集中包含該術(shù)語的文檔數(shù)量。
本次研究中應(yīng)用改進的[TF?IDF]算法對用戶的交際圈號碼的權(quán)重進行分析,生成用戶的呼叫指紋。若某號碼實際生活中對用戶具有重要交往程度,則該號碼與TF值成正比,即在交際圈中出現(xiàn)的頻率成正比。與此同時,在該地區(qū)出現(xiàn)的頻率成反比,與IDF值相對應(yīng),從而體現(xiàn)有效交往圈的重要性。本文在[TF?IDF]權(quán)重算法的基礎(chǔ)上進一步改進,將語音頻次[TF?IDFt]與短信頻次[TF?IDFm]進行結(jié)合,并在語音頻次的基礎(chǔ)上,增加通話時長這一參數(shù),從而進一步體現(xiàn)用戶交際圈號碼的權(quán)重。
余弦相似度算法主要比對通過改進的[TF?IDF]權(quán)重算法生成的呼叫指紋之間的相似度。計算公式如下:
將每一對端號碼均作為空間中的一個維度,因此卡號交際圈中存在的對端號碼的權(quán)重集合進而代表空間中存在的向量,通過空間向量的內(nèi)積對兩個卡號的相似度進行分析。 當存在兩個卡號所構(gòu)成的向量夾角越小時,則這兩個卡號的交際圈就越相似,即兩個卡號屬于同一用戶的可能性越大。
3.3? 建立同一用戶識別分析模型
本次研究通過采集與車輛相匹配的乘客手機數(shù)據(jù),對采集的各類基礎(chǔ)數(shù)據(jù)進一步篩選與標準化,對運營商提供的號碼中“86”、“0086”、區(qū)號等開頭的號碼進行標準化,將其變成規(guī)范的11位電話號碼,并對干擾語音和短信詳單的噪聲數(shù)據(jù)的剔除等數(shù)據(jù)預(yù)處理。其次,在用戶實際的語音詳單(Voice Detail)、短信詳單(SMS List)和位置信息表對數(shù)據(jù)進行特征提取。
在完成上述處理后進行分析,第一階段:基于獲取手機數(shù)據(jù)中的開關(guān)機日志(attach消息和detach消息)對所需判別的卡號進行分析,若存在兩卡號在同一時刻,向網(wǎng)絡(luò)發(fā)送attach消息(detach消息),則可以判定該兩卡號屬于同一用戶,對屬于同一用戶的卡號進行標記。
第二階段:讀取數(shù)據(jù)庫數(shù)據(jù),對所有卡號前一周的靜態(tài)位置信息中,每次采集的數(shù)據(jù)均進行聚類分析,將小于或等于設(shè)定的閾值d合并為一類簇的卡號進行標記,即說明合并類簇中的卡號在該時刻疑似為同一用戶所使用,將一周的標記結(jié)果進行匯總,若存在某些卡號一周中標記數(shù)值不小于閾值f,則說明這些卡號疑似屬于同一用戶。
第三階段:對這些疑似屬于同一用戶的卡號需要進行進一步通過其語音特征、短信特征等,基于改進的呼叫指紋識別算法分析確定是否屬于同一用戶。若屬于同一用戶將其卡號劃為一類。
第四階段:最后將模型分析得出的實際用戶數(shù)與對應(yīng)的卡號送入對應(yīng)的數(shù)據(jù)庫,完成同一用戶識別分析模型的建立,具體的流程圖如圖2所示。
4? 結(jié)果分析與評價
通過基于真實車輛及乘客手機相關(guān)數(shù)據(jù)的實驗評估本文提出的同一用戶識別分析模型,采用Python實現(xiàn),運行實驗的PC機軟硬件配置如下: Windows10的操作系統(tǒng),PC機英特爾Xeon(至強) Gold 6130 @2.10 GHz,內(nèi)存64 GB(海力士2 666 MHz,主硬盤SK hynix SC311 SATA 256 GB (256 GB /固態(tài)硬盤),顯卡Nvidia TITAN X (Pascal) (12 GB/NVIDIA)。本文通過基于組合算法CHC?CFA建立同一乘客識別模型,采集上海市奉賢區(qū)奉炮公路上某一時間段內(nèi)行駛的100輛汽車內(nèi)與之相匹配的乘客手機數(shù)據(jù),以車輛A為例,與車輛A相匹配的手機卡號數(shù)共有19個,設(shè)其ID為1~19。經(jīng)過模型計算可得100輛車實際乘客人數(shù)如表5所示,與實際車輛人數(shù)進行比較,準確率達到95%,滿足實際需求。
5? 結(jié)? 語
本文提出一種將聚類算法和呼叫指紋識別算法進行組合的算法(CHC?CFA),運用組合算法結(jié)合車輛內(nèi)乘客攜帶手機的實時軌跡數(shù)據(jù)以及歷史呼叫指紋數(shù)據(jù)建立同一用戶識別模型,在不需要額外基礎(chǔ)設(shè)施的情況下,有效地判別出車輛內(nèi)實際乘客人數(shù)。
最終的測試結(jié)果表明,基于CHC?CFA組合算法構(gòu)建同一用戶識別分析模型,可對行駛到道路上車輛內(nèi)實際乘客分布情況進行分析,保證一定的準確率。結(jié)合車輛信息可為城市交通以及高速公路上是否存在車輛超員提供有效的理論基礎(chǔ),也可為逐步建設(shè)HOV車道檢測問題提出一種切實可行的輔助檢測方法。
注:本文通訊作者為陳斌。
參考文獻
[1] 劉爽.基于時空軌跡的交通數(shù)據(jù)分析與應(yīng)用[D].成都:電子科技大學(xué),2017.
[2] 陳令,時玉彬.獲取4G用戶身份信息的設(shè)計與實現(xiàn)[J].北京工業(yè)大學(xué)學(xué)報,2018,4(23):103?114.
[3] 王瑜.成都HOV車道的實施效果分析[J].內(nèi)燃機與配件,2018(11):170?171.
[4] 陳錫清.基于大數(shù)據(jù)融合分析的雙卡槽雙卡用戶識別算法研究[J].福建電腦,2017,7(52):98?99.
[5] 張一博.基于數(shù)據(jù)挖掘的雙卡用戶識別模型研究[J].山西科技,2018,5(33):67?69.
[6] 李鐵鋼,馬駟良,王春勝.基于“呼叫指紋”的重入網(wǎng)識別算法及其在移動市場占有率預(yù)測中的應(yīng)用[J].現(xiàn)代情報,2006(12):207?208.
[7] 朱成,劉海強,朱峰,等.電信大數(shù)據(jù)的數(shù)據(jù)挖掘關(guān)鍵技術(shù)分析與探討[J].電信快報,2018(6):22?24.
[8] 穆致君,何陽,楊丹.運營商的大數(shù)據(jù)業(yè)務(wù)發(fā)展模式分析[J].現(xiàn)代電信科技,2016,46(1):8?12.
[9] 蒲鋒,田真.基于呼叫指紋的重入網(wǎng)識別研究[J].中國新通信,2007(9):74?76.
[10] 李鐵鋼,馬駟良,王彥.改進的呼叫指紋算法及其在重入網(wǎng)識別中的應(yīng)用[J].吉林大學(xué)學(xué)報(理學(xué)版),2007,45(2): 254?255.
[11] 賀彬.電信經(jīng)營分析系統(tǒng)重入網(wǎng)子系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2007.
[12] 劉清松,王霓虹,王偉.權(quán)重算法在計算移動用戶重入網(wǎng)的應(yīng)用[J].自動化技術(shù)與應(yīng)用,2009,28(2):19?21.
[13] 羅亞.移動電話用戶重入網(wǎng)識別及營銷建議[D].北京:北京郵電大學(xué),2010.
[14] 艾達,羅愛平.移動通信重入網(wǎng)用戶識別算法分析研究[J].西安郵電學(xué)院學(xué)報,2012,17(3):30?33.
[15] 陳大力,沈巖濤,謝檳竹,等.基于余弦相似度模型的最佳教練遴選算法[J].東北大學(xué)學(xué)報(自然科學(xué)版),2014,35(12):1697?1700.
[16] SOLSKINNSBAKK G, GULLA J A. Combining ontological profiles with context in information retrieval [J]. Data and knowledge engineering, 2010, 69(3): 251?260.