程曉濤,吉立新,黃瑞陽,于洪濤,楊奕卓
?
基于多維多粒度分析的電信網(wǎng)用戶行為模式挖掘
程曉濤,吉立新,黃瑞陽,于洪濤,楊奕卓
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
為了更好地理解電信網(wǎng)用戶行為規(guī)律,以大規(guī)模電信網(wǎng)用戶通信詳細(xì)記錄(CDR, call detail record)數(shù)據(jù)為研究對(duì)象,運(yùn)用混合概率模型與特征工程方法,從用戶群體與個(gè)體的角度分析了用戶呼叫中的通話時(shí)長、通話頻次、通聯(lián)關(guān)系等多維度特征,并從小時(shí)、天、周等不同時(shí)間粒度上進(jìn)一步細(xì)化,實(shí)現(xiàn)了對(duì)不同用戶群體通話行為模式的有效發(fā)現(xiàn)。通過混合概率模型對(duì)用戶行為中的分布特性進(jìn)行建模,解決了用戶通話時(shí)長、頻次等分布特征難以刻畫的問題。實(shí)驗(yàn)中采用某地區(qū)電信網(wǎng)的真實(shí)數(shù)據(jù)作為數(shù)據(jù)集,對(duì)比了決策樹、樸素貝葉斯、SVM等常見分類算法的實(shí)驗(yàn)效果,證明了所提用戶行為特征的有效性與計(jì)算可行性;并以快遞、航班、銀行等服務(wù)號(hào)碼為例,對(duì)比了不同群體通信行為模式的差異性。
電信網(wǎng);多維度;多粒度;高斯混合模型;行為模式挖掘
移動(dòng)通信是人們最常用的交流方式之一,是記錄人們通信行為的重要載體。深入理解人類個(gè)體用戶的交互模式,對(duì)于控制信息傳播[1]與預(yù)測(cè)用戶行為[2]具有重要意義。但由于全網(wǎng)通信數(shù)據(jù)規(guī)模龐大且獲取不易,目前針對(duì)大規(guī)模電信網(wǎng)數(shù)據(jù)的分析挖掘研究不足,尤其是針對(duì)特殊群體用戶通信模式及異常用戶行為檢測(cè)[3-4]方面還不夠深入,不同的職業(yè)人群中,往往用戶的通信模式有不同的體現(xiàn)[5]。如果電信網(wǎng)運(yùn)營商能通過分析用戶的通信行為特征,準(zhǔn)確識(shí)別用戶類別,則對(duì)運(yùn)營商開展個(gè)性服務(wù)和安全監(jiān)控有著重要的指導(dǎo)價(jià)值。并且隨著近年來電信詐騙活動(dòng)的日益泛濫,不法分子利用傳統(tǒng)電信網(wǎng)的信任關(guān)系進(jìn)行違法犯罪行為,深入開展電信網(wǎng)通信數(shù)據(jù)挖掘,研究如何從通信數(shù)據(jù)中找出詐騙分子等特殊群體的異常行為模式也成為一項(xiàng)亟待解決的問題。
然而,目前針對(duì)電信網(wǎng)用戶行為分析還存在明顯不足:一是電信網(wǎng)的通信數(shù)據(jù)相對(duì)于互聯(lián)網(wǎng)的通信數(shù)據(jù)私密性更強(qiáng),對(duì)其分析涉及用戶隱私等敏感話題,各國政府對(duì)該領(lǐng)域的公開研究成果較少,可借鑒的國外經(jīng)驗(yàn)少;二是針對(duì)電信網(wǎng)用戶行為特性的分析主要服務(wù)于電信運(yùn)營商產(chǎn)品推廣和營銷,而較少考慮網(wǎng)絡(luò)安全和信息獲取的需求;三是該領(lǐng)域的公開數(shù)據(jù)少,研究相對(duì)小眾,主要以用戶群體作為研究對(duì)象,針對(duì)單個(gè)用戶行為特性的研究較少。
本文以某地區(qū)約1×107通信用戶的省際長途CDR數(shù)據(jù)為對(duì)象,重點(diǎn)分析了用戶通信中通話頻次、通信時(shí)長等特征在群體與個(gè)體層面的分布特性,并對(duì)幾類典型公共服務(wù)類號(hào)碼群體的通信模式進(jìn)行深入分析。針對(duì)電信網(wǎng)用戶行為分析中的行為模式挖掘問題,提出一種基于多維多粒度分析的電信網(wǎng)用戶行為模式挖掘方法。
本文的主要貢獻(xiàn)如下。
1) 借鑒特征工程的思想,提出了一種基于多維度、多粒度分析的大規(guī)模電信網(wǎng)用戶行為模式挖掘方法,通過對(duì)用戶呼叫行為與通聯(lián)關(guān)系的抽象與量化,形成具有較好區(qū)分性與可計(jì)算的用戶行為特征,對(duì)于用戶群體分類與行為模式挖掘具有重要意義。
2) 針對(duì)電信網(wǎng)用戶呼叫行為中通話分布特性難以準(zhǔn)確量化的難題,采用混合概率模型建模用戶行為,將時(shí)間序列數(shù)據(jù)中的用戶呼叫分布特征轉(zhuǎn)化為概率曲線匹配問題,利用模型參數(shù)刻畫用戶分布特征,形成用戶呼叫分布的量化指標(biāo)值。
3) 本文以幾種典型服務(wù)類號(hào)碼為數(shù)據(jù)集,通過仿真實(shí)驗(yàn)證明了本文所提電信網(wǎng)用戶行為特征的有效性,也進(jìn)一步說明本文提出的電信網(wǎng)用戶行為模式分析方法可以有效實(shí)現(xiàn)對(duì)電信網(wǎng)異常用戶的檢測(cè)。
要實(shí)現(xiàn)大規(guī)模電信網(wǎng)數(shù)據(jù)挖掘,分析用戶行為模式是一個(gè)關(guān)鍵問題。用戶行為模式[6]是人們?cè)谕ㄐ胚^程中所體現(xiàn)出的個(gè)體或群體重復(fù)出現(xiàn)的通信特征集合。特定群體的通話記錄中隱含了許多內(nèi)部員工的工作性質(zhì)、日常行為習(xí)慣、生活作息時(shí)間等有關(guān)信息,如何充分挖掘這類信息并實(shí)現(xiàn)有效利用是研究者十分關(guān)注的問題。
基于通信內(nèi)容的數(shù)據(jù)挖掘方法主要集中在郵件通信與互聯(lián)網(wǎng)通信領(lǐng)域。李全剛等[7]研究分析了郵件網(wǎng)絡(luò)中面向事件檢測(cè)的用戶行為模式,對(duì)比了域內(nèi)通信與域外通信信息完整性的差異,并引入模元的概念,將常見的二元對(duì)應(yīng)關(guān)系(特征?模式)轉(zhuǎn)化為三元對(duì)應(yīng)關(guān)系(特征?模元?模式),并從模元的角度對(duì)用戶模式進(jìn)行統(tǒng)一描述。郝秀蘭等[8]采用話題識(shí)別與追蹤方法,實(shí)現(xiàn)了對(duì)互聯(lián)網(wǎng)論壇雜亂無章內(nèi)容的安全監(jiān)測(cè)與有害信息識(shí)別。但在真實(shí)情況中,由于通信隱私問題無法獲取通話內(nèi)容,導(dǎo)致該方法研究在電信網(wǎng)領(lǐng)域存在較大政策與法規(guī)上的局限性。
由此,一些學(xué)者從通信行為所形成的網(wǎng)絡(luò)結(jié)構(gòu)方面開展廣泛研究,挖掘通信網(wǎng)用戶行為的內(nèi)在規(guī)律。以針對(duì)手機(jī)通信數(shù)據(jù)的研究為例,人類通話網(wǎng)絡(luò)的節(jié)點(diǎn)度分布滿足冪律分布,冪指數(shù)隨著統(tǒng)計(jì)樣本和統(tǒng)計(jì)指標(biāo)的不同而不同。Aiello等[9]得到的一天中有向長途電話數(shù)據(jù)的入度與出度的冪指數(shù)均為2.1。Onnela等[10]得到的雙向呼叫無向網(wǎng)絡(luò)的節(jié)點(diǎn)度分布冪指數(shù)為8.4,通話時(shí)長冪指數(shù)是1.9。如果考慮節(jié)點(diǎn)的地理位置,則兩節(jié)點(diǎn)間連線的概率以及主被叫之間聯(lián)系的強(qiáng)度(時(shí)長和次數(shù))隨節(jié)點(diǎn)間距離增大而減小。Jiang等[11]對(duì)通話數(shù)據(jù)研究發(fā)現(xiàn)人們撥打電話的時(shí)間間隔只有3.46%的用戶滿足冪律分布,73.34%的用戶是韋伯分布。余曉平等[12]對(duì)手機(jī)通話中的網(wǎng)絡(luò)度進(jìn)行了全面分析,分別從號(hào)碼度、通話度、時(shí)長度的角度分析了用戶通信的度分布情況,總體上度分布滿足冪律分布的特點(diǎn),并實(shí)證統(tǒng)計(jì)了日尺度與不同時(shí)段尺度下的用戶通信模式,揭示了絕大多數(shù)用戶每日只接打1個(gè)號(hào)碼的電話,節(jié)假日期間接打電話的用戶數(shù)、次數(shù)、時(shí)長減少,但平均通話時(shí)長增大的特征。文獻(xiàn)[13-14]中采用概率模型的方法實(shí)現(xiàn)對(duì)Twitter或Blog中的用戶行為建模與事件檢測(cè)。文獻(xiàn)[15-16]中采用大規(guī)模圖分析的方法對(duì)社會(huì)媒體中的轉(zhuǎn)發(fā)行為進(jìn)行分析挖掘,以上都為本文的研究提供了思路借鑒。
綜合以上分析,本文提出一種基于多維度、多粒度分析的電信網(wǎng)用戶行為模式挖掘方法,主要采用特征工程的思想,對(duì)通信網(wǎng)信令數(shù)據(jù)進(jìn)行細(xì)致分析,避免因分析通話內(nèi)容而導(dǎo)致的隱私問題,引入呼叫離散度、呼損原因、通聯(lián)關(guān)系等特有屬性,實(shí)現(xiàn)對(duì)通信網(wǎng)絡(luò)中不同職業(yè)群體的分類識(shí)別與應(yīng)用。針對(duì)電信網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn),第4節(jié)將重點(diǎn)介紹本文提出的相關(guān)特征提取方法。
電信網(wǎng)涵蓋用戶廣,用戶種類多,集團(tuán)號(hào)碼、客服號(hào)碼、個(gè)人號(hào)碼等每類用戶具有不同的行為特征。同時(shí),不同運(yùn)營商之間對(duì)于漫游號(hào)碼的處理方式也存在差異,呼叫轉(zhuǎn)移、語音信箱等特殊業(yè)務(wù)的通信信息往往還需要進(jìn)行真實(shí)主被叫號(hào)碼的提取與還原,這些實(shí)際問題都給電信網(wǎng)數(shù)據(jù)的分析挖掘帶來嚴(yán)峻挑戰(zhàn)。
本文數(shù)據(jù)集提取自某地區(qū)電信運(yùn)營商一個(gè)月內(nèi)的省級(jí)長途通話數(shù)據(jù)。用戶CDR數(shù)據(jù)中所使用的具體信息字段包括:主叫號(hào)碼、被叫號(hào)碼、呼叫發(fā)起時(shí)間、通話開始時(shí)間、通話結(jié)束時(shí)間、呼叫結(jié)束時(shí)間、通話時(shí)長、呼損原因、號(hào)碼歸屬地等信息??紤]到現(xiàn)有數(shù)據(jù)的特點(diǎn),從群體與個(gè)體2個(gè)角度分析用戶通信行為規(guī)律。個(gè)體呼叫行為特征中,本文主要從通話時(shí)長、通話頻次、通聯(lián)關(guān)系等多維度特征入手;并按小時(shí)、天、周等不同時(shí)間粒度特征展開挖掘分析。針對(duì)用戶行為模式挖掘問題,歸納起來就是根據(jù)用戶行為提取行為特征,每一種特征都從某一方面反映了用戶特性,其單一特征的識(shí)別方法存在利用信息不充分的問題,為了提高識(shí)別準(zhǔn)確率,采用多維多粒度特征綜合的方法進(jìn)行用戶行為模式挖掘。
若用戶在一定時(shí)間內(nèi)通話頻次為,其概率密度函數(shù)為(),通話頻次滿足冪律分布的表達(dá)式為
對(duì)式(1)取對(duì)數(shù),有
由式(2)可知,若在雙對(duì)數(shù)坐標(biāo)系下用戶的概率密度分布近似為一條直線,則用戶該特征滿足冪律分布。對(duì)數(shù)據(jù)集中網(wǎng)絡(luò)用戶一天內(nèi)通話頻次的統(tǒng)計(jì)結(jié)果如圖1(a)所示,橫坐標(biāo)代表用戶一天內(nèi)的通話頻次,縱坐標(biāo)代表該通信頻次的人數(shù)占總?cè)藬?shù)的比例。由圖1(b)可知,用戶群體通話頻次符合冪律分布,冪指數(shù)為1.694,冪律分布是社會(huì)與自然界中普遍存在的現(xiàn)象。
圖1 用戶通話頻次的概率密度分布
針對(duì)單個(gè)用戶行為特征,需要從數(shù)據(jù)集中分別統(tǒng)計(jì)單個(gè)用戶的通信頻次分布、通話時(shí)長分布、通聯(lián)關(guān)系等特征,定義如下特征度量指標(biāo)。
定義1 呼叫離散度。借鑒信息論知識(shí),該值越大,表明用戶撥打的范圍越大,每個(gè)人之間越平均,該值越小,表明用戶撥打的范圍越小,可能只是少數(shù)幾個(gè)朋友。
定義2 日通話頻次分布。根據(jù)用戶CDR數(shù)據(jù),提取用戶在一個(gè)月內(nèi)每天各小時(shí)內(nèi)的通話次數(shù),然后計(jì)算每個(gè)小時(shí)的通話次數(shù)占總通話次數(shù)的比例。由此可以得到用戶在24 h內(nèi)通話次數(shù)的分布特征,表示為
其中,x表示用戶一段時(shí)間內(nèi)每天24 h中第h到+1 h內(nèi)的通話次數(shù)占總通話次數(shù)的比例。用戶一天中通話次數(shù)的分布反映了用戶在一天中各時(shí)間段的通話活躍度情況,間接表明了用戶的工作、休息等生活習(xí)慣。
定義3 日通話時(shí)長分布。根據(jù)用戶每小時(shí)內(nèi)通話時(shí)長占總通話時(shí)長的比例,可以計(jì)算得到用戶24 h內(nèi)的通話時(shí)長分布情況,表示為
其中,t表示用戶一段時(shí)間內(nèi)在24 h中第h到+1 h內(nèi)的通話時(shí)長占總通話時(shí)長的占比。用戶的通話時(shí)長分布特性反映了用戶的主要通話特征,如圖2所示。一般而言,具有長通話時(shí)長的對(duì)象為關(guān)系親密且穩(wěn)定的聯(lián)系人。
定義4 周通信頻次、時(shí)長分布。根據(jù)用戶一周內(nèi)各天的通話頻次及時(shí)長情況,確定用戶的通話分布情況。
圖2 通話頻次、時(shí)長一天內(nèi)的變化
用戶在一周內(nèi)的通話頻次及時(shí)長分布情況,反映了用戶在一周內(nèi)的工作、休息情況。這類用戶號(hào)碼的日常通話一般呈現(xiàn)明顯的潮汐效應(yīng),即工作日與非工作日的通話量有明顯變化,對(duì)于識(shí)別判定用戶號(hào)碼性質(zhì)(工作、生活)具有重要價(jià)值。
定義5 撥打空號(hào)比。定義用戶撥打空號(hào)比為某用戶在一段時(shí)間內(nèi)撥打的空號(hào)占總呼叫個(gè)數(shù)的比例。該指標(biāo)反映了用戶發(fā)起呼叫的正確程度。一般正常用戶呼叫都是基于通信錄的,空號(hào)很少,而推銷或騷擾用戶的呼叫可能使用相關(guān)自動(dòng)撥號(hào)軟件,空號(hào)比例較高。
設(shè)用戶A在時(shí)間內(nèi)發(fā)起的呼叫個(gè)數(shù)為N,撥打空號(hào)的個(gè)數(shù)為N,則用戶撥打空號(hào)比為
定義6 主被叫占比。定義主被叫占比為某用戶號(hào)碼在一段時(shí)間通話中發(fā)起呼叫次數(shù)與用戶接聽呼叫次數(shù)的比值。根據(jù)經(jīng)驗(yàn)可知,正常用戶的發(fā)起呼叫次數(shù)與接聽呼叫次數(shù)應(yīng)該相對(duì)均衡,比值近似于1;而異常騷擾或詐騙用戶可能會(huì)發(fā)起大量主叫,而被叫次數(shù)很少。
定義7 Top-k 呼叫占比。根據(jù)一段時(shí)間內(nèi)用 戶通話聯(lián)系人頻次或時(shí)長進(jìn)行排名,前K 個(gè)主要 聯(lián)系人的通話頻次或時(shí)長占總通話頻次或時(shí)長的 比例。
公共服務(wù)類號(hào)碼由于其面向大眾,其聯(lián)系人數(shù)量理論上應(yīng)該相當(dāng)龐大,且沒有固定的幾個(gè)聯(lián)系人。以2個(gè)個(gè)人號(hào)碼與常見的3類公共服務(wù)號(hào)碼作為對(duì)比,分別對(duì)其作為主叫和被叫時(shí)的Top-聯(lián)系人通話頻次占比進(jìn)行統(tǒng)計(jì)。表1所示的統(tǒng)計(jì)分析結(jié)果證實(shí)了本文這一猜測(cè),即私人號(hào)碼其與Top-5聯(lián)系人的通話占了很大比例,而公共服務(wù)類號(hào)碼其與Top-5聯(lián)系人的通話占總通話頻次的比例較小。
定義8 呼損原因。即用戶呼叫失敗原因,本文CDR數(shù)據(jù)記錄有fail_reason字段,代表不同的呼叫失敗原因,具體字段說明如表2所示。
表1 不同類別號(hào)碼的top-5聯(lián)系人通話頻次占比及其累加和
表2 呼損原因字段說明
圖3 單個(gè)目標(biāo)號(hào)碼在時(shí)間軸上的特征表示示意
圖4 目標(biāo)號(hào)碼A在時(shí)間軸上與鄰居節(jié)點(diǎn)的通聯(lián)關(guān)系
在圖4中,目標(biāo)號(hào)碼節(jié)點(diǎn)A有B、C、D、E和F等5個(gè)鄰居節(jié)點(diǎn)。節(jié)點(diǎn)A和鄰居節(jié)點(diǎn)的呼叫關(guān)系表示為有向圖,節(jié)點(diǎn)A作為主叫的呼出表示為實(shí)線箭頭,節(jié)點(diǎn)A作為被叫的呼入表示為虛線箭頭。箭頭和連接線的權(quán)值表示節(jié)點(diǎn)之間通話的頻次高低,頻次越高,權(quán)值越大。
電信網(wǎng)用戶通話行為具有顯著的規(guī)律性與差異性,不同用戶群體具有不同的呼叫行為模式[18]。為了驗(yàn)證本文所提取的電信網(wǎng)用戶行為特征的有效性,基于現(xiàn)有電信網(wǎng)CDR數(shù)據(jù),本文選取其中部分服務(wù)類號(hào)碼(快遞、航班、銀行等)和個(gè)人用戶號(hào)碼,提取用戶呼叫頻次、呼叫時(shí)長、通聯(lián)關(guān)系等方面的特征構(gòu)建用戶特征向量,通過模型訓(xùn)練選取效果較好的分類器進(jìn)行示范應(yīng)用。對(duì)于用戶呼叫行為中的通話頻次、時(shí)長等分布特征,采用高斯混合概率模型進(jìn)行刻畫,模型參數(shù)作為用戶呼叫行為分布的特征。
電信網(wǎng)用戶行為特征提取,即是對(duì)電信網(wǎng)用戶呼叫行為進(jìn)行量化統(tǒng)計(jì),制定合理的特征度量用以表征用戶的呼叫行為特點(diǎn)[19-20],為用戶分類及模式挖掘奠定基礎(chǔ)。根據(jù)現(xiàn)有數(shù)據(jù)特點(diǎn)及電信用戶的呼叫習(xí)慣,提取用戶4個(gè)方面共計(jì)21項(xiàng)特征,用于電信網(wǎng)用戶群體的行為模式挖掘,如表3所示。
本文采用維的特征向量表示用戶的呼叫行為特征,即
所提取的用戶特征向量構(gòu)成用戶的特征空間,本文旨在通過分析不同用戶群體的行為特征,判別用戶號(hào)碼類別或發(fā)現(xiàn)其中的異常用戶行為。該方法適用于大規(guī)模數(shù)據(jù)的處理,特征計(jì)算中主要為統(tǒng)計(jì)計(jì)算,分析方法并不復(fù)雜,使用Hadoop、Spark等分布式計(jì)算工具即可完成。
表3 用戶通信行為特征指標(biāo)
在構(gòu)造通信用戶特征向量的過程中,主被叫占比、呼叫頻次、時(shí)長等數(shù)值特征可以直接應(yīng)用。但對(duì)于用戶通話頻次分布、呼叫時(shí)長分布等非數(shù)值特征卻無法直接應(yīng)用。本節(jié)中引入高斯混合模型將具有不同特性的通話行為分布進(jìn)行區(qū)分,并使用模型的參數(shù)值作為用戶特征向量的一部分??紤]到用戶的通話行為是一種不確定的隨機(jī)過程,并且在不同時(shí)段內(nèi)具有不同的分布情況,使用混合概率模型進(jìn)行刻畫可以達(dá)到更好的效果,文獻(xiàn)[21]中也有一定應(yīng)用嘗試。
上述模型可以用作電信網(wǎng)用戶的通用模型,當(dāng)針對(duì)單個(gè)用戶進(jìn)行建模時(shí),可對(duì)特定用戶行為數(shù)據(jù)計(jì)算相應(yīng)用戶行為的分布參數(shù),如一天中用戶的通話頻次、通話時(shí)長分布,計(jì)算用戶的模型參數(shù)。
式(16)稱為第個(gè)分模型。
即假設(shè)每個(gè)特征點(diǎn)由一個(gè)單高斯分布生成。
當(dāng)已知用戶通話頻次或通話時(shí)長的觀測(cè)數(shù)據(jù)后,參數(shù)估計(jì)的過程就相當(dāng)于找一組參數(shù),這組參數(shù)確定的概率分布生成這些觀測(cè)數(shù)據(jù)的概率最大。而這個(gè)概率就是觀測(cè)數(shù)據(jù)整體的最大似然函數(shù),即為個(gè)體的最大似然函數(shù)的乘積。
EM算法執(zhí)行過程如下。
輸出 混合概率模型參數(shù)。
1) 取設(shè)定的參數(shù)初值進(jìn)行迭代。
3) M步:計(jì)算新一輪迭代參數(shù)
4) 重復(fù)步驟2)和步驟3),不斷更新上面3個(gè)值,直到參數(shù)值穩(wěn)定(收斂)。
本文在真實(shí)電信網(wǎng)數(shù)據(jù)集上測(cè)試驗(yàn)證所提出的用戶呼叫行為特征及行為模式挖掘方法的有效性。以某地區(qū)約1×107電信網(wǎng)用戶通信CDR數(shù)據(jù)作為數(shù)據(jù)集(真實(shí)號(hào)碼已脫敏處理),數(shù)據(jù)情況如表4所示。
表4 實(shí)驗(yàn)數(shù)據(jù)信息統(tǒng)計(jì)
對(duì)于本文中電信網(wǎng)用戶號(hào)碼群體的分類問題,常用的度量評(píng)價(jià)指標(biāo)為查準(zhǔn)率、查全率及AUC值。根據(jù)樣例的真實(shí)類別與分類的預(yù)測(cè)類別劃分為真正例(TP, true positive)、假正例(FP, false positive)、真反例(TN, true negative)、假反例(FP, false negative),查準(zhǔn)率與查全率分別定義為
AUC值為ROC曲線下區(qū)域的面積,是研究學(xué)習(xí)器泛化性能的有力工具。ROC曲線的縱軸是“真正例率”(TPR,true positive rate),橫軸是“假正例率”(FPR,false positive rate),兩者分別定義為
本文設(shè)計(jì)了3類實(shí)驗(yàn)來驗(yàn)證所提出的電信網(wǎng)用戶行為特征的有效性及可行性。實(shí)驗(yàn)1根據(jù)所提取的用戶行為特征對(duì)3類服務(wù)號(hào)碼和個(gè)人用戶號(hào)碼進(jìn)行了分類,證明了所提用戶特征的有效性、計(jì)算可行性。實(shí)驗(yàn)2通過對(duì)用戶號(hào)碼聚類中的離群點(diǎn)檢測(cè),分析了正常用戶與異常用戶的行為模式差異。實(shí)驗(yàn)3通過對(duì)用戶分時(shí)段通信頻次分布、呼損原因等特征的分析,總結(jié)了快遞類、列車/航班類、金融服務(wù)類電話的行為模式,證明了所提特征的合理性。
實(shí)驗(yàn)1用戶號(hào)碼分類實(shí)驗(yàn)結(jié)果如表5所示,選用了C4.5決策樹、樸素貝葉斯、SVM這3種常見的分類器進(jìn)行用戶號(hào)碼分類實(shí)驗(yàn)。實(shí)驗(yàn)表明,在用戶特征提取良好的情況下,決策樹算法的整體效果AUC值略優(yōu)于其他算法, 本文所提取的模型特征中多為連續(xù)型數(shù)值特征,如呼叫頻次、呼叫時(shí)長等;并存在部分?jǐn)?shù)值缺失的情況,而該算法對(duì)連續(xù)型數(shù)據(jù)和不完整數(shù)據(jù)的效果較好。樸素貝葉斯算法需滿足屬性之間相互獨(dú)立的假設(shè),當(dāng)屬性個(gè)數(shù)增多且特征之間相關(guān)性較大時(shí),分類效率比不上決策樹,SVM算法效果居中。在決策樹算法中,通過計(jì)算比較各特征的信息增益率,可以找出對(duì)用戶分類更有效的統(tǒng)計(jì)特征。用戶號(hào)碼的統(tǒng)計(jì)特征是準(zhǔn)確進(jìn)行用戶行為識(shí)別的關(guān)鍵。
圖5 混合高斯模型擬合圖
表5 用戶號(hào)碼分類實(shí)驗(yàn)
在用戶呼叫行為分布特征提取中,使用高斯混合概率模型,可以平滑地近似任意形狀的密度分布。根據(jù)實(shí)際通信數(shù)據(jù)集情況,將用戶在不同時(shí)段內(nèi)的通話頻次(通話時(shí)長)作為隨機(jī)變量,觀測(cè)數(shù)據(jù)通話頻次序列的分布情況如圖5(a)所示,橫坐標(biāo)為24小時(shí)×30天內(nèi)小時(shí)數(shù),縱坐標(biāo)為對(duì)應(yīng)小時(shí)內(nèi)的通話頻次數(shù)。圖5(b)為用戶通話頻次序列的統(tǒng)計(jì)直方圖,橫坐標(biāo)為用戶的通話頻次,縱坐標(biāo)為該頻次在總體分布中所占的比例。圖5(c)為高斯混合模型中各高斯分量的曲線,圖5(d)為高斯混合模型與通話頻次直方圖的擬合圖。由此,可以將用戶一段時(shí)間內(nèi)的通話頻次序列數(shù)據(jù)轉(zhuǎn)化為高斯混合概率模型的參數(shù),實(shí)現(xiàn)對(duì)用戶通話頻次特征的刻畫,分析用戶通話中隱含的通話行為模式。對(duì)于高斯混合模型中高斯分量個(gè)數(shù)的選取,根據(jù)采用混合模型對(duì)原始數(shù)據(jù)進(jìn)行聚類的ARI[22]指標(biāo)值確定,ARI指標(biāo)越大,表明擬合的效果越好,本文中采用的高斯分量個(gè)數(shù)為4,如圖6所示。同時(shí)表明典型的用戶通信頻次中呈現(xiàn)4種模式,可能與用戶在一天中不同時(shí)間段內(nèi)(凌晨、上午、下午、晚上)的通話習(xí)慣有關(guān)。
圖6 高斯混合模型分量個(gè)數(shù)影響
實(shí)驗(yàn)2通過對(duì)用戶號(hào)碼分類中的離群異常點(diǎn)進(jìn)行檢測(cè),可以發(fā)現(xiàn)其中的行為異常用戶。圖7(a)中,用戶號(hào)碼的呼叫行為主要集中于白天工作時(shí)間及晚上睡覺前,凌晨0點(diǎn)至早9點(diǎn)前用戶呼叫幾乎沒有,且從呼叫頻次上符合人工撥打的習(xí)慣,由此可大致推斷該號(hào)碼為用戶推銷電話或者業(yè)務(wù)工作繁忙的商務(wù)人士。圖7(b)中記錄了另外一種類型的騷擾電話,由圖可知,該號(hào)碼每半小時(shí)內(nèi)呼叫頻次一直很高,且全天呼叫頻次雖有波動(dòng),但一直相對(duì)穩(wěn)定,沒有白天、晚上的周期性變化,由此可推斷該號(hào)碼可能為一種由撥號(hào)軟件發(fā)起的騷擾電話。
圖7 正常用戶與異常用戶的行為比較
實(shí)驗(yàn)3對(duì)不同類別的服務(wù)號(hào)碼進(jìn)行通話頻次統(tǒng)計(jì),設(shè)定3種粒度,即以周為粒度、以天為粒度、以小時(shí)為粒度。結(jié)果表明,不同類別的號(hào)碼在以小時(shí)為粒度時(shí),反映出較強(qiáng)的特點(diǎn)。將不同類型的號(hào)碼每小時(shí)的通話頻次序列化后可以看出較強(qiáng)的規(guī)律,因此考慮以小時(shí)為粒度,統(tǒng)計(jì)在1個(gè)月內(nèi)所有號(hào)碼在每天24個(gè)時(shí)段中的通話頻次累加和作為號(hào)碼分類的一個(gè)特征。下面分別對(duì)快遞類、列車/航班類和銀行類的1個(gè)月內(nèi)以小時(shí)為粒度通話頻次累加和進(jìn)行可視化展示,分析其各自的特點(diǎn)。
圖8是快遞類的通話頻次分布,橫坐標(biāo)從0時(shí)開始到24時(shí),第一個(gè)豎條表示2個(gè)月內(nèi)從凌晨0時(shí)到1時(shí)之間的所有通話頻次和,以此類推。從圖中可以明顯看出,快遞類的通話頻次分布有極強(qiáng)的相似性,具體特點(diǎn)表現(xiàn)為:從21時(shí)開始,通話頻次迅速提高;到1時(shí)到4時(shí),通話頻次穩(wěn)定在一個(gè)很高的水平;從4時(shí)開始每小時(shí)頻次有所下降,但仍保持穩(wěn)定;到10時(shí)開始通話頻次出現(xiàn)明顯的幾乎呈指數(shù)程度的遞減,在16時(shí)左右下降到幾乎為0,到21時(shí)通話數(shù)量又開始遞增。出現(xiàn)這種情況的原因可能是快遞公司與快遞點(diǎn)之間的業(yè)務(wù)聯(lián)系都是在凌晨和上午,在這段時(shí)間快遞公司會(huì)將快遞送到各個(gè)快遞點(diǎn),因而這段時(shí)間通話非常頻繁。通過圖8可以看出,這種通話規(guī)律與普通電信網(wǎng)用戶完全不同,具有極強(qiáng)的時(shí)序特征。
圖8 快遞類按時(shí)刻通話頻次累加和分布
圖9給出列車/航班類的通話頻次分布。從圖中可以看出,通話頻次的分布仍然具有相似性,具體表現(xiàn)為:17時(shí)到22時(shí)通話頻次處在一個(gè)較低的水平;22時(shí)到3時(shí)通話頻次迅速上升,4時(shí)通話頻次略微下降但仍然較高;11時(shí)到15時(shí)通話頻次顯著下降;15時(shí)到17時(shí)迅速下降到極低的水平。通過圖10中銀行類服務(wù)電話的分布可以看出,這種規(guī)律也顯示出了與眾不同的特性,并且類內(nèi)相似度極高。
圖9 列車航班類按時(shí)刻通話頻次累加和分布
圖10 銀行類按時(shí)刻通話頻次累加和分布
圖11給出銀行類號(hào)碼作為主叫時(shí)的失敗原因統(tǒng)計(jì),從圖中可以看出,該類號(hào)碼的呼叫失敗原因分布非常相似,呼叫失敗代碼2(振鈴中途掛機(jī))占了較大的比重,說明這些號(hào)碼在作為主叫呼叫用戶時(shí),有很大一部分振鈴時(shí)就被用戶掛斷;另外呼叫失敗代碼16占比較高,即接通后被叫(用戶)先掛機(jī),這也符合其作為服務(wù)類號(hào)碼不主動(dòng)掛機(jī)的特點(diǎn)。
圖11 銀行類作為主叫時(shí)失敗原因統(tǒng)計(jì)
圖12給出航班類號(hào)碼作為被叫時(shí)的失敗原因統(tǒng)計(jì)。從圖中可以看出,當(dāng)列車航班類作為被叫時(shí),振鈴中途掛機(jī)(代碼2)現(xiàn)象明顯減少,說明服務(wù)類號(hào)碼通常不會(huì)掛斷用戶的電話,個(gè)別中途掛機(jī)現(xiàn)象可能是主叫用戶誤撥導(dǎo)致。同時(shí),大部分呼叫結(jié)束的代碼為0和16,說明絕大多數(shù)的通話都是成功的,并且多數(shù)情況是主叫用戶先掛機(jī),同樣符合服務(wù)類號(hào)碼的特點(diǎn)。
圖12 航班類作為被叫時(shí)失敗原因統(tǒng)計(jì)
在大數(shù)據(jù)時(shí)代,針對(duì)海量通信數(shù)據(jù)的挖掘與分析尤為重要,通信數(shù)據(jù)的復(fù)雜多樣性以及數(shù)據(jù)挖掘技術(shù)在各行業(yè)應(yīng)用的特殊性也為數(shù)據(jù)挖掘提出了新的理論與技術(shù)挑戰(zhàn)。本文針對(duì)海量通信數(shù)據(jù)中用戶行為模式挖掘困難這一挑戰(zhàn),提出一種基于多維多粒度的電信網(wǎng)用戶行為模式挖掘方法,有效解決了電信網(wǎng)用戶行為數(shù)據(jù)中的特征提取問題。在電信網(wǎng)用戶行為特征分析過程中,目前的數(shù)據(jù)源僅采用了電信網(wǎng)的CDR數(shù)據(jù),來源相對(duì)比較單一,后續(xù)可以考慮加入用戶語音及上網(wǎng)數(shù)據(jù)信息,輔助進(jìn)行用戶行為特征的分析挖掘。
[1] 劉衍珩, 李飛鵬, 孫鑫, 朱建啟. 基于信息傳播的社交網(wǎng)絡(luò)拓?fù)淠P蚚J].通信學(xué)報(bào), 2013, 34(4): 1-9.
LIU Y Y, LI F P, SUN X, ZHU J Q. Social network model based on the transmission of information[J]. Journal on Communications, 2013,34(4):1-9.
[2] 曹玖新, 吳江林, 石偉, 等. 新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(4): 779-790.
CAO J X, WU J L, SHI W, et al. Sina microblog information diffusion analysis and prediction[J]. Journal of Computers, 2014, 37(4): 779-790.
[3] 楊杰, 李小平, 陳湉. 基于增量時(shí)空軌跡大數(shù)據(jù)的群體挖掘方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2014(s2): 76-85.
YANG J, LI X P, CHEN T. A group mining method for incremental spatio-temporal trajectory bigdata[J]. Journal of Computer Research and Development,2014(s2):76-85.
[4] 李艷麗, 劉陽, 謝文波等. 大數(shù)據(jù)發(fā)現(xiàn)非法傳銷網(wǎng)絡(luò)[J]. 大數(shù)據(jù), 2017, 3(5): 106-112.
LI Y L, LIU Y, XIE W P, et al. Uncovering the illegal pyramid networks by big data[J]. Big Data Research,2017, 3(5): 106-112.
[5] 史殿習(xí), 李寒, 楊若松, 等. 用戶日常頻繁行為模式挖掘[J]. 國防科技大學(xué)學(xué)報(bào), 2017, 39(1): 74-80.
SHI D X, LI H, YANG R S, et al. Mining user frequent behavior patterns in daily life[J]. Journal of National University of Defense Technology,2017, 39(1): 74-80.
[6] 文雨, 王偉平, 孟丹. 面向內(nèi)部威脅檢測(cè)的用戶跨域行為模式挖掘[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(8):1555-1569.
WEN Y, WANG W P, MENG D. Mining user cross-domain behavior patterns for insider threat detection[J]. Journal of Computer,2016, 39(8):1555-1569.
[7] 李全剛, 時(shí)金橋, 秦志光, 等. 面向郵件網(wǎng)絡(luò)事件檢測(cè)的用戶行為模式挖掘[J]. 計(jì)算機(jī)學(xué)報(bào), 2014.37(5):1135-1146.
LI Q G, SHI J Q, QIN Z G, et al. Mining user behavior patterns for event detection in email networks[J]. Journal of Computer,2014.37(5):1135-1146.
[8] 郝秀蘭, 胡運(yùn)發(fā), 申倩. 中文論壇內(nèi)容監(jiān)測(cè)的方法研究[J]. 中文信息學(xué)報(bào), 2012, 26(3):129-137.
HAO X L, HU Y F, SHEN Q. Research on content monitoring on Chinese web forums[J]. Journal of Chinese Information Processing,2012, 26(3):129-137.
[9] AIELLO W, CHUNG F, LU L. A random graph model for power law graphs[J]. Experimental Mathematics, 2001, 10(1): 53-66.
[10] ONNELA J P, SARAM?KI J, HYV?NEN J, et al. Structure and tie strengths in mobile communication networks[J]. Proceedings of the national academy of sciences, 2007, 104(18): 7332-7336.
[11] JIANG Z Q, XIE W J, LI M X, et al. Calling patterns in human communication dynamics[J]. Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.
[12] 余曉平, 裴韜. 手機(jī)通話網(wǎng)絡(luò)度特征分析[J]. 物理學(xué)報(bào), 2013,62(2):1-9.
YU X P, PEI T. Analysis on degree characteristics of mobile call network[J]. Acta Phys Sin, 2013, 62(2):1-9.
[13] CAPDEVILA J, CERQUIDES J, TORRES J. Recognizing warblers: a probabilistic model for event detection in Twitter[C]. ICML2016 Anomaly Detection Workshop, New York, USA, 2016.
[14] MANAVOGLU E, PAVLOV D, GILES C L. Probabilistic user behavior models[C]//Proceedings of the Third IEEE International Conference on Data Mining, Melbourne, Florida. 2003: 203-210.
[15] BEUTEL A. User behavior modeling with large-scale graph analysis[D]. Computer Science Department School of Computer Science Carnegie Mellon University Pittsburgh, PA.2016
[16] XU Z H, ZHANG Y, WU, et al. Modeling user posting behavior on social media[C]. SIGIR’12, Portland, Oregon, USA. 2012.
[17] 張嘯劍, 王淼, 孟小峰. 差分隱私保護(hù)下一種精確挖掘top-頻繁模式方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(1): 104-114.
ZHANG X J, WANG M, MENG X F. An accurate method for mining top-k frequent pattern under differential privacy[J]. Journal of Computer Research and Development, 2014, 51(1): 104-114.
[18] CUI P, LIU H, AGGARWAL C, et al. Uncovering and predicting human behaviors[J]. IEEE Intelligent Systems. 2016,03.
[19] 張宇翔, 孫菀, 楊家海, 等. 新浪微博反垃圾中特征選擇的重要性分析[J]. 通信學(xué)報(bào), 2016, 37(8): 2016152-10.
ZHANG Y X, SUN Y, YANG J H, et al. Feature importance analysis for spammer detection in Sina Weibo[J]. Journal of Communications, 2016, 37(8):2016152-10.
[20] 曹菁華, 胡訪宇, 華燁. 基于電信數(shù)據(jù)的通話行為模式發(fā)現(xiàn)[J]. 計(jì)算機(jī)仿真, 2014, 11(31): 163-167.
CAO J H, HU F Y, HUA Y. Call behavior pattern discovery based on telecom data[J]. Computer Simulation, 2014, 11(31): 163-167.
[21] OLSZEWSKI D. A probabilistic approach to fraud detection in telecommunications[J]. Knowledge-Based Systems, 2012,26(3): 246-258.
[22] STEINLEY D. Properties of the hubert-arable adjusted rand index[J]. Psychological methods, 2004, 9(3): 386.
User behavior pattern mining method based on multi-dimension and multi-granularity analysis in telecom networks
CHENG Xiaotao, JI Lixin, HUANG Ruiyang, YU Hongtao, YANG Yizhuo
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
In order to better understand the behavior of users in telecom networks, it takes CDR (call detail record) data of large-scale telecom network as the research object. By using the mixed probability model and feature engineering method, the multi-dimension characteristics of the call time, call frequency and connections are analyzed from the perspective of user groups and individuals. It is further refined from different time granularities such as hour, day, and week to realize effective discovery of call behavior patterns for different user groups. The distribution characteristics of user behavior are modeled by mixed probability model, which solves the problem of describing the distribution characteristics such as user's call time and frequency. Based on the dataset of a regional telecom network, the performance of decision tree, naive Bayes and SVM classification algorithm are compared. It proves the validity and computational feasibility of the proposed method. The differences in communication behavior patterns of different groups are also compared by taking the service numbers like express, flight and bank as examples.
telecom network, multi-dimension, multi-granularity, mixture-of-Gaussian, behavior pattern mining
TP393
A
10.11959/j.issn.2096-109x.2018083
程曉濤(1990-),男,河北邢臺(tái)人,國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心博士生,主要研究方向?yàn)殡娦啪W(wǎng)安全、網(wǎng)絡(luò)大數(shù)據(jù)處理與分析。
吉立新(1969-),男,江蘇淮安人,國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心研究員,主要研究方向?yàn)殡娦啪W(wǎng)信息安全。
黃瑞陽(1986-),男,福建漳州人,國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心助理研究員,主要研究方向?yàn)槲谋就诰蚝蛨D挖掘。
于洪濤(1970-),男,遼寧丹東人,國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心研究員,主要研究方向?yàn)榫W(wǎng)絡(luò)大數(shù)據(jù)分析與處理。
楊奕卓(1994-),男,吉林省吉林市人,國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)樯鐣?huì)網(wǎng)絡(luò)分析。
2018-09-16;
2018-09-28
程曉濤,chengxt90@mail.com
國家自然科學(xué)創(chuàng)新群體基金資助項(xiàng)目(No.61521003);國家自然科學(xué)基金資助項(xiàng)目(No.61601513)
The Foundation for Innovative Research Groups of the National Natural Science Foundation of China (No.61521003), The National Natural Science Foundation of China (No.61601513)