◆農(nóng)博文
基于生命周期的電信詐騙聚類研究
◆農(nóng)博文
(中國(guó)聯(lián)通廣西分公司 廣西 530000)
本文主要描述了中國(guó)聯(lián)通廣西分公司為針對(duì)電信詐騙,而研究涉案號(hào)碼的使用行為,發(fā)現(xiàn)涉詐特征,根據(jù)特征對(duì)號(hào)碼進(jìn)行監(jiān)控。由于詐騙手段變化較快,對(duì)于涉案號(hào)碼的行為難以鑒定,因此利用電信市場(chǎng)經(jīng)營(yíng)的客戶生命周期理論,優(yōu)化詐騙號(hào)碼分類模型,最終提高了詐騙號(hào)碼聚類特征的顯著性。
大數(shù)據(jù);數(shù)據(jù)分析;信息安全;電信詐騙
近年來(lái),電信電話詐騙犯罪活動(dòng)持續(xù)高發(fā)多發(fā),犯罪行為日趨嚴(yán)峻復(fù)雜。圍繞電信電話詐騙犯罪,還產(chǎn)生了一系列黑灰產(chǎn)業(yè)鏈,形成大量上下游關(guān)聯(lián)犯罪。同時(shí)詐騙金額亦越來(lái)越大,造成了惡劣的社會(huì)影響,給社會(huì)穩(wěn)定和人民財(cái)產(chǎn)安全造成嚴(yán)重危害。詐騙手法、設(shè)備日新月異,電信運(yùn)營(yíng)商越來(lái)越難從單一的詐騙通話特征去辨別詐騙號(hào)碼。
中國(guó)電信廣東研究院通過(guò)基于信令的電話詐騙行為檢測(cè)及防范方法[1],對(duì)響一聲電話、仿冒公檢法、仿冒熟人等場(chǎng)景進(jìn)行信令監(jiān)控。廣東省電信規(guī)劃設(shè)計(jì)院有限公司搭建基于移動(dòng)號(hào)碼基礎(chǔ)特征及通話行為的防范電話詐騙模型,針對(duì)詐騙通話行為的前、中、后階段進(jìn)行判別及攔截處置[2]。本文探究如何利用大數(shù)據(jù)聚類算法,有效地對(duì)涉案號(hào)碼每日行為特征進(jìn)行趨勢(shì)聚類,提出了過(guò)程中遇到的問(wèn)題以及解決方案。本文在探索涉案號(hào)碼行為特征時(shí),對(duì)其語(yǔ)音行為進(jìn)行趨勢(shì)聚類,具體描述后續(xù)會(huì)介紹。
k-means算法是一種基于劃分的聚類算法,它以k為參數(shù),把n個(gè)數(shù)據(jù)對(duì)象分成k個(gè)簇,使簇內(nèi)具有較高的相似度,而簇間的相似度較低[3]。首先,隨機(jī)地選擇k個(gè)數(shù)據(jù)對(duì)象,每個(gè)數(shù)據(jù)對(duì)象代表一個(gè)簇中心,即選擇k個(gè)初始中心;對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各簇中心的相似度(距離),將它賦給與其最相似的簇中心對(duì)應(yīng)的簇;然后重新計(jì)算每個(gè)簇中所有對(duì)象的平均值,作為新的簇中心。不斷重復(fù)以上這個(gè)過(guò)程,直到準(zhǔn)則函數(shù)收斂,也就是簇中心不發(fā)生明顯的變化。通常采用均方差作為準(zhǔn)則函數(shù),即最小化每個(gè)點(diǎn)到最近簇中心的距離的平方和:
聚類算法也許是機(jī)器學(xué)習(xí)中“新算法”出現(xiàn)最多、最快的領(lǐng)域,一個(gè)重要的原因是聚類不存在客觀標(biāo)準(zhǔn),給定數(shù)據(jù)集總能從某個(gè)角度找到以往算法未覆蓋的某種標(biāo)準(zhǔn)從而設(shè)計(jì)出新算法。k-means算法十分簡(jiǎn)單易懂而且非常有效,但是合理地確定k值和k個(gè)初始類簇中心點(diǎn)對(duì)于聚類效果的好壞有很大的影響。
利用k-means算法對(duì)時(shí)間序列進(jìn)行分類,參考k-means算法的模糊時(shí)間序列預(yù)測(cè)模型,提出了基于k-means算法的非等分論域劃分方法[4]。EMD與k-means時(shí)間序列聚類提出一種能夠?qū)r(shí)間序列進(jìn)行有效預(yù)處理的方法,利用k-means算法對(duì)經(jīng)過(guò)上述方法預(yù)處理后的序列進(jìn)行聚類[5]。透視涉案號(hào)碼在一個(gè)月中,每日的使用行為,例如某個(gè)涉案號(hào)碼在某月1至31日主叫通話次數(shù)的波動(dòng)情況。單個(gè)號(hào)碼行為趨勢(shì)研究,轉(zhuǎn)變向多個(gè)號(hào)碼行為的研究。在此要解決的問(wèn)題是,需要把有相似趨勢(shì)的用戶聚類,分析聚類中心的趨勢(shì)特點(diǎn)。研究多個(gè)用戶在大數(shù)據(jù)下,趨勢(shì)聚類的情況。
將每日的行為數(shù)據(jù)作為特征,假如某月有31天,相當(dāng)于有31個(gè)參數(shù)進(jìn)行觀察。31天的時(shí)間串聯(lián)起來(lái)形成觀察號(hào)碼在該月的趨勢(shì),擁有相同詐騙行為趨勢(shì)的號(hào)碼可判斷為高危涉詐號(hào)碼。探索涉案號(hào)碼每日通話次數(shù)的行為特征時(shí),由于用戶量過(guò)多,用k-means聚類方法將涉案號(hào)碼分類。經(jīng)過(guò)探索,見(jiàn)圖1,中心個(gè)數(shù)在250-300時(shí)離差平方和基本穩(wěn)定,中心個(gè)數(shù)達(dá)到最佳。
由于聚類中心過(guò)多,不利于判別涉案號(hào)碼的特征,因此需要挖掘優(yōu)化減少涉案號(hào)碼聚類中心的方法。
圖1 全涉案號(hào)碼主叫次數(shù)聚類中心點(diǎn)最佳數(shù)量
在電信市場(chǎng)經(jīng)營(yíng)中,客戶分析以數(shù)據(jù)挖掘分析為主要手段。根據(jù)客戶生命周期的規(guī)律,可以依次設(shè)計(jì)客戶分析的內(nèi)容[6-7]??蛻羯芷谠居糜陔娦攀袌?chǎng)經(jīng)營(yíng)分析,對(duì)不同階段的客戶深層的需求,透過(guò)數(shù)據(jù)對(duì)市場(chǎng)營(yíng)銷進(jìn)行指導(dǎo)[8]。進(jìn)入階段客戶發(fā)現(xiàn)和獲取潛在客戶,并通過(guò)有效渠道提供合適的價(jià)值定位以獲取客戶,成長(zhǎng)階段通過(guò)刺激需求的產(chǎn)品組合或服務(wù)組合把客戶培養(yǎng)成高價(jià)值客戶,成熟階段通過(guò)刺激需求的產(chǎn)品組合或服務(wù)組合把客戶培養(yǎng)成高價(jià)值客戶,衰退階段通過(guò)刺激需求的產(chǎn)品組合或服務(wù)組合把客戶培養(yǎng)成高價(jià)值客戶,客戶趨向于離網(wǎng)。
圖2 客戶生命周期概要圖
面對(duì)多變的詐騙號(hào)碼行為,利用用戶生命周期系統(tǒng)對(duì)電信用戶進(jìn)行劃分,能更有效地監(jiān)控詐騙行為。將涉案號(hào)碼按照發(fā)展、提升、穩(wěn)定/衰退期劃分,觀察其通話次數(shù)在一整月的變化情況。由于詐騙號(hào)碼對(duì)于運(yùn)營(yíng)商來(lái)說(shuō),屬于一種擁有特殊行為的客戶。只要是客戶都遵循用戶的生命周期,從誕生到成長(zhǎng),從成長(zhǎng)到消亡。所以詐騙涉案號(hào)碼遵循客戶生命周期分割后,是否更能清晰的展示趨勢(shì)特征,是本文探討的問(wèn)題。
對(duì)發(fā)展期、提升期、穩(wěn)定/衰退期的涉案號(hào)碼進(jìn)行聚類探索,如圖3(a)、圖4(a)、圖5(a)可知在聚類中心為3個(gè)的時(shí)候,離差平方和開(kāi)始趨于穩(wěn)定,所以可知當(dāng)月入網(wǎng)的涉案號(hào)碼可以分為3類。
發(fā)展期的三個(gè)聚類中心,見(jiàn)圖3(b),第一個(gè)分類在2-3日時(shí),主叫次數(shù)開(kāi)始突增,在5日的時(shí)候達(dá)到峰值,后兩天開(kāi)始急劇減少,該類涉案號(hào)碼在月初的時(shí)候擁有集中大量呼叫行為;第二類在31天中幾乎處于靜默狀態(tài),在15日之間有5次左右的主叫通話;第三類是在12日之前處于靜默狀態(tài),12-15日的時(shí)候主叫次數(shù)開(kāi)始突增。
圖3(a) 發(fā)展期聚類中心點(diǎn)最佳數(shù)量
圖3(b) 發(fā)展期3類聚類31天趨勢(shì)
提升期的三個(gè)聚類中心,見(jiàn)圖4(b),第一個(gè)分類在1-10日間有大量的通話主叫,在15日后進(jìn)入靜默狀態(tài);第二個(gè)分類在1-5日之間有5次左右的主叫通話,其他天處于靜默狀態(tài);第三類在5日開(kāi)始,每日都有頻繁的主叫通話行為。
圖4(a) 提升期聚類中心點(diǎn)最佳數(shù)量
圖4(b) 提升期3類聚類31天趨勢(shì)
穩(wěn)定/衰退期的三個(gè)聚類中心,見(jiàn)圖5(b),第一個(gè)分類在1-10日間有大量的通話主叫,在15日后進(jìn)入靜默狀態(tài),這行為與提升期的第一個(gè)分類類似;第二個(gè)分類在5日開(kāi)始,每日都有頻繁的主叫通話行為,15日后又回到靜默狀態(tài);第二個(gè)分類在5-10日之間有5次左右的主叫通話,其他天處于靜默狀態(tài)。
圖5(a) 穩(wěn)定/衰退期聚類中心點(diǎn)最佳數(shù)量
圖5(b) 穩(wěn)定/衰退期3類聚類31天趨勢(shì)
經(jīng)過(guò)上述探索,發(fā)現(xiàn)在發(fā)展期、提升期和穩(wěn)定期的詐騙涉案號(hào)碼都有不同的通話行為特征。新發(fā)展的號(hào)碼會(huì)在當(dāng)月開(kāi)戶后有大量的主叫行為,一般從5日后開(kāi)始;提升期和穩(wěn)定期的詐騙涉案號(hào)碼在月初1日開(kāi)始就有急劇的主叫通話行為;提升期的分類中,有著全月主叫通話來(lái)回震蕩的行為。
經(jīng)過(guò)上訴的研究分析,若需要對(duì)涉案號(hào)碼在當(dāng)月行為趨勢(shì)進(jìn)行分析,最好的方式是利用聚類算法。在探索趨勢(shì)聚類的過(guò)程中,因?yàn)橼厔?shì)數(shù)據(jù)離散,聚類中心點(diǎn)擬合度不高。為提高擬合度,根據(jù)電信用戶行為特征,利用客戶生命周期體系將用戶切割,在各周期中進(jìn)行聚類,效果良好。該研究探索了客戶生命周期理論和聚類方法在電信詐騙領(lǐng)域中的應(yīng)用,發(fā)現(xiàn)處于不同周期的詐騙號(hào)碼在涉案月中每日時(shí)間序列有著不同的行為趨勢(shì)。后續(xù)將對(duì)正常用戶的使用行為依據(jù)本文中的方法進(jìn)行探索,并與涉案用戶的行為進(jìn)行對(duì)比,為詐騙行為監(jiān)控提供數(shù)據(jù)上的支撐,精準(zhǔn)地捕獲涉案號(hào)碼。
[1]李力卡,張慧嫦. 基于信令的電話詐騙行為檢測(cè)及防范研究. [D].廣東省電信規(guī)劃設(shè)計(jì)院有限公司,2016.
[2]程錦紅,蕭瑤,方雅麗,等. 基于大數(shù)據(jù)的防范電話詐騙體系架構(gòu)研究[D].中國(guó)電信廣東研究院,2020.
[3]韓瑞瑞. K-means聚類算法的研究[D]. 中國(guó)石油大學(xué)(華東),2020.
[4]王國(guó)徽,姚儉. 基于Kmeans算法的模糊時(shí)間序列預(yù)測(cè)模型[J]. 應(yīng)用泛函分析學(xué)報(bào),2015(01):58-65.
[5]劉慧婷,倪志偉. 基于EMD與K-means算法的時(shí)間序列聚類[J]. 模式識(shí)別與人工智能,2009,22(5):803-808.
[6]鄧潔君. 電信客戶生命周期價(jià)值模型及在客戶細(xì)分中的應(yīng)用研究[D]. 四川大學(xué),2007.
[7]周雨欣. 電信客戶生命周期特征與營(yíng)銷策略研究[D]. 南京郵電大學(xué),2005.
[8]舒華英,齊佳音. 電信客戶全生命周期管理[M]. 北京郵電大學(xué)出版社,2004.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年2期