杜宇
摘 ? 要:本文基于信令大數(shù)據(jù)分析和建模思路,完成高頻高量呼叫的識別模型的研究,以危害網(wǎng)絡(luò)安全行為分析為主,整合網(wǎng)絡(luò)信令數(shù)據(jù)源,利用用戶行為數(shù)據(jù)進行建模,定位非法養(yǎng)卡用戶,實施精確打擊,達到利用現(xiàn)網(wǎng)數(shù)據(jù)合理識別與攔截的目標(biāo)。綜合建模分析,獲取疑似貓池卡號及使用位置,通過BOSS系統(tǒng)用戶付費行為、業(yè)務(wù)使用情況、營銷活動等用戶簽約信息。
關(guān)鍵詞:大數(shù)據(jù) ?機器學(xué)習(xí) ?貓池養(yǎng)卡
中圖分類號:F713.51 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)06(b)-0133-02
挖掘“貓池養(yǎng)卡”行為研究通過全網(wǎng)信令數(shù)據(jù)、以及第三方平臺(打碼平臺、薅羊毛平臺等)等多渠道的數(shù)據(jù),綜合建模分析,獲取疑似貓池卡號及使用位置,通過BOSS系統(tǒng)用戶付費行為、業(yè)務(wù)使用情況、營銷活動等用戶簽約信息,進一步精確確認疑似號碼,同時獲取終端及位置,最后對疑似貓池卡號進行人工確認后進行攔截。
貓池卡號識別與監(jiān)控系統(tǒng)主要分為五大方面的能力,主要包括貓池養(yǎng)卡號碼識別、貓池養(yǎng)卡終端識別、設(shè)備準(zhǔn)確定位、機器學(xué)習(xí)優(yōu)化挖掘模型和系統(tǒng)管控能力。
總體系統(tǒng)設(shè)計分為5個部分,包括數(shù)據(jù)采集、數(shù)據(jù)計算、數(shù)據(jù)挖掘及存儲、用戶攔截及效果展示。
1 ?工作流程
1.1 底層數(shù)據(jù)接口
由運營系統(tǒng)數(shù)據(jù)、信令數(shù)據(jù)以及爬蟲獲取的第三方數(shù)據(jù)接口組成,這些數(shù)據(jù)作為底層數(shù)據(jù)供大數(shù)據(jù)存儲與分析平臺使用。
1.2 大數(shù)據(jù)存儲與分析平臺
大數(shù)據(jù)存儲平臺由Hive數(shù)據(jù)倉庫、Redis數(shù)據(jù)庫、MySql數(shù)據(jù)庫組成,Hive文件主要存儲采集預(yù)處理后的源數(shù)據(jù),數(shù)據(jù)量比較大,Redis數(shù)據(jù)庫主要存儲數(shù)據(jù)分析中的相關(guān)維表,MySql作為向外部提供分析結(jié)果的數(shù)據(jù)庫,展現(xiàn)和接口提供的分析結(jié)果存在MySql中。
大數(shù)據(jù)分析平臺從底層數(shù)據(jù)接口中提取相關(guān)數(shù)據(jù)文件,然后解析文件里的每條數(shù)據(jù),對數(shù)據(jù)進行簡單的清洗,過濾掉無效的垃圾數(shù)據(jù),并將數(shù)據(jù)存入相應(yīng)的hive數(shù)據(jù)庫中[1]。
1.3 模型層
由MapReduce以及hive定時任務(wù)組成,將分析平臺存入hive數(shù)據(jù)庫中數(shù)據(jù)做進一步分析,通過基于規(guī)則模型識別疑似貓池號碼。
1.4 結(jié)果輸出
根據(jù)結(jié)果形式以及客戶的需求,將分析結(jié)果以文件、報表、接口或者其他形式提供展現(xiàn)。
2 ?目標(biāo)用戶特征挖掘
2.1 特征提取
特征提取涵蓋兩大類數(shù)據(jù)源:信令和BOSS數(shù)據(jù)。信令數(shù)據(jù)又進一步細分為通話行為數(shù)據(jù)、短信行為數(shù)據(jù)、開關(guān)機行為數(shù)據(jù)。BOSS數(shù)據(jù)又進一步細分為消費信息、業(yè)務(wù)量信息、套餐信息、終端信息、開戶信息。
進一步整理細分,提取信令和通信行為兩大類8大維度共50多個特征,如圖1所示。
2.2 特征分析
根據(jù)統(tǒng)計,使用貓池養(yǎng)卡的人群中約有15%~20%左右用來“薅羊毛”(即通過驗證碼套利、搶傭金等享受優(yōu)惠),而約70%是用這些手機號生成的賬號來欺詐。
對上節(jié)提取的特征進行分析,正常號碼與貓池號碼在某些特征上具有顯著區(qū)別,提取全部特征點。
3 ?貓池養(yǎng)卡識別模型
根據(jù)典型的使用場景將貓池判定模型細分為3類,提取關(guān)鍵特征建模使用。
場景一:貓池養(yǎng)卡號碼用于詐騙/騷擾電話(呼死你、響一聲、高頻間隙呼叫)。
特征:在通話量、通話時長、通話頻率、釋放時長、使用流量和用戶消費等與真實用戶存在差異。
場景二:貓池養(yǎng)卡號碼用于詐騙/騷擾短信。
特征:在短信發(fā)收量、短信發(fā)收頻率、短信發(fā)收用戶數(shù)、使用流量等與真實用戶存在差異,增加開機時長和天數(shù)等參數(shù),從信令角度對話單中無法顯示或無法有效分析的維度進行補充。
場景三:貓池養(yǎng)卡號碼用于“薅羊毛”。
特征:該類號碼主要用來接收平臺端的短信,因此其接收的短信主要以106開頭,其占比超過90%,并且其發(fā)送短信量較少??梢跃唧w分析短信中的社交信息,結(jié)合用戶消費信息和其他相關(guān)特征進行分析。
3.1 模型優(yōu)化
噪音特征的刪減是一個優(yōu)化模型的手段。上訴過程中,可能引入對于分類問題無幫助的特征,無形中浪費了計算力,更糟糕的情況是,有的噪音特征不僅只是對分類問題無幫助,而是直接拉低了模型的識別能力。識別噪音特征的方法之一是基于豐富的業(yè)務(wù)知識做特征選擇和試驗,此外另一種方法則是對數(shù)據(jù)的特征做統(tǒng)計分析,這在缺少對業(yè)務(wù)的把握能力時具有很高的現(xiàn)實意義[2]。
此外結(jié)合具體的情況調(diào)節(jié)算法本身的相關(guān)參數(shù)也可起到一定的優(yōu)化效果,例如在本案例中,調(diào)整近鄰參考個數(shù),從而改進模型的識別效果。
隨著模型的深入使用,樣本數(shù)據(jù)可能會收集的越來越多,養(yǎng)卡樣本數(shù)據(jù)量的增加,也會反向促使模型的識別性能更加優(yōu)良。
3.2 貓池卡號攔截
針對每天識別的疑似貓池養(yǎng)卡號碼送至騷擾電話監(jiān)控系統(tǒng)進行二次人為確認和攔截,確保貓池號碼得到及時處理,攔截后的結(jié)果返回貓池卡號識別與監(jiān)控系統(tǒng),再次以周為周期自動通過決策樹和支持向量機算法模型智能優(yōu)化調(diào)整,獲取最佳識別模型。打擊貓池養(yǎng)卡行為,打擊囤卡和套利網(wǎng)點,減少非法投票、廣告?zhèn)鞑ァ⒎欠ㄔp騙等造成的垃圾短信、騷擾電話困擾正常用戶。配合公安部門打擊非法營銷、詐騙現(xiàn)象。
4 ?結(jié)語
針對養(yǎng)卡行為難以通過具體業(yè)務(wù)指標(biāo)參數(shù)進行識別的特點,采用了基于機器學(xué)習(xí)的建模方式,通過行為模式內(nèi)建,規(guī)避了養(yǎng)卡行為難以把握的問題。養(yǎng)卡行為識別之所以一直是一個難點,其主要原因就在于養(yǎng)卡行為的行為模式本身變化多端,難以把握。不同階段,養(yǎng)卡訴求的不同,養(yǎng)卡行為的模式往往隨之變遷,傳統(tǒng)的建模方法在這種情況下,則可能需要完全從頭開始建立一個新的模型,因為老模型已經(jīng)無法體現(xiàn)當(dāng)前的養(yǎng)卡行為模式。本成果通過采用機器學(xué)習(xí)理論建模,讓養(yǎng)卡行為模式自動內(nèi)建于模型之中,而不是人為設(shè)置具體的業(yè)務(wù)指標(biāo)閥值進行控制,規(guī)避了養(yǎng)卡行為不好把握的特點。
參考文獻
[1] 趙慶.基于Hadoop平臺下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.
[2] 溫瑞軍.移動代理商渠道養(yǎng)卡套利行為識別與治理[J].電子技術(shù)與軟件工程,2015(3):54-55.
[3] 萬旭.基于Hadoop平臺的聚類算法研究[D].西安電子科技大學(xué),2016.