姚躍
摘要:違規(guī)短信是詐騙分子的溫床,亟須嚴(yán)格管控。文章提出了基于數(shù)據(jù)挖掘的違規(guī)短信自動(dòng)識(shí)別算法設(shè)計(jì),通過決策樹分類算法技術(shù)進(jìn)行違規(guī)短信判決,構(gòu)建違規(guī)短信自動(dòng)識(shí)別算法模型,設(shè)計(jì)模型系統(tǒng)的架構(gòu)生成、指標(biāo)屬性以及工作流程。實(shí)驗(yàn)分析,利用基于數(shù)據(jù)挖掘技術(shù)的違規(guī)短信自動(dòng)識(shí)別算法準(zhǔn)確率雖存在一定的波動(dòng)性,違規(guī)短信自動(dòng)識(shí)別的準(zhǔn)確率為96.42%,但能夠較好地識(shí)別疑似違規(guī)短信,實(shí)現(xiàn)有效識(shí)別與控制違規(guī)短信用戶,高效治理違規(guī)短信現(xiàn)象的終極目標(biāo)。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;違規(guī)短信;信息自動(dòng)識(shí)別
中圖分類號(hào):TP311? 文獻(xiàn)標(biāo)志碼:A
0 引言
短信屬性自動(dòng)識(shí)別是維護(hù)信息安全的重要依據(jù),違規(guī)信息的散布在造成垃圾信息的同時(shí),也為違法犯罪活動(dòng)提供了平臺(tái),有必要嚴(yán)格管控。隨著違規(guī)短信隱蔽性逐漸增強(qiáng),當(dāng)前以黑白名單、關(guān)鍵字詞監(jiān)控以及文本分類過濾等技術(shù)為主的違規(guī)短信攔截處理方法已經(jīng)無法滿足短信治理工作的需要[1]。本設(shè)計(jì)基于數(shù)據(jù)挖掘的違規(guī)短信自動(dòng)識(shí)別算法,動(dòng)態(tài)提取短信的信號(hào)數(shù)據(jù)特征,構(gòu)建違規(guī)短信自動(dòng)識(shí)別計(jì)算模型,可完成短信接收端與違規(guī)短信識(shí)別平臺(tái)的對(duì)接。此外,本設(shè)計(jì)通過數(shù)據(jù)監(jiān)測(cè)獲取全部短信內(nèi)容,使其經(jīng)短信自動(dòng)識(shí)別系統(tǒng)確認(rèn)后,可實(shí)現(xiàn)對(duì)違規(guī)短信的自動(dòng)篩查[2]。對(duì)短信進(jìn)行精細(xì)化數(shù)據(jù)管理,有助于提升違規(guī)短信的治理效率,保障通信信息安全[3]。
1 基于決策樹分類算法的違規(guī)短信判決
1.1 特征提取
用于識(shí)別違規(guī)短信信號(hào)特征的提取是實(shí)現(xiàn)內(nèi)容判決自動(dòng)識(shí)別的關(guān)鍵環(huán)節(jié),本設(shè)計(jì)主要結(jié)合了現(xiàn)有樣本數(shù)據(jù)信息,對(duì)違規(guī)短信數(shù)量、違規(guī)短信類型、涉及發(fā)送違規(guī)信息的手機(jī)號(hào)碼等多個(gè)違規(guī)數(shù)據(jù)進(jìn)行了特征提?。?]。結(jié)果如表1所示。
如表1所示,本文將采集到的初始信息進(jìn)行預(yù)處理及屬性判定后作為決策樹的樣本數(shù)據(jù)。違規(guī)短信權(quán)重計(jì)算公式:
Xweight(wi)=pp(wi,C)P(wi,C)-P(wi,C)P(wi,C)p(wi)P(wi)P(C)P(C)(1)
其中,p=wi2(2)
式中,wi為不包含詞wi的數(shù)據(jù)樣本,P(wi,C)為不在分類C中且不包含詞wi的樣本數(shù)據(jù)信息在所有樣本中的概率。|wi|為詞wi的樣本數(shù)據(jù)長(zhǎng)度,式(1)與式(2)表示了短信用詞詞頻、短信用詞在樣本空間中的使用情況以及短信用詞數(shù)據(jù)長(zhǎng)度,得出:常規(guī)情況下樣本數(shù)據(jù)長(zhǎng)度越長(zhǎng)的短信違規(guī)短信特征屬性越顯明,被識(shí)別為違規(guī)短信的概率越高,且權(quán)重較高,定義閾值如下式(3):
η=(1-k)minXweight(wi)+kmaxXweight(wi)(3)
式中,k為特征提取系數(shù),取值范圍為[0,1],結(jié)果表明k取0.7為最佳值,權(quán)重大于此值的特征詞將被提取。特征屬性中的長(zhǎng)度特征用樣本數(shù)據(jù)長(zhǎng)度說明,屬性值為離散值;違規(guī)短信類型特征以違規(guī)廣告信息宣傳、信息精神污染、詐騙信息做特征屬性說明,特征屬性值為離散值;短信源頭規(guī)范用是否滿足源頭規(guī)范做說明,特征屬性值為0/1;手機(jī)號(hào)碼歸屬地以手機(jī)號(hào)碼是否為本地做屬性說明,特征屬性值為0/1。以此得出違規(guī)分類算法屬性類別,在決策樹分類算法識(shí)別中的數(shù)據(jù)特征提取完成。
1.2 決策樹生成
本文采用提取出的信息增益作為選擇決策點(diǎn)依據(jù),計(jì)算決策樹各特征屬性的信息增益,選取信息增益最大特征作為決策點(diǎn),由上而下生成決策樹。設(shè)S為某短信數(shù)據(jù)源中的s個(gè)樣本數(shù)據(jù)的總和,{C1,C2,…,Cm}為其列度中的m個(gè)不同標(biāo)識(shí),且si為列度標(biāo)識(shí)Ci中的樣本數(shù)量,由此得出,短信樣本集分類所需的期望信息為:
I(s1,s2,…,sm)=-∑mi=1pilog2(pi)(4)
式中,I(s1,s2,…,sm)表示短信樣本集s1,s2,…,sm分類所需的期望值,pi為任一短信樣本屬于列維度標(biāo)識(shí)Ci的概率。假設(shè)一個(gè)特征a取v個(gè)不同的值{v1,v2,…,vv},利用a將集合S劃分為v個(gè)子集{S1,S2,…,Sv},其中S1包含了S集合中特征a取v1值的短信數(shù)據(jù)樣本,若特征a被選擇為劃分已有短信樣本集的決策屬性點(diǎn),設(shè)Sij為子集Sj中屬于Ci列標(biāo)識(shí)的樣本集,利用a劃分已有樣本集的信息決策點(diǎn)所需要的信息熵為:
E(a)=∑vj=1s1j+s2j+…smjsI(s1j,s2j,…,smj)=-∑vj=1∑mi=1s1j+s2j+smjspijlog(pij)(5)
式中,E(a)是已有短信樣本集所需要的信息熵,pij為子集sj中任意一個(gè)數(shù)據(jù)樣本屬于列標(biāo)識(shí)Ci的概率。利用特征對(duì)分支節(jié)點(diǎn)劃分樣本集所獲得的信息增益即可生成違規(guī)短信判決決策樹分類[5] 。
2 違規(guī)短信自動(dòng)識(shí)別模型構(gòu)建
在違規(guī)短信識(shí)別模型中,假設(shè)y為決定用戶是正常用戶還是違規(guī)短信用戶的二值變量,以y=1代表違規(guī)短信用戶,以y=0代表正常用戶,以p表示以統(tǒng)計(jì)學(xué)的計(jì)算方式對(duì)短信接收用戶進(jìn)行預(yù)測(cè)的預(yù)測(cè)值,即y=1的概率。一般情況下,p的值與短信接收用戶是違規(guī)短信用戶的可能性成正比,p的值越大,該用戶是違規(guī)短信用戶的可能性越高;p值越小,該用戶是違規(guī)短信用戶的可能性便越小。計(jì)算方式可依據(jù)Logistic的線性回歸模型,如下式(6)所示。
logp1-p=β0+β1X1+…+βnXn(6)
式中,p=p(y=1)是二值變量中y=1的概率,X1,X2,…Xn是影響y=1的n個(gè)預(yù)測(cè)變量。β0,β1,…βn是需要結(jié)合短信用戶數(shù)據(jù)等相關(guān)數(shù)據(jù)庫(kù)進(jìn)行預(yù)估的模型參數(shù)。將收集到的短信樣本組以7∶3的比例劃分為訓(xùn)練集與測(cè)試集,依據(jù)訓(xùn)練集求出模型參數(shù)β0,β1…βn的值,將各數(shù)據(jù)的值代入表達(dá)式中求得p(y=1)的值。此時(shí)可依據(jù)得到的結(jié)果進(jìn)行判斷,當(dāng)p等于1時(shí),短信為正常短信,不予處置,正常進(jìn)行信息接收;當(dāng)p不等于1時(shí),短信被自動(dòng)識(shí)別為違規(guī)短信。
(6)根據(jù)決策樹處理違規(guī)短信,依照違規(guī)短信識(shí)別攔截規(guī)則生成短信識(shí)別攔截方案,進(jìn)而通過判斷違規(guī)短信的攔截參數(shù)是否符合預(yù)期攔截要求進(jìn)行短信識(shí)別,計(jì)算攔截參數(shù)具體如下式(7):
pl=MN(7)
式中,pl為攔截參數(shù),M為違規(guī)信息攔截概率,N為用戶接收的短信條數(shù)。違規(guī)短信自動(dòng)識(shí)別即以采集的違規(guī)短信為依據(jù)獲取違規(guī)短信數(shù)據(jù),在此基礎(chǔ)上隨機(jī)抽取部分非違規(guī)短信數(shù)據(jù)與之混合,形成短信自動(dòng)識(shí)別建模樣本組。選定樣本數(shù)據(jù)后,總體用戶數(shù)據(jù)庫(kù)提取與該用戶相關(guān)聯(lián)的短信,結(jié)合違規(guī)短信數(shù)據(jù)形成寬表,而后運(yùn)用計(jì)算方法進(jìn)行相關(guān)性數(shù)據(jù)的分析與整合,完成相應(yīng)的違規(guī)短信自動(dòng)識(shí)別參數(shù)計(jì)算。
3 測(cè)試實(shí)驗(yàn)
3.1 實(shí)驗(yàn)準(zhǔn)備
本文通過實(shí)驗(yàn)驗(yàn)證違規(guī)短信自動(dòng)識(shí)別設(shè)計(jì)的有效性。實(shí)驗(yàn)中的數(shù)據(jù)采用某信息平臺(tái)中采集到的含有多維未知屬性的結(jié)構(gòu)化數(shù)據(jù)源。為保障違規(guī)短信自動(dòng)識(shí)別模型數(shù)據(jù)獲取的精細(xì)化,實(shí)驗(yàn)以短信接收用戶接收短信的相關(guān)特征和數(shù)據(jù)的可獲取性原則為依據(jù),構(gòu)建違規(guī)短信自動(dòng)識(shí)別模型。具體實(shí)驗(yàn)以某兩個(gè)月上限的短信樣本數(shù)據(jù)為例,將樣本數(shù)據(jù)導(dǎo)入違規(guī)短信自動(dòng)識(shí)別算法模型,以3∶7的比例對(duì)樣本數(shù)據(jù)進(jìn)行分區(qū),建立Logistic的線性回歸模型,預(yù)估Logistic回歸模型的參數(shù),β0,β1,…βn,以及y=1的概率,具體數(shù)值如表2所示。
由表2可知,當(dāng)y=1時(shí),截距、網(wǎng)絡(luò)在線時(shí)長(zhǎng)、短信發(fā)送消耗費(fèi)用以及每月前3天內(nèi)集中時(shí)段短信發(fā)送條數(shù)的自由度一致,顯著水平穩(wěn)定;違規(guī)短信自動(dòng)識(shí)別算法的識(shí)別表現(xiàn)可從兩個(gè)方面進(jìn)行評(píng)判。本文對(duì)比訓(xùn)練集中獲取的違規(guī)短信用戶量以及測(cè)試集中獲取的違規(guī)短信用戶量數(shù)據(jù),獲取數(shù)據(jù)對(duì)比的差值,判斷違規(guī)短信自動(dòng)識(shí)別算法的識(shí)別結(jié)果是否可靠,獲取違規(guī)短信自動(dòng)識(shí)別波動(dòng)率及準(zhǔn)確率結(jié)果。
3.2 實(shí)驗(yàn)結(jié)果
3.2.1 波動(dòng)率
違規(guī)短信自動(dòng)識(shí)別的波動(dòng)率是指通過對(duì)已知的違規(guī)短信用戶量進(jìn)行對(duì)比,獲取的短信自動(dòng)識(shí)別訓(xùn)練集中的數(shù)據(jù)命中率與測(cè)試集中數(shù)據(jù)命中率的差值。實(shí)驗(yàn)以5個(gè)短信自動(dòng)識(shí)別基礎(chǔ)指標(biāo)為例,分別對(duì)置信區(qū)間,即指標(biāo)數(shù)據(jù)參數(shù)估計(jì)區(qū)間的上限及下限數(shù)據(jù)進(jìn)行計(jì)算,進(jìn)而通過上下限的數(shù)據(jù)比對(duì)得出違規(guī)短信自動(dòng)識(shí)別的波動(dòng)率,具體數(shù)值如表3所示。
短信自動(dòng)識(shí)別指標(biāo)的置信區(qū)間(eβ)上下限波動(dòng)值分別為0.01、0.003、0.003、0.002、0.008,違規(guī)短信自動(dòng)識(shí)別的波動(dòng)率幅度為0.8%上下,以此判定,違規(guī)短信自動(dòng)識(shí)別模型相對(duì)可靠。
3.2.2 自動(dòng)識(shí)別準(zhǔn)確率
違規(guī)短信識(shí)別準(zhǔn)確率即以所獲取短信中屬于黑名單的用戶在嫌疑黑名單中的所占比例為標(biāo)準(zhǔn)判斷違規(guī)短信自動(dòng)識(shí)別模型的穩(wěn)定可靠性。隨機(jī)采集某用戶近兩個(gè)月時(shí)間段內(nèi)的短信數(shù)據(jù)進(jìn)行分析,共獲取違規(guī)短信28條,經(jīng)對(duì)違規(guī)短信進(jìn)行樣本分析后,按照違規(guī)短信類型對(duì)違規(guī)短信進(jìn)行了分類,違規(guī)短信自動(dòng)識(shí)別模型對(duì)全部短信進(jìn)行識(shí)別判斷后,得出相關(guān)違規(guī)短信判斷數(shù)據(jù),經(jīng)數(shù)據(jù)分析與比對(duì)后得出違規(guī)短信自動(dòng)識(shí)別算法的準(zhǔn)確率,具體結(jié)果如表4所示。
據(jù)表4數(shù)據(jù)顯示,基于數(shù)據(jù)挖掘的違規(guī)短信自動(dòng)識(shí)別模型過濾的準(zhǔn)確率為96.42%。實(shí)驗(yàn)結(jié)果表明,基于數(shù)據(jù)挖掘技術(shù)的違規(guī)短信自動(dòng)識(shí)別模型識(shí)別的準(zhǔn)確率雖存在一定的波動(dòng)性,但能夠較好地識(shí)別疑似違規(guī)用戶中的違規(guī)短信,一定程度上能夠提升短信信息服務(wù)質(zhì)量,基于數(shù)據(jù)挖掘的違規(guī)短信自動(dòng)識(shí)別算法的穩(wěn)定性與可靠性較強(qiáng)。
4 結(jié)語
以數(shù)據(jù)挖掘技術(shù)為技術(shù)保障的違規(guī)信息自動(dòng)識(shí)別算法設(shè)計(jì),降低違規(guī)短信的不良影響是提升短信信息服務(wù)質(zhì)量、保障用戶信息安全的直接途徑。基于數(shù)據(jù)挖掘技術(shù)的違規(guī)短信自動(dòng)計(jì)算算法下,違規(guī)短信的識(shí)別率及識(shí)別準(zhǔn)確率較為精準(zhǔn),系統(tǒng)處理速率較快,能夠有效降低人工攔截違規(guī)短信的工作量,提升違規(guī)短信的攔截效率,實(shí)現(xiàn)違規(guī)短信過濾攔截的循環(huán)優(yōu)化,便于信息平臺(tái)精細(xì)化管理違規(guī)短信用戶,有效保障短信數(shù)據(jù)來源的安全性及用戶短信通信權(quán)益的穩(wěn)定性。
參考文獻(xiàn)
[1]李瓊陽,田萍.基于主成分分析的樸素貝葉斯算法在垃圾短信用戶識(shí)別中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2019(1):134-138.
[2]李靖超,錢迪,董春蕾.基于小波熵理論的決策樹信號(hào)分類識(shí)別算法[J].上海電機(jī)學(xué)院學(xué)報(bào),2019(2):100-103.
[3]邱達(dá)超,王海燕,李振華.談移動(dòng)互聯(lián)網(wǎng)時(shí)代的手機(jī)信息安全[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2020(8):21-26.
[4]王金棟,向前蘭,李岳.基于廣義數(shù)字的智能垃圾短信攔截系統(tǒng)設(shè)計(jì)[J].郵電設(shè)計(jì)技術(shù),2021(3):55-57.
[5]王金棟,任燕影,向前蘭.智能識(shí)別內(nèi)容的垃圾短信系統(tǒng)設(shè)計(jì)[J].內(nèi)江科技,2020(8):16-17.
(編輯 編輯傅金睿)
Design of automatic SMS recognition algorithm based on data mining
Yao? Yue
(Changsha Vocational & Technical College, Changsha 410217, China)
Abstract: Illegal SMS is the hotbed of fraudsters, which needs to be strictly controlled. Therefore, an automatic identification algorithm of illegal SMS based on data mining is proposed. Through the decision tree classification algorithm technology, we can judge the illegal short messages, build the automatic recognition algorithm model of illegal short messages, and design the architecture generation, index attributes and workflow of the model system. Through experimental analysis, although the accuracy rate of the automatic recognition algorithm of illegal short messages based on data mining technology has certain fluctuations, the accuracy rate of automatic recognition of illegal short messages is 96.42%, which can better identify suspected illegal short messages, realize the ultimate goal of effectively identifying and controlling illegal short message users, and effectively manage the phenomenon of illegal short messages.
Key words: data mining; decision tree; illegal SMS; automatic information identification