周勝利,徐嘯煬
研究與開發(fā)
基于網(wǎng)絡(luò)流量的用戶網(wǎng)絡(luò)行為被害性分析模型
周勝利,徐嘯煬
(浙江警察學(xué)院,浙江 杭州 310051)
網(wǎng)絡(luò)行為被害性分析對(duì)于電信網(wǎng)絡(luò)詐騙犯罪的防控具有深遠(yuǎn)意義。通過研究用戶與網(wǎng)站交互產(chǎn)生的網(wǎng)絡(luò)流量,提出一種基于網(wǎng)絡(luò)流量分析的電信網(wǎng)絡(luò)詐騙犯罪用戶網(wǎng)絡(luò)行為被害性識(shí)別模型,分析不同網(wǎng)絡(luò)行為特征之間的關(guān)聯(lián)規(guī)則,重構(gòu)網(wǎng)絡(luò)行為序列特征,同時(shí)結(jié)合隨機(jī)森林算法評(píng)估網(wǎng)絡(luò)行為的被害性。在被害人網(wǎng)絡(luò)行為數(shù)據(jù)集基礎(chǔ)上進(jìn)行實(shí)驗(yàn),證明模型能夠有效提升網(wǎng)絡(luò)行為被害性識(shí)別準(zhǔn)確率。
網(wǎng)絡(luò)流量;網(wǎng)絡(luò)行為編碼;關(guān)聯(lián)規(guī)則挖掘;被害性分析
隨著電信網(wǎng)絡(luò)技術(shù)和互聯(lián)網(wǎng)金融業(yè)務(wù)的快速發(fā)展,電信網(wǎng)絡(luò)詐騙正逐步取代傳統(tǒng)詐騙犯罪,成為當(dāng)前犯罪的主要形式,嚴(yán)重威脅人民生命財(cái)產(chǎn)安全。公安部統(tǒng)計(jì)數(shù)據(jù)顯示,全國電信網(wǎng)絡(luò)詐騙犯罪從2011年的84 514起飆升至2019年的808 730起;受騙金額從2011年的100億元飆升至2019年的192億元。盡管當(dāng)前國家采取了形式多樣的預(yù)警和防控措施,取得了一定成效,但仍舊缺乏精準(zhǔn)、高效的智能監(jiān)測預(yù)警方法,打擊防范犯罪形勢依然非常嚴(yán)峻。開展基于網(wǎng)絡(luò)行為流量分析的電信網(wǎng)絡(luò)詐騙犯罪被害性識(shí)別技術(shù)研究能夠有效提高犯罪預(yù)警的精準(zhǔn)性和效率,從而更好地保護(hù)人民生命財(cái)產(chǎn)安全。
針對(duì)電信網(wǎng)絡(luò)詐騙犯罪防控研究中網(wǎng)絡(luò)行為特征選取表面化、特征間內(nèi)在規(guī)則挖掘不足、網(wǎng)絡(luò)行為稀疏、行為序列間關(guān)系難以確定等問題,本文提出基于網(wǎng)絡(luò)行為流量分析的電信網(wǎng)絡(luò)詐騙犯罪被害性識(shí)別模型(victimization identification model of telecom fraud crime based on network behavior traffic,VIM-TFCN),分析用戶行為特征,挖掘潛在關(guān)聯(lián)規(guī)則,綜合評(píng)估用戶被害風(fēng)險(xiǎn),達(dá)到電信網(wǎng)絡(luò)詐騙犯罪高效預(yù)警的目的。
國內(nèi)外與本文相關(guān)的研究主要集中在電信網(wǎng)絡(luò)詐騙犯罪識(shí)別與防控、網(wǎng)絡(luò)流量分析、網(wǎng)絡(luò)行為分析。
電信網(wǎng)絡(luò)詐騙犯罪研究領(lǐng)域,國內(nèi)外學(xué)者主要利用數(shù)據(jù)挖掘、自然語言處理等方法進(jìn)行電信網(wǎng)絡(luò)詐騙犯罪特征態(tài)勢[1]、異常通信分析模型[2-3]、語音識(shí)別模型[4]等方面研究以及采用網(wǎng)頁相似度分析[5]、基于網(wǎng)頁關(guān)系檢測與網(wǎng)站鏈接評(píng)估的檢測方法[6]、惡意域名檢測方法[7-8]與BERT遷移學(xué)習(xí)方法[9]進(jìn)行電信網(wǎng)絡(luò)詐騙平臺(tái)識(shí)別預(yù)警研究。以上方法主要針對(duì)電信網(wǎng)絡(luò)詐騙犯罪平臺(tái)或者詐騙通信進(jìn)行識(shí)別,缺少對(duì)電信網(wǎng)絡(luò)詐騙犯罪被害人網(wǎng)絡(luò)行為分析預(yù)測,且在具體研究方法上存在特征冗余程度較高、識(shí)別維度單一等問題。電信網(wǎng)絡(luò)詐騙防控實(shí)戰(zhàn)應(yīng)用領(lǐng)域,Endgame公司開發(fā)網(wǎng)絡(luò)平臺(tái)實(shí)時(shí)分析可疑網(wǎng)絡(luò)活動(dòng),為電信網(wǎng)絡(luò)詐騙案件偵破助力。360公司在“通用算法引擎”與“定制化算法引擎”機(jī)制構(gòu)建上取得重大進(jìn)展,開發(fā)智控?商業(yè)反欺詐平臺(tái)實(shí)現(xiàn)黑/灰產(chǎn)業(yè)鏈的動(dòng)態(tài)監(jiān)視。阿里巴巴公司為移動(dòng)保障安全,開發(fā)安全錢盾反詐平臺(tái)。
對(duì)于異常流量檢測研究,Zolotukhin等[10]以流量日志分析為基礎(chǔ),提出了一種對(duì)攻擊Web應(yīng)用行為的異常檢測方法。Yu等[11]、Yang等[12]等采用自然語言識(shí)別的方法,通過建立相關(guān)詞庫進(jìn)行分詞預(yù)處理,最終以神經(jīng)網(wǎng)絡(luò)模型進(jìn)行異常檢測。Park等[13]提出了基于二值圖變換的卷積自動(dòng)編碼器,對(duì)流量數(shù)據(jù)分組進(jìn)行異常檢測。在提取流量的有效數(shù)據(jù)上,Arzhakov等[14]提出使用蜜罐技術(shù)收集用戶行為統(tǒng)計(jì)信息,并基于統(tǒng)計(jì)結(jié)果來區(qū)分不同種類的流量。Thang等[15]建立了基于密度的噪聲應(yīng)用空間聚類模型來提取流量中的有效數(shù)據(jù)。在混合模型方面,Zhang等[16-17]提出采用隱馬爾可夫模型、概率分布模型、支持向量機(jī)等模型對(duì)HTTP請(qǐng)求進(jìn)行異常檢測。
當(dāng)前對(duì)網(wǎng)絡(luò)行為分析的研究主要包括網(wǎng)絡(luò)行為異常行為檢測和推薦系統(tǒng)研究。
異常行為檢測方面,連一峰等[18]采用關(guān)聯(lián)分析與序列挖掘技術(shù),通過比較用戶當(dāng)前行為模式與歷史行為模式的相似度判斷異常。該方法能夠?qū)崿F(xiàn)對(duì)用戶異常行為的檢測,但缺少應(yīng)對(duì)大規(guī)模數(shù)據(jù)的能力。田新廣等[19]針對(duì)上述模型的不足,改進(jìn)了用戶行為模式的表示方式,聯(lián)合采用多個(gè)判決門限對(duì)用戶行為進(jìn)行判斷,并提出IDS異常檢測模型。該模型具備更高的檢測效能,但存在應(yīng)用范圍有限和檢測邊界模糊的問題。陳勝等[20]為了解決傳統(tǒng)異常行為檢測方法難以應(yīng)對(duì)海量數(shù)據(jù),無法及時(shí)響應(yīng)新行為的問題,提出了一種基于深度神經(jīng)網(wǎng)絡(luò),并能夠自定義用戶行為的檢測模型。該模型擁有海量數(shù)據(jù)檢測能力,能夠檢測未知的異常行為,具有較高精確度與魯棒性。胡富增等[21]探究用戶行為特征及行為模式,采用聚類分析算法,對(duì)用戶日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與聚類分析,最終實(shí)現(xiàn)行為模型的建立。該方法具有簡便的特點(diǎn),但不足之處在于識(shí)別成功率偏低,準(zhǔn)確率不足。
推薦系統(tǒng)研究方面,Wang等[22]通過比較其他傳統(tǒng)的推薦系統(tǒng)(recommender system,RS),提出了一種基于會(huì)話的推薦系統(tǒng)(session-based recommender system,SBRS)模型分析用戶行為,并在此基礎(chǔ)上引入了等級(jí)分層框架,分析討論了推薦模型在用戶行為分析上的優(yōu)點(diǎn)與不足。Tang等[23]建立了一種卷積嵌入的Top-序列推薦模型,采用卷積濾波器進(jìn)行分析,具有較理想的效果。Sun等[24]同樣使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,提出一種雙向編碼的序列推薦模型。該模型對(duì)用戶行為采用雙向自注意機(jī)制,解決了當(dāng)下推薦模型中普遍存在的用戶動(dòng)態(tài)取向及歷史行為問題。Hidasi等[25]采用了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,通過調(diào)整等級(jí)損失函數(shù)來解決特定問題,因此獲得了優(yōu)秀的效果。Kang等[26]分析了常用的兩種用于順序動(dòng)態(tài)捕獲的方法:馬爾可夫鏈和循環(huán)神經(jīng)網(wǎng)絡(luò)。為兼顧前者簡約的優(yōu)勢和后者在高密度數(shù)據(jù)集中表現(xiàn)優(yōu)秀的特性,提出一種基于自我注意的順序模型。該模型能夠捕獲長期語義,同時(shí)使用關(guān)注機(jī)制來進(jìn)行短期預(yù)測。
綜上所述,當(dāng)前對(duì)于網(wǎng)絡(luò)行為分析的研究主要應(yīng)用于推薦系統(tǒng)并服務(wù)于移動(dòng)式應(yīng)用中,在電信網(wǎng)絡(luò)詐騙犯罪防控領(lǐng)域應(yīng)用較少。在網(wǎng)絡(luò)行為分析的具體技術(shù)上,當(dāng)前網(wǎng)絡(luò)行為編碼技術(shù)主要以挖掘網(wǎng)絡(luò)流量的表面特征為主,存在特征冗余大且選取困難的問題;對(duì)用戶行為傾向性的分析大多只考慮單次網(wǎng)絡(luò)行為,缺少對(duì)內(nèi)部特征的挖掘。因此,針對(duì)網(wǎng)絡(luò)行為分析中特征間關(guān)系難以確定、特征選取困難、行為稀疏且行為間關(guān)系不確定、行為無法表達(dá)真實(shí)意圖等問題,本文提出了VIM-TFCN模型。模型主要貢獻(xiàn):用隨機(jī)森林算法結(jié)合行為特征關(guān)聯(lián),解決行為稀疏、關(guān)系不明確與某些行為無法表達(dá)真實(shí)意圖的問題,達(dá)到精確地預(yù)測網(wǎng)絡(luò)行為序列的被害性的目的。
定義1 (隱性行為特征)包括從網(wǎng)絡(luò)流量的交互情況、數(shù)據(jù)量、時(shí)間3個(gè)角度提取的特征,用feat表示,feat∈Feature。
定義2 (顯性行為特征)指用戶在進(jìn)行單擊、評(píng)論、注冊(cè)、登錄、交易等的行為特征序列,用act表示,act∈Feature。
定義3 (網(wǎng)絡(luò)行為編碼)將每一條用戶行為的特征序列進(jìn)行行為編碼,其中feat采用means算法進(jìn)行離散化,不考慮連續(xù)數(shù)值的意義;act則通過預(yù)先設(shè)立的字典,使用label_binarize二值化編碼。重構(gòu)特征序列Feature并表示為action,action∈Action。以此得出行為矩陣Action。
定義4 (顯隱性行為特征間的關(guān)聯(lián)規(guī)則(rule))通過挖掘特征序列發(fā)現(xiàn),當(dāng)顯隱性行為呈現(xiàn)出特定的組合后,該行為序列的被害性會(huì)大大增加。這種特定的組合關(guān)系被稱作顯隱性行為的關(guān)聯(lián)規(guī)則。
定義5 (關(guān)聯(lián)規(guī)則特征序列)通過挖掘已知的被害行為序列顯隱性行為,得到關(guān)聯(lián)規(guī)則列表。被害與非被害行為序列全部使用關(guān)聯(lián)規(guī)則列表進(jìn)行重構(gòu),將重構(gòu)后的特征序列稱為關(guān)聯(lián)規(guī)則特征序列。
問題定義 給定用戶與服務(wù)器之間交互時(shí)所提取的行為特征矩陣,判斷用戶行為特征序列是否具有被害性。
VIM-TFCN模型主要包括兩個(gè)部分:網(wǎng)絡(luò)行為特征挖掘、電信網(wǎng)絡(luò)詐騙被害性分析。模型流程如圖1所示。
圖1 VIM-TFCN模型流程
用戶在訪問網(wǎng)站時(shí)存在顯性與隱性的行為特征。通過顯性與隱性網(wǎng)絡(luò)行為特征研究,能夠提高行為編碼的準(zhǔn)確性與模型的可靠性。
隱性行為特征序列主要從流量特征中提取,從時(shí)間、數(shù)量以及交互情況的角度分為3類。由于隱性特征無須挖掘其連續(xù)數(shù)值上的內(nèi)容,因此將采集到的隱性特征數(shù)據(jù)進(jìn)行離散化處理。
顯性行為是抓取HTTP數(shù)據(jù)分組中的各字段內(nèi)容,通過行為分類字典篩選獲得,能夠準(zhǔn)確地反映用戶在該網(wǎng)站進(jìn)行的操作。本文顯性行為特征僅考慮行為是否出現(xiàn)及其所屬種類,并不考慮行為出現(xiàn)的頻率與次數(shù),因此采用label_binarize編碼方式對(duì)顯性行為特征進(jìn)行編碼。
初始行為特征參數(shù)見表1。
通過對(duì)實(shí)際數(shù)據(jù)的分析,可觀測到用戶訪問詐騙網(wǎng)站與訪問正常網(wǎng)站的網(wǎng)絡(luò)行為具有一定的相似性,單一考慮用戶單次網(wǎng)絡(luò)行為的被害風(fēng)險(xiǎn)是片面的。因此,通過挖掘用戶的顯性行為特征與用戶與服務(wù)器交互的隱性行為特征間的關(guān)系,能實(shí)現(xiàn)用戶網(wǎng)絡(luò)行為風(fēng)險(xiǎn)預(yù)測,顯著增強(qiáng)網(wǎng)絡(luò)行為同用戶行為是否被害的關(guān)聯(lián)性。顯/隱性行為互相不存在直接映射關(guān)系,各自內(nèi)部也不存在關(guān)聯(lián)性;同時(shí)大部分顯性特征行為同用戶是否被害同樣沒有直接性的關(guān)聯(lián)。但可以發(fā)現(xiàn)許多被害用戶行為特征序列Feature中的若干特征指數(shù)明顯較高的情況下發(fā)生了一些不指向電信網(wǎng)絡(luò)詐騙的顯性行為。
表1 初始行為特征參數(shù)
基于上述情況,本文提出一種網(wǎng)絡(luò)行為被害性分析算法解決該問題。其中,行為關(guān)聯(lián)規(guī)則挖掘示意圖如圖2所示。
步驟1 獲取行為頻繁項(xiàng),挖掘行為關(guān)聯(lián)規(guī)則。初步的實(shí)驗(yàn)表明,被害行為序列同非被害行為序列的關(guān)聯(lián)規(guī)則具有明顯差異。在一個(gè)用戶行為序列中,單個(gè)act行為的出現(xiàn)無法表示該序列具有被害風(fēng)險(xiǎn),但當(dāng)該act行為與其他顯/隱性特征關(guān)聯(lián)關(guān)系大量滿足從被害行為序列中提取的關(guān)聯(lián)規(guī)則時(shí),就可以在一定程度上證明該序列存在被害的風(fēng)險(xiǎn)。
圖2 行為關(guān)聯(lián)規(guī)則挖掘示意圖
獲取頻繁項(xiàng)。計(jì)算行為支持度,通過設(shè)定閾值生成行為頻繁項(xiàng)。如針對(duì)圖2中{feat1,feat2,act1}這一頻繁項(xiàng),支持度計(jì)算式:
挖掘行為關(guān)聯(lián)規(guī)則。{feat1,feat2}→ {act1}→ {true}中,{feat1,feat2→act2}作為頻繁項(xiàng)具有關(guān)聯(lián)性,據(jù)此計(jì)算置信度,將關(guān)聯(lián)規(guī)則量化,設(shè)定關(guān)聯(lián)規(guī)則置信度取值范圍,達(dá)到排除低被害風(fēng)險(xiǎn)關(guān)聯(lián)規(guī)則、提升規(guī)則有效性的目的,計(jì)算式如式(2)所示。
頻繁項(xiàng)與關(guān)聯(lián)規(guī)則的挖掘與量化表示,顯著增強(qiáng)行為序列之間各項(xiàng)行為的關(guān)聯(lián)性,其優(yōu)點(diǎn)在于當(dāng)行為序列出現(xiàn)某項(xiàng)無法表征用戶實(shí)際意圖的黑名單行為時(shí),該序列不會(huì)被直接認(rèn)為具有被害風(fēng)險(xiǎn)。同樣,當(dāng)行為序列中不存在黑名單行為時(shí),也能判斷其被害風(fēng)險(xiǎn)系數(shù)。
步驟2 結(jié)合顯隱性行為本身的特征與各行為特征間的內(nèi)在關(guān)聯(lián)規(guī)則,重構(gòu)特征序列。原始行為特征序列用于直接表達(dá)存在的顯/隱性行為特征,重構(gòu)后的特征序列則用于表達(dá)該行為序列存在哪些可疑的關(guān)聯(lián)關(guān)系。
圖3 隨機(jī)森林算法示意圖
該算法的決策樹在創(chuàng)建的過程當(dāng)中,并不會(huì)拉取特征序列中所有的規(guī)則用于分裂,而是采取隨機(jī)抽取的策略,從中獲取最優(yōu)解。通過合理設(shè)置每棵決策樹拉取特征的數(shù)量與決策樹的數(shù)量,可以在被害識(shí)別的準(zhǔn)確度和模型運(yùn)行效率間尋找最優(yōu)的平衡點(diǎn)。
VIM-TFCN模型通過挖掘網(wǎng)絡(luò)行為關(guān)聯(lián)規(guī)則,排除非意圖表達(dá)行為,研究網(wǎng)絡(luò)行為深層關(guān)系,判斷行為序列被害性,從而達(dá)到增加被害性風(fēng)險(xiǎn)分析精確度的目的。
VIM-TFCN算法偽代碼如算法1所示。
算法1 網(wǎng)絡(luò)行為被害性分析算法VIM-TFCN
輸入 已標(biāo)定行為序列數(shù)據(jù)集,待檢測行為序列數(shù)據(jù)集
輸出 網(wǎng)絡(luò)行為被害性評(píng)估結(jié)果集合Result
Begin
Result=[]//被害性評(píng)估結(jié)果集
TrainData=getTrainingData()//獲取訓(xùn)練數(shù)據(jù)
TestData=getTestingData()//獲取待檢測數(shù)據(jù)
Rules=getAssociationRules()//生成關(guān)聯(lián)規(guī)則列表
TrainSeq=getSeqbyRules(TrainData,Rules)//根據(jù)挖掘完畢的關(guān)聯(lián)規(guī)則,獲取訓(xùn)練行為序列集
TestSeq=getSeqbyRules(TestData,Rules)//根據(jù)關(guān)聯(lián)規(guī)則,獲取測行為序列集
Forest=TrainRandomForest(TrainSeq)//訓(xùn)練改進(jìn)的監(jiān)督式隨機(jī)森林模型
For seq in TestSeq://對(duì)于每一條測試序列進(jìn)行測試
Judgeresult=Forest.predict(seq)//通過隨機(jī)森林模型獲得風(fēng)險(xiǎn)評(píng)估結(jié)果
Result.append(Judgeresult)//將每一條風(fēng)險(xiǎn)評(píng)估結(jié)果放入被害性評(píng)估結(jié)果集
End
本實(shí)驗(yàn)數(shù)據(jù)集主要包括被害人網(wǎng)絡(luò)行為數(shù)據(jù)2 051條,非被害人網(wǎng)絡(luò)行為數(shù)據(jù)2 386條。收集從公安部門獲取的詐騙網(wǎng)站地址與公開的非詐騙網(wǎng)站地址,分類后模擬正常用戶訪問,使用Wireshark工具進(jìn)行流量抓取,所得數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集編寫腳本從流量包中提取對(duì)每一個(gè)網(wǎng)站訪問時(shí)產(chǎn)生的行為特征,形成原始特征序列。數(shù)據(jù)集網(wǎng)站種類與數(shù)量見表2。
表2 數(shù)據(jù)集網(wǎng)站種類與數(shù)量
選取以上類型的非詐騙網(wǎng)站,使詐騙網(wǎng)站與非詐騙網(wǎng)站所提取的網(wǎng)絡(luò)行為序列具備相似性,從而驗(yàn)證本文結(jié)論。
本實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境設(shè)置如下。
數(shù)據(jù)庫系統(tǒng)版本為MySQL5,系統(tǒng)環(huán)境為內(nèi)存4 GB,處理器8個(gè),操作系統(tǒng)為kali_linux_ 2020.1,編程語言為g++,python3.8.1。
本實(shí)驗(yàn)提取特征過程需要大量字典比對(duì),且采用多線程模式提高效率,需要占用較大的內(nèi)存,因此選取4 GB以上的運(yùn)行內(nèi)存;對(duì)Wireshark抓取的pcapng格式流量引用Python程序語言的Pyshark庫批量化解析。
(1)混淆矩陣
混淆矩陣(confusion matrix)是用來評(píng)價(jià)分類的標(biāo)準(zhǔn)方式,采用的矩陣表示。在本文中,混淆矩陣為一個(gè)2×2矩陣,矩陣中每一列的總數(shù)表示模型預(yù)測為該種類時(shí)數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實(shí)歸屬種類,每一行的數(shù)據(jù)總數(shù)表示該種類數(shù)據(jù)實(shí)例的數(shù)目。
(2)ROC曲線
ROC曲線指在特定條件下,以FPR=為橫坐標(biāo),表示負(fù)樣本錯(cuò)誤預(yù)測為正樣本的比例;以TPR=SN為縱坐標(biāo),表示預(yù)測正確的正樣本在所有正樣本中所占比例。
對(duì)于ROC曲線,對(duì)角線稱為純機(jī)遇線,代表辨別力為0;距離純機(jī)遇線越遠(yuǎn),辨別能力越好。
(3)精確率與召回率
用TP表示將正類預(yù)測為正類,F(xiàn)P表示將負(fù)類預(yù)測為正類,F(xiàn)N表示為正類預(yù)測為負(fù)類;精確率(Precision)計(jì)算式為:
召回率(Recall)計(jì)算式為:
精確率與召回率通常呈現(xiàn)此消彼長的狀況??梢酝ㄟ^調(diào)整提升度的閾值,確定最佳的關(guān)聯(lián)規(guī)則表。
5.3.1 實(shí)驗(yàn)步驟
(1)對(duì)原始特征序列中的行為特征字段采用label_binarize二值化編碼,該字段由流量中的各項(xiàng)具有行為代表性的單詞按照發(fā)生先后順序組成;其中行為字典構(gòu)建是基于對(duì)詐騙網(wǎng)站各類變量的常用命名方式、相關(guān)英文與中文拼音的組合。行為特征字段中的各單詞在去重、統(tǒng)一小寫、去除特殊字符等操作后采用最大公共串與行為字典進(jìn)行匹配識(shí)別顯性行為種類,并加入行為特征序列。其中,設(shè)定大于0.5。越大表示顯性行為更精確,但會(huì)出現(xiàn)行為無法識(shí)別的現(xiàn)象。計(jì)算式如式(5)所示。
(2)對(duì)表1中的隱性行為特征序列進(jìn)行離散化。實(shí)驗(yàn)采用-means算法對(duì)隱性行為特征進(jìn)行離散化處理,設(shè)為5個(gè)等級(jí)。對(duì)于每一項(xiàng)隱性行為特征使用0~5的數(shù)值表示,刪去原有的具體值。
(3)采用Apriori算法對(duì)顯/隱性行為特征序列進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)定提升度為大于0.9減小開銷,最終挖掘規(guī)則共計(jì)600余條。提升度越大,規(guī)則越多,精度越高,但開銷顯著增加。關(guān)聯(lián)規(guī)則參數(shù)見表3。
表3 關(guān)聯(lián)規(guī)則參數(shù)
(4)通過挖掘的關(guān)聯(lián)規(guī)則來對(duì)于每一條行為序列進(jìn)行特征重構(gòu)。先使用關(guān)聯(lián)規(guī)則的編號(hào)與權(quán)重表達(dá)每一條行為序列的關(guān)聯(lián)規(guī)則搭配規(guī)律;然后使用隨機(jī)森林算法對(duì)重構(gòu)后特征進(jìn)行機(jī)器學(xué)習(xí),識(shí)別網(wǎng)絡(luò)行為被害性。
(5)本文所提方法VIM-TFCN與另外兩種分類算法進(jìn)行對(duì)比,可在Github獲取開源代碼。
?·C45算法:ID3算法的擴(kuò)展,通過決策樹找到行為特征與屬性的映射,對(duì)未知個(gè)體分類進(jìn)行識(shí)別。
?·貝葉斯算法:對(duì)缺失數(shù)據(jù)不敏感,假設(shè)行為特征相互獨(dú)立,結(jié)合先驗(yàn)概率與后驗(yàn)概率進(jìn)行分類,避免過度擬合。
5.3.2 參數(shù)調(diào)優(yōu)
在隨機(jī)森林算法的實(shí)際應(yīng)用當(dāng)中,子決策樹的數(shù)量(Numtree)與決策樹拉取特征數(shù)(Numfeature)對(duì)分類效果影響較大。隨著子決策樹數(shù)量和拉取特征數(shù)變多,分類的精度會(huì)呈現(xiàn)先上升后下降,最后趨于穩(wěn)定的情況,且模型運(yùn)行速度與性能會(huì)顯著降低。根據(jù)控制變量的原則,通過調(diào)整參數(shù)大小來對(duì)分類結(jié)果進(jìn)行對(duì)比。控制變量參數(shù)調(diào)優(yōu)結(jié)果見表4。
隨著Numfeature參數(shù)增大,精準(zhǔn)率與召回率上下浮動(dòng),MCC區(qū)域呈現(xiàn)減小的趨勢,在同等結(jié)果下選取內(nèi)存開銷較小值,確定該參數(shù)值為4;隨著Numfeature參數(shù)增大,精準(zhǔn)率、召回率、MCC區(qū)域呈現(xiàn)波動(dòng)上升,最后趨于穩(wěn)定,內(nèi)存開銷與時(shí)耗呈現(xiàn)指數(shù)增加。根據(jù)實(shí)驗(yàn)結(jié)果確定Numfeature參數(shù)為4,Numtree參數(shù)為50~70時(shí)達(dá)到最優(yōu)。
VIM-TFCN模型同樸素貝葉斯、C45分類算法在用戶網(wǎng)絡(luò)行為被害性識(shí)別效果對(duì)比見表5和圖4所示。
圖4 ROC曲線對(duì)比
由圖4可知,VIM-TFCN模型的ROC曲線貼近TPR軸,而C45模型和樸素貝葉斯模型的ROC曲線更貼近對(duì)角線。由表5混淆矩陣可得,VIM-TFCN模型的精確率為0.982,召回率為0.984;C45模型和樸素貝葉斯模型的精確率分別為0.804和0.760,召回率分別為0.788和0.798。根據(jù)對(duì)ROC曲線以及混淆矩陣的評(píng)估分析可知,通過顯/隱性行為的關(guān)聯(lián)規(guī)則組合判斷連續(xù)行為被害性的效果,優(yōu)于通過一項(xiàng)或多項(xiàng)行為判斷連續(xù)行為被害性的效果。
表4 控制變量參數(shù)調(diào)優(yōu)結(jié)果
表5 混淆矩陣對(duì)比
本文針對(duì)電信網(wǎng)絡(luò)詐騙犯罪中網(wǎng)絡(luò)行為特征選取表面化、特征間內(nèi)在規(guī)則挖掘不足、網(wǎng)絡(luò)行為稀疏、行為序列間關(guān)系難以確定等問題,提出基于網(wǎng)絡(luò)行為流量分析的電信網(wǎng)絡(luò)詐騙犯罪被害性識(shí)別模型,分析各類網(wǎng)絡(luò)行為的內(nèi)在相關(guān)性,深度挖掘顯/隱性網(wǎng)絡(luò)行為,達(dá)到識(shí)別網(wǎng)絡(luò)行為是否具有被害性的目的。通過公安機(jī)關(guān)被害人網(wǎng)絡(luò)行為數(shù)據(jù)分析驗(yàn)證,模型可以有效地進(jìn)行被害人網(wǎng)絡(luò)行為分類,識(shí)別網(wǎng)絡(luò)行為是否具有被害性。下一步研究將加入特征存取棧模塊,實(shí)現(xiàn)實(shí)時(shí)監(jiān)控異常網(wǎng)絡(luò)行為,并增強(qiáng)模型魯棒性,發(fā)掘更深層次的關(guān)聯(lián)規(guī)則。
[1]佟暉, 唐衛(wèi)中, 蔡家艷, 等. 電信詐騙態(tài)勢與反詐新思路研究[J]. 北京警察學(xué)院學(xué)報(bào), 2021(1): 1-14.
TONG H, TANG W Z, CAI J Y, et al. Research on the situation of telecom fraud and new ideas of anti fraud[J]. Journal of Beijing Police College, 2021(1): 1-14.
[2]周堅(jiān), 石永革, 何美斌. 基于A-D模型的-means算法在通話異??蛻敉诰蛑械膽?yīng)用[J]. 電信科學(xué), 2018, 34(4): 81-89.
ZHOU J, SHI Y G, HE M B. Application of-means algorithm based on A-D model in calling abnormal customer mining[J]. Telecommunications Science, 2018, 34(4): 81-89.
[3]李力卡, 馬澤雄, 陳慶年, 等. 電話詐騙防治技術(shù)解決方案與運(yùn)維對(duì)策研究[J]. 電信科學(xué), 2014, 30(11): 166-172.
LI L K, MA Z X, CHEN Q N, et al. Research of technology solutions and operation countermeasures to telephone fraud prevention and control[J]. Telecommunications Science, 2014, 30(11): 166-172.
[4]王海坤, 潘嘉, 劉聰. 語音識(shí)別技術(shù)的研究進(jìn)展與展望[J]. 電信科學(xué), 2018, 34(2): 1-11.
WANG H K, PAN J, LIU C. Research development and forecast of automatic speech recognition technologies[J]. Telecommunications Science, 2018, 34(2): 1-11.
[5]張蕾, 張鵬, 孫偉, 等. 面向高速網(wǎng)絡(luò)流量的惡意鏡像網(wǎng)站識(shí)別方法[J]. 通信學(xué)報(bào), 2019, 40(7): 87-94.
ZHANG L, ZHANG P, SUN W, et al. IMM4HT: an identification method of malicious mirror website for high-speed network traffic[J]. Journal on Communications, 2019, 40(7): 87-94.
[6]韓浩, 劉博文, 林果園. 基于改進(jìn)的TrustRank算法的釣魚網(wǎng)站檢測[J]. 電信科學(xué), 2018, 34(3): 86-94.
HAN H, LIU B W, LIN G Y. Detection of phishing websites based on the improved TrustRank algorithm[J]. Telecommunications Science, 2018, 34(3): 86-94.
[7]臧小東, 龔儉,胡曉艷. 基于AGD的惡意域名檢測[J]. 通信學(xué)報(bào), 2018, 39(7): 15-25.ZANG X D, GONG J, HU X Y. Detecting malicious domain names based on AGD[J]. Journal on Communications, 2018, 39(7): 15-25.
[8]韓春雨, 張永錚, 張玉. Fast-flucos: 基于DNS流量的Fast-flux惡意域名檢測方法[J]. 通信學(xué)報(bào), 2020, 41(5): 37-47.
HAN C Y, ZHANG Y Z, ZHANG Y. Fast-flucos: malicious domain name detection method for Fast-flux based on DNS traffic[J]. Journal on Communications, 2020, 41(5): 37-47.
[9]ZHOU S L , WANG X , YANG Z R . Monitoring and early warning of new cyber-telecom crime platform based on BERT migration learning[J]. China Communications, 2020, 17(3): 140-148.
[10]ZOLOTUKHIN M, H?M?L?INEN T, KOKKONEN T, et al. Analysis of http requests for anomaly detection of Web attacks[C]//Proceedings of 2014 IEEE 12th International Conference on Dependable, Autonomic and Secure Computing. Piscataway: IEEE Press, 2014: 406-411.
[11]YU Y, LIU G, YAN H, et al. Attention-based Bi-LSTM model for anomalous HTTP traffic detection[C]//Proceedings of 2018 15th International Conference on Service Systems and Service Management. Piscataway: IEEE Press, 2018: 1-6.
[12]YANG W, ZUO W, CUI B. Detecting malicious URLS via a keyword-based convolutional gated-recurrent-unit neural network[J]. IEEE Access, 2019(7): 29891-29900.
[13]PARK S, KIM M, LEE S. Anomaly detection for HTTP using convolutional autoencoders[J]. IEEE Access, 2018(6): 70884-70901.
[14]ARZHAKOV A V, TROITSKIY S S, VASILYEV N P, et al. Development and implementation a method of detecting an attacker with use of HTTP network protocol[C]//Proceedings of 2017 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering. Piscataway: IEEE Press, 2017: 100-104.
[15]THANG T M, KIM J. The anomaly detection by using DBSCAN clustering with multiple parameters[C]//Proceedings of 2011 International Conference on Information Science and Applications. Piscataway: IEEE Press, 2011: 1-5
[16]ZHANG M, LU S, XU B. An anomaly detection method based on multi-models to detect Web attacks[C]//Proceedings of 2017 10th International Symposium on Computational Intelligence and Design. Piscataway: IEEE Press, 2017(2): 404-409.
[17]ERFANI S M, RAJASEGARAR S, KARUNASEKERA S, et al. High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning[J]. Pattern Recognition, 2016(58): 121-134.
[18]連一峰, 戴英俠, 王航. 基于模式挖掘的用戶行為異常檢測[J]. 計(jì)算機(jī)學(xué)報(bào), 2002(3): 325-330.
LIAN Y F, DAI Y X, WANG H. Anomaly detection of user behaviors based on profile mining[J]. Chinese Journal of Computers, 2002(3): 325-330.
[19]田新廣, 孫春來, 段洣毅, 等. 基于機(jī)器學(xué)習(xí)的用戶行為異常檢測模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2006(19): 101-103, 111.
TIAN X G, SUN C L, DUAN M Y, et al. Model of anomaly detection of users behaviors based on machine learning[J]. Computer Engineering and Applications, 2006(19): 101-103, 111.
[20]陳勝, 朱國勝, 祁小云, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的自定義用戶異常行為檢測[J]. 計(jì)算機(jī)科學(xué), 2019, 46(S2): 442-445, 472.
CHEN S, ZHU G S, QI X Y, et al. Custom user anomaly behavior detection based on deep neural network[J]. Computer Science, 2019, 46(S2): 442-445, 472.
[21]胡富增, 王勇軍. 基于數(shù)據(jù)挖掘的計(jì)算機(jī)用戶行為分析與識(shí)別[J]. 自動(dòng)化技術(shù)與應(yīng)用, 2020, 39(6): 42-47.
HU F Z, WANG Y J. Analysis and recognition of computer user behavior based on data mining[J]. Techniques of Automation and Applications, 2020, 39(6): 42-47.
[22]WANG S, CAO L, WANG Y. A survey on session-based recommender systems[J]. arXiv: 1902. 04864, 2019.
[23]TANG J, WANG K. Personalized top-n sequential recommendation via convolutional sequence embedding[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 565-573.
[24]SUN F, LIU J, WU J, et al. BERT4Rec: sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2019: 1441-1450.
[25]HIDASI B, KARATZGLOU A, BALTRNAS L, et al. Session-based recommendations with recurrent neural networks[J]. arXiv: 1511. 06939, 2015.
[26]KANG W C , MCAULEY J . Self-attentive sequential recommendation[C]//Proceedings of 2018 IEEE International Conference on Data Mining (ICDM). Piscataway: IEEE Press, 2018.
Victimization analysis model of user network behavior based on network traffic
ZHOU Shengli, XU Xiaoyang
Zhejiang Police College, Hangzhou 310051, China
The analysis of network victimization is of great significance to the prevention and control of telecom fraud. By studying the network traffic generated by the interaction between users and websites, a victimization identification model of telecom fraud crime based on network behavior flow analysis was proposed, the association rules between different behavior characteristics were analyzed, the behavior sequence features were reconstructed, and the victimization of network behavior sequence with random forest algorithm was evaluated. Based on the network behavior data set of public security organs, the experiment proves that the model can effectively improve the recognition accuracy of network behavior victimization.
network traffic, network behavior coding, association rules mining, victimization analysis
TP311
A
10.11959/j.issn.1000?0801.2021041
2020?12?21;
2021?02?11
徐嘯煬,76933768@qq.com
浙江省公益技術(shù)研究計(jì)劃(No.LGF20G030001);校局合作項(xiàng)目(No.2020XJY011);國家級(jí)創(chuàng)新項(xiàng)目(No.11483)
The Basic Public Welfare Research Program of Zhejiang Province of China (No.LGF20G030001), School Bureau Cooperation Project (No.2020XJY011), The National Innovation Project national Innovation Project(No. 11483)
周勝利(1982?),男,博士,浙江警察學(xué)院碩士生導(dǎo)師,主要研究方向?yàn)榇髷?shù)據(jù)安全、機(jī)器學(xué)習(xí)。
徐嘯煬(1999?),男,浙江警察學(xué)院在讀,主要研究方向?yàn)榫W(wǎng)絡(luò)安全與機(jī)器學(xué)習(xí)。