摘 要: 隨著互聯(lián)網(wǎng)的發(fā)展與普及,涉詐團(tuán)伙詐騙手法與反檢測(cè)技術(shù)愈發(fā)先進(jìn),涉詐網(wǎng)站的檢測(cè)與分類對(duì)于網(wǎng)絡(luò)空間安全重要性更加顯著,而傳統(tǒng)的檢測(cè)技術(shù)已無(wú)法應(yīng)對(duì)現(xiàn)在的新型詐騙網(wǎng)站,并且針對(duì)涉詐網(wǎng)站分類的研究很少. 針對(duì)此熱點(diǎn)難題,本文分析了當(dāng)今新型涉詐網(wǎng)站的多個(gè)典型特征并提出了一種基于多維特征的涉詐網(wǎng)站檢測(cè)與分類系統(tǒng). 該系統(tǒng)共構(gòu)建11種涉詐網(wǎng)站特征與3600 個(gè)網(wǎng)頁(yè)關(guān)鍵詞來(lái)表示一個(gè)涉詐網(wǎng)站. 系統(tǒng)首先利用爬蟲(chóng)獲取待檢測(cè)域名的網(wǎng)頁(yè)截圖、WHOIS 信息與源碼并交給特征抽取模塊構(gòu)建多維特征集. 檢測(cè)模塊提取網(wǎng)站域名、代碼結(jié)構(gòu)以及網(wǎng)站W(wǎng)HOIS 信息作為特征,構(gòu)建隨機(jī)森林模型實(shí)現(xiàn)檢測(cè)任務(wù). 然后基于檢測(cè)結(jié)果,網(wǎng)頁(yè)分類模塊利用雙向GRU 提取網(wǎng)頁(yè)的文本特征,在置信度小于0. 7 的情況下使用BERT 模型從而保證系統(tǒng)準(zhǔn)確度與效率,并使用殘差神經(jīng)網(wǎng)絡(luò)提取網(wǎng)頁(yè)截圖特征,同時(shí)計(jì)算網(wǎng)頁(yè)內(nèi)部圖片與網(wǎng)站Logo 相似度,創(chuàng)建隨機(jī)森林模型進(jìn)行分類,并設(shè)計(jì)了對(duì)比實(shí)驗(yàn)進(jìn)一步分析模型的準(zhǔn)確性. 實(shí)驗(yàn)證明,本文提出的模型擁有很高的準(zhǔn)確性,模型平均F1-score 達(dá)到97. 28%. 實(shí)驗(yàn)結(jié)果表明,本文提出的多維特征模型能很好地區(qū)分涉詐網(wǎng)站與正常網(wǎng)站,克服了傳統(tǒng)方法應(yīng)對(duì)新型涉詐網(wǎng)站的識(shí)別問(wèn)題,并適用于全球新增域名的涉詐網(wǎng)站快速檢測(cè)與分類.
關(guān)鍵詞: 涉詐網(wǎng)站檢測(cè); 網(wǎng)站分類; 隨機(jī)森林; 深度學(xué)習(xí)
中圖分類號(hào): TP309. 1 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 040003
1 引言
隨著互聯(lián)網(wǎng)的普及與發(fā)展,新型電信網(wǎng)絡(luò)違法犯罪案件呈現(xiàn)高發(fā)態(tài)勢(shì),基于互聯(lián)網(wǎng)實(shí)施電信詐騙的方式多種多樣,國(guó)內(nèi)外的犯罪分子根據(jù)國(guó)內(nèi)外的反制手段的變化來(lái)改變涉詐網(wǎng)站的詐騙方式與工作模式. 伴隨著惡意網(wǎng)站的規(guī)模不斷擴(kuò)大[1],詐騙網(wǎng)站數(shù)量飛增,所以對(duì)涉詐網(wǎng)站檢測(cè)與分類技術(shù)的研究顯得愈加重要.
目前,關(guān)于涉詐網(wǎng)站的檢測(cè)技術(shù),國(guó)內(nèi)外研究者提出了許多方法,主要可以歸為傳統(tǒng)檢測(cè)技術(shù)和機(jī)器學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合的技術(shù). 黑白名單檢測(cè)技術(shù)早期被廣泛用于識(shí)別惡意URL,但是由于涉詐網(wǎng)站的更新速度快,黑白名單檢測(cè)技術(shù)的檢測(cè)效果不佳,其漏報(bào)率與誤報(bào)率被證實(shí)都較高[2]. 所以Akiyama 等[3]針對(duì)URL 更新速度快這個(gè)問(wèn)題,提出一種更有效的黑名單URL 生成方法,嘗試使用搜索引擎發(fā)現(xiàn)惡意URL 附近的URL 再進(jìn)一步調(diào)查,以確定其是否列入黑名單. 但是近幾年涉詐網(wǎng)站與正常網(wǎng)站的URL 相似度提高,并且更新新鏈接的速率更快,傳統(tǒng)的基于規(guī)則匹配的方法很難檢測(cè)到新的威脅,難以應(yīng)對(duì)新型詐騙方法,便造成了較高的誤報(bào)率與漏報(bào)率.
隨著惡意URL 檢測(cè)的發(fā)展,機(jī)器學(xué)習(xí)逐漸應(yīng)用于URL 檢測(cè)技術(shù)[4],人們使用機(jī)器學(xué)習(xí)提取了機(jī)特佂與URL 名稱特征. Mondal 等[5]提出使用多個(gè)分類器(即集成學(xué)習(xí))來(lái)預(yù)測(cè)URL 的類別概率. 具體為應(yīng)用閾值來(lái)過(guò)濾多個(gè)分類器的決策,根據(jù)其對(duì)應(yīng)的類概率來(lái)組合決策,并找到概率最高的類標(biāo)簽作為URL 的最終決策. 但是相比URL,IP 地址特征更加穩(wěn)定,因?yàn)閻阂釻RL 很難連續(xù)獲得新的IP 地址. 所以出于這種穩(wěn)定性,它們相當(dāng)重要. 但由于直接使用IP 地址較麻煩. 研究工作者提出了基于二值化或分類方法來(lái)提取IP 地址特征,通過(guò)這種方法生成基于8 bit、基于擴(kuò)展8 bit 和基于位串的特征[6],從而對(duì)惡意網(wǎng)站進(jìn)行追蹤. 之后,融合多種網(wǎng)頁(yè)特征的惡意URL 檢測(cè)技術(shù)被提出[7],其從頁(yè)面內(nèi)容、JavaScript 函數(shù)參數(shù)和Web 會(huì)話流程這3 個(gè)方面設(shè)計(jì)了25 個(gè)特征并使用機(jī)器學(xué)習(xí)的方法進(jìn)行檢測(cè). 隨著深度學(xué)習(xí)的發(fā)展,使用深度學(xué)習(xí)技術(shù)對(duì)涉詐和惡意網(wǎng)站進(jìn)行檢測(cè)成為了一種主流[8]. 在網(wǎng)絡(luò)結(jié)構(gòu)研究中,CNN 卷積網(wǎng)絡(luò)和殘差塊的使用在惡意網(wǎng)站檢測(cè)方面展露鰲頭[9],基于ResNet 的殘差網(wǎng)絡(luò)可以對(duì)涉詐圖像進(jìn)行分類工作,而基于Text-CNN 的方法可以有效處理涉詐網(wǎng)站的文字內(nèi)容. 由于卷積網(wǎng)絡(luò)不適合處理時(shí)間序列問(wèn)題,有很多惡意網(wǎng)站檢測(cè)方法基于時(shí)序神經(jīng)網(wǎng)絡(luò)RNN. 主要是基于LSTM 和GRU 這兩個(gè)RNN 變種. Bahnsen 等[10]提取了URL 的語(yǔ)法和統(tǒng)計(jì)特征,并使用LSTM 對(duì)該URL 的字符序列進(jìn)行分類. 目前,基于CNN 和RNN 結(jié)合[11]的方法,以及基于Bert 等注意力機(jī)制模型的惡意網(wǎng)站檢測(cè)方法高速發(fā)展,其結(jié)果也表明深度學(xué)習(xí)技術(shù)在涉詐與惡意網(wǎng)站的研究中表現(xiàn)出了良好的性能.
但是,大多數(shù)研究重點(diǎn)關(guān)注惡意網(wǎng)站檢測(cè),并未關(guān)注其分類. 而基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的檢測(cè)方法重點(diǎn)關(guān)注網(wǎng)站的單獨(dú)特征如URL 或者圖片特征. 但事實(shí)上,涉詐網(wǎng)站通常具有組織性,利用此特性,通過(guò)Logo 和網(wǎng)站域名信息可以更好地將其關(guān)聯(lián)實(shí)現(xiàn)分類,融合以上特征能夠更好地表示某種涉詐網(wǎng)站,從而實(shí)現(xiàn)涉詐網(wǎng)站的識(shí)別與分類.綜合了涉詐網(wǎng)站的典型特征并利用機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的優(yōu)勢(shì)與特點(diǎn),本文提出了一種基于多維特征的涉詐網(wǎng)站檢測(cè)與分類系統(tǒng),該系統(tǒng)共構(gòu)建了11 種典型涉詐網(wǎng)站特征與3600 個(gè)網(wǎng)頁(yè)關(guān)鍵詞來(lái)表示一個(gè)涉詐網(wǎng)站,系統(tǒng)分為涉詐網(wǎng)站檢測(cè)模塊與分類模塊,檢測(cè)模塊提取網(wǎng)站域名特征與代碼結(jié)構(gòu)以及網(wǎng)站whois 信息等作為特征,創(chuàng)建隨機(jī)森林模型實(shí)現(xiàn)檢測(cè)任務(wù). 網(wǎng)站分類模塊利用循環(huán)神經(jīng)網(wǎng)絡(luò)變種門控循環(huán)單元網(wǎng)絡(luò)(GatedRecurrent Unit, GRU)與BERT 網(wǎng)絡(luò)提取網(wǎng)站的文本特征,使用殘差神經(jīng)網(wǎng)絡(luò)(Residual Network,ResNet)的改進(jìn)版本提取網(wǎng)站的圖像特征,并計(jì)算網(wǎng)頁(yè)內(nèi)部圖片與網(wǎng)站Logo 相似度,創(chuàng)建隨機(jī)森林模型實(shí)現(xiàn)分類任務(wù),達(dá)到了較高的準(zhǔn)確率. 值得一提的是,本系統(tǒng)已被用于對(duì)全球每日新增域名進(jìn)行涉詐實(shí)時(shí)感知,針對(duì)每日新增域名數(shù)15 萬(wàn)~20萬(wàn)中平均可以檢測(cè)到涉詐網(wǎng)站700 個(gè)左右,在實(shí)際應(yīng)用中取得了良好的效果.
2 國(guó)內(nèi)外研究現(xiàn)狀
2. 1 涉詐網(wǎng)站特征研究
涉詐網(wǎng)站特征研究是涉詐網(wǎng)站檢測(cè)與分類系統(tǒng)實(shí)現(xiàn)的基礎(chǔ),特征必須具有代表性,能很好區(qū)分出正常網(wǎng)站與涉詐網(wǎng)站,并且特征的提取方式不應(yīng)過(guò)于復(fù)雜,否則會(huì)影響后續(xù)模型訓(xùn)練的效率. 網(wǎng)站URL 常作為重要特征來(lái)識(shí)別網(wǎng)站是否涉詐.Aydin 等[12]通過(guò)提取網(wǎng)站的URL 特征并分析了URL 的安全性、URL 中字母與數(shù)字比例、關(guān)鍵字等屬性從而建立特征矩陣來(lái)發(fā)現(xiàn)惡意網(wǎng)站的URL特性. 并且涉詐網(wǎng)站網(wǎng)頁(yè)中的鏈接大多數(shù)會(huì)鏈接到自己內(nèi)部的網(wǎng)站,不會(huì)鏈接到外部域的網(wǎng)站,所以對(duì)內(nèi)外域鏈接數(shù)量的統(tǒng)計(jì)也十分重要. 除此之外,涉詐網(wǎng)站有圖片數(shù)量較多,很多網(wǎng)頁(yè)中的文字內(nèi)容都以圖片的形式呈現(xiàn),以此減少網(wǎng)站被查殺的概率. 同時(shí),涉詐網(wǎng)站的網(wǎng)頁(yè)源碼也包含了許多特征[13]. 涉詐網(wǎng)站通常包含了需要用戶輸入敏感信息的輸入頁(yè)面,并且可能與合法網(wǎng)站的代碼結(jié)構(gòu)與圖片內(nèi)容具有高相似度. 但是許多研究重點(diǎn)關(guān)注網(wǎng)站某一個(gè)單獨(dú)特征,而忽略了網(wǎng)站多種特征的組合. 事實(shí)上,單從網(wǎng)站某一特征判斷網(wǎng)站類型的準(zhǔn)確率并不高,如若結(jié)合網(wǎng)站的圖片、文本等多種特征可以更好地表示該網(wǎng)站.
2. 2 涉詐網(wǎng)站檢測(cè)方法
現(xiàn)如今有關(guān)涉詐網(wǎng)站檢測(cè)方法主要為基于傳統(tǒng)檢測(cè)的方法、基于機(jī)器學(xué)習(xí)的方法與基于深度學(xué)習(xí)的方法.
基于傳統(tǒng)的檢測(cè)方法主要是利用黑白名單過(guò)濾涉詐網(wǎng)站,但其需要耗費(fèi)大量專家人力,且不能檢測(cè)到新的威脅,隨著時(shí)間的發(fā)展其誤報(bào)率與漏報(bào)率都在提高;而基于機(jī)器學(xué)習(xí)的檢測(cè)方法便成了主導(dǎo)地位.
隨機(jī)森林算法是機(jī)器學(xué)習(xí)中常用的分類算法,是一種由決策樹(shù)構(gòu)建的集成學(xué)習(xí)方法,它通過(guò)隨機(jī)選擇特征子集來(lái)構(gòu)建多個(gè)決策樹(shù),并使用投票法來(lái)提高單個(gè)決策樹(shù)的分類性能. 在惡意網(wǎng)站檢測(cè)與分類中有著廣泛的應(yīng)用. Weedon 等[14]研究了隨機(jī)森林算法相比于其他3 種算法(J48、樸素貝葉斯和邏輯回歸)對(duì)惡意URL 進(jìn)行分類的效果如何,結(jié)果表明隨機(jī)森林算法具有最低的假陰性. 此外,Vanhoenshoven 等[15]使用機(jī)器學(xué)習(xí)中主流的幾種分類器( Naive Bayes、支持向量機(jī)、多層感知器、決策樹(shù)、隨機(jī)森林和K 鄰近算法) 對(duì)大量的惡意URL 進(jìn)行分類實(shí)驗(yàn),結(jié)果表明隨機(jī)森林擁有最高的精確度與準(zhǔn)確度. 除此之外,使用隨機(jī)森林學(xué)習(xí)的多級(jí)特征具有更好的泛化能力與檢測(cè)精度[16],在準(zhǔn)確率與誤報(bào)率方面表現(xiàn)出更好的性能. 以上研究表明,隨機(jī)森林算法在涉詐網(wǎng)站研究中有著廣泛應(yīng)用并取得了良好的效果.
深度學(xué)習(xí)技術(shù)用來(lái)進(jìn)行惡意URL 檢測(cè)的效果顯著[17],并且通過(guò)修改預(yù)訓(xùn)練模型后可以完成多種下游任務(wù). 將循環(huán)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在涉詐網(wǎng)站研究中能發(fā)揮很好的作用. 循環(huán)神經(jīng)網(wǎng)絡(luò)是一種使用序列數(shù)據(jù)或時(shí)序數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò),其循環(huán)節(jié)點(diǎn)按鏈?zhǔn)脚帕?,每個(gè)節(jié)點(diǎn)接受由上個(gè)節(jié)點(diǎn)的輸出作為輸入以影響當(dāng)前的輸入和輸出,具有記憶性,可以很好地提取文本特征進(jìn)行分類. 研究表明,循環(huán)神經(jīng)網(wǎng)絡(luò)在釣魚(yú)網(wǎng)站的預(yù)測(cè)與分類中,可以提供 98. 7% 的準(zhǔn)確率,比隨機(jī)森林方法高出5% 左右[10]. 特別地,雙向GRU 屬于RNN 的一種變體,能夠同時(shí)學(xué)習(xí)過(guò)去和未來(lái)的信息. 它包含2 個(gè)單向GRU,一個(gè)向前遍歷序列,一個(gè)向后遍歷序列,可以更好地考慮文本的信息,克服數(shù)據(jù)的稀疏性和語(yǔ)義對(duì)上下文的敏感性,在文本分類工作上優(yōu)于傳統(tǒng)的RNN 方法[18]. 同樣的變體還有長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-TermMemory, LST M),經(jīng)過(guò)改進(jìn)的AC-BiLSTM[19]既能捕捉短語(yǔ)的局部特征,也能捕捉句子的全局語(yǔ)義,在情感分類和問(wèn)題分類上具有更好的效果,在涉詐網(wǎng)站中的文本分類中具有參考價(jià)值.
而卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),由至少1 個(gè)卷積層和全連接層組成,其通過(guò)卷積核來(lái)提取特征,并且可以通過(guò)池化層來(lái)減少參數(shù),提高模型的泛化能力,在惡意網(wǎng)站檢測(cè)與分類中也有著廣泛的應(yīng)用. Yang 等[16]通過(guò)對(duì)URL 進(jìn)行字符嵌入獲得詞向量輸入到CNN 中提取到了URL 的多級(jí)特征. 此外,為了提高涉詐網(wǎng)站圖片分類準(zhǔn)確率,提高模型的泛化能力,避免梯度消失與爆炸問(wèn)題,殘差神經(jīng)網(wǎng)絡(luò)被用于涉詐網(wǎng)站檢測(cè)的研究中,其使用殘差模塊與殘差連接構(gòu)建網(wǎng)絡(luò),在圖片分類中擁有更好的性能. 基于卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)混合架構(gòu)算法在惡意URL 檢測(cè)中獲得了更高的準(zhǔn)確度[20],作者利用CNN 和RNN 提取URL時(shí)間特征與空間特征并通過(guò)3 層CNN 融合這些特征表示,以構(gòu)建準(zhǔn)確的URL 特征表示,并在此基礎(chǔ)上訓(xùn)練了惡意URL 分類器,取得了較高的準(zhǔn)確率.
3 系統(tǒng)架構(gòu)
本節(jié)將介紹涉詐網(wǎng)站檢測(cè)與分類系統(tǒng)架構(gòu),如圖1 所示,整個(gè)系統(tǒng)架構(gòu)由4 個(gè)模塊構(gòu)成. 模塊1為信息收集模塊,其主要使用爬蟲(chóng)技術(shù)獲取網(wǎng)站源碼、網(wǎng)頁(yè)截圖、whois 信息并送輸入模塊2;模塊2為特征抽取算法,其將信息收集模塊中得到的信息進(jìn)行特征抽取,其主要分為文本特征(包含代碼結(jié)構(gòu)與網(wǎng)頁(yè)文本),域名特征(包含網(wǎng)站運(yùn)營(yíng)商等信息),以及圖片特征(包含網(wǎng)站截圖與內(nèi)部圖片信息),以供后續(xù)模型使用;模塊3 為涉詐網(wǎng)站檢測(cè)模塊,其對(duì)抽取的上文本特征與域名特征使用機(jī)器學(xué)習(xí)算法訓(xùn)練模型實(shí)現(xiàn)分類;模塊4 為涉詐網(wǎng)站分類模塊,分別將網(wǎng)站文本分類結(jié)果、截圖分類結(jié)果、內(nèi)部圖片分類結(jié)果以及Logo 分類結(jié)果作為特征訓(xùn)練機(jī)器學(xué)習(xí).
本節(jié)將基于圖1 的系統(tǒng)框架圖,詳細(xì)介紹涉詐網(wǎng)站檢測(cè)與分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)細(xì)節(jié),同時(shí)介紹相關(guān)數(shù)據(jù)預(yù)處理方法與特征抽取方法.
3. 1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理階段主要是對(duì)數(shù)據(jù)集進(jìn)行清洗,利用設(shè)置的6 大類涉詐網(wǎng)站以及正常網(wǎng)站的URL獲得網(wǎng)站的whois 信息和網(wǎng)站源碼,將未抓取到的whois 信息進(jìn)行缺失零填充. 之后,對(duì)網(wǎng)站的源碼進(jìn)行結(jié)構(gòu)化處理,從而構(gòu)建網(wǎng)頁(yè)的Dom 樹(shù),并對(duì)Dom 樹(shù)進(jìn)行剪枝處理,保留重要節(jié)點(diǎn),將不重要的節(jié)點(diǎn)剔除掉,保證網(wǎng)頁(yè)結(jié)構(gòu)的有效性. 以便后續(xù)特征抽取模塊的使用.
數(shù)據(jù)預(yù)處理后,由于色情網(wǎng)站數(shù)量與其余涉詐網(wǎng)站數(shù)量差異較大,對(duì)訓(xùn)練集進(jìn)行重采樣降低平衡性,減少分類影響,接著使用類加權(quán)的代價(jià)敏感學(xué)習(xí),使得模型效果最理想.
3. 2 多維特征抽取
本節(jié)將詳細(xì)介紹數(shù)據(jù)的特征抽取算法,本文將分別介紹代碼特征、站點(diǎn)特征以及圖片特征的相關(guān)提取算法.
3. 2. 1 代碼特征
由于涉詐網(wǎng)站圖片數(shù)量居多,文字多以圖片形式呈現(xiàn)的特點(diǎn),獲取網(wǎng)頁(yè)圖片與文字比例成為關(guān)鍵. 我們通過(guò)源碼標(biāo)簽得到網(wǎng)頁(yè)圖片數(shù)量,與文字進(jìn)行比值形成數(shù)量比,這一特征能夠更好地體現(xiàn)網(wǎng)頁(yè)是否有圖多字少的情況.
通過(guò)分析大量涉詐網(wǎng)站源碼發(fā)現(xiàn),同類涉詐網(wǎng)站標(biāo)題內(nèi)容極為相似,并且相同運(yùn)營(yíng)商下的網(wǎng)站標(biāo)題基本一致,因此分析網(wǎng)站標(biāo)題相似度能很好地區(qū)分正常網(wǎng)站與涉詐網(wǎng)站以及不同類別的涉詐網(wǎng)站. 對(duì)于網(wǎng)站的標(biāo)題內(nèi)容,使用TF-IDF 來(lái)進(jìn)行信息的提取 . TF-IDF( Term Frequency-InverseDocument Frequency)是信息檢索領(lǐng)域中常用的一種文本相似度計(jì)算方法,用于評(píng)估某個(gè)詞在一篇文章中的重要程度. 計(jì)算方法如公式(1)所示.
其中第一項(xiàng)TF 為詞頻,即某個(gè)詞在文章中的出現(xiàn)次數(shù)除以文章的總詞數(shù);后一項(xiàng)為IDF,也就是逆文本頻率,其中,分子N 為語(yǔ)料庫(kù)的文檔總數(shù),分母為包含該詞的文檔數(shù)+1,這里+1 主要是為了避免分母為0. 我們基于每個(gè)詞的TF-IDF 值,構(gòu)建{詞:TF-IDF}的詞重要性字典DT. 對(duì)于每個(gè)網(wǎng)頁(yè)的標(biāo)題文本,我們使用DT 對(duì)每個(gè)詞進(jìn)行數(shù)值映射,并將最后的結(jié)果相加. 由此,得到每個(gè)網(wǎng)頁(yè)的標(biāo)題相似度分?jǐn)?shù),相似的網(wǎng)頁(yè)標(biāo)題有相似的分?jǐn)?shù).
基于涉詐網(wǎng)站文字風(fēng)格明顯的特點(diǎn),比如賭博網(wǎng)站中往往都有威尼斯,炸魚(yú)等. 提取關(guān)鍵詞構(gòu)造關(guān)鍵詞表是一種相當(dāng)常用的方法,使用one-hot將文本數(shù)據(jù)向量化. 對(duì)于每類涉詐網(wǎng)站文本,與標(biāo)題相似度一樣使用TF-IDF 值進(jìn)行文本信息分析,然后根據(jù)其中詞語(yǔ)的TF-IDF 值獲得關(guān)鍵詞. 對(duì)于每個(gè)關(guān)鍵詞,判斷它是否已經(jīng)存在于我們構(gòu)建的關(guān)鍵詞表中,如果不存在,直接加入關(guān)鍵詞表;如果存在,則重新進(jìn)行關(guān)鍵詞的選擇,直到選擇出合適數(shù)量的關(guān)鍵詞. 關(guān)鍵詞的數(shù)量選擇跟網(wǎng)頁(yè)種類有關(guān),對(duì)于涉詐網(wǎng)站類型,每種涉詐網(wǎng)站提取360 個(gè)關(guān)鍵詞. 對(duì)于正常網(wǎng)頁(yè),將其分為英文為主和中文為主的2 種文字,各選出900 個(gè)關(guān)鍵詞,共計(jì)1800 個(gè)關(guān)鍵詞. 這樣可以適應(yīng)更多的語(yǔ)言,并對(duì)不同種類的網(wǎng)站都保持足夠的敏感性. 最后使用構(gòu)造好的詞表進(jìn)行CountVectorizer,得到詞頻矩陣供模型學(xué)習(xí).
涉詐網(wǎng)站鏈接往往為內(nèi)部鏈接,致使用戶輸入關(guān)鍵信息以實(shí)現(xiàn)詐騙,但少有外部鏈接鏈接到正常網(wǎng)站,所以可統(tǒng)計(jì)內(nèi)外鏈接比例來(lái)分析是否為涉詐網(wǎng)站. 在對(duì)于網(wǎng)頁(yè)內(nèi)外鏈接的判斷,采用如下規(guī)則:首先判斷鏈接是否有\(zhòng)"http://\",是則判斷是否為內(nèi)域,若鏈接沒(méi)有\(zhòng)"http://\",則判斷是否以\"/\"開(kāi)頭,是則為內(nèi)部鏈接,否則為外部鏈接.
在涉詐網(wǎng)站的判斷中,網(wǎng)頁(yè)的結(jié)構(gòu)信息非常重要[21],涉詐網(wǎng)站有可能會(huì)仿造正常網(wǎng)站擾亂用戶實(shí)施詐騙. 計(jì)算網(wǎng)頁(yè)結(jié)構(gòu)分?jǐn)?shù)可以很好地作為涉詐網(wǎng)站特征. 本文在數(shù)據(jù)預(yù)處理階段構(gòu)建網(wǎng)頁(yè)的Dom 樹(shù)所保存的節(jié)點(diǎn)如表1 所示. 之后,使用如式(2)對(duì)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行量化.
S 代表量化后的網(wǎng)頁(yè)結(jié)構(gòu)打分;i 代表當(dāng)前Dom 樹(shù)的層數(shù);n 代表Dom 樹(shù)的總層數(shù);j 代表Dom 樹(shù)同一層的第j 個(gè)節(jié)點(diǎn);Ki,j 為第i 層第j 個(gè)節(jié)點(diǎn)在上表中對(duì)應(yīng)的權(quán)值. 也就是說(shuō)我們通過(guò)對(duì)不同節(jié)點(diǎn)和不同層級(jí)賦予不同的權(quán)值,以提高深層級(jí)更重要標(biāo)簽的重要性. 通過(guò)計(jì)算每個(gè)層級(jí)的每個(gè)節(jié)點(diǎn)的權(quán)值,并將它們求和,即可得到網(wǎng)頁(yè)結(jié)構(gòu)打分.
3. 2. 2 站點(diǎn)特征
站點(diǎn)特征是涉詐網(wǎng)站研究中常采用的特征,主要包括域名特征以及網(wǎng)站whois信息,域名特征包含直接域名特征與域名相似度.對(duì)于直接域名特征,本文統(tǒng)計(jì)了3 萬(wàn)個(gè)涉詐網(wǎng)站域名信息,其中包含了6 大類涉詐網(wǎng)站,統(tǒng)計(jì)結(jié)果表明,使用http 協(xié)議的域名有25 278 個(gè),占總數(shù)的8成以上,這是由于https 協(xié)議搭建需要額外的成本支出,很多比較低成本的涉詐網(wǎng)站往往會(huì)選擇http協(xié)議部署. 涉詐網(wǎng)站由于存在需要大量域名以防封殺的需求,常常會(huì)選擇代價(jià)較低的免費(fèi)和低價(jià)域名后綴,經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)涉詐網(wǎng)站中排名前三的域名分別為. cn、. top、. xyz,所以可以通過(guò)統(tǒng)計(jì)是否為易涉詐后綴,來(lái)作為判斷特征. 而涉詐運(yùn)營(yíng)商通常有大量相似域名,相似度計(jì)算也可作為特征供模型學(xué)習(xí),而使用2gram 和3gram 的方法可以很好地進(jìn)行域名相似度的計(jì)算. 具體來(lái)說(shuō),將域名劃分為2 個(gè)字母為1 組的字母組和3 個(gè)字母為1 組的字母組,然后統(tǒng)計(jì)2 個(gè)字母的組合在數(shù)據(jù)集中所有文本中出現(xiàn)的頻率,并給出分?jǐn)?shù),構(gòu)建字典,3 個(gè)字母同理. 接著,通過(guò)字母在字典中的值,給每個(gè)域名打分,域名的分?jǐn)?shù)就可以反映域名的相似度. 而whois 信息對(duì)分析同種運(yùn)營(yíng)商下的涉詐網(wǎng)站極為有用,主要包含運(yùn)營(yíng)商的常見(jiàn)信息如名稱、地址、郵箱、域名存活時(shí)間等來(lái)輔助模型判斷.
3. 2. 3 圖片特征
涉詐網(wǎng)站的圖片蘊(yùn)含大量信息,往往通過(guò)圖片便可與正常網(wǎng)站區(qū)分. 并且相同種類的涉詐網(wǎng)站往往存在大量相似的圖片. 圖片特征主要包含網(wǎng)頁(yè)截圖以及網(wǎng)頁(yè)內(nèi)部圖片相似度特征. 具體來(lái)說(shuō),本系統(tǒng)使用深度學(xué)習(xí)模型提取網(wǎng)頁(yè)截圖特征實(shí)現(xiàn)分類,并使用OCR 技術(shù)提取圖片中的文字信息,然后將文字送入我們的深度學(xué)習(xí)模型實(shí)行分類,將圖片與文字特征拼接交給隨機(jī)森林決策. 利用dHash 對(duì)網(wǎng)頁(yè)內(nèi)部圖片進(jìn)行了相似度比對(duì),并使用SURF 計(jì)算網(wǎng)頁(yè)Logo 相似度,一并交給隨機(jī)森林決策. 具體算法將在分類算法詳細(xì)介紹.
3. 3 網(wǎng)站識(shí)別算法
涉詐網(wǎng)站檢測(cè)模塊主要基于隨機(jī)森林算法實(shí)現(xiàn),其主要目的是對(duì)網(wǎng)站進(jìn)行檢測(cè),判斷其是否為涉詐網(wǎng)站,為二分類任務(wù). 該隨機(jī)森林主要使用了特征抽取模塊所得到的代碼特征與站點(diǎn)特征. 具體來(lái)說(shuō),它使用了7 種特征,分別為:圖片與文字比例、標(biāo)題相似度、關(guān)鍵詞one-hot 向量、內(nèi)外域鏈接數(shù)量、網(wǎng)頁(yè)結(jié)構(gòu)打分、域名特征、whois 信息. 我們首先將提取到的特征組合起來(lái),對(duì)于部分連續(xù)性特征使用StandTransform 進(jìn)行標(biāo)準(zhǔn)化,以平衡各特征,最后使用隨機(jī)森林模型進(jìn)行訓(xùn)練,最終得到97. 23% 的準(zhǔn)確率,97. 41% 的精確率,97. 23% 的召回率,97. 28% 的F1 分?jǐn)?shù).
3. 4 網(wǎng)站分類算法
涉詐網(wǎng)站分類模塊主要基于經(jīng)典網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)多分類任務(wù),并基于隨機(jī)森林算法進(jìn)行決策. 我們使用了4 種特征,分別為截圖分類結(jié)果、文本分類結(jié)果、Logo 相似度以及內(nèi)部圖片相似度.
3. 4. 1 網(wǎng)頁(yè)截圖分類算法
本文選擇了使用卷積網(wǎng)絡(luò)來(lái)進(jìn)行網(wǎng)頁(yè)截圖分類. 即谷歌在2021 年發(fā)布的由ResNet-D 加SENet 的改進(jìn)的ResNet-RS 網(wǎng)絡(luò)作為預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí),實(shí)現(xiàn)涉詐網(wǎng)站圖片分類. 在使用ResNet-RS 網(wǎng)絡(luò)架構(gòu),需要一些常見(jiàn)的數(shù)據(jù)增強(qiáng)方式,例如常見(jiàn)的反轉(zhuǎn),旋轉(zhuǎn),高斯模糊等方式從而進(jìn)行數(shù)據(jù)增強(qiáng),目的是避免因?yàn)榫W(wǎng)頁(yè)內(nèi)容的反常規(guī)布局影響判斷結(jié)果. 在對(duì)網(wǎng)頁(yè)文本進(jìn)行預(yù)處理后,送入ResNet-RS 模型進(jìn)行訓(xùn)練,輸入圖片的大小被統(tǒng)一的縮放為(224,224),使用Adam 優(yōu)化器進(jìn)行訓(xùn)練并使用交叉熵?fù)p失函數(shù)進(jìn)行遷移學(xué)習(xí),最后得到了圖片的分類結(jié)果與置信度作為隨機(jī)森林特征之一用來(lái)訓(xùn)練.
3. 4. 2 網(wǎng)頁(yè)文本分類算法
本文選擇了使用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行網(wǎng)頁(yè)文本分類任務(wù). 首先選擇了Chineseocr_lite 模型作為OCR 模型,它可以支持漢語(yǔ),英語(yǔ)在內(nèi)的10 多種語(yǔ)言,權(quán)重文件大小僅為8. 3 MB,經(jīng)過(guò)測(cè)試,該模型擁有對(duì)比模型中最快的識(shí)別速度和相當(dāng)高的準(zhǔn)確率. 將OCR 識(shí)別出來(lái)的文本與網(wǎng)頁(yè)文本結(jié)合送入雙向GRU 分類模型,雙向GRU 基于GRU 這一RNN 時(shí)序神經(jīng)網(wǎng)絡(luò). 時(shí)序神經(jīng)網(wǎng)絡(luò)主要特點(diǎn)是將上次的輸出也當(dāng)作輸入考慮,可以很好地處理連續(xù)的文本信息. 考慮到精確度問(wèn)題,本文同樣使用了BERT 模型,BERT 本身主要是使用詞語(yǔ)填空的方式訓(xùn)練,我們?nèi)コ鬊ERT 的最后一層,使用2 層全連接層進(jìn)行處理,2層全連接層之間使用LeakyRelu 的激活函數(shù)進(jìn)行處理,最后使用Softmax 處理,從Softmax 中挑出最高值,即為分類結(jié)果. 對(duì)于雙向GRU 和Bert2 類模型,本模型預(yù)設(shè)了具體使用情景以避免算力的浪費(fèi). 具體如下,在雙向GRU 模型的置信度大于70% 時(shí),雙向GRU 有可觀的準(zhǔn)確率,所以直接使用雙向GRU 做出判斷. 當(dāng)置信度小于70% 時(shí),便使用BERT 模型判斷,并以BERT 模型的輸出結(jié)果為準(zhǔn). 最終得到了文本分類結(jié)果與置信度.
3. 4. 3 網(wǎng)頁(yè)內(nèi)部圖片分類算法
由于同類涉詐網(wǎng)站內(nèi)部圖片相似度高,本文計(jì)算了內(nèi)部圖片相似度與網(wǎng)站Logo 相似度特征. 對(duì)于內(nèi)部圖片相似度,使用基于差值dHash 對(duì)網(wǎng)頁(yè)中的圖像進(jìn)行相似度比對(duì),dHash 是感知哈希的一種,綜合了aHash和pHash 的優(yōu)點(diǎn)并可以在運(yùn)算速度較快的情況下保證準(zhǔn)確率. 本文首先將數(shù)據(jù)集中所有涉詐網(wǎng)站的截圖信息進(jìn)行哈希處理,得到其相應(yīng)的Hash 值,再使用此種方法對(duì)待檢測(cè)圖片和上述中的圖片進(jìn)行計(jì)算比對(duì),當(dāng)Hamming 距離小于4 時(shí)則可以說(shuō)明該網(wǎng)站中有和數(shù)據(jù)集中的涉詐網(wǎng)站中圖片相似的圖片,依次遍歷完所有圖片再統(tǒng)計(jì)此種圖片的數(shù)量作為相似度特征. 最后得到該網(wǎng)頁(yè)與每種涉詐網(wǎng)站相似圖片的數(shù)量,取其中最高值為其相似度作為特征.
3. 4. 4 網(wǎng)頁(yè)Logo 分類算法
對(duì)于網(wǎng)頁(yè)Logo 相似度,使用了SIFT 的改進(jìn)型SURF 算法. SURF 主要是SIFT 的加速版本,通過(guò)使用高斯差分金字塔檢測(cè)關(guān)鍵節(jié)點(diǎn)并使用黑塞矩陣確定圖像中的關(guān)鍵點(diǎn)位置并使用積分圖像來(lái)快速近似計(jì)算以減少計(jì)算復(fù)雜度,從而提升檢測(cè)效率. 判定方面,首先使用SURF 算法對(duì)所有的涉詐Logo 進(jìn)行提取,構(gòu)建相應(yīng)的描述符的庫(kù). 對(duì)于待檢測(cè)Logo 圖片,首先送入SURF 提取其特征描述符. 然后使用BFMatcher,基于歐幾里得距離進(jìn)行特征點(diǎn)匹配,選出距離最小的配對(duì). BFMatcher 是opencv 提供的匹配子算法,可以用于進(jìn)行多種距離計(jì)算. 歐幾里得距離主要指度量空間中2 個(gè)點(diǎn)的真實(shí)距離. 通過(guò)歐幾里得距離找出一系列匹配點(diǎn),為了保證匹配的質(zhì)量,Lowe 使用低比率測(cè)試,利用最近鄰與次近鄰之間的距離比來(lái)評(píng)估匹配的質(zhì)量. 通過(guò)這種方式,可以有效地過(guò)濾掉不夠穩(wěn)定的匹配,從而減少誤匹配. 原文中使用 0. 75 作為閾值過(guò)濾掉誤匹配的點(diǎn). 然后使用成功匹配點(diǎn)的數(shù)量和獲得的特征點(diǎn)總數(shù)做比,即可得到圖像的相似度. 本文是以0. 80 為相似度臨界點(diǎn),大于0. 80,就可以認(rèn)為它們極為相似,屬于同種網(wǎng)站;否則就認(rèn)為它們沒(méi)有關(guān)系,閾值的選取依據(jù)的是本文實(shí)驗(yàn)的結(jié)果,具體實(shí)驗(yàn)信息將在下一章節(jié)進(jìn)行介紹. 以此計(jì)算網(wǎng)頁(yè)Logo 與描述符庫(kù)中每種涉詐網(wǎng)站類別的相似個(gè)數(shù),以此作為L(zhǎng)ogo 相似度特征.
最后,將以上特征組合起來(lái),送入隨機(jī)森林模型進(jìn)行訓(xùn)練,最終得到了98. 2% 的準(zhǔn)確率,97. 8%的召回率,97. 9% 的F1 分?jǐn)?shù). 算法1 展示了整個(gè)涉詐網(wǎng)站分類算法的算法流程與步驟.
4 實(shí)驗(yàn)
本節(jié)將先介紹數(shù)據(jù)集以及實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo),再介紹涉詐網(wǎng)站檢測(cè)與分類的實(shí)驗(yàn)設(shè)置并與其他模型進(jìn)行對(duì)比.
4. 1 數(shù)據(jù)集
本實(shí)驗(yàn)所用數(shù)據(jù)集分為涉詐網(wǎng)站、正常網(wǎng)站,其中一部分來(lái)自有關(guān)部門提供的真實(shí)網(wǎng)絡(luò)攻擊案例樣本;另一部分為作者人工采集標(biāo)注,并加上網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)集,共計(jì)涉詐網(wǎng)站30 000 個(gè)以及正常網(wǎng)站36 321 個(gè),共計(jì)66 321 個(gè)網(wǎng)站.
其中,涉詐網(wǎng)站共包含6 種類型,分別為網(wǎng)絡(luò)釣魚(yú)、投資理財(cái)、網(wǎng)絡(luò)賭博、色情網(wǎng)站、刷單詐騙以及殺豬盤詐騙. 每種類別均為5000 個(gè).
4. 2 實(shí)驗(yàn)設(shè)置
本次實(shí)驗(yàn)主要分為2 個(gè)部分:第一部分為涉詐網(wǎng)站檢測(cè)識(shí)別實(shí)驗(yàn),本文從以下方法進(jìn)行對(duì)比實(shí)驗(yàn);將實(shí)驗(yàn)數(shù)據(jù)集應(yīng)用在其他分類器上進(jìn)行實(shí)驗(yàn)再與隨機(jī)森林分類器進(jìn)行對(duì)比以證明本文所選模型為最優(yōu);第二部分是涉詐網(wǎng)站分類算法的實(shí)驗(yàn),為驗(yàn)證本文算法的泛化性以及有效性,本文從2 個(gè)方面進(jìn)行實(shí)驗(yàn). 首先是對(duì)比實(shí)驗(yàn),將實(shí)驗(yàn)的數(shù)據(jù)集分別應(yīng)用在主流的深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對(duì)比,即將提取網(wǎng)頁(yè)圖片特征所使用的ResNet50 模型與其余主流的網(wǎng)絡(luò)模型進(jìn)行比對(duì),將本文實(shí)現(xiàn)文本分類的BERT 模型與其余主流的網(wǎng)絡(luò)模型進(jìn)行測(cè)試比對(duì),度量標(biāo)準(zhǔn)為F1 分?jǐn)?shù). 其次為消融實(shí)驗(yàn),為驗(yàn)證本文所選的多維特征組合的有效性,本實(shí)驗(yàn)將分別單獨(dú)使用網(wǎng)頁(yè)文本特征、網(wǎng)頁(yè)截圖特征、網(wǎng)站Logo 特征以及網(wǎng)頁(yè)內(nèi)部圖片特征以完成4 組對(duì)比實(shí)驗(yàn),以證明當(dāng)結(jié)合以上特征時(shí)模型將達(dá)到最高的準(zhǔn)確率.
對(duì)每種模型,采用準(zhǔn)確率(Accuracy, A)、精確率(Precision, P)、召回率(Recall, R)以及調(diào)和平均數(shù)F1 值(F1-score)作為模型性能的評(píng)價(jià)標(biāo)準(zhǔn).其中準(zhǔn)確率衡量了模型的整體預(yù)測(cè)能力,表示所有檢測(cè)與分類正確的涉詐網(wǎng)站個(gè)數(shù)占數(shù)據(jù)集總樣本的百分比,精確率表示所有被預(yù)測(cè)為正的涉詐網(wǎng)站中實(shí)際為正的涉詐網(wǎng)站的概率,而召回率表示實(shí)際為正的涉詐網(wǎng)站中被預(yù)測(cè)為正的涉詐網(wǎng)站的概率,其更關(guān)注模型在正例預(yù)測(cè)上的準(zhǔn)確性和完整性,而 F1 綜合考慮了精確率和召回率的平衡性.
具體計(jì)算公式如下所示. 這些指標(biāo)常用于評(píng)估分類模型的性能.
其中,TP、TN、FP、FN 分別代表真正例、真負(fù)例、假正例和假負(fù)例.
4. 3 實(shí)驗(yàn)結(jié)果與分析
4. 3. 1 涉詐檢測(cè)結(jié)果
本節(jié)介紹涉詐網(wǎng)站檢測(cè)模型的實(shí)驗(yàn)結(jié)果,主要采用了其他機(jī)器學(xué)習(xí)算法:邏輯回歸、樸素貝葉斯、決策樹(shù)以及XGBoost,使用本文數(shù)據(jù)集進(jìn)行分類測(cè)試,將得到的結(jié)果與隨機(jī)森林模型進(jìn)行比對(duì),采用上述評(píng)價(jià)指標(biāo)評(píng)估,結(jié)果如表2 所示,可以看出,邏輯回歸具有最低的精度,而隨機(jī)森林模型在涉詐網(wǎng)站檢測(cè)實(shí)驗(yàn)中相較于傳統(tǒng)的DT、NBM 分類器上有著顯著的提高,具有最好的F1 分?jǐn)?shù). 這意味著本文提出的方法在檢測(cè)涉詐網(wǎng)站方法非常有效.
4. 3. 2 涉詐分類結(jié)果
本章介紹涉詐網(wǎng)站分類實(shí)驗(yàn)結(jié)果. 重點(diǎn)對(duì)涉詐網(wǎng)站的文本分類模塊與網(wǎng)站截圖分類模塊以及網(wǎng)站Logo 分類模塊進(jìn)行了多次實(shí)驗(yàn),因?yàn)檫@是分類算法的核心部分. 接著證明組合特征的有效性.
網(wǎng)站的文本分類模塊主要使用了OCR 識(shí)別的網(wǎng)站圖片中的文本數(shù)據(jù)并組合網(wǎng)頁(yè)原始文本數(shù)據(jù),得到涉詐網(wǎng)站的文本信息,再將數(shù)據(jù)進(jìn)行清洗后依次送入了ResNet50v2 模型、雙向GRU、深層雙向GRU 模型以及CNN 混合BiGRU 模型進(jìn)行訓(xùn)練,將得到的結(jié)果與本文所使用的BERT 模型進(jìn)行對(duì)比. 結(jié)果如表3 所示,可以看出,本文所選擇的BERT 文本分類模型達(dá)到了最高的精確率、召回率與F1 分?jǐn)?shù),與傳統(tǒng)的文本分類模型相比在涉詐網(wǎng)站的文本分類效果上取得最佳.
為探究本文所選的網(wǎng)頁(yè)截圖分類模型性能,本文分別使用了6 種涉詐網(wǎng)站的截圖信息,首先進(jìn)行圖片預(yù)處理,再分別送入ResNet50v2、DenseNet121 與本文所選擇的ResNet-RS 模型進(jìn)行訓(xùn)練得到分類結(jié)果,如表4 所示. 可以看出,本文所選擇的模型與DenseNet121 模型具有相似的精度,并遠(yuǎn)高于ResNet50v2. 但就總體而言,我們所使用的模型取得了最高的F1 分?jǐn)?shù),在涉詐網(wǎng)站圖像分類上取得了最佳的性能.
接著,為探究網(wǎng)站Logo 分類算法的有效性,本文應(yīng)用原文所提出的0. 75 閾值進(jìn)行低比率測(cè)試排除誤匹配點(diǎn),對(duì)圖片匹配相似度使用了不同閾值測(cè)試分類結(jié)果,閾值范圍從0. 7 至0. 9 以0. 05 增量遞增. 如表5 所示,可以看出,本文選擇的閾值在F1 分?jǐn)?shù)上最高,代表著該閾值可以更好地平衡準(zhǔn)確率與召回率,以致誤報(bào)與漏報(bào)都相對(duì)較少,模型更易接受.
最后,為證明網(wǎng)站分類算法所使用的4 種特征組合有效性,我們將在隨機(jī)森林模型中分別單獨(dú)使用網(wǎng)頁(yè)文本模型分類結(jié)果、網(wǎng)頁(yè)截圖分類模型結(jié)果、網(wǎng)頁(yè)Logo 以及網(wǎng)頁(yè)內(nèi)部圖片分類結(jié)果,以此訓(xùn)練模型對(duì)比算法性能,如表6 所示. 實(shí)驗(yàn)結(jié)果表明,當(dāng)融合4 種特征時(shí)涉詐網(wǎng)站的分類模型達(dá)到最高的精確率與召回率,其在網(wǎng)站分類中誤報(bào)與漏報(bào)都相對(duì)最少,表明組合多維特征可以更好的區(qū)分各類涉詐網(wǎng)站,這可能是由于不同類別涉詐網(wǎng)站在某一特征上具有相似性所以綜合多維特征才能更好地實(shí)現(xiàn)分類.
5 結(jié)論
本文提出了基于多維特征的涉詐網(wǎng)站檢測(cè)與分類模型,構(gòu)建了11 種涉詐網(wǎng)站特征并實(shí)現(xiàn)了對(duì)涉詐網(wǎng)站的識(shí)別與分類,通過(guò)多維特征可以識(shí)別出傳統(tǒng)檢測(cè)技術(shù)無(wú)法檢測(cè)的涉詐網(wǎng)站,能夠處理新的威脅,解決了傳統(tǒng)檢測(cè)技術(shù)應(yīng)對(duì)新型網(wǎng)站的不足. 實(shí)驗(yàn)結(jié)果表明,將我們構(gòu)建的特征應(yīng)用在機(jī)器學(xué)習(xí)深度學(xué)習(xí)技術(shù)結(jié)合的模型上具有更高的準(zhǔn)確率. 并且我們將此系統(tǒng)應(yīng)用在針對(duì)全球新增域名涉詐實(shí)時(shí)感知系統(tǒng)上,成功檢測(cè)出了大量涉詐網(wǎng)站并取得了良好的檢測(cè)效果與效率. 未來(lái)將進(jìn)一步研究如何智能應(yīng)對(duì)未出現(xiàn)的新型涉詐網(wǎng)站.
參考文獻(xiàn):
[1] Sha H, Liu Q, Liu T, et al. Survey on maliciouswebpage detection research[J]. Chinese Journal ofComputers, 2016, 39: 529.[沙泓州, 劉慶云, 柳廳文, 等. 惡意網(wǎng)頁(yè)識(shí)別研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào),2016, 39: 529.]
[2] Sinha S, Bailey M, Jahanian F. Shades of Grey: Onthe effectiveness of reputation-based“ blacklists”[C]//Proceedings of the 3rd International Conference onMalicious and Unwanted Software (MALWARE).Alexandria, VA, USA: IEEE, 2008: 57.
[3] Akiyama M, Yagi T, Itoh M. Searching structuralneighborhood of malicious urls to improve blacklisting[C]//Proceedings of the 2011 IEEE/IPSJ InternationalSymposium on Applications and the Internet.Munich, Germany: IEEE, 2011.
[4] Sahoo D, Liu C, Hoi S C H. Malicious URL detectionusing machine learning: A survey[EB/OL].[2024-02-27]. https://arxiv. org/abs/1701. 07179.
[5] Mondal D K, Singh B C, Hu H, et al. SeizeMaliciousURL:A novel learning approach to detect maliciousURLs[J]. Journal of Information Security andApplications, 2021, 62: 102967.
[6] Choi H, Zhu B B, Lee H. Detecting malicious weblinks and identifying their attack types[C]//Proceedingsof the 2nd USENIX Conference on Web ApplicationDevelopment (WebApps 11).[s. l. : s. n.]2011: 1.
[7] Wu S, Luo X, Wang W, et al. Malicious URL detectionbased on multiple feature fusion[J]. Journal ofSoftware, 2021, 32: 2916.[吳森焱, 羅熹, 王偉平, 等. 融合多種特征的惡意 URL 檢測(cè)方法[J]. 軟件學(xué)報(bào), 2021, 32: 2916.]
[8] Le H, Pham Q, Sahoo D, et al. URLNet: Learninga URL representation with deep learning for maliciousURL detection [EB/OL]. [2024-02-27].https://arxiv. org/abs/1802. 03162.
[9] Selvaganapathy S G, Nivaashini M, Natarajan H P.Deep belief network-based detection and categoriza?tion of malicious URLs [J]. Information securityJournal: A global perspective, 2018, 27: 145.
[10] Bahnsen A C, Bohorquez E C, Villegas S, et al.Classifying phishing URLs using recurrent neural networks[C]//Proceedings of the 2017 APWG symposiumon electronic crime research (eCrime). Scottsdale,AZ, USA: IEEE, 2017: 1.
[11] Zhang X, Zhao J B, LeCun Y. Character-level convolutionalnetworks for text classification[J]. Advancesin neural information processing systems,2015, 1: 649.
[12] Aydin M, Butun I, Bicakci K, et al. Using attributebasedfeature selection approaches and machine learningalgorithms for detecting fraudulent websiteURLs[C]//Proceedings of the 2020 10th AnnualComputing and Communication Workshop and Conference(CCWC). Las Vegas, NV, USA: IEEE,2020: 0774.
[13] Alkhozae M G, Batarfi O A. Phishing websites detectionbased on phishing characteristics in the webpagesource code[J]. International Journal of Informationand Communication Technology Research,2011, 1: 1.
[14] Weedon M, Tsaptsinos D, Denholm-Price J. RandomForest explorations for URL classification[C]//2017 International Conference on Cyber SituationalAwareness, Data Analytics and Assessment( CyberSA).[S. l.]: IEEE, 2017.
[15] Vanhoenshoven F, Nápoles G, Falcon R, et al. Detectingmalicious URLs using machine learning techniques[C]//Proceedings of the 2016 IEEE SymposiumSeries on Computational Intelligence (SSCI).Athens, Greece: IEEE, 2016: 1.
[16] Yang R, Zheng K, Wu B, et al. Phishing website detectionbased on deep convolutional neural networkand random forest ensemble learning[J]. Sensors,2021, 21: 8281.
[17] Cai Q, Wang J, Li P. Research on malicious URLdetection based on cost-sensitive learning[J] Journalof Cyber Security, 2023, 8: 54.[蔡勍萌, 王健, 李鵬博. 基于代價(jià)敏感學(xué)習(xí)的惡意 URL 檢測(cè)研究[J].信息安全學(xué)報(bào), 2023, 8: 54.]
[18] Zulqarnain M, Ghazali R, Ghouse M G, et al. Efficientprocessing of GRU based on word embeddingfor text classification [J]. JOIV: International Journalon Informatics Visualization, 2019, 3: 377.
[19] Liu G, Guo J. Bidirectional LSTM with attentionmechanism and convolutional layer for text classification[ J]. Neurocomputing, 2019, 337: 325.
[20] Huang Y, Yang Q, Qin J, et al. Phishing URL detectionvia CNN and attention-based hierarchicalRNN [C]//Proceedings of the 2019 18th IEEE InternationalConference on Trust, Security and PrivacyIn Computing And Communications/13th IEEEInternational Conference On Big Data Science AndEngineering (TrustCom/BigDataSE). Rotorua,New Zealand: IEEE, 2019: 112.
[21] Nguyen L D, Le D N, Vinh L T. Detecting phishingweb pages based on DOM-tree structure and graphmatching algorithm [C]//Proceedings of the 5thSymposium on Information and CommunicationTechnology. New York: Association for ComputingMachinery, 2014: 280.
(責(zé)任編輯: 伍少梅)
基金項(xiàng)目: 智能警務(wù)四川省重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(ZNJW2024KFZD003); 四川省科技廳應(yīng)用基礎(chǔ)項(xiàng)目(2022NSFSC0752)