針對傳統(tǒng)方法難以對大規(guī)模釣魚網(wǎng)站進行批量檢測的問題,提出基于特征篩選的輕量級層次化檢測方法(lightweight hierarchical detection method based on feature filtering,LHFF).該方法首先使用互信息對原始特征集進行篩選,剔除冗余特征,并將篩選后的特征按照提取特征耗時長短劃分為URL特征和網(wǎng)站特征,然后根據(jù)劃分后的特征,使用輕量級層次化檢測框架對釣魚網(wǎng)站進行檢測.實驗結(jié)果表明,LHFF能夠在保障良好檢測性能的前提下,減少網(wǎng)站檢測所需要的時間,滿足對大規(guī)模釣魚網(wǎng)站進行批量檢測的需求.
釣魚網(wǎng)站; 批量檢測; 互信息; 輕量級; 層次化
TP309.9
A
0804-08
06.010
隨著互聯(lián)網(wǎng)的發(fā)展,釣魚網(wǎng)站作為造成用戶信息泄露和經(jīng)濟損失的新型網(wǎng)絡(luò)攻擊手段之一,被越來越多的不法分子所利用.根據(jù)國際反釣魚工作組(APWG)[1]發(fā)布的資料顯示,在2022年第三季度共監(jiān)測到了1 270 883次釣魚網(wǎng)站攻擊,創(chuàng)下歷史新高.釣魚網(wǎng)站的數(shù)量巨大,且增長速度快,而大多數(shù)互聯(lián)網(wǎng)用戶對釣魚網(wǎng)站的防范意識較低,容易陷入釣魚網(wǎng)絡(luò)攻擊中,給互聯(lián)網(wǎng)用戶的財產(chǎn)和個人隱私帶來很大的風(fēng)險.因此,面對數(shù)量龐大的釣魚網(wǎng)站,如何快速且有效地對其進行批量檢測已經(jīng)成為社會急需解決的問題.
針對釣魚網(wǎng)站的主流檢測方法有基于黑名單的檢測方法、基于網(wǎng)頁視覺相似度的檢測方法和基于網(wǎng)站特征的檢測方法.
基于黑名單的檢測方法是通過對URL進行篩選過濾[2],以達到檢測釣魚網(wǎng)站的目的.該方法有著較高的準確率,但是釣魚網(wǎng)站存活時間較短(一般只有2 h),而大多數(shù)釣魚網(wǎng)站在12 h以后才能被黑名單錄入,黑名單的更新速度遠遠滯后于釣魚網(wǎng)站的出現(xiàn)速度,導(dǎo)致該方法的漏檢率較高.
基于網(wǎng)頁視覺相似度的檢測方法需要維護一個受保護網(wǎng)頁列表,通過比較可疑網(wǎng)站頁面和受保護網(wǎng)站頁面的視覺相似度,包括塊相似度、布局相似度和整體風(fēng)格相似度來檢測釣魚網(wǎng)站[3-5].該方法檢測準確率高,但是該方法需要將網(wǎng)頁轉(zhuǎn)變?yōu)閳D像后進行檢測,導(dǎo)致其計算復(fù)雜度較高.
基于網(wǎng)站特征的檢測方法是通過URL、Web內(nèi)容和第三方資源等多個維度的特征對釣魚網(wǎng)站進行檢測[6-10].該方法能夠保證在較低漏檢率的同時有著較高的準確率,但是該方法提取特征耗時較長,無法滿足在實際場景中對大規(guī)模釣魚網(wǎng)站進行批量檢測的需求.
為了解決上述問題,本文提出了一種基于特征篩選的輕量級層次化釣魚網(wǎng)站檢測方法(lightweight hierarchical detection method based on feature filtering,LHFF),主要貢獻如下:
1) 計算特征與標簽間的互信息值,剔除特征集的冗余特征,提高釣魚網(wǎng)站檢測的準確率.
2) 提出了一種輕量級層次化檢測框架,能夠在保證準確率的同時減少檢測時間,滿足對大規(guī)模釣魚網(wǎng)站批量檢測的需求.
1 基礎(chǔ)理論
1.1 互信息 互信息(mutual information)是反映2個變量間相互依賴性的度量,表示給定一個隨機變量后,另一個隨機變量不確定性的削弱程度.本文用其來評價特征和標簽之間的依賴性與相關(guān)性.互信息如(1)式所示:
I(X,Y)=∑yi∈Y∑xi∈XP(xi,yi)log2P(xi,yi)P(xi)P(yi),
(1)
其中,X表示特征,Y表示類別,xi為該特征的值,yi為類別取值,P(xi,yi)為變量X和Y的聯(lián)合概率分布.
當(dāng)X和Y完全無關(guān)或相互獨立時,它們的互信息達到最小值0,這意味著兩者之間不存在關(guān)聯(lián);反之,當(dāng)兩者的依賴程度越高時,互信息I(X;Y)值也就越大,特征也越重要.
1.2 深度可分離卷積 傳統(tǒng)卷積是在所有輸入通道上均使用一個卷積核進行卷積操作,輸入通道有幾維,卷積核也就需要有著同樣的維度[11].因此,傳統(tǒng)卷積需要大量的權(quán)重參數(shù)來捕捉不同的特征,存在參數(shù)數(shù)量過多、計算量較大等缺點.為了解決上述問題,本文引入深度可分離卷積來替代傳統(tǒng)卷積.
深度可分離卷積由逐通道卷積和逐點卷積組成[12-13].相較于傳統(tǒng)卷積,深度可分離卷積可以顯著減少網(wǎng)絡(luò)參數(shù)量和計算復(fù)雜度.逐通道卷積是對每個輸入通道進行分組,每個組單獨進行卷積,輸出通道數(shù)不變,卷積核的個數(shù)與輸入通道數(shù)相等,每個卷積核只需要對一個通道進行卷積,不同通道之間的卷積操作是相互獨立的,降低了每個卷積核的維度.但是,單獨對一個通道的數(shù)據(jù)進行卷積運算,則僅提取了數(shù)據(jù)某一維度的特征,將會導(dǎo)致提取的特征不夠全面.因此,在此基礎(chǔ)上加入逐點卷積.逐點卷積是用1×1的卷積核對提取特征后的特征圖再次提取不同通道的特征,同時完成對輸出通道的升維操作.深度可分離卷積在減少參數(shù)量的前提下,輸出與傳統(tǒng)卷積相同的特征圖.傳統(tǒng)卷積參數(shù)量N和深度可分離卷積N′的計算分別如(2)和(3)式所示.
N=C1×(M×M)×C2,
(2)
N′=C1×(M×M)+C1×(1×1)×C2,
(3)
其中,N為傳統(tǒng)卷積參數(shù)數(shù)量,N′為深度可分離卷積參數(shù)數(shù)量,C1為原始通道數(shù),(M×M)為卷積核的尺寸,C2為輸出通道數(shù).在(3)式中,C1×(M×M)為逐通道卷積的參數(shù)量,C1×(1×1)×C2為逐點卷積的參數(shù)量.
例如,當(dāng)輸入通道數(shù)C1=8,卷積核尺寸
(M×M)=(10×10), C2=64,
可得參數(shù)量N=51 200,N′=1 312.由此可以看出,深度可分離卷積能夠極大地減少參數(shù)的數(shù)量.
1.3 釣魚網(wǎng)站原始特征集 釣魚網(wǎng)站的原始特征集具體情況如表1所示.
由表1可知,本文使用了多個維度的特征,其不僅包含了URL、HTML這些常見的特征,還動態(tài)獲取了JS、網(wǎng)站端口開放情況、域名注冊時長、HTTPS信息、網(wǎng)站反鏈數(shù)量、Pagerank等特征,這些特征是攻擊者難以偽裝的,可以更加有效地保證釣魚網(wǎng)站檢測的可靠性.
2 基于特征篩選的輕量級層次化檢測方法
基于特征篩選的輕量級層次化檢測方法由特征篩選和輕量級層次化檢測框架兩部分組成.
2.1 特征篩選 在特征集內(nèi)部往往會存在冗余特征影響模型的檢測性能,因此,本文使用互信息對釣魚網(wǎng)站原始特征集進行篩選,剔除冗余特征,并將篩選后的特征按照耗時長短劃分為URL特征和網(wǎng)站特征.其中,URL特征主要關(guān)注URL本身,即用于訪問網(wǎng)站的地址,這些特征包括域名、子域名、路徑、查詢字符串、協(xié)議、IP地址等.URL特征通過使用如長URL、IP地址URL等特征來發(fā)現(xiàn)釣魚網(wǎng)址.而網(wǎng)站特征主要關(guān)注的是網(wǎng)站本身的內(nèi)容,包括頁面設(shè)計、頁面元素、文本內(nèi)容、圖像、鏈接、虛假的品牌標識等.網(wǎng)站特征通過如網(wǎng)站是否包含虛假的信息、虛假的登錄頁面或其他欺騙性內(nèi)容等特征來發(fā)現(xiàn)釣魚網(wǎng)址.
特征篩選方法的具體描述如圖1所示.
1) 通過(1)式計算原始特征集內(nèi)每個特征與標簽之間的互信息值I(X;Y),互信息值最大的前5個特征如表2所示.
2) 按照特征互信息值的大小進行排序,并取出前N維特征使用.
3) 將選取出來的前N維特征劃分為URL特征和網(wǎng)站特征,其中大多數(shù)URL特征都是對URL文本進行處理,不需要通過網(wǎng)絡(luò)爬蟲技術(shù)獲取,特征提取的時間較短,便于快速檢測.而網(wǎng)站特征需要通過網(wǎng)絡(luò)爬蟲進行獲取,耗時較長,但是這部分特征是攻擊者難以偽裝的,可以保證釣魚網(wǎng)站檢測的可靠性和準確性.
篩選后的URL特征和網(wǎng)站特征分別如表3和表4所示.
2.2 輕量級層次化檢測框架 隨著網(wǎng)絡(luò)的飛速發(fā)展,釣魚網(wǎng)站的數(shù)量不斷增加,傳統(tǒng)的釣魚網(wǎng)站檢測方法難以在保證準確率的前提下,對大規(guī)模釣魚網(wǎng)站進行批量檢測.針對該問題,本文提出了一種輕量級層次化檢測框架,該框架包含粗檢測與細檢測兩部分.
粗檢測基于URL特征快速對網(wǎng)站進行判斷,可以在不需要太多計算資源和時間的情況下,快速地對大量網(wǎng)站進行初步篩選,避免了無差別深入分析所有網(wǎng)站的情況.細檢測基于多個維度的特征對網(wǎng)站進行判斷,雖然細檢測的耗時較長,但其可以對待檢測網(wǎng)站進行深入分析,從而提高檢測的準確性.
2.2.1 檢測流程 本文提出的輕量級層次化檢測框架具體流程如圖2所示,當(dāng)數(shù)據(jù)輸入后,先通過粗檢測進行快速判斷,大于閾值則直接輸出網(wǎng)站類別;否則,將數(shù)據(jù)送入第二層細檢測中去.
檢測流程的具體步驟如下.
1) 粗檢測:當(dāng)待檢測網(wǎng)站URL輸入后,粗檢測首先將URL通過解析或者字符串處理等方式提取出域名(hostname),再將提取出的域名送入到WHOIS數(shù)據(jù)庫中進行查詢,查詢后返回的信息包括域名的所有者、注冊時間、過期時間、DNS服務(wù)器等.在獲取網(wǎng)站的域名信息后,通過正則匹配從待檢測網(wǎng)站的URL和域名信息中提取出網(wǎng)站的URL特征.
在獲取到URL特征后,使用輕量級CNN對URL特征進行卷積操作,再通過Softmax函數(shù)得到類別概率,最后將類別概率最大值與設(shè)定閾值進行判斷,如(4)式所示.如果類別概率的最大值大于所設(shè)定的閾值,則直接輸出網(wǎng)站類別;否則,將URL特征與待檢測網(wǎng)站URL送入細檢測階段進行更深入的分析.
輸出網(wǎng)站類別, 如果max(P0,P1)gt;,
送入細檢測, 其他,
(4)
其中,P0是輸出釣魚網(wǎng)站的概率,P1是輸出合法網(wǎng)站的概率,是一個設(shè)定的閾值,∈[0,1].
2) 細檢測:當(dāng)網(wǎng)站被送入細檢測后,細檢測通過網(wǎng)絡(luò)爬蟲等技術(shù)訪問待檢測網(wǎng)站,獲取HTML、JavaScript和第三方資源,且對所獲取的資源進行解析并得到網(wǎng)站特征.
在獲取到網(wǎng)站特征后,按照(5)式,將URL特征和網(wǎng)站特征進行特征融合組建融合特征集,接著使用輕量級CNN對融合特征集F進行第二輪檢測,進而判斷出網(wǎng)站類別.
F=Fu∪Fh,
(5)
其中,F(xiàn)為融合特征集,F(xiàn)u為URL特征,F(xiàn)h為網(wǎng)站特征.
2.2.2 輕量級CNN 目前大多數(shù)基于神經(jīng)網(wǎng)絡(luò)的釣魚網(wǎng)站檢測方法都存在著網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜和參數(shù)量巨大的缺點,計算復(fù)雜度高.為了解決該問題,本文引入深度可分離卷積來替代傳統(tǒng)卷積,以減少參數(shù)量,使模型輕量化,更適用于對釣魚網(wǎng)站進行批量檢測的場景.輕量級CNN的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示.
參數(shù)量的減少會影響模型預(yù)測的準確率,本文僅將傳統(tǒng)CNN網(wǎng)絡(luò)中參數(shù)量較多的第二層卷積替換成深度可分離卷積,既較大程度地減少了網(wǎng)絡(luò)的參數(shù)量,提高網(wǎng)絡(luò)的運行效率,又能確保分類模型有較高的準確率.
3 實驗結(jié)果和分析
3.1 實驗數(shù)據(jù)集 為了評估本文所提出的LHFF,本文使用了2個數(shù)據(jù)集,包括UCI釣魚網(wǎng)站數(shù)據(jù)集[14]和本文所收集的真實網(wǎng)站數(shù)據(jù)集.UCI釣魚網(wǎng)站數(shù)據(jù)集是學(xué)術(shù)界應(yīng)用較為廣泛的釣魚網(wǎng)站數(shù)據(jù)集,該數(shù)據(jù)集包含了約11 000個網(wǎng)站的數(shù)據(jù),有6 157條正常網(wǎng)站數(shù)據(jù)和4 898條釣魚網(wǎng)站數(shù)據(jù).真實網(wǎng)站數(shù)據(jù)集包含有2 000個釣魚網(wǎng)站和2 000個正常網(wǎng)站,其中釣魚網(wǎng)站來自PhishTank,正常網(wǎng)站來自Alex.
3.2 評價指標 本文通過模型的準確率(accuaracy)、精確率(precision)、召回率(recall)和F1_score,以及檢測時間和參數(shù)數(shù)量等指標來評估LHFF的性能[15].準確率(Acc)是指分類模型在所有被預(yù)測的數(shù)據(jù)中,正確分類的數(shù)據(jù)占比的指標,衡量的是模型對所有數(shù)據(jù)的分類準確性,其計算公式如下
Acc=TP+TNTP+TN+FP+FN×100%,
(6)
其中,TP、TN、FP、FN分別表示將正類預(yù)測為正類、將負類預(yù)測為負類、將負類預(yù)測為正類、將正類預(yù)測為負類的樣例數(shù).
精確率(Pre)是指所有被預(yù)測為正類的數(shù)據(jù)中,真正屬于正類的數(shù)據(jù),衡量的是模型在預(yù)測正類數(shù)據(jù)時的準確性,其計算公式如下
Pre=TPTP+FP×100%.
(7)
召回率(Rec)是指分類模型在所有真實的正類數(shù)據(jù)中,被正確預(yù)測為正類數(shù)據(jù)占比,衡量的是模型對正類數(shù)據(jù)的識別能力,其計算公式如下
Rec=TPTP+FN×100%.
(8)
單一依靠某個指標并不能較為全面地評估分類器的性能.因此,使用精確率和召回率的綜合指標F1_score來評估性能,其計算公式如下
F1_score=2Pre·RecPre+Rec×100%.
(9)
3.3 模型訓(xùn)練 在模型訓(xùn)練階段,首先對數(shù)據(jù)集的特征值進行歸一化處理,便于在相同尺度上分析不同特征或變量,再將其劃分為訓(xùn)練集和測試集.對于粗檢測中的輕量級CNN網(wǎng)絡(luò),使用訓(xùn)練集中的URL特征進行模型訓(xùn)練,而對于細檢測中輕量級CNN網(wǎng)絡(luò),使用URL特征和網(wǎng)站特征進行模型訓(xùn)練
數(shù)據(jù)將通過 reshape 層進行維度變換后輸入模型,經(jīng)過卷積、池化、平鋪等操作后,輸入全連接層,最后對全連接層輸出的數(shù)據(jù)進行softmax運算,得出分類結(jié)果.上述網(wǎng)絡(luò)模型均采用relu激活函數(shù),Adam優(yōu)化算法用于對模型參數(shù)優(yōu)化更新,學(xué)習(xí)率為 0.001,優(yōu)化模型的損失函數(shù)為交叉熵損失函數(shù).
3.4 特征篩選 為了有效地剔除掉特征集內(nèi)部的冗余特征,通過計算特征的互信息值,并按照互信息值大小進行排序,選取能讓模型達到最高準確率的前N個特征.本文在UCI釣魚網(wǎng)站數(shù)據(jù)集上使用傳統(tǒng)CNN進行實驗,不同N值下的準確率變化情況如圖4所示.
由圖4可知,隨著N值的增大,準確率也在逐步增加.當(dāng)N=24時,準確率達到最高;而當(dāng)Ngt;24時,準確率逐漸下降.因此,本文將N的取值設(shè)為24,剔除掉互信息值排名最后的6個特征.
3.5 閾值選擇 由于細檢測的檢測耗時較長,為了保證輕量級層次化檢測框架在高準確率的前提下快速地對釣魚網(wǎng)站進行檢測,以滿足批量檢測的需求,那么,輕量級層次化檢測框架必須有合適的閾值.因此,本文基于UCI釣魚網(wǎng)站數(shù)據(jù)集,量化不同閾值對輕量級層次化檢測框架的影響,實驗結(jié)果見表5.
由表5可知,當(dāng)閾值小于0.8時,伴隨著閾值的增加,LHFF的準確率、精確率、召回率和F1_score逐漸增加,而當(dāng)閾值大于0.8時,由于越來越多的網(wǎng)站被送入細檢測中進行二次判斷,檢測所消耗的時間繼續(xù)增加,而準確率等各項指標卻并沒有明顯提升.因此,本文選擇0.8作為輕量級層次化檢測框架的閾值.
3.6 深度可分離卷積有效性 為了探究深度可分離卷積對檢測模型的有效性,本文利用基于傳統(tǒng)卷積的層次化檢測框架和使用深度可分離卷積的輕量級層次化框架進行多指標對比實驗,實驗結(jié)果如表6所示.
由表6可以看出,與使用傳統(tǒng)卷積相比,深度可分離卷積的準確率僅僅下降了0.2%,但其參數(shù)數(shù)量減少了68.5%,運行時間也減少了41.7%.由此表明,使用深度可分離卷積來替換傳統(tǒng)卷積,可以在保持了準確率損失不大的前提下,減少網(wǎng)絡(luò)模型參數(shù)數(shù)量和運行時間,提升釣魚網(wǎng)站檢測時的運行效率,使得網(wǎng)絡(luò)模型更適用于批量檢測的需求.
3.7 LHFF有效性驗證 為了驗證LHFF的有效性,本文在UCI釣魚網(wǎng)站數(shù)據(jù)集上使用LHFF與其他方法進行實驗比較,表7展示了LHFF與傳統(tǒng)方法的實驗比較結(jié)果.表8展示了LHFF與文獻[16-20]的實驗比較結(jié)果.
由表7、表8中的數(shù)據(jù)可以看出,LHFF相較于其他方法有著更好的表現(xiàn),其各個指標均有所提升.由此表明,LHFF能夠有效地提取出特征中的有效信息,提高模型的檢測性能.
3.8 真實網(wǎng)站批量檢測 為了探究LHFF、粗檢測和細檢測對大規(guī)模釣魚網(wǎng)站批量檢測的性能差異,本文基于真實網(wǎng)站數(shù)據(jù)集對這3類不同方法進行了對比實驗,實驗結(jié)果如表9所示.
由表9可知,在相同網(wǎng)站數(shù)量下:粗檢測只需要對URL進行檢測,檢測的速度較快,對4 000條網(wǎng)站檢測總耗時僅需0.8 h,然而,僅根據(jù)URL特征并不能夠全面地描述一個釣魚網(wǎng)站,故而導(dǎo)致粗檢測的準確率較低,只有91%;細檢測則需要通過網(wǎng)絡(luò)爬蟲等技術(shù)提取網(wǎng)站特征,這部分特征的提取十分消耗時間,導(dǎo)致細檢測的速度慢,需要21.22 h才能完成對4 000條網(wǎng)站的檢測,但細檢測所用到的多維特征能夠更加全面地刻畫出釣魚網(wǎng)站特點,使得檢測準確率達到了96.9%;LHFF結(jié)合了細檢測和粗檢測各自的優(yōu)勢,在粗檢測階段,部分待檢測網(wǎng)站已經(jīng)被判斷出網(wǎng)站類別,避免了細檢測再次判斷,而在細檢測中通過對網(wǎng)站的深入分析,保障了檢測的準確率,通過粗檢測與細檢測的配合,LHFF對4 000條網(wǎng)站的檢測準確率可達96.7%,所用時間則為6.92 h,表明其能夠在保障高準確率的前提下,降低時間復(fù)雜度,滿足釣魚網(wǎng)站批量檢測的需求.
4 結(jié)束語
針對傳統(tǒng)方法難以對大規(guī)模釣魚網(wǎng)站進行批量檢測的問題,本文提出了一種基于特征篩選的輕量級層次化釣魚網(wǎng)站檢測方法(LHFF),該方法使用互信息篩選掉了原始特征集內(nèi)部的冗余特征,并利用輕量級層次化檢測框架在保障準確率的前提下減少檢測所需要的時間,滿足釣魚網(wǎng)站批量檢測的需求.雖然LHFF有著較好的性能,但對于部分網(wǎng)站不能達到實時檢測的需求.因此,未來考慮進一步讓LHFF適用于實時檢測的場景,并計劃將LHFF做成瀏覽器插件,使得用戶在通過瀏覽器訪問網(wǎng)頁時,能夠?qū)崟r檢測出釣魚網(wǎng)站,并產(chǎn)生報警信息提醒用戶.
參考文獻
[1] APWG. Phishing activity trends report[EB/OL]. (2022-12-14)[2023-03-15]. https: //docs.apwg.org/reports/apwg_trends_report_q3_2022.pdf.
[2] JAIN A K, GUPTA B B. A novel approach to protect against phishing attacks at client side using auto-updated white-list[J]. EURASIP Journal on Information Security,2016,2016(1):1-11.
[3] PATURI R, SWATHI L, PAVITHRA K S, et al. Detection of phishing attacks using visual similarity model[C]//2022 International Conference on Applied Artificial Intelligence and Computing (ICAAIC). Salem: IEEE,2022:1355-1361.
[4] FU A Y, LIU W Y, DENG X T. Detecting phishing web pages with visual similarity assessment based on earth mover’s distance (EMD)[J]. IEEE Transactions on Dependable and Secure Computing,2006,3(4):301-311.
[5] NIROSHAN ATIMORATHANNA D, SHEHAN RANAWEERA T, DEVDUNIE PABASARA R A H, et al. NoFish: total anti-phishing protection system[C]//2020 2nd International Conference on Advancements in Computing (ICAC). Malabe: IEEE,2021:470-475.
[6] ZHANG Y E, HONG J I, CRANOR L F. Cantina: a content-based approach to detecting phishing web sites[C]//Proceedings of the 16th International Conference on World Wide Web. New York: ACM,2007:639-648.
[7] XIANG G, HONG J I, ROS C, et al. CANTINA+: a feature-rich machine learning framework for detecting phishing web sites[J]. ACM Trans Inf Syst Secur,2011,14(2):1-28.
[8] OPARA C, WEI B, CHEN Y K. HTMLPhish: enabling phishing web page detection by applying deep learning techniques on HTML analysis[C]//2020 International Joint Conference on Neural Networks (IJCNN). Glasgow: IEEE,2020:1-8.
[9] HU Q, ZHOU H X, LIU Q. Phishing website detection based on multi-feature stacking[C]//2021 2nd International Conference on Artificial Intelligence and Computer Engineering (ICAICE). Hangzhou: IEEE,2022:716-720.
[10] FENG J, ZOU L Y, YE O, et al. Web2Vec: phishing webpage detection method based on multidimensional features driven by deep learning[J]. IEEE Access,2020,8:221214-221224.
[11] GU J X, WANG Z H, KUEN J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition,2018,77:354-377.
[12] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE,2017:1800-1807.
[13] YE G C, ZHANG J A, LI H Z, et al. Android malware detection technology based on lightweight convolutional neural networks[J]. Security and Communication Networks,2022,2022:1-12.
[14] MOHAMMAD R M, THABTAH F, MCCLUSKEY L. Phishing websites features[EB/OL]. (2015-03-25)[2022-09-16]. https: //archive.ics.uci.edu/ml/datasets/Phishing+Websites.
[15] 白惠文,馬雪婧,劉偉偉,等. 基于深度學(xué)習(xí)的匿名協(xié)議流量識別技術(shù)研究[J]. 計算機仿真,2021,38(7):360-365.
[16] ALQAHTANI M. Phishing websites classification using association classification (PWCAC)[C]//2019 International Conference on Computer and Information Sciences (ICCIS). Sakaka: IEEE,2019:1-6.
[17] SNMEZ Y, TUNCER T, GKAL H, et al. Phishing web sites features classification based on extreme learning machine[C]//2018 6th International Symposium on Digital Forensic and Security (ISDFS). Antalya: IEEE,2018:1-5.
[18] RASHID J, MAHMOOD T, NISAR M W, et al. Phishing detection using machine learning technique[C]//2020 First International Conference of Smart Systems and Emerging Technologies (SMARTTECH). Riyadh: IEEE,2020:43-46.
[19] ZAMAN S, UDDIN DEEP S M, KAWSAR Z, et al. Phishing website detection using effective classifiers and feature selection techniques[C]//2019 2nd International Conference on Innovation in Engineering and Technology (ICIET). Dhaka: IEEE,2020:1-6.
[20] PAVAN R, NARA M, GOPINATH S, et al. Bayesian optimization and gradient boosting to detect phishing websites[C]//2021 55th Annual Conference on Information Sciences and Systems (CISS). Baltimore: IEEE,2021:1-5.
Lightweight Hierarchical Phishing Website DetectionBased on Feature Filtering
YI Zhilin1,2, LI Huanzhou1,2, ZHANG Jian1,2, TANG Zhangguo1,2, TIAN Weizheng1,2
(1. College of Physics and Electronic Engineering, Sichuan Normal University, Chengdu 610101, Sichuan;
2. Institute of Network and Communication Technology, Sichuan Normal University, Chengdu 610101, Sichuan)
For the problem that traditional methods are difficult to detect large-scale phishing websites in batch, a lightweight hierarchical detection method based on feature filtering (LHFF) is proposed. The method first uses mutual information to filter the original feature set, eliminates redundant features, and divides the filtered features into URL features and website features according to the time spent on extracting features, and then uses the lightweight hierarchical detection framework to detect phishing websites according to the divided features. The experimental results show that LHFF can reduce the time required for website detection and meet the demand for batch detection of large-scale phishing websites while guaranteeing good detection performance.
phishing websites; batch detection; mutual information; lightweight; hierarchical
(編輯 余 毅)