• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT和層次化Attention的惡意域名檢測(cè)

    2022-07-13 02:38:42魏金花
    關(guān)鍵詞:域名字符單詞

    張 鳳, 張 微, 魏金花

    (銀川科技學(xué)院 信息工程學(xué)院,寧夏 銀川 750003)

    0 引 言

    惡意域名的變種隨檢測(cè)手段的豐富不斷增多,現(xiàn)有惡意域名大多利用域名生成算法(Domain Generate Algorithm, DGA)、IP-Flux或Domain-Flux等技術(shù)隨機(jī)大批量生成惡意域名[1-2],并具有很強(qiáng)的隱蔽性和潛伏性[3]。因此,如何準(zhǔn)確地檢測(cè)出潛在的惡意域名,提前封堵,阻斷其進(jìn)一步的攻擊,已成為網(wǎng)絡(luò)安全領(lǐng)域問(wèn)題之一。

    現(xiàn)有惡意域名檢測(cè)方法根據(jù)技術(shù)手段可以劃分為基于域名黑名單的惡意域名檢測(cè)、基于深度學(xué)習(xí)的惡意域名檢測(cè)等兩大類[4-8]。其中,基于域名黑名單的惡意域名檢測(cè)方法主要根據(jù)歷史數(shù)據(jù)與待測(cè)域名之間的字符相似度來(lái)給出合法性的判斷。如文獻(xiàn)[9]提出了一種基于詞法特征的惡意域名檢測(cè)方法,通過(guò)計(jì)算待測(cè)域名與惡意域名黑名單上域名間的編輯距離,給出待測(cè)域名合法性的判斷。文獻(xiàn)[10]利用歷史數(shù)據(jù)中域名的關(guān)聯(lián)信息判斷待測(cè)域名的合法性。文獻(xiàn)[11]利用并行與串行相結(jié)合的方式對(duì)待測(cè)域名進(jìn)行預(yù)測(cè)。文獻(xiàn)[12]提出了一種分階段的惡意域名檢測(cè)算法,首先,利用歷史數(shù)據(jù)對(duì)待測(cè)域名進(jìn)行首輪過(guò)濾并構(gòu)造待測(cè)域名集;然后,對(duì)待測(cè)域名集中的每一域名進(jìn)行深層次、細(xì)粒度的分類。文獻(xiàn)[13]利用歷史數(shù)據(jù)作為引誘器來(lái)追蹤難以正面檢測(cè)的惡意域名,實(shí)時(shí)定位惡意域名的訪問(wèn)記錄,進(jìn)一步追蹤家族惡意域名。該類惡意域名檢測(cè)算法雖直接有效,但檢測(cè)精度過(guò)度依賴歷史數(shù)據(jù),對(duì)新變種或新出現(xiàn)的家族惡意域名檢測(cè)精度不佳。

    近年來(lái),隨著深度學(xué)習(xí)和自然語(yǔ)言處理等技術(shù)在計(jì)算機(jī)視覺(jué)和文本分類等領(lǐng)域的廣泛應(yīng)用[14],利用深度學(xué)習(xí)和自然語(yǔ)言處理等技術(shù)解決網(wǎng)絡(luò)安全問(wèn)題也逐漸受到研究學(xué)者的廣泛關(guān)注。如文獻(xiàn)[15]提出了一種基于詞素特征的輕量級(jí)域名檢測(cè)方法,根據(jù)域名包含的詞根、詞綴、拼音和縮寫(xiě)等特征構(gòu)造決策樹(shù),快速判斷合法域名與惡意域名。文獻(xiàn)[16]提出了一種基于深度學(xué)習(xí)的惡意域名檢測(cè)算法,通過(guò)提取域名包含的解析特征、字符特征和訪問(wèn)記錄等多維度特征,構(gòu)造分類器,實(shí)現(xiàn)待測(cè)域名的判定。文獻(xiàn)[17]利用機(jī)器學(xué)習(xí)算法有效解決了域名生成算法產(chǎn)生的批量惡意域名隱蔽性強(qiáng),難以檢測(cè)的問(wèn)題。文獻(xiàn)[18]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)與LSTM相結(jié)合的惡意域名檢測(cè)算法,利用CNN和LSTM提取域名在空間和時(shí)序維度上的構(gòu)詞特征,并結(jié)合gram作出最終待測(cè)域名合法性的判斷。文獻(xiàn)[19]采用門控循環(huán)(Gated Recurrent Unit, GRU)型循環(huán)神經(jīng)網(wǎng)絡(luò)并結(jié)合注意力機(jī)制,提出了一種DGA域名檢測(cè)算法ATT-GRU,有效解決了DGA算法生成的惡意域名隱蔽性強(qiáng),導(dǎo)致難以檢測(cè)的問(wèn)題。該類檢測(cè)算法可以較好地解決新變種或新出現(xiàn)家族惡意域名檢測(cè)不佳的問(wèn)題,但域名字符串本身攜帶的信息有限,如何細(xì)粒度的利用有限字符串中的字符或單詞信息強(qiáng)化合法域名與惡意域名的分類精度,成為基于深度學(xué)習(xí)算法的惡意域名檢測(cè)方法中亟待解決的問(wèn)題。

    針對(duì)上述問(wèn)題,本文提出了一種基于BERT和層次化Attention的惡意域名檢測(cè)模型。該模型首先通過(guò)BERT預(yù)訓(xùn)練自然語(yǔ)言模型生成包含上下文語(yǔ)義新的詞向量矩陣;然后,利用兩層雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)Bi-LSTM分別獲得整條URL和包含單詞的特征表示,并在整條URL中引入全局Attention機(jī)制,在所含單詞中引入局部Attention機(jī)制,通過(guò)計(jì)算字符串中字符或單詞的貢獻(xiàn)程度,強(qiáng)化待測(cè)域名的分類效果;最后,利用Softmax分類器給出惡意域名的判斷。

    1 算法設(shè)計(jì)

    本文提出的一種基于BERT和層次化Attention的惡意域名檢測(cè)模型主要包括預(yù)訓(xùn)練BERT語(yǔ)言模型、Bi-LSTM構(gòu)造和Attention機(jī)制引入等模塊。

    1.1 預(yù)訓(xùn)練BERT語(yǔ)言模型

    BERT是2018年谷歌公司提出的一種自然語(yǔ)言處理模型,近年來(lái)被廣泛地應(yīng)用于自然語(yǔ)言處理(Natural Language Processing, NLP)任務(wù)中[20]。BERT模型結(jié)構(gòu)如圖1所示。圖中,domaini={s1,s2,…,sn}表示域名domaini包含的單詞,通過(guò)預(yù)訓(xùn)練的多層雙向Transformer編碼器生成對(duì)應(yīng)的詞向量矩陣Vi={v1,v2,…,vn}。

    本文使用的BERT利用雙向Transformer編碼器來(lái)提取域名字符串中的字符特征表示。Transformer架構(gòu)如圖2所示。

    圖2中所示的Transformer編碼器是基于自注意力機(jī)制的Seq2Seq模型,僅利用自注意力機(jī)制解決了傳統(tǒng)CNN與RNN存在的時(shí)序和空間維度不兼顧的問(wèn)題,同時(shí)強(qiáng)化了對(duì)于序列特征的位置信息建模的能力[21]。由于自注意力機(jī)制并不具備對(duì)位置信息的建模能力,而域名字符串等文本內(nèi)容對(duì)于上下文信息等序列性特征要求較高[20]。因此,在模型編碼階段引入位置編碼(Position Encoder, PE)。即將域名字符串經(jīng)過(guò)位置編碼后作為多頭自注意力機(jī)制的輸入,從不同層次、不同角度獲取域名的字符特征信息。此外,為了加速模型收斂,采用殘差結(jié)構(gòu)規(guī)避信息記憶誤差。

    圖2 Transformer結(jié)構(gòu)

    1.2 Bi-LSTM

    合法域名與惡意域名在字符組成和結(jié)構(gòu)等方面存在較大差異,且不同家族的惡意域名結(jié)構(gòu)也有所不同[22];此外,域名在構(gòu)造規(guī)則和字符組合等方面相對(duì)自由,但在字符與字符組合上仍存在上下文依賴關(guān)系[22]。因此,本文利用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long ShortTerm Memory, BiLSTM)提取域名的上下文信息。BiLSTM模型是由兩個(gè)LSTM網(wǎng)絡(luò)通過(guò)上下疊加構(gòu)成,如圖3所示。

    圖3 Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)

    圖3中,domaini={s1,s2,…,sn}表示域名集合中的第i個(gè)域名,首先利用BERT中的Transformer Encoder將domaini中的字符sj轉(zhuǎn)換為字符向量v(sj),并將sj組成的域名映射為矩陣Vi,其中Vi={v(s1),v(s2),…,v(sn)};然后對(duì)域名矩陣Vi利用BiLSTM進(jìn)行上下文特征提取,計(jì)算公式為

    (1)

    1.3 Attention機(jī)制

    受人腦資源分配的啟發(fā),文獻(xiàn)[23]提出了一種注意力機(jī)制Attention,通過(guò)聚焦重要性特征,弱化邊緣信息的原理提高對(duì)重點(diǎn)區(qū)域的關(guān)注度。本文利用注意力機(jī)制計(jì)算域名字字符串所包含的單詞和字符之間的重要性特征。Attention機(jī)制的結(jié)構(gòu)如圖4所示。

    圖4 Attention機(jī)制

    Attention機(jī)制具體計(jì)算公式為

    ei=μiδ(wizi+bi)

    (2)

    (3)

    式中:ei表示zi的能量因子;y表示注意力機(jī)制的輸出值;δ為tanh函數(shù);μi和wi分別表示權(quán)重系數(shù);zi表示隱藏層的初始狀態(tài);bi表示偏置。

    1.4 惡意域名檢測(cè)

    惡意域名檢測(cè)整體流程如圖5所示。

    圖5 惡意域名檢測(cè)流程

    (1)輸入層:將域名字符串轉(zhuǎn)換為Bi-LSTM能夠接受的序列向量。本文從360NetLab、Malware Domain List、Alexa和安全聯(lián)盟等國(guó)內(nèi)外各大網(wǎng)站上收集與整理合法域名和惡意域名,并去除域名中的頂級(jí)域名、協(xié)議等,提取二級(jí)、三級(jí)、四級(jí)等域名級(jí),構(gòu)造合法域名樣本集和惡意域名樣本集。

    假設(shè)域名domaini由n個(gè)單詞組成,即domaini={d1,d2,…,dn};每個(gè)單詞d由m個(gè)字符組成,則第t個(gè)單詞dt可以表示為dt={s1,s2,…,sm}。通過(guò)預(yù)訓(xùn)練的BERT自然語(yǔ)言模型可以獲取每個(gè)字符的詞向量表示。

    (2)特征提取層:完成字符和整條URL的字符特征表示。

    1)將經(jīng)過(guò)BERT向量化后的每個(gè)字符si作為Bi-LSTM的輸入,提取字符深層次特征。計(jì)算如公式(1)所示。

    2)將步驟1)的輸出作為局部Attention機(jī)制的輸入,提取每個(gè)單詞上下文信息中貢獻(xiàn)值最大的字符特征。首先,借鑒文獻(xiàn)[12]利用自然語(yǔ)言處理模型N-Gram滑動(dòng)取詞的方式,構(gòu)造長(zhǎng)度為l=[α-Δ,α+Δ]的滑動(dòng)窗口,其中,α表示隨機(jī)選擇的中心字符,Δ為設(shè)定的窗口大小。根據(jù)公式(4)~(6)計(jì)算每個(gè)滑動(dòng)窗口內(nèi)中心字符與其余字符之間的相似度,并根據(jù)相似度值給每個(gè)字符賦予權(quán)重wi。

    α=k·σ(pe1(x,y)δ(pe2(x,y)ht))

    (4)

    (5)

    Wt=∑t,ihtwi

    (6)

    3)將步驟2)計(jì)算獲得的Wt作為Bi-LSTM的輸入,提取每個(gè)單詞的深層特征表示,計(jì)算如公式(1)所示。并引入全局Attention機(jī)制對(duì)Bi-LSTM提取的特征進(jìn)行強(qiáng)化,細(xì)粒度的提取貢獻(xiàn)值最大的特征。計(jì)算公式為

    hst=δ(wstht+bst)

    (7)

    (8)

    式中:wst表示權(quán)重矩陣;bst表示偏置;δ表示tanh函數(shù);hst表示的ht的隱藏層表示;Ds為隨機(jī)初始化的上下文序列矩陣。

    (3)輸出層:利用Softmax分類器進(jìn)行合法域名與惡意域名的分類。

    p=soft max(wΠ+b)

    (9)

    式中:Π為t時(shí)刻特征提取層的深層特征表示;w為權(quán)重值;b為偏置。

    2 實(shí)驗(yàn)與分析

    2.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

    采用Pytorch框架,開(kāi)發(fā)語(yǔ)言為Python 3.7,測(cè)試平臺(tái)為Pycharm;設(shè)定多頭個(gè)數(shù)為12。

    從Alexa、Fofa、Malware Domain List和360NetLab等數(shù)據(jù)集中整理獲得36.8萬(wàn)條域名。其中合法域名13.8萬(wàn)條,惡意域名23萬(wàn)條,按照7∶3劃分為訓(xùn)練集與測(cè)試集。數(shù)據(jù)集信息如表1所示。

    表1 數(shù)據(jù)集描述

    2.2 評(píng)價(jià)指標(biāo)

    為驗(yàn)證本文算法的有效性,查準(zhǔn)率Precision、查全率Recall、誤報(bào)率FPR和F1分?jǐn)?shù)進(jìn)行評(píng)價(jià)。具體計(jì)算如公式(10)~(13)所示。其中,Precision和FPR驗(yàn)證模型的可信度;Recall驗(yàn)證模型的漏報(bào)情況;F1驗(yàn)證模型的綜合表現(xiàn),分?jǐn)?shù)越高,模型檢測(cè)性能越好。

    (10)

    (11)

    (12)

    (13)

    式中:tp表示準(zhǔn)確檢測(cè)出的惡意域名總數(shù);tn表示準(zhǔn)確檢測(cè)出的合法域名總數(shù);fp表示將合法域名誤報(bào)為惡意域名的總數(shù);fn表示將惡意域名漏報(bào)為合法域名的總數(shù)。

    2.3 多家族惡意域名檢測(cè)結(jié)果與分析

    為驗(yàn)證本文模型在多家族惡意域名數(shù)據(jù)集上的檢測(cè)性能,分別在360Netlab包含的23種家族惡意域名和Malware Domain List(MD)數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證,檢測(cè)結(jié)果如表2所示。

    由表2可知,本文算法在多家族惡意域名數(shù)據(jù)集上的檢測(cè)性能表現(xiàn)良好,其中可對(duì)18種家族惡意域名保持查準(zhǔn)率在96%以上,平均查準(zhǔn)率為96.49%;17種家族惡意域名保持查全率在96%以上,平均查全率為96.27%;平均誤報(bào)率為3.90%;F1-Score為94.13%。究其原因是本文模型采用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)Bi-LSTM可以有效捕獲上下文語(yǔ)義信息,此外,局部和全局Attention機(jī)制可以對(duì)特征權(quán)重重新分配,凸顯重要特征的決策能力,進(jìn)一步提升模型對(duì)多家族惡意域名的泛化性能。

    表2 多家族惡意域名檢測(cè)結(jié)果 %

    2.4 同類相關(guān)工作對(duì)比

    (1)誤報(bào)結(jié)果與分析

    為驗(yàn)證本文模型的誤報(bào)情況和查全率等的綜合表現(xiàn),采用受試者工作曲線(Receiver Operating Characteristic, ROC)曲線進(jìn)行評(píng)估,其中ROC曲線中曲線下面積(Area Under Curve, AUC)越大,表明模型檢測(cè)性能越好。圖6給出了本文模型與當(dāng)前主流惡意域名檢測(cè)模型在相同的數(shù)據(jù)集下的ROC曲線。

    圖6 ROC曲線對(duì)比圖

    由圖6可知,本文模型的AUC值最大,為99.17%,較對(duì)比模型中表現(xiàn)最高的文獻(xiàn)[27]和文獻(xiàn)[12]的AUC值分別提高約1.79%和4.05%,有效提高了多家族惡意域名檢測(cè)的表現(xiàn)性能。

    (2)綜合性能對(duì)比

    為驗(yàn)證本文模型與當(dāng)前主流算法在綜合檢測(cè)性能方面的優(yōu)勢(shì),在相同的評(píng)價(jià)指標(biāo)下進(jìn)行測(cè)試驗(yàn)證,不同模型的檢測(cè)性能對(duì)比如表3所示。

    表3 不同模型檢能對(duì)比 %

    由表3可知,雖文獻(xiàn)[27]在查準(zhǔn)率方面可達(dá)到96.63%的精度,文獻(xiàn)[18]在F1-Score方面表現(xiàn)最佳,為94.66%,但本文模型在查全率和誤報(bào)率方面優(yōu)勢(shì)明顯,分別可以達(dá)到96.27%和3.90%,綜合性能優(yōu)勢(shì)顯然。

    對(duì)比本文算法和文獻(xiàn)[12,25]方法可知,根據(jù)單一或部分字符特征的組合決策能力尚不足以對(duì)域名生成算法或域名隨機(jī)變換等技術(shù)產(chǎn)生形式多樣的家族惡意域名進(jìn)行高效檢測(cè);對(duì)比本文算法與文獻(xiàn)[8,18,24,26,27]方法可知,層次化的Attention機(jī)制可以加強(qiáng)模型對(duì)于字符等序列特征的關(guān)注度,通過(guò)細(xì)化域名字符和單詞對(duì)于檢測(cè)特征的貢獻(xiàn)度,提高模型對(duì)于合法域名與惡意域名的決策能力,驗(yàn)證了本文模型的設(shè)計(jì)初衷。

    3 結(jié) 語(yǔ)

    本文綜合考慮檢測(cè)性能,從域名字符和單詞等層次化結(jié)構(gòu)角度進(jìn)行研究,提出了一種基于BERT和層次化Attention機(jī)制的惡意域名檢測(cè)算法。該模型首先通過(guò)BERT生成包含上下文語(yǔ)義信息的詞向量矩陣;然后,通過(guò)兩層Bi-LSTM獲得字符和單詞表示,并分別引入局部注意力和全局注意力機(jī)制,強(qiáng)化字符或單詞對(duì)于模型決策的能力。實(shí)驗(yàn)也驗(yàn)證了本文模型的綜合檢測(cè)性能。在僵尸網(wǎng)絡(luò)、垃圾郵件等惡意域名防范工作中具有一定的實(shí)際應(yīng)用價(jià)值。

    猜你喜歡
    域名字符單詞
    尋找更強(qiáng)的字符映射管理器
    單詞連一連
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    看圖填單詞
    如何購(gòu)買WordPress網(wǎng)站域名及綁定域名
    看完這些單詞的翻譯,整個(gè)人都不好了
    騰訊八百萬(wàn)美元收購(gòu)域名
    頂級(jí)域名爭(zhēng)奪戰(zhàn):ICANN放出1930個(gè)通用頂級(jí)域名,申請(qǐng)者有上千家
    吉首市| 房山区| 青浦区| 镇康县| 瓮安县| 沙田区| 南安市| 闻喜县| 宁乡县| 民乐县| 阜宁县| 宝鸡市| 泸西县| 凤冈县| 金坛市| 宁远县| 尼玛县| 随州市| 平昌县| 元氏县| 吉木乃县| 曲阳县| 噶尔县| 和硕县| 新营市| 芷江| 汨罗市| 汝南县| 邓州市| 泰安市| 乌拉特中旗| 北海市| 炎陵县| 九龙坡区| 拉萨市| 安塞县| 大竹县| 商丘市| 阿拉善盟| 临澧县| 辽阳县|