• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)GAN的惡意域名數(shù)據(jù)增強(qiáng)

      2022-03-18 05:01:26錢麗萍朱曉慧
      關(guān)鍵詞:域名字符編碼

      傅 偉 錢麗萍 朱曉慧

      (北京建筑大學(xué)電氣與信息工程學(xué)院 北京 100044)

      0 引 言

      互聯(lián)網(wǎng)技術(shù)為人們的日常工作和生活提供了便利,但互聯(lián)網(wǎng)攻擊事件也層出不窮,包括僵尸網(wǎng)絡(luò)、網(wǎng)頁(yè)釣魚、網(wǎng)絡(luò)竊聽、托管詐騙等,嚴(yán)重侵犯用戶隱私和威脅用戶財(cái)產(chǎn)安全。CNCERT/CC2018年度報(bào)告中指出,77 373個(gè)服務(wù)器IP地址被木馬或僵尸程序控制,其中境內(nèi)有6 559 208個(gè)主機(jī)IP地址被控制。

      域名系統(tǒng)(Domain Name System,DNS)是互聯(lián)網(wǎng)的重要組成部分,為用戶提供易于記憶的域名和IP地址映射的服務(wù)[1]。因其應(yīng)用的廣泛性以及缺乏內(nèi)置的安全檢測(cè)機(jī)制,常被攻擊者用于承載網(wǎng)絡(luò)攻擊。僵尸網(wǎng)絡(luò)即是依托域名系統(tǒng),將用戶正常域名破壞性地解析到惡意服務(wù)器上,從而達(dá)到控制用戶主機(jī)的目的[2]。早期的安全檢測(cè)系統(tǒng)較容易發(fā)現(xiàn)此類惡意域名,會(huì)迅速阻斷通信并將其列入黑名單。為對(duì)抗黑名單機(jī)制,當(dāng)前攻擊者普遍引入域名生成算法DGA,動(dòng)態(tài)地生成惡意域名,繞過安全系統(tǒng)的檢測(cè),同時(shí)也顯著增強(qiáng)了惡意服務(wù)器的持久性和隱蔽性[3]。與此同時(shí),尋找高效快速檢測(cè)DGA域名的方法成為網(wǎng)絡(luò)安全領(lǐng)域的研究熱點(diǎn)之一。

      我們可以將域名檢測(cè)方法大致分為兩類:基于域名特征提取和基于無顯性特征提取。域名特征包括域名內(nèi)容特征、域名字符統(tǒng)計(jì)特征和域名解析行為間關(guān)系特征等。除人工提取的特征外,深度學(xué)習(xí)框架通過訓(xùn)練可以提取域名隱性特征[4]。但兩類檢測(cè)方法都是基于現(xiàn)有惡意域名進(jìn)行檢測(cè),對(duì)于不斷更新的DGA算法產(chǎn)生的新域名檢測(cè)時(shí)效性不強(qiáng)。DGA新域名規(guī)避某些傳統(tǒng)檢測(cè)特征的特性,以及其數(shù)據(jù)量少、采集困難、獲取周期滯后,給域名檢測(cè)算法帶來極大挑戰(zhàn),因此惡意域名數(shù)據(jù)集增強(qiáng)意義重大。

      1 相關(guān)工作

      目前學(xué)術(shù)界在惡意域名對(duì)抗方面主要集中在檢測(cè)方法。在基于域名內(nèi)容或字符特征的檢測(cè)方面,Schiavoni等提出了Phoenix機(jī)制,不僅可以根據(jù)字符串和IP地址特征區(qū)分是否為DGA域名,還可以挖掘隱藏在DGA后的Botnet,實(shí)驗(yàn)采用115萬惡意域名,檢測(cè)準(zhǔn)確率在94.8%左右[5]。Mowbray等在域名解析過程中,通過分析不常見的二元字符串分布來識(shí)別惡意域名[6]。Yadav等利用DNS探測(cè)法統(tǒng)計(jì)域名一元、二元字符分布來探索域名隱含的特性,檢測(cè)的方法是計(jì)算域名的K-L距離、Jaccard距離和編輯距離[7]。除了傳統(tǒng)的字符特征統(tǒng)計(jì),文獻(xiàn)[8]將域名劃分成單個(gè)單詞,達(dá)到擴(kuò)展功能集尺度的目的,進(jìn)而提高惡意域名識(shí)別準(zhǔn)確率。Truong等發(fā)現(xiàn)DGA域名和合法域名存在不同的構(gòu)成規(guī)則,據(jù)此提出從DNS流量中提取長(zhǎng)度和期望值以區(qū)分兩種域名,構(gòu)建的J48分類器平均準(zhǔn)確率達(dá)到92.3%,假陽性率為4.8%[9]。

      在域名解析行為的上下文關(guān)系的檢測(cè)方面,Wang等[10]基于僵尸主機(jī)會(huì)在同一域中查詢大量域名且多數(shù)域名查詢失敗這一事實(shí),結(jié)合Botnet檢測(cè)困難和隱蔽性高等特點(diǎn),提出了DBod的檢測(cè)方案。文獻(xiàn)[11]通過分析DNS NXDomain流量,結(jié)合DGA域名使用周期短且具有相似查詢方式的特點(diǎn),從而對(duì)DGA域名進(jìn)行識(shí)別檢測(cè)。

      在無特征提取的檢測(cè)方面,Yu等[12]提出一種LSTM+CNN模型的深度學(xué)習(xí)檢測(cè)方法,LSTM模型學(xué)習(xí)域名字符序列的同時(shí)不丟失長(zhǎng)期依賴的信息,相比于基于字符特征搭建的隨機(jī)森林框架,該模型檢測(cè)效果突出。Anderson等[13]利用生成對(duì)抗網(wǎng)絡(luò)模型,結(jié)合自動(dòng)編碼器生成對(duì)抗樣本,以期得到與惡意域名數(shù)據(jù)集類似的數(shù)據(jù)集,通過隨機(jī)森林分類器驗(yàn)證了對(duì)抗樣本的有效性。

      綜上,上述研究方法除文獻(xiàn)[13]外,均未考慮實(shí)時(shí)檢測(cè)新域名問題。本文所做的工作正是為其奠定基礎(chǔ),通過生成偽DGA域名,擴(kuò)充惡意域名數(shù)據(jù)集,滿足黑名單系統(tǒng)和檢測(cè)方法的實(shí)效性需求。與文獻(xiàn)[13]不同之處在于:1) 本文采用skip-gram模型對(duì)域名進(jìn)行編碼,使得域名字符間的特征關(guān)系較好地反映在詞向量中;2) 域名生成模型采用改進(jìn)的WGAN(Wasserstein GAN);3) 對(duì)實(shí)驗(yàn)生成的域名采用多種常見的分類器進(jìn)行分析評(píng)估,使結(jié)果更具有說服力。

      2 模型結(jié)構(gòu)

      本文針對(duì)域名數(shù)據(jù)增強(qiáng)問題,提出基于skip-gram數(shù)據(jù)編碼加WGAN數(shù)據(jù)對(duì)抗生成的深度學(xué)習(xí)模型框架。

      深度學(xué)習(xí)的快速發(fā)展解決了許多復(fù)雜問題,卻無法直接識(shí)別字符串信息,因此本文在保留域名攜帶信息的前提下對(duì)其進(jìn)行編碼是需要關(guān)注的難點(diǎn)之一。Zheng等[14]在處理網(wǎng)絡(luò)文本語料時(shí),采用skip-gram模型學(xué)習(xí)文本間的語義相關(guān)性,對(duì)文本主題嵌入建模,該方法表現(xiàn)了較好的性能[14]。skip-gram作為自然語言處理領(lǐng)域的重要模型,對(duì)文本數(shù)據(jù)處理具有普適性。模型通過訓(xùn)練將文本轉(zhuǎn)化為詞向量,其語義的空間距離代表文本間的相似度,故空間距離可以近似表示文本相似度。深度學(xué)習(xí)中度量空間距離的方法很多,其中,效果較好的有皮爾遜相關(guān)系數(shù),文獻(xiàn)[15]基于皮爾遜相關(guān)系數(shù)研究評(píng)估網(wǎng)絡(luò)輿情。皮爾遜相關(guān)系數(shù)能夠從數(shù)學(xué)角度衡量文本的相似度。

      自生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)問世以來,基于GAN及其變體模型的數(shù)據(jù)集擴(kuò)充的研究越來越多[16]。許春冬等[17]基于CGAN網(wǎng)絡(luò)實(shí)現(xiàn)文本語音增強(qiáng)的目的,增強(qiáng)后的語音質(zhì)量更高。蔣鵬飛等[18]采用改進(jìn)的GAN網(wǎng)絡(luò)生成網(wǎng)絡(luò)事件序列樣本,實(shí)驗(yàn)結(jié)果表明,生成數(shù)據(jù)有效且具有多樣性。GAN在訓(xùn)練中存在諸多問題,而GAN的變體模型在文本序列生成的研究中表現(xiàn)出較好的效果。

      本文的生成模型采用WGAN,在模型前后分別添加skip-gram編碼器和皮爾遜相關(guān)系數(shù)解碼器,如圖1所示。

      圖1 域名生成模型

      2.1 域名編解碼模型

      2.1.1skip-gram模型

      作為深度學(xué)習(xí)的文本輸入,早期的詞表示方法采用one-hot,其缺點(diǎn)比較明顯,詞向量冗長(zhǎng)且不能保留原文語義關(guān)系。skip-gram模型作為word embedding的一種無監(jiān)督學(xué)習(xí)方法,普適于各種文本,且能將其最小單元的特征映射到向量中[19-20]。模型主要思想是給定中心詞預(yù)測(cè)上下文單詞。相比于CBOW模型,該方法訓(xùn)練效率更高,速度更快,更精確地學(xué)習(xí)到域名特征,大大縮短后期WGAN學(xué)習(xí)域名的時(shí)間。

      skip-gram在自然語言處理領(lǐng)域研究的數(shù)據(jù)單元一般是英文句子的單詞、中文句子的詞語。域名本身與英文單詞相似,所以本文處理的數(shù)據(jù)單元是最細(xì)粒度的字符。

      模型分為輸入層、隱層和輸出層。其中輸入層采用one-hot編碼,隱層不使用激活函數(shù),輸出層采用softmax函數(shù)。模型使用負(fù)采樣(Negative Sampling)技術(shù)。模型目標(biāo)是最大化窗口內(nèi)字符的概率,最小化未在窗口內(nèi)字符的概率。

      模型訓(xùn)練的過程如圖2所示。陰影代表中心詞input-word,方框代表窗口。

      圖2 skip-gram模型掃描域名示意圖

      首先從左到右選取一個(gè)字符當(dāng)作中心詞,設(shè)置窗口大小為2,輸出詞會(huì)從窗口中選取,形成(中心詞,輸出詞)訓(xùn)練樣本,如(g,v)(g,k)。通過輸入神經(jīng)網(wǎng)絡(luò)上述成對(duì)的樣本進(jìn)行訓(xùn)練。圖2中(g,v)樣本對(duì)出現(xiàn)兩次,如果g作為輸入數(shù)據(jù),則輸出v的概率比輸出q的概率大,這只是針對(duì)單個(gè)單詞的訓(xùn)練結(jié)果。模型訓(xùn)練的數(shù)據(jù)集是所有域名通過掃描得到的所有樣本對(duì)。

      模型損失函數(shù)如式(1)。

      (1)

      式中:x和y分別是字符x和y的向量表示,Z是上述訓(xùn)練過程掃描得到的樣本數(shù)據(jù)集,Z′是負(fù)采樣數(shù)據(jù)集。

      綜上所述,利用滑動(dòng)窗口得到的樣本對(duì),充分體現(xiàn)字符間的聯(lián)系。與此同時(shí),窗口的大小設(shè)置成2,有效防止了字符距離過遠(yuǎn)而產(chǎn)生錯(cuò)誤聯(lián)系的問題。

      2.1.2字符編碼

      模型通過學(xué)習(xí)樣本對(duì)進(jìn)行不斷訓(xùn)練,隱層的權(quán)重不斷更新,最終會(huì)生成一個(gè)權(quán)重矩陣。隱層矩陣是[26×4]維,4維是設(shè)置的每個(gè)單詞映射的詞向量維度,26是字符總數(shù),也就是字典的size。模型訓(xùn)練結(jié)束后字典每個(gè)鍵都對(duì)應(yīng)隱層的權(quán)重。

      域名數(shù)據(jù)集每個(gè)字符都對(duì)應(yīng)一個(gè)[1×4]的詞向量,字符之間關(guān)系均體現(xiàn)在每個(gè)詞向量中。所以將數(shù)據(jù)集中的每個(gè)字符對(duì)應(yīng)映射即可,域名的編碼結(jié)果樣例如圖3所示。

      圖3 編碼結(jié)果樣例

      2.1.3字符解碼

      由于本文域名字符級(jí)編碼采用的是skip-gram,解碼時(shí)會(huì)涉及空間距離,采用皮爾遜相關(guān)系數(shù)度量字符間的相似性。該方法相比于歐氏距離,在數(shù)據(jù)不規(guī)范的時(shí)候也能給出較好的結(jié)果[21]。具體計(jì)算公式如式(2)。

      (2)

      式中:s為生成數(shù)據(jù)向量,t為字符映射表中的向量。ρs,t是向量s、t的協(xié)方差與標(biāo)準(zhǔn)差的商。值在[-1,1],絕對(duì)值越接近1越相關(guān),越接近0越不相關(guān)。

      將生成對(duì)抗網(wǎng)絡(luò)輸出的數(shù)據(jù)分別計(jì)算與各個(gè)字符的皮爾遜相關(guān)系數(shù),取最相關(guān)的數(shù)據(jù)解碼成字符,剔除其中不合理字符,然后組成域名。

      2.2 域名生成模型

      2.2.1WGAN

      在GAN模型中,生成器盡可能準(zhǔn)確學(xué)習(xí)原始數(shù)據(jù)分布并生成類似數(shù)據(jù),判別器作為一個(gè)二分類器盡可能區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù),二者在訓(xùn)練中不斷提高自身的能力,最終達(dá)到納什平衡,這正是生成對(duì)抗網(wǎng)絡(luò)最大的特點(diǎn)。然而,在實(shí)際訓(xùn)練過程中,GAN出現(xiàn)訓(xùn)練不穩(wěn)定、梯度消失等問題。文獻(xiàn)[22]對(duì)GAN出現(xiàn)的問題給出了理論的解釋,即模型用于衡量數(shù)據(jù)相似性的損失函數(shù)Jensen-Shannon散度會(huì)出現(xiàn)常數(shù),此時(shí)無法繼續(xù)作出調(diào)整。WGAN則優(yōu)化了損失函數(shù),用Earth-Mover距離替換Jensen-Shannon散度以衡量真假數(shù)據(jù)間的差距,同時(shí)將算法做了部分調(diào)整,優(yōu)化了樸素GAN訓(xùn)練不穩(wěn)定、梯度消失等問題[23]。

      本文使用WGAN模型將目標(biāo)函數(shù)描述為式(3)。

      minGmaxDV(D,G)=

      Ex~pdata(x)[D(x)]+Ez~pz(z)[1-D(G(z))]

      (3)

      式(3)可以分成兩個(gè)函數(shù):最大化函數(shù)和最小化函數(shù),分別如式(4)-式(5)。

      maxDV(D,G)=

      Ex~pdata(x)[D(x)]+Ez~pz(z)[1-D(G(z))]

      (4)

      式(4)是最大化函數(shù)。在訓(xùn)練過程中,對(duì)于判別器D,輸入真實(shí)的域名,D(x)的值越大越好。輸入生成的域名,D(x)的值越小越好,前面加負(fù)號(hào)則變大,兩個(gè)公式都變大,所以有maxDV(D,G)。

      minGV(D,G)=Ez~pz(z)[1-D(G(z))]

      (5)

      式(5)是最小化函數(shù)。對(duì)于生成器G,生成的域名輸入到判別器,判別器的輸出越大越好,判別器盡可能認(rèn)為數(shù)據(jù)是真實(shí)的。前面加個(gè)負(fù)號(hào)則越來越小,所以有minGV(D,G)。

      2.2.2生成模型參數(shù)

      經(jīng)過反復(fù)訓(xùn)練調(diào)整,得到最終的WGAN網(wǎng)絡(luò)模型:

      生成網(wǎng)絡(luò):由輸入層、2層隱藏層和輸出層組成。輸入數(shù)據(jù)符合高斯分布的噪聲,激活函數(shù)采用ReLU函數(shù)。隱藏層的節(jié)點(diǎn)分別是200和150。輸出層節(jié)點(diǎn)設(shè)置為12維,采用tanh激活函數(shù)。采用更能體現(xiàn)數(shù)據(jù)分布差異的Earth-Mover距離代替使用GAN模型的目標(biāo)函數(shù),推導(dǎo)之后體現(xiàn)在代碼中是去掉log,即式(5)。

      判別網(wǎng)絡(luò):由輸入層、2層隱藏層和輸出層組成。其輸入數(shù)據(jù)一部分來自生成器生成的數(shù)據(jù),一部分來自數(shù)據(jù)集中的真實(shí)數(shù)據(jù),數(shù)據(jù)通過節(jié)點(diǎn)分別是200和150的隱藏層進(jìn)行訓(xùn)練。輸出層不采用sigmoid函數(shù),真實(shí)數(shù)據(jù)和生成數(shù)據(jù)分別計(jì)算。目標(biāo)函數(shù)為式(4)。

      由于Adam算法會(huì)引起訓(xùn)練不穩(wěn)定等問題,故本文采用RMSProp算法作為優(yōu)化器。訓(xùn)練過程中,每更新5次判別網(wǎng)絡(luò),更新1次生成網(wǎng)絡(luò)。學(xué)習(xí)率設(shè)為0.000 2。此外,權(quán)值裁減至[-0.01,0.01]。

      3 實(shí)驗(yàn)與分析

      3.1 實(shí)驗(yàn)環(huán)境

      本文使用的實(shí)驗(yàn)平臺(tái)及配置信息如表1所示。

      表1 實(shí)驗(yàn)平臺(tái)及配置

      3.2 數(shù)據(jù)集

      Conficker.C惡意域名數(shù)據(jù)集和Alexa良性域名數(shù)據(jù)集是全球公認(rèn)并使用較多的數(shù)據(jù)集。Alexa會(huì)根據(jù)各個(gè)網(wǎng)站的鏈接數(shù)和用戶訪問量定期更新域名,越靠前的網(wǎng)站,相應(yīng)的知名度也會(huì)越高,作為良性域名數(shù)據(jù)集更具有說服力。本文實(shí)驗(yàn)數(shù)據(jù)集選取近50萬Conficker.C惡意域名,同時(shí)選取最新Alexa排名前100萬的良性域名。前期skip-gram模型編碼只使用Conficker.C惡意域名訓(xùn)練,后期分析生成數(shù)據(jù)有效性的過程中,使用生成惡意數(shù)據(jù)、Conficker.C數(shù)據(jù)和Alexa數(shù)據(jù)。

      DGA算法主要針對(duì)的是二級(jí)域名,因此本文研究的主體是二級(jí)域名。例如xinlang.com中xinlang部分。實(shí)驗(yàn)前需要對(duì)數(shù)據(jù)集進(jìn)行簡(jiǎn)單的處理,基于python語言,獲取二級(jí)域名。

      3.3 實(shí)驗(yàn)過程

      本文目的為運(yùn)用skip-gram與WGAN模型完成偽DGA域名的生成,達(dá)到對(duì)惡意域名級(jí)的擴(kuò)充。因此實(shí)驗(yàn)的核心任務(wù)是域名的生成以及對(duì)生成域名的有效性、合理性驗(yàn)證。實(shí)驗(yàn)步驟如下:

      1) 域名編碼。skip-gram訓(xùn)練Conficker.C數(shù)據(jù)集,將字符映射成對(duì)應(yīng)的詞向量,然后完成對(duì)域名數(shù)據(jù)集的編碼工作。

      2) 域名的生成。設(shè)計(jì)、訓(xùn)練WGAN讀取步驟1)結(jié)果作為輸入數(shù)據(jù),每訓(xùn)練5次判別器,訓(xùn)練1次生成器。每迭代500次便輸出一次數(shù)據(jù)進(jìn)行解碼,解碼的域名存儲(chǔ)在文本中。

      3) 生成數(shù)據(jù)的有效性分析。針對(duì)生成惡意域名的有效性判定尤為重要,為驗(yàn)證實(shí)驗(yàn)結(jié)果的有效性,本文采用特征選擇及機(jī)器學(xué)習(xí)相結(jié)合的方法進(jìn)行驗(yàn)證:

      (1) 特征選擇:選用域名總長(zhǎng)度、大小寫字母及數(shù)字的數(shù)量、連詞號(hào)的數(shù)量、n-gram的頻率(n=2,3,4)、元音字母的頻率、輔音字母的頻率特征。

      (2) 機(jī)器學(xué)習(xí):選取隨機(jī)樹、隨機(jī)森林和J48決策樹三種分類算法。

      4) 比對(duì)數(shù)據(jù)集劃分。以下是三種數(shù)據(jù)集分類的描述。

      (1) 首先用Conficker.C惡意域名正樣本和Alexa的良性域名負(fù)樣本通過上述步驟處理后用Weka平臺(tái)進(jìn)行分類,其結(jié)果作為后面分類的標(biāo)準(zhǔn)。

      (2) 用WGAN模型生成的惡意域名正樣本和Alexa的良性域名負(fù)樣本,同樣經(jīng)過上述數(shù)據(jù)處理部分,選擇相同的數(shù)據(jù)特征進(jìn)行分類,其結(jié)果和(1)進(jìn)行比較,從而判斷生成樣本的有效性。

      (3) Conficker.C惡意域名、生成惡意域名正樣本和Alexa的良性域名負(fù)樣本進(jìn)行混淆分類,分類結(jié)果與(1)和(2)比較。

      4 實(shí)驗(yàn)結(jié)果

      4.1 編碼結(jié)果分析

      為了直觀分析編碼結(jié)果,本文運(yùn)用PCA技術(shù),將字符詞向量維度降至2維,其空間距離代表字符間的相似度。如圖4所示,字符按相似程度分別聚簇,其中字符‘q’、‘o’與右上角字符比左下角字符更聚集,相似度更高。相較于向量正交的one-hot編碼(26維),skip-gram編碼(4維)的詞向量維度低,降低計(jì)算復(fù)雜度,提升速度。

      圖4 字符可視化映射

      4.2 真實(shí)惡意域名與生成惡意域名表征對(duì)比分析

      如圖5所示,由于采用改進(jìn)的WGAN模型,生成的惡意域名并沒有出現(xiàn)字符大量重復(fù)的情況,從域名長(zhǎng)度、字符間轉(zhuǎn)換等表面特征看,生成的惡意域名與真實(shí)惡意域名相似度較高。

      圖5 真實(shí)惡意域名與生成惡意域名示例

      圖6是從一元字符頻率的角度來分析二者的區(qū)別,圖中圓圈代表真實(shí)樣本,星星代表生成樣本。由圖可知,真實(shí)樣本的各個(gè)字符的頻率在0.04范圍內(nèi)較小的波動(dòng)。生成樣本較真實(shí)樣本存在波動(dòng),但其上下波動(dòng)的幅度不大。故生成樣本與真實(shí)樣本具備一定的相似度。

      圖6 真實(shí)樣本和生成樣本的一元字符頻率折線圖

      4.3 分類結(jié)果及分析

      為驗(yàn)證生成域名的有效性,本文選取機(jī)器學(xué)習(xí)中的J48決策樹、隨機(jī)森林、隨機(jī)樹用于實(shí)驗(yàn)的對(duì)比分析算法。隨機(jī)樹通過n個(gè)特征的信息增益的最大節(jié)點(diǎn)迭代構(gòu)造樹和分類。隨機(jī)森林是通過決策樹的投票情況來分類,決策樹是由隨機(jī)數(shù)據(jù)集和特征集構(gòu)成。J48決策樹根據(jù)分治策略,逐個(gè)加入特征進(jìn)行分類。表2、表4、表6、表8、表10展示的是樣本通過不同分類器的正確率、錯(cuò)誤率、精確率、F-Measure、ROC面積。表3、表5、表7、表9、表11展示的是分類正確錯(cuò)誤數(shù)量以及模型的構(gòu)建時(shí)間。

      表2 Conficker.C正樣本和Alexa負(fù)樣本

      表3 樣本分類結(jié)果及模型構(gòu)建時(shí)間

      表4 生成的正樣本和Alexa樣本(1 ∶1)

      表5 樣本分類的結(jié)果及模型構(gòu)建時(shí)間

      表6 生成的正樣本和Alexa樣本(1 ∶2)

      表7 樣本分類的結(jié)果及模型構(gòu)建時(shí)間

      表8 混淆樣本(1 ∶1)和Alexa分類結(jié)果

      表9 樣本分類的結(jié)果及模型構(gòu)建時(shí)間

      表10 混淆樣本(2 ∶1)和Alexa分類結(jié)果

      表11 樣本分類的結(jié)果及模型構(gòu)建時(shí)間

      表2、表3是真實(shí)惡意域名與真實(shí)良性域名的分類結(jié)果。表中所有分類器的正確率都達(dá)到了99%以上。隨機(jī)森林的正確率最高,它的構(gòu)建模型時(shí)間也最長(zhǎng)。表2的結(jié)果為下面各數(shù)據(jù)集的分類提供基準(zhǔn),同時(shí)可以表明特征選擇的規(guī)則是有效的。

      表4、表5是生成的惡意域名和良性域名的分類結(jié)果,分類器和提取的特征同表2、表3。從表中可以看出,三個(gè)分類器的正確率都比較高,尤其是隨機(jī)樹和隨機(jī)森林達(dá)到了98%以上。而表6、表7在上述基礎(chǔ)上,樣本總數(shù)減少且比例由原來1 ∶1變成1 ∶2,仍呈現(xiàn)出較好的分類結(jié)果。說明在選取相同特征的前提下,生成的惡意域名可以充當(dāng)真實(shí)惡意域名。

      表8、表9是真實(shí)惡意域名、生成惡意域名作為正樣本和Alexa域名作為負(fù)樣本進(jìn)行分類,結(jié)果顯示隨機(jī)樹、隨機(jī)森林都達(dá)到98%以上,J48表現(xiàn)的稍微遜色一些,但是也達(dá)到96%。表10、表11將混淆樣本中生成惡意域名和真實(shí)域名的比例由1 ∶1變成2 ∶1,同時(shí)樣本總數(shù)增加且比例由1 ∶1變成2 ∶1,分類正確率依舊較高。說明生成的惡意域名能夠較好的隱藏在真實(shí)惡意域名中不被區(qū)分出來。生成的惡意域名可以作為真實(shí)惡意域名進(jìn)行機(jī)器學(xué)習(xí)的檢測(cè)和訓(xùn)練。

      綜上三組對(duì)比實(shí)驗(yàn),以第一組為基準(zhǔn),后兩組將生成的惡意域名分別與良性域名、混淆域名作分類進(jìn)行橫向?qū)Ρ?,同時(shí)每組實(shí)驗(yàn)中分別添加樣本數(shù)及比例不同的分類實(shí)驗(yàn)進(jìn)行縱向?qū)Ρ龋Y(jié)果均表現(xiàn)出較高的分類正確率,說明了生成惡意域名的有效性。

      5 結(jié) 語

      惡意域名識(shí)別問題一直是網(wǎng)絡(luò)安全領(lǐng)域的重要研究點(diǎn)。本文提出skip-gram和WGAN的結(jié)合模型,能夠生成和預(yù)測(cè)DGA域名,并通過實(shí)驗(yàn)驗(yàn)證此方法的合理性。擴(kuò)充后的數(shù)據(jù)集不僅可以豐富黑名單系統(tǒng)內(nèi)的域名,也可以作為域名檢測(cè)算法的訓(xùn)練樣本。下一步研究工作將繼續(xù)放在合適的編碼和解碼上,同時(shí)研究如何優(yōu)化生成對(duì)抗網(wǎng)絡(luò)模型以達(dá)到更好的效果。

      猜你喜歡
      域名字符編碼
      尋找更強(qiáng)的字符映射管理器
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      《全元詩(shī)》未編碼疑難字考辨十五則
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      Genome and healthcare
      消失的殖民村莊和神秘字符
      如何購(gòu)買WordPress網(wǎng)站域名及綁定域名
      騰訊八百萬美元收購(gòu)域名
      左云县| 湾仔区| 凤庆县| 肃北| 云梦县| 莒南县| 鱼台县| 普定县| 南溪县| 栾城县| 屯门区| 来凤县| 津市市| 宜昌市| 鹤壁市| 通化市| 兴海县| 钟山县| 洪泽县| 桃园市| 湘潭县| 安平县| 泸西县| 五河县| 四川省| 景东| 定远县| 中江县| 巫溪县| 维西| 新巴尔虎左旗| 汕头市| 堆龙德庆县| 苍梧县| 宜兰县| 深水埗区| 彰武县| 抚顺市| 柳河县| 丰原市| 八宿县|