• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop的大規(guī)模網(wǎng)絡(luò)安全實體識別方法

      2019-11-09 03:42:44秦婭申國偉余紅星
      智能系統(tǒng)學(xué)報 2019年5期
      關(guān)鍵詞:漏洞語料庫實體

      秦婭,申國偉,余紅星

      (1. 貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025; 2. 貴州大學(xué) 貴州省公共大數(shù)據(jù)重點實驗室,貴州 貴陽 550025)

      近年來,隨著信息技術(shù)的快速發(fā)展,逐步進入了大數(shù)據(jù)[1]時代,網(wǎng)絡(luò)空間安全面臨全新的挑戰(zhàn),因此網(wǎng)絡(luò)威脅情報這一新的安全技術(shù)應(yīng)運而生。威脅情報[2](threat intelligence),主要是通過大數(shù)據(jù)、分布式系統(tǒng)或其他特定收集方式收集的用于評估和應(yīng)用的數(shù)據(jù)集,針對一個現(xiàn)存的或新興的威脅,可用于做出相應(yīng)決定的知識。從2014年開始,威脅情報逐漸成為網(wǎng)絡(luò)安全領(lǐng)域的熱點,成為一種新的網(wǎng)絡(luò)安全技術(shù)[3-4]。

      當今社會正處于大數(shù)據(jù)時代,同時具有信息碎片化的特征,從而賦予了網(wǎng)絡(luò)安全信息海量化與碎片化特點,導(dǎo)致網(wǎng)絡(luò)威脅情報分析人員很難對信息進行獲取和整合。因此,針對網(wǎng)絡(luò)安全信息的碎片化和海量化的特點,將其進行過濾、分類以及關(guān)聯(lián),從而形成一個網(wǎng)絡(luò)安全知識體系,衍生成為網(wǎng)絡(luò)安全知識圖譜。網(wǎng)絡(luò)安全知識圖譜構(gòu)建的前提就是對信息進行抽取,信息抽取是網(wǎng)絡(luò)安全知識圖譜構(gòu)建的最為關(guān)鍵的一步,其中最為關(guān)鍵就是網(wǎng)絡(luò)安全實體識別。

      網(wǎng)絡(luò)安全實體識別是命名實體識別[5]中一種特定領(lǐng)域的實體識別,其目的是對網(wǎng)絡(luò)安全領(lǐng)域?qū)I(yè)的詞匯進行分類;而通用領(lǐng)域的命名實體識別,主要識別文本中具有特定意義的實體,主要包括人名、組織名和地名等。目前,常見的是英文網(wǎng)絡(luò)安全實體識別,針對中文的網(wǎng)絡(luò)安全實體的識別研究工作很少。Jones等[6]在Bootstrapping算法指導(dǎo)下,實現(xiàn)了網(wǎng)絡(luò)文本中的安全實體和關(guān)系自動識別;Joshi等[7]實現(xiàn)了一種網(wǎng)絡(luò)文本數(shù)據(jù)的信息識別方法,利用CRF算法來識別網(wǎng)絡(luò)安全相關(guān)實體及關(guān)系;Lal[8]提出了一種基于SVM算法的信息識別方法,實現(xiàn)了從網(wǎng)絡(luò)文本數(shù)據(jù)中識別網(wǎng)絡(luò)安全相關(guān)概念和術(shù)語;Mulwad等[9]設(shè)計了基于SVM算法的信息識別系統(tǒng),檢測和識別網(wǎng)絡(luò)文本中的漏洞與攻擊信息。

      總的來說,網(wǎng)絡(luò)安全實體的識別方法主要分為基于規(guī)則和基于統(tǒng)計的實體識別方法[10-12]?;谝?guī)則的實體識別方法對于較小規(guī)模的數(shù)據(jù)具有效果好和速度快的特點,但是規(guī)則的編寫十分困難,且移植性較差?;诮y(tǒng)計的識別方法利用人工標注語料進行訓(xùn)練,對具體語言特性依賴相對較少,移植性強,主要識別方法有隱馬爾科夫模型[13](hidden Markov mode,HMM)、最大熵模型[14](maximum entropy markov model,MEMM)和條件隨機場模型[15-16](conditional random fields,CRF)等。

      目前,網(wǎng)絡(luò)安全實體的識別主要存在以下難點:

      1)網(wǎng)絡(luò)安全實體數(shù)量眾多且類型多種多樣,難以滿足自然語言處理領(lǐng)域中的命名實體定義,且不斷地會有未登錄詞作為新的安全實體出現(xiàn)。

      2)網(wǎng)絡(luò)文本數(shù)據(jù)中的實體具有不同的結(jié)構(gòu),比如網(wǎng)絡(luò)安全實體出現(xiàn)大量的嵌套、別名、縮略詞等問題,沒有嚴格的構(gòu)詞規(guī)律可以遵循。

      3)在大規(guī)模數(shù)據(jù)條件下,基于機器學(xué)習(xí)模型的算法運行效率較低,單機上的安全實體識別算法難以滿足安全實體識別需求。

      針對上述問題,本文提出了基于Hadoop的Map/Reduce分布式計算框架,提出了與規(guī)則相結(jié)合的改進CRF算法實現(xiàn)對安全實體的高效、準確識別。本文的主要工作包括:

      1)針對網(wǎng)絡(luò)安全實體識別,對安全實體識別進行問題抽象及形式化描述,給出了基于Hadoop的網(wǎng)絡(luò)安全實體識別框架。

      2)分析網(wǎng)絡(luò)安全數(shù)據(jù)中的實體結(jié)構(gòu)特征,給出了網(wǎng)絡(luò)安全實體識別規(guī)則,并進一步提出了改進的CRF算法,對算法進行分析。

      3)在真實的數(shù)據(jù)集上,針對提出的網(wǎng)絡(luò)安全實體識別方法,結(jié)合評測標準進行對比實驗,結(jié)果表明本文提出的方法在準確率和效率上都有所提高。

      綜上所述,針對網(wǎng)絡(luò)安全實體識別問題,本文基于Hadoop分布式計算框架提出改進的CRF算法,對數(shù)據(jù)集進行有效分割,解決網(wǎng)絡(luò)安全實體識別的問題,實現(xiàn)準確識別網(wǎng)絡(luò)安全實體的意義。

      1 問題定義

      網(wǎng)絡(luò)安全威脅情報分析可為復(fù)雜網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)攻防提供情報支撐。在網(wǎng)絡(luò)威脅情報分析中,網(wǎng)絡(luò)數(shù)據(jù)主要識別黑客組織、單位、漏洞、惡意程序等類型網(wǎng)絡(luò)安全實體,如圖1所示。

      圖1 Web文本數(shù)據(jù)中的安全實體識別Fig. 1 Security entity recognition in web text data

      本文重點分析17類網(wǎng)絡(luò)安全實體,圖2給出了網(wǎng)絡(luò)安全實體的本體模型[17-18],通過人工編寫的方式構(gòu)建了網(wǎng)絡(luò)安全領(lǐng)域的本體模型,通過JSON語言實現(xiàn)。該模型是一個基于多維標簽的網(wǎng)絡(luò)安全本體模型,其中多維標簽包括來源信息、屬性信息、元信息等標簽信息。

      圖2 網(wǎng)絡(luò)安全實體的本體模型Fig. 2 Ontological model of network security entity

      2 基于Hadoop的安全實體識別框架

      針對海量的網(wǎng)絡(luò)安全數(shù)據(jù),本文提出基于Hadoop平臺的網(wǎng)絡(luò)安全實體識別框架,利用Map/Reduce[19]分布式計算模型實現(xiàn)高效的數(shù)據(jù)處理。本文針對大規(guī)模數(shù)據(jù)的網(wǎng)絡(luò)安全實體識別的工作,主要運用了Hadoop中的HDFS和MapReduce這兩個組件,對數(shù)據(jù)進行并行化處理。具體的抽取過程為:首先,將預(yù)處理的數(shù)據(jù)存儲在HDFS中,HDFS會將這些數(shù)據(jù)切分成許多獨立的小數(shù)據(jù)塊,存儲到若干個節(jié)點上,這些小數(shù)據(jù)塊就會被多個Map任務(wù)并行處理;其次,在Hadoop上提交任務(wù)進行網(wǎng)絡(luò)安全實體識別,MapReduce會為每個任務(wù)輸入一個數(shù)據(jù)子集,同時調(diào)用CRF算法進行網(wǎng)絡(luò)安全實體識別,Map任務(wù)生成的結(jié)果會繼續(xù)作為Reduce任務(wù)的輸入;最后,由Reduce任務(wù)輸出最后結(jié)果,并寫入HDFS。本文除了將識別出的網(wǎng)絡(luò)安全實體存入HDFS,也將網(wǎng)絡(luò)安全實體存入圖數(shù)據(jù)庫Neo4j,為將來構(gòu)建網(wǎng)絡(luò)安全知識圖譜奠定基礎(chǔ)。圖3為網(wǎng)絡(luò)安全實體識別的框架圖。

      1)數(shù)據(jù)預(yù)處理

      本文主要對網(wǎng)頁文本數(shù)據(jù)進行實體識別,因此在抽取之前要對數(shù)據(jù)預(yù)處理,處理過程如下:

      ①使用正則表達式對網(wǎng)頁文本進行預(yù)處理,去除網(wǎng)頁中的關(guān)于HTML的標簽。

      ②通過使用Stanford CoreNLP提供的分詞工具,將去除標簽后的文本數(shù)據(jù)進行分詞。

      ③構(gòu)建語料庫,由于網(wǎng)絡(luò)安全領(lǐng)域沒有統(tǒng)一的語料庫,因此在對安全實體識別前,需要對其構(gòu)建語料庫。對已經(jīng)分詞的文本數(shù)據(jù)進行實體標注,特征實體時,可以通過程序先將所有實體標注為O,O表示未識別實體;然后進行網(wǎng)絡(luò)安全實體標注,由人工判斷手動標注為En,En表示安全實體。

      ④最后,訓(xùn)練網(wǎng)絡(luò)安全實體模型。在訓(xùn)練過程中,根據(jù)訓(xùn)練工具的格式要求將前面的所有標注后的數(shù)據(jù)轉(zhuǎn)化成特定的數(shù)據(jù)格式,然后利用CRF算法進行模型訓(xùn)練。

      圖3 網(wǎng)絡(luò)安全實體識別框架Fig. 3 Network security entity recognition framework

      2)中文網(wǎng)絡(luò)安全實體識別

      本文主要是針對中文網(wǎng)絡(luò)文本數(shù)據(jù)的安全實體識別,數(shù)據(jù)的輸入為中文分詞文本數(shù)據(jù),在此之前,需要利用CRF算法進行模型訓(xùn)練,訓(xùn)練數(shù)據(jù)主要來自于部分網(wǎng)絡(luò)安全文本數(shù)據(jù)。對于中文網(wǎng)絡(luò)安全實體數(shù)據(jù),進行人工手動標注,標注完成后,將其放入訓(xùn)練工具中進行訓(xùn)練,實現(xiàn)中文網(wǎng)絡(luò)安全實體模型的建立,最后通過CRF算法實現(xiàn)網(wǎng)絡(luò)安全實體的識別。

      在對網(wǎng)絡(luò)文本數(shù)據(jù)進行分詞的過程中,對于網(wǎng)絡(luò)攻擊事件,一般都是由“動詞+名字”組合,才能完整而清楚描述一次攻擊,如:XSS跨站腳本攻擊、木馬攻擊、蠕蟲蔓延等。所以在攻擊事件名的分詞上,本文采用基于規(guī)則進行識別,不進行分詞,因為分詞會導(dǎo)致對攻擊事件的整體敘述在語義上描述不清楚,無法理解到底發(fā)生了什么樣的攻擊事件。

      3 基于Hadoop的CRF改進算法

      3.1 Hadoop算法描述

      本文采用基于Map/Reduce的CRF算法并行化處理以縮短識別時間,實現(xiàn)大量數(shù)據(jù)的網(wǎng)絡(luò)安全實體識別。MapReduce模型兩個核心函數(shù)為Map函數(shù)和Reduce函數(shù),它們的輸入都為<key,value>鍵值對,按一定的映射規(guī)則轉(zhuǎn)換為另一個或一批<key,value>。Map和Reduce任務(wù)函數(shù)有下列通用格式:

      式中:Map函數(shù)將輸入的數(shù)據(jù)元素轉(zhuǎn)換成<K1,V1>形式的鍵值對,K1和V1的類型是任意的。每一個輸入的<K1,V1>都會輸出一批<K2,V2>,<K2,V2>是Map計算的中間結(jié)果,然后輸入到Reduce 函數(shù)進行處理,輸入形式為<K2,list(V1)>,輸出為<K3,V3>。

      在網(wǎng)絡(luò)安全實體識別的過程中,對于每一個要進行安全實體識別的文本數(shù)據(jù),首先將訓(xùn)練好的模型加載進來,然后在Map階段調(diào)用CFR算法識別網(wǎng)絡(luò)安全實體,最后在Reduce階段將數(shù)據(jù)存儲到HDFS和圖數(shù)據(jù)庫Neo4j。具體的基于Hadoop的網(wǎng)絡(luò)安全實體識別算法如算法1所示。

      算法1 基于Hadoop的網(wǎng)絡(luò)安全實體識別核心算法:

      1)調(diào)用Map函數(shù);

      3)CRFClassifier(Di) //調(diào)用CRF算法識別網(wǎng)絡(luò)安全實體;

      5)調(diào)用Reduce函數(shù);

      8)EntityStore.CreateNeo4j(key)//存儲到Neo4j

      實際上,在對網(wǎng)絡(luò)安全實體識別進行評測時,不需要一個合并的輸出,因為合并輸出后會影響最后的評測結(jié)果,因此可以在對網(wǎng)絡(luò)安全實體進行評測時省去Reduce階段,那么Map函數(shù)的輸出將不會有中間輸出,數(shù)據(jù)將直接存儲至HDFS。

      3.2 CRF算法描述

      在算法1中,CRF是網(wǎng)絡(luò)安全實體識別的核心,分別對應(yīng)算法1中的3)~6)步。CRF又稱為馬爾可夫隨機域,最早由Lafferty等[20]于2001年提出,是一種對有序數(shù)據(jù)進行標注和切分的條件概率模型,擁有HMM和MEMM的特點。從形式上來講,可以將CRF看作一種概率無向圖模型,定義一個無向圖G=(V,E),節(jié)點和邊用v和e表示,在圖G中,v∈V表示G中的節(jié)點,V表示節(jié)點集合,e∈E表示G中的任意一條E為邊集合;X、Y是兩個隨機變量,P(Y|X)是定義在X的條件下的條件概率分布。如果在圖G上,每個基于X的隨機變量Y都服從馬爾可夫特性,即

      式中對任意節(jié)點v成立,則稱條件概率分布P(Y|X)為條件隨機場,式(3)中w~v表示兩個節(jié)點w和v之間存在連接邊,表示兩個節(jié)點G=(V,E)在中位置相鄰。Yv,Yw為節(jié)點v和w所對應(yīng)的隨機變量。

      最常用和最簡單的CRF圖結(jié)構(gòu)是線性鏈結(jié)構(gòu),可用于序列標注等問題,圖4為線性鏈CRF。由圖4可知,線性鏈CRF在各個輸出序列節(jié)點之間做了一階馬爾可夫獨立性假設(shè),在給定一個輸入序列X的標注序列的情況下,令表示被觀察的輸入序列,表示有限狀態(tài)的集合。根據(jù)線性鏈CRF,線性鏈的Y的條件概率分布的形式為

      圖4 鏈式條件隨機場Fig. 4 Chain conditional random field

      因此,線性鏈CRF可表示為

      在CRF算法中主要有3個關(guān)鍵的問題,分別為特征函數(shù)的選擇、參數(shù)估計和模型推斷。CRF模型中特征函數(shù)的形式定義為,它是狀態(tài)特征函數(shù)和轉(zhuǎn)移特征函數(shù)的統(tǒng)一形式表示。

      參數(shù)估計是條件隨機場最為關(guān)鍵的問題,主要是從已經(jīng)標注好的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)條件隨機場模型的參數(shù),即各特征函數(shù)的權(quán)重向量λ,通??梢酝ㄟ^最大似然估計來實現(xiàn)。目前對于CRF模型參數(shù)進行估計的方法有3種,其中基于IIS和GIS兩種算法是屬于迭代的方法。目前廣泛使用的條件隨機場參數(shù)估計算法是L-BFGS算法,它是一種近似的二階方法。與傳統(tǒng)的迭代梯度方法相比,此方法的收斂速度更快。下面是LBFGS算法的計算公式:

      模型推斷是在給定條件隨機場模型參數(shù)λ下,預(yù)測出最可能的狀態(tài)序列。

      4 實驗及分析

      4.1 實驗環(huán)境及數(shù)據(jù)集

      本實驗是在Windows環(huán)境下的Eclipse下進行開發(fā)的,使用Java編程語言。由于本實驗是基于Hadoop的網(wǎng)絡(luò)安全實體識別,Hadoop集群環(huán)境部署在實驗室所提供的5臺服務(wù)器上,Hadoop平臺的拓撲圖如圖5所示,其中服務(wù)器使用的是Linux操作系統(tǒng)——CentOS 6.8,表1為5臺服務(wù)器的硬件配置。

      圖5 Hadoop平臺的拓撲結(jié)構(gòu)Fig. 5 Topological diagram of the Hadoop platform

      表1 服務(wù)器的硬件配置Table 1 Server hardware configuration

      本實驗采用的數(shù)據(jù)集主要來自于烏云漏洞數(shù)據(jù)庫,數(shù)據(jù)主要包括2010~2016年公開的漏洞數(shù)據(jù),共有40 292條漏洞數(shù)據(jù)。這些數(shù)據(jù)主要包括漏洞標題、漏洞缺陷編號、漏洞類型、漏洞作者、攻擊事件名以及漏洞公開時間。本實驗先對烏云漏洞數(shù)據(jù)集進行去標簽,再進行分詞,然后進行實體標注,形成了語料庫。

      為了對算法進行有效的測試,本文對網(wǎng)絡(luò)安全實體進行人工標注。在實驗中用語料庫中的70%進行訓(xùn)練,30%進行測試,采用CRF算法,以詞為單位進行網(wǎng)絡(luò)安全實體識別。通過Hadoop平臺,本實驗對30%的語料庫數(shù)據(jù)進行測試,對漏洞數(shù)據(jù)中的8種網(wǎng)絡(luò)安全實體類型進行識別,圖6為8種網(wǎng)絡(luò)安全實體類型在語料庫中的統(tǒng)計信息。

      圖6 語料庫統(tǒng)計信息Fig. 6 Network security entity types

      4.2 小規(guī)模識別率對比實驗

      本文以準確率P、召回率R和F值作為評價指標,具體的定義如下:

      式中:N2表示識別正確的網(wǎng)絡(luò)安全實體的總個數(shù);N1表示識別出來的網(wǎng)絡(luò)安全實體的總個數(shù)。

      式中:N2表示識別正確的網(wǎng)絡(luò)安全實體的總個數(shù);N表示測試語料的網(wǎng)絡(luò)安全實體的總個數(shù)。

      本文利用CRF算法識別網(wǎng)絡(luò)安全實體,將識別出來的網(wǎng)絡(luò)安全實體作為候選網(wǎng)絡(luò)安全實體,然后利用基于規(guī)則的方法,對候選網(wǎng)絡(luò)安全實體進行修正,將修正過的結(jié)果和未修正的結(jié)果進行對比。本文利用基于規(guī)則的方法對基于CRF的網(wǎng)絡(luò)安全實體的識別進行修正,實驗過程中首先建立簡單的規(guī)則,然后將規(guī)則加入到網(wǎng)絡(luò)安全實體的識別中進行比較。本文制定了以下幾條規(guī)則:

      規(guī)則一:如果詞的前綴是“騰訊”“優(yōu)酷”“微軟”等廠商名,且該詞帶有“漏洞”結(jié)束符,那么該詞應(yīng)標記為漏洞名稱,例如“騰訊某分站地址跳轉(zhuǎn)漏洞”。

      規(guī)則二:如果詞的前綴是“WooYun”,將此類詞標記為漏洞缺陷編號。

      規(guī)則三:如果詞的前綴出現(xiàn)“SQL”“XSS”等詞,且該詞帶有“注入”“攻擊”“傳播”“泄露”等結(jié)束符,那么該詞應(yīng)標記為漏洞類型,例如:“XSS跨站腳本攻擊”。

      經(jīng)過以上規(guī)則對結(jié)果進行糾正,網(wǎng)絡(luò)安全實體的識別效率都有所提高。圖7是對修正和未修正結(jié)果的準確率的對比,圖8是召回率的對比,圖9是F值的對比。

      圖7 準確率對比結(jié)果Fig. 7 Comparisons of precision of results

      圖8 召回率對比結(jié)果Fig. 8 Comparisons of recall results

      圖9 F值對比結(jié)果Fig. 9 Comparisons of F-value results

      圖7 ~9列出了網(wǎng)絡(luò)安全實體10次實驗的識別結(jié)果,從實驗結(jié)果可以看出,在使用規(guī)則對于基于CRF算法的網(wǎng)絡(luò)安全實體識別的結(jié)果進行修正,識別效果有了一定的提高。就準確率而言,基于CRF算法與規(guī)則相結(jié)合的準確率能達到85%以上,10次實驗中準確率最高達到了91%。但是就召回率而言,從實驗結(jié)果來看,識別效果比較低,主要是因為CFF模型泛化能力不夠和訓(xùn)練的語料庫非常小。

      4.3 大規(guī)模對比實驗

      本實驗采用Hadoop框架,主要利用MapReduce對大規(guī)模數(shù)據(jù)進行分割,對網(wǎng)絡(luò)安全實體的識別并行化處理。本文將Hadoop安裝在5個節(jié)點的集群中,文本數(shù)據(jù)塊的大小為128 MB。為了更好地說明分布式計算效率,本實驗在不同的數(shù)據(jù)規(guī)模下,基于不同的節(jié)點個數(shù)測試網(wǎng)絡(luò)安全實體識別時間。實驗中分為3個節(jié)點、4個節(jié)點以及5個節(jié)點,同時加上偽分布式集群。在Hadoop集群上,運用4組數(shù)據(jù)進行實驗,4組數(shù)據(jù)大小分別為1.3 GB、6 GB、13 GB、28 GB。實驗結(jié)果如圖10所示。

      圖10 不同節(jié)點數(shù)下的運行時間對比結(jié)果Fig. 10 Comparison of running times for different node numbers

      從圖10可以看出,隨著計算節(jié)點個數(shù)的增加,網(wǎng)絡(luò)安全實體的識別時間也隨之加快。在數(shù)據(jù)量為1.3 GB的時候,隨著節(jié)點數(shù)的增加,網(wǎng)絡(luò)安全實體識別時間變化不大,識別效率提高不明顯。隨著數(shù)據(jù)量的增大,在偽分布式的情況下,28 GB數(shù)據(jù)耗時近55 h,5個節(jié)點耗時近13 h,識別效率明顯提高。

      4.4 算法的可擴展性分析

      本文提出的基于Hadoop的CRF算法的網(wǎng)絡(luò)安全實體識別算法具有很好的擴展性。圖11展示了28 GB數(shù)據(jù)的運行時間,從圖中可以看出隨著計算節(jié)點數(shù)的增加數(shù)據(jù)運行時間逐漸下降。實驗證明,增加節(jié)點數(shù)可以有效增加網(wǎng)絡(luò)安全實體識別效率,因此本文基于Hadoop的網(wǎng)絡(luò)安全實體識別算法具有良好的可擴展性,適用于大規(guī)模數(shù)據(jù)的集群計算。

      圖11 28 GB數(shù)據(jù)運行時間對比Fig. 11 Comparison of 28 GB data running times

      4.5 網(wǎng)絡(luò)安全實體識別實例分析

      為了進一步直觀展示本文算法在網(wǎng)絡(luò)安全實體識別方面的結(jié)果,安全實體詞云圖如圖12所示?!癉DOS攻擊”“SQL注射漏洞”等網(wǎng)絡(luò)安全實體,具有典型的中英文混合結(jié)構(gòu),傳統(tǒng)的命名識別方法較少關(guān)注中英文混合結(jié)構(gòu)的命名實體識別。通過詞云圖可以直觀地看出,本文提出的基于規(guī)則的CRF算法能夠有效處理中英文混合的網(wǎng)絡(luò)安全實體,進一步提升了安全實體識別的準確率,為基于網(wǎng)絡(luò)安全知識圖譜的威脅情報分析奠定了基礎(chǔ)。

      圖12 網(wǎng)絡(luò)安全實體詞云圖Fig. 12 Word cloud map of network security entity

      5 結(jié)束語

      本文對網(wǎng)絡(luò)安全實體識別的常用算法進行了總結(jié),詳細分析了基于CRF算法的網(wǎng)絡(luò)安全實體識別方法,并針對大規(guī)模數(shù)據(jù)在Hadoop框架下對網(wǎng)絡(luò)安全實體識別進行并行化處理。實驗表明,本文采用基于Hadoop的CRF算法的網(wǎng)絡(luò)安全實體識別,取得了良好的效果,并大大地縮短了識別時間。在后續(xù)的工作中,會考慮融合更多網(wǎng)絡(luò)安全領(lǐng)域的知識使得安全實體識別具有更好的泛化能力,從而提高實體的識別率,并擴展至多機分布式平臺,進一步提高性能。

      猜你喜歡
      漏洞語料庫實體
      漏洞
      《語料庫翻譯文體學(xué)》評介
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      把課文的優(yōu)美表達存進語料庫
      三明:“兩票制”堵住加價漏洞
      漏洞在哪兒
      兒童時代(2016年6期)2016-09-14 04:54:43
      高鐵急救應(yīng)補齊三漏洞
      武宣县| 万山特区| 西和县| 辽阳市| 获嘉县| 马龙县| 阳新县| 安徽省| 通渭县| 康平县| 白银市| 古田县| 措美县| 闽侯县| 长寿区| 兴义市| 公安县| 邢台县| 寿阳县| 潮州市| 兴业县| 同江市| 许昌县| 玉环县| 安吉县| 聊城市| 四川省| 鱼台县| 北辰区| 贺州市| 扬州市| 太保市| 华阴市| 武威市| 承德县| 高密市| 嘉鱼县| 山丹县| 县级市| 赫章县| 凤城市|