• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向社會(huì)安全事件的分布式神經(jīng)網(wǎng)絡(luò)攻擊行為分類方法

    2017-12-14 05:22:12肖圣龍
    計(jì)算機(jī)應(yīng)用 2017年10期
    關(guān)鍵詞:恐怖事件攻擊行為安全事件

    肖圣龍,陳 昕,李 卓,2

    (1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101; 2.網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101) (*通信作者電子郵箱chenxin@bistu.edu.cn)

    面向社會(huì)安全事件的分布式神經(jīng)網(wǎng)絡(luò)攻擊行為分類方法

    肖圣龍1,陳 昕1*,李 卓1,2

    (1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101; 2.網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101) (*通信作者電子郵箱chenxin@bistu.edu.cn)

    大數(shù)據(jù)時(shí)代下,社會(huì)安全事件呈現(xiàn)出數(shù)據(jù)多樣化、數(shù)據(jù)量快速遞增等特點(diǎn),社會(huì)安全事件的事態(tài)與特性分析決策面臨巨大的挑戰(zhàn)。高效、準(zhǔn)確識(shí)別社會(huì)安全事件中的攻擊行為的類型,并為社會(huì)安全事件處置決策提供幫助,已經(jīng)成為國(guó)家與網(wǎng)絡(luò)空間安全領(lǐng)域的關(guān)鍵性問題。針對(duì)社會(huì)安全事件攻擊行為分類,提出一種基于Spark平臺(tái)的分布式神經(jīng)網(wǎng)絡(luò)分類算法(DNNC)。DNNC算法通過提取攻擊行為類型的相關(guān)屬性作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),建立了各屬性與攻擊類型之間的函數(shù)關(guān)系并生成分布式神經(jīng)網(wǎng)絡(luò)分類模型。實(shí)驗(yàn)結(jié)果表明,所提出DNNC算法在全球恐怖主義數(shù)據(jù)庫(kù)所提供的數(shù)據(jù)集上,雖然在部分攻擊類型上準(zhǔn)確率有所下降,但平均準(zhǔn)確率比決策樹算法提升15.90個(gè)百分點(diǎn),比集成決策樹算法提升8.60個(gè)百分點(diǎn)。

    社會(huì)安全;大數(shù)據(jù);Spark分布式系統(tǒng);神經(jīng)網(wǎng)絡(luò);分類算法

    0 引言

    社會(huì)安全事件主要包括恐怖襲擊事件、經(jīng)濟(jì)安全事件和涉外突發(fā)事件等[1],社會(huì)安全事件頻繁發(fā)生,給人民群眾的生命和財(cái)產(chǎn)帶來嚴(yán)重?fù)p害[2]。本文以恐怖事件為例分析社會(huì)安全事件。近幾年,恐怖事件發(fā)生的數(shù)量急劇增加[3]。在1970年—2015年期間,全球恐怖事件數(shù)據(jù)庫(kù)(Global Terrorism Database, GTD)(http://www.start.umd.edu/gtd/)收集超過156 000個(gè)來自200多個(gè)國(guó)家和地區(qū)[4]的恐怖主義事件。根據(jù)GTD搜集的數(shù)據(jù),可以發(fā)現(xiàn)從2012年—2015年,恐怖襲擊的數(shù)量增加了52 134件,3年的時(shí)間發(fā)生的恐怖事件數(shù)量是過去45年總數(shù)量的1/3。如今,我們生活在大數(shù)據(jù)時(shí)代,大量的信息被產(chǎn)生,被收集并存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中[5],如何在大數(shù)據(jù)量的背景下,分析社會(huì)安全事件各個(gè)屬性之間復(fù)雜的內(nèi)部關(guān)系,針對(duì)社會(huì)安全事件攻擊類型實(shí)現(xiàn)快速準(zhǔn)確的分類,給社會(huì)安全事件預(yù)警和分析提供數(shù)據(jù)支撐,成為一個(gè)備受關(guān)注的問題。

    分析社會(huì)安全事件攻擊行為,可以發(fā)現(xiàn)社會(huì)安全事件攻擊行為類型與許多因素有關(guān),各因素與社會(huì)安全事件攻擊行為類型呈現(xiàn)非線性關(guān)系。神經(jīng)網(wǎng)絡(luò)采用廣泛互聯(lián)的結(jié)構(gòu)與有效的學(xué)習(xí)機(jī)制來模擬人腦信息處理的過程,是人工智能發(fā)展中的重要方法,在諸如手寫體識(shí)別、圖像標(biāo)注、語義理解和語音識(shí)別等技術(shù)領(lǐng)域取得了非常成功的應(yīng)用[6]。BP神經(jīng)網(wǎng)絡(luò)在人工神經(jīng)網(wǎng)絡(luò)模型中最廣泛的一種網(wǎng)絡(luò)模型,是多層前向神經(jīng)網(wǎng)絡(luò)的一種,可用任意精度逼近任意非線性函數(shù),逼近性能尤其明顯[7]。根據(jù)社會(huì)安全事件攻擊行為類型特征進(jìn)行指標(biāo)提取,映射指標(biāo)與社會(huì)安全事件攻擊行為類型的關(guān)系,訓(xùn)練各個(gè)指標(biāo)的權(quán)重,模擬出社會(huì)安全事件攻擊行為類型的網(wǎng)絡(luò)模型,實(shí)現(xiàn)社會(huì)安全事件攻擊行為類型分類。

    受學(xué)習(xí)速率的限制,BP神經(jīng)算法需要花費(fèi)幾個(gè)小時(shí)甚至更長(zhǎng)的時(shí)間來完成訓(xùn)練任務(wù)[6]。隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的大數(shù)據(jù)計(jì)算平臺(tái)涌現(xiàn)出了一批新的大數(shù)據(jù)處理框架,包括Apache Hadoop、Dyrad、Yahoo S4、Apache Spark等,作為最流行的大數(shù)據(jù)處理框架Spark[8],吸引了越來越多的關(guān)注,而基于彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset, RDD)的Spark編程模式在實(shí)際項(xiàng)目中的應(yīng)用也越來越廣[9]?;赟park的分布式神經(jīng)網(wǎng)絡(luò)將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)分發(fā)到多個(gè)主機(jī)同時(shí)進(jìn)行訓(xùn)練,可以提高訓(xùn)練速度。本文針對(duì)社會(huì)安全事件攻擊行為分類,提出了一種基于Spark平臺(tái)的分布式神經(jīng)網(wǎng)絡(luò)分類(Distributed Neural Network Classification, DNNC)算法。

    1 相關(guān)工作

    社會(huì)安全事件中,恐怖事件比重較大,嚴(yán)重破壞社會(huì)穩(wěn)定與發(fā)展。為了減少恐怖事件的發(fā)生,降低恐怖事件的發(fā)生數(shù)量,世界各個(gè)國(guó)家各個(gè)科研機(jī)構(gòu)都進(jìn)行大量的研究人員投入。各個(gè)科研機(jī)構(gòu)根據(jù)近40多年來收集的GTD,分析恐怖事件發(fā)生的原因,對(duì)恐怖事件進(jìn)行分類,研究各個(gè)類別攻擊的不同點(diǎn),以及各個(gè)類別之間存在的相關(guān)性,預(yù)測(cè)恐怖事件的發(fā)生,并對(duì)恐怖事件進(jìn)行預(yù)警。

    Freilich等[10]總結(jié)了社會(huì)安全事件中恐怖主義事件的一些特殊問題,概括了恐怖事件的各種描述方法,評(píng)估了各種描述方法之間的優(yōu)缺點(diǎn),加深了對(duì)社會(huì)安全事件中恐怖主義事件的理解。Meierrieks等[11]根據(jù)1984年—2007年共58個(gè)國(guó)家的樣本數(shù)據(jù),研究了藥物生意對(duì)恐怖主義事件的影響,其研究結(jié)果表明藥物的上漲會(huì)減少社會(huì)安全事件中恐怖主義事件的發(fā)生。Lutz等[12]介紹了全球化的思想和恐怖主義事件的定義,分析了恐怖主義事件對(duì)旅游和外國(guó)投資的影響,得出全球化會(huì)導(dǎo)致社會(huì)混亂,社會(huì)混亂將導(dǎo)致恐怖主義事件的發(fā)生;反過來,恐怖主義事件會(huì)影響旅游業(yè)和外國(guó)投資。

    Sakhare等[13]先對(duì)犯罪數(shù)據(jù)進(jìn)行整體分析,根據(jù)1 000條犯罪記錄數(shù)據(jù)集抽取了20個(gè)犯罪特征,并運(yùn)用J48決策樹算法對(duì)犯罪人員進(jìn)行分類,通過混淆矩陣、TP(True Positive)率、FP(False Positive)率、分類精度、召回率、F檢驗(yàn)、MCC(Matthews Correlation Coefficient)值等屬性檢驗(yàn)J48算法決策樹的可靠性和穩(wěn)定性,分類結(jié)果用于確定是否懷疑特殊人員可能進(jìn)行犯罪。Sakhare等[14]提出了可以將數(shù)據(jù)挖掘算法運(yùn)用在犯罪和刑事數(shù)據(jù)源方面,用于識(shí)別犯罪嫌疑人的犯罪活動(dòng),同時(shí)使用J48、樸素的貝葉斯和JRip算法對(duì)犯罪樣本和犯罪庫(kù)進(jìn)行識(shí)別,識(shí)別率最高的算法用來識(shí)別潛在的犯罪嫌疑人,其實(shí)驗(yàn)結(jié)果表明貝葉斯是最有效的和花費(fèi)時(shí)間最少的算法。Joshi等[15]基于計(jì)算機(jī)處理器的分支預(yù)測(cè)技術(shù)提出了HB(History Bit)算法,該算法通過對(duì)屬性的優(yōu)先級(jí)進(jìn)行分類,根據(jù)分類的前后賦予不同分組的權(quán)重,其實(shí)驗(yàn)結(jié)果表明,HB算法分類的準(zhǔn)確性比傳統(tǒng)的貝葉斯和決策樹有顯著的提高。

    Sivaraman等[5]基于GTD提出了一種集成決策樹分類算法。該算法集成J48、C4.5,通過提取17個(gè)恐怖事件攻擊相關(guān)屬性訓(xùn)練集成決策樹,以實(shí)現(xiàn)恐怖事件攻擊類型識(shí)別,其實(shí)驗(yàn)結(jié)果表明,與單一的決策樹算法相比,該算法在召回率和準(zhǔn)確率方面有顯著提升。Sheikh[16]使用1970年—2014年的GTD恐怖事件數(shù)據(jù),針對(duì)發(fā)生的恐怖事件進(jìn)行預(yù)測(cè)建模,根據(jù)城市、攻擊類型、目錄類型、聲稱模式、武器的攻擊類型和動(dòng)機(jī)等屬性通過分類技術(shù)對(duì)未來恐怖襲擊進(jìn)行預(yù)測(cè)。Wu等[17]基于傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)開發(fā)了一個(gè)新型遞歸神經(jīng)網(wǎng)絡(luò),并建立一個(gè)Situation-Aware公共安全評(píng)估平臺(tái),該平臺(tái)基于GTD為每個(gè)國(guó)家,預(yù)測(cè)恐怖襲擊風(fēng)險(xiǎn)水平,以及哪個(gè)國(guó)家最有可能受到潛在的恐怖組織的攻擊。Strang等[18]使用Hadoop大數(shù)據(jù)處理平臺(tái)在Google新聞上收集大量復(fù)雜的恐怖主義信息,運(yùn)用統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案(Statistical Product and Service Solutions, SPSS)軟件分析恐怖組織的意識(shí)形態(tài)和恐怖襲擊類型的關(guān)系。

    綜上所述,在面向社會(huì)安全的恐怖事件攻擊行為分類上,現(xiàn)有算法分類的準(zhǔn)確性不高,為此本文提出的基于Spark平臺(tái)的DNNC算法以提高攻擊行為分類的準(zhǔn)確性。將大數(shù)據(jù)處理技術(shù)運(yùn)用在面向社會(huì)安全的恐怖攻擊行為分類問題,可以快速地從大量龐雜的數(shù)據(jù)堆里分析出有用的信息,挖掘數(shù)據(jù)的有用價(jià)值,提高社會(huì)安全事件攻擊行為分類的準(zhǔn)確性。社會(huì)安全攻擊行為準(zhǔn)確分類,可以提高社會(huì)安全事件分析的效率,可以更加準(zhǔn)確地分析和總結(jié)出不同社會(huì)安全事件發(fā)生的原因,針對(duì)不同的類別的社會(huì)安全事件,應(yīng)該如何進(jìn)行提前防范和預(yù)警,降低事件發(fā)生帶來的損失。

    2 基于Spark平臺(tái)的DNNC算法

    2.1 Spark平臺(tái)

    大數(shù)據(jù)時(shí)代下,出現(xiàn)很多大數(shù)據(jù)處理框架。在計(jì)算方面,主要有MapReduce框架[19-20]和Spark框架[21-22]。Spark是加州大學(xué)伯克利分校AMP(Algorithms, Machines, and People)實(shí)驗(yàn)室開源的計(jì)算框架,基于內(nèi)存計(jì)算的Spark在計(jì)算效率上是基于磁盤計(jì)算的MapReduce的100倍。Spark逐漸形成了自己的生態(tài)圈,如圖1所示,并成為Apache頂級(jí)項(xiàng)目,是現(xiàn)今最流行的開源分布式大數(shù)據(jù)計(jì)算平臺(tái),非常適合迭代的機(jī)器學(xué)習(xí)任務(wù)[23]。

    圖1 Spark生態(tài)圈

    Spark生態(tài)圈即伯克利數(shù)據(jù)分析棧(Berkeley Data Analytics Stack, BDAS)包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件,Spark Core提供內(nèi)存計(jì)算框架、Spark Streaming的實(shí)時(shí)處理應(yīng)用、Spark SQL的即席查詢、MLlib或MLbase的機(jī)器學(xué)習(xí)和GraphX的圖處理,它們由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室提供,能夠無縫地集成并提供一站式解決平臺(tái)。

    2.2 DNNC算法

    2.2.1 算法流程

    源數(shù)據(jù)是對(duì)一個(gè)恐怖事件進(jìn)行詳細(xì)描述,存在數(shù)據(jù)不規(guī)范、類型不統(tǒng)一、數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)異常等問題,無法直接對(duì)數(shù)據(jù)進(jìn)行模型訓(xùn)練,必須對(duì)源數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,隨后將預(yù)處理的數(shù)據(jù)傳入到分布式神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)面向社會(huì)安全恐怖事件分類。算法主要包括6個(gè)步驟:

    1)數(shù)據(jù)抽取。

    源數(shù)據(jù)中addnotes等屬性是對(duì)事件的一些補(bǔ)充描述,對(duì)攻擊行為分類關(guān)系不大,可直接刪去。summary屬性簡(jiǎn)要介紹事件發(fā)生的過程,其中包括事件發(fā)生的時(shí)間、地點(diǎn)等,可以通過其他屬性進(jìn)行表示,可直接刪去summary屬性。country和country_txt,region和region_txt等,存在重復(fù)定義,保留country、region等這類編號(hào)屬性,將文字描述屬性country_txt、region_txt等屬性直接刪去。Nhostkid等屬性在幾萬條事件記錄中只有3 000多條有對(duì)應(yīng)的屬性值,數(shù)據(jù)嚴(yán)重缺失,提供的有用信息較少,直接刪去。通過對(duì)源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,刪除無用或者作用較小的屬性,保留有用的屬性。有用的屬性包括國(guó)家編號(hào)、地區(qū)編號(hào)、經(jīng)度、維度、武器編號(hào)、死亡人數(shù)、受傷人數(shù)、目標(biāo)子類型編號(hào)等。

    2)數(shù)據(jù)轉(zhuǎn)換。

    源數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取后,得到相對(duì)有價(jià)值的數(shù)據(jù),該數(shù)據(jù)類型也存在一定的規(guī)范性,但還是無法直接進(jìn)行模型訓(xùn)練,抽取后的數(shù)據(jù)存在的主要問題是數(shù)據(jù)類型不統(tǒng)一,有的屬性字段是日期類型,有的是字符串類型,有的是數(shù)值類型等。模型訓(xùn)練需要的數(shù)據(jù)是量化后的數(shù)值類型數(shù)據(jù),針對(duì)無法進(jìn)行計(jì)算的非數(shù)值型屬性字段,需要進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換,例如對(duì)字符串類型的數(shù)據(jù),通過按英文字母排序,將排序的編號(hào)作為該屬性的一個(gè)映射值。

    3)數(shù)據(jù)預(yù)處理。

    數(shù)據(jù)預(yù)處理階段主要完成填充缺失數(shù)據(jù)值、刪除異常值數(shù)據(jù)和重復(fù)數(shù)據(jù)。缺失值填充主要使用拉格朗日插值法;對(duì)異常值數(shù)據(jù)主要采用箱型圖分析法來檢查重復(fù)數(shù)據(jù),對(duì)重復(fù)的數(shù)據(jù)記錄只保留其中一條。

    4)數(shù)據(jù)規(guī)范化。

    不同評(píng)價(jià)指標(biāo)往往具有不同的量綱,數(shù)值間的差別可能很大,不進(jìn)行處理會(huì)影響數(shù)據(jù)分析的結(jié)果。為了消除指標(biāo)之間的量綱和取值范圍差異的影響,需要進(jìn)行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,以便于進(jìn)行綜合分析。本文使用最小-最大值規(guī)范化也稱為離差標(biāo)準(zhǔn)化,對(duì)原始數(shù)據(jù)進(jìn)行線性變換,將數(shù)值映射到區(qū)間[0,1]內(nèi),轉(zhuǎn)換公式如式(1)所示:

    (1)

    其中:max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值;max-min為極差。離差標(biāo)準(zhǔn)化保留原來數(shù)據(jù)中存在的關(guān)系,是消除量綱和數(shù)據(jù)取值范圍影響的最簡(jiǎn)單方法。

    5)數(shù)據(jù)相關(guān)性分析。

    數(shù)據(jù)進(jìn)行規(guī)范化之后就可以直接運(yùn)用于模型的訓(xùn)練。為了進(jìn)一步提高模型的可靠性,還需對(duì)數(shù)據(jù)各屬性進(jìn)行相關(guān)性分析,對(duì)每個(gè)屬性則進(jìn)行兩兩相關(guān)性計(jì)算,相關(guān)性分析主要使用Person相關(guān)系數(shù),兩個(gè)屬性存在較高的相關(guān)性,即Person相關(guān)系數(shù)接近1,在兩個(gè)屬性中舍棄與目標(biāo)屬性相關(guān)性較低的屬性。

    6)模型訓(xùn)練與事件分類。

    將處理后的數(shù)據(jù)作為模型的輸入數(shù)據(jù),同時(shí)為模型設(shè)置初始化參數(shù),然后對(duì)模型進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后,可以獲得各個(gè)神經(jīng)網(wǎng)絡(luò)層的權(quán)重,通過權(quán)重可以得面向社會(huì)安全分類模型,最后對(duì)社會(huì)安全事件進(jìn)行分類。

    2.2.2 算法設(shè)計(jì)

    基于Spark分布式平臺(tái)實(shí)現(xiàn)分布式神經(jīng)網(wǎng)絡(luò)算法對(duì)社會(huì)安全事件攻擊行為進(jìn)行分類,系統(tǒng)整體結(jié)構(gòu)如圖2所示。

    圖2展示了分布式神經(jīng)網(wǎng)絡(luò)系統(tǒng)整體結(jié)構(gòu),整個(gè)系統(tǒng)搭建在Spark分布式平臺(tái)上,數(shù)據(jù)存儲(chǔ)使用分布式文件系統(tǒng)。整個(gè)系統(tǒng)包含4個(gè)節(jié)點(diǎn),也就是4臺(tái)主機(jī),分別是1臺(tái)Master和3臺(tái)Worker。Master節(jié)點(diǎn)是控制節(jié)點(diǎn),進(jìn)行任務(wù)調(diào)度和分配;Worker節(jié)點(diǎn)是計(jì)算節(jié)點(diǎn),進(jìn)行模型訓(xùn)練。

    圖2 分布式神經(jīng)網(wǎng)絡(luò)系統(tǒng)整體結(jié)構(gòu)

    Worker節(jié)點(diǎn)都是使用三層前饋神經(jīng)網(wǎng)絡(luò),輸入層有n個(gè)神經(jīng)元,隱含層有p個(gè)神經(jīng)元,輸出層有m個(gè)神經(jīng)元。社會(huì)安全事件攻擊行為數(shù)據(jù),在經(jīng)過數(shù)據(jù)處理后生成規(guī)范的數(shù)據(jù),存儲(chǔ)在分布式文件系統(tǒng),長(zhǎng)度為n的社會(huì)安全事件攻擊行為序列數(shù)據(jù)x=x1x2…xn,則分別輸入到計(jì)算節(jié)點(diǎn)進(jìn)行計(jì)算,其他變量和函數(shù)的定義如下。

    隱含層輸入向量:g=(g1,g2,…,gp)

    隱含層輸出向量:h=(h1,h2,…,hp)

    輸出層輸入向量:s=(s1,s2,…,sm)

    輸出層輸出向量:y=(y1,y2,…,ym)

    期望輸出向量:d=(d1,d2,…,dm)

    輸入層到隱含層的連接權(quán)值:wih

    隱含層到輸出層的連接權(quán)值:who

    隱含層各神經(jīng)元的閾值:bh

    輸出層各神經(jīng)元的閾值:bo

    樣本數(shù)據(jù)個(gè)數(shù):k=1,2,…,t

    權(quán)重學(xué)習(xí)率:η

    利用輸出層各神經(jīng)元的y(k)和隱含層各神經(jīng)元的輸出來修正連接權(quán)值who(k):

    (2)

    (3)

    利用隱含層各神經(jīng)元的h(k)和輸入層各神經(jīng)元的輸入修正連接權(quán)值wih(k):

    (4)

    (5)

    計(jì)算全局誤差:

    (6)

    面向社會(huì)安全事件的分布式神經(jīng)網(wǎng)絡(luò)系統(tǒng)中,Master節(jié)點(diǎn)進(jìn)行權(quán)重的廣播和權(quán)重的回收,Worker節(jié)點(diǎn)獲取Master節(jié)點(diǎn)廣播的權(quán)重,進(jìn)行模型訓(xùn)練。詳細(xì)構(gòu)成如下:

    1)Master節(jié)點(diǎn)進(jìn)行初始化模型參數(shù),隨機(jī)生成初始權(quán)重,并通過broadcast(廣播)的方式把模型的初始化參數(shù)和初始權(quán)重傳到各個(gè)Worker節(jié)點(diǎn)上。

    2)各個(gè)Worker節(jié)點(diǎn)根據(jù)broadcast得到模型的初始化參數(shù)和初始化權(quán)重,對(duì)各自的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行初始化,根據(jù)分配的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,調(diào)整權(quán)重,使誤差值e不斷減小。訓(xùn)練結(jié)束后,將最終調(diào)整的權(quán)重傳遞給Master節(jié)點(diǎn)。

    3)Master節(jié)點(diǎn)收集各個(gè)Worker節(jié)點(diǎn)的權(quán)重,計(jì)算更新權(quán)重w′,判斷全局誤差最小值是否小于設(shè)定值,或者循環(huán)次數(shù)是否達(dá)到設(shè)定值:兩個(gè)條件有一個(gè)成立,結(jié)束循環(huán),全局誤差最小的權(quán)重作為最終模型的訓(xùn)練參數(shù),得到社會(huì)安全事件攻擊行為分類模型;兩個(gè)條件都沒有達(dá)到,進(jìn)行步驟4)。

    4)將更新權(quán)重w′重新broadcast到各個(gè)Worker節(jié)點(diǎn)。各個(gè)Worker節(jié)點(diǎn)進(jìn)行新一輪的循環(huán)。

    基于BP神經(jīng)網(wǎng)絡(luò)和分布式系統(tǒng)架構(gòu)設(shè)計(jì)DNNC算法。

    算法1 DNNC算法。

    輸入 攻擊行為類型識(shí)別輸入樣本x。

    輸出 模型訓(xùn)練后的權(quán)重wih和who。

    1)Master節(jié)點(diǎn):初始化權(quán)重wih=rand(-1,1),who=rand(-1,1),bh=rand(-1,1),bo=rand(-1,1),并將初始化參數(shù)進(jìn)行廣播。

    2)Worker節(jié)點(diǎn):分別根據(jù)式(2)、(4)計(jì)算權(quán)重更新量Δwho和Δwih(k)。

    3)Worker節(jié)點(diǎn):分別根據(jù)式(3)、(5)計(jì)算更新權(quán)重,根據(jù)式(6)計(jì)算全局誤差,并將更新權(quán)重和全局誤差傳回Master節(jié)點(diǎn)。

    4)Master節(jié)點(diǎn):根據(jù)傳回的權(quán)重進(jìn)行權(quán)重,并將權(quán)重從新分發(fā)給各個(gè)Worker節(jié)點(diǎn)。

    5)重復(fù)2)~4),直到全局誤差小于設(shè)定值或者循環(huán)次數(shù)到達(dá)最大值。

    3 實(shí)驗(yàn)與分析

    3.1 實(shí)驗(yàn)環(huán)境

    實(shí)驗(yàn)使用的測(cè)試平臺(tái)為搭建的Spark分布式集群,集群規(guī)模為本校計(jì)算中心分配的4個(gè)虛擬計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的操作系統(tǒng)為Centos6.5,4核CPU,內(nèi)存為16 GB,存儲(chǔ)為50 GB,Hadoop版本為2.6.5,Spark版本為1.6.0,開發(fā)環(huán)境為IDEA2016.2.5。

    3.2 數(shù)據(jù)集

    本文實(shí)驗(yàn)使用了GDT全球恐怖事件數(shù)據(jù)庫(kù)2012年—2015年的47 000多條記錄,源數(shù)據(jù)記錄了恐怖事件的事件編號(hào)、國(guó)家、地區(qū)、事件發(fā)生的經(jīng)度、事件發(fā)生的緯度、攻擊類型等80個(gè)屬性,數(shù)據(jù)集的部分?jǐn)?shù)據(jù)如表1所示。

    表1 全球恐怖事件數(shù)據(jù)集的部分?jǐn)?shù)據(jù)

    根據(jù)GTD,對(duì)數(shù)據(jù)進(jìn)行攻擊行為分類統(tǒng)計(jì),統(tǒng)計(jì)信息如表2所示。

    表2 攻擊行為分類統(tǒng)計(jì)信息

    3.3 模型訓(xùn)練

    分布式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為三層:第一層是輸入層,第二層是隱含層,第三層是輸出層。輸入神經(jīng)元個(gè)數(shù)為10,隱含神經(jīng)元個(gè)數(shù)為15,輸出神經(jīng)元個(gè)數(shù)為8;每組數(shù)據(jù)量為50個(gè);最大循環(huán)次數(shù)1 000;數(shù)據(jù)訓(xùn)練集和測(cè)試集比例為4∶1;隱含層激活函數(shù)為tanh();初始學(xué)習(xí)率為2.0;學(xué)習(xí)率調(diào)整比例為1.0,輸出函數(shù)為sigm()。

    3.4 實(shí)驗(yàn)結(jié)果對(duì)比

    模型訓(xùn)練完成后,得到分布式神經(jīng)網(wǎng)絡(luò)模型權(quán)重wih和who,根據(jù)得到的權(quán)重進(jìn)行攻擊類型識(shí)別,本文提出的DNNC算法的識(shí)別準(zhǔn)確率如表3所示。

    表3 DNNC算法的識(shí)別準(zhǔn)確率

    本文算法與決策樹算法和集成決策樹算法[5]的比較結(jié)果如表4所示。

    表4 幾種算法準(zhǔn)確率比較

    實(shí)驗(yàn)結(jié)果表明:本文提出的DNNC算法僅部分攻擊類型上識(shí)別準(zhǔn)確率有所下降(主要因?yàn)镈NNC考慮的是全局最優(yōu)),但總體優(yōu)勢(shì)明顯。DNNC算法的平均準(zhǔn)確率比決策樹算法提升15.90個(gè)百分點(diǎn),比集成決策樹算法提升8.60個(gè)百分點(diǎn)。DNNC算法對(duì)社會(huì)安全事件進(jìn)行分類,能更加準(zhǔn)確地學(xué)習(xí)各個(gè)屬性與分類目標(biāo)之間存在的關(guān)系,通過各個(gè)層之間的變換,關(guān)聯(lián)各個(gè)屬性,挖掘各個(gè)屬性之間存在的隱含關(guān)系,相對(duì)于決策樹,每次只考慮一個(gè)屬性值進(jìn)行決策分類,更具有優(yōu)勢(shì),分類準(zhǔn)確性更高。

    4 結(jié)語

    本文分析了恐怖事件攻擊行為的數(shù)據(jù)特征,從數(shù)據(jù)的層面挖掘攻擊行為與哪些屬性具有相關(guān)性、哪些屬性影響攻擊行為的類別;同時(shí)提出了分布式神經(jīng)網(wǎng)絡(luò)分類算法,來解決恐怖事件攻擊行為分類問題。神經(jīng)網(wǎng)絡(luò)的非線性擬合特性可以準(zhǔn)確地構(gòu)建恐怖事件攻擊行為分類模型,而Spark作為基于內(nèi)存計(jì)算的分布式平臺(tái),非常適合反復(fù)進(jìn)行迭代的神經(jīng)網(wǎng)絡(luò)算法,能提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度。結(jié)合神經(jīng)網(wǎng)絡(luò)和Spark分布式平臺(tái)的優(yōu)勢(shì),將其運(yùn)用于恐怖事件攻擊行為的分類,比傳統(tǒng)的恐怖事件分類算法更有優(yōu)勢(shì),識(shí)別率更高。但從社會(huì)安全事件攻擊行為分類問題上看,對(duì)于樣本數(shù)量較小的攻擊類別的識(shí)別率還需要進(jìn)一步提高。從大數(shù)據(jù)背景看,對(duì)分布式神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練速度的提高,也將是下一步工作研究的重點(diǎn)。

    References)

    [1] 國(guó)務(wù)院. 國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案[J]. 中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志, 2006, 12(1):77-79.(State Council. National emergency response plan for public emergencies [J]. Chinese Journal of Basic Medicine in Traditional Chinese Medicine,2006, 12(1):77-79.)

    [2] 孫越恒, 王文俊, 遲曉彤, 等. 基于多維時(shí)間序列模型的社會(huì)安全事件關(guān)聯(lián)關(guān)系挖掘與預(yù)測(cè)[J]. 天津大學(xué)學(xué)報(bào) (社會(huì)科學(xué)版), 2016, 18(2): 97-102. (SUN Y H, WANG W J, CHI X T, et al. Correlation mining and prediction of social security events based on multi-dimensional time series model[J]. Journal of Tianjin University (Social Sciences), 2016, 18(2): 97-102.)

    [3] BACKER D A, BHAVNANI R, HUTH P K. Peace and Conflict 2016[M]. Oxford: Routledge, 2016: 67.

    [4] KLUCH S P, VAUX A. The non-random nature of terrorism: an exploration of where and how global trends of terrorism have developed over 40 years[J]. Studies in Conflict amp; Terrorism, 2016, 39(12): 1031-1049.

    [5] SIVARAMAN R, SRINIVASAN S, CHANDRASEKERAN R M. Big data on terrorist attacks: an analysis using the ensemble classifier approach[EB/OL]. [2017- 01- 10]. http://edlib.net/2015/icidret/icidret2015042.pdf.

    [6] 焦李成, 楊淑媛, 劉芳, 等. 神經(jīng)網(wǎng)絡(luò)七十年: 回顧與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(8): 1697-1716. (JIAO L C, YANG S Y, LIU F, et al. Seventy years beyond neural networks: retrospect and prospect [J]. Chinese Journal of Computers, 2016, 39(8): 1697-1716.)

    [7] 劉暢. BP神經(jīng)網(wǎng)絡(luò)的權(quán)值快速計(jì)算法及其逼近性能分析[J]. 科技視界, 2016(11): 130-131. (LIU C. Fuzzy calculation method and approximation performance analysis of BP neural network [J]. Science amp; Technology View, 2016(11): 130-131.)

    [8] SALEHIAN S, YAN Y. Comparison of spark resource managers and distributed file systems[C]// Proceedings of the 2016 IEEE International Conferences on Big Data and Cloud Computing, Social Computing and Networking, Sustainable Computing and Communications. Piscataway, NJ: IEEE, 2016: 567-572.

    [9] LIU T, FANG Z, ZHAO C, et al. Parallelization of a series of extreme learning machine algorithms based on spark[C]// Proceedings of the 2016 IEEE/ACIS 15th International Conference on Computer and Information Science. Piscataway, NJ: IEEE, 2016: 1-5.

    [10] FREILICH J D, LAFREE G. Measurement issues in the study of terrorism: introducing the special issue[J]. Studies in Conflict and Terrorism, 2016, 39(7/8): 569-579.

    [11] MEIERRIEKS D, SCHNEIDER F. The short-and long-run relationship between the illicit drug business and terrorism[J]. Applied Economics Letters, 2016, 23(18): 1274-1277.

    [12] LUTZ B J, LUTZ J M. Globalization, terrorism, and the economy[M]// LUTZ B J, LUTZ J M. Globalization and the Economic Consequences of Terrorism. Berlin: Springer, 2017: 1-30.

    [13] SAKHARE N N, JOSHI S A. Classification of criminal data using J48-decision tree algorithm[J]. IFRSA International Journal of Data Warehousing amp; Mining, 2014, 4(3): 167-171.

    [14] SAKHARE N, JOSHI S. Criminal identification system based on data mining[C]// Proceedings of the 3rd International Conference on Recent Trends in Engineering and Technology. Chandwad, Nashik, India: [s.n.], 2014.

    [15] JOSHI S, SAKHARE N. History bits based novel algorithm for classification of structured data[C]// Proceedings of the 2015 IEEE International Advance Computing Conference. Piscataway, NJ: IEEE, 2015: 609-612.

    [16] SHEIKH H R. Use of predictive modeling for prediction of future terrorist attacks in Pakistan[EB/OL]. [2017- 01- 10]. http://koha.isra.edu.pk: 8080/jspui/handle/123456789/59.

    [17] WU S, LIU Q, BAI P, et al. SAPE: a system for situation-aware public security evaluation[C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2016: 4401-4402.

    [18] STRANG K D, SUN Z. Analyzing relationships in terrorism big data using Hadoop and statistics[J]. Journal of Computer Information Systems, 2017, 57(1): 67-75.

    [19] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.

    [21] ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: cluster computing with working sets[C]// HotCloud 2010: Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Berkeley: USENIX Association, 2010: 10.

    [22] ZAHARIA M, CHOWDHURY M, DAS T, et al. Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing[C]// Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. Berkeley: USENIX Association, 2012: 2.

    [23] MENG X, BRADLEY J, YUVAZ B, et al. MLlib: machine learning in Apache Spark[J]. The Journal of Machine Learning Research, 2016, 17(1): 1235-1241.

    Distributedneuralnetworkforclassificationofattackbehaviortosocialsecurityevents

    XIAO Shenglong1*, CHEN Xin1, LI Zhuo1,2

    (1.SchoolofComputerScience,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;2.BeijingKeyLaboratoryofInternetCultureandDigitalDissemination,Beijing100101,China)

    In the era of big data, the social security data becomes more diverse and its amount increases rapidly, which challenges the analysis and decision of social security events significantly. How to accurately categorize the attack behavior in a short time and support the analysis and decision making of social security events becomes an urgent problem needed to be solved in the field of national and cyberspace security. Aiming at the behavior of aggression in social security events, a new Distributed Neural Network Classification (DNNC) algorithm was proposed based on the Spark platform. The DNNC algorithm was used to analyze the related features of the attack behavior categories, and the features were used as the input of the neural network. Then the function relationship between the individual features and attack categories were established, and a neural network classification model was generated to classify the attack categories of social security events. Experimental results on the data provided by the global terrorism database show that the proposed algorithm can improve the average accuracy by 15.90 percentage points compared with the decision tree classification, and by 8.60 percentage points compared with the ensemble decision tree classification, only decreases the accuracy on part attack type.

    social security; big data; Spark distributed system; neural network; classification algorithm

    2017- 04- 24;

    2017- 06- 14。

    國(guó)家自然科學(xué)基金資助項(xiàng)目(61370065,61502040);國(guó)家科技支撐計(jì)劃項(xiàng)目(2015BAK12B00)。

    肖圣龍(1991—),男,福建莆田人,碩士研究生,主要研究方向:大數(shù)據(jù)分析、網(wǎng)絡(luò)安全; 陳昕(1965—),男,江西南昌人,教授,博士生導(dǎo)師,博士,CCF高級(jí)會(huì)員,主要研究方向:大數(shù)據(jù)分析、網(wǎng)絡(luò)安全; 李卓(1983—),男,河南南陽人,講師,博士,CCF會(huì)員,主要研究方向:移動(dòng)無線網(wǎng)絡(luò)、分布式計(jì)算。

    1001- 9081(2017)10- 2794- 05

    10.11772/j.issn.1001- 9081.2017.10.2794

    TP391.41

    A

    This work is partially supported by the National Natural Science Foundation of China (61370065, 61502040), the National Key Technology Research and Development Program of the Ministry of Science and Technology of China (2015BAK12B00).

    XIAOShenglong, born in 1991, M. S. candidate. His research interests include big data analysis, network security.

    CHENXin, born in 1965, Ph. D., professor. His research interests include big data analysis, network security.

    LIZhuo, born in 1983, Ph. D., lecturer. His research interests include mobile wireless network, distributed computing.

    猜你喜歡
    恐怖事件攻擊行為安全事件
    友誼前的恐怖事件
    住院精神病人暴力攻擊行為原因分析及護(hù)理干預(yù)
    基于人工蜂群算法的無線網(wǎng)絡(luò)攻擊行為的辨識(shí)研究
    電視報(bào)道中暴恐事件的敘事范式探析
    今傳媒(2016年11期)2016-12-19 12:26:36
    食品安全事件的價(jià)格沖擊效應(yīng)
    基于計(jì)劃行為理論的高職學(xué)生攻擊行為探析
    文教資料(2014年1期)2014-11-07 06:54:50
    例談新聞媒體在恐怖事件中的定位與管制
    公交車公共安全事件調(diào)查
    2013卡巴斯基三大安全事件
    英國(guó):公布食品安全事件年度報(bào)告
    瑞金市| 桐乡市| 建阳市| 霍山县| 六枝特区| 阆中市| 西盟| 龙门县| 西和县| 谢通门县| 娄底市| 泰来县| 临沧市| 海安县| 云南省| 镇安县| 皋兰县| 永登县| 体育| 南京市| 大埔区| 大冶市| 清徐县| 阳曲县| 呼和浩特市| 齐齐哈尔市| 弥渡县| 营口市| 开江县| 通道| 高阳县| 泉州市| 华坪县| 平遥县| 安化县| 独山县| 马鞍山市| 吉首市| 浦东新区| 德惠市| 称多县|