• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      分布式計(jì)算環(huán)境下的入侵檢測(cè)數(shù)據(jù)分類研究

      2015-11-25 02:59:16沈利香
      計(jì)算機(jī)與現(xiàn)代化 2015年12期
      關(guān)鍵詞:樸素貝葉斯分布式

      沈利香,曹 國(guó)

      (1.常州工學(xué)院計(jì)算機(jī)信息工程學(xué)院,江蘇 常州 213002;2.常州工學(xué)院經(jīng)濟(jì)管理學(xué)院,江蘇 常州 213002)

      0 引言

      隨著網(wǎng)絡(luò)的不斷發(fā)展,各個(gè)行業(yè)的相關(guān)數(shù)據(jù)都在飛速地增長(zhǎng),尤其是在商業(yè)、社會(huì)管理和科研領(lǐng)域[1]。據(jù)估計(jì),2010 年全球由公司存儲(chǔ)的新數(shù)據(jù)超過(guò)了7 艾字節(jié)(exabytes),由消費(fèi)者額外存儲(chǔ)的新數(shù)據(jù)則超過(guò)了6 艾字節(jié)??梢灶A(yù)見未來(lái)隨著公司企業(yè)所獲取的不斷增加的信息數(shù)量和細(xì)節(jié)信息,包括多媒體、社會(huì)媒體和物聯(lián)網(wǎng)的增長(zhǎng),將會(huì)刺激數(shù)據(jù)的指數(shù)增長(zhǎng)[2]。很多文獻(xiàn)將具有大量數(shù)據(jù)集、增長(zhǎng)迅速并且數(shù)據(jù)類型和來(lái)源多樣的數(shù)據(jù)稱為大數(shù)據(jù)。文獻(xiàn)[3]說(shuō)明了大數(shù)據(jù)分析應(yīng)用的廣泛領(lǐng)域:健康與人類福利、自然與自然過(guò)程、政府及公共部門、商業(yè)經(jīng)濟(jì)系統(tǒng)、社會(huì)網(wǎng)絡(luò)和Internet、計(jì)算和實(shí)驗(yàn)過(guò)程等。

      Apache Hadoop 是開源的分布式并行計(jì)算體系,由Java 實(shí)現(xiàn),提供了一種MapReduce 的并行化編程模式以及Hadoop 分布式文件系統(tǒng)。Hadoop 能夠在大規(guī)模集群環(huán)境中實(shí)現(xiàn)良好的容錯(cuò)計(jì)算和存儲(chǔ)機(jī)制。以Hadoop 為基礎(chǔ)的大數(shù)據(jù)研究正不斷展開。Mahout是一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù),其中實(shí)現(xiàn)了聚類、分類和推薦系統(tǒng)的算法,可以基于Hadoop 運(yùn)行。Lee Yeonhee[4]等人提出了一種基于Hadoop 的數(shù)據(jù)包分析或者Netflow 追蹤分析解決方案。實(shí)驗(yàn)中使用具有200 個(gè)節(jié)點(diǎn)的Hadoop 測(cè)試床,處理二進(jìn)制文件追蹤文件的讀寫,采用MapReduce 框架分析Netflow、IP、TCP 和HTTP,并且采用Hive 用以簡(jiǎn)化查詢;Matthew Edwards[5]等人提出了基于Hadoop 的一種新系統(tǒng),對(duì)大型同步數(shù)據(jù)集進(jìn)行分布式并行分析,以解決美國(guó)能源部門的大數(shù)據(jù)分析問(wèn)題;K.Ericson[6]等人對(duì)比了2種云計(jì)算平臺(tái)Hadoop 和Granules 下的4 種聚類算法和2 種分類算法。實(shí)驗(yàn)中使用UCI 機(jī)器學(xué)習(xí)庫(kù)標(biāo)準(zhǔn)數(shù)據(jù)集“the 20 News Groups dataset”,該訓(xùn)練集包含了11 314 個(gè)電子郵件。實(shí)驗(yàn)對(duì)比了在2 個(gè)平臺(tái)下樸素貝葉斯和互補(bǔ)樸素貝葉斯算法的運(yùn)行時(shí)間;G.Caruana[7]等人提出了一種基于MapReduce 的并行化的支持向量機(jī)算法,用于對(duì)大規(guī)模垃圾郵件進(jìn)行過(guò)濾;S.D.Rio[8]等人分析了應(yīng)用隨機(jī)森林分類器處理大數(shù)據(jù)中非平衡數(shù)據(jù)集的幾種技術(shù)的性能,采用了MapReduce 框架,研究發(fā)現(xiàn)在使用隨機(jī)森林算法的情況下,對(duì)應(yīng)于所有的數(shù)據(jù),沒(méi)有哪種方法的非平衡大數(shù)據(jù)分類比其他的方法都好。另外,對(duì)于同類問(wèn)題,最佳的執(zhí)行方法與實(shí)驗(yàn)中選擇的Mappers 數(shù)量有關(guān)。大多數(shù)情況下,分割數(shù)增加,運(yùn)行時(shí)間也會(huì)提升,但會(huì)使分類準(zhǔn)確性有少量下降。O.Kwon[9]等人以UCI 的標(biāo)準(zhǔn)數(shù)據(jù)為基礎(chǔ)研究了大數(shù)據(jù)集的各個(gè)屬性是如何影響算法的準(zhǔn)確率和運(yùn)行時(shí)間,使用Weka 軟件包中的分類算法進(jìn)行了對(duì)比分析。其實(shí)驗(yàn)結(jié)果表明分析數(shù)據(jù)集的記錄數(shù)和屬性數(shù)對(duì)運(yùn)算時(shí)間有顯著性影響,特征數(shù)量增多會(huì)導(dǎo)致準(zhǔn)確率下降,尤其是非平衡性數(shù)據(jù)在每個(gè)算法中都導(dǎo)致了準(zhǔn)確率的下降。

      傳統(tǒng)計(jì)算的整個(gè)算法程序和所有要處理的數(shù)據(jù)都是在同一臺(tái)主機(jī)上以串行計(jì)算方式完成,隨著分析數(shù)據(jù)的增加,計(jì)算對(duì)內(nèi)存、CPU 等資源的使用也迅速變得緊張,單臺(tái)主機(jī)的運(yùn)行性能迅速下降。通常的做法是進(jìn)行數(shù)據(jù)抽取或者聚類,以便選取少量的數(shù)據(jù)作為算法的輸入進(jìn)行分析。KDD99 數(shù)據(jù)集是MIT 林肯實(shí)驗(yàn)室發(fā)布的入侵檢測(cè)數(shù)據(jù)集,不僅是IDS 綜合測(cè)試系統(tǒng)的典范,也是目前學(xué)術(shù)界最有影響力和公信力的入侵檢測(cè)數(shù)據(jù)集[10]。完整的KDD99 數(shù)據(jù)集的訓(xùn)練集有記錄數(shù)為4 898 431,通常使用其中10%的記錄子集,訓(xùn)練集記錄數(shù)為494 021,但在實(shí)際算法分析中,又再?gòu)闹腥〕鲆恍〔糠肿蛹M(jìn)行分析。實(shí)際的入侵檢測(cè)系統(tǒng)中,產(chǎn)生了大量的數(shù)據(jù),通常的分析文件大小都會(huì)達(dá)到上百兆。因此,傳統(tǒng)的數(shù)據(jù)挖掘方法難以應(yīng)對(duì)大數(shù)據(jù)問(wèn)題,對(duì)入侵檢測(cè)系統(tǒng)進(jìn)行大數(shù)據(jù)分析研究是十分必要的。

      為此,本文以Hadoop 和Mahout 為基礎(chǔ),以完整的KDD99 數(shù)據(jù)集為輸入數(shù)據(jù),對(duì)樸素貝葉斯并行算法和Logistic 回歸并行算法進(jìn)行分析。

      1 入侵檢測(cè)數(shù)據(jù)集KDD99 的預(yù)處理

      KDD99 數(shù)據(jù)集的數(shù)據(jù)類型有多種類型,包括數(shù)值型和表示不同類別的字符串型。為了算法的處理,需要將數(shù)據(jù)類型統(tǒng)一為數(shù)值型,字符串型數(shù)據(jù)需要轉(zhuǎn)換成數(shù)值型。對(duì)于第2 列屬性protocol_type 有3 種類別:“icmp”、“tcp”、“udp”,將“icmp”表示為1,“tcp”表示為2,“udp”表示為3。第3 列屬性service有70 種類別,編號(hào)依次為1~70。第4 列屬性flag 有11 種類別。第42 列攻擊類別的屬性中,normal(正常)表示為1;Probe 類別含有子類:“ipsweep”、“nmap”、“portsweep”、“satan”、“saint”、“mscan”,將這些類別統(tǒng)一轉(zhuǎn)換成Probe 表示的2;Dos 類別含有子類10 種轉(zhuǎn)換成3;U2R 含有子類8 種轉(zhuǎn)換成4;R2L 含有子類15 種轉(zhuǎn)換成5,以此方式對(duì)原始KDD99 數(shù)據(jù)進(jìn)行統(tǒng)一轉(zhuǎn)換。預(yù)處理利用R 語(yǔ)言的高效數(shù)據(jù)處理能力。

      R 是一種針對(duì)統(tǒng)計(jì)分析和數(shù)據(jù)科學(xué)的功能全面的開源統(tǒng)計(jì)語(yǔ)言[11]。RHadoop 是5 個(gè)R 包的集合,它們?cè)试S用戶使用R 對(duì)Hadoop 進(jìn)行管理和分析數(shù)據(jù)[12]。本文使用RHadoop 實(shí)現(xiàn)從R 中向Hadoop 文件系統(tǒng)傳遞文件。

      2 樸素貝葉斯算法分析KDD99 數(shù)據(jù)

      本文的樸素貝葉斯算法分析KDD99 數(shù)據(jù)的主要步驟為:

      Step1 使用R 語(yǔ)言預(yù)處理原始KDD99 數(shù)據(jù),得到文本格式的數(shù)據(jù)文件;

      Step2 處理后的數(shù)據(jù)文件通過(guò)RHadoop 構(gòu)架中的rhdfs 復(fù)制到Hadoop 中的HDFS;

      Step3 Hadoop 中的Map 處理step2 中的數(shù)據(jù)文件,將文本格式數(shù)據(jù)轉(zhuǎn)化為向量格式,輸出<label,vector >,具體處理見2.1 節(jié);

      Step4 Hadoop 中的Reduce 處理Map 的輸出<label,vector >,建立樸素貝葉斯模型分類器,具體處理見2.2 節(jié);

      Step5 根據(jù)step4 建立的分類器分類測(cè)試集數(shù)據(jù),得到分類結(jié)果。

      2.1 文本格式轉(zhuǎn)化為向量格式

      Hadoop 中的數(shù)據(jù)存儲(chǔ)和計(jì)算過(guò)程中的數(shù)據(jù)傳輸都需要將處理數(shù)據(jù)序列化,即將計(jì)算中的對(duì)象轉(zhuǎn)換為字節(jié)流,而Mahout 中的樸素貝葉斯算法的輸入要求為向量化數(shù)據(jù)。為此,本文使用Map 函數(shù)處理R 語(yǔ)言預(yù)處理產(chǎn)生的數(shù)據(jù)文件。對(duì)于每一行的數(shù)據(jù),將其中的41 個(gè)屬性值轉(zhuǎn)換為向量類型的value 值,key 值為同一行屬性值對(duì)應(yīng)的類別號(hào),得到Map 函數(shù)的輸出<label,vector >。

      2.2 樸素貝葉斯訓(xùn)練模型的建立與數(shù)據(jù)分類

      在Reduce 處理中,以Map 的輸出<label,vector >為輸入,計(jì)算了樣本X 歸屬各個(gè)類別的后驗(yàn)概率,然后基于Mahout 中的樸素貝葉斯算法[13],建立樸素貝葉斯模型。根據(jù)建立的模型,創(chuàng)建樸素貝葉斯分類器對(duì)數(shù)據(jù)進(jìn)行分類。最終得到的是m 個(gè)類別對(duì)應(yīng)的后驗(yàn)概率,取后驗(yàn)概率最大值對(duì)應(yīng)的類別為對(duì)應(yīng)樣本的類別。對(duì)分類結(jié)果進(jìn)行分析,得到分析數(shù)據(jù)集的混淆矩陣和分類準(zhǔn)確率。

      3 Logistic 回歸分析KDD99 數(shù)據(jù)

      Logistic 回歸[14]是最廣泛使用的用于分類數(shù)據(jù)的方法,其作出以多個(gè)自變量估計(jì)因變量的Logistic回歸方程,屬于概率型非線性回歸。Logistic 回歸模型設(shè)定觀測(cè)值y 的對(duì)數(shù)概率可以表達(dá)成有K 個(gè)屬性的自變量X 的線性函數(shù):

      設(shè)置x0=1,式(1)中添加了常數(shù)項(xiàng)b0。等式兩邊取指數(shù)運(yùn)算,得到公式:

      式(2)說(shuō)明Logistic 模型是輸入的乘積。本文中使用多分類的Logistic 回歸并行算法[15]來(lái)對(duì)比分析KDD99 數(shù)據(jù)。

      4 實(shí) 驗(yàn)

      4.1 實(shí)驗(yàn)環(huán)境配置

      Hadoop 平臺(tái)下的程序運(yùn)行效率主要由算法性能、I/O 操作、網(wǎng)絡(luò)數(shù)據(jù)傳輸、集群節(jié)點(diǎn)硬件性能等因素影響。本實(shí)驗(yàn)設(shè)計(jì)分別在偽分布式模式和分布式模式分析KDD99 數(shù)據(jù)。實(shí)驗(yàn)中偽分布式模式(pseudo-distributed mode)和分布式模式中的Master 和Slave 都是Ubuntu14 的VMware 虛擬機(jī),配置為1 G內(nèi)存和1 個(gè)CPU。Hadoop1.2 的配置:數(shù)據(jù)分塊單位大小為64 M,最大Map 數(shù)和最大Reduce 數(shù)為均為2。來(lái)自KDD99 數(shù)據(jù)集的7 個(gè)文件,大小依次以68 M 左右遞增,基本對(duì)應(yīng)數(shù)據(jù)分塊單位,最后第7 個(gè)文件包含了完整的KDD99 數(shù)據(jù)集,具體如表1 所示。

      表1 分析的7 個(gè)文件

      偽分布式模式實(shí)際上是將Master 和Slave 安裝在同一臺(tái)機(jī)器上,即NameNode(JobTracker)和DataNode(TaskTracker)在同一臺(tái)機(jī)器上,兩者之間的數(shù)據(jù)傳輸不需要經(jīng)過(guò)網(wǎng)絡(luò)傳輸。因此,可以更好地比較分析相同KDD99 數(shù)據(jù)的不同算法的性能。分布式模式下,數(shù)據(jù)分塊以及運(yùn)算結(jié)果在網(wǎng)絡(luò)中傳輸,同時(shí)根據(jù)Hadoop 的設(shè)置,一個(gè)數(shù)據(jù)分塊可以被復(fù)制多次,默認(rèn)為3,本實(shí)驗(yàn)設(shè)置為2。在數(shù)據(jù)分塊大小為64 M 的情況下,7 個(gè)KDD 分析文件分別對(duì)應(yīng)2 個(gè)分塊到8 個(gè)分塊。以偽分布式模式的分析為基礎(chǔ),再進(jìn)一步在分布式模式下進(jìn)行分析,可以更有效地發(fā)掘分布式并行算法在處理KDD99 數(shù)據(jù)時(shí)的特點(diǎn)。

      4.2 實(shí)驗(yàn)結(jié)果分析

      表2 記錄了在偽分布式模式下,樸素貝葉斯并行算法和Logistic 回歸并行算法的分類準(zhǔn)確率和運(yùn)行時(shí)間。表3 記錄了在分布式模式(集群包括1 個(gè)Master,2 個(gè)Slave)下2 種算法的分類準(zhǔn)確率和運(yùn)行時(shí)間。表中NAN 表示算法運(yùn)算出現(xiàn)異常,未得到結(jié)果。

      Logistic 回歸分析中的指標(biāo)是訓(xùn)練集的分類準(zhǔn)確率和運(yùn)行時(shí)間。

      表3 2 個(gè)Slave,1 個(gè)Master 情況下的運(yùn)行

      根據(jù)表2 和表3 的數(shù)據(jù),繪出相應(yīng)的分類準(zhǔn)確率對(duì)比圖1,偽分布式模式下算法運(yùn)行時(shí)間如圖2 所示,分布式模式下算法運(yùn)行時(shí)間如圖3 所示(1 個(gè)Master,2 個(gè)Slaves)。算法在偽分布式模式和分布式模式下的分類準(zhǔn)確率基本是一樣的,但是在時(shí)間上的差異性較大。從分類準(zhǔn)確率的圖1 中可以看出樸素貝葉斯算法比較穩(wěn)定,分類準(zhǔn)確率隨著訓(xùn)練樣本的增加逐漸增加,具有較高的分類準(zhǔn)確率,Logistic 回歸算法則不是很穩(wěn)定,隨著訓(xùn)練樣本的增加,分類準(zhǔn)確率存在一定的波動(dòng)。

      圖1 樸素貝葉斯與Logistic 回歸的分類結(jié)果對(duì)比

      圖2 2 種算法在偽分布式模式下的運(yùn)行時(shí)間

      圖3 2 種算法在分布式模式下的運(yùn)行時(shí)間

      算法在偽分布式模式下的運(yùn)行實(shí)際上是數(shù)據(jù)沒(méi)有經(jīng)過(guò)網(wǎng)絡(luò)傳輸,也就沒(méi)有了網(wǎng)絡(luò)傳輸分析數(shù)據(jù)產(chǎn)生的時(shí)延,但是運(yùn)算會(huì)在一臺(tái)主機(jī)上運(yùn)行,因此沒(méi)有發(fā)揮出Hadoop 平臺(tái)的并行計(jì)算的優(yōu)勢(shì)。分布式模式下,實(shí)驗(yàn)使用了2 個(gè)從主機(jī)(Slave),算法運(yùn)行時(shí)間比偽分布式模式長(zhǎng)。圖2 與圖3 中的直線是在其他因素不變的情況下,運(yùn)行時(shí)間與文件大小關(guān)系的線性回歸直線,偽分布式模式下,各個(gè)實(shí)驗(yàn)點(diǎn)基本與直線吻合,而分布式模式下則分離較遠(yuǎn),可見網(wǎng)絡(luò)數(shù)據(jù)傳輸對(duì)運(yùn)行時(shí)間的影響明顯。算法性能方面,樸素貝葉斯算法的耗時(shí)明顯比Logistic 算法要高效很多,偽分布式模式下的結(jié)果更為直觀。

      文獻(xiàn)[4]的研究顯示,隨著Hadoop 分布式系統(tǒng)集群中主機(jī)數(shù)量的增加,處理大數(shù)據(jù)的整體運(yùn)行時(shí)間會(huì)顯著減少,預(yù)見隨著分布式環(huán)境中運(yùn)算主機(jī)數(shù)量的增多,并行計(jì)算的優(yōu)勢(shì)會(huì)彌補(bǔ)數(shù)據(jù)網(wǎng)絡(luò)傳輸時(shí)延的問(wèn)題,從而使得整體計(jì)算時(shí)間減少,整體效率提高,優(yōu)于串行方式下的算法計(jì)算。因此,基于之前的對(duì)比實(shí)驗(yàn),本文選擇樸素貝葉斯算法進(jìn)行進(jìn)一步的分析。將實(shí)驗(yàn)用的從主機(jī)數(shù)量逐步增加,同時(shí),將最大Map 數(shù)和最大Reduce 數(shù)均改為5,文件塊復(fù)制數(shù)為2。從主機(jī)數(shù)量選擇4 臺(tái)、6 臺(tái)、8 臺(tái)、10 臺(tái),集群拓?fù)淙鐖D4所示。表4 列出了在不同數(shù)量從主機(jī)的情況下,對(duì)7個(gè)KDD 文件進(jìn)行分類分析的樸素貝葉斯算法平均運(yùn)行時(shí)間。圖5 從曲線圖角度繪制,“Pseudo”表示偽分布式模式下的數(shù)據(jù)。圖5 顯示出多個(gè)從主機(jī)的平均運(yùn)行時(shí)間明顯少于偽分布模式。雖然實(shí)際運(yùn)算中,算法運(yùn)行時(shí)間存在一定的波動(dòng)性,但圖6 從條形圖的角度顯示出隨著從主機(jī)數(shù)量的增加,整體的平均運(yùn)行時(shí)間有逐步降低的趨勢(shì)。分析的數(shù)據(jù)集越大,這種運(yùn)行時(shí)間變化趨勢(shì)越明顯。因此,對(duì)于不斷增加的入侵檢測(cè)數(shù)據(jù),采用并行分布式算法具有應(yīng)對(duì)數(shù)據(jù)持續(xù)大規(guī)模增長(zhǎng)的能力。在集群并行運(yùn)算的情況下,對(duì)于完整的包含4 898 431 條記錄的KDD 數(shù)據(jù)集可以在7 分鐘之內(nèi)完成分類,并且有較高的分類準(zhǔn)確率。此點(diǎn)表明在并行計(jì)算的平臺(tái)下,可以對(duì)入侵檢測(cè)數(shù)據(jù)進(jìn)行實(shí)時(shí)在線分析的進(jìn)一步研究。

      圖4 多臺(tái)從主機(jī)的集群拓?fù)?/p>

      表4 多臺(tái)從主機(jī)運(yùn)行樸素貝葉斯算法的時(shí)間(s)

      圖5 多臺(tái)從主機(jī)運(yùn)行時(shí)間(曲線圖)對(duì)比

      圖6 多臺(tái)從主機(jī)運(yùn)行時(shí)間(條形圖)對(duì)比

      5 結(jié)束語(yǔ)

      大數(shù)據(jù)分析正面臨著許多的挑戰(zhàn),網(wǎng)絡(luò)領(lǐng)域的大數(shù)據(jù)分析尤其重要,本文對(duì)入侵檢測(cè)的完整KDD99數(shù)據(jù)集進(jìn)行了分析,實(shí)驗(yàn)表明在Hadoop 平臺(tái)下,樸素貝葉斯算法可以取得比Logistic 回歸更好的運(yùn)行效率。集群運(yùn)算平臺(tái)下的樸素貝葉斯算法可以有效地分析入侵檢測(cè)大數(shù)據(jù)。可以考慮通過(guò)降維的處理,刪除或者合并部分KDD99 屬性,使得剩余屬性間的相關(guān)性近可能地小,更好地符合貝葉斯假設(shè),從而進(jìn)一步提高樸素貝葉斯算法的分析結(jié)果。本文的分析結(jié)果可以為在線動(dòng)態(tài)的入侵檢測(cè)數(shù)據(jù)分析和網(wǎng)絡(luò)系統(tǒng)安全評(píng)估提供良好的基礎(chǔ)。

      [1]Chen C L P,Zhang Chun-yang.Data-intensive applications,challenges,techniques and technologies:A survey on big data[J].Information Sciences,2014,275:314-347.

      [2]Manyika J,Chui M,Brown B,et al.Big Data:The Next Frontier For Innovation,Competition,and Productivity[EB/OL].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation,2014-10-30.

      [3]Kambatla K,Kollias G,Kumar V,et al.Trends in big data analytics[J].Journal of Parallel and Distributed Computing,2014,74(7):2561-2573.

      [4]Lee Yeonhee,Lee Youngseok.Towards scalable internet traffic measurement and analysis with Hadoop[J].ACM SIGCOMM Computer Communication Review,2013,43(1):5-13.

      [5]Edwards M,Rambani A,Zhu Yifeng,et al.Design of Hadoop-based framework for analytics of large synchrophasor datasets[J].Procedia Computer Science,2012,12:254-258.

      [6]Ericson K,Pallickara S.On the performance of high dimensional data clustering and classification algorithms[J].Future Generation Computer Systems,2013,29(4):1024-1034.

      [7]Caruana G,Li Maozhen,Liu Yang.An ontology enhanced parallel SVM for scalable spam filter training[J].Neurocomputing,2013,108:45-57.

      [8]Rio S D,Lopez V,Benitez J M,et al.On the use of MapReduce for imbalanced big data using Random Forest[J].Information Sciences,2014,285:112-137.

      [9]Kwon O,Sim J M.Effects of data set features on the performances of classification algorithms[J].Expert Systems with Applications,2013,40(5):1847-1857.

      [10]張新有,曾華燊,賈磊.入侵檢測(cè)數(shù)據(jù)集KDDCUP99 研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(22):4809-4812.

      [11]Matloff N.R 語(yǔ)言編程藝術(shù)[M].陳堰平,邱怡軒,潘嵐鋒,等譯.北京:機(jī)械工業(yè)出版社,2013.

      [12]Piccolboni A.RHadoop Home[EB/OL].https://github.com/RevolutionAnalytics/RHadoop/wiki,2015-02-13.

      [13]The Apache Software Foundation.Naive Bayes[EB/OL].http://mahout.apache.org/users/classification/naivebayes.html,2014-08-10.

      [14]Zumel N.The Simpler Derivation of Logistic Regression[EB/OL].http://www.win-vector.com/blog/2011/09/the-simpler-derivation-of-logistic-regression/,2014-08-12.

      [15]Mount J.Large Data Logistic Regression(with Example Hadoop Code)[EB/OL].http://www.win-vector.com/blog/2010/12/large-data-logistic-regression-with-examplehadoop-code/,2010-12-26.

      猜你喜歡
      樸素貝葉斯分布式
      隔離樸素
      樸素的安慰(組詩(shī))
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      基于DDS的分布式三維協(xié)同仿真研究
      柞水县| 长乐市| 彩票| 酒泉市| 昔阳县| 深泽县| 江门市| 会理县| 阳原县| 洪湖市| 上饶县| 德兴市| 阳东县| 正镶白旗| 万山特区| 双柏县| 南城县| 梅州市| 抚顺市| 筠连县| 成安县| 临洮县| 庐江县| 福海县| 兴隆县| 凤山市| 宜章县| 铜鼓县| 稷山县| 廊坊市| 青冈县| 西和县| 克拉玛依市| 平远县| 海淀区| 浮梁县| 会同县| 丰都县| 辉县市| 都江堰市| 盐池县|