分布式計(jì)算環(huán)境下的入侵檢測(cè)數(shù)據(jù)分類研究

2015-11-25 02:59:16沈利香

計(jì)算機(jī)與現(xiàn)代化 2015年12期

沈利香，曹國(guó)

(1.常州工學(xué)院計(jì)算機(jī)信息工程學(xué)院，江蘇常州 213002;2.常州工學(xué)院經(jīng)濟(jì)管理學(xué)院，江蘇常州 213002)

0 引言

隨著網(wǎng)絡(luò)的不斷發(fā)展，各個(gè)行業(yè)的相關(guān)數(shù)據(jù)都在飛速地增長(zhǎng)，尤其是在商業(yè)、社會(huì)管理和科研領(lǐng)域［1］。據(jù)估計(jì)，2010 年全球由公司存儲(chǔ)的新數(shù)據(jù)超過(guò)了7 艾字節(jié)(exabytes)，由消費(fèi)者額外存儲(chǔ)的新數(shù)據(jù)則超過(guò)了6 艾字節(jié)?？梢灶A(yù)見未來(lái)隨著公司企業(yè)所獲取的不斷增加的信息數(shù)量和細(xì)節(jié)信息，包括多媒體、社會(huì)媒體和物聯(lián)網(wǎng)的增長(zhǎng)，將會(huì)刺激數(shù)據(jù)的指數(shù)增長(zhǎng)［2］。很多文獻(xiàn)將具有大量數(shù)據(jù)集、增長(zhǎng)迅速并且數(shù)據(jù)類型和來(lái)源多樣的數(shù)據(jù)稱為大數(shù)據(jù)。文獻(xiàn)［3］說(shuō)明了大數(shù)據(jù)分析應(yīng)用的廣泛領(lǐng)域:健康與人類福利、自然與自然過(guò)程、政府及公共部門、商業(yè)經(jīng)濟(jì)系統(tǒng)、社會(huì)網(wǎng)絡(luò)和Internet、計(jì)算和實(shí)驗(yàn)過(guò)程等。

Apache Hadoop 是開源的分布式并行計(jì)算體系，由Java 實(shí)現(xiàn)，提供了一種MapReduce 的并行化編程模式以及Hadoop 分布式文件系統(tǒng)。Hadoop 能夠在大規(guī)模集群環(huán)境中實(shí)現(xiàn)良好的容錯(cuò)計(jì)算和存儲(chǔ)機(jī)制。以Hadoop 為基礎(chǔ)的大數(shù)據(jù)研究正不斷展開。Mahout是一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù)，其中實(shí)現(xiàn)了聚類、分類和推薦系統(tǒng)的算法，可以基于Hadoop 運(yùn)行。Lee Yeonhee［4］等人提出了一種基于Hadoop 的數(shù)據(jù)包分析或者Netflow 追蹤分析解決方案。實(shí)驗(yàn)中使用具有200 個(gè)節(jié)點(diǎn)的Hadoop 測(cè)試床，處理二進(jìn)制文件追蹤文件的讀寫，采用MapReduce 框架分析Netflow、IP、TCP 和HTTP，并且采用Hive 用以簡(jiǎn)化查詢;Matthew Edwards［5］等人提出了基于Hadoop 的一種新系統(tǒng)，對(duì)大型同步數(shù)據(jù)集進(jìn)行分布式并行分析，以解決美國(guó)能源部門的大數(shù)據(jù)分析問(wèn)題;K.Ericson［6］等人對(duì)比了2種云計(jì)算平臺(tái)Hadoop 和Granules 下的4 種聚類算法和2 種分類算法。實(shí)驗(yàn)中使用UCI 機(jī)器學(xué)習(xí)庫(kù)標(biāo)準(zhǔn)數(shù)據(jù)集“the 20 News Groups dataset”，該訓(xùn)練集包含了11 314 個(gè)電子郵件。實(shí)驗(yàn)對(duì)比了在2 個(gè)平臺(tái)下樸素貝葉斯和互補(bǔ)樸素貝葉斯算法的運(yùn)行時(shí)間;G.Caruana［7］等人提出了一種基于MapReduce 的并行化的支持向量機(jī)算法，用于對(duì)大規(guī)模垃圾郵件進(jìn)行過(guò)濾;S.D.Rio［8］等人分析了應(yīng)用隨機(jī)森林分類器處理大數(shù)據(jù)中非平衡數(shù)據(jù)集的幾種技術(shù)的性能，采用了MapReduce 框架，研究發(fā)現(xiàn)在使用隨機(jī)森林算法的情況下，對(duì)應(yīng)于所有的數(shù)據(jù)，沒(méi)有哪種方法的非平衡大數(shù)據(jù)分類比其他的方法都好。另外，對(duì)于同類問(wèn)題，最佳的執(zhí)行方法與實(shí)驗(yàn)中選擇的Mappers 數(shù)量有關(guān)。大多數(shù)情況下，分割數(shù)增加，運(yùn)行時(shí)間也會(huì)提升，但會(huì)使分類準(zhǔn)確性有少量下降。O.Kwon［9］等人以UCI 的標(biāo)準(zhǔn)數(shù)據(jù)為基礎(chǔ)研究了大數(shù)據(jù)集的各個(gè)屬性是如何影響算法的準(zhǔn)確率和運(yùn)行時(shí)間，使用Weka 軟件包中的分類算法進(jìn)行了對(duì)比分析。其實(shí)驗(yàn)結(jié)果表明分析數(shù)據(jù)集的記錄數(shù)和屬性數(shù)對(duì)運(yùn)算時(shí)間有顯著性影響，特征數(shù)量增多會(huì)導(dǎo)致準(zhǔn)確率下降，尤其是非平衡性數(shù)據(jù)在每個(gè)算法中都導(dǎo)致了準(zhǔn)確率的下降。

傳統(tǒng)計(jì)算的整個(gè)算法程序和所有要處理的數(shù)據(jù)都是在同一臺(tái)主機(jī)上以串行計(jì)算方式完成，隨著分析數(shù)據(jù)的增加，計(jì)算對(duì)內(nèi)存、CPU 等資源的使用也迅速變得緊張，單臺(tái)主機(jī)的運(yùn)行性能迅速下降。通常的做法是進(jìn)行數(shù)據(jù)抽取或者聚類，以便選取少量的數(shù)據(jù)作為算法的輸入進(jìn)行分析。KDD99 數(shù)據(jù)集是MIT 林肯實(shí)驗(yàn)室發(fā)布的入侵檢測(cè)數(shù)據(jù)集，不僅是IDS 綜合測(cè)試系統(tǒng)的典范，也是目前學(xué)術(shù)界最有影響力和公信力的入侵檢測(cè)數(shù)據(jù)集［10］。完整的KDD99 數(shù)據(jù)集的訓(xùn)練集有記錄數(shù)為4 898 431，通常使用其中10%的記錄子集，訓(xùn)練集記錄數(shù)為494 021，但在實(shí)際算法分析中，又再?gòu)闹腥〕鲆恍〔糠肿蛹M(jìn)行分析。實(shí)際的入侵檢測(cè)系統(tǒng)中，產(chǎn)生了大量的數(shù)據(jù)，通常的分析文件大小都會(huì)達(dá)到上百兆。因此，傳統(tǒng)的數(shù)據(jù)挖掘方法難以應(yīng)對(duì)大數(shù)據(jù)問(wèn)題，對(duì)入侵檢測(cè)系統(tǒng)進(jìn)行大數(shù)據(jù)分析研究是十分必要的。

為此，本文以Hadoop 和Mahout 為基礎(chǔ)，以完整的KDD99 數(shù)據(jù)集為輸入數(shù)據(jù)，對(duì)樸素貝葉斯并行算法和Logistic 回歸并行算法進(jìn)行分析。

1 入侵檢測(cè)數(shù)據(jù)集KDD99 的預(yù)處理

KDD99 數(shù)據(jù)集的數(shù)據(jù)類型有多種類型，包括數(shù)值型和表示不同類別的字符串型。為了算法的處理，需要將數(shù)據(jù)類型統(tǒng)一為數(shù)值型，字符串型數(shù)據(jù)需要轉(zhuǎn)換成數(shù)值型。對(duì)于第2 列屬性protocol_type 有3 種類別:“icmp”、“tcp”、“udp”，將“icmp”表示為1，“tcp”表示為2，“udp”表示為3。第3 列屬性service有70 種類別，編號(hào)依次為1～70。第4 列屬性flag 有11 種類別。第42 列攻擊類別的屬性中，normal(正常)表示為1;Probe 類別含有子類:“ipsweep”、“nmap”、“portsweep”、“satan”、“saint”、“mscan”，將這些類別統(tǒng)一轉(zhuǎn)換成Probe 表示的2;Dos 類別含有子類10 種轉(zhuǎn)換成3;U2R 含有子類8 種轉(zhuǎn)換成4;R2L 含有子類15 種轉(zhuǎn)換成5，以此方式對(duì)原始KDD99 數(shù)據(jù)進(jìn)行統(tǒng)一轉(zhuǎn)換。預(yù)處理利用R 語(yǔ)言的高效數(shù)據(jù)處理能力。

R 是一種針對(duì)統(tǒng)計(jì)分析和數(shù)據(jù)科學(xué)的功能全面的開源統(tǒng)計(jì)語(yǔ)言［11］。RHadoop 是5 個(gè)R 包的集合，它們?cè)试S用戶使用R 對(duì)Hadoop 進(jìn)行管理和分析數(shù)據(jù)［12］。本文使用RHadoop 實(shí)現(xiàn)從R 中向Hadoop 文件系統(tǒng)傳遞文件。

2 樸素貝葉斯算法分析KDD99 數(shù)據(jù)

本文的樸素貝葉斯算法分析KDD99 數(shù)據(jù)的主要步驟為:

Step1 使用R 語(yǔ)言預(yù)處理原始KDD99 數(shù)據(jù)，得到文本格式的數(shù)據(jù)文件;

Step2 處理后的數(shù)據(jù)文件通過(guò)RHadoop 構(gòu)架中的rhdfs 復(fù)制到Hadoop 中的HDFS;

Step3 Hadoop 中的Map 處理step2 中的數(shù)據(jù)文件，將文本格式數(shù)據(jù)轉(zhuǎn)化為向量格式，輸出＜label，vector ＞，具體處理見2.1 節(jié);

Step4 Hadoop 中的Reduce 處理Map 的輸出＜label，vector ＞，建立樸素貝葉斯模型分類器，具體處理見2.2 節(jié);

Step5 根據(jù)step4 建立的分類器分類測(cè)試集數(shù)據(jù)，得到分類結(jié)果。

2.1 文本格式轉(zhuǎn)化為向量格式

Hadoop 中的數(shù)據(jù)存儲(chǔ)和計(jì)算過(guò)程中的數(shù)據(jù)傳輸都需要將處理數(shù)據(jù)序列化，即將計(jì)算中的對(duì)象轉(zhuǎn)換為字節(jié)流，而Mahout 中的樸素貝葉斯算法的輸入要求為向量化數(shù)據(jù)。為此，本文使用Map 函數(shù)處理R 語(yǔ)言預(yù)處理產(chǎn)生的數(shù)據(jù)文件。對(duì)于每一行的數(shù)據(jù)，將其中的41 個(gè)屬性值轉(zhuǎn)換為向量類型的value 值，key 值為同一行屬性值對(duì)應(yīng)的類別號(hào)，得到Map 函數(shù)的輸出＜label，vector ＞。

2.2 樸素貝葉斯訓(xùn)練模型的建立與數(shù)據(jù)分類

在Reduce 處理中，以Map 的輸出＜label，vector ＞為輸入，計(jì)算了樣本X 歸屬各個(gè)類別的后驗(yàn)概率，然后基于Mahout 中的樸素貝葉斯算法［13］，建立樸素貝葉斯模型。根據(jù)建立的模型，創(chuàng)建樸素貝葉斯分類器對(duì)數(shù)據(jù)進(jìn)行分類。最終得到的是m 個(gè)類別對(duì)應(yīng)的后驗(yàn)概率，取后驗(yàn)概率最大值對(duì)應(yīng)的類別為對(duì)應(yīng)樣本的類別。對(duì)分類結(jié)果進(jìn)行分析，得到分析數(shù)據(jù)集的混淆矩陣和分類準(zhǔn)確率。

3 Logistic 回歸分析KDD99 數(shù)據(jù)

Logistic 回歸［14］是最廣泛使用的用于分類數(shù)據(jù)的方法，其作出以多個(gè)自變量估計(jì)因變量的Logistic回歸方程，屬于概率型非線性回歸。Logistic 回歸模型設(shè)定觀測(cè)值y 的對(duì)數(shù)概率可以表達(dá)成有K 個(gè)屬性的自變量X 的線性函數(shù):

設(shè)置x0=1，式(1)中添加了常數(shù)項(xiàng)b0。等式兩邊取指數(shù)運(yùn)算，得到公式:

式(2)說(shuō)明Logistic 模型是輸入的乘積。本文中使用多分類的Logistic 回歸并行算法［15］來(lái)對(duì)比分析KDD99 數(shù)據(jù)。

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境配置

Hadoop 平臺(tái)下的程序運(yùn)行效率主要由算法性能、I/O 操作、網(wǎng)絡(luò)數(shù)據(jù)傳輸、集群節(jié)點(diǎn)硬件性能等因素影響。本實(shí)驗(yàn)設(shè)計(jì)分別在偽分布式模式和分布式模式分析KDD99 數(shù)據(jù)。實(shí)驗(yàn)中偽分布式模式(pseudo-distributed mode)和分布式模式中的Master 和Slave 都是Ubuntu14 的VMware 虛擬機(jī)，配置為1 G內(nèi)存和1 個(gè)CPU。Hadoop1.2 的配置:數(shù)據(jù)分塊單位大小為64 M，最大Map 數(shù)和最大Reduce 數(shù)為均為2。來(lái)自KDD99 數(shù)據(jù)集的7 個(gè)文件，大小依次以68 M 左右遞增，基本對(duì)應(yīng)數(shù)據(jù)分塊單位，最后第7 個(gè)文件包含了完整的KDD99 數(shù)據(jù)集，具體如表1 所示。

表1 分析的7 個(gè)文件

偽分布式模式實(shí)際上是將Master 和Slave 安裝在同一臺(tái)機(jī)器上，即NameNode(JobTracker)和DataNode(TaskTracker)在同一臺(tái)機(jī)器上，兩者之間的數(shù)據(jù)傳輸不需要經(jīng)過(guò)網(wǎng)絡(luò)傳輸。因此，可以更好地比較分析相同KDD99 數(shù)據(jù)的不同算法的性能。分布式模式下，數(shù)據(jù)分塊以及運(yùn)算結(jié)果在網(wǎng)絡(luò)中傳輸，同時(shí)根據(jù)Hadoop 的設(shè)置，一個(gè)數(shù)據(jù)分塊可以被復(fù)制多次，默認(rèn)為3，本實(shí)驗(yàn)設(shè)置為2。在數(shù)據(jù)分塊大小為64 M 的情況下，7 個(gè)KDD 分析文件分別對(duì)應(yīng)2 個(gè)分塊到8 個(gè)分塊。以偽分布式模式的分析為基礎(chǔ)，再進(jìn)一步在分布式模式下進(jìn)行分析，可以更有效地發(fā)掘分布式并行算法在處理KDD99 數(shù)據(jù)時(shí)的特點(diǎn)。

4.2 實(shí)驗(yàn)結(jié)果分析

表2 記錄了在偽分布式模式下，樸素貝葉斯并行算法和Logistic 回歸并行算法的分類準(zhǔn)確率和運(yùn)行時(shí)間。表3 記錄了在分布式模式(集群包括1 個(gè)Master，2 個(gè)Slave)下2 種算法的分類準(zhǔn)確率和運(yùn)行時(shí)間。表中NAN 表示算法運(yùn)算出現(xiàn)異常，未得到結(jié)果。

Logistic 回歸分析中的指標(biāo)是訓(xùn)練集的分類準(zhǔn)確率和運(yùn)行時(shí)間。

表3 2 個(gè)Slave，1 個(gè)Master 情況下的運(yùn)行

根據(jù)表2 和表3 的數(shù)據(jù)，繪出相應(yīng)的分類準(zhǔn)確率對(duì)比圖1，偽分布式模式下算法運(yùn)行時(shí)間如圖2 所示，分布式模式下算法運(yùn)行時(shí)間如圖3 所示(1 個(gè)Master，2 個(gè)Slaves)。算法在偽分布式模式和分布式模式下的分類準(zhǔn)確率基本是一樣的，但是在時(shí)間上的差異性較大。從分類準(zhǔn)確率的圖1 中可以看出樸素貝葉斯算法比較穩(wěn)定，分類準(zhǔn)確率隨著訓(xùn)練樣本的增加逐漸增加，具有較高的分類準(zhǔn)確率，Logistic 回歸算法則不是很穩(wěn)定，隨著訓(xùn)練樣本的增加，分類準(zhǔn)確率存在一定的波動(dòng)。

圖1 樸素貝葉斯與Logistic 回歸的分類結(jié)果對(duì)比

圖2 2 種算法在偽分布式模式下的運(yùn)行時(shí)間

圖3 2 種算法在分布式模式下的運(yùn)行時(shí)間

算法在偽分布式模式下的運(yùn)行實(shí)際上是數(shù)據(jù)沒(méi)有經(jīng)過(guò)網(wǎng)絡(luò)傳輸，也就沒(méi)有了網(wǎng)絡(luò)傳輸分析數(shù)據(jù)產(chǎn)生的時(shí)延，但是運(yùn)算會(huì)在一臺(tái)主機(jī)上運(yùn)行，因此沒(méi)有發(fā)揮出Hadoop 平臺(tái)的并行計(jì)算的優(yōu)勢(shì)。分布式模式下，實(shí)驗(yàn)使用了2 個(gè)從主機(jī)(Slave)，算法運(yùn)行時(shí)間比偽分布式模式長(zhǎng)。圖2 與圖3 中的直線是在其他因素不變的情況下，運(yùn)行時(shí)間與文件大小關(guān)系的線性回歸直線，偽分布式模式下，各個(gè)實(shí)驗(yàn)點(diǎn)基本與直線吻合，而分布式模式下則分離較遠(yuǎn)，可見網(wǎng)絡(luò)數(shù)據(jù)傳輸對(duì)運(yùn)行時(shí)間的影響明顯。算法性能方面，樸素貝葉斯算法的耗時(shí)明顯比Logistic 算法要高效很多，偽分布式模式下的結(jié)果更為直觀。

文獻(xiàn)［4］的研究顯示，隨著Hadoop 分布式系統(tǒng)集群中主機(jī)數(shù)量的增加，處理大數(shù)據(jù)的整體運(yùn)行時(shí)間會(huì)顯著減少，預(yù)見隨著分布式環(huán)境中運(yùn)算主機(jī)數(shù)量的增多，并行計(jì)算的優(yōu)勢(shì)會(huì)彌補(bǔ)數(shù)據(jù)網(wǎng)絡(luò)傳輸時(shí)延的問(wèn)題，從而使得整體計(jì)算時(shí)間減少，整體效率提高，優(yōu)于串行方式下的算法計(jì)算。因此，基于之前的對(duì)比實(shí)驗(yàn)，本文選擇樸素貝葉斯算法進(jìn)行進(jìn)一步的分析。將實(shí)驗(yàn)用的從主機(jī)數(shù)量逐步增加，同時(shí)，將最大Map 數(shù)和最大Reduce 數(shù)均改為5，文件塊復(fù)制數(shù)為2。從主機(jī)數(shù)量選擇4 臺(tái)、6 臺(tái)、8 臺(tái)、10 臺(tái)，集群拓?fù)淙鐖D4所示。表4 列出了在不同數(shù)量從主機(jī)的情況下，對(duì)7個(gè)KDD 文件進(jìn)行分類分析的樸素貝葉斯算法平均運(yùn)行時(shí)間。圖5 從曲線圖角度繪制，“Pseudo”表示偽分布式模式下的數(shù)據(jù)。圖5 顯示出多個(gè)從主機(jī)的平均運(yùn)行時(shí)間明顯少于偽分布模式。雖然實(shí)際運(yùn)算中，算法運(yùn)行時(shí)間存在一定的波動(dòng)性，但圖6 從條形圖的角度顯示出隨著從主機(jī)數(shù)量的增加，整體的平均運(yùn)行時(shí)間有逐步降低的趨勢(shì)。分析的數(shù)據(jù)集越大，這種運(yùn)行時(shí)間變化趨勢(shì)越明顯。因此，對(duì)于不斷增加的入侵檢測(cè)數(shù)據(jù)，采用并行分布式算法具有應(yīng)對(duì)數(shù)據(jù)持續(xù)大規(guī)模增長(zhǎng)的能力。在集群并行運(yùn)算的情況下，對(duì)于完整的包含4 898 431 條記錄的KDD 數(shù)據(jù)集可以在7 分鐘之內(nèi)完成分類，并且有較高的分類準(zhǔn)確率。此點(diǎn)表明在并行計(jì)算的平臺(tái)下，可以對(duì)入侵檢測(cè)數(shù)據(jù)進(jìn)行實(shí)時(shí)在線分析的進(jìn)一步研究。

圖4 多臺(tái)從主機(jī)的集群拓?fù)?/p>

表4 多臺(tái)從主機(jī)運(yùn)行樸素貝葉斯算法的時(shí)間(s)

圖5 多臺(tái)從主機(jī)運(yùn)行時(shí)間(曲線圖)對(duì)比

圖6 多臺(tái)從主機(jī)運(yùn)行時(shí)間(條形圖)對(duì)比

5 結(jié)束語(yǔ)

大數(shù)據(jù)分析正面臨著許多的挑戰(zhàn)，網(wǎng)絡(luò)領(lǐng)域的大數(shù)據(jù)分析尤其重要，本文對(duì)入侵檢測(cè)的完整KDD99數(shù)據(jù)集進(jìn)行了分析，實(shí)驗(yàn)表明在Hadoop 平臺(tái)下，樸素貝葉斯算法可以取得比Logistic 回歸更好的運(yùn)行效率。集群運(yùn)算平臺(tái)下的樸素貝葉斯算法可以有效地分析入侵檢測(cè)大數(shù)據(jù)。可以考慮通過(guò)降維的處理，刪除或者合并部分KDD99 屬性，使得剩余屬性間的相關(guān)性近可能地小，更好地符合貝葉斯假設(shè)，從而進(jìn)一步提高樸素貝葉斯算法的分析結(jié)果。本文的分析結(jié)果可以為在線動(dòng)態(tài)的入侵檢測(cè)數(shù)據(jù)分析和網(wǎng)絡(luò)系統(tǒng)安全評(píng)估提供良好的基礎(chǔ)。

［1］Chen C L P，Zhang Chun-yang.Data-intensive applications，challenges，techniques and technologies:A survey on big data［J］.Information Sciences，2014，275:314-347.

［2］Manyika J，Chui M，Brown B，et al.Big Data:The Next Frontier For Innovation，Competition，and Productivity［EB/OL］.http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation，2014-10-30.

［3］Kambatla K，Kollias G，Kumar V，et al.Trends in big data analytics［J］.Journal of Parallel and Distributed Computing，2014，74(7):2561-2573.

［4］Lee Yeonhee，Lee Youngseok.Towards scalable internet traffic measurement and analysis with Hadoop［J］.ACM SIGCOMM Computer Communication Review，2013，43(1):5-13.

［5］Edwards M，Rambani A，Zhu Yifeng，et al.Design of Hadoop-based framework for analytics of large synchrophasor datasets［J］.Procedia Computer Science，2012，12:254-258.

［6］Ericson K，Pallickara S.On the performance of high dimensional data clustering and classification algorithms［J］.Future Generation Computer Systems，2013，29(4):1024-1034.

［7］Caruana G，Li Maozhen，Liu Yang.An ontology enhanced parallel SVM for scalable spam filter training［J］.Neurocomputing，2013，108:45-57.

［8］Rio S D，Lopez V，Benitez J M，et al.On the use of MapReduce for imbalanced big data using Random Forest［J］.Information Sciences，2014，285:112-137.

［9］Kwon O，Sim J M.Effects of data set features on the performances of classification algorithms［J］.Expert Systems with Applications，2013，40(5):1847-1857.

［10］張新有，曾華燊，賈磊.入侵檢測(cè)數(shù)據(jù)集KDDCUP99 研究［J］.計(jì)算機(jī)工程與設(shè)計(jì)，2010，31(22):4809-4812.

［11］Matloff N.R 語(yǔ)言編程藝術(shù)［M］.陳堰平，邱怡軒，潘嵐鋒，等譯.北京:機(jī)械工業(yè)出版社，2013.

［12］Piccolboni A.RHadoop Home［EB/OL］.https://github.com/RevolutionAnalytics/RHadoop/wiki，2015-02-13.

［13］The Apache Software Foundation.Naive Bayes［EB/OL］.http://mahout.apache.org/users/classification/naivebayes.html，2014-08-10.

［14］Zumel N.The Simpler Derivation of Logistic Regression［EB/OL］.http://www.win-vector.com/blog/2011/09/the-simpler-derivation-of-logistic-regression/，2014-08-12.

［15］Mount J.Large Data Logistic Regression(with Example Hadoop Code)［EB/OL］.http://www.win-vector.com/blog/2010/12/large-data-logistic-regression-with-examplehadoop-code/，2010-12-26.