• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Netflow的流量分類(lèi)方法研究

      2014-05-25 00:33:30錢(qián)亞冠
      關(guān)鍵詞:數(shù)據(jù)流決策樹(shù)機(jī)器

      錢(qián)亞冠

      (浙江科技學(xué)院 理學(xué)院,杭州 310023)

      基于Netflow的流量分類(lèi)方法研究

      錢(qián)亞冠

      (浙江科技學(xué)院 理學(xué)院,杭州 310023)

      針對(duì)Netflow提供的流量信息有限的問(wèn)題,在Netflow的基本信息基礎(chǔ)上構(gòu)建更豐富的特征空間,通過(guò)機(jī)器學(xué)方法(決策樹(shù)、樸素Bayes方法和Bayes網(wǎng)絡(luò))研究了Netflow用于流量分類(lèi)的可行性。實(shí)驗(yàn)結(jié)果表明,決策樹(shù)方法在Netflow數(shù)據(jù)上具有良好的分類(lèi)效果;同時(shí)結(jié)合Netflow的廣泛性,提出的方法具有良好的實(shí)用意義和推廣價(jià)值。

      Netflow;機(jī)器學(xué)習(xí);流量分類(lèi)

      隨著互聯(lián)網(wǎng)應(yīng)用的不斷增多與傳輸帶寬的持續(xù)增加,使得互聯(lián)網(wǎng)變得更加復(fù)雜,于是對(duì)互聯(lián)網(wǎng)管理提出了更高的要求。因此,需要更加有效的網(wǎng)絡(luò)管理工具實(shí)現(xiàn)對(duì)應(yīng)用流量的監(jiān)控,而流量分類(lèi)則是其中的核心技術(shù)。精確識(shí)別流量的應(yīng)用類(lèi)型,對(duì)實(shí)現(xiàn)分類(lèi)計(jì)費(fèi)、流量工程、容量規(guī)劃等管理具有十分重要的意義。

      基于TCP端口號(hào)的傳統(tǒng)分類(lèi)方法在P2P應(yīng)用出現(xiàn)后受到了嚴(yán)峻的挑戰(zhàn)。P2P應(yīng)用采用隨機(jī)端口號(hào)的方法,甚至采用http協(xié)議的80端口躲避端口號(hào)的檢測(cè)。而深度包檢測(cè)(deep packet inspection,DPI)技術(shù)又遇到數(shù)據(jù)加密的難題。為了克服上述困難,近幾年的研究工作開(kāi)始轉(zhuǎn)向流量的統(tǒng)計(jì)特征的研究[1-2],以期發(fā)現(xiàn)具體應(yīng)用的特定流量模式[3-5],從而確定應(yīng)用類(lèi)型。

      目前,這類(lèi)基于統(tǒng)計(jì)特征的方法通常需要很多的統(tǒng)計(jì)變量,有的甚至達(dá)到數(shù)百個(gè)[6]。對(duì)于實(shí)時(shí)性要求很高的網(wǎng)絡(luò)管理任務(wù)來(lái)說(shuō),這類(lèi)復(fù)雜的計(jì)算模型往往會(huì)嚴(yán)重影響管理效率。如何在保持較高的分類(lèi)正確率的情況下獲得精簡(jiǎn)的特征空間?這個(gè)問(wèn)題啟發(fā)人們研究是否可以利用Netflow信息進(jìn)行流量分類(lèi)[7]。筆者發(fā)現(xiàn),思科的Netflow目前已得到廣泛的部署,并已成為IETF(intornet engineering task force)的標(biāo)準(zhǔn)。Netflow在數(shù)據(jù)流(flow)級(jí)別上實(shí)現(xiàn)了信息的匯集,包括源/目的IP地址、源/目的端口、字節(jié)總數(shù)、數(shù)據(jù)包總數(shù)等。由于Netflow中有關(guān)流量的信息有限,因此研究人員一直認(rèn)為Netflow無(wú)法為分類(lèi)提供足夠的特征空間。而筆者的研究表明,利用Netflow進(jìn)行流量分類(lèi)具有3個(gè)優(yōu)勢(shì):一是Netflow已被廣泛部署在思科的路由器設(shè)備上,因此,采集數(shù)據(jù)變得非常方便,而不需要專(zhuān)門(mén)的流量采集設(shè)備;二是Netflow已經(jīng)將數(shù)據(jù)包級(jí)的信息匯聚成了流級(jí)信息,可以免去大量的數(shù)據(jù)預(yù)處理工作;三是Netflow盡管提供的信息有限,但研究表明它完全可以支撐分類(lèi)工作,并且可以滿(mǎn)足實(shí)時(shí)性的要求。本研究正是基于上述認(rèn)識(shí),利用機(jī)器學(xué)習(xí)的方法展開(kāi)對(duì)Netflow數(shù)據(jù)的分類(lèi)研究。

      1 相關(guān)工作

      近幾年,機(jī)器學(xué)習(xí)(machine learning,ML)方法開(kāi)始被應(yīng)用于流量分類(lèi)領(lǐng)域,以便克服基于端口的方法及DPI方法的缺陷。機(jī)器學(xué)習(xí)是通過(guò)人工智能的學(xué)習(xí)理論,從大量的數(shù)據(jù)中獲取知識(shí),建立相應(yīng)的分類(lèi)模型,從而使模型具有對(duì)未知數(shù)據(jù)的預(yù)測(cè)(分類(lèi))能力。在流量分類(lèi)中,利用已經(jīng)獲取的大量流量數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí),使得模型具有對(duì)未知流量的識(shí)別能力。目前,機(jī)器學(xué)習(xí)主要有基于監(jiān)督的和無(wú)監(jiān)督的學(xué)習(xí)方法2類(lèi)。本研究采用基于監(jiān)督的學(xué)習(xí)方法,即事先需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)識(shí),以便指導(dǎo)模型的建立。

      目前,已有相關(guān)工作利用有監(jiān)督的機(jī)器學(xué)習(xí)方法應(yīng)用于互聯(lián)網(wǎng)流量分類(lèi)[8-15],但這些工作均對(duì)數(shù)據(jù)包形式的流量進(jìn)行處理,需要大量的模型訓(xùn)練時(shí)間,因此,很難真正部署到營(yíng)運(yùn)網(wǎng)絡(luò)中。文獻(xiàn)[6,16]等提出基于數(shù)據(jù)流(flow)的特征進(jìn)行分類(lèi)研究。數(shù)據(jù)流的特征包括流的持續(xù)時(shí)間、流的字節(jié)數(shù)、流的數(shù)據(jù)包數(shù)、流內(nèi)的包到達(dá)間隔等。通過(guò)將數(shù)據(jù)包的信息進(jìn)一步匯聚到數(shù)據(jù)流級(jí)別,可以顯著減少數(shù)據(jù)量,從而有效地減少機(jī)器學(xué)習(xí)的模型訓(xùn)練時(shí)間。但是,目前數(shù)據(jù)流級(jí)別的分類(lèi)方法采用的特征數(shù)仍然很多,文獻(xiàn)[16]提出了248個(gè)可用的流特征,顯著地增加了模型建立的復(fù)雜性。由此啟發(fā)人們思考是否可以采用較少的特征來(lái)實(shí)現(xiàn)流級(jí)別的分類(lèi)。最近研究發(fā)現(xiàn)Netflow具有流量特征空間簡(jiǎn)單,又與當(dāng)前網(wǎng)絡(luò)管理兼容的優(yōu)點(diǎn),非常適合營(yíng)運(yùn)網(wǎng)絡(luò)的流量分類(lèi)。據(jù)已有資料,目前還沒(méi)有在Netflow上進(jìn)行有效的工作。

      2 基于Netflow的流量特征

      Netflow是思科公司為了收集網(wǎng)絡(luò)流量信息而設(shè)計(jì)開(kāi)發(fā)的一種網(wǎng)絡(luò)協(xié)議,目前,它已成為IETF標(biāo)準(zhǔn)。Netflow將具有相同五元組(源IP地址,目的IP地址,源端口,目的端口,協(xié)議號(hào))的數(shù)據(jù)包歸為同一數(shù)據(jù)流。Netflow的基本工作原理是:利用標(biāo)準(zhǔn)的交換模式處理數(shù)據(jù)流的第一個(gè)IP包數(shù)據(jù),生成Netflow緩存;隨后,同樣的數(shù)據(jù)基于緩存信息在同一個(gè)數(shù)據(jù)流中進(jìn)行傳輸,不再匹配相關(guān)的訪(fǎng)問(wèn)控制等策略,Netflow緩存收集隨后數(shù)據(jù)流的統(tǒng)計(jì)信息。支持Netflow協(xié)議的路由器或交換機(jī)可以收集自身所有端口的流量統(tǒng)計(jì)信息,并以Netflow記錄的形式發(fā)送給服務(wù)器,用以分析處理。

      Netflow已經(jīng)發(fā)展到第10版,但目前應(yīng)用最廣泛的是第5版,該版本被限制于IPv4的流量??紤]到目前流量仍然以IPv4為主,本研究采用第5版的Netflow數(shù)據(jù),使用的Netflow信息見(jiàn)表1。

      從表1可以看出,Netflow記錄中可用于分類(lèi)的信息非常少,正因?yàn)樾畔⒂邢蓿詻](méi)有引起研究者對(duì)Netflow在流量分類(lèi)中的重視,甚至從根本上否定了它的意義。但筆者發(fā)現(xiàn),從上述的基本信息中可以進(jìn)一步推導(dǎo)出新的特征信息,如平均字節(jié)速率(B/s),平均數(shù)據(jù)包速率(Packets/s),平均數(shù)據(jù)包長(zhǎng)度等,從而大大豐富了流量特征空間。

      表1 Netflow記錄中可用于分類(lèi)的信息Table 1 Information of Netflow record used in classification

      3 基于機(jī)器學(xué)習(xí)的流量分類(lèi)方法

      機(jī)器學(xué)習(xí)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。因此,將機(jī)器學(xué)習(xí)中的有監(jiān)督方法應(yīng)用于流量分類(lèi)中,可望獲得良好的分類(lèi)效果。有監(jiān)督學(xué)習(xí)是指從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù),當(dāng)新的數(shù)據(jù)到來(lái)時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果。有監(jiān)督學(xué)習(xí)的訓(xùn)練集需要事先標(biāo)注好分類(lèi)標(biāo)簽,用以指導(dǎo)機(jī)器學(xué)習(xí)。本研究采用樸素Bayes方法、Bayes網(wǎng)絡(luò)和決策樹(shù)算法對(duì)Netflow流量數(shù)據(jù)進(jìn)行分類(lèi)研究。

      3.1 樸素Bayes方法

      樸素Bayes方法源于概率論中的著名Bayes公式:

      式(1)中:H―假設(shè);X―證據(jù);P(H|X)―后驗(yàn)概率;P(H)―先驗(yàn)概率。

      樸素Bayes分類(lèi)方法分類(lèi)原理:

      1)假設(shè)D是用于訓(xùn)練的Netflow流量數(shù)據(jù)集合,X是訓(xùn)練集合的實(shí)例,X={x1,x2,…,xn},也稱(chēng)為一個(gè)特征向量,其中xn為分類(lèi)標(biāo)簽。

      2)又假設(shè)有m個(gè)流量分類(lèi),如P2P,http等,標(biāo)記為C1,C2,…,Cm。給定一個(gè)數(shù)據(jù)h流實(shí)例X,預(yù)測(cè)具有最大后驗(yàn)概率的類(lèi),即預(yù)測(cè)X屬于類(lèi)Ci當(dāng)且僅當(dāng)

      3.2 Bayes網(wǎng)絡(luò)

      圖1 流量分類(lèi)的Bayes網(wǎng)絡(luò)Fig.1 Bayes networks applied in traffic classification

      樸素Bayes方法假定特征之間可以有條件的獨(dú)立,用于簡(jiǎn)化計(jì)算。當(dāng)該假設(shè)成立時(shí),樸素Bayes方法可獲得很好的分類(lèi)精度。但在實(shí)踐中,特征之間往往可能存在依賴(lài)關(guān)系。Bayes網(wǎng)絡(luò)為克服這一不足,允許在特征子集之間定義條件獨(dú)立性,并提供一種因果關(guān)系的圖模型來(lái)進(jìn)行學(xué)習(xí)(圖1)。

      Bayes網(wǎng)絡(luò)由一個(gè)有向無(wú)環(huán)圖和條件概率表構(gòu)成。網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)表示一個(gè)隨機(jī)變量,可以是連續(xù)或離散值。每條有向弧表示一個(gè)概率依賴(lài),連接的節(jié)點(diǎn)分別稱(chēng)為雙親和后代。每個(gè)變量關(guān)聯(lián)著一個(gè)條件概率表,P(Y|parents(Y)),其中parents(Y)是Y的雙親。設(shè)變量X={x1,x2,…,xn},每個(gè)變量有條件的獨(dú)立于網(wǎng)絡(luò)中的非后代,可得它的聯(lián)合概率:

      式(2)中:P(x1,x2,…,xn)-X的某個(gè)特征組合的概率。

      3.3 決策樹(shù)方法

      決策樹(shù)是一種基于判定的樹(shù)結(jié)構(gòu),樹(shù)中的每個(gè)分支節(jié)點(diǎn)表示在一個(gè)特征上的測(cè)試判定,而每個(gè)分支則表示一個(gè)測(cè)試判定的結(jié)果輸出。每個(gè)葉節(jié)點(diǎn)則表示最終的輸出,即分類(lèi)標(biāo)簽。決策樹(shù)從提出開(kāi)始,已經(jīng)產(chǎn)生了3種經(jīng)典的算法:ID3,C4.5和CART,這些算法均采用貪心策略,自頂向下遞歸構(gòu)造一棵決策樹(shù)。

      算法的核心思想是通過(guò)某種特征選擇度量(如信息增益),選擇“最佳”特征,將訓(xùn)練集合D分裂,每個(gè)特征值將產(chǎn)生一個(gè)分裂子集Di。遞歸地選擇剩余候選特征中的“最佳”特征,繼續(xù)將分裂子集Di進(jìn)行分裂,直到獲得一個(gè)分類(lèi)標(biāo)號(hào)均相同(或占絕對(duì)優(yōu)勢(shì))的子集。不同的決策樹(shù)算法之間的差別在于創(chuàng)建樹(shù)時(shí)的特征選擇度量和剪枝策略。一旦一棵決策樹(shù)從訓(xùn)練集合中構(gòu)造成功,它就可以用來(lái)對(duì)未知實(shí)例進(jìn)行預(yù)測(cè)分類(lèi)。該過(guò)程非常直觀(guān)和高效,從決策樹(shù)的根節(jié)點(diǎn)出發(fā),自頂向下沿著某個(gè)路徑上的特征進(jìn)行測(cè)試,直到到達(dá)葉節(jié)點(diǎn)(分類(lèi)標(biāo)簽)。

      4 Netflow數(shù)據(jù)集

      從浙江大學(xué)校園網(wǎng)中心的某臺(tái)路由器上獲得了Netflow數(shù)據(jù),共計(jì)37 583條數(shù)據(jù)流,并利用DPI工具L7Filter對(duì)數(shù)據(jù)流的應(yīng)用類(lèi)型進(jìn)行了標(biāo)識(shí)。共標(biāo)識(shí)了7種應(yīng)用類(lèi)型:http,bittorrent,ssl,pop3,edonkey,skype和smtp。各種應(yīng)用的數(shù)據(jù)流比例如表2所示。從表2可以看出,http流量在字節(jié)總數(shù)上占絕對(duì)優(yōu)勢(shì),這主要由于目前視頻共享應(yīng)用利用http協(xié)議傳輸短視頻內(nèi)容?;赑2P技術(shù)的bittorrent居第二大流量主體,盡管只有4.99%,但每個(gè)數(shù)據(jù)流的平均字節(jié)總量卻非常大,遠(yuǎn)超過(guò)http流量。

      由表3可以明顯發(fā)現(xiàn),bittorren和edonkey這2種P2P應(yīng)用每個(gè)流產(chǎn)生的字節(jié)流量最大,具有大象流(elephant flow)的特征。從網(wǎng)絡(luò)管理的角度看,這種大象流對(duì)資源的占用很大,因此,識(shí)別該類(lèi)流量具有十分重要的意義。

      表2 各種應(yīng)用類(lèi)型在數(shù)據(jù)集中的比重(以字節(jié)計(jì)算)Table 2 Percentage of each application in traffic dataset(in bytes)

      表3 各種應(yīng)用類(lèi)型在數(shù)據(jù)集中的總字節(jié)數(shù)與數(shù)據(jù)流平均字節(jié)數(shù)的對(duì)比Table 3 Comparison of total bytes and mean bytes of each application in traffic dataset

      5 研究方法與實(shí)驗(yàn)結(jié)果

      采用樸素Bayes方法、Bayes網(wǎng)絡(luò)和決策樹(shù)算法對(duì)Netflow數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)研究,具體研究方案如下:

      根據(jù)數(shù)據(jù)流數(shù)量的遞增次序,分別設(shè)定6個(gè)訓(xùn)練數(shù)據(jù)集合:數(shù)量從3 000、5 000遞增到21 000,集合內(nèi)容上前者分別是后者的子集,呈包含關(guān)系,余下16 000個(gè)數(shù)據(jù)流作為測(cè)試集合。分別在6個(gè)訓(xùn)練集上用樸素Bayes、Bayes網(wǎng)絡(luò)和決策樹(shù)C4.5算法訓(xùn)練模型,并用同一測(cè)試集測(cè)試,分別獲得圖2中3種方法的分類(lèi)精度比較結(jié)果。

      圖2 3種不同機(jī)器學(xué)方法的分類(lèi)精度比較Fig.2 Comparison of precision among three machine learning methods

      從圖2(a)中可以發(fā)現(xiàn),隨著訓(xùn)練集合的增大,決策樹(shù)方法的分類(lèi)精度逐步提高。http,pop3和ssl的分類(lèi)精度在訓(xùn)練集超過(guò)9 000條記錄后,提高不再明顯,但均已超過(guò)95%的正確率。smtp與bittorrent隨著訓(xùn)練集的增大,分類(lèi)精度提升迅速,在訓(xùn)練集合達(dá)到21 000條記錄時(shí)已超過(guò)98%的準(zhǔn)確率。skype與edonkey雖然隨著訓(xùn)練集的增大,精度也得到提高,但提高速度不大。在21 000條訓(xùn)練記錄時(shí),skype接近70%,而edonkey才達(dá)到40%的正確率。

      圖2(b)顯示了樸素Bayes方法在不同訓(xùn)練集上的分類(lèi)精度。從中可以看出,樸素Bayes方法對(duì)http應(yīng)用的分類(lèi)非常有效,只需3 000條Netflow記錄就可以實(shí)現(xiàn)大于90%的正確率。但對(duì)于其余應(yīng)用的分類(lèi)效果明顯不足,尤其對(duì)于ssl,smtp和skype,其分類(lèi)精度隨著訓(xùn)練集的增大幾乎沒(méi)有提升。而bittorrent與edonkey雖有提升,但提升速度緩慢。

      圖2(c)顯示的是Bayes網(wǎng)絡(luò)的分類(lèi)效果??梢悦黠@發(fā)現(xiàn),對(duì)于http,bittorrent,pop3和edonkey這4類(lèi)應(yīng)用,Bayes網(wǎng)絡(luò)可以在較小的訓(xùn)練集上達(dá)到大于90%的分類(lèi)精度。與決策樹(shù)相比,在訓(xùn)練集容量達(dá)到21 000條記錄時(shí),http,bittorrent,pop3這3類(lèi)應(yīng)用的分類(lèi)精度均可在95%以上,但edonkey在決策樹(shù)下分類(lèi)效率明顯不及Bayes網(wǎng)絡(luò)??梢?jiàn),Bayes網(wǎng)絡(luò)對(duì)于P2P應(yīng)用(bittorrent,edonkey)的區(qū)分能力優(yōu)于決策樹(shù)方法。在ssl,smtp和skype應(yīng)用上,Bayes網(wǎng)絡(luò)的分類(lèi)能力卻不及決策樹(shù)方法。

      綜上所述,決策樹(shù)方法盡管在小的訓(xùn)練集下分類(lèi)效率不及Bayes網(wǎng)絡(luò),但從圖2(a)中可以發(fā)現(xiàn)隨著訓(xùn)練集合容量的增大,各種應(yīng)用的分類(lèi)精度呈現(xiàn)不斷上升的趨勢(shì)。而B(niǎo)ayes網(wǎng)絡(luò)在skype,smtp和ssl應(yīng)用上的提升趨勢(shì)卻不是十分顯著??梢?jiàn),決策樹(shù)方法在3種方法中具有較好的優(yōu)勢(shì)。

      除了從分類(lèi)精度上對(duì)上述3種方法進(jìn)行了比較外,還從模型的訓(xùn)練時(shí)間上進(jìn)行了對(duì)比(圖3)。從圖3中可以發(fā)現(xiàn),樸素Bayes方法的模型訓(xùn)練時(shí)間是最短的,在訓(xùn)練集合增大到21 000條記錄時(shí),訓(xùn)練時(shí)間仍未超過(guò)0.5 s。決策樹(shù)方法與Bayes網(wǎng)絡(luò)的訓(xùn)練時(shí)間基本接近,且與訓(xùn)練集合的容量成線(xiàn)性增長(zhǎng)關(guān)系,即算法的時(shí)間復(fù)雜度為O(n)。因此,從可計(jì)算理論的角度看,決策樹(shù)和Bayes網(wǎng)絡(luò)的算法復(fù)雜度是比較好的。

      圖3 3種機(jī)器學(xué)習(xí)方法在不同訓(xùn)練集下的模型建立時(shí)間Fig.3 Time taken to build models with three machine learning methods

      6 結(jié) 語(yǔ)

      從Netflow數(shù)據(jù)出發(fā),利用樸素Bayes方法、Bayes網(wǎng)絡(luò)和決策樹(shù)算法3種機(jī)器學(xué)習(xí)方法對(duì)Netflow數(shù)據(jù)中的應(yīng)用類(lèi)型進(jìn)行了分類(lèi)。實(shí)驗(yàn)仿真結(jié)果表明,這3種方法中決策樹(shù)方法和Bayes網(wǎng)絡(luò)具有較好的分類(lèi)性能。在有足夠的訓(xùn)練實(shí)例下,各種應(yīng)用在決策樹(shù)方法中可達(dá)到理想的分類(lèi)準(zhǔn)確率。本研究的工作充分證明了Netflow數(shù)據(jù)應(yīng)用于流量分類(lèi)的可行性,從而改變了以往認(rèn)為Netflow數(shù)據(jù)不適合流量分類(lèi)的觀(guān)點(diǎn)。在Netflow的基礎(chǔ)上進(jìn)行流量分類(lèi)具有良好的實(shí)用性,與現(xiàn)有設(shè)備可保持良好的兼容性,因此,非常具有實(shí)際推廣意義。

      [1] Bernaille L,Teixeira R,Salamatian K.Early application identification[C]∥Proceedings of the 2006 ACM Co NEXT conference.New York:ACM,2006:6.

      [2] Kim H,Claffy K C,F(xiàn)omenkov M,et al.Internet traffic classification demystified:myths,caveats,and the best practices[C]∥Proceedings of the 2008 ACM Co NEXT conference.New York:ACM,2008:11.

      [3] Iliofotou M,Kim H,F(xiàn)aloutsos M,et al.Graph-based P2P traffic classification at the internet backbone[C]. INFOCOM Workshops 2009,IEEE.Riode Janeiro:IEEE,2009:1-6.

      [4] Karagiannis T,Papagiannaki K,F(xiàn)aloutsos M.BLINC:multilevel traffic classification in the dark[J].ACM SIGCOMM Computer Communication Review,2005,35(4):229-240.

      [5] Valenti S,Rossi D,Meo M,et al.Accurate,fine-grained classification of P2P-TV applications by simply counting packets[M]∥Traffic Monitoring and Analysis.Papadopouli M,Owezarski P,Pras A.Berlin:Springer,2009:84-92.

      [6] Moore A W,Zuev D,Crogan M L.Discriminators for use in flow-based classification[EB/OL].(2012-10-09)[2014-03-10].http:∥www.cl.cam.ac.uk/~awm22/publications/RR-05-13.pdf.

      [7] Claise B.Cisco Systems NetFlow Services Export Version9:RFC 3954(Informational)[EB/OL].(2004-10-01)[2014-03-10].http:∥tools.ietf.org/html/rfc3954.html.

      [8] Auld T,Moore A W,Gull S F.Bayesian neural networks for internet traffic classification[J].IEEE Transactions on Neural Networks,2007,18(1):223-239.

      [9] Crotti M,Dusi M,Gringoli F,et al.Traffic classification through simple statistical fingerprinting[J].ACM SIGCOMM Computer Communication Review,2007,37(1):5-16.

      [10] Haffner P,Sen S,Spatscheck O,et al.ACAS:automated construction of application signatures[C]∥Proceedings of the 2005 ACM SIGCOMM workshop on mining network data.New York:ACM,2005:197-202.

      [11] Jiang H,Moore A W,Ge Z,et al.Lightweight application classification for network management[C]∥Proceedings of the 2007 SIGCOMM workshop on Internet network management.New York:ACM,2007:299-304.

      [12] Moore A W,Zuev D.Internet traffic classification using bayesian analysis techniques[C]∥ACM SIGMETRICS Performance Evaluation Review.New York:ACM,2005,33(1):50-60.

      [13] Roughan M,Sen S,Spatscheck O,et al.Class-of-service mapping for QoS:a statistical signature-based approach to IP traffic classification[C]∥Proceedings of the 4th ACM SIGCOMM conference on Internet measurement.New York:ACM,2004:135-148.

      [14] Zuev D,Moore A W.Traffic classification using a statistical approach[M]∥Passive and Active Network Measurement. Berlin:Springer,2005:321-324.

      [15] SzabóG,SzabóI,Orincsay D.Accurate traffic classification[C]∥World of Wireless,Mobile and Multimedia Networks,2007.Espoo:IEEE,2007:1-8.

      [16] Erman J,Mahanti A,Arlitt M,et al.Identifying and discriminating between web and peer-to-peer traffic in the network core[C]∥Proceedings of the 16th international conference on World Wide Web.New York:ACM,2007:883-892.

      Traffic classification based on netflow

      QIAN Yaguan
      (School of Sciences,Zhejiang University of Science and Technology,Hangzhou 310023,China)

      Due to the limited traffic information provided by Netflow,it is not considered as a suitable data set for traffic classification traditionally.We construct a richer feature space based on Netflow,and use machine learning methods(the decision tree,Navie Bayes and Bayes network)to explore the traffic classification.The experimental results show that the decision tree built on Netflow dataset has better precision than other two methods,and reinforce our suggestion that Netflow is fully appropriate for classification.

      Netflow;machine learning;traffic classification

      TN915.04

      A

      1671-8798(2014)05-0339-06

      10.3969/j.issn.1671-8798.2014.05.004

      2014-05-09

      浙江省網(wǎng)絡(luò)媒體云處理與分析工程技術(shù)中心開(kāi)放課題(2012E10023-14)

      錢(qián)亞冠(1976― ),男,浙江省嵊州人,副教授,博士,主要從事互聯(lián)網(wǎng)流量建模、流量分類(lèi)、流量異常檢測(cè)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)處理等研究。

      猜你喜歡
      數(shù)據(jù)流決策樹(shù)機(jī)器
      機(jī)器狗
      機(jī)器狗
      汽車(chē)維修數(shù)據(jù)流基礎(chǔ)(下)
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      未來(lái)機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      基于數(shù)據(jù)流聚類(lèi)的多目標(biāo)跟蹤算法
      無(wú)敵機(jī)器蛛
      伊川县| 淮阳县| 津市市| 兴国县| 米易县| 阿巴嘎旗| 涪陵区| 灌南县| 蕲春县| 安塞县| 大荔县| 隆昌县| 尚义县| 措美县| 怀安县| 安远县| 沙河市| 丹棱县| 萨嘎县| 荔波县| 吴旗县| 吉隆县| 洛宁县| 稷山县| 江源县| 固始县| 黑河市| 惠州市| 玛纳斯县| 上思县| 甘洛县| 高要市| 台东市| 泾源县| 鸡泽县| 长宁县| 潞西市| 盘锦市| 仙游县| 门头沟区| 新蔡县|