• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于無(wú)監(jiān)督學(xué)習(xí)的P2P流量識(shí)別

    2011-03-26 03:32:50賈波鄒園萍
    關(guān)鍵詞:數(shù)據(jù)流數(shù)據(jù)包端口

    賈波,鄒園萍

    (浙江工商大學(xué)信息與電子工程學(xué)院,浙江杭州310018)

    0 引言

    流量識(shí)別是根據(jù)網(wǎng)絡(luò)流以及流中數(shù)據(jù)的某些信息將網(wǎng)絡(luò)上的流分成若干既定的類別。網(wǎng)絡(luò)流的識(shí)別與分類是認(rèn)識(shí)、管理、優(yōu)化各種網(wǎng)絡(luò)資源的重要依據(jù),對(duì)網(wǎng)絡(luò)運(yùn)行與管理、安全檢測(cè)等有非常重要的作用。數(shù)據(jù)流的挖掘國(guó)外有兩個(gè)有影響的研究小組:Stanford大學(xué)R.Motwani教授領(lǐng)導(dǎo)的研究小組以及UIUC的由C.Aggarwal和J.Han教授領(lǐng)導(dǎo)的研究小組。前者的研究側(cè)重于數(shù)據(jù)流管理、數(shù)據(jù)流的連續(xù)查詢和數(shù)據(jù)流的聚類方面,提出了不同于傳統(tǒng)DBMS(database management system)的DSMS(data stream management system)概念,他們的研究得到了美國(guó)國(guó)家自然科學(xué)基金的資助。后者的研究側(cè)重于數(shù)據(jù)流分析方面,對(duì)于數(shù)據(jù)流的在線分析,從聚類、分類、頻繁項(xiàng)集挖掘以及可視化等角度做了大量研究工作,他們的研究得到了美國(guó)軍方和國(guó)家自然科基金的資助[1]。目前國(guó)內(nèi)對(duì)數(shù)據(jù)流挖掘的研究比較少。數(shù)據(jù)流識(shí)別與分類是數(shù)據(jù)流挖掘的一個(gè)重要問(wèn)題,有許多實(shí)際應(yīng)用,如網(wǎng)絡(luò)入侵檢測(cè)、垃圾郵件過(guò)濾、信用卡欺詐檢測(cè)和Web網(wǎng)頁(yè)分類等。數(shù)據(jù)流的典型特性給這些應(yīng)用提出了一系列的挑戰(zhàn)。

    流量識(shí)別技術(shù)的發(fā)展經(jīng)歷了以下幾個(gè)階段:

    (1)傳統(tǒng)的應(yīng)用層監(jiān)控模式:檢測(cè)基于IANA注冊(cè)的知名端口。目前很多網(wǎng)絡(luò)流量出現(xiàn)了新的特征,有些應(yīng)用根本沒(méi)有在IANA注冊(cè),因而這種技術(shù)對(duì)大多數(shù)應(yīng)用、使用動(dòng)態(tài)端口的應(yīng)用已經(jīng)無(wú)效。

    (2)基于應(yīng)用層payload檢測(cè)方法:通過(guò)payload來(lái)檢測(cè)使用動(dòng)態(tài)協(xié)商端口的流媒體應(yīng)用和P2P應(yīng)用是現(xiàn)今比較有效的一種方法[2],檢測(cè)流媒體應(yīng)用流量時(shí)有很高的精準(zhǔn)度。該方法需要分析大量數(shù)據(jù)包,會(huì)加重系統(tǒng)負(fù)擔(dān),算法性能與payload特征的復(fù)雜度有關(guān),特征越復(fù)雜,則檢測(cè)代價(jià)越高,算法性能越差。當(dāng)流媒體控制進(jìn)程中的端口號(hào)發(fā)生變化,如果控制進(jìn)程被加密,像Skype這樣的應(yīng)用,這種方法則不再有效。

    (3)基于應(yīng)用簽名技術(shù)的檢測(cè)方法[2]:通過(guò)比較每一個(gè)payload數(shù)據(jù)包已知的應(yīng)用簽名來(lái)識(shí)別應(yīng)用。其需要大量離線工作確定每種應(yīng)用的簽名,而大量新出現(xiàn)的應(yīng)用,很多使用了私有的應(yīng)用層協(xié)議,因而很難獲得其有效應(yīng)用簽名。這種方法同樣需要花費(fèi)大量系統(tǒng)資源去抓包和進(jìn)行應(yīng)用簽名比對(duì),因此催生了研究者開(kāi)發(fā)更高效的應(yīng)用簽名技術(shù)。

    (4)模式識(shí)別等方法:由于深度數(shù)據(jù)包檢測(cè)(Deep Package Inspect,DPI)方法需要對(duì)每個(gè)數(shù)據(jù)包進(jìn)行解包,影響效率。所以又興起基于模式識(shí)別的各種方法,如基于網(wǎng)絡(luò)行為特征提取的方法[3],基于神經(jīng)網(wǎng)絡(luò)[4]的方法等。但是這些方法必須先由人工給出特征或給出訓(xùn)練集,才能得到分類結(jié)果。遇到未知應(yīng)用,或者將其歸為已知類型,或者全部劃歸未知應(yīng)用,無(wú)法提取出新的應(yīng)用類型。

    由于上述方法存在的問(wèn)題,文獻(xiàn)5提出一種啟發(fā)式識(shí)別方法,但是這種方法歸根結(jié)底還是依賴于協(xié)議既定的端口,如果協(xié)議的實(shí)現(xiàn)不依賴于某些固定的端口而是完全隨機(jī)的選擇監(jiān)聽(tīng)端口,該方法就不能正確地給出協(xié)議名稱。文獻(xiàn)6使用基于協(xié)議簽名的方法識(shí)別應(yīng)用層協(xié)議,其特征串定義僅限于P2P協(xié)議,并且要檢查全報(bào)文以匹配多個(gè)特征串,效率較低。本文通過(guò)數(shù)據(jù)挖掘的方法,選擇協(xié)議特有的、交互過(guò)程中必定出現(xiàn)且實(shí)際環(huán)境中出現(xiàn)頻率最高的字段作為協(xié)議的特征串。將特征串的定義擴(kuò)展至所有應(yīng)用層協(xié)議。舉例如表1所示。

    1 P2P流量的識(shí)別

    近年來(lái),新型的P2P協(xié)議及應(yīng)用軟件不斷涌現(xiàn),如國(guó)外的BiTorrent,eDonkey,Skype,F(xiàn)astTrack,Gnutella,國(guó)內(nèi)的KuGoo,ezPeer,百寶,點(diǎn)點(diǎn)通等。P2P技術(shù)不僅允許終端用戶利用Internet架構(gòu)一個(gè)動(dòng)態(tài)、匿名、分布式的網(wǎng)絡(luò)來(lái)相互傳遞信息,還可以彼此直接搜索和共享信息資源,顛覆了傳統(tǒng)C/S模式。

    P2P技術(shù)不斷發(fā)展演進(jìn),其拓樸從最初的集中式架構(gòu)到純分布式架構(gòu)再發(fā)展到混和式架構(gòu),其端口特性也由最初的固定端口發(fā)展到隨機(jī)動(dòng)態(tài)端口再到偽裝端口。由于Internet上存在眾多P2P應(yīng)用軟件,P2P流量的識(shí)別與監(jiān)控必須采用多種手段協(xié)作進(jìn)行。部分P2P應(yīng)用特征串實(shí)例如表2所示。

    表1 一些常見(jiàn)應(yīng)用特征字符串

    表2 一些常見(jiàn)P2P應(yīng)用特征字符串

    2 基于無(wú)監(jiān)督學(xué)習(xí)的流量識(shí)別

    應(yīng)用流量識(shí)別面臨的主要問(wèn)題:如果使用DPI技術(shù),不能做到實(shí)時(shí)性,因?yàn)楝F(xiàn)今網(wǎng)絡(luò)主干接口速度均在百兆甚至千兆以上,DPI會(huì)帶來(lái)很大時(shí)延,同時(shí)基于應(yīng)用層協(xié)議的特征檢測(cè)方法受到數(shù)據(jù)包加密的挑戰(zhàn),而且對(duì)于新的應(yīng)用還不能自動(dòng)識(shí)別,必須由網(wǎng)絡(luò)管理員提取特征后再進(jìn)行識(shí)別,有一定滯后性。而使用模式識(shí)別等基于數(shù)據(jù)流特征的方法雖然不用深入到數(shù)據(jù)包內(nèi)部,省去了拆包的過(guò)程,可以實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè),對(duì)數(shù)據(jù)加密有很好的適應(yīng)性,但是這些方法均需要訓(xùn)練集進(jìn)行數(shù)據(jù)分類訓(xùn)練,才能進(jìn)行識(shí)別。對(duì)于不同網(wǎng)絡(luò),識(shí)別的準(zhǔn)確率會(huì)受到很大影響。

    權(quán)衡已有方法的實(shí)時(shí)性和復(fù)雜性,考慮一個(gè)多層次識(shí)別方法,對(duì)于可使用DPI方法準(zhǔn)確、高率識(shí)別的傳統(tǒng)應(yīng)用則繼續(xù)使用此方法;使用傳統(tǒng)方法效果不明顯的、新出現(xiàn)的應(yīng)用流數(shù)據(jù)采取后臺(tái)無(wú)監(jiān)督識(shí)別方法,利用應(yīng)用流數(shù)據(jù)自身的特征進(jìn)行分類,發(fā)現(xiàn)已知或未知的流量類型,并把未知流量類型提交管理員進(jìn)一步分析,以減輕人工分類的工作量。

    2.1 流量識(shí)別系統(tǒng)總體設(shè)計(jì)

    對(duì)流量進(jìn)行實(shí)時(shí)監(jiān)控和精確識(shí)別,一方面要對(duì)已知特征串的流量進(jìn)行即時(shí)比較分類和顯示輸出,另外對(duì)于特征庫(kù)中不存在其特征的數(shù)據(jù)流,因其可能是一種新的協(xié)議流,首先將其輸出顯示并標(biāo)記為未知流,同時(shí)保存該流的內(nèi)容,等待隨后的數(shù)據(jù)分析。通過(guò)后續(xù)的流數(shù)據(jù)分析確定其特征串并添加到特征庫(kù),至此完成新協(xié)議的檢測(cè)。

    由于檢測(cè)的實(shí)時(shí)性和新數(shù)據(jù)流分析過(guò)程的時(shí)間復(fù)雜度,如果分析和流監(jiān)控同時(shí)進(jìn)行,必將影響流監(jiān)控的效果,因此將系統(tǒng)設(shè)計(jì)為前后臺(tái)協(xié)作的系統(tǒng)。前臺(tái)系統(tǒng)負(fù)責(zé)數(shù)據(jù)流量的監(jiān)控和已知特征流量的分類記錄,同時(shí)存儲(chǔ)不可識(shí)別的流量,等待以后分析。前臺(tái)程序占據(jù)系統(tǒng)主要資源,當(dāng)前臺(tái)系統(tǒng)空閑時(shí),啟動(dòng)后臺(tái)協(xié)議分析系統(tǒng),對(duì)未知數(shù)據(jù)流進(jìn)行分析。

    2.2 流量監(jiān)控分類具體設(shè)計(jì)

    系統(tǒng)關(guān)注的是流數(shù)據(jù)而不是單個(gè)的網(wǎng)絡(luò)數(shù)據(jù)包,因此需要將網(wǎng)絡(luò)包按時(shí)間順序和五元組數(shù)據(jù)成流,即源IP地址、目標(biāo)IP地址、源端口、目標(biāo)端口、協(xié)議類型(TCP,UDP或者ICMP等)的五元組流。

    系統(tǒng)利用開(kāi)放源碼的CoralReef software suite實(shí)現(xiàn)成流為數(shù)據(jù)分析做準(zhǔn)備,然后進(jìn)行各種類型數(shù)據(jù)流的分類識(shí)別。其中包含9類應(yīng)用流的識(shí)別方法,如表3所示。

    分類技術(shù)按表3的順序使用每一種分類方法,在沒(méi)有可用特征串或協(xié)議特征時(shí)才使用相對(duì)復(fù)雜或數(shù)據(jù)分析量大的識(shí)別技術(shù)。

    表3 應(yīng)用流識(shí)別步驟

    2.3 無(wú)監(jiān)督學(xué)習(xí)分類過(guò)程

    對(duì)于未知流和無(wú)法歸類的流,在后臺(tái)通過(guò)無(wú)監(jiān)督學(xué)習(xí)和數(shù)據(jù)挖掘的方法進(jìn)行處理,識(shí)別新的應(yīng)用流量。聚類的目標(biāo)不是讓效用函數(shù)最大化,而是找到訓(xùn)練數(shù)據(jù)中的近似點(diǎn)。聚合常常能發(fā)現(xiàn)那些與假設(shè)匹配的相當(dāng)好的直觀分類,本文使用聚類進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。

    在離線狀態(tài)進(jìn)行學(xué)習(xí),通過(guò)對(duì)未知的歷史數(shù)據(jù)流組的行為特征進(jìn)行分析檢測(cè)來(lái)發(fā)現(xiàn)新的應(yīng)用流。由于絕大多數(shù)P2P應(yīng)用均使用TCP協(xié)議,因此在學(xué)習(xí)過(guò)程中主要分析TCP流。先從整個(gè)未知流中提取TCP流,然后對(duì)提取出的流使用包跟蹤分析算法。首先將流進(jìn)行聚類,估計(jì)流之間的相似程度。提取兩個(gè)特征屬性和每一個(gè)流相關(guān)聯(lián)作為聚類的依據(jù),第一,每個(gè)流的前p個(gè)數(shù)據(jù)包的大小C,p的取值在5-10之間,第二,每個(gè)流的Payload特征提取值W。這里采用簡(jiǎn)單的串長(zhǎng)度和串字符頻率結(jié)合的方法作為Payload特征,然后進(jìn)行聚類分析。

    選用動(dòng)態(tài)聚類,其類中心可隨著加入節(jié)點(diǎn)而動(dòng)態(tài)變化,能夠比較準(zhǔn)確反映流數(shù)據(jù)的變化情況。KMeans算法是最常用的動(dòng)態(tài)聚類算法,開(kāi)始時(shí)選取點(diǎn)范圍中的k個(gè)點(diǎn),作為k個(gè)串的初始估計(jì)重心,再把其余的點(diǎn)分配到距離串重心最近的串,分配過(guò)程重復(fù)數(shù)次直到?jīng)]有點(diǎn)可分配或者達(dá)到最大循環(huán)次數(shù)。聚類算法需定義公制的距離來(lái)進(jìn)行點(diǎn)與重心間的距離計(jì)算。假設(shè)數(shù)據(jù)對(duì)象有M個(gè)點(diǎn)Xm=(Cm,Wm),m=1,…,M,其中Cm,Wm是數(shù)據(jù)流的兩個(gè)特征向量,此處定義為數(shù)據(jù)流的包個(gè)數(shù)和數(shù)據(jù)流的平均長(zhǎng)度。定義數(shù)據(jù)對(duì)象中的兩點(diǎn)Xa,Xb間的距離為d(Xa,Xb):

    執(zhí)行k-Means聚類算法的任何時(shí)間都有k個(gè)重心,用s(k)記錄重心點(diǎn)k所包含的點(diǎn)的數(shù)量。當(dāng)一個(gè)新的點(diǎn)加入到串中就會(huì)有一個(gè)新的C值和W值,假設(shè)點(diǎn)Xm=(Cm,Wm)加入到重心k上,表示為點(diǎn)(C,W),新的重心表示為點(diǎn)(C’,W’),其中C’和W’的計(jì)算方法為:

    聚類時(shí),為了精確表示出分類,串的個(gè)數(shù)可以通過(guò)檢驗(yàn)串中點(diǎn)的平均距離以及重心間的平均距離與標(biāo)準(zhǔn)距離偏離的比(稱為內(nèi)部CV(coefficient of variation)和外部CV)來(lái)計(jì)算。顯然,希望內(nèi)部CV盡量小而外部CV盡量大。如果串的數(shù)量和點(diǎn)的數(shù)量相同就一定是滿足的,即每一次操作作為一個(gè)串,但是目的是負(fù)載的表征,這樣就需要選擇一個(gè)相對(duì)小的串?dāng)?shù)。經(jīng)過(guò)測(cè)試,50個(gè)串是一個(gè)比較合適的數(shù)量,而p的值為5較合適。對(duì)加密的協(xié)議,可以通過(guò)調(diào)節(jié)p的值來(lái)發(fā)現(xiàn)加密協(xié)議的一些特征。

    學(xué)習(xí)后得出兩個(gè)結(jié)果集:一個(gè)是聚類的描述集,包括類的包平均大小和payload特征,其二是每個(gè)聚類包含的數(shù)據(jù)流。這些集合不僅可提供給網(wǎng)絡(luò)管理員進(jìn)行結(jié)果的認(rèn)定和對(duì)新應(yīng)用流的命名,而且可以加入在線識(shí)別模塊進(jìn)行流的識(shí)別,或?qū)Ψ诸愑姓`的流進(jìn)行重新分析。

    3 結(jié)束語(yǔ)

    使用DPI方法檢測(cè)數(shù)據(jù)流中攜帶的真實(shí)數(shù)據(jù)并使用特征串進(jìn)行匹配的方法進(jìn)行識(shí)別,避免了非默認(rèn)端口的傳統(tǒng)協(xié)議被誤識(shí)別或某些協(xié)議被漏識(shí)別。對(duì)已有方法改進(jìn)的同時(shí)為了加快檢測(cè)速度,對(duì)特征串的選取、特征串長(zhǎng)度等都做了優(yōu)化。對(duì)未識(shí)別的協(xié)議經(jīng)過(guò)成流和對(duì)流的不同部分、不同長(zhǎng)度的DPI分析,使用K-Means聚類方法進(jìn)行無(wú)監(jiān)督分類學(xué)習(xí),可以為流量提供自動(dòng)、精確識(shí)別方法。流量監(jiān)控系統(tǒng)在校園網(wǎng)運(yùn)行的結(jié)果表明,對(duì)于新出現(xiàn)的、未找到特征且無(wú)法分類的新協(xié)議,特別是識(shí)別P2P應(yīng)用流具有較高準(zhǔn)確性。在某些關(guān)鍵鏈路暫時(shí)無(wú)法通過(guò)擴(kuò)容滿足流量增長(zhǎng)的需求時(shí),為合理限制某些應(yīng)用、優(yōu)化網(wǎng)絡(luò)性能提供了依據(jù)。

    圖1 不同閾值下的誤識(shí)別率(■FP,□FN)

    [1]黃樹(shù)成,曲亞輝.數(shù)據(jù)流分類技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2009,26(10):3604-3609.

    [2]Patrick Haffner,Subhabrata Sen,Oliver Spatscheck etal.Automated Construction of Application Signatures[C].Philadelphia:Proceedings of the 2005 ACM SIGCOMM workshop on Mining network data,2005:197-202.

    [3]Yan Hu,Dah-ming Chiu.Application Identification Based on Network Behavioral Profiles[C].Enscheda:16th International Workshop on Quality of Service,2008:219-228.

    [4]Tom Auld,Andrew W Moore,Stephen F Gull.Bayesian Neural Networks for Internet Traffic Classification[C].Washington:IEEE Transactions on Neural Networks,2007,18(1):223-239.

    [5]Kim Myung-Sup,Won Young J,Hong James Won-Ki.Application-Level Traffic Monitoring and an Analysis on IP Networks[J].ETRI Journa1,2005,27(1):22-42.

    [6]Sen Subhabrata,Wang Jia.Analyzing Peer-to-Peer Traffic across Large Networks[J].IEEE/ACMTransactions on Networking,2004,12(2):219-232.

    猜你喜歡
    數(shù)據(jù)流數(shù)據(jù)包端口
    一種端口故障的解決方案
    汽車維修數(shù)據(jù)流基礎(chǔ)(下)
    SmartSniff
    一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
    端口阻塞與優(yōu)先級(jí)
    基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
    初識(shí)電腦端口
    電腦迷(2015年6期)2015-05-30 08:52:42
    生成樹(shù)協(xié)議實(shí)例探討
    北醫(yī)三院 數(shù)據(jù)流疏通就診量
    基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
    华容县| 柳河县| 铜梁县| 泌阳县| 萍乡市| 宁城县| 霍邱县| 米易县| 河南省| 南昌市| 大庆市| 寿宁县| 奉化市| 武义县| 仙游县| 崇义县| 凌海市| 壶关县| 鸡泽县| 平昌县| 灵石县| 醴陵市| 荃湾区| 文山县| 丹棱县| 凤山县| 诸城市| 涪陵区| 庄浪县| 濮阳市| 玉龙| 大邑县| 庆城县| 商河县| 遵化市| 巴里| 龙口市| 周宁县| 河南省| 克拉玛依市| 泽州县|