• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于UDP流量的P2P流媒體流量識別算法研究.

      2012-10-26 09:09:38董仕1王崗2
      通信學(xué)報 2012年12期
      關(guān)鍵詞:復(fù)雜度報文端口

      董仕1,2,3,4,王崗2,3,4

      (1.周口師范學(xué)院 計算機科學(xué)與技術(shù)學(xué)院,河南 周口 466001;2.東南大學(xué) 計算機科學(xué)與工程學(xué)院,江蘇 南京 210092;3.江蘇省計算機網(wǎng)絡(luò)技術(shù)重點實驗室,江蘇 南京 210092;4.國家教育部計算機網(wǎng)絡(luò)和信息集成重點實驗室,江蘇 南京 210092)

      1 引言

      網(wǎng)絡(luò)技術(shù)的成熟和互聯(lián)網(wǎng)帶寬的不斷增長使得P2P應(yīng)用越來越普及,如何有效地管理和控制網(wǎng)絡(luò)中的P2P流量,以保證其他網(wǎng)絡(luò)業(yè)務(wù)的需要并使網(wǎng)絡(luò)得以正常運行已成為目前網(wǎng)絡(luò)管理中必須要面對的一個問題。據(jù)統(tǒng)計中國國內(nèi)互聯(lián)網(wǎng)流量中UDP比例已接近 50%[1,2],而西方國家同期的數(shù)據(jù)大約僅為20%[3,4]。國內(nèi)互聯(lián)網(wǎng)UDP流量比例遠(yuǎn)高于西方的主要原因是由于國內(nèi) P2P應(yīng)用被廣泛使用。高UDP比例流量網(wǎng)絡(luò)的運行風(fēng)險要更高,這是因為當(dāng)擁塞發(fā)生時,UDP流量會對TCP流量產(chǎn)生抑制[5],而網(wǎng)絡(luò)上所有重要數(shù)據(jù)均采用TCP傳遞。所以對P2P流量進(jìn)行有效的管理在中國顯得更加重要。

      對P2P流量進(jìn)行有效管理的前提是對P2P流量的準(zhǔn)確識別。目前傳統(tǒng)的應(yīng)用類型識別主要分3類:基于端口[6]、基于機器學(xué)習(xí)[7~11]和基于深度報文檢測(DPI)[12~15]。P2P應(yīng)用普遍使用隨機動態(tài)端口,基于特定端口的檢測方法已不適用,而DPI方法基于全報文檢測需要已知特征碼,對加密P2P應(yīng)用束手無策?;跈C器學(xué)習(xí)的方法可以在流層面完成基于流量行為特征檢測,但算法復(fù)雜度高,識別率低,漏報率和誤報率較大。目前并沒有一個能夠得到公認(rèn)的有效面向P2P應(yīng)用的識別算法。本文的研究工作圍繞P2P流量識別這個基本問題展開,研究工作基于擴展的流記錄進(jìn)行。與上述所有的研究方法不同的是,本文的核心思路是用時間粒度聚合并揭示P2P應(yīng)用在實際使用過程中因為“流控”和“并發(fā)”所體現(xiàn)出的特性,并據(jù)此將其標(biāo)識。選擇具有代表性的以UDP作傳輸層協(xié)議的幾款P2P網(wǎng)絡(luò)電視為研究對象,希望能將其準(zhǔn)確地從流量中標(biāo)識出來。在詳細(xì)討論了算法后,文中采用在“峰時”和“谷時”長度分別為1h的實測IP TRACE作為實驗,結(jié)果表明采用EXID算法識別結(jié)果查準(zhǔn)率和查全率均超出97%。并與比較流行的機器學(xué)習(xí)識別算法進(jìn)行了比較,結(jié)果表明采用此識別算法在查準(zhǔn)率上優(yōu)于機器學(xué)習(xí)識別算法,有很高的總體正確率,且不易受到樣本比重的影響。

      2 相關(guān)工作

      目前的P2P 流量識別方法主要包含4種:端口識別、深層數(shù)據(jù)分組檢測、基于機器學(xué)習(xí)的流量識別、基于傳輸層連接模式的識別。

      2.1 端口識別

      早期的P2P應(yīng)用程序使用固定的端口號,所以網(wǎng)絡(luò)服務(wù)提供商(ISP)常利用固定端口號識別 P2P流量。然而目前的P2P應(yīng)用程序使用端口跳變技術(shù)和端口偽裝技術(shù)來躲避流量檢測。Bleul等[16]分析DirectConnect網(wǎng)絡(luò)得出,在已觀察到的端口中,70%的端口僅僅被使用了一次??梢?,基于端口的P2P流量識別技術(shù)已不能滿足當(dāng)前需求。

      2.2 深層數(shù)據(jù)分組檢測(DPI)

      DPI技術(shù)常采用模式匹配算法搜索流量載荷中P2P協(xié)議的特征值,進(jìn)而通過特征匹配判斷是否屬于該P2P流量。流量載荷特征提取是確保DPI識別準(zhǔn)確率的關(guān)鍵,而模式匹配算法是確保DPI執(zhí)行效率的關(guān)鍵。

      目前,基于DPI技術(shù)的P2P流量識別研究主要通過改進(jìn)模式匹配算法來提高DPI技術(shù)的吞吐量。Sen等設(shè)計了一個基于模式匹配算法的在線分類器識別P2P流量,并評估了SR(standard regex)算法、AR(AST regex)算法和 KR(Karp-Rabin)算法的流量識別性能,其吞吐量分別為 0.21%~2.39%、8.7%~77.60%和0.07%~0.9%??梢?,AR算法的性能相對最好。Xu等[17]利用 Rabin字符串匹配算法搜索主機上傳流量和下載流量中是否存在相同的負(fù)載內(nèi)容,如果存在相同的負(fù)載內(nèi)容,則認(rèn)為該主機為P2P主機。實際上,為了保證DPI健壯性,模式匹配算法常常要結(jié)合其他技術(shù),例如流狀態(tài)跟蹤、協(xié)議狀態(tài)檢測機制等。

      綜上所述,在大多數(shù)情況下,DPI技術(shù)準(zhǔn)確性高、可靠性好,且能夠細(xì)粒度地識別流量,主要適合于非加密流量的識別,其識別的準(zhǔn)確性依賴于特征庫的更新。而學(xué)術(shù)界也常以該技術(shù)作為新流量識別方法的比較基準(zhǔn)。L7-filter能夠準(zhǔn)確識別128種協(xié)議流量,但對負(fù)載加密的Skype流量和迅雷流量識別能力有限。文獻(xiàn)[18]中識別負(fù)載加密的 emule流量,其準(zhǔn)確性僅在 30%~70%之間。此外,在實際應(yīng)用中,由于DPI技術(shù)侵犯個人隱私,其應(yīng)用面受到限制。

      2.3 基于機器學(xué)習(xí)的流量識別

      基于機器學(xué)習(xí)的流量識別一般不依賴于應(yīng)用層負(fù)載信息,它利用流量統(tǒng)計特征作為屬性,建立機器學(xué)習(xí)分類模型識別P2P流量。P2P流量的統(tǒng)計特征提取可以從數(shù)據(jù)分組級和數(shù)據(jù)流級提取。

      1) 數(shù)據(jù)分組特征

      數(shù)據(jù)分組特征主要統(tǒng)計單個流內(nèi)數(shù)據(jù)分組大小、數(shù)據(jù)分組到達(dá)的間隔時間、數(shù)據(jù)分組比率(單位時間內(nèi)傳輸數(shù)據(jù)分組的個數(shù))等。Bleul等比較分析Bittorrent、DirectConnect、eDonkey、Gnutella 以及FastTrack這5種P2P流量發(fā)現(xiàn),它們之間的平均數(shù)據(jù)分組長差異較大。除了eDonkey協(xié)議外,其他4種頻繁出現(xiàn)長度是小于200byte的數(shù)據(jù)分組。Teufl等[19]指出,音頻流的分組到達(dá)間隔時間非常相似。Marcell等[20]對 Skype呼叫流量進(jìn)行實驗分析,發(fā)現(xiàn)平均語音數(shù)據(jù)分組大小在40~320byte之間變化,單向講話流的帶寬在 20~80kbit/s之間變化,而Skype語音數(shù)據(jù)分組到達(dá)的時間間隔是 30ms或者60ms,相應(yīng)的數(shù)據(jù)分組比率分別是 33個數(shù)據(jù)分組/s和16個數(shù)據(jù)分組/s。它們利用這些特征將Skype流量與其他的VoIP流量(MSN、YahooMessenger、AOL Messenger、Gtalk)區(qū)分開。Bonfiglio 等[21]對 Skype流量進(jìn)行實驗分析發(fā)現(xiàn),在Skype呼叫連接的前30s內(nèi),Skype客戶端發(fā)送的數(shù)據(jù)分組大小大約是以后發(fā)送數(shù)據(jù)分組大小的2倍,平均數(shù)據(jù)分組到達(dá)時間間隔是20ms、30ms或者60ms。它們對Skype流量識別的誤報率為 0~0.01%,漏報率為9.82%~29.98%。Yang等[22]統(tǒng)計分組長度、分組到達(dá)時間間隔和分組的字節(jié)數(shù)等特征,對 Bittorrent流量、pplive 流量、Skype流量和MSN流量的識別準(zhǔn)確性在 91%~95%。Este等[23]研究了數(shù)據(jù)分組特征的時空穩(wěn)定性,發(fā)現(xiàn)數(shù)據(jù)分組大小受到網(wǎng)絡(luò)時空環(huán)境變化的影響相對最小,而且每個TCP連接成功后的第1個數(shù)據(jù)分組大小對分類的貢獻(xiàn)最大。它們僅分析了TCP協(xié)議下的數(shù)據(jù)分組特征穩(wěn)定性,對于UDP協(xié)議下的特征穩(wěn)定性未進(jìn)行深入研究。文獻(xiàn)[24]利用數(shù)據(jù)分組大小和數(shù)據(jù)分組方向(客戶端發(fā)送的數(shù)據(jù)分組為正,服務(wù)器發(fā)送的數(shù)據(jù)分組為負(fù))分類網(wǎng)絡(luò)流,對Bittorrent的識別準(zhǔn)確率為96.8%。此外,Roughan等[25]的研究表明:僅統(tǒng)計數(shù)據(jù)分組特征還不足以區(qū)分大數(shù)據(jù)塊流和流媒體,也不能將FTP流與WWW流區(qū)分開,因此還需要在數(shù)據(jù)流級獲取更多的統(tǒng)計特征。

      2) 數(shù)據(jù)流特征

      數(shù)據(jù)流特征主要包括流的源/目的端口號、流大小、流持續(xù)時間以及標(biāo)識位(FIN、SYN、RST、PUSH、ACK、URG)被設(shè)置的TCP數(shù)據(jù)分組數(shù)目等。流大小是指同屬于一個數(shù)據(jù)流的所有數(shù)據(jù)分組字節(jié)數(shù)總和。流持續(xù)時間由一個流的結(jié)束時刻減去流開始時刻得到。一般而言,TCP流的開始時刻是其SYN數(shù)據(jù)分組到達(dá)時刻,TCP流的結(jié)束時刻是其FIN或RST數(shù)據(jù)分組到達(dá)時刻。UDP流的開始時刻和結(jié)束時刻還沒有明確定義,目前,Cisco Netflow將流的超時值設(shè)置為60s。即,連續(xù)2個UDP數(shù)據(jù)分組到達(dá)時間間隔超過60s則認(rèn)為是2個流。目前,對于數(shù)據(jù)流特征提取,國內(nèi)外學(xué)術(shù)界已有大量工作。文獻(xiàn)[26,27]對P2P數(shù)據(jù)流和Web數(shù)據(jù)流的統(tǒng)計特征進(jìn)行了比較分析,發(fā)現(xiàn)P2P流大小的均值比Web流大小的均值大,P2P流的平均持續(xù)時間要比Web流的平均持續(xù)時間長。陳慶章等[28]指出 FTP流量和 P2P流量各自的數(shù)據(jù)流特征,發(fā)現(xiàn)P2P流的數(shù)據(jù)分組大小變化幅度更大,流的持續(xù)時間更長,流的總長度更大。Moore等[29]提取249種TCP數(shù)據(jù)流特征,將網(wǎng)絡(luò)流量粗略分成10種類別,采用BAYES+NBK識別Web流量的準(zhǔn)確性高達(dá)99.27%,而對P2P文件共享流量(KazaA,Bittorrent,Gnutella)識別準(zhǔn)確性僅達(dá)到 36.45%。由于 249 維特征向量有較大的計算開銷和存儲開銷,Li[30]利用基于相關(guān)的快速特征選擇算法(FCBF, fast correlation-based filter)從249 種數(shù)據(jù)流特征中選出12種TCP 流特征。此外,Li還提取了9種UDP流特征。Erman等[31]用向后貪婪特征選擇算法從25種TCP 數(shù)據(jù)流特征中選擇11種流特征。

      2.4 基于P2P傳輸層連接模式識別

      針對不同的網(wǎng)絡(luò)行為特征可以設(shè)計出多種流量識別算法,本節(jié)介紹一些基于傳輸層連接模式的識別算法。Sen等[32]查閱大量的P2P協(xié)議相關(guān)文檔,提取出 Gnutella,KazaA,DirectConnect,BitTorrent,eDonkey等5種P2P文件共享流量特征,識別準(zhǔn)確率在90.1%~100%。手工方式提取特征比較耗時,對于協(xié)議文檔不公開或加密的流量,獲取特征更加困難。Karagiannis等[33]發(fā)現(xiàn),P2P網(wǎng)絡(luò)傳輸層連接的2個特征:一是大約2/3的P2P應(yīng)用同時使用TCP和UDP協(xié)議,而其他少數(shù)應(yīng)用中同時使用2種協(xié)議的僅僅包括NetBIOS、DNS、游戲等,這些少數(shù)應(yīng)用大多使用固定的端口進(jìn)行通信,例如NetBIOS使用135、137、139和445端口,通過端口號可排除掉這些非P2P應(yīng)用;二是在P2P文件共享網(wǎng)絡(luò)中。對等體之間通常僅使用一條 TCP連接進(jìn)行文件傳輸;而對于Web等非P2P應(yīng)用,客戶端和服務(wù)器之間通常存在多條并發(fā)的TCP連接。Karagiannis利用這2個特征識別P2P流量,其誤報率在80%~12%之間[34]。針對對等網(wǎng)絡(luò)(P2P)中技術(shù)網(wǎng)絡(luò)的分布式特點,依據(jù)節(jié)點在單位時間內(nèi)連接的目的子網(wǎng)數(shù)量(d值)和節(jié)點單位時間內(nèi)連接的目的IP數(shù)目與有效連接數(shù)目的比值(m值)特性,提出一種基于節(jié)點連接特性的P2P節(jié)點識別算法。P2P節(jié)點的d值和 m值都明顯大于其他節(jié)點(如典型的 HTTP節(jié)點),并存在一個閾值區(qū)間,據(jù)此可高效識別P2P節(jié)點。在清華大學(xué)校園網(wǎng)上的實驗結(jié)果顯示,該算法比當(dāng)前主流的算法識別效果更好,節(jié)點誤識別率和丟失率都小于5%。目前雖然對P2P應(yīng)用識別已經(jīng)取得了很多研究成果,但是針對P2P流媒體識別的研究卻很少,因此本文針對目前流行的5種P2P流媒體進(jìn)行特征發(fā)現(xiàn)并提出了一種流量識別算法。

      3 行為特征分析

      針對當(dāng)前流行的5種P2P流媒體:PPS點播、PPLIVE、UUSEE、QQLIVE和皮皮點播分別進(jìn)行研究,并對P2P流媒體進(jìn)行了大量的抓分組分析,總結(jié)和歸納了2個特征,分別介紹如下。

      3.1 同一端口特征

      本特征為共性特征。所有這些P2P軟件在使用過程中雖然以隨機方式選擇端口,但在一次使用(點播或直播)過程中,無論與多少個對象進(jìn)行交換,均使用同一個本地非系統(tǒng)端口。這個特性可以進(jìn)一步描述為:一個IP地址為X的主機發(fā)起的一次P2P交互,無論與多少個對端主機進(jìn)行交互,均使用一個相同的本地端口Y(Y>1023)。

      命題1 一個地址為X的主機發(fā)起的一次P2P交互所產(chǎn)生所有流記錄的五元組均具有(X,Y,*,*,UDP)或(*,*,X,Y,UDP)的特征,其中,Y為一個大于1023的固定值,*代表一個任意的IP地址或端口。

      基于這個特征和所有應(yīng)用只能選擇未被正在使用的端口這個基本原理,可以將一個時間段內(nèi)所有符合條件的流記錄按P2P交互劃分集合,每個集合中的所有流記錄屬于同一個P2P活動,當(dāng)然也屬于同一個P2P應(yīng)用。這個命題的意義在于對P2P的識別可以在這個流記錄集合的層面上進(jìn)行,只要可以準(zhǔn)確識別集合中的一個流記錄就可以使所有的流記錄得到標(biāo)識,另一方面也可以利用整個集合體現(xiàn)出的特性進(jìn)行標(biāo)識。

      3.2 報文長度和流控特征

      P2P應(yīng)用在獲得UDP協(xié)議帶來好處的同時,也失去 TCP協(xié)議的一些優(yōu)點,其中之一就是流控,TCP協(xié)議使用滑動窗口機制完成這項工作,單純的UDP沒有類似的功能。流控顯然是P2P應(yīng)用必須具備的一項功能,這是因為通過端系統(tǒng)的觀察,發(fā)現(xiàn)所有 P2P軟件的所有下載過程均呈現(xiàn)雙向的 UDP連接,但在流量(報文長度)上呈現(xiàn)出明顯的差異。由于沒有滑動窗口機制的支持,每個P2P應(yīng)用各自選擇了一組固定的報文長度,不同的應(yīng)用其選擇各自不同。圖1描述了5種不同應(yīng)用的報文長度按頻率所占的比重降序排列,取比重較大的前4個報文長度進(jìn)行觀察和分析,從識別算法實現(xiàn)方便的角度,筆者根據(jù)觀察實測數(shù)據(jù),選擇了各種P2P應(yīng)用最長報文和最短報文作為識別特征。每個應(yīng)用具體確定的數(shù)字如表1所示。

      圖1 5種P2P應(yīng)用的頻率比重分布

      表1 P2P應(yīng)用的最大最小報文長度

      4 EXID流量識別算法

      本文的識別算法依據(jù)第 3節(jié)總結(jié)和歸納的特征,并基于擴展的流記錄格式對網(wǎng)絡(luò)流量進(jìn)行識別。

      4.1 擴展流記錄定義

      流記錄是對面向會話報文集合的描述。最早從學(xué)術(shù)研究角度提出的流記錄判定標(biāo)準(zhǔn)為五元組超時,基本的流記錄數(shù)據(jù)還包括起始時間、終止時間、流內(nèi)字節(jié)數(shù)和流內(nèi)報文數(shù)四項。思科公司基于路由器實現(xiàn)的NetFlow[14]中,在此基礎(chǔ)上擴展了TOS、下一跳路由器地址、源宿AS等字段。

      本文識別算法使用另外一種擴展的流記錄,擴展項為流內(nèi)最長報文字節(jié)數(shù)和最短報文字節(jié)數(shù),具體描述如下。

      定義1 擴展流記錄FLOWS1的格式為八元組(sip,dip,sport,dport,prot,lastime,lgest,shest),其中,lastime為流終止時間,lgest為流內(nèi)最長報文長度,shest為流內(nèi)最短報文長度。

      4.2 EXID識別算法

      算法的輸入是格式為 FLOWS1的流記錄集合Flow,核心思路是將輸入的流記錄根據(jù) lastime和給的時間粒度參數(shù) t,劃分成不同的子集,在此基礎(chǔ)上對子集內(nèi)的流記錄根據(jù)3.1節(jié)的特征進(jìn)行聚類,然后根據(jù)3.2節(jié)的個性特征確定每個類所屬的應(yīng)用。

      定義2 設(shè)有一個任意給定的t和一個FLOWS1格式的流記錄集合Flow,令Maxlastime和Minlastime為 Flow中所有流記錄的最大、最小 lastime值,n=(MaxLastime?MinLastime)/t,則可根據(jù)流記錄的lastime將 Flow劃分成 n個子集合{flow1,flow2,…,flowi,…,flown},其中,任意一個,flowi稱為該Flow的第i個時間粒度子集。

      根據(jù)這個定義,可得出結(jié)論:如果 Flow中的流記錄Rx和Ry屬于同一個時間粒度子集,flowi,則R x.lastime -R y.la stime |≤ t。還可以得到如下。

      命題2 流記錄集Flow的時間粒度子集,flowi構(gòu)成Flow的完整劃分。

      定義3 Flow的時間粒度子集,flowi中的任意流記錄Rx和Ry,如果滿足

      則Rx和Ry屬于 flowi的同一個聚類,表示為(IP, port)

      根據(jù)3.1節(jié)中的命題1,flowi_setj(ip,port)中的所有流記錄屬于同一次P2P交互,它們屬于同一種P2P應(yīng)用。

      由于主機端口不能并發(fā)使用,一臺主機的一個端口在同一時刻只能與唯一的另一臺主機通信,實際上本文算法是利用了這個特征來聚類流記錄并識別其應(yīng)用的。設(shè)一個客戶端口在一次使用完畢后,在時間粒度 t內(nèi)再次被使用的概率為 p,則一個流記錄Rx同時屬于2個聚合集的概率小于p。假設(shè)一臺參與交互的P2P主機平均每Δt需要使用一個新端口,平均正在使用的端口數(shù)量為N,本地流的平均持續(xù)時間為則 p<t/(Δt/(65536?1024?N))。如果取 Δt=5,t=5min,N=512,則p<0.1%。

      設(shè)持續(xù)時間小于 t時間內(nèi)的同類流比例為 q。根據(jù)觀察,持續(xù)時間小于 5min的點播流的比例小于 30%,這樣 2個條件同時成立的可能性為pq<0.02%,即認(rèn)為一個flowi中流記錄xR只可能屬于一個聚類。下面給出具體的聚類及識別算法,分成聚類中雙向流報文長度對(pairs)生成算法和核心標(biāo)識EXID識別算法由2部分組成,分別是報文長度對(pairs)生成算法BFPS和核心識別算法。

      算法1 報文長度對生成算法

      上述算法的目的是對相同5元組的流進(jìn)行快速有效地合并,并根據(jù)3.2節(jié)中提出的流控特征,尋找并合并聚類中的雙向流,給出所有雙向流的最長、最短報文對,以便下面的核心算法利用3.2節(jié)中的報文長度特征進(jìn)行識別。

      算法2 報文長度特征識別算法

      4.3 算法時空復(fù)雜度分析

      EXID識別算法主要分2步:聚類和識別。聚類過程時間復(fù)雜度為流 S數(shù) n的線性函數(shù),即為O(n)。而識別過程時間復(fù)雜度也為O(n),因此,總的算法復(fù)雜度為 O(n)+O(n),由于聚類的時候,需要k個最大報文長度Lgest的數(shù)目和k個最小報文長度Shest的數(shù)目,因此需要的空間復(fù)雜度為O(k),在識別過程中因為需要存儲5對最大和最小的報文長度,這將占據(jù)空間復(fù)雜度為O(2×5),另外總的聚類和識別程序本身所占的空間復(fù)雜度為O(n),因此總的空間復(fù)雜度為O(k)+ O(2×5)+O(n)。

      5 實驗與分析

      本節(jié)利用EXID識別算法對基于IPTAS系統(tǒng)[1]提供的實測數(shù)據(jù)進(jìn)行P2P流媒體細(xì)粒度識別,而基準(zhǔn)數(shù)據(jù)集是采用L7filter進(jìn)行標(biāo)識。

      5.1 驗證方法

      從IPTAS中選定用于驗證的IP TRACE,采用L7-filter 直接對Trace中5種報文進(jìn)行打標(biāo)簽,構(gòu)成標(biāo)準(zhǔn)數(shù)據(jù)集A,將Trace中的UDP報文選出并將其根據(jù)流超時參數(shù)T組成符合FLOWS1格式的流記錄集合Flow,按第3節(jié)中提出的算法完成該Flow中各P2P流媒體類型的標(biāo)記,根據(jù)對Flow的標(biāo)記結(jié)果完成原始Trace中5種報文的標(biāo)識,并將所有已標(biāo)識的報文構(gòu)建集合B,并以此獲得該算法的查全率、查準(zhǔn)率以及整體正確率。

      5.2 評估標(biāo)準(zhǔn)

      本文采用常規(guī)的流量識別算法的有效評估標(biāo)準(zhǔn),所涉及的概念有以下幾個。

      真正TP(true positive):實際類型為i的樣本中被分類模型正確預(yù)測的樣本數(shù)。

      假正FP(false positive):實際類型為非i的樣本中被分類模型誤判為類型i的樣本數(shù)量。

      假負(fù)FN(false negative):實際類型為i的樣本中被分類模型誤判為其他類型的樣本數(shù)。查準(zhǔn)率(precision)為

      查全率(recall)為

      整體準(zhǔn)確率(overall accuracy)為

      5.3 分析數(shù)據(jù)和驗證結(jié)果

      分析數(shù)據(jù)為實測的 IP Trace[1],采集地點是CERNET江蘇省網(wǎng)邊界10Gbit/s主干信道。采集時采用了1/4的流抽樣,但這樣的抽樣方法對本文的分析結(jié)果沒有影響。筆者選擇了2組數(shù)據(jù)進(jìn)行分析,第1組(ALL_Trace1)谷時數(shù)據(jù)采集于2010年5月18號00:00 ~ 1:00,第2組(ALL_Trace2)峰時數(shù)據(jù)是當(dāng)天19:00 ~ 20:00的數(shù)據(jù)。具體參數(shù)如表2所示,流超時參數(shù)T=16,ALL_Trace的Flows count包括TCP流。

      表2 Trace數(shù)據(jù)描述

      表3 5種P2P流媒體所占比重

      從表3可以看出,5種P2P流媒體分別占總UDP報文的比重和占總報文的比重,PPS所占的比重最大,且這5種P2P流媒體已占總UDP報文數(shù)或字節(jié)數(shù)的20%左右。

      根據(jù) 5.1節(jié)所提出的驗證方法和上述實驗數(shù)據(jù),獲得如下計算結(jié)果,具體如表4所示。分析過程使用的時間粒度t是5min。

      表4 5種P2P流媒體的查準(zhǔn)率和查全率

      從表4的結(jié)果來看,5種P2P流媒體的識別正確率均達(dá)到 97%以上,所采用的實驗數(shù)據(jù)是谷時ALL_Trace1和峰時ALL_Trace1數(shù)據(jù)的總和。而為了分析 Trace數(shù)據(jù)采集在不同時段對分類結(jié)果的影響,將其與典型的機器學(xué)習(xí)算法C4.5及Naivebayes進(jìn)行了對比分析。機器學(xué)習(xí)所采用的測度屬性如表5所示。在表5中列出了16種所采用的測度屬性,并以此構(gòu)建機器學(xué)習(xí)的分類器,在進(jìn)行機器學(xué)習(xí)訓(xùn)練前要對這些標(biāo)記的TRACE數(shù)據(jù)進(jìn)行組流,并計算上述16種測度屬性。為了便于對“谷時”和“峰時”2組數(shù)據(jù)進(jìn)行研究討論,僅選擇5種P2P流媒體數(shù)據(jù)中的一種——PPS點播。

      表5 測度屬性及測度說明

      從圖2和圖3可以看出本方法的查準(zhǔn)率指標(biāo)優(yōu)于查全率,對“峰時”的效果優(yōu)于“谷時”。而采用NAIVEBAYES和C4.5機器學(xué)習(xí)算法則查準(zhǔn)率劣于查全率,并且無論是查準(zhǔn)率和查全率都要低于EXID識別算法。因為“峰時”的TRACE中包含大量的P2P交互的報文,這樣隨著樣本數(shù)的增加,對于識別精度也有所增大。而從下面的分析來看,這個影響的效果比機器學(xué)習(xí)方法的效果要小。主要是通過分析5種P2P流媒體總體正確率來說明算法的有效性以及樣本數(shù)對算法的影響。具體如圖4所示。

      圖2 查準(zhǔn)率比較

      圖3 查全率比較

      圖4 5種常見P2P流媒體的識別整體正確率

      從圖4可以看到,EXID算法在對5種常見的P2P流媒體的識別總體正確率比其他2個經(jīng)典的基于機器學(xué)習(xí)算法要高。更進(jìn)一步分析發(fā)現(xiàn)采用C4.5和NaiveBayes對5種P2P流媒體識別正確率QQLive最高,而皮皮點播的最低。從理論可以分析,由于機器學(xué)習(xí)對于樣本數(shù)據(jù)的比重較為敏感,而本TRACE數(shù)據(jù)中數(shù)據(jù)類型的比重大小排序為QQLive>pps 點 播 >pplive>UUSEE> 皮 皮 點 播 ,QQLive所占類型比例最大。從圖3觀察可以得出,采用機器學(xué)習(xí)的2種識別算法更易受樣本比重的影響,同時這也驗證了機器學(xué)習(xí)算法對樣本容量大的數(shù)據(jù)具有較好的識別結(jié)果。

      涉及到在線流量識別問題,就要考慮到算法的時間效率,因此下面通過對比其他2個經(jīng)典的機器學(xué)習(xí)算法來分析EXID算法的時間效率,實驗數(shù)據(jù)采用由1G的TRACE組流得到76530條流,并通過DPI技術(shù)構(gòu)建NOC_SET標(biāo)準(zhǔn)數(shù)據(jù)集,具體實驗結(jié)果如表6所示。

      表6 算法時間效率

      通過4.3節(jié)提到的時間復(fù)雜度的分析,并根據(jù)實驗結(jié)果可以得出EXID算法僅使用0.001s時間就完成了5種P2P流媒體的識別。而傳統(tǒng)的機器學(xué)習(xí)方法NaiveBayes和C4.5由于需要對數(shù)據(jù)集先進(jìn)行訓(xùn)練然后再進(jìn)行分類識別處理,這樣就耗費了一定的時間,從而對分類的時效性造成了影響。這也是目前機器學(xué)習(xí)在高速在線的流量識別中所要解決的問題。EXID算法僅采用聚類方法且時間復(fù)雜度較低、不需要進(jìn)行訓(xùn)練。因此具有較高的時間效率。在目前高速在線的流量識別過程中可以考慮采用此解決方案對P2P流媒體流量進(jìn)行分類識別。

      6 結(jié)束語

      本文通過對流行的 P2P流媒體行為特征的分析,提出了一種面向P2P流媒體應(yīng)用的UDP流量識別方法,經(jīng)對包含5種典型的P2P流媒體電視數(shù)據(jù)進(jìn)行識別,其實驗結(jié)果表明所提出的EXID算法具有很高的查全率和查準(zhǔn)率,而且時間復(fù)雜度低,在其使用的擴展流記錄格式能夠滿足的條件下,可實現(xiàn)在線識別。并且通過和經(jīng)典的機器學(xué)習(xí)算法的比較,結(jié)果表明:

      1) 具有更高的識別精度和整體的識別率;

      2) 不易受樣本比重的影響,這樣就可以把抽樣的影響降到最低。

      本文的研究工作也對其他路由器或具備流記錄生成能力的制造廠商在定義自己流記錄格式時具有參考意義。

      本文提出的基于最大最小報文長度的識別方法是從滿足在線識別角度出發(fā)設(shè)計的,而這些最大最小報文并不是實際中使用頻數(shù)最高的。如果不考慮時間復(fù)雜度的代價,僅從提高識別準(zhǔn)確率的需求考慮,按本文的思路,通過設(shè)計更復(fù)雜的測度標(biāo)準(zhǔn)可以設(shè)計出更好的算法,這些算法可以用于靜態(tài)IP Trace的分析,是今后工作的一個目標(biāo)。

      [1]IP trace distribution system[EB/OL].http://iptas.edu.cn, 2010.

      [2]張藝瀕,張志斌,趙詠等.TCP與UDP網(wǎng)絡(luò)流量對比分析研究[J].計算機應(yīng)用研究,2010,27(6):2192-2197.ZHANG Y B, ZHANG Z B, ZHAO Y, et al.TCP and UDP network traffic comparison analysis[J].Application Research of Computers,2010, 27(6):2192-2197.

      [3]LEE D, CARPENTER B E, BROWNLEE N.Observations of UDP to TCP ratio and port numbers[A].Proc Int Conf on Internet Monitoring and Protection (ICIMP)[C].Barcelona, Spain, 2010.99-104.

      [4]Tcpudpratio[EB/OL].http://www.caida.org/research/traffic-analysis/tcpudpratio, 2009.

      [5]樊華,李理,袁堅等.互聯(lián)網(wǎng)流量控制的朗之萬模型及相變分析[J].物理學(xué)報,2009,58 (11) :7507-7513.FAN H, LI L, YUAN J, et al.Langevin model of the flow control in the internet and its phase transition analysis[J].Acta Physica Sinica,2009, 58 (11):7507-7513.

      [6]Coralreef[EB/OL].http://www.caida.org/tools/measurement/coralreef,1999.

      [7]ROUGHAN M, SEN S, SPATSCHECK O, et al.Class-of-service mapping for QOS:a statistical signature-based approach to IP traffic classification[A].Proc of the ACM SIGCOMM Internet Measurement Conf[C].Taormina, Italy, 2004.135-148.

      [8]MOORE A W, ZUEV D.Internet traffic classification using Bayesian analysis techniques[A].Proc of the 2005 ACM SIGMETRICS Int’l Conf on Measurement and Modeling of Computer Systems[C].Banff,Alberta, Canada, 2005.50-60.

      [9]李君, 張順頤, 王浩云等.基于貝葉斯網(wǎng)絡(luò)的Peer to peer識別方法[J].應(yīng)用科學(xué)學(xué)報, 2009, 27 (2):124-130.LI J, ZHANG S Y, WANG H Y, et al.Peer to peer identification using Bayesian networks[J].Journal of Applied Sciences, 2009, 27(2):124-130.

      [10]徐鵬, 劉瓊, 林森.基于支持向量機的 Internet 流量分類研究[J].計算機研究與發(fā)展, 2009, 46 (3):407-414.XU P, LIU Q, LIN S.Internet traffic classification based on support vector machines[J].Journal of Computer Research and Development,2009, 46 (3):407-414.

      [11]KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M.BLINC:Multilevel traffic classification in the dark[A].Proc of the ACM Sigcomm[C].Philadelphia, USA, 2005.229-240.

      [12]L7-filter, application layer packet classifier for Linux[EB/OL].http://l7-filter.sourceforge.net, 2003.

      [13]胡超,陳鳴,許博等.一種基于爬蟲的分布式PPLive流實時檢測系統(tǒng)[J].解放軍理工大學(xué)學(xué)報,2008,9(5):512-516.HU C, CHEN M, XU B, et al.Reptiles distributed PPLive streaming real-time detection system[J].Journal of PLA University of Science and Technology (Natural Science Edition).2008, 9(5):512-516.

      [14]Cisco system, IOS netflow feature(S)[EB/OL].http://www.cisco.com/warp/public/732/Tech/nmp/NetFlow/, 2004.

      [15]胡超.一種P2P流識別和分析系統(tǒng)的設(shè)計與實現(xiàn)[D].南京:解放軍理工大學(xué), 2008.HU C.Design and Implementation of a P2P Flow Identification and Analysis System[D].Nanjing:PLA University, 2008.

      [16]BLEUL H, RATHGEB E P, ZILLING S.Advanced P2P multiprotocol traffic analysis based on application level signature detection[A].Proc of the Telecommunications Network Strategy and Planning[C].New Delhi, India, 2006.1-6.

      [17]XU K, ZHANG M, YE M J, et al.Identify P2P traffic by inspecting data transfer behavior[J].Journal of Computer Communications, 2010,33(10):1141-1150.

      [18]LIU X B, YANG J H, XIE G G, et al.Automated mining of packet signatures for traffic identification at application ayer with apriori algorithm[J].Journal on Communications, 2009, 30(12):51-59.

      [19]TEUFL P, PAYER U, AMLING M, et al.InfeCT-network traffic classification[A].Proc of the 7th Int’l Conf on Networking (ICN)[C].Cancun, Mexico, 2008.439-444.

      [20]PERéNYI M, MOLNáR S.Enhanced skype traffic identification[A].Proc of the 2nd Int’l Conf on Performance Evaluation Methodologies and Tools[C].Brussels, Belgium, 2007.1-9.

      [21]BONFIGLIO D, MELLIA M, MEO M, et al.Revealing skype traffic:when randomness plays with you[A].ACM SIGCOMM Computer Communication Review[C].New York, USA, 2007.37-48.

      [22]YANG A M, JIANG S Y, DENG H.A P2P network traffic classification method using SVM[A].Proc of the 9th Int’l Conf for Young Computer Scientists (ICYCS 2008)[C].Zhangjiajie, China, 2008.398-403.

      [23]ESTE A, GRINGOLI F, SALGARELLI L.On the stability of the information carried by traffic flow features at the packet level[A].ACM SIGCOMM Computer Communication Review[C].New York, USA,2009.13-18.

      [24]ESTE A, GRINGOLI F, SALGARELLI L.Support vector machines for TCP traffic classification[J].Computer Networks, 2009, 53(14):2476-2490.

      [25]ROUGHAN M, SEN S, SPATSCHECK O, et al.Class-of-service mapping for QoS:a statistical signature-based approach to IP traffic classification[A].Proc of the 4th ACM SIGCOMM Conf on Internet Measurement[C].New York, USA, 2004.135-148.

      [26]MORI T, UCHIDA M, GOTO S.Flow analysis of Internet traffic:world wide web versus peer-to-peer[J].Journal Systems and Com-puters in Japan, 2005,36(11):70-81.

      [27]BASHER N, MAHANTI A, WILLIAMSON C, et al.A comparative analysis of Web and peer-to-peer traffic[A].Proc of the 17th Int’l Conf on world wide web[C].New York, USA, 2008.287-296.

      [28]CHEN Q Z, SHAO B, CHEN C.Design and implementation of P2P traffic identification system based on compound characteristics[J].Journal of Southeast University (Natural Science Edition), 2008, 38(S1):109-113.

      [29]MOORE A W, ZUEV D.Internet traffic classification using bayesian analysis techniques[A].ACM SIGMETRICS Performance Evaluation Review[C].New York, USA, 2005.50-60.

      [30]LI W, CANINI M, MOORE A W, et al.Efficient application identification and the temporal and spatial stability of classification schema[J].Computer Networks, 2009, 53(6):790-809.

      [31]ERMAN J, MAHANTI A, ARLITT M, et al.Offline/realtime traffic classification using semi-supervised learning[J].Performance Evaluation, 2007, 64(9-12):1194-1213.

      [32]SEN S, SPATSCHECK O, AND D.WANG accurate, scalable in-network identification of P2P traffic using application signatures[A].in WWW[C].New York, USA, 2004.512-521

      [33]KARAGIANNIS T, BROIDO A, FALOUTSOS M.Transport layer identification of P2P traffic[A].Proc of International Measurement Conference[C].Sicily, Italy, 2004.121-134.

      [34]魯文斌,楊家海,劉洪波.基于節(jié)點連接模式的 P2P節(jié)點識別算法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2009, 49(7):1045-1049.LU W B, YANG J H, LIU H B.Identification of P2P peers based on connection patterns[J].Journal of Tsinghua University (Natural Science Edition), 2009, 49(7):1045-1049.

      猜你喜歡
      復(fù)雜度報文端口
      基于J1939 協(xié)議多包報文的時序研究及應(yīng)用
      汽車電器(2022年9期)2022-11-07 02:16:24
      一種端口故障的解決方案
      CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
      淺析反駁類報文要點
      中國外匯(2019年11期)2019-08-27 02:06:30
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      端口阻塞與優(yōu)先級
      求圖上廣探樹的時間復(fù)雜度
      ATS與列車通信報文分析
      某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
      初識電腦端口
      電腦迷(2015年6期)2015-05-30 08:52:42
      德江县| 芦山县| 大名县| 安丘市| 手机| 芒康县| 额尔古纳市| 海原县| 明溪县| 蚌埠市| 同仁县| 体育| 舒兰市| 乌兰浩特市| 雅安市| 嘉义市| 玉树县| 南靖县| 平和县| 西乌珠穆沁旗| 伊川县| 玉门市| 偃师市| 彭山县| 丽水市| 定州市| 台北市| 永安市| 林西县| 德令哈市| 南部县| 扎鲁特旗| 陇西县| 长垣县| 平潭县| 顺平县| 砚山县| 景宁| 元江| 谢通门县| 交城县|