喻東陽, 陳宏偉, 楊 莊
(湖北工業(yè)大學計算機學院, 湖北 武漢 430068)
對等網(wǎng)絡(P2P)是近年來發(fā)展迅速的的網(wǎng)絡應用之一,根據(jù)統(tǒng)計,其占用的帶寬已占到了網(wǎng)絡總帶寬的60%~90%.大量的P2P應用已經(jīng)成為互聯(lián)網(wǎng)上帶寬消耗的主要原因,如何識別控制P2P業(yè)務流量成為產(chǎn)業(yè)界和學術界關注的熱點[1].
當前P2P流量識別技術主要有[2]:端口特征識別、連接模式識別、深度流檢測Deep Flow Inspection (DFI)[3]、 深度包檢測Deep Packet Inspection(DPI).其中,DPI是一種基于應用層的流量檢測和控制技術,其檢測的單位是單個完整的數(shù)據(jù)報文.通過預先給定某些具體P2P應用的報文特征,其掃描的過程中通過匹配特征庫中的特征來達到識別某報文是否為P2P報文的目的[4].DPI的核心是一個字符串的模式匹配算法,目前較為流行AC、Wu-Manber、SBOM三大多模匹配算法,本次仿真實驗僅用到AC算法.AC算法是KMP單模算法在多模上的擴展,不同的是,AC算法使用一種特殊的樹型數(shù)據(jù)結(jié)構,通過計算最長前綴移動窗口和匹配位置.
在高速寬帶的ISP上部署該類監(jiān)控系統(tǒng)時,由于流量很大,想要用DPI監(jiān)控系統(tǒng)對到來的數(shù)據(jù)報逐個分析較為困難.當前較為流行的做法是使用一定的抽樣策略來對數(shù)據(jù)報的量做一定的控制,使用抽樣策略可以大大減小DPI檢測的數(shù)據(jù)報的數(shù)量,使得資源消耗降低,整個系統(tǒng)的實時度也隨之提高[5].本文對基于信任策略的P2P流量識別展開研究.
圖1是使用DPI監(jiān)測的P2P流量識別體系結(jié)構圖.
圖 1 基于信任抽樣的P2P流量識別系統(tǒng)圖
其中Zα/2為標準正態(tài)分布的雙側(cè)α分為點.
由抽樣理論樣中抽樣比的確定公式
T=(N-1)d2/alogb(p+1).
其中參數(shù)ab滿足a2b=1,則抽樣比f確定為
本文只針對BitTorrent協(xié)議進行單一節(jié)點的測試,實驗過程中主機使用BitComet0.59版下載1G左右文件,在下載過程中對所有數(shù)據(jù)報進行捕獲并寫入數(shù)據(jù)庫,再使用離線的方式對數(shù)據(jù)庫中的記錄進行抽樣和信任抽樣分析,然后分析兩種抽樣方式各自的特點.初始化的參數(shù)如下.公共參數(shù):絕對誤差上限d=0.05,置信度1-α=0.95,N=1000.抽樣參數(shù):抽樣比f=0.286,樣本容量n=286.信任抽樣參數(shù):起始信任值T1=f(p=1.0),起始抽樣比f1=0.606,起始樣本容量n=606,樣本容量下限nl=30,b=e.在整個仿真實驗的過程中,由于預設總體N=1000,共進行181個周期,捕獲約18萬數(shù)據(jù)報.數(shù)據(jù)庫中字段從左到右依次是數(shù)據(jù)報編號、到達時間(s)、數(shù)據(jù)報間隔時間(μs)、流量(KB/s)、傳輸層協(xié)議、數(shù)據(jù)報長度(字節(jié))、生存期、源IP、源端口、目的IP、目的IP、該報文是否為P2P報文.
圖 2 不抽樣、抽樣、信任抽樣的估計量變化圖
圖 3 信任抽樣、抽樣的絕對誤差變化圖
本文首先介紹了已有的P2P流量識別技術,然后介紹了基于信任抽樣的P2P流量識別的系統(tǒng)模塊結(jié)構,在此基礎上使用簡單隨機抽樣和定長報文數(shù)量這一抽樣策略進行了仿真實驗并分析了實驗的結(jié)果.實驗結(jié)果表明,對于定長報文周期分片方式而言,抽樣以及信任抽樣估計量的精確度大致相同,這兩種抽樣方式都能將抽樣過程中比例估計量的絕對誤差控制在預設的范圍內(nèi).
[參考文獻]
[1] 陸 慶,周世杰,秦志光,等. 對等網(wǎng)絡流量檢測技術[J]. 電子科技大學學報, 2007,36 (6):1 333-1 337.
[2] 魯 剛,張宏莉,葉 磷.P2P流量識別[J].軟件學報,2011,22(6):1 281-1 298.
[3] Auld T, Moore Andrew W, Gull S. Bayesian neural networks for Internet traffic classification[J]. IEEE Transactions on Neural Networks, 2007, 18 (1): 223-239.
[4] CHENG Wei-qing, GONG Jian, DING Wei. Identifying file-sharing P2P traffic based on traffic characteristics[J]. The Journal of China Universities of Posts and Telecommunications, 2008, 15(4): 112-120.
[5] 郭振濱,裘正定.應用于高速網(wǎng)絡的基于報文采樣和應用簽名的BitTorrent流量識別算法[J].計算機研究與發(fā)展, 2008, 45(2):227-236.