林 波
濟南市聯(lián)通公司,山東濟南 250002
寬帶流量分析方法探討
林波
濟南市聯(lián)通公司,山東濟南250002
網(wǎng)絡流量的具體內(nèi)容通常不可知,通過網(wǎng)絡流量分析可以獲得網(wǎng)絡流量的各項統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)流量的訪問規(guī)律,結(jié)合網(wǎng)絡管理的各項手段發(fā)現(xiàn)網(wǎng)絡中存在的問題或流量可能對網(wǎng)絡產(chǎn)生的不良影響,并為下一步制定或修正網(wǎng)管策略提供依據(jù)。
流量;分類;檢測;統(tǒng)計;分析
近年來寬帶網(wǎng)絡一直保持高速增長,光纖到桌面已基本實現(xiàn),但網(wǎng)絡中巨大的流量會對網(wǎng)絡產(chǎn)生怎樣的影響,這些流量是如何構(gòu)成的,始終是一個問題。通過對寬帶流量的分析我們可以知道流量的源頭和目的、知道協(xié)議分布、知道端口情況、知道通信經(jīng)營指標等、當然最重要的還有數(shù)據(jù)的安全性。
不同的網(wǎng)絡,不同觀察點,不同時間的網(wǎng)絡流量因網(wǎng)絡規(guī)模,業(yè)務種類,用戶構(gòu)成和使用習慣的不同而不同,甚至受突發(fā)事件的影響,網(wǎng)絡流量在體量規(guī)模,構(gòu)成成分和比例上都有所不同。一個好的流量分類分析系統(tǒng),應滿足部署位置上的可移植性,流量規(guī)模的可伸縮性,時間演進的自適應性。這時系統(tǒng)不僅需要采用先進的分類技術(shù),也需要代表性的訓練數(shù)據(jù)集來確定系統(tǒng)運行參數(shù)。數(shù)據(jù)集主要采用2種方式:PCAP格式和NETFLOW格式,前者捕獲的是包級記錄,后者則是關(guān)于流級得統(tǒng)計信息記錄。
寬帶流量的分析和檢測首先要進行流量的采集,這項工作可以通過交換機或路由器的鏡像端口實現(xiàn),也可以通過光纜分光的方式實現(xiàn)。對捕獲的數(shù)據(jù)進行計算和統(tǒng)計,并把統(tǒng)計數(shù)據(jù)寫入數(shù)據(jù)庫,定期形成網(wǎng)絡性能和流量參數(shù)的報表,用作分析的依據(jù),在形成足夠數(shù)量的報表數(shù)據(jù)后,可以分析數(shù)據(jù)和系統(tǒng)性能變化的趨勢,判斷網(wǎng)絡是否存在瓶頸,并依據(jù)經(jīng)驗,形成經(jīng)驗數(shù)據(jù)庫,使網(wǎng)管系統(tǒng)具備學習的基礎和能力。在出現(xiàn)告警或異常情況時,可用來分析對比,判斷是否出現(xiàn)了網(wǎng)絡的攻擊和入侵,判斷惡意數(shù)據(jù)出現(xiàn)的源頭和特征,足夠數(shù)量的數(shù)據(jù)報表也可以指導各類應急預案的制定,在出現(xiàn)異常情況時可按照事先擬定的規(guī)則進行處理。
對于寬帶流量的分析和分類,系統(tǒng)需要進行統(tǒng)計模型的學習,統(tǒng)計模型的學習可以分為監(jiān)督學習和非監(jiān)督學習方法。所謂的監(jiān)督學習是需要使用已經(jīng)標注過的數(shù)據(jù)集合作為經(jīng)驗知識,對寬帶流量的參數(shù)和算法進行訓練;而非監(jiān)督學習則不需要使用已經(jīng)標注過的數(shù)據(jù)集進行訓練,只是根據(jù)相關(guān)算法對寬帶流量集進行匯聚。對數(shù)據(jù)集的訓練過程中需要由經(jīng)驗豐富的專家參與,并進行大量的基礎數(shù)據(jù)分析工作,網(wǎng)絡經(jīng)驗數(shù)據(jù)集是流量分析的重要構(gòu)成因素。在實際分析過程中,由于寬帶核心網(wǎng)絡的流量巨大,所以高性能的預處理路由器和大規(guī)模刀片服務器必不可少。為了提高分析效率,可以只分析單向流量,并且在預處理過程中將IP數(shù)據(jù)報文的載荷去掉。但由于各種網(wǎng)絡協(xié)議不斷演進,加密的流量不斷增加,各種新應用不斷出現(xiàn),網(wǎng)絡數(shù)據(jù)集的標注也變得越來越困難。
網(wǎng)絡流量的分類和分析中對于標準協(xié)議的分析最為準確,可根據(jù)TIP/IP協(xié)議簇中標準的服務端口號對流量報文進行匹配,并根據(jù)端口號的不同將流量對應為不同的應用。非標準協(xié)議可以使用DPI(深度包檢測)在應用層對流量進行特征字符串的分析匹配,由于不同的應用在TCP/UDP的數(shù)據(jù)包中包含特征字符串,因此在掌握的不同網(wǎng)絡應用的特征字符串后,可以將網(wǎng)絡流量精確的分類和匹配,缺點是需要消耗較多的系統(tǒng)資源。但很多網(wǎng)絡應用的特征字符串難找易變,代表性差及加密度高等問題,也導致誤檢率和檢全率下降。流量分析監(jiān)控和網(wǎng)絡應用的發(fā)展一直是不斷演變的矛盾。
基于協(xié)議的分類方法需要分析每種協(xié)議的特定的行為特性,標準的通信協(xié)議易于掌握,私有協(xié)議比如P2P或VOIP等基于軟硬件客戶端的應用則會有較多的變化,或進行加密使用就會影響流量分析的效果,甚至無法識別。有時同一應用軟件的不同版本間也會出現(xiàn)不同的流量特征,即版本的變化會造成協(xié)議特征的變化。另外,網(wǎng)絡中的單向流量、數(shù)據(jù)的時延、抖動都會對流量分析的算法產(chǎn)生影響。以上這些因素都是流量分析的難點和痛點。
運營商的骨干網(wǎng)絡逐漸向扁平化發(fā)展,網(wǎng)絡出口的數(shù)量增加和結(jié)構(gòu)日趨復雜,及動態(tài)路由算法的大量使用,使得網(wǎng)絡流量在多條鏈路或多個不同ISP之間動態(tài)調(diào)配,導致在某個觀察點只能得到部分流量,這對于依賴雙向流量特征的分析方法無法實施?;赑2P的應用目前也在不斷擴大,P2P的發(fā)展使得應用和傳輸分離,應用端點和傳輸分離,打破了原有的B/S或C/S的傳統(tǒng)傳輸模式,多源頭并發(fā)傳輸使得流量特征模糊化,使得數(shù)據(jù)采集的有效性無法保障。還有一些網(wǎng)絡應用為了逃避被檢測到,常常采用已知協(xié)議的方法,例如FTP、HTTP、POP3等,由于IP地址的區(qū)分,冒用已知協(xié)議并不會影響正常網(wǎng)絡通信,但給流量分析帶來很大難度。
寬帶網(wǎng)絡流量分析不僅可以使我們可以清楚的知道網(wǎng)絡流量的內(nèi)容,還可以為網(wǎng)絡建設、網(wǎng)絡優(yōu)化、運營管理、網(wǎng)絡安全保障提供依據(jù)和手段。同時,網(wǎng)絡應用在不斷推陳出新,各種私有化的協(xié)議和加密方法不斷出現(xiàn),且由于用戶接入帶寬的不斷提高,核心網(wǎng)流量呈幾何速度增長,這些因素在客觀上也大大增加了網(wǎng)絡流量分析的難度和成本?,F(xiàn)有的網(wǎng)絡流量分析再次面臨挑戰(zhàn),網(wǎng)絡流量的分析研究工作需要不斷深入進行。
[1]Nader F.Mir.計算機與通信網(wǎng)絡[M].潘淑文,等,譯.北京:中國電力出版社,2010,1.
[2]余浩,徐明偉.P2P流檢測技術(shù)研究綜述[J].清華大學學報,2009(4):610-620.
[3]彭蕓,劉瓊.Internet流分類方法的比較研究[J].計算機科學,2007,34(8):58-61.
[4]汪立東,錢麗萍.網(wǎng)絡流量分類方法與實踐[M].北京:人民郵電出版社,2013.
TN91
A
1674-6708(2016)166-00104-01
林波,濟南市聯(lián)通公司。