• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡背景流量的分類與識別研究綜述

      2019-07-31 12:14:01鄒騰寬汪鈺穎吳承榮
      計算機應用 2019年3期
      關(guān)鍵詞:機器學習

      鄒騰寬 汪鈺穎 吳承榮

      摘 要:互聯(lián)網(wǎng)流量分類是識別網(wǎng)絡應用和分類相應流量的過程,這被認為是現(xiàn)代網(wǎng)絡管理和安全系統(tǒng)中最基本的功能。與應用相關(guān)的流量分類是網(wǎng)絡安全的基礎技術(shù)。傳統(tǒng)的流量分類方法包括基于端口的預測方法和基于有效載荷的深度檢測方法。在目前的網(wǎng)絡環(huán)境下,傳統(tǒng)的方法存在一些實際問題,如動態(tài)端口和加密應用,因此采用基于流量統(tǒng)計特征的機器學習(ML)技術(shù)來進行流量分類識別。機器學習可以利用提供的流量數(shù)據(jù)進行集中自動搜索,并描述有用的結(jié)構(gòu)模式,這有助于智能地進行流量分類。起初使用樸素貝葉斯方法進行網(wǎng)絡流量分類的識別和分類, 對特定流量進行實驗時,表現(xiàn)較好,準確度可達90%以上,但對點對點傳輸網(wǎng)絡流量(P2P)等流量識別準確度僅能達到50%左右。然后有使用支持向量機(SVM)和神經(jīng)網(wǎng)絡(NN)等方法,神經(jīng)網(wǎng)絡方法使整體網(wǎng)絡流量的分類準確度能達到80%以上。多項研究結(jié)果表明,對于多種機器學習方法的使用和后續(xù)的改進,很好地提高了流量分類的準確性。將各種機器學習的分類技術(shù)應用于流量分類是很有意義的研究。

      關(guān)鍵詞:流量分類;背景流量;機器學習;深度包檢測技術(shù);基于行為模式的分類

      中圖分類號: TP393.02

      文獻標志碼:A

      文章編號:1001-9081(2019)03-0802-10

      Abstract: Internet traffic classification is a process of identifying network applications and classifying corresponding traffic, which is considered as the most basic function of modern network management and security system. And application-related traffic classification is the basic technology of recent network security. Traditional traffic classification methods include port-based prediction methods and payload-based depth detection methods. In current network environment, there are some practical problems in traditional methods, such as dynamic ports and encryption applications. Therefore, Machine Learning (ML) technology based on traffic statistics is used to classify and identify traffic. Machine learning can realize centralized automatic search by using provided traffic data and describe useful structural patterns, which is helpful to intelligently classify traffic. Initially, Naive Bayes method was used to identify and classify network traffic classification, performing well on specific flows with accuracy over 90%, while on traffic such as peer-to-peer transmission network traffic (P2P) with accuracy only about 50%. Then, methods such as Support Vector Machine (SVM) and Neural Network (NN) were used, and neural network method could make accuracy of overall network classification reach 80% or more. A number of studies show that the use of a variety of machine learning methods and their improvements can improve the accuracy of traffic classification.

      Key words: traffic classification; background traffic; Machine Learning (ML); Deep Packet Inspection(DPI) technology; classification based on behavior patterns

      0 引言

      智能手機,特別是無線保真(Wireless-Fidelity, Wi-Fi)、第三代移動通信技術(shù)(3rd-Generation, 3G)、全球微博互聯(lián)接入(Worldwide interoperability for Microwave Access, WiMAX)、通用移動通信技術(shù)的長期演進(Long Term Evolution, LTE)等智能手機,傳感器和無線技術(shù)的革命使得社交網(wǎng)絡、M2M通信(Machine to Machine Communications)、物聯(lián)網(wǎng)應用、智能城市等先進應用和服務成為可能。因此,大量的數(shù)據(jù)在計算機網(wǎng)絡中產(chǎn)生并攜帶,消耗了稀少的無線電和帶寬資源,導致網(wǎng)絡擁塞或故障。實際上,每個流量都不必與用戶活動直接相關(guān)。 具體而言,移動設備上的應用程序會自動生成大量數(shù)據(jù)以更新其狀態(tài),由此可以引出背景(BackGround, BG)流量。

      BG流量由應用程序觸發(fā),Huang等[1]在研究屏幕工作時的流量和屏幕關(guān)閉時的流量發(fā)現(xiàn),屏幕關(guān)閉時產(chǎn)生的流量所占比例遠小于屏幕工作時的流量,但其流量包含的突發(fā)數(shù)量多得多。屏幕關(guān)閉時的流量突發(fā)在下行鏈路/上行鏈路分組和數(shù)據(jù)載荷的數(shù)量方面很少。在突發(fā)的下行鏈路平均有效載荷方面,屏幕開啟流量是屏幕流量的7倍。但是屏幕關(guān)閉時的突發(fā)流量數(shù)量少持續(xù)時間短但頻率較高,這種行為很可能導致較長的信道占用時間,并因此導致顯著的電池使用。因此,網(wǎng)絡運營商必須快速檢測和避免BG流量,以節(jié)省網(wǎng)絡資源,防止由于不必要的過載而導致的網(wǎng)絡故障。

      在實踐中,如果BG和前臺(ForeGround, FG)流量(Foreground Traffic,F(xiàn)G流量)被有效分離,網(wǎng)絡運營商可以制定合適的策略來控制網(wǎng)絡流量,從而提高網(wǎng)絡服務的服務質(zhì)量(Quality of Service, QoS)和體驗質(zhì)量(Quality of Experience, QoE)。例如,可以延遲在高峰時間遞送BG流量以節(jié)省FG流量的網(wǎng)絡資源以滿足用戶的通信需求。由于前臺和背景流量分離可以幫助優(yōu)化網(wǎng)絡管理和管理,尤其是提高網(wǎng)絡質(zhì)量,因此,從網(wǎng)絡流量中分離出背景流量成為一個亟待解決的問題。

      互聯(lián)網(wǎng)技術(shù)的發(fā)展,尤其是黑客技術(shù)的更新,導致互聯(lián)網(wǎng)中爬蟲流量等機器產(chǎn)生的流量越來越多,甚至超過人類用戶正常使用所產(chǎn)生的流量。在2012年的一項互聯(lián)網(wǎng)流量數(shù)據(jù)調(diào)查中就曾顯示,當時51%的互聯(lián)網(wǎng)流量不是用戶操作計算機產(chǎn)生的,而是由一些機器人用戶產(chǎn)生的。到2014年的時候再次調(diào)查發(fā)現(xiàn),互聯(lián)網(wǎng)中機器人流量比例已經(jīng)提升到61.5%。

      在這種發(fā)展下,應用流量的種類和數(shù)量快速增長,互聯(lián)網(wǎng)的網(wǎng)絡管理和服務質(zhì)量提供面臨了嚴峻的挑戰(zhàn)。其中一個重要的問題就是,如何對海量的各種應用流量進行有效地檢測、識別和分類。

      接下來,具體闡述了一些網(wǎng)絡流量的識別分類方法和它們的一些優(yōu)點和局限性,并嘗試將其具體應用到背景流量的識別分類上,并對其實用性進行分析。

      1 傳統(tǒng)流量識別分類方法

      查閱了一些相關(guān)文獻后,本文發(fā)現(xiàn)流量識別分類方法一般存在四種:基于端口的識別分類、基于深度包檢測的識別分類、基于行為模式的識別分類和基于機器學習的識別分類。

      其中比較傳統(tǒng)的流量識別方法為前三種,這一章著重描述一下前三種方法。

      Alberto Dainotti等[2]曾在論文中提及了流量識別分類研究的發(fā)展歷程。1992年時,RFC(Request For Comments)規(guī)定了標準端口空間,基于端口號的流量識別分類技術(shù)開始發(fā)展,并廣泛應用?;诙丝谔柕牧髁孔R別存在一些不足,進而在1998年,深度報文檢測(Deep Packet Inspection,DPI)技術(shù)被普遍認識使用。隨著加密數(shù)據(jù)流的增加和端口號提供信息的有限性,前兩種方法已經(jīng)不能滿足實際的需求,2005年,Thomas Karagiannis等[3]提出了一種新的方法,將重點放在了傳輸層上,提出了基于傳輸層行為模式分類的方法。同年,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,機器學習被應用到流量識別分類領(lǐng)域。由于該方法使用流統(tǒng)計特征進行流量分類,所以不會被隨機端口、數(shù)據(jù)包加密和網(wǎng)絡地址轉(zhuǎn)換等技術(shù)影響,其分類精度高、適用范圍廣,比前三種網(wǎng)絡流量分類方法更優(yōu)。圖1簡略表明了流量識別分類的發(fā)展。

      1.1 基于端口的識別分類

      基于端口號的流量識別是最早出現(xiàn)的流量識別分類方法,它的原理十分簡單,它根據(jù)數(shù)據(jù)包包頭中的端口號來區(qū)分不同的網(wǎng)絡應用類型。在20世紀90年代初互聯(lián)網(wǎng)應用的知名端口空間規(guī)范化后,它可以根據(jù)RFC規(guī)定的端口號和應用協(xié)議的對應關(guān)系進行流量識別分類。知名端口號范圍是0到1023,例如:應用文件傳輸協(xié)議(File Transfer Protocol, FTP)數(shù)據(jù)對應端口為20,應用FTP對應端口為21,而80端口則分配給應用超文本傳輸協(xié)議(HyperText Transfer Protocol, HTTP)等。

      這種方法簡單直接,易于實現(xiàn),只需要捕獲一條數(shù)據(jù)流的一個正常數(shù)據(jù)包就可以實現(xiàn),它只需要在基礎網(wǎng)絡設備上采用簡單的規(guī)則即可實現(xiàn),不需要額外的軟硬件設備支持,而且在傳統(tǒng)的網(wǎng)絡環(huán)境下,其識別效率和準確率非常高,因此在互聯(lián)網(wǎng)早期發(fā)展時,服務的端口號變化不多時,這種方法的復雜度低、實用性高。

      但是,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡中大量網(wǎng)絡應用開始使用動態(tài)端口技術(shù),不再使用標準端口提供網(wǎng)絡服務。例如許多主流的Web 服務器(Web Server)和FTP 服務器軟件,都允許用戶手工指定服務器端口,而不是使用固定端口。新型網(wǎng)絡應用(如對等網(wǎng)絡(Peer to Peer,P2P))都普遍采用隨機端口(端口范圍在1024~65535)技術(shù)進行數(shù)據(jù)傳輸,還有隨著防火墻技術(shù)的發(fā)展,大量的Internet應用為了防止防火墻的檢測,蓄意使用動態(tài)端口和偽裝端口技術(shù),更降低基于端口進行流量識別分類的準確度。Moore等[4]通過實驗發(fā)現(xiàn),現(xiàn)在基于端口的流量識別分類在最佳情況下也僅有31%的準確率。

      可以看到,基于端口的識別分類方法主要是通過已經(jīng)規(guī)定好的端口號來識別應用程序,而背景流量由很多應用程序的背景流組合而成,比較復雜。單純的基于端口的識別分類很難運用于一般復雜背景流的識別上。

      但是這并不代表這種方法應該就此被淘汰,基于端口的識別分類方法由于只需要獲取數(shù)據(jù)包的端口號,時間復雜度很低,實現(xiàn)簡單且分類速度快。該方法應用在高速網(wǎng)絡環(huán)境時,能夠快速并很好地識別一些端口號對應的應用層協(xié)議類別,因此仍然具有一定的實際使用價值。因此現(xiàn)有技術(shù)很多將基于端口的識別和其他技術(shù)(如機器學習等)結(jié)合應用,既能保證流量識別分類的準確率,又能提高識別速率,是現(xiàn)有方法的一大趨勢。

      1.2 深度包檢測的識別分類

      隨著網(wǎng)絡的發(fā)展,基于端口的流量識別分類已經(jīng)不能滿足需要,基于深度包檢測的識別分類方法應時而生。Moore等[4]在文章中設計了一種依靠完整數(shù)據(jù)包有效載荷的分類方法。文章提出的該方法可以看作是一個迭代過程,其目標是十分準確地得到特定流量的相應應用程序。將數(shù)據(jù)包分組為數(shù)據(jù)流可以更加高效地處理收集的信息以及獲取必要的上下文,以便對相應流的網(wǎng)絡應用程序進行適當?shù)淖R別,因此DPI運行在流而不是數(shù)據(jù)包上。文章Moore等[4]采取的第一步是根據(jù)數(shù)據(jù)包的五元組將數(shù)據(jù)包聚合成流。當為TCP網(wǎng)絡數(shù)據(jù)流(Transmission Control Protocol Network data stream )時,額外的語義也可以用來標識流程的開始和結(jié)束時間。文章的第二步是根據(jù)不同的標準迭代測試流動特性,直到獲得十分確定的有關(guān)應用程序標識。 這個過程由9個不同的識別子方法組成。DPI技術(shù)是通過底層的抓包工具,抓取多個數(shù)據(jù)包,并進行一定的模式匹配,找到與其特征值相匹配的應用程序。接下來介紹一些具有代表性的深度包檢測技術(shù)。

      2003年,Dewes等[5]在文章中提出將聊天流量與其他互聯(lián)網(wǎng)流量分開的方法,并展示這種方法的廣泛驗證結(jié)果。

      將Web聊天流量與其他網(wǎng)絡流量分開的方法是先大量收集滿足一些一般標準的所有網(wǎng)絡流量,然后保留所有與本文對分析得出的特征值相匹配的流,最后忽略已知的非聊天流量。

      2004年,Subhabrata Sen等[6]在文章中提出了一種通過應用程序級特征識別P2P應用程序流的有效方法。首先通過檢查一些可用的文檔和數(shù)據(jù)包級別的痕跡來識別應用程序級別簽名;然后,利用已識別的簽名開發(fā)在線過濾器,即使在高速網(wǎng)絡鏈路上也可以高效準確地跟蹤P2P流量。

      基于深度包檢測的識別準確率高,且可識別一定數(shù)目的協(xié)議,而且這種方法對絕大部分網(wǎng)絡流量(特別是P2P)都很有效。但同時它也有一定的局限性,理論上,DPI技術(shù)實現(xiàn)的前提是數(shù)據(jù)包載荷部分可見且特征值已知。當載荷部分進行加密時,DPI技術(shù)將失去作用,隨著電子商務等業(yè)務的發(fā)展,現(xiàn)在的一些主流客戶端都采取了載荷加密技術(shù),大大降低了DPI技術(shù)的準確率;DPI技術(shù)無法識別未知特征值,當網(wǎng)絡應用的特征值發(fā)生變化時,系統(tǒng)必須及時更新特征值列表,加大復雜度。另外,在使用DPI技術(shù)進行識別時,在提取流特征值時,需要捕獲和拷貝數(shù)據(jù)包,要消耗大量的資源;在通過特征值找到對應的應用程序時,要用到較復雜的匹配算法,加大DPI技術(shù)的復雜度。

      對于背景流,也可以運用DPI技術(shù)進行特征值提取并進行后續(xù)的識別分類??祵嶽7]在進行網(wǎng)絡協(xié)議(Hyper Text Transfer Protocol over Secure socket layer, HTTPS)網(wǎng)頁流量的指紋提取和識別技術(shù)研究時,為了檢測加入背景流后的識別效果,在文章中加入了背景流的指紋識別實驗。實驗結(jié)果表明,將背景流作為一個類別進行特征值識別可行性不高,原因在于背景流變化較大,要更新特征值數(shù)據(jù)消耗過大,同時背景流的規(guī)模較大,導致識別分類的復雜度過大。實驗結(jié)果表明,在背景流較為復雜的情況下,單純的基于DPI的流量識別分類技術(shù)并不適用于背景流。但隨著互聯(lián)網(wǎng)應用流量的發(fā)展,DPI技術(shù)也逐漸朝著智能化方向發(fā)展,接下來介紹幾種基于DPI技術(shù)的一些后續(xù)技術(shù),可以克服DPI技術(shù)的缺點,提高流量識別的準確度。

      一種方法是運用深度流檢測(Deep Flow Inspection, DFI )技術(shù)主要是為了彌補克服DPI 技術(shù)對加密數(shù)據(jù)流量識別的不足,DFI技術(shù)即深度數(shù)據(jù)流檢測技術(shù),是一種基于流量行為的應用識別技術(shù),即利用不同的應用程序的流的不同狀態(tài)來進行流量識別。它假設不同應用會有其應用特有的流量統(tǒng)計特性,與DPI技術(shù)相比,它處理時間較快,維護成本較低,識別方法比較籠統(tǒng),準確度不如DPI,但不受載荷加密技術(shù)的影響。劉佳雄[8]設計了一種基于DPI 技術(shù)和DFI 技術(shù)相結(jié)合的網(wǎng)絡流量識別方案,并且將此方案運用到了實踐中,克服了現(xiàn)網(wǎng)中變端口P2P 網(wǎng)絡流量和加密流量難以識別的困難。胡慶安[9]也結(jié)合了DPI技術(shù)實時性好、準確率高和DFI技術(shù)可對加密協(xié)議和未知流量進行識別的優(yōu)點,提出一種基于雙重特征的協(xié)議識別方法。

      另一種方法是在降低匹配算法的復雜度方面著手。在傳統(tǒng)深度包檢測匹配引擎中,正則表達式規(guī)則采用不確定有窮自動機(Nondeterministic Finite Automata, NFA)模式來實現(xiàn),匹配時存在著大量的回溯現(xiàn)象,因而匹配速度較低。陳傳通[10]提出可以使用確定有窮自動機(Deterministic Finite Automaton, DFA)方式來實現(xiàn)正則表達式規(guī)則。該方法不存在回溯現(xiàn)象且可以通過一次掃描匹配多條正則表達式規(guī)則,但會因為規(guī)則數(shù)量增多導致引擎規(guī)模太大無法實現(xiàn)。因此論文中提出了對網(wǎng)絡協(xié)議加權(quán)設置優(yōu)先級的識別方法,并提出了具體的加權(quán)分組算法。該方法對于高優(yōu)先級的網(wǎng)絡協(xié)議組,采用DFA的形式,對于低優(yōu)先級的協(xié)議組采用混合有窮自動機(Hybrid Finite Automata, Hybrid.FA)的方式來實現(xiàn)。該算法相比于傳統(tǒng)識別引擎,匹配速度可以提高29倍左右。DPI技術(shù)傳統(tǒng)的匹配算法有KMP算法(Knuth-Morris-Pratt Algorithm)、BM字符串搜索算法(BM String Searching Algorithm)、WM(Wu-Manber)算法和AC(Aho-Corasick)自動機算法。劉瀧[11]在論文中對各種算法進行了比對研究,提出了BMF(BM Fast)算法;然后設計了基于Hadoop平臺DPI技術(shù)的流量識別,利用Hadoop平臺處理大規(guī)模數(shù)據(jù)流量的優(yōu)勢,將DPI技術(shù)與MapReduce進行結(jié)合,設計了MapReduceBoyer-MooreFast算法。

      1.3 BLINC(BLINd Classification)

      單純的基于DPI技術(shù)的流量識別分類局限性比較大,不能對加密的數(shù)據(jù)流進行有效的識別。隨著網(wǎng)絡中加密應用的增加,基于行為模式的流量識別技術(shù)開始發(fā)展。BLINC方法最早由Karagiannis等[3]在論文中提及。文章提出的方法不能訪問數(shù)據(jù)包有效載荷,不知道端口號,以及除了當前流量收集器提供的額外信息。與流量分類領(lǐng)域提出的其他方法相比,BLINC實現(xiàn)了一個相當不同的理念。 主要區(qū)別如下:

      1)文章主張分類方法的重點從流向主機轉(zhuǎn)移時,可以積累足夠的信息以消除每個主機在不同流中的角色,從而識別特定應用。

      2)該方法運行在流量記錄上,不需要關(guān)于單個數(shù)據(jù)包的時間或大小的信息。 方法的輸入可能是當前部署的設備收集的流量記錄統(tǒng)計。

      3)對擁塞或路徑變化等網(wǎng)絡動態(tài)不敏感,這可能會影響很大程度上依賴流中數(shù)據(jù)包之間的到達間隔時間的統(tǒng)計方法。

      4)每一種應用對應的流量都有其特定的行為模式,因此基于行為模式的識別準確率較高,但這種方法只適用于特定應用的數(shù)據(jù)流管理。背景流量雖然沒有對應的應用程序,但它也有其行為模式,根據(jù)其行為模式直接可以識別和分類出背景流量。例如下文中就利用已驗證的背景流的周期性對背景流進行識別分析。

      1.3.1 PCA(Period Candidate Array)

      通過Minh等[12]對網(wǎng)絡流量的觀察表明,應用程序定期更新其與內(nèi)容服務器的狀態(tài),而在用戶活動中很少看到嚴格的周期性。由此得出:如果一個單獨的移動設備產(chǎn)生的針對一個服務器的特定服務或數(shù)據(jù)的所產(chǎn)生的TCP流是周期性的,那么它將是BG流量。利用這一特性,該論文提出了一個新穎的方法PCA。PCA系統(tǒng)部署在由互聯(lián)網(wǎng)服務提供商(Internet Service Provider,ISP)或網(wǎng)絡運營商管理的網(wǎng)絡邊緣。它捕獲流量并檢測流量是否是BG流量。PCA方法通過分析流量的周期性來解決BG流量檢測問題。對實際流量(TCP流)的觀察表明,流量通常很長而且稀疏。所提出的PCA方法通過利用流稀疏性降低了計算成本。通過僅提取和處理與周期性分析相關(guān)的發(fā)生位置形成周期候選隊列來壓縮長而稀疏的流。在此基礎上,論文考慮了網(wǎng)絡延遲的影響,利用了改進的自相關(guān)函數(shù)來進行周期候選隊列的周期性檢測。

      1.3.2 PDM(Periodicity Detection Map)

      Minh[13]在PCA研究的基礎上提出了PDM方法。 PDM的方法原理與PCA相同,都是利用BG流量的周期性,所以大致的步驟也類似。首先它也是考慮到TCP連接流的周期性和基于自動相關(guān)(AC)和投影的方法,在基于流是稀疏流這一現(xiàn)象提出了PDM的方法。

      不同的是,PDM是一個將時間序列T轉(zhuǎn)換為特定數(shù)據(jù)結(jié)構(gòu)的映射,該結(jié)構(gòu)對于快速識別T中的周期性非常有用,可以有效地用于快速檢測給定序列T的最大潛在周期。同時,由于不是每個BG業(yè)務流量都是周期性的,PDM可能無法檢測到非周期性BG流量。所以該論文接下來利用機器學習(Machine Learning, ML)模型分類非周期性流量,通過PDM方法(通過周期性分析)檢測到的BG流量的統(tǒng)計數(shù)據(jù)用于訓練ML模型,然后用它來分類非周期性的流量。

      1.3.3 ICA(Independent Component Analysis)

      Mekky等[14]研究目的是為了進行惡意軟件分類,但實際上,惡意軟件流量(惡意軟件信號)與其他合法流量(背景信號)混合在一起。 因此,分類器的有效性可能會受到阻礙,因為所觀察到的流量是混合的。因此建議應用信號分解,以便將觀察到的流量分解為惡意軟件流量和背景流量兩個組件,然后再刪除背景流量,分類技術(shù)可有效應用于惡意軟件流量。

      ICA是一種假設將獨立性的多元信號分解為附加分量的方法,它用于將惡意軟件流量與背景流量分離。ICA算法依靠獨立性來恢復混合流量中的原始信號。文中提出了一個ICA分解器,用于從網(wǎng)絡流量中提取并移除背景流量。假設m個獨立的源信號S=[S1,S2,…,Sm]T。觀察混合物X=[X1,X2,…,Xm]T由X=A×S給出,其中A被稱為混合矩陣。ICA的目標是找到一個非混合矩陣W(約等于A的-1次方),使得Y=W×X約等于S,這將是S的最佳近似值??梢钥吹?,兩種基于周期性分析的方法PCA、PDM,可以有效和高效地檢測BG流量。當分析的數(shù)據(jù)稀疏時,PCA將傳統(tǒng)方法中的O(n2 log n)的復雜度降低至O(n)。PCA還解決了需要大量計算時間和相關(guān)歷史數(shù)據(jù)的ML方法中的固有問題。另外,PCA在用延長周期概念分析由延遲構(gòu)成的網(wǎng)絡流量方面起到了作用。PDM方法有效地減少了計算空間,PDM還可以靈活地判斷流量是否是周期性。因此,當分析的數(shù)據(jù)很長且稀疏時,PDM同樣將傳統(tǒng)方法中的O(n2 log n)的復雜度降低至O(n)。這說明基于行為模式的識別可以靈活運用到背景流的識別上來,但這個方法還是存在一定的局限性,背景流的周期性并不總是確定的,并不是每一個背景流都是周期性的,背景流的其他特征還需要進一步的研究。為了對背景流進行更加精確的分類和識別,接下來本文介紹基于機器學習的識別和分類方法。

      2 基于機器學習的識別分類

      隨著網(wǎng)絡的發(fā)展,產(chǎn)生的網(wǎng)絡流量的種類越來越多,數(shù)據(jù)量也越來越龐大,傳統(tǒng)方式已經(jīng)無法勝任對數(shù)據(jù)流量進行合理的分類工作,這導致了數(shù)據(jù)沖突、資源耗費、通信延遲、通信效率不斷降低等一系列問題。因此,有研究人員將機器學習機制引入到網(wǎng)絡流量分類工作中,對網(wǎng)絡流量中一些帶有特征的流量信息進行識別分類,以提高流量分類的準確性和快捷性,且從研究成果來看,這些方法的效果都很好,具體的效果在以下章節(jié)中會詳細說明。

      在過去的十年中,人們對有關(guān)機器學習技術(shù)在流量分類中的應用進行了大量研究。這些研究工作運用的主要方法可以分為監(jiān)督方法或無監(jiān)督方法。

      2.1 數(shù)據(jù)及采集方法

      在2005年,機器學習技術(shù)應用于網(wǎng)絡流量分類的高峰時期,Moore等[15]為了研究應用樸素貝葉斯技術(shù)對基于流量統(tǒng)計特征的網(wǎng)絡流量進行分類的方法,于2005年在對流量統(tǒng)計特征全面描述的基礎上,制作了一個公開的數(shù)據(jù)集。這個數(shù)據(jù)集的制作方法是研究人員提出了一種網(wǎng)絡監(jiān)控架構(gòu),該架構(gòu)能夠與1Gb/s全雙工網(wǎng)絡連接。執(zhí)行多協(xié)議分析; 從線路捕獲所有數(shù)據(jù)。 應用程序、傳輸和網(wǎng)絡協(xié)議的集成分析使得它們的交互可以被分析和研究。 此外,傳輸和網(wǎng)絡狀態(tài)的關(guān)聯(lián)使得實驗不必使用很大的數(shù)據(jù)進行分析。

      數(shù)據(jù)集分類如表1所示。

      2009年,Este等[16]在研究支持向量機(Support Vector Machine, SVM)對互聯(lián)網(wǎng) TCP 流量進行識別的實驗中采用了3個數(shù)據(jù)集進行實驗。

      2.1.1 UNIBS數(shù)據(jù)集

      此集的數(shù)據(jù)包是在Faculty網(wǎng)絡的邊界路由器上收集的。由于研究人員對此路由器具有完全監(jiān)視器訪問權(quán)限,因此捕獲了每個數(shù)據(jù)包的前400個字節(jié)??梢詰媚J狡ヅ錂C制來評估生成每個TCP流的實際應用程序,在某些情況下添加手動檢查。由于這一點,研究人員認為從UNIBS得到的訓練和評估集相對于預分類信息是相對可靠的,即,獨立于分類器知道哪個應用產(chǎn)生了每個流。

      訓練和評估集都由屬于不同應用類型的協(xié)議類組成:Web瀏覽、郵件服務、P2P和交互。選擇它們是因為它們負責產(chǎn)生大部分流量,并且因為它們的多樣性,它們允許驗證基于SVM的技術(shù)的一般適用性。此外,它們可以通過模式匹配方法輕松識別,并具有令人滿意的準確度和精度。

      每個類只有400個向量來自訓練集,并且在捕獲時間接近的流之間存在明顯的相關(guān)性,即它們通常由相同的源生成。由于需要對協(xié)議特征進行完整描述,因此研究人員收集了更大的流量并為訓練階段提取了一個小的隨機子集。在訓練集中插入了表2中列出的前6個協(xié)議。在每個協(xié)議名稱旁邊展示了它生成的流的百分比以及它已傳輸?shù)淖止?jié)部分;在最后一列中,僅考慮與應用層對應的字節(jié)的百分比。

      除了上面提到的6個協(xié)議之外,研究人員還在評估集的表格中包含了其他3類流程,這些類用于驗證分類器識別與訓練階段使用的協(xié)議不同的協(xié)議的能力。研究人員負責從兩個不同的連續(xù)時間框架中收集的痕跡中選擇訓練和評估集。

      2.1.2 LBNL數(shù)據(jù)集

      LBNL流量是在勞倫斯伯克利國家實驗室收集的,并使用工具tcpmkpub進行匿名化。

      數(shù)據(jù)包是在LBNL網(wǎng)絡的兩個中央路由器上收集的,它們包含從數(shù)千個內(nèi)部主機生成的流量。

      測量系統(tǒng)允許同時存儲20個路由器端口中僅有兩個的流量。因此,周期性地被監(jiān)視子網(wǎng)發(fā)生變化,并且所得到的跟蹤依次來自子網(wǎng)的連續(xù)。此測量過程會影響LBNL流量的特性,因為對于每個應用協(xié)議,流的數(shù)量及其統(tǒng)計屬性可能取決于監(jiān)控的子網(wǎng)。

      測量系統(tǒng)允許同時存儲20個路由器端口中的2個端口的流量。因此,被監(jiān)視的子網(wǎng)會周期性地發(fā)生變化,所以得到的跟蹤流來自不同的子網(wǎng)。此測量過程會影響LBNL流量的特性,因為對于每個應用協(xié)議,跟蹤流的數(shù)量及其同技術(shù)性可能取決于受監(jiān)控的子網(wǎng)。

      協(xié)議的選擇與UNIBS實驗不同,它包括表3中前6個類的訓練階段。在評估集中,還考慮了表中顯示的其余8個類。

      由于需要盡可能多的流來表征給定的協(xié)議,因此研究人員分析了這些流量以確定最常見的應用程序,并將它們分組以形成表中報告的組合。

      2.1.3 CAIDA數(shù)據(jù)集

      CAIDA數(shù)據(jù)集包含2002年8月14日沿OC48鏈路在AIX(AMES Internet Exchange)上3h內(nèi)收集的流量。使用從第一個小時(對應于16:15—17:00 UTC的時間間隔)提取的流來構(gòu)建訓練集,第三個小時(18:00—18:10 UTC)提取的流量創(chuàng)建評估集。

      使用CAIDA數(shù)據(jù)集來驗證分類器對骨干鏈路的適用性,其中高傳輸速率比較常見,并且流量源比本地網(wǎng)絡更具有異構(gòu)性。

      用于選擇協(xié)議的過程與LBNL數(shù)據(jù)集所遵循的過程相同。訓練集中使用的流程對應于表4中顯示的前6個類別。在評估集中包括其余5個協(xié)議。

      2.2 有監(jiān)督方法

      有監(jiān)督的流量分類方法具有分析監(jiān)督訓練數(shù)據(jù),并產(chǎn)生推斷的功能,可以預測任何測試流程的輸出類別。在有監(jiān)督的流量分類中,充分的監(jiān)督訓練數(shù)據(jù)是一個普遍的假設。

      2.2.1 樸素貝葉斯方法

      為了解決基于有效載荷的流量分類所帶來的問題,如加密應用和用戶數(shù)據(jù)隱私,Moore等[15]應用有監(jiān)督的樸素貝葉斯技術(shù)對基于流量統(tǒng)計特征的網(wǎng)絡流量進行分類。所使用的數(shù)據(jù)集中的流量流被手動分類(基于流量內(nèi)容),從而可以進行準確的評估。248個基于全流量的特征用于訓練分類器,這些特征中有基本的統(tǒng)計特征,例如最大、最小、平均包大小,最大、最小、平均包到達時間間隔等,也有復雜的衍生特征和變換特征,例如對包大小序列作傅里葉變換等。將用于互聯(lián)網(wǎng)應用的所選流量分組為不同的類別以用于分類,例如,Web 訪問流量(WWW)、郵件流量(MAIL)、大塊文件傳輸流量(BULK)、 網(wǎng)絡服務流量(SERV)、數(shù)據(jù)庫流量(DB)、P2P流量(P2P)、攻擊流量(ATT) 和互聯(lián)網(wǎng)多媒體流量(MMEDIA)等8種重要互聯(lián)網(wǎng)流量。為了評估分類器的性能,研究使用Accuracy和Trust(相當于Recall)作為評估指標。結(jié)果表明,使用簡單的樸素貝葉斯技術(shù),使用整個流動特征群體,可以在分類中獲得大約65%的流動精度。使用具有核密度估計的樸素貝葉斯(Naive Bayes using Kernel density estimation, NBK)和相關(guān)性快速過濾特征選擇(Fast Correlation Based Filter, FCBF)的方法對分類器進行了兩次改進。這些改進有助于減少特征空間,并將對于流量的分類器性能提高到優(yōu)于總體精度的95%以上。憑借最優(yōu)的組合技術(shù),單個應用類別的準確率分別為:Web訪問流量98%,批量數(shù)據(jù)傳輸90%,服務流量約44%和P2P 55%。在另一實驗中Moore等又應用貝葉斯神經(jīng)網(wǎng)絡方法擴展了這項工作。已經(jīng)證明,與樸素貝葉斯技術(shù)相比,精度進一步提高。貝葉斯訓練的神經(jīng)網(wǎng)絡方法能夠?qū)ν惶爝M行訓練和測試的數(shù)據(jù)進行高達99%的準確率分類,對相隔8個月的數(shù)據(jù)進行訓練和測試的準確率達到95%。

      Williams等[17]提供了ML流量分類的性能方面的見解。著眼于許多監(jiān)督ML算法:具有離散化的樸素貝葉斯(Naive Bayes using Discretization, NBD),具有核密度估計的樸素貝葉斯(NBK),C4.5決策樹決策樹,貝葉斯網(wǎng)絡和樸素貝葉斯樹。這些算法的計算性能根據(jù)分類速度(每秒分類數(shù)量)和構(gòu)建相關(guān)分類模型所花費的時間進行評估。

      結(jié)果表明,大多數(shù)算法通過22個(選出的)特征實現(xiàn)了高流量精度(除了NBK算法達到的精度只有80%以上,其余算法均達到95%以上的精度)。之后使用8個基于關(guān)聯(lián)的特征選擇(Correlation-based Feature Selection, CFS)和9個基于一致性的特征選擇(CONsistency-based feature selection, CON)減少特征集合,通過交叉驗證獲得的結(jié)果與使用全特征集合相比,總體精度僅顯示出極小的變化。使用CON方法減少特征集,NBD和NBK的準確度最多降低2%~2.5%。

      盡管分類準確性相似,但各分類方法在計算性能方面表現(xiàn)出顯著差異。在使用任何不同的特征集時,C4.5 決策樹算法都被認為是最快的算法。按照分類速度降序排列的算法是:C4.5 決策樹、離散化的樸素貝葉斯(NBD)、貝葉斯網(wǎng)絡、樸素貝葉斯樹、核密度估計的樸素貝葉斯(NBK)。

      就模型構(gòu)建時間而言,樸素貝葉斯樹需要比其余算法長得多的時間。按照模型構(gòu)建時間降序排列的算法是:樸素貝葉斯樹、C4.5 決策樹、貝葉斯網(wǎng)絡、離散化的樸素貝葉斯(NBD)、核密度估計的樸素貝葉斯(NBK)。

      結(jié)果還表明,對于大多數(shù)算法來說,特征數(shù)量的減少大大提高了算法在模型構(gòu)建時間和分類速度方面的性能。

      2.2.2 支持向量機(SVM)

      SVM 作為一種經(jīng)典的 ML 模型,在流量識別研究中非常受歡迎,許多研究者力圖使用 SVM 構(gòu)建高效的流量識別模型。Este 等采用 SVM 對互聯(lián)網(wǎng) TCP 流量進行識別,在這項研究中, 展示了一種SVM單分類方法的應用,用于分類網(wǎng)絡流量和檢測離群值數(shù)據(jù)包。分類器集成了SVM的“一對多”方法,在需要時解決多類問題。同時引入了一個簡單的優(yōu)化程序來為使用的數(shù)據(jù)集導出理想的SVM參數(shù),從而導出一個訓練過程。最后分析了基于SVM的分類器應用于三條數(shù)據(jù)軌跡的結(jié)果,其中兩條來自大型局域網(wǎng),另一條來自互聯(lián)網(wǎng)主網(wǎng)。

      將這一技術(shù)應用于三種不同的數(shù)據(jù)集UNIBS、LBNL和CAIDA。在幾乎所有情況下,分類器的準確性都非常好,大部分都能達到90%甚至95%以上,證明SVM 在流量識別中可以獲得相當高的精度。有些情況下分類器的性能可能不是很好,例如來自CAIDA數(shù)據(jù)集的包含未知協(xié)議的類,使用基于SVM的分類器對CAIDA數(shù)據(jù)集進行分類只能達到86.5%的效果。本文認為,這些問題中的大多數(shù)歸因于(基于端口的)預分類器的不可靠性。而后2011年,文獻[18]中他們進一步將 SVM 應用到在線流量識別中。2014年,Groléat 等[19-20]針對高速網(wǎng)絡環(huán)境,結(jié)合 FPGA 技術(shù),對基于 SVM 的流量識別模型進行硬件加速,使其適應真實的主網(wǎng)環(huán)境。

      2017年,Kong等[21]利用SVM在多分類問題中的優(yōu)秀表現(xiàn),將其應用在流量識別系統(tǒng)中,研究出了異常流量識別系統(tǒng)(ATIS),可以對多種攻擊流量應用進行分類和識別。He[22]提出一種基于特征加權(quán)的支持向量機(Support Vector Machine with Feature Weighted-Degree, FWD-SVM)的網(wǎng)絡流量分類方法。通過對大規(guī)模樣本集上流量分類實驗的分析比較,此方法可以減少樣本分布的影響,提高計算速度,提高網(wǎng)絡流量分類的準確性,同時還具有很好的泛化能力。在表5中給出了,F(xiàn)WD-SVM在大規(guī)模樣本集上進行流量分類實驗的結(jié)果與其他四種經(jīng)典分類方法的準確性比較。

      2.2.3 神經(jīng)網(wǎng)絡(NN)

      如上文提到的Moore 等在前期研究的基礎上,通過采用貝葉斯神經(jīng)網(wǎng)絡的方法對他們所收集的數(shù)據(jù)集進行流量識別,實驗所得出的結(jié)果比之前僅使用樸素貝葉斯分類器的方法在識別精度上面得到了很大的提高。

      Raahemi 等[23-25]也較早致力于用人工神經(jīng)網(wǎng)絡(Artificial Neural Network, ANN)進行 P2P 流量識別。他對Moore的方法提出了一些分析,他認為雖然樸素貝葉斯方法很有前途,但由于涉及太多的鑒別器,所以存在一個關(guān)于該方法的可擴展性的問題,并且準備數(shù)據(jù)(具有許多屬性)和分配業(yè)務流到預定義的類別需要很多時間。因此他提出采用監(jiān)督機器學習技術(shù)中,以多層感知器神經(jīng)網(wǎng)絡作為分類器對網(wǎng)絡流量進行分類。 對數(shù)據(jù)進行預處理并標記數(shù)據(jù),并在訓練數(shù)據(jù)集中使用不同比率的P2P /非P2P的不同屬性的組合來構(gòu)建若干模型。結(jié)論為觀察到應用的神經(jīng)網(wǎng)絡模型需要不斷更新以確保檢測到新的同伴群體。而后Raahemi等又發(fā)現(xiàn)上述工作中采用的神經(jīng)網(wǎng)絡是一個非增量分類器,并不總是可以持續(xù)更新非增量算法。所以他們又改進為應用增量神經(jīng)網(wǎng)絡和Fuzzy ARTMAP來對互聯(lián)網(wǎng)流量進行分類。在校園網(wǎng)關(guān)上捕獲互聯(lián)網(wǎng)流量,對數(shù)據(jù)進行預處理和標記,并針對不同規(guī)模的培訓/測試數(shù)據(jù)集建立模糊ARTMAP神經(jīng)網(wǎng)絡分類模型,分別用于增量學習和非增量學習模式。用靈敏度、特異性和準確性來衡量分類器的性能。實驗結(jié)果表明當訓練集的大小相對較小時(大約4000次或更少),增量學習的性能比非增量學習的性能要好。當訓練集的大小增加時,增量學習的性能優(yōu)勢消失。

      這一觀察結(jié)果突出了在線流數(shù)據(jù)挖掘任務的實際用法,例如互聯(lián)網(wǎng)中對等流量的分類。在這種類型的應用程序中,通常對可用內(nèi)存量有限制。因此,需要具有需要小規(guī)模訓練數(shù)據(jù)的分類算法。實驗結(jié)果證實,當訓練樣本很小時,增量學習算法,尤其是ARTMAP神經(jīng)網(wǎng)絡,表現(xiàn)比非增量學習算法好得多?;谶@種觀察,建議使用增量學習方法來分類P2P流量。該算法,例如Fuzzy ARTMAP神經(jīng)網(wǎng)絡,可以在路由器中實現(xiàn)(可能在最終用戶的訪問接口上),作為后臺進程連續(xù)運行。

      除上述方法以外,還有各種類型的人工神經(jīng)網(wǎng)絡都被應用到網(wǎng)絡流量識別中,例如文獻[26-28]中提到的BP 神經(jīng)網(wǎng)絡、文獻[29-31]中提到的概率神經(jīng)網(wǎng)絡和文獻[32]中提到的RBF神經(jīng)網(wǎng)絡等。前幾年,Mathewos 等[33]提出一種并行計算的架構(gòu),用以提高神經(jīng)網(wǎng)絡的訓練和識別速度,使之適應實際的流量識別問題。

      2017年,Wang等[34]使用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)方法,將原始流量數(shù)據(jù)作為圖像,使用CNN進行圖像分類,最終實現(xiàn)惡意流量分類的目標。這是首次將圖像學習方法應用于使用原始流量數(shù)據(jù)的惡意軟件流量分類域。由于流量數(shù)據(jù)的連續(xù)性和圖像數(shù)據(jù)的離散性不同,研究了多種流量圖像類型,并通過實驗發(fā)現(xiàn)了CNN為最佳類型。為了證明提出的方法的可擴展性,使用三種分類器在兩種情況下進行實驗,最終的平均準確率為99.41%,符合實際應用標準。

      2.2.4 C4.5決策樹

      在上文樸素貝葉斯方法中提到Williams等提供了ML流量分類的性能方面的見解。著眼于許多監(jiān)督ML算法,并分析評估各類算法的性能。

      在使用任何不同的特征集時,C4.5 決策樹算法都被認為是最快的算法。文獻[35-36]中也表明,將C4.5算法應用于P2P流量分類,性能比廣泛使用的貝葉斯方法更好更穩(wěn)定,并且能夠有效地避免P2P流量分布波動的影響。

      而Zhang等[37]表示研究方法在實時分類方面很差。這主要是由于流程持續(xù)時間、流量大小和數(shù)據(jù)包計數(shù)器等屬性集合造成的,只有在流程結(jié)束時才能夠精確獲取。文獻中的子流模型可以大大提高分類的及時性,但只有當流量可以分為不同的階段時才能有效地進行實時分類。與之前的方法相比,Zhang等的方法從使用C4.5和滑動窗口的屬性集的角度實現(xiàn)了機器學習分類器的及時性。結(jié)果表明,與當前屬性集相比,此方法可以實現(xiàn)更有效的性能,對于實時的P2P應用分類,準確率達到了96.7%,并且即使流程開始丟失,也可以保持穩(wěn)定。此方法的優(yōu)點在于,它可以盡早識別P2P應用程序,其性能不依賴于流程的完整性,所以它在實際的實時網(wǎng)絡流量分類中會很有用。

      2.2.5 近鄰分類(KNN)

      K最近鄰(K-Nearest Neighbors, KNN)分類模型也是一種在流量識別研究中非常受歡迎的模型。如前文所述目前的對于流量識別分類的研究主要集中在使用ML技術(shù),在分析流量統(tǒng)計特性的基礎上對流量進行分析。然而,文獻[38]中提到,不平衡數(shù)據(jù)集是現(xiàn)實應用中常見的問題,特別是在網(wǎng)絡流量中,常常會對ML算法的分類性能造成嚴重的負面影響。這是因為一些平時很多人使用的應用程序產(chǎn)生大量的流量(稱為“大類”),而不受歡迎的應用程序只產(chǎn)生少量的流量(稱為“小類”)。在這個問題中,分類器總是偏向于大類。大類的分類效果很好,而小類的分類效果非常差。大多數(shù)傳統(tǒng)的ML分類算法都會盡量減小錯誤率,即錯誤預測分類標簽的百分比。這會導致算法忽略錯誤類型之間的差異。特別是,他們假設所有這些錯誤分類都是相同的。研究者們引入了許多解決方案來處理先前在數(shù)據(jù)和算法級別的ML算法的不平衡問題。其中在算法層面,研究人員提出了成本敏感的學習,其重點在于將成本納入決策過程,這是另一種提高分類器性能的另一種方式,即從不平衡數(shù)據(jù)集中學習或在內(nèi)部操縱分類器,如文獻[39]中提到的KNN中的加權(quán)距離和SVM偏差算法。而后Wu等[40]提出一種新的方法,用于改善KNN方法中分類器在小類應用中的分類性能。即引入KNN算法的決策邊界,研究開發(fā)了一個模型,可以自動選擇最佳決策邊界,以達到小類流量分類的最佳性能,又能保持大類流量分類的性能穩(wěn)定。Du 等[41]也有提出將 BPSO 優(yōu)化算法與KNN結(jié)合,構(gòu)建出一種高效的P2P 流量識別模型。

      2017年,McGaughey等[42]提出使用快速正交搜索(Fast Orthogonal Search, FOS)算法從數(shù)據(jù)導出的大量特征中選擇具有區(qū)分能力的特征子集,然后使用KNN分類器和FOS選擇的特征對網(wǎng)絡流量進行分類。FOS算法從一組2839個特征中選擇了12個特征子集。研究表明使用這12個特征的KNN分類器比使用任意44個特征集的KNN少106個錯誤,并且分類的計算時間減少了81%,大大提高了KNN對網(wǎng)絡流量進行分類的效率。

      2.3 半監(jiān)督方法

      半監(jiān)督方法主要是使用ML技術(shù)中的聚類方法。使用聚類方法來進行網(wǎng)絡流量的識別與分類。在半監(jiān)督學習的流識別研究中,Bernaille 等[43]于2006 年發(fā)表的研究成果具有重要意義,在這篇文獻中,嘗試使用K均值聚類方法進行半監(jiān)督學習的流量識別,并獲得了比較理想的結(jié)果。

      Erman 等[44-45]也在半監(jiān)督學習的流量識別研究中作出了重大的貢獻, 同是2006年,使用聚類的機器學習方法對傳輸層的流量進行統(tǒng)計分類。通過評估兩種聚類算法,即K-Means和DBSCAN聚類算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN),確認觀察結(jié)果。另外使用已有的基于自動聚類(AutoClass)算法(AutoClass 算法)的結(jié)果作為基線。使用的算法為半監(jiān)督學習機制,其中未標記的訓練數(shù)據(jù)基于相似性進行分組。這種對未標記訓練數(shù)據(jù)進行分組的能力是有利的,并且相對于需要標記訓練數(shù)據(jù)的學習方法這種方法有一個優(yōu)點,即可發(fā)現(xiàn)來自產(chǎn)生于過去的未知應用的流量。盡管所選擇的算法使用半監(jiān)督學習機制,但是這些算法中的每一個都基于不同的聚類原理。 K-Means聚類算法是一種基于分區(qū)的算法,DBSCAN算法是一種基于密度的算法,而AutoClass算法是一種基于概率模型的算法。而選擇K-Means和DBSCAN算法的一個原因是它們在聚類數(shù)據(jù)方面比以前使用的AutoClass算法快得多。

      使用兩條經(jīng)驗痕跡評估算法:奧克蘭大學眾所周知的公開可用互聯(lián)網(wǎng)流量追蹤,以及從卡爾加里大學互聯(lián)網(wǎng)連接收集到的最新蹤跡?;谒鼈兩蓡蝹€應用程序具有高預測能力的群集的能力來比較算法。實驗表明集群適用于各種不同的應用,包括Web、P2P文件共享和文件傳輸,AutoClass和K-Means算法的精度超過85%,DBSCAN的精度達到75%。

      此外,論文分析了由不同算法產(chǎn)生的每個簇中,簇的數(shù)量和對象的數(shù)量。分析是基于每種算法生成具有單一流量類別的高預測能力的群集的能力,并且每種算法是否能夠生成包含大多數(shù)連接的最少數(shù)量的群集。實驗表明, AutoClass算法具有最好的整體精度。同時,盡管DBSCAN具有較低的整體精度,但它形成的群集是最準確的,因為它將大多數(shù)連接放置在一小群集群中。這非常有用,因為這些群集對單個類別的流量具有很高的預測能力。K-Means算法的整體精度僅略低于AutoClass算法,但由于其建模時間快得多,因此更適合網(wǎng)絡流量分類與識別問題。后續(xù)文獻[46]中,他們繼續(xù)深入研究探索了半監(jiān)督學習模型在在線流量識別的應用。

      2017年,Hochst等[47]提出一種基于神經(jīng)自動編碼器的流量和聚類統(tǒng)計特性的無監(jiān)督流量流分類的新方法。該算法已被用于將流量集中到下載、上傳、調(diào)用、瀏覽、視頻流、實時流或交互通信,獨立于用于執(zhí)行這些任務的特定網(wǎng)絡協(xié)議。基于時間間隔的新穎特征向量構(gòu)建和半自動聚類標記方法促進了與已知流量類別無關(guān)的流量分類。通過在四個月內(nèi)捕獲的實際數(shù)據(jù)的實驗評估。獲得的結(jié)果顯示,檢測到7個不同類別的移動通信流量,平均精度為80%,獲得了不錯的實驗效果。

      2.4 基于機器學習的識別分類方法總結(jié)

      上文總結(jié)了從2004—2012年機器學習技術(shù)應用于網(wǎng)絡流量識別分類的高峰期,也提出了近幾年的一些改進。下面用表6歸納上述方法。

      3 結(jié)語

      流量分類識別技術(shù)在近十幾年的相關(guān)研究中有所提高。在過去的研究中,研究界和網(wǎng)絡行業(yè)已經(jīng)調(diào)查,提出并開發(fā)了多種分類識別方法。雖然流量分類識別技術(shù)的準確性和效率有所提高,但不斷并迅速增加的不同的網(wǎng)絡應用行為,同時有越來越多的方法被研究用來掩飾某些應用程序以避免被過濾或阻止,流量分類識別問題仍然是網(wǎng)絡中許多未解決的問題之一。本文回顧了近十幾年的研究成果, 主要是分類識別方法的發(fā)展進程以及它們在適用性、可靠性和隱私方面的權(quán)衡。從傳統(tǒng)的流量分類識別方法包括基于端口的預測方法和基于有效載荷的深度檢測方法,到目前基于流量統(tǒng)計特征的機器學習技術(shù),甚至近幾年出現(xiàn)的結(jié)合傳統(tǒng)方法與機器學習方法的流量分類技術(shù)。

      就目前的研究成果來看,網(wǎng)絡流量識別分類技術(shù)通過從傳統(tǒng)的方法到應用機器學習算法取得了較大的突破,但基于機器學習算法的方法應有以下問題:

      1)僅使用機器學習算法只能滿足特定的網(wǎng)絡環(huán)境,缺少適合多種普遍環(huán)境的方法。

      2)特征選擇存在考慮不足的情況,影響網(wǎng)絡流量識別分類的準確性。

      為了解決以上問題,未來需要嘗試使用更多結(jié)合的方法,來對網(wǎng)絡流量進行識別分類。同時為了適應目前互聯(lián)網(wǎng)應用的需求和模式的發(fā)展,流量識別技術(shù)需要考慮以下方向的發(fā)展:

      1)增強移動互聯(lián)網(wǎng)端的流量識別。隨著手機行業(yè)的發(fā)展,移動端的應用類別日益增多。隨之產(chǎn)生的流量模式和數(shù)量也急速增長,因此,移動互聯(lián)網(wǎng)的流量識別必然成為互聯(lián)網(wǎng)流量識別的一個重要部分。

      2)高速網(wǎng)絡下的流量識別。目前從工業(yè)界到民用帶寬都在進行升級,隨著網(wǎng)絡帶寬的增加,如何在高速網(wǎng)絡環(huán)境下識別快速產(chǎn)生的海量流量,也將是互聯(lián)網(wǎng)流量識別的一個重要研究方向。

      參考文獻 (References)

      [1] HUANG J, QIAN F, MAO Z M, et al. Screen-off traffic characterization and optimization in 3G/4G networks [C]// IMC '12: Proceedings of the 2012 International Conference on Internet Measurement Conference. New York: ACM, 2012: 357-364.

      [2] DAINOTTI A, PESCAPE A, CLAFFY K C. Issues and future directions in traffic classification [J]. IEEE Network, 2012, 26(1): 35-40.

      [3] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel traffic classification in the dark [J]. ACM SIGCOMM Computer Communication Review, 2005, 35(4): 229-240.

      [4] MOORE A W, PAPAGIANNAKI K. Toward the accurate identification of network applications [C]// PAM 2005: Proceedings of the 2005 International Workshop on Passive and Active Network Measurement, LNCS 3431. Berlin: Springer, 2005: 41-54.

      [5] DEWES C, WICHMANN A, FELDMANN A. An analysis of Internet chat systems [C]// Proceedings of the 2003 SIGCOMM Conference on Internet Measurement. New York: ACM, 2003: 51-64.

      [6] SEN S, SPATSCHECK O, WANG D. Accurate, scalable in-network identification of P2P traffic using application signatures[C]// Proceedings of the 2004 International Conference on World Wide Web. New York: ACM, 2004: 512-521.

      [7] 康寧.HTTPS網(wǎng)頁流量的指紋提取和識別技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學,2017:37-39.(KANG N. Research on fingerprint extraction and recognition technology of HTTPS Web traffic[D]. Harbin: Harbin Institute of Technology, 2017:37-39.)

      [8] 劉佳雄.基于DPI和DFI技術(shù)的對等流量識別系統(tǒng)的設計[D].秦皇島:燕山大學,2010:20-30.(LIU J X. Design of peer-to-peer traffic identification system based on DPI and DFI technology [D]. Qinhuangdao: Yanshan University, 2010:20-30.)

      [9] 胡慶安.基于雙重特征的協(xié)議識別方法研究[D].成都:西南交通大學,2010:23-40.(HU Q A. Research on protocol identification method based on dual features [D]. Chengdu: Southwest Jiaotong University, 2010:23-40.)

      [10] 陳傳通.基于正則表達式匹配的網(wǎng)絡流量識別系統(tǒng)的研究與實現(xiàn)[D]. 濟南:山東大學,2013:17-22.(CHEN C T. Research and implementation of network traffic identification system based on regular expression matching [D]. Jinan: Shandong University, 2013:17-22.)

      [11] 劉瀧.基于DPI的網(wǎng)絡業(yè)務流量識別技術(shù)研究[D].濟寧:曲阜師范大學,2017:15-31.(LIU L. Research on network service traffic identification technology based on DPI [D]. Jining: Qufu Normal University, 2017:15-31.)

      [12] MINH Q T, KOTO H, KITAHARA T, et al. Separation of background and foreground traffic based on periodicity analysis [C]// Proceedings of the 2015 IEEE Global Communications Conference. Piscataway, NJ: IEEE, 2015:1-7.

      [13] MINH Q T. An effective approach to background traffic detection [C]// FDSE 2015: Proceedings of the 2015 International Conference on Future Data and Security Engineering, LNCS 9446. Berlin: Springer, 2015: 135-146.

      [14] MEKKY H, MOHAISEN A, ZHANG Z L. Blind separation of benign and malicious events to enable accurate malware family classification [C]// Proceedings of the 2014 SIGSAC Conference on Computer and Communications Security. New York: ACM, 2014: 1478-1480.

      [15] MOORE A W, ZUEV D. Internet traffic classification using Bayesian analysis techniques [J]. ACM SIGMETRICS Performance Evaluation Review, 2005, 33(1): 50-60.

      [16] ESTE A, GRINGOLI F, SALGARELLI L. Support vector machines for TCP traffic classification [J]. Computer Networks, 2009, 53(14): 2476-2490.

      [17] WILLIAMS N, ZANDER S, ARMITAGE G. A preliminary performance comparison of five machine learning algorithms for practical IP traffic flow classification [J]. ACM SIGCOMM Computer Communication Review, 2006, 36(5): 5-16.

      [18] ESTE A, GRINGOLI F, SALGARELLI L. On-line SVM traffic classification [C]// Proceedings of the 2011 7th International Wireless Communications and Mobile Computing Conference. Piscataway, NJ: IEEE, 2011: 1778-1783.

      [19] GROLAT T, ARZEL M, VATON S. Hardware acceleration of SVM-based traffic classification on FPGA [C]// Proceedings of the 2012 8th International Wireless Communications and Mobile Computing Conference. Piscataway, NJ: IEEE, 2012: 443-449.

      [20] GROLAT T, ARZEL M, VATON S. Stretching the edges of SVM traffic classification with FPGA acceleration [J]. IEEE Transactions on Network and Service Management, 2014, 11(3): 278-291.

      [21] KONG L, HUANG G, WU K. Identification of abnormal network traffic using support vector machine [C]// Proceedings of the 2017 18th International Conference on Parallel and Distributed Computing, Applications and Technologies. Piscataway, NJ: IEEE, 2017: 288-292.

      [22] HE H. A network traffic classification method using support vector machine with feature weighted-degree [J]. Journal of Digital Information Management, 2017, 15(2): 76-83.

      [23] RAAHEMI B, HAYAJNEH A, RABINOVITCH P. Classification of peer-to-peer traffic using neural networks[C]// Proceedings of the 2007 International Conference on Artificial Intelligence and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 411-417.

      RAAHEMI B, KOUZNETSOV A, HAYAJNEH A, et al. Classification of peer-to-peer traffic using incremental neural networks [C]// Proceedings of the 2008 Canadian Conference on Electrical and Computer Engineering. Piscataway, NJ: IEEE, 2008: 411-417.

      [24] RAAHEMI B, HAYAJNEH A, RABINOVITCH P. Peer-to-peer IP traffic classification using decision tree and IP layer attributes [J]. International Journal of Business Data Communications and Networking, 2007, 3(4): 60.

      [25] RAAHEMI B, KOUZNETSOV A, HAYAJNEH A, et al. Classification of peer-to-peer traffic using incremental neural networks (fuzzy ARTMAP) [C]// CCECE 2008: Proceedings of the 2008 International Conference on Electrical and Computer EngineeringProceedings of the 2008 Canadian Conference on Electrical and Computer Engineering. Piscataway, NJ: IEEE, 2008: 719-724.

      [26] SHEN F, PAN C, REN X. Research of P2P traffic identification based on BP neural network [C]// IIH-MSP 2007: Proceedings of the 2007 International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Washington, DC: IEEE Computer Society, 2007, 2: 75-78.

      [27] GU C, ZHUANG S. A novel P2P traffic classification approach using back propagation neural network [C]// Proceedings of the 2010 IEEE 12th International Conference on Communication Technology. Piscataway, NJ: IEEE, 2010: 52-55.

      [28] CHEN H, HU Z, YE Z, et al. Research of P2P traffic identification based on neural network [C]// CNMT 2009: Proceedings of the 2009 International Symposium on Computer Network and Multimedia Technology. Piscataway, NJ: IEEE, 2009: 1-4.

      [29] SUN R, YANG B, PENG L, et al. Traffic classification using probabilistic neural networks [C]// Proceedings of the 2010 6th International Conference on Natural Computation. Piscataway, NJ: IEEE, 2010, 4: 1914-1919.

      [30] 賀靜,趙巒.基于PCA-概率神經(jīng)網(wǎng)絡的P2P流量分類方法研究[J].電腦開發(fā)與應用,2011,24(7):18-20.(HE J, ZHAO L. Research on P2P traffic classification based on PCA-probabilistic neural network[J]. Computer Development and Applications, 2011, 24(7): 18-20.)

      [31] AKILANDESWARI V, SHALINIE S M. Probabilistic neural network based attack traffic classification[C]// Proceedings of the 2012 4th International Conference on Advanced Computing. ?Piscataway, NJ: IEEE, 2012: 1-8.

      [32] SINGH K, AGRAWAL S. Internet traffic classification using RBF neural network [C]// Proceedings of the 2011 International Conference on Communication and Computing technologies (ICCCT-2011). Jalandhar, India: [s.n.], 2011: 39-43.

      [33] MATHEWOS B, CARVALHO M, HAM F. Network traffic classification using a parallel neural network classifier architecture [C]// CSIIRW '11: Proceedings of the 7th Annual Workshop on Cyber Security and Information Intelligence Research. New York: ACM, 2011: Article No. 33.

      [34] WANG W, ZHU M, ZENG X, et al. Malware traffic classification using convolutional neural network for representation learning [C]// Proceedings of the 2017 International Conference on Information Networking. Piscataway, NJ: IEEE, 2017: 712-717.

      [35] 徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學報,2009,20(10):2692-2704.(XU P, LIN S. Internet traffic classification using C4. 5 decision tree [J]. Journal of Software, 2009,20(10): 2692-2704.)

      [36] 陳云菁,張赟,陳經(jīng)濤.基于決策樹模型的P2P流量分類方法[J].計算機應用研究,2009,26(12):4690-4693.(CHEN Y J, ZHANG Y, CHEN J T. Method for P2P traffic classification based on decision-tree model [J]. Application Research of Computers, 2009, 26(12): 4690-4693.).

      [37] ZHANG Y, WANG H, CHENG S. A method for real-time peer-to-peer traffic classification based on C4.5 [C]// Proceedings of the 2010 IEEE 12th International Conference on Communication Technology. Piscataway, NJ: IEEE, 2010: 1192-1195.

      猜你喜歡
      機器學習
      基于詞典與機器學習的中文微博情感分析
      基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應用
      基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      科教導刊(2016年26期)2016-11-15 20:19:33
      下一代廣播電視網(wǎng)中“人工智能”的應用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計算模型
      基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
      基于圖的半監(jiān)督學習方法綜述
      機器學習理論在高中自主學習中的應用
      伽师县| 临洮县| 内江市| 奈曼旗| 石河子市| 卢龙县| 图木舒克市| 泾阳县| 黎平县| 临西县| 德化县| 全州县| 玉林市| 平潭县| 鄂州市| 菏泽市| 仙桃市| 隆德县| 泗阳县| 阳信县| 抚宁县| 那曲县| 寿阳县| 长垣县| 溧水县| 新干县| 塔河县| 深圳市| 黄龙县| 清徐县| 阿鲁科尔沁旗| 西林县| 富川| 逊克县| 昌图县| 鄂伦春自治旗| 乐平市| 连州市| 衡阳县| 襄城县| 酒泉市|