劉珍,王若愚
(1.廣東藥科大學(xué)醫(yī)藥信息工程學(xué)院, 廣東 廣州 510006;2.華南理工大學(xué)信息網(wǎng)絡(luò)工程研究中心, 廣東 廣州 510006)
基于行為特征學(xué)習(xí)的互聯(lián)網(wǎng)流量分類方法
劉珍1,王若愚2
(1.廣東藥科大學(xué)醫(yī)藥信息工程學(xué)院, 廣東 廣州 510006;2.華南理工大學(xué)信息網(wǎng)絡(luò)工程研究中心, 廣東 廣州 510006)
基于連接圖的互聯(lián)網(wǎng)流量分類方法能反映主機間的通信行為,具有較高的分類穩(wěn)定性,但是經(jīng)驗式總結(jié)的啟發(fā)式規(guī)則有限,難以獲得高分類準(zhǔn)確率。 研究分析了主機間通信行為模式和 BOF 方法,從具有相同{目的 IP 地 址,目的 端 口號,傳 輸 層 協(xié)議}網(wǎng) 絡(luò) 流量 中 ,提 取 主 機 間 連 接 相 關(guān)的 行 為統(tǒng) 計 特 征(HCBF),采 用 C4.5決策樹算法學(xué)習(xí)基于行為特征的分類規(guī)則,其無需人工建立啟發(fā)式規(guī)則。 在傳統(tǒng)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)流量數(shù)據(jù)集上,從基本分類性能和分類穩(wěn)定性方面,與現(xiàn)有的特征集進行比較分析,實驗結(jié)果表明,HCBF 特征集合的類間區(qū)分能力和穩(wěn)定性較高。
互聯(lián)網(wǎng)流量分類;行為特征;機器學(xué)習(xí);通信行為;網(wǎng)絡(luò)測量
互聯(lián)網(wǎng)流量分類是異常檢測、網(wǎng)絡(luò)計費、流量整形、網(wǎng)絡(luò) 規(guī) 劃 、QoS 部 署 和 網(wǎng) 絡(luò) 協(xié) 議 研 究 等 的 重 要 基 礎(chǔ)[1,2]。隨 著動態(tài)端口號、端口偽裝和載荷加密技術(shù)的使用,傳統(tǒng)的端口號映射和載荷特征檢測方法逐漸失效。至今,學(xué)術(shù)界提出了多種互聯(lián)網(wǎng)流量分類方法,特別是基于機器學(xué)習(xí)和通信 行 為 的 流 量 分 類 方 法 成 為 研 究 熱 點[3,4]。
基 于 連 接 圖 (connectivity graph)的 流 量 分 類 方 法 通 過分析和描述網(wǎng)絡(luò)應(yīng)用的 IP 報文在主機間的傳輸行為模式 ,進 而 識 別未 知 IP 報 文 的 應(yīng) 用 類 別 。參 考 文 獻[5]基 于主 機 傳 輸 層 的 行 為 特 點 提 出 BLINC(blind classification)方法,從社會級別、功能級別和應(yīng)用級別分析各類主機的行為,并建立通信行為模式,進而建立啟發(fā)式規(guī)則用于流量分類。近期也發(fā)展出基于連接圖的流量分類方法,此類方法 利 用 主 機[6]、節(jié) 點[7]或 網(wǎng) 絡(luò) 流[8]建 立 連 接 圖 , 基 于 連 接 圖 的性質(zhì)(例如頂點的出度數(shù)、入度數(shù)等)提取通信行為測度,進而基于這些測度建立分類規(guī)則。此類方法能描述網(wǎng)絡(luò)應(yīng)用在主機間的連接狀況,體現(xiàn)通信行為,不易受網(wǎng)絡(luò)環(huán)境的影響,較為穩(wěn)定。但是難以提取完整的啟發(fā)式規(guī)則進行流量分類,其分類精度和分類粒度有限。
基于機器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法引入了機器學(xué)習(xí)算法,對網(wǎng)絡(luò) IP 報文根據(jù)五元組進行組流,在網(wǎng)絡(luò)流的基礎(chǔ)上進行統(tǒng)計特征提?。ɡ缌鞒掷m(xù)時間、平均報文大小、報文數(shù)等),統(tǒng)計特征值描述網(wǎng)絡(luò)流建立樣本集合,作為分類算法的輸入。在基于機器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法領(lǐng)域 ,多 種 統(tǒng) 計 特 征 已 被 提 出[9,10],最 有 代 表 的 是 Moore 等 人提 出 的 248 個 統(tǒng) 計 特 征[9],包 括 了 報 文 大 小 、報 文 到 達 時 間間 隔 等 的 統(tǒng) 計 特 征 ,其 得 到 了 廣 泛 的 應(yīng) 用[11-13]。此 類 方 法 與基于通信行為的流量分類方法相比,其分類粒度和分類精度方面更優(yōu),但是,這些特征不能反映主機間的通信行為,隨著網(wǎng)絡(luò)應(yīng)用逃避檢測策略的發(fā)展,它們的類間區(qū)分能力可能被模糊化技術(shù)弱化,例如,參考文獻[14]總結(jié)得 出模糊化報文大小的一種方式是隨機清除發(fā)送緩沖區(qū),這樣可能削弱某種網(wǎng)絡(luò)應(yīng)用的報文大小的規(guī)律。
為提高基于機器學(xué)習(xí)流量分類方法的分類穩(wěn)定性,參考文獻[7]分析觀察某類流量數(shù)據(jù)的通信特點,在多 流數(shù)據(jù)集上根據(jù)節(jié)點信息提取行為統(tǒng)計特征,但是此特征集合包含 的 信 息 有 限 。已 有 的 通 信 行 為 模 式[5]能 包 含 多 種 網(wǎng) 絡(luò) 應(yīng)用類別的通信行為,信息量更豐富,但以連接圖的形式存在,缺乏研究文獻在此基礎(chǔ)上提取出行為統(tǒng)計特征。
針對上述問題,本文的主要貢獻包括以下兩方面。
(1)為結(jié)合基于連接圖和基于機器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法的優(yōu)點,本文分析基于連接圖的流量分類方法,根據(jù) 其 中 的 通 信 行 為 模 式 和 啟 發(fā) 式 規(guī) 則 ,并 結(jié) 合 BOF(bag of flow)方 法 的 思 想 ,在 具 有 相 同{目 的 IP 地 址 ,目 的 端 口 號 ,傳輸層協(xié)議}的網(wǎng)絡(luò)流上提取行為統(tǒng)計特征集合,用于描述網(wǎng)絡(luò)流,建立的特征向量作為機器學(xué)習(xí)算法的輸入,用于分類器訓(xùn)練。
(2)在傳統(tǒng)有線網(wǎng)的流量數(shù)據(jù)集和移動智能終端手機的流量數(shù)據(jù)集上,利用 C4.5 決策樹分類算法,從基本分類性能、分類時間穩(wěn)定性等多個方面,實驗分析行為統(tǒng)計特征的性能,并總結(jié)得出:僅基于行為統(tǒng)計特征訓(xùn)練的分類器的分類性能欠佳,綜合描述連接行為和通信過程的行為統(tǒng) 計 特 征 (host communication behavior feature,HCBF)能 進一步提高流量分類性能;在移動互聯(lián)網(wǎng)流量數(shù)據(jù)集上,基于節(jié)點間連接的行為特征不利于分類基于 HTTP 的多種移動服務(wù),例如 Web 瀏覽、視頻流等。
本節(jié)主要介紹行為統(tǒng)計特征提取過程,并簡要介紹現(xiàn)有的基于節(jié)點通信的行為特征集合,此特征集合將在實驗部分與本文的特征集合進行比較分析。
2.1 通信行為模式
[5]通 過 觀 察和 分 析 在 傳 輸 層 的 主機 間 通 信行為,提取其中的通信行為模式,并進一步提出啟發(fā)式規(guī)則,實現(xiàn)網(wǎng)絡(luò)流到網(wǎng)絡(luò)應(yīng)用之間的映射。此方法從 3個級別 分 析主 機 的 通 信行 為 :社 會 級 別 、功 能 級 別 和 應(yīng) 用 級 別[5]。社會級別主要反映某個主機與其他主機通信的熱門度(popularity)和 主 機 間 連 接 的 集 群 性 (community);利 用 目 的IP 地址 的數(shù)量或 IP 地址范圍進行度量。功能級別主要反映主機在通信中扮演的角色(服務(wù)器、客戶端或者兩者皆有);利用源 IP 地址和源端口進行度量,例如客戶端使用多個端口與多臺主機連接,而服務(wù)器端則通常使用一兩個端口與其他主機通信。應(yīng)用級別主要反映主機間在通信過程中表現(xiàn)出來的傳輸層連接模式;利用源 IP 地址、源端口、目的 IP 地址、目的端口進行度量。主流應(yīng)用的通信行為模式如圖1所示。
基于連接模式,多種啟發(fā)式規(guī)則被建立用于分類未知網(wǎng) 絡(luò) 流 ,相 關(guān) 的 特 征 信 息 如 下[5]。
圖1 主 機 間 通 信 行 為 模 式 示 意[5]
(1)傳輸層協(xié)議
基于 TCP 的網(wǎng)絡(luò)應(yīng)用包括 P2P、Web、chat、FTP 和 mail等,基于 UDP 的網(wǎng)絡(luò)應(yīng)用包括網(wǎng)絡(luò)管理流量和游戲等,基于 TCP 和 UDP 的 網(wǎng) 絡(luò) 應(yīng) 用 包 括 P2P、streaming 等 。
(2)集合的基數(shù)
目的 集合(目的端 口和目的 IP 地址)的相對基數(shù)能夠 區(qū) 分 不 同 的 應(yīng) 用 行 為 ,例 如 區(qū) 分 Web 與 P2P 和 chat,或網(wǎng)絡(luò)管理與游戲。此方法主要比較目的 IP 地址數(shù)和目的端口數(shù),例如 Web 服務(wù)器端的目的端口數(shù)多于目的 IP 地 址 數(shù) ,而 P2P 的 目 的 端 口 數(shù) 大 約 等 于 目 的 IP 地址數(shù)。
(3)使用每流的平均報文大小
許多應(yīng)用表現(xiàn)出不同的傳輸報文大小的模式。例如:游戲、惡意軟件和反垃圾郵件在通信過程中的報文大小幾乎保持恒定。
(4)社 團 (community)
同一個社團的 IP 主機通常表現(xiàn)出一樣的行為。
(5)遞歸探測方式
主機提供的某些服務(wù)可以通過遞歸探測其交互得到,例如反垃圾郵件服務(wù)器的識別可以通過遞歸式探測其與電子郵件服務(wù)器的交換,因為通常情況下,反垃圾郵件服務(wù)器只與電子郵件服務(wù)器通信。
(6)基于無載荷流識別
無載荷的流量或者失敗的流量可能來自于攻擊行為或者 P2P 網(wǎng)絡(luò)(客戶端試圖建立 P2P 連接,連接可能失?。?。
但是,這些啟發(fā)式規(guī)則難以覆蓋完所有的通信情況,而且適用范圍有限,互聯(lián)網(wǎng)流量在不斷變化,而且目前移動互聯(lián)網(wǎng)流行,這些規(guī)則不一定適用于現(xiàn)有的網(wǎng)絡(luò)流量數(shù)據(jù)。
2.2HCBF
圖1的通信模式表明服務(wù)端通常擁有大量的客戶端與之通信。如圖 2 所示,騰訊和阿里巴巴表現(xiàn)為熱點服務(wù),在 某 高 校 的 移 動 終 端 網(wǎng) 絡(luò) 的 5 min 內(nèi) 有 大 量 的 主 機 與 這些服務(wù)器通信。
騰訊服務(wù)與客戶端通信的二部圖如圖 3所示,主要使用 80、443 和 8000 端口,此行為模式與圖 1(a)的 Web 服務(wù)類似。但是,客戶端的端口數(shù)與 IP 地址數(shù)并沒有出現(xiàn)明顯的差距。因此,僅依賴連接模式進行流量分類,難以取得高分類性能。
為了建立適合于傳統(tǒng)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)環(huán)境的流量分類方法,本文提出行為統(tǒng)計特征。此類特征屬于多流統(tǒng)計特征,即在多條流上提取統(tǒng)計特征,進而描述網(wǎng)絡(luò)流,建立特征向量,將其作為分類算法的輸入,利用機器學(xué)習(xí)算法學(xué)習(xí)分類規(guī)則,而非人工總結(jié)分類規(guī)則。
圖2 校園網(wǎng)與外網(wǎng)的通信連接
圖3 騰訊服務(wù)的二部圖
圖4 HTTP 應(yīng)用的源 IP 地址數(shù)和源端口數(shù)
參 考 文 獻 [17]提 出 BOF 的 思 想 ,指 出 在 一 定 時 間 間隔 內(nèi) ,相 同 目 的 IP 地 址 (dstIP)、目 的 端 口 號 (dstPort)和 傳輸 層 協(xié) 議(Proto)的 網(wǎng) 絡(luò) 流 屬 于 同 一 種 應(yīng) 用 。本 文 的 多 流特 征 基 于 相 同 的 {dstIP,dstPort,Proto}的 網(wǎng) 絡(luò) 流 量 提 出 ,包括通信行為特征和通信過程特征。在提取特征之前,先 分 析 主 流 應(yīng) 用 的 通 信 情 況 ,即 與 同 一 個{dstIP,dstPort,Proto}連 接 的 來源 主 機 信 息 。以 HTTP 和 BT 為 例 ,分 別 代表 Web 和 P2P 類的應(yīng)用。在某數(shù)據(jù)集上,HTTP 和 BT 應(yīng)用的源 IP 地址數(shù)目和源端口數(shù)分別如圖 4 和圖 5 所示。橫 軸 是 源 IP 地 址 的 序 號 ,縱 軸 是 源 IP 地 址 個 數(shù) 或 源 端口數(shù)。從圖 4 和圖 5 表明,HTTP 應(yīng)用的端口數(shù)明顯少于源 IP 地址數(shù) ,表明 客戶端使用多個端口號與 Web 服 務(wù)建立連接。BT 應(yīng)用流量中,部分主機的源端口比源 IP 地址多,而大部分主機的源端口和 IP 地址數(shù)一樣,并且等于 1,即只與某個主機進行通信。
針 對 與 相 同{dstIP,dstPort,Proto}通 信 流 量 的 平 均 報 文大小,HTTP 和 BT 的情況分別如圖 6 和圖 7 所示。明顯看出,BT 應(yīng)用的報文大小的波動范圍小于 HTTP 應(yīng)用。
圖5 BT 應(yīng)用的源 IP 地址數(shù)和源端口數(shù)
圖6 HTTP 應(yīng)用的平均報文大小
圖7 BT應(yīng)用的平均報文大小
基于上述分析,本文根據(jù)連接特征和傳輸過程的特征,建立通信行為統(tǒng)計特征集合,統(tǒng)稱為 HCBF 集合,這些特征是在具有相同目的 IP 地址、目的端口號和傳輸層協(xié)議的網(wǎng)絡(luò)流量上計算得到,具體見表 1。
表1 HCBF 特征集合
HCBF 特征解釋如下。
(1)源端口數(shù)與源 IP 地址數(shù)的比值
從圖 1 描述的各種網(wǎng)絡(luò)應(yīng)用的通信模式可看出,Web 服務(wù)器利用 80 端口與多個目的 IP 地址的多個端口進行通信,chat服務(wù)則利用 4661 端口與多個目的 IP 地址進行通信??傮w上,服務(wù)器利用少量的端口號與多個客戶端通信,這意味著客戶端利用多個端口號與服務(wù)端通信。圖4和圖5也表明在真實數(shù)據(jù)集上有這樣的情況,因此,利用某主機的源端口數(shù)與 IP 地址數(shù)的比值,可以區(qū)分傳統(tǒng)服務(wù)或 P2P 應(yīng)用。
(2)目的端口號
圖1表明,某些服務(wù)仍然使用固定的端口號進行通信,例如 DNS 采用 53,mail使用 25 和 113 端口,端口號仍然具有一定的識別能力。
(3)報文數(shù)和字節(jié)數(shù)相關(guān)特征
多種應(yīng)用表現(xiàn)出不同的傳輸報文大小的模式。例如:游戲、惡意軟件和反垃圾郵件在通信過程中的報文大?。ㄗ止?jié)數(shù))幾乎保持恒定。圖 6 和圖 7 也表明 BT 的平均報文大小的波動范圍小于 HTTP 應(yīng)用。
(4)傳輸層協(xié)議
圖1 (a)也 表 明 Web 和 games 的 區(qū) 別 是 games 使 用UDP,另外 mail、FTP 等 服務(wù)采用 TCP,P2P 可 能 使 用 TCP和 UDP,DNS 使用 UDP 等,傳輸層協(xié)議可區(qū)分這些應(yīng)用。
(5)平均流持續(xù)時間
流持續(xù)時間反映一次通信連接的持續(xù)時間,P2P 網(wǎng)絡(luò)存在節(jié)點的進入和退出的動態(tài)變化,大部分節(jié)點之間通信的持續(xù)時間較小,chat應(yīng)用進行會話,持續(xù)時間比較長,網(wǎng)絡(luò)流的平均持續(xù)時間特征的值較大。
(6)失敗流數(shù)目
無載荷的流量或者失敗的流量可能來自 P2P 網(wǎng)絡(luò)(例如客戶端試圖建立 P2P 連接,連接可能失敗)。
2.2 C4.5 決策樹
在行為統(tǒng)計特征上, 本文采用 C4.5 決策樹分類算法學(xué)習(xí)行為統(tǒng)計特征的分類規(guī)則,用于流量分類。另外,參考文 獻[18]表 明 ,C4.5 決 策樹在互 聯(lián) 網(wǎng)流量數(shù) 據(jù) 集上具有 分類 精 度 和 分 類 效 率 方 面 的 優(yōu) 點 。C4.5 決 策 樹[19]是 通 過 迭 代式自頂向下選擇測試屬性作為樹節(jié)點,測試屬性選擇是基于信息增益率。葉子節(jié)點被標(biāo)記為類別,測試節(jié)點包括一個或多個輸出,每個輸出對應(yīng)一棵子樹。假設(shè)一個有 m 個類 別 的 數(shù) 據(jù) 集 S,由 特 征 向 量 A={A1,A2,…,An}描 述 ,假 設(shè) 特征 Ai(i=1,2,… ,n)有 υ個 離 散 的 取 值 。由 Ai劃 分 的 信 息 增 益率為:
其中:
sj' 表 示 類 別 Cj的 流 量 集 合 ,sji表 示 Cj的 流 量 中 Ai取第 i 個 值 的 流 樣 本 ,sji(j=1,… ,m)的 集 合 組 成 s.i。si表 示 特 征 Ai取第 i個值的流量集合。當(dāng) C4.5 決策樹分類未知流樣本時,從根節(jié)點開始,從上往下比較測試屬性的取值,直到到達葉子節(jié)點。
3.1 實驗數(shù)據(jù)
本文的實驗數(shù)據(jù)包括傳統(tǒng)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)流量數(shù)據(jù)。有線網(wǎng)流量數(shù)據(jù)采集于某高校辦公樓的出口路由器,采集時間為 2011 年 9 月 17 日和 2011 年 9 月 25 日,每次的采集持續(xù)時 間 為 30 min。這 兩 天 的 流 量 數(shù) 據(jù) 包 含 了常 用 網(wǎng) 絡(luò) 應(yīng) 用 的 流 量 , 例 如 HTTP、BT、HTTPvideo、QQ等,其代表了用戶日常使用網(wǎng)絡(luò)的流量。對流量數(shù)據(jù)進行 如 下 處 理 :基 于 L7-filter 和 端 口 號 對 IP 報 文 進 行 類 別標(biāo) 記[15];按 照 五 元 組 對 IP 報 文 進 行 組 流 ; 基 于 報 文 基 本字 段 計 算 行 為 特 征 值 ,建 立 特 征 向 量 ;每 10 min 的 流 量數(shù)據(jù)組成一個流樣本集。兩天的數(shù)據(jù)分別命名為 Day917和 Day925,它 們的流和 字 節(jié) 數(shù) 見 表 2 和 表 3,可 見 兩者的 類 別 分 布 有 較 大 的 區(qū) 別 。在 Day917 中,eDonkey 的 網(wǎng)絡(luò) 流 最 多 ,而 在 Day925 中 HTTP 和 DNS 的 網(wǎng) 絡(luò) 流 較多,這與采集時間段內(nèi)的用戶上網(wǎng)行為有關(guān)。
移動網(wǎng)流量數(shù)據(jù)采集于志愿者的智能手機終端,采集時間 為 2016 年 2 月 29 日 ,利 用 GT 的 方 式[16]進 行 類 別 標(biāo) 記 ,并對智能終端 App 進行歸類,具體的類別分布情況見表 4。
表2 Day917 數(shù)據(jù)集
3.2 評估指標(biāo)
在互聯(lián)網(wǎng)流量數(shù)據(jù)中,分類性能可以通過流或字節(jié)進行評估。本文采用的性能評估指標(biāo)包括:單類流/字節(jié)分類準(zhǔn)確率、總體流/字節(jié)分類準(zhǔn)確率、流/字節(jié) g-mean。這些評估 指 標(biāo) 都 基 于 4 個 基 本 的 測 量 指 標(biāo) , 即 TP(true positive)、FP(false positive)、TN(true negative)和 FN(false negative)。對某個類 別 C0,TP 表示 C0的流 量 數(shù) 據(jù)中被正 確 分類的流 樣本 (或 字 節(jié)) 數(shù),F(xiàn)P 表 示被錯誤 分 類為 C0類別的 流 樣 本(或 字節(jié))數(shù),TN 表示非 C0的流量數(shù)據(jù)中被 正 確分類的 流樣本(或字節(jié))數(shù),F(xiàn)N 表示 C0的流量數(shù)據(jù)中 被 錯誤分類 的流樣本(或字節(jié))數(shù)。
表3 Day925 數(shù)據(jù)集
表4 移動網(wǎng)流量數(shù)據(jù)集
單類流/字節(jié)分類準(zhǔn)確率表示每個類別的網(wǎng)絡(luò)流中被正確分類的流/字節(jié)比率,如 式 (6)所 示 。Ri表 示 類 別 Ci(i= 1,…,m)的分類準(zhǔn)確率。
總體流/字節(jié)分類準(zhǔn)確率表示總體的網(wǎng)絡(luò)流中被正確分類的流/字節(jié)比率,如式(7)所示。
互聯(lián)網(wǎng)流量數(shù)據(jù)存在類不平衡問題,即分類器可能偏向于分類大類(擁有大量的流樣本)的流樣本,而忽略小類(擁有少量的流樣本)的流樣本的分類性能。g-mean是不平衡分類問題中常用的評估指標(biāo),表示每類的分類準(zhǔn) 確 率 的 幾 何 平 均[11],如 式 (8)所 示 。當(dāng) 所 有 類 別 的 分 類準(zhǔn) 確 率 為 100%,g-mean 為 1;當(dāng) 某 個 類 別 的 分 類 準(zhǔn) 確率 為 0%,g-mean 為 0。好的分類模型在 g-mean 上應(yīng)當(dāng)接近于 1。
3.3 實驗結(jié)果分析
3.3.1 基本分類性能
本文采用 C4.5 決策樹作為分類算法,分別在 Day917和 Day925 數(shù) 據(jù) 集 上 ,以 前 10 min 數(shù) 據(jù) 作 為 訓(xùn) 練 集 ,后 兩個 10 min 數(shù) 據(jù) 作 為 測 試 集 ,例 如 Day917_1 作 為 訓(xùn) 練 集 ,Day917_2 和 Day917_3 作為測試 集。在以下的實 驗結(jié)果中,分類性能最好的以粗體標(biāo)出。
Abacus和 HCBF 特征集合上的實驗結(jié)果見表 5。在大部分?jǐn)?shù)據(jù)集上,基于 HCBF 特征集合的分類器的總體流分類準(zhǔn)確率和總體字節(jié)分類準(zhǔn)確率更高,相比于基于 Abacus的分類器,分 別 提高了 5.16%和 61.8%。Abacus 主 要 表征節(jié)點之間通信的過程,即報文大小的分布情況,HCBF 從連接特征和通信過程兩個方面描述網(wǎng)絡(luò)流量,例如源端口和源 IP 地址的比值能區(qū)分傳統(tǒng)的服務(wù)端和客戶端以及P2P 應(yīng)用。此外,端口號也作為特征,能區(qū)分使用固定端口號的傳統(tǒng)應(yīng)用,例如 mail、DNS、FTP 等。
大類(例如 HTTP、DNS 等)包含大量的網(wǎng)絡(luò)流樣本,對總體分類準(zhǔn)確率的貢獻大,高的總體流分類準(zhǔn)確率表明大類的流樣本能較好地被分類。重型流(具有高字節(jié)的網(wǎng)絡(luò)流)樣本對總體字節(jié)分類準(zhǔn)確率的貢獻大,高字節(jié)分類準(zhǔn)確率反映對這些流的分類性能好。這些網(wǎng)絡(luò)流會消耗更多的網(wǎng)絡(luò)帶寬,因此正確識別這些網(wǎng)絡(luò)流,有利于實施網(wǎng)絡(luò)容量規(guī)劃等活動。
表5 基本分類性能比較
網(wǎng)絡(luò)流量存在類不平衡問題,除了大類和重型流,某些小類的分類性能對網(wǎng)絡(luò)管理也非常重要,例如即時通信應(yīng)用 QQ,正確識別并有效傳輸此應(yīng)用的報文,提高即時傳輸性能,從而改善用戶體驗。但是總體的流或字節(jié)分類準(zhǔn)確率不能反映小類的分類性能。g-mean 通常用于評估不平衡數(shù)據(jù)集上的分類器的分類性能。表 4表明基于HCBF 的分類器總表現(xiàn)出更高的流 g-mean、字節(jié) g-mean,這表明分類器在類間的分類性能更均衡。Abacus在Day917數(shù)據(jù)集上獲得 0 的流 g-mean 和字節(jié) g-mean。進一步分析單類的分類準(zhǔn)確率(見表 6 和表 7),發(fā)現(xiàn) HTTPvideo 應(yīng)用獲得0的流分類準(zhǔn)確率和字節(jié)分類準(zhǔn)確率。結(jié)合表1的網(wǎng)絡(luò)流分布發(fā)現(xiàn),此應(yīng)用的網(wǎng)絡(luò)和字節(jié)數(shù)較少,這可能由于類之間的網(wǎng)絡(luò)和字節(jié)分布不平衡導(dǎo)致。Abacus反映與某節(jié)點通信的報文大小和報文數(shù)目的分布情況,需要大量的網(wǎng)絡(luò)流量,此特征集合在 HTTPvideo 應(yīng)用和其他小類上的區(qū)分能力較弱。
表6 Day917 的單類分類準(zhǔn)確率
表7 Day925 的單類分類準(zhǔn)確率
基于 HCBF 在多個小類上獲得更高的流和字節(jié)分類準(zhǔn)確率,例如 HTTPvideo、Kugou 和 SSL 等。在 Day925 數(shù)據(jù)集上,基于 HCBF 的分類器可為 SSL 獲得 73.4%的流分類準(zhǔn)確率和 55.1%的字節(jié)分類準(zhǔn)確率。單類分類準(zhǔn)確率再次證明HCBF特征集合在小類流樣本上能獲得更高的分類性能。
3.3.2 討論
(1)時間穩(wěn)定性
Day917 和 Day925 數(shù)據(jù)集之間相差 8 天。為評估時間穩(wěn)定性,此部分將 Day917 數(shù)據(jù)集作為訓(xùn)練集,Day925 數(shù)據(jù)集作為測試集,分類結(jié)果見表 8。結(jié)合表 4 和表 5,實驗結(jié)果表明 Day917 上訓(xùn)練的分類器,在 Day925 上的分類性能比在 Day917 上的差。這說明網(wǎng)絡(luò)流量的統(tǒng)計特征的取值分布發(fā)生了變化。結(jié)合表 1表明,網(wǎng)絡(luò)流在類間的分布也發(fā)生了變化。分類器的分類性能會隨著時間的推移而弱化,即流量數(shù)據(jù)發(fā)生了概念漂移。表 8 表明 HCBF 仍然是性能最好的特征集合,因為此集合不僅反映主機間的連接行為,還提取了網(wǎng)絡(luò)流量的通信過程,例如平均報文大小、流持續(xù)時間、報文大小的均方差等,具有更好的類間區(qū)分能力。
表8 Day917 與 Day925 的分類結(jié)果
(2)移動互聯(lián)網(wǎng)流量數(shù)據(jù)上的分類性能
隨著移動智能終端的快速發(fā)展,有效分類移動互聯(lián)網(wǎng)流量有利于實施移動互聯(lián)網(wǎng)的網(wǎng)絡(luò)管理活動,目前也成為互聯(lián)網(wǎng)流量分類的熱點研究領(lǐng)域。此部分研究 3種特征集合在移動網(wǎng)流量數(shù)據(jù)集上的類間區(qū)分能力。 以 C4.5 決策樹作為分類算法,10 倍交叉驗證的結(jié)果見表 9。實驗結(jié)果表明依然是基于 HCBF 訓(xùn)練的分類器取得更高的流g-mean、字節(jié) g-mean 和字節(jié)分類準(zhǔn)確率?;?Abacus 訓(xùn)練的分類器獲得 0%的流/字節(jié) g-mean,進一步分析發(fā)現(xiàn) Web,VoIP和 video 都獲得 0 的分類結(jié)果,這是由于智能手機 App 大多基于 HTTP,與傳統(tǒng)的 Web 流量很類似,若僅基于報文大小分布的主機間連接特征,較難區(qū)分這些應(yīng)用。HCBF特征,不僅從 4 個網(wǎng)絡(luò)流集合反映連接數(shù)、連接的 IP 地址數(shù)和端口數(shù)的比例、失敗流數(shù)目,還有持續(xù)時間、報文數(shù)、字節(jié)數(shù)、傳輸層協(xié)議等信息,能從多方面表征每種網(wǎng)絡(luò)應(yīng)用的特性,從而具有更高的類間區(qū)分能力,在移動互聯(lián)網(wǎng)流 量 數(shù) 據(jù) 上 ,取 得 92.9%的 流 分 類 準(zhǔn) 確 率 和 85.3%的 字 節(jié)分類準(zhǔn)確率。
表9 移動網(wǎng)流量數(shù)據(jù)上的分類結(jié)果
(3)其他分類算法上的分類性能
上 述實驗都 是 基于 C4.5 決策 樹 ,為驗證 HCBF 在 其他分類算法上的分類性能,接下來的實驗利用隨機森林(random forest)和 1NN 在 Day917 與 Day925 上 的 實 驗 結(jié) 果見表 10。
表10 random forest 和 1NN 分 類 結(jié) 果
實驗結(jié)果表明,利用 1NN 算法,HCBF 的性能比Abacus差。但是,利用隨機森林,HCBF 的分類性能仍然最優(yōu)。本文的主要思想是利用 C4.5 決策樹算法學(xué)習(xí)行為特征分類網(wǎng)絡(luò)流量的分類規(guī)則,這說明基于分類規(guī)則的機器學(xué)習(xí)算法適合本文的行為特征。
(4)在其他數(shù)據(jù)集上的分類性能
在上部分只給出兩天數(shù)據(jù)集上的實驗結(jié)果,本部分給出在其他流量數(shù)據(jù)集上的分類結(jié)果,這些數(shù)據(jù)采集于2012 年的 5 月 1 日和 6 月 3 日。前者數(shù)據(jù)作為訓(xùn)練集,后者作為測試集,C4.5 決策樹的分類結(jié)果見表 11。實驗結(jié)果表明 HCBF 的 g-mean 和總體分類準(zhǔn)確率仍然較優(yōu)。
表11 其他實驗數(shù)據(jù)集上分類結(jié)果
本文提取了基于多流的行為統(tǒng)計特征集合 HCBF,用于描述網(wǎng)絡(luò)流,建立流樣本作為 C4.5 決策樹算法的輸入,進而訓(xùn)練分類網(wǎng)絡(luò)流量的分類規(guī)則。此特征集合建立在主機 間 通 信 行 為 模 式 之 上 ,從 {dstIP,dstPort,Proto}網(wǎng) 絡(luò) 流 中通過提取主機間連接特性和通信過程信息獲得。此方法結(jié)合了基于機器學(xué)習(xí)和基于通信行為的流量分類方法的優(yōu)點,將其與已有的行為統(tǒng)計特征進行比較。實驗結(jié)果表明,在分類精度和分類穩(wěn)定性方面,HCBF 表現(xiàn)最佳。本文在傳統(tǒng)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)中提取了包含常用網(wǎng)絡(luò)應(yīng)用的流量,可代表用戶的日常流量,實驗的分類性能反映了統(tǒng)計特征在常用網(wǎng)絡(luò)應(yīng)用流量數(shù)據(jù)上的分類性能。
但是,基于 HCBF 的流量分類器的字節(jié)分類準(zhǔn)確率較低,特別是在不同天數(shù)的流量數(shù)據(jù)集上,這可能是錯分重型流造成,未來工作將研究重型流在主機間的傳輸型行為,并提取新的統(tǒng)計特征;HCBF 在全流的網(wǎng)絡(luò)流量數(shù)據(jù)上獲取到,難以用于在線流量分類,未來將研究在子流上提取行為統(tǒng)計特征,提高分類速度。
參考文獻:
[1] WANG Y,XIANG Y,ZHANG J,etal.Internettraffic clustering with side information [J].Journal of Computer and System Sciences,2014,80(5):1021-1036.
[2] ZHANG J,CHEN X,XIANG Y,et al.Robust Network Traffic Classification [J].IEEE/ACM Transactions on Networking,2015,23(4):1257-1270.
[3] DAINOTTI A,PESCAP A.Issues and future directions in traffic classification[J].IEEE Network,2012,26(1):35-40.
[4] CALLADO A,KAMIENSKI C.A survey on Internet traffic identification [J].IEEE Communications Surveys&Tutorials,2009,11(3):37-52.
[5] KARAGIANNIST, PAPAGIANNAKIK, FALOUTSOSM. BLINC :multilevel traffic classification in the dark [J].ACM SIGCOMM,2005,35(4):229-240.
[6] ILIOFOTOU M,KIM H,F(xiàn)ALOUTSOS M,et al.Graption:a graph-based P2P traffic classification framework for the internet backbone [J].Computer Networks,2011,55(8):1909-1920.
[7] BERMOLEN P,MELLIA M,MEOB M,et al.Abacus:accurate behavioral classification of P2P-TV traffic[J].Computer Networks,2011(55):1394-1411.
[8] ASAI H,F(xiàn)UKUDA K,ESAKI H.Traffic causality graphs:profiling network applications through temporal and spatial causality offlows [C]//The 23rd InternationalTeletraffic Congress,Sept 6-9,2011,San Francisco,CA,USA.New Jersey:IEEE Press,2011:95-102.
[9] MOORE A,ZUEV D,CROGAN M.Discriminators for use in flow-based classification [C]//In Passive & Measurement Workshop 2003 (PAM2005),August1,2005,London,England.[S.1.:s.n.],2005.
[10]HAJJAR A,KHALIFE J,DAZ-VERDEJO J.Network traffic application identification based on message size analysis [J]. Journal of Network and Computer Applications,2015 (58):130-143.
[11]LIU Z,WANG R Y,TAO M,et al.A class-oriented feature selection approach for multi-class imbalanced traffic datasets based on local and global metrics fusion [J].Neurocomputing,2015(168):365-381.
[12]FAHAD A,TARI Z,KHALIL I,et al.Toward an efficient and scalable feature selection approach for internet traffic classification [J].Computer Networks,2013,57(9):2040-2057.
[13]HONG Y,HUANG C C,NANDY B,et al.Iterative-tuning support vector machine for network traffic classification [C]//The 2015 IFIP/IEEE International Symposium on Integrated Network Management,May 11-15,2015,Ottawa,ON,Canada.New Jersey:IEEE Press,2015:458-466.
[14]HJELMVIK E,JOHN W.Breaking and improving protocol obfuscation:No.2010-05,ISSN 1652-926X [R]. [S.1.:s.n.],2010:1-34.
[15]LEE S,KIM H,BARMAN D,et al.NeTraMark:a network traffic classification benchmark [J].ACM SIGCOMM Computer Communication Review,2011,41(1):23-30.
[16]GRINGOLI F,SALGARELLI L,DUSI M,et al.GT:picking up the truth from the ground forinternettraffic [J].ACM SIGCOMM Computer Communication Review,2009,39 (5):13-18.
[17]ZHANG J,XIANG Y,WANG Y,etal.Networktraffic classification using correlation information[J].IEEE Transactions on Parallel&Distributed Systems,2013,24(1):104-117.
[18]WILLIAMS N,ZANDER S,ARMITAGE G.A preliminary performance comparison of five machine learning algorithms for practical IP traffic flow classification [J].SIGCOMM Computer Communication Review,2006,30(5):5-16.
[19]徐鵬,林森. 基于 C4.5 決策 樹的 流 量分 類 方法[J]. 軟 件 學(xué)報,2009,20(10):2692-2704. XU P,LIN S.Internet traffic classification using C4.5 decision tree[J].Journal of Software,2009,20(10):2692-2704.
Internet traffic classification method based on behavior feature learning
LIU Zhen1,WANG Ruoyu2
1.School of Medical Information Engineering,Guangdong Pharmaceutical University,Guangzhou 510006,China 2.Information and Network Engineering and Research Center,South China University of Technology,Guangzhou 510006,China
The connection graph based internet traffic classification method can reflect the connectivity behavior between hosts.Thus,it has high stability.But the heuristic rules summarized for traffic classification are generally incomplete,and they difficultly obtain high classification accuracy.Host communication behavior model and BOF method was researched,and a set of host connection related behavior features (HCBF)was extracted from the multiple flows with the same {destination IP,destination port and transport protocol}.To evaluate the performance of HCBF,it was compared with the existing feature set on the respect of basic classification performance and classification stability.The experiments were carried out on the traffic collected in the traditional and mobile networks.Results show that HCBF out performs existing feature sets.
internet traffic classification,behavior feature,machine learning,communication behavior,network measurement
The National Natural Science Foundation of China(No.61501128)
TP393
:A
10.11959/j.issn.1000-0801.2016152
劉珍(1986-),女,博士,廣東藥科大學(xué)講師, 主要研究方向為互聯(lián)網(wǎng)流量分類、機器學(xué)習(xí)和移動互聯(lián)網(wǎng)。
王若愚(1977-),男,博士,華南理工大學(xué)工程師,主要研究方向為計算機網(wǎng)絡(luò)和模式分類。
2016-04-11;
:2016-05-09
王若愚,rywang@scut.edu.cn
國家自然科學(xué)基金資助項目(No.61501128)