99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<tr id="4oo0o"><blockquote id="4oo0o"></blockquote></tr><tr id="4oo0o"></tr>

<sup id="4oo0o"></sup>

<nav id="4oo0o"><sup id="4oo0o"></sup></nav><nav id="4oo0o"><code id="4oo0o"></code></nav>

<tr id="4oo0o"></tr>

?

基于可變特征空間SVM的互聯(lián)網(wǎng)流量分類

2016-11-20 02:55:33錢亞冠關(guān)曉惠云本勝樓瓊馬鵬飛

電信科學(xué) 2016年5期

關(guān)鍵詞：超平面分類器流量

錢亞冠，關(guān)曉惠，云本勝，樓瓊，馬鵬飛

（1.浙江科技學(xué)院理學(xué)院，浙江杭州310023；2.浙江水利水電學(xué)院，浙江杭州310018）

基于可變特征空間SVM的互聯(lián)網(wǎng)流量分類

錢亞冠1，關(guān)曉惠2，云本勝1，樓瓊1，馬鵬飛1

（1.浙江科技學(xué)院理學(xué)院，浙江杭州310023；2.浙江水利水電學(xué)院，浙江杭州310018）

支持向量機(jī)（support vector machine，SVM）是一類具有良好泛化能力的機(jī)器學(xué)習(xí)算法，適合應(yīng)用于互聯(lián)網(wǎng)動態(tài)環(huán)境下的流量分類問題。目前將SVM擴(kuò)展到流量分類這樣的多分類問題的方法主要有One-Against-All和One-Against-One方法。這些方法都基于單一的特征空間訓(xùn)練SVM兩分類器，沒有考慮到不同特征對不同流量類的不同區(qū)分能力，因此獲得的分離超平面并不是最合理的。為此提出了可變特征空間的SVM集成方法，即為每個兩分類SVM構(gòu)建具有最優(yōu)區(qū)分能力的獨(dú)立特征空間，單獨(dú)訓(xùn)練兩分類SVM，最后再利用One-Against-All和One-Against-One方法集成為多分類器。實(shí)驗(yàn)表明，與原來的單一特征空間的One-Against-All和One-Against-One集成方法相比，提出的方法能有效提高流量分類器分類精度和召回率，更易獲得最優(yōu)分離超平面。

支持向量機(jī)；可變特征空間；流量分類

1 引言

流量分類是互聯(lián)網(wǎng)領(lǐng)域中的一個重要應(yīng)用，如何準(zhǔn)確地識別出流量的應(yīng)用類型對于網(wǎng)絡(luò)管理、流量控制及網(wǎng)絡(luò)安全等具有重要的意義。由于互聯(lián)網(wǎng)的復(fù)雜性、動態(tài)性，在各種應(yīng)用層出不窮的環(huán)境下，如何準(zhǔn)確地識別出流量的應(yīng)用類型目前仍然是個極具挑戰(zhàn)的課題。

互聯(lián)網(wǎng)早期利用TCP端口號可以容易地確定流量的應(yīng)用類型，但隨著互聯(lián)網(wǎng)應(yīng)用的不斷衍生，很多應(yīng)用開始使用動態(tài)端口，甚至使用其他著名端口，如P2P應(yīng)用開始使用Web的80端口傳輸數(shù)據(jù)。這種現(xiàn)狀使得基于端口的方法在識別率上顯著下降?；贒PI（deep packet inspection）的流量分類技術(shù)是目前被廣泛部署的另一類方法［1］。該方法通過檢測數(shù)據(jù)分組中的用戶數(shù)據(jù)部分，發(fā)現(xiàn)特定應(yīng)用的特征字串，實(shí)現(xiàn)對流量應(yīng)用類型的識別。但隨著目前用戶數(shù)據(jù)的加密和隱私保護(hù)的要求，這種方法也越來越顯示出它的不足。

最近，基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法成為流量分類領(lǐng)域的研究熱點(diǎn)［2-5］。所謂的基于機(jī)器學(xué)習(xí)的流量分類方法就是通過某種機(jī)器學(xué)習(xí)算法，從流量訓(xùn)練數(shù)據(jù)中建立分類模型，從而實(shí)現(xiàn)對流量類型的預(yù)測。這種方法的優(yōu)點(diǎn)是可以克服數(shù)據(jù)加密的限制，同時(shí)僅利用IP和TCP這兩層數(shù)據(jù)分組頭部的信息，不受隱私保護(hù)的制約。由于互聯(lián)網(wǎng)流量具有很大的動態(tài)性，如果機(jī)器學(xué)習(xí)算法過擬合（over-fitting）訓(xùn)練數(shù)據(jù)，那么分類模型的泛化能力就會下降，即對未知數(shù)據(jù)的預(yù)測正確率下降。在眾多的機(jī)器學(xué)習(xí)算法中，支持向量機(jī)（support vector machine，SVM）因具有良好的泛化能力，比其他學(xué)習(xí)算法更適合于流量分類。

徐鵬等人［6］提出一種基于SVM的流量分類方法，該方法利用非線性變換和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則將流量分類問題轉(zhuǎn)化為二次優(yōu)化問題，實(shí)驗(yàn)表明該方法具有良好的分類正確率和穩(wěn)定性。Alice E等人［7］將SVM應(yīng)用于流量分類，提出了一個簡單的優(yōu)化算法解決SVM最優(yōu)參數(shù)選擇的問題。Zhou X S等人［8］利用SVM實(shí)現(xiàn)對產(chǎn)生P2P流量的應(yīng)用程序進(jìn)行分類。Li Z等人［9］選擇了對分類影響最大的9種流量特征，利用SVM技術(shù)將網(wǎng)絡(luò)流量分成了bulk traffic、interactive、WWW、service、P2P、mail、other 7 類，得到了95%以上的整體正確率。但由于SVM本質(zhì)上是一個兩分類器（binary classifier），因此將SVM應(yīng)用到流量分類這樣的多分類（multi-class classification）問題時(shí)，往往采用One-Against-All［10］或 One-Against-One［11］等方法將兩分類器集成為多分類器。但這些方法都在一個共同的特征空間下尋找最優(yōu)分離超平面，但同一特征在不同類之間的區(qū)分能力并不等同［12］。針對這個問題，本文在One-Against-All和One-Against-One方法基礎(chǔ)上提出可變特征空間（flexible-feature-space，F(xiàn)FS）的方法，實(shí)驗(yàn)證明該方法可有效地提高流量分類的正確率。

2 支持向量機(jī)

SVM是一種對線性和非線性數(shù)據(jù)進(jìn)行分類的方法。對于非線性可分的數(shù)據(jù)集，通過非線性映射，把原始訓(xùn)練數(shù)據(jù)映射到高維空間，在新的空間中搜索最佳分離超平面。假設(shè)具有兩種不同分類的數(shù)據(jù) 集（x1，y1），… ，（xm，ym），xi∈Rn，yi∈｛-1，+1｝?；镜腟VM就是尋找一個可以分離兩類數(shù)據(jù)的最優(yōu)超平面。如果該數(shù)據(jù)集是線性可分的，則分離超平面可表示為：

其中，W=（w1，w2，…，wk）是權(quán)重向量；b 是一個標(biāo)量參數(shù)。所有的數(shù)據(jù)實(shí)例滿足：

如果數(shù)據(jù)集是線性不可分的，那么通過一個非線性映射函數(shù) （·）將原始數(shù)據(jù)映射到高維空間，從而使得在新空間中實(shí)現(xiàn)線性可分：

滿足上述條件的分離超平面很多，取邊緣最大的分離超平面為最優(yōu)分離超平面，這樣的超平面具有最佳的泛化性能。因此，求最優(yōu)分離超平面的問題轉(zhuǎn)化為如下的凸兩次規(guī)劃問題：

其中，C＞0為常數(shù)，稱為懲罰系數(shù)，用以控制對錯分?jǐn)?shù)據(jù)點(diǎn)的懲罰程度；ξi≥0稱為松弛變量，是為解決樣本線性不可分而引入的。利用拉格朗日乘子法和KKT（Karush-Kuhn-Tucker）條件可求解上述優(yōu)化問題。

3 可變特征空間的SVM集成方法

將多個兩分類基本SVM集成為能完成多分類的SVM，通常是在相同的特征空間中搜尋最優(yōu)的分離超平面。已有研究表明，同一特征對不同流量類的區(qū)分能力是不同的［12］，如數(shù)據(jù)分組大小的均值可以較好地區(qū)分SSH和P2P應(yīng)用，但卻不能很好地區(qū)分FTP和P2P。單一的特征空間并不適合所有的流量類，會增加搜索最優(yōu)分離超平面的困難。因此，本文提出可變特征空間的方法來克服這種單一特征空間的局限性。

圖1給出了不同特征空間下的線性可分性的情況。假設(shè)原始特征空間 F=｛a1，a2，a3，a4，a5｝，任務(wù)是對 C1、C2、C33 類流量進(jìn)行分類。從圖 1（a）可以發(fā)現(xiàn)，在特征子空間｛a1，a2，a3｝下，可以找到合適的超平面分離C2、C3的實(shí)例，但不能分離 C1、C2和 C1、C3的實(shí)例。通過改變特征子空間，如圖 1（b）所示，選擇｛a3，a4，a5｝作為特征子集，則可以找到合適的超平面分離C1、C2的實(shí)例，但卻不能分離C2、C3的實(shí)例。由此可見，在不同的特征子空間中尋找最優(yōu)分離超平面的難度不同，對于 C2、C3而言，選擇｛a1，a2，a3｝作為特征空間更易找到分離超平面；而對于 C1、C2則選擇｛a3，a4，a5｝作為特征空間則更易線性可分。因此，采用傳統(tǒng)上的單一特征空間存在很大的局限性。考慮到SVM是典型的兩類分類器，利用One-Against-All和One-Against-One的方式集成為多分類器，可以在單個的SVM分類器上采用單獨(dú)的特征空間，克服單一特征空間的不合理性。除了在原始的特征空間采用這種可變特征空間的方法，也可把它推廣到經(jīng)過非線性變換后的核空間中。假設(shè) （·）是特征空間Fm到Fn的非線性映射（n＞m），仍然可以在高維核空間Fn中為分類Ci、Cj找到合適的特征子空間，使其更容易被線性可分。

3.1 可變特征空間的One-Against-AII集成分類方法

假設(shè)有k個流量類，One-Against-All方法將集成k個SVM兩分類器來實(shí)現(xiàn)多分類器的能力。假設(shè)給定m個流量訓(xùn)練數(shù)據(jù)實(shí)例（x1，y1），…，（xm，ym），yi∈｛HTTP，F(xiàn)TP，mail，…，games｝，這里假設(shè)有k種流量類型?？勺兲卣骺臻g的One-Against-All集成方法如圖2所示。要識別k種流量類型，需要構(gòu)建k個兩分類SVM，每個SVM負(fù)責(zé)識別一種流量類。每個SVM有專門的訓(xùn)練數(shù)據(jù)，如圖2所示，SVM_1的訓(xùn)練數(shù)據(jù)是通過保留HTTP流量的類別標(biāo)簽，將其他流量的類別標(biāo)簽改成others的方法構(gòu)建，這樣SVM_1只負(fù)責(zé)識別HTTP。以此類推，其他SVM根據(jù)其負(fù)責(zé)識別的流量類型，用同樣的方法構(gòu)建相應(yīng)的訓(xùn)練數(shù)據(jù)。

圖1 不同特征空間（也可映射到核空間）下的線性可分性

圖2 可變特征空間的One-Against-All集成方法

為了克服單一特征空間的缺陷，本文在每個SVM的專門訓(xùn)練數(shù)據(jù)上抽取特征?？紤]到在原始特征空間上存在線性不可分的情況，先將原始的特征空間用多項(xiàng)式核函數(shù)K（x，xi）=（x·xi）+1）d映射到高維空間。具體的特征選擇方法采用Guyon等人［13］提出的SVM-RFE特征選擇算法獲得單獨(dú)的特征空間。該方法是Wrapper型特征選擇方法，即它選擇特征的度量是SVM的分類性能，因此該方法產(chǎn)生的特征空間可保證獲得合理的分離超平面。該方法的基本原理是根據(jù)特征在SVM上的分類性能排序，在每一次遞歸迭代時(shí)去除排序在最后的那個特征。具體而言，在訓(xùn)練SVM過程中，得到當(dāng)前的最優(yōu)分離超平面，計(jì)算權(quán)向量，則第 i個特征的排序重要性為 ci=（wi）2。本文提出的可變特征空間方法的優(yōu)點(diǎn)是：對于特定的SVM，去除了對于該SVM不重要的特征，使得搜索到的最優(yōu)分離超平面更接近于假設(shè)類，從而提高整體的分類精度。

不失一般性，這里僅以O(shè)ne-Against-All集成框架中的第i（i≤k）個SVM為例說明建模原理，其本質(zhì)是解決如下凸兩次規(guī)劃問題：

其中，（·）是非線性映射函數(shù)，C是懲罰系數(shù)，ξ是松弛變量。最終通過如下的判決函數(shù)判定x的分類標(biāo)簽：，即取上述k個判決函數(shù)中的最大值所對應(yīng)的預(yù)測類為最終的分類標(biāo)簽。本文把上述可變特征空間的思路結(jié)合到One-Against-All集成方法后，將其命名為One-Against-All+，具體算法如下所示。

輸入訓(xùn) 練數(shù) 據(jù) D=｛（x1，y1），（x2，y2），… ，（xN，yN）｝，流量類標(biāo)簽 TC=｛C1，C2，…，CK｝，測試數(shù)據(jù) T=｛（x1＇，y1＇），（x2＇，y2＇），…，（xM＇，yM＇）｝。

輸出預(yù)測正確／錯誤的計(jì)數(shù)器｛r（+1），r（-1）｝和預(yù)測類別。

SVMi←在特征空間 Ωi上獲得模型；／求解式（6）～式（8）的優(yōu)化問題；

3.2 可變特征空間的One-Against-One集成分類方法

One-Against-One方法是另一種把兩分類SVM集成為多分類器的方法。假設(shè)要完成對k個流量類的分類任務(wù)，首先為每兩個分類構(gòu)造一個SVM，用于判別這兩個流量類型，共需構(gòu)建k（k-1）／2個SVM兩分類器。對于一個未知流量，每個SVM會輸出一種流量類別的預(yù)測，One-Against-One方法通過投票表決的選出最終的預(yù)測分類，從而解決多分類問題。不失一般性，假設(shè)第i個分類為HTTP，第j個分類為FTP，那么構(gòu)建判別 HTTP或FTP的兩分類SVMi，j就是求解如下的凸兩次規(guī)劃問題：

對某個未知的流量樣本x進(jìn)行測試時(shí)，需要利用k（k-1）／2個SVM對其進(jìn)行判別。如果被SVMij判別為屬于第i類，則第i類的票數(shù)加一；否則，第j類的票數(shù)加一。最終得票數(shù)最多的類就是x的預(yù)測類標(biāo)簽?？勺兲卣骺臻g的One-Against-One集成方法如圖3所示。

與One-Against-All方法一樣，需要為每個兩分類SVM準(zhǔn)備專門的訓(xùn)練數(shù)據(jù)。假設(shè)訓(xùn)練一個用于區(qū)分HTTP和FTP的SVM，訓(xùn)練數(shù)據(jù)通過如下方式產(chǎn)生：在原始數(shù)據(jù)中僅抽取出類標(biāo)簽為HTTP和FTP的流量數(shù)據(jù)。同理，為了訓(xùn)練用于區(qū)分HTTP和mail的SVM，只從原始數(shù)據(jù)中抽取HTTP和mail流量。假設(shè)有k個流量類別，那么共需構(gòu)建k（k-1）／2個訓(xùn)練數(shù)據(jù)集。同樣采用將原始特征空間映射到高維核空間，再采用SVM-RFE特征選擇算法為每個SVM選取單獨(dú)的特征空間。將這種可變特征空間的One-Against-One集成方法稱為One-Against-One+，具體算法如下。

圖3 可變特征空間的One-Against-One集成方法

輸入訓(xùn)練數(shù)據(jù)D=｛（x1，y1），（x2，y2），… ，（xN，yN）｝，流量類標(biāo)簽 TC=｛C1，C2，…，CK｝，測試數(shù)據(jù) T=｛（x1＇，y1＇），（x2＇，y2＇），…，（xM＇，yM＇）｝。

輸出預(yù)測正確／錯誤的計(jì)數(shù)器｛r（+1），r（-1）｝和預(yù)測類別。

4 實(shí)驗(yàn)評估策略

本文采用k-折交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn)結(jié)果的評估。k-折交叉驗(yàn)證是將數(shù)據(jù)隨機(jī)的劃分成k個不相交、大小大致相等的子集 D1，D2，…，Dk。訓(xùn)練與測試進(jìn)行 k 次，在第i次迭代時(shí)，子集Di用作測試集，其余的子集一起用作訓(xùn)練集。分類準(zhǔn)確率估計(jì)是k次迭代準(zhǔn)確分類的實(shí)例總數(shù)除以初始數(shù)據(jù)的中的實(shí)例總數(shù)，通常采用10折交叉驗(yàn)證。評估指標(biāo)采用召回率（recall）與精度（precision）這兩個指標(biāo)：

其中，P為測試集中事先標(biāo)識為正例的樣本數(shù)，TP為分類器正確預(yù)測為正例的樣本數(shù)，TP為被分類器錯誤的將正例預(yù)測為負(fù)例的樣本數(shù)。

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文采用英國劍橋大學(xué)Moore等人提供的公開流量數(shù)據(jù)集［14］作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集通過連續(xù)采集24 h的網(wǎng)絡(luò)流量，并按28 min為間隔隨機(jī)抽取10個數(shù)據(jù)塊，再將流量數(shù)據(jù)分組構(gòu)建成數(shù)據(jù)流（flow），最后得到10個數(shù)據(jù)子集Data1，Data2，…，Data10。由于在10個數(shù)據(jù)子集上進(jìn)行的實(shí)驗(yàn)結(jié)果非常相似，本文只列出了Data1的實(shí)驗(yàn)結(jié)果。

實(shí)驗(yàn)用的第二個數(shù)據(jù)集是從校園網(wǎng)中心的某臺交換機(jī)上獲得的流量數(shù)據(jù)，該交換機(jī)匯聚了某幢男生宿舍的訪問外網(wǎng)的所有網(wǎng)絡(luò)流量。經(jīng)過連續(xù) 1 h（21：30-22：30）的連續(xù)數(shù)據(jù)采集，共計(jì)獲得325 538條數(shù)據(jù)流。為保護(hù)隱私的需要，只截取數(shù)據(jù)分組的分組頭部分，并通過Tcpdpriv工具對IP地址進(jìn)行了匿名化處理。分類標(biāo)簽利用與實(shí)驗(yàn)室合作的迪普公司的DPI模塊完成，并按Moore等提出的特征集進(jìn)行了預(yù)處理。

因上述數(shù)據(jù)集中存在嚴(yán)重的類不平衡情況，采用欠抽樣的方法降低WWW這類占高比例（Moore數(shù)據(jù)集中占72.2%）的流數(shù)據(jù)，最終的訓(xùn)練數(shù)據(jù)集中各類流量的比例見表 1、表 2。

表1 類平衡處理后的數(shù)據(jù)集1

表2 類平衡處理后的數(shù)據(jù)集2

4.2 實(shí)驗(yàn)分析

英國劍橋大學(xué)Moore等人［14］提取出了248種網(wǎng)絡(luò)流特征，但是這些特征有些是不能實(shí)時(shí)獲得的?？紤]到過多的特征在SVM訓(xùn)練過程中非常低效，而CFS這樣基于相關(guān)的特征選擇算法不一定適合SVM；基于SVM的Wrapper型算法在特征空間太大，數(shù)據(jù)很多時(shí)也非常低效，為此本文采用目前被大都數(shù)參考文獻(xiàn)使用，又容易在線提取的特征作為基本的特征子集（見表3）。本文提出的可變特征空間的方法就是在這個基本特征子集的基礎(chǔ)上利用SVM-RFE算法提取兩分類SVM的特征子集，如對于區(qū)分WWW和mail的 SVM，優(yōu)化的特征空間為：｛Dst_port，mean_data_ip_b→a，duration，throughput b→a，mean_data_ip_a→b｝。由于篇幅有限，不一一列出所有兩分類SVM的特征空間。

表3 網(wǎng)絡(luò)流特征子集

圖4和圖5是4種方法在數(shù)據(jù)集1上的流量分類精度和召回率的對比情況。其中One-Against-One+表示改進(jìn)One-Against-One的可變特征空間方法，One-Against-All+表示改進(jìn)One-Against-All的可變特征空間方法。為便于比較，4種方法的SVM均采用的多項(xiàng)式核函數(shù)。從整體觀察，本文提出的可變特征空間方法均使比統(tǒng)一特征空間的方法在精度和召回率上都有很大程度的提高。對于如WWW、mail這樣的比例較高的類，雖然One-Against-All和One-Against-One方法已經(jīng)可以達(dá)到85%以上的精度和召回率，改進(jìn)的新方法使它們提高到90%以上。分類準(zhǔn)確率提升幅度最大的是那些比例很小，原本分類準(zhǔn)確率很低的少數(shù)類，如attack、intertive等。如攻擊流量attack，本身包含多種攻擊類型的流量（worm，virus等），因此它們的共同特征比較少，如果使用一個所有分類共享的單一的特征空間會使得很多區(qū)域疊加，難以找到一個較好的決策分離超平面。改進(jìn)方法專門為攻擊流量的二分類SVM選擇特定的特征空間，有利于減少無關(guān)特征的干擾。實(shí)驗(yàn)數(shù)據(jù)表明，attack流量的精度從原來的13.4%提高到 50.6%（One-Against-All+方法），15.7%提高到51.2%（One-Against-One+方法）。同樣，F(xiàn)TP-control、interactive等原來正確率很低的分類也得到了很大的提高。

圖6和圖7是4種方法在數(shù)據(jù)集2上的流量分類精度和召回率的對比情況。數(shù)據(jù)集2是從校網(wǎng)絡(luò)中心的某臺交換機(jī)采集到的實(shí)際數(shù)據(jù)，本文同樣對數(shù)據(jù)進(jìn)行了欠抽樣處理，以均衡流量類的分布。數(shù)據(jù)集2上的流量分類對比結(jié)果與數(shù)據(jù)集1相似，改進(jìn)的方法使得分類正確率得到了進(jìn)一步提高。在精度上的提高尤其顯著：（One-Against-All+方法）QQ從 64.2%提高到 83.1%，P2P從 72.3%提高到92.6%，games從22.5%提高到40.3%，attack從40.7提高到67.5%；（One-Against-One+方法）QQ從 63.8%提高到 84.3%，P2P從66.7%提高到90.1%，games從 26.6%提高到 39.8%，attack從32.4%提高到65.2%。在召回率上，改進(jìn)方法也比原方法有了明顯的提高。由此可見，本文提出的方法有助于進(jìn)一步提高One-Against-All和One-Against-One的分類正確率。

圖4 4種方法在數(shù)據(jù)集1上的分類精度對比

圖5 4種方法在數(shù)據(jù)集1上的分類召回率對比

5 結(jié)束語

機(jī)器學(xué)習(xí)方法目前應(yīng)用于流量分類是一個研究熱點(diǎn)，SVM由于其良好的泛化能力，非常適合應(yīng)用于互聯(lián)網(wǎng)這類高度動態(tài)變化的場景。SVM最初是針對兩分類問題的，即SVM是典型的兩分類器。但互聯(lián)網(wǎng)流量的應(yīng)用類型很多，對它們進(jìn)行分類是典型的多分類問題。傳統(tǒng)上將SVM擴(kuò)展到多分類模型是通過One-Against-All和One-Against-One方法。本文發(fā)現(xiàn)不同的流量特征（如數(shù)據(jù)分組平均大?。τ诓煌膽?yīng)用，其區(qū)分能力是不同的。因此，傳統(tǒng)上采用單一的特征空間來建立這些兩分類SVM顯然不是最優(yōu)的。本文提出可變特征空間的方法，在One-Against-All和One-Against-One的基礎(chǔ)上，為每個兩分類SVM構(gòu)建獨(dú)立的特征空間，這樣找到的最優(yōu)分離超平面優(yōu)于統(tǒng)一的特征空間。通過兩個真實(shí)的流量數(shù)據(jù)集，對比分析了各自的分類正確性。實(shí)驗(yàn)結(jié)果表明，本文提出的可變特征空間的分類方法可以有效提高原始的One-Against-All和One-Against-One方法的分類性能。本文提出的基于機(jī)器學(xué)習(xí)的流量分類方法，目前類標(biāo)簽標(biāo)注仍依賴于DPI，將來擬研究主動學(xué)習(xí)等方式來解決大規(guī)模類標(biāo)簽標(biāo)注問題。

圖6 4種方法在數(shù)據(jù)集2上的分類精度對比

圖7 4種方法在數(shù)據(jù)集2上的分類召回率對比

［1］BUJLOW T， CARELA-ESPANOL V， BARLET-ROS P.Independentcomparison ofpopularDPI tools fortraffic classification［J］.Computer Networks，2015（76）：75-89.

［2］錢亞冠，張旻.基于過抽樣技術(shù)的 P2P流量識別方法［J］.電信科學(xué)，2014，30（4）：109-113.QIAN Y G，ZHANG M.P2P trafficidentification based over-sampling technique［J］.Telecommunications Science，2014，30（4）：109-113.

［3］TONGAONKAR A，TORRES R，ILIOFOROU M，et al.Towards self-adaptive network traffic classification ［J］. Computer Communications，2015（56）：35-46.

［4］SOYSALA M，SCHMIDT E G.Machine learning algorithms for accurate flow-based network trafficclassification：evaluation and comparison［J］.Performance Evaluation，2010，67（6）：451-467.

［5］SINGH H.Performanceanalysisofunsupervised machine learning techniques for network traffic classification ［C］／2015 Fifth InternationalConference on Advanced Computing &Communication Technologies （ACCT）， Feb 21-25， 2015，Haryana，India.New Jersey：IEEE Press，2015：401-404.

［6］徐鵬，劉瓊，林森.基于支持向量機(jī)的Internet流量分類研究［J］.計(jì)算機(jī)研究與發(fā)展，2009，46（3）：407-414.XU P，LIU Q，LIN S.Internet traffic classification using support vector machine ［J］.JournalofComputer Research and Development，2009，46（3）：407-414.

［7］ESTE A，GRINGOLIF，SALGARELLIL.Supportvector machines for TCP traffic classification ［J］.The International Journal of Computer and Telecommunications Networking，2009，53（14）：2476-2490.

［8］ZHOU X S.A P2P traffic classification method based on SVM［C］／／The 2008 InternationalSymposium on ComputerScience and Computational Technology，Dec 20-22，2008，Washington，DC，USA.［S.1.：s.n.］，2008：53-57.

［9］LI Z，YUAN R，GUAN X.Accurate classification of the internet traffic based on the svm method［C］／／The IEEE International Conference onCommunications，2007 （ICC’07），June 24-28，2007，Glasgow，Scotland.New Jersey：IEEE Press，2007：1373-1378.

［10］CHANG C C，LIN C J.LIBSVM：a library for support vector machines ［EB／OL］. ［2001-07-20］.http：／／www.csie.ntu.edu.tw／～cjlin／libsvm.

［11］KREBEL H G.Pairwiseclassification and supportvector machines ［A］／SCHOLKIPF B，BURGES C J C，SMOLA A.Advances in kernelmethods：support vector learning ［M］.Cambridge：The MIT Press，1999：255-268.

［12］XIE G，ILIOFOTOU M，KERALAPURA R，et al.Subflow：Towards practical flow-level traffic classification ［C］／IEEE INFOCOM 2012，March 25-30，2012，Orlando，F(xiàn)L，USA.New Jersey：IEEE Press，2012：2541-2545.

［13］GUYONG I，WESTON J，BARNHILL S，et al.Gene selection for cancer classification using support vector machines ［J］.Machine Learning，2002，46（1-3）：389-422.

［14］MOORE A W.Dataset ［EB／OL］. ［2009-06-29］.http：／www.cl.cam.ac.uk／research／srg／netos ／nprobe／data／papers／sigmetrics ／.

Internet traffic classification using SVM with flexible feature space

QIAN Yaguan1，GUAN Xiaohui2，YUN Bensheng1，LOU Qiong1，MA Pengfei1
1.College of Science，Zhejiang University of Science and Technology，Hangzhou 310023，China；2.Zhejiang University of Water Resources and Electric Power，Hangzhou 310018，China

SVM is a typical machine learning algorithm with prefect generalization capacity，which is suitable for the internet traffic classification.At present，there are two approaches，One-Against-All and One-Against-One，proposed for extending SVM to multi-class problem like traffic classification.However，these approaches are both based on a unique feature space.In fact，the separating capacity of a special traffic feature is not similar to different applications.Hence，flexible feature space for extending SVM was proposed，which constructs independent feature space with optimal discriminability for each binary-SVM and trains them under their own feature space.Finally，these trained binary-SVM were ensemble by One-Against-All and One-Against-One approaches.The experiments show that the proposed approach can efficiently improve the precision and callback of the traffic classifier and easily obtain more reasonable optimal separating hyper-plane.

support vector machine，flexible feature space，traffic classification

s： The National Natural Science Foundation of China （No.61379118，No.61103200），Education Department Foundation of Zhejiang Province（No.2012E10023-14）

TP393.04

A

10.11959／j.issn.1000-0801.2016132

2016-01-01；

2016-04-09

錢亞冠，qianyg@zju.edu.cn

國家自然科學(xué)基金資助項(xiàng)目（No.61379118，No.61103200）；浙江省網(wǎng)絡(luò)媒體云處理與分析工程技術(shù)中心開放課題資助項(xiàng)目（No.2012E10023-14）

錢亞冠（1976-），男，博士，浙江科技學(xué)院理學(xué)院副教授，主要研究方向?yàn)榛ヂ?lián)網(wǎng)流量分類、下一代互聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)與大數(shù)據(jù)處理。

關(guān)曉惠（1977-），女，浙江水利水電學(xué)院副教授，主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與大數(shù)據(jù)處理。

云本勝（1980-），男，博士，浙江科技學(xué)院理學(xué)院講師，主要研究方向?yàn)閿?shù)據(jù)挖掘和服務(wù)計(jì)算。

樓瓊（1987-），女，博士，浙江科技學(xué)院理學(xué)院講師，主要研究方向?yàn)閳D像處理、機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺。

馬鵬飛（1986-），男，博士，浙江科技學(xué)院理學(xué)院講師，主要研究方向?yàn)檫\(yùn)籌優(yōu)化與機(jī)器學(xué)習(xí)。

猜你喜歡

超平面分類器流量

冰墩墩背后的流量密碼

玩具世界(2022年2期)2022-06-15 07:35:36

全純曲線的例外超平面

數(shù)學(xué)年刊A輯(中文版)(2021年3期)2021-11-05 08:36:32

張曉明：流量決定勝負(fù)！三大流量高地裂變無限可能！

房地產(chǎn)導(dǎo)刊(2021年8期)2021-10-13 07:35:16

涉及分擔(dān)超平面的正規(guī)定則

數(shù)學(xué)年刊A輯(中文版)(2021年2期)2021-07-17 08:37:58

尋找書業(yè)新流量

出版人(2020年4期)2020-11-14 08:34:26

以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題

數(shù)學(xué)物理學(xué)報(bào)(2019年1期)2019-03-21 05:26:12

BP-GA光照分類器在車道線識別中的應(yīng)用

電子測試(2018年1期)2018-04-18 11:52:35

加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類

光學(xué)精密工程(2016年4期)2016-11-07 09:05:00

結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器

光學(xué)精密工程(2016年3期)2016-11-07 09:03:33

數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44

電信科學(xué)2016年5期

電信科學(xué)的其它文章: 基于CXF框架的可配置化企業(yè)內(nèi)容管理平臺Web服務(wù); 基于Wi-Fi協(xié)議的歷史軌跡探測系統(tǒng)的研究與實(shí)現(xiàn); IPv6通信能力指標(biāo)化分析方法及在端到端運(yùn)營級網(wǎng)絡(luò)的應(yīng)用; 二維譜估計(jì)算法的空間探測性能分析及驗(yàn)證; 面向開源路由設(shè)備的I2RS加速技術(shù)設(shè)計(jì)與實(shí)現(xiàn); 基于預(yù)測度量值的IPTV用戶行為規(guī)則預(yù)測算法

峨山| 江北区| 鲜城| 故城县| 深圳市| 镶黄旗| 武汉市| 伊宁县| 原平市| 公安县| 阳朔县| 尼勒克县| 基隆市| 花莲县| 伊金霍洛旗| 沁水县| 凤阳县| 綦江县| 龙州县| 宜川县| 宝兴县| 红安县| 阳春市| 施秉县| 上饶市| 铜山县| 永靖县| 新丰县| 来凤县| 罗定市| 鹿邑县| 江陵县| 会理县| 普兰店市| 双柏县| 泉州市| 鄯善县| 南安市| 莱芜市| 阳城县| 密云县|

<sup id="o444o"></sup>

<nav id="o444o"><sup id="o444o"></sup></nav>