錢(qián)亞冠,關(guān)曉惠,吳淑慧,云本勝,任東曉
(1.浙江科技學(xué)院大數(shù)據(jù)科學(xué)系,浙江 杭州310023;2.浙江水利水電學(xué)院,浙江 杭州310018)
傳統(tǒng)的機(jī)器學(xué)習(xí)方法是在假設(shè)空間中尋找一個(gè)最能接近真實(shí)分類(lèi)函數(shù)的假設(shè)。為此,機(jī)器學(xué)習(xí)研究者對(duì)各種分類(lèi)模型進(jìn)行了大量的研究,力圖提高單個(gè)分類(lèi)器的泛化能力。人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等分類(lèi)模型在不同的應(yīng)用領(lǐng)域取得了不錯(cuò)的分類(lèi)性能,但是也存在單個(gè)分類(lèi)器性能提升越來(lái)越難、訓(xùn)練時(shí)間越來(lái)越長(zhǎng)的弊端,在大數(shù)據(jù)環(huán)境下尤其突出。集成方法的思路是把多個(gè)分類(lèi)器集成起來(lái),通過(guò)對(duì)多個(gè)分類(lèi)器的結(jié)果進(jìn)行某種方式的組合來(lái)決定最終的分類(lèi)結(jié)果,以期取得比單個(gè)分類(lèi)器更好的性能[1]。
目前集成分類(lèi)器的方法有多種,Boosting 和Bagging是兩種典型集成方法[1]。Boosting采用序貫方式產(chǎn)生基分類(lèi)器(base classifier),利用基分類(lèi)器之間的相關(guān)性提升性能;而 Bagging是并行方式產(chǎn)生基分類(lèi)器,利用基分類(lèi)器之間的不相關(guān)性來(lái)提升性能。目前的集成框架有采用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)[2,3],甚至深度神經(jīng)網(wǎng)絡(luò)[4]作為基分類(lèi)器,也有選擇支持向量機(jī)作為基本類(lèi)器[5]。但集成學(xué)習(xí)理論的本意是利用弱分類(lèi)器來(lái)構(gòu)建強(qiáng)分類(lèi)器,同時(shí)弱分類(lèi)器往往訓(xùn)練時(shí)間短,因此選擇用簡(jiǎn)單的 Softmax回歸來(lái)構(gòu)建強(qiáng)分類(lèi)器。已有的研究表明[1],基分類(lèi)器之間差異度越大,Bagging集成方法的分類(lèi)性能越好。前期研究表明,即使采用相同的特征選擇算法,在不同的訓(xùn)練集上(例如不同時(shí)段獲得的流量數(shù)據(jù))也可獲得較大差異的特征子集[6]??紤]到經(jīng)典Bagging中的基分類(lèi)器是在相同的特征集上構(gòu)建分類(lèi)模型,為進(jìn)一步增大基分類(lèi)器之間的差異度,提出每個(gè)基分類(lèi)器采用獨(dú)立的特征子集。同時(shí),經(jīng)典 Bagging集成方法采用等權(quán)重投票表決的方式來(lái)給出最終的預(yù)測(cè)結(jié)果,而事實(shí)上每個(gè)基分類(lèi)器的能力不同,為此采用帶權(quán)投票方式來(lái)進(jìn)一步提高分類(lèi)精度。
最后,把改進(jìn)的Bagging集成分類(lèi)方法應(yīng)用到互聯(lián)網(wǎng)流量分類(lèi)領(lǐng)域。流量分類(lèi)是互聯(lián)網(wǎng)領(lǐng)域中的一個(gè)重要應(yīng)用,如何準(zhǔn)確識(shí)別出流量的應(yīng)用類(lèi)型對(duì)于網(wǎng)絡(luò)管理、流量控制及網(wǎng)絡(luò)安全等具有重要的意義[7]。由于互聯(lián)網(wǎng)的復(fù)雜性、動(dòng)態(tài)性,在各種網(wǎng)絡(luò)應(yīng)用層出不窮的情況下,如何準(zhǔn)確識(shí)別出流量的應(yīng)用類(lèi)型目前仍然是個(gè)極具挑戰(zhàn)的課題,而利用分類(lèi)器集成的方式可以克服上述動(dòng)態(tài)性造成的分類(lèi)誤差。通過(guò)實(shí)際的流量數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果顯示改進(jìn)方法比經(jīng)典的Bagging方法有顯著的性能提升,與采用決策樹(shù)集成的隨機(jī)森林(random forest)方法相比也有提高,符合研究預(yù)期。
簡(jiǎn)單地說(shuō),集成學(xué)習(xí)就是利用多個(gè)分類(lèi)器的能力來(lái)克服單個(gè)分類(lèi)器的不足,圖1給出了集成方法的框架結(jié)構(gòu)[1]。一般把參與集成的單個(gè)分類(lèi)器稱(chēng)為基分類(lèi)器,基分類(lèi)器由基學(xué)習(xí)算法(base learning algorithm)訓(xùn)練獲得,決策樹(shù)、感知器等都可以作為基分類(lèi)器。根據(jù) Kearns和 Valiant[8,9]提出的強(qiáng)可學(xué)習(xí)與弱可學(xué)習(xí)理論,分類(lèi)準(zhǔn)確率只要略高于 50%的弱分類(lèi)器(即比隨機(jī)猜測(cè)略好)是可以增強(qiáng)為強(qiáng)分類(lèi)器的。集成方法正是基于此理論,集成多個(gè)弱分類(lèi)器后獲得比單個(gè)強(qiáng)分類(lèi)器更好的分類(lèi)性能。
圖1 一個(gè)點(diǎn)位的交叉
目前集成分類(lèi)器的方法有多種,Bagging和Boosting是兩種典型集成方法[1]。經(jīng)典Bagging集成方法采用 bootstrap抽樣方法[10]獲得多個(gè)訓(xùn)練集,在每個(gè)訓(xùn)練集上獲得多個(gè)基分類(lèi)器,最后通過(guò)投票的方式?jīng)Q定最終的分類(lèi)預(yù)測(cè)標(biāo)簽。bootstrap抽樣構(gòu)建的Bagging算法如下。
算法1 Bagging算法
基學(xué)習(xí)器L;基學(xué)習(xí)器數(shù)量N
Bagging是通過(guò)并行方式產(chǎn)生基分類(lèi)器,利用基分類(lèi)器之間的差異性來(lái)提升性能。為方便分析,假設(shè)分類(lèi)標(biāo)簽集合為目標(biāo)函數(shù)為f,每個(gè)基分類(lèi)器具有獨(dú)立的泛化誤差ε,即對(duì)于每個(gè)基分類(lèi)器hi,有把N個(gè)上述兩分類(lèi)器用Bagging方式集成后的假設(shè)函數(shù)為:
由式(1)可知,當(dāng)超過(guò)一半的基分類(lèi)器犯錯(cuò)時(shí),集成分類(lèi)器H才犯錯(cuò)。根據(jù) Hoeffding不等式,集成分類(lèi)器H的泛化誤差為:
式(2)表明,不相關(guān)的基分類(lèi)器越多,泛化誤差越小。因此,如何在有限的訓(xùn)練集上得到盡可能多的、差異性顯著的基分類(lèi)器是 Bagging集成方法成功的關(guān)鍵。本文正是通過(guò)進(jìn)一步強(qiáng)化基分類(lèi)器的差異性來(lái)提升 Bagging的分類(lèi)能力。在大數(shù)據(jù)環(huán)境下,選擇 Bagging作為集成框架的另一個(gè)優(yōu)點(diǎn)是可以充分利用目前多核處理器的并行能力來(lái)產(chǎn)生基分類(lèi)器。
經(jīng)典Bagging方法采用bootstrap重抽樣來(lái)產(chǎn)生不同的訓(xùn)練集,增加基分類(lèi)器的個(gè)體差異度,從而提高泛化能力。但是bootstrap產(chǎn)生的訓(xùn)練集與原始數(shù)據(jù)集仍有 63.2%的重合度,對(duì)于像 k-近鄰這樣的穩(wěn)定分類(lèi)器而言,并不能產(chǎn)生個(gè)體差異很大的基分類(lèi)器??紤]到經(jīng)典 Bagging集成方法是在相同的特征子集下構(gòu)建基分類(lèi)器,從特征子集入手來(lái)增大基分類(lèi)器的差異度。同時(shí),經(jīng)典的Bagging方法假定每個(gè)基分類(lèi)器的投票權(quán)重相等,不符合基分類(lèi)器能力不同的實(shí)際情況。本文提出加權(quán)集成的思路,利用梯度下降的優(yōu)化方法獲得權(quán)重系數(shù)。
所謂特征選擇,就是從高維的特征空間中去除相關(guān)性強(qiáng)的冗余特征,獲得最優(yōu)的特征子集。特征選擇算法一般包括子集產(chǎn)生過(guò)程、評(píng)價(jià)函數(shù)、停止準(zhǔn)則和驗(yàn)證過(guò)程這4個(gè)部分,其中子集產(chǎn)生過(guò)程是搜索特征子集空間的過(guò)程,是計(jì)算復(fù)雜度最高的部分。由于特征子集的搜索空間與特征數(shù)成指數(shù)關(guān)系,用蠻力法搜索整個(gè)特征子集空間將是一個(gè) NP難問(wèn)題。實(shí)際應(yīng)用中通常采用啟發(fā)式搜索,本文采用隨機(jī)搜索的遺傳算法來(lái)獲得不同訓(xùn)練集上的特征子集,以保證訓(xùn)練的基分類(lèi)器之間有最大的差異度。
特征選擇的子集產(chǎn)生過(guò)程采用遺傳算法進(jìn)行搜索,首先需要對(duì)染色體進(jìn)行編碼,一個(gè)染色體表示一個(gè)特征子集。采用 0/1方式編碼染色體,例如染色體編碼為00101000,表示特征子集{3,5},即第3和第5個(gè)特征被選取,這里假設(shè)用整數(shù)索引特征。第2個(gè)步驟是初始化一個(gè)種群P,它表示一個(gè)隨機(jī)生成的染色體集合。第3個(gè)步驟是計(jì)算每個(gè)染色體的適應(yīng)度,模擬生物對(duì)環(huán)境的適應(yīng)能力。本文中的適應(yīng)能力是指該特征子集是否有利于分類(lèi)器的性能提高,因此定義適應(yīng)度評(píng)價(jià)函數(shù)為:
其中,C表示染色體,Xc表示染色體C對(duì)應(yīng)的特征子集。J(Xc,D)是對(duì)特征子集的評(píng)估,取分類(lèi)準(zhǔn)確率為評(píng)價(jià)指標(biāo);penalty(Xc)是特征數(shù)目的懲罰項(xiàng),防止特征子集過(guò)大。第4個(gè)步驟是按照適應(yīng)度對(duì)種群中的染色體排序,適應(yīng)度高的染色體會(huì)被高概率選中用于繁殖下一代,本文采用基于排序輪盤(pán)賭的選取方法。第5個(gè)步驟是把選出的染色體進(jìn)行交叉繁殖,圖1和圖2是常見(jiàn)的幾種交叉方式。第6個(gè)步驟是交叉繁殖后的后代染色體進(jìn)行變異操作。最后用步驟3的適應(yīng)度評(píng)價(jià)函數(shù)評(píng)估新繁殖的染色體,如果優(yōu)于其雙親染色體,則從種群中替換雙親染色體。步驟3至步驟7反復(fù)迭代執(zhí)行,直到滿(mǎn)足最優(yōu)終止條件。由于上述進(jìn)化過(guò)程中存在隨機(jī)選擇雙親染色體的行為,因此可以避免迭代過(guò)程陷入局部最優(yōu),最終有可能找到全局最優(yōu)解。算法結(jié)束后,種群P中的染色體按適應(yīng)度排序,據(jù)前列的染色體即是需要的特征子集。算法2描述了上述基于遺傳算法的特征子集選擇過(guò)程。
圖2 兩個(gè)點(diǎn)位的交叉過(guò)程
算法2 GAFeatureSelect //基于遺傳算法的特征子集選擇
for i=1,…,K //初始化 K 個(gè)染色體(特征子集)
經(jīng)典的 Bagging方法假定每個(gè)基分類(lèi)器在投票中的權(quán)重相等,而本文提出的方法是在不同的特征子集上訓(xùn)練基分類(lèi)器,這些分類(lèi)器在分類(lèi)能力上會(huì)存在一定的差異,因此本文進(jìn)一步提出加權(quán)集成的思路,賦予每個(gè)基分類(lèi)器不同的投票權(quán)重。圖3是改進(jìn)后的Bagging集成框架,可以發(fā)現(xiàn),每個(gè)基分類(lèi)器是在單獨(dú)的特征子集上構(gòu)建的。假設(shè)訓(xùn)練集為是k個(gè)類(lèi)標(biāo)簽的索引值。本文采用Softmax回歸作為基分類(lèi)器,它是Logistic回歸往多分類(lèi)器上的推廣。Softmax回歸的假設(shè)函數(shù)為:
y 的后驗(yàn)概率構(gòu)成的。假設(shè)第i個(gè) Softmax回歸基分類(lèi)器的輸出是向量所有的輸出向量經(jīng)加權(quán)求和集成后通常不滿(mǎn)足概率的規(guī)范性,采用 Softmax函數(shù)再次變換到[0,1]區(qū)間:
圖3 基于特征子集構(gòu)建的加權(quán)Bagging集成框架
其中,I(x)是指示函數(shù),即當(dāng)x是true時(shí),I(x)=1,否則I(x)=0。yj是第 j個(gè)類(lèi)的輸出標(biāo)簽,pj是第j個(gè)類(lèi)的后驗(yàn)概率。由式(5)可知,代價(jià)函數(shù)是權(quán)重向量的函數(shù)??梢酝ㄟ^(guò)迭代的方式更新權(quán)重向量:
其中,[?]j表示向量中的第j個(gè)分量。通過(guò)最速梯度下降法迭代收斂到最權(quán)重,代入式(6),即最終的集成分類(lèi)器,見(jiàn)算法3。
算法3 WeighedBagging
Softmax回歸學(xué)習(xí)器L;基學(xué)習(xí)器數(shù)量N;步長(zhǎng)λ=0.1
流量分類(lèi)是互聯(lián)網(wǎng)領(lǐng)域中的一個(gè)重要應(yīng)用,如何準(zhǔn)確識(shí)別出流量的應(yīng)用類(lèi)型對(duì)于網(wǎng)絡(luò)管理、流量控制及網(wǎng)絡(luò)安全等具有重要的意義。由于互聯(lián)網(wǎng)的復(fù)雜性、動(dòng)態(tài)性,如何準(zhǔn)確識(shí)別出流量的應(yīng)用類(lèi)型目前仍然是個(gè)極具挑戰(zhàn)的課題。由于數(shù)據(jù)分組加密技術(shù)的出現(xiàn),深度分組檢測(cè)(DPI)技術(shù)顯得力不從心,而基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法不依賴(lài)于特征字串,因此成為流量分類(lèi)領(lǐng)域的新興技術(shù)[11-13]。
所謂的基于機(jī)器學(xué)習(xí)的流量分類(lèi)方法就是通過(guò)機(jī)器學(xué)習(xí)算法,從流量訓(xùn)練數(shù)據(jù)中建立分類(lèi)模型,從而實(shí)現(xiàn)對(duì)流量類(lèi)型的預(yù)測(cè)。這種方法的優(yōu)點(diǎn)是可以克服數(shù)據(jù)加密的限制,同時(shí)僅利用IP和TCP這兩層數(shù)據(jù)分組頭部的信息,不受隱私保護(hù)的制約。但是,互聯(lián)網(wǎng)流量行為的高度不確定性,導(dǎo)致不同地點(diǎn)、不同時(shí)間段獲取的數(shù)據(jù)集之間存在較大的差異性。因此,不同的數(shù)據(jù)集訓(xùn)練獲得的模型對(duì)預(yù)測(cè)結(jié)果就會(huì)產(chǎn)生較大的波動(dòng),而B(niǎo)agging集成機(jī)器學(xué)習(xí)方法則可以有效地克服這種波動(dòng)性。進(jìn)一步在經(jīng)典的 Bagging集成方法基礎(chǔ)上,引入特征子集和加權(quán)集成基分類(lèi)器的思想,提高互聯(lián)網(wǎng)高動(dòng)態(tài)環(huán)境下的流量分類(lèi)準(zhǔn)確性。
本文實(shí)驗(yàn)室數(shù)據(jù)的來(lái)源有兩個(gè):一是英國(guó)劍橋大學(xué) Moore等提供的公開(kāi)流量數(shù)據(jù)集[14],二是從校網(wǎng)中心的某臺(tái)交換機(jī)上獲得的流量數(shù)據(jù),該交換機(jī)匯聚了某幢男生宿舍訪問(wèn)外網(wǎng)的所有網(wǎng)絡(luò)流量。采用兩個(gè)不同的數(shù)據(jù)集合在一起產(chǎn)生集成分類(lèi)器,目的是把不同地點(diǎn)和不同時(shí)間獲取的流量數(shù)據(jù)訓(xùn)練集成分類(lèi)器,以期獲得更好的泛化能力。Moore等提供的實(shí)驗(yàn)數(shù)據(jù)是通過(guò)連續(xù)采集24 h的網(wǎng)絡(luò)流量,并按28 min為間隔隨機(jī)抽取10個(gè)數(shù)據(jù)塊,本文只選用其中的5個(gè)數(shù)據(jù)塊。
校網(wǎng)中心的數(shù)據(jù)選在周一晚上 21:30—22:30、周二下午 15:00—16:00、周三上午 10:30—11:30、周五晚上 19:30—20:30、周六下午 16:00—17:00 和周日上午8:30—10:30。其中,前5天的數(shù)據(jù)用于訓(xùn)練基分類(lèi)器,周日的數(shù)據(jù)用于測(cè)試。為保護(hù)隱私,只截取數(shù)據(jù)分組的分組頭部分,并通過(guò)Tcpdpriv工具對(duì)IP地址進(jìn)行了匿名化處理。由于Moore流量數(shù)據(jù)集由248個(gè)特征構(gòu)成,把校網(wǎng)中心獲取的數(shù)據(jù)預(yù)處理成與Moore數(shù)據(jù)集同樣的特征集。
紫薇是我國(guó)夏季重要的觀花樹(shù)種,因此在復(fù)色紫薇栽培過(guò)程中,花性狀的重要性明顯高于生長(zhǎng)性狀,而生長(zhǎng)性狀也是促進(jìn)花性狀充分表現(xiàn)的基礎(chǔ),在花性狀不受到顯著影響的情況下應(yīng)該適當(dāng)兼顧[11]。根據(jù)以上原則,我們應(yīng)采用兩次葉面肥的追肥方法,基肥采用拌土方式施用均衡肥料,展葉期以高鉀肥料追肥,花期以高磷或均衡營(yíng)養(yǎng)肥料追肥,適當(dāng)提早花期追肥時(shí)間能夠獲得較好的效果。
考慮到Moore數(shù)據(jù)集中的某些流量類(lèi)型的定義與本文的數(shù)據(jù)有差異,最后兩個(gè)數(shù)據(jù)集都統(tǒng)一選用 WWW、mail、FTP、P2P、database、multimedia等幾種類(lèi)型的數(shù)據(jù)流。提出的集成方法在 Moore的5個(gè)數(shù)據(jù)集和本文采集的5個(gè)數(shù)據(jù)集上共訓(xùn)練10個(gè)基分類(lèi)器,每個(gè)基分類(lèi)器采用Softmax回歸線(xiàn)性模型,并采用自己的特征子集和加權(quán)權(quán)重。
把改進(jìn)方法命名為 Bagging+,與經(jīng)典的Bagging方法、隨機(jī)森林進(jìn)行性能比較。性能評(píng)估采用召回率(recall)、精度(precision)和 F-measure這3個(gè)指標(biāo):
其中,P為測(cè)試集中事先標(biāo)識(shí)為正例的樣本數(shù),TP為分類(lèi)器正確預(yù)測(cè)為正例的樣本數(shù),F(xiàn)P為被分類(lèi)器錯(cuò)誤地將正例預(yù)測(cè)為負(fù)例的樣本數(shù)。F-measure是召回率和精度的調(diào)和平均,是一個(gè)能比較好地反映分類(lèi)性能的綜合指標(biāo)。
表1給出了Bagging+與經(jīng)典Bagging方法之間的性能比較。盡管這兩種集成方法均采用了Softmax回歸線(xiàn)性分類(lèi)器作為基分類(lèi)器,由于Bagging+采用了不同的特征子集訓(xùn)練,且采用優(yōu)化權(quán)重集成,可以發(fā)現(xiàn),召回率、精度和F-measure這3個(gè)指標(biāo)均比經(jīng)典Bagging方法有提升。WWW、mail、FTP-control這 3種流量類(lèi)型的識(shí)別率提高幅度不大,因?yàn)榻?jīng)典 Bagging方法已具有非常好的識(shí)別率。但是 FTP-PASV、P2P和 multimedia的識(shí)別率提高顯著。從 F-measure指標(biāo)看,multimedia從39.7%提高到96.9%,幅度超過(guò)50%。而FTP-PASV和P2P盡管絕對(duì)指標(biāo)只達(dá)到67%左右,但是比經(jīng)典方法提高了 40%左右,提升效果也是顯著的。
表2給出了Bagging+方法與隨機(jī)森林的性能比較。隨機(jī)森林的集成框架為Bagging,基分類(lèi)器為決策樹(shù)。由于決策樹(shù)是一種不穩(wěn)定的分類(lèi)器,不同數(shù)據(jù)集可以產(chǎn)生不同的決策樹(shù),因此通過(guò)Bagging集成后能極大地提高分類(lèi)性能。通過(guò)比較可以發(fā)現(xiàn),隨機(jī)森林比經(jīng)典的 Bagging方法的性能要提高不少,但改進(jìn)的Bagging+方法則比隨機(jī)森林有較好的提升,特別是P2P的F-measure指標(biāo)從52.1%提高到67.1%、FTP-data從83.0%提高到99.9%。FTP-PASV則有小幅下降,從70.8%降到67.5%,其他類(lèi)別基本持平。因此,總體上看,Bagging+方法比隨機(jī)森林方法有提高,特別是占比少的流量類(lèi)別改進(jìn)比較明顯。
從實(shí)驗(yàn)結(jié)果看,改進(jìn) Bagging集成方法通過(guò)遺傳算法搜索特征子集,再通過(guò)加權(quán)集成基分類(lèi)器可以提高分類(lèi)正確率。Bagging集成的性能主要取決于基分類(lèi)器的差異度,遺傳算法是一種隨機(jī)搜索優(yōu)化方法,在不同的數(shù)據(jù)集上這種隨機(jī)性會(huì)得到差異性較大特征子集,而不同的特征子集又進(jìn)一步加大了基分類(lèi)器之間的差異性。通過(guò)交叉熵代價(jià)函數(shù)最小的方式獲得的加權(quán)集成可以較好地確定不同分類(lèi)器對(duì)最后判決的貢獻(xiàn)度,比同等權(quán)重的投票表決更加精確。
表1 Bagging+方法與Bagging方法比較
表2 Bagging+方法與隨機(jī)森林比較
本文提出基于特征集構(gòu)建的 Bagging集成方法,利用遺傳算法在不同的數(shù)據(jù)集上獲取特征子集,不同的基分類(lèi)器在獨(dú)立的特征子集上訓(xùn)練獲得,這樣可以最大限度地挖掘基分類(lèi)器之間的差異性。同時(shí),還進(jìn)一步采用加權(quán)集成的方法優(yōu)化基分類(lèi)器的投票組合,進(jìn)一步提高分類(lèi)器的預(yù)測(cè)性能。最后把這種改進(jìn)的集成分類(lèi)方法應(yīng)用到互聯(lián)網(wǎng)流量的分類(lèi)中,目的是克服網(wǎng)絡(luò)的動(dòng)態(tài)性帶來(lái)的分類(lèi)模型的不穩(wěn)定性。通過(guò)實(shí)際的流量數(shù)據(jù)測(cè)試,這種新的集成分類(lèi)器具有較好的泛化能力,適合應(yīng)用于互聯(lián)網(wǎng)這種高度動(dòng)態(tài)環(huán)境。
參考文獻(xiàn):
[1] ZHOU Z H.Ensemble methods: foundations and algorithms[M].Boca Raton: CRC Press, 2012.
[2] LI H, WANG X, DING S.Research and development of neural network ensembles: a survey[J].Artificial Intelligence Review,2017: 1-25.
[3] AMOZEGAR M, KHORASANI K.An ensemble of dynamic neural network identifiers for fault detection and isolation of gas turbine engines[J].Neural Networks, 2016(76): 106-121.
[4] INOUE H.Fast and accurate inference with adaptive ensemble prediction in image classification with deep neural networks[J].arXiv preprint arXiv:1702.08259, 2017.
[5] WANG Q, LUO Z H, HUANG J C, et al.A novel ensemble method for imbalanced data learning: bagging of extrapolation-SMOTE SVM[J].Computational Intelligence and Neuroscience, 2017(3): 1827016.
[6] 高文, 錢(qián)亞冠, 吳春明, 等.網(wǎng)絡(luò)流量特征選擇方法中的分治投票策略研究[J].電子學(xué)報(bào), 2015, 43(4): 795-799.GAO W, QIAN Y G, WU C M, et al.The divide-conquer and voting strategy for traffic feature selection[J].Acta Electronica Sinica, 2015, 43(4): 795-799.
[7] 錢(qián)亞冠, 張旻.基于過(guò)抽樣技術(shù)的 P2P 流量識(shí)別方法[J].電信科學(xué), 2014, 30(4): 109-113.QIAN Y G, ZHANG M.P2P traffic identification based over-sampling technique[J].Telecommunications Science, 2014,30(4): 109-113.
[8] KEARNS M.Learning Boolean formulae or finite automata is as hard as factoring[R].Technical Report TR-14-88 Harvard University Aiken Computation Laboratory, 1988.
[9] KEARNS M, VALIANT L.Cryptographic limitations on learning Boolean formulae and finite automata[J].Journal of the ACM (JACM), 1994, 41(1): 67-95.
[10] EFRON B, TIBSHIRANI R.An introduction to the bootstrap[M].New York: Chapman & Hall, 1993.
[11] TONGAONKAR A, TORRES R, ILIOFOTOU M, et al.Towards self-adaptive network traffic classification[J].Computer Communications, 2015(56): 35-46.
[12] SOYSALA M, SCHMIDT E G. Machine learning algorithms for accurate flow-based network traffic classification: evaluation and comparison[J].Performance Evaluation, 2010, 67(6): 451-467.
[13] SINGH H.Performance analysis of unsupervised machine learning techniques for network traffic classification[C]//2015 Fifth International Conference on Advanced Computing&Communication Technologies (ACCT), May 15-16, 2015,Haryana, India.Piscataway: IEEE Press, 2015: 401-404.
[14] MOORE A W.Dataset[EB].2017.