• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于實(shí)例的強(qiáng)分類器快速集成方法

      2017-06-27 08:10:42許業(yè)旺王永利趙忠文
      計(jì)算機(jī)應(yīng)用 2017年4期
      關(guān)鍵詞:識(shí)別率分類器權(quán)重

      許業(yè)旺,王永利,趙忠文

      1.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094; 2.裝備學(xué)院 復(fù)雜電子系統(tǒng)仿真重點(diǎn)實(shí)驗(yàn)室,北京 101416)(*通信作者電子郵箱381181495@qq.com)

      基于實(shí)例的強(qiáng)分類器快速集成方法

      許業(yè)旺1*,王永利1,趙忠文2

      1.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094; 2.裝備學(xué)院 復(fù)雜電子系統(tǒng)仿真重點(diǎn)實(shí)驗(yàn)室,北京 101416)(*通信作者電子郵箱381181495@qq.com)

      針對(duì)集成分類器由于基分類器過弱,需要犧牲大量訓(xùn)練時(shí)間才能取得高精度的問題,提出一種基于實(shí)例的強(qiáng)分類器快速集成方法——FSE。首先通過基分類器評(píng)價(jià)方法剔除不合格分類器,再對(duì)分類器進(jìn)行精確度和差異性排序,從而得到一組精度最高、差異性最大的分類器;然后通過FSE集成算法打破已有的樣本分布, 重新采樣使分類器更多地關(guān)注難學(xué)習(xí)的樣本,并以此決定各分類器的權(quán)重并集成。實(shí)驗(yàn)通過與集成分類器Boosting在UCI數(shù)據(jù)庫(kù)和真實(shí)數(shù)據(jù)集上進(jìn)行比對(duì),Boosting構(gòu)造的集成分類器的識(shí)別精度最高分別能達(dá)到90.2%和90.4%,而使用FSE方法的集成分類器精度分別能達(dá)到95.6%和93.9%;而且兩者在達(dá)到相同精度時(shí),使用FSE方法的集成分類器分別縮短了75%和80%的訓(xùn)練時(shí)間。實(shí)驗(yàn)結(jié)果表明,F(xiàn)SE集成模型能有效提高識(shí)別精度、縮短訓(xùn)練時(shí)間。

      強(qiáng)分類器集成模型;基分類器評(píng)價(jià)方法;集成算法;樣本分布;集成學(xué)習(xí)

      0 引言

      集成學(xué)習(xí)(Ensemble Learning)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。它可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此集成學(xué)習(xí)作為機(jī)器學(xué)習(xí)界的研究熱點(diǎn),目前已經(jīng)廣泛應(yīng)用于文本與語音識(shí)別[1]、協(xié)同過濾推薦[2]、輔助醫(yī)療診斷[3]、遙感信息處理[4]、系統(tǒng)故障診斷[5]等多個(gè)領(lǐng)域。

      分類器集成是集成學(xué)習(xí)一個(gè)重要的研究方向,目前主要集成算法主要包括Boosting和Bagging,而不考慮數(shù)據(jù)集的影響,Boosting方法的集成分類器效果明顯優(yōu)于Bagging[6]。在大部分相關(guān)文獻(xiàn)中,集成過程往往選擇神經(jīng)網(wǎng)絡(luò)[7]、樸素貝葉斯[8-9]、決策樹[10-11]等算法訓(xùn)練出成百上千個(gè)弱分類器(識(shí)別率稍高于0.5)再進(jìn)行集成。這一做法存在以下不足:一方面,使用數(shù)量巨大的分類器將導(dǎo)致更大的計(jì)算和存儲(chǔ)開銷;另一方面,此類基分類器差異本身就很小,而當(dāng)多次訓(xùn)練使得基分類器數(shù)目增加之后,分類器之間的差異會(huì)更小。周志華等已經(jīng)驗(yàn)證,集成學(xué)習(xí)的效果取決于基分類器之間的差異性[12-15]。本文從參與集成的基分類器的分類準(zhǔn)確性和差異性兩方面考慮:準(zhǔn)確性方面,本文選擇識(shí)別率較高的強(qiáng)分類器作為基分類器,不僅能保障識(shí)別精度,還可以大幅提高集成效率;差異性方面,本文將差異性評(píng)價(jià)方法應(yīng)用到分類器集成中,使集成系統(tǒng)的識(shí)別精度得到進(jìn)一步提高。

      在選定好基分類器之后,分類器之間的輸出集成方法就成為實(shí)現(xiàn)集成學(xué)習(xí)系統(tǒng)的關(guān)鍵。目前常見的分類器集成方法有投票法[16]、線性組合法、證據(jù)理論法、模糊積分法等,它們?cè)谝欢l件下均可以提高集成學(xué)習(xí)系統(tǒng)的性能。然而,這些方法都只是根據(jù)分類器的統(tǒng)計(jì)性能賦予分類器以相應(yīng)的權(quán)值,而沒有考慮各個(gè)樣本的具體情況。比如投票法它的基本思想是:由基分類器對(duì)樣本進(jìn)行預(yù)測(cè),每一個(gè)基分類器對(duì)自己所預(yù)測(cè)的類投一票,得到票數(shù)最多的類就是該樣本的最終預(yù)測(cè)結(jié)果。這種集成方法往往會(huì)導(dǎo)致結(jié)果更傾向于那些易于識(shí)別的樣本,而對(duì)于那些容易出錯(cuò)的樣本,由于大部分分類器識(shí)別錯(cuò)誤,導(dǎo)致最終結(jié)果也是錯(cuò)誤的,無法發(fā)揮那些識(shí)別率較低,卻具有很高差異性的分類器的作用。本文從基于實(shí)例的角度,采取多次改變樣本權(quán)重以設(shè)定各分類器權(quán)重的思想,設(shè)

      計(jì)了一種基于集成學(xué)習(xí)的強(qiáng)分類器集成模型,并提出了一種FSE(Fast Strong-classifiers Ensemble)集成算法來設(shè)定模型中基分類器的權(quán)重。最后通過算法分析和實(shí)驗(yàn)結(jié)果表明,本文模型的精度優(yōu)于所有用于集成的基分類器以及常用集成方法,具有更優(yōu)的精度以及更好的泛化能力,同時(shí)由于使用的分類器屬于強(qiáng)分類器,極大地縮短了訓(xùn)練模型的時(shí)間,使其更具有實(shí)際應(yīng)用價(jià)值。

      1 定義與模型

      差異性是高泛化能力集成的必要條件,為了使選擇的基分類器具有很高的差異度,本文從識(shí)別率和差異性的角度設(shè)定了一種基分類器評(píng)價(jià)方法,從眾多強(qiáng)分類器中選擇最佳的基分類器集成組合。最后使用FSE算法集成所選的基分類器形成具有精度高、訓(xùn)練時(shí)間短的超強(qiáng)分類器。該模型包括訓(xùn)練模塊和測(cè)試模塊兩部分,如圖1所示。

      圖1 強(qiáng)分類器集成模型

      訓(xùn)練模塊主要分為五部分:1)提取特征;2)數(shù)據(jù)抽樣;3)訓(xùn)練基分類器;4)挑選基分類器;5)設(shè)置基分類器權(quán)重。

      測(cè)試模塊主要分為四部分:1)提取特征;2)數(shù)據(jù)抽樣;3)使用集成分類器;4)輸出結(jié)果。

      下面對(duì)模塊中出現(xiàn)的各步驟進(jìn)行詳細(xì)說明:

      提取特征 訓(xùn)練模塊和測(cè)試模塊均使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)對(duì)數(shù)據(jù)集進(jìn)行特征提取。由于本文主要采用基于實(shí)例思想,更關(guān)注當(dāng)前樣本權(quán)值分配,使用ANN可以在面對(duì)新樣本時(shí)快速而有效地建立新的目標(biāo)函數(shù)。

      數(shù)據(jù)抽樣 訓(xùn)練模塊的數(shù)據(jù)抽樣部分對(duì)經(jīng)過ANN提取特征后的有標(biāo)簽數(shù)據(jù)集進(jìn)行分層抽樣,得到訓(xùn)練數(shù)據(jù)集1和訓(xùn)練數(shù)據(jù)集2。其中訓(xùn)練數(shù)據(jù)集1供訓(xùn)練分類器使用;而訓(xùn)練數(shù)據(jù)集2供訓(xùn)練FSE集成分類器使用。測(cè)試模塊的數(shù)據(jù)抽樣部分對(duì)經(jīng)過ANN提取特征后的無標(biāo)簽數(shù)據(jù)集進(jìn)行分層抽樣得到測(cè)試數(shù)據(jù)集,供測(cè)試FSE集成分類器使用。

      訓(xùn)練基分類器 該部分使用訓(xùn)練數(shù)據(jù)集1對(duì)多種機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,得到對(duì)應(yīng)的分類器。

      挑選基分類器 該部分使用本文所提的基分類器評(píng)價(jià)方法在訓(xùn)練好的分類器中挑選用于集成的基分類器。

      設(shè)置基分類器權(quán)重 該部分使用FSE算法和訓(xùn)練數(shù)據(jù)集2為上一步驟中得到的基分類器設(shè)置各自權(quán)重,最終加權(quán)得到FSE集成分類器。

      使用集成分類器 使用測(cè)試數(shù)據(jù)集對(duì)得到的集成分類器進(jìn)行測(cè)試,并輸出數(shù)據(jù)集的類別標(biāo)簽作為結(jié)果。

      2 算法描述

      2.1 基分類器評(píng)價(jià)方法

      集成學(xué)習(xí)的效果取決于基分類器之間的差異性,因此在選擇基分類器之前必須先設(shè)定選擇分類器的度量標(biāo)準(zhǔn)。為此,本文采用識(shí)別率和差異度來度量。

      定義1 識(shí)別率。

      設(shè)存在分類器Ci,非空樣本集S被分類器正確分類的樣本集合為Si,N(S)為S中所含樣本的個(gè)數(shù),T為分類器的識(shí)別率,其定義如式(1)所示:

      Ti=N(Si)/N(S)

      (1)

      定義2 差異度。

      設(shè)存在兩個(gè)分類器Ci和Cj,非空樣本集S被兩個(gè)分類器正確分類的樣本集合分別為Si和Sj,F(xiàn)為兩個(gè)分類器的差異度,N(S)為S中所含樣本的個(gè)數(shù),則Cj對(duì)于Ci的差異度定義如式(2)所示:

      (2)

      由定義2可知,F(xiàn)j→i越大,則Cj與Ci間差異性越大;反之,差異性越小。

      本模型中設(shè)定的分類器可能不止兩種,這對(duì)于最終的集成分類器的泛化能力提高是有利的。不過也因此,需對(duì)式(1)的公式作進(jìn)一步定義。假設(shè)在已有分類器Ci和Cj集成的基礎(chǔ)上加上Ck,則Ck對(duì)于Ci和Cj集成分類器的差異度可定義為式(3):

      (3)

      其中:Fk→ij越大,則Ck與Ci和Cj集成分類器差異性越大;反之,差異性越小。

      根據(jù)上述的選擇基分類器度量標(biāo)準(zhǔn)的定義,本文設(shè)計(jì)了一種基分類器評(píng)價(jià)算法(如算法1所示)。它的主要思想是先按照識(shí)別率在強(qiáng)分類器集合Q中對(duì)分類器進(jìn)行排序,剔除不合格分類器,并得到識(shí)別率最高的分類器C1;然后在剩余分類器集合中找出與分類器C1差異度最大的分類器C2,將C1與C2進(jìn)行集成。重復(fù)以上步驟,得到最終分類器組合。評(píng)價(jià)基分類器偽代碼如下所示。

      算法1 評(píng)價(jià)基分類器。

      輸入:Q{Qi|i=1,2,…,n}; 輸出:C{Ci|i=1,2,…,l+1}

      //所有分類器集合

      1)

      Fori=1 ton-1 do

      2)

      IfTQi≤T′ Then

      3)

      刪除TQi

      4)

      End if

      //設(shè)置閾值T′剔除集合中不合格分類器

      5)

      IfTQi+1≥TQiThen

      6)

      C1=Qi+1

      7)

      End if

      8)

      End for

      //尋找識(shí)別率最高的分類器C1

      9)

      Q=1-C1

      10)

      C=C1

      11)

      Whilel≠0(1≤l≤n-1) do

      12)

      Forj=1 ton-ldo

      13)

      IfFQj+1→C≥FQj→CThen

      14)

      C2=Qj+1

      15)

      End if

      16)

      End for

      //尋找與集成分類器C差異度最大的分類器C2

      17)

      C=C∪C2

      18)

      Q=Q-C2

      19)

      l--

      20)

      End while

      21)

      ReturnC{Ci|i=1,2,…,l+1}

      在基分類器有數(shù)量限制的情況下,按照該算法在強(qiáng)分類器集合Q中得到識(shí)別率最高、泛化能力最強(qiáng)的基分類器組合C。其中:語句1)是分類器排序過程,執(zhí)行了n-1次;語句11)執(zhí)行了l次;語句12)作為11)的內(nèi)層循環(huán)執(zhí)行了n-l次。所以算法1的時(shí)間復(fù)雜度是O(n+l(n-l)),其中n是供選擇的強(qiáng)分類器個(gè)數(shù),l是需要的基分類器個(gè)數(shù)。

      2.2FSE

      通過算法1選定好基分類器之后,強(qiáng)分類器之間的集成方法就成為了實(shí)現(xiàn)集成學(xué)習(xí)系統(tǒng)的關(guān)鍵。本文提出了FSE算法——一種基于實(shí)例的強(qiáng)分類器快速集成算法。算法核心思想是:打破已有的樣本分布, 重新采樣使分類器更多地關(guān)注難學(xué)習(xí)的樣本,并以此決定各分類器的權(quán)重。在描述算法之前,需要先作一些定義。

      定義3 錯(cuò)分率。

      ER=1-T

      (4)

      其中:ER表示分類器對(duì)樣本錯(cuò)誤分類的比例;T是分類器識(shí)別率。

      定義4 權(quán)重。

      W=I/N

      (5)

      其中:W表示某樣本d在總樣本D中的重要程度;I表示單體樣本訓(xùn)練最終分類器的能力;N表示所有樣本訓(xùn)練最終分類器的能力。

      FSE算法開始時(shí),所有樣本被賦予相同的權(quán)重1/N,訓(xùn)練算法1中得到的基分類器,并挑選出最佳分類器。每一輪結(jié)束后更新樣本權(quán)重:增加被錯(cuò)誤分類樣本的權(quán)重,減少被正確分類樣本的權(quán)重,這樣迫使分類器在隨后的迭代中更加關(guān)注那些難以分類的樣本。重復(fù)以上步驟,直到算法滿足結(jié)束條件為止。算法的輸入為N對(duì)訓(xùn)練樣本與標(biāo)簽的集合{(Xj,Yj)|j=1,2,…,N},其中X為樣本,Y為類標(biāo)簽;最終分類器C*作為算法的輸出;分類器C{Ci|i=1,2,…,l}為算法1中得到的基分類器集合。FSE偽代碼如下所示。

      算法2 FSE。

      輸入:{(Xj,Yj)|j=1,2,…,N}; 輸出:C*

      //最終集成分類器

      1)

      w={wj=1/N|j=1,2,…,N}

      //初始化各樣本權(quán)重

      2)

      t=l

      //根據(jù)算法1選擇的基分類器數(shù)目確定循環(huán)次數(shù)

      3)

      Whilet≠0

      4)

      Fori=1 tol-1 do

      5)

      IfERCi+1≤ERCiThen

      6)

      7)

      End if

      8)

      End for

      9)

      10)

      Ifεi=0 Then

      11)

      Break

      12)

      End if

      13)

      14)

      //在下一次循環(huán)中更改wj樣本權(quán)重,其中Zj是規(guī)泛化因子,

      //使所有樣本和為1

      15)

      t--

      16)

      End while

      17)

      本文提出的FSE算法主要有如下優(yōu)勢(shì):

      1)通過基分類器評(píng)價(jià)方法選取多個(gè)具有差異性的強(qiáng)分類器組合,并在FSE算法中將其作為基分類器,增加了分類器的多樣性,在保證精度的情況下,提高了最終集成結(jié)果的泛化能力。

      2)FSE算法使用算法1中得到的強(qiáng)分類器作為基分類器,讓迭代次數(shù)等于選取的基分類器個(gè)數(shù),使得訓(xùn)練時(shí)間大幅度縮減。

      該算法中,語句1)執(zhí)行了N次,語句3)執(zhí)行了l次,語句4)作為語句3)的內(nèi)層循環(huán)執(zhí)行了l-1次。所以算法2的時(shí)間復(fù)雜度是O(N+l*(l-1))。其中:l是算法1中挑選出的基分類器個(gè)數(shù),N為訓(xùn)練樣本個(gè)數(shù)。

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

      本文的實(shí)驗(yàn)是用MatlabR2010b在CPU為2.53GHz、內(nèi)存容量為4GB計(jì)算機(jī)上進(jìn)行。實(shí)驗(yàn)中使用UCI數(shù)據(jù)庫(kù)[17]中的chess數(shù)據(jù)集作為實(shí)驗(yàn)樣本,基本情況見表1。該數(shù)據(jù)分為獲勝和非獲勝兩類。數(shù)據(jù)集已提取完特征,每組36維特征數(shù)組。數(shù)據(jù)抽樣階段,抽取2 000個(gè)樣本作為分類器訓(xùn)練集;抽取400個(gè)樣本作為集成訓(xùn)練集;抽取600個(gè)樣本作為集成測(cè)試集。

      由于本文模型處理的是原始數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)集還使用了真實(shí)數(shù)據(jù)集chair,基本情況見表1。數(shù)據(jù)分為椅子和非椅子兩類,圖片分辨率為800×800。提取特征階段,使用ANN自主進(jìn)行特征提取,每個(gè)樣本形成一組64維特征數(shù)組。數(shù)據(jù)抽樣階段,抽取600個(gè)樣本作為分類器訓(xùn)練集;抽取300個(gè)樣本作為集成訓(xùn)練集;抽取100個(gè)樣本作為集成測(cè)試集。

      表1 數(shù)據(jù)集的基本情況

      3.2 挑選基分類器與未挑選集成分類器精確度對(duì)比

      由于機(jī)器學(xué)習(xí)算法有很多,對(duì)應(yīng)的推廣更是不計(jì)其數(shù),所以窮舉所有強(qiáng)分類器并挑選最佳分類器顯然是不現(xiàn)實(shí)的,因此,僅針對(duì)常用機(jī)器學(xué)習(xí)分類器以及chess數(shù)據(jù)集,使用本文所提的基分類器評(píng)價(jià)方法得到分類器組合方案,部分結(jié)果見表2。

      表2 分類器集成方案

      由于Boosting方法的集成分類器效果明顯優(yōu)于Bagging,對(duì)比實(shí)驗(yàn)中,采用Boosting算法來訓(xùn)練并產(chǎn)生新基分類器,即重復(fù)地隨機(jī)選擇樣本子集作為訓(xùn)練集;采用的基分類器是CART樹。利用Boosting算法從訓(xùn)練樣本中隨機(jī)選取一些樣本組成10、15、20、25個(gè)樣本子集,并用它們生成的10、15、20、25個(gè)基分類器組合,分別計(jì)算它們識(shí)別率并用其對(duì)集成訓(xùn)練樣本進(jìn)行識(shí)別,根據(jù)識(shí)別率進(jìn)行排序,挑選識(shí)別率最高的一組。利用基分類器評(píng)價(jià)算法在常用分類器中選出對(duì)應(yīng)數(shù)量的差異性最大的基分類器組合,最后分別計(jì)算各自識(shí)別率。兩者均用投票法和線性組合法完成分類器集成,表3給出了使用Boosting方法和使用基分類器評(píng)價(jià)方法構(gòu)造的不同分類器組合的識(shí)別率。

      表3 使用不同方法構(gòu)造的不同集成分類器識(shí)別率 %

      由表3可以看出,在chess數(shù)據(jù)集下,未利用基分類器評(píng)價(jià)方法的集成分類器精度在分類器數(shù)量為20和25時(shí)最高達(dá)到90.2%;相同數(shù)量的基分類器組合情況下,利用本文的基分類器評(píng)價(jià)方法的集成分類器識(shí)別率最高達(dá)到93.9%和92.2%。在chair數(shù)據(jù)集下,集成方法為投票法情況下,利用基分類器評(píng)價(jià)方法的集成分類器分類精度比未用的集成分類器在分類器數(shù)量為10時(shí)最高提高了5.4%;集成方法為線性組合情況下,識(shí)別率在分類器數(shù)量為15時(shí)最高提高了4.5%。由此可見,利用基分類器評(píng)價(jià)方法可以有效提高集成分類器的識(shí)別率,而且構(gòu)造多分類器集成系統(tǒng)時(shí),分類器數(shù)量并非越多越好。

      3.3FSE集成方法與常用集成方法識(shí)別率對(duì)比

      為了對(duì)比使用FSE集成方法與常用集成方法的區(qū)別,在3.2節(jié)使用基分類器評(píng)價(jià)方法構(gòu)造的分類器實(shí)驗(yàn)基礎(chǔ)上增加本文所提的FSE集成方法,具體結(jié)果見表4。

      表4 FSE集成方法與常用集成方法識(shí)別率 %

      3.4FSE集成模型與Boosting分類器+常用集成方法實(shí)驗(yàn)時(shí)間對(duì)比

      為了檢驗(yàn)FSE集成模型的性能,本實(shí)驗(yàn)以FSE模型和Boosting算法訓(xùn)練時(shí)間為標(biāo)準(zhǔn),比較兩者達(dá)到相對(duì)穩(wěn)定識(shí)別率時(shí)的時(shí)間消耗,具體結(jié)果見圖2、3。

      由圖2可以看出,由于Boosting使用的是識(shí)別率略高于50%的弱分類器,所以在實(shí)驗(yàn)1開始集成分類器的識(shí)別率僅略高于50%,但隨著時(shí)間增加,其識(shí)別率有顯著提高。chess數(shù)據(jù)集下,Boosting+常用集成方法訓(xùn)練到4min時(shí)識(shí)別率達(dá)到90%左右,不過識(shí)別率變化大幅減小,但仍然保有上升趨勢(shì);而FSE集成模型在1min左右即達(dá)到90%的高識(shí)別率,后續(xù)部分僅為了對(duì)比讓其繼續(xù)執(zhí)行相應(yīng)時(shí)間,雖然偶爾出現(xiàn)輕微的過學(xué)習(xí)狀態(tài)(識(shí)別率下降),但實(shí)際應(yīng)用過程中,當(dāng)達(dá)到穩(wěn)定識(shí)別率且不需要繼續(xù)提高識(shí)別率情況下,后續(xù)的過程是沒有必要的。圖3也保有此類規(guī)律。

      本實(shí)驗(yàn)中chess數(shù)據(jù)集下FSE集成模型的比Boosting+常用集成模型縮短了75%訓(xùn)練時(shí)間,chair數(shù)據(jù)集下縮短了80%訓(xùn)練時(shí)間。由此可得,F(xiàn)SE集成模型有效地加快了訓(xùn)練速度。

      圖2 chess數(shù)據(jù)集下時(shí)間消耗對(duì)比

      圖3 chair數(shù)據(jù)集下時(shí)間消耗對(duì)比

      4 結(jié)語

      針對(duì)集成分類器犧牲存儲(chǔ)和計(jì)算來提高精度的問題,本文提出一種基于實(shí)例的強(qiáng)分類器快速集成方法。該方法通過基分類器評(píng)價(jià)方法挑選差異性最大的分類器組合,然后利用FSE算法對(duì)分類器進(jìn)行集成。本文采用了2個(gè)真實(shí)數(shù)據(jù)集進(jìn)行驗(yàn)證,結(jié)果表明FSE不僅提高了識(shí)別精度,還大幅度縮短了訓(xùn)練時(shí)間。今后的研究工作中,將著重考慮利用深度學(xué)習(xí)知識(shí)改進(jìn)分類器評(píng)價(jià)方法和集成算法。

      )

      [1]SILVAC,LOTRICU,RIBEIROB,etal.Distributedtextclassificationwithanensemblekernel-basedlearningapproach[J].IEEETransactionsonSystems,Man,andCybernetics,PartC:ApplicationsandReviews, 2010, 40(3): 287-297.

      [2]BARA,ROKACHL,SHANIG,etal.Improvingsimplecollaborativefilteringmodelsusingensemblemethods[C]//Proceedingsofthe11thInternationalWorkshoponMultipleClassifierSystems,LNCS7872.Berlin:Springer, 2013: 1-12.

      [3]ZHOUZH,JIANGY,YANGYB,etal.Lungcancercellidentificationbasedonartificialneuralnetworkensembles[J].ArtificialIntelligenceinMedicine, 2002, 24(1): 25-36.

      [4]BORGHYSD,YVINECY,PERNEELC,etal.Supervisedfeature-basedclassificationofmulti-channelSARimages[J].PatternRecognitionLetters, 2006, 27(4): 252-258.

      [5]ZUOL,HOUL,WUW,etal.FaultdiagnosisofanalogICbasedonwaveletneuralnetworkensemble[C]//ISNN2009:Proceedingsofthe6thInternationalSymposiumonNeuralNetworks,LNCS5553.Berlin:Springer, 2009: 772-779.

      [6]POLIKARR.Ensemblelearning[M]//ZHANGC,MAY.EnsembleMachineLearning.Berlin:Springer, 2012: 1-34.

      [7]LIUCL.Classifiercombinationbasedonconfidencetransformation[J].PatternRecognition, 2005, 38(1): 11-28.

      [8]SHIPPCA,KUNCHEVALI.Relationshipsbetweencombinationmethodsandmeasuresofdiversityincombiningclassifiers[J].InformationFusion, 2002, 3(2): 135-148.

      [9]JIANGL,CAIZ,ZHANGH,etal.NaiveBayestextclassifiers:alocallyweightedlearningapproach[J].JournalofExperimentalandTheoreticalArtificialIntelligence, 2013, 25(2): 273-286.

      [10]YUKSELSE,WILSONJN,GADERPD.Twentyyearsofmixtureofexperts[J].IEEETransactionsonNeuralNetworksandLearningSystems, 2012, 23(8): 1177-1193.

      [11]SHIL,WANGQ,MAX,etal.Spamemailclassificationusingdecisiontreeensemble[J].JournalofComputationalInformationSystems, 2012, 8(3): 949-956.

      [12]SCHAPIRERE,FREUNDY,BARTLETTPL,etal.Boostingthemargin:anewexplanationfortheeffectivenessofvotingmethods[J].AnnalsofStatistics, 1998, 26(5): 1651-1686.

      [13]LIUY,YAOX.Ensemblelearningvianegativecorrelation[J].NeuralNetworks, 1999, 12(10): 1399-1404.

      [14]ZHANGY,BURERS,STREETWN.Ensemblepruningviasemi-definiteprogramming[J].JournalofMachineLearningResearch, 2006, 7(3): 1315-1338.

      [15]LIN,ZHOUZH.Selectiveensembleunderregularizationframework[C]//Proceedingsofthe8thInternationalWorkshoponMultipleClassifierSystems.Berlin:Springer, 2009: 293-303.

      [16]JIANGM,YIX,LINGN.Framelayerbitallocationschemeforconstantqualityvideo[C]//Proceedingsofthe2004IEEEInternationalConferenceonMultimediaandExpo.Piscataway,NJ:IEEE, 2004, 2: 1055-1058.

      [17]FRANKA,ASUNCIONA.UCIMachineLearningRepository[DB/OL]. [2016- 03- 15].http://www.ics.uci.edu/?mlearn/.

      ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61170035, 61272420, 61502233),theJiangsuProvinceScienceandTechnologyAchievementTransformationProjectsofSpecialFunds(BA2013047),theJiangsuProvinceSixTalentPeaksProject(WLW-004),theNnationalDefenseScienceandTechnologyKeyLaboratoryofBasicResearchProjects(DXZT-JC-ZZ-2013-019),theMilitaryAcademyofPre-ResearchProject(62201070151),theFundamentalResearchFundsfortheCentralUniversities(30916011328).

      XU Yewang, born in 1991, M. S. candidate. His research interests include data mining, big data information security.

      WANG Yongli, born in 1974, Ph. D., professor. His research interests include database, data mining, big data processing, intelligent service, cloud computing.

      ZHAO Zhongwen, born in 1974, M. S., associate professor. His research interests include information system, multidimensional information, situation comprehension.

      Fast ensemble method for strong classifiers based on instance

      XU Yewang1*, WANG Yongli1, ZHAO Zhongwen2

      (1. Department of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China;2. National Key Laboratory of Complex Electronic System Simulation, Academy of Equipment, Beijing 101416, China)

      Focusing on the issue that the ensemble classifier based on weak classifiers needs to sacrifice a lot of training time to obtain high precision, an ensemble method of strong classifiers based on instances named Fast Strong-classifiers Ensemble (FSE) was proposed. Firstly, the evaluation method was used to eliminate substandard classifier and order the restclassifiers by the accuracy and diversity to obtain a set of classifiers with highest precision and maximal difference. Secondly, the FSE algorithm was used to break the existing sample distribution, to re-sample and make the classifier pay more attention to learn the difficult samples. Finally, the ensemble classifier was completed by determining the weight of each classifier simultaneously. The experiments were conducted on UCI dataset and customized dataset. The accuracy of the Boosting reached 90.2% and 90.4% on both datasets respectively, and the accuracy of the FSE reached 95.6% and 93.9%. The training time of ensemble classifier with FSE was shortened by 75% and 80% compared to the ensemble classifier with Boosting when they reached the same accuracy. The theoretical analysis and simulation results show that FSE ensemble model can effectively improve the recognition accuracy and shorten training time.

      strong classifiers ensemble model; base classifier evaluation method; ensemble algorithm; sample distribution; ensemble learning

      2016- 07- 29;

      2016- 09- 28。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61170035,61272420,61502233);江蘇省科技成果轉(zhuǎn)化專項(xiàng)資金資助項(xiàng)目(BA2013047);江蘇省六大人才高峰項(xiàng)目(WLW-004);國(guó)防科技重點(diǎn)實(shí)驗(yàn)室基礎(chǔ)研究項(xiàng)目(DXZT-JC-ZZ-2013-019);兵科院預(yù)研項(xiàng)目(62201070151);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(30916011328)。

      許業(yè)旺(1991—),男,江蘇淮安人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、大數(shù)據(jù)信息安全; 王永利(1974—),男,哈爾濱佳木斯人,教授,博士,主要研究方向:數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、大數(shù)據(jù)處理、智能服務(wù)、云計(jì)算; 趙忠文(1974—),男,北京人,副教授,碩士,主要研究方向:信息系統(tǒng)、多維信息、態(tài)勢(shì)綜合。

      1001- 9081(2017)04- 1100- 05

      10.11772/j.issn.1001- 9081.2017.04.1100

      TP391

      A

      猜你喜歡
      識(shí)別率分類器權(quán)重
      權(quán)重常思“浮名輕”
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      长寿区| 永靖县| 杨浦区| 上犹县| 阆中市| 巴里| 嘉义市| 金湖县| 清丰县| 平湖市| 文登市| 韶关市| 元谋县| 乳源| 永宁县| 额济纳旗| 鲁甸县| 阿克陶县| 榆中县| 黄龙县| 湄潭县| 敖汉旗| 达拉特旗| 北辰区| 英吉沙县| 腾冲县| 广宁县| 永修县| 沿河| 中方县| 常熟市| 旬阳县| 华容县| 安泽县| 高台县| 湖北省| 务川| 通河县| 黎平县| 富裕县| 武义县|