• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于支持向量機的主動學(xué)習(xí)方法及其實現(xiàn)*

      2014-07-20 11:52:55隋美玲肖海軍
      長沙大學(xué)學(xué)報 2014年2期
      關(guān)鍵詞:測度正確率類別

      王 玲,李 琴,隋美玲,肖海軍

      基于支持向量機的主動學(xué)習(xí)方法及其實現(xiàn)*

      王 玲1,李 琴2,隋美玲2,肖海軍2

      (1.武漢職業(yè)技術(shù)學(xué)院質(zhì)量管理與教學(xué)督導(dǎo)處,湖北武漢430074;2.中國地質(zhì)大學(xué)數(shù)學(xué)與物理學(xué)院,湖北武漢430074)

      根據(jù)主動學(xué)習(xí)可以有效地減少標(biāo)注樣本的代價這一特點,設(shè)計了一種基于SVM的主動學(xué)習(xí)方法.仿真實驗中,檢驗分類正確率和F測度這兩類評估指標(biāo),結(jié)果表明基于SVM的主動學(xué)習(xí)的學(xué)習(xí)效果優(yōu)于被動學(xué)習(xí).

      主動學(xué)習(xí);被動學(xué)習(xí);分類器;支持向量機

      絕大部分機器學(xué)習(xí)問題都可以歸納為兩類問題:監(jiān)督學(xué)習(xí)(supervised learning)和非監(jiān)督學(xué)習(xí)(unsupervised learning)[1].傳統(tǒng)的監(jiān)督學(xué)習(xí)問題中,學(xué)習(xí)算法以外界給定的已標(biāo)注樣本集作為訓(xùn)練集,通過調(diào)整分類器的參數(shù),從中歸納出學(xué)習(xí)模型,再將學(xué)習(xí)模型應(yīng)用于未標(biāo)注樣本集,預(yù)測出未標(biāo)注樣本的類別.監(jiān)督學(xué)習(xí)最大的特點就是訓(xùn)練樣本的類別是已知的,與監(jiān)督學(xué)習(xí)不同,非監(jiān)督學(xué)習(xí)事先并不知道訓(xùn)練樣本的類別.

      任何一種學(xué)習(xí)都有一定的目的,對于機器學(xué)習(xí)來說,就是要通過有限數(shù)量樣本的學(xué)習(xí),使分類器在對無限多個模式進行分類時所產(chǎn)生的錯誤概率最小.盡管對于某一個任務(wù)來說,選擇一個合適的方法能夠取得不錯的效果,但是普遍認為要想大幅度改進學(xué)習(xí)效果,還是得增加訓(xùn)練樣本的數(shù)目.這是因為樣本的稀疏性和多樣性導(dǎo)致訓(xùn)練樣本不可能包含所有的可能性.然而,標(biāo)注樣本通常是一件代價極高的事情,這就使得我們不可能標(biāo)注大量的樣本.由于樣本的稀疏性,當(dāng)我們采用隨機取樣的方法選取樣本標(biāo)注后,可能存在大量已標(biāo)注的樣本,這些樣本在機器學(xué)習(xí)方法中不是很有代表性,因為大量的冗余或相似的樣本已經(jīng)標(biāo)注過了.

      主動學(xué)習(xí)[2,3]方法就是為了解決這個問題而產(chǎn)生的,它用于標(biāo)注的樣本這樣選?。好看芜x取包含信息量最大的樣本.

      1 主動學(xué)習(xí)

      主動學(xué)習(xí)方法主要分為兩個部分:學(xué)習(xí)引擎和選擇引擎[4].學(xué)習(xí)引擎主要負責(zé)提供一個基準(zhǔn)學(xué)習(xí)器,使用傳統(tǒng)的監(jiān)督學(xué)習(xí)方法對系統(tǒng)提供的已標(biāo)注樣本集進行學(xué)習(xí),從而訓(xùn)練出一個性能較好的分類器模型.選擇引擎主要負責(zé)根據(jù)樣本選取算法,選擇未標(biāo)注的樣本標(biāo)注后,再將該樣本添加到訓(xùn)練集中.學(xué)習(xí)引擎和選擇引擎交替工作,循環(huán)多次后,分類器模型經(jīng)過不斷的矯正,性能進一步得到提升,當(dāng)滿足停止條件的時候,整個主動學(xué)習(xí)過程結(jié)束.學(xué)習(xí)流程圖如圖1所示.

      圖1 主動學(xué)習(xí)流程圖

      主動學(xué)習(xí)一般由三部分組成[4,5]:

      (1)數(shù)據(jù):它由少部分已標(biāo)注的樣本集V和大部分未標(biāo)注的樣本集U構(gòu)成.

      (2)詢問模塊Q:它決定U中的部分數(shù)據(jù)提取出來手動標(biāo)注后添加到V中.

      (3)分類器L:它是由已標(biāo)注樣本集作為訓(xùn)練集,從中歸納出分類器模型.

      主動學(xué)習(xí)的具體步驟如下:

      (1)剛開始拿到手的數(shù)據(jù)全部是未標(biāo)注的,從這些數(shù)據(jù)里面隨機選取M(一般取1%)交給專家手動標(biāo)注,標(biāo)注完成后放進訓(xùn)練集V中;

      (2)根據(jù)V中的已知類別數(shù)據(jù)可以訓(xùn)練出一個分類器模型L;

      (3)詢問模塊Q決定剩下的1-M的未標(biāo)注樣本U中的部分數(shù)據(jù),抽取出來標(biāo)注后添加到V中;

      (4)重復(fù)(2)和(3)直到候選樣本集為空集或者分類器穩(wěn)定,此時整個詢問過程結(jié)束.

      2 基于SVM的主動學(xué)習(xí)

      由于SVM具有較好的分類效果,現(xiàn)將SVM引入主動學(xué)習(xí)中,并采用不確定取樣的詢問準(zhǔn)則.不確定取樣選擇那些當(dāng)前分類器最不能確定其分類的樣本進行標(biāo)注,衡量樣本的信息量采用信息熵:

      信息熵最大的樣本正是當(dāng)前分類器最不能確定其類別的樣本.然而,上述公式需要一個概率輸出來表示每個樣本屬于各個類別的概率大小,但SVM卻不是一個概率輸出分類器,其決策值的絕對值是樣本點到分類器的距離.因此,可將決策值的絕對值作為衡量分類器在樣本上置信度的一個測度:

      這里f(x)表示決策值,表示決策值為f(x)的樣本被分為1的概率為p,它能將決策值映射到概率空間中.

      顯然,在SVM中使用不確定取樣時就不需要得到概率輸出,而是直接使用決策值.因為離分類器越近的樣本,它被誤分的可能性越大.于是,在基于SVM的主動學(xué)習(xí)的法則中,詢問準(zhǔn)則如下:采用SVM作為訓(xùn)練器,將決策值的絕對值作為樣本選取的度量,每次都選取決策值的絕對值最小的樣本,也就是離分類器最近的樣本.

      3 仿真實驗

      對于主動學(xué)習(xí)算法性能優(yōu)越性的評估常用的方法有兩種[5]:一種是達到一定的實驗結(jié)果,具體表現(xiàn)為測試時分類正確率、查全率、查準(zhǔn)率、CPU時間(訓(xùn)練時間、測試時間)等,主動學(xué)習(xí)所需要的訓(xùn)練數(shù)據(jù)要比其他方法少;另外一種是在訓(xùn)練數(shù)據(jù)相同的情況下,主動學(xué)習(xí)的實驗結(jié)果在各項指標(biāo)上要好于其他方法[6].

      3.1分類器評價指標(biāo)

      樣本的真實類別為正類,預(yù)測的結(jié)果也為正類的樣本數(shù)目稱為正確正類TP(true positive);樣本的真實類別為正類,預(yù)測結(jié)果為負類的樣本數(shù)目稱為錯誤負類FN(false negative);樣本的真實類別為負類,預(yù)測為正類的樣本數(shù)目稱為錯誤正類FP(false positive);樣本的真實類別為負類,預(yù)測為負類的樣本數(shù)目稱為正確負類TN(true negative).混淆矩陣為:

      表1 混淆矩陣

      正確率(Accuracy):

      查準(zhǔn)率(Precision):

      查全率(Recall):

      F-測度:

      正確率(Accuracy)的分子表示預(yù)測正確的個數(shù),分母表示預(yù)測的總個數(shù).查準(zhǔn)率(Precision)和查全率(Recall)是信息檢索和分類任務(wù)中比較常用的評價指標(biāo),許多學(xué)者將上面兩種指標(biāo)同時考慮[7].這是因為,如果采用分類正確率作為衡量指標(biāo),而樣本分布又不平衡,假設(shè)有100個樣本,其中有99個正類、1個負類,那么分類器將樣本全部預(yù)測為正類的話其分類正確率也有99%,正確率已經(jīng)是非常高了.應(yīng)此,當(dāng)樣本分布不平衡的時候僅僅只采用分類正確率作為評價指標(biāo)是不合適的.

      3.2核函數(shù)及參數(shù)選擇

      實驗中,選擇RBF作為SVM的核函數(shù),選取訓(xùn)練數(shù)據(jù)3185個和測試數(shù)據(jù)29376個.

      基于網(wǎng)格搜索交叉驗證[8]的方法來確定參數(shù)c,γ.取c=2-10~215,設(shè)定搜索步長為1;取γ=210~2-15,搜索步長為-1.圖2顯示的是通過交叉驗證得到的c=2048和gamma=0.0078125是選取的最佳參數(shù),此時的分類正確率高達97.3333%.

      圖2 交叉驗證的參數(shù)選擇

      3.3實驗步驟及實驗結(jié)果

      主動學(xué)習(xí)實驗步驟:

      (1)在訓(xùn)練集(3185個)中隨機選取1%(32個)的樣本作為種子數(shù)據(jù),標(biāo)注后放入V中,剩下的99%放入U中;

      (2)利用V中的樣本訓(xùn)練分類器模型L,RBF核在libsvm[9]上做交叉驗證,svm light上訓(xùn)練;

      (3)利用訓(xùn)練好的分類器L可分別在測試集和U中做測試;

      (4)根據(jù)在U中測試結(jié)果,將決策值取絕對值后按從小到大的排序排列,提取最小的前32個樣本,標(biāo)注后添加到V中;

      (5)利用新的V重新訓(xùn)練分類器模型L;

      (6)重復(fù)上面的步驟3、4、5直到分類器穩(wěn)定,記錄每回合在測試集中的分類正確率和F測度,然后繪圖.

      通過圖3和圖4這兩個評測指標(biāo)的對比,可以得出結(jié)論:主動學(xué)習(xí)的性能要好于被動學(xué)習(xí),無論是在正確率,還是在F測度指標(biāo)上主動學(xué)習(xí)的學(xué)習(xí)曲線都要好于被動學(xué)習(xí).

      圖3 主動學(xué)習(xí)與隨機取樣的正確率比較

      圖4 主動學(xué)習(xí)與隨機取樣的F測度比較

      4 總結(jié)

      主動學(xué)習(xí)能夠有效減少標(biāo)注樣本的代價,并且理論和實驗均表明,基于SVM的主動學(xué)習(xí)在實際應(yīng)用中可得到不錯的結(jié)果.因此,將SVM引入主動學(xué)習(xí)是一個不錯的選擇.今后,首先可在評價準(zhǔn)則上做進一步的研究,如可考慮訓(xùn)練時間、測試時間、正確率、F測度等多項指標(biāo),避免單一評估指標(biāo)說服力不夠的缺陷;其次,主動學(xué)習(xí)過程中的學(xué)習(xí)尺度也是一個敏感的參數(shù),其選擇尺度不同會給主動學(xué)習(xí)帶來一定的影響.

      [1]Cristianini N,Shawe-Taylor J.支持向量機導(dǎo)論[M].李國正,王猛,曾華軍,譯.北京:電子工業(yè)出版社,2004.

      [2]Burr Settles.Active learning literature survey.Computer Sciences Technical Report 1648[R].University of Wisconsin Madison,2010.

      [3]龍軍,殷建平,祝恩,等.主動學(xué)習(xí)研究綜述[J].計算機研究與發(fā)展,2008,(S1):300-304.

      [4]Tong S.Active learning:Theory and applications[D].Stanford:PhD Thesis of Stanford University,2001.

      [5]Vlachos A.Active learning with support vectormachines[D].Edinburgh:Master Thesis of Edinburgh University,2004.

      [6]Thompson CA,CaliffM E,Mooney R J.Active learning for natural language parsing and information extraction[A].Proceedings of the Sixteenth International Machine Learning Conference[C].1999.

      [7]Vlachos A.A stopping criterion for active learning[J].Computer Speech and Language,2008,(3):295-312.

      [8]Hsu C,Chang C,Lin C.A practical guide to support vector classification[EB/OL].https://www.cs.sfu.ca/people/Faculty/teaching/726/spring11/svmguide.pdf,2010-04-15.

      [9]Chang C,Lin C.LIBSVM—A library for support vector machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm/,2013.

      An Active Learning M ethod Based on Support Vector M achine

      WANG Ling1,LIQin2,SUIMeiling2,XIAO Haijun2
      (1.Quality Management and Teaching Supervision Division,Wuhan Polytechnic,Wuhan Hubei430074,China;2.School of Mathematics and Physics,China University of Geosciences,Wuhan Hubei430074,China)

      As the active learning can reduce the costof sample labeling effectively,we design an active learningmethod which is based on SVM.The simulation experiments show that the results of active learning method are much better than those of passive learning method not only in classification accuracy but also in F-Score.

      active learning;passive learning;classifier;SVM

      TP301

      A

      1008-4681(2014)02-0035-04

      (責(zé)任編校:晴川)

      2014-03-10

      國家自然科學(xué)基金(批準(zhǔn)號:40972205)資助項目.

      王玲(1959-),女,湖北武漢人,武漢職業(yè)技術(shù)學(xué)院質(zhì)量管理與教學(xué)督導(dǎo)處副教授.研究方向:經(jīng)濟統(tǒng)計.

      猜你喜歡
      測度正確率類別
      三個數(shù)字集生成的自相似測度的乘積譜
      R1上莫朗測度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
      門診分診服務(wù)態(tài)度與正確率對護患關(guān)系的影響
      非等熵Chaplygin氣體測度值解存在性
      Cookie-Cutter集上的Gibbs測度
      生意
      品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
      天津護理(2016年3期)2016-12-01 05:40:01
      生意
      故事會(2016年15期)2016-08-23 13:48:41
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      航空| 武胜县| 杭州市| 东阿县| 石渠县| 阿勒泰市| 龙胜| 榆社县| 莒南县| 宜兰县| 原平市| 兴海县| 台东市| 元朗区| 斗六市| 湾仔区| 徐闻县| 乌鲁木齐县| 开平市| 改则县| 江油市| 新泰市| 从化市| 甘洛县| 武城县| 开封县| 闽侯县| 海林市| 库车县| 华容县| 沂南县| 遂溪县| 商洛市| 昌乐县| 湘西| 彩票| 巴马| 磐安县| 盐津县| 满洲里市| 盐亭县|