• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      支持向量機分類誤差不均衡內(nèi)在原因分析

      2010-09-05 08:17:20佛山市高明區(qū)廣播電視大學(xué)謝長菊
      河南科技 2010年12期
      關(guān)鍵詞:樣本數(shù)訓(xùn)練樣本類別

      佛山市高明區(qū)廣播電視大學(xué) 謝長菊

      支持向量機分類誤差不均衡內(nèi)在原因分析

      佛山市高明區(qū)廣播電視大學(xué) 謝長菊

      對于標準支持向量機C2SVM,樣本數(shù)大小不同時,樣本數(shù)量多的類別,其訓(xùn)練誤差、預(yù)測誤差小;而樣本數(shù)量少的類別,其訓(xùn)練誤差、預(yù)測誤差反而大。這就導(dǎo)致分類類別誤差的不均衡。就這一問題,對C2SVM在理論上進行分析,找出它們出現(xiàn)這種情況的內(nèi)在本質(zhì)的原因,指出了出現(xiàn)這種分類類別誤差,是由C2SVM的本質(zhì)、內(nèi)在的特性決定的,并非由實驗環(huán)境或者是算法實現(xiàn)過程中的偶然因素所致。

      模式識別統(tǒng)計學(xué)習(xí)理論支持向量機

      一、引言

      統(tǒng)計學(xué)習(xí)理論[2]和支持向量分類機(SVM)正在成為繼神經(jīng)網(wǎng)絡(luò)研究之后新的研究熱點。SVM算法在模式識別、回歸估計、概率密度函數(shù)估計等方面都有應(yīng)用。特別是在模式識別方面,對于文本的自動分類、手寫數(shù)字識別、語音識別、人臉圖像識別等問題,SVM算法在精度上已經(jīng)超過傳統(tǒng)的學(xué)習(xí)算法。作為新生事物,SVM在實際應(yīng)用中,不斷出現(xiàn)一些新問題,等待我們?nèi)ソ鉀Q。比如正、負兩類訓(xùn)練樣本數(shù)目差別很大的時候,訓(xùn)練誤差對于兩類來說差別很大。這需要我們進行深入的研究。

      二、雷達監(jiān)測與分類誤差率不均衡的問題

      ChewHong2Gunn在文獻[1]中,對SVM應(yīng)用于雷達圖像的目標自動監(jiān)測進行了研究。對于低分辨率電子顯像雷達圖像的目標監(jiān)測來說,大量的圖像是不包含有目標的,而含有目標的圖像所占比例非常小。如果以包含目標的樣本圖像作為正類,而不包含目標的圖像作為負類,那么按照隨機抽樣原則獲得的訓(xùn)練樣本,正類樣本數(shù)目很少,而負類樣本占有絕對多數(shù)的比例。這就出現(xiàn)了不同類別之間,訓(xùn)練樣本數(shù)目上不均衡的情況。作為訓(xùn)練集來說,樣本數(shù)目在各個類別之間不均衡是很正常的。在實際應(yīng)用中,我們也沒有理由要求所獲得的訓(xùn)練樣本,在不同類別中的數(shù)目都相同。那么這種不均衡對SVM的訓(xùn)練效果有沒有影響,有什么樣的影響,如何消除這種影響?對于這個問題,結(jié)合實驗,文獻[1]針對C2SVM在理論上作了如下粗略的分析。指出如果l-、l+分表示是正、負類訓(xùn)練樣本數(shù),那么分類錯誤率之比為:

      如此說來,對于標準支持向量機C2SVM,樣本數(shù)大小不同時,樣本數(shù)量多的類別,其訓(xùn)練誤差、預(yù)測誤差小,而樣本數(shù)量少的類別,其訓(xùn)練誤差、預(yù)測誤差反而大。這就是類別誤差不均衡。這樣的類別誤差不均衡,在很多場合必須給予消除和調(diào)整。對于雷達目標監(jiān)測問題來說,寧愿出現(xiàn)誤報警(不應(yīng)該報警卻報警了),也不愿出現(xiàn)漏報警的情況(應(yīng)該報警卻沒有報警)。類似情形出現(xiàn)在疾病診斷、故障分析中。

      三、SVM分類誤差率不均衡內(nèi)在原因分析

      提高SVM分類能力,是SVM研究的根本目的。SVM出現(xiàn)類別分類誤差不均衡的問題,必須進行調(diào)整,即類別補償。但是在考慮如何進行類別補償之前,首先需要思考:出現(xiàn)這種分類類別誤差,是由SVM的本質(zhì)、內(nèi)在的特性決定的,還是由實驗環(huán)境或者是算法實現(xiàn)過程中的偶然因素所致,不均衡是否是SVM內(nèi)在的規(guī)律?導(dǎo)致SVM訓(xùn)練誤差和預(yù)測誤差不均衡的內(nèi)在原因是什么?現(xiàn)在針對標準支持向量機C2SVM進行分析。首先來考慮C2SVM的原始問題:

      對應(yīng)的拉格朗日函數(shù)為:

      若α為它的對偶問題的最優(yōu)解,則其應(yīng)該滿足如下的KKT條件:

      所謂的邊界支持向量,就是ξi>0所對應(yīng)的向量。此時,由KKT條件(4)知,α1=C。滿足這樣條件的向量記為BSV,它們是錯誤分類的樣本。用NBSV+、NBSV2分別為正、負類邊界支持向量的數(shù)目,則有:

      這就是我們要找的結(jié)論:無論正類、負類樣本數(shù)差別多大,C2SVM給NBSV+和NBSV2所提供的上界都是相同的。如果考慮的不是分類錯誤的數(shù)目,而是分類錯誤的比率,當正類、負類樣本數(shù)相差很大時,就會必然導(dǎo)致分類誤差的不均衡。這就是SVM分類誤差率不均衡的內(nèi)在原因。

      四、小結(jié)

      對于標準支持向量機C2SVM,樣本數(shù)大小不同時,樣本數(shù)量多的類別,其訓(xùn)練誤差、預(yù)測誤差小;而樣本數(shù)量少的類別,其訓(xùn)練誤差、預(yù)測誤差反而大。這就是分類類別誤差的不均衡。

      通過理論分析發(fā)現(xiàn),出現(xiàn)這種分類類別誤差,是由C2SVM的本質(zhì)、內(nèi)在的特性決定的,而非由實驗環(huán)境或者是算法實現(xiàn)過程中的偶然因素所致。

      [1]Chew Hong2Gunn ,Crisp D.J .,Bogner R.E.et al.Target detection in radar imagery using support vector machines with training size biasing [ A ].In : Proceedings of the sixth international conference on control , Automation ,Robotics and Vision[C],Singapore ,2000

      [2]Vapnik V., The nature of statistical learning theo2ry.Springer2Verlag , New York.NY, 1995 ,張學(xué)工譯,統(tǒng)計學(xué)習(xí)理論的本質(zhì),清華大學(xué)出版社,2000

      [3]Vapnik V , Statistical learning theory [ M].NewYork.John Wiley >Sons , 1998

      [4]Scholkopf B., Smola A., Williamson R.C.et al ,New support vector algorithms[J ].Neural Compu2 tation , 2000 , 12 (5) : 120721245

      book=110,ebook=64

      猜你喜歡
      樣本數(shù)訓(xùn)練樣本類別
      勘 誤 聲 明
      人工智能
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識別算法
      基于稀疏重構(gòu)的機載雷達訓(xùn)練樣本挑選方法
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      三時間間隔圓錐補償姿態(tài)更新算法性能分析
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      田間鑒定雜交棉品種純度的適宜時期和樣本數(shù)
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      朝阳市| 安仁县| 武强县| 武冈市| 三穗县| 伊吾县| 湟中县| 昔阳县| 阜新市| 吉林市| 敦化市| 九龙城区| 托克逊县| 青海省| 巴塘县| 沭阳县| 梨树县| 工布江达县| 澄城县| 封丘县| 秭归县| 博野县| 浦东新区| 奉贤区| 韶关市| 彭水| 祁东县| 阿拉善左旗| 育儿| 鄂州市| 通城县| 马山县| 利津县| 专栏| 射洪县| 昔阳县| 昌黎县| 大安市| 宣汉县| 伽师县| 镇雄县|