• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于AHP的SMOTEBagging改進模型

      2018-08-16 06:32:16
      電子科技大學學報(社科版) 2018年4期
      關鍵詞:分類器權重樣本

      [電子科技大學 成都 611731]

      Bagging是一種集成學習模型,它將多個分類器的預測結果進行集成,得到相比于單個分類器更穩(wěn)定更準確的預測結果,有著廣泛的應用[1~2]。在實際應用過程中,常常會面臨數據不平衡的問題,比如信用風險預測中,違約用戶的數量是遠少于正常用戶的數量的,在病情診斷中,檢查呈陽性的樣本數量總是少于呈陰性的樣本數量。在這些應用中,少類樣本往往才是最重要的樣本[3~4],傳統(tǒng)分類模型會傾向于將樣本預測為數量較多的那一類樣本,導致對少類樣本的預測準確率較差[5]。Bagging模型不能直接用于處理不平衡數據[6~7],因而各種改進算法被提出,如Asymmetric Bagging[8]、RUSBagging[9]、SMOTEBagging[10]等,它們通過抽樣的方法改變基分類器訓練集中樣本的分布,來提高Bagging對少類樣本的預測能力。

      本文將研究的重點放在對SMOTEBagging模型的改進上,一是為了在不犧牲模型整體表現的前提下,在SMOTEBagging的基礎上進一步提高對少類樣本的預測準確率(TPR),二是為了能減小集成規(guī)模,用更少的基分類器達到和SMOTEBagging一樣甚至更好的表現,提高預測速度,減少模型在實際應用中對計算資源的占用量。為了實現這兩個目標,本文將AHP方法引入SMOTEBagging中,構建了一種改進的SMOTEBagging模型,稱之為AHPBased Bagging模型,并在27個屬于不同應用背景的不平衡數據集和三種不同的基分類器設置下對AHPBased Bagging和SMOTEBagging在TPR、F1-Measure、G-mean和AUC上的表現進行了對比。

      一、相關研究

      在數據不平衡問題中,如何提高模型對少類樣本的分類準確率,同時又不對其他樣本的預測效果造成較大的負面影響,是研究者需要解決的主要問題[11]。為了提高Bagging模型在不平衡數據集下的表現,尤其是對少類樣本的預測表現,研究者使用了不同的方法來調整基分類器訓練集中的樣本分布。Guo-Zheng Li[8]提出的Asymmetric Bagging模型用Bootstrap的方法,從多類樣本中抽取和少類樣本數目相同的樣本,再和所有少類樣本一起構成樣本分布平衡的基分類器訓練集。Xiaofeng Shi[9]為了解決腦電圖中P300信號檢測中所存在的樣本不平衡問題,使用隨機下采樣方法(Random Under-Sampling)從多類樣本和少類樣本中各自抽取S/2個樣本,構成大小為S的基分類器訓練集。Liu[12]提出了EasyEnsemble方法,使用隨機下采樣方法從多類樣本中抽取和少類樣本數目相同的樣本,然后與所有少類樣本進行合并,構成基分類器的訓練集。Shuo Wang[10]為了研究抽樣方法對基分類器多樣性及Bagging最終表現的影響,提出了UnderBagging、OverBagging和SMOTEBagging三種Bagging模型,UnderBagging和OverBagging采用Bootstrap的方式對每一類樣本進行上采樣或者下采樣,使基分類器的訓練集中的各類樣本數相同,SMOTEBagging模型中用SMOTE方法來生成新的少類樣本,調整基分類器訓練集的樣本分布。

      在這些研究中,除了SMOTE方法外,其他都是用Bootstrap或者隨機抽樣的方法對樣本進行上采樣或者下采樣,來構成樣本平衡的基分類器訓練集。但下采樣會丟失大量與多類樣本相關的信息,上采樣會對少類樣本進行多次重復采樣,容易造成過擬合[13],而由Charles[14]提出的SMOTE方法基于K近鄰算法合成新的少類樣本,則能避免這些問題,同時Shuo Wang[10]的研究發(fā)現,通過SMOTE方法來構造基分類器訓練集能夠提高Bagging中基分類器的多樣性,因此在不平衡數據集上,SMOTEBagging在少類樣本的TPR和F-Value上都有著比OverBagging更好的表現。Hanifah等[15]將SMOTEBagging用在個人信用風險的預測中,發(fā)現其在AUC和少類樣本的準確率上都有較好的表現。因此本文以SMOTEBagging模型作為改進的對象。

      AHP也叫層次分析法,由美國運籌學家Saaty[16]在20世紀70年代提出,是一種定性與定量相結合的決策分析方法,能夠幫助決策者將復雜的多屬性決策問題分解為單個指標下的兩兩成對比較問題,從而選出符合決策者需求的方案。有研究者將AHP方法引入了Bagging模型中,László[17]認為用AHP方法來計算基分類器的權重并進行組合能夠得到更穩(wěn)定的分類表現,但其準則層中只有錯誤率這一個指標。受到該文章的啟發(fā),本文將AHP方法引入到SMOTEBagging模型中,并在準則層中考慮了多個評價指標來評判基分類器的重要性。

      二、AHP-Based Bagging模型

      (一)構建思想

      在Bagging算法中,訓練出多個基分類器會有不同的表現,考慮如圖1所示的3種基分類器,它們在6個關鍵指標上的分類表現如表1所示。

      圖1 不同表現的基分類器

      表1 各基分類器的分類表現

      基分類器b和基分類器c相比于基分類器a都有著更高的TPR表現,且都在一定程度上犧牲了在Precision和TNR上的表現,但基分類器b在Accuracy上沒有變差,所以從F1-Measure和G-mean上來看,整體預測表現沒有變差;而基分類器c在Precision和TNR上則下降得比較多,Accuracy更差,導致了模型的整體預測表現不如基分類器a??梢酝茰y,存在類似于b的基分類器,既有著更好TPR表現,同時整體表現也不差,如果把它們篩選再集成,就可能在不降低整體預測表現的情況下得到比集成全部基分類器更好的TPR表現。對基分類器進行選擇性集成比將所有基分類器進行集成的預測效果要好,此外還能夠減少集成規(guī)模,達到提高模型預測速度,降低存儲需求的目的[18~19]。本文用AHP方法對SMOTEBagging模型的基分類器進行評價和選擇,構建了AHP-Based Bagging模型。

      (二)模型介紹

      AHP-Based Bagging模型主要分三個階段。第一階段為基分類器訓練集的生成和基分類器的訓練階段,如圖2所示,先采用Bootstrap抽樣的方法生成m個大小與原始訓練集相同的數據集,然后用SMOTE方法生成新的少類樣本,使每個數據集中的正負樣本數量相同,構成m個Bag,然后利用Bag中的數據集訓練m個基分類器。

      圖2 AHP-Based Bagging第一階段

      第二階段為基分類器的評價和選擇階段。為了提高SMOTEBagging在TPR上的表現,需要選擇在TPR上表現好的基分類器進行集成,同時從前一小節(jié)的分析可以知道,只在TPR上表現好的基分類器并不一定有很好的整體表現,所以還需要綜合考慮基分類器在其他指標上的表現,因此在第二階段中使用AHP方法構建了一個三層的層次結構,來對基分類器進行評價和選擇,如圖3所示。其中,目標層為需要解決的決策問題,即對基分類器進行選擇,以使選出來的基分類器集成后對少類樣本有更好的預測表現,同時整體預測表現不比原來差。準則層為評價基分類器表現的4個基礎評價指標。

      方案層為候選的基分類器,即第一階段得到的所有基分類器。為了實現目標層的目標,需要按照1~9的偏好程度設置各準則的權重偏好[20]。因為首要目標是選出TPR高的基分類器,所以TPR的權重偏好設置為9,同時根據上一小節(jié)的分析,Accuracy也是一個重要的指標,否則選出的基分類器的整體表現會比較差,因此Accuracy的權重偏好和TPR一樣,設置為9。在樣本不平衡的情況下,少類樣本往往是更重要的樣本,模型在TPR上的表現比在TNR上的表現要更重要,所以將TNR的權重偏好設置為1,同時,TPR也比Precision更為有用[10],所以將Precision的權重偏好也設置為1。至此,本文確立了所有4個準則的權重偏好,得到成對比較矩陣A,如式(1)所示。計算該矩陣最大特征值對應的特征向量能夠得到準則層相對于目標層的權重向量如式(2)所示。

      圖3 AHP-Based Bagging第二、三階段

      方案層中基分類器關于準則層中某個指標的成對比較矩陣則通過基分類器在out-of-bag數據集上的驗證結果兩兩比較構成,計算每個成對比較矩陣最大特征值所對應的特征向量,得到方案層中各基分類器關于該評價指標的權重向量如式(3)所示,其中m為基分類器的個數。最后計算基分類器關于決策問題的權重向量也就是基分類器的AHP評分,如式(4)、式(5)所示。

      第三階段是基分類器的集成階段。選擇在第二階段中AHP評分高于平均值的基分類器來得到最終的預測結果。Bagging中的集成方法有很多種,在分類問題中一般是用多數投票的方法。與多數投票的集成方法相比,按概率集成能更好地保留基分類器輸出的概率信息[21],因此AHP-Based Bagging模型按式(6)、式(7)對選出的基分類器的預測結果進行集成。

      三、實驗

      (一)實驗數據

      為了驗證AHP-Based Bagging模型是否能達到改進目的,本文在27個來自不同領域的數據集上進行了實驗。這些數據的基本信息如表2所示,其中軟件缺陷預測相關的數據集來源于NASA的MDP庫,其他的數據集都是來源于UCI的公開數據集。且這些數據集都存在一定程度的樣本不平衡問題,不平衡率(IR)最小到1.25,最大到31.98。

      表2 AHP-Based Bagging實驗數據集

      (二)實驗設置

      實驗將在BP神經網絡(BPNN)、Logistic回歸模型(LR)和支持向量機模型(SVM)3種不同的基分類器設置以及不同的Bag數設置下獲取AHPBased Bagging和SMOTEBagging的TPR,并通過F1-Measure、G-mean和AUC這三個指標來考察模型的整體預測表現[6]。其中,Bag數兩種Bagging模型都通過R語言實現,基分類器通過調用RWeka包中的相關函數實現,BPNN采用3層的神經網絡,輸入層節(jié)點數量與數據集屬性數相同,由于是二分類問題,所以輸出層節(jié)點數為1,隱藏層的節(jié)點數量采用RWeka中的默認設置,為屬性數與類別數和的一半,SVM模型由RWeka中的SMO函數實現,采用線性核函數。

      (三)實驗結果及分析

      通過對AHP-Based Bagging和SMOTEBagging在27個數據集下10折交叉檢驗的結果進行平均,本文得到了模型在TPR、F1-Measure、G-mean、AUC四個指標上的平均表現以及模型的平均集成規(guī)模,如圖4所示。圖例中AHPB表示AHP-Based Bagging,SMTB表示SMOTEBagging,AHPB.BPNN表示以BPNN為基分類器的AHP-Based Bagging模型,其他模型名稱含義類似。

      從圖中可以看出,無論是以BPNN、LR還是SVM作為基分類器,AHP-Based Bagging在TPR上的表現都要優(yōu)于SMOTEBagging,尤其是在以BPNN作為基分類器時表現出了較大的優(yōu)勢;在F1-Measure和G-mean上,AHP-Based Bagging能有和SMOTEBagging基本一致甚至更好的表現;在AUC上,僅在以SVM作為基分類器時,AHP-Based Bagging的值要比SMOTEBagging低,而且隨著Bag數的增多差距也在減小。

      圖4 AHP-Based Bagging與SMOTEBagging對比實驗結果

      表3是在0.05的置信度上對AHP-Based Bagging模型和SMOTEBagging模型在各指標上的表現差異進行成對T檢驗的結果。表中“↑”和“↓”分別表示AHP-Based Bagging的表現相比于SMOTEBagging的表現有顯著的提高和下降,“—”表示二者的表現沒有顯著差異。

      表3 AHP-Based Bagging與SMOTEBagging的成對T檢驗結果

      從表中可以發(fā)現,在TPR上,只在Bag數較少時存在差異不顯著的情況,隨著Bag數的增多,AHPBased Bagging在TPR上的表現都是顯著優(yōu)于SMOTE Bagging的。在F1-Measure和G-mean上,兩種Bagging模型的表現是無顯著差異的。而在AUC的表現上,兩種Bagging模型的差異會由于基分類器類型的不同而不同,以BPNN作為基分類器時,一開始AHP-Based Bagging的優(yōu)勢并不明顯,隨著Bag數的增多,從Bag數為60以后,AHP-Based Bagging的表現開始顯著優(yōu)于SMOTEBagging的表現;在以LR作為基分類器時,AHP-Based Bagging的表現從一開始就要顯著優(yōu)于SMOTEBagging;而以SVM作為基分類器時,AHP-Based Bagging的AUC表現都要顯著差于SMOTEBagging,直到Bag數為70以后,差異才變得不顯著。

      通過以上分析可以知道,AHP-Based Bagging能比SMOTEBagging有更好的TPR表現,同時整體表現也不會變差,甚至能有所提高,但提升效果會受兩個因素的影響。一是Bag數,Bag數越多,訓練的基分類器越多,AHP-Based Bagging越容易比SMOTEBagging表現好;二是用于作為基分類器的分類模型的穩(wěn)定性,分類模型越不穩(wěn)定,提升效果越好,在以BPNN和LR作為基分類器時,能在顯著提高TPR表現的同時維持模型在F1-Measure、G-mean和AUC上的表現,而在以SVM作為基分類器時,只有訓練更多的基分類器,AHP-Based Bagging才能在不顯著降低AUC表現的情況下有比SMOTEBagging更好的TPR表現。這兩個因素能影響提升效果的原因在于它們直接影響著Bagging模型中基分類器的多樣性,Bag數越多或是作為基分類器的分類模型越不穩(wěn)定,得到的基分類器的表現越多樣化,從中選出符合要求的基分類器的可能性就越大,AHP-Based Bagging相比于SMOTEBagging的提升效果也就越好。

      AHP-Based Bagging不僅有更好的TPR表現,還有著更小的集成規(guī)模(Ensemble Size)。集成規(guī)模指的是訓練好的Bagging模型中所包含的基分類器的數量。圖4中最后一行是在不同Bag數設置下AHP-Based Bagging和SMOTEBagging模型的集成規(guī)模對比。可以發(fā)現SMOTEBagging由于是對所有的基分類器進行集成,所以最終訓練完成的模型中所包含的基分類器的數量與Bag數是一致的,而AHP-Based Bagging通過對基分類器進行選擇性集成,在同樣的Bag數下,訓練完成后的集成規(guī)模明顯比SMOTEBagging模型的集成規(guī)模要小,經過計算,以BPNN、LR和SVM作為基分類器時,AHP-Based Bagging模型的集成規(guī)模分別只有SMOTEBagging模型的52.4%、51.3%和52.0%。更小的集成規(guī)模使得AHP-Based Bagging模型在實際應用中占用的計算資源更少,預測速度也更快。

      四、結論

      AHP方法在傳統(tǒng)決策領域有著廣泛的應用,本文將AHP方法引入到SMOTEBagging模型中,綜合考慮多個評價指標,對基分類器進行選擇性集成,構造了AHP-Based Bagging模型。通過在27個不同數據背景、不同樣本不平衡率的數據集上進行實驗,本文發(fā)現這樣的結合不僅大幅降低了訓練完成后模型的集成規(guī)模,當基分類器具有足夠的多樣性時,還能在不犧牲模型整體預測表現的同時,顯著提高對少類樣本的預測準確率(TPR),因此在少類樣本更為重要的數據不平衡問題中,如信用風險預測、疾病診斷等,AHP-Based Bagging模型相比于SMOTEBagging模型具有更強的實用性和更好的預測效果。

      對傳統(tǒng)決策方法與集成學習相結合的模型研究,本文只是在前人的基礎上做了有限的推進,在以后的研究中還有很多可以嘗試的點,比如這種結合在基分類器類型不同的集成學習模型中是否會有更好的表現,又比如在基分類器評價的過程中考慮其他決策方法,或者研究是否有其它更合適的評價指標和閾值確定方法,以選出更合適的基分類器來實現更好的集成效果等,希望能在以后的研究工作中能做更深入的探索。

      猜你喜歡
      分類器權重樣本
      用樣本估計總體復習點撥
      權重常思“浮名輕”
      當代陜西(2020年17期)2020-10-28 08:18:18
      推動醫(yī)改的“直銷樣本”
      為黨督政勤履職 代民行權重擔當
      人大建設(2018年5期)2018-08-16 07:09:00
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于公約式權重的截短線性分組碼盲識別方法
      電信科學(2017年6期)2017-07-01 15:44:57
      隨機微分方程的樣本Lyapunov二次型估計
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      村企共贏的樣本
      阿克陶县| 黄冈市| 三门县| 亚东县| 额敏县| 芒康县| 新田县| 烟台市| 连山| 汝城县| 泰和县| 合江县| 阳春市| 贵定县| 广南县| 石楼县| 宁远县| 措勤县| 丹寨县| 吉安市| 阿坝县| 开阳县| 五大连池市| 砀山县| 石门县| 宁城县| 余江县| 南木林县| 永泰县| 成都市| 临海市| 朝阳区| 綦江县| 靖宇县| 孝感市| 内乡县| 赣州市| 黄山市| 孝昌县| 东山县| 华阴市|