• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向不均衡數(shù)據(jù)集的過(guò)抽樣算法

      2020-06-21 00:33:22鑫,徐華,宿
      計(jì)算機(jī)應(yīng)用 2020年6期
      關(guān)鍵詞:中心點(diǎn)集上復(fù)雜度

      崔 鑫,徐 華,宿 晨

      (江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無(wú)錫 214122)

      (?通信作者電子郵箱1525754926@qq.com)

      0 引言

      不均衡數(shù)據(jù),即各類別樣本數(shù)量分布嚴(yán)重不平衡的數(shù)據(jù)。對(duì)于均衡數(shù)據(jù),傳統(tǒng)分類算法可以取得良好的分類效果,但在實(shí)際問(wèn)題中,如人臉年齡估計(jì)、異常檢測(cè)、軟件缺陷預(yù)測(cè)、圖像標(biāo)注等,需要分類的數(shù)據(jù)通常是不均衡的。而傳統(tǒng)分類方法用以解決不均衡數(shù)據(jù)分類問(wèn)題,往往在少數(shù)類上的分類效果并不能讓人滿意。這是由于不均衡數(shù)據(jù)中少數(shù)類數(shù)量過(guò)少,導(dǎo)致數(shù)據(jù)集并沒(méi)有包含足夠的分類信息。此外傳統(tǒng)分類方法追求整體的正確率最大化導(dǎo)致分類結(jié)果更傾向于多數(shù)類,而可能誤分類人們更關(guān)注的少數(shù)類。所以針對(duì)不均衡分類問(wèn)題,學(xué)術(shù)界有必要去尋找一種行之有效的算法。

      對(duì)于不均衡數(shù)據(jù)分類問(wèn)題有一系列方法陸續(xù)被提出,這些方法可以分為算法層面和數(shù)據(jù)層面。算法層面包括代價(jià)敏感[1]、特征選擇[2]和集成學(xué)習(xí)方法。在不均衡分類問(wèn)題中人們通常更關(guān)注少數(shù)類,因此少數(shù)類才是不均衡分類的關(guān)鍵。針對(duì)不均衡數(shù)據(jù)中樣本重要性不同的特點(diǎn),代價(jià)敏感學(xué)習(xí)給予各類別不同的錯(cuò)分代價(jià)。例如在二分類問(wèn)題中給予少數(shù)類更高的錯(cuò)分代價(jià),迫使分類器對(duì)少數(shù)類取得較好的識(shí)別效果。特征選擇方法在用于不均衡分類問(wèn)題同樣取得較好的效果。如果數(shù)據(jù)集中不同類別樣本分布不均衡,則特征分布也可能會(huì)不均衡。因此選取最具有區(qū)分度的特征不僅可以降低復(fù)雜度,還有助于提高少數(shù)類的識(shí)別精度。集成學(xué)習(xí)即組合多個(gè)弱分類器得到一個(gè)強(qiáng)分器,由于其獨(dú)立性,集成學(xué)習(xí)常與抽樣方法、特征選擇方法相結(jié)合,例如:Guo等[3]提出了集成學(xué)習(xí)方法BAK(BPSO-Adaboost-KNN),該算法將基于簡(jiǎn)化粒子群優(yōu)化(Simple Particle Swarm Optimization,BPSO)的特征選擇方法與Adaboost相結(jié)合;Liu 等[4]提出了集成算法GU-MOACOFS(Genetic Under-sampling and MultiObjectiveAnt Colony Optimization based Feature Selection),該算法更是同時(shí)使用了欠抽樣、特征選擇和集成方法。

      數(shù)據(jù)層面的方法是采用重抽樣方法均衡數(shù)據(jù)集中樣本分布,重抽樣分為過(guò)抽樣和欠抽樣。例如較為簡(jiǎn)單的過(guò)抽樣方法是隨機(jī)過(guò)抽樣(Random OverSampling,ROS),該算法隨機(jī)復(fù)制少數(shù)類樣本以增加少數(shù)類樣本的數(shù)量。由于該算法實(shí)現(xiàn)簡(jiǎn)單且性能良好,隨機(jī)過(guò)抽樣算法經(jīng)常在研究中被用作基準(zhǔn)算法進(jìn)行比較。Ha 等[5]提出了基于遺傳算法的欠抽樣(Genetic Algorithm based Under-Sampling,GAUS),通過(guò)對(duì)損失函數(shù)尋找最優(yōu)解得到最佳數(shù)據(jù)子集。與遺傳算法一樣,聚類算法也被用于提高抽樣算法的性能,例如:Rayhan 等[6]提出的欠抽樣算法(Clustering based Under-Sampling approach with BOOSTing algorithm,CUSBOOST),該算法在聚類所得簇中隨機(jī)選擇部分樣本;Lin 等[7]提出了兩種基于聚類的欠抽樣方法,則直接使用簇心或最接近簇心的樣本來(lái)代替原數(shù)據(jù)。過(guò)抽樣和欠抽樣雖然可以平衡數(shù)據(jù)分布,但欠抽樣可能會(huì)刪除對(duì)分類有價(jià)值的數(shù)據(jù),過(guò)抽樣則會(huì)增加過(guò)擬合的風(fēng)險(xiǎn)而且可能引入不合理的樣本數(shù)據(jù)。針對(duì)過(guò)抽樣會(huì)引起過(guò)擬合的缺點(diǎn),Chawla 等[8]提出了合成少數(shù)類過(guò)抽樣技術(shù)(Synthetic Minority Over-sampling TEchnique,SMOTE)算法,其思想是用少數(shù)類與其近鄰的少數(shù)類合成新樣本;但噪聲樣本可能參與合成新樣本,模糊多數(shù)類和少數(shù)類間的邊界。

      針對(duì)上述SMOTE 的不足,許多研究人員提出了SMOTE的改進(jìn)算法[9-11]。Bastista 等[12]提出了將SMOTE 算法和數(shù)據(jù)清洗方法相結(jié)合的方法SMOTE+ENN(Edited Nearest Neighbor)和SMOTE+Tomek links,在一定程度上保證了多數(shù)類和少數(shù)類的可分性。Han 等[13]提出Borderline-SMOTE 算法,該算法只對(duì)邊界附近的少數(shù)類進(jìn)行抽樣。袁銘[14]提出了R-SMOTE 算法,在2個(gè)少數(shù)類樣本上使用N維球體,使生成的樣本在分布球體之內(nèi)。R-SMOTE 算法消除了生成少數(shù)類實(shí)例分布的限制,提高了少數(shù)類的分類精度。趙清華等[15]提出了最遠(yuǎn)點(diǎn)算法(Max Distance SMOTE,MDSMOTE),摒棄了傳統(tǒng)SMOTE 算法將正類樣本點(diǎn)分組的思想,只關(guān)注少數(shù)類樣本質(zhì)心點(diǎn)和距離樣本質(zhì)心點(diǎn)最遠(yuǎn)距離的樣本點(diǎn)。

      以上算法的性能與SMOTE 算法相比得到了一定程度的提高,但總體分類性能還是稍顯不足。為了進(jìn)一步提高SMOTE 算法的性能,避免噪聲樣本參與合成樣本,提高新樣本的合理性,本文結(jié)合聚類算法提出了SMOTE 的改進(jìn)算法

      CSMOTE (Clustered Synthetic Minority Over-sampling TEchnique)。CSMOTE算法拋棄SMOTE在最近鄰間線性插值合成樣本的思想,使用少數(shù)類的簇心與其對(duì)應(yīng)簇中樣本進(jìn)行線性插值合成樣本,并根據(jù)簇心和樣本間的歐氏距離只選用了部分樣本。由于對(duì)參與合成的樣本進(jìn)行了篩選,所以可以一定程度避免使用噪聲數(shù)據(jù)合成新樣本,同時(shí)保證多數(shù)類與少數(shù)類間邊界的明確性。最后在多個(gè)實(shí)際數(shù)據(jù)上,與四個(gè)SMOTE 的改進(jìn)算法以及兩種欠采樣方法相比較,CSMOTE 算法具有更好的分類效果,說(shuō)明該算法可以有效解決不均衡數(shù)據(jù)分類問(wèn)題。

      1 CSMOTE算法

      1.1 CSMOTE算法設(shè)計(jì)思想

      在不均衡數(shù)據(jù)集中,SMOTE 算法雖然可以平衡類分布,卻可能會(huì)模糊多數(shù)類和少數(shù)類的邊界。如圖1(a)所示。假設(shè)SMOTE 對(duì)圖1(a)中的少數(shù)類A 進(jìn)行過(guò)抽樣,在樣本A 的最近鄰中隨機(jī)選擇一個(gè)樣本,假設(shè)選擇了樣本B,樣本A 和B 的線性插值可以合成樣本C。樣本C 因?yàn)榍终级鄶?shù)類的樣本空間,所以合成的樣本C 是一個(gè)不合理的樣本數(shù)據(jù)。在這種情況下,合成的樣本C并不會(huì)有助于分類器的訓(xùn)練,反而由于樣本C 的存在會(huì)使得數(shù)據(jù)變得更加難以區(qū)分,同時(shí)會(huì)影響分類器的性能,所以保證新樣本的合理性是十分有必要的。

      針對(duì)上述問(wèn)題,本文提出了CSMOTE算法,該算法在少數(shù)類數(shù)據(jù)集的各個(gè)簇的范圍內(nèi)合成新樣本。CSMOTE 算法的基本思想是對(duì)于簇中的一個(gè)少數(shù)類樣本minority,計(jì)算minority與其對(duì)應(yīng)簇的中心點(diǎn)center的歐氏距離dis,如果不存在某個(gè)多數(shù)類樣本majority與center的距離d小于dis,則使用minority和center進(jìn)行線性插值生成新的少數(shù)類樣本,否則放棄使用樣本minority。如圖1(b)所示,在少數(shù)類集合上使用k-means 算法得到了簇A 和B。圖中圓形表示多數(shù)類,矩形表示少數(shù)類,星型代表簇的中心點(diǎn)。在簇A中,由于多數(shù)類樣本D 與簇A 中心點(diǎn)的距離小于簇A 中所有少數(shù)類樣本與簇A 中心點(diǎn)的距離,所以CSMOTE 放棄在簇A 的范圍內(nèi)合成新的樣本數(shù)據(jù)。簇B 中心點(diǎn)與最近的多數(shù)類樣本的距離大于簇B 中心點(diǎn)與簇中少數(shù)類樣本的距離,所以簇B 中的少數(shù)類均可參與新樣本的合成。綜上所述,CSMOTE 在簇B 中使用簇中心點(diǎn)和少數(shù)類樣本合成新樣本,且放棄了在簇A中合成新樣本,從而避免了合成的樣本點(diǎn)落入多數(shù)類的樣本空間,保證了新樣本的合理性。此外,CSMOTE 將簇的中心點(diǎn)加入到少數(shù)類數(shù)據(jù)集中,這可以豐富數(shù)據(jù)集中少數(shù)類的樣本分布。

      1.2 CSMOTE算法流程

      CSMOTE 算法流程如圖2 所示,首先將不均衡數(shù)據(jù)集分為少數(shù)類和多數(shù)類,在少數(shù)類上使用k-means聚類獲得多個(gè)子簇。依次在每個(gè)子簇中進(jìn)行過(guò)抽樣,在子簇中隨機(jī)選擇參與合成的樣本,并根據(jù)所選樣本與對(duì)應(yīng)簇心的歐氏距離判斷其是否可以參與合成。然后將簇心與所選樣本進(jìn)行線性插值獲得新樣本。最后將合成的新樣本、簇心以及原少數(shù)類樣本與多數(shù)類相結(jié)合獲得均衡的數(shù)據(jù)集,將均衡數(shù)據(jù)集作為訓(xùn)練集用于訓(xùn)練分類器。算法具體步驟如下所示:

      輸入 多數(shù)類集合maj={x1,x2,…,xm},少數(shù)類集合min={x1,x2,…,xn},聚類的個(gè)數(shù)k,過(guò)抽樣的倍數(shù)Rate,重復(fù)選擇的次數(shù)T。

      輸出 合成的少數(shù)類集合newMin。

      1)首先對(duì)少數(shù)類集合使用k-means 聚類,生成k個(gè)簇{C1,C2,…,Ck},其對(duì)應(yīng)的聚類中心為{u1,u2,…,uk},初始化newMin={u1,u2,…,uk}。

      2)如果所有的簇都已遍歷,則轉(zhuǎn)到步驟6),否則依次遍歷簇集合{C1,C2,…,Ck}取得簇Ci。

      3)在簇Ci中隨機(jī)選擇一個(gè)樣本xj,如果isUse(xj)==True,轉(zhuǎn)到步驟4);否則重新選擇樣本xj,如果重新選擇T次均沒(méi)有選擇到樣本滿足isUse(xj)==True,則轉(zhuǎn)到步驟5)。

      4)生成一個(gè)0到1之間的隨機(jī)數(shù)Rate,利用簇Ci中心點(diǎn)ui和xj合成一個(gè)新樣本xnew:

      5)重復(fù)步驟3)Rate*|Ci|次,然后轉(zhuǎn)到步驟2)。

      6)輸出合成的少數(shù)類newMin。

      isUse(xj):

      a)計(jì)算xj和聚類中心點(diǎn)ui的歐氏距離dis。

      b)遍歷maj集合中樣本xt,計(jì)算xt和聚類中心點(diǎn)ui的歐氏距離d。如果存在xt使得d<dis,則返回False;否則返回True。

      CSMOTE 算法中的子步驟isUse(xj)是用于判斷選中的樣本xj是否可以參與合成新樣本。步驟1)對(duì)少數(shù)類集合進(jìn)行kmeans聚類獲得k個(gè)簇,并將所有的簇心加入到合成的少數(shù)類集合。步驟2)對(duì)簇集合進(jìn)行遍歷,步驟3)在當(dāng)前簇中隨機(jī)選擇樣本,并用子步驟isUse(xj)來(lái)判斷該樣本是否可以參與合成,如果不滿足條件則重新選??;否則跳轉(zhuǎn)步驟4)使用選中的樣本和對(duì)應(yīng)的簇心合成新樣本并加入到合成的少數(shù)類集合。步驟5)控制合成的樣本數(shù)量,每個(gè)簇合成的樣本數(shù)量為對(duì)應(yīng)簇中樣本數(shù)量的Rate倍。步驟6)輸出合成的少數(shù)類集合。

      圖2 CSMOTE算法流程Fig.2 Flowchart of CSMOTE algorithm

      1.3 CSMOTE算法復(fù)雜度分析

      定義n為少數(shù)類樣本數(shù)量,m為多數(shù)類樣本數(shù)量,樣本屬性個(gè)數(shù)為b。子步驟isUse(xj) 的時(shí)間復(fù)雜度為O(m)。CSMOTE 算法流程中,步驟1)中,對(duì)少數(shù)類集合使用k-means聚類的時(shí)間復(fù)雜度為O(bfkn),其中,f為迭代次數(shù),k為k-means 算法的分類數(shù),由于f和k一般遠(yuǎn)小于n,所以k-means算法的時(shí)間復(fù)雜度可簡(jiǎn)化為O(n)。在步驟2)到步驟5)中,算法的時(shí)間復(fù)雜度為O(kn(Tm+d)),T為重復(fù)選擇的次數(shù),本文中將其設(shè)為當(dāng)前簇的樣本數(shù),所以時(shí)間復(fù)雜度為O(kn(nm+d))=O(n2m)。綜上,CSMOTE算法時(shí)間復(fù)雜度為O(n2m)。

      CSMOTE 算法空間復(fù)雜度取決于子步驟isUse(xj)中存儲(chǔ)簇心與所有多數(shù)類樣本的距離,因此,CSMOTE 算法空間復(fù)雜度為O(kn(nm+d))=O(n2m)。CSMOTE 算法的時(shí)間和空間復(fù)雜度均高于SMOTE 算法,可知CSMOTE 通過(guò)犧牲時(shí)間和空間上的效率獲得了分類性能的提高。

      2 實(shí)驗(yàn)與結(jié)果分析

      2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

      本文實(shí)驗(yàn)選用了六個(gè)數(shù)據(jù)集分別為pimax、german3、horseM、breastM、ilpdM、transfusionM。這六個(gè)數(shù)據(jù)集源于不同的實(shí)際應(yīng)用領(lǐng)域,數(shù)據(jù)集的詳細(xì)信息見(jiàn)表1,其中樣本比率表示多數(shù)類與少數(shù)類的數(shù)目之比,數(shù)值越大表明該數(shù)據(jù)集的不均衡程度越大。在實(shí)驗(yàn)中曾嘗試在輸入數(shù)據(jù)時(shí)采用歸一化處理,但是與未采用歸一化處理相比較,除了在transfusionM 數(shù)據(jù)集上分類性能略有提升之外,其他數(shù)據(jù)集上所得分類性能均有較為嚴(yán)重的下降。此外,嘗試在子步驟isUse(xj)計(jì)算歐氏距離時(shí)采用歸一化處理,分類性能卻略有下降?;诜诸愋阅芤约皬?fù)雜度的考慮,實(shí)驗(yàn)中將不再對(duì)數(shù)據(jù)進(jìn)行歸一化處理。

      表1 數(shù)據(jù)集詳細(xì)信息Tab.1 Details of datasets

      在不均衡分類分類器的評(píng)估中,因?yàn)榉诸惥葻o(wú)法反映少數(shù)類的分類效果,所以分類精度將不再適用。為此,研究人員提出了許多基于混淆矩陣的評(píng)價(jià)指標(biāo),例如recall、sensitivity、F-measure 以及GM(Geometric Mean prediction accuracy)。混淆矩陣如表2 所示,少數(shù)類為正類,多數(shù)類為負(fù)類,列表示預(yù)測(cè)類別,而行表示真實(shí)類別。

      表2 混淆矩陣Tab.2 Confusion matrix

      TP表示正類樣本被正確分類的數(shù)量,TN表示負(fù)類樣本被正確分類的數(shù)量;FN表示正類樣本被錯(cuò)誤分類為負(fù)類的數(shù)量,F(xiàn)P表示負(fù)類樣本被錯(cuò)誤分類為正類的數(shù)量。本文實(shí)驗(yàn)采用接受者操作特性曲線(Receiver Operating Characteristic curve,ROC)下的面積(Area Under the Curve,AUC)[16]來(lái)定量比較不同分類模型的性能,越大的AUC 代表分類的效果越好,AUC 為1 表示達(dá)到了最理想的分類效果,而AUC 為0.5 表示是隨機(jī)猜測(cè)。AUC的計(jì)算式如下:

      式中:TPrate表示少數(shù)類中被正確分類的比率,其取值范圍為[0,1];FPrate表示多數(shù)類中被錯(cuò)誤分類的比率,其取值范圍為[0,1]。TPrate、FPrate計(jì)算式如下:

      2.2 實(shí)驗(yàn)步驟

      圖3 展示了實(shí)驗(yàn)流程,實(shí)驗(yàn)流程描述如下:給定一個(gè)二分類的不均衡數(shù)據(jù)集,第一步基于K折交叉驗(yàn)證將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。第二步將訓(xùn)練集分為多數(shù)類子集和和少數(shù)類子集,然后使用過(guò)抽樣方法增加少數(shù)類子集中樣本數(shù)量,將過(guò)抽樣后的少數(shù)類子集和多數(shù)類子集相結(jié)合獲得均衡數(shù)據(jù)集。最后,分類器在均衡的訓(xùn)練集和測(cè)試集分別進(jìn)行訓(xùn)練和測(cè)試。

      圖3 實(shí)驗(yàn)流程Fig.3 Flowchart of experiment

      2.3 CSMOTE算法聚類參數(shù)k的確定

      聚類參數(shù)k會(huì)影響合成少數(shù)類的分布情況,所以參數(shù)k的確定對(duì)CSMOTE 算法的性能十分重要。因此本文將選擇1、3、5、7、9、11 這6個(gè)1~11 之間的奇數(shù)作為k的值,通過(guò)對(duì)比CSMOTE 算法在不同參數(shù)k下過(guò)采樣后分類器所得的AUC 值來(lái)確定最佳的k值。不同k值的CSMOTE 算法在pimax、german3、horseM、breastM、ilpdM、transfusionM 數(shù)據(jù)集上的分類結(jié)果如圖4所示。

      由圖4 可以看出,在german3、ilpdM 和transfusionM 數(shù)據(jù)集上CSMOTE 在k=7 時(shí)獲得了最大的AUC 值。而在pimax、horseM 和breastM 數(shù)據(jù)集上,k=7 時(shí)CSMOTE 雖然并未取得最優(yōu)的AUC,但是與最優(yōu)的AUC 值相比差距較小。其中在horseM 數(shù)據(jù)集上k=9 時(shí)取得最優(yōu)值0.926,k=7 時(shí)則取得了僅次于最優(yōu)的AUC 值0.925 8,k=7 時(shí)AUC 值僅比最優(yōu)值低了0.000 2。在pimax 數(shù)據(jù)集,k=3 時(shí)取得最優(yōu)值0.820 5,k=7 時(shí)取得的AUC 值為0.819,k=7 時(shí)AUC 值僅比最優(yōu)值低了0.001 5。在breastM 數(shù)據(jù)集,k=3 和k=9 時(shí)取得最優(yōu)值0.994 8,k=7 時(shí)取得的AUC 值為0.994 2,k=7 時(shí)AUC 值僅比最優(yōu)值低了0.000 6。從六個(gè)數(shù)據(jù)集的均值來(lái)看,CSMOTE 在k=1,3,5,7,9,11 時(shí)獲得的平均AUC 值分別為0.822 5、0.823 8、0.824 0、0.828 5、0.823 0、0.821 7,k=7 時(shí)AUC 值比k=1,3,5,9,11 時(shí)分別高出0.006、0.004 7、0.004 5、0.005 5、0.006 8,由此可知k=7 與其他k值相比具有一定優(yōu)勢(shì)。綜上所述,在下文的實(shí)驗(yàn)中CSMOTE 的聚類個(gè)數(shù)k選擇為7。聚類參數(shù)k取決于數(shù)據(jù)集自身的特點(diǎn),即樣本的分布情況。由于本文選用的數(shù)據(jù)集均為不均衡數(shù)據(jù)集,少數(shù)類可能被多數(shù)類分割為多個(gè)子區(qū)域,所以經(jīng)過(guò)實(shí)驗(yàn)確定的聚類參數(shù)k較大為7。除了通過(guò)多次實(shí)驗(yàn)確定k值之外,在實(shí)際應(yīng)用中確定k值的方法有:1)數(shù)據(jù)可視化,通過(guò)觀察數(shù)據(jù)的聚合程度確定參數(shù)k;2)手肘法;3)輪廓系數(shù)法。

      圖4 不同k值的分類效果Fig.4 Classification effects of different k values on different datasets

      2.4 不同算法的性能比較

      為了進(jìn)一步研究CSMOTE 算法的性能,在六個(gè)數(shù)據(jù)集上將CSMOTE 與Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE[17]和文獻(xiàn)[7]所提出的兩種欠抽樣方法(分別簡(jiǎn)記為UC和UCN)進(jìn)行比較。除了transfusionM 數(shù)據(jù)集之外,實(shí)驗(yàn)所采用的數(shù)據(jù)集的不均衡比均為2 左右,且考慮到CSMOTE 算法選擇參與合成樣本的條件過(guò)于苛刻,如果過(guò)抽樣的倍數(shù)Rate設(shè)置過(guò)大可能會(huì)產(chǎn)生冗余樣本降低算法的效率,所以過(guò)抽樣的倍數(shù)Rate設(shè)置為1。CSMOTE在簇中隨機(jī)選擇參與合成新樣本,但是難以保證一次就選到符合條件的樣本,為了合成足夠的新樣本,同時(shí)考慮到時(shí)間成本,文中實(shí)驗(yàn)將重復(fù)選擇的次數(shù)T設(shè)置為當(dāng)前簇中樣本個(gè)數(shù)。CSMOTE 聚類參數(shù)為2.3節(jié)調(diào)優(yōu)所得k=7,實(shí)驗(yàn)所采用的分類器是以決策樹為基分類器的bagging。實(shí)驗(yàn)中為保證結(jié)果的準(zhǔn)確性,采用十折交叉驗(yàn)證法,將數(shù)據(jù)集平均分為10 份,然后依次選擇其中1 份作為測(cè)試集,其余9 份作為訓(xùn)練集,該過(guò)程重復(fù)10 次。實(shí)驗(yàn)結(jié)果如圖5 所示,不同算法在6 個(gè)數(shù)據(jù)集上AUC 的均值如表3所示。

      圖5 不同數(shù)據(jù)集上七種算法分類性能對(duì)比Fig.5 Classification performance comparison of seven algorithms on different datasets

      表3 七種算法的分類效果(AUC)對(duì)比Tab.3 Classification effect(AUC)comparison of seven algorithms

      從圖5和表3可以看出,在所有數(shù)據(jù)集上CSMOTE均取得了比其他算法更高的AUC,說(shuō)明CSMOTE 的分類效果更好。其中,在german3 數(shù)據(jù)集上CSMOTE 的優(yōu)勢(shì)最為明顯,可以比其他算法平均高出0.030 1。在pimax、horseM、ilpdM 和transfusionM 數(shù)據(jù)集上,CSMOTE 可以比其他算法平均高出約0.013 6。從均值來(lái)看,CSMOTE 依然具有優(yōu)勢(shì),CSMOTE 比Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE、UC 和UCN 分別高出了0.011 6、0.012 1、0.009 6、0.013 9、0.025 0、0.017 5。在horseM 數(shù)據(jù)集上所有算法均取得了0.9以上的AUC,在數(shù)據(jù)集breastM 上更是達(dá)到了0.99 以上的AUC,這表明所有算法在這兩個(gè)數(shù)據(jù)集上均取得了較可靠的效果。

      CSMOTE 算法與對(duì)比算法相比:1)避免了噪聲數(shù)據(jù)樣本參與合成新樣本;2)利用簇心和樣本間的歐氏距離實(shí)現(xiàn)了對(duì)少數(shù)類的區(qū)別對(duì)待;3)根據(jù)樣本間的距離只選用了部分少數(shù)類參與合成新樣本,所以新樣本不會(huì)模糊多數(shù)類與少數(shù)類的邊界。綜上所述,通過(guò)了一系列的實(shí)驗(yàn)驗(yàn)證表明,針對(duì)不均衡數(shù)據(jù)分類問(wèn)題,提出的CSMOTE算法是有效的。

      3 結(jié)語(yǔ)

      針對(duì)不均衡數(shù)據(jù)分類問(wèn)題,本文從數(shù)據(jù)層面的方法出發(fā)提出了CSMOTE 算法。在實(shí)際數(shù)據(jù)集上,CSMOTE 與四個(gè)SMOTE 的改進(jìn)算法以及兩種欠抽樣算法的分類性能進(jìn)行了比較,結(jié)果表明CSMOTE 算法在處理不均衡數(shù)據(jù)集時(shí)具有更好的分類效果。該算法解決了已有算法中的不足,利用簇心和樣本間的歐氏距離選擇部分少數(shù)類樣本參與合成新樣本,既避免了噪聲數(shù)據(jù)樣本參與合成新樣本,又解決了SMOTE 算法模糊多數(shù)類與少數(shù)類間邊界的問(wèn)題,從而提高了不均衡數(shù)據(jù)的整體分類性能。由于CSMOTE選擇少數(shù)類樣本參與合成樣本過(guò)程的條件較為苛刻,所以對(duì)于某些數(shù)據(jù)分布,參與合成的少數(shù)類數(shù)量過(guò)少導(dǎo)致合成的樣本分布過(guò)于集中。故下一階段研究工作就是解決CSMOTE在某些數(shù)據(jù)集中合成的新樣本分布過(guò)于集中的問(wèn)題。

      猜你喜歡
      中心點(diǎn)集上復(fù)雜度
      Cookie-Cutter集上的Gibbs測(cè)度
      Scratch 3.9更新了什么?
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      如何設(shè)置造型中心點(diǎn)?
      電腦報(bào)(2019年4期)2019-09-10 07:22:44
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      復(fù)扇形指標(biāo)集上的分布混沌
      求圖上廣探樹的時(shí)間復(fù)雜度
      某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
      尋找視覺(jué)中心點(diǎn)
      大眾攝影(2015年9期)2015-09-06 17:05:41
      萨迦县| 甘南县| 西昌市| 防城港市| 肥城市| 会昌县| 绵竹市| 田阳县| 台东市| 晋中市| 太白县| 平潭县| 南木林县| 隆尧县| 准格尔旗| 杭锦旗| 河东区| 新田县| 建瓯市| 武清区| 本溪| 同心县| 永寿县| 麻阳| 天祝| 广宁县| 博客| 沽源县| 泸溪县| 米脂县| 仁布县| 通许县| 阿拉善右旗| 龙山县| 古丈县| 洪洞县| 河池市| 上栗县| 张家川| 含山县| 偃师市|