基于局部集合和差分進化的過抽樣方法

2023-07-11 10:14:12羅少甫

統(tǒng)計與決策 2023年10期

羅少甫

（重慶航天職業(yè)技術學院智能信息學院，重慶 400021）

0 引言

不平衡數(shù)據(jù)集的類別呈偏態(tài)分布[1]。在不平衡數(shù)據(jù)集中，會存在一個樣本數(shù)量較少的類，學者們通常把這個類稱為少數(shù)類。同時，學者們把具有較多樣本數(shù)量的類稱為多數(shù)類。由于不平衡數(shù)據(jù)集的偏態(tài)分布，因此從不平衡數(shù)據(jù)集上學習一個有效的分類器（即不平衡分類）是一個挑戰(zhàn)[2]。在不平衡分類中，盡管分類模型能取得較高的分類正確率，但是他們難以正確地分類少數(shù)類。相比于多數(shù)類，少數(shù)類更具有實際意義。

欠抽樣方法和過抽樣方法能夠改進不平衡分類[3—8]。欠抽樣方法會去除多數(shù)類中的冗余樣本，直到樣本的類別分布平衡。過抽樣方法生成少數(shù)類的合成樣本去擴充少數(shù)類。SMOTE（Synthetic Minority Over-sampling Technique）[9]是最流行的過抽樣方法。它用少數(shù)類樣本的k近鄰[10]插值結果去生成合成樣本；然后，用生成的合成樣本去擴充少數(shù)類。到目前為止，SMOTE 具有巨大的實際應用價值和許多改進算法。例如，Boderline-SMOTE[11]、ADASYN[12]、RSMOTE[13]、Adaptive-SMOTE[14]等。

研究發(fā)現(xiàn)，大多數(shù)過抽樣方法容易生成噪聲[9,11—15]。這是因為他們用噪聲或（和）不安全的邊界樣本去生成合成樣本。最近，基于噪聲過濾的過抽樣方法能解決噪聲生成問題。SMOTE-TL[16]、SMOTE-ENN[16]和SMOTE-IPF[17]是基于噪聲過濾的過抽樣方法。SMOTE-TL 用托梅克鏈接（Tome Link，TL）去移除合成樣本和原始數(shù)據(jù)中的噪聲。SMOTE-ENN 用k 近鄰分類器去識別和過濾噪聲。SMOTE-IPF 用一個迭代的隨機森林分類器來去除合成樣本和原始數(shù)據(jù)中的噪聲。盡管大量的實驗[15—17]證明了基于噪聲過濾的過抽樣方法的有效性，但是他們仍然有以下不足：（1）在大多數(shù)基于噪聲過濾的過抽樣方法（如SMOTE-TL、SMOTE-ENN 和SMOTE-IPF）中，噪聲偵察技術依賴于參數(shù)，這導致算法表現(xiàn)不穩(wěn)定和應用困難。（2）全部的基于噪聲過濾的過抽樣方法均用k 近鄰的插值結果去生成合成樣本。因此，生成合成樣本的過程依賴于近鄰參數(shù)k。（3）基于噪聲過濾的過抽樣方法均會移除過多的少數(shù)類樣本。這是因為基于噪聲過濾的過抽樣方法用有監(jiān)督分類器（如TL[15]、k 近鄰[16]和隨機森林[17]）作為噪聲過濾器。由于不平衡數(shù)據(jù)的影響（沒有考慮不平衡數(shù)據(jù)的特性），這些有監(jiān)督分類器容易錯誤地預測少數(shù)類樣本。從而，噪聲過濾器會錯誤地識別大量的少數(shù)類樣本為噪聲；并且，他們會直接移除可疑的噪聲，而不是更正或優(yōu)化，這最終會導致信息損失。

為了克服噪聲生成和上述基于噪聲過濾的過抽樣方法的缺陷，本文提出了一種基于局部集合和差分進化的過抽樣方法（Oversampling Method based on Local Sets and Differential Evolution，OMLSDE）。首先，該方法計算每個樣本的局部集合[18]；其次，該方法用局部集合和不平衡比去發(fā)現(xiàn)更多的多數(shù)類噪聲，并且保留更多的少數(shù)類樣本，這提高了少數(shù)類的泛化性；然后，該方法用差分進化[19]去優(yōu)化可疑的噪聲（迭代地改變噪聲的屬性或位置），而不是直接移除他們；最后，該方法用局部集合內的隨機樣本去生成少數(shù)類的合成樣本。

1 理論基礎

設訓練集X={x1,x2,…,xnmin,xnmin+1,…,xn},X?RD。其中，D為屬性的個數(shù)，n為訓練集樣本的個數(shù)。設少數(shù)類樣本集合Smin={x1,x2,…,xnmin}，其中，nmin為少數(shù)類樣本的個數(shù)。設多數(shù)類樣本集合Smaj={xnmin+1,xnmin+2,…,xn}。其中，nmaj為多數(shù)類樣本的個數(shù)，nmaj=nnmin。

1.1 局部集合

Brighton 和Mellish（2002）[19]提出了局部集合（Local Sets，LS）的概念。局部集合受敵最近鄰（Nearest Enemy，NE）的啟發(fā)。一個樣本xi的局部集合包含一些特定的樣本，這些特定樣本到xi的距離小于xi到xi的敵最近鄰的距離。由于概念上的優(yōu)越性和簡單性，實例約簡和多標簽學習已經(jīng)用到了局部集合的概念[8]。本文把NN(xi)定義為樣本xi的最近鄰，并定義敵最近鄰如下：

定義1（敵最近鄰）：一個樣本xi的敵最近鄰是離xi最近的不同類的樣本。本文把樣本xi的敵最近鄰記為NE(xi)。

在式（1）中，數(shù)據(jù)集X包含少數(shù)類（Smin）和多數(shù)類（Smaj）。

基于敵最近鄰的概念，本文定義局部集合如下：

定義2（局部集合）：一個樣本xi的局部集合（Local Set，LS）包含一些特定的樣本xj。這些特定樣本xj到xi的距離小于xi到其敵最近鄰NE(xi)的距離。

在式（2）中，dist(xi,xj)或dist(xi,NE(xi))代表兩個樣本的歐氏距離。

進一步，本文定義局部集合基數(shù)如下：

定義3（局部集合基數(shù)）：一個樣本xi的局部集合基數(shù)（Local Set Cardinality，LSC）是局部集合LS(xi)中的樣本個數(shù)。

在式（3）中，|·|代表數(shù)量。

圖1 用一個人工例子去可視化局部集合。在圖1 中，圓圈代表少數(shù)類，三角形代表多數(shù)類。并且，部分樣本指向它的敵最近鄰。從圖1 可以發(fā)現(xiàn)，NE(A)=F，NE(C)=G，NE(B)=H，NE(E)=I，LS(A)={A,D}，LS(B)={A,B,C,D}，LS(C)={C}，LS(E)={E}。局部集合有如下特性：

（1）一個局部集合中的樣本有相同的類標號。

（2）如果樣本xi更接近邊界，則這個樣本xi有更小的LSC(xi)值。在圖1 中，LSC(A)=2，LSC(B)=4 和LSC(C)=1。樣本C更靠近邊界。

（3）如果越多的局部集合包含樣本xi，則樣本xi越安全。在圖1 中，噪聲樣本E位于LS(E)中，更安全的樣本C位于LS(C)和LS(B)中，更安全的樣本D位于LS(A)和LS(B)中。

（4）如果越多的樣本xj視樣本xi為敵最近鄰，則樣本xi越靠近其他類別。在圖1中，大量的樣本視噪聲樣本E和邊界樣本C為敵最近鄰

2 基于基本集合和差分進化的過抽樣方法

OMLSDE 的目標是防止噪聲生成和解決基于噪聲過濾的過抽樣方法的缺陷，即：（1）噪聲偵察技術依賴于參數(shù)；（2）合成樣本的過程依賴于參數(shù)k(c)，他們會移除大量的少數(shù)類樣本，造成信息損失。

圖2 用一個人工例子來展示OMLSDE 的主要思想。首先，本文用局部集合和不平衡比去發(fā)現(xiàn)可疑的噪聲（見圖2（b））。在圖2（b）中，本文用五角星標出被識別的可疑的噪聲樣本。其次，本文用差分進化去優(yōu)化可疑的噪聲（即改變噪聲的位置或屬性），而不是直接刪除他們，這防止了大量樣本信息的丟失（見圖2（b）和圖2（c），OMLSDE優(yōu)化了可疑噪聲的屬性或位置）。再次，本文用局部集合內的隨機樣本去生成合成的少數(shù)類樣本（見圖2（d））。最后，本文用這些合成的少數(shù)類樣本來擴充少數(shù)類樣本集。因此，本文能用這個優(yōu)化的訓練集去改進傳統(tǒng)的分類器。

圖2 用一個人工例子去說明OMLSDE

2.1 基于局部集合和不平衡比的噪聲偵察技術

現(xiàn)有的基于噪聲過濾的過抽樣方法[15—17]依賴于噪聲偵察技術的參數(shù)。而且，由于沒有考慮不平衡數(shù)據(jù)的特性，他們會誤識別大量的少數(shù)類樣本。在這個部分，用局部集合和不平衡比去偵察可疑的噪聲。

由前文的分析可知，如果越多的局部集合包含樣本xi，則樣本xi就越安全；如果越多的樣本xj視樣本xi為敵最近鄰，則樣本xi就越靠近其他類別。因此，本文定義樣本xi的有用性和有害性如下：

定義4（樣本xi的有用性）：樣本xi的有用性（Useful?nes（sxi））是包含樣本xi的局部集合的個數(shù)。

定義5（樣本xi的有害性）：樣本xi的有害性（Harm?fulness（x）i）是把樣本xi視為敵最近鄰的樣本個數(shù)。

在式（4）和式（5）中，樣本xi的有用性Usefulnes（sx）i代表樣本xi的安全性。樣本xi的有用害Harmfulness（x）i代表樣本xi的反常性。基于這個理解，本文用如下公式去偵察可疑噪聲。

在式（6）中，IR代表不平衡比，IR的值等于nmaj除以nmin；nmaj代表多數(shù)類樣本的個數(shù)，nmin代表少數(shù)類樣本的個數(shù)。

在不平衡數(shù)據(jù)中，當本文計算有用性和有害性的時候，少數(shù)類樣本的有用性相比于它的有害性會較小。這是因為多數(shù)類的樣本數(shù)目（產(chǎn)生有害性）大于少數(shù)類的樣本數(shù)目（產(chǎn)生有用性）。同理，多數(shù)類樣本的有害性相比于它的有用性會較小。通過考慮不平衡比IR，式（6）能發(fā)現(xiàn)更多的多數(shù)類樣本的噪聲。而且，式（6）也能保留更多的少數(shù)類樣本，從而提高少數(shù)類的泛化性。

圖2（b）展示了用式（6）去發(fā)現(xiàn)可疑噪聲的結果。從圖2 中可以發(fā)現(xiàn)，算法能發(fā)現(xiàn)更多的多數(shù)類噪聲，并且保留更多的少數(shù)類樣本。并且，式（6）不需要任何參數(shù)。

2.2 用差分進化優(yōu)化可疑噪聲

大多數(shù)基于噪聲過濾的過抽樣方法[15—17]會直接去除可疑噪聲，這會導致信息損失。在這個部分，本文用差分進化去優(yōu)化可疑噪聲的屬性（位置）。設可疑噪聲集合和安全樣本集合分別為SuspiciousSet和SafeSet，X=SuspiciousSet∪SafeSet。

差分進化[19]是一個迭代的優(yōu)化算法。它包括初始步驟、變異步驟、交叉步驟和選擇步驟。

在初始步驟中，本文把每一個可疑噪聲xi?SuspiciousSet視為一個目標向量ti,g。設目標向量集合為Tg={t1,g,…,ti,g,…}，其中：

在式（7）中，g代表迭代次數(shù)，設Gmax為最大迭代次數(shù)，則g?{1,2,…,Gmax}；d代表第d個屬性，d?{1,2,…,D}；ωi代表目標向量ti,g的類標號。

變異步驟為每一個目標向量ti,g生成一個變異向量vi,g。本文使用DE/Rand/1[19]策略去生成變異向量vi,g。設變異向量集合為Vg={v1,g,…,vi,g,…}，其中：

在式（8）中，本文從安全樣本集合SafeSet中隨機地選取3 個樣本xr1、xr2和xr3；Fi是用于控制變異程度的縮放因子。

在交叉步驟中，本文會用目標向量ti,g和變異向量vi,g去生成一個測試向量ui,g。本文用DE/CurrentToRand/1策略去生成測試向量ui,g。設測試向量集合為Ug={u1,g,…,ui,g,…}，其中：

在式（9）中，K是0到1之間的隨機值。在式（7）至式（9）中，差分進化用目標向量ti,g和變異向量vi,g的線性組合來生成測試向量ui,g。值得注意的是，測試向量ui,g和目標向量ti,g具有相同的類別ωi。

在選擇步驟中，本文用式（10）去決定是否用測試向量集合Ug更新目標向量集合Tg+1。

在式（10）中，C代表一個特定的分類器。在實驗中，本文用最近鄰分類器[10]作為這個特定的分類器C。本文用安全樣本集合SafeSet去訓練分類器C。accuracy(C,Ug)代表分類器C在Ug上的分類正確率，accuracy(C,Tg)同理。如果分類器C在Ug上的分類正確率大于或等于分類器C在Tg上的分類正確率，那么本文就用Ug更新目標向量集合Tg+1。差分進化的停止條件是accuracy(C,Tg)等于1。換言之，當分類器C能正確分類所有的（被優(yōu)化后的）可疑噪聲時，差分進化停止。

差分進化算法有一個參數(shù)Fi。本文用文獻[19]的方法去設置參數(shù)Fi。

其中，rand2和rand3是0到1之間的隨機值。文獻[19]建議，SFGSS=8，SFHC=20，F(xiàn)l=0.1，F(xiàn)u=0.9，τ1=0.1，τ2=0.03，τ3=0.07。

本文用差分進化算法去迭代地改變目標向量（可疑噪聲）的屬性和位置，直到一個特定的分類器C能正確地分類所有的目標向量（可疑噪聲）。如圖2（b）和圖2（c）所示，當差分進化停止的時候，本文能將所有的可疑噪聲優(yōu)化到正確的位置，從而防止信息損失，也能改進其分布。差分進化的偽代碼如下頁表1所示。

表1 差分進化算法（DE）

設分類器C的時間復雜度為O(C)，可疑的噪聲集合SuspiciousSet的樣本數(shù)為NSE。如文獻[19]推導，差分進化的時間復雜度為O(Gmax×NSE×C)。

2.3 提出算法

OMLSDE 算法有兩個參數(shù)，即參數(shù)N和參數(shù)Fi。參數(shù)N指的是，基于每個少數(shù)類樣本需要生成的合成樣本數(shù)目[9]。參數(shù)Fi用于調整差分進化。

下頁表2中，算法的第1至第3步用于搜索局部集合。算法的第4 和第5 步用局部集合和不平衡比發(fā)現(xiàn)可疑噪聲。算法的第6和第7步用差分進化去優(yōu)化可疑噪聲。算法的第8 至第19 步用每個少數(shù)類樣本和其局部集合中的隨機樣本去產(chǎn)生合成的少數(shù)類樣本（見圖2（d））。在第8和第9步中，本文僅把局部集合基數(shù)大于1的樣本作為基樣本去生成合成樣本。在第14步中，用rand（0，1）產(chǎn)生0到1的隨機值。

表2 基于局部集合和差分進化的過抽樣方法（OMLSDE）

由于使用kd 樹，因此第2 步的時間復雜度是O(nlogn)。第3至第5步的時間復雜度是O(n)。第6和第7步（差分進化）的時間復雜度是O(Gmax×NSE×C)。第8至第19步的時間復雜度是O(N×D×nmin)。這是因為它與少數(shù)類樣本數(shù)目nimn、參數(shù)N和屬性D有關。因此，OMLSDE 算法的時間復雜度是O(Gmax×NSE×C)+O(N×D×nmin)。

3 實驗

3.1 實驗設置

本文從UCI數(shù)據(jù)集（http：//archive.ics.uci.edu/ml/datasets.php）上選出15個實驗所需的真實數(shù)據(jù)集。表3給出了這15 個真實數(shù)據(jù)集的具體信息。這些信息包括樣本數(shù)、屬性數(shù)、少數(shù)類樣本數(shù)、多數(shù)類樣本數(shù)、不平衡比和數(shù)據(jù)集縮寫。在表3 中，如果一個真實數(shù)據(jù)集是二類數(shù)據(jù)集，本文把樣本數(shù)量較少的類作為少數(shù)類，同時把樣本數(shù)量較多的類作為多數(shù)類；如果一個真實數(shù)據(jù)集是多類數(shù)據(jù)集，本文選擇數(shù)量最少的類作為少數(shù)類，并將其他類合并為一個大的多數(shù)類。

表3 實驗的數(shù)據(jù)集

本文用十折交叉驗證把每個數(shù)據(jù)集劃分為測試集和訓練集。十折交叉驗證會重復運行實驗10次。在每一次實驗中，十折交叉驗證把每個數(shù)據(jù)集劃分為10等份，訓練集包含9份，測試集包含1份。

在本文的實驗中，本文把少數(shù)類看作正例，把多數(shù)類看作負例。另外，本文選取AUC、F-measure 和G-mean 作為評價指標。AUC 值越高，代表算法的總體性能越好。F-measure 線性地結合了召回率Recall 和精確度Precision。F-measure 值越高，代表算法能把正例分類得越準確。G-mean 的公式包含了正例的正確率和負例的正確率。G-mean在保持正、負例分類精度平衡的情況下，最大化這兩類的精度。假定對負例的分類精度很高，而對正例的分類精度很低，則會導致低的G-mean值；而只有當兩者都較高時，才會得到高的G-mean 值。因此，G-mean 能衡量數(shù)據(jù)的整體分類性能。

下頁表4展示了實驗的對比算法。ADASYN、SMOTEENN、SMOTE-IPF、k-means SMOTE[20]、RSMOTE 和Adaptive-SMOTE 是流行的過抽樣方法。表4 也給出了對比算法的參數(shù)。注意，本文把對比方法的參數(shù)設置為他們的標準版本。在提出的OMLSDE 中，本文需要去設置兩個參數(shù)，即N和Fi。本文取N=2。本文采用文獻[19]的建議來設置參數(shù)Fi（具體見式（11））。

表4 對比方法

在實驗中，本文把k 近鄰分類器（KNN，k=3）用作測試的分類器。本文用對比的過抽樣方法（見表4）去改進不平衡的真實數(shù)據(jù)集（見表3）。然后，本文用KNN去測試對比方法的性能。

3.2 人工數(shù)據(jù)集上的實驗

圖3和圖4展示了對比算法在人工數(shù)據(jù)集上的實驗結果。其中，噪聲與周圍多數(shù)樣本有不同的類標號。在圖3和圖4中，三角形的周圍包含一些圓圈噪聲。

圖3 對比算法在人工數(shù)據(jù)集1上的結果

圖4 對比算法在人工數(shù)據(jù)集2上的結果

在圖3和圖4中，ADASYN和Adaptive-SMOTE會生成噪聲。ADASYN會在更難學習的區(qū)域生成更多的少數(shù)類的合成樣本（即邊界上）。因此，在ADASYN中，原始數(shù)據(jù)集中的噪聲會降低合成樣本的質量。Adaptive-SMOTE用inner子集和danger子集去產(chǎn)生少數(shù)類的合成樣本。但是原始數(shù)據(jù)集中的噪聲和不安全的邊界樣本會降低inner 子集和danger子集的質量，從而使Adaptive-SMOTE生成噪聲。

在圖3 和圖4 中，盡管k-means SMOTE 和RSMOTE 生成了相對安全的少數(shù)類的合成樣本，但是他們不能去除原始數(shù)據(jù)集中的噪聲。另外，SMOTE-ENN和SMOTE-IPF用噪聲過濾器去移除原始數(shù)據(jù)集和合成樣本中的噪聲。但是，他們的噪聲偵察技術依賴于參數(shù)，這導致表現(xiàn)不穩(wěn)定。而且，他們會移除大量的少數(shù)類樣本（即被識別的少數(shù)類的可疑噪聲），這會造成信息損失。

圖3 和圖4 也顯示，OMLSDE 能改變和優(yōu)化噪聲的位置和屬性，而不是直接刪除他們，這防止了信息損失。并且，OMLSDE用局部集合內的插值去生成安全的少數(shù)類的合成樣本。

3.3 真實數(shù)據(jù)集上的實驗

下頁表5至表7展示了對比算法在真實數(shù)據(jù)集上的實驗結果。在每一行中，本文用下劃線來標出最高的值。

表5 對比算法在UCI數(shù)據(jù)集上的平均AUC結果（單位：%）

表5 展示了對比算法在真實數(shù)據(jù)集上的平均AUC值。OMLSDE 在10 個數(shù)據(jù)集上取得了最高的平均AUC值。在“平均值”行中，OMLSDE也取得了最高的所有數(shù)據(jù)集的平均AUC值。

表6展示了對比算法在真實數(shù)據(jù)集上的平均F-mea-sure 值。OMLSDE 在9 個數(shù)據(jù)集上取得了最高的平均F-measure值。在“平均值”行中，OMLSDE也取得了最高的所有數(shù)據(jù)集的平均F-measure值。

表6 對比算法在UCI數(shù)據(jù)集上的平均F-measure結果（單位：%）

表7展示了對比算法在真實數(shù)據(jù)集上的平均G-mean值。OMLSDE在11個數(shù)據(jù)集上取得了最高的平均G-mean 值。在“平均值”行中，OMLSDE 也取得了最高的所有數(shù)據(jù)集的平均G-mean值。

表7 對比算法在UCI數(shù)據(jù)集上的平均G-mean結果（單位：%）

本文也采用Friedmen檢驗來分析表5至表7的數(shù)據(jù)。本文設置Friedmen檢驗的顯著性水平為0.05。表5 至表7 的“平均秩”行展示了Friedmen檢驗的平均秩的結果。如果一個算法性越好，那么它應該具有越高的平均秩的值。從表5至表7中可以看出，OMLSDE具有最高的平均秩。

另外，從表5 至表7 中還可以發(fā)現(xiàn)，OMLSDE 在German（D3）、Abalone（D6）、Spambase（D8）、Wisconsin Diagnostic Breast Cancer（D10)上表現(xiàn)一般。這是因為，沒有一個算法能適應所有的數(shù)據(jù)分布。OMLSDE可能會在一些包含更多噪聲的數(shù)據(jù)集明顯地優(yōu)于對比算法。

Friedmen檢驗結果顯示，表5至表7的數(shù)據(jù)存在顯著差別。因此，本文又使用Wilcoxon 符號秩檢驗來分析OMLSDE 是否與對比方法存在顯著差別。本文設置Wilcoxon 符號秩檢驗的顯著水平為0.05。如果OMLSDE顯著優(yōu)于對比方法，那么用符號“+”標記；如果OMLSDE顯著劣于對比方法，那么用符號“-”標記；如果OMLSDE 與對比方法沒有顯著差別，那么用符號“～”標記。從表5 至表7 中“Wilcoxon”行的“+”可以看出，OMLSDE顯著優(yōu)于對比方法。

總的來說，表5至表7的數(shù)據(jù)證明，在改進少數(shù)類的分類正確率和總的分類效果上，OMLSDE 顯著優(yōu)于對比方法。這是因為OMLSDE具有如下優(yōu)勢：（1）噪聲偵察技術是無參數(shù)化的；（2）合成樣本的過程是無參化的；（3）OMLSDE能夠去優(yōu)化可疑的噪聲，而不是直接刪除他們，這防止了信息損失和改進了原始數(shù)據(jù)的分布。

4 結論

為了防止噪聲生成和解決基于噪聲過濾的過抽樣方法的缺陷（噪聲偵察技術和合成樣本的過程依賴于參數(shù)；并且，他們會移除大量的少數(shù)類樣本，造成信息損失），本文提出了一種基于局部集合和差分進化的過抽樣方法OMLSDE。OMLSDE 的主要思路如下：首先，OMLSDE 計算每個樣本的局部集合；其次，用局部集合和不平衡比去發(fā)現(xiàn)更多的多數(shù)類噪聲，并且保留更多的少數(shù)類樣本，以提高少數(shù)類的泛化性；然后，用差分進化去迭代地改變噪聲的屬性或位置，而不是直接移除他們；最后，用局部集合內的隨機樣本去生成少數(shù)類的合成樣本。OMLSDE的時間復雜度是O(Gmax×NSE×C)+O(N×D×nmin)。

在仿真實驗中，本文用2 個人工數(shù)據(jù)集、15 個真實數(shù)據(jù)集和6 個流行的過抽樣方法來驗證OMLSDE。結果顯示：（1）OMLSDE 的噪聲偵察技術不需要參數(shù)；（2）OMLSDE能有效防止噪聲生成，優(yōu)化噪聲的屬性，且避免信息損失；（3）就AUC、F-measure 和G-mean 指標而言，在訓練KNN 分類器上，OMLSDE 明顯優(yōu)于6 個先進的過抽樣方法。