• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于局部集合和差分進化的過抽樣方法

      2023-07-11 10:14:12羅少甫
      統(tǒng)計與決策 2023年10期
      關鍵詞:集上差分分類器

      羅少甫

      (重慶航天職業(yè)技術學院 智能信息學院,重慶 400021)

      0 引言

      不平衡數(shù)據(jù)集的類別呈偏態(tài)分布[1]。在不平衡數(shù)據(jù)集中,會存在一個樣本數(shù)量較少的類,學者們通常把這個類稱為少數(shù)類。同時,學者們把具有較多樣本數(shù)量的類稱為多數(shù)類。由于不平衡數(shù)據(jù)集的偏態(tài)分布,因此從不平衡數(shù)據(jù)集上學習一個有效的分類器(即不平衡分類)是一個挑戰(zhàn)[2]。在不平衡分類中,盡管分類模型能取得較高的分類正確率,但是他們難以正確地分類少數(shù)類。相比于多數(shù)類,少數(shù)類更具有實際意義。

      欠抽樣方法和過抽樣方法能夠改進不平衡分類[3—8]。欠抽樣方法會去除多數(shù)類中的冗余樣本,直到樣本的類別分布平衡。過抽樣方法生成少數(shù)類的合成樣本去擴充少數(shù)類。SMOTE(Synthetic Minority Over-sampling Technique)[9]是最流行的過抽樣方法。它用少數(shù)類樣本的k近鄰[10]插值結果去生成合成樣本;然后,用生成的合成樣本去擴充少數(shù)類。到目前為止,SMOTE 具有巨大的實際應用價值和許多改進算法。例如,Boderline-SMOTE[11]、ADASYN[12]、RSMOTE[13]、Adaptive-SMOTE[14]等。

      研究發(fā)現(xiàn),大多數(shù)過抽樣方法容易生成噪聲[9,11—15]。這是因為他們用噪聲或(和)不安全的邊界樣本去生成合成樣本。最近,基于噪聲過濾的過抽樣方法能解決噪聲生成問題。SMOTE-TL[16]、SMOTE-ENN[16]和SMOTE-IPF[17]是基于噪聲過濾的過抽樣方法。SMOTE-TL 用托梅克鏈接(Tome Link,TL)去移除合成樣本和原始數(shù)據(jù)中的噪聲。SMOTE-ENN 用k 近鄰分類器去識別和過濾噪聲。SMOTE-IPF 用一個迭代的隨機森林分類器來去除合成樣本和原始數(shù)據(jù)中的噪聲。盡管大量的實驗[15—17]證明了基于噪聲過濾的過抽樣方法的有效性,但是他們仍然有以下不足:(1)在大多數(shù)基于噪聲過濾的過抽樣方法(如SMOTE-TL、SMOTE-ENN 和SMOTE-IPF)中,噪聲偵察技術依賴于參數(shù),這導致算法表現(xiàn)不穩(wěn)定和應用困難。(2)全部的基于噪聲過濾的過抽樣方法均用k 近鄰的插值結果去生成合成樣本。因此,生成合成樣本的過程依賴于近鄰參數(shù)k。(3)基于噪聲過濾的過抽樣方法均會移除過多的少數(shù)類樣本。這是因為基于噪聲過濾的過抽樣方法用有監(jiān)督分類器(如TL[15]、k 近鄰[16]和隨機森林[17])作為噪聲過濾器。由于不平衡數(shù)據(jù)的影響(沒有考慮不平衡數(shù)據(jù)的特性),這些有監(jiān)督分類器容易錯誤地預測少數(shù)類樣本。從而,噪聲過濾器會錯誤地識別大量的少數(shù)類樣本為噪聲;并且,他們會直接移除可疑的噪聲,而不是更正或優(yōu)化,這最終會導致信息損失。

      為了克服噪聲生成和上述基于噪聲過濾的過抽樣方法的缺陷,本文提出了一種基于局部集合和差分進化的過抽樣方法(Oversampling Method based on Local Sets and Differential Evolution,OMLSDE)。首先,該方法計算每個樣本的局部集合[18];其次,該方法用局部集合和不平衡比去發(fā)現(xiàn)更多的多數(shù)類噪聲,并且保留更多的少數(shù)類樣本,這提高了少數(shù)類的泛化性;然后,該方法用差分進化[19]去優(yōu)化可疑的噪聲(迭代地改變噪聲的屬性或位置),而不是直接移除他們;最后,該方法用局部集合內的隨機樣本去生成少數(shù)類的合成樣本。

      1 理論基礎

      設訓練集X={x1,x2,…,xnmin,xnmin+1,…,xn},X?RD。其中,D為屬性的個數(shù),n為訓練集樣本的個數(shù)。設少數(shù)類樣本集合Smin={x1,x2,…,xnmin},其中,nmin為少數(shù)類樣本的個數(shù)。設多數(shù)類樣本集合Smaj={xnmin+1,xnmin+2,…,xn}。其中,nmaj為多數(shù)類樣本的個數(shù),nmaj=nnmin。

      1.1 局部集合

      Brighton 和Mellish(2002)[19]提出了局部集合(Local Sets,LS)的概念。局部集合受敵最近鄰(Nearest Enemy,NE)的啟發(fā)。一個樣本xi的局部集合包含一些特定的樣本,這些特定樣本到xi的距離小于xi到xi的敵最近鄰的距離。由于概念上的優(yōu)越性和簡單性,實例約簡和多標簽學習已經(jīng)用到了局部集合的概念[8]。本文把NN(xi)定義為樣本xi的最近鄰,并定義敵最近鄰如下:

      定義1(敵最近鄰):一個樣本xi的敵最近鄰是離xi最近的不同類的樣本。本文把樣本xi的敵最近鄰記為NE(xi)。

      在式(1)中,數(shù)據(jù)集X包含少數(shù)類(Smin)和多數(shù)類(Smaj)。

      基于敵最近鄰的概念,本文定義局部集合如下:

      定義2(局部集合):一個樣本xi的局部集合(Local Set,LS)包含一些特定的樣本xj。這些特定樣本xj到xi的距離小于xi到其敵最近鄰NE(xi)的距離。

      在式(2)中,dist(xi,xj)或dist(xi,NE(xi))代表兩個樣本的歐氏距離。

      進一步,本文定義局部集合基數(shù)如下:

      定義3(局部集合基數(shù)):一個樣本xi的局部集合基數(shù)(Local Set Cardinality,LSC)是局部集合LS(xi)中的樣本個數(shù)。

      在式(3)中,|·|代表數(shù)量。

      圖1 用一個人工例子去可視化局部集合。在圖1 中,圓圈代表少數(shù)類,三角形代表多數(shù)類。并且,部分樣本指向它的敵最近鄰。從圖1 可以發(fā)現(xiàn),NE(A)=F,NE(C)=G,NE(B)=H,NE(E)=I,LS(A)={A,D},LS(B)={A,B,C,D},LS(C)={C},LS(E)={E}。局部集合有如下特性:

      (1)一個局部集合中的樣本有相同的類標號。

      (2)如果樣本xi更接近邊界,則這個樣本xi有更小的LSC(xi)值。在圖1 中,LSC(A)=2,LSC(B)=4 和LSC(C)=1。樣本C更靠近邊界。

      (3)如果越多的局部集合包含樣本xi,則樣本xi越安全。在圖1 中,噪聲樣本E位于LS(E)中,更安全的樣本C位于LS(C)和LS(B)中,更安全的樣本D位于LS(A)和LS(B)中。

      (4)如果越多的樣本xj視樣本xi為敵最近鄰,則樣本xi越靠近其他類別。在圖1中,大量的樣本視噪聲樣本E和邊界樣本C為敵最近鄰

      2 基于基本集合和差分進化的過抽樣方法

      OMLSDE 的目標是防止噪聲生成和解決基于噪聲過濾的過抽樣方法的缺陷,即:(1)噪聲偵察技術依賴于參數(shù);(2)合成樣本的過程依賴于參數(shù)k(c),他們會移除大量的少數(shù)類樣本,造成信息損失。

      圖2 用一個人工例子來展示OMLSDE 的主要思想。首先,本文用局部集合和不平衡比去發(fā)現(xiàn)可疑的噪聲(見圖2(b))。在圖2(b)中,本文用五角星標出被識別的可疑的噪聲樣本。其次,本文用差分進化去優(yōu)化可疑的噪聲(即改變噪聲的位置或屬性),而不是直接刪除他們,這防止了大量樣本信息的丟失(見圖2(b)和圖2(c),OMLSDE優(yōu)化了可疑噪聲的屬性或位置)。再次,本文用局部集合內的隨機樣本去生成合成的少數(shù)類樣本(見圖2(d))。最后,本文用這些合成的少數(shù)類樣本來擴充少數(shù)類樣本集。因此,本文能用這個優(yōu)化的訓練集去改進傳統(tǒng)的分類器。

      圖2 用一個人工例子去說明OMLSDE

      2.1 基于局部集合和不平衡比的噪聲偵察技術

      現(xiàn)有的基于噪聲過濾的過抽樣方法[15—17]依賴于噪聲偵察技術的參數(shù)。而且,由于沒有考慮不平衡數(shù)據(jù)的特性,他們會誤識別大量的少數(shù)類樣本。在這個部分,用局部集合和不平衡比去偵察可疑的噪聲。

      由前文的分析可知,如果越多的局部集合包含樣本xi,則樣本xi就越安全;如果越多的樣本xj視樣本xi為敵最近鄰,則樣本xi就越靠近其他類別。因此,本文定義樣本xi的有用性和有害性如下:

      定義4(樣本xi的有用性):樣本xi的有用性(Useful?nes(sxi))是包含樣本xi的局部集合的個數(shù)。

      定義5(樣本xi的有害性):樣本xi的有害性(Harm?fulness(x)i)是把樣本xi視為敵最近鄰的樣本個數(shù)。

      在式(4)和式(5)中,樣本xi的有用性Usefulnes(sx)i代表樣本xi的安全性。樣本xi的有用害Harmfulness(x)i代表樣本xi的反常性。基于這個理解,本文用如下公式去偵察可疑噪聲。

      在式(6)中,IR代表不平衡比,IR的值等于nmaj除以nmin;nmaj代表多數(shù)類樣本的個數(shù),nmin代表少數(shù)類樣本的個數(shù)。

      在不平衡數(shù)據(jù)中,當本文計算有用性和有害性的時候,少數(shù)類樣本的有用性相比于它的有害性會較小。這是因為多數(shù)類的樣本數(shù)目(產(chǎn)生有害性)大于少數(shù)類的樣本數(shù)目(產(chǎn)生有用性)。同理,多數(shù)類樣本的有害性相比于它的有用性會較小。通過考慮不平衡比IR,式(6)能發(fā)現(xiàn)更多的多數(shù)類樣本的噪聲。而且,式(6)也能保留更多的少數(shù)類樣本,從而提高少數(shù)類的泛化性。

      圖2(b)展示了用式(6)去發(fā)現(xiàn)可疑噪聲的結果。從圖2 中可以發(fā)現(xiàn),算法能發(fā)現(xiàn)更多的多數(shù)類噪聲,并且保留更多的少數(shù)類樣本。并且,式(6)不需要任何參數(shù)。

      2.2 用差分進化優(yōu)化可疑噪聲

      大多數(shù)基于噪聲過濾的過抽樣方法[15—17]會直接去除可疑噪聲,這會導致信息損失。在這個部分,本文用差分進化去優(yōu)化可疑噪聲的屬性(位置)。設可疑噪聲集合和安全樣本集合分別為SuspiciousSet和SafeSet,X=SuspiciousSet∪SafeSet。

      差分進化[19]是一個迭代的優(yōu)化算法。它包括初始步驟、變異步驟、交叉步驟和選擇步驟。

      在初始步驟中,本文把每一個可疑噪聲xi?SuspiciousSet視為一個目標向量ti,g。設目標向量集合為Tg={t1,g,…,ti,g,…},其中:

      在式(7)中,g代表迭代次數(shù),設Gmax為最大迭代次數(shù),則g?{1,2,…,Gmax};d代表第d個屬性,d?{1,2,…,D};ωi代表目標向量ti,g的類標號。

      變異步驟為每一個目標向量ti,g生成一個變異向量vi,g。本文使用DE/Rand/1[19]策略去生成變異向量vi,g。設變異向量集合為Vg={v1,g,…,vi,g,…},其中:

      在式(8)中,本文從安全樣本集合SafeSet中隨機地選取3 個樣本xr1、xr2和xr3;Fi是用于控制變異程度的縮放因子。

      在交叉步驟中,本文會用目標向量ti,g和變異向量vi,g去生成一個測試向量ui,g。本文用DE/CurrentToRand/1策略去生成測試向量ui,g。設測試向量集合為Ug={u1,g,…,ui,g,…},其中:

      在式(9)中,K是0到1之間的隨機值。在式(7)至式(9)中,差分進化用目標向量ti,g和變異向量vi,g的線性組合來生成測試向量ui,g。值得注意的是,測試向量ui,g和目標向量ti,g具有相同的類別ωi。

      在選擇步驟中,本文用式(10)去決定是否用測試向量集合Ug更新目標向量集合Tg+1。

      在式(10)中,C代表一個特定的分類器。在實驗中,本文用最近鄰分類器[10]作為這個特定的分類器C。本文用安全樣本集合SafeSet去訓練分類器C。accuracy(C,Ug)代表分類器C在Ug上的分類正確率,accuracy(C,Tg)同理。如果分類器C在Ug上的分類正確率大于或等于分類器C在Tg上的分類正確率,那么本文就用Ug更新目標向量集合Tg+1。差分進化的停止條件是accuracy(C,Tg)等于1。換言之,當分類器C能正確分類所有的(被優(yōu)化后的)可疑噪聲時,差分進化停止。

      差分進化算法有一個參數(shù)Fi。本文用文獻[19]的方法去設置參數(shù)Fi。

      其中,rand2和rand3是0到1之間的隨機值。文獻[19]建議,SFGSS=8,SFHC=20,F(xiàn)l=0.1,F(xiàn)u=0.9,τ1=0.1,τ2=0.03,τ3=0.07。

      本文用差分進化算法去迭代地改變目標向量(可疑噪聲)的屬性和位置,直到一個特定的分類器C能正確地分類所有的目標向量(可疑噪聲)。如圖2(b)和圖2(c)所示,當差分進化停止的時候,本文能將所有的可疑噪聲優(yōu)化到正確的位置,從而防止信息損失,也能改進其分布。差分進化的偽代碼如下頁表1所示。

      表1 差分進化算法(DE)

      設分類器C的時間復雜度為O(C),可疑的噪聲集合SuspiciousSet的樣本數(shù)為NSE。如文獻[19]推導,差分進化的時間復雜度為O(Gmax×NSE×C)。

      2.3 提出算法

      OMLSDE 算法有兩個參數(shù),即參數(shù)N和參數(shù)Fi。參數(shù)N指的是,基于每個少數(shù)類樣本需要生成的合成樣本數(shù)目[9]。參數(shù)Fi用于調整差分進化。

      下頁表2中,算法的第1至第3步用于搜索局部集合。算法的第4 和第5 步用局部集合和不平衡比發(fā)現(xiàn)可疑噪聲。算法的第6和第7步用差分進化去優(yōu)化可疑噪聲。算法的第8 至第19 步用每個少數(shù)類樣本和其局部集合中的隨機樣本去產(chǎn)生合成的少數(shù)類樣本(見圖2(d))。在第8和第9步中,本文僅把局部集合基數(shù)大于1的樣本作為基樣本去生成合成樣本。在第14步中,用rand(0,1)產(chǎn)生0到1的隨機值。

      表2 基于局部集合和差分進化的過抽樣方法(OMLSDE)

      由于使用kd 樹,因此第2 步的時間復雜度是O(nlogn)。第3至第5步的時間復雜度是O(n)。第6和第7步(差分進化)的時間復雜度是O(Gmax×NSE×C)。第8至第19步的時間復雜度是O(N×D×nmin)。這是因為它與少數(shù)類樣本數(shù)目nimn、參數(shù)N和屬性D有關。因此,OMLSDE 算法的時間復雜度是O(Gmax×NSE×C)+O(N×D×nmin)。

      3 實驗

      3.1 實驗設置

      本文從UCI數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets.php)上選出15個實驗所需的真實數(shù)據(jù)集。表3給出了這15 個真實數(shù)據(jù)集的具體信息。這些信息包括樣本數(shù)、屬性數(shù)、少數(shù)類樣本數(shù)、多數(shù)類樣本數(shù)、不平衡比和數(shù)據(jù)集縮寫。在表3 中,如果一個真實數(shù)據(jù)集是二類數(shù)據(jù)集,本文把樣本數(shù)量較少的類作為少數(shù)類,同時把樣本數(shù)量較多的類作為多數(shù)類;如果一個真實數(shù)據(jù)集是多類數(shù)據(jù)集,本文選擇數(shù)量最少的類作為少數(shù)類,并將其他類合并為一個大的多數(shù)類。

      表3 實驗的數(shù)據(jù)集

      本文用十折交叉驗證把每個數(shù)據(jù)集劃分為測試集和訓練集。十折交叉驗證會重復運行實驗10次。在每一次實驗中,十折交叉驗證把每個數(shù)據(jù)集劃分為10等份,訓練集包含9份,測試集包含1份。

      在本文的實驗中,本文把少數(shù)類看作正例,把多數(shù)類看作負例。另外,本文選取AUC、F-measure 和G-mean 作為評價指標。AUC 值越高,代表算法的總體性能越好。F-measure 線性地結合了召回率Recall 和精確度Precision。F-measure 值越高,代表算法能把正例分類得越準確。G-mean 的公式包含了正例的正確率和負例的正確率。G-mean在保持正、負例分類精度平衡的情況下,最大化這兩類的精度。假定對負例的分類精度很高,而對正例的分類精度很低,則會導致低的G-mean值;而只有當兩者都較高時,才會得到高的G-mean 值。因此,G-mean 能衡量數(shù)據(jù)的整體分類性能。

      下頁表4展示了實驗的對比算法。ADASYN、SMOTEENN、SMOTE-IPF、k-means SMOTE[20]、RSMOTE 和Adaptive-SMOTE 是流行的過抽樣方法。表4 也給出了對比算法的參數(shù)。注意,本文把對比方法的參數(shù)設置為他們的標準版本。在提出的OMLSDE 中,本文需要去設置兩個參數(shù),即N和Fi。本文取N=2。本文采用文獻[19]的建議來設置參數(shù)Fi(具體見式(11))。

      表4 對比方法

      在實驗中,本文把k 近鄰分類器(KNN,k=3)用作測試的分類器。本文用對比的過抽樣方法(見表4)去改進不平衡的真實數(shù)據(jù)集(見表3)。然后,本文用KNN去測試對比方法的性能。

      3.2 人工數(shù)據(jù)集上的實驗

      圖3和圖4展示了對比算法在人工數(shù)據(jù)集上的實驗結果。其中,噪聲與周圍多數(shù)樣本有不同的類標號。在圖3和圖4中,三角形的周圍包含一些圓圈噪聲。

      圖3 對比算法在人工數(shù)據(jù)集1上的結果

      圖4 對比算法在人工數(shù)據(jù)集2上的結果

      在圖3和圖4中,ADASYN和Adaptive-SMOTE會生成噪聲。ADASYN會在更難學習的區(qū)域生成更多的少數(shù)類的合成樣本(即邊界上)。因此,在ADASYN中,原始數(shù)據(jù)集中的噪聲會降低合成樣本的質量。Adaptive-SMOTE用inner子集和danger子集去產(chǎn)生少數(shù)類的合成樣本。但是原始數(shù)據(jù)集中的噪聲和不安全的邊界樣本會降低inner 子集和danger子集的質量,從而使Adaptive-SMOTE生成噪聲。

      在圖3 和圖4 中,盡管k-means SMOTE 和RSMOTE 生成了相對安全的少數(shù)類的合成樣本,但是他們不能去除原始數(shù)據(jù)集中的噪聲。另外,SMOTE-ENN和SMOTE-IPF用噪聲過濾器去移除原始數(shù)據(jù)集和合成樣本中的噪聲。但是,他們的噪聲偵察技術依賴于參數(shù),這導致表現(xiàn)不穩(wěn)定。而且,他們會移除大量的少數(shù)類樣本(即被識別的少數(shù)類的可疑噪聲),這會造成信息損失。

      圖3 和圖4 也顯示,OMLSDE 能改變和優(yōu)化噪聲的位置和屬性,而不是直接刪除他們,這防止了信息損失。并且,OMLSDE用局部集合內的插值去生成安全的少數(shù)類的合成樣本。

      3.3 真實數(shù)據(jù)集上的實驗

      下頁表5至表7展示了對比算法在真實數(shù)據(jù)集上的實驗結果。在每一行中,本文用下劃線來標出最高的值。

      表5 對比算法在UCI數(shù)據(jù)集上的平均AUC結果(單位:%)

      表5 展示了對比算法在真實數(shù)據(jù)集上的平均AUC值。OMLSDE 在10 個數(shù)據(jù)集上取得了最高的平均AUC值。在“平均值”行中,OMLSDE也取得了最高的所有數(shù)據(jù)集的平均AUC值。

      表6展示了對比算法在真實數(shù)據(jù)集上的平均F-mea-sure 值。OMLSDE 在9 個數(shù)據(jù)集上取得了最高的平均F-measure值。在“平均值”行中,OMLSDE也取得了最高的所有數(shù)據(jù)集的平均F-measure值。

      表6 對比算法在UCI數(shù)據(jù)集上的平均F-measure結果(單位:%)

      表7展示了對比算法在真實數(shù)據(jù)集上的平均G-mean值。OMLSDE在11個數(shù)據(jù)集上取得了最高的平均G-mean 值。在“平均值”行中,OMLSDE 也取得了最高的所有數(shù)據(jù)集的平均G-mean值。

      表7 對比算法在UCI數(shù)據(jù)集上的平均G-mean結果(單位:%)

      本文也采用Friedmen檢驗來分析表5至表7的數(shù)據(jù)。本文設置Friedmen檢驗的顯著性水平為0.05。表5 至表7 的“平均秩”行展示了Friedmen檢驗的平均秩的結果。如果一個算法性越好,那么它應該具有越高的平均秩的值。從表5至表7中可以看出,OMLSDE具有最高的平均秩。

      另外,從表5 至表7 中還可以發(fā)現(xiàn),OMLSDE 在German(D3)、Abalone(D6)、Spambase(D8)、Wisconsin Diagnostic Breast Cancer(D10)上表現(xiàn)一般。這是因為,沒有一個算法能適應所有的數(shù)據(jù)分布。OMLSDE可能會在一些包含更多噪聲的數(shù)據(jù)集明顯地優(yōu)于對比算法。

      Friedmen檢驗結果顯示,表5至表7的數(shù)據(jù)存在顯著差別。因此,本文又使用Wilcoxon 符號秩檢驗來分析OMLSDE 是否與對比方法存在顯著差別。本文設置Wilcoxon 符號秩檢驗的顯著水平為0.05。如果OMLSDE顯著優(yōu)于對比方法,那么用符號“+”標記;如果OMLSDE顯著劣于對比方法,那么用符號“-”標記;如果OMLSDE 與對比方法沒有顯著差別,那么用符號“~”標記。從表5 至表7 中“Wilcoxon”行的“+”可以看出,OMLSDE顯著優(yōu)于對比方法。

      總的來說,表5至表7的數(shù)據(jù)證明,在改進少數(shù)類的分類正確率和總的分類效果上,OMLSDE 顯著優(yōu)于對比方法。這是因為OMLSDE具有如下優(yōu)勢:(1)噪聲偵察技術是無參數(shù)化的;(2)合成樣本的過程是無參化的;(3)OMLSDE能夠去優(yōu)化可疑的噪聲,而不是直接刪除他們,這防止了信息損失和改進了原始數(shù)據(jù)的分布。

      4 結論

      為了防止噪聲生成和解決基于噪聲過濾的過抽樣方法的缺陷(噪聲偵察技術和合成樣本的過程依賴于參數(shù);并且,他們會移除大量的少數(shù)類樣本,造成信息損失),本文提出了一種基于局部集合和差分進化的過抽樣方法OMLSDE。OMLSDE 的主要思路如下:首先,OMLSDE 計算每個樣本的局部集合;其次,用局部集合和不平衡比去發(fā)現(xiàn)更多的多數(shù)類噪聲,并且保留更多的少數(shù)類樣本,以提高少數(shù)類的泛化性;然后,用差分進化去迭代地改變噪聲的屬性或位置,而不是直接移除他們;最后,用局部集合內的隨機樣本去生成少數(shù)類的合成樣本。OMLSDE的時間復雜度是O(Gmax×NSE×C)+O(N×D×nmin)。

      在仿真實驗中,本文用2 個人工數(shù)據(jù)集、15 個真實數(shù)據(jù)集和6 個流行的過抽樣方法來驗證OMLSDE。結果顯示:(1)OMLSDE 的噪聲偵察技術不需要參數(shù);(2)OMLSDE能有效防止噪聲生成,優(yōu)化噪聲的屬性,且避免信息損失;(3)就AUC、F-measure 和G-mean 指標而言,在訓練KNN 分類器上,OMLSDE 明顯優(yōu)于6 個先進的過抽樣方法。

      猜你喜歡
      集上差分分類器
      數(shù)列與差分
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      復扇形指標集上的分布混沌
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      基于差分隱私的大數(shù)據(jù)隱私保護
      相對差分單項測距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      乳山市| 黎川县| 翁源县| 凤凰县| 台北市| 高邮市| 策勒县| 商丘市| 应城市| 桐乡市| 巨野县| 漠河县| 苗栗县| 新密市| 红河县| 渝北区| 乌兰察布市| 广灵县| 昭通市| 叙永县| 米泉市| 榆树市| 太仓市| 光泽县| 连城县| 凌云县| 余干县| 三明市| 安庆市| 乌兰浩特市| 通州市| 绥化市| 射阳县| 句容市| 讷河市| 武清区| 怀安县| 卓资县| 卢龙县| 江永县| 铁岭市|