張 浩, 康海燕
(北京信息科技大學(xué) 信息安全系 北京 100192)
隨著世界經(jīng)濟(jì)全球化與科學(xué)技術(shù)的快速發(fā)展,第三方支付服務(wù)成為人們生活的一部分,比如支付寶和微信支付在中國(guó)隨處可見(jiàn),數(shù)不勝數(shù)的交易發(fā)生在世界各地的在線(xiàn)交易平臺(tái)上,隨之而來(lái)的欺詐犯罪問(wèn)題也更加嚴(yán)重,然而數(shù)據(jù)的不平衡問(wèn)題是影響欺詐檢測(cè)的難點(diǎn)。為了解決不均衡數(shù)據(jù)的分類(lèi)問(wèn)題,學(xué)者們的研究方法主要可以分為:對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,對(duì)算法模型進(jìn)行優(yōu)化改進(jìn)[1]。
數(shù)據(jù)處理主要是指根據(jù)統(tǒng)計(jì)學(xué)原理和其他方法對(duì)樣本集進(jìn)行擴(kuò)充或者剔除操作,達(dá)到將樣本集從類(lèi)別不均衡分布到均衡分布的轉(zhuǎn)變。這方面最具代表性的方法就是重采樣方法,主要可分為上采樣方法和下采樣方法。其中經(jīng)典的有SMOTE算法[2]以及基于SMOTE算法衍生的改進(jìn)型算法。也有學(xué)者結(jié)合上采樣和下采樣兩種方法的混合采樣算法處理樣本集[3]。楊毅等設(shè)計(jì)了一種精化Borderline-SMOTE方法解決數(shù)據(jù)不平衡問(wèn)題[4],該方法通過(guò)對(duì)小類(lèi)樣本的邊界樣本重復(fù)采樣從而改善原始樣本集的類(lèi)別分布。石洪波等詳細(xì)闡述了SMOTE算法的原理以及存在的問(wèn)題[5],針對(duì)SMOTE存在的問(wèn)題,分別介紹了4種擴(kuò)展方法和3種應(yīng)用的相關(guān)研究。蔣華等在SMOTE算法和ADASYN算法的基礎(chǔ)上設(shè)計(jì)了一種采樣方法[6],該方法根據(jù)K近鄰算法計(jì)算小類(lèi)樣本點(diǎn)和大類(lèi)樣本點(diǎn)數(shù)目,對(duì)小樣本點(diǎn)進(jìn)行分類(lèi)后分別采用ADASYN和SMOTE算法進(jìn)行小類(lèi)樣本點(diǎn)合成。
算法改進(jìn)角度是指基于傳統(tǒng)的分類(lèi)算法和原始數(shù)據(jù)集的不平衡分布特點(diǎn),對(duì)分類(lèi)算法本身進(jìn)行有針對(duì)性的改進(jìn)優(yōu)化,常見(jiàn)的方式有加入懲罰因子和將多個(gè)弱分類(lèi)結(jié)果進(jìn)行結(jié)合等。改進(jìn)算法有對(duì)集成學(xué)習(xí)算法的改進(jìn)[7]、對(duì)傳統(tǒng)的二分類(lèi)算法和對(duì)數(shù)概率回歸算法的改進(jìn)、對(duì)基于代價(jià)敏感算法的改進(jìn)[8]等。王忠震等在欠采樣和代價(jià)敏感的基礎(chǔ)上設(shè)計(jì)了針對(duì)不平衡數(shù)據(jù)的分類(lèi)算法(USCBoost)[9],該算法首先在AdaBoost迭代前對(duì)大類(lèi)數(shù)據(jù)權(quán)重排序,并根據(jù)排序選擇大類(lèi)數(shù)據(jù)與小類(lèi)數(shù)據(jù)合并臨時(shí)數(shù)據(jù)訓(xùn)練基分類(lèi)器。
近些年來(lái)生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)[10]非常熱門(mén),在圖像生成[11]和圖像增強(qiáng)[12]等領(lǐng)域應(yīng)用中獲得了巨大的成功,由于GAN設(shè)計(jì)的原因,梯度的修正需要生成器的輸出是一個(gè)連續(xù)空間,所以GAN很少用于離散空間的數(shù)據(jù)增強(qiáng)。文獻(xiàn)[13]提出了一種基于條件Wasserstein-GAN的過(guò)采樣方法,該方法能有效地對(duì)含有數(shù)值和分類(lèi)變量的表格數(shù)據(jù)集進(jìn)行建模,并通過(guò)輔助分類(lèi)損失特別關(guān)注下游分類(lèi)任務(wù)。
目前,學(xué)者們解決樣本類(lèi)別不均衡問(wèn)題以重采樣技術(shù)為主,針對(duì)GAN應(yīng)用與交易欺詐方面的研究較少,而且采樣過(guò)程過(guò)度依賴(lài)原始數(shù)據(jù)集,因此本文提出了一種基于特征優(yōu)化生成對(duì)抗網(wǎng)絡(luò)的在線(xiàn)交易反欺詐方法。本文主要貢獻(xiàn):1) 設(shè)計(jì)一種基于特征優(yōu)化生成對(duì)抗網(wǎng)絡(luò)的在線(xiàn)交易反欺詐方法,解決傳統(tǒng)采樣方法過(guò)度依賴(lài)原始數(shù)據(jù)的問(wèn)題;2) 提出了KGC-WGAN模型,該模型針對(duì)交易數(shù)據(jù)提取Key特征加入到生成器中優(yōu)化生成數(shù)據(jù)質(zhì)量和提高訓(xùn)練穩(wěn)定性,將Gumbel-softmax應(yīng)用到網(wǎng)絡(luò)中解決類(lèi)別數(shù)據(jù)生成過(guò)程中梯度消失的問(wèn)題,解決交易欺詐數(shù)據(jù)的生成問(wèn)題;3) 從原始數(shù)據(jù)規(guī)模、重采樣方法、分類(lèi)方法和采樣比例等方面進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。
本文提出了一種基于特征優(yōu)化生成對(duì)抗網(wǎng)絡(luò)的在線(xiàn)交易反欺詐方法,同時(shí)結(jié)合CGAN[14]、WGAN[15]和Gumbel-softmax提出了KGC-WGAN(key feature and Gumbel-softmax conditional WGAN)模型用于交易欺詐數(shù)據(jù)的生成。其核心思想是在不丟失原始信息的前提下,利用KGC-WGAN模型生成足夠真實(shí)的欺詐數(shù)據(jù)擴(kuò)充數(shù)據(jù)集,同時(shí)優(yōu)化生成數(shù)據(jù)的質(zhì)量和提高訓(xùn)練過(guò)程的穩(wěn)定性,解決在線(xiàn)交易數(shù)據(jù)嚴(yán)重不平衡問(wèn)題和生成對(duì)抗網(wǎng)絡(luò)處理離散的在線(xiàn)交易數(shù)據(jù)效果不佳、訓(xùn)練不穩(wěn)定的問(wèn)題。基于KGC-WGAN的在線(xiàn)交易反欺詐方法的系統(tǒng)總流程如圖1所示。主要包括三個(gè)部分:數(shù)據(jù)預(yù)處理、生成對(duì)抗網(wǎng)絡(luò)模型、模型評(píng)估。
圖1 系統(tǒng)流程圖
1) 數(shù)據(jù)預(yù)處理:對(duì)原始的數(shù)據(jù)通過(guò)數(shù)據(jù)清理和數(shù)據(jù)集成等方法將數(shù)據(jù)轉(zhuǎn)換成可參與模型計(jì)算的形式。
2) KGC-WGAN模型:KGC-WGAN模型主要有兩個(gè)部分:第一部分是數(shù)據(jù)模塊,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)簽特征、Key特征、分類(lèi)型特征和數(shù)值型特征的分類(lèi)和提?。坏诙糠质悄P湍K,首先將數(shù)據(jù)模塊處理后的數(shù)據(jù)輸入到KGC-WGAN模型中進(jìn)行模型訓(xùn)練直至收斂,接著利用收斂后的生成模型G生成偽數(shù)據(jù),最后將生成的偽數(shù)據(jù)輸入到收斂的判斷模型D中進(jìn)行識(shí)別,將被判別為真的生成數(shù)據(jù)與原始數(shù)據(jù)融合,對(duì)原始數(shù)據(jù)進(jìn)行平衡處理。
3) 模型評(píng)估:利用經(jīng)過(guò)平衡處理后的數(shù)據(jù)對(duì)分類(lèi)模型進(jìn)行訓(xùn)練,對(duì)交易數(shù)據(jù)進(jìn)行預(yù)測(cè)評(píng)估并生成分析報(bào)告。
1.1.1數(shù)據(jù)處理 針對(duì)交易數(shù)據(jù)的特點(diǎn),KGC-WGAN模型首先會(huì)對(duì)交易數(shù)據(jù)的特征進(jìn)行分類(lèi)。根據(jù)特征的數(shù)據(jù)類(lèi)型和重要程度將特征分為數(shù)值型特征、分類(lèi)型特征、Key特征和標(biāo)簽特征。Key特征的獲取是通過(guò)基于隨機(jī)森林對(duì)特征進(jìn)行重要性排序或者根據(jù)實(shí)際業(yè)務(wù)中的重要程度進(jìn)行Key特征選擇。針對(duì)不同類(lèi)型的Key特征進(jìn)行不同的處理:對(duì)于類(lèi)別類(lèi)型的Key特征進(jìn)行類(lèi)別隨機(jī)采樣;對(duì)于數(shù)值型的Key特征進(jìn)行分層隨機(jī)采樣。
1.1.2模型結(jié)構(gòu) KGC-WGAN模型由一個(gè)生成器G和一個(gè)判別器D構(gòu)成。生成器G的結(jié)構(gòu)由3個(gè)部分構(gòu)成:首先根據(jù)一個(gè)正態(tài)分布z~N(0,0.01) 進(jìn)行隨機(jī)采樣得到噪聲Z,然后對(duì)Key特征和標(biāo)簽特征進(jìn)行隨機(jī)采樣得到X_key和Y;接著將Z、X_key輸入到n個(gè)隱藏層和歸一化層,然后對(duì)隱藏的一部分輸出進(jìn)行Gumbel-softmax采樣,得到分類(lèi)型特征X_cat,另一部分輸出得到數(shù)值型特征X_num;最后將X_cat、X_num、X_key和Y進(jìn)行連接,得到最終的生成樣本。判別器D的結(jié)構(gòu)由3個(gè)部分構(gòu)成:首先對(duì)輸入樣本的X_cat特征進(jìn)行編碼,然后將編碼后的向量和X_num、X_key、Y輸入到n個(gè)相連的隱藏層和歸一化層,經(jīng)過(guò)一個(gè)線(xiàn)性層和一個(gè)歸一化層得到一個(gè)為真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的概率向量。
基于KGC-WGAN的在線(xiàn)交易反欺詐方法的具體實(shí)現(xiàn)步驟如算法1所示。
算法1基于KGC-WGAN的在線(xiàn)交易反欺詐算法。
輸入:交易數(shù)據(jù)X,分類(lèi)算法C,噪聲z。
輸出:分類(lèi)算法C的評(píng)估指標(biāo)M。
Step1 創(chuàng)建KGC-WGAN模型:建立生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D。
Step2 對(duì)數(shù)據(jù)進(jìn)行處理:分類(lèi)和提取X_key、X_cat、X_num和label特征。
Step3 生成網(wǎng)絡(luò)G生成數(shù)據(jù):生成噪聲z,采樣得到key特征X_key和標(biāo)簽Y,將z、X_key輸入到生成網(wǎng)絡(luò)G進(jìn)行數(shù)據(jù)生成,在G生成數(shù)據(jù)過(guò)程中進(jìn)行Gumbel-softmax技巧采樣輸出,得到X_cat和X_num,將X_key、X_cat、X_num和Y連接得到生成數(shù)據(jù)Xg。
Step4 更新判別網(wǎng)絡(luò)D參數(shù):將原始數(shù)據(jù)X和生成數(shù)據(jù)Xg同時(shí)輸入判別模型得到損失值Loss,進(jìn)行模型訓(xùn)練并且更新判別網(wǎng)絡(luò)D的參數(shù)w。
Step5 更新生成網(wǎng)絡(luò)G參數(shù)θ:將判別網(wǎng)絡(luò)D的損失值Loss反饋給生成網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并更新參數(shù)。
Step6 重復(fù)Step2~4直到生成網(wǎng)絡(luò)G的θ收斂。
Step7 數(shù)據(jù)平衡處理:利用Step5得到收斂的生成網(wǎng)絡(luò)G生成的欺詐數(shù)據(jù),對(duì)原始數(shù)據(jù)擴(kuò)充,并進(jìn)行處理,得到平衡的交易數(shù)據(jù)Xn。
Step8 模型評(píng)估:將平衡處理后的數(shù)據(jù)Xn輸入到分類(lèi)算法C中進(jìn)行訓(xùn)練,并得到評(píng)估指標(biāo)M。
為了驗(yàn)證使用KGC-WGAN模型平衡數(shù)據(jù)后對(duì)分類(lèi)效果的影響,實(shí)驗(yàn)所選用的評(píng)價(jià)指標(biāo)有F1值、AUC_ROC、AUC_PR和Brier值。AUC_ROC和AUC_PR值分別為ROC曲線(xiàn)和PR曲線(xiàn)下的面積,Brier值計(jì)算公式為
其中:N是樣本數(shù);predi是屬于正類(lèi)的預(yù)測(cè)概率;labeli是真正的類(lèi)標(biāo)簽。對(duì)于Brier評(píng)分來(lái)說(shuō),值越低越好,而對(duì)于AUC_ROC和AUC_PR來(lái)說(shuō),則值越高越好。
2.2.1實(shí)驗(yàn)環(huán)境 實(shí)驗(yàn)采用的環(huán)境CPU為Intel Core i7,RAM為24 GB,實(shí)驗(yàn)所有代碼都是基于Python開(kāi)發(fā)實(shí)現(xiàn)。
2.2.2實(shí)驗(yàn)數(shù)據(jù) 本文實(shí)驗(yàn)的數(shù)據(jù)(表1)包括兩個(gè)大規(guī)模數(shù)據(jù)集和兩個(gè)小規(guī)模數(shù)據(jù)集。
表1 實(shí)驗(yàn)數(shù)據(jù)集
經(jīng)過(guò)缺失值處理、特征篩選和歸一化處理后數(shù)據(jù)集的情況見(jiàn)表1。兩個(gè)大規(guī)模數(shù)據(jù)包括1) ATEC數(shù)據(jù)集:2018年螞蟻金服公司舉辦的ATEC大賽,風(fēng)險(xiǎn)支付識(shí)別賽事公開(kāi)提供的脫敏后的在線(xiàn)交易支付數(shù)據(jù);2) Lendingclub數(shù)據(jù)集:Lendingclub平臺(tái)的2018年第三季度的數(shù)據(jù)。兩個(gè)小規(guī)模數(shù)據(jù)集包括German數(shù)據(jù)集和HomeEquity數(shù)據(jù)集。
為了驗(yàn)證本文提出的KGC-WGAN模型的有效性,主要對(duì)生成數(shù)據(jù)質(zhì)量、重采樣后分類(lèi)、不同采樣比進(jìn)行對(duì)比分析。
2.3.1生成數(shù)據(jù)質(zhì)量分析 生成數(shù)據(jù)的質(zhì)量是判斷生成模型好壞的一個(gè)重要評(píng)判指標(biāo),但是目前還沒(méi)有一種公認(rèn)的測(cè)量結(jié)構(gòu)化數(shù)據(jù)集相似性的方法,因此本文使用了幾種不同的度量方法。
1) 對(duì)于數(shù)值型特征,本文對(duì)真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的概率分布進(jìn)行了比較,比較情況如圖2所示。每一個(gè)小圖對(duì)應(yīng)的是一個(gè)特征的概率分布比較情況,其中橫軸為特征經(jīng)過(guò)標(biāo)準(zhǔn)化處理后的值,縱軸為對(duì)應(yīng)的概率密度。從圖2可以看出,對(duì)特征如LOAN這類(lèi)概率分布比較簡(jiǎn)單的數(shù)據(jù),KGC-WGAN模型生成的數(shù)據(jù)非常接近原始數(shù)據(jù)集的數(shù)據(jù)分布,擬合效果比較好。但是對(duì)特征如YOJ這類(lèi)概率分布比較復(fù)雜的數(shù)據(jù),模型的生成數(shù)據(jù)擬合效果不是很好。
圖2 數(shù)值型變量分布
2) 對(duì)于類(lèi)別型特征,本文對(duì)生成數(shù)據(jù)和真實(shí)數(shù)據(jù)中每一個(gè)類(lèi)別的樣本數(shù)進(jìn)行了比較,如圖3所示。圖中橫軸為特征值,每一個(gè)值對(duì)應(yīng)的就是一個(gè)類(lèi)別。從圖3可以看出,除少數(shù)類(lèi)別樣本數(shù)量差距較大,如REASON中的類(lèi)別3樣本和JOB中的類(lèi)別3樣本,KGC-WGAN模型的生成數(shù)據(jù)中類(lèi)別型特征中每個(gè)類(lèi)別的樣本數(shù)量和真實(shí)數(shù)據(jù)的樣本數(shù)量總體上比較接近。
圖3 類(lèi)別型變量分布
可以看出KGC-WGAN模型生成數(shù)據(jù)整體質(zhì)量還是不錯(cuò)的,基本上能夠擬合真實(shí)數(shù)據(jù),但是對(duì)于復(fù)雜的數(shù)據(jù)擬合效果還是有待提升。
2.3.2重采樣后分類(lèi)實(shí)驗(yàn)對(duì)比分析 提高模型重采樣的性能、降低數(shù)據(jù)不平衡性的影響是解決在線(xiàn)交易反欺詐最重要的目標(biāo),目前SMOTE方法是最常用和效果最好的重采樣方法之一,所以本文選擇SMOTE、B-SMOTE和ADASYN算法作為KGC-WGAN模型的對(duì)比重采樣方法。對(duì)于重采樣后數(shù)據(jù)的分類(lèi),本文選用了3個(gè)分類(lèi)器:邏輯回歸(LG)、Adaboost(ADAB)和XGboost(XGB),通過(guò)不同分類(lèi)器分類(lèi)結(jié)果對(duì)比分析本文方法與其他采樣方法效果。
所有數(shù)據(jù)集在經(jīng)過(guò)不同的方法重采樣和不同的分類(lèi)器分類(lèi)后的實(shí)驗(yàn)結(jié)果如表2所示,表中粗體的數(shù)據(jù)代表相應(yīng)的最佳實(shí)驗(yàn)結(jié)果。
經(jīng)過(guò)對(duì)表2的對(duì)比分析,可以得到以下結(jié)論。
表2 不同重采樣方法實(shí)驗(yàn)結(jié)果
1) 在所有的實(shí)驗(yàn)結(jié)果中,KGC-WGAN模型重采樣的F1值在幾乎所有的分類(lèi)器上都是高于其他方法的,只有German數(shù)據(jù)集在LG分類(lèi)器上的效果不是最佳。
2) 實(shí)驗(yàn)數(shù)據(jù)集在使用KGC-WGAN模型重采樣后,經(jīng)過(guò)XGB分類(lèi)器分類(lèi)后的每個(gè)指標(biāo)都是所有重采樣方法中最好的,這說(shuō)明經(jīng)過(guò)KGC-WGAN模型重采樣的數(shù)據(jù)能夠很好地與XGB分類(lèi)器契合。整體來(lái)看,KGC-WGAN模型處理后的數(shù)據(jù)在LG分類(lèi)器的表現(xiàn)最差,在XGB分類(lèi)器的表現(xiàn)最好,在ADAB分類(lèi)器的表現(xiàn)居中。
3) KGC-WGAN模型在ATEC數(shù)據(jù)集和Lendingclub數(shù)據(jù)集上的整體表現(xiàn)是優(yōu)于其他數(shù)據(jù)集的,而ATEC和Lendingclub都是大規(guī)模的數(shù)據(jù)集,并且?guī)в蓄?lèi)別向量。這可以說(shuō)明KGC-WGAN模型中的Gumbel-softmax方法是適用于類(lèi)別變量的,從而說(shuō)明該模型更適合大規(guī)模且?guī)в蓄?lèi)別變量的數(shù)據(jù)集。
2.3.3不同采樣比實(shí)驗(yàn)對(duì)比分析 為了探究數(shù)據(jù)集的不平衡程度對(duì)于欺詐檢測(cè)的影響,針對(duì)數(shù)據(jù)集進(jìn)行了不同的采樣率的實(shí)驗(yàn),實(shí)驗(yàn)選取了5種正負(fù)樣本比例,分別為100∶1、10∶1、1∶1、1∶10、1∶100,利用KGC-WGAN模型生成的少數(shù)類(lèi)樣本對(duì)原始數(shù)據(jù)進(jìn)行不同比例的平衡處理,進(jìn)行不同比率采樣后,3種分類(lèi)器分類(lèi)后的實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同采樣比率實(shí)驗(yàn)結(jié)果
從表3可以得出以下幾點(diǎn)結(jié)論。
1) 指標(biāo)F1、AUC_ROC、AUC_PR整體上正負(fù)樣本比為100∶1和10∶1的數(shù)據(jù)集的分類(lèi)效果更好。Lendingclub、HomeEquity和German數(shù)據(jù)集在正負(fù)樣本比為10∶1的時(shí)候分類(lèi)效果最佳,ATEC數(shù)據(jù)集在正負(fù)樣本比為100∶1的時(shí)候分類(lèi)效果最佳。對(duì)于不平衡的交易數(shù)據(jù)樣本的分類(lèi),少數(shù)類(lèi)的采樣比例應(yīng)該是稍低于或者接近于多數(shù)類(lèi)樣本,而盡量不超過(guò)多數(shù)類(lèi)樣本數(shù)。因?yàn)閷?duì)少數(shù)類(lèi)樣本進(jìn)行重采樣過(guò)多,重采樣的不確定性會(huì)使數(shù)據(jù)集偏離真實(shí)數(shù)據(jù)的分布,進(jìn)而干擾分類(lèi)器的分類(lèi)效果。
2) 在Brier指標(biāo)上,LG和ADAB分類(lèi)器在正負(fù)樣本比為1∶100時(shí)效果最好。XGB分類(lèi)器在正負(fù)樣本比1∶1和100∶1時(shí)效果最好??梢钥偨Y(jié)出XGB分類(lèi)器處理負(fù)樣本比例較低的數(shù)據(jù)集的效果更好,更適合處理交易欺詐數(shù)據(jù)。
綜上,可以得出:a) 通過(guò)生成數(shù)據(jù)質(zhì)量實(shí)驗(yàn)分析可以看出,KGC-WGAN模型生成的交易數(shù)據(jù)能夠較好地?cái)M合原始交易數(shù)據(jù),但是對(duì)于復(fù)雜分布的數(shù)據(jù)的生成質(zhì)量還有提升的空間;b) 通過(guò)重采樣后分類(lèi)對(duì)比分析,可以總結(jié)出KGC-WGAN在一定程度上解決了原始數(shù)據(jù)不平衡對(duì)分類(lèi)結(jié)果的影響,并且在整體效果上優(yōu)于其他算法;c) 通過(guò)不同采樣比分析的結(jié)果可以看出樣本的平衡性在一定程度上影響了分類(lèi)器效果,總體上是欺詐樣本比例稍低于正常樣本比例的時(shí)候,分類(lèi)效果最佳。
針對(duì)在線(xiàn)交易數(shù)據(jù)的不平衡問(wèn)題對(duì)欺詐檢測(cè)的影響,提出了一種基于特征優(yōu)化生成對(duì)抗網(wǎng)絡(luò)的在線(xiàn)交易反欺詐方法。該方法利用KGC-WGAN生成少數(shù)類(lèi)數(shù)據(jù)對(duì)原始數(shù)據(jù)進(jìn)行平衡處理,在生成數(shù)據(jù)時(shí)加入Key特征提高生成數(shù)據(jù)的質(zhì)量以及后續(xù)訓(xùn)練的穩(wěn)定性,利用Gumble-softmax技巧解決交易數(shù)據(jù)中類(lèi)別數(shù)據(jù)的生成梯度消失問(wèn)題。實(shí)驗(yàn)結(jié)果表明該方法有效改善了原始數(shù)據(jù)的不平衡問(wèn)題,減小了數(shù)據(jù)不平衡性對(duì)分類(lèi)器預(yù)測(cè)能力的影響,并且整體效果優(yōu)于其他對(duì)比。今后的研究方向是提高復(fù)雜分布數(shù)據(jù)的生成質(zhì)量,提高本文方法的適用范圍。