鄧 柙, 呂王勇,2*, 代 娟, 陳 雯, 李思奇
(1. 四川師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 四川 成都 610066;2. 四川師范大學(xué) 可視化計(jì)算與虛擬現(xiàn)實(shí)四川省重點(diǎn)實(shí)驗(yàn)室, 四川 成都 610066)
隨著信息技術(shù)的快速發(fā)展,各領(lǐng)域數(shù)據(jù)處理的需求正以前所未有的速度增長(zhǎng).數(shù)據(jù)分類作為一種基礎(chǔ)的數(shù)據(jù)處理方法,已廣泛應(yīng)用于數(shù)據(jù)的智能化處理.人工神經(jīng)網(wǎng)絡(luò)(artificial neural network)簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)[1-2],作為一種基礎(chǔ)的數(shù)據(jù)分類方法,一直以來(lái)都深受研究者青睞.它是由網(wǎng)絡(luò)節(jié)點(diǎn)相互連接而構(gòu)成,并模仿人腦工作的模型.神經(jīng)網(wǎng)絡(luò)實(shí)質(zhì)上是一個(gè)數(shù)學(xué)計(jì)算模型,是由彼此連接的節(jié)點(diǎn)、網(wǎng)絡(luò)包含的激勵(lì)函數(shù)以及節(jié)點(diǎn)間的連接權(quán)值而構(gòu)成,并采用上述結(jié)構(gòu)模擬人腦工作[3],從而解決實(shí)際問(wèn)題[4].20世紀(jì)末期,研究者們給出多層神經(jīng)網(wǎng)絡(luò)及誤差逆向傳播算法[5],并提出BP神經(jīng)網(wǎng)絡(luò)模型這一目前人工神經(jīng)網(wǎng)絡(luò)應(yīng)用最為廣泛的一種網(wǎng)絡(luò)模型,已成功應(yīng)用于模式識(shí)別、生物信息處理、決策支持等領(lǐng)域[6-7].
自1986年,Rumelhart等[7]提出BP神經(jīng)網(wǎng)絡(luò)模型以來(lái),作為一種新的學(xué)習(xí)理論,BP神經(jīng)網(wǎng)絡(luò)引起了眾多科研人員的研究興趣,已成為機(jī)器學(xué)習(xí)領(lǐng)域及數(shù)據(jù)分類的研究熱點(diǎn).研究者們根據(jù)BP神經(jīng)網(wǎng)絡(luò)的種種優(yōu)點(diǎn)和缺點(diǎn)并結(jié)合其他專業(yè)知識(shí)進(jìn)行擴(kuò)展研究,提出了許多擴(kuò)展的BP神經(jīng)網(wǎng)絡(luò)分類模型[8-17].大多數(shù)BP神經(jīng)網(wǎng)絡(luò)分類模型是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的分類模型,使期望模型在訓(xùn)練集的分類錯(cuò)誤率盡可能低,但都是適用于數(shù)據(jù)是平衡的或給定相等的錯(cuò)誤分類代價(jià),而這會(huì)造成少數(shù)類中的樣本被大量誤分,從而造成分類器對(duì)少數(shù)類識(shí)別性能的下降.而現(xiàn)實(shí)中的數(shù)據(jù)通常具有不平衡特性,即某一類的樣本數(shù)量要遠(yuǎn)遠(yuǎn)少于其他類的樣本數(shù)量,且少數(shù)類具有更高錯(cuò)分代價(jià).因此,采用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型時(shí),數(shù)據(jù)的失衡往往造成分類面的偏倚,導(dǎo)致難以得到令人滿意的分類效果.現(xiàn)今國(guó)內(nèi)外學(xué)者相繼提出了多種用于解決類不平衡問(wèn)題的方法[18-20],不少學(xué)者也基于神經(jīng)網(wǎng)絡(luò)提出一系列處理不平衡數(shù)據(jù)的分類模型,能夠提高模型對(duì)少數(shù)類樣本的識(shí)別率.文獻(xiàn)[21]提出了一種融合CNN(卷積神經(jīng)網(wǎng)絡(luò))和EWC算法的不平衡文本情緒分類方法,該方法在不平衡文本情緒分類上的準(zhǔn)確率和G-mean測(cè)度較優(yōu)于其他算法;文獻(xiàn)[22]通過(guò)對(duì)現(xiàn)有不平衡數(shù)據(jù)處理方法進(jìn)行分析,結(jié)合神經(jīng)網(wǎng)絡(luò)和模糊推理系統(tǒng),提出基于數(shù)據(jù)和算法層面的混合式不平衡數(shù)據(jù)處理算法,該算法在解決了數(shù)據(jù)不平衡問(wèn)題的同時(shí),還提升了分類器對(duì)少數(shù)類的分類效果與整體分類準(zhǔn)確度;文獻(xiàn)[23]針對(duì)機(jī)械設(shè)備實(shí)際工作過(guò)程中正常樣本豐富、故障樣本匱乏的問(wèn)題,提出一種代價(jià)敏感卷積神經(jīng)網(wǎng)絡(luò)模型,該方法對(duì)不平衡數(shù)據(jù)集中的少數(shù)類樣本識(shí)別率相對(duì)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)提升了22%以上;文獻(xiàn)[24]通過(guò)數(shù)據(jù)、算法、特征3個(gè)層面提出了一種基于蒙特卡洛神經(jīng)網(wǎng)絡(luò)的不平衡分類算法,解決了不平衡分類的過(guò)擬合、類別不平衡、特征冗余等問(wèn)題,不但整體分類性能更好,而且能顯著提高少數(shù)類樣本的分類性能,具有重要的現(xiàn)實(shí)意義;不少研究也通過(guò)將神經(jīng)網(wǎng)絡(luò)中的極限學(xué)習(xí)機(jī)進(jìn)行加權(quán)處理用于處理不平衡分類問(wèn)題[25-28],如文獻(xiàn)[27]充分討論了數(shù)據(jù)分布特性對(duì)分類器的影響與極限學(xué)習(xí)機(jī)思想,提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)分布的加權(quán)極限學(xué)習(xí)機(jī),針對(duì)不平衡分類問(wèn)題,該算法不僅在整體分類精度和對(duì)少數(shù)類識(shí)別率上更高,還同時(shí)結(jié)合了CNN對(duì)特征提取的優(yōu)點(diǎn)和ELM訓(xùn)練速度快、分類精度高的優(yōu)點(diǎn).但是以上模型都沒有考慮通過(guò)數(shù)據(jù)的先驗(yàn)信息對(duì)神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)進(jìn)行加權(quán),來(lái)解決不平衡分類問(wèn)題.本文主要針對(duì)大數(shù)據(jù)分類中各類規(guī)模差異較大導(dǎo)致的分類精度不高的問(wèn)題,基于代價(jià)敏感學(xué)習(xí)的思想并結(jié)合數(shù)據(jù)的先驗(yàn)信息,提出一種基于先驗(yàn)概率的加權(quán)方法,通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)中的目標(biāo)函數(shù)進(jìn)行加權(quán),增強(qiáng)對(duì)稀有少數(shù)類的敏感代價(jià)學(xué)習(xí),使得改進(jìn)后的神經(jīng)網(wǎng)絡(luò)分類器能夠提高對(duì)較小類別的正確識(shí)別率.
人工神經(jīng)網(wǎng)絡(luò)通過(guò)模仿人腦神經(jīng)系統(tǒng)的工作流程,從而完成對(duì)輸入信息進(jìn)行快速處理.神經(jīng)網(wǎng)絡(luò)通過(guò)全連通的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、訓(xùn)練參數(shù)、連接權(quán)值及訓(xùn)練算法等,實(shí)現(xiàn)對(duì)實(shí)際問(wèn)題的處理或者完成某些功能.BP神經(jīng)網(wǎng)絡(luò)是基于誤差反向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò),具有良好的非線性映射能力、泛化和容錯(cuò)能力,是目前人工神經(jīng)網(wǎng)絡(luò)應(yīng)用最為廣泛的一種網(wǎng)絡(luò).BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)是有監(jiān)督的,整個(gè)網(wǎng)絡(luò)的迭代由2個(gè)部分組成,分別為“前向傳播”和“后向傳播”.當(dāng)輸入訓(xùn)練樣本后,網(wǎng)絡(luò)不斷將實(shí)際輸出與目標(biāo)輸出進(jìn)行對(duì)比,同時(shí)進(jìn)行誤差計(jì)算,并按照訓(xùn)練算法例如梯度下降法對(duì)網(wǎng)絡(luò)的參數(shù)不斷進(jìn)行修正,使其實(shí)際輸出不斷接近目標(biāo)輸出.網(wǎng)絡(luò)按照上述過(guò)程不停地循環(huán)訓(xùn)練,通過(guò)迭代不斷更新權(quán)重和偏置,使得目標(biāo)函數(shù)值向預(yù)期值靠攏,從而得到較為精確的實(shí)際輸出.
神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱含層(隱含層可以有多層)和輸出層構(gòu)成,如圖1所示.
圖 1 神經(jīng)網(wǎng)絡(luò)
1) 前向傳播.從輸入層到隱藏層:
j=1,2,…,num(1).
(1)
隱藏層之間:
l=2,3,…,m-1, j=1,2,…,num(l).
(2)
從隱藏層到輸出層:
j=1,2,…,num(m).
(3)
2) 后向傳播.在經(jīng)典神經(jīng)網(wǎng)絡(luò)中,常常采用梯度下降法對(duì)參數(shù)進(jìn)行最小二乘估計(jì),目標(biāo)函數(shù)為殘差平方和
(4)
但是經(jīng)典神經(jīng)網(wǎng)絡(luò)都是傾向于假設(shè)數(shù)據(jù)是平衡的,若訓(xùn)練集X中的類別數(shù)是不平衡的,即某一種類別數(shù)的樣本量要遠(yuǎn)遠(yuǎn)小于其他類別的樣本數(shù),此時(shí)經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法就不再適用.其實(shí)可以看到當(dāng)存在不平衡分類問(wèn)題時(shí),這時(shí)一般的目標(biāo)函數(shù)(殘差平方和)即(4)式就不能準(zhǔn)確地反應(yīng)分類器的好壞.現(xiàn)假設(shè)訓(xùn)練集X共有N=100個(gè)樣本,共有類別數(shù)t=2個(gè),其中有1類樣本90個(gè),0類樣本10個(gè).若出現(xiàn)以下2種情況:1) 分類器A把所有的測(cè)試樣本都分成了1類,則分類器A的殘差平方和為10;2) 分類器B把1類的90個(gè)樣本中85個(gè)分為1類,0類的10個(gè)樣本中5個(gè)分為0類,分類器B的殘差平方和也為10,但顯然分類器A的效用遠(yuǎn)不如分類器B.此時(shí)目標(biāo)函數(shù)(4)式已經(jīng)不能準(zhǔn)確地反映分類器的好壞,出現(xiàn)這種情況是因?yàn)樵谀繕?biāo)函數(shù)中,算法給定了大類樣本和稀有少數(shù)類樣本相等的錯(cuò)誤分類代價(jià),這樣會(huì)造成少數(shù)類中的樣本被大量誤分.
本文基于代價(jià)敏感學(xué)習(xí)的思想,希望改進(jìn)目標(biāo)函數(shù)增強(qiáng)對(duì)稀有少數(shù)類的敏感代價(jià)學(xué)習(xí).那如何改進(jìn)呢?可以看到各類別的先驗(yàn)信息存在較大的差異,即樣本不同類之間的數(shù)量相差較大,為解決此類問(wèn)題,本文考慮利用各類別的先驗(yàn)概率對(duì)神經(jīng)網(wǎng)絡(luò)中的(4)式目標(biāo)損失函數(shù)進(jìn)行加權(quán).如對(duì)于0類樣本,其樣本數(shù)為10,占總的訓(xùn)練樣本的1/10,即0類的先驗(yàn)概率為1/10,取其倒數(shù)即為10,將其倒數(shù)10加入到神經(jīng)網(wǎng)絡(luò)中的目標(biāo)損失函數(shù),當(dāng)網(wǎng)絡(luò)對(duì)少類樣本進(jìn)行網(wǎng)絡(luò)迭代時(shí),讓此時(shí)的目標(biāo)函數(shù)值增加10倍,從而提高對(duì)稀有少數(shù)類別的代價(jià)敏感學(xué)習(xí),從而增強(qiáng)對(duì)少數(shù)類別的識(shí)別.
3.1 加權(quán)目標(biāo)函數(shù)先驗(yàn)概率是指根據(jù)以往經(jīng)驗(yàn)和分析得到的概率,例如拋硬幣,大家都認(rèn)為正面朝上的概率是0.5,這就是一種先驗(yàn)概率.先驗(yàn)概率反應(yīng)了原始數(shù)據(jù)中包含的各類別的基本信息,在分類問(wèn)題中可取某類的先驗(yàn)概率為該類別樣本數(shù)所占總樣本數(shù)的比例.先驗(yàn)概率確定以后,接下來(lái)對(duì)目標(biāo)函數(shù)進(jìn)行加權(quán).在實(shí)際案例中,很多時(shí)候要求分類器更關(guān)注一個(gè)類別,即盡可能地將這個(gè)類別判對(duì),此時(shí)只需要對(duì)單個(gè)類別加權(quán).若要對(duì)第i類進(jìn)行加權(quán),設(shè)該類樣本共有Ni個(gè),則對(duì)于訓(xùn)練樣本中的第k個(gè)樣本,通過(guò)先驗(yàn)概率定義權(quán)重
(5)
其中
表示第i類的先驗(yàn)概率,即該類樣本數(shù)占訓(xùn)練樣本總數(shù)的比例.
(6)
(7)
類似于對(duì)單個(gè)類別加權(quán),考慮多個(gè)類別數(shù)據(jù)規(guī)模對(duì)分類結(jié)果的影響,此時(shí)類別數(shù)也設(shè)為m個(gè),對(duì)于訓(xùn)練樣本中的第k個(gè)樣本,利用先驗(yàn)概率定義權(quán)值為
W=W1W2…Wm=
(8)
其中若該樣本k是屬于第m類,則
Tm(k)=1,
T1(k)=T2(k)=…=Tm-1(k)=0,
此時(shí)權(quán)值
W=W1W2…Wm=
這樣就可以對(duì)屬于m類的樣本進(jìn)行加權(quán),進(jìn)而對(duì)于屬于不同類的樣本都可以進(jìn)行相應(yīng)的加權(quán).將(8)式代入目標(biāo)函數(shù)(4)式中,對(duì)于N個(gè)樣本,可以構(gòu)造新的目標(biāo)函數(shù)為
(9)
3.2 基于先驗(yàn)概率加權(quán)神經(jīng)網(wǎng)絡(luò)的權(quán)值和偏置的迭代過(guò)程基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)的前向傳播過(guò)程與經(jīng)典神經(jīng)網(wǎng)絡(luò)的是一樣的,在前面已經(jīng)介紹過(guò),下面給出基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)的后向傳播過(guò)程推導(dǎo).
對(duì)于第k個(gè)樣本,則對(duì)于該樣本的目標(biāo)函數(shù)為
激活函數(shù)采用sigmoid函數(shù),神經(jīng)網(wǎng)絡(luò)的輸出值僅與輸入值、權(quán)值以及偏置有關(guān).后向傳播的目的為調(diào)整權(quán)重和偏置,采用梯度下降法對(duì)其更新,過(guò)程推導(dǎo)如下:
(10)
(11)
(12)
當(dāng)l=1,2,…,m-1時(shí),有
(13)
3.3 基于先驗(yàn)概率加權(quán)的神經(jīng)網(wǎng)絡(luò)算法步驟
輸入:訓(xùn)練數(shù)據(jù)集X.
輸出:訓(xùn)練后的BP神經(jīng)網(wǎng)絡(luò).
步驟1:初始化BP神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)個(gè)數(shù)、網(wǎng)絡(luò)參數(shù)、權(quán)值與偏置、最大訓(xùn)練次數(shù)等,并根據(jù)訓(xùn)練樣本得到小類別的先驗(yàn)概率,按照上述方法加入目標(biāo)函數(shù)中,從而構(gòu)建新的目標(biāo)函數(shù).
步驟2:將樣本輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到實(shí)際輸出.
步驟3:計(jì)算網(wǎng)絡(luò)誤差,并將當(dāng)前訓(xùn)練次數(shù)加1.
步驟4:當(dāng)訓(xùn)練次數(shù)達(dá)到最大,或誤差E小于目標(biāo)函數(shù)誤差,網(wǎng)絡(luò)則停止訓(xùn)練,算法結(jié)束;否則,轉(zhuǎn)至步驟5.
步驟5:計(jì)算網(wǎng)絡(luò)誤差即目標(biāo)函數(shù)值,利用上述公式調(diào)整權(quán)值與偏置,并轉(zhuǎn)至步驟2.
本文將提出的基于先驗(yàn)概率加權(quán)的神經(jīng)網(wǎng)絡(luò)算法與經(jīng)典神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于不平衡數(shù)據(jù)分類問(wèn)題中進(jìn)行性能分析和比較,并驗(yàn)證提出算法的有效性和實(shí)用性.
在實(shí)驗(yàn)中,取其小類別樣本占所有樣本的比例作為先驗(yàn)概率值,采用梯度下降法去調(diào)整權(quán)值和偏置,激活函數(shù)采用sigmoid函數(shù),最大訓(xùn)練次數(shù)都設(shè)為20 000次.此外,考慮到在不平衡分類問(wèn)題中,整體分類精度不能反映分類器的真實(shí)性能.因此,采用G-mean測(cè)度作為分類性能的另一個(gè)量度,其計(jì)算公式為
(14)
其中,Acc+與Acc-分別代表少數(shù)類與多數(shù)類樣本的分類精度,因此,G-mean測(cè)度測(cè)試的是2類樣本分類精度的平衡度.
本文分類數(shù)據(jù)選用銀行違約數(shù)據(jù)Defalt和UCI經(jīng)典二分類數(shù)據(jù)集中的Credit數(shù)據(jù)集,具體信息如表1所示.
表 1 數(shù)據(jù)信息
4.1 實(shí)驗(yàn)1:Defalt數(shù)據(jù)分類銀行違約數(shù)據(jù)集Defalt通過(guò)數(shù)據(jù)中的信用卡余額(balance)、收入(income)以及是否為學(xué)生(student)3個(gè)變量建立神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行分類,判斷是否違約.該數(shù)據(jù)共有10 000個(gè)樣本,將樣本按照是否違約分為2類,其中違約樣本只有333個(gè)為小類別,則該小類別大概占樣本的1/30,可取其目標(biāo)函數(shù)中的權(quán)重為30,不違約樣本類別的權(quán)重依然取為1.得到目標(biāo)函數(shù)權(quán)重之后,將訓(xùn)練樣本分別帶入經(jīng)典神經(jīng)網(wǎng)絡(luò)和基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)2種算法中,從而建立網(wǎng)絡(luò),并分別用測(cè)試樣本的結(jié)果進(jìn)行比較.得到多次神經(jīng)網(wǎng)絡(luò)后的整體分類精度和G-mean測(cè)度的平均值結(jié)果如表2~5所示.
表 2 2種算法在Defalt數(shù)據(jù)集上的比較
表 3 經(jīng)典神經(jīng)網(wǎng)絡(luò)的一次具體分類結(jié)果
表 4 加權(quán)神經(jīng)網(wǎng)絡(luò)的一次具體分類結(jié)果
表 5 2種算法在Credit數(shù)據(jù)集上的比較
由表2可知,基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本中的整體分類精度和G-mean測(cè)度的平均值都優(yōu)于經(jīng)典神經(jīng)網(wǎng)絡(luò)的;而在測(cè)試樣本中,雖然經(jīng)典神經(jīng)網(wǎng)絡(luò)的分類精度是優(yōu)于加權(quán)神經(jīng)網(wǎng)絡(luò)的,但是2類樣本分類精度的平衡度(即G-mean測(cè)度值)是很差的,說(shuō)明經(jīng)典神經(jīng)網(wǎng)絡(luò)對(duì)于少數(shù)類別樣本的識(shí)別不夠精確,而加權(quán)神經(jīng)網(wǎng)絡(luò)則大大優(yōu)化了這一點(diǎn).圖2和3是其中一次具體分類結(jié)果以及相應(yīng)的ROC曲線.由表2~5及圖2和3可知,基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本中對(duì)類別較少的樣本的識(shí)別率可以達(dá)到100%;而在測(cè)試樣本中,雖然犧牲了一定的整體分類精度,但是能在一定程度上增強(qiáng)對(duì)稀有類樣本的識(shí)別,并且從各自的ROC曲線也能看出,加權(quán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本上的AUC值能夠達(dá)到1,并且其后測(cè)試樣本的ROC曲線的AUC值也是較優(yōu)于經(jīng)典神經(jīng)網(wǎng)絡(luò)的.
圖 2 經(jīng)典神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本和測(cè)試樣本的ROC曲線
圖 3 加權(quán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本和測(cè)試樣本的ROC曲線
4.2 實(shí)驗(yàn)2:Credit數(shù)據(jù)分類對(duì)于Credit數(shù)據(jù)集的處理類似于違約數(shù)據(jù),數(shù)據(jù)共有1 000個(gè)樣本,其中一類樣本700個(gè),取目標(biāo)函數(shù)中該類別的權(quán)重為1;另一類較少樣本300個(gè),占總數(shù)的1/3,取該類別的權(quán)重為3.通過(guò)權(quán)值構(gòu)造目標(biāo)函數(shù)后,將訓(xùn)練樣本分別帶入經(jīng)典神經(jīng)網(wǎng)絡(luò)和基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)2種算法中建立網(wǎng)絡(luò),并分別用測(cè)試樣本的結(jié)果進(jìn)行比較,得到多次神經(jīng)網(wǎng)絡(luò)后的整體分類精度和G-mean測(cè)度的平均值結(jié)果如表6和7所示.
表 6 經(jīng)典神經(jīng)網(wǎng)絡(luò)的一次具體分類結(jié)果
表 7 加權(quán)神經(jīng)網(wǎng)絡(luò)的一次具體分類結(jié)果
實(shí)驗(yàn)2的結(jié)果與實(shí)驗(yàn)1類似,基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本上的分類精度和G-mean測(cè)度都是要優(yōu)于經(jīng)典神經(jīng)網(wǎng)絡(luò)的;測(cè)試樣本上雖然分類精度較低于經(jīng)典神經(jīng)網(wǎng)絡(luò),但G-mean測(cè)度較好,說(shuō)明改進(jìn)的加權(quán)神經(jīng)網(wǎng)絡(luò)能夠增強(qiáng)對(duì)稀有少數(shù)類樣本的識(shí)別.圖4和5是其中一次具體分類結(jié)果以及相應(yīng)的ROC曲線.
由表6和7及圖4和5的一次具體分類結(jié)果以及相應(yīng)的ROC曲線和AUC值可知,不管是在訓(xùn)練樣本還是測(cè)試樣本上,基于先驗(yàn)概率加權(quán)的神經(jīng)網(wǎng)絡(luò)對(duì)于稀有少數(shù)類別的樣本的識(shí)別率都是優(yōu)于經(jīng)典神經(jīng)網(wǎng)絡(luò)的,可以減少對(duì)少數(shù)類別的錯(cuò)分代價(jià).
圖 4 經(jīng)典神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本和測(cè)試樣本的ROC曲線
圖 5 加權(quán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本和測(cè)試樣本的ROC曲線
本文基于代價(jià)敏感學(xué)習(xí)的思想,利用樣本先驗(yàn)概率通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)目標(biāo)函數(shù)的加權(quán)構(gòu)造,提出了基于先驗(yàn)概率的加權(quán)神經(jīng)網(wǎng)絡(luò)模型.此模型優(yōu)化了經(jīng)典神經(jīng)網(wǎng)絡(luò)在不平衡數(shù)據(jù)中對(duì)于少數(shù)稀有類別的分類識(shí)別,克服了各類規(guī)模差異較大對(duì)分類器的影響.最后通過(guò)2種神經(jīng)網(wǎng)絡(luò)在真實(shí)數(shù)據(jù)上的對(duì)比測(cè)試,驗(yàn)證了改進(jìn)模型的有效性和實(shí)用性,具有一定的潛在應(yīng)用價(jià)值.