蘇志同 李 楊
(北方工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 北京 100144)
?
改進(jìn)的增量貝葉斯模型的研究
蘇志同李楊
(北方工業(yè)大學(xué)計(jì)算機(jī)學(xué)院北京 100144)
傳統(tǒng)分類算法的研究主要關(guān)注批量學(xué)習(xí)任務(wù)。實(shí)際中,帶標(biāo)注樣本很難一次性獲得。且存儲(chǔ)空間開銷較大的特點(diǎn),也使批量學(xué)習(xí)顯現(xiàn)出一定的局限性。因此,需要增量學(xué)習(xí)來解決該問題。樸素貝葉斯分類器簡單、高效、魯棒性強(qiáng),且貝葉斯估計(jì)理論為其應(yīng)用于增量任務(wù)提供了基礎(chǔ)。但現(xiàn)有的增量貝葉斯模型沒有對(duì)適應(yīng)新類別作出描述。同時(shí),實(shí)驗(yàn)表明類別之間樣本數(shù)量的不平衡,會(huì)嚴(yán)重影響該模型的分類性能。故基于這兩個(gè)問題,提出對(duì)增量貝葉斯模型的改進(jìn),增加參數(shù)修正公式,使其可適應(yīng)新出現(xiàn)的類別,并引入最小風(fēng)險(xiǎn)決策思想減輕數(shù)據(jù)不平衡造成的影響。取UCI數(shù)據(jù)集進(jìn)行仿真測試,結(jié)果表明改進(jìn)后的模型可以漸進(jìn)提高分類性能,并具有適應(yīng)新類別的能力。
機(jī)器學(xué)習(xí)樸素貝葉斯增量學(xué)習(xí)最小化風(fēng)險(xiǎn)
分類問題的研究是監(jiān)督學(xué)習(xí)研究的核心任務(wù)之一??梢詫⒎诸惷枋鰹楦鶕?jù)已知數(shù)據(jù)集,建立分類器(決策函數(shù)或概率模型),再利用分類器判斷未知樣本類別的過程。建立分類器過程,稱為學(xué)習(xí)。而利用分類器判斷的過程,稱為預(yù)測。依據(jù)樣本獲得過程與模型學(xué)習(xí)過程的具體特點(diǎn),學(xué)習(xí)任務(wù)可分為批量學(xué)習(xí)任務(wù)與增量學(xué)習(xí)任務(wù)[1]。Giraud-Carrier指出,增量學(xué)習(xí)任務(wù)具有樣本隨時(shí)間獲得,并且學(xué)習(xí)過程需持續(xù)進(jìn)行的特點(diǎn)。而傳統(tǒng)機(jī)器學(xué)習(xí)算法的研究假設(shè)訓(xùn)練集可以一次性獲得,一旦訓(xùn)練集被充分處理后,學(xué)習(xí)就結(jié)束了。所獲得的模型僅僅用于對(duì)新實(shí)例的預(yù)測。雖然對(duì)批量學(xué)習(xí)算法稍做修改,所得暫時(shí)批量學(xué)習(xí)算法[2]可應(yīng)用于增量任務(wù),但是要存儲(chǔ)已學(xué)習(xí)過的樣本,用重新訓(xùn)練的方式更新模型,這增加了額外的時(shí)空開銷。與此方法相比,Polikar[3]面向監(jiān)督學(xué)習(xí)任務(wù),定義增量學(xué)習(xí)算法應(yīng)當(dāng)滿足從新數(shù)據(jù)中學(xué)習(xí)新的知識(shí),不需要訪問當(dāng)前分類器學(xué)習(xí)過的數(shù)據(jù),僅保存當(dāng)前所獲得的知識(shí),可以適應(yīng)具有新的類別標(biāo)記的樣本?;谶@種思想,Polikar等人提出了一種針對(duì)有監(jiān)督任務(wù)的增量學(xué)習(xí)算法Learn++,增量地訓(xùn)練多層感知機(jī)(MLP),并將之運(yùn)用于分類任務(wù)中。對(duì)UCI的部分?jǐn)?shù)據(jù)集及一些現(xiàn)實(shí)數(shù)據(jù)進(jìn)行仿真測試,證明算法使得多層感知機(jī)的分類性能隨著訓(xùn)練數(shù)據(jù)的增加得以提高,且成功適應(yīng)了新引入的類別。此后,在傳統(tǒng)算法基礎(chǔ)上,前人提出了很多增量算法。從所獲得的模型角度來看,一些算法以較少的時(shí)空代價(jià),對(duì)多個(gè)訓(xùn)練子集進(jìn)行增量學(xué)習(xí),從而獲得與在全部訓(xùn)練集進(jìn)行批量訓(xùn)練近似的模型,進(jìn)而達(dá)到近似的分類效果。如支持向量機(jī)(SVM) 的增量版本[4-6]及增量決策樹ID4[7]。另一類算法則是,可以獲得與批量學(xué)習(xí)相同的模型,如增量決策樹ID5R[8]。從Polikar等所定義的增量學(xué)習(xí)所滿足的條件來看,除針對(duì)新樣本數(shù)據(jù)進(jìn)行增量學(xué)習(xí)外,還可以學(xué)習(xí)新的樣本類別,如Jia H等人提出的SVM的類別增量學(xué)習(xí)算法[10]。
因此,可以認(rèn)為增量任務(wù)分為對(duì)數(shù)據(jù)或樣本的增量學(xué)習(xí)和對(duì)新引入類別的增量學(xué)習(xí)。樸素貝葉斯模型以其很好的魯棒性與分類精度[11]成為處理分類任務(wù)重要模型。而貝葉斯參數(shù)估計(jì)理論為其能夠在連續(xù)學(xué)習(xí)的過程中,利用樣本信息修正當(dāng)前模型提供了的理論依據(jù)。宮秀軍等人對(duì)基于貝葉斯理論的增量學(xué)習(xí)進(jìn)行了詳細(xì)論證,并給出了完整的增量貝葉斯分類模型[9]。隨后,在諸多場景下都得以應(yīng)用,如病毒上報(bào)分析的應(yīng)用[12]與中文問句分類[13]等。雖然增量貝葉斯分類模型的提出很好地解決了在類別平衡的數(shù)據(jù)集上,對(duì)樣本的增量學(xué)習(xí)。但是該模型存在兩點(diǎn)不足。其一,該模型并沒有對(duì)新出現(xiàn)的類別增量予以描述。其二,并非從所有領(lǐng)域中收集而來的訓(xùn)練集都是類別平衡的。在不平衡數(shù)據(jù)集中,往往一些類別被大量的樣本過度的表達(dá)。相反代表另一些類別的樣本數(shù)量卻很少。從而導(dǎo)致分類器不能識(shí)別少數(shù)樣本所代表的類別。故本文在其基礎(chǔ)之上,基于貝葉斯估計(jì)方法對(duì)增量貝葉斯模型進(jìn)行擴(kuò)展,實(shí)現(xiàn)對(duì)新類別適應(yīng)。并提出一種代價(jià)函數(shù)使之結(jié)合最小化風(fēng)險(xiǎn)決策,從而克服從不平衡數(shù)據(jù)集學(xué)習(xí)分類器的問題。
表1 類別分布律
此分布中存在m-1個(gè)參數(shù),記為ξ=(ξ1,ξ2,…,ξm-1)。將訓(xùn)練集中的樣本視為n次獨(dú)立實(shí)驗(yàn)的觀測結(jié)果,則其似然函數(shù)可表示為式(1):
(1)
其中:ui為樣本集中類別yj出現(xiàn)的次數(shù),且∑ui=n。
貝葉斯參數(shù)估計(jì)方法需要將所估計(jì)的參數(shù)看作隨機(jī)變量,假設(shè)已經(jīng)掌握了關(guān)于ξ的先驗(yàn)k0,所以假設(shè)在事先得知ξ的先驗(yàn)分布為p(ξ|k0)。通過獲得的樣本x1,x2,…,xn計(jì)算后驗(yàn)分布p(ξ|k0,x1,x2,…,xn),最終用后驗(yàn)分布下ξ的期望值作為估計(jì)結(jié)果。當(dāng)只有一個(gè)已知樣本x1時(shí),計(jì)算后驗(yàn)分布如下:
(2)
當(dāng)獲得兩個(gè)樣本x1,x2時(shí),計(jì)算后驗(yàn)分布如下:
(3)
此時(shí),ξ的先驗(yàn)分布變?yōu)閜(ξ|K0,x1),即先驗(yàn)知識(shí)由k0變?yōu)榱?K0,x1)。以此類推可得Ki+1=Ki+xi。當(dāng)樣本是連續(xù)獲得時(shí),可將當(dāng)前計(jì)算的后驗(yàn)結(jié)果作為新樣本獲得后再次進(jìn)行估計(jì)的先驗(yàn)來使用,即增量地修正估計(jì)結(jié)果。
特別地,后驗(yàn)分布與先驗(yàn)分布共軛時(shí)效果最佳。根據(jù)此問題的似然結(jié)構(gòu)應(yīng)取dirichlet分布作為參數(shù)ξ的先驗(yàn)分布。式(4)給出了其概率密度與數(shù)學(xué)期望,其中(α1,α2,…,αm)稱作超參數(shù)且α=∑αi。
=dirichlet(α1,α2,…,αm)
(4)
p(ξ|K0,x1,x2,…,xn)
=dirichlet(α1+u1,α2+u2,…,αm+um)
0≤ξ1+ξ2+…+ξm-1<1
(5)
(6)
(7)
增量貝葉斯模型的提出,從參數(shù)估計(jì)的角度,給出了增量修正模型參數(shù)方法。更重要的是,貝葉斯估計(jì)理論使得分類器僅僅通過累加操作就能應(yīng)用于增量學(xué)習(xí)任務(wù)中,實(shí)現(xiàn)了隨樣本的獲得而動(dòng)態(tài)修正模型參數(shù),并最終獲得與樸素貝葉斯在完整數(shù)據(jù)集進(jìn)行批量學(xué)習(xí)相同的模型,從而克服了批量學(xué)習(xí)要求樣本一次性獲得的問題。
前人提出的增量貝葉斯模型屬于數(shù)據(jù)增量的范疇,用于不能一次性獲得全部訓(xùn)練數(shù)據(jù)的場景。通過不斷學(xué)習(xí)新產(chǎn)生的樣本修正當(dāng)前模型,從而改善預(yù)測性能。所以在式(7)中看到,對(duì)新引入類別,該如何處理,并沒有給出描述。對(duì)于新出現(xiàn)類別進(jìn)行增量學(xué)習(xí),使得分類模型隨著這種樣本的不斷出現(xiàn)而逐漸學(xué)習(xí)這個(gè)類別的知識(shí),最終實(shí)現(xiàn)對(duì)此類別的識(shí)別,在一些實(shí)際問題中是重要的。因?yàn)樵趯W(xué)習(xí)過程中數(shù)據(jù)是隨時(shí)間產(chǎn)生的,很難保證每次產(chǎn)生的增量集都包含所有類別的樣本。在復(fù)雜系統(tǒng)中,重新訓(xùn)練模型的代價(jià)有時(shí)是難以接受的。如文獻(xiàn)[16]所描述的生物圖像數(shù)據(jù)庫的建立,全部物種圖像不能一次性獲得的,起初的分類器并不能正確識(shí)別新的物種圖像。因此,系統(tǒng)應(yīng)當(dāng)增量的學(xué)習(xí)新類別圖像的知識(shí),而非對(duì)系統(tǒng)進(jìn)行重新訓(xùn)練。故本文基于貝葉斯估計(jì)方法,對(duì)于學(xué)習(xí)帶有新類別標(biāo)示的樣本時(shí),參數(shù)估計(jì)與模型修正公式進(jìn)行論證。并給出了修正方法的數(shù)學(xué)表達(dá)。
(8)
與此同時(shí),應(yīng)當(dāng)對(duì)模型中的其他p(Y=yi),i≠m+1參數(shù)進(jìn)行修正,如式(9):
(9)
(10)
(11)
至此,給出完整類別增量修正參數(shù)的數(shù)學(xué)表達(dá)如式(12),對(duì)帶有新類別的樣本,學(xué)習(xí)的過程就是向原有模型添加新參數(shù),并對(duì)其進(jìn)行估計(jì),再將其他相關(guān)參數(shù)進(jìn)行修正的過程。
(12)
文獻(xiàn)[9]中認(rèn)為增量學(xué)習(xí)過程中,對(duì)于增量集中的標(biāo)記數(shù)據(jù)應(yīng)當(dāng)逐漸全部學(xué)習(xí),隨后用半監(jiān)督學(xué)習(xí)方式追加一定數(shù)量的無標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,以提高分類效果。并使用精度作為衡量分類效果的標(biāo)準(zhǔn)。這種方式存在三個(gè)問題,其一,實(shí)驗(yàn)表明并非所有標(biāo)記樣本都是值得學(xué)習(xí)的,應(yīng)采取相應(yīng)的策略對(duì)待學(xué)習(xí)樣本進(jìn)行甄選。其二,其假設(shè)所使用的訓(xùn)練集中各類別被近似相同數(shù)量的樣本所代表,而在一些情況中,數(shù)據(jù)集中的類別分布是非常不平衡的[17]。最后,在數(shù)據(jù)不平衡的情況下僅僅用精度來衡量分類性能是片面的。因此,本文引入最小化風(fēng)險(xiǎn)決策的思想克服此問題,并分別從精度與召回率兩個(gè)角度進(jìn)行分析評(píng)價(jià)。
(13)
(14)
取UCI數(shù)據(jù)集中Car Evaluation對(duì)增量貝葉斯模型進(jìn)行驗(yàn)證,數(shù)據(jù)集由4種類別的1728個(gè)實(shí)例構(gòu)成,每個(gè)實(shí)例有6個(gè)特征屬性與1個(gè)類別屬性。從完整數(shù)據(jù)集中,取其中3種類別的1663個(gè)實(shí)例用來測試。隨機(jī)取出663個(gè)實(shí)例作為測試集,記為T。剩余數(shù)據(jù)共有1000個(gè)實(shí)例涵蓋3種類別,將其記為D。再將D分為5份,記為S1…S5。每個(gè)子集隨機(jī)分配200個(gè)實(shí)例 ,使用增量學(xué)習(xí)方式進(jìn)行訓(xùn)練。同時(shí),使用樸素貝葉斯在D上做批量訓(xùn)練。在測試集T上對(duì)比二者精度,實(shí)驗(yàn)結(jié)果如表2所示。
表2 精度測試結(jié)果
從結(jié)果中看出,模型精度并沒有隨著學(xué)習(xí)樣本數(shù)量的增多而提高的。相反地,模型精度呈現(xiàn)下降趨勢,直至獲得與樸素貝葉斯在全集D上批量學(xué)習(xí)相同的模型為止。單純通過學(xué)習(xí)更多的帶標(biāo)注樣本的訓(xùn)練方式,在一些情況下,會(huì)對(duì)提高模型精度起反作用。如果待學(xué)習(xí)的樣本不能改善分類器性能,那么對(duì)這些樣本的學(xué)習(xí)就會(huì)既費(fèi)時(shí)又無用。
同時(shí),由于訓(xùn)練集中樣本數(shù)量具有典型的不平衡性特點(diǎn),造成少數(shù)樣本代表的類別呈現(xiàn)不可接受的低識(shí)別率。表3列出了Car Evaluation實(shí)驗(yàn)集的類別數(shù)量比例與上述增量方法在完成全部增量學(xué)后對(duì)每個(gè)類別的召回情況。從中很直觀地反映出樣本數(shù)量傾斜所導(dǎo)致的good類別完全不識(shí)別,極大地削弱了分類器的決策價(jià)值。
表3 測試結(jié)果
對(duì)于有標(biāo)注樣本的學(xué)習(xí),文獻(xiàn)[15]中認(rèn)為被當(dāng)前分類器錯(cuò)分的樣本往往帶有更多有價(jià)值的信息,應(yīng)對(duì)優(yōu)先選擇錯(cuò)分樣本進(jìn)行學(xué)習(xí)。而對(duì)于訓(xùn)練集的不平衡性問題,從決策風(fēng)險(xiǎn)的角度來看,傳統(tǒng)貝葉斯分類器基于最大化后驗(yàn)概率進(jìn)行決策,其本質(zhì)等價(jià)于在0-1損失下最小化風(fēng)險(xiǎn)。這種決策假設(shè)所有的錯(cuò)誤決策的風(fēng)險(xiǎn)都是相同的??紤]到數(shù)據(jù)集樣本數(shù)量的不平衡性,0-1損失顯然是不合理的。故本文提出錯(cuò)分代價(jià)函數(shù)如式(15)。其中count(yi)表示當(dāng)前訓(xùn)練集中類別為yi的樣本個(gè)數(shù),0<α<1作為一種對(duì)決策錯(cuò)誤的懲罰參數(shù)。當(dāng)α<0.5時(shí),可體現(xiàn)出將訓(xùn)練集中數(shù)量少的類別被預(yù)測為數(shù)量多的類別,其代價(jià)更高。從而使得決策對(duì)數(shù)量少的類別更加關(guān)注。
(15)
進(jìn)而依據(jù)貝葉斯決策理論,此時(shí)的風(fēng)險(xiǎn)計(jì)算變?yōu)榱巳缡?16)所示。而決策也有最大化后驗(yàn)概率變?yōu)榱俗钚』L(fēng)險(xiǎn)。故決策函數(shù)也相應(yīng)調(diào)整為式(17)所示:
R(yi|x)=∑p(yj|x)·cost(yj,yi)
(16)
(17)
至此,本文提出一種改進(jìn)的增量學(xué)習(xí)算法。在進(jìn)行增量學(xué)習(xí)之前,首先,根據(jù)當(dāng)前各類別樣本的數(shù)量分布,計(jì)算代價(jià)矩陣,使用當(dāng)前模型對(duì)增量集進(jìn)行分類,獲得所有被錯(cuò)分的樣本形成集合。為了在訓(xùn)練階段盡量平衡各類別的樣本數(shù)量,采取優(yōu)先學(xué)習(xí)少數(shù)樣本代表的類信息,故將錯(cuò)分集合中樣本按其類別在訓(xùn)練集中存在的數(shù)量進(jìn)行升序排序。取出升序后的第一個(gè)樣本進(jìn)行學(xué)習(xí),更新貝葉斯模型。隨后,更新代價(jià)矩陣。再將已學(xué)樣本從增量集中刪除。重復(fù)此過程,直至增量集為空或沒有新的錯(cuò)誤樣本產(chǎn)生。算法描述如下:
增量學(xué)習(xí)算法模型建立過程:輸入:初始訓(xùn)練集D,錯(cuò)分代價(jià)參數(shù)α輸出:初始貝葉斯模型與代價(jià)矩陣?yán)肈建立貝葉斯模型M,并獲得每個(gè)類別樣本的數(shù)量存于向量ynum[]中;
通過式(15)和ynum計(jì)算代價(jià)矩陣C;增量學(xué)習(xí)過程:輸入:增量集S,錯(cuò)分代價(jià)參數(shù)α輸出:更新后的分類模型定義錯(cuò)分集合wset;do初始化錯(cuò)分集合wset為空;fori=1:|S|用當(dāng)前模型M對(duì)(xp,yp)進(jìn)行預(yù)測;將錯(cuò)分樣本xp保存于錯(cuò)誤集wset中;Endfor;將wset中的樣本按它們類別在訓(xùn)練集中存在的數(shù)量進(jìn)行升序排序;if|wset|>0 從wset中取出第一個(gè)錯(cuò)分樣本(xp,yp); ifyp?Y通過式(12)更新M,并更新ynum;再利用ynum更新代價(jià)矩陣C; 從S中刪除xp; Else通過式(7)更新M,并更新ynum;再利用ynum更新代價(jià)矩陣C; 從S中刪除xp;Elsebreak;Endif;While(|S|>0);
由于本文提出的決策風(fēng)險(xiǎn)函數(shù)中含有一個(gè)懲罰參數(shù),故現(xiàn)取UCI中的兩個(gè)不平衡程度不同的數(shù)據(jù)集驗(yàn)證本文算法,從而給出數(shù)據(jù)集不平衡程度與參數(shù)取值關(guān)系的分析。所選用的數(shù)據(jù)集信息如表4列出。從中可見,car數(shù)據(jù)集屬于嚴(yán)重不平,而Spect heart的不平衡程度較輕。
表4 數(shù)據(jù)集信息
為使得決策更傾向于少數(shù)兩樣本的類別,參數(shù)的取值應(yīng)為α∈[0,0.5],在此區(qū)間上進(jìn)行取值。按照上文的做法,將兩個(gè)數(shù)據(jù)集,都分為6份,5份用于訓(xùn)練,1份用于測試。分析不同參數(shù)取值對(duì)各類別召回率的影響,揭示二者之間的關(guān)系。圖1與圖2給出了兩個(gè)數(shù)據(jù)集各類別召回率隨參數(shù)取值的變化趨勢。
圖1參數(shù)與類別召回率的關(guān)系
圖2參數(shù)與類別召回率的關(guān)系
現(xiàn)從兩個(gè)角度對(duì)上述趨勢進(jìn)行分析。由于數(shù)據(jù)集的不平衡,決策應(yīng)更加關(guān)注少數(shù)類別。所以,原則上參數(shù)取值應(yīng)越小越好。如圖1與圖2所示,參數(shù)取值越接近0,對(duì)少數(shù)類別的召回率越接近1。但同時(shí),一旦參數(shù)取值超過一定界限,便會(huì)對(duì)原本的多數(shù)類別的識(shí)別造成影響。圖中同樣反應(yīng)出,當(dāng)少數(shù)類別的召回接近1時(shí),多數(shù)類別的識(shí)別呈下降趨勢。原因是當(dāng)決策對(duì)少數(shù)類別的傾向到一定極端程度時(shí),少數(shù)類別的樣本達(dá)到了完全識(shí)別,而錯(cuò)分集中不再包含少數(shù)的類別。在依照算法,依然錯(cuò)分樣本進(jìn)行學(xué)習(xí),不斷增加多數(shù)類別樣本的學(xué)習(xí)數(shù)量。更加加劇了決策向少數(shù)類別的傾斜。所以,最理想的參數(shù)取值應(yīng)為兩圖中,各類別召回曲線的交點(diǎn)處。其次,圖示所反映的另一種關(guān)系則是訓(xùn)練集的不平衡程度與參數(shù)的取值。理想的參數(shù)取值應(yīng)可以反映訓(xùn)練的不平衡的程度。正如car集的程度相對(duì)于Spect heart集更嚴(yán)重,故其參數(shù)取值也應(yīng)比Spect heart集的參數(shù)取值更小。
為驗(yàn)證模型與算法的有效性,取UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)分別進(jìn)行數(shù)據(jù)增量與類別增量的驗(yàn)證。并將樸素貝葉斯(NB)與本文算法進(jìn)行對(duì)比。表5列出了數(shù)據(jù)集信息。
表5 數(shù)據(jù)集信息
進(jìn)一步對(duì)上述數(shù)據(jù)進(jìn)行簡單處理,先將上述每個(gè)實(shí)驗(yàn)數(shù)據(jù)集都隨機(jī)分為兩個(gè)部分,即訓(xùn)練集與測試集。再將每個(gè)訓(xùn)練集平均分為5份為增量學(xué)習(xí)做好準(zhǔn)備,各個(gè)子集的實(shí)例隨機(jī)分配。表6描述了每個(gè)實(shí)驗(yàn)集的劃分情況。
表6 實(shí)驗(yàn)準(zhǔn)備
首先,驗(yàn)證在6個(gè)數(shù)據(jù)集上驗(yàn)證數(shù)據(jù)增量學(xué)習(xí)。為了得到更為客觀的實(shí)驗(yàn)結(jié)果,按照上述數(shù)據(jù)集劃分比例,在每個(gè)實(shí)驗(yàn)數(shù)據(jù)集上,做5次增量學(xué)習(xí)直至將完整訓(xùn)練全部學(xué)習(xí)。同時(shí),每個(gè)實(shí)驗(yàn)集,做5折交叉驗(yàn)證,交替對(duì)換訓(xùn)練集與測試集中的數(shù)據(jù),取5次驗(yàn)證的結(jié)果的均值作為結(jié)果的估計(jì),再與樸素貝葉斯在每個(gè)完整訓(xùn)練集上的5折交叉驗(yàn)證結(jié)果的均值做比對(duì)。表7則給出了精度結(jié)果的對(duì)比。
表7 精度對(duì)比
表8則列出了本文方法與樸素貝葉斯,在4個(gè)不平衡數(shù)據(jù)集上,各類別召回情況的對(duì)比。
表8 召回對(duì)比
從上述實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn),在增量學(xué)習(xí)過程中,選擇適當(dāng)?shù)臉颖具M(jìn)行學(xué)習(xí)可以逐漸提高分類器精度。同時(shí),由于風(fēng)險(xiǎn)決策的引入使得決策更加的均衡,從而克服了不平衡訓(xùn)練的帶來的影響。
再次取涵蓋4個(gè)類別的完整car數(shù)據(jù)集,進(jìn)行類別增量學(xué)習(xí)的驗(yàn)證。仍然將此數(shù)據(jù)集劃分為兩個(gè)部分,即訓(xùn)練集與測試集。其中,訓(xùn)練集實(shí)例個(gè)數(shù)為1000,而測試集實(shí)例個(gè)數(shù)為728,涵蓋全部4給類別。同樣將訓(xùn)練集劃分為5個(gè)增量子集,將其記為S1,…,S5,而測試集記為T。S1至S2僅僅包含unacc與acc兩個(gè)類別的實(shí)例。S3至S4包含unacc、acc與good三個(gè)類別的實(shí)例。S5則包含全部4個(gè)類別的訓(xùn)練實(shí)例。表9給出了5次增量訓(xùn)練,在每一次學(xué)習(xí)后,測試精度的變化。
表9 類別適應(yīng)
表9中的結(jié)果反映出在增量集S1至S2階段,分類器維持在較低精度。由于此時(shí)的訓(xùn)練集并不包含good與vgood這兩種類別。所以,分類器不能識(shí)別測試集中的兩種類別,再加之對(duì)一部分已知類別的誤判,使得錯(cuò)誤率較高。 隨后,在增量集S3與S5被引入后,分類器的性能均有一次較明顯的改善,則是由于引入了代表新類別的訓(xùn)練實(shí)例,使得分類器可以逐漸識(shí)別類別good與vgood。最終實(shí)現(xiàn)了測試集中全部4個(gè)類別的適應(yīng)。
本文基于貝葉斯估計(jì)理對(duì)增量貝葉斯模型進(jìn)行擴(kuò)展,使其可適應(yīng)新出現(xiàn)的類別,并引入最小化風(fēng)險(xiǎn)決策克服了不平衡數(shù)據(jù)集上少數(shù)類別召回率低的問題。利用UCI數(shù)據(jù)集進(jìn)行測試,證明了改進(jìn)后的增量模型可以漸進(jìn)提高分類性能,并具有適應(yīng)新類別的能力。但本文給出的代價(jià)函數(shù)仍存在一定的局限性。特別是參數(shù)的確定問題,將是我們后續(xù)研究的重點(diǎn)。
[1] Giraud Carrier C.A note on the utility of incremental learning [J].AI Communications,2000,13(4): 215-223.
[2] Maloof M A,Michalski R S.Selecting examples for partial memory learning [J].Machine Learning,2000,41(1): 27-52.
[3] Polikar R,Upda L,Upda S S,et al.Learn++: An incremental learning algorithm for supervised neural networks[J].Systems,Man,and Cybernetics,Part C: Applications and Reviews,IEEE Transactions on,2001,31(4): 497-508.
[4] Xiao R,Wang J,Zhang F.An approach to incremental SVM learning algorithm[C]//Tools with Artificial Intelligence,2000.ICTAI 2000.Proceedings.12th IEEE International Conference on.IEEE,2000: 268-273.
[5] Wenhua Z,Jian M.A novel incremental SVM learning algorithm[C]//Computer Supported Cooperative Work in Design,2004.The 8th International Conference on.IEEE,2004,1: 658-662.
[6] Wang W J.A redundant incremental learning algorithm for SVM[C]//Machine Learning and Cybernetics,2008 International Conference on.IEEE,2008,2: 734-738.
[7] Schlimmer J C,Fisher D.A case study of incremental concept induction[C]//AAAI.1986: 496-501.
[8] Utgoff P E.Incremental induction of decision trees[J].Machine learning,1989,4(2): 161-186.
[9] Gong X J,Liu S H,Shi Z Z.An incremental Bayes classification model[J].Chinese Journal of Computers,2002,25(6): 645-650.
[10] Jia H,Murphey Y L,Gutchess D,et al.Identifying knowledge domain and incremental new class learning in SVM[C]//Neural Networks,2005.IJCNN’05.2005 IEEE International Joint Conference on.IEEE,2005,5: 2742-2747.
[11] Domingos P,Pazzani M.On the optimality of the simple Bayesian classifier under zero-one loss[J].Machine learning,1997,29(2-3): 103-130.
[12] Chen L,Zhen N,Guo Y H,et al.Applying Naive Bayesian Incremental Learning In Virus Reporting and analyzing[J].Computer Applications and Software,2010,27(1): 92-95.
[13] Di S,Li H,He P.Incremental Bayesian classification for Chinese question sentences based on fuzzy feedback[C]//Future Computer and Communication (ICFCC),2010 2nd International Conference on.IEEE,2010,1: V1-401-V1-404.
[14] Jeffreys S H.Theory of Probability[M].3d Ed.Clarendon Press,1967.
[16] Ditzler G,Rosen G,Polikar R.Incremental learning of new classes from unbalanced data[C]//Neural Networks (IJCNN),The 2013 International Joint Conference on.IEEE,2013: 1-8.
[17] García-Pedrajas N,Pérez-Rodríguez J,de Haro-García A.OligoIS: scalable instance selection for class-imbalanced data sets[J].Cybernetics,IEEE Transactions on,2013,43(1): 332-346.
ON IMPROVED INCREMENTAL BAYESIAN CLASSIFICATION MODEL
Su ZhitongLi Yang
(CollegeofComputer,NorthChinaUniversityofTechnology,Beijing100144,China)
The research of traditional classification algorithm focuses on the batch learning tasks.Actually,it is not easy to obtain labelled samples once for all.In addition,there is certain limitation in batch learning tasks because the cost of storage space is rather high.Therefore,incremental learning can be referred to as a solution.Naive Bayesian classification is simple,efficient and highly robust,besides,the theory of Bayesian estimation lays the foundation for its application in incremental tasks.However no existing incremental Bayesian model has described the adaptation to new classes.Moreover,the experiment shows that the imbalance in numbers of different samples between classes will have a great impact on the classification performance of the model.Therefore,based on the above two problems,we present to improve the incremental Bayesian model and to increase of formulas of parameters modification so as to enable the model to adapt to new classes.Also the idea of risk decision minimisation is introduced to reduce the impact of data imbalance.Simulation is carried out on UCI dataset,result indicates that the improved incremental model can improve the classification performance gradually and has the adaptability to new classes.
Machine learningNaive BayesIncremental learningRisk minimisation
2015-03-16。國家自然科學(xué)基金項(xiàng)目(61105045);中央支持地方專項(xiàng)(PXM2014_014212_000097);北方工業(yè)大學(xué)科研人才提升計(jì)劃項(xiàng)目(CCXZ201303)。蘇志同,教授,主研領(lǐng)域:數(shù)據(jù)挖掘、數(shù)字媒體技術(shù)。李楊,碩士生。
TP181
A
10.3969/j.issn.1000-386x.2016.08.057