焦 鵬,王新政謝鵬遠(yuǎn)
(1.海軍航空工程學(xué)院,山東煙臺(tái)264001;2.解放軍91055部隊(duì),浙江臺(tái)州318050)
基于屬性選擇法的樸素貝葉斯分類器性能改進(jìn)?
焦 鵬1,??,王新政1,謝鵬遠(yuǎn)2
(1.海軍航空工程學(xué)院,山東煙臺(tái)264001;2.解放軍91055部隊(duì),浙江臺(tái)州318050)
為提高樸素貝葉斯(Naive Bayesian)分類器的分類準(zhǔn)確率,對(duì)樸素貝葉斯屬性選擇算法及假設(shè)屬性概率值先驗(yàn)分布中的參數(shù)設(shè)置問題進(jìn)行分析,提出將屬性先驗(yàn)分布的參數(shù)設(shè)置加入到屬性選擇的過程中,并研究當(dāng)先驗(yàn)分布服從Dirichlet分布及廣義Dirichlet分布情況下的具體調(diào)整步驟。以UCI數(shù)據(jù)庫為例進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明當(dāng)先驗(yàn)分布服從廣義Dirichlet分布時(shí),該方法可提高分類的準(zhǔn)確率,如Parkinsons數(shù)據(jù)集,效率可提升13.32%。
樸素貝葉斯分類器;先驗(yàn)分布;屬性選擇法;廣義Dirichlet分布
在數(shù)據(jù)挖掘領(lǐng)域,樸素貝葉斯分類器(Naive Bayesian Classifier,NBC)由于運(yùn)算速度快、分類準(zhǔn)確率較高,得到了廣泛的應(yīng)用。NBC假設(shè)一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩灾?,這樣的假設(shè)有助于提高運(yùn)算效率,然而現(xiàn)實(shí)中往往不能滿足。研究者提出各種方法對(duì)NBC的分類性能進(jìn)行改進(jìn),如樹增強(qiáng)樸素貝葉斯(Tree Augmented Naive Bayes,
TAN)[1]、惰性貝葉斯規(guī)則(Lazy Bayesian Rules)[2]、特征加權(quán)(Weighted Naive Bayes,WNB)[3]等方法。這些方法與NBC相比通常具有較好的分類精度,在一定程度上改進(jìn)了NBC的性能。研究顯示,當(dāng)數(shù)據(jù)樣本屬性之間相關(guān)程度很高時(shí)會(huì)降低分類準(zhǔn)確率,因此希望NBC使用的屬性集合盡可能地服從條件獨(dú)立,即需要一個(gè)屬性選擇機(jī)制[4]。在眾多的屬性選擇方法中,樸素貝葉斯屬性選擇算法(Selective Naive Bayesian Algorithm,SNB)能有效剔除多余或影響分類結(jié)果的屬性,因此常被用于NBC中[5]。另外,為了改善NBC的分類效果,通常假設(shè)屬性的可能值服從某種先驗(yàn)分布,一般是Dirichlet分布或廣義Dirichlet分布。針對(duì)先驗(yàn)分布的參數(shù)設(shè)置已有很多學(xué)者提出各種設(shè)定方法[1]。在以往的研究中,屬性選擇結(jié)束后一般會(huì)直接進(jìn)行分類而不考慮先驗(yàn)分布。本文將各屬性先驗(yàn)分布的參數(shù)調(diào)整加入到屬性選擇的過程中使之成為一個(gè)整體,即首先運(yùn)用SNB算法對(duì)樣本數(shù)據(jù)集合進(jìn)行屬性選擇,再根據(jù)其得出的屬性選擇順序?qū)x出的屬性群進(jìn)行參數(shù)的個(gè)別調(diào)整。通過對(duì)UCI數(shù)據(jù)庫中的10個(gè)樣本數(shù)據(jù)集合進(jìn)行分析,仿真實(shí)驗(yàn)結(jié)果表明與以往的方法相比,本文提出的方法可提高分類準(zhǔn)確性。
2.1 樸素貝葉斯分類器
NBC利用貝葉斯準(zhǔn)則(Bayesian Decision Rule)以及屬性間條件獨(dú)立假設(shè)作為分類的依據(jù)[6]。根據(jù)貝葉斯定理,假設(shè)有n個(gè)屬性X1,X2,…,Xn,其中一筆數(shù)據(jù)x=(x1,x2,…,xn)屬于第j個(gè)類別值的概率為Cj:
其中,p(Cj|x)表示在給定某項(xiàng)樣本數(shù)據(jù)下分類到類別值Cj的概率,稱為后驗(yàn)概率(Posterior Probability);p(x)表示數(shù)據(jù)x出現(xiàn)的概率。比較不同類別值的后驗(yàn)概率時(shí),式(1)可以簡(jiǎn)化為
根據(jù)NBC的屬性條件獨(dú)立假設(shè),將式(2)展開:
因此,若某一類別值Cj的后驗(yàn)概率最大,NBC可預(yù)測(cè)該筆數(shù)據(jù)x的類別值為Cj。
2.2 樸素貝葉斯屬性選擇算法
文獻(xiàn)[7]將屬性選擇法分成Filter和Wrapper兩種。Filter方法根據(jù)統(tǒng)計(jì)測(cè)度分析屬性之間的關(guān)系選擇屬性,不考慮選擇的屬性是否影響特定分類器的表現(xiàn)。而Wrapper方法在選擇過程中使用分類器的表現(xiàn)評(píng)估屬性的重要性。由于Wrapper方法考慮分類器的表現(xiàn)來篩選屬性,對(duì)未知的數(shù)據(jù)有較好的分類準(zhǔn)確率,而Filter方法不需要反復(fù)地求得分類結(jié)果,因此執(zhí)行速度較快。
SNB算法是由文獻(xiàn)[5]提出,屬于Wrapper方法,其運(yùn)行流程如圖1所示。初始階段設(shè)定S為空集合,從樣本數(shù)據(jù)中選取一個(gè)屬性到樸素貝葉斯分類器中做分類并計(jì)算分類準(zhǔn)確率。重復(fù)這個(gè)過程直到樣本數(shù)據(jù)中所有屬性各自對(duì)應(yīng)的分類準(zhǔn)確率都已知,選擇使分類準(zhǔn)確率最高的屬性Xi加入S中,此時(shí)Xi就是NBC選擇的第一個(gè)屬性。從樣本數(shù)據(jù)中計(jì)算未被選擇的屬性配合Xi得到的分類準(zhǔn)確率,選出與之配合能使分類準(zhǔn)確率最高的屬性Xj,Xj即為第二個(gè)選擇的屬性,重復(fù)以上步驟直到分類準(zhǔn)確率不再提升。SNB算法的特點(diǎn)是采用前向搜索屬性的方法,即初始的屬性集合不包含任何屬性,一次選擇一個(gè)屬性直到分類準(zhǔn)確率不再提升為止。經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),SNB算法使用較少的屬性但分類準(zhǔn)確率較高,說明該分類方法有過濾冗余屬性的功能。
圖1 SNB算法流程圖
3.1 先驗(yàn)分布的參數(shù)設(shè)定
使用NBC進(jìn)行分類時(shí)使用數(shù)據(jù)樣本集合中的所有屬性,并通過調(diào)整先驗(yàn)分布中的參數(shù)來提高分類準(zhǔn)確率。而SNB算法則是通過選擇對(duì)分類準(zhǔn)確率真正有幫助的屬性供NBC使用。由于篩選的過程耗費(fèi)時(shí)間,因此先驗(yàn)分布的參數(shù)常使用Laplace Estimator用以滿足無信息性,使得屬性可能值的出現(xiàn)概率期望值相同。
文獻(xiàn)[8]在實(shí)驗(yàn)研究中針對(duì)Dirichlet部分依序測(cè)試αi,發(fā)現(xiàn)αi=60后分類準(zhǔn)確率與αi成反比。因此對(duì)每個(gè)屬性做參數(shù)設(shè)定時(shí),將參數(shù)αi的范圍設(shè)定為[1,60],并取其中的整數(shù)。除了限定范圍外,調(diào)整參數(shù)時(shí)需滿足無信息性的限制,即在此條件下評(píng)估各事件的發(fā)生概率,都應(yīng)給定相同的估計(jì)值且總和為1。此時(shí)各個(gè)變量對(duì)應(yīng)的期望值應(yīng)相同,但是不同的先驗(yàn)分布推導(dǎo)出的期望值公式不同,參數(shù)的限制也有所差異。對(duì)Dirichlet分布而言,推導(dǎo)出的結(jié)果為各參數(shù)需設(shè)定相同的值(α1=α2,…,=αk+1),以此限制在[1,60]作調(diào)整滿足無信息性。廣義Dirichlet分布在無信息性的限制滿足所有參數(shù)必須滿足式(4):
由此可知,只要αi已知,便可通過式(4)求得βi的值,因此無論是Dirichlet分布還是廣義Dirichlet分布都只需調(diào)整參數(shù)αi。對(duì)于整個(gè)樣本數(shù)據(jù)的所有屬性做參數(shù)設(shè)定時(shí),先選擇的屬性對(duì)接下來其他屬性的最優(yōu)參數(shù)設(shè)定有很大的影響。因此首先判斷各屬性對(duì)分類的重要性,重要性最高的屬性優(yōu)先調(diào)整參數(shù)和決定先驗(yàn)分布。而SNB算法在挑選屬性的過程可看作屬性重要性的排序過程,根據(jù)SNB算法選擇的順序作為屬性參數(shù)調(diào)整的順序。
3.2 Dirichlet分布
定義1:隨機(jī)向量θ=(θ1,θ2,…,θk)滿足θ1+θ2+…+θk≤1且θj>0(j=1,2,…,k),如果其概率密度函數(shù)為
其中,αj>0(j=1,2,…,k+1)且α=α1+α2+…+αk+1,則隨機(jī)向量θ服從k維Dirichlet分布,記作θ~DK(α1,α2,…,αK;αK+1)。
假設(shè)數(shù)據(jù)樣本中某個(gè)屬性有k+1個(gè)可能值,令隨機(jī)向量θ=(θ1,θ2,…,θk)為該屬性前k個(gè)可能值對(duì)應(yīng)的出現(xiàn)概率,且θ~DK(α1,α2,…,αK;αK+1)。令隨機(jī)向量y=(y1,y2,…,yk+1)代表此屬性k+1個(gè)可能值分別的發(fā)生次數(shù),yj表示此屬性第j個(gè)可能值出現(xiàn)的次數(shù),如果yθ服從多項(xiàng)分配,根據(jù)Dirichlet分布的共軛性質(zhì)可推得后驗(yàn)概率分布y~DK(α′1,α′2,…,α′K;α′K+1),其中α′j=αj+yj,j=1,2,…,k+1表示根據(jù)收集樣本數(shù)據(jù)推導(dǎo)出屬性可能值的出現(xiàn)概率同樣服從Dirichlet分布,不過參數(shù)值有所改變。如果θm為θ的一個(gè)變量,則θm在給定y的條件下,期望值為
其中y=y(tǒng)1+y2+…+yk+1。與NBC使用后驗(yàn)概率進(jìn)行分類相比,此處將后驗(yàn)分布的期望值作為后驗(yàn)概率進(jìn)行計(jì)算。當(dāng)一項(xiàng)新的樣本數(shù)據(jù)出現(xiàn)時(shí),就可利用式(6)計(jì)算在給定類別下屬性的某個(gè)可能值發(fā)生的概率E(θm|y),再利用式(3)找出使后驗(yàn)概率最大的類別值,作為此項(xiàng)樣本數(shù)據(jù)的預(yù)估類別值。
調(diào)整步驟如下:
(1)將所有屬性的參數(shù)值設(shè)定為L(zhǎng)aplace Estimator,利用SNB算法選擇一組屬性,假設(shè)共選擇m個(gè)屬性;
(2)針對(duì)選擇屬性中的第一個(gè)屬性參數(shù),計(jì)算α1=α2,…,=αk在[1,60]之間各整數(shù)的分類準(zhǔn)確率,選擇使分類準(zhǔn)確率最高的參數(shù)值為,表示第一個(gè)屬性的最優(yōu)參數(shù)值;
(3)設(shè)定第一個(gè)屬性的α1=α2,…,=αk+1=,再針對(duì)第二個(gè)選擇的屬性參數(shù)計(jì)算在[1,60]之間整數(shù)的分類準(zhǔn)確率,選擇使分類準(zhǔn)確率最高的參數(shù)值設(shè)定為,使用同樣的方法找出。
3.3 廣義Dirichlet分布
定義2:隨機(jī)向量θ=(θ1,θ2,…,θk)滿足θ1+θ2+…+θk≤1且θj>0(j=1,2,…,k),如果其概率密度函數(shù)為
其中,參數(shù)αj,βj,λj滿足αj>0(j=1,2,…,k),βj>0(j=1,2,…,k),λk=βk-1及λj=βj-αj+1-βj+1(j=1,2,…,k-1),則隨機(jī)變量θ服從k維廣義Dirichlet分布。記作θ~GDK(α1,α2,…,αK;β1,β2,…,βK)。
與Dirichlet分布在樸素貝葉斯分類器的作用一樣,當(dāng)假設(shè)樣本數(shù)據(jù)中某屬性服從廣義Dirichlet分布,如果該屬性有k+1個(gè)可能值,令隨機(jī)向量θ=(θ1,θ2,…,θk)為該屬性前k個(gè)可能值的概率,且θ~GDK(α1,α2,…,αK;β1,β2,…,βK)。令隨機(jī)向量y=(y1,y2,…,yk+1)表示該屬性的k+1個(gè)可能值分別發(fā)生的次數(shù),yj表示此屬性第j個(gè)可能值出現(xiàn)的次數(shù)。如果y|θ服從多項(xiàng)分配,由于廣義Dirichlet分布也具有共軛性質(zhì),可知后驗(yàn)概率分布
θ|y~GDK(α′1,α′2,…,α′K;β′1,β′2,…,β′K)。如果θm是θ的一個(gè)變量,則θm在給定y的條件下,期望值為
其中,j=1,2,…,k,m=1,2,…,k。
由式(8)和式(9)可知,在給定類別值下,除了估計(jì)某屬性的最后一個(gè)可能值的發(fā)生概率使用式(9)之外,估算其他可能值的發(fā)生概率都可采用式(8)計(jì)算。最后再利用式(3)找出具有最大后驗(yàn)概率的類別值,作為此項(xiàng)樣本數(shù)據(jù)的預(yù)估類別值。
調(diào)整步驟如下:
(1)將所有屬性的參數(shù)值設(shè)定為L(zhǎng)aplace Estimator后由SNB算法挑選出m個(gè)屬性;
(2)針對(duì)第一個(gè)屬性的首個(gè)參數(shù)α1計(jì)算在[1,60]之間整數(shù)的分類準(zhǔn)確率,挑選使分類準(zhǔn)確率最高的參數(shù)值為,表示第一個(gè)屬性的最優(yōu)參數(shù)值;
(3)假設(shè)α1=,針對(duì)α2計(jì)算在[1,60]之間整數(shù)的分類準(zhǔn)確率,選擇使分類準(zhǔn)確率最高的參數(shù)值設(shè)定為,用同樣的方法找出,并通過式(4)計(jì)算相應(yīng)的βi;
(4)針對(duì)SNB挑選的第二個(gè)屬性,以步驟1~2的方式調(diào)整其參數(shù),并采用相同的方式找出第3~m個(gè)屬性的最優(yōu)參數(shù)值。
4.1 模式評(píng)估
[9],整理得出以下兩個(gè)指標(biāo)。
(1)分類準(zhǔn)確率:采用K-fold交互認(rèn)證,將樣本數(shù)據(jù)中的數(shù)據(jù)分成K個(gè)集合,一個(gè)集合稱為一個(gè)fold。當(dāng)其中一個(gè)fold作為測(cè)試的集合時(shí),其他K-1個(gè)fold結(jié)合成一個(gè)訓(xùn)練數(shù)據(jù),之后重復(fù)進(jìn)行K次,直到K個(gè)fold都作為測(cè)試的集合,最后取K次分類準(zhǔn)確率的平均值作為指標(biāo)。
(2)屬性個(gè)數(shù):比較選擇的屬性和通過屬性選擇法減少的屬性個(gè)數(shù),如果只需少量屬性即可獲得良好的分類準(zhǔn)確率,表示該屬性選擇法確實(shí)能有效地過濾冗余屬性。
4.2 實(shí)例驗(yàn)證
本節(jié)針對(duì)UCI[10]上的10個(gè)樣本數(shù)據(jù)集合進(jìn)行計(jì)算并評(píng)估其性能。
表1為樣本數(shù)據(jù)集合的相關(guān)屬性。將K-fold交互式認(rèn)證法的K值設(shè)定為5,使得樣本數(shù)據(jù)集合最小的tae集合在每個(gè)fold平均有30項(xiàng),因此不會(huì)因?yàn)闇y(cè)試項(xiàng)數(shù)量過小導(dǎo)致結(jié)果無統(tǒng)計(jì)意義。另外,如果樣本數(shù)據(jù)集合中某些屬性出現(xiàn)遺漏值則忽略,只使用其他沒有遺漏值的屬性作運(yùn)算。由于NBC無法直接使用連續(xù)型屬性,應(yīng)將數(shù)據(jù)離散化。在離散化的方法中,ten-bin是將連續(xù)型屬性分成10個(gè)等區(qū)間,并按照屬性值大小放入這10個(gè)區(qū)間,即變成有10個(gè)可能值的離散屬性。本文選用的資料文件包含連續(xù)屬性和離散屬性,樣本數(shù)量從151~8 124不等,目的就是研究本文提出的方法在各種情況下的分類準(zhǔn)確率,得出較為客觀的結(jié)論。
表1 實(shí)驗(yàn)樣本數(shù)據(jù)屬性及屬性選擇結(jié)果Table 1 List of sample attributes and selected results
4.3 測(cè)試結(jié)果及分析
表2列出各模式下選擇的屬性群及個(gè)數(shù),其中NBC表示樸素貝葉斯分類器使用的屬性個(gè)數(shù),即所有屬性個(gè)數(shù),SNB表示本文方法使用的屬性個(gè)數(shù)。
表2 屬性選擇結(jié)果Table 2 List of attribute selection results
表3為所有樣本數(shù)據(jù)集合在各模式下的分類準(zhǔn)確率,其中的粗體數(shù)值表示各樣本數(shù)據(jù)集合最高的分類準(zhǔn)確率。NBC表示樸素貝葉斯分類器,使用Laplace Estimator。SNB表示使用SNB選出的屬性做預(yù)測(cè)的分類準(zhǔn)確率,使用Laplace Estimator。MD表示先驗(yàn)分布為Dirichlet分布,調(diào)整出最優(yōu)參數(shù)的分類準(zhǔn)確率。MG表示先驗(yàn)分布為廣義Dirichlet分布,調(diào)整最優(yōu)參數(shù)的分類準(zhǔn)確率。分類效果如圖2所示。
表3 分類準(zhǔn)確率匯總表Table 3 List of classification accuracy
圖2 分類結(jié)果對(duì)比圖
分析以上結(jié)果可知,在各個(gè)樣本數(shù)據(jù)集合中,SNB的準(zhǔn)確率要優(yōu)于NBC。例如Parkinsons數(shù)據(jù)集,NBC使用22個(gè)屬性的分類準(zhǔn)確率為73.91%,而SNB篩選出3個(gè)屬性的準(zhǔn)確率為87.23%,效率提升13.32%。這說明在實(shí)際樣本數(shù)據(jù)集合中并非每個(gè)屬性都具有分類價(jià)值,屬性間也不完全服從條件獨(dú)立的假設(shè),以上兩點(diǎn)都會(huì)影響NBC的分類準(zhǔn)確率。
SNB算法篩選出的屬性數(shù)量與原始屬性數(shù)量無關(guān),這說明分類準(zhǔn)確率不再提升時(shí)SNB算法即終止,因此選擇的屬性數(shù)量只與各階段已選入的屬性群計(jì)算的分類準(zhǔn)確率有關(guān),與原始屬性無關(guān)。
當(dāng)先驗(yàn)分布服從廣義Dirichlet分布時(shí),準(zhǔn)確率在多數(shù)樣本數(shù)據(jù)集合中最高。一般而言,廣義Dirichlet分布比Dirichlet分布更能提升NBC的準(zhǔn)確率,但受樣本數(shù)據(jù)集合內(nèi)噪聲的影響,有可能使得服從Dirichlet分布時(shí)準(zhǔn)確率更高。本文研究的屬性集合經(jīng)過SNB算法選擇,可基本濾除干擾屬性的影響,在這樣的屬性集合下可使廣義Dirichlet充分發(fā)揮其效用。
本文運(yùn)用SNB算法對(duì)樣本數(shù)據(jù)集合進(jìn)行屬性選擇,在屬性選擇的過程中針對(duì)已選出的屬性,分析各個(gè)屬性的特點(diǎn)加入最適合該屬性的先驗(yàn)分布后再做選擇,并根據(jù)選擇過程中的分類準(zhǔn)確率調(diào)整先驗(yàn)分布的參數(shù),最終產(chǎn)生的一組具有適合先驗(yàn)分布的屬性集合以提高分類準(zhǔn)確率。仿真實(shí)驗(yàn)結(jié)果表明該方法可在保證分類效率的前提下提高分類準(zhǔn)確率。在分析SNB算法的分類結(jié)果時(shí),發(fā)現(xiàn)準(zhǔn)確率不再上升即停止選擇的準(zhǔn)則過于嚴(yán)格,即使目前的準(zhǔn)確率下降,繼續(xù)選擇若干個(gè)屬性后仍有可能進(jìn)一步提高分類準(zhǔn)確率。在下一步研究中考慮設(shè)置一個(gè)緩沖區(qū)間,當(dāng)準(zhǔn)確率下降在某個(gè)范圍內(nèi)時(shí)仍可以進(jìn)行選擇。這樣可避免由于選擇屬性過少對(duì)分類準(zhǔn)確率的影響,使得分類效果得到進(jìn)一步的改善。
參考文獻(xiàn):
[1]Friedman N,Geiger D,GoldszmidtM.Bayesian network classifiiers[J].Machine Learning,1997,29(2/3):131-163.
[2]Zheng Zijian,Webb G I,Ting Kaiming.Bayesina rules:A lazy semi-semi-Na?ve Baesian learning technique competitive to boosting decision trees[C]//Proceeding of the 16th International Conference on Machine Learning.Bled,USA:IEEE,1999:493-502.
[3]Webb G I,JPazzaniM J.Adjusted probability na?ve Bayesian induction[C]//Proceeding of the 11th Australian jiont Conference on Artificial Intelligence.Adelaide,Australia:IEEE,1998:285-295.
[4]Ioan Pop.An approach of the naive Bayesian classifier for the document classification[J].General Mathematics,2006,14(4):135-138.
[5]Langley P,Sage S,Induction of selective bayesian classifiers[C]//Proceedings of UAI-94 10th International Conference on Uncertainty in Artificial Intelligence.Seattle,WA:IEEE,1994:399-406.
[6]John G H,Kohavi R,Pfleger K.Irrelevant features and the subset selection problem[C]//Proceedings of the 11th International Conference on Machine Learning.New Brunswick,NJ:IEEE,1994:121-129.
[7]Kim Chanju,Hwang Kyu-Baek.Naive Bayes classifier learningwith feature selection for spam detection in social bookmarking[C]//Proceeding of Europe Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases.Antwerp,Belgium:IEEE,2008:184-198.
[8]余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].中山大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,43(5):118-120.YU Fang,JIANG Yun-fei.Selection method based on the characteristics of the naive Bayesian classifier[J].Zhongshan University University(Natural Science Edition),2004,43(5):118-120.(in Chinese)
[9]秦鋒,任詩流,程澤凱,等.基于屬性加權(quán)的樸素貝葉斯分類算法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(6):107-109.QIN Feng,RENShi-liu,CHENGZe-kai,etal.Naive Bayes classification algorithm based on attribute weighting[J].Computer Engineering and Applications,2008,44(6):107-109.(in Chinese)
[10]Frank A,Asuncion A.UCIMachine Learning Repository[EB/OL].(2010)[2012-07-15].http://archive.ics.uci.edu/ml.
焦鵬(1980—),男,陜西西安人,2009年獲碩士學(xué)位,現(xiàn)為博士研究生,主要從事智能信息處理、復(fù)雜設(shè)備故障預(yù)測(cè)及診斷研究;
JIAO Peng was born in Xi′an,Shaanxi Province,in 1980.He received the M.S.degree in 2009.He is currently working toward the Ph.D.degree.His research concerns intelligent information processing and prognosticsand diagnosisof complex equipment.
Email:Jiaopeng-NEAU@hotmail.com
王新政(1949—),男,陜西漢中人,海軍航空工程學(xué)院教授、博士生導(dǎo)師,主要從事信息對(duì)抗技術(shù)、智能設(shè)備檢測(cè)研究;
WANG Xin-zheng was born in Hanzhong,Shaanxi Province,in 1949.He isnow a professor and also the Ph.D.supervisor.His research concerns information warfare and intelligent test technology.
謝鵬遠(yuǎn)(1980—),男,陜西安康人,2009年獲碩士學(xué)位,現(xiàn)為工程師,主要研究方向?yàn)橹悄苄畔⑻幚砑半娮訉?duì)抗。
XIE Peng-yuan was born in Ankang,Shaanxi Province,in 1980.He received the M.S.degree in 2009.He is now an engineer.His research interests include intelligent information processing and electronic countermeasures.
Performance Improvement of Naive Bayesian Classifier Based on Feature Selection
JIAO Peng1,WANG Xin-zheng1,XIE Peng-yuan2
(1.Naval Aeronautical Engineering University,Yantai264001,China;2.Uint91055 of PLA,Taizhou 318050,China)
In order to improve the accuracy of the naive Bayesian classifier(NBC),the selective naive Bayesian(SNB)method and the attributes′prior distribution are studied.Amethod for combining prior distribution and feature selection together is proposed,which finds out the best prior for each attribute after all attributes have been determined by the SNB algorithm.The experimental result on 10 data sets form UCIdata repository shows that thismethod with the general Dirichletprior generally achieves higher classification accuracy,such as the the efficiency of the data sets of Parkinson's can be enhanced by 13.32%.
naive Bayesian classifier;prior distribution;feature selection algorithm;generalized Dirichlet distribution
TP181
A
1001-893X(2013)03-0329-06
10.3969/j.issn.1001-893x.2013.03.020
2012-08-02;
2012-11-12 Received date:2012-08-02;Revised date:2012-11-12
??通訊作者:Jiaopeng-NEAU@hotmail.com Corresponding author:Jiaopeng-NEAU@hotmail.com