方志堅 傅仰耿 陳建華
(福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,福州, 350116)
隨著互聯(lián)網(wǎng)絡(luò)及媒體設(shè)備的高速發(fā)展,各個行業(yè)領(lǐng)域每時每刻均在產(chǎn)生大量的數(shù)據(jù)。數(shù)據(jù)信息量的激增導(dǎo)致了海量數(shù)據(jù)庫的產(chǎn)生,如何在海量信息源中提取隱藏和有價值的信息,并應(yīng)用這些信息構(gòu)建決策支持的模型一直在商務(wù)管理、生產(chǎn)控制和市場分析等領(lǐng)域有著強烈的需求。因此數(shù)據(jù)挖掘如今成為一個熱門的研究領(lǐng)域。數(shù)據(jù)分類是數(shù)據(jù)挖掘領(lǐng)域中一個重要的分支,這是由于大多數(shù)的實際工程問題均能轉(zhuǎn)換成分類問題。分類就是利用已知標(biāo)簽的數(shù)據(jù)來構(gòu)建相關(guān)的模型,進而確定未知類別數(shù)據(jù)標(biāo)簽的決策過程。
目前已經(jīng)有許多經(jīng)典的分類算法被提出,例如:K近鄰[1]、支持向量機[2]和粗糙集[3]等方法。K近鄰算法原理相對簡單,方法易于實現(xiàn),并且支持增量學(xué)習(xí),具有對復(fù)雜決策空間進行建模的能力,其缺點在于尋找近鄰點需要大量的計算,且當(dāng)數(shù)據(jù)中包含弱相關(guān)屬性時,其分類精度會下降;支持向量機在已知核函數(shù)的情況下,能夠大大減少對高維問題的求解復(fù)雜度,其在一定程度上具有泛化推廣的能力,因此也導(dǎo)致了支持向量機的分類精度十分依賴核函數(shù)的選擇,而如何選擇核函數(shù)一直是一個公認(rèn)的難題;粗糙集的優(yōu)點在于不需要附加信息或先驗知識,就能夠處理存在不精確乃至不完整數(shù)據(jù)的問題。但它只能處理離散化的屬性,且產(chǎn)生的決策規(guī)則不穩(wěn)定,準(zhǔn)確率有待提高。
置信規(guī)則庫推理方法(Belief rule-base inference methodology using evidential reasoning approach, RIMER)最早由Yang等[4]提出,囊括了傳統(tǒng)IF-THEN規(guī)則庫[5]、D-S證據(jù)理論[6,7]、決策理論[8]和模糊理論[9]等方面的知識,具有對不完整或不精確信息進行建模的能力。當(dāng)前,以RIMER為核心的置信規(guī)則庫(Belief rule base,BRB)系統(tǒng)已經(jīng)廣泛應(yīng)用于輸油管道檢漏[10]、工程系統(tǒng)安全評估[11]和軍事能力評估[12]等工程領(lǐng)域。傳統(tǒng)的RIMER方法不適用于屬性數(shù)量過多的問題,這是由于BRB在構(gòu)建過程中需要遍歷所有前件屬性的各個候選值,因此隨著屬性數(shù)量的增多,BRB的規(guī)則條數(shù)將呈指數(shù)級增長,這必然會導(dǎo)致“組合爆炸”問題的產(chǎn)生。鑒于此,前人提出了通過線性組合的方式構(gòu)建規(guī)則庫,使得規(guī)則庫的條數(shù)不再隨屬性數(shù)量的增長而增長。由于規(guī)則庫在結(jié)構(gòu)上發(fā)生了改變,使得原有方法中的激活公式不再適用于現(xiàn)有方法。因此,Chang等[13]將原有方法中的激活規(guī)則改為激活屬性,即不再關(guān)注哪條規(guī)則被激活,而是注重前件屬性的哪些候選值被激活。將BRB應(yīng)用于分類算法中,Ye等[14]提出設(shè)定規(guī)則數(shù)等于分類數(shù),以輸入值和候選值之間距離倒數(shù)的歸一化值作為個體匹配度,即對于任何輸入值,規(guī)則庫中的每條規(guī)則都將被激活,激活權(quán)重表現(xiàn)為每條規(guī)則對分類結(jié)果的貢獻度。這些方法不僅解決了“組合爆炸”問題,而且在分類準(zhǔn)確性上獲得了不錯的效果。然而采用線性組合方式也存在兩點不足:(1)線性組合迫使每個前件屬性候選值的個數(shù)必須相等,這也就忽略了各個前件屬性間的差異;(2)激活權(quán)重公式的改變導(dǎo)致后件置信度受到了來自非激活前件屬性候選值的影響,即在原始RIMER方法中,參與證據(jù)推理(Evidertail reasoning, ER)合成的置信度所對應(yīng)規(guī)則的候選值都存在個體匹配度,而采用線性組合的方式,常常出現(xiàn)個體匹配度為0的屬性參與激活合成,這必然會影響后件置信度。
本文提出一種改進置信規(guī)則庫推理的分類方法。首先,在文獻[13]研究的基礎(chǔ)上,將評價等級個數(shù)設(shè)定為兩個,即后件評價等級個數(shù)不再等于分類數(shù)。對于一組輸入值,RIMER過程只得出該輸入值是否滿足某種特定條件,以及以多大的置信度滿足該條件。其次,對于某一具體問題不再局限于設(shè)定一個規(guī)則庫,而是同時存在多個規(guī)則庫進行決策。依據(jù)數(shù)據(jù)的特性,采用One-versus-One和有向無環(huán)圖來構(gòu)建決策模型。最后,再根據(jù)各個規(guī)則庫的決策結(jié)果進行類別“投票”,票數(shù)最高的即為最終分類結(jié)果。
采用規(guī)則形式表示相關(guān)信息在人工智能領(lǐng)域是一種非常常見的方式,在置信規(guī)則庫推理方法中,規(guī)則化的信息表示體現(xiàn)在了置信規(guī)則庫中。
置信規(guī)則庫由傳統(tǒng)IF-THEN規(guī)則庫演化而來,Yang等將置信框架引入IF-THEN規(guī)則中,使得傳統(tǒng)的IF-THEN規(guī)則能夠合理地表示不完整或不確定信息的知識,從而提出新的規(guī)則表達式。新的規(guī)則即稱為置信規(guī)則,其中第k條置信規(guī)則可表示為
(1)
BRB系統(tǒng)的規(guī)則推理由計算激活權(quán)重、修正后件置信度和合成激活規(guī)則3步組成。在計算激活權(quán)重前,需先計算各個前件屬性候選值的個體匹配度,計算方法為
(2)
其中,輸入值向量表示為x={x1,x2,…,xT}。
第k條規(guī)則激活權(quán)重的計算公式為
(3)
(4)
式中:Ut表示第k條規(guī)則的第t個前件屬性;Rk表示第k條規(guī)則的前件屬性集合。
由激活規(guī)則的后件置信度和激活權(quán)重可以求得基本屬性的基本可信值為
mj,k=ωkβj,k
(5)
(6)
(7)
最后將激活的規(guī)則使用ER法則合成,得到相對于評價等級Dj的基本可信度分配值,即
(8)
(9)
(10)
(11)
(12)
(13)
圖1 BRB參數(shù)訓(xùn)練模型Fig.1 BRB parameter training model
專家根據(jù)歷史信息和先驗知識給定的初始BRB系統(tǒng)存在主觀局限性,特別是當(dāng)BRB系統(tǒng)應(yīng)用于復(fù)雜決策問題時,人為方式難以精確地給出這些參數(shù)值。故Yang等[15]提出了BRB系統(tǒng)參數(shù)訓(xùn)練模型,通過比較觀測輸出和推導(dǎo)輸出的差值來矯正BRB系統(tǒng)的參數(shù),進而提高RIMER方法決策的準(zhǔn)確性。訓(xùn)練模型如圖1所示。參數(shù)優(yōu)化模型可表示為
min{Δ(P)}
s.t.A(P)=0,B(P)≥0
(14)
式中:p=(βi,k,θk,δk,i)為待訓(xùn)練的參數(shù)向量;Δ(P)為目標(biāo)函數(shù),當(dāng)Δ(P)越小時,表明該BRB系統(tǒng)更符合實際系統(tǒng),故最小化Δ(P)是參數(shù)訓(xùn)練的最終目的;A(P)和B(P)分別是等式和不等式約束條件。在參數(shù)訓(xùn)練過程中,文獻[15]給出如下規(guī)定
(15)
(2) 標(biāo)準(zhǔn)化規(guī)則權(quán)重θk,使其不小于0且不大于1,即
0≤θk≤1k=1,2,…,L
(16)
(3) 任意一條置信規(guī)則的后件置信度均不小于0且不大于1,其中第k條規(guī)則的第j個評價等級上的置信度需滿足
0≤βj,k≤1j=1,2,…,N;k=1,2,…,L
(17)
(4) 假設(shè)第k條規(guī)則是完整的,即輸入不包含不確定或模糊信息,則該條規(guī)則的后件置信度之和等于1,即
(18)
目前,置信規(guī)則庫推理方法應(yīng)用于分類已經(jīng)在淋巴結(jié)疾病診斷[16]和UCI分類數(shù)據(jù)集的測試[17]上取得了一定的進展。采用置信規(guī)則庫推理方法解決分類問題主要有以下兩種構(gòu)建規(guī)則庫策略。
(1)采用遍歷前件屬性候選值的方式,無需改變原始BRB系統(tǒng),在處理分類問題時,只需要將后件置信度轉(zhuǎn)換成分類結(jié)果信息,即可直接將RIMER方法應(yīng)用到分類問題中。然而該方法只能應(yīng)用于數(shù)據(jù)屬性數(shù)目較少的情況,這是由于遍歷組合方式繼承了傳統(tǒng)RIMER方法中固有的“組合爆炸”問題。隨著數(shù)據(jù)屬性數(shù)目的增多,規(guī)則庫的條數(shù)將呈指數(shù)級增長。以數(shù)據(jù)集Wine為例,其數(shù)據(jù)屬性個數(shù)有13個,假設(shè)每個前件屬性候選值的個數(shù)均為3個,那么BRB的規(guī)則條數(shù)就達到了313條,此時參數(shù)訓(xùn)練所耗費的時間是令人無法忍受的。通過遍歷組合方式構(gòu)建的規(guī)則庫大小可表示為
(19)
其中Tk表示第k個前件屬性候選值的個數(shù)。通過對UCI上210組分類數(shù)據(jù)進行統(tǒng)計后發(fā)現(xiàn),前件屬性個數(shù)小于10的分類數(shù)據(jù)集個數(shù)僅為54組,而屬性個數(shù)大于10的有156組,由此可知分類數(shù)據(jù)通常為多屬性的情況。因此采用遍歷組合方式構(gòu)建規(guī)則庫并不適用于大部分的分類問題。
(2)采用線性組合方式構(gòu)建置信規(guī)則庫中的規(guī)則。例如,有3個前件屬性,每個前件屬性的候選值依次為:{1,2,3},{4,5,6}和{7,8,9},則通過線性組合方式構(gòu)建的置信規(guī)則庫為
R1:ifA1is 1∧A2is 4∧A3is 7,then{D}
R2:ifA1is 2∧A2is 5∧A3is 8,then{D}
R3:ifA1is 3∧A2is 6∧A3is 9,then{D}
(20)
可以看出,采用線性組合的方式,規(guī)則庫中規(guī)則的條數(shù)只與前件屬性候選值的個數(shù)有關(guān),而與前件屬性個數(shù)無關(guān),這樣就有效避免了“組合爆炸”問題的產(chǎn)生。然而,采用線性組合方式構(gòu)建的置信規(guī)則庫中常常會出現(xiàn)“零激活”問題,這是由于在計算個體匹配度時,至多僅有兩個候選值的個體匹配度非零,其余的皆為零。根據(jù)式(3)可知,只要規(guī)則中存在某個前件屬性候選值的個體匹配度為零,那么該條規(guī)則的激活權(quán)重就為零,即不被激活。因此,激活權(quán)重公式可修正為
(21)
即將個體匹配度的累乘形式改為累加形式,這樣激活條件變?yōu)榱酥灰?guī)則中某個屬性候選值的個體匹配度不為零,那么該條規(guī)則就會被激活。
采用線性組合方式構(gòu)建的BRB分類方法在一定程度上已能有效地解決分類問題,然而由于線性組合的方式也暴露出以下兩點不足:
(1)線性組合的方式迫使每個前件屬性候選值的個數(shù)必須相等,這樣就忽略了各個前件屬性間的差異。在原始BRB規(guī)則庫中,各個前件屬性候選值個數(shù)一般不相等,其個數(shù)往往取決于該屬性值的區(qū)間大小以及所占的權(quán)重比例,通常情況下,區(qū)間越大,比重越大,則候選值的個數(shù)也就越多。文獻[13]所提出的方法中,前件屬性權(quán)重已從激活規(guī)則公式中刪去,也就是說,該方法認(rèn)為各個前件屬性同等重要,這往往不可取,因為這樣會夸大弱屬性的效用,而弱化了強屬性的分類支持度,導(dǎo)致最終的分類準(zhǔn)確性下降。
(2)激活權(quán)重公式的改變導(dǎo)致了后件置信度受到了來自非激活前件屬性候選值的影響。即原始方法中,參與ER合成的置信度,其所對應(yīng)規(guī)則的候選值都存在個體匹配度。從修正后的激活權(quán)重公式來看,規(guī)則中存在某個屬性候選值的個體匹配度不為零,那么該條規(guī)則所攜帶的信息就會參與ER合成。倘若只有一個候選值的個體匹配度不為零,那么完全可以弱化該條規(guī)則對結(jié)果所占比重的影響。特別是當(dāng)該激活點屬于噪音情況時,肯定會對結(jié)果造成不利的影響,使得最終的分類準(zhǔn)確性下降。從式(8~13)的計算過程可以看出,隨著后件評價等級個數(shù)的增加,該缺點所帶來的影響也會隨之增大。
針對現(xiàn)有置信規(guī)則庫推理分類方法的不足,本文提出一種二擇眾倉決策法。對原有的方法作如下改進:
(1)將規(guī)則表達式修正為
(22)
即每條規(guī)則僅設(shè)計兩個評價等級,置信規(guī)則庫的推理結(jié)果只對輸入值作出是與否的置信決策,而不再作多值判定,僅僅是在二者間選擇。其好處是規(guī)則變得簡單,在處理信息時更加快捷高效,而且該設(shè)計策略能夠很好地改善第2節(jié)中所提到的第2點不足,從而使得分類準(zhǔn)確性有所提高。
(2)引入眾倉決策模型。在對規(guī)則表達式作出修正后可以很明顯地看出由于后件評價等級個數(shù)只有兩個,那么由此類規(guī)則所構(gòu)建的置信規(guī)則庫只能對二分類問題做出判定,而無法解決多分類問題。因此本文創(chuàng)新性地提出采用多規(guī)則庫的方式解決同一個分類問題,即每一個置信規(guī)則庫都是一個二分類決策器,而由多個二分類決策器構(gòu)成了眾倉決策模型,進而解決多分類問題。采用眾倉模型后,每一個置信規(guī)則庫只關(guān)心兩個類別間或兩個大類別間的差異,此時每一個置信規(guī)則庫都可以有自己的前件屬性權(quán)重值。例如:存在一個4屬性、3類別的分類數(shù)據(jù)集,可以在兩兩類別間設(shè)置一個置信規(guī)則庫,假設(shè)區(qū)分1,2類別僅需要前兩個屬性,那么對于第1個置信規(guī)則庫完全可以將3,4屬性的權(quán)重值設(shè)置為零。該優(yōu)點是現(xiàn)有置信規(guī)則庫分類方法所不能擁有的,只有一個置信規(guī)則庫的分類方法,其前件屬性權(quán)重必須同時考慮區(qū)別1,2,3類。因此,采用眾倉決策模型可以很好地解決第2節(jié)中所提到的第1點不足。
圖2給出了三類別示例。如圖所示,在類別1與類別2間、類別1與類別3間找到一個可分平面十分容易,然而在類別2與類別3間找到一個可分平面就相對比較困難,采用現(xiàn)有的分類方法無法直接了斷地解決該瓶頸,只能通過增加規(guī)則條數(shù)或參數(shù)訓(xùn)練復(fù)雜度的方法來解決,這必然會對類別1產(chǎn)生影響。若是采用二擇眾倉決策法,類別1與類別2間、類別1與類別3間的分類器在訓(xùn)練過程中可以很快地獲得精準(zhǔn)結(jié)果,而對于類別2與類別3間的分類器,在訓(xùn)練過程中就可以發(fā)現(xiàn)這是整個分類問題的瓶頸,這樣就不再是“黑箱”操作,而是清楚明了地知道問題瓶頸所在的位置,此時可以通過增加規(guī)則條數(shù)或增加參數(shù)訓(xùn)練復(fù)雜度的方法來解決,同時對類別1不會造成任何影響。這也是二擇眾倉決策法的優(yōu)點之一。
圖2 三類別示例Fig.2 Illustraction example of three categories
二擇眾倉決策法不改變RIMER方法的整個體系結(jié)構(gòu),單個置信規(guī)則庫的所有操作都與原來一致,改變的只是評價等級個數(shù),也就是讓單個置信規(guī)則庫只解決一個小問題,將處理結(jié)果返回給該體系外的眾倉決策模型,該模型將多個小問題的結(jié)果進行融合,從而解決問題。這樣不僅繼承了原有RIMER方法中的優(yōu)點,而且在一定程度上改善了由線性組合方式所帶來的不足。二擇眾倉決策法的具體實現(xiàn)步驟為
(1)依據(jù)數(shù)據(jù)的特性選擇合適的眾倉決策模型。以Glass數(shù)據(jù)集為例,通過查看其類別描述可獲得如下信息:
Class Distribution: (out of 214 total instances)
——163 Window glass (building windows and vehicle windows)
-- 87 float processed
-- 70 building windows
-- 17 vehicle windows
-- 76 non-float processed
-- 76 building windows
-- 0 vehicle windows
-- 51 Non-window glass
-- 13 containers
-- 9 tableware
-- 29 headlamps
圖3 Glass數(shù)據(jù)集的眾倉決策模型Fig.3 Multiply decision-making model of Glass dataset
可以看出Glass數(shù)據(jù)集的類別結(jié)構(gòu)層次分明,能很容易地采用有向無環(huán)圖來構(gòu)建眾倉決策模型,如圖3所示。Glass數(shù)據(jù)集中類別4的個數(shù)為零,故未在圖中標(biāo)出。從圖3可以看出,對Glass數(shù)據(jù)集進行分類需要設(shè)計6個BRB分類器,其中BRB1用來區(qū)分Window glass與Non-window glass這兩類,Window glass有4個類別標(biāo)簽:1,2,3和4,Non-window有3個類別標(biāo)簽:5,6和7。即BRB1是區(qū)分1,2,3,4類和5,6,7類的分類器。BRB2,BRB3和BRB1同理不再贅述。BRB4,BRB5和BRB6采用One-versus-one算法,即在兩兩類間訓(xùn)練一個分類器,當(dāng)對一個未知樣本進行分類時,每個分類器都對其進行判定,并給相應(yīng)的類別“投上一票”,最后票數(shù)最多的類別作為該樣本的類別。該步驟可用圖4所示的流程圖表示。
(2)由于各個分類器在訓(xùn)練的過程中相互不存在影響,可以采用并行的策略同時進行訓(xùn)練。訓(xùn)練的過程中發(fā)現(xiàn)有瓶頸問題,可以不斷調(diào)整訓(xùn)練參數(shù),以獲得更加滿意的結(jié)果。本文中的實驗均采用差分進化算法對BRB的參數(shù)進行訓(xùn)練。以均方差(Mean squared error, MSE)作為參數(shù)訓(xùn)練模型中的目標(biāo)函數(shù),即
(23)
(3)后件置信度轉(zhuǎn)換成類別信息。由于后件評價等級只有兩個,將兩個評價等級與兩個分類級別對應(yīng)起來,則最終的分類結(jié)果為
(24)
其中i,j表示類別的編號。
通過實驗將二擇眾倉決策法與現(xiàn)有的分類方法進行對比,以差分進化算法作為參數(shù)訓(xùn)練的優(yōu)化算法。一般情況下將種群規(guī)模設(shè)置在50,交叉概率為0.9,縮放因子為0.5。實驗環(huán)境為:Intel(R)Core(TM)i5-4570 CPU @3.20 GHz處理器,8 GB內(nèi)存,Windows7操作系統(tǒng)。程序均在Matlab2014b中實現(xiàn)。
本實驗所使用的3個數(shù)據(jù)集均來自UCI公共測試集,分別為:Iris,Wine和Glass。表1顯示了3個測試數(shù)據(jù)集的基本信息。
表1 數(shù)據(jù)集基本信息
采用十折交叉驗證法,即將樣本數(shù)據(jù)分成10份,每次取其中的1份作為測試集,其余的作為訓(xùn)練集。十折交叉驗證法的實驗結(jié)果如表2所示。
表2 十折交叉驗證結(jié)果
為了進一步驗證本文方法的有效性,將本文方法與文獻[13,14]同樣是采用置信規(guī)則庫推理的分類方法進行對比,并選取近兩年來對這3個數(shù)據(jù)集進行分類的其他方法進行對比,對比結(jié)果如表3和圖5~7所示。
表3 不同方法在不同數(shù)據(jù)集上的分類準(zhǔn)確率對比
圖5 Iris數(shù)據(jù)集的各方法分類準(zhǔn)確率對比 圖6 Wine數(shù)據(jù)集的各方法分類準(zhǔn)確率對比
圖7 Glass數(shù)據(jù)集的各方法分類準(zhǔn)確率對比 Fig.7 Classification accuracy contrast by using different methods on Glass dataset
將本文方法與非BRB方法進行對比,可以看出除了FGGCA的Glass數(shù)據(jù)集外,余下結(jié)果都不如本文的方法來得更優(yōu)。將本文方法與文獻[13,14]的方法進行對比,文獻[14]的實驗缺失Wine數(shù)據(jù)集的結(jié)果,然而從Iris和Glass數(shù)據(jù)集來看,其結(jié)果均不如本文的方法好。而對比文獻[13]方法,在Glass數(shù)據(jù)上本文的方法有了很大的提升,這是由于Glass數(shù)據(jù)集帶有二分類的特性,特別適用于本文提出的方法。沒有任何一種方法能對所有數(shù)據(jù)集均達到最優(yōu)的結(jié)果,但縱觀全局來看,本文的方法在一定程度上提升了分類的準(zhǔn)確性。
本實驗在于說明文獻[13]提出的方法隨著類別個數(shù)的增多,其分類準(zhǔn)確率將會急劇下降。而采用二擇眾倉決策方法,將會大幅度地減少準(zhǔn)確率的下降程度。實驗數(shù)據(jù)樣本來源于Brodatz庫中的14幅紋理圖像,其在Brodatz庫中的編號分別為D1,D6,D12,D15,D20,D34,D37,D52,D56,D65,D72,D87,D93和D110,具體如圖8所示。
圖8 Brodatz庫中的14幅紋理圖像Fig.8 Fourteen texture images from Brodatz library
這14幅紋理圖像原始大小均為640像素×640像素,將每幅圖像不重疊地切割成4×4=16幅子圖,每幅子圖大小均為160像素×160像素,共獲得14×16=224幅樣本圖像。選取每幅圖像的前8幅子圖作為訓(xùn)練數(shù)據(jù),后8幅子圖作為測試數(shù)據(jù)。使用Matlab2014b所提供的graycomatrix和graycoprops函數(shù)獲取每幅子圖的灰度共生矩陣特征值,并以此作為分類依據(jù)。實驗類別個數(shù)從初始的4個逐步增加至14個。實驗結(jié)果如圖9所示。
圖9 實驗結(jié)果對比Fig.9 Experimental results comparison
從實驗結(jié)果可以看出,在類別個數(shù)較少時,文獻[13]方法與二擇眾倉決策方法差別不大。但隨著類別個數(shù)的增多,其準(zhǔn)確率會急劇下降,對14幅紋理圖像同時進行分類時其準(zhǔn)確率僅有30.36%。這是由于線性組合方式并不適用于類別個數(shù)較多的情況,這已在第2節(jié)中做了詳細說明。而采用二擇眾倉決策方法后會大幅度地減少該不足所帶來的影響,對14幅紋理圖像同時進行分類時依然能保持較高的準(zhǔn)確率,說明本文所提出的方法具有較強的魯棒性。
雖然通過線性組合方式構(gòu)建置信規(guī)則庫避免了規(guī)則條數(shù)隨著問題屬性數(shù)量的增多而激增,但該方式仍然存在不足。鑒于此,本文提出一種改進置信規(guī)則庫推理的分類方法,首先將一個大的分類問題切割成若干個相對獨立的分類小問題,每個小問題都是一個二分類問題;其次將規(guī)則的后件評價等級設(shè)置為兩個讓每個置信規(guī)則庫只處理一個小問題,以此減小線性組合所來的的誤差;最后,采用眾倉決策的方式將若干個小問題的結(jié)果進行整合,從而得出最終的分類結(jié)果,通過實驗分析驗證了該方法的可行性。本文在現(xiàn)有置信規(guī)則庫推理分類算法的基礎(chǔ)上,通過改進分類器的設(shè)計,從而進一步提高了分類準(zhǔn)確率。如何處理類別數(shù)量更多的分類問題將是下一步研究的方向。
參考文獻:
[1] Cover T,Hart P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.
[2] Cortes C,Vapnik V.Support-vector networks[J].Machine Learning,1995,20(3):273-297.
[3] Bazan J G,Nguyen H S,Nguyen S H,et al.Rough set algorithms in classification problem[J].Rough Set Methods and Applications,2000,56(1):49-88.
[4] Yang Jianbo,Liu Jun,Wang Jin,et al.Belief rule-base inference methodology using the evidential reasoning approach-RIMER[J].IEEE Transactions on Systems, Man and Cybernetics,Part A:Systems and Humans,2006,36(2):266-285.
[5] Sun R.Robust reasoning:Integrating rule-based and similarity-based reasoning[J].Artificial Intelligence,1995,75(2):241-295.
[6] Dempster A P.A generalization of Bayesian inference[J].Journal of the Royal Statistical Society,1968,30(2):205-247.
[7] Shafer G.A mathematical theory of evidence[M].Princeton: Princeton University Press,1976:10-39.
[8] Hwang C L,Yoon K.Methods for multiple attribute decision making[M].[S.l.]: Sringer Berlin Heidelberg,981:58-191.
[9] Zadeh L A.Fuzzy sets[J].Information and Control,1965,8(3):338-353.
[10] 周志杰,楊劍波,胡昌華,等.置信規(guī)則庫專家系統(tǒng)與復(fù)雜系統(tǒng)建模[M].北京:科學(xué)出版社,2011:9-41.
Zhou Zhijie,Yang Jianbo,Hu Changhua,et al.Belief rule base of expert system and complex system modeling[M].Beijing:Science Press,2011:9-41.
[11] Liu Jun,Yang Jianbo Ruan Da,et al.Self-tuning of fuzzy belief rule bases for engineering system safety analysis[J].Annals of Operations Research,2008,163(1):143-168.
[12] Jiang Jiang,Li Xuan,Zhou Zhijie,et al.Weapon system capability assessment under uncertainty based on the evidential reasoning approach[J].Expert Systems with Applications,2011,38(11):13773-13784.
[13] Chang Leilei,Zhou Zhijie,You Yuan,et al.Belief rule based expert system for classification problems with new rule activation and weight calculation procedures[J].Information Sciences,2016,336(1):75-91.
[14] 葉青青,楊隆浩,傅仰耿.基于改進置信規(guī)則庫推理的分類方法[J].計算機科學(xué)與探索,2016,10(5):709-721.
Ye Qingqing,Yang Longhao,F(xiàn)u Yanggeng.Classification approach based on improved belief rule-base reasoning[J].Computer Science and Technology,2016,10(5):709-721.
[15] Yang Jianbo,Liu Jun,Xu Dongling,et al.Optimization models for training belief-rule-based systems[J].IEEE Transactions on Systems,Man,and Cybernetics,Part A:Systems and Humans,2007,37(4):569-585.
[16] Zhou Zhiguo, Liu Fang,Jiao Licheng,et al.A bi-level belief rule based decision support system for diagnosis of lymph node metastasis in gastric cancer[J].Knowledge-Based Systems,2013,54:128-136.
[17] Calzada A,Liu J,Wang H,et al.A new dynamic rule activation method for extended belief rule-based systems[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(4):880-894.
[18] Nie Qingfeng,Jin Lizou,F(xiàn)ei Shumin,et al.Neural network for multi-class classification by boosting composite stumps[J].Neurocomputing,2015,149:949-956.
[19] Sanchez M A,Castillo O,Castro J R,et al.Fuzzy granular gravitational clustering algorithm for multivariate data[J].Information Sciences,2014,279:498-511.
[20] Shao Yuanhai,Chen Weijie,Wang Zhen,et al.Weighted linear loss twin support vector machine for large-scale classification[J].Knowledge-Based Systems,2015,73:276-288.