王 光 瓊
(四川文理學(xué)院智能制造學(xué)院 四川 達(dá)州 635000)
粗糙集理論[1]是當(dāng)今人工智能和知識(shí)發(fā)現(xiàn)領(lǐng)域的一種重要模型,在處理不確定性和不完備性的數(shù)據(jù)方面發(fā)揮著尤為重要的作用。傳統(tǒng)的粗糙集模型基于等價(jià)關(guān)系建立,通過(guò)等價(jià)關(guān)系對(duì)信息系統(tǒng)進(jìn)行劃分來(lái)達(dá)到不確定性概念的粗糙近似。然而傳統(tǒng)的粗糙集模型對(duì)噪聲數(shù)據(jù)較為敏感[1-4],不具有較好的泛化能力,為了改善這一局限,提出了一種稱(chēng)之為決策粗糙集的模型。
決策粗糙集最早由加拿大學(xué)者Yao等[5]提出,將貝葉斯決策理論融入傳統(tǒng)粗糙集模型中,使得其最終的粗糙近似結(jié)果具有最小的決策代價(jià),其中決策粗糙集的上下近似通過(guò)一對(duì)閾值來(lái)限定,相比傳統(tǒng)的粗糙集模型,該模型對(duì)噪聲數(shù)據(jù)具有更好的容忍效果。在決策粗糙集模型的基礎(chǔ)上,Yao[6]進(jìn)一步地提出了三支決策理論,建立了不確定性數(shù)據(jù)環(huán)境下一種新的決策方法。為了提高決策粗糙集模型的應(yīng)用范圍,學(xué)者們進(jìn)行了大量的改進(jìn)和推廣,例如:在分布式數(shù)據(jù)集下,Lin等[7]提出了一種多源信息系統(tǒng)的決策粗糙集模型;在不完備信息系統(tǒng)下,Liu等[8]提出了一種適用不完備數(shù)據(jù)的改進(jìn)決策粗糙集模型;Zhao等[9]針對(duì)多值信息系統(tǒng)提出一種擴(kuò)展的決策粗糙集;Feng等[10]提出一種變精度的多粒度決策粗糙集模型;在模糊數(shù)據(jù)的環(huán)境下,Sun等[11]提出了模糊集的決策粗糙集模型以及相關(guān)應(yīng)用;Zhao等[12]在其基礎(chǔ)上進(jìn)一步地提出了模糊區(qū)間值的決策粗糙集模型;劉久兵等[13]提出了直覺(jué)模糊信息系統(tǒng)的決策粗糙集模型。另一方面,數(shù)值型數(shù)據(jù)也是一種常見(jiàn)的數(shù)據(jù)類(lèi)型,Li等[14]提出了基于鄰域關(guān)系的決策粗糙集模型。因此可以看出,目前決策粗糙集模型的研究已不斷趨于完善。
混合性和不完備性是目前數(shù)據(jù)的一個(gè)典型特征,對(duì)于粗糙集理論,學(xué)者們對(duì)這種類(lèi)型的數(shù)據(jù)也進(jìn)行了廣泛的研究[15-17]。然而目前的決策粗糙集模型還未對(duì)這種類(lèi)型的數(shù)據(jù)進(jìn)行探索,因此本文將在前人研究的基礎(chǔ)上提出一種不完備混合型信息系統(tǒng)的決策粗糙集模型。
對(duì)于不完備混合型信息系統(tǒng),Zhao等[15]定義了鄰域容差關(guān)系,對(duì)這類(lèi)信息系統(tǒng)進(jìn)行了有效處理。本文采用鄰域容差關(guān)系重新對(duì)傳統(tǒng)的決策粗糙集模型進(jìn)行重構(gòu),提出不完備混合型信息系統(tǒng)下的決策粗糙集模型,同時(shí)基于該模型進(jìn)一步地提出相應(yīng)的三支決策。此外,基于最小化決策代價(jià)的原則,本文對(duì)于所提出的決策粗糙集模型設(shè)計(jì)出一種最小化決策代價(jià)的屬性約簡(jiǎn)算法。另一方面,由于三支決策提供了一種新的決策思維,本文將其融入分類(lèi)模型中,提出一種不完備混合型數(shù)據(jù)的三支決策分類(lèi)算法,該分類(lèi)算法將樣本對(duì)象的類(lèi)決策結(jié)果分成三種情況,比傳統(tǒng)的分類(lèi)算法增加延遲分類(lèi)的情形,即對(duì)于不確定性的樣本對(duì)象進(jìn)行延遲處理。仿真實(shí)驗(yàn)結(jié)果表明,所提出的三支決策分類(lèi)算法可以有效地降低分類(lèi)結(jié)果的誤分類(lèi)代價(jià),提高分類(lèi)精度,具有更高的分類(lèi)性能。
在粗糙集理論中,數(shù)據(jù)集表示成信息系統(tǒng)的形式,一個(gè)信息系統(tǒng)可表示為S=(U,At=C∪D,V),其中:U為該信息系統(tǒng)S的論域,即數(shù)據(jù)集的樣本空間;At為信息系統(tǒng)的屬性集;C為條件屬性集;D為決策數(shù)據(jù)集;V為整個(gè)信息系統(tǒng)的屬性值集域,根據(jù)V中屬性值的類(lèi)型,通??梢詫⑿畔⑾到y(tǒng)分為離散型信息系統(tǒng)、連續(xù)型信息系統(tǒng)以及混合型信息系統(tǒng)。通常信息系統(tǒng)也可簡(jiǎn)單表示為S=(U,At=C∪D)。
定義1[1]對(duì)于離散型信息系統(tǒng)S=(U,At=C∪D),基于屬性子集B?C構(gòu)建的等價(jià)關(guān)系EB定義為:
EB={(x,y)∈U×U|a(x)=a(y),?a∈B}
(1)
式中:a(x)表示對(duì)象x在屬性a下的屬性值。根據(jù)等價(jià)關(guān)系EB,可以得到任意對(duì)象的等價(jià)類(lèi),即對(duì)象x的等價(jià)類(lèi)表示為[x]B={y∈U|(x,y)∈EB}。
(2)
表1 決策代價(jià)
根據(jù)貝葉斯決策理論,Yao等通過(guò)最小化決策代價(jià)的原則,利用代價(jià)矩陣推導(dǎo)出一對(duì)閾值來(lái)進(jìn)行粗糙集模型中粗糙近似的計(jì)算,使得近似的結(jié)果擁有最小的誤分類(lèi)代價(jià),該模型即為決策粗糙集模型。
(3)
式中:θ+=max{α,β,γ};θ-=min{α,β,γ}。其中:
在決策粗糙集模型基礎(chǔ)上,Yao等進(jìn)一步地提出了三支決策模型。對(duì)于一個(gè)決策對(duì)象x,利用三支決策進(jìn)行的決策行為可以描述為:
(1) 若p(X|[x])>θ+,則x判定為X;
(2) 若θ-
在粗糙集理論中,傳統(tǒng)的模型都基于完備離散型的信息系統(tǒng)而建立,而現(xiàn)實(shí)環(huán)境下的數(shù)據(jù)類(lèi)型是復(fù)雜多樣,不完備混合型的信息系統(tǒng)便是其中常見(jiàn)的一種。Hu等[18]通過(guò)在連續(xù)型數(shù)據(jù)下建立鄰域關(guān)系,從而解決粗糙集理論對(duì)連續(xù)型以及混合型信息系統(tǒng)的處理。Kryszkiewicz[19]提出一種基于容差關(guān)系的擴(kuò)展粗糙集模型,解決了不完備信息系統(tǒng)下的粗糙集近似。在兩位學(xué)者的基礎(chǔ)上,Zhao等[15]提出了鄰域容差關(guān)系用于對(duì)不完備混合型信息系統(tǒng)的處理。
定義3[15]給定不完備混合型信息系統(tǒng)S=(U,AT),設(shè)屬性集A?AT滿(mǎn)足A=AD∪AN,其中AD和AN分別表示A下的離散型屬性集和連續(xù)型屬性集,那么屬性集A在不完備混合型信息系統(tǒng)下確定的鄰域容差關(guān)系定義為:
((a∈AD→a(x)=a(y))∧(a∈AN→d(x,y)≤δ))}
(4)
式中:d(x,y)表示對(duì)象x與y之間的距離度量[18];δ為鄰域半徑,是一個(gè)非負(fù)常數(shù);a(x)表示對(duì)象x在屬性a下的屬性值,a(x)=*表示屬性值為缺失的情形。
根據(jù)鄰域容差關(guān)系,可以對(duì)整個(gè)不完備混合型信息系統(tǒng)的論域誘導(dǎo)出一組鄰域容差?;?,鄰域容差?;慕Y(jié)果將是不完備混合型信息系統(tǒng)進(jìn)行粗糙逼近的基礎(chǔ)。
(5)
同時(shí),論域U上所有對(duì)象鄰域容差類(lèi)構(gòu)成的集合GSA={δA(x1),δA(x2),…,δA(x|U|)}稱(chēng)為該信息系統(tǒng)的一個(gè)粒結(jié)構(gòu)。顯然,GSA為論域U上的一個(gè)覆蓋。
在Zhao等提出的鄰域容差關(guān)系基礎(chǔ)上,將經(jīng)典的決策粗糙集進(jìn)行推廣,提出不完備混合型信息系統(tǒng)下的決策粗糙集模型,同時(shí)相應(yīng)的三支決策也被提出。
在鄰域量化容差關(guān)系中,將對(duì)象x∈U的鄰域容差類(lèi)δ(x)看成與該對(duì)象屬于同一類(lèi)的對(duì)象集,因此在不完備混合型信息系統(tǒng)中,對(duì)于一個(gè)對(duì)象x隸屬于某個(gè)對(duì)象集X的概率可表示為:
(6)
基于該定義框架,本文構(gòu)造了不完備混合型信息系統(tǒng)的決策粗糙集模型以及相應(yīng)的三支決策。
(7)
因此,可以得到如下三種最小代價(jià)規(guī)則:
POSδ(X)、BUNδ(X)和NEGδ(X)分別表示X的δ正區(qū)域、邊界域和負(fù)區(qū)域。
所以,可以進(jìn)一步得到:
λPP·p(X|δ(x))+λPN·(1-p(X|δ(x)))≤
λBP·p(X|δ(x))+λBN·(1-p(X|δ(x)))?
且:
λPP·p(X|δ(x))+λPN·(1-p(X|δ(x)))≤
λNP·p(X|δ(x))+λNN·(1-p(X|δ(x)))?
λBP·p(X|δ(x))+λBN·(1-p(X|δ(x)))≤
λPP·p(X|δ(x))+λPN·(1-p(X|δ(x)))?
且:
λBP·p(X|δ(x))+λBN·(1-p(X|δ(x)))≤
λNP·p(X|δ(x))+λNN·(1-p(X|δ(x)))?
λNP·p(X|δ(x))+λNN·(1-p(X|δ(x)))≤
λPP·p(X|δ(x))+λPN·(1-p(X|δ(x)))?
且:
λNP·p(X|δ(x))+λNN·(1-p(X|δ(x)))≤
λBP·p(X|δ(x))+λBN·(1-p(X|δ(x)))?
這里令:
(8)
則有:
(1) 若p(X|δ(x))≥α且p(X|δ(x))≥γ,那么x∈POSδ(X);
(2) 若p(X|δ(x))≤α且p(X|δ(x))≥β,那么x∈BUNδ(X);
(3) 若p(X|δ(x))≤β且p(X|δ(x))≤γ,那么x∈NEGδ(X)。
特別地,若代價(jià)函數(shù)滿(mǎn)足如下關(guān)系:
那么此時(shí)有0≤β<γ<α≤1,則上述三個(gè)規(guī)則即為:
(1) 若p(X|δ(x))≥α,則x∈POSδ(X);
(2) 若β≤p(X|δ(x))≤α,則x∈BUNδ(X);
(3) 若p(X|δ(x))≤β,則x∈NEGδ(X)。
根據(jù)以上推導(dǎo)的這三條規(guī)則,可以直接得到不完備混合型信息系統(tǒng)下的決策粗糙集模型,同時(shí)也蘊(yùn)含了不完備混合型信息系統(tǒng)下三支決策。
(9)
(10)
(11)
另一方面,根據(jù)本文所提出決策粗糙集模型的三個(gè)區(qū)域劃分,這里便得到了不完備混合型信息系統(tǒng)下的三支決策。對(duì)于目標(biāo)決策結(jié)果X和待決策的對(duì)象x,那么:
(1) 若對(duì)象x滿(mǎn)足目標(biāo)決策結(jié)果X的決策條件,即p(X|δ(x))>θ+,那么接受對(duì)象x判定為X,即x∈POSθ+(X);
(2) 若對(duì)象x不滿(mǎn)足目標(biāo)決策結(jié)果X的決策條件,即p(X|δ(x))<θ-,那么拒絕對(duì)象x判定為X,即x∈NEGθ-(X);
(3) 若對(duì)象x不確定是否滿(mǎn)足目標(biāo)決策結(jié)果X的決策條件,即θ-≤p(X|δ(x))≤θ+,那么延遲對(duì)象x的判定,即x∈BUN(θ-,θ+)(X),待得到更多信息后再進(jìn)行確定。
(12)
(13)
(14)
證明:
因此(1)成立。
(3) 由于:
綜合(1)、(2)可以得到:
因此(3)成立。
證畢。
性質(zhì)1表明了本文所提出決策粗糙集三個(gè)區(qū)域的單調(diào)性。基于三支決策的視角,性質(zhì)1中的式(12)表明當(dāng)決策的接受閾值θ+越大,即接受的決策條件越為苛刻,那么最終可接受的對(duì)象越少。式(13)表明當(dāng)決策的拒絕閾值θ-越小,即拒絕的決策條件越為苛刻,那么最終拒絕的對(duì)象越少。式(14)表明接受決策閾值越大且拒絕決策閾值越小時(shí),即接受決策和拒絕決策都比較嚴(yán)格時(shí),那么延遲決策的程度就比較寬松。相反,接受決策閾值越小且拒絕決策閾值越大時(shí),即接受決策和拒絕決策都比較寬松時(shí),那么延遲決策的程度就比較嚴(yán)格,這表現(xiàn)出了兩種不同的決策態(tài)度。由于決策粗糙集中的閾值θ-和θ+直接由分類(lèi)代價(jià)矩陣直接確定,那么代價(jià)的取值不同就決定了三支決策的決策態(tài)度。
屬性約簡(jiǎn)是粗糙集理論的重要研究?jī)?nèi)容,在決策粗糙集模型中,基于最小代價(jià)的屬性約簡(jiǎn)是目前的研究熱點(diǎn)[20-22]。
(15)
基于最小化代價(jià)的屬性約簡(jiǎn)定義如下:
定義7給定不完備混合型決策信息系統(tǒng)為S=(U,AT=C∪D),設(shè)鄰域半徑為δ,由決策代價(jià)確定的一對(duì)閾值分別為θ-和θ+。若屬性子集A?C是該信息系統(tǒng)的最小代價(jià)屬性約簡(jiǎn),那么當(dāng)且僅當(dāng):
(1)CostA≤CostC;
(2) ?A′?A,CostA′>CostA。
在定義7中,條件(1)表明屬性約簡(jiǎn)集的決策代價(jià)小于屬性全集的決策代價(jià);條件(2)展示了屬性約簡(jiǎn)集決策代價(jià)的極小性,即屬性約簡(jiǎn)集的決策代價(jià)在所有屬性子集中是最小的。
啟發(fā)式搜索是尋找信息系統(tǒng)約簡(jiǎn)集的一種常用方法,其中啟發(fā)式函數(shù)的構(gòu)造是該方法的核心。本節(jié)將通過(guò)決策代價(jià)Cost構(gòu)造出一種屬性約簡(jiǎn)的啟發(fā)式函數(shù)。
給定不完備混合型決策信息系統(tǒng)為S=(U,AT=C∪D),設(shè)屬性集A?C,對(duì)于?a∈A關(guān)于屬性集A的屬性重要度定義為:
(16)
利用sigA(a)作為啟發(fā)式函數(shù)設(shè)計(jì)出的最小代價(jià)屬性約簡(jiǎn)算法如算法1所示。
算法1不完備混合型信息系統(tǒng)下決策粗糙集模型的最小代價(jià)屬性約簡(jiǎn)
輸入:不完備混合型信息系統(tǒng)S=(U,AT=C∪D);決策代價(jià)矩陣C,鄰域半徑δ。
輸出:屬性約簡(jiǎn)集R。
步驟1初始化R=?。
步驟2對(duì)于?a∈C,計(jì)算a的屬性重要度sigC(a),并將屬性集C按照屬性重要度從大到小進(jìn)行排序,排序后的屬性集記為C′。
步驟3選擇屬性集C′中屬性重要度最大的屬性at,若CostR∪{at}>CostC,那么進(jìn)行C′←C′-{at}且R←R∪{at},并重新進(jìn)入步驟3,若CostR∪{at}≤CostC,那么R←R∪{at}并進(jìn)入步驟4。
步驟4對(duì)于屬性集?r∈R,若滿(mǎn)足關(guān)系CostR-{r}≤CostR,那么進(jìn)行R←R-{r}。
步驟5返回結(jié)果R。
Hu等[23]通過(guò)鄰域粗糙集模型構(gòu)造出了混合型數(shù)據(jù)的鄰域分類(lèi)算法,實(shí)驗(yàn)證明該算法具有較好的分類(lèi)效果。本文在該分類(lèi)算法的基礎(chǔ)上,將三支決策思想融入其中,提出基于三支決策方法的數(shù)據(jù)分類(lèi)模型。
三支決策是在經(jīng)典的貝葉斯決策模型基礎(chǔ)上的推廣,它將決策對(duì)象的決策結(jié)果分成三個(gè)部分,分別為接受、拒絕和延遲,確定這三種決策結(jié)果則通過(guò)決策粗糙集模型中的閾值θ-和θ+來(lái)實(shí)現(xiàn)。把數(shù)據(jù)的分類(lèi)也看成對(duì)數(shù)據(jù)類(lèi)別的決策,因此利用三支決策模型來(lái)用于數(shù)據(jù)的分類(lèi),可以描述成如下形式:
對(duì)于二分類(lèi)問(wèn)題,設(shè)一個(gè)訓(xùn)練樣本集為Data,其中樣本包含兩種類(lèi)別,分別記為正類(lèi)別和負(fù)類(lèi)別,并且Data中正類(lèi)別樣本集表示為D+,負(fù)類(lèi)別樣本集表示為D-。對(duì)于一個(gè)待標(biāo)記類(lèi)別的樣本對(duì)象x,δ(x)為對(duì)象x在樣本集Data中的鄰域類(lèi),那么基于三支決策模型對(duì)象x的判定規(guī)則為:
(1) 若p(D+|δ(x))>θ+,x判定為正類(lèi)別;
(2) 若p(D+|δ(x))≤θ-,x判定為負(fù)類(lèi)別;
(3) 若θ-
對(duì)于多分類(lèi)情形,可以不斷將其轉(zhuǎn)換成多個(gè)二分類(lèi)問(wèn)題進(jìn)行處理,因此基于三支決策模型的多分類(lèi)判定規(guī)則為:
(1) 若p(Dmax|δ(x))>θ+,x判定為Dmax;
(2) 若p(Dmax|δ(x))≤θ-,x不判定為任何類(lèi);
(3) 若θ-
根據(jù)如上判定規(guī)則,不完備混合型信息系統(tǒng)的三支決策分類(lèi)算法如算法2所示。
算法2不完備混合型信息系統(tǒng)的三支決策分類(lèi)算法
輸出:對(duì)象x的類(lèi)別。
步驟1根據(jù)決策代價(jià)矩陣C計(jì)算決策閾值θ-和θ+。
步驟2根據(jù)算法1對(duì)原信息系統(tǒng)S進(jìn)行最小化代價(jià)屬性約簡(jiǎn),得到約簡(jiǎn)結(jié)果R。
步驟3計(jì)算對(duì)象x在論域U中屬性集R下的鄰域類(lèi)δR(x)。
步驟4判斷p(Dmax|δR(x))與θ+之間的關(guān)系:
1) 若p(Dmax|δR(x))>θ+,那么x判定為Dmax;
2) 若θ-
3) 若p(Dmax|δR(x))≤θ-那么x不判定為任何類(lèi)。
步驟5返回對(duì)象x的類(lèi)別。
表2為實(shí)驗(yàn)中所使用的數(shù)據(jù)集,這10個(gè)數(shù)據(jù)集均來(lái)源于UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù),其中:Mushroom為只包含離散型屬性的數(shù)據(jù)集;Wine、Sonar和Musk為只包含連續(xù)型屬性的數(shù)據(jù)集;其余為混合型屬性的數(shù)據(jù)集。部分?jǐn)?shù)據(jù)集為完備型的數(shù)據(jù)集,本實(shí)驗(yàn)選擇其中5%的屬性值進(jìn)行刪除,從而構(gòu)造出不完備的數(shù)據(jù)集,同時(shí),為了避免連續(xù)型屬性量綱帶來(lái)的影響,在實(shí)驗(yàn)前將所有數(shù)據(jù)集的連續(xù)型屬性標(biāo)準(zhǔn)化至[0,1]區(qū)間。
表2 實(shí)驗(yàn)數(shù)據(jù)集
在本文提出的三支決策分類(lèi)算法中,決策代價(jià)矩陣發(fā)揮著很重要的作用,實(shí)驗(yàn)采用在[0,1]之間取隨機(jī)值的方法進(jìn)行選取,選取的決策代價(jià)滿(mǎn)足如下關(guān)系:
(17)
本實(shí)驗(yàn)將所提出的三支決策分類(lèi)算法與支持向量機(jī)分類(lèi)算法(SVM)、決策樹(shù)分類(lèi)算法(C4.5)、樸素貝葉斯分類(lèi)算法(NB)和鄰域粗糙集分類(lèi)算法[23](NRSC)進(jìn)行實(shí)驗(yàn)比較,其中比較結(jié)果通過(guò)分類(lèi)精度Acc、F度量和誤分類(lèi)MCost代價(jià)來(lái)體現(xiàn),計(jì)算式表示為:
(18)
式中:nPP表示被分類(lèi)正確的對(duì)象數(shù);nNP表示被錯(cuò)誤分類(lèi)的對(duì)象數(shù);nBP表示被待定的對(duì)象數(shù)。
在本文所提出的三支決策分類(lèi)算法中,鄰域半徑是一個(gè)較為關(guān)鍵的參數(shù),它的取值不同對(duì)最終的實(shí)驗(yàn)結(jié)果將產(chǎn)生很大的影響,因此在進(jìn)行實(shí)驗(yàn)之前需要對(duì)鄰域半徑的大小進(jìn)行確定。由于連續(xù)型屬性已標(biāo)準(zhǔn)化至[0,1]區(qū)間,本實(shí)驗(yàn)將鄰域半徑δ在區(qū)間[0,0.3]中以0.02為間隔分別進(jìn)行取值,將選取的每個(gè)值對(duì)所有數(shù)據(jù)集進(jìn)行十折交叉分類(lèi),這樣便得到對(duì)應(yīng)的分類(lèi)精度結(jié)果。圖1為每個(gè)數(shù)據(jù)集在不同鄰域半徑下得到分類(lèi)精度結(jié)果。
圖1 不同鄰域半徑下各個(gè)數(shù)據(jù)集的分類(lèi)精度
觀(guān)察圖1的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)當(dāng)鄰域半徑選取為0.10時(shí)可以得到較好的分類(lèi)結(jié)果,因此本實(shí)驗(yàn)選擇δ=0.10進(jìn)行實(shí)驗(yàn)。
表3為本文的三支決策分類(lèi)算法與SVM、C4.5、NB和NRSC算法對(duì)每個(gè)數(shù)據(jù)集通過(guò)十折交叉法得到的分類(lèi)精度Acc,結(jié)果通過(guò)“均值±標(biāo)準(zhǔn)差”來(lái)表示,最高的分類(lèi)精度已用粗體表示。觀(guān)察表3的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文算法在大部分?jǐn)?shù)據(jù)集下?lián)碛凶罡叩姆诸?lèi)精度;SVM在少部分?jǐn)?shù)據(jù)集下?lián)碛凶罡叩姆诸?lèi)精度,例如數(shù)據(jù)集Sonar和Credit;NB算法在數(shù)據(jù)集German中擁有最高的分類(lèi)精度。因此本文算法具有更高的分類(lèi)準(zhǔn)確度,這主要是由于分類(lèi)機(jī)制的差異導(dǎo)致的。SVM擁有較好的分類(lèi)性能,但是它是一種二支分類(lèi)模型,即對(duì)象的分類(lèi)的結(jié)果只有兩種,標(biāo)記為特定的類(lèi)或不標(biāo)記為特定的類(lèi),對(duì)于處于類(lèi)之間的對(duì)象,可能會(huì)出現(xiàn)誤分類(lèi)情形。而本文算法對(duì)于確定的對(duì)象直接進(jìn)行分類(lèi),對(duì)于類(lèi)與類(lèi)之間的模糊對(duì)象,通過(guò)進(jìn)行延遲處理的方式,減少誤分類(lèi)的情況,因而在大部分?jǐn)?shù)據(jù)集下?lián)碛懈叩姆诸?lèi)精度。
表3 分類(lèi)精度Acc比較結(jié)果
表4給出了三支決策分類(lèi)算法與SVM、C4.5、NB和NRSC算法對(duì)每個(gè)數(shù)據(jù)集進(jìn)行分類(lèi)的F度量結(jié)果,其中最高的結(jié)果值已用粗體表示。觀(guān)察表4可以發(fā)現(xiàn),SVM分類(lèi)算法在大部分?jǐn)?shù)據(jù)集下?lián)碛凶罡叩亩攘恐担疚乃惴ㄔ谒袛?shù)據(jù)集中都擁有較小的F度量結(jié)果,這主要是由于參與比較的分類(lèi)算法對(duì)待分類(lèi)的對(duì)象都進(jìn)行了具體的類(lèi)別判定,不存在延遲判定的情況,即nBP=0,因此Cov始終等于1,而本文算法會(huì)對(duì)有的對(duì)象進(jìn)行延遲判別,因而nBP≥0,那么Cov≤1,因此F值會(huì)偏小。
表4 F度量比較結(jié)果
表5為所有算法對(duì)每個(gè)數(shù)據(jù)集分類(lèi)結(jié)果的誤分類(lèi)代價(jià)MCost比較結(jié)果,其中最低的誤分類(lèi)代價(jià)MCost已用粗體表示。觀(guān)察表5可以發(fā)現(xiàn),本文算法在所有的數(shù)據(jù)集下都擁有最小的誤分類(lèi)代價(jià),其他分類(lèi)算法的誤分類(lèi)代價(jià)都高于本文算法。主要原因是本文算法增加延遲分類(lèi)的判別結(jié)果,處于類(lèi)邊界的對(duì)象進(jìn)行延遲決策,減少誤分類(lèi)的情況,而其他傳統(tǒng)的分類(lèi)算法對(duì)這類(lèi)情形可能會(huì)將判別對(duì)象分類(lèi)入其他錯(cuò)誤的類(lèi),而進(jìn)行延遲分類(lèi)的代價(jià)要小于錯(cuò)誤分類(lèi)的代價(jià),因此本文算法的誤分類(lèi)代價(jià)要更小。
表5 誤分類(lèi)代價(jià)MCost比較結(jié)果
綜合實(shí)驗(yàn)結(jié)果表明,本文提出的三支決策分類(lèi)算法在不完備混合型數(shù)據(jù)下具有較好的分類(lèi)效果。
決策粗糙集是目前粗糙集理論研究的重點(diǎn)模型。由于現(xiàn)實(shí)應(yīng)用環(huán)境下數(shù)據(jù)往往都是不完備混合類(lèi)型,本文將傳統(tǒng)的決策粗糙集模型進(jìn)行推廣,提出不完備混合型信息系統(tǒng)下的決策粗糙集模型,構(gòu)建該模型框架下的三支決策,并設(shè)計(jì)出該模型的一種最小化代價(jià)屬性約簡(jiǎn)算法?;谒岢龅娜Q策,提出一種不完備混合型數(shù)據(jù)的三支決策分類(lèi)算法。實(shí)驗(yàn)分析表明,所提出的三支決策分類(lèi)算法比其他傳統(tǒng)的分類(lèi)算法具有更高的分類(lèi)精度、較小的誤分類(lèi)代價(jià)和更高的優(yōu)越性。動(dòng)態(tài)性也是現(xiàn)實(shí)數(shù)據(jù)集的重要特征,因此接下來(lái)將進(jìn)一步研究不完備混合型數(shù)據(jù)決策粗糙集的增量式學(xué)習(xí)問(wèn)題。