摘 要:針對鄰域粗糙集模型受鄰域參數(shù)影響大、刻畫樣本信息時不夠精細(xì)等問題,提出了一種基于最大聯(lián)盟理論的粗糙集模型。在標(biāo)準(zhǔn)化鄰域信息系統(tǒng)后,引入最大聯(lián)盟集來描述鄰域顆粒信息,使得鄰域粗糙集模型對信息的劃分更加精細(xì),從而顯著降低了邊界域的不確定性。將該模型與三支聚類相結(jié)合,設(shè)計了一種基于最大聯(lián)盟粗糙集的三支聚類算法。在6個UCI公共數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),結(jié)果表明,所提算法相較于對比算法具有更好的聚類質(zhì)量,在處理邊界域樣本時具有更高的比較正確率。
關(guān)鍵詞:標(biāo)準(zhǔn)化鄰域信息系統(tǒng); 最大聯(lián)盟集; 領(lǐng)域粗糙集; 邊界域; 三支聚類; 比較正確率
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)08-007-2292-09
doi:10.19734/j.issn.1001-3695.2023.12.0582
Three-way clustering algorithm based on maximum coalition rough set
Chen Zhiqi1, Wan Renxia1, Yue Xiaodong2, Chen Ruidian3
(1.College of Mathematics & Information Science, North Minzu University, Yinchuan 750021, China; 2.School of Computer Engineering & Science, Shanghai University, Shanghai 200444, China; 3.Hongyang Institute for Big Data in Health, Fuzhou 350002, China)
Abstract:In order to address the limnK9/OI5+92Gg3hqxzIj3st+kscQHWd+Vpo2yVP+X3yw=itations of the neighborhood rough set model caused by neighborhood parameters and inadequate sample information representation, this paper proposed a rough set model based on the maximum coalition theory. By normalizing the neighborhood information system and utilizing the maximum coalition set to describe neighborhood granular information, the proposed model enabled finer information division and significant reduction of uncertainty in the boundary region. Combining the model with three-way clustering, this paper designed a three-way clustering algorithm based on maximum coalition rough set. Comparative experiments on six UCI public data sets show that the proposed algorithm has better clustering quality than the comparison algorithms, and has higher comparison accuracy when dealing with boundary region samples.
Key words:standardized neighborhood information system; maximum coalition set; neighborhood rough sets; boundary region; three-way clustering; comparison accuracy
0 引言
粗糙集理論是在1982年由波蘭數(shù)學(xué)家Pawlak教授[1]提出的一種用于處理不確定性知識或不一致信息的數(shù)據(jù)推理方法。經(jīng)典Pawlak粗糙集模型是以等價關(guān)系和等價類為基礎(chǔ)的一種粒度計算模型,用于處理名義型數(shù)據(jù),而無法直接處理數(shù)值型數(shù)據(jù)。為了突破這種限制,一些學(xué)者延伸拓展出了更多其他類型的粗糙集模型。Yao等人[2]通過引入條件概率提出了決策粗糙集模型。Azam等人[3]通過權(quán)衡策略將邊界域內(nèi)的樣本劃分給正域或負(fù)域時的不確定性,使之達(dá)到最佳平衡,提出了博弈粗糙集模型。Lin[4]結(jié)合拓?fù)鋵W(xué)中內(nèi)點(diǎn)和閉包的知識,提出了鄰域模型的概念,該模型將空間中點(diǎn)的鄰域作為基本信息粒子對論域進(jìn)行粒化。文獻(xiàn)[5,6]分別提出了1-step鄰域和k-step鄰域,并對鄰域信息系統(tǒng)的性質(zhì)進(jìn)行了詳細(xì)討論。胡清華等人[7]將鄰域的概念引入到粗糙集理論中,用鄰域關(guān)系代替嚴(yán)格的等價關(guān)系,提出了能夠處理混合型數(shù)據(jù)的鄰域粗糙集模型。Lin等人[8]將鄰域粗糙集和多粒度粗糙集相結(jié)合,構(gòu)造了鄰域多粒度粗糙集模型。Wang等人[9]基于鄰域的思想,定義了局部近似集,提出了局部鄰域粗糙集模型。Wang等人[10]結(jié)合了δ鄰域和k近鄰顆粒的優(yōu)點(diǎn),提出了k最近鄰域粗糙集模型。當(dāng)前,鄰域粗糙集已成為處理數(shù)值數(shù)據(jù)被廣泛使用的粗糙集模型之一。
聚類分析[11]是數(shù)據(jù)挖掘中的一項(xiàng)重要技術(shù),是一種無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),已經(jīng)廣泛地應(yīng)用于多個領(lǐng)域,如模式識別、圖像處理、統(tǒng)計學(xué)、生物信息學(xué)、信息粒化等。所謂聚類,就是將數(shù)據(jù)集中相似度高的樣本劃分到相同類簇,相似度低的樣本劃分到不同類簇。大多數(shù)的傳統(tǒng)聚類算法都是硬聚類算法,要求聚類結(jié)果具有清晰的邊界,即元素要么屬于一個類,要么不屬于一個類。然而,在處理不確定信息時,考慮到當(dāng)前可用信息的不充分性,若強(qiáng)制將元素劃分到某個類中,通常會導(dǎo)致較高的錯誤率或決策風(fēng)險。
目前,已經(jīng)有許多新的聚類策略被提出,用來解決傳統(tǒng)聚類方法存在的問題。Yao[12]于2010年提出了一種符合人類認(rèn)知能力的三支決策模型,為粗糙集的正域、負(fù)域、邊界域提供了合理的語義解釋。錢文彬等人[13]針對不完備混合決策系統(tǒng)構(gòu)造了三種決策風(fēng)險下的三支決策模型。呂艷娜等人[14]通過改變粒度選擇方式重新構(gòu)建多粒度空間,提出了基于深度置信網(wǎng)絡(luò)的代價敏感多粒度三支決策模型。于洪[15]將三支決策思想融入到傳統(tǒng)聚類中,提出了一種基于K-means的三支決策聚類算法,用核心域、邊界域和瑣碎域來表示一個類簇。劉強(qiáng)等人[16]利用元素的鄰域在二支聚類的結(jié)果上進(jìn)行收縮和擴(kuò)張,提出了一種基于ε鄰域的三支聚類算法。萬仁霞等人[17]考慮分類錯誤的風(fēng)險代價,將數(shù)據(jù)對象屬于各個類簇的后驗(yàn)概率作為決策評價函數(shù),提出了基于三支決策的高斯混合聚類算法?;ㄓ龃旱热耍?8]利用樸素貝葉斯確定兩樣本的共現(xiàn)概率,提出了基于共現(xiàn)概率的三支聚類模型。申秋萍等人[19]通過考慮近鄰的標(biāo)簽,對二支聚類結(jié)果的臨界點(diǎn)和噪聲點(diǎn)進(jìn)行重新劃分,提出了基于局部半徑的三支DBSCAN算法。相比于傳統(tǒng)的聚類方法,三支聚類在處理不確定性和模糊性較高的數(shù)據(jù)時更具優(yōu)勢,更能適應(yīng)實(shí)際情況中存在的多樣性和交叉性。
Pawlak[20]定義了具有支持、中立、反對評價的三值信息系統(tǒng),給出了三值信息系統(tǒng)中計算輔助函數(shù)和距離函數(shù)的方法,用于確定不同代理間的沖突、中立和聯(lián)盟關(guān)系。然而,在任意聯(lián)盟集中,給定代理與其他代理之間都存在聯(lián)盟關(guān)系,但并非所有代理之間都是兩兩聯(lián)盟的。為此,Lang等人[21]在決策粗糙集理論的基礎(chǔ)上,提出了動態(tài)信息系統(tǒng)中的概率沖突集、中立集和聯(lián)盟集的增量構(gòu)造方法,并給出了最大聯(lián)盟集的概念,使得最大聯(lián)盟集中任意兩代理之間都滿足聯(lián)盟關(guān)系。郭淑蓉[22]針對計算最大聯(lián)盟集時運(yùn)算量較大的問題,通過將參數(shù)β區(qū)間化,把無限多個最大聯(lián)盟集的計算問題減少為有限多個,從而提高了計算效率。羅珺方等人[23]在不完備異構(gòu)沖突信息系統(tǒng)中,定義了極大一致聯(lián)盟區(qū)間集族,并利用極大團(tuán)的枚舉算法進(jìn)行獲取。
使用粗糙集模型刻畫樣本信息時,本文希望通過壓縮邊界域來減少信息的不確定性,以提高分類精度。而最大聯(lián)盟集使得數(shù)據(jù)對象之間的關(guān)系更加緊密,且相較于δ鄰域顆粒信息,可以更為細(xì)致地刻畫樣本信息,為解決不確定性問題提供了新的思路。本文通過引入最大聯(lián)盟集的相關(guān)概念,提出了基于最大聯(lián)盟的鄰域粗糙集模型,并基于該模型設(shè)計了一種新的三支聚類算法。
1 預(yù)備知識
1.1 鄰域粗糙集
在決策分析中,通常各指標(biāo)間的計量單位和數(shù)量級不盡相同,從而使得各指標(biāo)之間不具備綜合性,數(shù)據(jù)標(biāo)準(zhǔn)化旨在消除各指標(biāo)量綱之間的影響,有助于確保數(shù)據(jù)的質(zhì)量和一致性。
定義1 設(shè)NS=(U,A,V,f,δ)為一個鄰域信息系統(tǒng),其中論域U={x1,x2,…,xn},屬性集A=C∪D,C是條件屬性,D是決策屬性,值域V={Va|a∈A},f:U×A→V為信息函數(shù),f(x,a)表示對象x在屬性a上的值,δ為鄰域半徑。對于任意實(shí)數(shù)p∈[1,+∞),ak∈A,xiU,映射函數(shù)(xi,ak)定義如下:
(xi,ak)=f(xi,ak)-fmin(x,ak)fmax(x,ak)-fmin(x,ak)×1pn
其中:fmax(x,ak)和fmin(x,ak)分別為對象x在屬性ak上的最大值和最小值。
映射函數(shù)將所有數(shù)據(jù)信息縮放到區(qū)間[0,1/pn]上,起到了標(biāo)準(zhǔn)化作用。后文中,本文用NSnorm=(U,A,V,f,δ)表示NS=(U,A,V,f,δ)標(biāo)準(zhǔn)化后的鄰域信息系統(tǒng)。
定義2[7] 設(shè)鄰域信息系統(tǒng)NSnorm=(U,A,V,f,δ),對于ak∈A,xi,xj∈U,則xi和xj之間的距離函數(shù)Δ(xi,xj)為
Δ(xi,xj)=(∑nk=1(xi,ak)-(xj,ak)p)1p
其中:當(dāng)p=1時,為曼哈頓距離;當(dāng)p=2時,為歐氏距離;當(dāng)p=3時,為切比雪夫距離。
性質(zhì)1 設(shè)鄰域信息系統(tǒng)NSnorm=(U,A,V,f,δ),對于xi,xj∈U,有0≤Δ(xi,xj)≤1。
證明 由定義1可知,0≤f(xi,ak)≤1/pn≤1,則0≤f(xi,ak)-f(xj,ak)≤1/pn。對于p∈[1,+∞),有0≤f(xi,ak)-f(xj,ak)p≤1/n,則0≤∑nk=1f(xi,ak)-f(xj,ak)p≤1,故而0≤(∑nk=1f(xi,ak)-f(xj,ak)p)1p≤1。
定義3[7] 設(shè)鄰域信息系統(tǒng)NS=(U,A,V,f,δ),對于xi∈U,特征子集BA,xi在B上的δ鄰域定義如下:δB(xi)={xj|xj∈U,ΔB(xi,xj)≤δ}
其中:ΔB(xi,xj)表示在特征子集B上xi和xj之間的距離,樣本xi的鄰域是由距離函數(shù)Δ、鄰域半徑δ和屬性集合B共同決定的。
定義4[7] 設(shè)鄰域信息系統(tǒng)NS=(U,A,V,f,δ),對于BA,XU,則X關(guān)于B的鄰域下近似集、上近似集、正域、負(fù)域和邊界域分別為
下近似集:NB(X)={xi|δB(xi)X,xi∈U}
上近似集:B(X)={xi|δB(xi)∩X≠,xi∈U}
正域:POSB(X)=N(X)
負(fù)域:NEGB(X)=U-(X)
邊界域:BNB(X)=(X)-N(X)
其中:(NB(X),B(X))稱為δ鄰域粗糙集。
1.2 最大聯(lián)盟集
定義5[21] 設(shè)鄰域信息系統(tǒng)NS=(U,A,V,f,δ),閾值α、β滿足0≤β<α≤1,對于BA,xU,x的概率沖突集、中立集和聯(lián)盟集分別為
a)沖突集:COαβ(x)={y∈U|ΔB(x,y)>α};
b)中立集:NEαβ(x)={y∈U|α≥ΔB(x,y)≥β};
c)聯(lián)盟集:ALαβ(x)={y∈U|ΔB(x,y)<β}。
由定義5可得,若β=δ,則ALαβ(x)=δ(x),即x的概率聯(lián)盟集就是x的δ鄰域。
定義6[21] 設(shè)鄰域信息系統(tǒng)NS=(U,A,V,f,δ),閾值α、β滿足0≤β<α≤1,BA,XU:
a)若x,y∈X,ΔB(x,y)<β,則稱X為一個聯(lián)盟集;
b)若X為一個聯(lián)盟集,并且不存在聯(lián)盟集Y,使得XY,則稱X為一個最大聯(lián)盟集。
定理1[21] 設(shè)鄰域信息系統(tǒng)NS=(U,A,V,f,δ),XU且0≤β≤α≤1,則X為最大聯(lián)盟集的充要條件為
∩x∈XALαβ(x)=X
命題1[21] 設(shè)鄰域信息系統(tǒng)NS=(U,A,V,f,δ),MC={MC1,MC2,…,MCp}是論域U中全體最大聯(lián)盟集的集合,則
∩1≤i≤pMCi=U
1.3 三支聚類
Yu等人將三支決策引入到聚類算法中,提出了三支聚類方法。給定一個數(shù)據(jù)集U={x1,x2,…,xn},可獲得聚類結(jié)果C={C1,C2,…,Ck}。三支聚類在傳統(tǒng)的二支聚類結(jié)果中加入了邊界域的概念,用三個互不相交的集合表示一個類,即Co(Ci)、Fr(Ci)與Tr(Ci),分別稱為類Ci的核心域、邊界域和瑣碎域。其中,核心域中的對象確定屬于這個類,邊界域中的對象可能屬于這個類,瑣碎域中的元素肯定不屬于這個類,它們滿足如下性質(zhì):
a)Co(Ci)≠,i=1,2,…,k。
b)∪ki=1(Co(Ci)∪Fr(Ci))=U。
c)Co(Ci)∩Co(Cj)=,i≠j。
其中:性質(zhì)a)要求每個類簇的核心域不能為空;性質(zhì)b)確保所有對象都能被有效劃分;性質(zhì)c)要求不同類簇的核心域之間沒有交集。
三支聚類的結(jié)果表示如下:
TC={(Co(C1),F(xiàn)r(C1)),(Co(C2),F(xiàn)r(C2)),…,(Co(Ck),F(xiàn)r(Ck))}
劉強(qiáng)等人[16]利用每個類中元素的δ鄰域進(jìn)行收縮和擴(kuò)張,提出了一種基于動態(tài)鄰域的三支聚類算法。該算法的大致流程如下:
a)利用硬聚類算法對U進(jìn)行聚類,得到聚類結(jié)果C={C1,C2,…,Ck};
b)對于每一類Ci,任取xj∈Ci,若δ(xj)Ci,則xj∈Co(Ci),否則xj∈Fr(Ci);
c)對于每一類Ci,任取xjCi,若δ(xj)∩Ci≠,則xj∈Fr(Ci);
d)得到最終聚類結(jié)果為
TC={(Co(C1),F(xiàn)r(C1)),(Co(C2),F(xiàn)r(C2)),…,(Co(Ck),F(xiàn)r(Ck))}
2 基于最大聯(lián)盟粗糙集的三支聚類
本章定義了最大聯(lián)盟集的緊致度公式,用于確定每個對象最緊致的最大聯(lián)盟集,并將其作為一種新的鄰域顆粒信息與粗糙集模型相結(jié)合,構(gòu)造了最大聯(lián)盟粗糙集模型,然后將該模型應(yīng)用于聚類分析中,提出了基于最大聯(lián)盟的三支聚類算法。
2.1 基于最大聯(lián)盟的粗糙集模型
給定鄰域信息系統(tǒng)NSnorm=(U,A,V,f,δ),MC={MC1,MC2,…,MCp}是論域U中全體最大聯(lián)盟集的集合,MC(xi)={MC1(xi),MC2(xi),…,MCt(xi)}是論域U中包含xi的所有最大聯(lián)盟集的集合,其中t≤p。
定義7 樣本點(diǎn)xi的局部密度為
ρ(xi)=MCk(xi)∑xj∈MCk(xi)exp(-dij) if MCk(xi)>10if MCk(xi)=1
其中:|MCk(xi)|表示xi的最大聯(lián)盟集中的樣本點(diǎn)數(shù)量;dij表示樣本點(diǎn)xi與xj之間的距離,樣本點(diǎn)xi的局部密度是由集合的樣本數(shù)量和各點(diǎn)到該樣本點(diǎn)的距離共同決定的。
定義8 x,y∈MCk(xi),最大聯(lián)盟集MCk(xi)的緊致度定義如下:
Euclid Math OneTAp(MCk(xi))=ρ(xi)+12∑x∑yexp(-d(x,y))
分析上式可知,Euclid Math OneTAp反映了最大聯(lián)盟集MCk(xi)在空間中的緊密程度。將MC(xi)按緊致度從大到小依次排列{MC1′(xi),MC2′(xi),…,MCt′(xi)},得到與xi緊密程度最高的最大聯(lián)盟集MCbest(xi)=MC1′(xi)。
定義9 設(shè)NSnorm=(U,A,V,f,δ)是鄰域信息系統(tǒng),XU,定義X基于最大聯(lián)盟集的下近似集、上近似集、正域、負(fù)域和邊界域分別為
下近似集:M(X)={xi|MCbest(xi)X,xi∈U}
上近似集:(X)={xi|MCbest(xi)∩X≠,xi∈U}
正域:MPOS(X)=M(X)
負(fù)域:MNEG(X)=U-(X)
邊界域:BM(X)=(X)-M(X)
稱(M(X),(X))為最大聯(lián)盟粗糙集。
如圖1所示,采用δ鄰域和最大聯(lián)盟集分別刻畫樣本x的鄰域信息,其中,實(shí)心圓形和實(shí)心三角形分別代表兩類樣本,實(shí)線圓圈表示x的δ鄰域,虛線圓圈表示x的3個最大聯(lián)盟集,紅色虛線圓則表示與x緊密程度最高的最大聯(lián)盟集(參見電子版)。觀察x的δ鄰域,可以發(fā)現(xiàn)兩種類型的樣本都包含其中,根據(jù)δ鄰域粗糙集的定義,樣本x將被劃分到邊界域中。再分別觀察x的三個最大聯(lián)盟集,根據(jù)最大聯(lián)盟粗糙集的定義,在鄰域粒度MC1(x)下,樣本x將被錯誤地劃分到實(shí)心圓類別中;在鄰域粒度MC2(x)下,樣本x將被劃分到邊界域中;而在鄰域粒度MCbest(x)下,樣本x將被劃分到實(shí)心三角形類別中,從而得到最正確的劃分。
關(guān)于最大聯(lián)盟粗糙集,本文有以下一些重要性質(zhì)。
性質(zhì)2 設(shè)鄰域信息系統(tǒng)NSnorm=(U,A,V,f,δ),對于XU,有:
a)M(X)X(X);
b)M()=()=,M(U)=(U)=U;
c)M(X∩Y)=M(X)∩M(Y),(X∪Y)=(X)∪(Y);
d)若XY,則M(X)M(Y),(X)(Y);
e)M(X∩Y)M(X)∩M(Y),(X∩Y)(X)∩(Y);
f)M(~X)=~(X),(~X)=~M(X)。
證明 a)設(shè)xi∈M(X)MCbest(xi)X,因?yàn)閤i∈MCbest(xi),所以xi∈X,故M(X)X;設(shè)xi∈XMCbest(xi)∩X≠xi∈(X),故X(X)。
b)由a)知,M(),而M(),所以M()=;假設(shè)()≠,則存在xi使得xi∈(),即MCbest(xi)∩≠,而MCbest(xi)∩=與假設(shè)矛盾,因此()=;xi∈UMCbest(xi)Uxi∈M(U)UM(U),由a)知,M(U)U,故M(U)=U;由a)知,U(U),但(U)U,因此(U)=U。
c)對于xi∈M(X∩Y)MCbest(xi)X∩YMCbest(xi)X∧MCbest(xi)Yxi∈M(X)∩M(Y),因此M(X∩Y)=M(X)∩M(Y);xi∈(X∪Y)MCbest(xi)∩(X∪Y)≠(MCbest(xi)∩X)∪(MCbest(xi)∩Y)≠M(fèi)Cbest(xi)∩X≠∨MCbest(xi)∩Y≠xi∈(X)∨xi∈(Y)xi∈(X)∪(Y),因此(X∪Y)=(X)∪(Y)。
d)設(shè)XY,則X∩Y=X,X∪Y=Y,所以M(X∩Y)=M(X),(X∪Y)=(Y),由c)知,M(X)∩M(Y)=M(X),(X)∪(Y)=(Y),故M(X)M(Y),(X)(Y)。
e)因XX∪Y,YX∪Y,所有M(X)M(X∪Y),M(Y)M(X∪Y),故M(X)∩M(Y)M(X∩Y);因?yàn)閄∩YX,X∩YY,所以(X∩Y)(X),(X∩Y)(Y),故(X∩Y)(X)∩(Y)。
f)對于xi∈M(X)MCbest(xi)XMCbest(xi)∩~X=xi(~X)xi∈~(~X),因此M(X)=~(~X),故而M(~X)=~(X)。
性質(zhì)3 設(shè)NSnorm=(U,A,V,f,δ)是鄰域信息系統(tǒng),0≤β<α≤1且β=δ,XU,有:
a)MCbest(xi)δ(xi),xi∈U;
b)N(X)M(X);
c)(X)(X);
d)BM(X)BN(X)。
證明 a)由定理1可知,MC(xi)AL(xi)。又當(dāng)β=δ時,AL(xi)=δ(xi),故MC(xi)δ(xi)。因?yàn)镸Cbest(xi)MC(xi),所以MCbest(xi)δ(xi)。
b)因?yàn)閤i∈N(X)δ(xi)XMCbest(xi)X,則有xi∈M(X),所以N(X)M(X)。
c)因?yàn)閤i∈(X)MCbest(xi)∩X≠δ(xi)∩X≠,則有xi∈(X),所以(X)(X)。
d)由b)和c)的證明可知,BM(X)=(X)-M(X)(X)-N(X)=BN(X)。
定義10 設(shè)NSnorm=(U,A,V,f,δ)是鄰域信息系統(tǒng),屬性集A=C∪D,C是條件屬性,D是決策屬性,U/D={D1,D2,…,Dr}為論域U在決策特征D上的等價劃分。決策相對應(yīng)的屬性子集的正域、負(fù)域和邊界域分別定義如下:
正域:MPOS(D)=∪rj=1M(Dj)
負(fù)域:MNEG(D)=U-∪rj=1(Dj)
邊界域:BM(D)=∪rj=1(Dj)-∪rj=1M(Dj)
顯然,正域和邊界域是互補(bǔ)的,正域是由所有決策類下近似的并集構(gòu)成。
2.2 基于最大聯(lián)盟粗糙集的三支聚類算法
相對于經(jīng)典粗糙集,最大聯(lián)盟粗糙集為數(shù)據(jù)對象提供了更加豐富的鄰域顆粒信息,將最大聯(lián)盟粗糙集模型與三支決策理論相結(jié)合,用產(chǎn)生的三支聚類結(jié)果代替?zhèn)鹘y(tǒng)的二支聚類結(jié)果,有效規(guī)避了直接作出屬于某一類或不屬于某一類決策所帶來的潛在風(fēng)險,將為分析數(shù)據(jù)對象間的關(guān)系提供更可靠的信息支持。
設(shè)對象集U的k個聚類結(jié)果是C={C1,C2,…,Ck},則Ci的核心域Co(Ci)和邊界域Fr(Ci)分別表示為Co(Ci)=M(Ci),F(xiàn)r(Ci)=(Ci)-M(Ci)。三支聚類結(jié)果可以表示為
TC={(Co(C1),F(xiàn)r(C1)),(Co(C2),F(xiàn)r(C2)),…,(Co(Ck),F(xiàn)r(Ck))}
基于最大聯(lián)盟粗糙集的三支聚類算法具體步驟如下:
輸入:數(shù)據(jù)集U={x1,x2,…,xn},參數(shù)k、q。
輸出:聚類結(jié)果{(Co(C1),F(xiàn)r(C1)),(Co(C2),F(xiàn)r(C2)),…,(Co(Ck),F(xiàn)r(Ck))}。
a)利用硬聚類算法對U進(jìn)行聚類,得到C={C1,C2,…,Ck};
b)對于任意xi,xj∈U,根據(jù)定義2計算任意兩點(diǎn)之間的距離Δ(xi,xj),找到每個樣本點(diǎn)xi的δ鄰域集δ(xi)={xj|xj≤q};
c)確定U中滿足條件∩x∈MCkδ(x)=MCk的所有最大聯(lián)盟集MC={MC1,MC2,…,MCp};
d)對于任意xi∈U,依次遍歷U中所有的最大聯(lián)盟MC,篩選出xi的所有最大聯(lián)盟集的集合MC(xi)={MC1(xi),MC2(xi),…,MCt(xi)},根據(jù)定義8中的緊致度公式,找到與xi緊密程度最高的最大聯(lián)盟集MCbest(xi);
e)對于每一類Ci,任取xj∈Ci,若MCbest(xi)Ci,則xj∈Co(Ci),否則xj∈Fr(Ci);
f)對于每一類Ci,任取xjCi,若MCbest(xi)∩Ci≠,則xj∈Fr(Ci);
g)通過步驟e)和f)得到Co(Ci)和Fr(Ci)(i=1,2,…,k),返回最終聚類結(jié)果{(Co(C1),F(xiàn)r(C1)),(Co(C2),F(xiàn)r(C2)),…,(Co(Ck),F(xiàn)r(Ck))}。
其中,步驟c)可以簡化為:(a)如果δ(x)={x},則{x}是一個最大聯(lián)盟集,接下來僅需考慮U/{x|δ(x)={x}};(b)假設(shè)δ(x)=X,且X>1,取y∈X/{x},計算δ(x)∩δ(y)。若δ(x)∩δ(y)={x,y},則{x,y}是一個最大聯(lián)盟集,否則,取z∈{δ(x)∩δ(y)}/{x,y}。若δ(x)∩δ(y)∩δ(z)={x,y,z},則{x,y,z}是一個最大聯(lián)盟集,否則,重復(fù)上述直至滿足對于YX,∪x∈Yδ(x)=Y。
3 評價指標(biāo)
3.1 不確定性評價
粗糙集理論中的不確定性度量是評價系統(tǒng)分類能力及提高分類精度的重要工具,國內(nèi)外眾多學(xué)者對此進(jìn)行了研究。設(shè)鄰域信息系統(tǒng)NS=(U,A,V,f,δ), C是條件屬性,D是決策屬性,A=C∪D,U/D={D1,D2,…,Dm}是對象集U在決策特征D上的等價劃分,本文采取以下三個指標(biāo)進(jìn)行評價:
a)鄰域近似精度[24]:
αδB(D)=∑mi=1Di∑mi=1Di
b)鄰域信息熵[24]:
Hδ(B)=1+1U∑|U|i=1nδB(xi)U lgUlg1|nδB(xi)|
c)加權(quán)鄰域信息熵[24]:
αH(d,B)=αδB(d)*Hδ(B)
3.2 聚類效果評價
本文選取三個經(jīng)典的聚類指標(biāo)準(zhǔn)確率(ACC)、戴維森堡丁指數(shù)(DBI)和宏平均(Macro_F1)作為評估聚類算法的標(biāo)準(zhǔn)。
a)準(zhǔn)確率(accuracy,ACC):
ACC=1N∑ki=1Ci
其中:數(shù)據(jù)集的大小為N,被成功劃分到類i的樣本數(shù)記為Ci,聚類數(shù)為k,ACC的取值為[0,1]。ACC值越大,表示聚類效果越好。本文通過計算核心域的樣本數(shù)據(jù)獲得ACC的取值。
b)戴維森堡丁指數(shù)(Davies-Bouldin index,DBI):
DBI=1k∑ki=1maxi≠j(S(Ci)+S(Cj)‖wi-wj‖2)
其中:S(Ci)表示第i類中的所有樣本元素到聚類中心wi的平均距離;‖wi-wj‖2表示類i與j之間的歐氏距離;k表示聚類數(shù)。DBI評價一個聚類結(jié)果好壞的依據(jù)是:要求類內(nèi)元素相似度高,類間元素相似度低。DBI值越小,表示聚類結(jié)果越好,意味著簇內(nèi)數(shù)據(jù)點(diǎn)更加緊密地聚集在一起,而簇與簇之間的區(qū)別更加明顯。
c)宏平均(Macro_F1)[25]:
Macro_F1=2MacroP×MacroRMacroP+MacroR
其中:MacroP=1k∑ki=1TPCiTPCi+FPCi,MacroR=1k∑ki=1TPCiTPCi+FNCi。TPCi表示core(Ci)中對象被正確分類為該類的數(shù)量,F(xiàn)PCi表示非core(Ci)中對象被錯誤分類為該類的數(shù)量,F(xiàn)NCi表示非core(Ci)中對象被正確分類為不屬于該類的數(shù)量。宏平均F1值綜合了精確率和召回率,用于衡量聚類結(jié)果的準(zhǔn)確性和完整性。它是通過計算每個簇的F1值并求其平均值得到的,該值越大表示聚類結(jié)果越好。
由于三支聚類結(jié)果是由兩個區(qū)域近似表示的,所以僅使用硬聚類指標(biāo)評價無法評估類簇的核心域和邊界域之間的關(guān)系,會導(dǎo)致評估結(jié)果不夠客觀和全面。因此,本文除選取上述三個常用的評價指標(biāo)外,還選取了三個軟聚類評價指標(biāo)對三支聚類效果進(jìn)行評價:
d)所有正域的平均質(zhì)量[26]:
γ=1n∑ki=1|Co(Ci)|
e)c個類簇的平均質(zhì)量[27]:
α=1c∑ki=1|Co(Ci)||Co(Ci)|+|Fr(Ci)|
f)c個類簇的整體質(zhì)量[27]:
α*=∑cj=1|Co(Ci)|∑cj=1|Co(Ci)|+|Fr(Ci)|
第一個軟聚類評價指標(biāo)γ是由Maji提出的,用于衡量所有正域的平均質(zhì)量,該值越大,表示聚類效果越好。在Maji的啟示下,Zhang提出了另外兩個軟聚類評價指標(biāo)α和α*,分別用于衡量c個類簇的平均質(zhì)量和整體質(zhì)量。對于特定的類簇而言,核心域中的數(shù)據(jù)點(diǎn)越多,意味著有更多數(shù)據(jù)點(diǎn)被明確地歸屬于該類簇。也就是說,下近似與上近似中數(shù)據(jù)點(diǎn)數(shù)量的比率可以顯示聚類結(jié)果的質(zhì)量。這兩個指標(biāo)的數(shù)值越大,表示聚類效果越好。
4 實(shí)例分析與實(shí)驗(yàn)驗(yàn)證
4.1 實(shí)例分析
給定一個鄰域信息決策系統(tǒng)NS=(U,A,V,f,δ)[28],其中對象集U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10};條件特征集C={a1,a2,a3,a4};D為決策特征集,論域U在決策特征上等價劃分為U/D={D1,D2,D3},即D1={x1,x2,x3},D2={x4,x5,x6},D3={x7,x8,x9,x10},鄰域參數(shù)δ=β=0.25。通過鄰域信息決策表1對鄰域粗糙集模型和最大聯(lián)盟粗糙集模型進(jìn)行不確定性度量。本文中的樣本(對象)的距離均采用歐氏距離進(jìn)行計算。
a)根據(jù)定義1中的映射函數(shù),對該鄰域信息系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化處理,結(jié)果如表2所示。
b)找到每個對象的鄰域類δ(xi)和最優(yōu)最大聯(lián)盟集MCbest(xi),結(jié)果如表3所示。
c)確定決策特征上等價劃分的上下近似集合,結(jié)果如表4所示。
d)不確定性評價的結(jié)果如表5所示。
由表5的評價結(jié)果可知,最大聯(lián)盟粗糙集的鄰域近似精度、領(lǐng)域信息熵、加權(quán)鄰域信息熵均優(yōu)于鄰域粗糙集模型??梢钥闯?,相較于鄰域粗糙集模型,基于最大聯(lián)盟粗糙集提供了更精細(xì)的劃分信息,從而有效降低了邊界域的不確定性。
4.2 數(shù)據(jù)集上的實(shí)驗(yàn)分析
為驗(yàn)證基于最大聯(lián)盟粗糙集的三支聚類算法的有效性,本文選取了6組UCI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集的一些基本描述如表6所示。本次實(shí)驗(yàn)采用Python編寫,在Windows 10企業(yè)版操作系統(tǒng)上運(yùn)行,計算機(jī)配置為Intel CoreTM i5-4200U CPU,內(nèi)存容量為16 GB,編碼環(huán)境選用Anaconda Spyder。
下面將本文所提出的基于最大聯(lián)盟粗糙集的三支聚類方法與基于k近鄰粗糙集的三支聚類方法[12](算法1)、基于δ鄰域粗糙集的三支聚類方法[16](算法2)、基于k最近鄰域粗糙集的三支聚類方法[10](算法3)進(jìn)行比較。其中,算法3是將文獻(xiàn)[10]提出的k最近鄰域粗糙集模型引入三支聚類框架所得到的聚類算法。本實(shí)驗(yàn)根據(jù)映射函數(shù)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,針對部分實(shí)驗(yàn)數(shù)據(jù)集特征維度較多的問題,采取PCA方法降維之后,選用傳統(tǒng)K-means算法進(jìn)行初始聚類,算法1和3所用到的近鄰參數(shù)k取值為3,算法2和本文算法中所需鄰域參數(shù)δ取值相同,且取值在0~1。
對實(shí)驗(yàn)數(shù)據(jù)集分別進(jìn)行三支聚類分析,得到如圖2~7所示的聚類結(jié)果對比圖。其中,每種顏色代表一個類簇,黑色五角星表示被劃分在邊界域的對象。在算法1~3和本文算法下,iris數(shù)據(jù)集邊界域內(nèi)的樣本數(shù)量分別為9個、9個、7個和6個;wine數(shù)據(jù)集邊界域內(nèi)的樣本數(shù)量分別為12個、15個、3個和1個;seeds數(shù)據(jù)集邊界域內(nèi)的樣本數(shù)量分別為28個、15個、13個和8個;WDBC數(shù)據(jù)集邊界域內(nèi)的樣本數(shù)量分別為17個、11個、7個和2個;Pima數(shù)據(jù)集邊界域內(nèi)的樣本數(shù)量分別為23個、10個、10個和9個;ionosphere數(shù)據(jù)集邊界域內(nèi)的樣本數(shù)量分別為11個、12個、4個和4個??梢?,采用本文提出的聚類算法處理各個實(shí)驗(yàn)數(shù)據(jù)集時,都能成功地將邊界域的樣本數(shù)量減至最少,可以更精確地劃分類與類的邊界域。
基于實(shí)驗(yàn)所得的聚類結(jié)果,將本文算法與其他三種算法的評價指標(biāo)進(jìn)行對比,評價結(jié)果如表7所示。本文提出的基于最大聯(lián)盟粗糙集的三支聚類算法在wine、seed、WDBC和Pima數(shù)據(jù)集上的各個評價指標(biāo)都有所提升,說明本文算法在這些數(shù)據(jù)集上的聚類效果明顯優(yōu)于其他三種聚類算法。在ACC評價指標(biāo)方面,本文算法在wine和WDBC數(shù)據(jù)集上表現(xiàn)最為突出,聚類準(zhǔn)確率分別為94.94%和92.44%,同時,在其他數(shù)據(jù)集上本文算法的準(zhǔn)確率也都是最高的。在DBI評價指標(biāo)方面,本文算法在wine、seed、WDBC和Pima數(shù)據(jù)集上都具有最小的DBI值,說明對于這四種數(shù)據(jù)集,本文算法所得到的聚類結(jié)果相同,簇內(nèi)數(shù)據(jù)點(diǎn)更加緊密,而不同簇之間的距離更遠(yuǎn),聚類效果更好,然而,本文算法在iris數(shù)據(jù)集上的DBI值略遜于算法3,在ionosphere數(shù)據(jù)集上的DBI值略遜于算法2,但由于差值較小,對聚類效果的影響有限。在宏平均F1評價指標(biāo)方面,本文算法的F1值都是最高的,表明本文算法相較于其他三種算法在不同類別上的分類性能最好。
在γ評價指標(biāo)方面,本文算法也表現(xiàn)出極佳的效果,在各個數(shù)據(jù)集上該指標(biāo)值均達(dá)到95%以上,說明本文算法對數(shù)據(jù)集中大部分?jǐn)?shù)據(jù)點(diǎn)都進(jìn)行了明確劃分,僅保留較少部分?jǐn)?shù)據(jù)點(diǎn)于邊界域中,得到的聚類結(jié)果中所有正域的平均質(zhì)量更高。在α和α*評價指標(biāo)方面,相較于其他三種算法,本文算法在各個數(shù)據(jù)集上的指標(biāo)值均最高,并且都大于90%,說明本文算法所得到的類簇平均質(zhì)量和整體質(zhì)量都更高,聚類效果更好。
4.3 參數(shù)δ分析
邊界域的劃分,是三支聚類效果和質(zhì)量最直接的反映。本文算法中,鄰域半徑δ的取值直接影響三支聚類邊界域的劃分,在不同的δ取值下,算法得到的邊界域不同,從而影響三支聚類的精度。為了分析參數(shù)δ對邊界域產(chǎn)生的影響,本文針對各個實(shí)驗(yàn)數(shù)據(jù)集,分別考察了鄰域參數(shù)δ在給定取值區(qū)間上產(chǎn)生邊界域?qū)ο蟮那闆r,并與同為基于δ鄰域技術(shù)的算法2進(jìn)行對比,實(shí)驗(yàn)結(jié)果如圖8~13所示。
隨著δ值的增加,算法2中的δ鄰域顆粒信息不斷擴(kuò)大,使得該算法在三支劃分階段將較多的樣本歸于邊界域中,增大了聚類結(jié)果的不確定性。然而,本文算法所使用的鄰域顆粒信息MCbest,相對于鄰域參數(shù)δ的取值大小并不呈現(xiàn)單調(diào)關(guān)系,受參數(shù)影響較小,從而產(chǎn)生相對穩(wěn)定的三支聚類結(jié)果。從圖8~13可以看出,隨著δ值的增加,算法2得到的邊界域樣本個數(shù)呈明顯的上升趨勢,而本文算法得到的邊界域樣本個數(shù)保持相對穩(wěn)定,這表明本文算法在不同鄰域參數(shù)δ下可以得到較為穩(wěn)定的聚類結(jié)果,相較于算法2受鄰域參數(shù)δ的影響較小。
為進(jìn)一步觀測同一類型算法在給定相同參數(shù)下的性能差異,本文給出了比較劃分正確率的概念。針對本文算法和算法2,在給定δ值下的比較正確率(CACCBN)定義如下:
CACCBN=NCPBNB算法2-NB本文算法
其中:NB表示算法產(chǎn)生的邊界域中包含的樣本數(shù);NCPB表示兩比較算法的邊界域相對補(bǔ)集中被正確劃分到正域的樣本數(shù)。
當(dāng)CACCBN<0時,表明本文算法的邊界域包含更多樣本,本文算法性能低于算法2;當(dāng)CACCBN>0時,表明本文算法的邊界域包含更少樣本,本文算法性能優(yōu)于算法2。CACCBN的絕對值越大,說明兩個算法差異性越大。當(dāng)NB算法2=NB本文算法時,表明兩個算法產(chǎn)生的邊界域包含的樣本一樣多,算法性能接近,這時計算比較正確率CACCBN失去意義。結(jié)果如表8~13所示。
由表8~13的實(shí)驗(yàn)結(jié)果可知,對于iris數(shù)據(jù)集,本文算法比較正確率整體較高,且當(dāng)δ取值為0.022時,所有被處理的樣本均得到了正確的劃分,比較正確率達(dá)到100%;對于wine數(shù)據(jù)集,本文算法比較正確率均達(dá)到90%以上,且當(dāng)δ取值為0.036、0.037、0.038和0.039時,比較正確率均達(dá)到100%;對于seeds數(shù)據(jù)集,除δ取值為0.012、0.013、0.014和0.015時比較正確率相對較低外,在其余六個取值上比較正確率均達(dá)到70%以上;對于WDBC數(shù)據(jù)集,本文算法比較正確率大多穩(wěn)定在60%~70%;對于Pima數(shù)據(jù)集,當(dāng)δ取值為0.058時,比較正確率最高,達(dá)到90%;對于ionosphere數(shù)據(jù)集,本文算法的比較正確率最小值為80.65%,最大值為94.12%。因此,本文算法在處理邊界域樣本時,可以較大程度地將樣本劃分到正確類別。
綜上所述,本文基于最大聯(lián)盟粗糙集的三支聚類算法的聚類效果普遍更好,在保留邊界域信息的同時,有效提高了核心域的精度。
5 結(jié)束語
本文在給出標(biāo)準(zhǔn)化鄰域信息系統(tǒng)的定義基礎(chǔ)上,通過引入最大聯(lián)盟集的概念,定義了一種新的鄰域顆粒信息,使得樣本鄰域信息的刻畫更為細(xì)致。將該鄰域顆粒信息與粗糙集理論相結(jié)合,構(gòu)造了最大聯(lián)盟粗糙集模型,該模型在一定程度上提高了正域的分類精度,降低了邊界域的不確定性。將最大聯(lián)盟粗糙集模型應(yīng)用于三支聚類分析中,提出了基于最大聯(lián)盟粗糙集的三支聚類算法。在6個UCI數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)的結(jié)果表明,本文算法有效提高了聚類結(jié)果的準(zhǔn)確率,所有正域的平均質(zhì)量均超過95%,類簇的整體質(zhì)量和平均質(zhì)量均超過90%。本文算法在不同鄰域參數(shù)δ下邊界域樣本的比較正確率相對較高,可以較大程度地將邊界域樣本劃分到正確類別。
粗糙集理論為解決多屬性決策和不確定性問題提供了重要思路,然而在實(shí)際決策中,決策任務(wù)通常呈現(xiàn)出多視角、多粒度、多層次等復(fù)雜特性,單一結(jié)構(gòu)化的決策方法有時無法應(yīng)對這類復(fù)雜的決策問題。為此,下一步工作將考慮從粒計算的角度出發(fā),從不同粒度層次中提取有效信息,探索更適用于解決實(shí)際決策問題的粗糙集模型和聚類方法。
參考文獻(xiàn):
[1]Pawlak Z. Rough sets[J]. International Journal of Computer and Information Sciences, 1982, 11(5): 341-356.
[2]Yao Yiyu, Yan Zhao. Attribute reduction in decision-theoretic rough set models[J]. Information Sciences, 2008, 178(17): 3356-3373.
[3]Azam N, Yao Jingtao. Interpretation of equilibria in game-theoretic rough sets[J]. Information Sciences, 2015, 295: 586-599.
[4]Lin T Y. Neighborhood systems:a qualitative theory for fuzzy and rough sets[J]. Advances in Machine Intelligence and Soft Computing, 1997, 4: 132-155.
[5]Yao Yiyu. Relational interpretations of neighborhood operators and rough set approximation operators[J]. Information Sciences, 1998, 111(1-4): 239-259.
[6]Wu Weizhi, Zhang Wenxiu. Neighborhood operator systems and approximations[J]. Information Sciences, 2002, 144(1-4): 201-217.
[7]胡清華, 于達(dá)仁, 謝宗霞. 基于鄰域粒化和粗糙逼近的數(shù)值屬性約簡[J]. 軟件學(xué)報, 2008,19(3): 640-649. (Hu Qinghua, Yu Daren, Xie Zongxia. Numerical attribute reduction based on neighborhood granulation and rough approximation[J]. Journal of Software, 2008,19(3): 640-649.)
[8]Lin Guoping, Qian Yuhua, Li Jinjin. NMGRS: neighborhood-based multigranulation rough sets[J]. International Journal of Approximate Reasoning, 2012, 53(7): 1080-1093.
[9]Wang Qi, Qian Yuhua, Liang Xinyan, et al. Local neighborhood rough set[J]. Knowledge-Based Systems, 2018, 153: 53-64.
[10]Wang Changzhong, Shi Yunpeng, Fan Xiaodong, et al. Attribute reduction based on k-nearest neighborhood rough sets[J]. Internatio-nal Journal of Approximate Reasoning, 2019, 106: 18-31.
[11]賀玲, 吳玲達(dá), 蔡益朝. 數(shù)據(jù)挖掘中的聚類算法綜述[J]. 計算機(jī)應(yīng)用研究, 2007, 24(1): 10-13. (He Ling, Wu Lingda, Cai Yichao. Survey of clustering algorithms in data mining[J]. Application Research of Computers, 2007, 24(1): 10-13.)
[12]Yao Yiyu. Three-way decisions with probabilistic rough sets[J]. Information Sciences, 2010, 180 (3): 341-353.
[13]錢文彬, 彭莉莎, 王映龍, 等. 不完備混合決策系統(tǒng)的三支決策模型與規(guī)則獲取方法[J]. 計算機(jī)應(yīng)用研究, 2020, 37(5): 1421-1427. (Qian Wenbin, Peng Lisha, Wang Yinglong, et al. Three-way decisions model and rule acquisition method for incomplete decision systems[J]. Application Research of Computers, 2020, 37(5): 1421-1427.)
[14]呂艷娜, 茍光磊, 張里博, 等. 深度置信網(wǎng)絡(luò)的代價敏感多粒度三支決策模型研究[J]. 計算機(jī)應(yīng)用研究, 2023, 40(3): 833-838. (Lyu Yanna, Gou Guanglei, Zhang Libo, et al. Research on cost-sensitive multi-granularity three-way decision model for deep belief network[J]. Application Research of Computers, 2023, 40(3): 833-838.)
[15]于洪. 三支聚類分析[J]. 數(shù)碼設(shè)計, 2016, 5(1): 31-35. (Yu Hong. Three-way cluster analysis[J]. Peak Data Science, 2016, 5(1): 31-35.)
[16]劉強(qiáng), 施虹, 王平心, 等. 基于鄰域的三支決策聚類分析[J]. 計算機(jī)工程與應(yīng)用, 2019, 55(6): 140-144. (Liu Qiang, Shi Hong, Wang Pingxin, et al. Three-way clustering analysis based on neighborhood[J]. Computer Engineering and Applications, 2019, 55(6): 140-144.)
[17]萬仁霞, 王大慶, 苗奪謙. 基于三支決策的高斯混合聚類研究[J]. 重慶郵電大學(xué)學(xué)報:自然科學(xué)版, 2021, 33(5): 806-815. (Wan Renxia, Wang Daqing, Miao Duoqian. Gaussian mixture clustering based on three-way decision[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2021, 33(5): 806-815.)
[18]花遇春, 趙燕, 馬建敏. 基于共現(xiàn)概率的三支聚類模型[J]. 西北大學(xué)學(xué)報:自然科學(xué)版, 2022, 52(5): 797-804. (Hua Yuchun, Zhao Yan, Ma Jianmin. Three-way clustering model based on co-occurrence probability[J]. Journal of Northwest University:Natural Science Edition, 2022, 52(5): 797-804.)
[19]申秋萍, 張清華, 高滿, 等. 基于局部半徑的三支DBSCAN算法[J]. 計算機(jī)科學(xué), 2023, 50(6): 100-108.(Shen Qiuping, Zhang Qinghua, Gao Man, et al. Three-way DBSCAN algorithm based on local eps[J]. Computer Science, 2023, 50(6): 100-108.)
[20]Pawlak Z. An inquiry into anatomy of conflicts[J]. Information Sciences, 1998, 109(1-4): 65-78.
[21]Lang Guoming, Miao Duoqian, Cai Mingjie. Three-way decision app-roaches to conflict analysis using decision-theoretic rough set theory[J]. Information Sciences, 2017, 406: 185-207.
[22]郭淑蓉. 基于區(qū)間直覺模糊信息系統(tǒng)的三支沖突分析[D]. 太原: 山西師范大學(xué), 2022. (Guo Shurong. Three-way conflict analysis based on interval-valued intuitionistic fuzzy information system[D]. Taiyuan: Shanxi Normal University, 2022.)
[23]羅珺方, 張碩, 胡夢君. 不完備異構(gòu)沖突信息系統(tǒng)中的極大一致聯(lián)盟區(qū)間集族[J]. 計算機(jī)科學(xué)與探索, 2023, 11(3): 1-12. (Luo Junfang, Zhang Shuo, Hu Mengjun. A family of maximum consistent alliances interval sets in an incomplete heterogeneous conflict information systems[J]. Computer Science and Exploration, 2023, 11(3): 1-12.)
[24]陳玉明, 曾志強(qiáng), 田翠華. 鄰域粗糙集中不確定性的熵度量方法[J]. 計算機(jī)科學(xué)與探索, 2016,10(12): 1793-1800. (Chen Yuming, Zeng Zhiqiang, Tian Cuihua. Uncertainty measures using entropy and neighborhood rough sets[J]. Computer Science and Technology, 2016, 10(12): 1793-1800.)
[25]Uysal A K. On two-stage feature selection methods for text classification[J]. IEEE Access, 2018, 6: 43233-43251.
[26]Maji P, Pal S K. RFCM: a hybrid clustering algorithm using rough and fuzzy sets[J]. Fundamenta Informaticae, 2007, 80(4): 475-496.
[27]Zhang Kai. A three-way C-means algorithm[J]. Applied Soft Computing Journal, 2019, 82: 105536.
[28]梁海龍, 謝珺, 續(xù)欣瑩, 等. 新的基于區(qū)分對象集的鄰域粗糙集屬性約簡算法[J]. 計算機(jī)應(yīng)用, 2015,35(8): 2366-2370. (Liang Hailong, Xie Jun, Xu Xinying, et al. New attribute reduction algorithm of neighborhood rough set based on distinguished object set[J]. Journal of Computer Applications, 2015,35(8): 2366-2370.)