姚 晟,汪 杰,徐 風,陳 菊
1(安徽大學 計算智能與信號處理教育部重點實驗室,合肥 230601) 2(安徽大學 計算機科學與技術(shù)學院,合肥 230601) E-mail:wangjiechn@126.com
粗糙集理論[1]是Pawlak在1982年提出的用于處理不精確、不確定性問題的一種數(shù)據(jù)分析工具.目前已經(jīng)廣泛應(yīng)用于機器學習、數(shù)據(jù)挖掘、模式識別、特征選擇和圖像分割等研究領(lǐng)域[2-5].
經(jīng)典粗糙集理論基于等價關(guān)系,它通常適用于處理符號型數(shù)據(jù).然而在現(xiàn)實應(yīng)用(如科研、醫(yī)療、金融、工程應(yīng)用領(lǐng)域)中,數(shù)值型數(shù)據(jù)廣泛存在.研究人員在處理這類數(shù)據(jù)時通常采用離散化方法將數(shù)值型數(shù)據(jù)轉(zhuǎn)化為符號型數(shù)據(jù)[6].這一轉(zhuǎn)換必然會造成某些信息的損失.為了解決這類問題,林等[7]通過拓展經(jīng)典粗糙集中的等價關(guān)系,提出了鄰域粗糙集模型,該模型通過鄰域關(guān)系來刻畫對象之間的相似程度.胡等[8,9]通過定義鄰域關(guān)系,構(gòu)造了一種統(tǒng)一的鄰域分類理論體系,并針對數(shù)值型屬性和符號型屬性并存的混合數(shù)據(jù)提出了一種基于鄰域依賴度的特征選擇算法.
不確定性度量作為粗糙集理論中描述系統(tǒng)分類能力和提高分類精度的重要依據(jù),國內(nèi)外眾多學者對此進行了研究.Pawlak提出利用上下近似集,用精度和粗糙度來度量信息系統(tǒng)的不確定性,用近似精度和近似粗糙度來度量決策系統(tǒng)的不確定性[1].由于精度和粗糙度依賴的是正區(qū)域和邊界域,會導(dǎo)致不確定性度量不夠精細的情況.因此,部分學者從其它不同角度進行了研究,目前主要的研究方法主要有基于信息熵的方法以及基于信息熵的變種方法.比如信息熵[10]、粗糙熵[11]、混合熵[12,13]等方法都可以有效的應(yīng)用于粗糙集的不確定性度量.模糊熵也是一種研究比較多的方法,它是通過將粗糙集轉(zhuǎn)化為模糊集來度量集合的不確定性[14].然而,以上不確定度量方法主要是基于等價關(guān)系,只適用于處理具有符號型屬性的數(shù)據(jù).鄰域粗糙集是基于鄰域關(guān)系,適用于處理數(shù)值型數(shù)據(jù),但是鄰域關(guān)系并不具有嚴格的等價關(guān)系,因此,這些不確定度量方法難以適用于鄰域決策系統(tǒng).
屬性約簡是粗糙集理論研究的核心內(nèi)容之一,是指在保持原有信息系統(tǒng)或決策表分類能力不變的情況下,剔除其中不重要、不相關(guān)的冗余屬性的過程.近些年來,基于鄰域粗糙集模型的屬性約簡算法不斷被提出.文獻[8]在經(jīng)典粗糙集屬性約簡的基礎(chǔ)上,提出了以依賴度為啟發(fā)式函數(shù)的屬性約簡算法.文獻[15]將信息論中的互信息引入鄰域粗糙集模型中,提出了以互信息為啟發(fā)式函數(shù)的屬性約簡算法.文獻[12]考慮了代數(shù)觀點下的精度和信息論觀點下的信息熵,提出了混合度量的屬性約簡算法.文獻[16]提出鄰域軟間隔度量方法.以上約簡算法考慮的主要是條件屬性和決策屬性之間的關(guān)系,判斷一個條件屬性是否是冗余屬性的依據(jù)是該屬性是否會影響決策屬性中的確定信息或者不確定信息,然而并沒有充分考慮到條件屬性之間的關(guān)系也會影響約簡結(jié)果和分類精度.在實際情況中,條件屬性之間通常不是獨立的,它們之間具有某種關(guān)聯(lián).如穿衣指數(shù)和氣溫是有關(guān)聯(lián)的,氣溫高,穿衣指數(shù)減小,氣溫低,穿衣指數(shù)增加;城市空氣污染指數(shù)與汽車保有量也具有某種關(guān)聯(lián),汽車保有量多,空氣污染指數(shù)增加,汽車保有量少,空氣污染指數(shù)減小.在實際的屬性約簡中,將關(guān)聯(lián)很大的屬性都放入約簡結(jié)果中必然會造成數(shù)據(jù)冗余,顯然這是不必要的.
本文通過深入研究粗糙集的不確定性度量方法,針對數(shù)值型數(shù)據(jù)的特點,分析了不一致鄰域粗糙集的相關(guān)性質(zhì),定義了鄰域條件熵的不確定度量方法用來評價約簡屬性的質(zhì)量.同時考慮了條件屬性之間的關(guān)聯(lián)程度會對約簡結(jié)果和分類精度產(chǎn)生影響,提出了基于相關(guān)系數(shù)的不一致鄰域粗糙集屬性約簡算法.其主要思想是通過引入統(tǒng)計學中秩相關(guān)系數(shù)的概念來度量條件屬性之間的關(guān)聯(lián)程度,并將相關(guān)系數(shù)融入到鄰域粗糙集屬性約簡算法中來剔除冗余屬性,最終的約簡結(jié)果可以根據(jù)實際問題的需要,靈活選擇合適的相關(guān)系數(shù)閾值.實驗結(jié)果表明,本文提出的算法能夠獲得較小的約簡和較高的分類精度.
在本節(jié)中,我們主要介紹粗糙集理論的基本概念和性質(zhì)以及鄰域粗糙集的基本知識.
在粗糙集理論中,知識被認為是分辨對象的能力.粗糙集采用等價關(guān)系將論域?;癁槿舾傻葍r類,利用上下近似逼近的方式刻畫未知概念,通過知識約簡來發(fā)現(xiàn)數(shù)據(jù)當中潛在的知識和規(guī)律[1].
定義1[1].設(shè)決策信息系統(tǒng)DT=(U,A,V,f),其中U={x1,x2,…,x|U|}是有限非空集,稱為論域或?qū)ο罂臻g,U中的元素稱為對象;A也是一個有限非空集,A中的元素稱為屬性,且A=C∪D,C∩D=φ,其中C中的屬性稱為條件屬性,D中的屬性稱為決策屬性;V=∪Va,Va是屬性a的值域;f:U×A→V是一個信息函數(shù),它為每個對象的每個屬性賦予一個值,即f(x,a)∈Va.
在決策信息系統(tǒng)DT中,對于任意的x,y∈U(x≠y).若f(x,C)=f(y,C)∧f(x,D)≠f(y,D).則稱DT為不一致決策表,x,y為不一致對象.否則稱DT為一致決策表.
定義2[1].設(shè)DT=(U,A,V,f)和B?C.B上的不可分辨關(guān)系定義為
IND(B)={(x,y)∈U×U|?a∈B,f(x,a)=f(y,a)}.
(1)
定義3[1].設(shè)DT=(U,A,V,f)和B?C.對論域上的一個對象子集X?U,定義X在條件屬性子集B上的下近似、上近似和邊界域分別為
其中:[x]B是x在條件屬性集B上的等價類.
鄰域粗糙集通過鄰域關(guān)系來?;撚?,解決了離散化數(shù)據(jù)帶來的某些信息損失,可以有效的處理數(shù)值型數(shù)據(jù)[8].下面簡要介紹基本性質(zhì).
定義4[8].設(shè)〈U,Δ〉為非空度量空間,我們稱Δ為〈U,Δ〉上的距離函數(shù),如果Δ滿足
1)Δ(x1,x2)≥0,Δ(x1,x2)=0,當且僅當x1=x2;
2)Δ(x1,x2)=Δ(x2,x1);
3)Δ(x1,x3)≤Δ(x1,x2)+Δ(x2,x3).
目前常用的距離函數(shù)有曼哈頓距離、歐氏距離和切比雪夫距離,本文采用的是歐氏距離.歐氏距離Δ定義為
(5)
定義6[8].設(shè)鄰域決策系統(tǒng)NDT.對于U中任意對象xi,定義其δ鄰域為
δ(xi)={x∈U|Δ(x,xi)≤δ}.
(6)
其中,δ≥0,Δ為距離函數(shù).
定義7[8].設(shè)鄰域決策系統(tǒng)NDT.若由B?C生成U上的鄰域關(guān)系NB.則對X?U,X關(guān)于B的下近似、上近似和邊界域分別定義為
經(jīng)典粗糙集的不確定性度量方法通常只能處理符號型數(shù)據(jù),難以應(yīng)用于鄰域粗糙集的不確定性度量.下面首先給出不一致鄰域粗糙集的相關(guān)性質(zhì),然后給出鄰域條件熵的不確定性度量方法,證明了其滿足不確定度量的基本要求.并分析證明了相關(guān)的性質(zhì)定理.
定義8.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則δB(x)表示對象x在屬性集B下的鄰域,[x]D表示對象x在決策屬性D上對應(yīng)的決策類.如果存在x∈U,使得δB(x)?[x]D.那么稱NDT為不一致鄰域決策系統(tǒng).其中δB(x)∩[x]D表示對象x的決策一致鄰域.δB(x)-[x]D表示對象x的決策不一致鄰域.
性質(zhì)1.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則決策屬性D關(guān)于B的正區(qū)域定義為
POSB(D)={xi∈U|δB(xi)-[xi]D=?}.
證明:假設(shè)存在x∈POSB(D),使得δB(x)-[x]D≠?.根據(jù)定義7可知當x∈POSB(D),容易得到δB(x)?[x]D,所以δB(x)-[x]D=?.與假設(shè)不符,所以POSB(D)={xi∈U|δB(xi)-[xi]D=?}成立.
性質(zhì)1說明正域為決策不一致鄰域為空集的對象集合.
性質(zhì)2.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中U/D={[x1]D,[x2]D,…,[xn]D}且xi∈POSB(D).如果?xj∈U-POSB(D),那么xi?δB(xj)-[xj]D.
證明:根據(jù)題設(shè)可知xi∈POSB(D)所以δB(xi)?[xi]D.
當xj?δB(xi),此時顯然xi?δB(xj)-[xj]D.當xj∈δB(xi),可得xi∈δB(xj).又由xj∈[xi]D得xi∈[xj]D.由此可得xi?δB(xj)-[xj]D.故性質(zhì)得證.
性質(zhì)2說明正域中的任意對象不屬于非正域?qū)ο蟮臎Q策不一致鄰域.
定義9.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.那么關(guān)于B的鄰域信息熵定義為
.
(10)
定義10.設(shè)鄰域決策系統(tǒng)NDT.?M,N?C,條件屬性集M,N的聯(lián)合熵定義為
(11)
定義11.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則決策屬性D關(guān)于屬性集B的條件熵定義為
(12)
定理1.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則Eδ(D|B)=Eδ(B)-Eδ(D,B).
證明:Eδ(D|B)
=Eδ(B)-Eδ(D,B).
粗糙集的不確定性度量通常應(yīng)該滿足以下幾個約束條件[17]:1)單調(diào)性;2)不變性;3)非負性.
下面分別進行證明:
定理2.(單調(diào)性) 設(shè)鄰域決策系統(tǒng)NDT.其中U/D={[x1]D,[x2]D,…,[xn]D}.如果M?N?C,那么Eδ(D|M)≤Eδ(D|N).
證明:由文獻[18]中的定理12和引理4.1得出.
證明:不變性顯然成立.
定理4.(非負性) 設(shè)鄰域決策系統(tǒng)NDT和B?C.其中U/D={[x1]D,[x2]D,…,[xn]D}.那么Eδ(D|B)≥0.
證明:當?xi∈U,δB(xi)=xi.可得Eδ(D|B)=0.當?xi∈U,δB(xi)=U,[xi]D=xi,可得Eδ(D|B)=log2|U|.由此可得0≤Eδ(D|B)≤log2|U|.所以Eδ(D|B)≥0一定成立.
通過定理2、3、4可得Eδ(D|B)滿足不確定度量的基本條件,因此可以用做不確定性度量工具.
定理5.設(shè)鄰域決策系統(tǒng)NDT和M,N?C.其中U/D={[x1]D,[x2]D,…,[xn]D}.如果?xi∈U,δB(xi)?[xi]D,則NDT是一致鄰域決策系統(tǒng).那么Eδ(D|B)=0.
證明:根據(jù)題設(shè)?xi∈U,δB(xi)?[xi]D可得?xi∈U,δB(xi)∩[xi]D=δB(xi),又根據(jù)定義11可得Eδ(D|B)=0.
證明:對任意xi∈U,δB(xi)?[xi]D可知
δB(xi)∩[xi]D=δB(xi).
對任意xi∈U,δB(xi)?[xi]D可知
δB(xi)∩[xi]D≠?.
定義12[8].設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.?a∈C-B,則條件屬性a相對于B的重要度定義為
SIG(a,B,D)=Eδ(D|B∪a)-Eδ(D|B)
(13)
定義13[8].設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.稱B是C的一個約簡,如果B滿足
條件屬性與決策屬性之間的關(guān)系會影響屬性約簡的特征數(shù)量和分類精度,條件屬性之間同樣也存在著某種關(guān)系,這種關(guān)系也會影響屬性約簡的結(jié)果.通??梢詫傩灾g的關(guān)系用相關(guān)系數(shù)來表示.目前常用的度量屬性之間相關(guān)系數(shù)的方法主要有二元正態(tài)分布、獨立性卡方檢驗,秩相關(guān)系數(shù)等[19-21].其中,二元正態(tài)分布可以度量數(shù)值型數(shù)據(jù)中的屬性相關(guān)系數(shù),獨立性卡方檢驗可以度量符號型數(shù)據(jù)中的屬性相關(guān)系數(shù).而在實際應(yīng)用中,數(shù)值型與符號型共同存在的混合數(shù)據(jù)廣泛存在.二元正態(tài)分布和獨立性卡方檢驗都難以適用于處理混合數(shù)據(jù).
秩相關(guān)系數(shù)也稱,Spearman 秩相關(guān)系數(shù),是一個非參數(shù)性質(zhì)(與分布無關(guān))的秩統(tǒng)計參數(shù).它將兩屬性的屬性值按數(shù)據(jù)的一定順序排列位次,以各屬性的屬性值的位次代替實際數(shù)據(jù)而求得的一種統(tǒng)計量.因此,秩相關(guān)系數(shù)不僅可以處理符號型數(shù)據(jù)和數(shù)值型數(shù)據(jù),還可以處理數(shù)值型與符號型共同存在的混合數(shù)據(jù).本文將秩相關(guān)系數(shù)的概念引入到鄰域粗糙集模型中.
定義15.設(shè)鄰域決策系統(tǒng)NDT.?ai,aj∈C,第k個對象在ai,aj屬性下對應(yīng)的秩次分別記為Rk和Sk,則所有對象可得|U|對秩組合(R1,S1),(R2,S2),…,(R|U|,S|U|),其中,|U|對秩可能完全相同,也可能完全相反,或者不完全相同.
定義16.設(shè)鄰域決策系統(tǒng)NDT.?ai,aj∈C,對象U在ai,aj下有|U|對秩組合(R1,S1),(R2,S2),…,(R|U|,S|U|),則屬性ai,aj的相關(guān)系數(shù)rij定義為
(16)
且rij滿足如下性質(zhì):
1)0≤rij≤1;
2)當rij越接近1時,表示條件屬性ai,aj之間的相關(guān)程度越高.當rij越接近0時,表示條件屬性ai,aj之間的相關(guān)程度越低.
下面舉例簡要進行說明.
例1.給定決策表S如表1所示.其中U={x1,x2,x3,x4},C={a,b}.
①獲取表1中所有對象在屬性a下的對應(yīng)的屬性值序列為Aa={x1=0.1,x2=0.6,x3=0.4,x4=0.5}.
②將Aa根據(jù)屬性值從小到大的順序進行排序,得到一個有序?qū)ο笮蛄衶x1,x3,x4,x2},并進行編秩得到序列{x1=1,x3=2,x4=3,x2=4}.
⑥根據(jù)公式(16)計算相關(guān)系數(shù)為0.8.
表1 決策表STable 1 Decision table S
表2 秩次表S1Table 2 Rank table S1
下面分別介紹計算相關(guān)系數(shù)算法,計算鄰域條件熵算法以及基于相關(guān)系數(shù)的不一致鄰域粗糙集屬性約簡算法.
在鄰域粗糙集模型中,大部分屬性約簡算法主要是通過基于依賴度或者基于熵的啟發(fā)式函數(shù)來刻畫條件屬性對決策屬性的重要度.然而,這些算法僅僅只考慮了條件屬性對決策屬性的影響,并沒有考慮條件屬性之間的相互影響會對約簡結(jié)果產(chǎn)生影響.在實際應(yīng)用中,條件屬性之間相互影響的情況廣泛存在,當兩個條件屬性之間的相關(guān)系數(shù)較大時,二者同時在約簡集中會導(dǎo)致數(shù)據(jù)冗余.因此在約簡算法中只考慮條件屬性和決策屬性之間的關(guān)系遠遠不夠,本文通過引入秩相關(guān)系數(shù)的概念,通過計算條件屬性之間的相關(guān)系數(shù),來剔除冗余的條件屬性.
根據(jù)前面的研究,下面給出計算相關(guān)系數(shù)的算法.
算法1.計算相關(guān)系數(shù)
輸入:NDT=〈U,A,V,f,N〉,ai,aj;
輸出:相關(guān)系數(shù)rij.
Step1.獲取所有對象在ai,aj下的屬性值序列Ai,Bj;
Step2.將Ai,Bj根據(jù)屬性值從小到大的順序進行排列,并分別進行編秩,若屬性值相等時取平均數(shù);
Step4.fork=1to|U|do:
Step5.fork=1to|U|do
計算r(ai,aj);
Step6.計算rij;
Step7.返回相關(guān)系數(shù)rij.
算法2.計算鄰域條件熵
輸入:鄰域決策系統(tǒng)NDT=(U,A,V,f,N)和B?C.其中,鄰域半徑為δ,U/D={[x1]D,[x2]D,…,[xn]D}.
輸出:鄰域條件熵Eδ(D|B).
Step1.初始化.令Eδ(D|B)=0;
Step2.對于每個1≤i≤|U|,循環(huán)執(zhí)行:
①計算對象xi的鄰域類δB(xi);
②獲取對象xi的決策類[xi]D;
③計算鄰域條件熵
Step3.計算鄰域條件熵
;
Step4.返回鄰域條件熵Eδ(D|B).
RNRS算法從空集開始,首先計算條件屬性集中任意屬性的鄰域關(guān)系;然后遍歷約簡集之外的所有條件屬性計算相應(yīng)的屬性重要度并從中選擇屬性重要度最大的條件屬性與約簡集中的所有屬性進行相關(guān)系數(shù)計算;如果條件屬性之間的相關(guān)系數(shù)都小于預(yù)先設(shè)定的相關(guān)系數(shù)閾值λ時,則對當前的屬性進行判斷,如果加入該屬性后屬性重要度大于0,則將該屬性加入到約簡集中后繼續(xù)遍歷約簡集之外的屬性;如果加入該屬性后屬性重要度等于0,直接輸出約簡結(jié)果;如果條件屬性之間的相關(guān)系數(shù)存在大于等于相關(guān)系數(shù)閾值λ時,將該屬性從候選條件屬性中刪除,繼續(xù)遍歷約簡集之外的屬性直到屬性重要度為0結(jié)束.
下面給出算法詳細步驟.
算法3.RNRS算法
輸入:NDT=〈U,A,V,f,N〉;
輸出:約簡red.
Step1.初始化,令red=?,標記集合flag=?;
Step2.對條件屬性集C中任意屬性a,計算鄰域關(guān)系Na;
Step3.對于任意ai∈C-(red∪flag),循環(huán)執(zhí)行:
①利用算法2計算ai的屬性重要度
SIG(ai,red,D)=Eδ(D|red∪a)-Eδ(D|red);
//其中Eδ(D|?)=0
②選擇一個屬性ak滿足條件:
SIG(ak,red,D)=max{SIG(ai,red,D)}.
Step4.for ?aj∈red,循環(huán)執(zhí)行:
①利用算法1計算
aj和ak之間的相關(guān)系數(shù)rjk;
② ifrjk≥λ;
令flag=flag∪ak;
跳轉(zhuǎn)到Step3;
else
跳出此次循環(huán).
Step5.ifSIG(ak,red,D)>0;
令red=red∪ak;
跳轉(zhuǎn)到Step 3;
else
跳轉(zhuǎn)到Step 6.
Step6.返回約簡red.
為了更好的驗證算法的有效性,本文從UCI數(shù)據(jù)集中選用了4組數(shù)據(jù),具體描述見表3.同時為了在計算鄰域時消除量綱的影響,實驗所用的所有數(shù)值型數(shù)據(jù)全部被標準化到[0,1]區(qū)間.屬性約簡的結(jié)果會受到鄰域半徑的影響.因此,為了求解問題必須先進行實驗選取合適的鄰域半徑,然后再進行屬性約簡算法的比較.本次實驗我們通過相關(guān)實驗分析后設(shè)置鄰域半徑為0.35.
表3 數(shù)據(jù)集描述Table 3 Data set description
實驗測試環(huán)境為一臺i3 3.7GHz(4GB 內(nèi)存,Windows 10 操作系統(tǒng)),采用Java語言實現(xiàn)所有算法,通過Matlab語言進行繪圖.同時本文將RNRS算法與以下幾個算法進行了比較:
1)基于依賴度的算法(DNRS)[9];
2)基于互信息的算法(MNRS)[15];
3)基于信息熵的方法(INRS)[22].
為了更好的比較約簡屬性的分類能力,實驗引入流行的CART和SVM兩種分類器,并以10折交叉驗證的分類精度來評價所選屬性的質(zhì)量.
6.2.1 相關(guān)系數(shù)閾值選取
圖1-圖4分別展示了4組數(shù)據(jù)集在約簡后,RNRS算法在CART和SVM兩種分類器下的分類精度隨相關(guān)系數(shù)閾值λ的變化情況.其中λ的取值以0.05為步長從0到1變化.圖1展示的是wine數(shù)據(jù)集的變化情況,當λ較小時,RNRS算法在兩種分類器下的分類精度明顯較小;隨著λ的增長RNRS算法的分類精度逐漸提高,當λ值在0.65附近時,RNRS算法在CART和SVM分類器下的分類精度波動較為穩(wěn)定并且獲得較高的分類精度.當λ接近1時,分類精度不再變化.圖2-圖4中也能得出相似的結(jié)果.這與實際情況是相符合的,當λ較小時,對篩選冗余屬性的要求過于嚴格,導(dǎo)致分類精度的下降;當λ過大時,對篩選冗余屬性的要求又過于寬松,所以在數(shù)值型數(shù)據(jù)中分類精度沒有明顯變化.綜合考慮,本文選擇的相關(guān)系數(shù)閾值為0.65.
圖1 wine數(shù)據(jù)集Fig.1 winedataset圖2 iono數(shù)據(jù)集Fig.2 ionodataset
圖3 wdbc數(shù)據(jù)集Fig.3 wdbcdataset圖4 wpbc數(shù)據(jù)集Fig.4 wpbcdataset
6.2.2 約簡屬性數(shù)量比較
首先比較不同算法的約簡屬性數(shù)量.表4中展示的是4種算法約簡后的屬性數(shù)量與數(shù)據(jù)集原始屬性數(shù)量的比較.從實驗的結(jié)果可以看出,4種算法都可以約簡掉冗余的屬性.其中,RNRS算法在大部分數(shù)據(jù)集中屬性數(shù)量都小于其它3中對比算法.從約簡結(jié)果的平均數(shù)來看,本文的RNRS算法獲得的平均屬性數(shù)為10,而DNRS、MNRS和INRS算法分別為20、12和11,因此從總體來看,本文的算法同樣能夠獲得較少的屬性數(shù)量.
表4 特征數(shù)量比較Table 4 Comparison of feature number
6.2.3 分類精度比較
表5展示了在CART分類器下4種約簡算法約簡后的分類精度和原始精度的比較.觀察表5中的數(shù)據(jù)發(fā)現(xiàn),在wine數(shù)據(jù)集中,RNRS算法的分類精度略低于其它3種算法的分類精度;在wdbc數(shù)據(jù)集中,RNRS算法的分類精度略低于INRS算法,但是高于DNRS和MNRS算法;在iono和wpbc這2個數(shù)據(jù)集中,RNRS算法的分類精度略高于其它3種對比算法.從分類精度的平均數(shù)綜合來看,RNRS算法的平均精度高于原始精度和其它3種算法的精度.這說明RNRS算法在CART分類器下在剔除冗余的條件屬性后還能夠獲得較好的分類精度.
表5 CART分類器下分類精度比較Table 5 Comparison of classification accuracy in CART classifier
表6展示了在SVM分類器下4種約簡算法約簡后的分類精度和原始精度的比較,通過觀察表6中的數(shù)據(jù)發(fā)現(xiàn),在iono數(shù)據(jù)集中,RNRS算法的分類精度略低于DNRS和MNRS算法,但是高于INRS算法.在wpbc數(shù)據(jù)集中,RNRS算法的分類精度略低于MNRS算法,但是高于DNRS和INRS算法.在wine和wdbc數(shù)據(jù)集中RNRS算法的分類精度高于其它3種算法.從平均分類精度來看,RNRS算法的平均精度為0.9097,高于其它3種算法和原始屬性的分類精度.這說明RNRS算法在SVM分類器下在剔除冗余的條件屬性后也能夠獲得較好的分類精度.
表6 SVM分類器下分類精度比較Table 6 Comparison of classification accuracy in SVM classifier
通過以上的幾組實驗對比,表明本文的算法是有效的.充分說明考慮了條件屬性之間的影響后,引入相關(guān)系數(shù)的約簡算法能夠在屬性約簡中既保持較少的屬性特征,又能獲得更好的分類精度.
本文首先分析了不一致鄰域粗糙集的相關(guān)性質(zhì),針對目前已有的不確定性度量方法難以應(yīng)用到鄰域粗糙集中,提出鄰域條件熵的不確定度量方法,分析證明了相關(guān)的性質(zhì)定理.同時考慮到條件屬性之間的關(guān)系會影響約簡屬性數(shù)量和分類精度,將統(tǒng)計學中秩相關(guān)系數(shù)的概念用到鄰域粗糙集屬性約簡算法中,提出基于相關(guān)系數(shù)的屬性約簡算法.該算法通過計算屬性之間的相關(guān)系數(shù)來剔除冗余屬性.從而保證了約簡結(jié)果既能表達原數(shù)據(jù)所包含的信息,又減少了結(jié)果的冗余程度.并通過實驗展示了該算法在屬性約簡中的作用.實驗結(jié)果表明,本文提出的算法具有較好的效果.下一步的工作是如何在屬性約簡過程中選擇合適的相關(guān)系數(shù)閾值.
[1] Pawlak Z.Rough sets[J].Int J of Computer and Information Sciences,1982,11(5):341-356.
[2] Sarah Vluymans,Lynn D′eer ,Yvan Saeys,et al.Applications of fuzzy rough set theory in machine learning:a survey[J].Fundamenta Informaticae,2015,142(1-4):53-86.
[3] Rahman Ali,Muhammad Hameed Siddiqi,Sungyoung Lee.Rough setbased approaches for discretization:a compact reviews[J].Artificial Intelligence Review,2015,44(2):235-263.
[4] Wang De-lu,Song Xue-feng,Yuan Jing-ying.Forecasting core business transformation risk using the optimal rough set and the neural network[J].Journal of Forecasting,2015,34(6):478-491.
[5] Chen Li-fei,Tsai Chih-Tsung.Data mining framework based on rough set theory to improve location selection decisions:a case study of a restaurant chain[J].Tourism Management,2016,53(4):197-206.
[6] Jensen R,Shen Q.Semantics-preserving dimensionality r-eduction:rough and fuzzy-rough-based approaches[J].IEEE Trans.On Knowledge and Data Engineering,2004,16(12):1457-1471.
[7] Lin T Y.Granular computing on binary relations[C].Rough Sets and Current Trends in Computing,Third International Conference,RSCTC 2002,Malvern,PA,USA,Oct-ober 14-16,2002,Proceedings,DBLP,2002:296-299.
[8] Hu Qing-hua,Yu Da-ren,Xie Zong-xia.Numerical attrib-ute reduction based on neighborhood granulation and rough approximation [J].Journal of Software,2008,19(3):640-649.
[9] Hu Qing-hua,Yu Da-ren,Liu Jin-fu,et al.Neighborhood rough set based heterogeneous feature subset selection[J]. Information Sciences,2008,178(18):3577-3594.
[10] Miao Duo-qian.Information representation of the conce-pts and operations in rough set theory[J].Journal of Soft-ware,1999,22(2):113-116.
[11] Beaubouef T,Petry F E,Arora G.Information-theoretic measures of uncertainty for rough sets and rough relation-al databases[J].Information Sciences,1998,109(1-4):185-195.
[12] Chen Yu-ming,Wu Ke-shou,Chen Xu-hui,et al.An ent-ropy-based uncertainty measurement approach in neighbo-rhood systems [J].Information Sciences,2014,279(9):239-250.
[13] Qian Yu-hua,Ling Ji-ye.Combination entropy and com-bination granulation in rough set theory[J].International Journal of Uncertainty Fuzziness and Knowledge-Based Systems,2011,16(2):179-193.
[14] Lu Juan,Li De-yu,Zhai Yan-hui,et al.A model for type-2 fuzzy rough sets[J].Information Sciences,2016,328(C):359-377.
[15] Hu Qing-hua,Zhang Lei,Zhang David,et al.Measuring relevance between discrete and continuous features based on neighborhood mutual information[J].Expert Systems with Applications,2011,38(9):10737-10750.
[16] Hu Qian-hua,Che Xun-jian,Zhang Lei,et al.Feature evaluation
and selection based on neighborhood soft margin[J].Neurocomputing,2010,73(10-12):2114-2124.
[17] Huang Guo-shun,Zeng Fan-zhi,Wen Han.Uncertainty measures of rough set based on conditional possibility[J].Control and Decision,2015,30(6):1099-1105.
[18] Wang Guo-yin.Rough reduction in algebra view and information view[J].International Journal of Intelligent Systems,2003,18(6):679-688.
[19] Gao Hui-xuan.Applied multivariate statistical analysis[M].Beijing:Beijing University Press,2005:218-228.
[20] Wang Jing-long,Liang Xiao-yun.Nonparametric statistical analysis[M].Beijing:Higher Education Press,2006.
[21] Jia Jun-ping,He Xiao-qun,Jin Yong-jin.Statistics[M].Beijing:Renmin University of China Press,2012:226-230.
[22] Chen Yu-ming,Zeng Zhi-qiang,Tian Cui-hua.Uncertainty measures using entropy and neighborhood rough sets[J].Journal of Frontiers of Computer Science and Technology,2016,10(12):1793-1800.
附中文參考文獻:
[8] 胡清華,于達仁,謝宗霞.基于鄰域?;痛植诒平臄?shù)值屬性約簡[J].軟件學報,2008,19(3):640-649.
[17] 黃國順,曾凡智,文 翰.基于條件概率的粗糙集不確定性度量[J].控制與決策,2015,30(6):1099-1105.
[19] 高惠璇.應(yīng)用多元統(tǒng)計分析[M].北京:北京大學出版社,2005:218-228.
[20] 王靜龍,梁小筠.非參數(shù)統(tǒng)計分析[M].北京:高等教育出版社,2006.
[21] 賈俊平,何曉群,金勇進.統(tǒng)計學[M].北京:中國人民大學出版社,2012:226-230.
[22] 陳玉明,曾志強,田翠華.鄰域粗糙集中不確定性的熵度量方法[J].計算機科學與探索,2016,10(12):1793-1800.