王金山, 王 磊
(解放軍陸軍軍官學院數學教研室,安徽 合肥 230031)
粗糙集理論是一種能夠定量分析處理不精確、不一致、不完整信息與知識的數學工具,由波蘭華沙大學Pawlak(1982)首先提出,稱為經典粗糙集理論。經典粗糙集理論研究的對象必須是完備信息系統(tǒng),即論域中所有對象對應的屬性值是已知的。但是在實際中,由于數據獲取困難、容易丟失甚至數據本身就不存在等原因造成了數據缺失,稱之為空值。這就造成了獲得的信息系統(tǒng)是不完備的,稱之為不完備信息系統(tǒng)。
為了使粗糙集模型能夠處理不完備信息系統(tǒng),學者們對經典粗糙集模型中的等價關系進行弱化,提出了更一般的二元關系,如容差關系、相似關系、限制容差關系和量化容差關系等。其中,使用最廣泛的是由Kryszkiewicz(1999)提出的容差關系,它對不完備信息系統(tǒng)中對象間的相似性給出了定義,但對于相似程度沒有定量度量而且容差關系的限制條件過于寬松,從而易將某些明顯不相似的對象劃分到同一容差類中。Stefanowski(2001)在容差關系基礎上提出了量化容差關系,它利用己知信息的相同程度定量刻畫樣本對象間的相似程度,但對象間的相似程度量化的精確度不高。國內學者鄧耀進等(2009)提出了一種新的量化容差關系,它利用統(tǒng)計分布代替概率分布得到了對象間的容差度,認為不同決策屬性值對應的條件屬性值的概率分布是相同的。然而,在一致決策表中,條件屬性集中的屬性取值不同就對應了不同的決策屬性,反過來,決策屬性取值也會對條件屬性取值產生影響。對于某一條件屬性而言,不同決策屬性值對應的條件屬性值的概率分布就可能不同,這會進一步影響容差度的計算結果。
同時,不完備信息系統(tǒng)中的空值是一種不確定的信息,也可以理解為噪聲數據。空值的存在可能會對分類造成一定的影響甚至會造成錯誤分類的產生,因此利用具有一定噪聲數據處理和錯誤分類容許能力的變精度粗糙集模型(Ziarko,1993)來處理不完備信息就非常有必要了。
本文在改進量化容差關系基礎上考慮了策屬性值對條件屬性值概率分布的影響,建立了新的量化容差關系,在不完備信息表中已知信息充分的情況下,完全利用已知信息統(tǒng)計得到條件屬性值的概率分布,建立了基于新的量化容差關系的變精度模型,提出了基于重要度的屬性約簡算法,最后通過實例說明了模型建立和計算的過程。
定義1(官禮和,2009) 設S=(U,A,V,f)為不完備信息系統(tǒng),對象集合X?U,屬性集合B?A。設b∈B的值域為,則對于 ?x∈U,f(x,b)=Vib的概率為1/|Vb|,其中|Vb|表示集合Vb的基數(此處為Vb中元素的個數)。
定義2(官禮和,2009) 對于?x,y∈U,則x,y在屬性集合B上取等值的概率(容差度)為:
其中pb(x,y)表示x,y在屬性b上取等值的概率,其取值定義如下:
學者鄧耀進等(2009)在量化容差關系的基礎上提出了一種改進的量化容差關系。
定義3(鄧耀進等,2009) 設對象集合X?U,屬性集合B?A。設ci∈B,屬性ci的值域為Vi=其中m=|Vi|。設tki表示屬性值為的樣本個數。
對于?x,y∈U及?ci∈B,則x,y在屬性集合B上取等值的概率(容差度)為:
其中pi(x,y)表示x,y在屬性ci上取等值的概率,其取值定義如下:
新的量化容差關系的基本原則為:
(1)不完備信息表中已知信息充分,能夠利用已知信息統(tǒng)計得到條件屬性值的概率分布;
(2)若兩個對象某屬性值均為空值且決策屬性值相同,則它們的條件屬性值的概率分布相同,而且條件屬性對應屬性值中,空值等于次數出現越多的屬性值的可能性越大;
(3)不管屬性值是否為空值,對象與自身的容差度均為1。
設不完備信息系統(tǒng) S=(U,A,V,f),對象集合X?U,屬性集合B?A。設ai∈B,屬性ai的值域為,其中 m=|Vi|。
定義4 對于?x,y∈U及?ai∈B,則x,y在屬性集合B上取等值的概率(容差度)為:
其中pi(x,y)表示x,y在屬性ai上取等值的概率,其取值定義如下:
其中,P(Bj|Dr)表示當對象關于屬性ai值為空且決策值為dr時,關于屬性ai值為Vji的對象數與論域中關于屬性ai非空且決策值等于dr對象數量的比值,即
定義5 量化容差關系定義為:
對象x的量化容差類IVTB(x)定義為:
定義6 設(U,IVTB)為近似空間,對于對象集合X?U,定義X基于改進的量化容差關系IVTB的β下近似集為:
定義X基于IVTB的β上近似集為:
定義X基于IVTB的β邊界域為:
定義X基于IVTB的β負域為:
定義7 設U/d為決策屬性d的等價類集合。
決策屬性d與條件屬性集B的β近似依賴性γ(B,d,β)定義為:
記C關于d的β近似約簡為RED(C,d,β),則RED(C,d,β)滿足下面兩個條件:
(1)γ(C,d,β)= γ(RED(C,d,β),d,β);
(2)從RED(C,d,β)中去掉任何一個屬性都將使(1)不成立。
定義8(文志信等,2011) 設屬性c∈C-B,定義c相對于B的重要度SIGB(c)為:
SIGB(c)越大,說明在條件屬性集C中屬性c相對于決策屬性d越重要。
定理1(米據生等,2004) 在條件屬性集C中所有重要度不為0的屬性構成C的核CORE(C)。
基于重要度的屬性約簡算法步驟如下:
(1)計算核CORE(C):對于?c∈C,計算重要度SIGC(c),所有重要度大于0的屬性構成核CORE(C);
(2)令RED(C)←CORE(C);
(3)計算 γ(C,d,β)及 γ(RED(C),d,β)并判斷 γ(C,d,β)= γ(RED(C),d,β)是否成立。若成立,則轉(6),否則轉(4);
(4)對所有c∈C-RED(C)計算SIGRED(C)(c)并計算其中最大值,即
(5)令RED(C)←CORE(C)Y{cmax},轉(3);
(6)輸出最小約簡RED(C)。
某投資公司現有10個備選投資項目,10個項目表示為論域X中的對象:X={x1,x2,…,x10};影響投資決策的屬性有投資成本(a1)、預期收益(a2)、其他因素(a3),則條件屬性集 C={a1,a2,a3};決策屬性為d。
其中,投資成本(a1)的屬性值為高、中、低,分別賦值3,2,1;預期收益(a2)的屬性值為高、中、低,分別賦值3,2,1;其他影響因素(a3)屬性值為大、中、小,分別賦值3,2,1;策屬性d屬性值為不投資、投資,分別賦值0,1。具體數據見表1。
表1 投資數據表Table1
在表1中,屬性a1,a2和a3對應的空值較少,已知信息充分,能夠利用已知信息統(tǒng)計得到條件屬性值的概率分布。
對于屬性a1,假設有以下事件:
則有
對于屬性a2,假設有以下事件:
則有
對于屬性a3,假設有以下事件:
則有
根據以上數據可以計算得到對象間關于C,{a1,a2},{a1,a3},{a2,a3}等屬性集上的容差度。
下面利用基于重要度的屬性約簡算法進行屬性約簡。
設 β =0.25,則有:
關于屬性集 C,{a1,a2},{a1,a3}及{a2,a3}的容差類集合分別為:
相對于決策屬性d的β正域分別為:
β近似依賴度為:
進一步計算得到屬性的重要度為:
可知核 CORE(C)={a1,a2}。
因為γ(C,d,β)= γ({a1,a2},d,β)=1。所以{a1,a2}就是所求的約簡。
本文提出了一種新的量化容差關系,充分利用了不完備信息表中的已知信息并且考慮了策屬性值對條件屬性值的概率分布的影響;建立了基于新的量化容差關系的變精度模型并提出了基于重要度的屬性約簡算法,使模型具有一定噪聲數據處理和錯誤分類容許能力;最后通過實例說明了該模型能夠處理含有空值數據的問題。
鄧耀進,李仁發(fā).2009.一種粗糙集理論中量化容差關系的改進[J].計算機工程與科學,31(10):105-108.
官禮和.2009.基于粗糙集理論的不完備信息處理方法研究[J].重慶郵電大學學報,21(4):461-466.
米據生,吳偉志,張文修.2004.基于變精度粗糙集理論的知識約簡方法[J].系統(tǒng)工程理論與實踐,24(1):77-82.
文志信,金棟,單潔.2011.基于條件嫡約簡和粗糙集規(guī)則匹配的反輻射無人機作戰(zhàn)目標威脅識別[J].艦船電子工程,31(6):68-72.
Kryszkicwicz M.1999.Rules in incomplete information systems[J].Information Sciences,113(3):271-292.
Pawlak Z.1982.Rough sets[J].International Journal of Computer and Information Sciences,11(5):314-356.
Stefanowski J.2001.Incomplete information tables and rough classifica-tion[J].Computaional Intelligence,17(3):546-564.
Ziarko W.1993.Variable precision rough set model[J].Journal of Computer and System Science,46(1):39-59.