劉真勃,代建華,張其來(lái),高帥超,石紅
?
期望序信息系統(tǒng)的優(yōu)勢(shì)粗糙集模型
劉真勃,代建華*,張其來(lái),高帥超,石紅
(天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300350)
對(duì)在實(shí)際應(yīng)用中,信息系統(tǒng)的屬性通常具有期望,比如量器的測(cè)量誤差、產(chǎn)品質(zhì)量標(biāo)準(zhǔn)、醫(yī)療生理指標(biāo)等,為此本文定義了期望序信息系統(tǒng),在一定程度上將無(wú)期望的序信息系統(tǒng)推廣為期望序信息系統(tǒng),并在期望序信息系統(tǒng)的基礎(chǔ)上,構(gòu)建了基于距離的優(yōu)勢(shì)關(guān)系,使用辨識(shí)矩陣的方法進(jìn)行了屬性約簡(jiǎn),最后經(jīng)過(guò)實(shí)例證明方法簡(jiǎn)單可行。
粗糙集;期望序信息系統(tǒng);優(yōu)勢(shì)關(guān)系
粗糙集理論[1]是一種處理不確定、不完備、不一致數(shù)據(jù)的數(shù)學(xué)工具。近年來(lái),粗糙集理論引起了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注和研究, 應(yīng)用在決策制定、模式識(shí)別、數(shù)據(jù)挖掘等領(lǐng)域。經(jīng)典粗糙集理論以等價(jià)關(guān)系為基礎(chǔ),沒有考慮屬性的偏好關(guān)系。Greco等人[2, 3]針對(duì)準(zhǔn)則屬性的偏好關(guān)系問(wèn)題,采用優(yōu)勢(shì)關(guān)系代替等價(jià)關(guān)系,為序信息系統(tǒng)的發(fā)展奠定了基礎(chǔ)。采用有效的排序方法是序信息系統(tǒng)的重要內(nèi)容,許多學(xué)者采用不同的排序方法建立了多種優(yōu)勢(shì)關(guān)系[2-7]。文獻(xiàn)[2,7]提出屬性值越大優(yōu)勢(shì)越大的排序方法,建立優(yōu)勢(shì)關(guān)系;Qian等人[4]利用有序區(qū)間值信息系統(tǒng)的屬性值有上界和下界的特點(diǎn),提出了比較兩個(gè)區(qū)間值上界和下界數(shù)值大小的優(yōu)勢(shì)關(guān)系;Yang等人[5]將不完備區(qū)間值信息系統(tǒng)轉(zhuǎn)化為完備信息系統(tǒng),再采用文獻(xiàn)[4]方法構(gòu)建優(yōu)勢(shì)關(guān)系的方法進(jìn)行了研究;于瑩瑩[8]和楊青山[9]等人對(duì)區(qū)間值序信息系統(tǒng)提出了可能概率的排序方法建立優(yōu)勢(shì)關(guān)系,并用分辨矩陣方法進(jìn)行了屬性約簡(jiǎn);曾雪蘭等人[10]提出了比較區(qū)間值半徑和中心的排序方法,構(gòu)建優(yōu)勢(shì)關(guān)系。
上述排序方法的偏序關(guān)系都認(rèn)為屬性值越大越優(yōu)或者越小越優(yōu),忽略了屬性值有固定期望值的情況?,F(xiàn)實(shí)世界里,由于喜好的存在和對(duì)事物屬性的經(jīng)驗(yàn)性認(rèn)知,人們對(duì)大部分的事物屬性都有一定程度的期望,期望可能是越大越好的或者越小越好的基本描述,也可能是某個(gè)具體數(shù)值。對(duì)于含有期望屬性的有序信息系統(tǒng),傳統(tǒng)的優(yōu)勢(shì)關(guān)系無(wú)法獲得與現(xiàn)實(shí)需求一致的分類與屬性約簡(jiǎn)。例如某公司生產(chǎn)的便攜式電子秤的測(cè)量誤差的期望值是0,三個(gè)電子秤1;2;3的測(cè)量誤差分別為:2,-1,-3。根據(jù)數(shù)值越小越優(yōu)排序方法,它們的偏序關(guān)系應(yīng)該是3最好,2次之,1最差,在實(shí)際的質(zhì)量檢測(cè)中,考慮產(chǎn)品測(cè)量誤差與期望值之間的差距,真實(shí)的偏序關(guān)系是2最好,1次之,3最差。針對(duì)實(shí)際應(yīng)用中,屬性具有期望的特點(diǎn),本文定義了期望序信息系統(tǒng),構(gòu)造了期望優(yōu)勢(shì)關(guān)系,并在一定范圍內(nèi)將期望的概念推廣至傳統(tǒng)的序信息系統(tǒng),應(yīng)用辨識(shí)矩陣的方法進(jìn)行了屬性約簡(jiǎn)。
論文結(jié)構(gòu)安排如下:第2節(jié)介紹序信息系統(tǒng)的基礎(chǔ)知識(shí)和常見的優(yōu)勢(shì)關(guān)系;第3節(jié)定義期望序信息系統(tǒng)和基于距離的優(yōu)勢(shì)關(guān)系;第4節(jié)期望序信息系統(tǒng)的近似空間和屬性約簡(jiǎn)方法;第5節(jié)進(jìn)行實(shí)例分析;最后總結(jié)全文。
本節(jié)回顧一般序信息系統(tǒng)的基本概念,分析序信息系統(tǒng)中常見的幾種優(yōu)勢(shì)關(guān)系。
定義1[6]信息系統(tǒng)是一個(gè)四元組,其中是非空有限的對(duì)象集,稱為論域;是非空有限的屬性集;,是屬性值的集合,是屬性值;是信息函數(shù),,若表示對(duì)象在屬性上的取值。
Pawlak粗糙集理論的信息系統(tǒng)中,屬性集決定了信息系統(tǒng)的等價(jià)關(guān)系。在實(shí)際中,在考慮決策者偏好的情況下,很多屬性需要按照屬性值遞增或者遞減的偏序關(guān)系確立優(yōu)勢(shì)關(guān)系。
定義2[6]設(shè)信息系統(tǒng)=<,,,>,,∈,表示在屬性下至少與一樣好,若屬性的值域中有偏序關(guān)系,則稱是準(zhǔn)則屬性。對(duì)于信息系統(tǒng)中的任意屬性都是準(zhǔn)則屬性,則稱該信息系統(tǒng)為有序信息系統(tǒng)。
定義3[6]設(shè)有序信息系統(tǒng)=<,,,>,,,令,則稱是有序信息系統(tǒng)上的一個(gè)優(yōu)勢(shì)關(guān)系。
桂現(xiàn)才等人[11]使用單值信息系統(tǒng)中的優(yōu)勢(shì)關(guān)系如下:
Shao等人[12]在不完備信息系統(tǒng)中定義優(yōu)勢(shì)關(guān)系如下:
(2)
注:f(x)=*在信息系統(tǒng)中表示該屬性值缺失并且用*表示。
Qian等人[4]提出了區(qū)間值信息系統(tǒng)的一種優(yōu)勢(shì)關(guān)系如下:
從以上優(yōu)勢(shì)關(guān)系可以看出,研究者只考慮了數(shù)值越大越優(yōu)的偏序關(guān)系,忽略了部分屬性不是數(shù)值越大越好,也不是數(shù)值越小越好,而是越接近某個(gè)期望值越好。例如企業(yè)批量生產(chǎn)定重為1千克的袋裝面粉時(shí),期望每袋面粉的重量為1千克,實(shí)際每袋面粉的重量在1千克左右浮動(dòng),一般認(rèn)為面粉重量越接近1千克越符合企業(yè)利益。一般的信息系統(tǒng)無(wú)法準(zhǔn)確體現(xiàn)屬性具有期望的特點(diǎn),上述的優(yōu)勢(shì)關(guān)系不能處理具有期望值的信息系統(tǒng)。因此,定義一個(gè)具有期望值的信息系統(tǒng)是有必要的。
本節(jié)主要定義了期望序信息系統(tǒng),分析對(duì)象屬性值與期望值之間的關(guān)系,定義基于距離的優(yōu)勢(shì)關(guān)系,在一定程度上對(duì)期望進(jìn)行了推廣。
定義4期望序信息系統(tǒng)是一個(gè)五元組={},其中是非空有限的對(duì)象集,稱為論域;是非空有限的屬性集;是屬性值和期望值的集合,是屬性的值域,是屬性期望值的值域,表示期望值為的屬性,表示屬性的期望值為;是信息函數(shù),,若,表示對(duì)象在期望值為的屬性下的值,本文也簡(jiǎn)寫為。
從定義可以看出,期望序信息系統(tǒng)是在一般的序信息系統(tǒng)增加了期望值,屬性具有期望值的特點(diǎn)。表1是一個(gè)期望序信息系統(tǒng),對(duì)象集為{123456},屬性集為={1,2,3, a,5,6},從中可得a的期望值為2,。
表1 期望序信息系統(tǒng)
屬性值與期望值的分布的情況如圖1所示:f(),f(),f(),f()是期望值為的屬性上的四個(gè)不同的取值,具體情況有以下三種。
(1)屬性值f()與f()離屬性的期望值的距離相等,即()(),此時(shí)認(rèn)為在屬性下與優(yōu)勢(shì)相等(或者等價(jià));(2)屬性值f()比f()距離屬性的期望值更近,即()(), 此時(shí)認(rèn)為在屬性下比更優(yōu);(3)屬性值f()比f()距離屬性的期望值更遠(yuǎn),即()(),此時(shí)認(rèn)為在屬性下比差。因而,四個(gè)屬性值按照從優(yōu)到劣的偏序是:。
圖1 屬性值與期望值的位置關(guān)系
在有期望的屬性中,數(shù)值越接近期望值就越優(yōu),因此需要充分利用期望值進(jìn)行構(gòu)建偏序關(guān)系。
定義5 設(shè)期望序信息系統(tǒng)={},,,與期望值的接近程度表示為:。若,則稱在期望值為的屬性下不比差,記作。
在這種偏序關(guān)系下,優(yōu)勢(shì)關(guān)系和優(yōu)勢(shì)類可以定義為:
從定義容易證明:期望優(yōu)勢(shì)關(guān)系具有自反性和傳遞性,而不具有對(duì)稱性。優(yōu)勢(shì)關(guān)系的具體意義為:對(duì)象的距離越小,則越接近期望值,優(yōu)勢(shì)越大,符合設(shè)定期望值的實(shí)際。
為區(qū)分等式(1)和等式(4)兩種優(yōu)勢(shì)關(guān)系,本文將文獻(xiàn)[11]中的優(yōu)勢(shì)關(guān)系(等式1)稱為經(jīng)典優(yōu)勢(shì)關(guān)系,優(yōu)勢(shì)關(guān)系和優(yōu)勢(shì)類分別表示為,等式4表示的優(yōu)勢(shì)關(guān)系稱為期望優(yōu)勢(shì)關(guān)系,優(yōu)勢(shì)關(guān)系和優(yōu)勢(shì)類分別表示為。
性質(zhì) 1設(shè)期望序信息系統(tǒng)={},,,∈,經(jīng)典優(yōu)勢(shì)關(guān)系可以轉(zhuǎn)化為期望優(yōu)勢(shì)關(guān)系。
證明 經(jīng)典優(yōu)勢(shì)關(guān)系可以理解為數(shù)值越大越優(yōu),本文認(rèn)為數(shù)值越大越優(yōu)的屬性期望為。為了計(jì)算方便簡(jiǎn)單,取一個(gè)足夠大的數(shù)值將期望從替換為固定數(shù)值,本文選取替換為。
3.1 近似空間
定義6 設(shè)期望序信息系統(tǒng)={},,,是期望優(yōu)勢(shì)關(guān)系,上、下近似和邊界域定義為:
示例1 信息系統(tǒng)如表1所示,設(shè)={a, a},={x, x}, 等價(jià)類可以表示為:={ x};={ x, x, x};= { x};={ x, x, x};={ x, x, x, x, x, x};= { x, x}。上近似、下近似和邊界域分別為:,={x},={ x, x,}。
3.2 屬性約簡(jiǎn)
某些概念只需要信息系統(tǒng)的部分屬性就能表達(dá),因此信息系統(tǒng)中往往存在大量數(shù)據(jù)冗余。在粗糙集理論中,通過(guò)屬性約簡(jiǎn)可以得到屬性冗余較少的數(shù)據(jù)集,提高知識(shí)發(fā)現(xiàn)的效率。
定義7={},是期望優(yōu)勢(shì)關(guān)系,若是信息系統(tǒng)的一個(gè)約簡(jiǎn),記作(),當(dāng)且僅當(dāng)滿足以下兩個(gè)條件:
系統(tǒng)中可能存在多個(gè)屬性約簡(jiǎn),所有屬性約簡(jiǎn)的交集就構(gòu)成了信息系統(tǒng)的核,記作。
辨識(shí)矩陣[13]是Skowron提出的,是屬性約簡(jiǎn)的重要方法之一。辨識(shí)矩陣具有容易理解,操作簡(jiǎn)單的優(yōu)點(diǎn),許多學(xué)者研究了辨識(shí)矩陣在屬性約簡(jiǎn)上的應(yīng)用。
定義8[10,14]設(shè)期望序信息系統(tǒng)={},是期望優(yōu)勢(shì)關(guān)系,分辨矩陣表示為:
定理 1期望序信息系統(tǒng)={},是在期望關(guān)系下的一個(gè)約簡(jiǎn),當(dāng)且僅當(dāng)是滿足,的最小屬性集。
假設(shè)是的一個(gè)約簡(jiǎn),且存在, 使得, 則有且,與是的一個(gè)約簡(jiǎn)矛盾;同時(shí),對(duì)于任意=-{},都不能得到,因此是滿足的最小屬性集。
定義9 設(shè)期望序信息系統(tǒng)={},是期望優(yōu)勢(shì)關(guān)系下的可辨識(shí)屬性集,稱為可辨識(shí)函數(shù), 其中是指與相對(duì)應(yīng)的布爾值。
定理 2 設(shè)期望序信息系統(tǒng)={},是的一個(gè)約簡(jiǎn),當(dāng)且僅當(dāng)是辨識(shí)函數(shù)轉(zhuǎn)化為析取式的一個(gè)基本蘊(yùn)涵。
其中() 是表示集合的秩。
根據(jù)分辨矩陣和分辨函數(shù)的定義,基于距離的優(yōu)勢(shì)關(guān)系的屬性約簡(jiǎn)算法如下:
輸入:有期望的信息系統(tǒng)={}
輸出:屬性約簡(jiǎn)
步驟1 將期望值為+∞和-∞的屬性的期望分別替換為屬性值域的上確界和下確界;
步驟2由優(yōu)勢(shì)關(guān)系計(jì)算可辨識(shí)屬性集M和可辨識(shí)函數(shù);
步驟3計(jì)算可辨識(shí)函數(shù),從合取式轉(zhuǎn)化為析取式;得到每一個(gè)基本蘊(yùn)涵就是一個(gè)屬性約簡(jiǎn)集。
本節(jié)以某公司生產(chǎn)的便攜式電子秤質(zhì)量檢測(cè)信息為例,將一般序信息系統(tǒng)轉(zhuǎn)化為期望序信息系統(tǒng),并進(jìn)行屬性約簡(jiǎn)。
表2 關(guān)于便攜式電子秤的期望信息系統(tǒng)
表2是一個(gè)關(guān)于便攜式電子秤的期望序信息系統(tǒng),論域{x, x, x, x, x, x, x, x, x}代表抽檢的9個(gè)產(chǎn)品;,屬性集為={a, a, a, a, a}表示電子秤的相關(guān)信息,分別是重量、厚度、大小、測(cè)量誤差和最大承載重量。其中產(chǎn)品質(zhì)量檢測(cè)的標(biāo)準(zhǔn)是重量越小越好,最大承載重量越大越好,測(cè)量誤差、厚度、大小的期望分別為:0,3,2。因?yàn)閷傩?i>a和屬性a的期望都是無(wú)窮的,需要計(jì)算替代期望值,此例中選取屬性a值域的下界和屬性a的上界作為替代期望值。
設(shè)={a},={a},經(jīng)典優(yōu)勢(shì)關(guān)系在屬性集下的優(yōu)勢(shì)類為:
表3 關(guān)于便攜式電子秤的辨識(shí)矩陣
期望優(yōu)勢(shì)關(guān)系在屬性集下的優(yōu)勢(shì)類為:
經(jīng)典優(yōu)勢(shì)關(guān)系在屬性集下的優(yōu)勢(shì)類為:
期望優(yōu)勢(shì)關(guān)系在屬性集下的優(yōu)勢(shì)類為:
從上面可以看出,對(duì)于屬性集,經(jīng)典優(yōu)勢(shì)關(guān)系和期望優(yōu)勢(shì)關(guān)系的得出的優(yōu)勢(shì)關(guān)系類是相同的,即兩者在期望為+∞的屬性的分類能力是相同的;而對(duì)于具有期望屬性集,經(jīng)典優(yōu)勢(shì)關(guān)系無(wú)法得到實(shí)際需求的分類,例如f4(1)=-3與f4(2)=-3,顯然兩者在期望為0的情況下兩者的優(yōu)勢(shì)對(duì)等的,經(jīng)典優(yōu)勢(shì)關(guān)系將兩者進(jìn)行了“錯(cuò)誤”的分類,而期望優(yōu)勢(shì)關(guān)系能夠很簡(jiǎn)單的獲得實(shí)際希望的分類。
期望序信息系統(tǒng)關(guān)于期望優(yōu)勢(shì)關(guān)系在屬性集的優(yōu)勢(shì)類為:
由定義8可得可分辨矩陣如表3所示??杀孀R(shí)函數(shù)化簡(jiǎn)后可得
在實(shí)際中,序信息系統(tǒng)中部分屬性具有期望值的特性,因此分析期望序信息系統(tǒng)具有一定的意義。論文定義了基于距離的優(yōu)勢(shì)關(guān)系,并將一般序信息系統(tǒng)在一定程度上轉(zhuǎn)化為期望序信息系統(tǒng),解決了傳統(tǒng)的優(yōu)勢(shì)關(guān)系無(wú)法處理期望序信息系統(tǒng)的問(wèn)題,同時(shí)用辨識(shí)矩陣的方法進(jìn)行了屬性約簡(jiǎn),并用實(shí)例證明方法簡(jiǎn)單可行。
[1] PAWLAK Z. Rough Sets [J]. International Journal of Computer & Information Sciences, 1982, 11(5):341–356.
[2] GRECO S, MATARAZZO B, SLOWINSKI R. Rough Approximation by Dominance Relations [J]. International Journal of Intelligent Systems, 2002, 17(2):153–171.
[3] GRECO S, MATARAZZO B, SLOWINSKI R. Rough Approximation of a Preference Relation by Dominance Relations [J]. European Journal of Operational Research, 1999, 117(1):63–83.
[4] QIAN YH, LIANG JY, DANG CY. Interval Ordered Information Systems [J]. Computers & Mathematics with Applications, 2008, 56(8):1994–2009.
[5] YANG XB, YANG JY, WU C, et al. Dominance-based Rough Set Approach and Knowledge Reductions in Incomplete Ordered Information System [J]. Information Sciences, 2008, 178(4):1219–1234.
[6] 徐偉華. 序信息系統(tǒng)與粗糙集[M]. 科學(xué)出版社, 2013.
[7] 徐偉華, 張文修. 基于優(yōu)勢(shì)關(guān)系下的協(xié)調(diào)近似空間[J]. 計(jì)算機(jī)科學(xué), 2005, 32(9):164–165.
[8] 于瑩瑩, 曾雪蘭, 孫興星. 優(yōu)勢(shì)關(guān)系下的區(qū)間值信息系統(tǒng)及其屬性約簡(jiǎn)[J]. 計(jì)算機(jī)工程與應(yīng)用,2011, 47(35):122–124.
[9] 楊青山, 王國(guó)胤, 張清華等. 可變精度優(yōu)勢(shì)關(guān)系下的析取集值有序信息系統(tǒng)[J]. 廣西師范大學(xué)學(xué)報(bào): 自然科學(xué)版, 2010, 28(3).
[10] 曾雪蘭, 陳勝, 梅良才. 區(qū)間序信息系統(tǒng)及其屬性約簡(jiǎn)算法[J]. 計(jì)算機(jī)工程, 2010, 36(24):62–63.
[11] 桂現(xiàn)才. 優(yōu)勢(shì)關(guān)系下序信息系統(tǒng)的信息量與粗糙熵[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2008, 29(24):6340–6343.
[12] SHAO MW, ZHANG WX. Dominance Relation and Rules in an Incomplete Ordered Information System [J]. International Journal of Intelligent Systems, 2005, 20(1):13–27.
[13] SKOWRON A, RAUSZER C. The Discernibility Matrices and Functions in Information Systems [J].Theory & Decision Library, 1992, 11:331–362.
[14] DAI JH, TIAN HW. Fuzzy Rough Set Model for Set valued Data [J]. Fuzzy Sets and Systems, 2013,229:54–68.
Rough Set Model Based on Dominance Relation for Ordered Information Systems with Expectations
LIU Zhenbo, DAI Jianhu, ZHANG Qilai, GAO Shuaichao, SHI Hong
(School of Computer Science and Technology, Tianjin University, Tianjin 300350, China)
In real world applications, the attributes with expectation, such as the measurement error, the quality standards of products and biological indicators for medical treatment, should be considered by decision makers. Therefore, the concept of ordered information system with expectations is proposed. Moreover, we extend the general ordered information systems to ordered information systems with expectations based on the dominance relation by the distance between the expectation and the real value. Consequently, attribute reduction of an ordered information system with expectations is investigated by discernibility matrix. Finally, an example illustrates that the method is simple and feasible.
rough sets; ordered information system with expectations, dominance elation
1672-9129(2016)02-0001-05
TP18
A
2016-08-28;
2016-09-21。
國(guó)家自然科學(xué)基金資助(No.61473259, No.61502335)。
劉真勃,男,碩士研究生,研究方向:軟計(jì)算、機(jī)器學(xué)習(xí);代建華,男,教授、博士生導(dǎo)師,主要研究方向:人工智能、粗糙集、模糊集、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、智能信息處理,E-mail:david.joshua@qq.com;張其來(lái),男,碩士研究生;高帥超,男,碩士研究生;石紅,女,副教授。
(*通信作者電子郵箱:david.joshua@qq.com)