樊雲(yún)瑞,張賢勇+,楊霽琳
(1.四川師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,四川 成都 610066;2.四川師范大學(xué) 智能信息與量子信息研究所,四川 成都 610066)
模糊粗糙集采用模糊相似關(guān)系及矩陣表示,能夠系統(tǒng)分析模糊性與粗糙性[1-4];鄰域粗糙集采用鄰域關(guān)系及距離函數(shù),能夠深入探尋粒度層次結(jié)構(gòu)信息[5-7]。結(jié)合模糊粗糙集與鄰域粗糙集,Wang等[8]構(gòu)建模糊鄰域粗糙集,該新模型能夠有效與廣泛實(shí)施不確定性度量、半徑?;?、特征選擇等。例如,徐風(fēng)等[9]融合近似粗糙度與模糊鄰域粒度,建立混合不確定性度量;任曉霞和薛凡[10]定義模糊鄰域依賴度,開(kāi)發(fā)啟發(fā)式屬性約簡(jiǎn)算法;Shreevastava等[11]采用直覺(jué)思想延伸模糊鄰域粗糙集,進(jìn)行特征選擇。
不確定性度量及其?;瘑握{(diào)性是信息系統(tǒng)智能分析的基礎(chǔ)[12,13],其通常具有代數(shù)表示與信息表示[14],相關(guān)融合蘊(yùn)含著更強(qiáng)的刻畫(huà)能力。立足經(jīng)典粗糙集,Jiang等與Zhou等[15,16]將對(duì)數(shù)信息函數(shù)作用于粗糙度提出相對(duì)決策熵,再融合依賴度改進(jìn)到依賴決策熵,最終實(shí)施特征選擇。模糊鄰域粗糙集的代數(shù)與信息融合度量還未見(jiàn)相關(guān)報(bào)道。
綜上,模糊鄰域粗糙集的不確定性度量值得深入探討。本文借鑒文獻(xiàn)[15,16]的決策熵建立模糊鄰域決策熵,進(jìn)行信息表示與代數(shù)表示的融合與擴(kuò)張,揭示關(guān)于屬性與半徑的雙重?;瘑握{(diào)性。所建模糊鄰域決策熵將改進(jìn)文獻(xiàn)[9]的混合不確定性度量并推廣文獻(xiàn)[15,16]的決策熵,有利于模糊鄰域粗糙集環(huán)境下的不確定性魯棒處理。
(1)
模糊鄰域近似精度、近似粗糙度分別為
(2)
(3)
基于模糊關(guān)系RB的模糊鄰域依賴度為
(4)
模糊鄰域粗糙集具有不確定性機(jī)制與半徑粒化機(jī)制,能夠有效進(jìn)行決策信息系統(tǒng)的信息處理與知識(shí)發(fā)現(xiàn),而不確定性度量成為基礎(chǔ)。文獻(xiàn)[9]提出模糊鄰域粒結(jié)構(gòu)粒度
(5)
(6)
NMMδ(B)考慮了粒度結(jié)構(gòu)與粗糙度的融合,相關(guān)的?;瘑握{(diào)性表明了其有效性[9]。但是,NMMδ(B) 還停留在度量的代數(shù)表示,信息表示值得加入[14]。鑒于經(jīng)典粗糙集中已經(jīng)具有融合代數(shù)表示與信息表示的決策熵[15,16],下面在模糊鄰域粗糙集中借鑒與推廣決策熵,構(gòu)建模糊鄰域決策熵并揭示?;瘑握{(diào)性。
定義2[16]基于經(jīng)典粗糙集,B?C相對(duì)于D的相對(duì)決策熵為
(7)
(8)
(9)
定義4[15]基于經(jīng)典粗糙集,B?C相對(duì)于D的依賴決策熵為
(10)
定義5 基于模糊鄰域粗糙集,B?C相對(duì)于D的模糊鄰域依賴決策熵為
(11)
這里提供一個(gè)實(shí)例來(lái)說(shuō)明模糊鄰域決策熵。
例1:給定決策信息系統(tǒng)DIS=(U,C,D,V,f), 屬性子集B?C導(dǎo)出模糊相似關(guān)系RB的矩陣設(shè)為
其中,元素γij表示第i個(gè)與j個(gè)對(duì)象之間的模糊相似度RB(xi,xj)。 設(shè)模糊鄰域半徑δ1=0.2, 可得對(duì)象的模糊鄰域,相關(guān)的相似關(guān)系矩陣為
首先計(jì)算模糊決策類的近似及相關(guān)度量。基于定義1
基于定義3與定義5,關(guān)于決策類有
關(guān)于決策分類有
下面說(shuō)明屬性粒化單調(diào)性。設(shè)P?B?C, 由P導(dǎo)出的模糊(鄰域)相似關(guān)系矩陣為
類似可計(jì)算得出
以及模糊鄰域決策熵
由此可見(jiàn)度量單調(diào)性
最后說(shuō)明半徑?;瘑握{(diào)性。給定新半徑δ2=0.4, 模糊鄰域相似關(guān)系矩陣為
類似計(jì)算可得
以及
由此可見(jiàn)度量單調(diào)性
下面從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)(http://archive.ics.uci.edu/ml)選取5類數(shù)據(jù)集(見(jiàn)表1)進(jìn)行實(shí)驗(yàn)分析,從而驗(yàn)證模糊鄰域決策熵進(jìn)行不確定性度量的合理性與優(yōu)越性。
表1 UCI數(shù)據(jù)集描述
歸一化預(yù)處理采用公式
對(duì)象xi與xj在屬性a下的模糊相似度定義為
其中,λ∈(0,1] 為給定參數(shù),實(shí)驗(yàn)中統(tǒng)一使用λ=0.3。 下面,γ、RDE、DRDE分別表示模糊鄰域依賴度、模糊鄰域相對(duì)決策熵、模糊鄰域依賴決策熵。為聚焦?;瘑握{(diào)性,首先選取自然屬性增鏈
{c1}?{c1,c2}?{c1,c2,c3}?…?C
(12)
(第g個(gè)鏈元為 {c1,…cg}=Ag), 再聚集半徑減列
δ1>δ2>δ3>…>0
(13)
(第h個(gè)列點(diǎn)記為δh), 最后綜合考慮 (Ag,δh) 二維集成?;兓?。
采用式(12)的基本屬性增鏈,計(jì)算γ、RDE、DRDE這3種度量的序列值,以揭示相關(guān)粒化單調(diào)性。5種數(shù)據(jù)集采用的半徑參數(shù)分別為:0.1、0.2、0.2、0.1、0.2?;趯?shí)驗(yàn),圖1提供全部數(shù)據(jù)集的度量值折線。
圖1 5類UCI數(shù)據(jù)集關(guān)于屬性增鏈的3種度量折線
觀測(cè)圖1,隨著屬性數(shù)目的增加,γ在增加即系統(tǒng)不確定性在減小,此時(shí)RDE和DRDE都在減小,該結(jié)果驗(yàn)證了相關(guān)的屬性?;瘑握{(diào)性并說(shuō)明了決策熵不確定性度量的合理性。聚焦glass與wine數(shù)據(jù)集的前端鏈元可見(jiàn),當(dāng)屬性數(shù)目變化時(shí),γ不變或者變化很小,而對(duì)應(yīng)的RDE與DRDE要變或者變化明顯,這體現(xiàn)出RDE與DRDE的優(yōu)越性,即它們可以比γ具有更好的分類識(shí)別能力。事實(shí)上,對(duì)比于γ,RDE和DRDE在5類數(shù)據(jù)集上都表現(xiàn)出更大的單調(diào)性跨度(即具有更大的變化率ΔRDE/Δg與ΔDRDE/Δg), 因此它們對(duì)知識(shí)結(jié)構(gòu)具有更強(qiáng)的描述功能與區(qū)分能力。類似地,就決策熵而言,DRDE在不確定性度量上比RDE更加強(qiáng)大與更優(yōu)化。因?yàn)镈RDE在RDE上融合了γ信息,而RDE與γ具有相反的屬性?;瘑握{(diào)性,因此DRDE對(duì)RDE進(jìn)行了修正與改進(jìn),兩者具有相似的單調(diào)性曲線,但DRDE具有更加明顯的單調(diào)性與變化率,即其不確定性度量效果更佳??傊?,DRDE具有與γ、RDE的一致和諧性,并且系統(tǒng)集成了兩者的優(yōu)點(diǎn)。
下面深入驗(yàn)證DRDE的合理性。針對(duì)屬性增鏈及鏈元子集,采用支持向量機(jī)(SVM)訓(xùn)練來(lái)求得分類精度,并通過(guò)分類精度的變化來(lái)評(píng)估DRDE的合理性?;趯傩栽鲦?,圖2描繪了5類數(shù)據(jù)集的分類精度變化與DRDE變化。
圖2 5類UCI數(shù)據(jù)集關(guān)于屬性增鏈的分類精度與DRDE折線
觀測(cè)圖2,DRDE與分類精度總體上成負(fù)相關(guān)關(guān)系。在屬性增鏈上,DRDE度量的系統(tǒng)不確定性在減小而分類精度總體上在增加;當(dāng)DRDE表現(xiàn)最低的不確定性程度時(shí),對(duì)應(yīng)的分類精度達(dá)到最高。這說(shuō)明DRDE具有合理且優(yōu)異的不確定性度量效果。
下面針對(duì)最終的模糊鄰域依賴決策熵DRDE,考慮半徑關(guān)聯(lián)的?;瘑握{(diào)性與顯著性,并給出半徑的適宜取值范圍。為此,半徑減列(式(13))針對(duì)區(qū)間[0.05,0.6]及步長(zhǎng)0.05,再結(jié)合屬性增鏈(式(12))計(jì)算二維?;到y(tǒng)的DRDE度量值,即計(jì)算相關(guān)三維值 (Ag,δh,DRDE)。 圖3 提供所有數(shù)據(jù)集的圖像表現(xiàn)。
圖3 5類UCI數(shù)據(jù)集關(guān)于屬性增鏈的半徑減列的DRDE變化曲面
基于圖3,DRDE針對(duì)確定屬性子集(即Ag) 與半徑減小仍然呈現(xiàn)減小趨勢(shì),故表現(xiàn)了半徑?;瘑握{(diào)性。換言之,隨著半徑減少,系統(tǒng)不確定性也隨之減少,這從閾值角度說(shuō)明了DRDE不確定性度量的合理性。再考慮相關(guān)的變化率ΔDRDE/Δg或ΔDRDE/Δ(δh)。 觀測(cè)結(jié)果可見(jiàn),當(dāng)半徑較大時(shí),DRDE較大但單調(diào)變化不顯著;這是由于大半徑放寬了對(duì)象模糊相似度,較粗的知識(shí)結(jié)構(gòu)會(huì)影響不確定性評(píng)估。對(duì)比地,當(dāng)半徑較小時(shí),DRDE較小但單調(diào)變化比較顯著,這個(gè)結(jié)果可由數(shù)據(jù)圖的上凸性趨勢(shì)深刻說(shuō)明。當(dāng)然,半徑不能太小,例如小得靠近0.05會(huì)導(dǎo)致知識(shí)過(guò)于精細(xì),相應(yīng)的圖結(jié)果不能充分表明粒化單調(diào)性(特別針對(duì)屬性數(shù)目較大的細(xì)化?;?。
總之,基于半徑減列的實(shí)驗(yàn)與分析呈現(xiàn)了相關(guān)的?;瘑握{(diào)性,而且在適當(dāng)半徑時(shí)單調(diào)性更加顯著,即DRDE的不確定性度量效果更好。基于相關(guān)實(shí)驗(yàn),模糊鄰域半徑選取0.1-0.2比較適宜,此時(shí)DRDE更加有效地發(fā)揮著不確定性度量功能,也就更加有利于后續(xù)的智能處理與知識(shí)發(fā)現(xiàn)。
針對(duì)模糊鄰域粗糙集,文獻(xiàn)[9]的混合不確定性度量還沒(méi)有考慮到信息表示。本文自然推廣文獻(xiàn)[15,16]的決策熵到模糊鄰域粗糙集,建立模糊鄰域決策熵,獲得關(guān)于屬性與半徑的雙重粒化單調(diào)性。模糊鄰域決策熵深入融合代數(shù)表示與信息表示獲得了強(qiáng)健性、改進(jìn)性,相關(guān)實(shí)驗(yàn)驗(yàn)證了基于?;瘑握{(diào)的不確定性度量有效性以及基于參數(shù)顯著性分析的適用性與魯棒性。模糊決策熵具有先進(jìn)的不確定性分析性能,相關(guān)的特征選擇還需要深入探討。