孫國寶
摘要:不確定數(shù)據(jù)廣泛的存在日常生活中,不確定數(shù)據(jù)挖掘是當前重要方向研究方向。研究者必須通過對象的可能世界實例,得到概率密度函數(shù)。當對象的可能世界實例缺失時,經(jīng)典不確定數(shù)據(jù)的模型將束手無策。對Vague集進行擴展,提出一種新的面向不確定數(shù)據(jù)的Vague集模型,即U-Vague集模型。并定義了U-Vague集模型之間的距離。通過直接聚類算法對模型的有效性進行了驗證。最后對不確定數(shù)據(jù)的研究做出了展望。
關(guān)鍵詞:可能世界;實例缺失;U-Vague集;距離;直接聚類
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)01-0218-04
1 引言
不確定數(shù)據(jù)即帶有不確定性(uncertainy)的數(shù)據(jù),數(shù)據(jù)的不確定性產(chǎn)生的原因有多種,可能是原始數(shù)據(jù)本來不準確或采用了粗粒度的數(shù)據(jù)集合,也可能是原始數(shù)據(jù)是為了滿足特殊應用目的或經(jīng)過處理或者數(shù)據(jù)集成而生成的[1]。不確定性的主要表現(xiàn)形式為隨機性和模糊性。當前,學者已提出的不確定數(shù)據(jù)對象的模型,為可能世界(possible world)模型以及根據(jù)可能世界模型衍生的特殊模型。表1表示的為一組上海市嘉定區(qū)某日,氣溫采集數(shù)據(jù)。氣溫數(shù)據(jù),分別由10個散布在嘉定區(qū)不同區(qū)域的溫度采集傳感器獲得。
將嘉定區(qū)氣溫視為不確定對象,可以根據(jù)氣溫數(shù)據(jù)建立嘉定區(qū)氣溫的可能世界模型,如表2所示, c表示嘉定區(qū)氣溫可能世界實例(possible world instance),p(c)為不確定對象即嘉定區(qū)氣溫取值為c時的概率,概率值由各氣溫數(shù)據(jù)出現(xiàn)頻率計算得出。由表2,即可對嘉定區(qū)氣溫數(shù)據(jù)進行下一步處理。
當傳感器由于老化或者損壞等原因,導致采集到的數(shù)據(jù)存在缺失,如表3所示,傳感器P2、P6和P8的數(shù)據(jù)無法獲得。
此時,由于可能世界實例的不完整,無法對氣溫建立可能世界模型,完全限制了對數(shù)據(jù)繼續(xù)處理。在傳統(tǒng)確定數(shù)據(jù)挖掘的研究中,也存在數(shù)據(jù)缺失或不完備的情形,如[2]、[3]、[4]等采取的策略均是直接忽略丟失部分,其結(jié)果往往會導致真實信息的丟失。文章對Vague集理論進行擴展,提出了U-Vague集模型和U-Vague集之間的距離度量。
在文章第二節(jié)中介紹了Vague集理論相關(guān)定義,第三節(jié)定義了U-Vague集模型及U-Vague集之間的距離。第四節(jié)中,對U-Vague集模型的有效性,進行了驗證。最后對不確定數(shù)據(jù)的模型的研究和Vague集的研究做出了展望。
2 相關(guān)定義
Vague集作為Fuzzy集的拓展集,引入了假隸屬度函數(shù),比Fuzzy集具有更強的表達能力和靈活性。
定義1[5]令為點集空間,用表示其中的元素,的一個Vague集可以用真隸屬度函數(shù)和假隸屬度函數(shù)表示。表示從支持的證據(jù)所導出的的肯定隸屬度的下界,是從反對的證據(jù)所到處的的否定隸屬度的下界,為相對Vague集的Vague值(Vague value),和分別是到的一個映射
3.1 U-Vague集的定義
定義4 對不確定數(shù)據(jù)對象集合,由集合中所有元素的可能世界實例的集合組成的實例空間為,即。將等距離劃分成為個子空間,即稱為的可能世界實例集合區(qū)間,后文簡稱為集合區(qū)間。用公式表達即為:
定義5對于給定不確定數(shù)據(jù)對象集合,中的對象,根據(jù)定義2和定義4將的可能世界實例集合按集合區(qū)間分割成為個子區(qū)間,即其中。稱為不確定對象關(guān)于集合區(qū)間的區(qū)間二元組,其中即為不確定對象關(guān)于可能世界實例子集合的概率。??蓪⒉淮_定對象表示為區(qū)間二元組集合,即為:
定義6對于不確定對象集合以及可能世界空間,不確定數(shù)據(jù)對象可以用一個真區(qū)間隸屬度函數(shù)和一個假區(qū)間隸屬度函數(shù)表示。表示支持對象取值在集合區(qū)間的證據(jù)的下界,表示反對對象取值不在集合區(qū)間的證據(jù)的下界稱為對象關(guān)于集合區(qū)間的U-Vague值。
對于不確定對象由公式,可得
即表示對象的缺失實例均不在集合區(qū)間內(nèi)時,取值為集合區(qū)間概率,即為。表示對象缺失實例均在集合區(qū)間內(nèi)時,取值為集合區(qū)間概率,即為。
不確定對象的U-Vague集模型就可以表示為:
不確定對象集合為:
即稱為不確定對象集合的U-Vague集矩陣。
下面通過對一組溫度數(shù)據(jù)集合,模擬U-Vague集的模型建立過程。圖1為某省5個市不同監(jiān)測站在同一天所采集到的溫度數(shù)據(jù),由于傳感器和數(shù)據(jù)保存的過程中疏忽,造成圖1中的部分數(shù)據(jù)難以獲得,—表示傳感器數(shù)據(jù)丟失,黑色為被污染區(qū)域。
首先,用溫度數(shù)據(jù)矩陣對圖1進行表示,為:
然后根據(jù)溫度數(shù)據(jù)矩陣的元素,劃分可能世界實例集合區(qū)間,設k=5
可以得到溫度數(shù)據(jù)的實例集合區(qū)間,用軸線進行表述,如圖2所示對中溫度數(shù)值進行根據(jù)等距劃分:
最后由各可能實例集合的真隸屬度與假隸屬度函數(shù)建立每個市的U-Vague集:
對于市Ⅰ,可能世界實例集中在和中,缺失的實例有可能落在任何實例區(qū)間。由市Ⅰ的觀測站個數(shù)為10,可以得到市Ⅰ的關(guān)于實例集合區(qū)間和的真隸屬和假隸屬度分別為:
市Ⅰ的U-Vague模型可以表示為:
同理,我們得到其他市的U-Vague集模型,可以用U-Vague集矩陣表示,為:
3.2 U-Vague集之間的距離
在經(jīng)典Vague集的研究領(lǐng)域中,Vague值之間的距離是重要的研究方向。本節(jié)引入,對chen【引用】提出的距離進行針對U-Vague集模型的拓展,得到了U-Vague值之間的距離公式。
3.2.1 U-Vague值之間的距離
定義7令和為不確定數(shù)據(jù)對象集合的兩個對象元素,為的一個集合區(qū)間。和關(guān)于集合區(qū)間的U-Vague值為:
其中,
表示對象關(guān)于集合區(qū)間可能世界實例集合的期望,即:
的值越大,表示U-Vague值之間距離越接近。
3.2.2 U-Vague集之間的距離
定義8給定不確定數(shù)據(jù)對象集合,以及所對應U-Vague集矩陣,中任意兩個對象和,即任意兩個U-Vague集的距離為兩個對象關(guān)于對應集合區(qū)間的U-Vague值的距離總和,值越大,表示越相似。用公式表達為:
由公式(13)和公式(15),我們就可以對進行計算,得到的相似性矩陣:
4 實驗分析
聚類(cluster)是一個將數(shù)據(jù)庫中的數(shù)據(jù)劃分具有一定意義的簇(clustering),使簇內(nèi)的對象盡可能相近,簇間的對象盡可能相異。聚類可以發(fā)現(xiàn)數(shù)據(jù)中所隱含的關(guān)系和模式,是數(shù)據(jù)挖掘、機器學習等研究領(lǐng)域的重要方法。直接聚類算法是通過直接對相似矩陣進行分析,的一類模糊聚類算法。直接聚類算法省去了矩陣自乘運算,避免了原有數(shù)據(jù)的失真。其算法描述如下表4所示:
由3.2.2節(jié)所得求得U-Vague集的相似性矩陣,即可對進行直接聚類,得到的聚類結(jié)果,如表5所示:
結(jié)合圖2和表5,對聚類結(jié)果進行分析。根據(jù)圖2中各市的溫度分布情況,市Ⅱ和市Ⅳ分布最為相似,表5中的聚類結(jié)果也最先把市Ⅱ和市Ⅳ劃分到同一個簇內(nèi)。市Ⅰ和市Ⅱ或市Ⅳ的溫度分布很明顯要比市Ⅲ和市Ⅴ更接近,從表5也可以得出同樣的結(jié)果。模型的有效性即得到驗證。
5 展望
不定數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的研究熱點之一,當前不確定挖掘研究主要面向的是隨機不確定對象,對象的可能世界實例缺失,對不確定數(shù)據(jù)的進一步處理形成了障礙。本文引入Vague集理論,針對不確定對象實例缺失的情形提出U-Vague集模型,既有效的保留了不確定對象的實例缺失特性,又實現(xiàn)了對不確定對象的進一步處理。引入其他研究方向,比如模糊集、粗糙集等對不確定的研究的,已有的研究成果,是一種新的,研究不確定數(shù)據(jù)挖掘的思路。不確定數(shù)據(jù)相對于傳統(tǒng)確定數(shù)據(jù),區(qū)別在于不確定數(shù)據(jù)增加了概率維度。學者們通過,概率密度函數(shù)對數(shù)據(jù)的不確定性進行描述,從而實現(xiàn)對不確定數(shù)據(jù)的處理。新的,針對數(shù)據(jù)不確定性模型的研究,將會是不確定數(shù)據(jù)挖掘的接下來的研究方向之一。
U-Vague集模型與Vague集的重要的區(qū)別在于,U-Vague集元素不限于,論域中確定單一元素,而是由論域生成的等距集合邏輯單元,即實例集合區(qū)間。這個突破,對Vague集的廣義化,以及模糊集的廣義化提供了一個新的思路。
6 總結(jié)
文章首先對不確定對象可能世界實例缺失進行了介紹,在詳細闡述U-Vague集模型之前,對Vague集模型的定義進行了概述。通過定義實例集合區(qū)間、實例二元組、區(qū)間二元組等定義,詳細地闡述了U-Vague集模型的定義。緊接著,利用實例演示了U-Vague集模型的建立過程。文章提出了,U-Vague集之間的距離公式,并在實驗分析中對,U-Vague集模型以及U-Vague集模型之間距離公式的有效性進行了驗證。最后,對不確定數(shù)據(jù)以及Vague集的研究,做出了展望。
參考文獻:
[1] 周傲英,金澈清,王國仁,等.不確定性數(shù)據(jù)管理技術(shù)研究綜述[J].計算機學報,2009,32(1):1-16.
[2] 張師超,倪艾玲.含缺省屬性值的數(shù)據(jù)中的規(guī)則發(fā)現(xiàn)算法[J].計算機科學,2005,32(10):132-134.
[3] 劉開第,龐彥軍,王義鬧.基于不一致數(shù)據(jù)庫的缺省加權(quán)規(guī)則挖掘算法[J].計算機科學,2003, 30(4):174-176.
[4] 王清毅,蔡智,鄒翔,等.部分數(shù)據(jù)缺失環(huán)境下的知識發(fā)現(xiàn)方法[J].軟件學報, 2001,12(10):1516-1524.
[5] 李凡,徐章艷,饒勇.Vague集[J].計算機科學,2000,27(9):12-14.
[6] Chen S M.Measures of similarity between vague sets[J].Fuzzy Sets & Systems,1995,74(2):217-223.