【摘要】對(duì)模糊聚類(lèi)分析的產(chǎn)生,發(fā)展概況進(jìn)行說(shuō)明,簡(jiǎn)要介紹了進(jìn)行模糊聚類(lèi)分析的一般方法,以及目標(biāo)函數(shù)法的基本過(guò)程,同時(shí)也對(duì)水文學(xué)中模糊聚類(lèi)研究可能遇到的問(wèn)題進(jìn)行探討。
【關(guān)鍵詞】水文學(xué);模糊聚類(lèi);目標(biāo)函數(shù)
一、引言及基本理論
水文學(xué)以研究地球上水體的起源、分布以及其循環(huán)運(yùn)動(dòng)變化規(guī)律等為基本內(nèi)容的一門(mén)學(xué)科;在整個(gè)水文系統(tǒng)中,其輸入一般有降水,污染物等等,流域或區(qū)域作為一個(gè)整體的演變系統(tǒng),流域或區(qū)域出口的徑流,污物擴(kuò)散等作為輸出。從整個(gè)水文系統(tǒng)來(lái)看,它是一個(gè)開(kāi)放的巨大的復(fù)雜的系統(tǒng),而且由于整個(gè)系統(tǒng)的運(yùn)動(dòng)規(guī)律影響因素多,而且其物理機(jī)理也非常復(fù)雜,導(dǎo)致整個(gè)水文系統(tǒng)具有不確定的特性。而水文系統(tǒng)中存在的種種不確定性主要表現(xiàn)在隨機(jī)性、模糊性等方面。
在多元統(tǒng)計(jì)分析當(dāng)中,聚類(lèi)分析是其中的一個(gè)分支;它就是對(duì)一個(gè)沒(méi)有在類(lèi)別上進(jìn)行標(biāo)記區(qū)分的集合或者是樣本,將它劃分成為按照所選的某種規(guī)則進(jìn)行標(biāo)記區(qū)分的若干個(gè)子集或者類(lèi),盡量使樣本或者集合中相似的元素或子集劃分到同一類(lèi)別當(dāng)中,而盡可能的將其中不相似的元素或子集劃分到不同的類(lèi)別中。但是,伴隨著社會(huì)的進(jìn)步發(fā)展,人類(lèi)的認(rèn)知領(lǐng)域也在不斷的拓展,其中,人們發(fā)現(xiàn)在現(xiàn)實(shí)世界中并不存在非常嚴(yán)格的界限來(lái)區(qū)分很多的事物或現(xiàn)象,他們?cè)谛詰B(tài)和類(lèi)屬方面存在著某種統(tǒng)一性或者說(shuō)中介性,他們不是簡(jiǎn)單的“非此即彼”的關(guān)系,而是帶有“亦此亦彼”的性質(zhì),我們將這種情況下的分類(lèi)稱(chēng)為軟分類(lèi),在這種情況下,簡(jiǎn)單的聚類(lèi)分析已不能滿(mǎn)足人們的需求。
1965年Zadeh[1]針對(duì)事物廣泛存在的模糊性提出了模糊集合理論(Fuzzy Set Theory),人們開(kāi)始嘗試用這種方法來(lái)處理聚類(lèi)問(wèn)題,而且取得了較大的成功,并將這種用模糊集合理論處理聚類(lèi)問(wèn)題的方法稱(chēng)為模糊聚類(lèi)分析。
通過(guò)對(duì)樣本或集合的模糊聚類(lèi)分析,不僅可以得到各樣本或子集分別從屬于各個(gè)類(lèi)別的隸屬度,又能夠得到各個(gè)樣本類(lèi)屬之間所具有的中介性。通過(guò)模糊聚類(lèi)分析,得到了樣本在不同類(lèi)別中的不確定性描述,所得到的結(jié)論也更能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行客觀的反映。所以模糊聚類(lèi)分析成為了聚類(lèi)分析研究的主流,也成為了近年來(lái)不斷發(fā)展的一個(gè)研究熱點(diǎn)[2]。而模糊聚類(lèi)分析也為了對(duì)水文學(xué)中的不確定問(wèn)題進(jìn)行處理的重要的工具。
二、發(fā)展概況
自從1965年Zadeh提出模糊集合理論以來(lái),該理論得到了長(zhǎng)足的發(fā)展,而且理論的本身的內(nèi)容也得到充實(shí)和完善;而模糊聚類(lèi)分析作為模糊集合理論在應(yīng)用實(shí)踐方面的重要領(lǐng)域之一,也在基礎(chǔ)理論研究上獲得了很大的進(jìn)展,并且在實(shí)際工程的應(yīng)用過(guò)程中取得了很好的成績(jī)。而且模糊c均值法作為模糊聚類(lèi)分析中的一種算法,由于其本身強(qiáng)大的實(shí)用性和理解上的通俗易懂性,使得模糊c均值法得到廣泛應(yīng)用,并迅速成為了對(duì)聚類(lèi)問(wèn)題進(jìn)行研究的重要方向。下面對(duì)模糊c均值聚類(lèi)的理論與算法的進(jìn)展作簡(jiǎn)要的概括[3]:
(1)算法收斂性的改進(jìn):由Cannon在1986年提出的近似模糊c均值聚類(lèi)法即AFCM法,使得模糊c均值算法的收斂速度得到了大大提高。
(2)目標(biāo)函數(shù)的修改:Trauwaert等人在1991年,根據(jù)最大相關(guān)性的原則,將模糊聚類(lèi)算法中的目標(biāo)函數(shù)進(jìn)行了修改。
(3)目標(biāo)函數(shù)在距離公式方面的改進(jìn):距離公式的改進(jìn)能夠使得算法聚類(lèi)的數(shù)據(jù)類(lèi)型的范圍擴(kuò)大?;谀繕?biāo)函數(shù)的聚類(lèi)算法中,大部分情況下都會(huì)采用歐氏距離。而Gusatafson[4]在1978年,將協(xié)方差引入到了目標(biāo)函數(shù)的距離公式的表達(dá)式中,提出了基于協(xié)方差的模糊聚類(lèi)算法,從而使得在進(jìn)行模糊聚類(lèi)分析時(shí),數(shù)據(jù)聚類(lèi)的效果得到明顯提高。
三、方法分類(lèi)
從方法的實(shí)現(xiàn)上來(lái)看,進(jìn)行聚類(lèi)分析的方法一般可分為以下幾種類(lèi)型[5]:基于譜系的聚類(lèi)方法、基于等價(jià)關(guān)系的聚類(lèi)方法、基于圖論的聚類(lèi)方法和基于目標(biāo)函數(shù)的聚類(lèi)方法。聚類(lèi)方法可認(rèn)為是將包含在樣本集中的所有可能劃分成為子集的并將子集按某種規(guī)則進(jìn)行分類(lèi)的處理數(shù)據(jù)的方法。如要得到理想的聚類(lèi)結(jié)果,必須在采用聚類(lèi)方法和選取聚類(lèi)準(zhǔn)則的時(shí)候進(jìn)行謹(jǐn)慎的比選論證。但是,由于上述的前三種方法不適用于處理數(shù)據(jù)量比較大的情況,并且它們?cè)趯?shí)時(shí)性要求較高的場(chǎng)合不能滿(mǎn)足使用要求,因此在進(jìn)行實(shí)際問(wèn)題分析的時(shí)候應(yīng)用不是很廣泛,目前,有關(guān)這三種聚類(lèi)方法的研究已經(jīng)逐漸減少了。而基于目標(biāo)函數(shù)的聚類(lèi)法則是將問(wèn)題歸結(jié)為一個(gè)非線性規(guī)劃的問(wèn)題,并且?guī)в屑s束條件,通過(guò)采用以?xún)?yōu)化進(jìn)行求解的方式獲得樣本數(shù)據(jù)集的最優(yōu)模糊劃分和聚類(lèi)。這種聚類(lèi)分析的方法在設(shè)計(jì)過(guò)程方面操作比較簡(jiǎn)單,而且所能解決的問(wèn)題的范圍方面也更加廣泛,還可以將所處理的問(wèn)題轉(zhuǎn)化為有關(guān)優(yōu)化的問(wèn)題從而借助數(shù)學(xué)的非線性規(guī)劃的理論進(jìn)行求解。由于算法可以運(yùn)用計(jì)算機(jī)將整個(gè)求解過(guò)程實(shí)現(xiàn),所以這種方法的實(shí)用性很強(qiáng)。
數(shù)據(jù)聚類(lèi)分析一般包括四個(gè)過(guò)程:(l)模式表示;(2)模式相似性的定義;(3)聚類(lèi)算法的設(shè)計(jì);(4)聚類(lèi)有效性評(píng)價(jià)。
四、問(wèn)題與結(jié)論
在有關(guān)模糊聚類(lèi)分析的問(wèn)題中,由于需要聚類(lèi)的對(duì)象的多樣性,即遇到的水文的問(wèn)題的多樣性,使得需要用到的模糊聚類(lèi)的算法也具有多樣性。在聚類(lèi)分析中一般需要解決以下幾個(gè)問(wèn)題:
(1)聚類(lèi)樣本集的多樣性。由于實(shí)際問(wèn)題中的樣本的類(lèi)型具有多樣性,如樣本的球形分布、線性分布、橢球形分布、等等,所以其聚類(lèi)的方法也具有多樣性,需要針對(duì)具體的問(wèn)題采用相應(yīng)的聚類(lèi)算法。
(2)聚類(lèi)分析時(shí)確定聚類(lèi)類(lèi)別個(gè)數(shù)。就是將所給的樣本集劃分為多少個(gè)類(lèi)別更加科學(xué),更加合理。
(3)表征樣本特征的數(shù)據(jù),在進(jìn)行聚類(lèi)分析時(shí)大部分?jǐn)?shù)據(jù)處理方法都是基于歐氏距離的,故只能處理一些具有數(shù)值屬性的數(shù)據(jù)或已經(jīng)數(shù)值化的樣本,對(duì)于一些符號(hào)屬性或者很還沒(méi)有數(shù)值化的信息就很難計(jì)算。
(4)提取樣本特征。聚類(lèi)時(shí)需要根據(jù)樣本元素(子集)的影響特征來(lái)進(jìn)行劃分,有時(shí)找到這些能夠有效區(qū)分類(lèi)別的有效特征是困難的,而且有時(shí)就算找到了特征,但是卻很難用數(shù)據(jù)將其表達(dá)出來(lái)等。
(5)當(dāng)聚類(lèi)樣本輸入順序不同時(shí)會(huì)對(duì)聚類(lèi)算法產(chǎn)生影響。也就是說(shuō)即使聚類(lèi)的樣本相同,當(dāng)樣本的輸入順序不同時(shí),所得到的聚類(lèi)結(jié)果也會(huì)不同。
參考文獻(xiàn)
[1]L.A.Zadeh.Fuzzy Sets.Information and Control[J],1965,338-353.
[2]何青.模糊聚類(lèi)分析理論與應(yīng)用研究進(jìn)展[J].模糊系統(tǒng)與數(shù)學(xué),1998,12(2):89-94.
[3]高新波.模糊聚類(lèi)分析及其應(yīng)用[M].西安電子科技大學(xué)出社,2004.
[4]甄文智,抑制式模糊聚類(lèi)算法及其應(yīng)用[D],西安電子科技大學(xué)碩十學(xué)位論文,2003,01,P2-4,35-41.
[5]胡寶清.模糊理論基礎(chǔ)[M].武漢大學(xué)出版,2004,271-279.
作者簡(jiǎn)介
李曉偉,(1991-)男,河北省石家莊市人,重慶交通大學(xué)河海學(xué)院,在讀碩士研究生.研究方向:港口海岸及近海工程.