摘 要:在對模糊C均值聚類算法原理進(jìn)行簡要分析的基礎(chǔ)上,進(jìn)行了實(shí)驗(yàn)仿真。首先利用聚類樹形圖估計(jì)分類數(shù),再利用模糊C均值聚類算法進(jìn)行分類,結(jié)果表明算法具有較好的分類效果。
關(guān)鍵詞:FCM 聚類樹形圖 隸屬度
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)2(b)-0000-00
1 引言
聚類分析是一種多元統(tǒng)計(jì)分析方法,屬于無監(jiān)督模式識別方法,被廣泛應(yīng)用于模式識別、圖像處理、數(shù)據(jù)分析等領(lǐng)域[1-3]。模糊聚類分析建立了樣本對類別的不確定描述,更能客觀地反應(yīng)樣本的實(shí)際情況,從而成為聚類分析的主要方法 [4-5]。
在模糊聚類算法中,模糊C均值聚類算法(Fuzzy C-means, 簡稱FCM)應(yīng)用最為廣泛。FCM是基于目標(biāo)函數(shù)的模糊聚類算法中理論最完善、應(yīng)用最廣泛的一種算法。為了借助目標(biāo)函數(shù)法求解聚類問題,類內(nèi)平方誤差和WGSS(Within-Groups Sum of Squared Error)成為聚類目標(biāo)函數(shù)的普遍形式。隨著模糊劃分概念的提出,Dunn[6]首先將其推廣到加權(quán)WGSS函數(shù),后來由Bezdek[7]擴(kuò)展到加權(quán)WGSS的無限族,形成了FCM聚類算法的通用聚類準(zhǔn)則。
2 模糊C均值聚類算法原理
模糊C均值聚類算法原理[8]描述如下:
設(shè)樣本空間為: ,數(shù)據(jù)矩陣為:
。
FCM思想即將n個樣本劃分為c類( ),記 為c個類的聚類中心,其中 。
令 為隸屬度矩陣, 表示第k個樣本 屬于第i類的隸屬度( ), 。定義目標(biāo)函數(shù): , 。
FCM的聚類準(zhǔn)則即確定U、V,使 最小。
FCM一般步驟如下:
Step1:初始化,確定c、m、初始隸屬度矩陣 及隸屬度終止容限 和最大迭代次數(shù);
Step2:利用下式計(jì)算第 步的聚類中心 :
;
Step3:修正隸屬度矩陣 ,計(jì)算目標(biāo)函數(shù) :
其中: ;
Step4:判斷是否滿足終止條件,滿足則退出程序;否則, ,轉(zhuǎn)Step2。
3 實(shí)驗(yàn)仿真
為了驗(yàn)證算法的有效性,選取數(shù)據(jù)如表1所示。數(shù)據(jù)選自2013年《中國統(tǒng)計(jì)年鑒》[9]。
程序利用matlab軟件編寫,具體流程如下:
Step1:利用matlab內(nèi)置函數(shù)dendrogram繪制聚類樹形圖,根據(jù)樹形圖大概確定分類數(shù)c;
Step2:初始化,m=3, =1e-6,隨機(jī)化 ;
Step3:調(diào)用fcm函數(shù)。
樹形圖如圖1所示:
由圖1可知,大體上可以分為四類,所以c=4。調(diào)用fcm函數(shù),結(jié)果如下:
第一類:北京、上海、廣州;
第二類:石家莊、長春、哈爾濱、福州、濟(jì)南、鄭州、長沙、西安;
第三類:太原、呼和浩特、合肥、廈門、南昌、南寧、??凇①F陽、昆明、拉薩、蘭州、西寧、銀川、烏魯木齊;
第四類:天津、沈陽、大連、南京、杭州、寧波、青島、武漢、深圳、重慶、成都。
4 結(jié)論
由實(shí)驗(yàn)結(jié)果可知,F(xiàn)CM算法能較好地對數(shù)據(jù)樣本進(jìn)行分類,但由于算法本身對初始聚類中心、初始隸屬度的依賴性較強(qiáng),所以,要使其發(fā)揮更好地作用,則需要進(jìn)一步對其進(jìn)行改進(jìn)。
參考文獻(xiàn)
[1] E. Hartuv and R. Shamir, A clustering algorithm based on graph connectivity [J], Inf. Process. Lett., 76, 175 -181,2000.
[2] Laszlo M,Mukherjee S.A genetic algorithm using hyper-quadtrees for low-dimensional K-means clustering[J]. IEEE Trans. Pattern Analysis and Machine Intelligence . 28(4),533 – 543,2006.
[3] 肖宇.聚類分析及其在圖像處理中的應(yīng)用[D]. 北京交通大學(xué),2012.
[4] J. Chiang and P. Hao, A new kernel-based fuzzy clustering approach: Support vector clustering with cell growing [J]. IEEE Trans. Fuzzy Syst, 2003,11(4),518-527.
[5] 曾山. 模糊聚類算法研究[D]. 華中科技大學(xué),2012.
[6] 高新波. 模糊聚類分析及其應(yīng)用[M]. 西安電子科技大學(xué)出版社, 2004.
[7] Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. Plenum Press, New York, 1981.
[8] 何正風(fēng). MATLAB概率與數(shù)理統(tǒng)計(jì)分析(第2版) [M], 機(jī)械工業(yè)出版社,2012.
[9] 中國統(tǒng)計(jì)年鑒,http://data.stats.gov.cn, 2013.
○1作者簡介:張洪艷:女,講師,碩士研究生。主要研究方向:機(jī)電一體化,檢測技術(shù)與自動化裝置,人工智能等。endprint
摘 要:在對模糊C均值聚類算法原理進(jìn)行簡要分析的基礎(chǔ)上,進(jìn)行了實(shí)驗(yàn)仿真。首先利用聚類樹形圖估計(jì)分類數(shù),再利用模糊C均值聚類算法進(jìn)行分類,結(jié)果表明算法具有較好的分類效果。
關(guān)鍵詞:FCM 聚類樹形圖 隸屬度
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)2(b)-0000-00
1 引言
聚類分析是一種多元統(tǒng)計(jì)分析方法,屬于無監(jiān)督模式識別方法,被廣泛應(yīng)用于模式識別、圖像處理、數(shù)據(jù)分析等領(lǐng)域[1-3]。模糊聚類分析建立了樣本對類別的不確定描述,更能客觀地反應(yīng)樣本的實(shí)際情況,從而成為聚類分析的主要方法 [4-5]。
在模糊聚類算法中,模糊C均值聚類算法(Fuzzy C-means, 簡稱FCM)應(yīng)用最為廣泛。FCM是基于目標(biāo)函數(shù)的模糊聚類算法中理論最完善、應(yīng)用最廣泛的一種算法。為了借助目標(biāo)函數(shù)法求解聚類問題,類內(nèi)平方誤差和WGSS(Within-Groups Sum of Squared Error)成為聚類目標(biāo)函數(shù)的普遍形式。隨著模糊劃分概念的提出,Dunn[6]首先將其推廣到加權(quán)WGSS函數(shù),后來由Bezdek[7]擴(kuò)展到加權(quán)WGSS的無限族,形成了FCM聚類算法的通用聚類準(zhǔn)則。
2 模糊C均值聚類算法原理
模糊C均值聚類算法原理[8]描述如下:
設(shè)樣本空間為: ,數(shù)據(jù)矩陣為:
。
FCM思想即將n個樣本劃分為c類( ),記 為c個類的聚類中心,其中 。
令 為隸屬度矩陣, 表示第k個樣本 屬于第i類的隸屬度( ), 。定義目標(biāo)函數(shù): , 。
FCM的聚類準(zhǔn)則即確定U、V,使 最小。
FCM一般步驟如下:
Step1:初始化,確定c、m、初始隸屬度矩陣 及隸屬度終止容限 和最大迭代次數(shù);
Step2:利用下式計(jì)算第 步的聚類中心 :
;
Step3:修正隸屬度矩陣 ,計(jì)算目標(biāo)函數(shù) :
其中: ;
Step4:判斷是否滿足終止條件,滿足則退出程序;否則, ,轉(zhuǎn)Step2。
3 實(shí)驗(yàn)仿真
為了驗(yàn)證算法的有效性,選取數(shù)據(jù)如表1所示。數(shù)據(jù)選自2013年《中國統(tǒng)計(jì)年鑒》[9]。
程序利用matlab軟件編寫,具體流程如下:
Step1:利用matlab內(nèi)置函數(shù)dendrogram繪制聚類樹形圖,根據(jù)樹形圖大概確定分類數(shù)c;
Step2:初始化,m=3, =1e-6,隨機(jī)化 ;
Step3:調(diào)用fcm函數(shù)。
樹形圖如圖1所示:
由圖1可知,大體上可以分為四類,所以c=4。調(diào)用fcm函數(shù),結(jié)果如下:
第一類:北京、上海、廣州;
第二類:石家莊、長春、哈爾濱、福州、濟(jì)南、鄭州、長沙、西安;
第三類:太原、呼和浩特、合肥、廈門、南昌、南寧、???、貴陽、昆明、拉薩、蘭州、西寧、銀川、烏魯木齊;
第四類:天津、沈陽、大連、南京、杭州、寧波、青島、武漢、深圳、重慶、成都。
4 結(jié)論
由實(shí)驗(yàn)結(jié)果可知,F(xiàn)CM算法能較好地對數(shù)據(jù)樣本進(jìn)行分類,但由于算法本身對初始聚類中心、初始隸屬度的依賴性較強(qiáng),所以,要使其發(fā)揮更好地作用,則需要進(jìn)一步對其進(jìn)行改進(jìn)。
參考文獻(xiàn)
[1] E. Hartuv and R. Shamir, A clustering algorithm based on graph connectivity [J], Inf. Process. Lett., 76, 175 -181,2000.
[2] Laszlo M,Mukherjee S.A genetic algorithm using hyper-quadtrees for low-dimensional K-means clustering[J]. IEEE Trans. Pattern Analysis and Machine Intelligence . 28(4),533 – 543,2006.
[3] 肖宇.聚類分析及其在圖像處理中的應(yīng)用[D]. 北京交通大學(xué),2012.
[4] J. Chiang and P. Hao, A new kernel-based fuzzy clustering approach: Support vector clustering with cell growing [J]. IEEE Trans. Fuzzy Syst, 2003,11(4),518-527.
[5] 曾山. 模糊聚類算法研究[D]. 華中科技大學(xué),2012.
[6] 高新波. 模糊聚類分析及其應(yīng)用[M]. 西安電子科技大學(xué)出版社, 2004.
[7] Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. Plenum Press, New York, 1981.
[8] 何正風(fēng). MATLAB概率與數(shù)理統(tǒng)計(jì)分析(第2版) [M], 機(jī)械工業(yè)出版社,2012.
[9] 中國統(tǒng)計(jì)年鑒,http://data.stats.gov.cn, 2013.
○1作者簡介:張洪艷:女,講師,碩士研究生。主要研究方向:機(jī)電一體化,檢測技術(shù)與自動化裝置,人工智能等。endprint
摘 要:在對模糊C均值聚類算法原理進(jìn)行簡要分析的基礎(chǔ)上,進(jìn)行了實(shí)驗(yàn)仿真。首先利用聚類樹形圖估計(jì)分類數(shù),再利用模糊C均值聚類算法進(jìn)行分類,結(jié)果表明算法具有較好的分類效果。
關(guān)鍵詞:FCM 聚類樹形圖 隸屬度
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)2(b)-0000-00
1 引言
聚類分析是一種多元統(tǒng)計(jì)分析方法,屬于無監(jiān)督模式識別方法,被廣泛應(yīng)用于模式識別、圖像處理、數(shù)據(jù)分析等領(lǐng)域[1-3]。模糊聚類分析建立了樣本對類別的不確定描述,更能客觀地反應(yīng)樣本的實(shí)際情況,從而成為聚類分析的主要方法 [4-5]。
在模糊聚類算法中,模糊C均值聚類算法(Fuzzy C-means, 簡稱FCM)應(yīng)用最為廣泛。FCM是基于目標(biāo)函數(shù)的模糊聚類算法中理論最完善、應(yīng)用最廣泛的一種算法。為了借助目標(biāo)函數(shù)法求解聚類問題,類內(nèi)平方誤差和WGSS(Within-Groups Sum of Squared Error)成為聚類目標(biāo)函數(shù)的普遍形式。隨著模糊劃分概念的提出,Dunn[6]首先將其推廣到加權(quán)WGSS函數(shù),后來由Bezdek[7]擴(kuò)展到加權(quán)WGSS的無限族,形成了FCM聚類算法的通用聚類準(zhǔn)則。
2 模糊C均值聚類算法原理
模糊C均值聚類算法原理[8]描述如下:
設(shè)樣本空間為: ,數(shù)據(jù)矩陣為:
。
FCM思想即將n個樣本劃分為c類( ),記 為c個類的聚類中心,其中 。
令 為隸屬度矩陣, 表示第k個樣本 屬于第i類的隸屬度( ), 。定義目標(biāo)函數(shù): , 。
FCM的聚類準(zhǔn)則即確定U、V,使 最小。
FCM一般步驟如下:
Step1:初始化,確定c、m、初始隸屬度矩陣 及隸屬度終止容限 和最大迭代次數(shù);
Step2:利用下式計(jì)算第 步的聚類中心 :
;
Step3:修正隸屬度矩陣 ,計(jì)算目標(biāo)函數(shù) :
其中: ;
Step4:判斷是否滿足終止條件,滿足則退出程序;否則, ,轉(zhuǎn)Step2。
3 實(shí)驗(yàn)仿真
為了驗(yàn)證算法的有效性,選取數(shù)據(jù)如表1所示。數(shù)據(jù)選自2013年《中國統(tǒng)計(jì)年鑒》[9]。
程序利用matlab軟件編寫,具體流程如下:
Step1:利用matlab內(nèi)置函數(shù)dendrogram繪制聚類樹形圖,根據(jù)樹形圖大概確定分類數(shù)c;
Step2:初始化,m=3, =1e-6,隨機(jī)化 ;
Step3:調(diào)用fcm函數(shù)。
樹形圖如圖1所示:
由圖1可知,大體上可以分為四類,所以c=4。調(diào)用fcm函數(shù),結(jié)果如下:
第一類:北京、上海、廣州;
第二類:石家莊、長春、哈爾濱、福州、濟(jì)南、鄭州、長沙、西安;
第三類:太原、呼和浩特、合肥、廈門、南昌、南寧、???、貴陽、昆明、拉薩、蘭州、西寧、銀川、烏魯木齊;
第四類:天津、沈陽、大連、南京、杭州、寧波、青島、武漢、深圳、重慶、成都。
4 結(jié)論
由實(shí)驗(yàn)結(jié)果可知,F(xiàn)CM算法能較好地對數(shù)據(jù)樣本進(jìn)行分類,但由于算法本身對初始聚類中心、初始隸屬度的依賴性較強(qiáng),所以,要使其發(fā)揮更好地作用,則需要進(jìn)一步對其進(jìn)行改進(jìn)。
參考文獻(xiàn)
[1] E. Hartuv and R. Shamir, A clustering algorithm based on graph connectivity [J], Inf. Process. Lett., 76, 175 -181,2000.
[2] Laszlo M,Mukherjee S.A genetic algorithm using hyper-quadtrees for low-dimensional K-means clustering[J]. IEEE Trans. Pattern Analysis and Machine Intelligence . 28(4),533 – 543,2006.
[3] 肖宇.聚類分析及其在圖像處理中的應(yīng)用[D]. 北京交通大學(xué),2012.
[4] J. Chiang and P. Hao, A new kernel-based fuzzy clustering approach: Support vector clustering with cell growing [J]. IEEE Trans. Fuzzy Syst, 2003,11(4),518-527.
[5] 曾山. 模糊聚類算法研究[D]. 華中科技大學(xué),2012.
[6] 高新波. 模糊聚類分析及其應(yīng)用[M]. 西安電子科技大學(xué)出版社, 2004.
[7] Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. Plenum Press, New York, 1981.
[8] 何正風(fēng). MATLAB概率與數(shù)理統(tǒng)計(jì)分析(第2版) [M], 機(jī)械工業(yè)出版社,2012.
[9] 中國統(tǒng)計(jì)年鑒,http://data.stats.gov.cn, 2013.
○1作者簡介:張洪艷:女,講師,碩士研究生。主要研究方向:機(jī)電一體化,檢測技術(shù)與自動化裝置,人工智能等。endprint