賀艷芳
摘要:核函數(shù)聚類通過Mercer核把原來非線性數(shù)據(jù)空間映射到特征空間,在經(jīng)典的聚類算法的基礎(chǔ)上得到全新的聚類目標(biāo)函數(shù)。傳統(tǒng)的核聚類算法收斂速度較慢容易陷入局部最優(yōu)解。同時(shí)離群點(diǎn)是遠(yuǎn)離其他數(shù)據(jù)點(diǎn)的數(shù)據(jù),但可能包含重要的信息。針對(duì)這些問題,本文對(duì)已有的核聚類算法模型和應(yīng)用進(jìn)行了詳細(xì)的闡述。
關(guān)鍵詞:聚類;核函數(shù);離群點(diǎn)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)17-0005-03
Abstract: The kernel function clustering maps the original nonlinear data space into the feature space through the Mercer kernel, and obtains a new clustering target function on the basis of the classical clustering algorithm. The traditional kernel clustering algorithm is slow in convergence and easy to fall into the local optimal solution. At the same time, outliers are data that is far away from other data points, but may contain important information. Aiming at these problems, the existing models and applications of kernel clustering algorithm are elaborated in detail.
Key words: clustering; kernel function ; outlier
聚類分析在數(shù)據(jù)挖掘中占有重要地位,它將具有相同特征的對(duì)象放在同一個(gè)簇中,而不同的聚類在不同的簇中?,F(xiàn)有的聚類分析方法有:基于密度的方法[1]、基于模型的方法[2]、基于劃分的方法[3]和基于網(wǎng)絡(luò)的方法[4]等。較經(jīng)典的算法是模糊C-均值算法[5],該算法主要對(duì)樣本特征進(jìn)行聚類,聚類結(jié)果依賴樣本點(diǎn)的分布情況,當(dāng)各類樣本線性不可分時(shí),這種算法的聚類效果較差。核聚類算法[6]是將核函數(shù)引入聚類之中,通過將輸入空間的數(shù)據(jù)的非線性映射到高維空間,在高維空間進(jìn)行線性聚類。這樣通過映射的數(shù)據(jù)增加了數(shù)據(jù)的差異性,擴(kuò)大了數(shù)據(jù)的線性可分。
核方法主要用的核函數(shù),將原始數(shù)據(jù)由非線性劃分映射到特征空間,在特征空間進(jìn)行聚類,這樣能處理非線性數(shù)據(jù)。核函數(shù)比經(jīng)典聚類算法性能更優(yōu),收斂速度更快。早期核函數(shù)主要用于SVM方法[7],核函數(shù)分為核Fisher判別分析[8]、核C-均值聚類[9]、核模糊c-均值聚類[10]。本文以核函數(shù)方法為基礎(chǔ),介紹核函數(shù)的經(jīng)典算法和核函數(shù)在各種算法中的應(yīng)用。
1相關(guān)研究
1.1核函數(shù)
2總結(jié)
本文對(duì)核聚類算法的模型、算法和應(yīng)用進(jìn)行了詳細(xì)的分析,發(fā)現(xiàn)在模糊聚類算法中加入PSO算法可以有效的避免聚類分析對(duì)數(shù)據(jù)結(jié)構(gòu)的依賴性,增加算法的收斂性和解決算法易陷入局部最優(yōu)現(xiàn)象。為每個(gè)特征空間加動(dòng)態(tài)權(quán)值,能借助權(quán)值發(fā)現(xiàn)樣本集中的離群點(diǎn)。離群模糊聚類算法不僅能發(fā)現(xiàn)離群點(diǎn),又能取得良好的聚類效果。
參考文獻(xiàn):
[1] 蔡偉鴻, 劉震. 基于密度聚類算法的入侵檢測研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2005, 41(21):149-151.
[2] 宋浩遠(yuǎn). 基于模型的聚類方法研究[J]. 重慶科技學(xué)院學(xué)報(bào):自然科學(xué)版, 2008, 10(3):71-73.
[3] 賈璦瑋. 基于劃分的聚類算法研究綜述[J]. 電子設(shè)計(jì)工程, 2014(23):38-41.
[4] 張偉莉, 倪志偉, 賴建章. 一種新的基于網(wǎng)格的聚類算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2008, 25(5):1337-1339.
[5] 高新波, 李潔, 姬紅兵. 基于加權(quán)模糊c均值聚類與統(tǒng)計(jì)檢驗(yàn)指導(dǎo)的多閾值圖像自動(dòng)分割算法[J]. 電子學(xué)報(bào), 2004, 32(4):661-664.
[6] 張莉, 周偉達(dá), 焦李成. 核聚類算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2002, 25(6):587-590.
[7] 李蓉, 葉世偉, 史忠植. SVM-KNN分類器——一種提高SVM分類精度的新方法[J]. 電子學(xué)報(bào), 2002, 30(5):745-748.
[8] 李映, 焦李成. 基于核Fisher判別分析的目標(biāo)識(shí)別[J]. 西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2003, 30(2):179-182.
[9] 單凱晶, 肖懷鐵, 朱俊. 基于模糊核C-均值聚類分析的HRRP識(shí)別[J]. 電光與控制, 2010, 17(5):42-45.
[10] 康家銀, 紀(jì)志成, 龔成龍. 一種核模糊C均值聚類算法及其應(yīng)用[J]. 儀器儀表學(xué)報(bào), 2010, 31(7):1657-1663.
[11] 徐海霞, 劉國海, 周大為,等. 基于改進(jìn)核模糊聚類算法的軟測量建模研究[J]. 儀器儀表學(xué)報(bào), 2009, 30(10):2226-2231.
[12] 沈紅斌, 王士同, 吳小俊. 離群模糊核聚類算法[J]. 軟件學(xué)報(bào), 2004, 15(7):1021-1029.