余文利,余建軍,方建文
1(衢州職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,衢州 324000)2(衢州學(xué)院 電氣與信息工程學(xué)院,衢州 324000)
基于改進(jìn)高斯核度量和KPCA的數(shù)據(jù)聚類新方法①
余文利1,余建軍1,方建文2
1(衢州職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,衢州 324000)2(衢州學(xué)院 電氣與信息工程學(xué)院,衢州 324000)
大多數(shù)超橢球聚類(hyper-ellipsoidal clustering,HEC)算法都使用馬氏距離作為距離度量,已經(jīng)證明在該條件下劃分聚類的代價函數(shù)是常量,導(dǎo)致HEC無法實現(xiàn)橢球聚類.本文說明了使用改進(jìn)高斯核的HEC算法可以解釋為尋找體積和密度都緊湊的橢球分簇,并提出了一種實用HEC算法-K-HEC,該算法能夠有效地處理橢球形、不同大小和不同密度的分簇.為實現(xiàn)更復(fù)雜形狀數(shù)據(jù)集的聚類,使用定義在核特征空間的橢球來改進(jìn)K-HEC算法的能力,提出了EK-HEC算法.仿真實驗證明所提出算法在聚類結(jié)果和性能上均優(yōu)于K-means算法、模糊C-means算法、GMM-EM算法和基于最小體積橢球(minimum-volume ellipsoids,MVE)的馬氏HEC算法,從而證明了本文算法的可行性和有效性.
數(shù)據(jù)聚類; 超橢球聚類; 最小體積橢球; 核主成分分析; 高斯核
聚類作為一種重要的數(shù)據(jù)分析手段,是機(jī)器學(xué)習(xí)、模式識別、計算機(jī)視覺和數(shù)據(jù)挖掘等領(lǐng)域的研究熱點[1].聚類分析就是把對象按照性質(zhì)上的親疏程度分多個類或簇,使得簇內(nèi)的數(shù)據(jù)具有較高的相似度,簇間的數(shù)據(jù)具有較高的相異度[2].盡管許多研究者在不斷努力,但目前仍沒有一種能夠處理所有聚類問題的最優(yōu)算法,聚類仍然是一個困難和具有挑戰(zhàn)性的問題.
傳統(tǒng)的聚類算法如K-means、GMM-EM、模糊C-means(FCM)等,都是基于最小化簇內(nèi)樣本點的歐氏距離和的通用聚類準(zhǔn)則,基于歐氏度量的聚類算法傾向于將樣本點劃分到相同大小、相同密度和球形的分簇中,這些算法無法完成大而細(xì)長的分簇的劃分,而現(xiàn)實世界的數(shù)據(jù)常常以混合高斯分布的形式呈現(xiàn),如橢球形或其他復(fù)雜形狀.為解決上述問題,人們提出了各種超橢球聚類算法(hyper-ellipsoidal clustering,HEC)[3-10],這些算法通常使用馬氏距離作為距離度量來建立橢球分簇.現(xiàn)有的HEC算法主要存在以下問題:1)過高的計算復(fù)雜度,導(dǎo)致在馬氏距離中直接計算協(xié)方差矩陣非常困難; 2)當(dāng)分簇包含少量樣本點時,協(xié)方差矩陣可能是奇異的.為了克服以上的不足,文獻(xiàn)[3-5]提出基于改進(jìn)馬氏距離和偽協(xié)方差矩陣的HEC算法,但是這些算法的時間復(fù)雜度仍然很高.另一方面,文獻(xiàn)[8-10]通過近似分簇體積,即找到最小體積橢球(minimum-volume ellipsoids,MVE),取代了協(xié)方差矩陣的計算,部分克服了以上的不足.以上大多數(shù)方法都是使用馬氏距離作為距離度量,已經(jīng)證明直接將馬氏距離應(yīng)用于聚類不能獲得橢球聚類[7],而且劃分聚類的代價函數(shù)也無法限定分簇的大小和分簇之間的關(guān)系.此外,因為這些算法在聚類時無需考慮樣本集的密度,所以基于MVE的HEC算法只有等密度分簇的情況才能工作得很好.
本文的目標(biāo)是實現(xiàn)橢球聚類并給出改進(jìn)的實用HEC算法的實現(xiàn),首先,提出了使用改進(jìn)高斯核度量的基于MVE的K-HEC算法,該算法能夠處理橢球形狀、不同大小和密度的分簇.為了增強K-HEC算法的能力,通過在特征空間中映射橢球,提出了EK-HEC算法,該算法能夠處理非線性和細(xì)長結(jié)構(gòu)的分簇.在模擬數(shù)據(jù)集和標(biāo)準(zhǔn)評測數(shù)據(jù)集上的仿真實驗表明,本文算法在聚類結(jié)果和性能上與K-means算法、模糊C-means算法、GMM-EM算法和馬氏MVE-HEC算法相比有了很大的提高,從而驗證了本文算法在處理橢球形或復(fù)雜形狀數(shù)據(jù)集聚類時的可行性和有效性.
其中D(xi,mk)為輸入模式與第k個分簇mk的均值向量之間的距離度量.
為了構(gòu)造橢球分簇,HEC算法通常采用馬氏距離.然而在該條件下,劃分聚類的代價函數(shù)是常量[7].為了實現(xiàn)橢球聚類,本文使用式(3)的改進(jìn)高斯核作為距離度量
其中mk和Qk分別是第k個分簇的均值向量和協(xié)方差矩陣.變量α∈[0,1]控制著式(3)的第1項和第2項的權(quán)重.式(3)的第1項表示馬氏距離,第2項與由協(xié)方差矩陣Qk表示的第k個橢圓分簇的容積成正比.則聚類代價函數(shù)改寫為
代價函數(shù)EC(P)達(dá)到最優(yōu)的必要條件為通過最小化式(4)得到劃分的分簇中心表示為
證畢.
定理1.如果改進(jìn)高斯核式(3)作為式(2)的聚類代價函數(shù)的距離度量,則
證畢.
本文提出了兩種最小化分簇體積權(quán)重和的HEC算法—K-HEC算法和EK-HEC算法.其中K-HEC算法是使用改進(jìn)高斯核和MVE近似的迭代HEC算法,它將樣本劃分到指定數(shù)量的橢球分簇中; EK-HEC算法是K-HEC算法的擴(kuò)展,它通過使用定義在核特征空間的橢球來改善K-HEC算法的聚類能力,以便能處理更復(fù)雜形狀樣本集的聚類.
K-HEC算法開始于一個初始的聚類,最終將初始的聚類劃分為C個分簇,在此過程中算法迭代查找改進(jìn)的劃分矩陣的分配,分簇體積的權(quán)重和不斷縮小,直到分簇結(jié)果沒有進(jìn)一步可能的改進(jìn)為止.
因此,本文使用三個近似方法來尋找MVE.首先,推導(dǎo)式(9)所示的L?wner-John橢球體[11]凸優(yōu)化問題,該問題可以幾何解釋為最小化橢球體的體積.
其次,通過近似計算包含矩陣Q特征向量和的目標(biāo)函數(shù)來求解式(10)所示凸優(yōu)化問題[8,11].
最后,使用Khachiyan的快速近似算法[12]來尋找MVE.
算法1.K-HEC算法輸入:d維空間的n個樣本輸出:劃分矩陣P步驟1.確定分簇數(shù)C,從樣本集中隨機(jī)選擇C個樣本,設(shè)定為分簇的中心,記作mk;步驟2.首先使用樣本與分簇中心mk歐氏距離來確定劃分矩陣的初始分配x={xi∈Rd}n i=1■■■■■Pik=1,ifDEuc(xi,mk)<DEuc(xi,mj),j=1,2,...,Candj≠k Pik=0,otherwise步驟3.計算新的分簇中心和屬于該分簇的樣本的數(shù)量mk=∑n∑ni i=1Pikxi=1Pik,nk=∑n i=1Pik步驟4.使用MVE近似算法計算偽協(xié)方差矩陣Qk;步驟5.使用式(3)的改進(jìn)高斯核度量、mk和Qk確定劃分矩陣P的一個新的分配{Pik=1,ifDMGK(xi,mk;Qk)<DMGK(xi,mj;Qj)Pik=0,otherwise步驟6.如果劃分矩陣P沒有變化,則算法停止.否則重復(fù)步驟3到步驟5.
大部分劃分聚類算法在對非線性和細(xì)長結(jié)構(gòu)數(shù)據(jù)集進(jìn)行聚類時,不能取得理想的效果,為此人們提出了譜聚類算法[13]和核方法[14].為了在非線性和細(xì)長結(jié)構(gòu)數(shù)據(jù)集上執(zhí)行聚類,本文使用了核主成分分析(Kernel principal component analysis,KPCA).通過RBF核函數(shù),能夠有效地在與基于非線性映射的輸入空間相關(guān)聯(lián)的高維特征空間中計算主成分.KPCA的原理如下所示.
EK-HEC算法通過在核空間中執(zhí)行K-HEC算法實現(xiàn)復(fù)雜形狀聚類,算法的具體描述如算法2.
算法2.EK-HEC算法輸入:d維空間的n個樣本輸出:劃分矩陣P Kij=Φ(xi)·Φ(xj)=K(xi,xj);x={xi∈Rd}n i=1步驟1.計算核矩陣K,i,j = 1,2,...,n;步驟2.解式(12),找到非零的特征值;步驟3.使用非零特征值αk(k=1,2,…,p),計算樣本Ф(x)在特征向量Vk上的投影;?x=(Vk·Φ(x))=∑n i =1αkiK(xi,x)步驟4.確定分簇數(shù)C,在特征空間中隨機(jī)選擇C個樣本,將它們設(shè)置為分簇的中心,記作 ;?mk ?mk步驟5.使用歐氏距離計算樣本與分簇中心 的距離,確定劃分矩陣P的初始分配■■■■■Pik=1,ifDEuc(?xi,?mk)<DEuc(?xi,?mj),j=1,2,...Candj≠k Pik=0,otherwise步驟6.計算新的分簇中心和屬于新分簇的樣本數(shù)?mk=∑ni=1Pik?xi/∑n i=1Pik,nk=∑n i=1Pik ?Qk步驟8.使用式(3)的改進(jìn)高斯核度量、 和 確定劃分矩陣P的新的分配步驟7.使用MVE近似算法計算偽協(xié)方差矩陣 ;?mk ?Qk■■■■■Pik=1,ifDEuc(?xi,?mk;?Qk)<DEuc(?xi,?mj;?Qj),j=1,2,...Candj≠k Pik=0,otherwise步驟9.如果劃分矩陣P沒有變化,則算法終止; 否則重復(fù)步驟6至步驟8.
為驗證K-HEC算法和EK-HEC算法的有效性,在模擬數(shù)據(jù)集和基準(zhǔn)評測數(shù)據(jù)集上進(jìn)行了實驗.K-HEC算法和 EK-HEC 算法是在 Matlab 上使用CVX[15]和LMI工具箱編程實現(xiàn),在Intel(R)Xeon? CPU W5590@line-height:15.5pt3.33GHZ的微機(jī)Windows XP環(huán)境下運行.在性能評估時,使用誤分類率(Misclassification rate,MCR)和歸一化互信息(Normalized mutual information,NMI)作為評價指標(biāo),分別定義如下
其中X、Y是兩個隨機(jī)變量,I(X,Y)是互信息,H(X)和H(Y)是X和Y的熵.
3.2.1 模擬數(shù)據(jù)集
為了說明本文所提出算法的有效性,在實驗中使用了2個模擬數(shù)據(jù)集(具體描述如表1所示).模擬數(shù)據(jù)集1用以驗證K-HEC算法對于不同大小、不同密度和橢圓形分簇的聚類能力,該數(shù)據(jù)集包含一個圓形的分簇和一人細(xì)長橢圓形的分簇.K-HEC算法在模擬數(shù)據(jù)集1上使用式(9)-式(11)三種不同的MVE近似方法所提到的聚類結(jié)果是一樣的,因此忽略式(9)和式(10)的方法,使用式(11)方法的K-HEC算法在數(shù)據(jù)集1上的聚類結(jié)果如圖1所示.
表1 模擬數(shù)據(jù)集
圖1 不同算法在模擬數(shù)據(jù)集1上的聚類結(jié)果
從圖1(b)可以看出,K-means算法在模擬數(shù)據(jù)集1上不能得到正確的聚類; 從(c)可以看出,馬氏HEC算法雖然將樣本劃分為不同大小的兩個橢圓分簇,但當(dāng)兩個分簇距離較近時聚類結(jié)果也不準(zhǔn)確; (d)表明本文提出的K-HEC算法通過調(diào)整α的值來控制改進(jìn)高斯核的第1項和第2項的權(quán)重,從而最小化分簇體積權(quán)重和,使得聚類后分簇的緊湊性和密度達(dá)到最大.
模擬數(shù)據(jù)集2包含一個高斯分布分簇和一個香蕉形分簇,用于驗證EK-HEC算法的有效性,該算法專門設(shè)計用于復(fù)雜幾何形狀樣本集的聚類.K-means算法、HEC算法、K-HEC算法和EK-HEC算法在模擬數(shù)據(jù)集2上的聚類結(jié)果如圖2(b)~(f)所示.
圖2 不同算法在模擬數(shù)據(jù)集2上的聚類結(jié)果
從圖2可以看出,K-means算法、馬氏HEC算法以及K-HEC算法有相似的聚類結(jié)果.可以注意到,雖然聚類結(jié)果相似,但是由每個算法所確定的聚類的決策邊界仍有很大的不同.與其他算法相比,基于Moshtagh方法的MVE近似的Moshtagh-K-HEC算法建立了清晰的決策邊界,而馬氏HEC算法和LMI-K-HEC算法有重疊的決策邊界.EK-HEC算法按照預(yù)期找到了正確的分簇,僅有一個樣本錯分.圖3描述了EK-HEC算法在模擬數(shù)據(jù)集2上的聚類結(jié)果,其中(a)和(b)分別描述了在算法在輸入空間和特征空間的聚類結(jié)果,映射到特征空間的樣本得到很好的分離,并且能夠通過橢圓的決策邊界實現(xiàn)聚類.
圖3 EK-HEC算法在模擬數(shù)據(jù)集2上的聚類結(jié)果
3.2.2 基準(zhǔn)評測數(shù)據(jù)集
為了評估本文提出算法的性能,在來自UCI的3個基準(zhǔn)評測數(shù)據(jù)集(具體描述見表2)上與K-means算法、模糊C-means算法、GMM-EM算法和馬氏距離MVE-HEC算法進(jìn)行了比較實驗.6種算法在MCR和NMI兩個評判準(zhǔn)則上的比較結(jié)果如圖4所示,由圖4可知,K-HEC算法在MCR和NMI兩個指標(biāo)上均優(yōu)于K-means、模糊C-means、GMM-EM和HEC算法,EK-HEC算法與其他算法相比有更好或類似的聚類性能.
表2 來自UCI的基準(zhǔn)評測數(shù)據(jù)集
本文將基于MVE的HEC算法與改進(jìn)的高斯核相結(jié)合,提出了K-HEC算法,通過應(yīng)用定義在核空間的橢圓聚類,增強了K-HEC算法聚類能力,提出了EK-HEC算法.K-HEC算法能夠處理不同大小、不同密度和橢球形壯的分簇,EK-HEC算法能夠處理非線性和細(xì)長結(jié)構(gòu)的復(fù)雜幾何形狀的分簇.在模擬數(shù)據(jù)集和UCI基準(zhǔn)評測數(shù)據(jù)集上的仿真實驗表明,K-HEC算法能夠通過建立緊湊的分類邊界有效地分離各分簇,EK-HEC算法在非線性和細(xì)長結(jié)構(gòu)的數(shù)據(jù)集上完成了正確的聚類.本文算法無論在聚類能力和性能方面均優(yōu)于K-means、模糊C-means、GMM-EM和HEC算法,從而驗證了本文算法的可行性和有效性.
圖4 基準(zhǔn)評測數(shù)據(jù)集上的聚類性能比較
1Duda RO,Hart PE,Stork DG.Pattern Classification.New York:John Wiley & Sons,2012.
2Nagpal A,Jatain A,Gaur D.Review based on data clustering algorithms.Proc.of the 2013 IEEE Conference on Information & Communication Technologies (ICT).JeJu Island,Korea.2013.298–303.
3Mao JC,Jain AK.A self-organizing network for hyperellipsoidal clustering (HEC).IEEE Trans.on Neural Networks,1996,7(1):16–29.[doi:10.1109/72.478389]
4Wang S,Ma F,Shi W,et al.The hyperellipsoidal clustering using genetic algorithm.Proc.of the 1997 IEEE International Conference on Intelligent Processing Systems.Beijing,China.1997,1.592–596.
5Ichihashi H,Ohue M,Miyoshi T.Fuzzy C-means clustering algorithm with pseudo Mahalanobis distances.Proc.of the 3rd Asian Fuzzy Systems Symposium.Changwon,Korea.1998.148–152.
6Moshtaghi M,Rajasegarar S,Leckie C,et al.An efficient hyperellipsoidal clustering algorithm for resource-constrained environments.Pattern Recognition,2011,44(9):2197–2209.[doi:10.1016/j.patcog.2011.03.007]
7Wang S,Xia SW,Mao JC,et al.Comments on “a self-organizing network for hyperellipsoidal clustering (HEC)”.IEEE Trans.on Neural Networks,1997,8(6):1561–1563.[doi:10.1109/72.641479]
8Lee HS,Park JY,Park DH.Hyper-ellipsoidal clustering algorithm using linear matrix inequality.Journal of Korean Institute of Intelligent Systems,2002,12(4):300–305.[doi:10.5391/JKIIS.2002.12.4.300]
9Kumar M,Orlin JB.Scale-invariant clustering with minimum volume ellipsoids.Computer & Operations Research,2008,35(4):1017–1029.
10Shioda R,Tun?el L.Clustering via minimum volume ellipsoids.Computational Optimization and Applications,2007,37(3):247–295.[doi:10.1007/s10589-007-9024-1]
11Boyd S,Vandenberghe L.Convex optimization.Cambridge,UK:Cambridge University Press,2004.
12Todd MJ,Yildirim EA.On Khachiyan’s algorithm for the computation of minimum-volume enclosing ellipsoids.Discrete Applied Mathematics,2007,155(13):1731–1744.[doi:10.1016/j.dam.2007.02.013]
13Cao JZ,Chen P,Zheng Y,et al.A max-flow-based similarity measure for spectral clustering.ETRI Journal,2013,35(2):311–320.[doi:10.4218/etrij.13.0112.0520]
14Shawe-Taylor J,Cristianini N.Kernel methods for pattern analysis.Cambridge,UK:Cambridge University Press,2004.
15CVX Research,Inc.CVX:Matlab software for disciplined convex programming,version 2.0.http://cvxr.com/cvx.[2013-04].
Novel Data Clustering Method Based on A Modified Gaussian Kernel Metric and Kernel PCA
YU Wen-Li1,YU Jian-Jun1,FANG Jian-Wen21(College of Information Engineering,Quzhou College of Technology,Quzhou 324000,China)2(College of Electrical and Information Engineering,Quzhou University,Quzhou 324000,China)
Most hyper-ellipsoidal clustering(HEC)algorithms use the Mahalanobis distance as a distance metric.It has been proven that HEC,under this condition,cannot be realized since the cost function of partitional clustering is a constant.We demonstrate that HEC with a modified Gaussian kernel metric can be interpreted as a problem of finding condensed ellipsoidal clusters(with respect to the volumes and densities of the clusters)and propose a practical HEC algorithm named K-HEC that is able to efficiently handle clusters that are ellipsoidal in shape and that are of different size and density.We then try to refine the K-HEC algorithm by utilizing ellipsoids defined on the kernel feature space to deal with more complex-shaped clusters.Simulation experiments demonstrate the proposed methods have a significant improvement in the clustering results and performance over K-means algorithm,fuzzy C-means algorithm,GMM-EM algorithm and HEC algorithm based on minimum-volume ellipsoids using Mahalanobis distance.
data clustering; hyper-ellipsoidal clustering; minimum-volume ellipsoids; kernel PCA; Gaussian kernel
余文利,余建軍,方建文.基于改進(jìn)高斯核度量和KPCA的數(shù)據(jù)聚類新方法.計算機(jī)系統(tǒng)應(yīng)用,2017,26(10):150–155.http://www.c-sa.org.cn/1003-3254/5988.html
2017-01-11; 采用時間:2017-02-15