• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于成對約束的SubKMeans聚類數(shù)確定算法①

      2021-01-22 05:42:08何振峰
      關(guān)鍵詞:輪廓約束聚類

      高 波,何振峰

      (福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350108)

      聚類是一種無監(jiān)督學(xué)習(xí)方法,它根據(jù)樣本間相似度把樣本劃分到若干簇[1].K-Means 算法是聚類算法的一種典型代表,它因其簡單而又有效的特性備受歡迎,并且在十大經(jīng)典數(shù)據(jù)挖掘算法中排名第二[2].該算法根據(jù)用戶指定的K值,基于某種距離度量方式,把樣本劃分為K個(gè)不同的簇,使得簇內(nèi)樣本相似性高,簇間樣本相似性低[1].高維數(shù)據(jù)空間中數(shù)據(jù)分布稀疏且存在著大量無關(guān)屬性,數(shù)據(jù)的重要結(jié)構(gòu)信息會隱藏在海量的噪聲數(shù)據(jù)中,因此使用K-Means 算法在高維數(shù)據(jù)上進(jìn)行聚類很難發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),使得聚類效果差[3,4].然而在現(xiàn)實(shí)的聚類分析應(yīng)用場景中,數(shù)據(jù)維度通常很高,比如圖片視頻或文本數(shù)據(jù),其維度一般為千萬級,甚至更高.針對這一問題,Mautz 等人于2017年提出了SubKMeans 算法[5],該算法能夠?qū)?shù)據(jù)映射到子空間中進(jìn)行聚類,降低維度影響,提升K-Means 類算法聚類性能.

      SubKMeans 算法將數(shù)據(jù)空間劃分為一個(gè)包含有大部分重要信息的子空間和一個(gè)基本不包含重要信息的子空間,通過映射矩陣能夠把數(shù)據(jù)投影到包含有大部分重要信息的子空間中進(jìn)行聚類,從一定程度上減輕“維度災(zāi)難”對K-Means 類算法的影響.但是SubKMeans算法只是對經(jīng)典K-Means 類算法的一種擴(kuò)展,它依然會受到K-Means 類算法固有缺陷的限制[6].SubKMeans算法是無監(jiān)督聚類算法,需要用戶事先指定K值,而在現(xiàn)實(shí)中部分?jǐn)?shù)據(jù)集的種類數(shù)是未知的,這給使用者帶來巨大的困擾,因此SubKMeans 算法的聚類數(shù)確定研究具有重要的現(xiàn)實(shí)意義.

      現(xiàn)有的子空間聚類算法可以劃分為硬子空間聚類和軟子空間聚類[7,8].硬子空間聚類把所有屬性都看成同等重要,按照搜索子空間方式的不同,可以進(jìn)一步劃分為自底向上的子空間聚類算法和自頂向下的子空間聚類算法.軟子空間聚類算法認(rèn)為每個(gè)屬性對于每個(gè)簇的貢獻(xiàn)程度不一樣,因此給每個(gè)屬性賦予不同的權(quán)重.文獻(xiàn)[9]和文獻(xiàn)[10]中提出基于懲罰機(jī)制的競爭學(xué)習(xí)來逐步合并聚類簇,消除冗余聚類,最后為子空間聚類確定聚類數(shù)目.文獻(xiàn)[11]基于類內(nèi)緊湊性和類間分離性提出了一種新的聚類有效性指標(biāo),通過在K的取值范圍內(nèi)得出最佳指標(biāo)值來為子空間聚類確定K值.文獻(xiàn)[12]把現(xiàn)有的K值確定方法分為3 類,分別為傳統(tǒng)方法、基于合并分裂方法和基于進(jìn)化的方法.傳統(tǒng)方法把最佳聚類有效性指標(biāo)對應(yīng)的K值作為最佳K值.基于合并分裂的方法根據(jù)聚類有效性指標(biāo)的值是否更優(yōu)來決定是否合并或分裂,達(dá)到穩(wěn)定時(shí)的K值即為最佳K值.基于進(jìn)化的方法使用特定的編碼方式將可能的劃分方式編碼到個(gè)體或染色體中,通過遺傳變異的方式得到適應(yīng)性最好的個(gè)體,把該個(gè)體對應(yīng)的K值作為最終K值.

      為解決SubKMeans 聚類數(shù)確定問題,考慮到現(xiàn)實(shí)中有時(shí)能獲取到類似成對約束之類的監(jiān)督信息,參考文獻(xiàn)[13]中成對約束與輪廓系數(shù)的結(jié)合方法,用成對約束改變輪廓系數(shù)計(jì)算方式,并用成對約束的滿足度給輪廓系數(shù)加權(quán).將改進(jìn)后的輪廓系數(shù)作為聚類有效性評價(jià)指標(biāo),通過嘗試不同的K值來找到一個(gè)最佳指標(biāo)值,把該最佳指標(biāo)值對應(yīng)的K值作為最佳K值.第1 節(jié)介紹SubKMeans 算法,第2 節(jié)介紹改進(jìn)的SubKMeans算法,第3 節(jié)對改進(jìn)算法進(jìn)行實(shí)驗(yàn)并分析實(shí)驗(yàn)結(jié)果,第4 節(jié)對所做工作進(jìn)行總結(jié).

      1 SubKMeans 算法簡介

      SubKMeans 算法又稱子空間K均值算法,它通過尋找數(shù)據(jù)的最佳子空間來發(fā)現(xiàn)數(shù)據(jù)的隱藏結(jié)構(gòu),降低維度影響,使得K-Means 類算法在高維數(shù)據(jù)上也能夠有不錯(cuò)的表現(xiàn)[5].它的主要思想是:假設(shè)在一個(gè)數(shù)據(jù)集中大部分重要的信息會隱藏在某一個(gè)維度更低的子空間中,而其它的子空間能夠提供的有用信息很少.根據(jù)這一假設(shè)把數(shù)據(jù)空間劃分為兩個(gè)子空間,包含大部分重要信息的子空間稱為聚類子空間,基本不包含重要信息的子空間稱為噪聲子空間[5].為了提高聚類性能,挖掘出數(shù)據(jù)的內(nèi)在結(jié)構(gòu),需要把數(shù)據(jù)映射到聚類子空間上進(jìn)行聚類.

      給定數(shù)據(jù)集D={x1,x2,···,xn}∈Rd×n,其中n是數(shù)據(jù)集D的規(guī)模,d是樣本的維度.假設(shè)要把數(shù)據(jù)聚為K個(gè)簇在經(jīng)典K-Means 算法中,最優(yōu)化目標(biāo)是使得每個(gè)樣本到其聚類中心點(diǎn)的距離總和最小[1,5],即優(yōu)化下式:

      其中,ui為第i個(gè)簇的簇中心,‖·‖表示歐幾里得范數(shù).SubKMeans 算法需要將樣本映射到聚類子空間中進(jìn)行聚類,兩個(gè)樣本在聚類子空間中的距離可以通過式(2)計(jì)算.

      其中,PC∈Rm×d,m為聚類子空間維度且m<d,V∈Rd×d是一個(gè)維度為d的正交矩陣.通過能夠?qū)颖緓映射到聚類子空間中,PC定義為:

      其中,Im是維度為m的單位矩陣,Od?m,m∈Rm×(d?m)為零矩陣.重新定義樣本間距離計(jì)算公式后,SubKMeans優(yōu)化目標(biāo)可以表示為:

      其中,PN∈R(d?m)×d,(d?m)為噪聲子空間維度,uD∈Rd×1為數(shù)據(jù)集D的列均值.將式(4)展開,利用矩陣跡的特性,可以表示為:

      其中,Tr表示矩陣的跡,V是一個(gè)正交矩陣,根據(jù)正交矩陣的特性,可知VTSDV相乘后,只改變矩陣SD特征向量的方向,不改變其特征值本身.因此對于任意的正交矩陣V,VTSDV的特征值是常量.矩陣的跡是其所有特征值之和,所以是一個(gè)常量,在式(5)中可以忽略.令矩陣V為SiD特征分解后的特征向量,并且這些特征向量按照特征值的大小進(jìn)行升序排序,最小的m個(gè)特征值對應(yīng)的特征向量將數(shù)據(jù)映射到聚類子空間中,其它(d?m)個(gè)特征值對應(yīng)的特征向量將數(shù)據(jù)映射到噪聲子空間中,令m為SiD特征分解后特征值中小于0 的個(gè)數(shù),可解決(4)的最優(yōu)化問題.使用式(2)計(jì)算樣本距離,不斷迭代更新簇中心,更新矩陣V和子空間維度m,算法最終趨于穩(wěn)定得到固定維度的聚類子空間和聚類簇.SubKMeans 算法框架如算法1 所示.

      算法1.SubKMeans 算法輸入:數(shù)據(jù)集D,聚類數(shù)量K{C1,C2,···,CK}輸出:聚類簇,正交變換矩V,聚類子空間維度m m=■d/2」■」1)初始化聚類子空間維度 // 表示向下取整2)計(jì)算數(shù)據(jù)集列平均uD 3)采用式(8)計(jì)算數(shù)據(jù)集的散列矩陣ui,i=1,2,···,K S D 4)隨機(jī)產(chǎn)生初始聚類中心5)隨機(jī)矩陣執(zhí)行QR 分解產(chǎn)生正交矩陣V 6)While(簇中心改變)x∈D 7)for each 8)采用式(2)計(jì)算樣本到簇中心的距離9)將樣本劃分到距離最近的簇10)end for ui 11)更新簇中心12)采用式(7)計(jì)算簇的散列矩陣V,ε=eig(S iD)ε S i 13)更新矩陣 // eig 表示特征分解,V 為特征分解后的特征向量,為特征值m=|{e|e∈ε,e<0}| ||14)更新維度 // 表示取集合中元素個(gè)數(shù)15)end while

      雖然SubKMeans 算法能夠自動確定聚類子空間維度,但需要用戶指定聚類數(shù)量K.聚類數(shù)的確定是實(shí)際應(yīng)用中的一個(gè)重大問題,因?yàn)樵趯?shí)際的應(yīng)用場景中,需要聚類的數(shù)據(jù)往往是未知數(shù)據(jù),我們不知道哪些數(shù)據(jù)應(yīng)該分配到同一類中,對于給出的K值,我們也無法驗(yàn)證其是否是當(dāng)前數(shù)據(jù)的準(zhǔn)確K值.

      2 基于成對約束的SubKMeans 聚類數(shù)確定算法

      輪廓系數(shù)是一種常用的聚類有效性指標(biāo),可用于確定K值.在輪廓系數(shù)的計(jì)算方式中,聚類的輪廓系數(shù)為數(shù)據(jù)集中所有樣本的輪廓系數(shù)的平均值,其把每個(gè)樣本看成同等重要,把該指標(biāo)作為聚類有效性指標(biāo)用于確定聚類數(shù)量時(shí),往往效果不好.而在實(shí)際的聚類過程中,存在部分樣本對簇的貢獻(xiàn)程度不一樣的情況.為了體現(xiàn)這種差異,基于文獻(xiàn)[13],本文引入成對約束,用輪廓系數(shù)的滿足度給單個(gè)樣本和整個(gè)聚類進(jìn)行加權(quán),并將違反的成對約束作為懲罰項(xiàng),改進(jìn)輪廓系數(shù)的計(jì)算方式,為SubKMeans 算法提出一種成對約束與輪廓系數(shù)結(jié)合的K值確定方法,稱為Constrained Weighted SubKMeans,簡稱CSWKM.CSWKM 算法把改進(jìn)后的輪廓系數(shù)作為一種新的聚類有效性指標(biāo),在K的取值范圍內(nèi),計(jì)算出各個(gè)K值時(shí)的指標(biāo)值,把最佳指標(biāo)值對應(yīng)的K值作為最佳K值.CSWKM 算法框架如下算法2所示.

      算法2.CSWKM 算法輸入:數(shù)據(jù)集D,成對約束Cst,最大迭代次數(shù)Count{C1,C2,···,CK}輸出:聚類簇,正交變換矩V,聚類子空間維度m,聚類數(shù)量K 1)for to 2)SubKMeans 算法 //迭代時(shí)需判斷迭代次數(shù)是否超過限制3)if (簇迭代次數(shù)小于Count)4)采用式(13)計(jì)算出此次劃分的輪廓系數(shù)5)if(計(jì)算得出的輪廓系數(shù)小于0)6)令輪廓系數(shù)為0 7)else 8)令此次劃分的輪廓系數(shù)為0 9)end for K=Kmin Kmax

      CSWKM 需要分別計(jì)算出各個(gè)K值時(shí)的輪廓系數(shù)值,把最大輪廓系數(shù)對應(yīng)的K值作為最終K值.在計(jì)算單個(gè)K值的輪廓系數(shù)時(shí),需要迭代更新簇中心點(diǎn)、更新矩陣V和子空間維度m,同時(shí)在進(jìn)行迭代時(shí)需要先判斷當(dāng)前迭代次數(shù)是否超過最大迭代次數(shù),若超過,則停止迭代.Kmin一般取2,Kmax根據(jù)經(jīng)驗(yàn)為樣本數(shù)量的平方根取整,算法輸出部分中,簇 {C1,C2,···,CK}、V和m對應(yīng)于最佳K值的簇、V和m.與SubKMeans算法相比,CSWKM 算法對簇的迭代次數(shù)進(jìn)行了限制,計(jì)算了每次簇劃分后對應(yīng)的輪廓系數(shù)值.

      2.1 簇迭代次數(shù)限制

      CSWKM 算法不同于SubKMeans 算法,CSWKM算法需要嘗試K值范圍內(nèi)的每個(gè)K值.由于CSWKM算法中對簇的個(gè)數(shù)進(jìn)行了限制,強(qiáng)制每個(gè)簇里面的樣本個(gè)數(shù)必須大于5,在實(shí)驗(yàn)中發(fā)現(xiàn)當(dāng)給出的K值與實(shí)際的K值相差較大時(shí),會出現(xiàn)劃分簇的迭代次數(shù)過多或者不收斂的現(xiàn)象.為了解決這一問題,給簇的迭代加上次數(shù)限制,使得超過迭代次數(shù)的K值劃分認(rèn)為是不合適的劃分,直接令此次K值劃分的簇輪廓系數(shù)為0,一般情況下令迭代次數(shù)為50.

      2.2 輪廓系數(shù)

      輪廓系數(shù)是目前使用最為頻繁的聚類有效性評價(jià)指標(biāo)之一,其要求同一個(gè)簇內(nèi)樣本間距離小,相似性高,不同簇間距離大,相似性低[13,14].聚類的輪廓系數(shù)為數(shù)據(jù)集中所有樣本的輪廓系數(shù)平均值,單個(gè)樣本x的輪廓系數(shù)計(jì)算公式如式(9)所示:

      其中,a(x)表示樣本x與其所屬簇的其他樣本之間的平均距離,為類內(nèi)距離,b(x)表示樣本x到其他簇的平均距離中的最小值,為類間距離.

      單獨(dú)使用輪廓系數(shù)作為聚類有效性評價(jià)指標(biāo)效果并不理想,基于樣本對簇的貢獻(xiàn)程度不同,本文引入監(jiān)督信息對輪廓系數(shù)進(jìn)行改進(jìn).監(jiān)督信息可以分為兩類,一類是數(shù)據(jù)樣本類別標(biāo)簽,另一類是數(shù)據(jù)樣本之間的成對約束信息.成對約束一般是指must-link與cannotlink兩種關(guān)聯(lián)約束關(guān)系,正關(guān)聯(lián)約束關(guān)系must-link(x,y)表示樣本x和樣本y屬于同一類,負(fù)關(guān)聯(lián)約束關(guān)系cannotlink(x,y)表示樣本x和樣本y屬于不同類.由于成對約束信息獲取成本低,容易得到,因此本文使用的監(jiān)督信息為成對約束.為了體現(xiàn)出各個(gè)樣本對簇的貢獻(xiàn)大小,我們認(rèn)為成對約束滿足程度高的樣本對簇的貢獻(xiàn)程度更大,應(yīng)該賦予更高的權(quán)重.但是當(dāng)兩個(gè)樣本成對約束滿足程度一致時(shí),其對簇的貢獻(xiàn)程度也可能不一樣.文獻(xiàn)[15]認(rèn)為不同的成對約束的包含的信息不一樣,應(yīng)該區(qū)分對待.因此我們把未得到滿足的成對約束之間的平均距離作為一個(gè)懲罰項(xiàng),用來體現(xiàn)當(dāng)成對約束滿足程度一致時(shí),樣本對簇的貢獻(xiàn)程度.

      在must-link約束關(guān)系中,距離更大的約束包含的信息更多,違反后應(yīng)該受到更大懲罰,應(yīng)使得其輪廓系數(shù)更小.根據(jù)輪廓系數(shù)計(jì)算方式,通常類內(nèi)距離越大輪廓系數(shù)越小.在不考慮權(quán)重的情況下,對同一個(gè)樣本來說,違反約束后,其輪廓系數(shù)值應(yīng)該更小,因此改進(jìn)后的類內(nèi)距離不應(yīng)該比原先的類內(nèi)距離小.所以令改進(jìn)后的類內(nèi)距離為a(x)與懲罰項(xiàng)兩者中的最大值[13],如式(10)所示,a(x)表示為改進(jìn)時(shí)的類內(nèi)距離.

      其中,xML表示與樣本x具有正關(guān)聯(lián)約束關(guān)系但在實(shí)際劃分簇的過程中沒有劃分到同一個(gè)簇的樣本集合,avg(x,xML) 表示樣本x到集合xML的平均距離.

      在cannot-link約束關(guān)系中,距離更小的約束包含的信息更多,違反后應(yīng)該受到更大懲罰.根據(jù)輪廓系數(shù)計(jì)算方式,一般類間距離越小輪廓系數(shù)越小,同理,應(yīng)該使得改進(jìn)后的類間距離為b(x)與懲罰項(xiàng)兩者中的最小值[13],如式(11)所示,b(x)表示未改進(jìn)前的類間距離.

      其中,xCL表示與樣本x具有負(fù)關(guān)聯(lián)約束關(guān)系但在實(shí)際劃分簇的過程中劃分到同一個(gè)簇的樣本集合,avg(x,xCL)表示樣本x到集合xCL的平均距離.

      改進(jìn)后的單個(gè)樣本輪廓系數(shù)如式(12)所示.此時(shí)可能會出現(xiàn)輪廓系數(shù)為負(fù)數(shù)的情況,而輪廓系數(shù)不為負(fù)數(shù),因此令小于0 的輪廓系數(shù)為0.

      加權(quán)的方式分為劃分權(quán)重與樣本權(quán)重.劃分權(quán)重是從整個(gè)聚類劃分的角度出發(fā),為在此次K值劃分中滿足的約束關(guān)系個(gè)數(shù)占總約束關(guān)系個(gè)數(shù)的比例.樣本權(quán)重是從單個(gè)樣本的角度出發(fā),若樣本x具有約束關(guān)系,則其樣本權(quán)重為樣本x滿足的約束關(guān)系個(gè)數(shù)占樣本x總約束關(guān)系個(gè)數(shù)的比例.若樣本x沒有約束關(guān)系但其所在的簇里面其它樣本具有約束關(guān)系,那么其樣本權(quán)重為簇中滿足的約束關(guān)系個(gè)數(shù)占簇中總約束關(guān)系個(gè)數(shù)的比例.若樣本x本身沒有約束關(guān)系并且其所在的簇中其它樣本也沒有約束關(guān)系,那么其樣本權(quán)重為1.

      把劃分權(quán)重與樣本權(quán)重結(jié)合起來,聚類的輪廓系數(shù)計(jì)算公式如式(13)所示,其中SI(D)表示聚類輪廓系數(shù),S i(x)′為單個(gè)樣本x的輪廓系數(shù),w(x)為樣本權(quán)重,|D|為數(shù)據(jù)集D中的樣本個(gè)數(shù),weight為劃分權(quán)重.

      3 實(shí)驗(yàn)與分析

      實(shí)驗(yàn)階段使用6 個(gè)UCI 數(shù)據(jù)集和1 個(gè)UCR 數(shù)據(jù)集,如表1所示.Wdbc、Seeds、Iris、Wine、Vertebral column、Glass Identification、Breast Tissue 來自于UCI 數(shù)據(jù)集,Plane 來自于UCR 數(shù)據(jù)集,Wdbc 表示的是Breast Cancer Wisconsin (Diagnostic)數(shù)據(jù)集.每組數(shù)據(jù)都采用了標(biāo)準(zhǔn)化(將一組數(shù)的每個(gè)數(shù)都減去這組數(shù)的平均值后再除以這組數(shù)的均方差)的預(yù)處理方式,采用結(jié)合成對約束的輪廓系數(shù)作為聚類有效性評價(jià)指標(biāo),聚類準(zhǔn)確性使用標(biāo)準(zhǔn)互信息(NMI).

      表2是CSWKM 算法對比實(shí)驗(yàn)的結(jié)果,在CSWKM算法對比實(shí)驗(yàn)中,迭代次數(shù)Count取50,聚類數(shù)量K的最大取值范圍為向下取整,n表示數(shù)據(jù)集的規(guī)模,Pre_K 表示實(shí)驗(yàn)重復(fù)100 次時(shí),算法選出的最佳聚類數(shù)與原數(shù)據(jù)集中種類數(shù)一致的次數(shù),“無”表示算法迭代10 000 次后未收斂,括號中的數(shù)字為成對約束的對數(shù),NMI 的值為10 次十折交叉驗(yàn)證的平均值.把僅僅使用輪廓系數(shù)而不加成對約束作為聚類有效性評價(jià)指標(biāo),用來為SubKMeans 確定K值的算法稱為SIKM.

      表1 數(shù)據(jù)集相關(guān)信息

      表2 CSWKM、SIKM 和SubKMeans 算法對比

      從表2中CSWKM 與SIKM 算法的對比實(shí)驗(yàn)數(shù)據(jù)中可以明顯看到CSWKM 算法的K值確定準(zhǔn)確率不論在成對約束對數(shù)為10 或100 時(shí),均要高于SIKM 算法,預(yù)測K值更加精準(zhǔn),使得NMI 系數(shù)也要高于SIKM算法.這一結(jié)果表明結(jié)合成對約束后的輪廓系數(shù)更能夠表示聚類性能,驗(yàn)證了CSWKM 算法在確定K值上的有效性.在Glass 數(shù)據(jù)集上,由于有一類只有9 個(gè)樣本,在進(jìn)行十折交叉驗(yàn)證的時(shí)候會出現(xiàn)有的簇中無法滿足樣本數(shù)大于5 的要求,導(dǎo)致不收斂,而CSWKM 算法對簇的迭代次數(shù)進(jìn)行了限制,因此不會出現(xiàn)不收斂的現(xiàn)象.從10 對成對約束與100 對成對約束的實(shí)驗(yàn)結(jié)果中可以看到,CSWKM 算法的NMI 系數(shù)隨著預(yù)測K值準(zhǔn)確率的提高而提升,由于在大多數(shù)的數(shù)據(jù)集中預(yù)測的K值準(zhǔn)確率不能達(dá)到百分百,因而NMI 系數(shù)普遍要比SubKMeans 算法低.當(dāng)K值預(yù)測準(zhǔn)確率達(dá)到百分百時(shí),CSWKM 算法的NMI 系數(shù)不低于SubKMeans算法,可以從Wdbc 和Seeds 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中看出.在部分?jǐn)?shù)據(jù)集上,可能聚為其它簇的效果要更好,因而預(yù)測K值準(zhǔn)確率雖然沒有達(dá)到百分百,但是CSWKM算法的NMI 系數(shù)還是要高于SubKMeans 算法.

      4 總結(jié)與展望

      針對SubKMeans 算法需要用戶指定K值的問題,提出了一種基于成對約束的SubKMeans 聚類數(shù)確定算法.將成對約束運(yùn)用到輪廓系數(shù)中,首先用成對約束改進(jìn)輪廓系數(shù)的計(jì)算方式,其次用成對約束的滿足程度給輪廓系數(shù)加權(quán),將改進(jìn)后的輪廓系數(shù)作為聚類有效性評價(jià)指標(biāo),在K的取值范圍內(nèi)根據(jù)最佳指標(biāo)值挑選出對應(yīng)的最佳K值,有效的解決了SubKMeans 算法在確定聚類數(shù)量方面的難題.最后,通過在UCI 和UCR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對比沒有使用成對約束改進(jìn)輪廓系數(shù)的SIKM 算法和SubKMeans 算法.實(shí)驗(yàn)結(jié)果表明,CSWKM 算法的K值確定準(zhǔn)確率和聚類效果優(yōu)于SIKM算法,驗(yàn)證了CSWKM 算法的有效性.并且CSWKM算法在給出100 對成對約束時(shí),聚類效果優(yōu)于SubKMeans算法.未來的工作將致力于如何把子空間信息作為確定K值的一個(gè)考慮因素.

      猜你喜歡
      輪廓約束聚類
      “碳中和”約束下的路徑選擇
      OPENCV輪廓識別研究與實(shí)踐
      約束離散KP方程族的完全Virasoro對稱
      基于實(shí)時(shí)輪廓誤差估算的數(shù)控系統(tǒng)輪廓控制
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進(jìn)的遺傳算法的模糊聚類算法
      在線學(xué)習(xí)機(jī)制下的Snake輪廓跟蹤
      適當(dāng)放手能讓孩子更好地自我約束
      人生十六七(2015年6期)2015-02-28 13:08:38
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      阜康市| 万载县| 九龙城区| 寿光市| 宣威市| 桃江县| 黄陵县| 广平县| 贞丰县| 宽城| 容城县| 砀山县| 宁乡县| 理塘县| 靖边县| 博野县| 乾安县| 鄂托克前旗| 汉寿县| 大洼县| 敖汉旗| 达拉特旗| 宁波市| 平陆县| 鄂尔多斯市| 宜川县| 汉阴县| 茂名市| 阳江市| 会昌县| 绥芬河市| 岳西县| 枣强县| 八宿县| 临海市| 林西县| 卫辉市| 买车| 田林县| 栾城县| 曲靖市|