• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種融合三支決策理論的改進(jìn)K-means算法

      2020-04-11 02:54:24夏月月張以文
      關(guān)鍵詞:邊緣聚類決策

      夏月月,張以文

      (安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601)

      1 引 言

      “無監(jiān)督”的聚類算法旨在對無標(biāo)記的樣本進(jìn)行訓(xùn)練來發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在性質(zhì),自主地將數(shù)據(jù)集中的樣本劃分為互不相交的若干子集.通常將劃分好的數(shù)據(jù)子集稱之為“簇”.聚類分析如今已經(jīng)被應(yīng)用在許多熱門領(lǐng)域,包括數(shù)據(jù)分析、模式識別和圖像處理等[1-3].

      在眾多的文獻(xiàn)中將聚類算法分為劃分聚類算法、層次聚類算法、密度聚類算法、網(wǎng)格聚類算法和模型聚類算法[4].本文聚焦于劃分聚類算法,劃分聚類算法通常要給定需要生成的簇?cái)?shù)k(k≤n)[5].其中,經(jīng)典的劃分聚類算法是K-means算法和K-medoids算法[6-8],K-means算法根據(jù)給定的簇?cái)?shù)從數(shù)據(jù)集中隨機(jī)選擇k個(gè)樣本點(diǎn)作為初始聚類中心,根據(jù)就近分配的原則將數(shù)據(jù)集中的樣本點(diǎn)劃分到各個(gè)聚類中心所屬的簇中.K-medoids算法與K-means算法類似,只是在迭代聚類中心的過程中,K-means算法以簇中樣本點(diǎn)的平均值作為新的聚類中心,K-medoids算法選擇簇中與其他樣本點(diǎn)誤差最小的樣本點(diǎn)作為新的聚類中心.K-means++算法首先隨機(jī)選擇一個(gè)樣本點(diǎn)作為第一個(gè)初始聚類中心,再使用輪盤法選擇與已有聚類中心距離較遠(yuǎn)的樣本點(diǎn)作為下一個(gè)初始聚類中心[9].朱二周[10]等人提出的改進(jìn)K-means(ZK-means)算法是選擇樣本點(diǎn)中密度較高的點(diǎn)作為初始聚類中心.由于每個(gè)樣本點(diǎn)都只屬于一個(gè)簇,因此,K-means算法、K-medoids算法、K-means++算法和ZK-means算法屬于硬聚類算法.與之相對的軟聚類算法是將模糊集理論引入聚類分析中,根據(jù)隸屬度劃分樣本點(diǎn).Bezdek提出了fuzzy c-means(FCM)算法是應(yīng)用最為廣泛的模糊聚類算法[11].

      姚一豫[12]提出的三支決策理論的核心思想是通過延遲決策來實(shí)現(xiàn)對問題的細(xì)分,將復(fù)雜問題轉(zhuǎn)化成三個(gè)較小的問題.即,當(dāng)對對象的信息掌握不足,難以判斷對象的歸屬時(shí),通過延遲決策獲得緩沖時(shí)間用于收集信息,當(dāng)信息掌握充足后將做出最終的歸屬權(quán)判定.也就是說三支決策是最終實(shí)現(xiàn)二支決策的一個(gè)中間步驟.三支決策理論在云計(jì)算和大數(shù)據(jù)領(lǐng)域中擁有廣泛的應(yīng)用前景.將三支決策思想應(yīng)用在聚類分析中,對于數(shù)據(jù)集中的樣本判定分為三種類型,即樣本點(diǎn)對劃分好的聚簇的歸屬性為:完全屬于,部分屬于和完全不屬于.

      本文主要聚焦于對K-means算法的改進(jìn),將三支決策理論與K-means算法結(jié)合提出新的三支決策K-means算法(TK-means).經(jīng)典的K-means算法實(shí)現(xiàn)簡單、收斂速度快,但是仍然存在以下不足:初始聚類中心隨機(jī)選擇,數(shù)據(jù)處理能力有待提高,對離群點(diǎn)較為敏感.針對這些問題,三支決策理論被應(yīng)用到K-means算法中,用以提高K-means算法的性能.王平心等人[13]提出了TWKM算法就是將三支決策理論與K-means算法結(jié)合,用以區(qū)分?jǐn)?shù)據(jù)集中的核心區(qū)域和邊緣區(qū)域.但是TWKM算法是通過密度來區(qū)分?jǐn)?shù)據(jù)集中樣本點(diǎn)的屬性,時(shí)間復(fù)雜度較高.本文將三支決策理論與網(wǎng)格算法中劃分網(wǎng)格的思想應(yīng)用到K-means算法中,提出新的TK-means算法.TK-means算法的主要創(chuàng)新如下:

      1)TK-means算法利用三支決策理論中的延遲決策的思想對邊緣區(qū)域的樣本點(diǎn)延遲處理,核心區(qū)域的樣本點(diǎn)之間的邊界更加明顯;在核心區(qū)域的樣本點(diǎn)聚類完成后,對邊緣區(qū)域的樣本點(diǎn)再處理,更易判斷其歸屬性.

      2)為了規(guī)避劃分樣本點(diǎn)屬性效率較低的問題,TK-means算法結(jié)合網(wǎng)格聚類算法中劃分網(wǎng)格的思想,利用網(wǎng)格密度來快速確定核心點(diǎn)和邊緣點(diǎn),規(guī)避對所有樣本點(diǎn)的計(jì)算從而降低算法的時(shí)間復(fù)雜度;

      3)對于K-means算法初始聚類中心隨機(jī)選擇使得聚類結(jié)果不穩(wěn)定的問題,TK-means算法提出了新的利用密度法和輪盤法結(jié)合的初始聚類中心確定方法;

      4)針對K-means算法對不規(guī)則數(shù)據(jù)集聚類效果較差的問題,TK-means算法采用對核心點(diǎn)和邊緣點(diǎn)不同劃分方式替換K-means算法的質(zhì)心就近劃分方法,對核心點(diǎn)采用對質(zhì)心就近劃分的原則;對邊緣點(diǎn)采用標(biāo)記樣本點(diǎn)就近劃分的原則.通過新的劃分方式可以高效的處理邊緣點(diǎn),提高算法對不規(guī)則數(shù)據(jù)集的處理能力.

      2 基礎(chǔ)理論

      在介紹TK-means算法之前,首先要介紹三支決策理論和K-means算法.

      2.1 三支決策理論

      對于數(shù)據(jù)集D={x1,x2,…,xn}中的所有樣本點(diǎn)xi={xi1,xi2,…,xim}(m是D的維數(shù)),經(jīng)過聚類所得的結(jié)果為C={C1,C2,…,CK}.在硬聚類算法中,聚類的結(jié)果是每一個(gè)樣本點(diǎn)都隸屬于且只隸屬于一個(gè)簇.對所有的樣本點(diǎn),存在隸屬矩陣U(D)=[uki],其中,k=1,2,…,K;i=1,2,…,n;uki是樣本點(diǎn)xi與聚簇Ci之間的隸屬關(guān)系.硬聚類算法中的隸屬關(guān)系可以表示為:

      (1)

      判斷隸屬關(guān)系通常是計(jì)算樣本點(diǎn)xi={xi1,xi2,…,xim}和xj={xj1,xj2,…,xjm}之間的歐式距離:

      (2)

      也就是說,樣本點(diǎn)與聚簇間的關(guān)系被絕對化為兩種關(guān)系:屬于和不屬于.顯然,在實(shí)際情況下,很多樣本點(diǎn)與聚簇之間的隸屬關(guān)系存在不確定性,需要進(jìn)一步訓(xùn)練收集信息來增強(qiáng)樣本點(diǎn)的隸屬性判斷.因此,將樣本點(diǎn)與聚簇之間的隸屬關(guān)系分為三種更為有效:屬于、不屬于和不確定.Yu Hong[14]結(jié)合三支決策的思想提出了一種三支決策聚類方法(active three-way clustering method,ATC).通過將整個(gè)樣本空間分為三種區(qū)域:核心區(qū)域CoreRegion(Ci)、邊緣區(qū)域EdgeRegion(Ci)和無效區(qū)域InvalidRegion(Ci).其中,與聚簇之間的隸屬關(guān)系確定的樣本點(diǎn)(核心點(diǎn))將被投入到核心區(qū)域中,而與聚簇之間的隸屬關(guān)系不確定的樣本點(diǎn)(邊緣點(diǎn))被分配到邊緣區(qū)域中,離群樣本點(diǎn)被分配到無效區(qū)域.也就是說每一個(gè)聚簇Ci都有兩部分組成:

      Ci=Co(Ci)∪Ed(Ci),Co(Ci)?D,Ed(Ci)?D

      (3)

      In(Ci)=D-(Co(Ci)∪Ed(Ci))

      (4)

      聚類完成后聚簇將整個(gè)樣本空間劃分成核心區(qū)域、邊緣區(qū)域和無效區(qū)域,對應(yīng)關(guān)系如下:

      (5)

      (6)

      (7)

      除此之外,核心點(diǎn)、邊緣點(diǎn)和離群點(diǎn)之間的關(guān)系如下:

      (8)

      Co(Ci)∩Ed(Ci)=φ

      (9)

      Co(Ci)∩In(Ci)=φ

      (10)

      In(Ci)∩Ed(Ci)=φ

      (11)

      最終的聚類結(jié)果為:

      C={(Co(C1),Ed(C1)),…,(Co(CK),Ed(CK))}

      (12)

      2.2 K-means算法

      基于劃分的聚類算法中的最為經(jīng)典的就是K-means和K-medoids算法.本文主要研究的是對K-means算法的改進(jìn).

      傳統(tǒng)的K-means的算法主要有以下四個(gè)步驟:

      1.輸入數(shù)據(jù)集D和聚簇?cái)?shù)K;

      2.在數(shù)據(jù)集D中隨機(jī)選取K個(gè)數(shù)據(jù)對象作為聚類中心;

      3.計(jì)算數(shù)據(jù)集D中的數(shù)據(jù)對象與步驟2中選取的聚類中心的歐式距離,并且將數(shù)據(jù)對象劃分到歐式距離最小的簇中;

      4.計(jì)算每個(gè)聚簇內(nèi)數(shù)據(jù)對象的平均值作為新的聚類中心,返回步驟3,直到聚類中心不再變化或小于某個(gè)指定的極小數(shù)為止.

      3 TK-means算法

      硬聚類算法和軟聚類算法的主要區(qū)別在于對于邊緣點(diǎn)的處理.盡管使用三支決策理論改進(jìn)的算法有很多,但是這些算法往往只是將樣本點(diǎn)分為核心點(diǎn)和邊緣點(diǎn)分別處理,但是對于區(qū)分核心點(diǎn)和邊緣點(diǎn)方法過于復(fù)雜,多采用密度法.采用密度的方法來區(qū)分核心點(diǎn)和樣本點(diǎn)存在如下問題:1.需要對數(shù)據(jù)集中的所有樣本點(diǎn)進(jìn)行區(qū)域密度計(jì)算,時(shí)間復(fù)雜度較高;2.需要設(shè)置較多參數(shù),諸如半徑參數(shù)和密度參數(shù).為此,本文通過引入網(wǎng)格聚類算法中劃分網(wǎng)格的方法對三支決策理論進(jìn)行拓展用于對K-means算法的優(yōu)化.

      已經(jīng)提出了許多將網(wǎng)格算法與K-means算法結(jié)合用以提升效率的混合算法,朱二周[15]等人提出的Grid-K-means算法是一種動態(tài)劃分網(wǎng)格的K-means算法,雖然算法效率很高,但是仍然只是將網(wǎng)格劃分的思想應(yīng)用到K-means算法中,將對樣本點(diǎn)的操作改為對網(wǎng)格的操作,處理較為簡單.同樣地,TK-means算法在對數(shù)據(jù)集中的樣本點(diǎn)進(jìn)行核心點(diǎn)、邊緣點(diǎn)和離群點(diǎn)的屬性劃分之前需要對數(shù)據(jù)集進(jìn)行預(yù)處理,將樣本點(diǎn)放入網(wǎng)格中.TK-means算法主要分為以下過程:

      3.1 網(wǎng)格劃分

      為了更準(zhǔn)確地劃分網(wǎng)格,在讀取數(shù)據(jù)集時(shí),記錄樣本點(diǎn)每一維的邊界值(Border)(即:最大值和最小值)Bi={Bimax,Bimin},其中,i=1,2,…,K.為了增加準(zhǔn)確性,分別對樣本點(diǎn)每一維的最小值向下取整,最大值向上取整,即B′i={B′imax,B′imin}.因此可以獲得樣本點(diǎn)每一維度的數(shù)據(jù)范圍(Range),計(jì)算方式如下:

      Ri=B′imax,B′imin

      (13)

      (14)

      Si=Ri/G

      (15)

      完成網(wǎng)格劃分后即可將數(shù)據(jù)集中的樣本點(diǎn)讀取并放置于對應(yīng)的網(wǎng)格中,即把數(shù)據(jù)集的樣本點(diǎn)xi={xi1,xi2,…,xim}轉(zhuǎn)換成網(wǎng)格點(diǎn)Gi={Gi1,Gi2,…,Gim,Gi0},其中Gi0即為網(wǎng)格密度.

      (16)

      3.2 屬性劃分

      在完成數(shù)據(jù)集中樣本點(diǎn)xi向網(wǎng)格點(diǎn)Gi的轉(zhuǎn)換后,利用三支決策理論和網(wǎng)格密度將樣本點(diǎn)進(jìn)行屬性劃分.由于數(shù)據(jù)集存在多樣性和復(fù)雜性,針對不同的數(shù)據(jù)集需要設(shè)置不同參數(shù)(Density)De來做出最優(yōu)的屬性劃分.在實(shí)驗(yàn)部分將列出所有數(shù)據(jù)集的密度參數(shù)De.根據(jù)設(shè)置的密度參數(shù)De,將網(wǎng)格密度Gi0大于密度參數(shù)De的網(wǎng)格點(diǎn)視為核心點(diǎn),而網(wǎng)格密度Gi0小于密度參數(shù)De的網(wǎng)格點(diǎn)視為邊緣點(diǎn),即:

      (17)

      在完成對網(wǎng)格點(diǎn)的屬性劃分后,網(wǎng)格中的樣本點(diǎn)的屬性也就可以確定.

      3.3 選取初始聚類中心

      K-means算法的初始聚類中心的隨機(jī)選擇使得聚類結(jié)果不穩(wěn)定,容易陷入局部最優(yōu).K-means++算法隨機(jī)選擇一個(gè)樣本點(diǎn)作為第一個(gè)初始聚類中心,再使用輪盤法選擇與已有聚類中心距離較遠(yuǎn)的樣本點(diǎn)作為下一個(gè)初始聚類中心,仍然存在隨機(jī)性不夠穩(wěn)定;而ZK-means算法則是選擇樣本點(diǎn)中密度較高的點(diǎn)作為初始聚類中心,需要計(jì)算所有樣本點(diǎn)的密度,時(shí)間復(fù)雜度較高;Grid-K-means算法利用網(wǎng)格密度對所有網(wǎng)格點(diǎn)進(jìn)行排序,選取高密度網(wǎng)格作為初始聚類中心,同時(shí)設(shè)置參數(shù)來調(diào)整干擾半徑.

      本文進(jìn)一步優(yōu)化,將隸屬于核心區(qū)域中的網(wǎng)格點(diǎn)依據(jù)網(wǎng)格密度進(jìn)行排序,選取最高密度的網(wǎng)格點(diǎn)作為第一個(gè)初始聚類中心v1,剩余的K-1個(gè)初始聚類中心{v2,v3,…,vk}采取和K-means++算法相同的輪盤法選取相聚較遠(yuǎn)的高密度網(wǎng)格點(diǎn),并且為輪盤法選擇的網(wǎng)格點(diǎn)添加限制條件R,即選取剩余的網(wǎng)格點(diǎn)與已選的初始聚類中心的距離要大于R,輪盤法計(jì)算公式和R的計(jì)算方法如下.通常最高密度的網(wǎng)格點(diǎn)必然是聚類中心,以及了添加限制條件R,避免了K-means++算法選取聚類中心時(shí)存在的隨機(jī)性,也避免了Grid-K-means算法需要提供額外參數(shù),最后獲取初始聚類中心v={v1,v2,…,vk}.

      (18)

      R=GN/K

      (19)

      3.4 聚類過程

      在確定初始聚類中心后,即可執(zhí)行聚類.K-means算法以及眾多的對K-means算法改進(jìn)的算法都對所有的樣本點(diǎn)采用質(zhì)心就近劃分的思想,即將所有的樣本點(diǎn)劃分到與聚類中心最近的聚簇中.通常這種處理方式采用歐式距離計(jì)算樣本點(diǎn)與聚類中心的距離,因而算法無法處理不同形狀的數(shù)據(jù)集,僅僅適用于類圓形數(shù)據(jù)集.TK-means算法為了突破K-means算法的固有缺陷,結(jié)合三支決策理論對K-means算法進(jìn)行優(yōu)化.整個(gè)聚類過程分為兩步:

      第1步.在確定網(wǎng)格點(diǎn)的屬性和初始聚類中心后,對網(wǎng)格點(diǎn)中的核心點(diǎn)采用就近劃分的原則,計(jì)算所有網(wǎng)格點(diǎn)與初始聚類中心之間的距離,將網(wǎng)格點(diǎn)中的核心點(diǎn)劃分到離聚類中心最近的聚簇;而對網(wǎng)格點(diǎn)中的邊緣點(diǎn)采用延遲決策的思想暫不處理.劃分完畢后,重新計(jì)算聚類中心.

      (20)

      獲取到新的聚類中心v′={v′1,v′2,…,v′k}.對網(wǎng)格點(diǎn)中的核心點(diǎn)重新劃分,反復(fù)迭代直到聚類中心v′不再發(fā)生變化.

      第2步.在完成對網(wǎng)格點(diǎn)中的核心點(diǎn)的聚類之后,對網(wǎng)格點(diǎn)中的邊緣點(diǎn)不再計(jì)算與聚類中心之間的距離,而是計(jì)算所有已經(jīng)劃分好的核心點(diǎn)之間的距離,將邊緣點(diǎn)劃分到最近的核心點(diǎn)隸屬的聚簇中.

      初始聚類中心選取算法的形式描述如下:

      輸入:D:包含n個(gè)對象的數(shù)據(jù)集;聚類數(shù):K;限制條件:R.

      輸出:初始聚類中心:v={v1,v2,…,vk}.

      1.使用公式(13)~公式(17)對數(shù)據(jù)集D進(jìn)行預(yù)處理并劃分網(wǎng)格空間;

      2.根據(jù)網(wǎng)格密度利用快速排序?qū)λ泻诵膮^(qū)域網(wǎng)格點(diǎn)進(jìn)行排序;

      3.選取密度最高的網(wǎng)格點(diǎn)作為第一個(gè)初始聚類中心;

      4.fori=2toK

      5.利用公式(18)計(jì)算所有樣本點(diǎn)與已選擇的初始聚類中心之間的最小距離以及最小距離之和,計(jì)算每個(gè)網(wǎng)格點(diǎn)Gi被選擇作為下一個(gè)初始聚類中心的概率;

      6.根據(jù)P(Gi)利用快速排序?qū)W(wǎng)格點(diǎn)進(jìn)行排序;

      7.計(jì)算Gi與已選初始聚類中心之間的距離;

      8.選取P(Gi)較高且Gi與已選初始聚類中心之間的距離大于R的網(wǎng)格點(diǎn)作為下一個(gè)初始聚類中心;

      9.end for

      3.5 TK-means算法的具體實(shí)現(xiàn)過程

      TK-means算法的主要步驟如下:

      輸入:D:包含n個(gè)對象的數(shù)據(jù)集;聚類數(shù):K;密度參數(shù):De.

      輸出:聚簇的集合C={(Co(C1),Ed(C1)),(Co(C2),Ed(C2)),…,(Co(CK),Ed(CK))}.

      1.使用公式(13)-公式(15)對數(shù)據(jù)集D進(jìn)行預(yù)處理并劃分網(wǎng)格空間(通過這些公式,計(jì)算Ri,GN和Si);

      2.根據(jù)公式(16),將數(shù)據(jù)集D中的樣本點(diǎn)讀入網(wǎng)格空間,樣本點(diǎn)轉(zhuǎn)換為網(wǎng)格點(diǎn);

      3.根據(jù)密度參數(shù)De判斷網(wǎng)格點(diǎn)屬性為核心點(diǎn)和邊緣點(diǎn);

      4.選取核心點(diǎn)中密度最高的網(wǎng)格點(diǎn)為第一個(gè)初始聚類中心v1;

      5.利用輪盤法選擇與已有初始聚類中心距離較遠(yuǎn)的核心點(diǎn)為下一個(gè)初始聚類中心,選出所有初始聚類中心v={v1,v2,…,vK};

      6.Repeat

      7.令C=φ

      8.fori=1,2,…,mdo

      9.計(jì)算所有核心點(diǎn)到初始聚類中心的距離,將核心點(diǎn)劃分到距離最小的聚類中心所在的聚簇;

      10.end for

      11.fori=1,2,…,Kdo

      13.ifv′i≠vi

      14.更新聚類中心:vi←v′i;

      15.end for

      16.Until聚類中心v′={v′1,v′2,…,v′K}不再變化;

      17.fori=1 tomdo

      18.計(jì)算所有邊緣點(diǎn)到所有核心之間的距離,將邊緣點(diǎn)劃分到距離最小的核心點(diǎn)所隸屬的聚簇中;

      19.end for;

      20.讀取已聚類的網(wǎng)格點(diǎn)中的樣本點(diǎn)標(biāo)記完成聚類,C={(Co(C1),Ed(C1)),(Co(C2),Ed(C2)),…,(Co(CK),Ed(CK))}.

      根據(jù)劃分好的網(wǎng)格點(diǎn),讀取網(wǎng)格點(diǎn)中的樣本點(diǎn)并標(biāo)記即完成聚類,聚類的結(jié)果為:C={(Co(C1),Ed(C1)),(Co(C2),Ed(C2)),…,(Co(CK),Ed(CK))}.通過邊緣點(diǎn)的延遲劃分以及邊緣點(diǎn)隸屬關(guān)系的特殊判斷方式對K-means算法進(jìn)行優(yōu)化,可以獲得更好的聚類效果.

      TK-means算法的偽代碼步驟中,1-3是對數(shù)據(jù)集中樣本點(diǎn)進(jìn)行網(wǎng)格劃分,并根據(jù)參數(shù)對網(wǎng)格點(diǎn)進(jìn)行屬性劃分;4是利用網(wǎng)格密度確定所有的初始聚類中心;6-16是對核心點(diǎn)進(jìn)行聚類劃分;17-19是對邊緣點(diǎn)進(jìn)行聚類劃分;20是對已聚類的網(wǎng)格點(diǎn)中的樣本點(diǎn)進(jìn)行標(biāo)記并完成聚類.

      4 實(shí)驗(yàn)評估

      4.1 評估指標(biāo)

      通過使用聚類算法可以將目標(biāo)數(shù)據(jù)集劃分成指定數(shù)目的聚簇,然而對于聚類結(jié)果仍然需要特定的方法給予評估.對于聚類算法的性能評估通常由兩方面組成:聚類算法效率和聚類結(jié)果.對于聚類算法效率的評估即為對比聚類算法的執(zhí)行時(shí)間;而對于聚類結(jié)果可以通過聚類結(jié)果的準(zhǔn)確率來判斷.此外,聚類有效性指標(biāo)也是一種判斷聚類結(jié)果的有效方法.

      1)準(zhǔn)確率

      (21)

      準(zhǔn)確率是判斷聚類結(jié)果質(zhì)量最為直觀的方式.通過將聚類結(jié)果中所有聚簇中的樣本點(diǎn)和對應(yīng)數(shù)據(jù)集中的聚簇樣本點(diǎn)進(jìn)行一一對比可以得到聚類結(jié)果的準(zhǔn)確性.Acc越高即代表聚類結(jié)果的準(zhǔn)確性越高,聚類效果越好.當(dāng)Acc=100%時(shí),聚類結(jié)果與目標(biāo)數(shù)據(jù)集完全匹配.

      2)聚類有效性指標(biāo)Davies-Bouldin(DBI)

      (22)

      4.2 實(shí)驗(yàn)數(shù)據(jù)

      本文的實(shí)驗(yàn)采用Java語言編寫,具體的實(shí)驗(yàn)環(huán)境如表1所示.為了驗(yàn)證本文提出的TK-means算法的性能,仿真實(shí)驗(yàn)共選擇了12個(gè)數(shù)據(jù)集,其中6個(gè)模擬數(shù)據(jù)集:400-4k2、Aggregation、D9、Pathbased、R15和Unbalance,6個(gè)UCI機(jī)器學(xué)習(xí)庫中的真實(shí)數(shù)據(jù)集:Iris、seeds、tae、bupa、mammographic和newthyroid.表2展示這些數(shù)據(jù)集的詳細(xì)信息,其中參數(shù)Effect為區(qū)分核心區(qū)域和邊緣區(qū)域的參數(shù).真實(shí)數(shù)據(jù)集均為高維度的數(shù)據(jù)集,需要通過降維處理才能在低維度空間中展示.本文采用T-SNE方法對高緯度數(shù)據(jù)集進(jìn)行降維處理[17].圖1和圖2分別是模擬數(shù)據(jù)集和降維后的真實(shí)數(shù)據(jù)集的空間分布圖.

      表1 實(shí)驗(yàn)環(huán)境
      Table 1 Experiment environment

      CPUIntel(R)Core(TM)i5-7500(3.40GHz)RAMKingston DDR4 2667(16GB)Hard diskTOSHIBA DT01ACA100(1TB,7200r/min)OSMicrosoft Windows 10 Enterprise(64 bit)

      表2 實(shí)驗(yàn)數(shù)據(jù)集描述
      Table 2 Experimental data set description

      IDDatasetsSamplesAttributesClassesEffect1400-4k24002442Aggregation7542643D99002924Pathbased2822425R1560021526Unbalance65002827Iris1504338seeds2107329tae15153210bupa34562211mammographic83052312newthyroid215531

      4.3 實(shí)驗(yàn)數(shù)據(jù)結(jié)果分析

      為了驗(yàn)證本文提出TK-means算法的聚類效果,K-means算法、K-medoids算法、K-means++算法、ZK-means算法、ZK-medoids算法(本文將ZK-means算法中利用密度選取初始聚類中心的方法應(yīng)用到K-medoids算法)和TWKM算法被選擇用來與TK-means算法進(jìn)行比較.對于上述聚類算法,通過DBI指標(biāo)和對聚類結(jié)果進(jìn)行評估,用以展示TK-means算法的性能.同時(shí)測量各種算法的運(yùn)行時(shí)間用以衡量算法效率.

      圖1 6個(gè)模擬數(shù)據(jù)集的空間分布圖Fig.1 Spatial distribution of six simulated data sets

      圖2 6個(gè)真實(shí)數(shù)據(jù)集的三維空間分布圖Fig.2 Three-dimensional spatial distribution of six real data sets

      表3給出了6種聚類算法對12個(gè)數(shù)據(jù)集運(yùn)行10次的平均準(zhǔn)確率.其中,將表中不同算法中的最佳聚類結(jié)果標(biāo)記為粗體.由于K-means算法、K-medoids算法、K-means++算法和TWKM算法初始聚類中心隨機(jī)選擇,所以三種聚類算法每次的聚類結(jié)果存在不確定性.而ZK-means算法、ZK-medoids算法和TK-means算法采用了初始聚類中心確定算法,聚類結(jié)果穩(wěn)定.表3顯示采用了三支決策理論改進(jìn)的TK-means算法具有更好的聚類結(jié)果.表4列出了7種聚類算法對12個(gè)數(shù)據(jù)集的聚類最佳結(jié)果.表4顯示,對于其他6種聚類算法的最佳聚類結(jié)果,TK-means算法依舊優(yōu)勢明顯,有更好的聚類結(jié)果.

      表5列出了7種聚類算法對12個(gè)數(shù)據(jù)集進(jìn)行聚類運(yùn)行10次的平均時(shí)間,時(shí)間單位為“毫秒”.表5顯示,針對二維的模擬數(shù)據(jù)集,TK-means算法和其他6種算法相比,效率相當(dāng).針對高維度的真實(shí)數(shù)據(jù)集,由于TK-means算法增加了網(wǎng)格操作,需要對數(shù)據(jù)集進(jìn)行預(yù)處理,多維度劃分網(wǎng)格所需時(shí)間較多,而處理的樣本點(diǎn)較少,不能發(fā)揮網(wǎng)格算法的優(yōu)勢,因此效率低于其他6種算法.

      從表6和表7中可以發(fā)現(xiàn),TK-means算法在DBI指標(biāo)對聚類結(jié)果的評估上優(yōu)于其他算法,TK-means算法可以獲得較多數(shù)據(jù)集的高質(zhì)量聚類結(jié)果.DBI指標(biāo)對于K-means算法的最佳聚類結(jié)果的評估上優(yōu)于TK-means算法,這是因?yàn)镵-means算法的最佳聚類結(jié)果較為接近TK-means算法,且主要是在多維且重疊度較大的數(shù)據(jù)集上存在偏差.這種情況與DBI指標(biāo)的性能有關(guān),DBI指標(biāo)對于重疊度大的數(shù)據(jù)集的評估能力較為薄弱.在DBI指標(biāo)的平均評估結(jié)果上,TK-means算法和TWKM算法優(yōu)于其他算法.

      表3 算法平均準(zhǔn)確率
      Table 3 Average accuracy of algorithms

      Data setsK-meansK-medoidsK-means++ZK-meansZK-medoidsTWKMTK-means400-4k292.00%89.60%97.45%100%86.25%91.00%100%Aggregation93.40%70.41%93.66%94.83%67.11%88.29%95.36%D980.98%78.17%83.13%88.78%88.67%78.84%100%Pathbased74.11%67.09%76.14%71.99%66.31%74.47%82.27%R1582.35%73.12%90.73%99.67%91.67%90.10%99.67%Unbalance93.85%94.62%93.85%93.85%93.85%94.68%99.94%Iris88.30%76.13%75.60%92.67%73.33%74.80%99.33%seeds89.29%77.52%89.19%89.52%66.67%73.91%89.52%tae68.54%43.51%44.17%64.90%41.72%59.34%79.47%bupa58.55%57.97%57.97%58.55%57.97%58.73%59.13%mammographic69.46%70.33%69.59%70.48%71.20%68.58%78.92%newthyroid80.65%80.00%82.79%86.05%76.28%76.84%87.91%

      表4 算法最佳準(zhǔn)確率
      Table 4 Best accuracy of algorithms

      Data setsK-meansK-medoidsK-means++ZK-meansZK-medoidsTWKMTK-means400-4k2100%95.25%100%100%86.25%100%100%Aggregation94.96%74.80%94.96%94.83%67.11%92.97%95.36%D999.78%89.56%99.67%88.78%88.67%99.89%100%Pathbased80.85%68.79%79.79%71.99%66.31%81.21%82.27%R1599.67%82.50%99.67%99.67%91.67%98.17%99.67%Unbalance93.85%95.38%93.85%93.85%93.85%96.92%99.94%Iris93.33%80.67%89.33%92.67%73.33%99.33%99.33%seeds89.52%83.81%89.52%89.52%66.67%96.67%89.52%tae72.19%46.36%45.70%64.90%41.72%70.86%79.47%bupa58.55%57.97%57.97%58.55%57.97%65.80%59.13%mammographic70.48%71.57%70.48%70.48%71.20%72.17%78.92%newthyroid86.05%83.72%86.05%86.05%76.28%81.40%87.91%

      表5 算法平均運(yùn)行時(shí)間(單位:毫秒)
      Table 5 Average running time of algorithms(unit:ms)

      4.4 性能分析

      表6 DBI指標(biāo)評估算法結(jié)果的平均表現(xiàn)
      Table 6 Average performance of the DBI index evaluation algorithm results

      Data setsK-meansK-medoidsK-means++ZK-meansZK-medoidsTWKMTK-means400-4k20.38981.60830.35530.24760.70920.24330.2712Aggregation0.82067.19780.79450.72004.75340.62190.4376D90.55131.59640.59340.57620.57970.37620.3267Pathbased0.98765.88250.96271.10057.12920.40760.7719R150.55930.80320.47490.36940.56190.14310.4468Unbalance0.82081.02800.93470.83090.65391.02830.3897Iris0.73421.25990.70520.593141.42400.29121.3459seeds0.46583.50200.47740.58383.03550.42620.3875tae4.61612.83913.09422.62464.25984.13792.3387bupa2.80090.80102.67653.14810.73591.14811.3947mammographic0.40911.29890.39070.30203.35940.37301.2285newthyroid0.64401.05670.69980.93210.44160.59810.5473

      表7 DBI指標(biāo)評估算法結(jié)果的最佳表現(xiàn)
      Table 7 Best performance of the DBI index evaluation algorithm results

      Data setsK-meansK-medoidsK-means++ZK-meansZK-medoidsTWKMTK-mean400-4k20.22300.43290.23610.24760.70920.05470.2712Aggregation0.67232.63530.71840.72004.75340.58070.4376D90.32050.65780.45970.57620.57970.38060.3267Pathbased0.79064.63480.88981.10057.12920.25160.7719R150.43000.66520.39420.36940.56190.44680.4468Unbalance0.69950.65770.75910.83090.65390.69920.3897Iris0.58460.91880.58460.593141.42400.14051.3459seeds0.38240.81730.28380.58383.03550.05750.3875tae2.51261.16551.40992.62464.25982.19942.3387bupa2.48100.70012.43493.14810.73590.29511.3947mammographic0.29660.47790.29900.30203.35940.20351.2285newthyroid0.54490.41670.47850.93210.44160.19160.5473

      綜上所述,TK-means算法和K-means算法、K-medoids算法、K-means++算法、ZK-means算法、ZK-medoids算法、TWKM算法相比擁有更好的性能.利用三支決策理論和網(wǎng)格算法對K-means算法進(jìn)行優(yōu)化的TK-means算法可以快速地確定初始聚類中心并高效地處理邊緣樣本點(diǎn),具有更好的聚類效果.

      5 結(jié)束語

      現(xiàn)有的聚類算法中通常在判斷樣本點(diǎn)與聚簇的隸屬關(guān)系時(shí)分為屬于和不屬于的關(guān)系,忽略對隸屬關(guān)系不確定樣本點(diǎn)的再判斷.本文通過將三支決策理論與K-means算法結(jié)合提出新的TK-means算法.TK-means算法通過增加對樣本點(diǎn)的屬性劃分提高算法的準(zhǔn)確率;通過引入網(wǎng)格算法中劃分網(wǎng)格的思想提高樣本點(diǎn)屬性劃分的效率;通過密度法和輪盤法的結(jié)合使用提高初始聚類中心確定的準(zhǔn)確性;通過提出對核心點(diǎn)和邊緣點(diǎn)不同劃分方式解決K-means算法僅適用于類圓形數(shù)據(jù)集的固有缺陷.通過測試不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,TK-means算法擁有更好的性能.

      猜你喜歡
      邊緣聚類決策
      為可持續(xù)決策提供依據(jù)
      決策為什么失誤了
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      一張圖看懂邊緣計(jì)算
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      在邊緣尋找自我
      雕塑(1999年2期)1999-06-28 05:01:42
      關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識
      軍事歷史(1997年5期)1997-08-21 02:36:06
      走在邊緣
      雕塑(1996年2期)1996-07-13 03:19:02
      宿松县| 施秉县| 昌黎县| 营口市| 贵德县| 弥勒县| 盖州市| 仁化县| 长兴县| 贵州省| 普兰店市| 都匀市| 北流市| 汾阳市| 资中县| 于田县| 饶河县| 汝城县| 夏津县| 顺昌县| 双峰县| 云梦县| 和平县| 郓城县| 临海市| 无锡市| 盐城市| 财经| 宝兴县| 蒙自县| 江西省| 邳州市| 岑溪市| 洪洞县| 威宁| 西盟| 肥乡县| 常宁市| 大悟县| 荆州市| 同心县|