• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多維空間可調(diào)整的近鄰傳播聚類算法*

      2019-01-17 06:32:40錢雪忠王衛(wèi)濤
      計(jì)算機(jī)與生活 2019年1期
      關(guān)鍵詞:中心點(diǎn)準(zhǔn)確率權(quán)重

      錢雪忠,王衛(wèi)濤

      江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122

      1 引言

      聚類分析是對(duì)一組對(duì)象進(jìn)行處理,最終將對(duì)象分成幾類,使得同一類對(duì)象之間的相似度更大,不同類對(duì)象的相似度更小。在聚類分析的發(fā)展過程中,提出了k-means、DBSCAN、FCM等聚類算法,2007年Frey和Dueck在Science闡述了近鄰傳播聚類算法(affinity propagation,AP)的原理和應(yīng)用。與其他聚類方法相比,近鄰傳播算法不需事先設(shè)定聚類的個(gè)數(shù),不需初始化聚類中心點(diǎn),是一種快速有效的聚類算法。由于AP算法是基于中心的聚類算法,因此在處理緊湊的具有超球形分布的數(shù)據(jù)集上有較好的性能,但是不適合具有任意空間形狀和多重尺度的數(shù)據(jù)集。

      針對(duì)上述問題,Dong等[1]提出了可變相似性度量的近鄰傳播聚類(affinity propagation of variable similarity measure,AP-VSM),該方法采用可變度量來改善數(shù)據(jù)的總體分布特性,該方法在處理一些復(fù)雜的高維數(shù)據(jù)時(shí)有較好的效果,然而該方法在處理不同類之間有相互交叉的情況時(shí)效果較差;Jia等[2]提出了基于光譜尺寸減小的密度自適應(yīng)近鄰傳播聚類(density-adaptive affinity propagation clustering algorithm based on spectral dimension reduction,DAAP),該方法采用最短路徑構(gòu)建相似度矩陣,利用該方法能夠較好地處理多尺度數(shù)據(jù)集的問題,但是該算法在計(jì)算最短路徑時(shí)算法時(shí)間復(fù)雜度過大;Gan等[3]提出了子空間近鄰傳播聚類(subspace clustering using affinity propagation,SAP),該算法利用屬性權(quán)重計(jì)算相似度矩陣,并在迭代過程中動(dòng)態(tài)更新屬性的權(quán)重,從而更新相似度矩陣,利用該方法可以較好地處理復(fù)雜空間的數(shù)據(jù),但是在處理樣本量較大時(shí)稍顯不足;Li等[4]提出了自適應(yīng)調(diào)整偏向參數(shù)的近鄰傳播聚類算法(adjustable preference affinity propagation clustering,APAP),該方法為不同的數(shù)據(jù)點(diǎn)設(shè)置不同的偏向參數(shù),并動(dòng)態(tài)更新,該方法適合高斯分布以及流行分布的數(shù)據(jù),但不適合處理圖像相關(guān)的數(shù)據(jù)集。

      本文針對(duì)文獻(xiàn)[1-4]中處理數(shù)據(jù)集中不同類數(shù)據(jù)有交叉的問題,算法時(shí)間復(fù)雜度過大的問題,不適合處理多樣本的問題以及不適合處理圖像相關(guān)的數(shù)據(jù)等問題提出了MSAAP(multidimensional similarity adaptive affinity propagation)算法。首先,針對(duì)文獻(xiàn)[5-8]的想法,本文根據(jù)熵值法計(jì)算數(shù)據(jù)集的屬性權(quán)重,然后根據(jù)屬性權(quán)重和高斯核函數(shù)構(gòu)造出一種更加準(zhǔn)確的計(jì)算相似度矩陣的方法;接著針對(duì)文獻(xiàn)[9-13]的想法,本文根據(jù)權(quán)重矩陣選取優(yōu)先級(jí)高的屬性,跟該屬性的個(gè)數(shù)n,將空間分成2的n次方個(gè)子空間,最后針對(duì)文獻(xiàn)[14-20],本文提出計(jì)算分布各個(gè)子空間的鄰域數(shù)據(jù)點(diǎn)的吸引度和歸屬度之和,進(jìn)而調(diào)整該樣本點(diǎn)的空間分布。然后調(diào)整后的樣本點(diǎn)去重新迭代計(jì)算相似度、吸引度和歸屬度,一直到迭代結(jié)束。本文在第3章詳細(xì)介紹該算法的計(jì)算過程。

      2 近鄰傳播算法

      AP算法把所有的樣本點(diǎn)作為候選聚類中心點(diǎn)。AP算法主要利用數(shù)據(jù)集中任意兩個(gè)樣本點(diǎn)之間的相似度進(jìn)行迭代計(jì)算。其中相似度的定義為兩個(gè)樣本點(diǎn)之間歐式距離平方的負(fù)數(shù),計(jì)算相似度矩陣的公式如下:

      在AP算法中需要設(shè)置偏向參數(shù)的值,默認(rèn)設(shè)置為相似度矩陣的均值,即p=median(s)。該算法在計(jì)算過程中引入了歸屬度矩陣A(availability)和吸引度矩陣R(responsibility),在算法迭代過程中兩個(gè)信息矩陣不斷地迭代更新。其中:A=(a(i,j))m×n,a(i,j)是樣本點(diǎn)j向樣本點(diǎn)i發(fā)送的信息值,表示為樣本點(diǎn)i選擇樣本點(diǎn)j作為聚類中心點(diǎn)的合適程度;R=(r(i,j))m×n,r(i,j)是樣本點(diǎn)i向樣本點(diǎn)j發(fā)送的信息值,表示為樣本點(diǎn)j作為樣本點(diǎn)i聚類中心點(diǎn)的合適程度。歸屬度矩陣和吸引度矩陣的迭代更新的計(jì)算公式如下:

      在計(jì)算歸屬度矩陣相似度矩陣過程中,為了防止震蕩,引入了阻尼因子λ來增強(qiáng)算法的穩(wěn)定性,計(jì)算公式如下:

      根據(jù)以上公式迭代計(jì)算歸屬度矩陣和吸引度矩陣,最終使得聚類目標(biāo)函數(shù)最大化,其聚類目標(biāo)函數(shù)如下:

      式中,ci為樣本點(diǎn)i的聚類中心點(diǎn),C是由ci組成的向量,i=1,2,…,N(N為樣本點(diǎn)個(gè)數(shù)),S(C)為所有樣本點(diǎn)到各自的聚類中心點(diǎn)的相似度之和。其中δk(C)計(jì)算公式如下:

      此式為一致性約束懲罰項(xiàng),如果有樣本點(diǎn)i選擇k作為其聚類中心點(diǎn),即ci=k,那么樣本點(diǎn)k必定選擇自身為聚類中心點(diǎn),即ck=k,否則函數(shù)取值-∞,使樣本點(diǎn)i在下次迭代中不再選擇k作為自身聚類中心點(diǎn)。

      迭代后通過計(jì)算A+R的值來確定聚類中心點(diǎn),當(dāng)(r(k,k)+a(k,k))>0時(shí),樣本點(diǎn)k即為聚類中心點(diǎn)。各個(gè)樣本點(diǎn)的聚類中心點(diǎn)ci的計(jì)算公式如下:該式表示為每個(gè)樣本點(diǎn)選擇歸屬度和吸引度之和最大的聚類中心點(diǎn)作為自身的聚類中心點(diǎn)。

      3 MSAAP算法

      3.1 算法描述

      3.1.1 熵值法計(jì)算屬性權(quán)重

      熵值是具有不確定性的一種度量。信息量越大,不確定性就越小,熵也就越??;信息量越小,不確定性越大,熵也越大。因此根據(jù)熵的特性,可以利用熵值來判斷某個(gè)指標(biāo)的離散程度,指標(biāo)的離散程度越大,該指標(biāo)對(duì)綜合評(píng)價(jià)的影響(權(quán)重)越大,其熵值越小。同時(shí)熵在信息論中已經(jīng)得到廣泛的應(yīng)用,因此本文通過計(jì)算數(shù)據(jù)樣本點(diǎn)的熵值來確定各個(gè)屬性的權(quán)重,可以更能真實(shí)表達(dá)數(shù)據(jù)集的特性。

      計(jì)算熵值的過程需要依次計(jì)算歸一化指標(biāo)、指標(biāo)比重、指標(biāo)熵值、信息熵冗余度、指標(biāo)權(quán)值。其公式如下:

      式中,xij為數(shù)據(jù)集中第i個(gè)數(shù)據(jù)點(diǎn)的第j項(xiàng)指標(biāo),i=1,2,…,n(n為樣本點(diǎn)個(gè)數(shù)),j=1,2,…,d(d為樣本點(diǎn)屬性個(gè)數(shù));k=1/ln(n)>0,滿足ej≥ 0。ej表示第j項(xiàng)指標(biāo)的熵值,rj表示信息熵冗余度,wj則表示為最終的指標(biāo)權(quán)重。

      圖1中的橫軸為數(shù)據(jù)集的維數(shù),縱軸為每一維特征的權(quán)重,從圖中可以看出,通過計(jì)算樣本點(diǎn)各個(gè)屬性的熵值可以很好地區(qū)分出屬性的重要程度,然后根據(jù)實(shí)際實(shí)驗(yàn)的需要,選取若干個(gè)權(quán)重屬性。圖中用到的數(shù)據(jù)集的具體屬性在第4章中介紹。

      3.1.2 根據(jù)權(quán)重計(jì)算相似度矩陣

      Fig.1 Attributes weighted graphs calculated by entropy method圖1 通過熵值法計(jì)算的屬性權(quán)重圖

      其中,r為核變換系數(shù)。

      為了充分驗(yàn)證本文所采用的相似度計(jì)量方法的有效性,需要通過數(shù)據(jù)集的相似性度量來對(duì)比,本文通過任意選取兩個(gè)同類的數(shù)據(jù)點(diǎn)和一個(gè)不同類的數(shù)據(jù)點(diǎn),分別計(jì)算出這兩組的相似度s1和s2,然后計(jì)算出一個(gè)比值rate=(s1-s2)/s2,這樣做的目的在于保證在做不同相似度對(duì)比實(shí)驗(yàn)時(shí),都在同一個(gè)數(shù)量級(jí)內(nèi),使得實(shí)驗(yàn)結(jié)果具有更好的可靠性。對(duì)比結(jié)果見圖2、圖3。

      Fig.2 Comparison chart of wine data set圖2 wine數(shù)據(jù)集對(duì)比圖

      Fig.3 Comparison chart of YaleB data set圖3 YaleB數(shù)據(jù)集對(duì)比圖

      圖中es_rate為歐式距離平方的負(fù)數(shù)計(jì)算的相似度比值,ds_rate為密度自適應(yīng)計(jì)算的相似度比值,ws_rate為本文采用的加權(quán)密度自適應(yīng)比值。從結(jié)果看出,ws_rate的比值是最大的,說明了此方法在計(jì)算同類數(shù)據(jù)點(diǎn)的相似度比es_rate和ds_rate更大,在計(jì)算不同類數(shù)據(jù)點(diǎn)之間時(shí),ws_rate相比另外兩種則更小,說明ws_rate計(jì)算相似度更準(zhǔn)確。為保證實(shí)驗(yàn)的公正性,同類數(shù)據(jù)點(diǎn)和不同類數(shù)據(jù)點(diǎn)都是隨機(jī)選取的,并做10次對(duì)比實(shí)驗(yàn)。

      3.1.3 根據(jù)多維空間調(diào)整個(gè)體空間分布

      AP算法每次迭代后,會(huì)有吸引度和歸屬度矩陣生成,吸引度和歸屬度矩陣的加和表示了兩兩數(shù)據(jù)點(diǎn)之間的相似程度,因此將吸引度和歸屬度加和的指標(biāo)作為衡量指標(biāo),來調(diào)整個(gè)體的空間分布。

      首先需要前期處理工作,為了避免正負(fù)數(shù)的相互抵消,首先采用sigmoid函數(shù)將AR矩陣映射到[0,1]區(qū)間內(nèi),AR為歸屬度矩陣A和吸引度矩陣R之和。然后根據(jù)3.1.1節(jié)計(jì)算出的權(quán)重矩陣W,選出前l(fā)個(gè)屬性,屬性集合為ls。

      然后將根據(jù)樣本點(diǎn)的距離求出閾值Eps,本文中Eps是通過距離矩陣的平均數(shù)(Median(D))計(jì)算得出的。因?yàn)榫嚯x矩陣的平均數(shù)反映的是整個(gè)數(shù)據(jù)集樣本點(diǎn)之間距離的平均情況,利用該平均數(shù)可以過濾一些邊緣點(diǎn)、噪聲點(diǎn)的干擾。當(dāng)兩個(gè)樣本之間的距離小于該閾值時(shí)表明這兩個(gè)樣本相對(duì)整個(gè)數(shù)據(jù)集來說更有可能屬于同一類簇,反之,則說明該兩個(gè)樣本屬于同一類簇的可能性較低,接著根據(jù)閾值Eps計(jì)算每個(gè)樣本點(diǎn)的鄰域areas,通過areas中的樣本點(diǎn)去調(diào)整當(dāng)前樣本的區(qū)域分布,如果D(i,k)≤Eps,則areas(t)=k,t=t+1。如果areas為空,則處理下一個(gè)數(shù)據(jù)點(diǎn);如果不為空,則根據(jù)l值計(jì)算出需要?jiǎng)澐值淖涌臻g數(shù)目nums=2l。接著初始化2l個(gè)空間的初始狀態(tài),初始化的計(jì)算公式如下:

      其中,1表示正相關(guān),-1表示負(fù)相關(guān),j∈ls時(shí)的計(jì)算步驟如下:

      1.首先初始化變量:nums=2l

      2.forcol=1∶l

      3.index=cols(col),step=2(l-col),frep=0,flag=1

      4.fort=1∶nums

      5.frep=frep+1

      6.iffrep≤step status(t,index)=flagend if

      7.iffrep==step

      8.frep=0

      9.ifflag==1flag=-1elseflag=1end if

      10.end if

      11.end for

      12.end for

      圖4中,左側(cè)圖為調(diào)整前的樣本點(diǎn)分布,右側(cè)為調(diào)整后的樣本點(diǎn)分布,其中左側(cè)圖中處于坐標(biāo)軸的中心黑點(diǎn)為當(dāng)前調(diào)整的樣本點(diǎn)。圖4是從模型的角度來分析整體數(shù)據(jù)點(diǎn)調(diào)整的基本規(guī)律,為了更好地展示,采用二維空間來表示,因此劃分的總的子空間數(shù)目為22,其中A、B、C、D分別代表四個(gè)空間,每個(gè)空間內(nèi)包含若干當(dāng)前數(shù)據(jù)點(diǎn)的鄰域點(diǎn),然后分別計(jì)算:

      Fig.4 Chart of spatial adjustment圖4 空間調(diào)整分布示意圖

      接著計(jì)算max{sumA,sumB,sumC,sumD},求出吸引度和歸屬度之和最大的區(qū)域,并計(jì)算出該區(qū)域中所有數(shù)據(jù)點(diǎn)的中心點(diǎn)center,然后用center代替當(dāng)前處理的數(shù)據(jù)點(diǎn)x,最后繼續(xù)迭代計(jì)算下一個(gè)數(shù)據(jù)點(diǎn)。當(dāng)計(jì)算完所有數(shù)據(jù)點(diǎn)之后,更新數(shù)據(jù)集的相似度矩陣s、偏向參數(shù)p,然后進(jìn)行下次迭代。

      在實(shí)驗(yàn)中,為了縮短運(yùn)行時(shí)間,同時(shí)保證迭代過程更加穩(wěn)定,在迭代過程中增加更新頻率freq,如果滿足 mod(iter,freq)=0,則update(data,s,p);反之,則 continue,繼續(xù)下次迭代。在本文中freq是通過sigmoid函數(shù)計(jì)算出的,sigmoid函數(shù)是一個(gè)從大到小變化的平滑函數(shù),在AP算法迭代的初始階段,幅度較大,既保證了迭代的速率又保證對(duì)數(shù)據(jù)集一個(gè)整體的調(diào)整變換。隨著算法迭代的深入,幅度縮小,保證了對(duì)個(gè)別數(shù)據(jù)點(diǎn)的調(diào)整,同時(shí)也避免了算法為了適應(yīng)不同數(shù)據(jù)集而去不斷調(diào)整頻率的大小,這樣保證了算法的效率性和魯棒性。表1和表2是頻率選取固定值和sigmoid函數(shù)計(jì)算的對(duì)比實(shí)驗(yàn)。當(dāng)固定值為1時(shí),為每次迭代都更新。以此來驗(yàn)證采用sigmoid函數(shù)在此處的有效性。

      Table 1 Parameter selection table of wine表1 wine數(shù)據(jù)集的參數(shù)選取表

      Table 2 Parameter selection table of leuk72_3k表2 leuk72_3k數(shù)據(jù)集的參數(shù)選取表

      表1和表2中固定值對(duì)應(yīng)的數(shù)據(jù)為freq取一定值時(shí)所對(duì)應(yīng)的準(zhǔn)確率和時(shí)間,sigmoid對(duì)應(yīng)的數(shù)據(jù)為本文利用sigmoid函數(shù)計(jì)算頻率對(duì)應(yīng)的準(zhǔn)確率和時(shí)間。從表中可以看出頻率的選取與準(zhǔn)確率沒有比例關(guān)系,對(duì)于任意的數(shù)據(jù)集可能是任意的固定值,因此在實(shí)際的仿真實(shí)驗(yàn)有一定的難度,同時(shí)當(dāng)頻率取某個(gè)固定值時(shí)準(zhǔn)確率高了,那么時(shí)間就會(huì)很慢,時(shí)間快了,準(zhǔn)確率就會(huì)下降。而利用sigmoid函數(shù)計(jì)算頻率就會(huì)在保證準(zhǔn)確率的同時(shí),降低時(shí)間復(fù)雜度。此處提到的準(zhǔn)確率會(huì)在本文4.1節(jié)介紹。

      3.2 算法步驟

      Input:X={x1,x2,…,xn}.

      Output:idx:Clustering results.

      1.w=entropy(X)//由3.1.1節(jié)計(jì)算

      3.pm=Median(Sn×n)

      4.iter←0

      5.A′=AP.update(A),R′=AP.update(R)

      6.frep=floor(a?ln(iter)/ln(b)+c)

      7.if mod(iter,frep)==0

      8.AR=sigmoid(A+R)

      9.ls=sort(w,-1)(1∶l)

      10.fori=1∶n

      12.Eps=Median(dis)t=0

      13.fork=1∶n-1

      14.ifdis(i,k)≤Eps t=t+1areas(t)=kend if

      15.end for

      16.iflength(areas)>0

      17.status=init(l,cols)//由表1計(jì)算

      18.fork=1∶length(areas)

      19.forj=1∶l

      20.ifx(i,j)>x(k,j)status′=-1end if

      21.ifx(I,j)≤x(k,j)status′=1end if

      22.end for

      23.index=find(status′,status) set(index,t)=kt=t+1

      24.end for

      25.fort=1∶nums

      26.sumARs=sum(AR(set(t)))

      27.end for

      28.x(i)=avg(max(sumARs))

      29.end if

      30.end for

      31.Algorithm terminated.

      4 實(shí)驗(yàn)結(jié)果與分析

      不同指標(biāo)往往具有不同的量綱和單位,這樣會(huì)影響數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱的影響,本文對(duì)數(shù)據(jù)集進(jìn)行了歸一化處理。本文選取了13個(gè)UCI數(shù)據(jù)集和ORL、YaleB、JAFFE人臉數(shù)據(jù)庫(kù)。數(shù)據(jù)集信息見表3。

      4.1 評(píng)價(jià)指標(biāo)

      為了更加客觀地反映聚類算法的優(yōu)劣,本文選取F-Measure作為算法的評(píng)價(jià)指標(biāo),F(xiàn)-measure是由precision(精確率)和recall(召回率)共同表示,準(zhǔn)確率(F-measure)通常用來表示聚類準(zhǔn)確性的優(yōu)劣。計(jì)算公式如下:

      Table 3 Information of data set表3 數(shù)據(jù)集信息

      4.2 參數(shù)調(diào)整分析

      由于在實(shí)驗(yàn)過程中,引入了鄰域的閾值和特征維度兩個(gè)參數(shù),當(dāng)參數(shù)不同時(shí),實(shí)驗(yàn)結(jié)果也不同。因此需要在大量的實(shí)驗(yàn)中,找出適合不同數(shù)據(jù)集的參數(shù),表4、表5為本文做的參數(shù)選取實(shí)驗(yàn)。

      表4、表5中,eps表示閾值,dim表示維度。從表4、表5可以看出,參數(shù)閾值和維度對(duì)聚類結(jié)果影響很大,因?yàn)樵趯?shí)驗(yàn)中,閾值是控制樣本點(diǎn)的鄰域個(gè)數(shù),能影響散落在各個(gè)空間中鄰域點(diǎn)的數(shù)目,最終會(huì)影響樣本點(diǎn)的分布的調(diào)整,所以閾值對(duì)聚類結(jié)果影響較大。而維度是m個(gè)權(quán)重最大的屬性,當(dāng)m取不同值時(shí),選取的屬性個(gè)數(shù)就不同,而在調(diào)整樣本點(diǎn)分布時(shí),所改變的樣本點(diǎn)的屬性不同,因此最終對(duì)聚類結(jié)果影響較大。

      Table 4 Parameter selection table of wine表4 wine數(shù)據(jù)集的參數(shù)選取表

      Table 5 Parameter selection table of zoo表5 zoo數(shù)據(jù)集的參數(shù)選取表

      4.3 準(zhǔn)確率、時(shí)間、類數(shù)分析

      本文從準(zhǔn)確率、時(shí)間、聚類類數(shù)3個(gè)維度對(duì)AP、AP-VSM、DAAP、SAP、APAP、MSAAP進(jìn)行了對(duì)比。其中,F(xiàn)為準(zhǔn)確率(F-measure),Time單位為秒(s)。對(duì)比如表6所示。

      從準(zhǔn)確率來看,MSAAP算法在這16個(gè)數(shù)據(jù)集上,相比其他5種算法有了明顯的提升。AP-VSM、DAAP、SAP、APAP這4種算法都有各自適合的數(shù)據(jù)集。DAAP在Sonar、YaleB等數(shù)據(jù)集上處理效果較其他方法差;SAP在leuk72_3k、haberman、ORL等數(shù)據(jù)集上處理效果較差;APAP在JAFFE數(shù)據(jù)集上處理效果較差。而本文提出的MSAAP處理這16個(gè)數(shù)據(jù)集相比其他算法都有較好的改進(jìn)。

      從時(shí)間方面看,DAAP算法由于需要計(jì)算最短路徑,時(shí)間復(fù)雜度最大,其次本文提出的MSAAP算法需要在迭代中調(diào)整樣本點(diǎn)的空間分布,因此時(shí)間復(fù)雜度稍大,MSAAP的時(shí)間復(fù)雜度為O(m×n2),AP、AP-VSM、SAP、DAAP算法的時(shí)間復(fù)雜度都為O(m×n),其中m為近鄰傳播算法的迭代次數(shù),n為樣本點(diǎn)數(shù)。

      從聚類類數(shù)來看,AP-VSM和SAP分別有6個(gè)數(shù)據(jù)集與真實(shí)類數(shù)不同,APAP有5個(gè),DAAP有3個(gè),但都比原始AP算法更接近真實(shí)類數(shù),而MSAAP算法在這16個(gè)數(shù)據(jù)集上最終的聚類個(gè)數(shù)都與真實(shí)類數(shù)相符。

      Table 6 Table of F-measure,Time and clusters表6 F-measure、時(shí)間、類數(shù)對(duì)比表

      從準(zhǔn)確率、時(shí)間、類數(shù)來看,MSAAP算法除了在時(shí)間復(fù)雜度上略大于AP、AP-VSM、SAP、APAP這4種算法外,準(zhǔn)確率、類數(shù)相比來說更好。從整體來看,本文算法具有更好的聚類性能。

      4.4 效果圖分析

      為了直觀地看出6種聚類算法優(yōu)劣,本文通過聚類效果圖展示的形式,來更加直觀地反映表4數(shù)據(jù)的有效性。為了更好地顯示聚類效果,通過PCA將數(shù)據(jù)集降至2維,從而可以在平面上顯示最終的聚類結(jié)果。本文選取wine、seeds、YaleB、JAFFE數(shù)據(jù)庫(kù)進(jìn)行對(duì)比。wine有178個(gè)樣本點(diǎn),13維屬性,3類數(shù)據(jù),wine的屬性變量為連續(xù)變量,是流行分布的,是不平衡的數(shù)據(jù);seeds有210個(gè)樣本點(diǎn),7維屬性,3類數(shù)據(jù),seeds的所有屬性值都為實(shí)值連續(xù)的;YaleB數(shù)據(jù)庫(kù)有45個(gè)樣本點(diǎn),192×168維屬性,5類數(shù)據(jù),YaleB每幅圖像都有相對(duì)較大的光照變化、表情變化、部分缺損以及姿態(tài)變化;JAFFE數(shù)據(jù)庫(kù)有50個(gè)樣本點(diǎn),256×256維屬性,5類數(shù)據(jù),每個(gè)人有7種表情的圖片。

      wine和seeds數(shù)據(jù)集聚類難度在于3類數(shù)據(jù)在分布的區(qū)域位置上相互交叉,不同類的數(shù)據(jù)點(diǎn)之間的距離比同類之間的距離要近,如果算法中用一些傳統(tǒng)的相似度計(jì)算公式或者維度選取不合適會(huì)造成聚類結(jié)果的差異性。YaleB和JAFFE數(shù)據(jù)庫(kù)聚類難度在于孤立點(diǎn)較多,會(huì)造成聚類時(shí)選取聚類中心點(diǎn)過多,最終聚類的類數(shù)與實(shí)際情況不符。聚類效果圖見圖5到圖8。

      Fig.5 wine data set clustered by 6 methods圖5 wine數(shù)據(jù)集6種方法聚類效果圖

      Fig.6 seeds data set clustered by 6 methods圖6 seeds數(shù)據(jù)集6種方法聚類效果圖

      Fig.7 YaleB data set clustered by 6 methods圖7 YaleB數(shù)據(jù)集6種方法聚類效果圖

      Fig.8 JAFFE data set clustered by 6 methods圖8 JAFFE數(shù)據(jù)集6種方法聚類效果圖

      圖5到圖8左至右依次為原始數(shù)據(jù)分布圖,AP、AP-VSM、DAAP、SAP、APAP、MSAAP聚類效果圖,從圖5、圖6和圖8可知,當(dāng)數(shù)據(jù)集中有若干個(gè)數(shù)據(jù)點(diǎn)為孤立點(diǎn)時(shí),AP、AP-VSM、DAAP、SAP、APAP這5種算法將這些孤立點(diǎn)單獨(dú)聚為一類,而MSAAP算法很好地處理了這些孤立點(diǎn),證明該方法在處理邊緣點(diǎn)時(shí)效果較好。同時(shí)從4幅圖中可以看出MSAAP聚類的效果圖中的類數(shù)以及聚類中心點(diǎn)的選取都與原始數(shù)據(jù)相符合,聚類后樣本點(diǎn)分布的區(qū)域與原始數(shù)據(jù)集分布的很接近,區(qū)域密度也類似,并且類與類之間相互交叉得很少。而其他5種算法在處理這些數(shù)據(jù)集時(shí)均出現(xiàn)聚類結(jié)果與原始數(shù)據(jù)不一致的情況。

      從這些效果圖中可以直觀地看出MSAAP算法對(duì)傳統(tǒng)AP算法有了明顯的改進(jìn),同時(shí)相比較本文中提到的其他改進(jìn)算法也有明顯的改進(jìn)。再結(jié)合表6的數(shù)據(jù)分析說明MSAAP具有很好的聚類性能。

      5 結(jié)束語

      本文介紹了近鄰傳播算法(AP)和基于多維空間調(diào)整數(shù)據(jù)點(diǎn)空間分布的原理與步驟,首先介紹了熵的概念,并通過熵值求解屬性的權(quán)重的計(jì)算步驟;其次利用熵值權(quán)重構(gòu)造新型的相似度矩陣;然后對(duì)數(shù)據(jù)點(diǎn)在多維空間分布的位置進(jìn)行動(dòng)態(tài)調(diào)整的問題進(jìn)行建模和求解;最后在UCI數(shù)據(jù)集和人臉數(shù)據(jù)庫(kù)上進(jìn)行了對(duì)比實(shí)驗(yàn)。證明了本文所研究的方法在處理多重尺度和任意形狀的數(shù)據(jù)集時(shí)具有較好的聚類效果。

      猜你喜歡
      中心點(diǎn)準(zhǔn)確率權(quán)重
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      權(quán)重常思“浮名輕”
      Scratch 3.9更新了什么?
      如何設(shè)置造型中心點(diǎn)?
      電腦報(bào)(2019年4期)2019-09-10 07:22:44
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
      邵武市| 塔河县| 巴马| 房产| 永年县| 庆云县| 岳阳市| 青龙| 东丽区| 勃利县| 九江市| 年辖:市辖区| 江津市| 资阳市| 阆中市| 佛冈县| 天柱县| 类乌齐县| 襄樊市| 栾川县| 临邑县| 灵璧县| 鄂尔多斯市| 大悟县| 鄱阳县| 嘉兴市| 高邮市| 三明市| 柳河县| 麻阳| 壶关县| 浦北县| 聊城市| 长顺县| 乌拉特前旗| 芮城县| 什邡市| 大城县| 巧家县| 开化县| 望谟县|