• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于密度峰值及肘方法的類數(shù)目確定

      2021-05-15 12:46:24王贏己董紅斌
      應(yīng)用科技 2021年2期
      關(guān)鍵詞:數(shù)目個數(shù)峰值

      王贏己,董紅斌

      哈爾濱工程大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001

      伴隨著時代的發(fā)展與進步,大數(shù)據(jù)技術(shù)已深入到人們的生活中,比如在視頻廣告、交易平臺和視頻終端,每天產(chǎn)生海量的數(shù)據(jù),如果將這些數(shù)據(jù)加以利用,就可以化“數(shù)字”為“神奇”,創(chuàng)造無窮價值,因此“數(shù)據(jù)挖掘”技術(shù)被廣泛運用。而聚類[1-5]分析是數(shù)據(jù)挖掘的一項重要技術(shù),是探索數(shù)據(jù)之間隱藏聯(lián)系的重要一環(huán)。聚類分析源自分類學(xué),但是聚類和分類并不一樣。分類是已經(jīng)知曉物品的標(biāo)簽,將其分到對應(yīng)的標(biāo)簽下;而聚類是未知的,是一種無監(jiān)督的分類方法。

      密度峰值(DP)算法[6]是一種近幾年流行的聚類算法。該算法的優(yōu)勢在于不受數(shù)據(jù)集形狀的限制,可以識別出任意形狀的數(shù)據(jù),如流形、線形、環(huán)形和簇形等數(shù)據(jù)集;也很容易發(fā)現(xiàn)數(shù)據(jù)集中的噪聲點。而且其參數(shù)唯一、易于使用,并具有很好的魯棒性,廣受學(xué)者們的歡迎。盡管如此,DP 算法還是有一些不足:1)DP 算法的局部密度計算方式是通過截斷距離(dc)來計算的,這個值往往是通過經(jīng)驗設(shè)置,無法適應(yīng)不同密度的數(shù)據(jù)集。2)DP 算法是根據(jù)排序好的候選中心來聚類的,若開始選擇了較差的候選者則會導(dǎo)致難以估量的后果。近年來,針對DP 算法提出很多的改進算法,如引入信息熵概念來改進dc的計算[7],這樣會使DP 算法聚類中心的選擇過程更直觀;還有利用基尼不純度發(fā)現(xiàn)最佳dc[8];Liu 等[9]提出基于KNN 的新密度度量方式的ADPC-KNN 算法;Mehmood 等[10]結(jié)合了截斷距離選擇和核密度估計的邊界矯正的CFSFDP-HD,以實現(xiàn)更精確的聚類效果,不受噪聲點的干擾。

      經(jīng)過上述分析發(fā)現(xiàn),實現(xiàn)自適應(yīng)DP 聚類算法關(guān)鍵是聚類中心的選取、dc的計算和類數(shù)目的確定。目前針對前2 個因素的改進已經(jīng)進行了大量的相關(guān)研究[11],但是對于類數(shù)目的確定仍然停留在人工干預(yù)選擇的階段,缺少自動選擇類數(shù)目的相關(guān)工作。

      本文針對上述分析,提出以下內(nèi)容:1)提出基于自然鄰居的新內(nèi)核;2)改進自然鄰居的搜索算法;3)聯(lián)合肘方法以自適應(yīng)確定類數(shù)目。

      1 相關(guān)工作

      1.1 DP 算法

      密度峰值算法的本質(zhì)在于聚類中心,該算法在于提出一種方式高效地選取數(shù)據(jù)集中的聚類中心。 Rodriguez 等[6]提出2 個關(guān)于聚類中心的假設(shè):

      假設(shè)1聚類中心的密度應(yīng)比其鄰居密度都要大,即它任意鄰居的密度均小于它。

      假設(shè)2聚類中心應(yīng)與其他密度大于它的聚類中心的“距離”相對更大,即2 個聚類中心應(yīng)有一段距離。

      設(shè)數(shù)據(jù)集D={x1,x2,···,xN},標(biāo)簽集F={f1,f2,···,fN},候選聚類中心C={c1,c,···,cK},dij=dist(xi,xj)表示數(shù)據(jù)點xi和xj之間的歐幾里得(或者其他度量方法)距離。

      對于局部密度 ρi的計算方式大體有2 種,分別是截斷內(nèi)核(Cut-off kernel)和高斯內(nèi)核(Gaussian kernel)。

      1.1.1 截斷內(nèi)核

      通過式(1)可知:若xi的局部密度為全局最大時, δi為xi與數(shù)據(jù)集中所有數(shù)據(jù)點的聚類降序排序中的最大值;否則 δi為所有局部密度大于xi的數(shù)據(jù)點中的距離降序排序中的最小值。

      文中提出一種新的參數(shù) γ,用來表示聚類中心的評估值,參數(shù) γ是局部密度 ρi和距離 δi的 乘積:

      顯然,一個數(shù)據(jù)點的 γ值越大,它是聚類中心的可能性越高。

      1.2 自然鄰居

      自然鄰居是一個新的鄰居概念[12-14]。與k個最近鄰居相比,此方法不需要設(shè)置任何參數(shù),并且是自適應(yīng)搜索鄰居的方法。自然鄰居主要受到人類社會關(guān)系的啟發(fā):假設(shè)2 個人A 和B,2 個人之間的友誼應(yīng)該是相互的,即A 認識了解B,而B 也認識了解A,此時才認為2 個人是熟悉的;而當(dāng)A 認識B,但B 不認識A 時,可以說兩者并沒有任何關(guān)系。這說明一個數(shù)據(jù)點的自然鄰居個數(shù)越多,其越緊密;反之,說明其越稀疏。

      自然鄰居的生成過程是這樣實現(xiàn)的:首先初始化當(dāng)前鄰居個數(shù)r,通過不斷增加r以擴大搜索范圍,且每次計算每個點的逆最近鄰居數(shù)量。當(dāng)滿足以下2 個條件之一時,即:1)所有點具逆最近鄰居;2)沒有逆最近鄰居的個數(shù)不變,可以認為達到了自然穩(wěn)定狀態(tài)。此時的搜索范圍r是自然特征值 λ。

      如圖1 所示,當(dāng)r=2 時,紅色圓圈的K近鄰為藍、綠圓圈,其中,藍色圓圈的K近鄰為紅、黑圓圈,綠色圓圈的K近鄰為白色圓圈。此時,紅、藍互為自然鄰居;反之紅、綠不是自然鄰居。

      圖1 自然鄰居示意

      1.3 肘方法

      肘方法顧名思義,就是類似人的手肘,有一個拐點存在[15]。肘方法就是通過這個拐點來得到最終的K值。它是基于2 條曲線得到:一條是由誤差平方和(sum of the squared errors,SSE)計算得到,另一條是搜索范圍的起點和終點的SSE 連線(y=ax+b);然后將兩者的差值中的最大值所在的K值作為最終結(jié)果。其中K的搜索范圍影響著2 條曲線差值的精度。若范圍太大,則當(dāng)誤差平方和趨于平緩時,搜索還未結(jié)束;反之范圍太小,搜索就會在誤差平方和還在下降時結(jié)束。無論哪一個都會導(dǎo)致最終的K值無效。如何解決這一問題是使用肘方法的關(guān)鍵。傳統(tǒng)的肘方法是通過經(jīng)驗設(shè)置搜索范圍,本文將其與密度峰值聯(lián)合以自適應(yīng)計算肘方法的搜索范圍。

      2 基于自然鄰居的密度峰值算法

      傳統(tǒng)的密度峰值算法無法實現(xiàn)真正的自適應(yīng),其中的參數(shù)dc往往根據(jù)經(jīng)驗設(shè)置,若設(shè)置合適,能取得不錯的結(jié)果,但是這也將導(dǎo)致其局限性。若數(shù)據(jù)集差別較大,則要么需要通過大量實驗重新設(shè)置參數(shù),要么會導(dǎo)致得到較差的聚類結(jié)果。為了改進這一缺陷,本文通過引入自然鄰居的思想,重新定義每個數(shù)據(jù)點的鄰居關(guān)系,來重新計算每個數(shù)據(jù)點的局部密度 ρi和距離 δi,根據(jù)得到的候選集合聯(lián)合肘方法得到全局最優(yōu)類數(shù)目。本文還引入了減而治之的思想,改進計算自然鄰居的搜索算法,大大減少運行時間。

      對于傳統(tǒng)的KNN 算法,每個數(shù)據(jù)點要根據(jù)dist(x,y)(其中y是任意非x數(shù)據(jù)點)排序,根據(jù)距離的大小來判斷誰是它的鄰居;這就需要事先知道K的大小,否則無法實現(xiàn)真正的自適應(yīng)。而自然鄰居(nature neighbor)的思想是,2 個數(shù)據(jù)點互相認為對方此時是自己的K最近鄰居,才認為彼此是自然鄰居關(guān)系。此時,可以說2 個數(shù)據(jù)點是可靠穩(wěn)定的鄰居關(guān)系。通過自然鄰居的思想,不僅可以得到理論上更為可靠的鄰居關(guān)系,并且基于此可以得到更可靠的局部密度,以實現(xiàn)真正意義上的自適應(yīng),不再受數(shù)據(jù)集的規(guī)模和固有參數(shù)的限制。

      由于肘方法的搜索范圍往往是根據(jù)經(jīng)驗確定,設(shè)置數(shù)據(jù)集大小為N,搜索范圍一般為對于一些規(guī)模較大的數(shù)據(jù)集,根據(jù)經(jīng)驗選擇搜索范圍在一些情況下可能會耗費更高的時間成本,甚至還會降低聚類的精度。本文通過基于自然鄰居的密度峰值算法來確定肘方法的搜索范圍,經(jīng)實驗驗證,該方法可以大大縮小肘方法的搜索范圍,繪制的曲線也更能準確地獲得數(shù)據(jù)集的真實類數(shù)目。

      2.1 基于自然鄰居思想的密度峰值算法

      密度峰值算法思想的核心是密集區(qū)域的局部密度要大于稀疏地區(qū)的局部密度,即密集區(qū)域的鄰居之間的距離要更小,反之鄰居之間的距離要更大。本文結(jié)合自然鄰居思想給出局部密度 ρi的定義為

      式中: ω為在自然鄰居尋找過程中迭代結(jié)束后r的值,即某個數(shù)據(jù)點擁有的最高自然鄰居的個數(shù);NNω(i)表示距i數(shù)據(jù)點的 ω最近鄰居,而dist(i,j)是數(shù)據(jù)點i和數(shù)據(jù)點j的歐幾里得距離。

      由式(2)易知,基于自然鄰居的思想,可以真正自適應(yīng)地計算合適的鄰居個數(shù),為更準確地得到聚類結(jié)果提供保證。

      2.2 肘方法的搜索范圍

      式中:nbi為數(shù)據(jù)點i的自然鄰居個數(shù);F(x)為x的算術(shù)平均值。

      候選因子 θi的大小取決于兩點,一是數(shù)據(jù)點x的自然鄰居個數(shù),二是其所有自然鄰居的自然鄰居個數(shù)的平均值??梢园l(fā)現(xiàn),一個點的自然鄰居個數(shù)比其所有自然鄰居的自然鄰居個數(shù)都多,則它很可能是聚類中心。

      在選擇候選聚類中心時,首先,計算每個數(shù)據(jù)點的候選因子 θi,只有當(dāng)θi>1時,說明其有資格作為候選聚類中心,即它的自然鄰居個數(shù)要大于它的鄰居;反之,排除它成為候選聚類中心的可能。然后,再根據(jù)候選聚類中心的特征值 γi排序,將結(jié)果降序排列。最后,肘方法的搜索范圍即經(jīng)過候選因子 θi過濾出來的數(shù)據(jù)點,再根據(jù)特征值γi降序排列,采用肘方法得到最優(yōu)的類數(shù)目。

      2.3 NDP 指標(biāo)

      肘方法的核心思想是:隨著聚類的類別數(shù)目K增加,數(shù)據(jù)集的誤差平方和的下降幅度會驟減;然后隨著K值的繼續(xù)增大而趨于平緩,那么曲線圖的拐點就是聚類中心。本文提出NDP 指標(biāo),該指標(biāo)由2 條直線的差值計算得到,一條是由數(shù)據(jù)集的誤差平方和計算得到(Z={z1,z2,···,zM}),另一條是肘方法搜索范圍的起點和終點的SSE 值兩點確定的一條直線y=ax+b(Y={y1,y2,···,yM});然后將2 條曲線的差值作為每個K值的NDP 指標(biāo)值,即集合H={h1,h2,···,hM},最優(yōu)的類數(shù)目是該集合中的最大值所對應(yīng)的指標(biāo)K值。

      式中C為候選聚類中心集合,C={c1,c2,···,ck},?θci>1。

      2.4 減而治之的自然鄰居搜索算法

      自然鄰居的計算過程為,設(shè)置n初始值為1(n為自然鄰居個數(shù)),遍歷n直到滿足以下任意條件其中一個:1)所有數(shù)據(jù)點的自然鄰居集合不為空,即每個數(shù)據(jù)點都至少有1 個自然鄰居,次迭代中沒有自然鄰居的數(shù)據(jù)點的個數(shù)相等,即新一輪迭代沒有減少還未有自然鄰居的數(shù)據(jù)點的個數(shù),時間復(fù)雜度是O(n)2。本文對此作出了改進,提出了基于二分的自然鄰居搜索算法(binary natuer-neighbor,BNaN)。該算法采用減而治之的思想,每一輪迭代都在縮短搜索區(qū)間,以進一步減少時間復(fù)雜度并提升運行效率。

      首先,算法的目標(biāo)是找到一個n值使得每個數(shù)據(jù)點都至少有一個自然鄰居。而對于數(shù)據(jù)來說,有這樣一個趨勢:隨著n的遞增,數(shù)據(jù)集中至少有1 個自然鄰居的數(shù)據(jù)點的個數(shù)是遞增的,且當(dāng)達到最大值時停止增加。即可以將求n值的問題轉(zhuǎn)換為在一個遞增序列中求這個最大值出現(xiàn)的位置。

      二分查找的基本用法是在一個有序數(shù)組里查找目標(biāo)元素,具體是檢查區(qū)間中間元素的值與目標(biāo)值的大小關(guān)系。如果等于,就可以直接返回;如果嚴格大于,就往右邊查找;如果嚴格小于,就往左邊查找。這也符合人類的邏輯思維。

      由于一個元素出現(xiàn)多次,即當(dāng)所有數(shù)據(jù)點都有自然鄰居時,再增加n的值,得到的計算結(jié)果相同,此時的n值就是該序列中的最大值。算法具體可以分為3 種情況:

      1)如果當(dāng)前看到的元素恰好等于目標(biāo)值,那么當(dāng)前元素有可能是目標(biāo)值出現(xiàn)的第一個位置,因為要找第1 個位置,此時應(yīng)該向左邊繼續(xù)查找。

      2)如果當(dāng)前看到的元素嚴格大于目標(biāo)值,那么當(dāng)前元素一定不是要找的目標(biāo)值出現(xiàn)的第一個位置(理論上不存在大于目標(biāo)的值),此時應(yīng)該向左邊繼續(xù)查找。

      3)小于的情況與第2 種情況類似。

      Algorithm1 總結(jié)了所提出的BNaN 算法。

      3 實驗結(jié)果

      為了證實新NDP 指標(biāo)和BNaN 算法的性能,本文使用了12 個人工數(shù)據(jù)集和3 個真實數(shù)據(jù)集來測試NDP 索引。此外,我們使用調(diào)整蘭德指標(biāo)來評估12 個合成數(shù)據(jù)集和3 個實際數(shù)據(jù)集的聚類結(jié)果。

      通常,聚類K值的范圍是[2,kmax],我們選擇NDP算法則是自適應(yīng)地選擇K值。在下面的實驗結(jié)果中都設(shè)置以下規(guī)則:所有適用NDP 索引的算法如果沒有特殊表明,都是使用BNaN 算法。

      3.1 使用人工數(shù)據(jù)集進行實驗

      實驗包括12 個合成數(shù)據(jù)集,其中包括通過計算機模擬生成的二維隨機數(shù)。這些數(shù)據(jù)集是Semicircle2、Semicircle3、Semicircle4、Mix3、Norm2、Norm3,Norm4,Ring2,Parallel2,Parallel3,Segenment4和Circle2。在這些數(shù)據(jù)集中,Parallel2、Parallel3、Segenment4 數(shù)據(jù)集的結(jié)構(gòu)是線性的,Semicircle2、Semicircle3、Semicircle4 數(shù)據(jù)集的結(jié)構(gòu)是多方面的,Ring2 和Circle2 數(shù)據(jù)集是環(huán)形的,Norm2、Norm3、Norm4 數(shù)據(jù)集的結(jié)構(gòu)是凸的,而Mix3 數(shù)據(jù)集是混合的。12 個數(shù)據(jù)集的聚類效果如圖2 所示。

      對于Parallel2 數(shù)據(jù)集,其正確的類數(shù)目為2。所得到的聚類結(jié)果也為2。通過實驗發(fā)現(xiàn),在給定最優(yōu)類簇數(shù)目時,其余11 個人工數(shù)據(jù)集的實驗結(jié)果與Parallel2 數(shù)據(jù)集的實驗結(jié)果相似。因此,可以得出的結(jié)論,在給定最佳聚類數(shù)的情況下,可以正確劃分12 個人工數(shù)據(jù)集。

      圖2 12 個人工數(shù)據(jù)集的聚類結(jié)果

      3.2 使用真實數(shù)據(jù)集進行實驗

      實驗包括3 個真實數(shù)據(jù)集:Seeds、Iris 和Titanic,這些數(shù)據(jù)集分別來自UCI 機器學(xué)習(xí)存儲庫(http://archive.ics.uci.edu/ml/)和KEEL 存儲庫(https://sci2s.ugr.es/keel/datasets.php)。表1 為本文算法對3 個真實數(shù)據(jù)集的最佳類數(shù)的實驗結(jié)果。

      表1 真實數(shù)據(jù)集上的運行結(jié)果

      表1 中加粗部分表示在當(dāng)前數(shù)據(jù)集中得到的最大值。表1 顯示了通過候選因子限定了簇數(shù)的搜索范圍,其中,Seeds 簇數(shù)的搜索范圍是2~14,Iris 簇數(shù)的搜索范圍是2~12,而Titanic 簇數(shù)的搜索范圍是2~6??梢钥闯鐾ㄟ^候選因子,能減少搜索范圍,提升計算效率。比如Titanic 的樣本數(shù)目是2 201,若按照經(jīng)驗,K值的搜索范圍應(yīng)該是而通過候選因子計算得到的聚類中心候選人的數(shù)目是6,遠遠小于46,可以得出候選因子的提出可以大大提高肘方法的計算效率。最后通過實驗可以發(fā)現(xiàn),本文提出的NDP 算法可以為3 個真實數(shù)據(jù)集獲得正確的最優(yōu)簇數(shù)。當(dāng)肘方法形成的拐點圖肉眼難以區(qū)分其拐點時,通過所提出的方法,可以有效地識別拐點,得到最優(yōu)類簇數(shù)目。

      表2 列出了使用3 個真實數(shù)據(jù)集確定最佳簇數(shù)的算法的運行時間,通過觀察該表可以發(fā)現(xiàn),通過改進自然鄰居的搜索算法(BNaN-Searching),可以大幅減少算法的時間成本。

      表2 真實數(shù)據(jù)集上算法的運行時間

      為了驗證本文提出算法的有效性,將本文算法與自適應(yīng)密度峰值算法(adaptive peak cluster,APC)、密度峰值算法(density peak cluster, DPC)、基于密度的聚類算法((density-based cluster,DBSCAN)和K-means 算法進行比較。真實數(shù)據(jù)集的聚類結(jié)果采用綜合評價指標(biāo)(F值)、歸一化互信息(NMI)、準確率(ACC)這3 個聚類指標(biāo)進行評價。通過表3數(shù)據(jù)可以看出NDP 算法的各評價指標(biāo)均高于其他算法。

      表3 真實數(shù)據(jù)集上聚類效果

      4 結(jié)論

      密度峰值算法已經(jīng)成為近幾年流行的聚類算法,本文針對其依賴固有參數(shù),對于不同數(shù)據(jù)集的聚類具有很大局限性這一缺點,引入自然鄰居思想,實現(xiàn)真正的自適應(yīng)密度峰值算法,并通過結(jié)合肘方法和候選因子,可以快速有效地得到類簇數(shù)目。最后對自然鄰居的選取算法進一步改良,以實現(xiàn)更高效率的聚類。通過理論研究和實驗結(jié)果證明,本文提出的新內(nèi)核和方法可以準確地得到數(shù)據(jù)集的最優(yōu)類簇數(shù)目,并適用于多種類型的數(shù)據(jù)集,如線形、流形、環(huán)形和凸形數(shù)據(jù)集。

      本文還存在一些不足,所求的局部密度對于噪聲點敏感,當(dāng)噪聲較多時,聚類效果和類簇數(shù)目的準確度會降低。后續(xù)會引入歸一化來更好地求得數(shù)據(jù)點的密度。

      猜你喜歡
      數(shù)目個數(shù)峰值
      有機物“同分異構(gòu)體”數(shù)目的判斷方法
      “四單”聯(lián)動打造適齡兒童隊前教育峰值體驗
      少先隊活動(2022年9期)2022-11-23 06:55:52
      怎樣數(shù)出小正方體的個數(shù)
      等腰三角形個數(shù)探索
      怎樣數(shù)出小木塊的個數(shù)
      怎樣數(shù)出小正方體的個數(shù)
      《哲對寧諾爾》方劑數(shù)目統(tǒng)計研究
      寬占空比峰值電流型準PWM/PFM混合控制
      基于峰值反饋的電流型PFM控制方法
      牧場里的馬
      阜康市| 秭归县| 呼伦贝尔市| 太保市| 海阳市| 安吉县| 金川县| 来凤县| 永年县| 花莲市| 米林县| 开化县| 屏东县| 金坛市| 班玛县| 高唐县| 周至县| 横峰县| 长岭县| 化德县| 榆树市| 民县| 聂荣县| 东兰县| 郧西县| 井冈山市| 克拉玛依市| 武强县| 类乌齐县| 五常市| 云和县| 濮阳县| 宁明县| 农安县| 吴江市| 棋牌| 东乌| 十堰市| 许昌县| 永嘉县| 蓬莱市|