• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合流形距離與標(biāo)簽傳播的改進(jìn)密度峰值聚類

    2022-04-25 06:05:14陳超泉王佳明謝曉蘭
    科學(xué)技術(shù)與工程 2022年10期
    關(guān)鍵詞:歐氏流形高維

    陳超泉,王佳明,謝曉蘭*

    (1.廣西嵌入式技術(shù)與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,桂林 541006;2.桂林理工大學(xué)信息科學(xué)與工程學(xué)院,桂林 541006)

    聚類是一種將若干數(shù)據(jù)依據(jù)其本身的數(shù)據(jù)特性劃分為若干簇的算法,使得相似性較好的數(shù)據(jù)能夠聚集為同一類,相似性較差的數(shù)據(jù)聚集為另一類,使得不同類簇之間具有顯著差異。

    在機(jī)器學(xué)習(xí)[1]、數(shù)據(jù)挖掘、生物醫(yī)療[2]和無監(jiān)督學(xué)習(xí)[3]等領(lǐng)域中,聚類算法占據(jù)了重要的位置。聚類算法大致可以分為基于劃分的聚類、基于密度的聚類、層次聚類、基于圖的聚類等?;趧澐值木垲惖湫偷乃惴ㄓ蠶ueen[4]基于空間劃分的K-means聚類算法,該算法為使用歐氏距離的聚類算法,該算法易于實(shí)現(xiàn),可解釋性較好。但是K-means算法對(duì)于離群點(diǎn)與噪聲點(diǎn)敏感,難以識(shí)別非凸形狀的簇,同時(shí)對(duì)簇的大小也不敏感。大量的學(xué)者在此基礎(chǔ)上做了改進(jìn)的工作。宋仁旺等[5]將K-means算法與數(shù)據(jù)集的空間分布結(jié)合起來,能夠準(zhǔn)確地發(fā)現(xiàn)聚類中心。

    相比于K-means算法,基于密度的聚類DBSCAN(density-based algorithm for discovering clusters in large spatial databases with noise)算法[6]不需要提前設(shè)置簇的個(gè)數(shù),可以適應(yīng)各種形狀大小的簇,能夠脫敏于噪聲點(diǎn)。但是在處理高維數(shù)據(jù)上效果不好,同時(shí)對(duì)于超參數(shù)距離閾值、鄰域樣本數(shù)閾值對(duì)聚類結(jié)果影響很大。密度峰值算法(clustering by fast search and find of density peaks, DPC)由Rodriguez等[7]提出。該方法相較于其他種類的算法,超參數(shù)的設(shè)置較少,能夠快速地達(dá)到理想聚類效果。DPC算法也得到了許多的應(yīng)用,如陸春光等[8]將DPC算法用于電力大數(shù)據(jù)的異常檢測中。DPC算法的核心思想是尋找局部密度高且相較于其他類簇中心的距離較遠(yuǎn)的點(diǎn)作為類簇的中心點(diǎn)。通過計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的局部密度以及每個(gè)數(shù)據(jù)點(diǎn)相較于密度比其大的最小距離,來實(shí)現(xiàn)二維決策圖的繪制。在決策圖中,局部密度較大且最小距離較大的數(shù)據(jù)點(diǎn)常常用來作為類簇的中心點(diǎn)。DPC算法通常使用歐氏距離[9]數(shù)據(jù)來進(jìn)行數(shù)據(jù)點(diǎn)相似度的計(jì)算。此外,截?cái)嗑嚯xδ的選取一定程度上對(duì)DPC算法最終的結(jié)果影響很大。

    為了解決上述問題,諸多學(xué)者對(duì)DPC算法作了許多改進(jìn)。Du等[10]提出一種基于KNN(K-nearest neighbor)改進(jìn)的密度峰值聚類算法(DPC-KNN),在進(jìn)行局部密度的計(jì)算中加入了KNN,充分考慮了數(shù)據(jù)的鄰域分布特征。Xie等[11]提出了一種基于模糊加權(quán)K近鄰改進(jìn)的DPC算法,該算法使用數(shù)據(jù)點(diǎn)在截?cái)嗑嚯x內(nèi)的距離之和作為該數(shù)據(jù)點(diǎn)的局部密度,數(shù)據(jù)點(diǎn)的局部密度融合了周圍臨近點(diǎn)的距離信息。Du等[12]對(duì)DPC算法中的距離度量由傳統(tǒng)的歐氏距離替換為測地線距離,在一定程度上能夠適應(yīng)流形空間的數(shù)據(jù)。同時(shí),測地線距離在高維數(shù)據(jù)下能夠保留數(shù)據(jù)點(diǎn)之間的全局距離信息。Sevedi等[13]將DPC算法與動(dòng)態(tài)圖的標(biāo)簽傳播結(jié)合起來,在歐式距離度量的基礎(chǔ)上實(shí)現(xiàn)動(dòng)態(tài)圖標(biāo)簽的傳播。該算法將數(shù)據(jù)的全局信息與數(shù)據(jù)點(diǎn)局部信息融合,一定程度上增強(qiáng)了模型的魯棒性。但是該算法采用歐氏距離度量,在大部分統(tǒng)計(jì)中,隨著數(shù)據(jù)維度的增加,數(shù)據(jù)點(diǎn)在其鄰域內(nèi)樣本稀少,故歐氏距離對(duì)模型的作用也越小。

    針對(duì)以上問題,現(xiàn)提出一種融合流形距離[14]與標(biāo)簽傳播[15]的改進(jìn)密度峰值聚類,通過計(jì)算流形數(shù)據(jù)的距離,實(shí)現(xiàn)算法截?cái)嗑嚯xd與局部密度ρ的計(jì)算;將每個(gè)數(shù)據(jù)點(diǎn)截?cái)嗑嚯x內(nèi)的距離之和作為該數(shù)據(jù)點(diǎn)的局部密度;將每個(gè)數(shù)據(jù)點(diǎn)看作圖的頂點(diǎn)兩個(gè)數(shù)據(jù)點(diǎn)的測地線距離看作雙方連接邊的權(quán)重,通過構(gòu)造圖進(jìn)行動(dòng)態(tài)圖的標(biāo)簽傳播,充分融合數(shù)據(jù)的全局信息與數(shù)據(jù)點(diǎn)的局部信息,進(jìn)而達(dá)到良好的聚類效果。

    1 DPC算法介紹

    密度峰值算法(DPC)基于兩點(diǎn)假設(shè):①類簇中心點(diǎn)的密度相較于其周圍數(shù)據(jù)點(diǎn)的密度最大;②對(duì)于不同的類簇中心的距離總是相隔較遠(yuǎn)。通過對(duì)每個(gè)數(shù)據(jù)點(diǎn)xi∈{x1,x2,…,xn}的距離值δ與局部密度ρ參數(shù)的分析,完成決策圖的繪制。每個(gè)數(shù)據(jù)點(diǎn)在高斯核下的局部密度參數(shù)定義為

    (1)

    式(1)中:dij為數(shù)據(jù)點(diǎn)xi與數(shù)據(jù)點(diǎn)xj之間的歐氏距離;d為截?cái)嗑嚯x。通常情況下將形成的歐氏距離矩陣升序,并選取前1%~2%的距離值作為截?cái)嗑嚯xd。

    數(shù)據(jù)點(diǎn)在截?cái)嗪讼碌木植棵芏榷x為

    (2)

    每個(gè)數(shù)據(jù)點(diǎn)與比其局部密度大的數(shù)據(jù)點(diǎn)之間的最小距離值δi為

    (3)

    式中:j:ρj>ρi為比數(shù)據(jù)點(diǎn)xi局部密度更大的數(shù)據(jù)點(diǎn)集合。在計(jì)算出每個(gè)數(shù)據(jù)點(diǎn)的局部密度ρi的前提下,找到比數(shù)據(jù)點(diǎn)xi局部密度更大的點(diǎn),然后計(jì)算這些數(shù)據(jù)點(diǎn)中距離數(shù)據(jù)點(diǎn)xi的最小距離值δi。最后繪制決策圖來選擇類簇的中心點(diǎn)。該算法也可以自己手動(dòng)選擇聚類中心點(diǎn),通過計(jì)算決策值來選取數(shù)據(jù)局部密度大,且相較于密度比其大的距離足夠遠(yuǎn)的點(diǎn)作為類簇的聚類中心。該算法計(jì)算決策值為

    θi=δiρi

    (4)

    在確定類簇中心之后,對(duì)類簇中心點(diǎn)分配標(biāo)簽。然后對(duì)未分配標(biāo)簽的數(shù)據(jù)點(diǎn)進(jìn)行標(biāo)簽分配,其標(biāo)簽分配為已經(jīng)分配過標(biāo)簽,距離最近,且密度比其大的數(shù)據(jù)點(diǎn),完成聚類。

    2 融合流形距離與標(biāo)簽傳播的改進(jìn)密度峰值聚類

    2.1 流形距離度量

    針對(duì)歐氏距離在處理復(fù)雜數(shù)據(jù)上的局限性,流形距離能夠精確度量數(shù)據(jù)點(diǎn)之間的距離。然而在DPC算法中,距離矩陣的計(jì)算全部采用歐氏距離進(jìn)行距離度量。本文提出的算法采用流形距離進(jìn)行 距離度量。首先根據(jù)算法輸入的近鄰點(diǎn)的個(gè)數(shù)k讓每個(gè)數(shù)據(jù)點(diǎn)與周圍k個(gè)數(shù)據(jù)點(diǎn)連接生成連通圖。圖1為iris數(shù)據(jù)集所生成的無向連通圖。圖1為無向連通圖。數(shù)據(jù)點(diǎn)距離最近的點(diǎn)之間的流形距離等于雙方的歐氏距離,而相距較遠(yuǎn)的點(diǎn)的流形距離為連通圖中所經(jīng)過數(shù)據(jù)點(diǎn)之間的歐氏距離總和。數(shù)據(jù)點(diǎn)xi與數(shù)據(jù)點(diǎn)xj之間的流形距離具體定義為

    點(diǎn)表示數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的分布

    (5)

    式(5)中:l為數(shù)據(jù)點(diǎn)xi到xj所需要的跳數(shù);pij為數(shù)據(jù)點(diǎn)xi與xj數(shù)據(jù)點(diǎn)能到達(dá)的路徑集合;L(x,y)為兩點(diǎn)之間的歐氏距離;pk為路徑p中的包含的數(shù)據(jù)點(diǎn)。通過流形距離,本文算法能夠有效地融合數(shù)據(jù)集的全局信息與數(shù)據(jù)點(diǎn)的局部信息。

    2.2 改進(jìn)局部密度

    在DPC算法中,局部密度的計(jì)算僅僅統(tǒng)計(jì)截?cái)嗑嚯x內(nèi)數(shù)據(jù)點(diǎn)的個(gè)數(shù)。而截?cái)嗑嚯x的選取考慮到數(shù)據(jù)集的全局距離分布,忽略了數(shù)據(jù)點(diǎn)的局部距離分布。

    針對(duì)以上問題,DPC-ML算法為了融合流形距離與截?cái)嗑嚯x內(nèi)數(shù)據(jù)點(diǎn)數(shù)量之間的關(guān)系,提高DPC算法在計(jì)算局部密度步驟時(shí)對(duì)局部距離的敏感性。對(duì)于數(shù)據(jù)集{x1,x2,…,xn}中的xi數(shù)據(jù)點(diǎn),本文算法中的局部密度定義為

    (6)

    式(6)中:Rij為數(shù)據(jù)點(diǎn)xi與數(shù)據(jù)點(diǎn)xj之間的流形距離;r為選取的截?cái)嗑嚯x。

    為了能夠提高算法在不同類簇密度分布的適應(yīng)性。本文所提出的改進(jìn)局部密度首先計(jì)算數(shù)據(jù)點(diǎn)截?cái)嗑嚯x內(nèi)的個(gè)數(shù),然后計(jì)算該數(shù)據(jù)點(diǎn)到截?cái)嗑嚯x內(nèi)的數(shù)據(jù)距離總和。由于數(shù)據(jù)點(diǎn)數(shù)量與截?cái)嗑嚯x內(nèi)的融合,其數(shù)據(jù)更加依賴于數(shù)據(jù)的局部性,從而提高了樣本類簇間的區(qū)分度。

    圖2為Jain數(shù)據(jù)集分布圖,圖3為Jain數(shù)據(jù)集決策圖。由圖3可知,使用了流形距離與式(6)計(jì)算的局部密度所繪制的決策圖相較于DPC算法的決策圖,在選擇類簇中心點(diǎn)上更加有區(qū)分度。在Jain數(shù)據(jù)集上實(shí)現(xiàn)了決策圖的繪制。在相同的參數(shù)條件下,本文算法相較于DPC算法能夠有效地實(shí)現(xiàn)決策點(diǎn)的選擇。

    橫、縱坐標(biāo)的數(shù)字來表示數(shù)據(jù)集的數(shù)據(jù)分布;不同顏色表示數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的類別標(biāo)簽

    圖3 Jain數(shù)據(jù)集決策圖(k=2)

    2.3 半監(jiān)督標(biāo)簽傳播

    在最后的傳播標(biāo)簽步驟中,本文算法在DPC算法中分配標(biāo)簽步驟的基礎(chǔ)上融合標(biāo)簽傳播。DPC算法首先將選取的中心點(diǎn)依次賦值標(biāo)簽,然后將剩余數(shù)據(jù)點(diǎn)的標(biāo)簽賦值為距離最近且局部密度比其大的數(shù)據(jù)點(diǎn)標(biāo)簽。DPC算法中對(duì)于截?cái)嗑嚯x的選擇是十分重要的,不同的數(shù)據(jù)集可能需要不同的截?cái)嗑嚯x。對(duì)于需要先行聚類的數(shù)據(jù)點(diǎn)定義為

    ρj≥Rank(ρi)nP

    (7)

    式(7)中:n為數(shù)據(jù)點(diǎn)的個(gè)數(shù);P為選擇截?cái)嗑嚯x時(shí)所使用的百分比;Rank(x)為對(duì)集合x進(jìn)行降序排列。

    首先使用DPC算法中選擇截?cái)嗑嚯x所設(shè)置的百分比,用此值為局部密度高的部分?jǐn)?shù)據(jù)點(diǎn)先行分配標(biāo)簽,然后使用標(biāo)簽傳播算法實(shí)現(xiàn)完全聚類。

    在DPC算法的聚類任務(wù)中,選擇截?cái)嗑嚯x時(shí)所設(shè)置的百分比一定程度上反映了數(shù)據(jù)點(diǎn)之間的距離信息。因?yàn)镈PC算法是選擇比當(dāng)前點(diǎn)密度高且距離最近的數(shù)據(jù)點(diǎn)進(jìn)行聚類,所以本文算法在最后聚類階段使用截?cái)嗑嚯x所設(shè)置的百分比能夠分散地對(duì)數(shù)據(jù)集密度高的部分進(jìn)行先行聚類,為標(biāo)簽傳播提供基礎(chǔ)。

    2.4 算法流程

    本文算法通過融合流形距離與標(biāo)簽傳播算法完成聚類任務(wù),克服歐氏距離的局限性,使用數(shù)據(jù)點(diǎn)之間的最短流形距離的計(jì)算精確度量兩點(diǎn)之間的最短距離。簇類中心的選擇與最終標(biāo)簽的傳播都是基于同一個(gè)連通圖上,相較于K-means等算法,降低了聚類任務(wù)中選取中心點(diǎn)的隨機(jī)性。融合上述思想實(shí)現(xiàn)聚類算法的詳細(xì)流程如下。

    算法融合流形距離與標(biāo)簽傳播的改進(jìn)密度峰值聚類算法。

    輸入數(shù)據(jù){x1,x2,…,xn},近鄰點(diǎn)的個(gè)數(shù)k,截?cái)嗑嚯x百分比P。

    輸出聚類結(jié)果標(biāo)簽。

    步驟1根據(jù)近鄰點(diǎn)的個(gè)數(shù)k,構(gòu)建連通圖。

    步驟2通過連通圖,使用弗洛伊德算法計(jì)算兩點(diǎn)之間的最短路徑,形成流形距離矩陣。

    步驟3通過截?cái)嗑嚯x百分比P,選擇截?cái)嗑嚯xr。

    步驟4使用式(6)計(jì)算各數(shù)據(jù)點(diǎn)的局部密度ρi。

    步驟5計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與比其密度大的點(diǎn)的最小距離值δi。

    步驟6繪制決策圖,選取類簇中心點(diǎn)。

    步驟7使用截?cái)嗑嚯x百分比P,選擇比當(dāng)前點(diǎn)密度高且距離最近的部分?jǐn)?shù)據(jù)點(diǎn)進(jìn)行先行聚類。

    步驟8剩下未聚類的數(shù)據(jù)點(diǎn)通過標(biāo)簽傳播實(shí)現(xiàn)完全聚類。

    步驟9輸出聚類結(jié)果。

    本文算法相較于DPC算法在參數(shù)的設(shè)置上多了近鄰點(diǎn)的個(gè)數(shù)k,而且該參數(shù)在流形距離的計(jì)算與標(biāo)簽傳播中發(fā)揮著作用。從理論上來說,當(dāng)近鄰點(diǎn)的個(gè)數(shù)k太大為數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的個(gè)數(shù)時(shí),其數(shù)據(jù)點(diǎn)兩兩之間的流形距離值等于其兩點(diǎn)之間的歐氏距離值。而近鄰點(diǎn)的個(gè)數(shù)k太小時(shí),數(shù)據(jù)集不能夠形成為連通圖,進(jìn)而造成數(shù)據(jù)點(diǎn)兩兩之間不可達(dá)的現(xiàn)象。如圖4所示,隨著近鄰點(diǎn)數(shù)k的增長,當(dāng)數(shù)據(jù)集剛成為連通圖時(shí)能夠取得最好結(jié)果。隨著圖的連通程度的加強(qiáng),聚類結(jié)果趨向穩(wěn)定。

    圖4 鄰近點(diǎn)對(duì)聚類結(jié)果的影響

    3 實(shí)驗(yàn)與分析

    3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

    通過人工數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)來證明本文算法的有效性,數(shù)據(jù)集詳細(xì)信息如表1所示。同時(shí),本文算法與DBSCAN、DPC、K-means算法進(jìn)行比較。平臺(tái)環(huán)境為Windows,編程環(huán)境為python3.6,運(yùn)行內(nèi)存為16 GB,CPU為AMD 3200 G。

    表1 數(shù)據(jù)集

    3.2 評(píng)價(jià)指標(biāo)

    通過對(duì)各算法進(jìn)行調(diào)試,保證最好情況下的各算法聚類結(jié)果。分別使用4個(gè)人工數(shù)據(jù)集與3個(gè)高維數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。同時(shí)使用調(diào)整互信息(adjusted mutual information,AMI)、調(diào)整蘭德系數(shù)(adjusted rand index,ARI)、Fowlkes-Mallows指數(shù)(FMI)、準(zhǔn)確率(ACC)進(jìn)行聚類結(jié)果綜合度量。

    假設(shè)U為數(shù)據(jù)擬合結(jié)果集合,Ui為屬于集合U中第i類的集合,|U|為Ui的集合總數(shù)。V為數(shù)據(jù)集標(biāo)簽的真實(shí)分布集合,Vj為屬于集合V中第j類的集合,|V|為Vi的集合總數(shù)。N(N>0)為數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的個(gè)數(shù)?;バ畔?mutual information,MI)用來描述兩個(gè)數(shù)據(jù)分布之間的擬合程度。集合U的信息熵定義為

    (8)

    式(8)中:P(i)=|Ui|/N。集合V的信息熵同理可得。同時(shí)互信息(MI)的定義為

    (9)

    式(9)中:P(i,j)為|Ui∩Vj|/N。

    調(diào)整互信息是結(jié)合互信息與信息熵所提出的,其定義為

    (10)

    式(10)中:E{MI(U,V)}為求互信息MI(U,V)的期望;H(U)為求集合U的信息熵。

    蘭德系數(shù)(Rand index, RI)通常 也用來評(píng)估聚類模型的性能,其定義為

    (11)

    式(11)中:TP為在U中為同一類且在V中為同一類別的數(shù)據(jù)點(diǎn)對(duì)數(shù);TN為在U中為同一類但在V中卻隸屬于不同類別的數(shù)據(jù)點(diǎn)對(duì)數(shù);FP為在U中不在同一類但在V中為同一類別的數(shù)據(jù)點(diǎn)對(duì)數(shù),F(xiàn)N為在U中不在同一類且在V中也不屬于同一類別的數(shù)據(jù)點(diǎn)對(duì)數(shù)。

    調(diào)整蘭德系數(shù)的定義類似式(10),如式(12)所示:

    (12)

    Fowlkes-Mallows指數(shù)定義為準(zhǔn)確率和召回率的幾何平均值,計(jì)算公式為

    (13)

    準(zhǔn)確率定義為

    (14)

    式(14)中:當(dāng)Vk=Uk時(shí)δ(Vk,Uk)取值為1,其余為0。

    3.3 實(shí)驗(yàn)結(jié)果分析

    由圖5可知,K-means算法與DBSCAN算法在Aggregation數(shù)據(jù)集上均不能夠很好地完成聚類。

    不同顏色表示不同的類簇

    DBSCAN算法由于自動(dòng)識(shí)別簇機(jī)制,將兩個(gè)有連通的類簇識(shí)別為一個(gè)。DPC算法與本文算法能夠精準(zhǔn)地識(shí)別密度中心,進(jìn)而完成聚類。從圖5(e)和圖5(f)的決策圖可以看出本算法相較DPC算法在聚類中心點(diǎn)的選擇上更加具有區(qū)分度。

    圖6為Spiral數(shù)據(jù)集上聚類結(jié)果?;诿芏鹊木垲愃惴ㄔ谠摂?shù)據(jù)集上都取得了良好的效果。K-means算法在此數(shù)據(jù)集上的表現(xiàn)差強(qiáng)人意。DBSCAN算法將各個(gè)邊界點(diǎn)識(shí)別為噪聲點(diǎn),降低了聚類精度。如圖6(e)和圖6(f)所示,從聚類結(jié)果所對(duì)應(yīng)的決策圖上看,DPC-ML算法所實(shí)現(xiàn)的決策圖相較于DPC算法所實(shí)現(xiàn)的決策圖,類簇中心點(diǎn)的特征更加明顯。同時(shí)也證明了DPC-ML算法中改進(jìn)局部密度的有效性。

    不同顏色表示不同的類簇

    使用三個(gè)高維數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),本文算法在WDBC數(shù)據(jù)集上的聚類效果與決策圖如圖7所示。DPC聚類結(jié)果與本文算法聚類結(jié)果相比,DPC-ML算法能夠更加準(zhǔn)確地完成高維數(shù)據(jù)的聚類。其中DBSCAN算法的聚類結(jié)果將原本兩類的數(shù)據(jù)聚為三類,不能夠很好地完成聚類。K-means算法與DPC算法雖然能夠完成一部分?jǐn)?shù)據(jù)集聚類,但是數(shù)據(jù)集中簇的邊界仍然不能被準(zhǔn)確識(shí)別出來。

    不同顏色表示不同的類簇

    圖8為在數(shù)據(jù)集Wine上的聚類結(jié)果。由圖8看出在高維數(shù)據(jù)集上,本文算法具有一定的優(yōu)越性。DPC聚類結(jié)果將原本是三類的數(shù)據(jù)聚為兩類。K-means算法與DBSCAN算法在Wine數(shù)據(jù)集上都展示了良好的性能。但是與DPC-ML算法相比,聚類精度還有待提高。

    不同顏色表示不同的類簇

    由表2可以看出,本文算法在各個(gè)高維數(shù)據(jù)集上都取得了不錯(cuò)的效果。其綜合性能最優(yōu),能夠適應(yīng)高維數(shù)據(jù)。人工數(shù)據(jù)集在各算法上的實(shí)驗(yàn)數(shù)據(jù)如表3所示。本文算法在人工數(shù)據(jù)集上也取得了不錯(cuò)的效果。其中K-means算法與DBSCAN算法在各項(xiàng)指標(biāo)上的表現(xiàn)都沒有DPC算法與本文算法優(yōu)越。

    表2 人工數(shù)據(jù)集在各算法上的實(shí)驗(yàn)數(shù)據(jù)

    表3 高維數(shù)據(jù)集在各算法上的實(shí)驗(yàn)數(shù)據(jù)

    4 結(jié)論

    在DPC算法的基礎(chǔ)上做了改進(jìn),提出了一種基于流形距離與標(biāo)簽傳播的改進(jìn)密度峰值聚類算法。將流形距離與標(biāo)簽傳播融入密度峰值算法中,同時(shí)重新定義了局部密度。從多種數(shù)據(jù)集的實(shí)驗(yàn)上看,本文提出的局部密度在決策圖上顯示有著更好的區(qū)分度。在人工數(shù)據(jù)集與高維數(shù)據(jù)集中的實(shí)驗(yàn)表明,本文所提出的算法能夠順利適應(yīng)高維數(shù)據(jù),同時(shí)對(duì)各種形狀的人工數(shù)據(jù)集也有不錯(cuò)的適應(yīng)性能。本文研究雖然在參數(shù)的設(shè)置上多了一個(gè)K近鄰數(shù),但是經(jīng)過實(shí)驗(yàn)表明,只需建立起數(shù)據(jù)集的連通圖便可取得理想的效果。

    猜你喜歡
    歐氏流形高維
    緊流形上的Schr?dinger算子的譜間隙估計(jì)
    迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
    Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
    一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
    基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
    一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
    基于多故障流形的旋轉(zhuǎn)機(jī)械故障診斷
    高維Kramers系統(tǒng)離出點(diǎn)的分布問題
    基于多維歐氏空間相似度的激光點(diǎn)云分割方法
    麗江“思奔記”(上)
    探索地理(2013年5期)2014-01-09 06:40:44
    禄劝| 江川县| 瑞安市| 尉氏县| 巴东县| 恭城| 洛川县| 顺义区| 新沂市| 舟山市| 集贤县| 绥化市| 茶陵县| 曲麻莱县| 乌鲁木齐县| 宿松县| 大丰市| 巴彦淖尔市| 巴林左旗| 西丰县| 迁安市| 东乡族自治县| 曲松县| 中方县| 岳阳县| 安宁市| 南雄市| 耿马| 漳州市| 邢台县| 旺苍县| 宝应县| 马边| 齐齐哈尔市| 苗栗县| 浮梁县| 德令哈市| 永和县| 蕲春县| 延寿县| 汝阳县|