• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多密度自適應(yīng)確定DBSCAN算法參數(shù)的算法研究

      2022-01-25 18:54:22胡大裟蔣玉明
      關(guān)鍵詞:集上列表聚類

      萬(wàn) 佳,胡大裟,蔣玉明

      1.四川大學(xué) 計(jì)算機(jī)學(xué)院,成都 610065

      2.四川省大數(shù)據(jù)分析與融合應(yīng)用技術(shù)工程實(shí)驗(yàn)室,成都 610065

      數(shù)據(jù)挖掘指從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),其目的是從大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的隱含信息。目前,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,數(shù)據(jù)呈爆炸式增長(zhǎng),人們迎來(lái)了大數(shù)據(jù)時(shí)代。在大數(shù)據(jù)的眾多方向中,聚類分析是數(shù)據(jù)挖掘重要的研究方向之一。聚類分析研究的是無(wú)監(jiān)督模式識(shí)別問(wèn)題,它在圖像分析、遙感、生物信息學(xué)和文本分析等領(lǐng)域都有應(yīng)用[1]。聚類主要用于將數(shù)據(jù)分組為有用的簇,使得每個(gè)簇內(nèi)的對(duì)象相似度高,簇間相似度低。聚類算法在傳統(tǒng)上可以分為基于劃分的方法、基于層次的方法、基于模型的方法、基于密度的方法和基于網(wǎng)格的方法。

      基于劃分的方法中,k-means[2]算法是經(jīng)典的聚類算法,該算法經(jīng)過(guò)多次迭代找到最佳聚類中心,再根據(jù)樣本點(diǎn)到聚類中心的距離對(duì)樣本進(jìn)行劃分。由于該算法是將樣本分配到最近的簇中,因此不能發(fā)現(xiàn)任意形狀的簇,并且容易陷入局部最優(yōu),導(dǎo)致聚類結(jié)果不穩(wěn)定。

      在基于密度的聚類中,DBSCAN[3]是一種經(jīng)典的聚類算法,可以將高密度區(qū)域劃分為簇,并在含有噪聲的數(shù)據(jù)集中實(shí)現(xiàn)任意形狀的聚類。但是該算法存在兩方面的問(wèn)題,首先需要在無(wú)先驗(yàn)知識(shí)的情況下人工指定Eps(Epsilon)和MinPts(Minimum Points)這兩個(gè)參數(shù),且參數(shù)選取對(duì)聚類結(jié)果影響很大,另外,DBSCAN算法在密度分布不均勻的數(shù)據(jù)集上,聚類效果不佳。許多學(xué)者對(duì)DBSCAN算法進(jìn)行了各種研究和改進(jìn)。文獻(xiàn)[4]提出了VDBSCAN算法,它使用k-dist圖對(duì)不同密度選擇合適的參數(shù),找到具有不同密度的簇。文獻(xiàn)[5]提出了一種基于改進(jìn)的元啟發(fā)算法MVO(multi-verse optimizer)的參數(shù)確定方法,該方法可以快速找到DBSCAN算法的最高聚類精度以及精度最高的Eps對(duì)應(yīng)的區(qū)間。Kim等[6]提出AA-DBSCAN算法,基于四叉樹的結(jié)構(gòu)來(lái)定義密度層次,實(shí)現(xiàn)不均勻密度數(shù)據(jù)集的聚類。Bryant等[7]提出RNN-DBSCAN算法,該算法使用逆近鄰計(jì)數(shù)作為密度的估計(jì),改進(jìn)了密度分布差異大的數(shù)據(jù)集的聚類效果。文獻(xiàn)[8]提出一種新的基于相似性度量的改進(jìn)DBSCAN算法,更好地刻畫了數(shù)據(jù)集的分布特征。文獻(xiàn)[9]提出了一種自適應(yīng)選擇DBSCAN參數(shù)的KLS-DBSCAN算法,該算法利用數(shù)據(jù)自身的分布特點(diǎn)找出合理的參數(shù)范圍,再通過(guò)尋找聚類內(nèi)部度量最大值的方法確定最佳參數(shù)。李文杰[10]等提出KANN-DBSCAN算法,該算法能夠?qū)崿F(xiàn)聚類過(guò)程的全自動(dòng)化并且能夠選擇合理的參數(shù),得到高準(zhǔn)確度的聚類結(jié)果,但在密度分布差異大的數(shù)據(jù)集上效果較差。

      鑒于此,本文提出了一種多密度自適應(yīng)確定DBSCAN算法參數(shù)的MDA-DBSCAN算法,該算法通過(guò)去噪衰減后的數(shù)據(jù)集自身分布特性生成初始候選Eps和MinPts參數(shù)列表,并在簇類結(jié)果趨于穩(wěn)定時(shí)得到初始密度閾值,之后對(duì)該密度閾值條件下識(shí)別出的噪聲數(shù)據(jù)進(jìn)行相同操作,得到新密度閾值,最終合并不同密度閾值下的聚類結(jié)果,整個(gè)聚類過(guò)程無(wú)需人為干預(yù),且聚類效果在密度分布差異大的數(shù)據(jù)集上得到了明顯的提升。

      1 相關(guān)定義

      DBSCAN算法是1996年由Ester[11]提出的基于密度的空間聚類算法,為了準(zhǔn)確描述該算法,給出以下定義。

      定義1(Eps鄰域)一個(gè)數(shù)據(jù)對(duì)象p,p的鄰域NEps(p)定義為以p為中心,以Eps為半徑的區(qū)域內(nèi),即:

      其中,D為數(shù)據(jù)集;dist(p,q)表示D中兩個(gè)數(shù)據(jù)對(duì)象p和q之間的距離;NEps(p)包含了數(shù)據(jù)集D中與對(duì)象p距離不大于Eps的所有對(duì)象。

      定義2(核心點(diǎn)和邊界點(diǎn))對(duì)于數(shù)據(jù)對(duì)象p∈D,設(shè)定MinPts閾值,若|NEps(p)|≥MinPts,則稱p為核心點(diǎn);非核心點(diǎn)但在某核心點(diǎn)的Eps鄰域內(nèi)的對(duì)象稱為邊界點(diǎn)。

      定義3(直接密度可達(dá))若p在點(diǎn)q的Eps鄰域內(nèi),即p∈NEps(q),且對(duì)象q是核心點(diǎn),即|NEps(q)|≥MinPts,則稱對(duì)象p是從對(duì)象q密度直達(dá)的。

      定義4(密度可達(dá))給定數(shù)據(jù)集D,當(dāng)存在對(duì)象p1,p2,…,pn∈D,對(duì)于pi∈D(0

      定義5(密度相連)若存在對(duì)象r∈D,使得對(duì)象p和q是從r密度可達(dá)的,那么稱對(duì)象p和q密度相連。密度相連是對(duì)稱的。

      定義6(簇和噪聲)由任意一個(gè)核心點(diǎn)對(duì)象開始,從該對(duì)象密度可達(dá)的所有對(duì)象構(gòu)成一個(gè)簇,不屬于任何簇的對(duì)象為噪聲。

      定義7(密度閾值)給定(Eps,MinPts),以Eps為半徑的圓內(nèi)存在MinPts個(gè)數(shù)據(jù)點(diǎn),即:

      其中,Density為密度閾值[10]。

      2 多密度自適應(yīng)確定DBSCAN算法參數(shù)

      2.1 基本思想

      KANN-DBSCAN算法利用數(shù)據(jù)集自身的空間分布特性,基于K-平均最近鄰算法和數(shù)學(xué)期望法生成Eps和MinPts參數(shù)列表。該算法存在兩個(gè)問(wèn)題:(1)K-平均最近鄰得到的平均值容易受到噪聲數(shù)據(jù)的影響從而導(dǎo)致生成的參數(shù)列表存在誤差;(2)由于DBSCAN算法自身的不足,KANN-DBSCAN算法對(duì)密度分布差異較大的數(shù)據(jù)集進(jìn)行聚類時(shí)存在一定的誤差,導(dǎo)致聚類結(jié)果簇?cái)?shù)和數(shù)據(jù)集類別數(shù)不一致的情況出現(xiàn)[10]。為了更好地闡述和解決問(wèn)題,本文假設(shè)密度分布差異大的數(shù)據(jù)集中密集分布的數(shù)據(jù)比稀疏分布的數(shù)據(jù)多。

      針對(duì)問(wèn)題(1),在密集分布的數(shù)據(jù)較多的情況下,KANN-DBSCAN算法得到的參數(shù)會(huì)偏向密集分布的簇進(jìn)行聚類,在聚類過(guò)程中,密集數(shù)據(jù)的參數(shù)取值會(huì)受到噪聲數(shù)據(jù)的影響,即在計(jì)算數(shù)據(jù)點(diǎn)之間的距離時(shí),噪聲點(diǎn)也會(huì)參與,涉及到該點(diǎn)的距離會(huì)偏大,這使得之后計(jì)算出的平均值也偏大,最后導(dǎo)致自適應(yīng)生成的Eps參數(shù)列表的值偏大,所以在密度分布差異大的數(shù)據(jù)集中,該算法自適應(yīng)選取的參數(shù)不夠準(zhǔn)確。Eps的值偏大,可能導(dǎo)致不同簇類之間被合并,所以為了在密度分布差異大的數(shù)據(jù)集中選取合適的參數(shù),需要對(duì)K-平均最近鄰算法得到的Eps參數(shù)列表進(jìn)行二次處理,使其更符合數(shù)據(jù)的自身分布特性。處理了Eps后,密度閾值會(huì)發(fā)生改變,為了使其穩(wěn)定,同時(shí)處理數(shù)學(xué)期望法生成的MinPts列表。本文通過(guò)給K-平均最近鄰算法和數(shù)學(xué)期望法增設(shè)自衰減項(xiàng),使得生成的Eps和MinPts列表的值同時(shí)減小,從而減少噪聲數(shù)據(jù)對(duì)參數(shù)自適應(yīng)生成的影響,優(yōu)化密度閾值的生成。

      針對(duì)問(wèn)題(2),KANN-DBSCAN算法的密度閾值是作用于全局的,這使得稀疏數(shù)據(jù)形成的簇被識(shí)別為噪聲,為了正確地識(shí)別簇,本文引入多密度閾值Density_i參數(shù)概念,如式(3):

      其中,Epsi和MinPtsi為第i次自適應(yīng)選取的參數(shù),Density_1為第1次自適應(yīng)選取的參數(shù)生成的初始密度閾值,Density_2為在Density_1下聚類產(chǎn)生的噪聲數(shù)據(jù)的密度閾值,Density_3為在Density_2下聚類產(chǎn)生的噪聲數(shù)據(jù)的密度閾值,以此類推,直到噪聲數(shù)據(jù)數(shù)量或生成的密度閾值低于一定程度為止,最后將所有密度閾值下的聚類結(jié)果進(jìn)行合并。

      2.2 算法設(shè)計(jì)

      MDA-DBSCAN算法的關(guān)鍵是能夠在密度分布差異大的數(shù)據(jù)集上自適應(yīng)確定具有不同密度的簇的最優(yōu)密度閾值。本文提出利用數(shù)據(jù)分布特性,基于自衰減項(xiàng)的K-平均最近鄰算法(K-average nearest neighbor with attenuation term)和自衰減數(shù)學(xué)期望法生成密度閾值。

      為了方便描述該算法,以圖1數(shù)據(jù)集為例,該數(shù)據(jù)集是一個(gè)含有4種類別共582個(gè)對(duì)象的二維數(shù)據(jù)集。數(shù)據(jù)集中有三個(gè)密集的簇C1、C2和C3,包含477個(gè)對(duì)象,一個(gè)稀疏的簇C4,包含85個(gè)對(duì)象,以及一些噪聲點(diǎn),包含20個(gè)對(duì)象。其中C1、C2和C3在同一密度閾值下,且C2和C3簇間間距較小,C4屬于另一個(gè)密度閾值。綜上,該數(shù)據(jù)集的特點(diǎn)包括:(1)存在密度分布差異大的簇;(2)存在簇間間距小的簇;(3)含有一定數(shù)量的噪聲點(diǎn)。該數(shù)據(jù)集的分布與本文要解決的兩個(gè)問(wèn)題一致。下文以該數(shù)據(jù)集為例進(jìn)行具體分析。

      圖1 數(shù)據(jù)集散點(diǎn)圖(N=582,C=4)Fig.1 Data point diagram(N=582,C=4)

      2.2.1 自衰減生成Eps參數(shù)列表

      采用基于自衰減項(xiàng)的K-平均最近鄰法生成Eps列表,其中K-平均最近鄰法是平均最近鄰法的拓展,該算法是計(jì)算數(shù)據(jù)集D中每個(gè)數(shù)據(jù)點(diǎn)與其第K個(gè)最近的數(shù)據(jù)點(diǎn)之間的K-最近鄰距離,并對(duì)所有數(shù)據(jù)點(diǎn)的K-最近鄰距離求平均值,得到數(shù)據(jù)集的K-平均最近鄰距離。生成參數(shù)列表的具體步驟如下:

      步驟1計(jì)算數(shù)據(jù)集D中每個(gè)點(diǎn)到其他點(diǎn)的歐氏距離,形成距離分布矩陣Distn×n,如式(4):

      其中,n是D中的數(shù)據(jù)點(diǎn)個(gè)數(shù);dist(i,j)是數(shù)據(jù)集中點(diǎn)i和點(diǎn)j之間的距離;Distn×n是n×n的實(shí)對(duì)稱矩陣。

      步驟2將Distn×n的每一行元素進(jìn)行升序排序。

      步驟3對(duì)排序后矩陣Distn×n的第K(1≤K≤n)列求平均值,得到----DK,減去自衰減項(xiàng)后,將其作為候選Eps參數(shù)。如式(5):

      其中,λ是自衰減系數(shù),0≤λ≤1,本文λ取值為0.3。對(duì)所有的K值計(jì)算完畢后,得到Eps參數(shù)列表,如式(6):

      圖2為圖1數(shù)據(jù)集分別在KANN-DBSCAN算法和MDA-DBSCAN算法下生成的Eps參數(shù)列表對(duì)比曲線,可見本文提出的算法可以平穩(wěn)降低Eps參數(shù)的值,從而減少數(shù)據(jù)噪聲的影響,以得到更優(yōu)的Eps參數(shù)列表。

      圖2 Eps參數(shù)列表對(duì)比圖Fig.2 Comparison diagram of Eps parameter list

      2.2.2 自衰減生成MinPts參數(shù)列表

      采用基于自衰減項(xiàng)的數(shù)學(xué)期望法生成MinPts列表。如式(7):

      其中,λ是自衰減系數(shù),0≤λ≤1,n為數(shù)據(jù)集中的對(duì)象總數(shù),Pi是第i個(gè)對(duì)象的Eps鄰域內(nèi)鄰域?qū)ο髷?shù)量。對(duì)所有的K值計(jì)算完畢后,得到MinPts參數(shù)列表,如式(8):

      圖3為圖1數(shù)據(jù)集分別在KANN-DBSCAN算法和MDA-DBSCAN算法下生成的MinPts參數(shù)列表對(duì)比曲線。

      圖3 MinPts參數(shù)列表對(duì)比圖Fig.3 Comparison diagram of MinPts parameter list

      2.2.3 多密度自適應(yīng)確定最優(yōu)參數(shù)

      對(duì)于圖1數(shù)據(jù)集,KANN-DBSCAN算法根據(jù)數(shù)據(jù)自身分布特性得到的Eps參數(shù)會(huì)受到噪聲數(shù)據(jù)的影響而偏大,這可能導(dǎo)致簇間間距較小的不同簇類被識(shí)別為一個(gè)簇,比如簇C2和簇C3,另外,由于參數(shù)的全局性,稀疏簇C4會(huì)被識(shí)別為噪聲,如圖4(a)所示。本文設(shè)計(jì)的算法能夠減少噪聲數(shù)據(jù)的影響,得到優(yōu)化后的初始密度閾值Density_1,使得簇C2和簇C3能正確地被識(shí)別為不同的簇。具體做法如下文。

      圖4 密度閾值的優(yōu)化Fig.4 Optimization of density threshold

      首先通過(guò)自衰減改進(jìn)后的方法得到Eps和MinPts參數(shù)列表,選取第K個(gè)參數(shù)對(duì)(1≤K≤n),即(EpsK,MinPtsK),輸入DBSCAN算法,對(duì)數(shù)據(jù)集進(jìn)行聚類分析,得到聚類結(jié)果簇?cái)?shù)與K值的關(guān)系如圖5所示。

      圖5 聚類結(jié)果簇?cái)?shù)與K值的關(guān)系圖Fig.5 Relational diagram of K value and number of clusters of clustering results

      當(dāng)聚類結(jié)果的簇?cái)?shù)趨于穩(wěn)定時(shí)通過(guò)K值反向選取最優(yōu)參數(shù)。本文對(duì)結(jié)果趨于穩(wěn)定進(jìn)行了重新定義,X表示聚類結(jié)果簇?cái)?shù)相同的連續(xù)次數(shù):(1)當(dāng)連續(xù)X(本文設(shè)定初始值為5)次相同時(shí),認(rèn)為聚類結(jié)果趨于穩(wěn)定,得到穩(wěn)定區(qū)間(第一個(gè)即可),記該簇?cái)?shù)為最優(yōu)簇?cái)?shù)。若聚類結(jié)果不存在連續(xù)X次相同的簇?cái)?shù),則尋找連續(xù)X-1次相同的簇?cái)?shù);(2)若(1)中連續(xù)三次相同的簇?cái)?shù)都找不到,則改為尋找簇?cái)?shù)波動(dòng)范圍在1內(nèi)的穩(wěn)定區(qū)間。

      找到穩(wěn)定區(qū)間后,得到區(qū)間端點(diǎn)startK和endK,本文根據(jù)識(shí)別噪聲程度的需求來(lái)選取穩(wěn)定區(qū)間中的K值,通過(guò)設(shè)置噪聲等級(jí)level來(lái)實(shí)現(xiàn),設(shè)有三個(gè)噪聲等級(jí):less(少噪聲)、normal(正常噪聲)和more(多噪聲,默認(rèn)值)。K值選取如式(9)所示。一般在密度分布均勻的數(shù)據(jù)集上設(shè)置噪聲等級(jí)為less,在密度分布差異大的數(shù)據(jù)集上設(shè)置噪聲等級(jí)為more,其余情況設(shè)置為normal。

      利用上述定義對(duì)圖1數(shù)據(jù)集進(jìn)行分析,如圖5所示,當(dāng)K=4時(shí),進(jìn)入穩(wěn)定區(qū)間,直到K=47結(jié)束,因此選取K值為4,其對(duì)應(yīng)的Eps1=7.813,MinPts1=8。將該最優(yōu)參數(shù)輸入DBSCAN算法,得到Density_1下的聚類結(jié)果如圖4(b)所示,與圖4(a)KANN-DBSCAN算法的聚類結(jié)果比較,本文算法能夠正確地識(shí)別簇C2和簇C3,將它們歸為不同簇類,可見本文算法處理噪聲數(shù)據(jù)的有效性。

      之后抽取Density_1下聚類后的噪聲數(shù)據(jù),即稀疏簇C4和噪聲點(diǎn),共105個(gè)對(duì)象,通過(guò)同樣的方式自適應(yīng)確定其最優(yōu)參數(shù),得到新密度閾值Density_2,此時(shí)Eps2=12.267,MinPts2=3,Density_2下噪聲數(shù)據(jù)的聚類結(jié)果如圖6(a),然后抽取Density_2下聚類后的噪聲數(shù)據(jù),共21個(gè)對(duì)象,不滿足本文設(shè)定的最小噪聲數(shù)量(50),結(jié)束聚類,最后將Density_1和Density_2下的聚類結(jié)果合并得到如圖6(b)所示結(jié)果,聚類結(jié)果簇?cái)?shù)與數(shù)據(jù)集標(biāo)識(shí)類別一致,可見本文算法處理密度分布差異大的數(shù)據(jù)集的有效性。

      圖6 基于MDA-DBSCAN的聚類結(jié)果Fig.6 Clustering results based on MDA-DBSCAN

      3 實(shí)驗(yàn)與結(jié)果分析

      MDA-DBSCAN算法采用Python3.7實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境為64位的Windows10系統(tǒng),實(shí)驗(yàn)運(yùn)行在i7-10710U,CPU為1.1 GHz,內(nèi)存16 GB的筆記本上。為了進(jìn)一步驗(yàn)證本文算法的有效性和先進(jìn)性,在人工數(shù)據(jù)集和UCI數(shù)據(jù)集上進(jìn)行了聚類分析,將本文算法得到的結(jié)果與DBSCAN、KANN-DBSCAN、RNN-DBSCAN算法進(jìn)行比較。其中,本文算法需要提供的參數(shù):多密度閾值Density_i(Di)。DBSCAN算法和KANN-DBSCAN算法都需要設(shè)定兩個(gè)參數(shù):半徑Eps和最小樣本數(shù)MinPts。RNN-DBSCAN算法需要設(shè)定一個(gè)參數(shù):點(diǎn)的鄰居數(shù)K。表1顯示了四種算法在人工數(shù)據(jù)集上的較優(yōu)參數(shù)的設(shè)置。

      表1 人工數(shù)據(jù)集上的參數(shù)設(shè)置Table 1 Parameter settings on artificial data sets

      3.1 人工數(shù)據(jù)集

      本文選用8組人工數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),包括密度分布均勻和不均勻的數(shù)據(jù)集,并用F值[12]對(duì)結(jié)果進(jìn)行分析,F(xiàn)值綜合了準(zhǔn)確率和召回率,取值范圍在[0,1],越接近1表示聚類效果越好。數(shù)據(jù)集的詳細(xì)信息見表2。

      表2 人工數(shù)據(jù)集Table 2 Artificial datasets

      圖7為本文算法與其他算法在不同人工數(shù)據(jù)集上的聚類結(jié)果,可見MDA-DBSCAN算法不僅在密度分布均勻的數(shù)據(jù)集上有效,而且在密度分布差異大的數(shù)據(jù)集上也有很好的聚類效果。

      圖7 (續(xù))

      圖7 聚類結(jié)果對(duì)比Fig.7 Comparison of clustering results

      從聚類結(jié)果簇?cái)?shù)來(lái)看,MDA-DBSCAN算法最為準(zhǔn)確,即聚類結(jié)果簇?cái)?shù)與數(shù)據(jù)集類別數(shù)一致。從F值評(píng)價(jià)指標(biāo)來(lái)看,在密度分布均勻的數(shù)據(jù)集(Aggregation、Spiral、Flame、R15和D31)上,MDA-DBSCAN算法與其他算法的差異不大,都有較優(yōu)的結(jié)果,但在密度分布差異大的數(shù)據(jù)集(Compound、Jain和Pathbased)上,MDADBSCAN算法的優(yōu)勢(shì)明顯,具有更高的準(zhǔn)確性。表3是幾種算法的聚類結(jié)果簇?cái)?shù)和指標(biāo)評(píng)價(jià)。

      表3 聚類結(jié)果簇?cái)?shù)和指標(biāo)評(píng)價(jià)Table 3 Cluster number of clustering results and index evaluation

      3.2 UCI數(shù)據(jù)集

      為了驗(yàn)證MDA-DBSCAN算法在真實(shí)數(shù)據(jù)集上的性能,對(duì)UCI數(shù)據(jù)集進(jìn)行聚類分析,并采用準(zhǔn)確率(ACC)[13]、互信息(AMI)[14]和調(diào)整蘭德系數(shù)(ARI)[15]作為評(píng)價(jià)指標(biāo),其中ACC的取值范圍在[0,1],AMI和ARI的取值范圍在[-1,1],值越接近1說(shuō)明與真實(shí)聚類結(jié)果越符合。數(shù)據(jù)集詳細(xì)信息如表4所示。

      表4 UCI數(shù)據(jù)集Table 4 UCI datasets

      真實(shí)數(shù)據(jù)集聚類指標(biāo)如表5所示,可以看出本文算法克服了傳統(tǒng)算法的人工選取參數(shù)的主觀性,并在高維數(shù)據(jù)集上有良好的表現(xiàn)。KANN-DBSCAN算法雖然在二維的人工數(shù)據(jù)集上有較好的表現(xiàn),但是在高維UCI數(shù)據(jù)集上表現(xiàn)一般,因?yàn)樵诜植疾痪母呔SUCI數(shù)據(jù)集上很難進(jìn)入連續(xù)三次相同的簇?cái)?shù)穩(wěn)定區(qū)間,導(dǎo)致聚類結(jié)果出現(xiàn)較大誤差。本文算法在利用數(shù)據(jù)集自身分布特性確定密度閾值前對(duì)數(shù)據(jù)集進(jìn)行了去噪衰減,減少了噪聲數(shù)據(jù)的影響,并且重新制定了穩(wěn)定區(qū)間的選取策略,能夠得到更符合數(shù)據(jù)特性的密度閾值,并進(jìn)行多次密度閾值計(jì)算,合并所有聚類結(jié)果,從而提升聚類效果。

      表5 聚類指標(biāo)對(duì)比Table 5 Comparison of clustering index

      4 結(jié)束語(yǔ)

      DBSCAN算法可以有效識(shí)別噪聲并實(shí)現(xiàn)任意形狀的聚類,但是該算法對(duì)參數(shù)的選取敏感,取值不當(dāng)會(huì)導(dǎo)致聚類效果不佳,且由于參數(shù)的全局性,該算法在密度分布步不均勻的數(shù)據(jù)集上不能正確地識(shí)別簇。本文在KANN-DBSCAN算法的基礎(chǔ)上,引入了去噪衰減、多密度閾值以及合并聚類的概念,用例子演示了算法具體實(shí)現(xiàn)步驟,通過(guò)自衰減項(xiàng)與平均最近鄰和數(shù)學(xué)期望法結(jié)合生成改進(jìn)的參數(shù)列表,找到最優(yōu)初始密度閾值,得到聚類結(jié)果和噪聲數(shù)據(jù),對(duì)噪聲數(shù)據(jù)進(jìn)行相同操作直到其數(shù)量或密度閾值不滿足條件為止,最后將所有密度閾值下的聚類結(jié)果進(jìn)行合并。實(shí)驗(yàn)表明,本文算法可以自適應(yīng)確定具有不同密度的簇的最優(yōu)密度閾值,在密度分布不均勻的數(shù)據(jù)集上有很好的聚類結(jié)果,但算法時(shí)間復(fù)雜度較高,如何有效降低算法時(shí)間復(fù)雜度是以后工作的重點(diǎn)。

      猜你喜歡
      集上列表聚類
      巧用列表來(lái)推理
      學(xué)習(xí)運(yùn)用列表法
      Cookie-Cutter集上的Gibbs測(cè)度
      擴(kuò)列吧
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      基于DBSACN聚類算法的XML文檔聚類
      復(fù)扇形指標(biāo)集上的分布混沌
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      不含3-圈的1-平面圖的列表邊染色與列表全染色
      沁水县| 林口县| 阿鲁科尔沁旗| 辉县市| 周至县| 永德县| 云龙县| 当阳市| 贺兰县| 鹤庆县| 钟祥市| 青铜峡市| 汉沽区| 海兴县| 旅游| 长寿区| 营山县| 调兵山市| 日喀则市| 潜江市| 萨嘎县| 辽宁省| 勐海县| 两当县| 资兴市| 甘洛县| 灵川县| 重庆市| 玉树县| 阿拉善右旗| 金坛市| 平遥县| 伊川县| 武安市| 康乐县| 工布江达县| 襄城县| 江油市| 道孚县| 雷山县| 汝州市|