• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    淺析DBSCAN算法中參數(shù)設(shè)置問題的研究

    2017-11-28 13:34:32侯雄文
    科教導(dǎo)刊·電子版 2017年30期
    關(guān)鍵詞:聚類算法自適應(yīng)

    侯雄文

    摘 要 傳統(tǒng)的DBSCAN密度聚類算法,需要人為設(shè)置鄰域閾值(Eps)和點數(shù)閾值(minPts)2個參數(shù)來對數(shù)據(jù)集進(jìn)行聚類,由于minPts和Eps具有全局性,使得DBSCAN算法對參數(shù)很敏感, 特別是分布不均勻的數(shù)據(jù)集。針對DBSCAN算法中這一問題,本文研究改進(jìn)的算法通過對數(shù)據(jù)點的k最近點平均距離進(jìn)行分析,根據(jù)其統(tǒng)計特性動態(tài)地確定minPts和多個Eps值,然后根據(jù)所求得的多組(minPts, Eps)值依次對數(shù)據(jù)集進(jìn)行聚類,從而達(dá)到自適應(yīng)設(shè)置參數(shù)的目的。

    關(guān)鍵詞 聚類算法 自適應(yīng) 參數(shù)

    中圖分類號:TP31 文獻(xiàn)標(biāo)識碼:A

    聚類算法是數(shù)據(jù)挖掘、模式識別等研究中的一項重要技術(shù)。聚類的目的是把數(shù)據(jù)集分成若干類或簇,使得同一個類中的元素相似性較大,不同類中的元素相似性較小。其中,有多種方法來確定DBSCAN的兩個閾值參數(shù)Eps和minPts。對于minPts的確定,在數(shù)據(jù)點不多的情況下,minPts在二維空間中的聚類中一般取4. 另外取數(shù)據(jù)集合的1/25作為minPts的值也是一種比較有效的方法。

    本文針對密度分布不均勻的數(shù)據(jù)集的minPts和Eps的取值問題,提出了一種新的改進(jìn)的基于k最近點平均距離的(DBSCAN based on K Nearest Average Distance, KNA-DBSCAN)聚類算法,該算法通過對數(shù)據(jù)點的k最近點平均距離的統(tǒng)計特性進(jìn)行分析,自動的確定minPts和多個Eps參數(shù),使其可以對密度分布不均勻的數(shù)據(jù)集進(jìn)行聚類。

    1 DBSCAN算法

    DBSCAN算法是基于中心的密度聚類算法,相關(guān)概念如下:

    定義1 數(shù)據(jù)點的Eps鄰域:數(shù)據(jù)集D中任意數(shù)據(jù)點P,P的鄰域Eps(P)定義為以P為中心,Eps半徑的球形區(qū)域,公式表示為:

    EPS(p)={q∈D|dist(p,q)≤Eps}

    其中dist(p,q)表示數(shù)據(jù)點p和q之間的距離,這里采用歐式距離。

    定義2 數(shù)據(jù)點的密度:數(shù)據(jù)集D中任意數(shù)據(jù)點P,所在的Eps鄰域內(nèi),包含的數(shù)據(jù)點的數(shù)目,叫做數(shù)據(jù)點P的密度。

    定義3 核心數(shù)據(jù)點:對于數(shù)據(jù)點P,p∈D ,如果以P為中心,以Eps為半徑,在Eps(P)內(nèi)的數(shù)據(jù)點的個數(shù)超過給定的minPts,則稱P為核心數(shù)據(jù)點。

    定義4 邊界數(shù)據(jù)點:對于數(shù)據(jù)點P, p∈D,如果P不是核心數(shù)據(jù)點,但是P在某核心數(shù)據(jù)點q的鄰域Eps(q)內(nèi),則稱數(shù)據(jù)點p為邊界數(shù)據(jù)點

    定義5 噪音點:對于數(shù)據(jù)點p, p∈D,若p既不是核心數(shù)據(jù)點,也不是邊界數(shù)據(jù)點,則p為噪音點或離群點。

    定義6 直接密度可達(dá):給定數(shù)據(jù)點集D,若數(shù)據(jù)點p在數(shù)據(jù)點q的鄰域內(nèi),若q為核心數(shù)據(jù)點,則稱從數(shù)據(jù)點p出發(fā)到數(shù)據(jù)點q是直接密度可達(dá)。

    定義7 密度相連:若一個數(shù)據(jù)點o∈D,使得數(shù)據(jù)點p和數(shù)據(jù)點q都從點o在(minPts,Eps)條件下密度可達(dá),則稱數(shù)據(jù)點p和數(shù)據(jù)點q密度相連,密度相連是對稱的。

    2 KNA-DBSCAN算法

    定義8:密度層次:按照數(shù)據(jù)集中數(shù)據(jù)點的密度不同,將數(shù)據(jù)點分為不同的密度層次,密度相近的點簇在同一個密度層次,數(shù)據(jù)點分布越稠密,密度越大,密度層次也就越大。

    對于分布不均勻的數(shù)據(jù)集,各個數(shù)據(jù)點與周圍數(shù)據(jù)的相似程度不同,本文采用數(shù)據(jù)點與周圍的數(shù)據(jù)點的距離作為衡量該點稠密程度的判斷標(biāo)準(zhǔn)。采用數(shù)據(jù)集D中數(shù)據(jù)點P的k平均最近距離作為該點稠密程度的評判標(biāo)準(zhǔn),則p點的k最近點平均距離與k+1最近點平均距離之差則反映了p點密度的變化,變化越小,則p點當(dāng)前的(k+1)最近點平均距離越能反映p點的密度層次。我們定義密度變化如下:

    定義9:密度變化:數(shù)據(jù)點P的k最近點平均距離與k+1最近點平均距離之差 △distak:

    對于數(shù)據(jù)集中所有點的密度變化之和則反映了所有數(shù)據(jù)點的密度變化,當(dāng)密度變化之和最小時,則大部分點都達(dá)到了自己所在的密度層次。密度變化之和sum_incdistak的計算公式如下:

    其中,pi表示第i個數(shù)據(jù)點,n表示數(shù)據(jù)集中數(shù)據(jù)點的個數(shù)。

    2.1 KNA-DBSCAN算法的思想是

    (1)確定k的取值:首先計算所有數(shù)據(jù)點的k最近點平均距離,然后計算所有數(shù)據(jù)點的(k+1) 最近點平均距離,求出所有數(shù)據(jù)點的(k+1) 最近點平均距離與k最近點平均距離的差值即,密度變化,再將這些差值求和,即計算所有點的密度變化之和,找出其中密度變化之和的最小值,此時,對應(yīng)的(k+1) 最近點平均距離最能反映各點的密度層次,所以取此時的k+1的值作為k的值。

    (2)確定minPts的值:k值確定后,取minPts=k。

    (3)確定多個Eps的值:k值確定后,對所有點的k最近點平均距離求取對數(shù),取對數(shù)之后不會改變數(shù)據(jù)的性質(zhì)和相關(guān)關(guān)系,但壓縮了變量的尺度,使數(shù)據(jù)變得更穩(wěn)定。這里我們將其定義為數(shù)據(jù)點的對數(shù)距離,數(shù)據(jù)點p的對數(shù)距離計算公式如下:

    定義10:密度轉(zhuǎn)折點:若在某數(shù)據(jù)點Pm處,Pm+1的distak-log的值相對于Pm的distak-bg值突然增大,則稱Pm為密度轉(zhuǎn)折點。Pm對應(yīng)的distak值即為對應(yīng)的一個密度閾值Eps。

    2.2 KNA-DBSCAN算法聚類步驟

    步驟1:確定Mintps和Eps的值

    根據(jù)KNA-DBSCAN算法思想對數(shù)據(jù)集進(jìn)行計算,得到minPts和Eps的值,對于密度單一的數(shù)據(jù)集,得到的Eps只有一個,對于含有多個密度層次的數(shù)據(jù)集,得到多個Eps值。

    步驟2:進(jìn)行DBSCAN聚類

    對數(shù)據(jù)集進(jìn)行DBSCAN聚類,按照Eps從小到大依次進(jìn)行聚類,先聚較高密度的簇,再聚較低密度的簇。將聚類成功的類標(biāo)記為Ci(i≥1),表示數(shù)據(jù)集的第i個簇。對所有的(minPts,Eps)進(jìn)行聚類后,沒有被標(biāo)記的點記為離群點或噪音點。

    3結(jié)束語

    本文在DBSCAN算法的基礎(chǔ)上,提出了參數(shù)自適應(yīng)的KNA-DBSCAN算法,該算法可以根據(jù)數(shù)據(jù)集的特點自動地確定minPts和多個Eps參數(shù),有效地解決了DBSCAN算法對參數(shù)敏感的問題。

    參考文獻(xiàn)

    [1] Chen,M.S.&J.Han.&P.S,Yu .Data mining:an overview from a database perspective [J]. Knowledge and data Engineering, IEEE Transactions on, 1996, 8(06): 866-883.

    [2] 孫凌燕.基于密度的聚類算法研究[D].太原:中北大學(xué), 2009.

    [3] Daszykowski,M.&B.Walczak&D.L.Massart.Looking for natural patterns in data: Part 1. Density-based approach[J]. Chemometrics and Intelligent Laboratory Systems,2001,56(02): 83-92.

    [4] ZHOU,H.& P.WANG.DBSCAN 算法中參數(shù)自適應(yīng)確定方法的研究[J].西安理工大學(xué)學(xué)報,2012,28(03).

    [5] 夏魯寧,荊繼武. SA-DBSCAN:一種自適應(yīng)基于密度聚類算法[J].中國科學(xué)院研究生院學(xué)報,2009, 26(04):530-538.endprint

    猜你喜歡
    聚類算法自適應(yīng)
    數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
    K—Means聚類算法在MapReduce框架下的實現(xiàn)
    基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
    淺談網(wǎng)絡(luò)教育領(lǐng)域的自適應(yīng)推送系統(tǒng)
    以數(shù)據(jù)為中心的分布式系統(tǒng)自適應(yīng)集成方法
    自適應(yīng)的智能搬運(yùn)路徑規(guī)劃算法
    科技視界(2016年26期)2016-12-17 15:53:57
    Ka頻段衛(wèi)星通信自適應(yīng)抗雨衰控制系統(tǒng)設(shè)計
    電子節(jié)氣門非線性控制策略
    汽車科技(2016年5期)2016-11-14 08:03:52
    多天線波束成形的MIMO-OFDM跨層自適應(yīng)資源分配
    基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
    大石桥市| 九江县| 洮南市| 衢州市| 手游| 西乡县| 左权县| 沙湾县| 枝江市| 江口县| 新余市| 昌吉市| 龙州县| 乌拉特中旗| 平山县| 泽州县| 金昌市| 清丰县| 会同县| 绥阳县| 新建县| 佳木斯市| 成都市| 方正县| 湖南省| 宁武县| 台东市| 淮滨县| 边坝县| 体育| 平武县| 崇礼县| 东山县| 重庆市| 和林格尔县| 纳雍县| 古浪县| 沾化县| 龙胜| 武宁县| 民和|