• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于稀疏子空間聚類(lèi)的文本譜聚類(lèi)算法研究

    2020-02-21 08:49:18原虹
    電子技術(shù)與軟件工程 2020年13期
    關(guān)鍵詞:聚類(lèi)算法

    摘要:本文為解決傳統(tǒng)文本譜聚類(lèi)算法聚類(lèi)純度低的問(wèn)題,提出了基于稀疏子空間聚類(lèi)的文本譜聚類(lèi)算法研究。通過(guò)提取文本譜特征,設(shè)計(jì)文本譜低維數(shù)據(jù)稀疏地線性表示矩陣,融合文本譜低維數(shù)據(jù)特征,構(gòu)建文本譜特征向量稀疏子聚類(lèi)空間,實(shí)現(xiàn)文本譜聚類(lèi)算法。設(shè)計(jì)實(shí)例分析,結(jié)果表明,設(shè)計(jì)聚類(lèi)算法的聚類(lèi)純度明顯高于傳統(tǒng)聚類(lèi)算法。

    關(guān)鍵詞:稀疏子空間聚類(lèi);文本譜;聚類(lèi)算法

    文本譜聚類(lèi)算法的研究意義是為了找尋蘊(yùn)藏在算法中文本數(shù)據(jù)的結(jié)構(gòu),并依據(jù)其共有的特性,將具有同樣性質(zhì)的數(shù)據(jù)進(jìn)行歸類(lèi)處理??紤]到文本譜聚類(lèi)對(duì)于提高文本譜信息特征挖掘具有十分關(guān)鍵的作用。目前我國(guó)常用的文本譜聚類(lèi)算法是在K-means算法的基礎(chǔ)上衍生而成,通過(guò)擴(kuò)展文本數(shù)據(jù)在空間中的向量,聚類(lèi)文本譜信息[1]。盡管傳統(tǒng)的聚類(lèi)算法能夠取得一定的研究成果,但經(jīng)常會(huì)由于對(duì)文本譜數(shù)據(jù)的可視化觀察能力差,無(wú)法識(shí)別出復(fù)雜的文本譜聚類(lèi)形狀,導(dǎo)致出現(xiàn)聚類(lèi)純度低的問(wèn)題,針對(duì)文本譜數(shù)據(jù)信息的聚類(lèi)效果不盡理想。基于此,針對(duì)文本譜聚類(lèi)算法的優(yōu)化設(shè)計(jì)是十分有必要的。

    1 稀疏子空間聚類(lèi)

    稀疏子空間聚類(lèi)又稱(chēng)SSC算法,作為一種先進(jìn)的聚類(lèi)算法,其根本原理是通過(guò)同一子空間的低維數(shù)據(jù)稀疏地線性表示高維數(shù)據(jù),從而得到全新的稀疏系數(shù)矩陣,實(shí)現(xiàn)數(shù)據(jù)空間聚類(lèi)[2,3]。稀疏子空間聚類(lèi)過(guò)程中,最主要的流程即為稀疏表示,將基于稀疏子空間聚類(lèi)的數(shù)據(jù)稀疏表示矩陣,應(yīng)用在文本譜聚類(lèi)算法的優(yōu)化設(shè)計(jì)中,設(shè)計(jì)基于稀疏子空間聚類(lèi)的文本譜聚類(lèi)算法,稀疏子空間聚類(lèi)基本框架如圖1所示。

    2 文本譜聚類(lèi)算法

    2.1 文本譜預(yù)處理

    本文提出的文本譜預(yù)處理共分為兩部分,分別為:文本譜特征表示以及文本譜特征提取[4]。文本譜特征表示的具體流程為:首先,采集文本譜數(shù)據(jù)中描述性特征的元數(shù)據(jù)和語(yǔ)義性特征元數(shù)據(jù);而后,基于稀疏子空間聚類(lèi)非結(jié)構(gòu)化表示元數(shù)據(jù),此過(guò)程可通過(guò)計(jì)算方程式表示,設(shè)基于稀疏子空間聚類(lèi)非結(jié)構(gòu)化表示的目標(biāo)函數(shù)為m,如公式(1)所示。

    ω==tf(i,d)

    (1)

    在公式(1)中,t指的是文本譜中的詞向量;f指的是文本譜中子空間的個(gè)數(shù),為實(shí)數(shù);i指的是i詞匯在文本譜中出現(xiàn)的次數(shù);d指的是文本譜中元數(shù)據(jù)的高維特征權(quán)重。通過(guò)公式(1),得到非結(jié)構(gòu)化處理后的文本譜數(shù)據(jù)。采用稀疏子空間聚類(lèi)中的稀疏表示技巧,通過(guò)同一子空間的低維數(shù)據(jù)表示文本譜特征?;谙∈枳涌臻g聚類(lèi)非結(jié)構(gòu)化表示文本譜特征后,可提取文本譜特征,為文本譜聚類(lèi)提供基礎(chǔ)數(shù)據(jù)。

    2.2 設(shè)計(jì)文本譜低維數(shù)據(jù)稀疏地線性表示矩陣

    在完成文本譜預(yù)處理后,基于稀疏子空間聚類(lèi)通過(guò)同一子空間的低維數(shù)據(jù)稀疏地線性表示高維數(shù)據(jù),設(shè)計(jì)文本譜低維數(shù)據(jù)稀疏地線性表示矩陣。首先,本文采用稀疏子空間聚類(lèi)正則化處理文本譜數(shù)據(jù),設(shè)操作后得到的正則化文本譜數(shù)據(jù)為C,考慮到正則化文本譜數(shù)據(jù)中的高維特征可達(dá)數(shù)十萬(wàn)維,為提高文本譜聚類(lèi)的純度,還需要運(yùn)用稀疏子空間聚類(lèi)中的全局稀疏最優(yōu)化模型,凸松弛處理文本譜低維數(shù)據(jù),剔除文本譜低維數(shù)據(jù)中的奇異點(diǎn)。設(shè)使用全局稀疏最優(yōu)化模型凸松弛處理文本譜低維數(shù)據(jù)的表達(dá)式為s,則運(yùn)用稀疏子空間聚類(lèi)算法,得出的s的計(jì)算公式,如公式(2)所示。

    在公式(2)中,a指的是文本譜聚類(lèi)空間的稀疏奇異值?;谙∈枳涌臻g聚類(lèi)算法無(wú)需提前掌握數(shù)據(jù)子空間個(gè)數(shù)和維數(shù)的前提,凸松弛處理文本譜低維數(shù)據(jù)后,可直接設(shè)計(jì)文本譜低維數(shù)據(jù)稀疏地線性表示矩陣。

    以上述公式為依據(jù),設(shè)文本譜低維數(shù)據(jù)稀疏地線性正則化表示矩陣為r,則r的計(jì)算公式,如公式(3)所示。

    在公式(3)中,s指的是文本譜低維數(shù)據(jù)標(biāo)簽與空間聚類(lèi)子區(qū)域標(biāo)簽的對(duì)應(yīng)約束關(guān)系;v指的是文本譜低維數(shù)據(jù)標(biāo)簽與空間聚類(lèi)子區(qū)域標(biāo)簽的對(duì)應(yīng)函數(shù)關(guān)系;T指的是不同子空間的文本譜數(shù)據(jù)低維權(quán)重。通過(guò)設(shè)計(jì)文本譜低維數(shù)據(jù)稀疏地線性表示矩陣,融合文本譜低維數(shù)據(jù)特征,提高文本譜低維數(shù)據(jù)稀疏地線性表示精度,使同一類(lèi)別的文本譜數(shù)據(jù)維數(shù)區(qū)域很容易被聚類(lèi)到一起,進(jìn)而確保文本譜聚類(lèi)純度。本文通過(guò)稀疏子空間聚類(lèi)算法中的ADMM機(jī)制,仿射文本譜低維空間的數(shù)據(jù)點(diǎn),完成文本譜低維數(shù)據(jù)稀疏地線性表示矩陣求解,提高對(duì)文本譜數(shù)據(jù)的可視化觀察能力。

    2.3 構(gòu)建文本譜特征向量稀疏子聚類(lèi)空間

    在設(shè)計(jì)文本譜低維數(shù)據(jù)稀疏地線性表示矩陣的基礎(chǔ)上,為解決文本譜聚類(lèi)過(guò)程中,特征向量長(zhǎng)短差距大的問(wèn)題,通過(guò)相似度定義的方式歸一化處理文本譜特征向量。設(shè)歸一化處理文本譜特征向量方程式為E,則其計(jì)算公式,如公式(4)所示。

    在公式(4)中,M指的是文本譜特征向量的字符長(zhǎng)度;N指的是文本譜數(shù)據(jù)的語(yǔ)義特征;x(Zj)指的是文本譜數(shù)據(jù)在稀疏子空間的投影距離;z指的是文本譜數(shù)據(jù)在稀疏子空間的橫坐標(biāo);j指的是文本譜數(shù)據(jù)在稀疏子空間的縱坐標(biāo)。通過(guò)公式(4),歸一化處理文本譜特征向量后,構(gòu)建文本譜特征向量稀疏子聚類(lèi)空間?;谙∈枳涌臻g聚類(lèi)建立的文本譜特征向量稀疏子聚類(lèi)空間中間層,主要負(fù)責(zé)數(shù)據(jù)挖掘聚類(lèi)迭代調(diào)度管理,使用稀疏子空間聚類(lèi)算法,縮短特征向量之間的長(zhǎng)短差距,進(jìn)而提高文本譜聚類(lèi)純度。通過(guò)構(gòu)建的文本譜特征向量稀疏子聚類(lèi)空間,在此空間中執(zhí)行文本譜聚類(lèi)操作,操作流程如圖2所示。

    2.4實(shí)現(xiàn)文本譜聚類(lèi)算法

    在文本譜特征向量稀疏子聚類(lèi)空間中,選擇一個(gè)可以準(zhǔn)確評(píng)價(jià)文本譜聚類(lèi)算法的指標(biāo)。在文本譜聚類(lèi)迭代過(guò)程中,隨著聚類(lèi)中心的數(shù)目不斷減少,各個(gè)聚類(lèi)中心的位置也會(huì)隨之發(fā)生變化。這時(shí)需運(yùn)用稀疏子空間聚類(lèi)建立數(shù)據(jù)挖掘聚類(lèi)數(shù)據(jù)庫(kù),將聚類(lèi)中心的位置整合數(shù)據(jù)的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中。通過(guò)數(shù)據(jù)挖掘聚類(lèi)數(shù)據(jù)庫(kù),將大量類(lèi)型相同的文本譜數(shù)據(jù)挖掘聚類(lèi)構(gòu)成同構(gòu)數(shù)據(jù)庫(kù),實(shí)現(xiàn)文本譜聚類(lèi)算法。再通過(guò)文本譜聚類(lèi)迭代過(guò)程不斷地位移,最后通過(guò)計(jì)算余弦相似度的方式,保證聚類(lèi)中心的坐標(biāo)能夠非常接近真實(shí)的聚類(lèi)中心。設(shè)文本譜聚類(lèi)算法的余弦相似度為q,則q的計(jì)算公式,如公式(5)所示。

    g= cos(pi,pj)

    (5)

    在公式(5)中,p指的是兩文本譜特征向量夾角的余弦值。求得本譜聚類(lèi)算法的余弦相似度后,利用余弦相似度實(shí)現(xiàn)文本譜聚類(lèi)算法,得到最終的文本譜聚類(lèi)結(jié)果。

    3 實(shí)例分析

    3.1實(shí)驗(yàn)準(zhǔn)備

    本文通過(guò)實(shí)例分析的形式測(cè)試基于稀疏子空間聚類(lèi)的文本譜聚類(lèi)算法應(yīng)用的時(shí)效性,此次實(shí)驗(yàn)內(nèi)容為選擇Terwqsder文本譜數(shù)據(jù)集作為此次實(shí)驗(yàn)的研究對(duì)象。

    實(shí)驗(yàn)軟環(huán)境包括:Weapectll.2.1軟件,本次實(shí)驗(yàn)測(cè)試指標(biāo)為聚類(lèi)純度,聚類(lèi)純度能夠?qū)ξ谋咀V數(shù)據(jù)的可視化觀察能力,聚類(lèi)純度越高證明該聚類(lèi)算法的聚類(lèi)觀察能力越高。首先,采用本文提出的觀察能力對(duì)文本譜數(shù)據(jù)執(zhí)行聚類(lèi)操作,通過(guò)Weapect11.2.1軟件獲取該算法下的聚類(lèi)純度,設(shè)置其為實(shí)驗(yàn)組;再使用傳統(tǒng)的聚類(lèi)算法執(zhí)行聚類(lèi)操作,將得到的聚類(lèi)純度記為對(duì)照組。

    3.2 實(shí)驗(yàn)結(jié)果與分析

    根據(jù)上述設(shè)計(jì)的實(shí)例分析,統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果,如圖3所示。

    通過(guò)圖3可得出如下的結(jié)論,本文設(shè)計(jì)聚類(lèi)算法的聚類(lèi)純度明顯高于傳統(tǒng)聚類(lèi)算法,聚類(lèi)算法對(duì)文本譜數(shù)據(jù)的可視化觀察能力更強(qiáng)。因此,基于稀疏子空間聚類(lèi)的文本譜聚類(lèi)算法可以最大限度的提高文本譜聚類(lèi)純度,實(shí)現(xiàn)基于稀疏子空間聚類(lèi)的文本譜聚類(lèi)。

    4 結(jié)束語(yǔ)

    通過(guò)基于稀疏子空間聚類(lèi)的文本譜聚類(lèi)算法研究,希望能夠在提高文本譜聚類(lèi)純度的同時(shí),提高文本譜聚類(lèi)精度。在后期的發(fā)展中,應(yīng)加大本文設(shè)計(jì)聚類(lèi)算法在文本譜聚類(lèi)中的應(yīng)用。基于此次研究時(shí)間有限,雖然取得了一定的研究成果,但對(duì)于該算法研究還不足,今后還要對(duì)其進(jìn)行進(jìn)一步研究,為文本譜聚類(lèi)算法的進(jìn)一步優(yōu)化提供參考依據(jù)。通過(guò)實(shí)例分析結(jié)果表明,本文設(shè)計(jì)的聚類(lèi)算法在提高文本譜聚類(lèi)純度方面中的具體優(yōu)勢(shì)已經(jīng)顯現(xiàn)出來(lái),有必要在現(xiàn)實(shí)中廣泛投入使用。

    參考文獻(xiàn)

    [1]劉玉馨,何光輝.k近鄰約束的稀疏子空間聚類(lèi)[J].計(jì)算機(jī)工程與應(yīng)用,2019,55 (03):39-45.

    [2]榮光李,黃尉,基于子空間追蹤算法的稀疏子空間聚類(lèi)[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,42 (07):999-1004.

    [3]陳智平,陳曉云,簡(jiǎn)彩仁.非線性多視角子空間聚類(lèi)方法[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,48 (01):7-13.

    [4]馬盈倉(cāng),楊小飛,續(xù)秋霞等,基于k-近鄰與局部相似度的稀疏子空間聚類(lèi)[J].計(jì)算機(jī)工程與應(yīng)用,2020,56 (04):99-108.

    作者簡(jiǎn)介

    原虹(1981-),女,山西省臨猗縣人。碩士學(xué)位,講師。研究方向?yàn)橛?jì)算機(jī)應(yīng)用、數(shù)據(jù)挖掘。

    猜你喜歡
    聚類(lèi)算法
    一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類(lèi)算法
    基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類(lèi)方法分析張學(xué)文治療肝熱血瘀證用藥規(guī)律
    數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
    K—Means聚類(lèi)算法在MapReduce框架下的實(shí)現(xiàn)
    基于K?均值與AGNES聚類(lèi)算法的校園網(wǎng)行為分析系統(tǒng)研究
    數(shù)據(jù)挖掘技術(shù)在識(shí)別可疑金融交易中的應(yīng)用
    基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
    大規(guī)模風(fēng)電場(chǎng)集中接入對(duì)電力系統(tǒng)小干擾穩(wěn)定的影響分析
    科技視界(2016年8期)2016-04-05 18:39:39
    基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類(lèi)
    基于MapReduce的DBSCAN聚類(lèi)算法的并行實(shí)現(xiàn)
    山东省| 德州市| 泾阳县| 汉川市| 东城区| 天镇县| 玉山县| 闽侯县| 襄汾县| 新蔡县| 仁布县| 福海县| 博客| 安泽县| 景宁| 互助| 东安县| 香河县| 布拖县| 贺兰县| 沅江市| 岑溪市| 新昌县| 庆城县| 永定县| 锦州市| 吴堡县| 永修县| 德阳市| 慈溪市| 方城县| 治多县| 卓资县| 清水河县| 喜德县| 姚安县| 安康市| 香港 | 威海市| 宁强县| 新泰市|