• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題相似性聚類的自適應(yīng)文本分類

      2020-03-19 12:24:50楊其越梁文韜李晉源崔國榮王沛堯
      計(jì)算機(jī)工程 2020年3期
      關(guān)鍵詞:詞庫特征詞聚類

      康 雁,楊其越,李 浩,梁文韜,李晉源,崔國榮,王沛堯

      (云南大學(xué) 軟件學(xué)院,昆明 650500)

      0 概述

      近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)量呈現(xiàn)爆炸式增長,其中,微博數(shù)據(jù)、新聞數(shù)據(jù)和用戶評(píng)論等文本數(shù)據(jù)占很大比重。文本分類作為自然語言處理的一項(xiàng)基礎(chǔ)任務(wù),能夠?qū)⒋罅咳狈Y(jié)構(gòu)的文本數(shù)據(jù)組織成規(guī)范的數(shù)據(jù)結(jié)構(gòu),受到研究人員的廣泛關(guān)注。目前,文本分類算法主要分為傳統(tǒng)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法2類?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的文本分類算法主要有樸素貝葉斯(Na?ve Bayes,NB)[1]、K最近鄰(K-Nearest Neighbor,KNN)[2]、支持向量機(jī)(Support Vector Machine,SVM)[3]、Bagging[4]、Boosting[5]等。基于深度學(xué)習(xí)的文本分類算法主要包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[6]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[7]等。這些方法都已取得較好的效果,但其分類準(zhǔn)確率有待提高。同時(shí),上述方法在不同數(shù)據(jù)集上的分類性能存在差異,對(duì)這些方法進(jìn)行組合利用,可以進(jìn)一步提升算法性能。

      本文提出一種基于主題相似性聚類的自適應(yīng)文本分類算法。結(jié)合x2統(tǒng)計(jì)(CHI)和WordCount方法提取每個(gè)類的文本特征詞,構(gòu)成類特征詞庫,通過K-means算法對(duì)測(cè)試集進(jìn)行聚類,得到若干個(gè)簇,并構(gòu)建簇特征詞庫。在此基礎(chǔ)上計(jì)算2個(gè)特征詞庫的重疊部分,并根據(jù)該結(jié)果選擇相應(yīng)的模型進(jìn)行自適應(yīng)分類,得到最終的分類結(jié)果。

      1 相關(guān)工作

      1.1 基于CNN的文本分類

      將CNN應(yīng)用于語音識(shí)別領(lǐng)域的數(shù)據(jù)信息特征提取,目前已取得顯著成果。CNN本質(zhì)上是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),每一層的輸出作為下一層神經(jīng)元的輸入,運(yùn)用多層卷積對(duì)每一層的運(yùn)算結(jié)果進(jìn)行非線性轉(zhuǎn)換[8]。文獻(xiàn)[9]將CNN應(yīng)用于文本分類任務(wù)中,其模型結(jié)構(gòu)簡單、超參數(shù)較少,可根據(jù)具體任務(wù)進(jìn)行微調(diào)以提高分類性能,該模型在情感分析和分類方面取得了較好的效果。

      1.2 基于RNN的文本分類

      基于RNN[10]的文本分類可以解決統(tǒng)計(jì)學(xué)習(xí)方法和傳統(tǒng)CNN方法在文本分類任務(wù)中忽略上下文信息的問題,其適用于處理序列的文本信息,但容易出現(xiàn)“梯度消失”的現(xiàn)象。長短期記憶(Long Short Term Memory,LSTM)[11]網(wǎng)絡(luò)可改善RNN“梯度消失”的不足,同時(shí)能夠有選擇地記憶序列中的重要信息,展現(xiàn)出文本中相隔較遠(yuǎn)的元素之間的相互聯(lián)系。LSTM在文本生成[12]、情感分類[13]等任務(wù)中取得顯著效果。

      1.3 其他文本分類方法

      除了上述文本分類方法外,研究人員還提出一些其他的算法。文獻(xiàn)[14]針對(duì)每個(gè)數(shù)據(jù)集,通過從訓(xùn)練子集中選擇50 000個(gè)最頻繁的單詞來構(gòu)建詞袋模型,對(duì)于正常的詞袋,該文獻(xiàn)使用每個(gè)單詞的計(jì)數(shù)作為特征,并結(jié)合TF-IDF(Term Frequency-Inverse Document Frequency)劃分最大特征值,以實(shí)現(xiàn)特征標(biāo)準(zhǔn)化。文獻(xiàn)[15]提出ConvNets (Character-level Convolutional Networks)模型,從字符角度出發(fā),利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,該模型在處理數(shù)據(jù)量達(dá)到百萬規(guī)模的數(shù)據(jù)集時(shí)效果顯著。

      2 本文文本分類算法

      本文提出一種基于主題相似性聚類的自適應(yīng)文本分類算法,其模型結(jié)構(gòu)如圖1所示,主要分為以下3個(gè)部分:

      1)結(jié)合CHI和WordCount提取訓(xùn)練集中每個(gè)類的文本特征詞,構(gòu)成類特征詞庫。

      2)通過K-means算法對(duì)測(cè)試集進(jìn)行聚類,得到若干個(gè)簇,提取每個(gè)簇的特征詞,構(gòu)成簇特征詞庫。

      3)通過自適應(yīng)文本分類方法Adaptive Strategy,計(jì)算簇特征詞庫與類特征詞庫的重疊部分,然后根據(jù)重疊部分在簇特征詞庫中的占比,為每個(gè)簇分配一個(gè)類標(biāo)簽,從而選取不同的模型,得到分類結(jié)果。

      圖1 基于主題相似性聚類的自適應(yīng)文本分類模型Fig.1 Adaptive text classification model based on topicsimilarity clustering

      2.1 基于CHI與WordCount的類特征詞庫構(gòu)建

      目前常用的文本特征提取方法主要有CHI、文檔頻率(Document Frequency,DF)、信息增益(Information Gain,IG)、互信息(Mutual Information,IM)等。文獻(xiàn)[16]研究表明,CHI是較優(yōu)的特征提取方法,但是其只考慮特征項(xiàng)出現(xiàn)在所有文本中的頻率,而忽略了特征項(xiàng)在某一文本中出現(xiàn)的次數(shù)。增加低頻詞的權(quán)重,使得不同類別主題詞的交叉情況變得復(fù)雜,很難分辨出該特征項(xiàng)在不同類別中的使用頻度。因此,本文采用CHI方法提取類別中的文本特征,并引入詞頻因子構(gòu)建特征詞庫[17]。例如,在數(shù)據(jù)集中有2個(gè)類別Ci和Cj(i≠j),同時(shí)共有特征項(xiàng)t,t在Ci中出現(xiàn)100次,在Cj中出現(xiàn)1次,則特征項(xiàng)t是類別Ci的特征比t是Cj的特征更具類別特征表示能力。令di表示特征項(xiàng)t在文本Ci中出現(xiàn)的次數(shù),則詞頻系數(shù)β可以用式(1)表示。

      (1)

      (2)

      其中,a表示包含特征詞wi且屬于類別Cj的文檔數(shù),b表示包含特征詞wi且不屬于類別Cj的文檔數(shù),c表示不包含特征詞wi且屬于類別Cj的文檔數(shù),d表示不包含特征詞wi且不屬于類別Cj的文檔數(shù)。詞頻系數(shù)越大表示特征項(xiàng)在類別中出現(xiàn)的頻率越高,而在其他類別中出現(xiàn)的次數(shù)較少,因此可以作為本類的特征。反之,詞頻系數(shù)越小表示該特征項(xiàng)在本類別中出現(xiàn)的頻率越低,而在其他類別中出現(xiàn)的次數(shù)較多,因此不適合作為本類的特征,而將類提取的特征作為類特征詞庫元素。對(duì)于全局特征提取,可根據(jù)式(2)計(jì)算出相關(guān)程度,再利用式(3)或式(4)計(jì)算全局x2值。

      (3)

      (4)

      2.2 依賴于主題相似性聚類的文本標(biāo)簽

      為了區(qū)分不同類的主題,需要將文本按照句子相似度打上聚類處理,并預(yù)先對(duì)文本進(jìn)行標(biāo)簽,便于不同主題選取各自的模型。傳統(tǒng)的K-means算法主要存在以下缺點(diǎn):

      1)需要利用預(yù)先知識(shí)選取K值,而在很多情況下,K值的選取較為困難,其大小直接影響聚類效果。

      2)聚類中心點(diǎn)通常是隨機(jī)選取的,而K-means算法對(duì)聚類中心點(diǎn)非常敏感,因此,不同的初始聚類中心點(diǎn)可以得到不同的結(jié)果。

      3)文本數(shù)據(jù)表示通常使用向量空間模型(Vector Space Model,VSM)將文本內(nèi)容處理簡化為向量空間的運(yùn)算,依據(jù)詞頻信息進(jìn)行處理,并且詞與詞之間相互獨(dú)立,一個(gè)關(guān)鍵字代表一個(gè)語義單元,但該方法難以滿足實(shí)際需要。

      為了區(qū)分不同類的主題交叉情況,本文采用K-means算法和預(yù)訓(xùn)練的word2vec詞向量計(jì)算文本相似度,以自動(dòng)確定聚類中的K值。具體算法如算法1所示。

      算法1K-means句子相似度聚類算法

      輸入包含n個(gè)對(duì)象的文本數(shù)據(jù)集D,預(yù)訓(xùn)練好的詞向量(dim=300),相似度閾值m

      輸出聚類結(jié)果(包含若干個(gè)簇)

      步驟1對(duì)文本數(shù)據(jù)集D進(jìn)行預(yù)處理,使用nltk進(jìn)行分詞并去除停用詞,此時(shí)文本數(shù)據(jù)集D表示為D={di|di={wi1,wi2,…,win},i=1,2,…,n}。

      步驟2導(dǎo)入預(yù)訓(xùn)練的詞向量,查找出文本中每個(gè)詞di的詞向量,對(duì)句中所有詞向量求平均值,得到文本向量D=Si,其中i=1,2,…,n。

      步驟3隨機(jī)獲取句中的一個(gè)文本對(duì)象,將其向量均值作為初始的聚類中心向量C1,中心點(diǎn)為c1。

      步驟4根據(jù)文本向量Si與簇的中心向量C1計(jì)算余弦相似度。

      步驟5若步驟4中得到的余弦相似度值大于或等于閾值m,則將文本向量Si聚在一個(gè)簇中,并將簇中所有句子向量的平均值作為新的簇中心點(diǎn);反之,如果得到的余弦相似度小于閾值m,則將這個(gè)文本向量Si作為簇中心創(chuàng)建新的簇。

      步驟6若簇中的文本對(duì)象不超過10個(gè),則降低閾值m,將較少的對(duì)象重新分配到已存在的簇中,并重復(fù)步驟4和步驟5。

      2.3 自適應(yīng)文本分類

      本文采用fasttext、TextCNN和RCNN(Recurrent Convolutional Neural Network)3種分類模型[18]。其中,fasttext與現(xiàn)有的分類器不同,它是一種簡單、高效且具有淺層網(wǎng)絡(luò)的分類器,使用向量表征單詞的N-Gram特征,并將局部詞序考慮在內(nèi),以縮小線性模型和深度模型之間的差距,提高文本分類的準(zhǔn)確率和效率[19]。TextCNN將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在文本分類中,使用預(yù)訓(xùn)練的詞向量完成句子級(jí)別的分類任務(wù),并通過采用多個(gè)不同尺寸的卷積核捕捉文本中不同尺寸卷積核的文本特征。RCNN利用單詞表示和循環(huán)結(jié)構(gòu)捕捉文本上下文信息,與傳統(tǒng)的基于窗口的神經(jīng)網(wǎng)絡(luò)相比,RCNN減少了噪聲的引入,并使用最大池化層自動(dòng)判斷詞語在文本分類中的重要程度,以捕捉文章的關(guān)鍵信息[20]。

      可以看出,僅使用一種網(wǎng)絡(luò)模型進(jìn)行分類,容易造成對(duì)不同類數(shù)據(jù)的敏感度不同。為了彌補(bǔ)這一缺陷,實(shí)現(xiàn)不同模型間的優(yōu)勢(shì)互補(bǔ),本文將所構(gòu)建的類特征詞庫與主題相似性聚類相結(jié)合,提出自適應(yīng)文本分類方法Adaptive Strategy,具體描述如算法2所示。

      算法2Adaptive Strategy算法

      輸入類特征詞庫ClassFDictim(下標(biāo)im表示第i類中特征項(xiàng)的個(gè)數(shù)為m,i=1,2,3,4),算法1的聚類結(jié)果{c1,c2,…,cl},l表示簇號(hào)

      輸出測(cè)試集類別

      步驟1使用TF-IDF方法提取聚類結(jié)果{c1,c2,…,cl}的關(guān)鍵詞,得到簇特征詞庫集合{Wln},其中,下標(biāo)ln表示第l個(gè)簇中特征詞的個(gè)數(shù)為n。

      步驟2根據(jù)式(5)計(jì)算特征詞庫和簇特征詞庫的重疊部分Pi,具體如下:

      Pi={{Tim}∩{Wln}}

      (5)

      步驟3通過式(6)計(jì)算重疊部分Pi在簇特征詞庫Wln中的占比,具體如下:

      (6)

      步驟4利用式(7)、式(8)計(jì)算重疊部分Pi在簇特征詞庫Wln中的最大占比,將該簇l標(biāo)記為第i類。

      cli=max{ri}

      (7)

      cli?Ci

      (8)

      步驟5根據(jù)模型數(shù)據(jù)的敏感度,選取Ci的模型Modelj,其中j=1,2,3分別對(duì)應(yīng)3種分類模型fasttext、TextCNN和RCNN。

      步驟6利用模型Modelj進(jìn)行分類,得到最終的分類結(jié)果。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本文實(shí)驗(yàn)采用AG新聞主題分類數(shù)據(jù)集,訓(xùn)練集和測(cè)試集不重疊。該新聞數(shù)據(jù)集包括4類主題,分別是World、Sports、Business和Sci-tech,其中,訓(xùn)練集共有120 000條數(shù)據(jù),每類主題包含30 000條,測(cè)試集共有7 600條數(shù)據(jù),每類主題包含1 900條。

      3.2 評(píng)測(cè)指標(biāo)

      文本分類常用的評(píng)測(cè)標(biāo)準(zhǔn)有查準(zhǔn)率P、召回率R和F1值等。其中,查準(zhǔn)率P是指文本正確分類條數(shù)Tc與文本實(shí)際分類條數(shù)Ts的比值,其計(jì)算公式如下:

      (9)

      召回率R是指文本正確分類條數(shù)Tc與原有文本信息條數(shù)Ty的比值,其計(jì)算公式如下:

      (10)

      F1值綜合考慮查準(zhǔn)率P和召回率R,其計(jì)算公式如下:

      (11)

      3.3 結(jié)果分析

      本文實(shí)驗(yàn)采用CHI和WordCount相結(jié)合的方法對(duì)每個(gè)類進(jìn)行特征選擇,構(gòu)成類特征詞庫。根據(jù)式(2)計(jì)算特征項(xiàng)的CHI值,按照從大到小進(jìn)行排序后選取前30%的詞作為每個(gè)類的特征詞。最終在訓(xùn)練集中,World類、Sports類、Business類和Sci-tech類分別包含6 225個(gè)、6 705個(gè)、5 716和6 861個(gè)特征詞。本文從每類中選取10個(gè)特征詞,具體見表1。

      表1 每類提取到的特征詞Table 1 Feature words extracted from each category

      將CHI和WordCount相結(jié)合的方法與僅使用CHI的方法進(jìn)行對(duì)比后發(fā)現(xiàn),本文方法可以有效減少特征詞中的低頻詞,降低低頻詞的權(quán)重,提高特征詞質(zhì)量。

      為了研究每個(gè)模型對(duì)數(shù)據(jù)的敏感類型,本文對(duì)AG新聞數(shù)據(jù)集中的訓(xùn)練集進(jìn)行預(yù)處理。在每類中隨機(jī)選取2 000條數(shù)據(jù),共8 000條數(shù)據(jù)作為測(cè)試集,剩下的112 000條數(shù)據(jù)作為訓(xùn)練集,然后使用fasttext、TextCNN、RCNN 3種模型對(duì)其進(jìn)行訓(xùn)練和測(cè)試,結(jié)果如表2~表4所示。

      表2 3種模型在測(cè)試集上的召回率對(duì)比Table 2 Comparison of recall rates between three modelson the testset %

      表3 3種模型在測(cè)試集上的查準(zhǔn)率對(duì)比Table 3 Comparison of precision rates between three modelson the testset %

      表4 3種模型在測(cè)試集上的F1值對(duì)比Table 4 Comparison of F1 values between three modelson the testset %

      在一般情況下,R值越高,其分類模型對(duì)數(shù)據(jù)越敏感。查準(zhǔn)率P可由式(9)計(jì)算得到,在一般情況下,P值越高,分類器對(duì)數(shù)據(jù)越敏感,但在某些情況下,其與召回率結(jié)果相矛盾。例如,當(dāng)R值為100%時(shí),P值會(huì)很低,此時(shí)可引入F1值綜合分析測(cè)試結(jié)果,F1值越高,模型對(duì)數(shù)據(jù)越敏感。因此,不同模型可根據(jù)R、P和F1值選取不同類的數(shù)據(jù)。

      根據(jù)上述理論分析以及表2~表4的結(jié)果可知,fasttext模型對(duì)于Sports和World類的召回率和F1值均高于RCNN和TextCNN模型,因此,fasttext模型對(duì)Sports和World類比較敏感。TextCNN對(duì)于Business類的召回率、查準(zhǔn)率和F1值明顯高于fasttext和RCNN模型,因此,TextCNN對(duì)Business類比較敏感。RCNN模型對(duì)于Sci-tech類的召回率和F1值較高,但其查準(zhǔn)率較低。從整體上考慮,本文選取RCNN模型對(duì)Sci-tech類進(jìn)行分類。由于在區(qū)分Business類和Sci-tech類時(shí),TextCNN模型的F1值較高,因此可利用每種模型的優(yōu)勢(shì),對(duì)文本進(jìn)行自適應(yīng)分類。將算法1得到的聚類結(jié)果以及CHI與WordCount相結(jié)合得到的類特征詞庫作為輸入執(zhí)行算法2,可以得到不同簇對(duì)應(yīng)的不同模型,然后進(jìn)行自適應(yīng)分類。表5給出本文模型與其他14種模型的分類結(jié)果對(duì)比。

      表5 本文模型與其他模型的分類準(zhǔn)確率對(duì)比Table 5 Comparison of the classification accuracy rate between theproposed algorithm and other algorithms %

      在表5中,未標(biāo)注引用的模型均為復(fù)現(xiàn),由于參數(shù)不同,其準(zhǔn)確率與原論文有所差別,可以看出,本文模型的分類準(zhǔn)確率高于其他模型。與單獨(dú)使用的fasttext、RCNN和TextCNN模型相比,本文模型的召回率、查準(zhǔn)率和F1值明顯提高,具體如圖2~圖4所示。

      圖2 本文模型和單一模型的召回率對(duì)比Fig.2 Comparison of recall rate between the proposedmodel and single model

      圖3 本文模型和單一模型的查準(zhǔn)率對(duì)比Fig.3 Comparison of precision between the proposed modeland single model

      圖4 本文模型和單一模型的F1值對(duì)比Fig.4 Comparison of F1 values between the proposed modeland single model

      因此,可利用每種模型的優(yōu)勢(shì),對(duì)文本進(jìn)行自適應(yīng)分類。本文所選用的3種文本分類模型,經(jīng)測(cè)試其總體準(zhǔn)確率較為接近,如果選用更好的分類模型,則模型分類準(zhǔn)確率差距應(yīng)盡可能小,不同模型之間能夠?qū)崿F(xiàn)優(yōu)勢(shì)互補(bǔ),達(dá)到更好的分類效果。實(shí)驗(yàn)結(jié)果證明,本文算法可以實(shí)現(xiàn)3種模型的優(yōu)勢(shì)互補(bǔ),提高分類準(zhǔn)確率。

      4 結(jié)束語

      本文針對(duì)文本分類中不同類特征詞交叉的問題,提出一種基于主題相似性聚類的文本分類算法。通過CHI和WordCount相結(jié)合的方法提取各個(gè)類的特征,構(gòu)成類特征詞庫,利用K-means算法進(jìn)行主題聚類,并提取聚類結(jié)果的關(guān)鍵詞,構(gòu)建簇特征詞庫,根據(jù)簇特征詞庫和類特征詞庫的重疊部分在簇特征詞庫中的占比進(jìn)行主題匹配。在此基礎(chǔ)上,融合不同模型進(jìn)行自適應(yīng)匹配,得到最終的分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,與單獨(dú)使用fasttext、TextCNN、RCNN模型相比,該算法對(duì)數(shù)據(jù)集的分類準(zhǔn)確率有明顯提高。下一步將從不同角度進(jìn)行模型匹配,從而更好地實(shí)現(xiàn)模型間的優(yōu)勢(shì)互補(bǔ)。

      猜你喜歡
      詞庫特征詞聚類
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      基于DBSACN聚類算法的XML文檔聚類
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      詞庫音系學(xué)的幾個(gè)理論問題芻議
      基于改進(jìn)的遺傳算法的模糊聚類算法
      面向文本分類的特征詞選取方法研究與改進(jìn)
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      環(huán)境變了,詞庫別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      QQ手機(jī)輸入法如何導(dǎo)入分類詞庫
      電腦迷(2012年15期)2012-04-29 17:09:47
      澄迈县| 林口县| 千阳县| 呼伦贝尔市| 永靖县| 棋牌| 新昌县| 运城市| 行唐县| 沁水县| 砚山县| 射洪县| 安陆市| 崇信县| 北碚区| 盐池县| 金门县| 绥宁县| 垦利县| 万源市| 洪洞县| 亳州市| 秦安县| 美姑县| 阜阳市| 荣成市| 荆门市| 化隆| 色达县| 响水县| 建德市| 西盟| 东丽区| 周口市| 上栗县| 吴川市| 涪陵区| 仁布县| 肥乡县| 光泽县| 凌源市|