• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于點互信息語義相似性的向量空間模型

    2021-05-19 07:04:16牛奉高趙霞徐倩麗
    關(guān)鍵詞:互信息相似性語義

    牛奉高,趙霞,徐倩麗

    (山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)

    0 引言

    大數(shù)據(jù)時代,文本數(shù)據(jù)極大豐富的同時,資源檢索精度下降,檢索成本也在增加,我們往往渴望快速獲得自己理想的資源,因而,對信息檢索、文本分類與聚類、自動問答系統(tǒng)等的要求也進(jìn)一步提高。語義相似度計算則是這些應(yīng)用的必要技術(shù)[1]。詞語相似度用于度量兩個詞語之間是否存在語義關(guān)系,以及語義關(guān)系的強(qiáng)弱,是自然語言處理(Natural Language Processing,NLP)的關(guān)鍵環(huán)節(jié),也是信息檢索、問答系統(tǒng)、情感分析等眾多NLP下游應(yīng)用的基礎(chǔ),所以如何正確計算詞語的相似性顯得尤為重要[2]。在文本分類和聚類領(lǐng)域,語義相似度的計算起著重要的作用,只有充分、準(zhǔn)確的提取挖掘文本中詞與詞之間的語義信息,才能使詞之間相似度的計算更加精準(zhǔn),進(jìn)而更好地對文本進(jìn)行分類、聚類,在應(yīng)用中達(dá)到理想的效果。本文主要利用點互信息(Point Mutual Information,PMI)估計特征詞間的語義相似度,結(jié)合共現(xiàn)潛在語義向量空間模型(Co-occurrence Latent Semantic Vector Space Model,CLSVSM)思想,構(gòu)建新的文本表示模型,提高信息檢索精度,降低檢索成本。同時將點互信息估計特征詞間語義相似度的方法與word2vec[3]估計語義相似度的方法進(jìn)行比較,突出前者的優(yōu)勢所在。

    1 研究現(xiàn)狀

    1.1 相關(guān)研究現(xiàn)狀

    文本的表示源于信息檢索研究。文本表示是文本分析工作中最基礎(chǔ)的一個環(huán)節(jié),文本表示的結(jié)果會直接影響文本分析的效率和準(zhǔn)確率[4]。最基本的表示方法是由Salton[5]提出的向量空間模型(Vector Space Model,VSM),它將每個文獻(xiàn)映射為詞空間中的高維向量,因此在進(jìn)行文本聚類時,文本之間語義的相似度計算便轉(zhuǎn)化為向量空間中向量距離或夾角的計算,即:通過相應(yīng)向量的聚類實現(xiàn)文本聚類[6]。然而,VSM對詞間語義關(guān)系的忽視,造成了詞語獨立存在、詞向量呈現(xiàn)正交關(guān)系的現(xiàn)狀,因此,文本聚類精度不高?;诖?,Wong等[7]提出廣義向量空間模型(Generalized Vector Space Model,GVSM),該模型表示非正交空間中的文獻(xiàn),挖掘了詞之間的部分共現(xiàn)信息,但是仍未充分提取。進(jìn)而,牛奉高[8-9]針對語義信息提取不充分的問題,提出了CLSVSM,并且對共現(xiàn)分布進(jìn)行了討論。該模型通過提取特征詞之間潛在共現(xiàn)信息來實現(xiàn)對布爾模型的補(bǔ)充,最終構(gòu)建的CLSVSM相比于VSM有更好的聚類效果。該方法說明在表示模型中深度挖掘語義信息對文本主題聚類有著巨大的意義。

    語義信息是否被充分的提取,將直接影響文本聚類精度的高低,而語義信息的提取依賴于語義相似度的計算,因此,必須對詞語間的相似度進(jìn)行精確的計算。自然語言處理中,一般用基于語料庫的算法和基于語義資源的算法來進(jìn)行詞語語義相似度的計算?;谡Z義資源計算詞語間的相似度是通過計算詞語在語義詞典概念層次體系中的距離、深度等來實現(xiàn)的。其中,劉群等[10]語義相似度算法的提出運用了《知網(wǎng)》的層次體系,該方法將詞語間相似度的計算轉(zhuǎn)化為義原間相似度的計算。義原為表達(dá)詞語的最小單位,因而提高了語義相似度計算的準(zhǔn)確性。此后,李素建等[11]在計算語義相似度時結(jié)合運用了《知網(wǎng)》和《同義詞詞林》兩個語義詞典,充分融合二者的詞典體系,拓寬了語義相似性計算方法的使用范圍;王斌等[12]通過計算層次樹中兩個節(jié)點之間的路徑長度來計算詞之間的相似性,該方法忽略了節(jié)點間的密度信息,導(dǎo)致詞間相似性計算不準(zhǔn)確;對此,呂立輝等[13]在計算相似度時綜合運用詞語的密度和路徑信息,使計算出的相似度更加符合實際?;谡Z料庫的算法是通過對詞與詞之間的信息量、共現(xiàn)頻次等進(jìn)行統(tǒng)計來計算相似度的。例如,Lee等[14]采用相關(guān)熵來計算詞之間的語義相似性,并衡量相似性關(guān)系的強(qiáng)弱;Dagan等[15]提出基于分布相似性的概率詞關(guān)聯(lián)模型,該模型將語義相似度的計算轉(zhuǎn)化為詞語間距離的計算,解決了詞語間相似性計算繁瑣的問題;隨后,Pantel[16]利用點互信息,將詞間點互信息作為余弦夾角各維的權(quán)重來計算詞之間的相似性,進(jìn)一步提取了詞間潛在語義相似性。由上可見,點互信息對詞語語義相似性的可行性和有效性。

    1.2 CLSVSM回顧

    CLSVSM是牛奉高等人[8-9]針對VSM的不足,利用特征詞間共現(xiàn)信息,提取挖掘特征詞與文獻(xiàn)間的潛在語義信息,再對原始布爾模型進(jìn)行補(bǔ)充得到的高維向量表示模型。該模型的提出,相較于傳統(tǒng)的VSM和GVSM,挖掘了更多的潛在語義信息,不僅提高了文本聚類的精度,而且在一定程度上降低了高維向量稀疏的問題。共現(xiàn)分析是對事物共現(xiàn)現(xiàn)象的研究,所謂共現(xiàn)是指文本特征項,如:作者、題名,關(guān)鍵詞等共同發(fā)生的情況。在我們的研究中特征項指關(guān)鍵詞。關(guān)鍵詞高度概括文章的內(nèi)容[17],同時也是文獻(xiàn)標(biāo)引工作中用來標(biāo)示文獻(xiàn)主要內(nèi)容信息的詞匯或術(shù)語,因此本文選擇關(guān)鍵詞來表述文獻(xiàn)。在CLSVSM的構(gòu)建過程中,首先通過統(tǒng)計文獻(xiàn)關(guān)鍵詞詞頻得到篇-詞矩陣A,然后得到一系列矩陣:共現(xiàn)矩陣C、共現(xiàn)強(qiáng)度矩陣B,以及對布爾模型進(jìn)行補(bǔ)充后的新篇-詞矩陣。補(bǔ)充過程即為CLSVSM的構(gòu)建過程。構(gòu)建模型時引入新的指標(biāo)集,表示文獻(xiàn)i所包含的特征詞在此空間中的序號集合,如式(1)所示(本文改變了其記號):

    當(dāng)aij=0時,用來量化關(guān)鍵詞j與文獻(xiàn)i的語義關(guān)系,進(jìn)而實現(xiàn)對布爾模型的補(bǔ)充得到CLSVSM,其表達(dá)式如式(2)等所示:

    其中bjt為共現(xiàn)強(qiáng)度矩陣B中的元素,表示第j個關(guān)鍵詞與第t個關(guān)鍵詞間的共現(xiàn)強(qiáng)度關(guān)系。式中di為第i篇文獻(xiàn),aij為第j個關(guān)鍵詞在第i篇文獻(xiàn)中的權(quán)重值。qij的表達(dá)式中:當(dāng)qij=1時,表示關(guān)鍵詞j出現(xiàn)在第i篇文獻(xiàn)中,當(dāng)qij=0時,表示文獻(xiàn)i中沒有找到關(guān)鍵詞j,且該關(guān)鍵詞與其他關(guān)鍵詞不存在語義上的關(guān)系,即在該文獻(xiàn)中不含有與關(guān)鍵詞j的共現(xiàn)關(guān)系。

    最后用CLSVSM中的各值構(gòu)建新的篇-詞矩陣Q,用于文本主題聚類。

    2 基于點互信息的語義相似度計算

    2.1 基于點互信息的語義相似度研究

    互信息(Mutual Information,MI)[18-19]來源于信息論,是對詞語間相似性的一種度量[20]。在自然語言處理中,許多學(xué)者應(yīng)用傳統(tǒng)的互信息方法來進(jìn)行語義相似度的計算[21]。 Pantel[16]首次提出利用點互信息來計算詞語間相似性,并提出一種新的聚類方法 CBC(Clustering By Committee)。馬海昌等[20]在同義詞抽取的研究中,利用互信息和潛在語義相結(jié)合的方法度量詞語間的相似性,解決了同義詞抽取中語義相似度計算不精確的難題。

    2.2 基于點互信息的語義相似度計算

    自然語言處理中,很多方法可以度量語義相似性,互信息為其中之一。互信息多用來度量隨機(jī)變量間相互依賴的程度[22-24]。假設(shè)給定兩個離散型隨機(jī)變量X和Y,并分別設(shè)置它們的樣本空間S和T,二者的聯(lián)合分布p(x,y),以及各自的邊緣分布p(x),p(y),則二者間互信息的計算方法如式(5)所示:

    從上式可以看出,當(dāng)兩個隨機(jī)變量相互獨立時,其互信息為0,意味著兩個變量間不存在相互重疊的信息??傊S機(jī)變量間的互信息與其之間的相關(guān)性成正比關(guān)系[25]。

    當(dāng)隨機(jī)變量為連續(xù)型時,互信息的計算方法如式(6)[26]所示:

    本文采用互信息的衍生概念——點互信息,通過兩個關(guān)鍵詞在文獻(xiàn)中的共現(xiàn)頻次來計算相似性。文中統(tǒng)計所收集文獻(xiàn)中任意兩個關(guān)鍵詞之間共同出現(xiàn)的頻次,計算二者之間的點互信息,來衡量關(guān)鍵詞間的相似性。設(shè)有關(guān)鍵詞x和y,則兩關(guān)鍵詞間點互信息的計算方法如式(7)所示:

    式中p(x,y)表示關(guān)鍵詞x和y共現(xiàn)的概率,p(x),p(y)分別表示關(guān)鍵詞x和y各自出現(xiàn)的概率。

    本文綜合考慮其實際意義。例如當(dāng)兩個關(guān)鍵詞間的共現(xiàn)頻次為0時,二者間PMI的值為-inf,表示兩個詞間存在微弱的相反關(guān)系,但實際意義表示這兩個詞沒有共現(xiàn),因而此時作者將該P(yáng)MI值賦為0。

    下面將對關(guān)鍵詞間相似度的計算步驟進(jìn)行詳細(xì)的闡述:

    (1)根據(jù)收集到的文獻(xiàn)數(shù)據(jù),(經(jīng)過簡單的預(yù)處理,以本文使用的第一個中文數(shù)據(jù)集為例,即去除不含有關(guān)鍵詞的文獻(xiàn))提取文獻(xiàn)所含關(guān)鍵詞;

    (2)統(tǒng)計關(guān)鍵詞詞頻,并按降序排列;

    (3)由詞頻統(tǒng)計表生成文獻(xiàn)-關(guān)鍵詞矩陣A=(aij)n×m,簡稱篇-詞矩陣,用來表現(xiàn)關(guān)鍵詞在文獻(xiàn)中的出現(xiàn)情況,即元素ai j=1表示關(guān)鍵詞j在文獻(xiàn)i中出現(xiàn),ai j=0表示關(guān)鍵詞不出現(xiàn),其中共有n篇文獻(xiàn),m個關(guān)鍵詞。篇-詞矩陣中的元素非0即1,為布爾權(quán)重;

    (4)由篇-詞矩陣生成關(guān)鍵詞-關(guān)鍵詞共現(xiàn)矩陣C=ATA,簡稱共現(xiàn)矩陣,用來表示兩個關(guān)鍵詞間的共現(xiàn)情況。矩陣中各個元素cij為所對應(yīng)的兩個關(guān)鍵詞i,j共現(xiàn)的頻次;

    (5)由點互信息的定義式和共現(xiàn)矩陣中關(guān)鍵詞間的共現(xiàn)頻次數(shù)據(jù)來計算任意兩個關(guān)鍵詞間的點互信息。計算方法如式(7);

    (6)計算出關(guān)鍵詞間點互信息之后,我們在挖掘兩個關(guān)鍵詞間語義相似度時需要構(gòu)建一個與這兩個關(guān)鍵詞同時共現(xiàn)的關(guān)鍵詞共現(xiàn)向量V;

    (7)關(guān)鍵詞共現(xiàn)向量構(gòu)建完成后,利用余弦夾角公式,計算兩個關(guān)鍵詞間潛在語義相似度Rel(x,y),如式(8)所示:

    其中向量V為上述構(gòu)建的關(guān)鍵詞共現(xiàn)向量,w為其中的元素,即與關(guān)鍵詞x和y同時共現(xiàn)的關(guān)鍵詞。Pantel[16]在提出利用點互信息,將詞間點互信息作為余弦夾角各維權(quán)重來計算相似度的方法中,并沒有明確表示向量V的含義。本文在此基礎(chǔ)上對向量V作出解釋,即上述提出的關(guān)鍵詞共現(xiàn)向量。

    (8)式使原本沒有共現(xiàn)關(guān)系的兩個關(guān)鍵詞,通過構(gòu)建關(guān)鍵詞共現(xiàn)向量,進(jìn)一步提取挖掘了關(guān)鍵詞間的潛在語義相似關(guān)系,使語義提取更加充分,關(guān)鍵詞共現(xiàn)向量在這里起到了橋梁的作用。

    3 語義增強(qiáng)的CLSVSM

    文獻(xiàn)主題聚類中,不僅需要充分提取挖掘關(guān)鍵詞間的語義相似信息,還要將文獻(xiàn)與關(guān)鍵詞間的語義關(guān)系考慮在內(nèi)。文獻(xiàn)與關(guān)鍵詞的語義相似性主要用于衡量該文獻(xiàn)與其不包括的關(guān)鍵詞之間的主題接近性,并將其作為文獻(xiàn)在詞空間中該維度上的坐標(biāo)分量,與文獻(xiàn)中所含的關(guān)鍵詞共同表征該文獻(xiàn)的語義信息[27]。CLSVSM在VSM的基礎(chǔ)上進(jìn)行共現(xiàn)分析挖掘潛在語義。本文基于CLSVSM,利用點互信息提取、挖掘關(guān)鍵詞間潛在語義相似關(guān)系,提出基于點互信息的CLSVSM,并通過提取出的潛在語義相似關(guān)系修正布爾模型中關(guān)鍵詞在相應(yīng)文獻(xiàn)中的權(quán)重,提出語義增強(qiáng)的CLSVSM。

    3.1 基于點互信息的CLSVSM

    CLSVSM利用關(guān)鍵詞間最大共現(xiàn)強(qiáng)度來對傳統(tǒng)VSM中權(quán)重為0位置的潛在語義進(jìn)行估計。雖然該模型降低了VSM的稀疏性,提高了文獻(xiàn)聚類的精度,但該模型主要度量了文獻(xiàn)與詞之間的潛在相似性,如果再加上關(guān)鍵詞間的相似性效果可能會更加顯著。因此,本文利用關(guān)鍵詞間點互信息,結(jié)合CLSVSM的構(gòu)造思想,提出了用關(guān)鍵詞間最大點互信息代替最大共現(xiàn)強(qiáng)度,進(jìn)而對VSM中0值填補(bǔ),實現(xiàn)了基于點互信息的CLSVSM的構(gòu)造。

    3.2 語義增強(qiáng)的CLSVSM

    在CLSVSM中,通過對VSM中0位置的補(bǔ)充,使得文獻(xiàn)主題聚類的精度得到了一定的提高。本文旨在利用點互信息和關(guān)鍵詞共現(xiàn)向量,提取關(guān)鍵詞間潛在語義相似度,并對VSM中每個布爾權(quán)重進(jìn)行語義上的修正,使得各關(guān)鍵詞在整體上對文獻(xiàn)聚類的貢獻(xiàn)得到重新分配,進(jìn)而提出語義增強(qiáng)的CLSVSM。在構(gòu)建新模型時延用CLSVSM構(gòu)建時的符號體系。語義增強(qiáng)的CLSVSM的具體表達(dá)式如式(9)所示:

    該表達(dá)式在形式上與CLSVSM相同,不同的是本文將各維的權(quán)重重新分配,使得各個特征詞在文本中均有所體現(xiàn),并提出新權(quán)重的計算方法,如式(10)所示:

    式中,ait表示第i篇文獻(xiàn)中第t個關(guān)鍵詞的布爾權(quán)重,Reltj表示第j,t個關(guān)鍵詞間的語義相似度。

    該模型使得與文獻(xiàn)主題相關(guān)的關(guān)鍵詞的權(quán)重提高,而與文獻(xiàn)主題無關(guān)關(guān)鍵詞的權(quán)重降低,即在傳統(tǒng)的模型中直接嵌入關(guān)鍵詞間的潛在語義相似關(guān)系。在某種程度上,相當(dāng)于對語義關(guān)系的二次提取挖掘,即關(guān)鍵詞間潛在語義相似關(guān)系的提取和文獻(xiàn)關(guān)鍵詞間語義關(guān)系的提取。

    4 模型檢驗

    4.1 數(shù)據(jù)來源

    本實驗采用中、英文三個數(shù)據(jù)集,分別對基于點互信息的CLSVSM、語義增強(qiáng)的CLSVSM、CLSVSM、VSM以及word2vec模型進(jìn)行實驗,并對其結(jié)果進(jìn)行比較。

    實驗所采用的中文數(shù)據(jù)均來自CNKI。其中一類采集于信息科技下的“出版”“圖書情報與數(shù)字圖書館”“檔案及博物館”,每個學(xué)科按被引頻次降序排列各收集300篇文獻(xiàn),經(jīng)過簡單的預(yù)處理,即去除不含關(guān)鍵詞的文獻(xiàn),共獲得文獻(xiàn)895篇,其中包含“出版”296篇、“圖書情報與數(shù)字圖書館”299篇和“檔案及博物館”300篇,同時共獲得關(guān)鍵詞2024個;另一類數(shù)據(jù)采用多類別不均衡數(shù)據(jù),采集于“出版”“圖書情報與數(shù)字圖書館”“檔案及博物館”“基礎(chǔ)科學(xué)”和“醫(yī)藥衛(wèi)生科技”五個類別,每個類別學(xué)科收集400篇文獻(xiàn),經(jīng)過處理,即去除不含有關(guān)鍵詞的文獻(xiàn),去除關(guān)鍵詞詞頻小于2的關(guān)鍵詞,最終獲得文獻(xiàn)共1 739篇,其中“出版”360篇、“圖書情報與數(shù)字圖書館”369篇、“檔案及博物館”344篇、“基礎(chǔ)科學(xué)”286篇、“醫(yī)藥衛(wèi)生科技”380篇,共包含關(guān)鍵詞1 128個。

    英文數(shù)據(jù)采集于web of science,其中包括“computer science information system”,“management”,“computer science interdisciplinary applications”三個類別,分別含 234篇、123篇、54篇文獻(xiàn),共收集1 889個關(guān)鍵詞。

    4.2 評價指標(biāo)

    在文本聚類、分類領(lǐng)域中,往往希望找到一種完美的聚類算法使文本得到精準(zhǔn)分類,然而在實際情況中各種聚類算法難免存在偏差,這就使得我們需要對聚類算法進(jìn)行評價。本實驗采用信息檢索和機(jī)器學(xué)習(xí)領(lǐng)域常用的性能指標(biāo)[28]:純度(purity)、熵值(entropy)、F1值,以下對其進(jìn)行簡單的說明:

    B-Cubed方法是信息抽取的評價指標(biāo)[18],其通過計算每類的準(zhǔn)確率和召回率,加權(quán)平均求得整體的準(zhǔn)確率和召回率,進(jìn)而求得調(diào)和均值,即F1。而另外兩個評價指標(biāo)純度和熵值則可由gCLUTO平臺聚類直接獲得。

    純度、熵值及F1的取值均介于0和1之間,聚類之后最好的結(jié)果就是文獻(xiàn)數(shù)據(jù)的原分類和實驗之后的分類達(dá)到一致,即純度和F1值越大越好,熵值越小越好。

    4.3 實驗過程

    實驗中,我們首先用VSM、CLSVSM在三個數(shù)據(jù)集上分別進(jìn)行多次實驗,并記錄各實驗結(jié)果,期間用到VBA、R、gCLUTO軟件,然后用基于點互信息的CLSVSM和語義增強(qiáng)的CLSVSM進(jìn)行實驗。兩個新模型的提出都是基于CLSVSM,因而將CLSVSM的聚類結(jié)果作為一個基準(zhǔn)來衡量基于點互信息的CLSVSM和語義增強(qiáng)的CLSVSM的聚類結(jié)果的優(yōu)劣。最后,引入word2vec模型,實驗時,我們采用word2vec分別對以上三個數(shù)據(jù)集進(jìn)行訓(xùn)練,得到每個關(guān)鍵詞的詞向量,并將詞向量間的歐氏距離定義為關(guān)鍵詞之間的相似度,再進(jìn)行聚類。然后比較基于點互信息語義增強(qiáng)的CLSVSM、語義增強(qiáng)的CLSVSM以及word2vec模型的聚類效果。

    實驗過程將分為兩部分。第一部分:各模型在三個數(shù)據(jù)集上進(jìn)行多次實驗后,計算各指標(biāo)的均值和標(biāo)準(zhǔn)誤,以對模型的整體聚類效果進(jìn)行分析;第二部分:以第二個中文數(shù)據(jù)集為例,將各模型多次實驗的純度和熵值分別繪制為折線圖,進(jìn)行比較,以對各模型的效果有一個直觀的比較。

    4.4 實驗結(jié)果

    本文將基于點互信息的CLSVSM、語義增強(qiáng)的CLSVSM、CLSVSM、VSM以及word2vec模型分別在三個數(shù)據(jù)集上進(jìn)行比較,每種模型均進(jìn)行多次實驗。其中,第一部分實驗的結(jié)果如下表1-表3所示,第二部分的實驗結(jié)果如圖1和圖2所示:

    表1 各模型在第一個中文數(shù)據(jù)集(三類)上的實驗結(jié)果比較Table 1 Comparison among experimental results of the models on the first Chinese dataset(three types)

    表2 各模型在第二個中文數(shù)據(jù)集(五類)上的實驗結(jié)果比較Table 2 Comparison among experimental results of the models on the second Chinese dataset(five categories)

    表3 各模型在英文數(shù)據(jù)集上的實驗結(jié)果比較Table 3 Comparison among the experimental results of the model on English dataset

    圖1 各模型的純度折線圖Fig.1 Line chart of purity for each model

    圖2 各模型的熵值折線圖Fig.2 Line chart of entropy of each model

    由表1可知:語義增強(qiáng)的CLSVSM各評價指標(biāo)的結(jié)果均優(yōu)于CLSVSM,其中,純度和F1值分別提高了2.3%和2%,熵值下降了3.7%,聚類精度明顯提高,這是因為語義增強(qiáng)的CLSVSM在構(gòu)建過程中分別提取了關(guān)鍵詞間的潛在語義相似關(guān)系以及文獻(xiàn)與關(guān)鍵詞間的語義關(guān)系,較CLSVSM提取了更多的語義關(guān)系,最終表現(xiàn)出良好的聚類性能;而基于點互信息的CLSVSM在構(gòu)造過程中雖然植入了提取出的語義相似性,但其作用與共現(xiàn)強(qiáng)度相近,因而表現(xiàn)出的聚類效果與CLSVSM相當(dāng)。語義增強(qiáng)的CLSVSM和基于點互信息的CLSVSM的聚類效果同樣較word2vec的聚類效果優(yōu)良。

    表2所示實驗中,各模型的純度值低熵值高,可能是因為實驗所采用數(shù)據(jù)集為多類別不均衡數(shù)據(jù)集,所選文獻(xiàn)集分布較散所造成的。但是在聚類效果上,各模型在該數(shù)據(jù)集與第一個中文數(shù)據(jù)集上的表現(xiàn)一致。其中,語義增強(qiáng)的CLSVSM的純度和F1值分別較CLSVSM提高了10.2%和9.2%,而熵值降低了8.5%,同樣表現(xiàn)出很好的聚類效果。此外,基于點互信息的CLSVSM和語義增強(qiáng)的CLSVSM的聚類效果均優(yōu)于word2vec。

    由表3可知,語義增強(qiáng)的CLSVSM相對于CLSVSM雖然其純度值比較接近,但是F1值顯著提高了12.3%,說明在該英文數(shù)據(jù)集中,語義增強(qiáng)的CLSVSM對文獻(xiàn)聚類精度的提高仍然起到了一定的作用。同樣,語義增強(qiáng)的CLSVSM的聚類精度高于word2vec。

    由圖1和圖2可知:語義增強(qiáng)的CLSVSM的純度和熵值在30次實驗過程中均逐漸趨于穩(wěn)定,其中純度、熵值曲線并較其他曲線分別處于最高、最低位置;而基于點互信息的CLSVSM和CLSVSM的純度、熵值曲線均相互交織,不相上下,但均值曲線均高于word2vec,熵值曲線均低于word2vec。

    CLSVSM、基于點互信息的CLSVSM、語義增強(qiáng)的CLSVSM相對于傳統(tǒng)的VSM均在各模型中添加了語義信息。實驗采用中、英文三個不同類別的數(shù)據(jù)集,綜合圖表信息可知,三個模型在聚類精度上都較VSM有提高。而且,語義增強(qiáng)的CLSVSM在不同數(shù)據(jù)集上表現(xiàn)出一致的,較CLSVSM、word2vec聚類精度明顯提高的效果,檢驗了該模型的穩(wěn)定性及適用范圍的廣泛性。之所以語義增強(qiáng)的CLSVSM顯著提高了聚類精度,原因在于該模型不僅提取了關(guān)鍵詞間的潛在語義關(guān)系,還進(jìn)一步挖掘了文獻(xiàn)與關(guān)鍵詞間的關(guān)系,使?jié)撛谡Z義關(guān)系得到二次挖掘,最終達(dá)到顯著增強(qiáng)聚類效果的目的。以上結(jié)果有力地證明了提取挖掘關(guān)鍵詞間語義關(guān)系可以明顯提高文獻(xiàn)聚類的性能。語義增強(qiáng)的CLSVSM聚類效果明顯優(yōu)于word2vec,進(jìn)而說明基于點互信息提取出的關(guān)鍵詞間潛在相似性要比采用word2vec計算出的相似性更能獲得重要的信息,也更加符合實際。另外,本文對基于點互信息的CLSVSM、語義增強(qiáng)的CLSVSM及word2vec各自算法的時間復(fù)雜度進(jìn)行了研究。在時間復(fù)雜度中多用大O符號表示法,即T(n)=O(f(n)),其中f(n)表示每行代碼執(zhí)行次數(shù)之和,而O表示同階關(guān)系。對三個模型的復(fù)雜度進(jìn)行研究,基于點互信息的CLSVSM的時間復(fù)雜度為:T1(n)=O(n2),語義增強(qiáng)的CLSVSM的時間復(fù)雜度為:T2(n)=O(n3),word2vec的時間復(fù)雜度為:T3(n)=O(mlogn),其中,n為關(guān)鍵詞的個數(shù),m為語料庫大小。因為實際中m?n,故三者間的大小關(guān)系為T3>T2>T1。因而,語義增強(qiáng)的CLSVSM和基于點互信息的CLSVSM在時間復(fù)雜度上均較word2vec簡單,便于模型的推廣。

    5 結(jié)論

    語義相似性度量作為信息資源檢索、文獻(xiàn)主題聚類領(lǐng)域的關(guān)鍵技術(shù)受到極大的重視。語義信息是否充分提取將直接影響文獻(xiàn)聚類的結(jié)果。CLSVSM雖挖掘了共現(xiàn)潛在語義,但仍有很大的改進(jìn)空間。

    本文將語義相似性度量技術(shù)應(yīng)用于文獻(xiàn)主題聚類,在CLSVSM的基礎(chǔ)上,利用點互信息計算關(guān)鍵詞間語義相似度,提出基于點互信息的CLSVSM。同時,還通過潛在語義分析修正布爾權(quán)重,提出語義增強(qiáng)的CLSVSM,并與word2vec模型進(jìn)行對比實驗。經(jīng)實驗檢驗:基于點互信息的CLSVSM與原CLSVSM的聚類效果相當(dāng);語義增強(qiáng)的CLSVSM較CLSVSM有良好的聚類效果,能更好地度量文獻(xiàn)之間的主題相關(guān)性。在利用word2vec模型進(jìn)行語義相似度計算的對比實驗中,基于點互信息的CLSVSM、語義增強(qiáng)的CLSVSM的聚類效果均明顯優(yōu)于word2vec。因此語義增強(qiáng)的CLSVSM可作為一種新的算法應(yīng)用于信息檢索、文獻(xiàn)分類與聚類等領(lǐng)域,推進(jìn)信息資源利用的有效性和高效性。此后,我們將會對本文提出的兩種新模型擴(kuò)展到三元共現(xiàn)的情況并評價其效果。

    猜你喜歡
    互信息相似性語義
    一類上三角算子矩陣的相似性與酉相似性
    淺析當(dāng)代中西方繪畫的相似性
    河北畫報(2020年8期)2020-10-27 02:54:20
    語言與語義
    低滲透黏土中氯離子彌散作用離心模擬相似性
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    改進(jìn)的互信息最小化非線性盲源分離算法
    電測與儀表(2015年9期)2015-04-09 11:59:22
    基于增量式互信息的圖像快速匹配方法
    認(rèn)知范疇模糊與語義模糊
    满城县| 吉林省| 花莲市| 恭城| 呼伦贝尔市| 巴楚县| 宁夏| 金华市| 嘉荫县| 南召县| 广州市| 耒阳市| 体育| 监利县| 宝兴县| 巨鹿县| 墨竹工卡县| 郧西县| 库车县| 修武县| 叶城县| 黄大仙区| 汶川县| 英超| 龙口市| 乌苏市| 宁陵县| 政和县| 越西县| 垫江县| 赤水市| 沙田区| 许昌市| 吉林省| 丘北县| 海门市| 庐江县| 池州市| 郯城县| 长岭县| 道真|