徐建民,王鑫
(河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071002)
文檔間關(guān)系度量研究是近年來(lái)多個(gè)領(lǐng)域的一個(gè)研究熱點(diǎn),在文檔分類(lèi)、抄襲檢測(cè)、自動(dòng)問(wèn)答、智能檢索等領(lǐng)域都有著廣泛的應(yīng)用[1].傳統(tǒng)度量方法多假設(shè)文檔間關(guān)系是對(duì)稱(chēng)的,不區(qū)分文檔間關(guān)系的方向差異性,未能刻畫(huà)出2個(gè)文檔之間相互影響力的不同.Garg等[2]指出文本文檔間存在非對(duì)稱(chēng)關(guān)系并提出了一種度量方法,實(shí)驗(yàn)證明了非對(duì)稱(chēng)關(guān)系度量與傳統(tǒng)的對(duì)稱(chēng)度量方法相比具有更好的性能.
科技文檔不同于文本文檔,它是一種多模態(tài)數(shù)據(jù),除文本外,還包括公式、圖表等重要信息[3],很多時(shí)候科技文檔中的這些非文本信息更能代表相關(guān)文檔的內(nèi)涵.這些非文本信息之間的關(guān)系本質(zhì)上來(lái)看也不是對(duì)稱(chēng)的,忽略這種非對(duì)稱(chēng)關(guān)系,或?qū)⒁延械奈谋疚臋n間非對(duì)稱(chēng)關(guān)系度量方法直接用于度量科技文檔間非對(duì)稱(chēng)關(guān)系會(huì)造成度量數(shù)據(jù)的不準(zhǔn)確乃至產(chǎn)生較大偏差.
本文在對(duì)科技文檔間非對(duì)稱(chēng)關(guān)系進(jìn)行分析的基礎(chǔ)上,提出一種基于文本和公式雙模態(tài)的度量方法.該方法將非對(duì)稱(chēng)關(guān)系定義為覆蓋度,通過(guò)融合公式覆蓋度和文本覆蓋度得到文檔覆蓋度,以實(shí)現(xiàn)對(duì)科技文檔間非對(duì)稱(chēng)關(guān)系的度量.新方法可以更好地區(qū)分科技文檔間關(guān)系的方向性,更準(zhǔn)確地度量科技文檔間關(guān)系.本文的主要貢獻(xiàn)包括:
1)針對(duì)科技文檔間的非對(duì)稱(chēng)關(guān)系,提出文檔覆蓋度的概念,給出了文檔覆蓋度的規(guī)范定義.
2)提出一種基于非對(duì)稱(chēng)因子的公式覆蓋度計(jì)算方法,并基于TCM(Tversky contrast model)[4]思想對(duì)公式進(jìn)行了改進(jìn),在此基礎(chǔ)上線(xiàn)性組合公式覆蓋度和文本覆蓋度得到科技文檔的覆蓋度.
目前,已有的科技文檔間關(guān)系的度量方法多是基于對(duì)稱(chēng)關(guān)系的,主要分為4類(lèi):1)基于向量空間模型的方法.劉勘等[5]提出一種基于改進(jìn)TF-IDF特征詞加權(quán)算法的科技文檔聚類(lèi)方法,根據(jù)特征詞的詞頻、所在位置和詞性為特征詞加權(quán),建立科技文檔向量空間模型,利用該模型計(jì)算文檔相似度.牛奉高等[6]通過(guò)共現(xiàn)分析挖掘科技文檔特征詞間的語(yǔ)義關(guān)系,實(shí)現(xiàn)對(duì)向量空間模型的改進(jìn),利用改進(jìn)模型計(jì)算文檔間相似性.2)基于集合模型的方法.Jiang等[7]提出一種基于N-Gram的安全相似文檔檢測(cè)(SSDD)協(xié)議,考慮N-Gram模型具有識(shí)別重疊文本片段的優(yōu)點(diǎn),利用該模型計(jì)算文檔相似性.徐建民等[3]提出一種結(jié)合公式和文本的科技文檔相似度計(jì)算方法,公式相似度基于集合模型的思想得到,將公式相似度和文本相似度線(xiàn)性融合計(jì)算科技文檔相似度.3)基于層次結(jié)構(gòu)的方法.樓雯等[8]將文檔轉(zhuǎn)換為本體樹(shù)結(jié)構(gòu),利用本體中概念的相似程度計(jì)算文檔間相似性.黎雪微等[9]利用本體和信息量融合的相似度算法來(lái)改進(jìn)基于內(nèi)容的推薦方法中的文本項(xiàng)目過(guò)于集中的問(wèn)題,提出在推薦時(shí)同時(shí)考慮項(xiàng)目信息距離和信息損失距離的相似度.4)基于引文圖的方法.朱戈等[10]提出一種基于改進(jìn)PageRank的科技文檔相似性搜索算法,結(jié)合文檔內(nèi)容和文檔間引用關(guān)系對(duì)PageRank算法進(jìn)行改進(jìn),基于改進(jìn)算法計(jì)算文檔相似度.翟玲等[11]提出一種基于分段估計(jì)和PageRank的文檔相似性搜索算法,該算法采用分段估計(jì)法對(duì)文檔特征進(jìn)行提??;并將PageRank取值大小作為文檔初步分類(lèi)的準(zhǔn)則,計(jì)算文檔不同特征的相似度.上述方法均基于文檔間對(duì)稱(chēng)關(guān)系的假設(shè),未考慮科技文檔間關(guān)系的非對(duì)稱(chēng)性.
Chen等[12]發(fā)現(xiàn)在一個(gè)文檔集合中任意2個(gè)術(shù)語(yǔ)間的關(guān)聯(lián)是非對(duì)稱(chēng)的,提出了用術(shù)語(yǔ)共現(xiàn)算法來(lái)衡量術(shù)語(yǔ)間非對(duì)稱(chēng)關(guān)系.在術(shù)語(yǔ)間非對(duì)稱(chēng)關(guān)系發(fā)現(xiàn)后,相關(guān)專(zhuān)家學(xué)者從文本結(jié)構(gòu)、文本內(nèi)容等角度開(kāi)展了文檔間非對(duì)稱(chēng)關(guān)系的研究.從文本結(jié)構(gòu)角度:Guan等[13]提出一種稱(chēng)為種子親和傳播的文檔聚類(lèi)算法,通過(guò)獲取文本的結(jié)構(gòu)信息來(lái)度量文檔間的非對(duì)稱(chēng)關(guān)系,并定義了相同特征集合、獨(dú)特特征集合、顯著相同特征集合來(lái)表示文本的結(jié)構(gòu)信息.Chua等[14]用TCM思想來(lái)度量本體間非對(duì)稱(chēng)相似性,并將這種非對(duì)稱(chēng)相似性用于解決本體對(duì)齊的問(wèn)題.Albertoni等[15]提出一種本體實(shí)例間的非對(duì)稱(chēng)語(yǔ)義相似度計(jì)算方法,考慮了實(shí)例間結(jié)構(gòu)的比較,用非對(duì)稱(chēng)性來(lái)強(qiáng)調(diào)實(shí)例特征間的包含原則.部分學(xué)者還從文本內(nèi)容角度進(jìn)行了研究:Yoshida等[16]提出用修正重疊系數(shù)來(lái)衡量文檔間非對(duì)稱(chēng)關(guān)系,并將文檔關(guān)系的非對(duì)稱(chēng)性應(yīng)用到信息過(guò)濾系統(tǒng)中,從相似的文檔中選擇代表性文檔.Teitelbaum等[17]提出一種基于非對(duì)稱(chēng)距離的相似函數(shù),利用偏斜范數(shù)來(lái)度量文本間非對(duì)稱(chēng)關(guān)系.宋韶旭等[18]提出一種文本非對(duì)稱(chēng)相似度計(jì)算方法,并在此基礎(chǔ)上利用非對(duì)稱(chēng)相似度矩陣對(duì)文本進(jìn)行了聚類(lèi)分析.Wu等[19]提出了一種新的非對(duì)稱(chēng)文本相似性公式,該公式匯總了由不同雙線(xiàn)性參數(shù)矩陣參數(shù)化的逐層文本相似性,最后通過(guò)實(shí)驗(yàn)在3個(gè)公共數(shù)據(jù)集上證明了公式的有效性.上述工作的研究對(duì)象為文本文檔間非對(duì)稱(chēng)關(guān)系,沒(méi)有考慮科技文檔多模態(tài)數(shù)據(jù)的特殊性,不能直接用于科技文檔間非對(duì)稱(chēng)關(guān)系的計(jì)算.
科技文檔具有多模態(tài)的特征,除文本信息外,一般還包括公式和圖表.相對(duì)于文本的多義性和圖表的易改動(dòng)性,公式具有國(guó)際通用、不易修改等特征,可以更準(zhǔn)確地描述科技文檔的內(nèi)容及其文檔內(nèi)容內(nèi)在的邏輯關(guān)系,不失一般性.本文以數(shù)學(xué)公式為例論述.
借鑒文獻(xiàn)[3]的做法,本文將一篇科技文檔表示為一個(gè)二元組:di=(Fi,Ti),其中Fi表示公式部分,Ti表示文本部分.
2.1.1 公式部分的表示
一篇科技文檔中的公式可分為獨(dú)立公式和內(nèi)嵌公式.獨(dú)立公式通常單獨(dú)作為一行出現(xiàn)且不包括文本;內(nèi)嵌公式一般出現(xiàn)在獨(dú)立公式附近的上下文中,與文本交雜在一起[20].由于大部分內(nèi)嵌公式是對(duì)獨(dú)立公式的說(shuō)明,因此本文只考慮獨(dú)立公式.
一個(gè)獨(dú)立公式可以由一個(gè)有序特征元素構(gòu)成的字符串表示.特征元素包括運(yùn)算符、常量和括號(hào)等[21].
科技文檔di中的第k個(gè)公式可以表示為
(1)
于是,科技文檔中公式部分可以表示為一個(gè)集合Fi,即
Fi={fi1,fi2,…,fik,…,fie},
(2)
其中,fik表示文檔di中第k個(gè)公式;e表示文檔di中包含的公式數(shù)量.
2.1.2 文本部分的表示
文本部分Ti用向量空間模型表示.該方法將Ti表示為特征向量,Ti的每個(gè)特征詞看作是特征向量的獨(dú)立一維,并將特征詞的權(quán)重作為每一維的坐標(biāo)值,即
Ti=(ti1,wi1),(ti2,wi2),…,(tik,wik),…,(tim,wim),
(3)
其中,tik表示Ti中的第k個(gè)特征詞;wik表示特征詞tik在Ti中的權(quán)重;m表示Ti中包含特征詞的數(shù)量.對(duì)于Ti中每個(gè)特征詞,其權(quán)重用TF-IDF[22]方法計(jì)算得到.
文獻(xiàn)[23]提出對(duì)象間關(guān)系存在非對(duì)稱(chēng)的情況,并提供了對(duì)象間非對(duì)稱(chēng)關(guān)系的經(jīng)驗(yàn)證據(jù).例如“a就像b”,它有一個(gè)主語(yǔ)“a”,一個(gè)指示對(duì)象“b”,它一般不等同于相反的相似性描述“b就像a”,這是因?yàn)槿祟?lèi)的記憶聯(lián)想過(guò)程是非對(duì)稱(chēng)的[12].在實(shí)際應(yīng)用中科技文檔間也存在非對(duì)稱(chēng)關(guān)系,即對(duì)于任意2篇科技文檔A、B,sim(A,B)≠sim(B,a).這種非對(duì)稱(chēng)關(guān)系反映了科技文檔間關(guān)系的方向性或者包含關(guān)系.
科技文檔中的公式表示為一個(gè)集合.按照集合論的原理,2篇科技文檔公式集合間的關(guān)系可以分為其交集為空、交集非空2個(gè)集合互不為子集、交集非空一個(gè)集合是另一個(gè)集合的子集3種情況.交集為空表示2篇文檔的公式之間沒(méi)有關(guān)系,非空互不為子集表示2篇文檔內(nèi)容有相同性,一個(gè)集合是另一個(gè)集合的子集表示它們的內(nèi)容具有包含性.表1給出了2篇科技文檔di、dj中公式部分關(guān)系的一個(gè)示例.
表1 公式部分示例
科技文檔中的文本部分表示為詞語(yǔ)的特征向量,每一個(gè)特征詞都具有一定的權(quán)重.這時(shí),2篇文檔的特征詞集合可能相同,也可能不同.相同特征詞的權(quán)重可能相等,也可能不相等.表2給出了2篇科技文檔di、dj中文本部分關(guān)系的一個(gè)示例.
表2 文本部分示例
由表1、表2可以看出對(duì)文檔di和dj,文檔di公式和特征詞包含在文檔dj中,而文檔dj中除了和文檔di相同的公式、特征詞外,還有其他的公式、特征詞,而且相同特征詞的權(quán)重也不相同.從不同文檔角度來(lái)看,di對(duì)dj的覆蓋程度與dj對(duì)di的覆蓋程度是不同的,并且di對(duì)dj的影響明顯小于dj對(duì)dj的影響.
本文用文檔覆蓋度來(lái)度量科技文檔間的非對(duì)稱(chēng)關(guān)系,包括公式覆蓋度和文本覆蓋度2部分.
公式覆蓋度利用改進(jìn)的非對(duì)稱(chēng)因子方法計(jì)算,反映了2個(gè)文檔包含的公式集合之間的非對(duì)稱(chēng)關(guān)系;文本覆蓋度利用文本間相對(duì)突出性計(jì)算,反映了科技文檔間文本的非對(duì)稱(chēng)關(guān)系.
定義1科技文檔的公式覆蓋度:對(duì)任意2篇文檔di、dj,di對(duì)dj公式覆蓋度定義為di中公式對(duì)dj中公式的包含程度,記為CF(Fi,Fj),0≤CF(Fi,Fj)≤1.
科技文檔公式覆蓋度可以通過(guò)2個(gè)文檔所包含公式集合之間的覆蓋度來(lái)計(jì)算,具體分為2步:第1步計(jì)算任意2個(gè)公式間的相似度,第2步計(jì)算2篇科技文檔的公式覆蓋度.
3.1.1 2個(gè)公式的相似度計(jì)算
公式fiq和fjs間的相似度sim(fiq,fjs)可以通過(guò)比較公式特征元素字符串的方式得到,計(jì)算公式如式(4)所示.
(4)
公式的特征元素字符串指能唯一標(biāo)識(shí)公式本身的字符串,其獲得方法可參考文獻(xiàn)[3]和[24],基本過(guò)程如下:先對(duì)公式預(yù)處理,把公式符號(hào)進(jìn)行統(tǒng)一化處理;然后解析公式的結(jié)構(gòu),生成與之對(duì)應(yīng)的二叉樹(shù),并對(duì)二叉樹(shù)進(jìn)行歸一化;最后中序遍歷規(guī)范化后的二叉樹(shù),得到公式特征元素字符串.
3.1.2 科技文檔公式覆蓋度計(jì)算
3.1.2.1 公式集合間的非對(duì)稱(chēng)因子
定義2公式集合間非對(duì)稱(chēng)因子:對(duì)于任意2個(gè)文檔的公式集合Fi={fi1,fi2,…,fir},F(xiàn)j={fj1,fj2,…,fjp},F(xiàn)i和fj的非對(duì)稱(chēng)因子是指2個(gè)公式集合的相同公式在公式集合Fi中所占的比例,計(jì)算公式如式(5)所示.
(5)
同理,F(xiàn)j和Fi的非對(duì)稱(chēng)因子指2個(gè)公式集合的相同公式在公式集合中所占的比例,計(jì)算公式如式(6)所示.
(6)
其中,|Fi∩Fj|、|Fj∩Fi|表示公式集合Fi和Fj中相同公式的數(shù)目,|Fi|表示公式集合Fi中公式的數(shù)目,|Fj|表示公式集合Fj中公式的數(shù)目.
3.1.2.2 公式集合的覆蓋度
公式(5)中,當(dāng)Fi≠?且|Fi∩Fj|=|Fi|時(shí),沒(méi)有考慮|Fi|的大小不同.例如|Fj|=30時(shí),|Fi∩Fj|=|Fi|=10和|Fi∩Fj|=|Fi|=20兩種情況,得到的CF(Fi,Fj)值都為1.但第1種情況中Fj的30個(gè)公式,包含了Fi的10個(gè)公式,而第2種情況是Fj的30個(gè)公式,包含了Fi的20個(gè)公式.Fi的大小不同,則Fj對(duì)Fi覆蓋的程度也不同.同理,公式(6)也存在同樣的問(wèn)題.
針對(duì)公式(5)和(6)的不足,可依據(jù)TCM的思想對(duì)其進(jìn)行改進(jìn).TCM思想由Tversky提出,用來(lái)度量特征權(quán)值為布爾類(lèi)型的對(duì)象間相似關(guān)系.該思想假設(shè)每個(gè)對(duì)象都由一組特征來(lái)描述,對(duì)象間的相似性由對(duì)象間的相同特征和獨(dú)特特征共同決定.改進(jìn)后的計(jì)算公式如式(7)、(8)所示.
(7)
(8)
其中,|Fj-Fi|表示在公式集合Fj中出現(xiàn)但不在公式集合Fi中出現(xiàn)的公式數(shù)目,反映了Fj的獨(dú)特特征,|Fi-Fj|表示在公式集合Fi中出現(xiàn)但不在公式集合Fj中出現(xiàn)的公式數(shù)目,反映了Fi的獨(dú)特特征.α為調(diào)和因子,反映了對(duì)象的獨(dú)特特征對(duì)非對(duì)稱(chēng)關(guān)系的影響,0<α≤1.當(dāng)α=1時(shí),CF(Fi,Fj)=CF(Fj,Fi).
定義3科技文檔的文本覆蓋度:對(duì)于任意2篇科技文檔di、dj,di對(duì)dj的文本覆蓋度指di中文本與dj中文本的包含程度,記為CV(di,dj).
文獻(xiàn)[25]認(rèn)為對(duì)象間相似性由特征相似性和特征的突出性共同決定,據(jù)此,本文給出了特征詞的突出性和文本間相對(duì)突出性的定義及計(jì)算方法,并將文本相對(duì)突出性用于修訂傳統(tǒng)的對(duì)稱(chēng)相似度,給出文本覆蓋度的計(jì)算方法.
定義4特征詞的突出性:對(duì)于任意2個(gè)文本Ti和Tj中的相同特征詞tik、tjk(tik=tjk),特征詞tik的突出性是指tik的權(quán)重與tik、tjk權(quán)重之和的比值,計(jì)算公式如下:
(9)
定義5文本間相對(duì)突出性:對(duì)于任意2個(gè)文本Ti和Tj,文本Ti相對(duì)于Tj的相對(duì)突出性是指文本Ti和Tj中所有特征詞突出線(xiàn)性和之比,計(jì)算公式如(10)所示.
(10)
同理,可以利用式(11)計(jì)算文本Tj相對(duì)于Ti的相對(duì)突出性.
(11)
計(jì)算得到文本間相對(duì)突出性后,用相對(duì)突出性調(diào)整余弦相似度,可以得到從Ti角度和Tj角度的文本覆蓋度計(jì)算公式,如式(12)、(13)所示.
(12)
(13)
有了公式覆蓋度和文本覆蓋度的概念,可以得到科技文檔覆蓋度的定義.
定義6科技文檔的覆蓋度:任意2篇文檔di和dj,di對(duì)dj的覆蓋度定義為文檔di和dj的文本覆蓋度和公式覆蓋度的線(xiàn)性組合,記為ARM(di,dj).
科技文檔di對(duì)dj的覆蓋度體現(xiàn)了文檔di對(duì)dj的包含程度.從di角度給出科技文檔覆蓋度計(jì)算公式如式(14)所示.
ARM(di,dj)=βCF(Fi,Fj)+(1-β)CV(Ti,Tj).
(14)
同理可得科技文檔dj對(duì)di的覆蓋度計(jì)算公式,如式(15).
ARM(dj,di)=βCF(Fj,Fi)+(1-β)CV(Tj,Ti).
(15)
式(14)、(15)中的β為可調(diào)節(jié)的參數(shù),用來(lái)調(diào)節(jié)公式和文本覆蓋度對(duì)科技文檔覆蓋度的貢獻(xiàn)程度,0≤β≤1.當(dāng)β=1時(shí),式(14)、(15)用來(lái)度量科技文檔間公式的覆蓋度;當(dāng)β=0時(shí),式(14)、(15)用來(lái)度量科技文檔間文本的覆蓋度.
為驗(yàn)證本文提出的科技文檔間非對(duì)稱(chēng)關(guān)系度量方法的有效性,實(shí)驗(yàn)部分與文獻(xiàn)[3]、[26]提出的2種科技文檔間關(guān)系度量方法作對(duì)比實(shí)驗(yàn).表3為實(shí)驗(yàn)所涉及的方法及其解釋.借鑒文獻(xiàn)[27]的實(shí)驗(yàn)思路,先用3種方法分別計(jì)算數(shù)據(jù)集中任意2篇科技文檔間的關(guān)系度量值,將得到的關(guān)系度量值作為k-means算法的輸入,分別進(jìn)行聚類(lèi)實(shí)驗(yàn),分析比較3種方法進(jìn)行聚類(lèi)實(shí)驗(yàn)的聚類(lèi)效果.
表3 方法簡(jiǎn)寫(xiě)及其解釋
目前,信息檢索領(lǐng)域尚無(wú)通用的中文科技文檔數(shù)據(jù)集,因此本文參照信息檢索領(lǐng)域中小型數(shù)據(jù)集的構(gòu)建方法[28],構(gòu)建了一個(gè)滿(mǎn)足實(shí)驗(yàn)需求的小型科技文檔數(shù)據(jù)集,該數(shù)據(jù)集包括 500篇中文科技文檔,涉及貝葉斯網(wǎng)絡(luò)、個(gè)性化推薦、圖像識(shí)別、文本分類(lèi)和輿情監(jiān)測(cè)5個(gè)主題.依據(jù)文獻(xiàn)[3]對(duì)數(shù)據(jù)集的處理方法,本文選取該數(shù)據(jù)集的60%作為訓(xùn)練集,40%作為測(cè)試集,對(duì)數(shù)據(jù)集中每個(gè)主題的文檔亦按此比例采用隨機(jī)抽取的方法分割訓(xùn)練集和測(cè)試集.由于實(shí)驗(yàn)數(shù)據(jù)集較小,為了從有限數(shù)據(jù)集中獲取更多的有效信息,提高實(shí)驗(yàn)的可信性,本文實(shí)驗(yàn)過(guò)程中采用了交叉驗(yàn)證的方法.
數(shù)據(jù)集構(gòu)建完成后,為得到文檔中公式和文本信息,須進(jìn)一步對(duì)文檔進(jìn)行如下處理:1)提取每篇文檔中的公式和文本.公式保存為pdf格式,文本保存為txt格式.2)公式預(yù)處理.借助Mathpix Snipping Tool工具對(duì)所有公式進(jìn)行解析,得到每篇文檔LaTeX格式的公式字符串,整理并存入txt文件中.3)文本預(yù)處理.先對(duì)所有文本進(jìn)行中文分詞,利用哈工大停用詞表做停用詞處理;再統(tǒng)計(jì)每個(gè)文本的詞頻,根據(jù)實(shí)驗(yàn)需要,選取前50個(gè)高頻詞作為文本特征詞;最后計(jì)算所有特征詞的tf-idf值.
4.2.1 單個(gè)聚類(lèi)結(jié)果簇評(píng)價(jià)標(biāo)準(zhǔn)
1)熵
熵表示一個(gè)系統(tǒng)內(nèi)的混亂程度,也常用來(lái)衡量聚類(lèi)的效果.熵值越低,聚類(lèi)結(jié)果簇內(nèi)部混亂程度越小,聚類(lèi)效果越好.熵值計(jì)算公式如式(16)[6]所示.
(16)
2)準(zhǔn)確率
準(zhǔn)確率用來(lái)衡量聚類(lèi)的準(zhǔn)確性,聚類(lèi)結(jié)果簇準(zhǔn)確率計(jì)算公式如式(17)[18]所示.
(17)
4.2.2 多個(gè)聚類(lèi)結(jié)果簇評(píng)價(jià)標(biāo)準(zhǔn)
對(duì)于多個(gè)聚類(lèi)結(jié)果簇,用平均熵值和平均準(zhǔn)確率來(lái)衡量聚類(lèi)效果,如式(18)、(19)所示.
(18)
(19)
其中,eave-n表示平均熵值;Eave-n表示平均準(zhǔn)確率,n表示結(jié)果簇?cái)?shù)目.
本文采用蒙特卡洛交叉驗(yàn)證,將數(shù)據(jù)集按6∶4比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,這樣進(jìn)行多次單獨(dú)的訓(xùn)練和驗(yàn)證,使聚類(lèi)效果達(dá)到最優(yōu),最后將測(cè)試集上的驗(yàn)證結(jié)果取平均值作為最后的結(jié)果.實(shí)驗(yàn)分為3步:第1步是科技文檔中公式聚類(lèi)性能的比較;第2步是科技文檔中文本聚類(lèi)性能的比較;第3步是融合公式和文本2部分的科技文檔聚類(lèi)性能的比較.在每一步中,對(duì)覆蓋度值進(jìn)行聚類(lèi)時(shí)距離的選擇均參考文獻(xiàn)[29].
4.3.1 公式聚類(lèi)性能的比較
設(shè)定實(shí)驗(yàn)聚類(lèi)結(jié)果簇?cái)?shù)從5遞增到85,步長(zhǎng)為20,為得到公式覆蓋度計(jì)算的參數(shù),以平均熵值和平均準(zhǔn)確率為評(píng)價(jià)指標(biāo),在公式訓(xùn)練集上反復(fù)訓(xùn)練,獲得最優(yōu)值,并在公式測(cè)試集上加以驗(yàn)證.分別計(jì)算參數(shù)α=0.1,0.2,…,0.9時(shí),公式覆蓋度值對(duì)公式測(cè)試集聚類(lèi)性能的影響,結(jié)果如表4所示.
表4 不同α值公式聚類(lèi)的平均熵值和平均準(zhǔn)確率
通過(guò)對(duì)表4中數(shù)據(jù)進(jìn)行觀(guān)察和分析,從整體上看,α取0.8時(shí),結(jié)果簇的聚類(lèi)性能最好.后續(xù)實(shí)驗(yàn)將α=0.8作為公式覆蓋度計(jì)算的參數(shù)值.但是從表4也能看出當(dāng)α=0.1,0.2,…,0.9時(shí),不同結(jié)果簇的平均熵值和平均準(zhǔn)確率相差不大,這是因?yàn)楸疚脑谔崛∥臋n公式信息時(shí)方法比較粗糙,求得的公式覆蓋度存在數(shù)據(jù)稀疏問(wèn)題.為取得更好的效果,對(duì)公式的處理今后研究中可嘗試改進(jìn).
SMM、SMM1、ASYM方法的公式部分關(guān)系度量在不同結(jié)果簇?cái)?shù)下的平均熵值和平均準(zhǔn)確率對(duì)比圖,如圖1所示.
a.平均熵值對(duì)比;b.平均準(zhǔn)確率對(duì)比.圖1 SMM、SMM1、ASYM方法公式關(guān)系度量性能對(duì)比Fig.1 Performance comparison of SMM,SMM1 and ASYM method of formulas
圖1a為SMM、SMM1、ASYM方法公式部分關(guān)系度量平均熵值的比較,從圖1a中可以看出,當(dāng)結(jié)果簇?cái)?shù)目從5到85時(shí),ASYM方法的平均熵值均小于SMM、SMM1方法的平均熵值.圖1b為SMM、SMM1、ASYM方法公式部分關(guān)系度量平均準(zhǔn)確率的比較,從45簇到85簇,ASYM方法的平均準(zhǔn)確率均大于SMM、SMM1方法的平均準(zhǔn)確率.當(dāng)結(jié)果簇?cái)?shù)目從5到25時(shí),ASYM方法的平均準(zhǔn)確率小于SMM、SMM1方法的平均準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明并不是所有科技文檔間公式的非對(duì)稱(chēng)度量聚類(lèi)效果都比對(duì)稱(chēng)度量聚類(lèi)效果好,但大部分情況下公式的非對(duì)稱(chēng)度量聚類(lèi)效果優(yōu)于對(duì)稱(chēng)度量.一些科技文檔間公式的非對(duì)稱(chēng)關(guān)系明顯,對(duì)于這些科技文檔,用本文方法進(jìn)行聚類(lèi)效果更好,這是因?yàn)榉菍?duì)稱(chēng)度量能更好地區(qū)分文檔間公式,衡量文檔間公式的關(guān)系.
4.3.2 文本聚類(lèi)性能的比較
SMM、SMM1、ASYM方法文本部分關(guān)系度量在不同結(jié)果簇?cái)?shù)下的平均熵值和平均準(zhǔn)確率對(duì)比,如圖2所示.
a.平均熵值對(duì)比;b.平均準(zhǔn)確率對(duì)比.圖2 SMM、SMM1、ASYM方法文本關(guān)系度量性能對(duì)比Fig.2 Performance comparison of SMM,SMM1 and ASYM method of texts
圖2a為SMM、SMM1、ASYM方法文本部分關(guān)系度量平均熵值的比較,從圖2a中可以看出,結(jié)果簇?cái)?shù)目從5到65,ASYM方法的平均熵值小于SMM、SMM1方法的平均熵值.當(dāng)結(jié)果簇?cái)?shù)目從65到85時(shí),3種方法的平均熵值曲線(xiàn)大致重合.圖2b為SMM、SMM1、ASYM方法文本部分關(guān)系度量平均準(zhǔn)確率的比較,結(jié)果簇?cái)?shù)目從5到85,ASYM方法平均準(zhǔn)確率大于SMM、SMM1方法的平均準(zhǔn)確率.圖2a、b可看出在本文數(shù)據(jù)集的不同結(jié)果簇?cái)?shù)下,文本使用非對(duì)稱(chēng)度量進(jìn)行聚類(lèi)的效果均優(yōu)于對(duì)稱(chēng)度量,并且聚類(lèi)性能提升明顯.產(chǎn)生這種結(jié)果的原因是非對(duì)稱(chēng)度量考慮了文本間非對(duì)稱(chēng)關(guān)系,能更好地區(qū)分文本差異性,提高文本關(guān)系度量的準(zhǔn)確性.
4.3.3 融合公式和文本的科技文檔聚類(lèi)性能的比較
科技文檔覆蓋度計(jì)算公式中的β值,不同的文檔類(lèi)別中應(yīng)有不同的取值.當(dāng)β=0,0.1,0.2,…,1時(shí),運(yùn)用SMM、SMM1和ASYM方法分別計(jì)算對(duì)測(cè)試集聚類(lèi)性能的影響,結(jié)果如表5~8所示.
表5 不同β值SMM方法和ASYM方法的平均熵值
表6 不同β值SMM1方法和ASYM方法的平均熵值
表7 不同β值SMM方法和ASYM方法的平均準(zhǔn)確率
表8 不同β值SMM1方法和ASYM方法的平均準(zhǔn)確率
由表5~8可知當(dāng)β分別取0,0.1,0.2,…,1時(shí),從5簇到85簇本文ASYM方法絕大多數(shù)的平均熵值低于SMM、SMM1方法的平均熵值,平均準(zhǔn)確率高于SMM、SMM1方法的平均準(zhǔn)確率.綜合來(lái)看,本文ASYM方法進(jìn)行聚類(lèi)的效果優(yōu)于SMM、SMM1兩種對(duì)稱(chēng)方法.產(chǎn)生這種結(jié)果的原因是本文方法考慮了科技文檔間關(guān)系的非對(duì)稱(chēng)性,能更準(zhǔn)確地度量科技文檔間關(guān)系,更好地區(qū)分了文檔.例如任意2篇文檔A、B,A是B的子文檔,用對(duì)稱(chēng)方法聚類(lèi)時(shí),由于A(yíng)、B相似,2篇文檔會(huì)聚到同一簇中,但因?yàn)?篇文檔關(guān)系是非對(duì)稱(chēng)的,有可能會(huì)聚到不同的簇,采用本文方法進(jìn)行聚類(lèi)會(huì)使聚類(lèi)結(jié)果更準(zhǔn)確.
進(jìn)一步對(duì)表中數(shù)值進(jìn)行觀(guān)察和分析,可知當(dāng)β=0.1時(shí),ASYM方法的平均熵值比SMM方法的平均熵值最高降低了33%,平均準(zhǔn)確率最高提高了8%.ASYM方法的平均熵值比SMM1方法的平均熵值最高降低了20%,平均準(zhǔn)確率最高提高了4%.β=0.1且在不同結(jié)果簇?cái)?shù)下,SMM、SMM1和ASYM方法的平均熵值和平均準(zhǔn)確率對(duì)比如圖3所示.由圖3a可知,從65簇開(kāi)始,隨著簇?cái)?shù)的增加,3種方法的平均熵值曲線(xiàn)趨于重合.而通過(guò)圖3b可知在85簇時(shí)3種方法的平均準(zhǔn)確率值趨于重合.
a.平均熵值對(duì)比;b.平均準(zhǔn)確率對(duì)比.圖3 SMM、SMM1、ASYM方法性能對(duì)比Fig.3 Performance comparison of SMM、SMM1、ASYM method
科技文檔間非對(duì)稱(chēng)關(guān)系可以更準(zhǔn)確地反映文檔間的相似程度.本文在分析科技文檔間非對(duì)稱(chēng)關(guān)系的基礎(chǔ)上,提出一種融合公式和文本的度量方法.實(shí)驗(yàn)結(jié)果表明:與SMM、SMM1兩種方法相比,本文提出的ASYM方法的平均熵值有所降低,平均準(zhǔn)確率有所提升.論文研究?jī)?nèi)容雖然取得了較好的效果,但尚有不足:1) ASYM方法僅考慮了科技文檔中的公式和文本內(nèi)容,并沒(méi)有考慮圖、表等信息,理論上,多維度內(nèi)容的融合可以得到更好的度量效果;2)對(duì)于公式覆蓋度的計(jì)算,論文僅將公式里的元素用一個(gè)集合表示,并沒(méi)有考慮公式的位置因素、層次結(jié)構(gòu)等,這些信息的考慮可以提高公式覆蓋度計(jì)算的準(zhǔn)確率;3)對(duì)于文本覆蓋度的計(jì)算,論文主要依據(jù)了文本間的相對(duì)突出性,沒(méi)有將語(yǔ)義信息融入其中.在未來(lái)研究中,將針對(duì)上述不足,對(duì)科技文檔間的非對(duì)稱(chēng)關(guān)系展開(kāi)更為深入的研究.