陳 澤 段友祥
(中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 青島 266580)
隨著國家國力的提升和科技力量的穩(wěn)步增強(qiáng),科技立項(xiàng)數(shù)目迅猛增加,但是隨之而來的重復(fù)立項(xiàng)問題也日趨嚴(yán)重[1]。重復(fù)立項(xiàng)嚴(yán)重浪費(fèi)國家或相關(guān)領(lǐng)域科研資源。為促進(jìn)科學(xué)立項(xiàng),迫切需要進(jìn)行重復(fù)立項(xiàng)查重。目前已有的科技信息查重檢測手段[2~6],無法有效研究和分析管道科技項(xiàng)目信息相似的特性指標(biāo)和要素,需要探索契合管道科技領(lǐng)域特性的查重方法,建立基于計(jì)算機(jī)應(yīng)用技術(shù)的科技信息查重檢測系統(tǒng)?,F(xiàn)有查重方法如向量空間模型(VSM)[7]或SimHash[8~9],由于詞匯間的相互獨(dú)立,僅視為基于字符的相似度評(píng)價(jià)方法,而基于知網(wǎng)[10]、同義詞詞林[11]或詞向量[12]方法可涉及到詞匯語義層面。
為更好適應(yīng)面向領(lǐng)域的科技信息管理中的相似度計(jì)算問題,本文提出了下面的技術(shù)研究路線。1)構(gòu)建領(lǐng)域同義詞詞林。鑒于領(lǐng)域科技文本的專業(yè)性,專業(yè)詞匯詞組的相似度衡量是首要解決的難題。特別是在領(lǐng)域限制的情況下,有限的專業(yè)詞組數(shù)目以及專業(yè)詞組的穩(wěn)固性,使得創(chuàng)建成為可能。2)利用知網(wǎng)與同義詞詞林結(jié)合[13~14]進(jìn)行非領(lǐng)域詞匯粒度語義相似度計(jì)算。3)探索基于句法依存信息的詞匯相似度融合方法。分析獲取句子依存結(jié)構(gòu)信息,并利用依存路徑刻畫句子語義,基于路徑結(jié)構(gòu)進(jìn)行詞匯相似度融合,彌補(bǔ)文本相似度計(jì)算中未能考慮結(jié)構(gòu)信息的不足。
在依存句法理論[15]中,“依存”指詞與詞之間支配與被支配的關(guān)系,這種關(guān)系不是對(duì)等的,而是有方向的,處于支配地位的成分稱為支配者,而處于被支配地位的成分稱為從屬者。依存句法結(jié)構(gòu)建立起由支配詞和從屬詞通過依存信息聯(lián)結(jié)而成的從屬關(guān)系。句子依存信息是多組形如“支配者-關(guān)系類型-從屬者”的三元組。根據(jù)依存信息可生成依存關(guān)系圖G=(N,E),其中頂點(diǎn)集合為N,邊集合是E。滿 足:?e?E,?ni,nj?N(i≠j),使 得e=(ni,nj)。
本文使用哈工大LTP分析模塊進(jìn)行句子分詞、詞性標(biāo)注、句法分析等操作,獲得句子的依存結(jié)構(gòu)信息。
《同義詞詞林》是梅家駒等[16]于1983 年編纂而成。同義詞詞林是以樹狀形式將所有詞語編織在一起,將所有詞語分為大類、中類和小類。為了更細(xì)化各個(gè)詞語之間的語義關(guān)系,將小類又細(xì)分為詞群和原子詞群。于是,同義詞詞林可表示為5 層樹狀結(jié)構(gòu),結(jié)構(gòu)如圖1所示。
圖1 同義詞詞林5層樹狀結(jié)構(gòu)
知網(wǎng)是1988 年由董振東先生[18~19]建設(shè)的一個(gè)漢語常識(shí)庫[20]。參考文獻(xiàn)[10]在僅考慮義原上下位關(guān)系的前提下,把兩個(gè)義原節(jié)點(diǎn)路徑長度作為義原相似度判定的標(biāo)準(zhǔn),并經(jīng)過簡單關(guān)系變換,具體計(jì)算如式(1):
其中,pi和pj表示兩個(gè)義原,dis(pi,pj)是pi和pj在義原層次體系中的路徑長度。α是一個(gè)可調(diào)節(jié)的參數(shù),本文設(shè)置為1。
而義項(xiàng)是由義原通過四類描述構(gòu)成,所以兩個(gè)義項(xiàng)si,sj的相似度由四描述的相似度sim1,sim2,sim3,sim4按式(2)計(jì)算:
其中:βi(1 ≤i≤4 )為各部分權(quán)重,且有β1+β2+β3+β4=1,β1>β2>β3>β4,本 文 設(shè) 置 為β1=0.6,β2=0.2,β3=0.1,β4=0.1。
sim1(si,sj)是語義表達(dá)式中第一義原相似度;
sim2(si,sj)是義原集合間相似度,通過基于二分圖最大權(quán)匹配算法求得加和均值;
sim3(si,sj)是對(duì)多對(duì)“屬性-值”集合的相似度。一般在屬性一致的前提下才能進(jìn)行屬性值相似度判定。
sim4(si,sj) 多對(duì)“屬性-值”的特征集合,特征的屬性是一個(gè)關(guān)系義原,特征的值是一個(gè)集合,該集合的元素是一個(gè)基本義原,或一個(gè)具體詞。
對(duì)于兩個(gè)非領(lǐng)域詞匯wi,wj計(jì)算相似度,假設(shè)wi,wj所具有的義項(xiàng)數(shù)目分別為n,m,最終wi,wj的相似度是各個(gè)義項(xiàng)的相似度之最大值,計(jì)算如式(3):
領(lǐng)域詞林構(gòu)建的核心思想與通用詞林[16]的構(gòu)建一樣。面向《中華人民共和國石油天然氣行業(yè)標(biāo)準(zhǔn)_Y5510_92 油田化學(xué)常用術(shù)語》、《油氣田及管道腐蝕與防護(hù)工程基本詞匯》等直接抽取本領(lǐng)域常用的一級(jí)專業(yè)詞匯詞組,將一級(jí)專業(yè)詞匯詞組導(dǎo)入文本,利用詞語共現(xiàn)關(guān)系進(jìn)行二級(jí)詞匯摘取。通過篩選與判斷,共摘取859 個(gè)領(lǐng)域詞匯詞組,作為構(gòu)建領(lǐng)域同義詞林的重要來源。對(duì)以上摘取的八百余項(xiàng)詞匯詞組進(jìn)行分類,共分三大類一百一十多小類(長期維護(hù)變化,細(xì)分小類增加,深度加深)。大類分為實(shí)體類、操作類、特性類,每個(gè)大類節(jié)點(diǎn)下,小類數(shù)目各異,做到領(lǐng)域詞匯詞組分類的正確與細(xì)化。
假設(shè)要計(jì)算比較的詞對(duì)是w§,wj,它們的語義相似度記作sim(wi,wj)。
1)若w§,wj均屬于領(lǐng)域?qū)I(yè)詞匯。需依據(jù)領(lǐng)域詞林樹進(jìn)行相似度計(jì)算。按文獻(xiàn)[17]提出的方法計(jì)算詞匯語義相似度,首先計(jì)算w§,wj路徑長度d以及最近公共父節(jié)點(diǎn)深度h。然后基于d,h,按式(4)計(jì)算詞匯語義相似度。
規(guī) 定 若d=0 ,則sim(wi,wj)=1 ;若h=1,sim(wi,wj)=0。
2)若w§,wj一個(gè)屬于領(lǐng)域?qū)I(yè)詞匯,另一個(gè)不屬于,則sim(wi,wj)=0;
3)若w§,wj均不屬于領(lǐng)域?qū)I(yè)詞匯,依據(jù)文獻(xiàn)[13]所提出的融合規(guī)則進(jìn)行相似度計(jì)算。具體如下。
若w§,wj均屬于知網(wǎng)、詞林共有,則基于詞林計(jì)算相似度,即按式(4)計(jì)算得到s1,基于知網(wǎng)義原計(jì)算相似度,即按式(3)計(jì)算算得到s2,取sim(wi,wj)=0.5s1+0.5s2;
若w§,wj均屬于知網(wǎng)不屬于詞林,則基于知網(wǎng)義原計(jì)算相似度,即按式(3)計(jì)算得到sim(wi,wj),或w§,wj均屬于詞林不屬于知網(wǎng),則基于詞林計(jì)算相似度,即按式(4)計(jì)算得到sim(wi,wj);
若w§屬詞林而wj屬知網(wǎng),在詞林中尋找wi同義詞集合{wi1,wi2,…,wik} ,依次與wj基于知網(wǎng)義 原 按 式(4)計(jì) 算 相 似 度sim(wil,wj) ,取
依存圖中有且僅有一個(gè)節(jié)點(diǎn)與ROOT 直接相連,它是整個(gè)句子的核心動(dòng)詞。依存路徑P定義為從句子核心動(dòng)詞開始,到所有葉子節(jié)點(diǎn)之間所經(jīng)過的一系列節(jié)點(diǎn)n?N與邊e?E組成的集合。路徑相似度對(duì)比,需考慮兩個(gè)方面:詞匯相似度與依存關(guān)系權(quán)重。
詞匯相似度計(jì)算采用3.2節(jié)提出的方法。句子結(jié)構(gòu)復(fù)雜,依存關(guān)系權(quán)重采用文獻(xiàn)[21]中的研究結(jié)果對(duì)依存關(guān)系進(jìn)行賦權(quán)值。依存關(guān)系權(quán)重值如表1。
表1 依存關(guān)系權(quán)重值表
定義路徑pi,pj的相似度SIM(pi,pj)計(jì)算公式如式(5):
文本di的依存路徑集合,文本dj的依存路徑集合。利用3.3節(jié)依存路徑相似度計(jì)算方法,計(jì)算可得兩份文本依存路徑集合相似度結(jié)果矩陣Mn×m。
定義文本di、dj相似度計(jì)算公式如式(6):
1)數(shù)據(jù)集
目前評(píng)測詞語相似度算法優(yōu)劣標(biāo)準(zhǔn)普遍采用MC30詞對(duì)集[22]。該詞對(duì)集讓多位受試者面向多組詞對(duì)進(jìn)行人工評(píng)測,取評(píng)測均值作為最終相似度結(jié)果。MC30 詞對(duì)集由10 組高相似性、10 組中相似性、10 組低相似性總計(jì)30 組詞對(duì)構(gòu)成。本文隨機(jī)抽取詞對(duì)集中10 組詞對(duì),并加入10 組領(lǐng)域?qū)I(yè)詞對(duì)進(jìn)行多種方法的詞匯相似度對(duì)比實(shí)驗(yàn)。
2)對(duì)比實(shí)驗(yàn)結(jié)果
分別采用基于知網(wǎng)、詞林、本文方法對(duì)1)得到的20組詞進(jìn)行相似度計(jì)算實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2。
表2 詞匯語義相似度計(jì)算實(shí)驗(yàn)結(jié)果
本文方法、知網(wǎng)、詞林實(shí)驗(yàn)結(jié)果與人工評(píng)測結(jié)果的皮爾遜系數(shù)如表3。
表3 多方法皮爾遜系數(shù)
1)數(shù)據(jù)集
文本實(shí)驗(yàn)數(shù)據(jù)集分為通用文本數(shù)據(jù)集與油氣領(lǐng)域科技項(xiàng)目書,其中通用文本數(shù)據(jù)集為西安科技大學(xué)中文語義相似度測試集[23]。通用文本數(shù)據(jù)集采用文本對(duì)排列方式,共計(jì)12747 對(duì)。每對(duì)文本均已人工標(biāo)注相似度,相似度值范圍[0~5],0 代表語義不相干,5 代表語義完全一致。本文隨機(jī)選取100 份油氣領(lǐng)域科技項(xiàng)目書作為實(shí)驗(yàn)數(shù)據(jù),進(jìn)行基于本文方法的科技信息文本粒度相似度計(jì)算實(shí)驗(yàn)。本文將在以上兩類文本集進(jìn)行多方法實(shí)驗(yàn)對(duì)比,驗(yàn)證本文方法的可行性,基于正確率作為評(píng)價(jià)指標(biāo),進(jìn)行最終實(shí)驗(yàn)效果比較。
2)對(duì)比實(shí)驗(yàn)
本文引入正確率作為文本粒度相似度測評(píng)標(biāo)準(zhǔn),具體如式(7):
其中sim(di,dj)是文本di與文本dj之間相似度,結(jié)果范圍在0~1 之間,放大5 倍與[0~5]的相似度標(biāo)簽進(jìn)行對(duì)比。由于相似度標(biāo)簽為離散數(shù)值,規(guī)定計(jì)算結(jié)果與標(biāo)簽之間差值的絕對(duì)值不超過1 則視為結(jié)果可信。統(tǒng)計(jì)所有可信結(jié)果的數(shù)目,與通用文本數(shù)據(jù)集總記錄數(shù)N(12747)的比值,即為最終正確率。在1)得到數(shù)據(jù)集上,進(jìn)行了多組相似度計(jì)算比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4。
表4 文本語義相似度實(shí)驗(yàn)結(jié)果
從詞匯語義相似度實(shí)驗(yàn)結(jié)果表2、表3可看出,本文方法的詞匯語義計(jì)算效果最好,在加入領(lǐng)域詞林后,能很大程度上解決專業(yè)詞組相似度計(jì)算正確率低的問題。本文方法的皮爾遜系數(shù)最高,可達(dá)0.89,達(dá)到實(shí)用水平。而基于知網(wǎng)或詞林的語義相似度計(jì)算方法雖能在通用領(lǐng)域詞匯語義計(jì)算上取得不錯(cuò)效果,卻在專業(yè)詞組語義相似度計(jì)算上存在巨大不足。
從文本粒度語義相似度計(jì)算實(shí)驗(yàn)結(jié)果表4 可知,本文提出的依存路徑詞語相似度融合方法在通用文本數(shù)據(jù)集上具有較高準(zhǔn)確率。對(duì)比傳統(tǒng)文本相似度計(jì)算方法,特別是在領(lǐng)域限定情況下,本文方法具有明顯優(yōu)勢(shì),證明本文方法有效可行。
由于本文方法構(gòu)建領(lǐng)域詞林,在科技信息數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果最高且大幅度領(lǐng)先其他方法,最終結(jié)果為71%左右準(zhǔn)確率,具備領(lǐng)域?qū)S锰匦?,本文能在一定程度上滿足企業(yè)科技信息查重應(yīng)用需求。
科技信息查重是科技信息管理中的重要內(nèi)容,對(duì)于發(fā)揮投入經(jīng)費(fèi)效益,維護(hù)良好的學(xué)術(shù)風(fēng)氣等具有現(xiàn)實(shí)意義。但是由于專業(yè)領(lǐng)域的差異性很大,通用的查重算法還存在一些不足,為此,本文提出了詞匯語義相似度與依存路徑的融合的技術(shù)路線,并且搭建領(lǐng)域同義詞詞林,解決了領(lǐng)域詞匯詞組的相似度計(jì)算問題,提高了計(jì)算結(jié)果的可信度。實(shí)驗(yàn)結(jié)果表明,本文提出的方法有效、可行,并將該方法應(yīng)用到企業(yè)科技信息管理查重平臺(tái)的開發(fā)中,達(dá)到了預(yù)期目標(biāo)。