李國(guó)佳 楊喜亮
摘要:國(guó)內(nèi)利用知網(wǎng)計(jì)算中文詞語(yǔ)相似度通常采用基于義原距離的方法,這些方法依賴(lài)于公式設(shè)計(jì)和參數(shù)選取。根據(jù)信息論中計(jì)算兩個(gè)事物相似度的思想,利用知網(wǎng)的分類(lèi)體系來(lái)計(jì)算詞語(yǔ)所包含的義原信息量,將義原及其角色關(guān)系的信息量作為詞語(yǔ)相似度計(jì)算的基本單位,通過(guò)計(jì)算兩個(gè)詞語(yǔ)的共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量的比值來(lái)綜合計(jì)算詞語(yǔ)的相似度。實(shí)驗(yàn)結(jié)果證明,該方法合理可行。
關(guān)鍵詞:義原信息量;角色關(guān)系;詞語(yǔ)相似度;信息處理
DOIDOI:10.11907/rjdk.151250
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):16727800(2015)006014203
作者簡(jiǎn)介作者簡(jiǎn)介:李國(guó)佳(1986-),男,山西大同人,碩士,華北水利水電大學(xué)軟件學(xué)院助教,研究方向?yàn)樽匀徽Z(yǔ)言處理;楊喜亮(1981-),男,河南鄭州人,碩士,華北水利水電大學(xué)現(xiàn)代教育技術(shù)中心助教,研究方向?yàn)橹悄苄畔⑻幚怼?/p>
0 引言
詞語(yǔ)相似度計(jì)算在信息檢索、文本分類(lèi)、信息抽取、機(jī)器翻譯等領(lǐng)域有著廣泛應(yīng)用。目前,詞語(yǔ)相似度的計(jì)算方法主要有兩大類(lèi):一類(lèi)是基于距離的方法,如基于WordNet中詞語(yǔ)結(jié)點(diǎn)的距離來(lái)計(jì)算英語(yǔ)詞語(yǔ)的語(yǔ)義相似度[1],基于知網(wǎng)(Hownet)義原距離來(lái)計(jì)算中文詞語(yǔ)的語(yǔ)義相似度[23];另一類(lèi)是基于語(yǔ)料統(tǒng)計(jì)的方法,這類(lèi)方法假設(shè)凡是語(yǔ)義相近的詞語(yǔ),它們的上下文也應(yīng)該相似,利用上下文中詞語(yǔ)的概率分布來(lái)計(jì)算詞語(yǔ)相似度[45]。
自1999年知網(wǎng)(HowNet)正式發(fā)布以來(lái),其受到越來(lái)越多研究人員的關(guān)注。基于知網(wǎng)計(jì)算中文詞語(yǔ)的相似度也誕生了很多方法[2,68],這些方法通常根據(jù)意義分解思想,將詞語(yǔ)分解為更小單位(義原)參與相似度計(jì)算,再按照權(quán)重比例綜合計(jì)算詞語(yǔ)整體相似度。利用詞語(yǔ)分解后的單位(義原)參與計(jì)算,割裂了描述詞語(yǔ)的各個(gè)義原之間的關(guān)系,不能充分反應(yīng)出詞語(yǔ)間語(yǔ)義的相似性,計(jì)算結(jié)果也不夠理想。
本文從整體性角度出發(fā),給出一種基于義原信息量計(jì)算中文詞語(yǔ)相似度的方法?;谥W(wǎng)的分類(lèi)體系(Taxonomy),將義原及其角色關(guān)系整體作為詞語(yǔ)相似度計(jì)算的基本單位,保留了描述詞語(yǔ)概念的各個(gè)義原間的關(guān)系,并依據(jù)信息論中計(jì)算兩個(gè)事物相似度的思想[4],用兩個(gè)詞語(yǔ)共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量來(lái)綜合計(jì)算詞語(yǔ)的相似度。
1 知網(wǎng)義原信息量
1.1 義原信息量
其中,P(A)表示義原A在某個(gè)語(yǔ)料庫(kù)樣本空間中出現(xiàn)的概率。計(jì)算語(yǔ)料庫(kù)樣本空間中某個(gè)義原出現(xiàn)的概率很困難。知網(wǎng)作為一個(gè)以各類(lèi)概念及關(guān)系為描述對(duì)象的知識(shí)系統(tǒng),其分類(lèi)體系本身可以看作是各個(gè)義原出現(xiàn)的一個(gè)樣本空間,那么僅依賴(lài)知網(wǎng)分類(lèi)體系本身而不需其它語(yǔ)料庫(kù),作為計(jì)算義原出現(xiàn)概率的樣本空間也是合理的。本文給出一種根據(jù)知網(wǎng)的分類(lèi)體系來(lái)計(jì)算義原信息量的方法。
由義原組成的知網(wǎng)分類(lèi)體系是一棵概念分類(lèi)樹(shù),在每類(lèi)義原樹(shù)狀層次結(jié)構(gòu)(以下簡(jiǎn)稱(chēng)為義原樹(shù))中,根結(jié)點(diǎn)義原是分類(lèi)類(lèi)別,是最大的分類(lèi),其它義原都是根結(jié)點(diǎn)義原的子孫。可以認(rèn)為,分支結(jié)點(diǎn)義原包含越多的子孫結(jié)點(diǎn),其信息量越小。葉子結(jié)點(diǎn)是最小的分類(lèi),所有葉子結(jié)點(diǎn)的信息量是相同的。
1.2 義原及其角色關(guān)系的信息量
在知網(wǎng)的知識(shí)詞典中,每個(gè)詞語(yǔ)由DEF來(lái)描述其概念。將DEF分為兩部分:主類(lèi)義原和特性描述部分。
定義1:義原及其角色關(guān)系。
在詞語(yǔ)概念DEF的特性描述部分中,將義原及動(dòng)態(tài)角色與特征(Event Role and Features)[9]的層次結(jié)構(gòu)的組合稱(chēng)為義原及其角色關(guān)系。
定義2:主類(lèi)義原。
在詞語(yǔ)概念DEF中,把描述詞語(yǔ)概念最左邊的第一個(gè)義原稱(chēng)為主類(lèi)義原,也稱(chēng)為第0層義原及其角色關(guān)系。
例如詞語(yǔ)“病菌”的一個(gè)概念:DEF={bacteria|微生物:domain={medical|醫(yī)},modifier={able|能:scope={ResultIn|導(dǎo)致:result={disease|疾病}}}}。在“病菌”的DEF中,將“bacteria|微生物”稱(chēng)為主類(lèi)義原,其它部分是特性描述部分。在特性描述部分中,將“domain={medical|醫(yī)}”、“modifier={able|能 }”稱(chēng)為DEF的第一層義原及其角色關(guān)系,其中包含兩個(gè)本層義原“medical|醫(yī)”和“medical|醫(yī)”;把“scope={ResultIn|導(dǎo)致}”稱(chēng)為第二層義原及其角色關(guān)系,包含一個(gè)本層義原“ResultIn|導(dǎo)致”,將“result={disease|疾病}”稱(chēng)為第三層的義原及其角色關(guān)系,包含一個(gè)本層義原“disease|疾病”,依次類(lèi)推。
其中,I(pj)表示r所包含的第j個(gè)義原pj的信息量。
例如在詞語(yǔ)“病菌”的DEF中,每層的義原及其角色關(guān)系中包含的本層義原信息量均為3.346,根據(jù)式(4)可得“病菌”的義原及其角色關(guān)系的總信息量為7.946。
在知網(wǎng)中,包含幾種特殊符號(hào),如“~”、“?”、“MYM”、“*”。其中,“~”表達(dá)的含義是充當(dāng)一個(gè)具體動(dòng)態(tài)角色的值,“?”表示所充當(dāng)?shù)膭?dòng)態(tài)角色的演員一定會(huì)出現(xiàn),“MYM”表示充當(dāng)某一個(gè)動(dòng)態(tài)角色的演員[9] 。設(shè)定模式為“{義原1:{義原2: 動(dòng)態(tài)角色或特征={~}}}”情況下,“~”所表達(dá)內(nèi)容的信息量等于義原1的信息量。將其它特殊符號(hào)及動(dòng)態(tài)角色的信息量設(shè)定為一個(gè)常數(shù),大小與具體詞的信息量相同,為3.346。一個(gè)沒(méi)有義原描述的具體詞,其信息量為一個(gè)常數(shù),其大小可規(guī)定為一個(gè)葉子義原結(jié)點(diǎn)的信息量3.346。
1.3 共有義原及其角色關(guān)系的信息量
3 實(shí)驗(yàn)結(jié)果及分析
目前沒(méi)有可以評(píng)估中文詞語(yǔ)語(yǔ)義相似度算法質(zhì)量的專(zhuān)用數(shù)據(jù)集,本文選取一些常用詞語(yǔ)和知網(wǎng)漢語(yǔ)詞典中以“病”開(kāi)頭的一些相關(guān)詞語(yǔ)作為實(shí)驗(yàn)對(duì)象,與國(guó)內(nèi)著名的劉群方法[2]、知網(wǎng)在線[9]的詞語(yǔ)相似度計(jì)算方法進(jìn)行對(duì)比分析。劉群方法、知網(wǎng)在線和本文方法的實(shí)驗(yàn)參數(shù)如表1所示。詞語(yǔ)相似度實(shí)驗(yàn)結(jié)果如表2所示。
本文方法與劉群方法、知網(wǎng)在線方法相比較可知,劉群方法是基于義原距離來(lái)計(jì)算詞語(yǔ)相似度,當(dāng)義原處在同一類(lèi)義原樹(shù)中,詞語(yǔ)的相似度偏大,例如第3、6組詞語(yǔ)相似度結(jié)果比本文及知網(wǎng)在線方法的結(jié)果都偏大,與人的判斷也不一致。實(shí)際上,劉群方法在詞語(yǔ)相似度計(jì)算上不夠重視能反映出詞語(yǔ)差異的特性描述部分,使得詞語(yǔ)相似度計(jì)算結(jié)果的差異性不夠明顯,例如第4組詞語(yǔ)間相似度結(jié)果過(guò)于接近。
知網(wǎng)在線方法在計(jì)算詞語(yǔ)的相似性時(shí)更加細(xì)化,將詞語(yǔ)的義原結(jié)構(gòu)分解為多個(gè)部分,賦予各部分不同的權(quán)重然后加權(quán)計(jì)算得到整體間的相似度。這種方法實(shí)際上進(jìn)一步割裂了描述詞語(yǔ)的各個(gè)義原之間的關(guān)系,使得詞語(yǔ)相似度計(jì)算的結(jié)果也不夠準(zhǔn)確,例如第1、2、5、8、9組詞語(yǔ),計(jì)算結(jié)果偏小。另外,知網(wǎng)在線方法對(duì)詞語(yǔ)特性描述部分計(jì)算比較復(fù)雜,計(jì)算量也較大。
綜合來(lái)看,本文方法的結(jié)果整體表現(xiàn)更加合理,能夠反映出詞語(yǔ)間語(yǔ)義的相似性和差異,與人的判斷結(jié)果比較一致,計(jì)算也簡(jiǎn)單。
4 結(jié)語(yǔ)
基于知網(wǎng)義原信息量計(jì)算中文詞語(yǔ)相似度的方法根據(jù)信息論中計(jì)算兩個(gè)事物相似度的思想,利用知網(wǎng)的分類(lèi)體系來(lái)計(jì)算義原信息量,并根據(jù)知網(wǎng)這一關(guān)系系統(tǒng)的特性,從保留義原間關(guān)系的角度出發(fā),將義原及其角色關(guān)系作為計(jì)算概念相似度的基本單位,更能全面反映詞語(yǔ)語(yǔ)義的相似性和差異?;谥W(wǎng)通過(guò)義原及其角色關(guān)系的信息量來(lái)綜合計(jì)算詞語(yǔ)的相似度,計(jì)算量較少,計(jì)算結(jié)果合理可行。在詞語(yǔ)相似度計(jì)算基礎(chǔ)上,進(jìn)一步研究句子間相似度計(jì)算方法,則有待下一步研究。
參考文獻(xiàn):
[1] ENEKO AGIRRE,GERMAN RIGAU.A proposal for word sense disambiguation using conceptual distance[C].Proceedings of the First International Conference on Recent Advanced in NLP,1995:258264.
[2] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計(jì)算[C]. 臺(tái)北:第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002,7(2):5976.
[3] 董振東,董強(qiáng),郝長(zhǎng)伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2007,21(4):39.
[4] DEKANG LIN.An informationtheoretic definition of similarity[C].Proceedings of the Fifteenth International Conference on Machine Learning,1998:296304.
[5] PHILIP RESNIK.Semantic similarity in a taxonomy: an informationbased measure and its application to problems of ambiguity in natural language[J].Journal of Artificial Intelligence Research,1999(2):95130.
[6] 夏天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)工程,2007, 33(6):191194.
[7] 張亮,尹存燕,陳家駿.基于語(yǔ)義樹(shù)的中文詞語(yǔ)相似度計(jì)算與分析[J].中文信息學(xué)報(bào), 2010,24(6):2330.
[8] 王小林,王義.改進(jìn)的基于知網(wǎng)的詞語(yǔ)相似度算法[J].計(jì)算機(jī)應(yīng)用,2011,31(11):7590.
[9] 董強(qiáng),董振東.知網(wǎng)簡(jiǎn)介[EB/OL].[20130129].http://www.keenage.com/.
責(zé)任編輯(責(zé)任編輯:孫 娟)