陳洪生,吳守華
(1.湖北科技學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 咸寧 437100;
2.通城縣地方稅務(wù)局,湖北 通城 437400)
與前些年的信息資源匱乏相比,現(xiàn)在信息用戶更加關(guān)注的是如何從海量的信息資源中發(fā)掘其所需要的信息.信息資源異構(gòu)性的存在,尤其是語義異構(gòu)性的存在,使得采用傳統(tǒng)以字符串匹配為基礎(chǔ)的信息檢索系統(tǒng)難以滿足用戶對信息和知識的深層次需求,因此,加強(qiáng)基于概念匹配的信息檢索系統(tǒng)的研究就顯得尤為重要.簡而言之,概念匹配就是計(jì)算詞語之間的語義相似度[1].與傳統(tǒng)的以詞形為切入點(diǎn)、建立在詞語字面匹配基礎(chǔ)上的檢索算法相比,語義相似度計(jì)算是對源和目標(biāo)詞語間在概念層面上相似程度的度量,需要考慮詞語所在的語境和語義等信息.在我國,以知網(wǎng)[2]為基礎(chǔ)的詞匯相似度計(jì)算是較好的方法之一,并在機(jī)器翻譯、信息檢索、文本分類、文本聚類答問、案提取、答系統(tǒng)等領(lǐng)域有著一定程度的應(yīng)用;劉群[3]等人提出的方法可以解決同一特征文件中義原間的語義相似度問題,但不能解決不同特征文件義原間的語義相關(guān)性問題.李素建[4]將知網(wǎng)和同義詞詞林結(jié)合起來計(jì)算不同特征文件中詞語的相似度,在一定程度上解決了不同特征文件間詞語的語義相關(guān)性,但是知網(wǎng)和同義詞詞林詞語的組織方式完全不同,所以計(jì)算結(jié)果不是很理想;許云[5]、王廣正[6]等提出了各自的語義相關(guān)度計(jì)算方法.
研究語義相關(guān)度評價(jià)方法會(huì)牽涉到語義相似性和語義相關(guān)性問題,在具體的研究前,先對基本概念做出解釋.語義相似性是指主題間有共同特性,意義相似;而相關(guān)是指在人的直覺中兩個(gè)主題關(guān)聯(lián),關(guān)聯(lián)的原因多種多樣,可以說語義相似是語義相關(guān)一種特例,相關(guān)性是比相似性更普遍一個(gè)概念.除了語義相關(guān)和語義相似,語義距離被用于度量主題間的相關(guān)性,它被視為語義相關(guān)的逆,即主題間語義距離越小,則語義相關(guān)度越大.研究中具體采用哪種概念作為語義關(guān)聯(lián)的度量取決于相關(guān)度評價(jià)方法構(gòu)建,同時(shí)指出文中常提到的關(guān)聯(lián)量化及相關(guān)度評價(jià)兩個(gè)名詞都是對相關(guān)性度量的稱謂.
目前,根據(jù)語義相關(guān)度評價(jià)方法依賴的知識資源區(qū)分,主要有兩類評價(jià)方法:分布方法和基于本體的方法.國內(nèi)學(xué)者通常把分布方法稱為統(tǒng)計(jì)方法(Distribution Measure),把基于本體的方法(Ontology—Based Measure)稱為語義詞典方法.分布方法是對大型文本語料庫進(jìn)行統(tǒng)計(jì)分析,通過判斷兩個(gè)單詞的上下文(上下文是由一些共現(xiàn)詞組成的)的相關(guān)程度,間接計(jì)算單詞對的相關(guān)度[7].分布方法計(jì)算相關(guān)度依賴語料庫知識資源,計(jì)算結(jié)果的準(zhǔn)確度外部受語料庫的規(guī)模、質(zhì)量、專業(yè)性的影響,內(nèi)部受共現(xiàn)詞的出現(xiàn)窗口大小、句型結(jié)構(gòu)的選擇等因素的影響,具有局限性;基于本體的方法[8]是以某種方式,把知識資源構(gòu)建為網(wǎng)絡(luò)或者有向圖,使之形成一個(gè)確定的概念化體系,基于圖中概念間連通的路徑屬性來計(jì)算相關(guān)度.基于本體的方法計(jì)算相關(guān)度依賴本體資源的質(zhì)量,主題圖本身是一種針對專業(yè)領(lǐng)域構(gòu)建的知識本體,且主題間的相關(guān)度具有強(qiáng)烈的領(lǐng)域特色,例如說:主題對“空間”和“時(shí)間”在量子力學(xué)中關(guān)系非常相似,但在其他大部分領(lǐng)域中都并不那么相近,主題間的語義相關(guān)度無法脫離特定的主題圖本體而獨(dú)立得出,因此基于本體的方法適用于衡量主題間的相關(guān)度[9].
目前,基于本體的方法主要是基于WbrdNet語義詞典的方法,在詳細(xì)討論下述基于本體的語義相關(guān)度評價(jià)方法時(shí),首先給出一些符號、概念的定義:
(1)同義詞集c1到同義詞集c2的最短路徑的長度用len(c1,c2)來表示;
(2)一個(gè)節(jié)點(diǎn)的深度是指從該節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑的長度;
(3)c1和c2的最近共同父類,即同時(shí)包含才c1和c2并且深度最大的類,記為lso(c1,c2);基于本體的語義相關(guān)度評價(jià)方法通過主題間路徑的屬性來計(jì)算相關(guān)度,本體作為一個(gè)分類層次化語義網(wǎng)絡(luò)體系,網(wǎng)絡(luò)結(jié)構(gòu)的局部密度、主題節(jié)點(diǎn)在網(wǎng)絡(luò)層次中的深度、網(wǎng)絡(luò)中蘊(yùn)含的連接類型、主題間的路徑長度、連接強(qiáng)度都是影響語義相關(guān)度的關(guān)鍵因素.
此方法是基于向量空間模型以及信息論,提出一個(gè)與文章內(nèi)容相關(guān)的語義相關(guān)度算法模型.該模型將文章語義抽象為詞頻表,并通過機(jī)器學(xué)習(xí)構(gòu)建詞語之間的關(guān)聯(lián)度表,以此詞關(guān)聯(lián)度為基礎(chǔ),計(jì)算文章之間的相關(guān)度,此方法可以有效的根據(jù)文章之間的語義相關(guān)度大小進(jìn)行排名[10].
目前有很多公開的數(shù)據(jù)庫供研究者使用,特別是如維基百科、知網(wǎng)等很多數(shù)據(jù)庫都可以使用,當(dāng)然有很多基于這些數(shù)據(jù)庫的語義相關(guān)度研究,劉軍等在[11]文中提出基于Wikipedia的語義相關(guān)度計(jì)算方法.在構(gòu)建Wikipedia類別樹的基礎(chǔ)上,通過 Wikipedia類別向量表示W(wǎng)ikipedia中的詞匯,形成一部包含各種領(lǐng)域知識的 Wikipedia詞典,利用該詞典計(jì)算語義相關(guān)度.張振幸等在[12]文中以知網(wǎng)理論相似度計(jì)算為基礎(chǔ),提出了一種計(jì)算詞語相關(guān)度方法;該方法將知網(wǎng)中不同特征文件間的義原通過其解釋義原與其它特征文件中的義原建立聯(lián)系,進(jìn)而計(jì)算它們之間的相關(guān)度,并用該方法提取文本特征,實(shí)驗(yàn)結(jié)果表明,該方法更趨于合理,絕大部分結(jié)果更符合人們的日常體驗(yàn) ,有效提高了計(jì)算結(jié)果的精確度和準(zhǔn)確性.
目前,國外學(xué)者對于語義相關(guān)度的評價(jià)方法的已做了較為深入的研究,它可以分為兩類,一類是基于語義詞典的方法,一類是統(tǒng)計(jì)的方法[7].其中基于語義詞典的方法大多基于WordNet提出的許多度量語義相關(guān)的度量方法.但是,國內(nèi)在語義相關(guān)原理和應(yīng)用方面的研究還比較欠缺,特別缺少在中文環(huán)境下的分析與應(yīng)用,大多數(shù)的研究都選擇英文環(huán)境,少部分采用中文環(huán)境.如顏偉和荀恩東計(jì)算了WordNet中英語單詞的相關(guān)度[13],孫爽和章勇提出了基于語義相似度的聚類算法[14],但是他們研究的語言環(huán)境還是英語.在中文環(huán)境下,章成志介紹了上文若干種度量方法[15],但沒有進(jìn)行相互之間的比較,劉群和李素建基于知網(wǎng)提出新的度量方法,但仍囿于知網(wǎng)的規(guī)模相對較?。?].李峰等人根據(jù)現(xiàn)有的方法,提出了多個(gè)相似度計(jì)算公式,但比較時(shí)實(shí)驗(yàn)集很小,并且缺乏在實(shí)際應(yīng)用中的比較[16].Raftopoulou P[17]等在文中提出了一個(gè)新的語義相關(guān)的定義,認(rèn)為兩個(gè)詞所表達(dá)的概念之間,如果存在用類似“知網(wǎng)”的知識描述體系所描述的語義關(guān)系,那么這兩個(gè)概念之間就是語義相關(guān)的.通過挖掘這些直接或間接的關(guān)系,提出了一種新的語義相關(guān)度的計(jì)算模型,適用于所有類似知網(wǎng)的知識體系中語義相關(guān)度的計(jì)算.最后將該計(jì)算模型應(yīng)用于詞義排歧,驗(yàn)證了該計(jì)算模型的有效性.
目前,基于本體的語義相似度計(jì)算方法研究已經(jīng)形成了豐富的研究成果,語義相似度和語義距離之間存在著密切的關(guān)系:兩個(gè)詞語的語義距離越大,其相似度越低;反之,兩個(gè)詞語的語義距離越小,其相似度越大.詞語語義距離的計(jì)算方法基本上可以分為兩類:基于某種世界知識的計(jì)算方法和基于大規(guī)模語料庫的統(tǒng)計(jì)計(jì)算方法[16].本體概念體系可用層次樹來描述,其中節(jié)點(diǎn)表示本體中的概念詞;邊表示本體中概念詞與概念詞之間的關(guān)系.一般來講,概念范疇較廣的概念詞在樹中的位置一般比較高,周圍節(jié)點(diǎn)密度相對較少;概念范疇較為具體的概念詞在樹中的位置相對較低,且周圍節(jié)點(diǎn)密度相對較大.因此,樹中概念詞間語義相似度計(jì)算主要受以下因素影響[17-19]:
(1)被比較概念詞在本體層次樹中所處的深度
在本體層次樹中,概念詞所處層次越高,越抽象;所處層次越低,越具體.高層次的概念詞間的語義相似度一般小于低層次概念詞間的語義相似度.因此,路徑相同的兩個(gè)節(jié)點(diǎn),高層次節(jié)點(diǎn)所表征的語義距離要大于低層次節(jié)點(diǎn)所表征的語義距離.
(2)被比較概念詞在本體層次樹中所處區(qū)域的密度
在本體層次樹中,局部區(qū)域密度越大,說明該區(qū)域?qū)?jié)點(diǎn)概念的細(xì)化程度也越大.因此,對組成被比較概念詞連接路徑的各個(gè)邊來說,其在本體層次樹中所處的密度越大,對應(yīng)的權(quán)重也應(yīng)該越大.
(3)被比較概念詞連通路徑上各個(gè)邊的類型
在本體中,不同的概念關(guān)系所表征的語義相似度是不同的.例如,“同義關(guān)系”所表征的語義相似度應(yīng)大于“整體-部分關(guān)系”所表征的語義相似度.
(4)被比較概念詞連通路徑上各個(gè)邊在本體層次樹中的關(guān)聯(lián)強(qiáng)度
在本體層次樹中,一個(gè)節(jié)點(diǎn)可能與多個(gè)節(jié)點(diǎn)相連接,但這些節(jié)點(diǎn)的重要程度通常存在差異,因此,相應(yīng)的連接邊對語義相似度的影響也必然不同.
(5)被比較概念詞連通路徑上各個(gè)邊的兩端節(jié)點(diǎn)概念詞的屬性
本體,尤其是領(lǐng)域本體,不僅會(huì)對概念及其關(guān)系進(jìn)行準(zhǔn)確定義,還會(huì)對概念的屬性進(jìn)行詳細(xì)描述.如果某條邊兩端的概念詞所用的相同屬性越多,那么其對語義相似度的影響也越大.
國內(nèi)外精典計(jì)算模型有以下一些方法:基于距離的語義相似度計(jì)算,基于信息內(nèi)容的語義相似度計(jì)算,基于屬性的語義相似度計(jì)算,混合式語義相似度計(jì)算,基于概念向量模型的語義相似度計(jì)算等.孫海霞等在[20]文中在對基于本體的詞語語義相似度進(jìn)行界定的基礎(chǔ)上,對基于本體的語義相似度研究進(jìn)行綜述,分別闡述基于距離的語義相似度計(jì)算、基于內(nèi)容的語義相似度計(jì)算、基于屬性的語義相似度計(jì)算和混合式語義相似度計(jì)算等算法模型,最后從宏觀層面指出今后本領(lǐng)域的研究方向.
計(jì)算語義相關(guān)度在語言應(yīng)用中非常重要,如查找、聚類、消除歧義等方面.以前的計(jì)算語義相關(guān)度的方法大部分都采用了靜態(tài)語言資源,而忽略了它們時(shí)間的影響,其實(shí)通過學(xué)習(xí)過去一段時(shí)間的單詞使用樣式是可以找到單詞間的相關(guān)性信息的.比如說,我們考慮很多年的報(bào)紙存檔信息,兩個(gè)單詞“戰(zhàn)爭”與“和平”,也許這兩個(gè)詞很少在同一個(gè)文章里使用,但是它們的使用樣式在過去一段時(shí)間里也許是相類似的.在文獻(xiàn)[21]中,作者提出了一種新的語義相關(guān)度模型,時(shí)間語義分析(TSA),這種方法獲取時(shí)間信息.以前的研究方法,直接語義分析(ESA)通過概念向量來表示單詞的語義.TSA使用了一種改進(jìn)的表示方法,每個(gè)向量不再是一個(gè)標(biāo)準(zhǔn)值,而是過去一段時(shí)間的文檔的一個(gè)時(shí)間序列,并且這是第一次嘗試將時(shí)間信息放入語義相關(guān)度分析模型中.
在文獻(xiàn)[21]中,主要貢獻(xiàn)如下:首先,作者提出了使用時(shí)間信息作為發(fā)現(xiàn)單詞間語義相關(guān)的的互補(bǔ)資源,尤其是,作者介紹了時(shí)間語義分析,這改變了一些信息并計(jì)算出了語義相關(guān)改變度.然后,作者構(gòu)建了一個(gè)新的語義相關(guān)度的數(shù)據(jù)庫,并且通過Amazon'sMechanical Turk提供的服務(wù)進(jìn)行了評價(jià),最后實(shí)驗(yàn)結(jié)果顯示TSA比ESA性能優(yōu)越性好很多.
時(shí)間語義分析(TSA)主要包含兩部分,自然語言中字詞的語義表示和字詞間語義相關(guān)度的計(jì)算.作者的方法是建立在每個(gè)單詞與一個(gè)有一定權(quán)值的概念向量表示,這種概念向量可以從維基百科,F(xiàn)lickr或者從在線書簽服務(wù)來表示,這跟最近的語義分析方法ESA很相似.然而,ESA使用的是靜態(tài)語義表示每個(gè)向量,作者使用了概念度即通過這一概念發(fā)生的時(shí)間序列表示時(shí)間變化行為.因此,不僅僅是用一個(gè)單位向量來表示一個(gè)單詞,向量的時(shí)間序列也加入進(jìn)來,每個(gè)時(shí)間序列通過時(shí)間概念度來描述.我們的假設(shè)是概念行為隨著時(shí)間是類似的,那么語義就相關(guān).TSA有三個(gè)步驟:
(1)把單詞通過概念向量表示:通過概念庫選擇(Wikipedia or Flickr im-age tags)
(2)提取每個(gè)概念的時(shí)間度:通過使用文檔選擇(NewYork Times archive)
(3)把時(shí)間段擴(kuò)展到靜態(tài)表示中去
下面我們分析一下文獻(xiàn)[21]中TSA方法中的一些主要的思想及算法,首先看時(shí)間概念度(TemporalConceptDynamics)的計(jì)算,假設(shè)C是一個(gè)概念可以通過一系列的單詞Wc1,….Wck表示,d表示一個(gè)文檔.我們說如果每個(gè)單詞對(Wci,Wcj),在文檔d中出現(xiàn)的位置距離小于給定的一個(gè)值Q,那么就說C這個(gè)概念在文檔d中出現(xiàn)過.一般的Q是一個(gè)近似松弛系數(shù),在此文中作者設(shè)置此值為20,即單詞對的間隔不超過20個(gè).這也就是說一個(gè)概念在一篇文檔中出現(xiàn)實(shí)際上就是有一個(gè)大小為Q的窗口包含了概念C中的所有單詞.比如,有一概念“GreatFireof London”,我們說這個(gè)概念在一個(gè)文檔 d中出現(xiàn)時(shí)指單詞“Great”、“Fir”、“of”、“London”四個(gè)單詞同時(shí)出現(xiàn)在它們間的距離小于Q個(gè)單詞的文檔d中.
T1……Tn表示連續(xù)的不相關(guān)的時(shí)間點(diǎn)(如天),H=D1….Dn表示文檔收集集的歷史表示,其中Di是跟時(shí)間Ti相關(guān)的文檔收集.所以定義概念C的度可以用其出現(xiàn)在H中的頻率的時(shí)間序列表示公式如下:
將時(shí)間信號擴(kuò)展到靜態(tài)表示中,作者用權(quán)重和概念時(shí)間序列混合來表示一個(gè)單詞,權(quán)重相當(dāng)于概念關(guān)于原始詞意的重要程度,具體的表示如下圖所示:
根據(jù)對以前文檔的統(tǒng)計(jì)計(jì)算得出時(shí)間概念度之后,就可以使用TSA來計(jì)算語義相關(guān)度了,為了計(jì)算一對單詞間的語義相關(guān)度,我們使用多個(gè)時(shí)間序列間權(quán)重距離測量來比較他們的向量,并且結(jié)合靜態(tài)語義相似度概念測量方法.所以這個(gè)方法整合了單詞的時(shí)間和靜態(tài)意義行為.基于TSA的語義相關(guān)度算法如下:
作者僅假設(shè)高權(quán)重相關(guān)的概念單詞也相關(guān),假設(shè)我們想找到兩個(gè)單詞T1和T2之間的相關(guān)度,假設(shè)T1映射到一個(gè)概念集C(T1)={C11,….Cn1},T2映射到一個(gè)概念集C(T2)={C12,….Cm2}.假設(shè)有一個(gè)函數(shù)Q通過使用它們之間的概念時(shí)間度來決定兩個(gè)單獨(dú)的概念之間的相關(guān)度,并且假設(shè)n<=m,我們就可以定義T1與T2之間的相關(guān)度R為所有有序子集C(T2中每對概念相關(guān)度和的最大值,具體公式如下:
實(shí)際上如果按照以上的公式進(jìn)行窮舉計(jì)算求最大值是很難實(shí)現(xiàn)的,所以作者提供了一種取舍貪婪方法,在算法中每步是找出最高相關(guān)度的一對時(shí)間序列.然后在相應(yīng)集合中刪除它們,如此循環(huán),最后通過求和得到一個(gè)相關(guān)度.此過程的時(shí)間復(fù)雜度為O(n*m*max(|ts|)),其中ts是表示概念的時(shí)間序列長度.
其中Q函數(shù)計(jì)算語義相關(guān)度的方法有兩種即 交叉相關(guān)(CrossCorrelation)和動(dòng)態(tài)時(shí)間包裝(Dynamic TimeWarping),經(jīng)過實(shí)驗(yàn)交叉相關(guān)在TSA中效果比動(dòng)態(tài)時(shí)間包裝(Dynamic TimeWarping)要好,故在文獻(xiàn)[21]中采用的是交叉相關(guān)(CrossCorrelation)方法求語義相關(guān)度.
TSA方法性能上比ESA要好,但是也存在一些缺陷,TSA在識別復(fù)雜隱含聯(lián)系時(shí)存在一些與人們認(rèn)識不同的結(jié)果,也就是不能準(zhǔn)確把握語義聯(lián)系.存在這種問題的原因是作者所選用的時(shí)間序列文檔集不夠完全,太單一,沒有涉及特殊領(lǐng)域的文檔,如科學(xué)技術(shù)等,可以考慮增加一些時(shí)間文檔,如博客、評論等信息.
對于文獻(xiàn)[21],本人有一些不成熟的想法,此文提出的是一種新穎并且有效的方法通過語義分析來解決字詞間相關(guān)性問題,并且通過實(shí)驗(yàn)驗(yàn)證了其想法的有效性.但是也有局限性如自己提到的由于使用的數(shù)據(jù)庫的局限性本文中作者必然導(dǎo)致一些語義相近詞鑒別不出來,可以針對性進(jìn)行分類比較,比如科普性的、大眾性的等,是否可以先對大量的文檔進(jìn)行一個(gè)分類,然后再進(jìn)行統(tǒng)計(jì)計(jì)算效果應(yīng)該會(huì)更好.
本文對語義相關(guān)度中的一些技術(shù)及前沿方法進(jìn)行了簡要的介紹,主要從基于詞關(guān)聯(lián)度、基于相關(guān)數(shù)據(jù)庫的語義相關(guān)度計(jì)算、中文語義相關(guān)度計(jì)算的研究、基于本體的語義相似度計(jì)算方法、使用時(shí)間語義分析計(jì)算單詞間相關(guān)度進(jìn)行了闡述,重點(diǎn)以文獻(xiàn)[21]介紹了使用時(shí)間語義分析計(jì)算單詞間相關(guān)度,并且提出了一些自己想法和有待于研究的問題,總之,在語義相關(guān)度中還有很多問題值得人們?nèi)ニ伎?,研究和?shí)踐.
[1]Semantic Similarity Measures in MeSH Ontology and Their Application to Information Retrieval on Medline[EB/OL].[2007 -12 -10].http://www.intelligence.tuc.gr/publications/Hliautakis
[2]董振東,董強(qiáng).知網(wǎng)簡介[EB/EL].http://www.keen2age.com.
[3]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].Computational L inguistics and Chinese Language Process zing,2002:59 -76.
[4]李素建.基于語義計(jì)算的語句相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用,2002,(7):75 -77.
[5]許云,樊孝忠,張鋒.基于知網(wǎng)的語義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào),2005,20(5):411 -414.
[6]王廣正,王喜鳳.基于知網(wǎng)語義相關(guān)度計(jì)算的詞義消歧方法[J].安徽工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,(1):71-75.
[7]Mohammat S,Hirst G.Distributional Measures as Proxies for Semantic Relatedness.In Submission[EB/OL].http://www.cs.toronto.edu/compling/publications.
[8]Budanitsky A,HirstG..EvaluatingWordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguistics.2006,32(1):13 -47.
[9]李麗冬,主題圖的語義相關(guān)度評價(jià)方法研究,碩士論文,大連理工大學(xué),2008.12.
[10]張?jiān)鼋艿?,基于詞關(guān)聯(lián)度的語義相關(guān)度算法研究,微型電腦應(yīng)用[J].2011,27(3).
[11]劉軍,姚天昉,基于 Wikipedia的語義相關(guān)度計(jì)算[J].計(jì)算機(jī)工程,2010,(10).
[12]張振幸,李金厚,一種基于知網(wǎng)的語義相關(guān)度計(jì)算方法[J].洛陽師范學(xué)院學(xué)報(bào),2010,4.
[13]顏偉,荀恩東.基于語義網(wǎng)計(jì)算英語詞語相似度[J].情報(bào)學(xué)報(bào),2006,25(1):43 ~48.
[14]孫爽,章勇.一種基于語義相似度的文本聚類算法[J].南京航天航空大學(xué)學(xué)報(bào),2006,38(6):712 ~716.
[15]章成志.詞語的語義相似度計(jì)算及其應(yīng)用研究[C].//第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議,上海,2004.
[16]李峰,李芳.中文詞語語義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99 ~105.
[17]Raftopoulou P,Petrakis E.Semantic Similarity Measures:A Comparison Study[R],2005.
[18]黃果,周竹榮.基于領(lǐng)域本體的語義相似度計(jì)算研究[J].計(jì)算機(jī)工程與科學(xué),2007,29(5):112 ~117.
[19]張忠平,趙海亮,張志惠.基于本體的概念相似度計(jì)算[J].計(jì)算機(jī)工程,2009,35(7):17 ~19.
[20]孫海霞,錢 慶,成 穎,基于本體的語義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(1).
[21]Kira Radinsky,Eugene Agichteiny,Evgeniy Gabrilovichz,and Shaul Markovitch,A Word at a Time:Computing Word Relatedness using Temporal Semantic Analysis,in proc ofWWW,2011.