鄭劍夕,白 宇,郭 程,張桂平
(沈陽航空航天大學(xué) 知識工程研究中心,遼寧,沈陽 110136)
Wikipedia跨語言鏈接發(fā)現(xiàn)中的錨文本譯項選擇
鄭劍夕,白 宇,郭 程,張桂平
(沈陽航空航天大學(xué) 知識工程研究中心,遼寧,沈陽 110136)
Wikipedia跨語言鏈接發(fā)現(xiàn)主要研究從源語言Wikipedia文章中自動識別與主題相關(guān)的錨文本,并為錨文本推薦一組相關(guān)的目標(biāo)語言鏈接。該研究涉及三個關(guān)鍵問題: 錨文本識別、錨文本翻譯和目標(biāo)鏈接發(fā)現(xiàn)。在錨文本翻譯中,一個錨文本可能存在多個目標(biāo)譯項,如果其譯項選擇有誤,將會直接影響目標(biāo)鏈接發(fā)現(xiàn)中的鏈接推薦的準(zhǔn)確性。為此,該文提出了一種基于上下文的錨文本譯項選擇方法,使用基于逐點互信息投票的方式確定錨文本的譯項。 對中英文Wikipedia中的人名、術(shù)語以及縮略語的譯項選擇進行測試,實驗表明該方法取得了較好的效果。
Wikipedia;跨語言鏈接發(fā)現(xiàn);錨文本;譯項選擇;逐點互信息
Wikipedia作為一個以開放和用戶協(xié)作編輯為特點的Web 2.0知識庫系統(tǒng)[1],具有豐富的語義信息,特別是錨文本及其鏈接關(guān)系對,使得用戶可以通過鏈接進一步獲取知識。事實上,不同語言描述的wiki詞條之間存在著互補的關(guān)系,為了全面了解詞條內(nèi)容,用戶往往需要通過跨語言的方式獲取知識。然而目前這種關(guān)系對一般只存在于單語言的Wikipedia文章中,同時,跨語言鏈接也僅存在于為數(shù)不多的文章標(biāo)題之間。因此,一種面向Wikipedia跨語言鏈接需求的跨語言鏈接發(fā)現(xiàn)技術(shù)(Cross-Lingual Link Discovery, CLLD)被提出[2],它旨在從源語言Wikipedia文章中識別與主題相關(guān)的錨文本(anchor text),并為錨文本推薦一組相關(guān)的目標(biāo)語言鏈接。圖1與圖2分別展示了Wikipedia中的單語言鏈接和跨語言鏈接。
跨語言鏈接發(fā)現(xiàn)技術(shù)涉及三個關(guān)鍵問題: 錨文本識別、錨文本翻譯和目標(biāo)鏈接發(fā)現(xiàn)。其基本流程如圖3所示。
圖1 Wikipedia中的單語言鏈接
圖2 Wikipedia跨語言鏈接發(fā)現(xiàn)[3]
圖3 Wikipedia跨語言鏈接發(fā)現(xiàn)基本流程
在錨文本翻譯過程中, 一個錨文本可能存在多個目標(biāo)譯項,如果其譯項選擇有誤,將會直接影響目標(biāo)鏈接發(fā)現(xiàn)中的鏈接推薦的準(zhǔn)確性,進而影響跨語言鏈接發(fā)現(xiàn)系統(tǒng)的整體性能。以“自然語言處理”的縮寫形式“NLP”為例,其可能的候選譯項有 “Natural Language Processing”“Neuro-linguistic Programming”“Non-linear Programming”等,并且它們在Wikipedia中都有對應(yīng)的鏈接,此時,跨語言鏈接發(fā)現(xiàn)就存在著錨文本譯項的選擇問題。此類問題在縮略語、人名和專業(yè)術(shù)語中較為普遍。
在現(xiàn)有錨文本翻譯的相關(guān)研究[3-8]中,普遍采用的方法是先通過利用翻譯資源(如Wikipedia已有的跨語言鏈接,雙語詞典以及在線翻譯引擎等)來構(gòu)建一部面向錨文本翻譯的雙語詞典,然后通過查找雙語詞典的方法獲取錨文本的翻譯。該方法是為錨文本找到最頻繁使用的譯項,但是它忽視了錨文本的上下文信息。
本文提出了一種面向Wikipedia跨語言鏈接發(fā)現(xiàn)的錨文本譯項選擇方法,與以往方法不同,該方法考慮了上下文信息,并使用逐點互信息對錨文本的候選譯項進行投票,然后按照票數(shù)的大小確定錨文本的譯項。本文組織結(jié)構(gòu)如下: 第二節(jié)回顧了現(xiàn)有的研究工作;第三節(jié)詳細(xì)描述了本文方法;在第四節(jié)給出了實驗的結(jié)果和分析;最后在第五節(jié)對本文工作進行總結(jié)。
在Wikipedia跨語言鏈接發(fā)現(xiàn)研究中,已有的錨文本翻譯方法按照譯項消歧的資源不同分為基于詞典的方法[4-8]和基于Web統(tǒng)計的方法[9-11]。
Kang[4]在英韓跨語言鏈接發(fā)現(xiàn)研究中提出了使用英韓雙語詞典對錨文本進行翻譯的方法,該方法的缺點在于構(gòu)建雙語詞典的過程費時費力,且詞典覆蓋度較低。Tang[5]和Liu[6]分別利用Wikipedia中已有的跨語言鏈接關(guān)系與Wikipedia的正文內(nèi)容中抽取已有的翻譯對,對錨文本進行翻譯。該方法能夠自動獲取Wikipedia的雙語等價網(wǎng)頁的標(biāo)題,其優(yōu)點在于翻譯準(zhǔn)確率較高,但是由于其規(guī)模十分有限,不足以滿足跨語言鏈接發(fā)現(xiàn)過程中對錨文本翻譯的需求。Gao[7]等人利用在線翻譯引擎對錨文本進行翻譯,然而,其翻譯結(jié)果的優(yōu)劣依賴于在線翻譯引擎的性能。此外,Kim[8]對上述方法進行組合,提出了一種層級翻譯方法。趙軍[9]總結(jié)了利用Web對命名實體進行翻譯的方法。郭稷[10]等人首先使用統(tǒng)計判別模型并融合多種識別特征從Web中獲取了命名實體、新詞以及術(shù)語等雙語翻譯對,然后使用搜索引擎對翻譯對進行了驗證。Tang[11]提出了一種命名實體的翻譯方法,其基本思想是根據(jù)Web中的統(tǒng)計信息來確定錨文本的譯項。該方法從基于多種翻譯資源獲得的全部翻譯結(jié)果中選擇出現(xiàn)頻率最高的翻譯結(jié)果作為最終的譯項。
3.1 系統(tǒng)框架
本文的系統(tǒng)框架主要包括五個模塊: 上下文抽取模塊、翻譯獲取模塊、信息統(tǒng)計模塊,關(guān)聯(lián)度計算模塊以及決策消歧模塊。給定一個測試集,首先,在上下文抽取模塊中獲取錨文本的上下文詞集合;同時,在翻譯獲取模塊中利用在線翻譯引擎獲得錨文本的全部候選譯項;然后,在信息統(tǒng)計模塊中,統(tǒng)計Wikipedia中的共現(xiàn)信息。在關(guān)聯(lián)度計算模塊中,使用PMI方法衡量錨文本的上下文詞通過該錨文本與其所有的候選譯項的關(guān)聯(lián)度;最后在決策消歧模塊中使用VOTE算法確定錨文本的最終譯項。該系統(tǒng)框架如圖4所示。
圖4 系統(tǒng)框架
3.2 基于上下文的譯項選擇
本文采用了一種基于上下文的譯項選擇方法,該方法的基本思想是使用基于逐點互信息投票的方式確定錨文本的譯項。PMI是指已知兩個離散變量的分布,求這兩個變量聯(lián)合分布的方法[12]。因為對一個在特定上下文環(huán)境下的錨文本而言,它只有一個正確的譯項,所以錨文本的譯項選擇依賴于其上下文環(huán)境。這種依賴程度可以利用上下文詞與該譯項的相關(guān)度進行投票的方式來度量,但是由于上下文詞與錨文本譯項組成的雙語詞對存在的語言空間問題,故本文選擇在含錨文本的Wikipedia混合語言文檔中計算該雙語詞對的相關(guān)度。錨文本的上下文與譯項共現(xiàn)的Wikipedia文檔數(shù)越多,意味著上下文詞與譯項之間存在較強的關(guān)聯(lián)關(guān)系的概率就越大,則該譯項作為錨文本的翻譯的可能性也越大。本文采用PMI公式度量上下文與譯項的關(guān)聯(lián)程度,它由式(1)表示。
(1)
然后,本文利用錨文本的每一個上下文詞與譯項之間的關(guān)聯(lián)程度對譯項的選擇進行投票,每次投票的權(quán)重為1,投票算法vote由公式(2)表示。
(2)
圖5 vote算法及其實例
4.1 實驗語料及評價指標(biāo)
本文在統(tǒng)計Wikipedia中的共現(xiàn)信息時,使用了NTCIR-10提供的中英文Wikipedia文檔集[13],該文檔集的詳細(xì)信息如表1所示。實驗的測試集包含人名、術(shù)語和縮略語三類錨文本(如表2所示)以及含該錨文本的例句。
表1 NTCIR-10中英文Wikipedia文檔集
本文使用SemEval 2007中的Multilingual Chinese-English Lexical Sample Task評測任務(wù)提供的標(biāo)準(zhǔn)評測工具進行評測。該評測工具包含兩種評價指標(biāo)Pmir和Pmar(MicroAverageAccuracy和MacroAverageAccuracy)[14],如式(3)~(4)所示。
(3)
(4)
其中N為所有的目標(biāo)詞數(shù),mi是對每一個特定的詞所標(biāo)注正確的例句數(shù),ni是對該特定詞的所有測試?yán)鋽?shù)。上述兩者指標(biāo)的不同之處在于:Pmir是每一個測試?yán)涞男阅苤笜?biāo)的算數(shù)平均值,Pmar是每一個類別的性能指標(biāo)的算數(shù)平均值。
表2 中英文Wikipedia錨文本
表3 中文Wikipedia實驗結(jié)果對比
表4 英文Wikipedia實驗結(jié)果對比
4.2 實驗結(jié)果及分析
實驗分別采用了三種方法在中英文Wikipedia測試集上進行對比分析。本文采用文獻[15]提出的基于雙語詞匯Web間接關(guān)聯(lián)度的最優(yōu)方法做為對比方法一。方法一將搜索引擎返回的頁面總數(shù)(Page Counts)作為間接共現(xiàn)信息,但該信息通常為估計值,不夠精確。因此,本文利用搜索引擎返回的首頁摘要片段總數(shù)(Snippet Counts)替代頁面總數(shù)的改進方法作為對比方法二。另外,為避免數(shù)據(jù)稀疏問題,該方法采用了加1平滑。方法三采用第三節(jié)提出的方法。表3和表4分別展示了中文和英文Wikipedia對比實驗結(jié)果。
由表3~4中可見,方法三的效果高于方法一和方法二。這表明與其他兩種方法相比,本文提出的方法在錨文本譯項選擇問題上更加有效。進一步分析得出,方法一和方法二使用搜索引擎作為統(tǒng)計共現(xiàn)信息的資源,由于搜索引擎是一個通用領(lǐng)域的Web知識檢索系統(tǒng),在對Wikipedia的三類錨文本(人名、術(shù)語及縮略語)上下文與其目標(biāo)譯項的共現(xiàn)信息的覆蓋度較低,所以導(dǎo)致兩者的效果不如方法三。此外,在中文測試集上方法二的效果高于方法一,然而在英文測試集上結(jié)果卻相反,原因可能在于中文搜索引擎中的英文摘要片段的質(zhì)量不佳,導(dǎo)致共現(xiàn)信息的價值不高。
為了觀察三種方法對不同類別的錨文本的譯項選擇效果,本文還計算了每個類別錨文本的Pmar值(Pmir的表現(xiàn)與Pmar類似,故本文只考慮了Pmar的情況),實驗結(jié)果分別如圖6和圖7所示。
圖6 中文Wikipedia中不同類型錨文本的實驗結(jié)果
圖7 英文Wikipedia中不同類型錨文本的實驗結(jié)果
由圖6可見,在中文Wikipedia中,方法三和方法二在人名方面的測試效果均達(dá)到了40%,兩者均比方法一提高了15%,說明方法三和方法二在人名的譯項選擇上有效;在術(shù)語方面的測試結(jié)果中,方法三達(dá)到了35%,分別比方法二和方法一提高了15%和17.5%,這說明了Wikipedia對術(shù)語信息的覆蓋度較高;在縮略語方面的測試結(jié)果中,方法二的效果為27.8%,明顯高于方法一和方法三的11.1%,說明Wikipedia文檔集對中文縮略語信息的覆蓋度較低,導(dǎo)致效果有限。實驗表明,在中文Wikipedia中,方法三適合人名和術(shù)語的譯項選擇任務(wù),方法二適合人名和縮略語的譯項選擇任務(wù)。
由圖7可見,在英文Wikipedia中,方法三在人名的測試效果達(dá)到了27.3%,它比方法二下降了4.5%,與方法一相比提高了4.6%,主要原因在于該Wikipedia文檔集對英文人名信息的覆蓋度有限;在術(shù)語方面的測試結(jié)果中,方法三的效果達(dá)到了47.5%,分別比方法一和方法二提高了12.5%和40%,說明術(shù)語在Wikipedia中的共現(xiàn)信息價值大,方法三充分利用了該信息,從而效果明顯提升;在縮略語方面的實驗結(jié)果中,方法三為31%,分別比方法一和方法二提高了3.6%和20.3%,說明方法三在縮略語的譯項選擇方面更有效,而方法二效果不理想。實驗表明,在英文Wikipedia中,方法三適合術(shù)語和縮略語的譯項選擇任務(wù),方法二適合人名的譯項選擇任務(wù)。
本文提出了一種面向Wikipedia跨語言鏈接發(fā)現(xiàn)的錨文本譯項選擇方法。該方法考慮了上下文信息,并使用逐點互信息對錨文本的候選譯項進行投票,然后按照票數(shù)的大小確定錨文本的譯項。實驗結(jié)果表明: 該方法在整體性能上與方法一、二相比有明顯的提升。其中,該方法在術(shù)語方面效果最佳;在人名方面,中文效果較好,英文效果還需提升;在縮略語方面,英文效果較好,中文效果有限。由于該方法依賴于Wikipedia文檔集的規(guī)模、質(zhì)量和類別,因此存在一定的局限性。另外,從中文Wikipedia中縮略語類型錨文本的實驗結(jié)果和英文Wikipedia中人名類型錨文本的實驗結(jié)果可以看出,方法二和方法三在錨文本的譯項選擇上各有優(yōu)勢。因此,下一步工作將考慮對現(xiàn)有方法進行融合。
[1] 涂新輝,張紅春,周琨峰,等. 中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計算方法[J].中文信息學(xué)報,2012,26(3): 109-115.
[2]HuangWC,TrotmanA,GevaS.AVirtualEvaluationTrackforCrossLanguageLinkDiscovery[A].InSIGIR’09.Boston,USA, 2009: 1-7.
[3]TangLX,TrotmanA,GevaS,etal.Cross-LingualKnowledgeDiscovery:Chinese-to-EnglishArticleLinkinginWikipedia[J].InformationRetrievalTechnology.SpringerBerlinHeidelberg, 2012: 286-295.
[4]KangIS,MarigomenR.English-to-KoreanCross-linkingofWikipediaArticlesatKSLP[C]//ProceedingsofNTCIR-9,Tokyo,Japan, 2011: 481-483.
[5]TangLX,CavanaghD,TrotmanA.AutomatedCross-lingualLinkDiscoveryinWikipedia[C]//ProceedingsofNTCIR-9,Tokyo,Japan, 2011: 512-529.
[6]LiuMF,KangL,YangS,etal.WUSTEN-CSCrosslinkSystematNTCIR-9CLLDTask[C]//ProceedingsofNTCIR-9,Tokyo,Japan, 2011: 508-511.
[7]GaoYF,XuHJ,ZhangJS,etal.Multi-filteringMethodBasedCross-lingualLinkDiscovery[C]//ProceedingsofNTCIR-9,Tokyo,Japan, 2011: 520-523.
[8]KimJ,GurevychI.UKPatCrossLink:AnchorTextTranslationforCross-lingualLinkDiscovery[C]//ProceedingsofNTCIR-9,Tokyo,Japan, 2011: 487-494.
[9] 趙軍. 命名實體識別、排歧和跨語言關(guān)聯(lián)[J]. 中文信息學(xué)報,2009,23(2): 3-17.
[10] 郭稷,呂雅娟,劉群. 一種有效的基于Web的雙語翻譯對獲取方法[J]. 中文信息學(xué)報,2008,22(6): 103-109.
[11]TangLX.LinkDiscoveryforChinese/EnglishCross-LanguageWebInformationRetrieval[D].QueenslandUniversityofTechnology, 2012.
[12] 朱亞東,張成,俞曉明,等. 基于逐點互信息的查詢結(jié)構(gòu)分析[J]. 中文信息學(xué)報,2012,26 (5): 33-39.
[13]TangLX,KangIS,KimuraF,etal.OverviewoftheNTCIR-10Cross-LingualLinkDiscoveryTask[C]//ProceedingsofNTCIR-10,Tokyo,Japan, 2013: 1-36.
[14]JinP,WuYF,YuS.SemEval-2007Task5:MultilingualChinese-EnglishLexicalSample[C]//ProceedingsofSemEval-2007Prague, 2007: 19-23.
[15] 劉鵬遠(yuǎn),趙鐵軍. 基于雙語詞匯Web間接關(guān)聯(lián)的無指導(dǎo)譯文消歧[J]. 軟件學(xué)報, 2010, 21 (4): 575-585.
The Translation Selection of Anchor Text in Wikipedia Cross-Lingual Link Discovery
ZHENG Jianxi, BAI Yu, GUO Cheng, ZHANG Guiping
(Research Center for Knowledge Engineering, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)
The research on Wikipedia Cross-Lingual Link Discovery (CLLD) is to automatically identify an anchor text related to topic from source language Wikipedia articles, and recommend a set of relevant target language links to the anchor text. It involves three key problems: anchor text identification, anchor text translation, and target link discovery. To deal with the multiple target translations of an anchor text, we propose a context-based translation selection method, which uses a vote method based on pointwise mutual information (PMI). Experiments on the translation selection of person names, terminology and abbreviation in Chinese and English Wikipedia articles, the results show that the method achieves good performances.
Wikipedia; CLLD; anchor text; translation selection; PMI
鄭劍夕(1988—),博士研究生,主要研究領(lǐng)域為自然語言處理,信息檢索。E?mail:zhengjxkercir@163.com白宇(1982—),通信作者,博士研究生,講師,主要研究領(lǐng)域為信息檢索。E?mail:baiyu@sau.edu.cn郭程(1987—),碩士研究生,主要研究領(lǐng)域為信息檢索。E?mail:guocheng1987@163.com
1003-0077(2016)02-0196-06
2013-09-20 定稿日期: 2014-04-15
國家科技支撐計劃資助項目(2012BAH14F00);國家973計劃資助項目(2010CB530401)
TP391
A