王 星,陶明陽,侯 磊,于濟凡,單力秋,張馨如,陳 吉
(1. 遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島 125105;2. 清華大學(xué) 計算機科學(xué)與技術(shù)系,北京 100084;3. 清華大學(xué) 人工智能研究院知識智能研究中心,北京 100084;4. 清華大學(xué) 北京信息科學(xué)與技術(shù)國家研究中心,北京 100084)
隨著2022年北京張家口冬季奧林匹克運動會的臨近,人們對冬奧會相關(guān)知識的需求越來越大,因此有必要構(gòu)建一個與冬奧會相關(guān)的垂直領(lǐng)域知識圖譜。目前,獲取冬奧會術(shù)語詞條的權(quán)威途徑有冬奧會術(shù)語查詢網(wǎng)和國際奧委會官方網(wǎng)站,但它們都有各自的局限性。冬奧會術(shù)語查詢網(wǎng)可查詢六種語言的術(shù)語信息,但缺少歷屆比賽運動員、獲獎運動員、舉辦城市、比賽場地等信息,國際奧委會官方網(wǎng)站可查詢歷屆冬奧會中各項目的獲獎運動員的信息,但只有英文資料可供查詢。因此,有必要對已有的冬奧會術(shù)語集進行補充,類似于集合擴展[1]的工作。
目前,集合擴展已經(jīng)做了很多的工作,可以將它們分成兩類。早期,集合擴展的方式都是基于web完成的[2-4]。這種方法雖然有較高的準確率,但是存在時間花費較長、查詢花費較大等問題。Word2Vec模型出現(xiàn)后,集合擴展的方式逐漸轉(zhuǎn)向了基于語料庫[5]的擴展,這種方法也是目前常用的集合擴展方法[6-9],但這種方法在擴展冬奧會中文術(shù)語時效果較差,原因是冬奧會相關(guān)的詞條整體詞頻較低、數(shù)量較少,訓(xùn)練時收集到的語義信息[10]會有部分缺失,擴展時出現(xiàn)語義漂移[11]的現(xiàn)象,導(dǎo)致擴展出的新詞集合中有大量噪聲數(shù)據(jù)。例如,將8名冬奧會運動員作為種子集進行擴展時,生成的擴展集中包括“劉艷”“張昊”“姚明”等詞條,其中“劉艷”“張昊”是冬奧會運動員,而“姚明”則是籃球運動員,出現(xiàn)這種問題的主要原因是種子集的平均詞頻較低,訓(xùn)練時收集到的語義信息可能是運動會而不是冬季奧運會,所以擴展集中存在大量其他運動會的詞條。
已有的集合擴展方法對英文術(shù)語的擴展效果比較理想,但對中文術(shù)語的擴展效果較差。在統(tǒng)計數(shù)據(jù)的過程中我們發(fā)現(xiàn)中英文的詞條中有很多跨語言[12]的同義詞,例如,“跳臺滑雪”和“Ski jumping”。目前網(wǎng)絡(luò)上有很完整的跨語言數(shù)據(jù)可以供我們使用,例如XLORE[13]的跨語言同義詞數(shù)據(jù)集,XLORE融合了中文維基百科、英文維基百科、法語維基百科和百度百科,是對百科知識進行結(jié)構(gòu)化和跨語言鏈接構(gòu)建的多語言知識圖譜。截至2019年4月末,XLORE包含了1 628萬個實體,246萬個概念,44萬條關(guān)系。根據(jù)上述情況,本文基于XLORE的跨語言同義詞數(shù)據(jù)集提出了中英文雙語迭代擴展模型(bilingual iterative extension,BIE),利用詞條數(shù)量較多的英文語料庫及良好的擴展效果來解決中文詞條數(shù)量較少的問題。
XLORE的主要數(shù)據(jù)來源是維基百科[14],所以本文利用維基百科的冬奧會相關(guān)的條目組成的數(shù)據(jù)集進行擴展。截至2019年4月末,維基百科中的數(shù)據(jù)包括了302種語言的詞條,其中包括105萬條以上的中文詞條和583萬條以上的英文詞條。但由于參與者來自世界各地,在數(shù)據(jù)量大的同時容易出現(xiàn)信息缺失、上下位關(guān)系[15]不準確等問題。隨著維基百科上的詞條越來越多,分類錯誤或缺失等問題會越來越嚴重。本文提出的統(tǒng)計每個新詞出現(xiàn)頻率的方法(statistical new word frequency,SWF)的擴展對象主要是因上下位關(guān)系缺失導(dǎo)致無法找到的詞條,并用于解決冬奧會詞條平均詞頻較低的問題,例如在圖1中,概念“奧林匹克花式滑冰場館”和概念“2014年冬季奧林匹克運動會運動場”具有兩個相同的實例“冰山冬季運動宮”,且概念“冬季奧運場館”與概念“奧林匹克花式滑冰場館”之間存在上下位關(guān)系,所以概念“冬季奧運場館”與概念“2014年冬季奧林匹克運動會運動場”之間有可能存在上下位關(guān)系,由于分類錯誤導(dǎo)致此條關(guān)系缺失,因此概念“2014年冬季奧林匹克運動會運動場”及其實例“謝科競技場”和實例“阿德列爾競技場”很有可能是我們要擴展的詞條。我們將這種數(shù)據(jù)全部找到并篩選作為最終的擴展集。
圖1 BIE方法候選詞選擇原理圖
本文的主要工作是:①提出一種雙語迭代擴展的方法BIE,用于解決中文種子集種子數(shù)量少的問題; ②提出了統(tǒng)計每個新詞擴展出的數(shù)量的方法SWF,用于解決中文種子集平均詞頻較低的問題; ③構(gòu)建了一個較完整的冬奧會領(lǐng)域相關(guān)術(shù)語集。
為了對冬奧會術(shù)語集進行補充,本文根據(jù)目前維基百科中的中文數(shù)據(jù)量少的狀況,提出了BIE方法。由于實例和概念的擴展方法相同,因此本文只介紹實例的擴展方法。BIE方法基于XLORE數(shù)據(jù)集進行跨語言同義詞對齊,通過迭代擴展的方式解決中文種子集數(shù)量少的問題,具體做法是先將英文的實例按英文的詞條擴展方法進行擴展和對齊,將找到的中文維基百科詞條進行篩選后加入到中文待擴展的種子集Sc中,再將中文的種子集Sc按中文的詞條擴展方法進行擴展和對齊,找到對應(yīng)的英文維基百科詞條篩選后,作為新的英文待擴展的種子集Se,將以上過程作為一次迭代過程并不斷進行迭代,當不會產(chǎn)生新的候選詞或產(chǎn)生的候選詞的平均質(zhì)量較低時,結(jié)束迭代,其中每次迭代過程如圖2所示。
圖2 BIE方法中一次迭代過程
BIE方法通過輸入中英文實例和概念的種子集S,輸出中英文實例和概念的擴展集,輸出的擴展集中包括迭代擴展出的數(shù)據(jù)。英文詞條擴展方法和中文詞條擴展方法在本文1.2節(jié)和1.3節(jié)中詳細介紹。
已有的集合擴展方法對冬奧會英文術(shù)語集的擴展效果較好,因此本文使用Word2Vec的方法對英文的詞條進行擴展。本文方法與已有方法的區(qū)別主要在于已有的方法的種子集中的種子數(shù)量較少,會因上下位關(guān)系缺失等問題導(dǎo)致擴展的詞條數(shù)量較少,而本文使用的種子集的種子數(shù)量較多,每個候選詞可通過多個路徑被找到,但該方法會擴展出較多的噪聲數(shù)據(jù),針對此問題,本文將種子集Se分成若干個待擴展集Hi,Se=[H1,H2,H3,…,Hn],計算每個待擴展集Hi得分,并根據(jù)得分選取不同的擴展策略。將所有待擴展集Hi進行擴展得到所有的候選詞,并根據(jù)每個候選詞出現(xiàn)的頻率進行排序,將排名靠前的候選詞加入到擴展集中。
本文使用兩個詞條對應(yīng)的詞向量計算兩個詞條的相似度。假設(shè)兩個英文詞條s1、s2分別對應(yīng)的詞向量為e1、e2,先計算兩個詞條的余弦相似度,當兩個詞條的余弦相似度的值小于零時,兩個詞的相關(guān)性為負相關(guān),我們通過觀察多組種子詞與得分的關(guān)系并分析,認為得分小于0時相比得分趨近0時的效果要好,且當負相關(guān)的得分約等于正相關(guān)得分乘0.5時,兩組詞的關(guān)系比較接近。因此,當余弦相似度得分為負數(shù)時,將余弦相似度得分取絕對值后乘以0.5后作為兩個詞的相似度得分。兩個英文詞的相似度得分區(qū)間為(0,1),其計算方法如式(1)所示。
(1)
對于種子數(shù)量為n的待擴展集Hi,我們計算每兩個種子的得分,取平均值作為該待擴展集Hi的得分,得到的待擴展集Hi的得分區(qū)間為(0,1),其計算方法如式(2)所示。
為了防止擴展過程中出現(xiàn)語義漂移,導(dǎo)致候選詞集合中有大量的噪聲數(shù)據(jù),本文共設(shè)置三個參數(shù),分別是depth_max、num_max、score_min,其中depth_max表示擴展時遍歷的最大層數(shù),并且為了防止在擴展的初始就出現(xiàn)語義漂移現(xiàn)象,每個待擴展集Hi在第一層擴展時限制擴展數(shù)量。具體地,將第一層擴展后的所有候選詞按分數(shù)排序,將分數(shù)Se排名靠前的幾個詞加入到擴展集;num_max表示每個待擴展集Hi擴展出新詞的最多數(shù)量,當擴展出的新詞的數(shù)量超過num_max的值時,按照候選詞的得分Se排序并保留得分較高的候選詞;score_min表示生成的新詞的最低分,當候選詞分數(shù)低于score_min時,認為該候選詞是噪聲數(shù)據(jù)并舍棄該條候選詞。假設(shè)種子cij擴展出的候選詞e,其中cij是待擴展集Hi中的種子,待擴展集Hi中的其他種子為cik,則候選詞e的得分的計算方式如式(3)所示。
將每個待擴展集Hi擴展結(jié)果進行整理,統(tǒng)計每個新詞出現(xiàn)的頻率。其中頻率高的候選詞代表與多個種子之間存在關(guān)系,是冬奧會相關(guān)術(shù)語的可能性較大。例如,實例“Snowboarding”可由實例“Bobsleigh”“Freestyle skiing”和“Doubles curling”等多個種子擴展出來。反之,頻率低的候選詞代表只與少量的種子詞有關(guān)系,很可能是噪聲數(shù)據(jù)。例如,候選集中的實例 “Kick scooter”出現(xiàn)次數(shù)只有1次,是由實例“Bobsleigh”作為種子時擴展出來的,因為它們均屬于“車輛”,所以實例 “Kick scooter”是噪聲數(shù)據(jù)。
與冬奧會英文術(shù)語集擴展相比,由于中文的數(shù)據(jù)用Word2Vec的方法進行擴展時效果較差,所以擴展方式存在一些差異。對中文術(shù)語集的擴展,本文將每個種子進行單獨擴展,只將depth_max作為擴展的限制條件,使每個種子詞在只限制擴展層數(shù)的條件下擴展出更多相關(guān)的候選詞,最后通過統(tǒng)計每個候選詞出現(xiàn)的頻率,篩選掉頻率較低的候選詞。這種方法的缺點是對種子集的質(zhì)量要求較高,因此需要手動完成對種子集的篩選工作。
BIE擴展方法基于XLORE的數(shù)據(jù)集按圖2的框架進行擴展,與XLORE數(shù)據(jù)集進行對齊時,會篩選掉一些具有相同意義的詞,例如,在維基百科中搜索“Ksenia Makarova”“Xenia Makarova”“Ksenya Makarova”“Ksenia Olegovna Makarova”和“Ksenia Makarov”都對應(yīng)著相同的實例“Ksenia Makarova”。針對此問題,本文用hash的方式進行存儲,將XLORE數(shù)據(jù)集中的編號作為索引。同時,對齊維基百科跨語言同義詞時,會找到少量的百度百科數(shù)據(jù),可用來豐富冬奧會術(shù)語庫。
在維基百科中分別以“概念: 冬季奧林匹克運動會”和“概念: winter olympic game”為根節(jié)點,向下遍歷5層,獲得中英文的概念集和實例集,得到的數(shù)據(jù)量如表1所示,并將得到的數(shù)據(jù)進行篩選。由于中文實例和英文實例的篩選方式基本相同,因此本文只介紹英文實例的篩選方式。
表1 維基百科中獲取的冬奧會領(lǐng)域概念集和實例集數(shù)據(jù)數(shù)量
將擴展出的種子詞進行篩選,選出質(zhì)量較高的種子組成擴展集。經(jīng)過測試,發(fā)現(xiàn)形如“List of Olympic venues in curling”“Poland at the 1964 Winter Olympics”等實例作為種子進行擴展時,擴展出的新詞的總體質(zhì)量較低,是較劣質(zhì)的種子。當用“pavel angelov”“tommaso leoni”等運動員的名字或比賽項目名稱作為種子進行擴展時,擴展出的新詞的總體質(zhì)量較高,是優(yōu)質(zhì)的種子。根據(jù)此測試結(jié)果,將得到的實例集進行篩選,并將剩余的數(shù)據(jù)作為種子集。按比例在種子集中選取一定數(shù)量的種子作為測試集,具體數(shù)量如表2所示,由于中文概念數(shù)量較少,所以選取全部種子集作為測試集。
表2 中英文實例和概念種子集及測試集數(shù)量
在篩選的過程中,我們還發(fā)現(xiàn),有一些數(shù)據(jù)后面帶有括號,括號里的內(nèi)容是對該數(shù)據(jù)的解釋。例如,實例“patrick caldwell (skier)”指的是滑雪運動員“patrick caldwell”,如果沒有括號里的內(nèi)容,則會產(chǎn)生歧義,在維基百科中搜索“patrick caldwell”,會搜索到來自南卡羅來納州的美國代表“Patrick C. Caldwell”和美國越野滑雪運動員“Patrick Caldwell(skier)”這兩個實例,前面的實例在本實驗中是一條噪聲數(shù)據(jù)。由于括號中的內(nèi)容大多數(shù)是與冬奧會相關(guān)的詞,所以我們保留了括號中的內(nèi)容。
實驗中使用的數(shù)據(jù)集是維基百科的冬奧會相關(guān)詞條組成的數(shù)據(jù)集,英文使用的詞向量為300維,每組待擴展集Hi的種子數(shù)量為5,當待擴展集Hi的組內(nèi)得分Sh在[0.3,1)區(qū)間內(nèi)時,選擇depth_max+num_max的策略進行擴展,參數(shù)depth_max的值為3、參數(shù)num_max的值為60;當待擴展集Hi組內(nèi)得分Sh在(0,0.3)時,選擇score_min+num_max的策略進行擴展,參數(shù)num_max的值為100、參數(shù)score_min的值為0.8,中英文迭代擴展的層數(shù)設(shè)置為3。
為了驗證本文提出的模型在中文數(shù)據(jù)集上擴展的有效性,我們選取了Embedding based、SEISA、SetExpan三種擴展方法進行對比實驗。評判標準是分別用每種方法擴展900個新詞,比較每種方法擴展集中新詞的質(zhì)量。
?Embeddingbased[7]: 該模型基于Word2Vec的方法,訓(xùn)練基于中文維基百科的機器學(xué)習(xí)模型。通過維基百科的上下位關(guān)系選出候選詞,并基于詞向量計算新詞得分,將所有候選詞按得分進行排序,選擇分數(shù)較高的候選詞的集合作為擴展集。本文一共進行10次實驗,每次實驗選取10個優(yōu)質(zhì)種子作為種子集,將10次擴展的結(jié)果取平均值作為該實驗的擴展結(jié)果。
?SEISA[3]: 本文模擬了SEISA的評分過程,并用SEISA的評分標準對擴展出的候選集合的所有詞進行評分,按分數(shù)選出評分靠前的詞條,并計算優(yōu)質(zhì)數(shù)據(jù)所占的比例。
?SetExpan[8]: 本文模擬了SetExpan的評分過程,并用SetExpan的評分標準對擴展出的候選集合的所有詞進行評分,按分數(shù)選出評分靠前的詞條,并計算優(yōu)質(zhì)數(shù)據(jù)所占的比例。
本文在維基百科的冬奧會相關(guān)的條目組成的數(shù)據(jù)集上進行了實驗,實驗結(jié)果如表3所示。
表3 維基百科的冬奧會相關(guān)條目組成的數(shù)據(jù)集上的對比實驗結(jié)果
根據(jù)實驗結(jié)果可以看出,擴展冬奧會領(lǐng)域術(shù)語集時,SEISA方法效果較差,說明種子集的平均詞頻較低時,對SEISA方法的影響較大。BIE+SWF的方法可以降低種子集平均詞頻較低造成的影響,且擴展效果相比其他方法提高12.12%以上。
為了驗證參數(shù)對實驗的影響及BIE方法對擴展效果的提升程度。我們在英文測試集上進行待擴展集Hi種子數(shù)量n測試實驗和擴展策略測試及參數(shù)測試實驗,并在中英文數(shù)據(jù)集上分別對比了SWF方法和BIE+SWF方法。
2.4.1 待擴展集Hi的種子數(shù)量n測試
將1 000個測試集按每組1/5/10/20個種子進行分組。對4種分組方式分別進行擴展,統(tǒng)計每個候選詞的次數(shù)并按次數(shù)由高到低進行排序,分別取5 000/7 500/10 000個候選詞作為擴展集,將擴展集中優(yōu)質(zhì)種子數(shù)量占比作為模型的評分標準,分析待擴展集Hi的種子數(shù)量對擴展結(jié)果的影響。實驗結(jié)果如圖3所示。
圖3 待擴展集Hi的種子數(shù)量n對擴展結(jié)果影響
通過分析實驗結(jié)果發(fā)現(xiàn),優(yōu)質(zhì)詞條數(shù)量占比按待擴展集Hi的種子數(shù)量n先增后減,可能原因是種子集Se中存在一定數(shù)量的噪聲數(shù)據(jù),當噪聲數(shù)據(jù)所在的待擴展集Hi的種子數(shù)量較少時,噪聲數(shù)據(jù)會對待擴展集Hi的語義理解造成較大影響,導(dǎo)致擴展出較多的噪聲數(shù)據(jù)。例如,每個種子單獨進行擴展時,如果這個種子數(shù)據(jù)是噪聲數(shù)據(jù),所擴展出的新詞大部分是噪聲數(shù)據(jù)。當待擴展集Hi的種子數(shù)量過多時,幾個詞會產(chǎn)生其他的語義信息。例如,待擴展集Hi中包括冬奧會運動員“申雪”“張丹”“龐清”“趙宏博”等,其中“申雪”“龐清”“趙宏博”是黑龍江省哈爾濱市人,容易擴展出與冬奧會無關(guān)的黑龍江人。綜合考慮,對冬奧會領(lǐng)域術(shù)語進行擴展時,待擴展集Hi的種子數(shù)量為5時效果最優(yōu)。
2.4.2 擴展策略測試及參數(shù)測試
在擴展策略測試實驗中,我們對3個參數(shù)進行分析,發(fā)現(xiàn)參數(shù)depth_max和score_min可以較好地提高新詞的質(zhì)量,并且當種子集得分Sh較高時,score_min的效果較好,當種子集得分Sh較低時,depth_max的效果較好。當待擴展集Hi得分Sh在[0.3,1)區(qū)間內(nèi)時,score_min+num_max策略最優(yōu),當待擴展集Hi得分Sh在(0,0.3)時,depth_max+num_max策略最優(yōu)。我們分別對兩種擴展策略的參數(shù)進行調(diào)整并擴展,實驗的結(jié)果如圖4、圖5所示。
圖4 depth_max+num_max策略參數(shù)測試結(jié)果
圖5 score_min+num_max策略參數(shù)測試結(jié)果
通過實驗結(jié)果可以看出,當參數(shù)depth_max為3、num_max為100時,depth_max+num_max的擴展策略效果達到最優(yōu)。當參數(shù)score_min為0.8、num_max為60時,score_min+num_max的擴展策略達到最優(yōu)。
2.4.3 BIE方法效果測試
對中英文的實例集分別使用SWF方法和BIE+SWF方法進行擴展。實驗結(jié)果如表4所示。
表4 SWF方法和BIE+SWF方法實驗結(jié)果
通過分析實驗結(jié)果,我們發(fā)現(xiàn)BIE方法對中文實例的擴展效果提升明顯,對英文實例的擴展效果提升不多,證明BIE方法可以解決中文種子集種子數(shù)量少的問題。
為了測試我們的方法在除冬奧會外的其他領(lǐng)域也有效,我們在其他低頻詞領(lǐng)域進行了對比實驗,實驗選擇的領(lǐng)域是世界錦標賽、兵器和亞運會,并使用BIE+SWF方法進行擴展,實驗的結(jié)果如表5所示。
表5 BIE+SWF方法在其他低頻詞領(lǐng)域上的實驗結(jié)果
BIE+SWF方法在世界錦標賽領(lǐng)域、兵器領(lǐng)域和亞運會領(lǐng)域也有較好的表現(xiàn)。其中兵器領(lǐng)域擴展出的新詞數(shù)量最多且新詞的平均質(zhì)量最高。我們認為主要原因是兵器領(lǐng)域的詞條大多數(shù)都沒有歧義,上下位關(guān)系相對較少,所包含的語義信息比較簡單。而其他三個領(lǐng)域的詞條,有著比較復(fù)雜的上下位關(guān)系,且包含的語義信息比較復(fù)雜。例如,乒乓球運動員“馬龍”獲得過奧運會、世界錦標賽、亞運會等比賽項目的冠軍,將實例“馬龍”作為亞運會領(lǐng)域下的詞條進行擴展時,較容易擴展出其他運動會的相關(guān)詞條。
集合擴展是把一個比較小的種子集合作為輸入,找出更多同類型的數(shù)據(jù)來擴充這個集合的規(guī)模。早期解決此項工作任務(wù)的有Google Set[16],SEAL[2],SEISA[3]和Lyretail[4]等,它們都是使用搜索引擎或者其他互聯(lián)網(wǎng)上的信息來對已有的概念或者實體集進行擴展的。其中Google Set是最早使用集合擴展功能的產(chǎn)品,主要用于豐富谷歌搜索的結(jié)果。SEAL由CMU在2007年的ICDM上提出,使用一個兩步的策略對已有的種子詞進行擴展。將輸入的種子詞輸入到搜索引擎中,通過解析網(wǎng)頁,得到候選詞,然后再將候選詞放入一個圖中進行排序,得到候選結(jié)果。SEAL的優(yōu)點是跨語言且準確度高。2011年,微軟推出了SEISA擴展系統(tǒng),并提出了生成概念的置信度的方法,所使用的信息是web list和 query log,分別代表相關(guān)性和上下文的語義性的關(guān)系。在2016年,Chen等人提出Lyretail,利用了web的信息對已有詞條字典進行擴充,與之前的方法相比,它引入了一個弱監(jiān)督[17]的抽取器來提取網(wǎng)頁中的詞條。在此類方法中,所用的方法都是將種子提交給搜索引擎,用通過挖掘網(wǎng)頁的方式進行擴展,雖然這種方法擴展出的新詞質(zhì)量較高,但代價比較高,不適用于大規(guī)模擴展。隨著Word2Vec模型的出現(xiàn),集合擴展的工作逐漸從只靠web信息,轉(zhuǎn)向了基于文本的任務(wù)?;谡Z料庫的集合擴展一般有兩種方法。第一種方法找到所有的候選詞后再進行排序[6-7],這種方法的優(yōu)點是準確率高,缺點是不能充分理解語義,導(dǎo)致擴展結(jié)果出現(xiàn)非法闖入現(xiàn)象。第二種方法是迭代式擴展,從種子實體開始提取質(zhì)量模式,基于預(yù)定義的模式評分機制。這種方法的缺點也比較明顯,只在每次迭代中種子詞和迭代產(chǎn)生的詞精度很高時才有效,否則可能會出現(xiàn)嚴重的語義漂移。針對這兩種方法存在的問題,2017年Shen等人在KDD上提出SetExpan[8],擴展效果超過了大部分已有的方法,有針對性地解決了實體入侵和非法闖入的問題,在小規(guī)模擴展時效果很好,但在大規(guī)模擴展時會出現(xiàn)語義漂移的現(xiàn)象。2018年,Jonathan Mamou等人基于SetExpan提出了SetExpander[9],SetExpander為術(shù)語集擴展實現(xiàn)了一個迭代的端到端工作流,使用戶能夠選擇輸入語料庫,訓(xùn)練多個嵌入模型,并且該算法結(jié)合多個上下文項嵌入,捕捉語義相似性的不同方面,使系統(tǒng)在不同領(lǐng)域具有更強的魯棒性。
平行語料庫[18]對于訓(xùn)練統(tǒng)計機器翻譯系統(tǒng)特別重要。一個典型的平行語料庫的提取過程主要分為識別具有雙語內(nèi)容的網(wǎng)站、爬取網(wǎng)站、文檔對齊、句對齊和句子對過濾這5個步驟[19]?;谄叫姓Z料庫的研究有很多,例如,在2005年Regina Barzilay等人基于平行語料庫,運用無監(jiān)督的學(xué)習(xí)方法,提出了一種基于語料庫的同一原文多個英譯本的釋義識別方法[20]。在2018年,Zdenka Ure?ová等人基于平行語料庫構(gòu)建了捷克英語類詞典并作為一個開源數(shù)據(jù)集發(fā)布[21]。本文提出的集合擴展的方法是基于跨語言的平行語料庫進行研究的。
維基百科是最廣泛的百科全書,基于維基百科的語料庫進行的研究有很多,其主要集中在實體消歧、語義相關(guān)性、跨語言分類等方面[22-24]。其中比較有代表性的是DBpedia[25]。近年來,基于維基百科開展了復(fù)雜詞匯識別[26]和知識多樣性[27]等工作。在本文的實驗中,我們使用維基百科中冬奧會領(lǐng)域相關(guān)的詞條組成的數(shù)據(jù)集進行實驗。
集合擴展在知識圖譜的構(gòu)建中有著重要的應(yīng)用。本文針對冬奧會領(lǐng)域的中文詞條擴展過程中存在的問題,提出了SWF方法和BIE方法。SWF方法通過統(tǒng)計每個候選詞出現(xiàn)的次數(shù)選擇質(zhì)量較高的詞條,用于解決冬奧會領(lǐng)域的中文詞條平均詞頻較低的問題。BIE方法通過借助數(shù)據(jù)量較大的英文語料庫和XLORE的跨語言同義詞數(shù)據(jù)集進行擴展,用于解決冬奧會領(lǐng)域的中文詞條數(shù)量較少的問題。我們使用BIE+SWF方法對其他領(lǐng)域的低頻詞進行擴展,得到的擴展集質(zhì)量較高,證明本文的方法具有較好的適用性。
目前,我們通過中英文迭代擴展的方式解決了中文實例種子集數(shù)量少的問題,并用每個種子單獨擴展統(tǒng)計每個新詞數(shù)量的方式解決了中文實例詞頻低的問題,但需要手動篩選種子集,且在種子集數(shù)量較少時擴展效果不理想。后續(xù)我們將進行篩選種子集的實驗,同時將嘗試多種語言的聯(lián)合擴展,用更多種語言迭代擴展的方式來彌補種子集數(shù)量少、低頻詞帶來的問題。