劉晨陽,趙天銳
(信息工程大學(xué)洛陽校區(qū),河南 洛陽 471000)
隨著國際互聯(lián)網(wǎng)的迅速發(fā)展,信息資源愈發(fā)呈現(xiàn)大規(guī)模、多語言的特征。在自然語言處理領(lǐng)域,以雙語(或多語)平行語料庫為基礎(chǔ)的應(yīng)用日益增多。如,機(jī)器翻譯、詞典編撰、語義消歧、跨語言信息檢索等。其中,平行語料庫對應(yīng)單位的抽取對齊,是實(shí)現(xiàn)這些應(yīng)用的關(guān)鍵技術(shù)之一。對應(yīng)單位是對應(yīng)源文本和目的文本中可識別的對應(yīng)文本塊或片段,是意義對應(yīng)完整并具有清晰邊界的任何片段或序列[1]。其中短語便是客觀存在于平行句對之中的一種對應(yīng)單位,主要表現(xiàn)形式為互譯的多詞組合。本文針對韓漢平行句對中的對齊名詞短語進(jìn)行抽取,構(gòu)建了基于短語構(gòu)成規(guī)律的短語抽取與融入雙語詞向量、短語長度和詞性相似度的短語對齊模型,并在政治外交領(lǐng)域的韓漢平行語料上進(jìn)行相關(guān)實(shí)驗(yàn)測評。其成果能廣泛應(yīng)用于翻譯研究、語言教學(xué)、術(shù)語詞典編纂和政治外交話語研究等領(lǐng)域,其采用的方法也可為相關(guān)研究提供參考和思路。
雙語短語對齊研究的基礎(chǔ)是雙語詞對齊[2-3],其原理是詞語相似度的計(jì)算。詞組由詞構(gòu)成,詞對齊的部分技術(shù)方法也可遷移至短語對齊上,其關(guān)鍵點(diǎn)在于如何將詞的相似度轉(zhuǎn)換為短語的相似度。關(guān)于短語對齊現(xiàn)有研究的主流方法是先進(jìn)行單語短語抽取,再進(jìn)行對齊。對齊的方法有基于詞典的、基于統(tǒng)計(jì)或二者結(jié)合的方法。
文獻(xiàn)[4]提出了基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合的方法,對中英文句對分類,進(jìn)行句法分析后提取短語,再利用最大熵排序模型,從候選對齊句對中選取最佳結(jié)果;文獻(xiàn)[5]基于中英平行專利語料庫,使用短語對齊和組塊分析技術(shù),并借助專利語料的領(lǐng)域主題信息,實(shí)現(xiàn)了中英專利術(shù)語的高效自動抽?。晃墨I(xiàn)[6]基于俄漢政治外交平行語料庫,按照俄漢短語詞性構(gòu)成模式,使用規(guī)則獲得短語,并構(gòu)建了短語長度、詞典、機(jī)器翻譯三維評估模型,實(shí)現(xiàn)了俄漢短語單位的自動對齊。文獻(xiàn)[7]先采用基于統(tǒng)計(jì)與詞典融合的詞對齊方法獲得了韓國語-漢語的詞對齊文件,再跟據(jù)韓國語名詞短語結(jié)構(gòu)特點(diǎn)抽取短語,獲取詞對齊文件中每個韓國語詞語對應(yīng)的漢語位置,最終根據(jù)卡方過濾得出匹配的名詞短語對。
綜上所述,短語對齊的技術(shù)多為傳統(tǒng)方法。此類方法忽略了平行語料的內(nèi)在語義特征,且依靠大量的語言學(xué)先驗(yàn)知識,面對低資源、小語種語言時(shí)效果欠佳。隨著深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的發(fā)展,詞向量作為詞的一種分布式表示,開始在自然語言處理領(lǐng)域嶄露頭角。詞向量以原始語料作為訓(xùn)練集,無需外部資源便能高效地表征句法語義關(guān)系,為對應(yīng)單位的相似度計(jì)算與對齊提供了新思路。
文獻(xiàn)[8]基于英漢平行語料庫,利用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)提取詞向量,結(jié)合依存關(guān)系得到詞對齊特征,并在此基礎(chǔ)上實(shí)現(xiàn)了基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。文獻(xiàn)[9]基于漢維醫(yī)療平行語料庫,運(yùn)用自訓(xùn)練的漢維雙語詞向量,深入詞的語義一級進(jìn)行雙語醫(yī)學(xué)術(shù)語抽取,取得了不錯的效果。文獻(xiàn)[10-11]將英語作為中間語言,通過建立對應(yīng)單字的上下文向量,實(shí)現(xiàn)了韓法雙語間的名詞短語對齊,并對實(shí)驗(yàn)結(jié)果進(jìn)行了誤差分析。
由此可見,此前對短語抽取與對齊的研究中,多使用傳統(tǒng)的方法且對詞典等外部資源的依賴較多,運(yùn)用神經(jīng)網(wǎng)絡(luò)語言模型且面向韓漢雙語領(lǐng)域的研究較少。因此,將雙語詞向量應(yīng)用于韓漢雙語短語對齊相關(guān)技術(shù),有很強(qiáng)的研究意義和應(yīng)用價(jià)值。
進(jìn)行短語對齊首先要進(jìn)行短語的抽取,短語的構(gòu)成規(guī)則與語言本身的特性息息相關(guān)。韓語屬于黏著語,通過助詞和詞尾變化實(shí)現(xiàn)語法功能;漢語屬于孤立語,不依賴內(nèi)、外部屈折的形態(tài)變化。本文通過總結(jié)歸納韓語、漢語名詞短語的結(jié)構(gòu)特點(diǎn),基于詞性標(biāo)注結(jié)果抽取相應(yīng)短語。
針對韓語,采用文獻(xiàn)[12]中基于左右邊界規(guī)則獲取韓國語名詞短語方法總結(jié)歸納出的名詞短語類型進(jìn)行短語抽??;在標(biāo)注工具上,使用韓國蔚山大學(xué)開發(fā)的形態(tài)素分析器UTagger[13]進(jìn)行詞性標(biāo)注;UTagger的訓(xùn)練基于“韓國21世紀(jì)世宗計(jì)劃語料庫”,并沿用其標(biāo)注體系,支持增量訓(xùn)練從而不斷提升分析能力。針對漢語,采用百度自然語言處理部研發(fā)的中文聯(lián)合詞法分析工具LAC[14](Lexical Analysis of Chinese)進(jìn)行詞性標(biāo)注并沿用其標(biāo)注體系。LAC通過深度學(xué)習(xí)模型,聯(lián)合學(xué)習(xí)分詞、詞性標(biāo)注、專名識別任務(wù)以及詞語重要性,整體效果F1值超過0.91,詞性標(biāo)注F1值超過0.94,專名識別F1值超過0.85。為了明晰名詞短語結(jié)構(gòu)從而進(jìn)行短語抽取,將韓漢兩種標(biāo)注體系中的部分標(biāo)簽按規(guī)則進(jìn)行統(tǒng)一。其規(guī)則,見表1。
表1 韓語、漢語詞性標(biāo)簽對應(yīng)
為了進(jìn)一步挖掘政治外交領(lǐng)域名詞短語結(jié)構(gòu)特點(diǎn),從中國外文局、中國翻譯研究院主持建設(shè)的“中國特色話語對外翻譯標(biāo)準(zhǔn)化術(shù)語庫” 中獲取了3 000對中韓互譯術(shù)語,對其進(jìn)行分詞與詞性標(biāo)注后進(jìn)行相關(guān)統(tǒng)計(jì),結(jié)合韓語漢語各自語法特點(diǎn),歸納總結(jié)出了12種韓語名詞短語和10種漢語名詞短語結(jié)構(gòu),并給出了部分示例,見表2、表3。
表2 韓語名詞短語構(gòu)成模式及部分示例
表3 漢語名詞構(gòu)成模式及部分示例
詞向量(Word Embedding),又稱詞嵌入,是一種詞的分布式表示。通過將詞映射至低維空間上,來表征詞的句法和語義關(guān)系。文獻(xiàn)[16]于2013年提出了由NNLM[15](神經(jīng)網(wǎng)絡(luò)語言模型)改進(jìn)而來的Word2Vec算法。其中包含了連續(xù)詞袋模型(Continuous bag-of-words, CBOW)和跳字模型(Skip-Gram)。CBOW模型的原理是根據(jù)上下文預(yù)測當(dāng)前詞;Skip-Gram模型則是根據(jù)中心詞預(yù)測周圍的詞,并使用梯度下降算法不斷調(diào)整中心詞的詞向量。Skip-Gram的訓(xùn)練特點(diǎn)使其在規(guī)模較小的數(shù)據(jù)集上有更好的表現(xiàn)。因此,選取Skip-Gram模型用以訓(xùn)練詞向量。
目前,詞向量的訓(xùn)練多針對單一語言,即單語詞向量,用以表示該語言中詞匯之間的句法語義關(guān)系??缯Z言詞向量(Cross-lingual word embedding)[17]是單語詞向量的一種自然擴(kuò)展,面向雙語時(shí)也稱為雙語詞向量(Bilingual word embedding)。其認(rèn)為在不同語言中具有相似概念的詞,在向量空間中的詞向量十分接近[18]。文獻(xiàn)[19-20]發(fā)現(xiàn)兩種語言的單語詞向量在向量空間中存在近似同態(tài)性,因此可以對多(雙)語的單語詞向量映射到一個共享的低維空間,在不同語言間進(jìn)行知識轉(zhuǎn)移,從而在多語言環(huán)境下對詞義進(jìn)行準(zhǔn)確捕捉。如圖1所示,韓漢相關(guān)詞語在進(jìn)行降維并映射至同一向量空間后,互譯的雙語詞語呈現(xiàn)出相似的分布。因此,使用韓漢平行語料訓(xùn)練單語詞向量,能夠獲取互譯詞語間的內(nèi)在語義特征用于短語的對齊。
圖1 雙語詞向量降維、映射至同一向量空間
本文采用文獻(xiàn)[19]提出的跨語言映射方法,該方法通過無監(jiān)督初始化與自學(xué)習(xí)的方式,無需借助種子詞典即可將單語種語料通過線性變換映射到共享空間中,實(shí)現(xiàn)該方法的主要步驟如下:
3.1.1 完全無監(jiān)督初始化
設(shè):X、Z分別為韓漢單語詞向量矩陣,Mx=XXT、Mz=ZZT分別為韓漢相似度矩陣。通過對Mx、Mz每行的值進(jìn)行排序,通過最鄰近匹配找到互譯詞,從而生成初始詞典D。
3.1.2 魯棒自學(xué)習(xí)
首先通過計(jì)算最佳正交映射以最大化當(dāng)前詞典D的相似性,如式(1)所示。
(1)
其中,Wx、Wz為線性變換矩陣;Wi*、Wj*分別表示第i、j個單詞各自的詞向量;Dij為初始詞典編碼而成的稀疏矩陣,當(dāng)Dij=1時(shí)表示韓語中第i個單詞與漢語中第j個單詞互譯。
即j=argmaxk(Xi*WX)(Zk,WZ)時(shí),Dij=1否則Dij=0。
3.1.3 對稱重加權(quán)
對兩種語言對稱地應(yīng)用重加權(quán),可以使映射方向中立,從而獲得更好的效果。給定X的奇異值分解USVT=XTDZ, 使WX=US1/2、Wz=VS1/2,即獲得兩種語言的映射矩陣。
韓漢單語詞向量進(jìn)行映射嵌入的訓(xùn)練過程如圖2所示。
圖2 韓漢雙語詞向量訓(xùn)練過程
基于長度的方法最初應(yīng)用在句對齊領(lǐng)域,最初由文獻(xiàn)[21]提出。其依據(jù)是源語言與譯文文本長度具有關(guān)聯(lián)性,并多以字節(jié)、字符或詞數(shù)作為長度計(jì)量單位。之后的研究者又將句子所含的詞性等元素加入,用以計(jì)算句子長度。如文獻(xiàn)[22]中將句子所含的動詞、名詞、形容詞等詞語作為句長計(jì)量單位,在英漢句對齊任務(wù)上取得了良好的效果。同樣互譯的短語在長度和詞性構(gòu)成上也具有一定的關(guān)聯(lián)性。
本文以構(gòu)成短語的字符作為短語長度計(jì)量單位,以構(gòu)成短語詞的詞性匹配數(shù)量,用以計(jì)算短語相似度,對先期獲得的3 000對互譯短語隨機(jī)打亂順序,進(jìn)行定量統(tǒng)計(jì),見表4。
表4 對齊與非對齊短語相關(guān)特征
由此可以看出,兩種特征在一定程度上對于短語是否對齊有一定的區(qū)分度。但由于短語的自身特性,當(dāng)抽取出的候選短語過多時(shí),短語長度相似度和詞性相似度就難以對其進(jìn)行區(qū)分,此時(shí)就要從深層語義出發(fā)獲取短語的內(nèi)在特征。
融入雙語詞向量的韓漢名詞短語對齊模型如圖3所示。主要由短語抽取、短語對齊、相似度排序評估3部分組成。
圖3 融入雙語詞向量的韓漢短語對齊模型
(1)短語抽取:對雙語平行語料進(jìn)行分詞和詞性標(biāo)注。分詞結(jié)果用于訓(xùn)練單語詞向量并進(jìn)行跨語言映射,詞性標(biāo)注結(jié)果基于韓漢短語構(gòu)成規(guī)律進(jìn)行短語抽取,形成短語集。
(2)短語對齊:將韓漢名詞短語的詞向量相似度、短語長度相似度與短語詞性相似度進(jìn)行加權(quán)求和,形成短語相似度。
(3)對候選韓漢名詞進(jìn)行相似度排序評估,根據(jù)匹配結(jié)果得到韓漢名詞短語對齊集。
定義漢語短語Pzh,由m個詞組成。每個詞為Xi(i=1,2,…,m),則有Pzh=(x1,x2,…,xm);韓語短語Pkr由n個詞組成,每個詞為Yj(j=1,2,…,n),則有Pkr=(y1,y2,…,yn)。定義短語詞向量相似度SE、短語長度相似度SL和短語詞性相似度SP,如式(2)~(4)所示:
(2)
式中,Wi、Wj分別為對應(yīng)詞的詞向量權(quán)重。
(3)
式中,Lzh、Lkr分別為漢語、韓語短語字長度。
(4)
式中,N為韓漢對應(yīng)短語中詞性相同詞的個數(shù)。
最終得到韓漢短語相似度,如式(5)所示。
Similarity (5) 其中,W1、W2、W3分別為SE、SL和SP的權(quán)重,默認(rèn)權(quán)重值為1/3。 本文以中國政府工作報(bào)告(中韓對照版)、當(dāng)代中國與世界研究院、中國翻譯研究院和中國外文局聯(lián)合編譯的《中國關(guān)鍵詞》(中韓對照版),以及通過網(wǎng)絡(luò)爬蟲獲取的政治外交領(lǐng)域的雙語文章作為原始語料。在此基礎(chǔ)上,使用自動對齊于人工校對的方式進(jìn)行句對齊,最終得到韓漢雙語平行句對11 672對。 對于漢語句子,使用LAC工具進(jìn)行分詞、去停用詞并進(jìn)行詞性標(biāo)注;對于韓語句子,使用UTagger工具進(jìn)行分詞、去停用詞并進(jìn)行詞性標(biāo)注。之后采用Word2Vec中的Skip-Gram模型,分別訓(xùn)練處理過的韓漢句子集合。訓(xùn)練參數(shù)分別為:Size(詞向量維度)=100,Window(窗口大小)=3,Iter(迭代次數(shù))=10,其它均為默認(rèn)參數(shù),分別得到韓語和漢語單語詞向量,并使用Vecmap2 工具將其映射至同一向量空間,得到韓漢雙語詞向量。 對于每組平行句對,基于規(guī)則抽取出短語后形成短語集。對于短語集中的每個短語,計(jì)算與對應(yīng)短語集中每個短語的相似度后,選取相似度最大的作為對齊短語。此外,設(shè)定了兩種對齊情況:完全對齊(對齊結(jié)果與正確結(jié)果完全一致)與未對齊(對齊結(jié)果與正確結(jié)果完全不一致)。見表5。 表5 短語“中國經(jīng)濟(jì)”匹配配對示例 為有效評測融入雙語詞向量的短語自動對齊方法的性能,從平行語料中隨機(jī)抽取出2 000對句對,采用專家人工審校方式進(jìn)行短語對齊,將結(jié)果作為標(biāo)準(zhǔn)測試語料。 本文設(shè)計(jì)了3組對比實(shí)驗(yàn):第一組實(shí)驗(yàn),通過對比融入單語與雙語詞向量后的對齊效果,用以驗(yàn)證雙語詞向量的有效性;第二組實(shí)驗(yàn),將訓(xùn)練詞向量時(shí)的迭代次數(shù)和特征權(quán)重作為自變量進(jìn)行實(shí)驗(yàn),用以探究最佳的權(quán)重參數(shù)設(shè)置;第三組實(shí)驗(yàn),通過對比訓(xùn)練詞向量不同迭代次數(shù)后的對齊效果,探究迭代次數(shù)對結(jié)果的影響。 本文采用準(zhǔn)確率P、召回率R和F1值指標(biāo)作為衡量模型對齊短語的性能指標(biāo)。其具體表達(dá)如式(6)~(8)所示。 (6) (7) (8) 其中,TP為短語對齊結(jié)果與測試集完全匹配的數(shù)量;TP為測試集中未與短語對齊結(jié)果匹配的數(shù)量;FN為短語對齊結(jié)果中未與測試集匹配的數(shù)量。 第一組實(shí)驗(yàn)結(jié)果見表6。 表6 融入詞向量對比實(shí)驗(yàn)研究 從中可以看出:融入未經(jīng)映射的單語詞向量相比于未融入詞向量略有提升。準(zhǔn)確率P、召回率R和F1值分別提升了1.80%、2.40%和2.06%;而融入雙語詞向量后,相比于單語詞向量有較大提升,準(zhǔn)確率P、召回率R和F1值分別提升了6.93%、9.15%和7.88%。由此可知雙語詞向量對短語對齊的提升作用比較明顯。 第二組實(shí)驗(yàn)結(jié)果見表7。 表7 權(quán)重組合對比實(shí)驗(yàn)結(jié)果 從結(jié)果看出:經(jīng)過多組權(quán)重對比實(shí)驗(yàn),詞向量相似度、長度相似度與詞性相似度的權(quán)重均對結(jié)果有一定影響。詞向量特征具有較強(qiáng)的正向作用,長度特征和詞性特征具有一定的正向作用。在三者權(quán)重相當(dāng)時(shí),模型整體性能最好。 第三組實(shí)驗(yàn)結(jié)果見表8。 表8 詞向量訓(xùn)練迭代次數(shù)對比實(shí)驗(yàn)結(jié)果 可以看出:詞向量訓(xùn)練時(shí)的迭代次數(shù)會對模型性能產(chǎn)生較大影響。隨著迭代次數(shù)的增加,各項(xiàng)指標(biāo)呈現(xiàn)先上升后下降的趨勢。迭代次數(shù)為25時(shí)效果最好,相比于默認(rèn)的10次迭代,準(zhǔn)確率P、召回率R和F1值分別提升了16.86%、22.33%和19.21%。說明適當(dāng)增加訓(xùn)練迭代次數(shù),對模型的性能有很大提升。 本文提出了融入雙語詞向量的韓漢名詞短語對齊方法,并構(gòu)建了基于短語構(gòu)成規(guī)律的短語抽取和融入雙語詞向量、短語長度和詞性相似度的短語對齊模型。在政治外交領(lǐng)域的韓漢平行語料上進(jìn)行實(shí)驗(yàn)分析,得到以下結(jié)論: (1)雙語詞向量無需借助外部資源(如雙語詞典、術(shù)語庫等)就能夠高效地表示平行句對中對應(yīng)單位的深層語義特征,從而提升對應(yīng)單位對齊的準(zhǔn)確率。 (2)語言學(xué)知識對于短語抽取與對齊和類似自然語言處理任務(wù)仍起著重要作用。部分情況下,短語長度和詞性相似度仍能進(jìn)行有效短語對齊,對于對齊結(jié)果有正向提升。 由于時(shí)間及水平所限,本文尚存在許多不足。一是韓漢名詞短語的種類有待進(jìn)一步擴(kuò)充?;诙陶Z結(jié)構(gòu)使用詞性抽取的方法需要依靠語言學(xué)知識制定大量規(guī)則,且只能覆蓋部分類別的短語,后續(xù)將嘗試使用統(tǒng)計(jì)的方法進(jìn)行短語抽取,擴(kuò)充短語的種類。二是語料的規(guī)模有待進(jìn)一步增加。詞向量的訓(xùn)練基于大規(guī)模語料,而目前高質(zhì)量的平行語料仍屬稀缺資源,因此如何自動高效地獲取句對齊平行語料仍是研究的方向。三是面向韓漢自然語言處理領(lǐng)域的語言學(xué)知識有待進(jìn)一步歸納。本文短語對齊的相關(guān)指標(biāo)仍不能令人滿意,其主要原因是韓漢雙語間的語言差異導(dǎo)致短語抽取、特征提取效果不佳。因此進(jìn)一步挖掘深層的句法語義知識有助于自然語言處理領(lǐng)域相關(guān)任務(wù)的實(shí)現(xiàn)。4 實(shí)驗(yàn)與分析
4.1 語料介紹與數(shù)據(jù)預(yù)處理
4.2 實(shí)驗(yàn)設(shè)計(jì)與測評指標(biāo)
4.3 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語