基于替換方法的無監(jiān)督雙語詞典抽取

2021-08-09 11:50:30郭晉鵬曹海龍

智能計算機與應(yīng)用 2021年3期

郭晉鵬曹海龍

摘要：雙語詞典抽取任務(wù)是自然語言處理一個重要課題。本文基于替換方法重新訓(xùn)練詞向量，使得詞向量具有跨語言特性。本文主要研究了訓(xùn)練詞典的獲取方法，以及詞向量共訓(xùn)練模型，在中英維基百科語料上進(jìn)行實驗。實驗結(jié)果表明，按照確信度的方法選取訓(xùn)練詞典，基于替換的方法得到的詞向量跨語言性質(zhì)較好，最終抽取的詞典具有較高的準(zhǔn)確率。

關(guān)鍵詞：雙語詞典抽取; 無監(jiān)督; 替換方法

文章編號： 2095-2163（2021）03-0217-03 中圖分類號： TP391.1 文獻(xiàn)標(biāo)志碼：A

【Abstract】Bilingual lexicon induction is an important task in natural language processing. This paper retrains the word vector based on the substitution method， so that the word embedding gets cross-language characteristics. This paper mainly studies the acquisition of training dictionary and the co-training model of word vector， and carries out experiments on the corpus of Chinese and English Wikipedia. The experimental results show that using the selected training dictionary according to the method of confidence， the word vector obtained by the method of substitution has a good cross-language property， and the dictionary extracted finally has a high accuracy.

【Key words】 bilingual lexicon induction; unsupervised learning; substitution method

0 引言

在各種跨語言任務(wù)中，雙語詞典抽取是目前備受各方關(guān)注的研究課題。在多數(shù)跨語言自然語言處理任務(wù)，如機器翻譯[1]、跨語言文本分類[2]、跨語言情感分析[3]中，跨語言詞典都起著至關(guān)重要的作用。但是，進(jìn)行跨語言詞典抽取往往需要人工標(biāo)注的跨語言知識，如平行語料或者人工標(biāo)注的翻譯詞典等。但世界上大多數(shù)語言對之間的平行語料或者種子詞典是十分匱乏的。因此，近年來學(xué)者們開始研究無監(jiān)督跨語言詞典抽取，旨在使得計算機能夠在不借助跨語言知識的前提下即可得到跨語言信息，從而高效、自動地獲取跨語言知識。無監(jiān)督跨語言詞典抽取都基于如下的一個基本假設(shè)：對于不同語言的基于分布式表示的詞向量空間，都存在某種映射關(guān)系，可以使其投影到相同的空間中，并且具有相同語義的單詞在這個空間中的距離會彼此接近。

目前，無監(jiān)督跨語言詞典抽取方法已經(jīng)取得了很大突破，典型工作有：Zhang等人[4]提出了基于生成對抗網(wǎng)絡(luò)的跨語言詞典抽取方法;Hoshen等人[5]提出了基于迭代最近點（ICP）算法的無監(jiān)督翻譯詞典獲取方法;Aldarmaki等人[6]提出了一種不需要線性變換的映射方法來獲得初始化詞典。然而現(xiàn)有工作大都先在單語語料上獲得詞向量，再將詞向量空間對齊。本文提出了加入反饋機制重新訓(xùn)練詞向量的新思路：先利用無監(jiān)督方法得到雙語詞典，再借助詞典利用單詞替換的方式重新訓(xùn)練詞向量。這種方法使得詞向量在保持單語特性的同時具有更好的跨語言特性。

1 具有反饋機制的無監(jiān)督跨語言詞典抽取模型

本課題按照Conneau等人基于自學(xué)習(xí)的模式（Vecmap） [7]來進(jìn)行研究。其過程主要分為：初始詞典的選取、迭代的自學(xué)習(xí)過程。其中，自學(xué)習(xí)過程是映射矩陣的求解和雙語詞典的更新兩步驟反復(fù)迭代直至收斂。在此基礎(chǔ)上，本文加入反饋機制，用得到的詞典重新訓(xùn)練詞向量，整個模型框架如圖1所示。

vecmap認(rèn)為2種語言的向量空間嚴(yán)格滿足同構(gòu)性假設(shè)，使用正交變換來對齊2種語言的詞向量空間。但單獨訓(xùn)練得到的詞向量并不能完全使正交變換來進(jìn)行對齊。為使詞向量具有更好的幾何相似性，項目加入反饋機制，利用得到的翻譯詞典再重新訓(xùn)練具有更好跨語言特性的詞向量，從而提高準(zhǔn)確率。

2 基于替換的共訓(xùn)練方法

共訓(xùn)練模型的輸入為2種語言的單語語料和無監(jiān)督反饋得到的訓(xùn)練詞典，輸出為2種語言的具有跨語言特性的詞向量。由于無監(jiān)督方法得到的翻譯結(jié)果并不是完全正確的，則要從中篩選出可能作為訓(xùn)練指導(dǎo)的翻譯詞對作為訓(xùn)練詞典。具體地，需要確定翻譯詞表中選取哪些詞作為詞條以及每個詞條的候選翻譯個數(shù)。若只取最可能的一個作為翻譯，反饋過程就沒有意義;若候選詞太多，會使訓(xùn)練變得困難，也會增加時間復(fù)雜度。本文評估了經(jīng)自學(xué)習(xí)過程映射后詞向量翻譯的top-k準(zhǔn)確率來確定候選詞表的大小，并且比較了按照頻率和置信度兩種標(biāo)準(zhǔn)來篩選詞條對結(jié)果的影響，經(jīng)過篩選得到的詞條加入訓(xùn)練詞典指導(dǎo)下一輪詞向量的共訓(xùn)練過程。

本文的共訓(xùn)練方法在word2vec中的CBOW模型[8]基礎(chǔ)上加入跨語言信息。在訓(xùn)練詞典的指導(dǎo)下，模型得到的詞向量保持單語特性的同時要有很好的跨語言特性，即互為翻譯的詞所對應(yīng)的詞向量在空間中應(yīng)該彼此接近。對于單語詞向量而言，近義詞或相關(guān)詞由于上下文相似，訓(xùn)練后在空間中彼此接近。因此，本文提出基于替換的共訓(xùn)練方法：在語料中將訓(xùn)練詞典中互為翻譯的詞按照一定概率進(jìn)行替換，如此使兩者就有了相同的上下文，便可以得到較為接近的詞向量。例如，在翻譯詞典中“吃”對應(yīng)的翻譯為eat ，在訓(xùn)練語料中句子“你喜歡吃蘋果嗎”時，中文單詞“吃”和英文單詞eat 基于二者在詞表中互為翻譯的確信度以一定概率用同樣的上下文進(jìn)行訓(xùn)練。為了進(jìn)一步融合雙語語料，在訓(xùn)練過程中按照翻譯的確信度以一定概率替換上下文。如圖2所示。

由于篩選出的詞典不能保證其中的詞條一一對應(yīng)，即一個源語言的詞可能有若干個目標(biāo)語言的詞成為其候選翻譯。本次研究在訓(xùn)練過程中根據(jù)詞向量當(dāng)前值為每一個詞選出一個最可能的候選翻譯，這些候選翻譯實際上就組成了一個一對一的翻譯集合。再利用這個確定的翻譯來指導(dǎo)詞向量的更新，該過程其實是一個EM算法：要求得word2vec的參數(shù)θ（包括詞向量U和上下文向量V），隨機初始化后，利用當(dāng)前詞向量得到確定的詞典，再利用詞典更新詞向量，如此迭代直至收斂。EM算法具體如下：

3 實驗

關(guān)于候選詞大小的實驗，本文在中英維基百科語料上用CBOW模型分別訓(xùn)練2種語言，再利用vecmap將2組詞向量映射到同一空間，對于vecmap得到的映射后的詞向量進(jìn)行top-k準(zhǔn)確率評估。分別采用最近鄰（Nearest Neighbor， NN）和CSLS（Cross Domain Similarity Local Scaling）兩種距離度量方式計算準(zhǔn)確率。結(jié)果如圖3所示?？梢钥闯?，隨著詞表數(shù)目的增加，準(zhǔn)確率的增長越來越緩慢，本文后續(xù)實驗使用準(zhǔn)確率曲線拐點附近的值（5～10）作為候選詞表大小設(shè)置。

利用替換方法進(jìn)行無監(jiān)督雙語詞典抽取的結(jié)果見表1。vecmap給出的實驗結(jié)果在中英雙語詞典抽取上，CSLS準(zhǔn)確率可以達(dá)到50.13，并以此作為基線。從表1可以看出，按照確信度的方法確定訓(xùn)練詞典，在各個參數(shù)設(shè)置下CSLS準(zhǔn)確率基本都超過了基線模型。并且在候選詞個數(shù)為5時效果最好。此外，直接對基于替換的Bi-CBOW得到的詞向量進(jìn)行評價（表1中no_vecmap準(zhǔn)確率）也有較高的準(zhǔn)確率，說明這種方法得到的詞向量已經(jīng)具有了較好的跨語言特性。

表1中，向量維度300，負(fù)采樣數(shù)25，迭代15輪。dic為候選詞個數(shù)，fre為頻率最高詞數(shù)，size為詞典大小。

4 結(jié)束語

針對分別訓(xùn)練的單語詞向量不能很好地滿足同

構(gòu)性假設(shè)這一問題，本文提出了基于替換方法的雙語共訓(xùn)練模型，通過反饋機制，將無監(jiān)督方法得到的詞典用于共訓(xùn)練過程，使得詞向量具有較好的跨語言特性。按照確信度的標(biāo)準(zhǔn)選取詞表雖然有著很高的準(zhǔn)確率，但詞表中依然存在著大量的數(shù)字和虛詞等人類無法理解的翻譯對，并且這類詞往往會翻譯為相同的目標(biāo)詞加重樞紐點問題（hub-ness problem）。因此下一步的研究重點是如何更好地解決樞紐點問題，進(jìn)一步提高準(zhǔn)確率。

參考文獻(xiàn)

[1] ?ZOU W Y， SOCHER R， CER D M， et al. Bilingual word embeddings for phrase-based machine translation[C]// Proceedings of EMNLP. Seattle， Washington， USA： dblp， 2013：1393-1398.

[2] BHATTARAI B， KLEMENTIEV A， TITOV I. Inducing crosslingual distributed representations of Words[C]// ?Proceedings of COLING 2012. Mumbai， India：ACL，2012：1459-1474.

[3] XU Kui， WAN Xiaojun . Towards a universal sentiment classifier in multiple languages[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen， Denmark：ACL，2017：511-520.

[4] ZHANG Meng， LIU Yang， LUAN Huanbo， et al. Adversarial training for unsupervised bilingual lexicon induction[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Vancouver， Canada： Association for Computational Linguistics，2017：1959-1970.

[5] HOSHEN Y， WOLF L . Non-adversarial unsupervised word translation[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels， Belgium：ACL，2018：469-478.

[6] ALDARMAKI H， MOHAN M， DIAB M. Unsupervised word mapping using structural similarities in monolingual embeddings[J]. Transactions of the Association for Computational Linguistics， 2018， 6： 185-196.

[7] CONNEAU A， LAMPLE G， RANZATO M， et al. Word translation without parallel data[J]. CoRR， abs/1710.04087，2017.

[8] KAICHEN ?T M， CORRADO G，DEAN J. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv：1301.3781， 2013.

智能計算機與應(yīng)用2021年3期

智能計算機與應(yīng)用的其它文章: 復(fù)雜網(wǎng)絡(luò)下多智能體系統(tǒng)一致性分析; 深度學(xué)習(xí)在影像中的算法研究; 基于聽覺掩蔽生成對抗網(wǎng)絡(luò)的單通道語音增強方法; 面向地下停車場的無人車視覺語義建圖與定位; 智能桌面照明系統(tǒng)設(shè)計; 車輛自動緊急制動建模與分析