王玉榮,林 民,李艷玲
內(nèi)蒙古師范大學 計算機科學技術(shù)學院,呼和浩特 010022
隨著互聯(lián)網(wǎng)多語言信息的發(fā)展,不同語言的知識共享與聯(lián)系日益緊密,如何有效地表示不同語言文本所隱含的動態(tài)特征信息,已成為當下的研究熱點。文本詞向量能夠表示文本語義、語法和結(jié)構(gòu)等特征信息,跨語言詞向量是單語文本詞向量在多語言環(huán)境下的一種自然擴展。它認為具有相同概念的不同語言的詞向量在向量空間中的距離非常接近,使得跨語言詞向量可以在不同語言間進行詞義推理和特征共享[1]。通過多語言的知識可以構(gòu)建動態(tài)的共享特征空間,使得有利于發(fā)現(xiàn)跨語言相關(guān)知識的對齊效果,增強相關(guān)但不同的分類知識域間的聯(lián)系。
近年來,跨語言詞向量被應用于多個自然語言處理(natural language processing,NLP)任務中,如面向任務的對話系統(tǒng)[2-3]、詞性標注[4-6]、命名實體識別[7-8]、信息檢索[9]、依存分析[10]和個性化對話代理[11]。與其他跨語言模型相比,如基于多語言本體的跨語言模型[12],跨語言詞向量模型有兩大優(yōu)勢。第一,跨語言詞向量模型能夠?qū)缯Z言語義信息進行建模,準確計算跨語言詞語相似度等信息,是跨語言詞典構(gòu)建[13]、跨語言信息管理[14]、跨語言信息檢索[15]等多種跨語言應用的基礎(chǔ)[16]。第二,跨語言詞向量支持語言之間的模型轉(zhuǎn)移,為遷移學習提供了橋梁。例如,跨語言遷移學習的一個重要研究方向是[17-20],通過提供公共的表示空間,實現(xiàn)資源豐富的語言和資源貧乏的語言之間的模型轉(zhuǎn)移[1]。
大多數(shù)跨語言詞向量模型都使用單語詞向量模型,并將其擴展到雙語以及多語言環(huán)境中。單語詞向量模型成為很多跨語言詞向量模型的一個重要的初步工作。
早在Bengio等[21]提出的神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model,NNLM)及Mikolov[22]提出的Word2Vec 特征表示學習模型,將文本訓練成為用分布式詞向量表示的詞向量,能有效捕捉隱含在單詞上下文的語法、語義信息,在許多需要這些語言特征建模的應用任務中取得了較好的效果,如情感分析[23]、依存分析[24]、機器翻譯[25]等任務。但該模型的缺陷是:(1)只考慮固定大小窗口內(nèi)的單詞,在獲取句子上下文語義信息方面存在困難;(2)獲得的詞向量具有聚義現(xiàn)象,將處于不同語境的詞匯多種語義綜合表示成一個詞向量,不能表達一詞多義,是一種靜態(tài)的詞向量。為了有效學習詞匯的多重含義,Peters等[26]提出基于雙向LSTM(long short-term memory)的深度語境化詞向量模型ELMo(embedding from language models),對單詞的復雜特征,以及單詞使用時語境中的變化進行建模。Devlin等[27]提出了BERT(bidirectional encoder representations from transformers)模型。它摒棄了雙向LSTM 的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),把Transformer[28]編碼器當作模型的主體結(jié)構(gòu),并利用注意力機制對句子進行建模。BERT 模型的突出優(yōu)勢是通過海量語料的訓練,得到了一組適用性十分廣泛的詞向量,同時還能在具體任務中進一步動態(tài)優(yōu)化(fine-tuning),生成上下文語境敏感的動態(tài)詞向量,解決了以往Word2Vec、Glove(global vectors for word representation)等模型的聚義問題。BERT 預訓練模型的出現(xiàn),使靜態(tài)的跨語言特征共享空間走向了動態(tài)的跨語言特征共享空間,解決了在多語言環(huán)境中一詞多義的問題。例如,“蘋果”這個詞的向量在英漢跨語言詞向量空間中,可以根據(jù)不同的上下文與英文的“fruits”類詞匯或“enterprises”類詞匯向量接近。
因而本文重點分析基于BERT 的跨語言詞向量學習方法,按照訓練方式的不同分為有監(jiān)督學習和無監(jiān)督學習,并對各類訓練方法的原理進行分析和比較。結(jié)合闡述的文獻,以構(gòu)建基于BERT 的蒙漢文跨語言詞向量進行展望。
BERT 模型通過預訓練和微調(diào)的方式得到語義更豐富的詞向量表示,能夠克服傳統(tǒng)詞向量的聚義現(xiàn)象,通過微調(diào)的方法將模型應用到特定的下游任務,提升泛化能力[29]。在預訓練方面,通過堆疊Transformer模型的編碼器部分構(gòu)建基礎(chǔ)模型,如圖1 所示。通過掩蔽語言模型(masked language model,MLM)和預測下一句(next sentence prediction,NSP)兩個任務聯(lián)合訓練達到捕獲詞級和句子級上下文語義向量表示的目的,其中掩蔽語言模型真正實現(xiàn)了雙向語言模型的效果[30]。在遷移到下游任務方面,BERT 借鑒了OpenAI 的GPT(generative pre-training)預訓練模型的做法,設(shè)計了比GPT 更通用的輸入層和輸出層[30]。
Fig.1 Model structure of BERT圖1 BERT 模型結(jié)構(gòu)
Mikolov 等[22]觀察發(fā)現(xiàn),不同語言的詞向量在向量空間中有著相似的幾何排列,如圖2 所示,左圖為英語,右圖為西班牙語。不論是數(shù)字詞匯還是動物詞匯,英語和西班牙語詞向量的分布非常相似。基于這一發(fā)現(xiàn),提出一種線性映射的方法實現(xiàn)源語言向量空間到目標語言向量空間的轉(zhuǎn)換。后續(xù),學者們通過雙語詞典學習該轉(zhuǎn)換[31],又通過自學習減少詞典的規(guī)模[32],最終通過無監(jiān)督初始化啟發(fā)式學習[33-34]和對抗性學習[35-36]實現(xiàn)源語言詞向量到目標語言詞向量的映射。此外,通過從單語設(shè)置轉(zhuǎn)換到雙語設(shè)置[23]構(gòu)建共享的雙語向量空間,可以在不同語言間進行擴展和概括語義任務[37],例如,語義相似性[38]計算、同義詞檢測或單詞類比計算[39]等。
Ruder 等[1]將跨語言詞向量按照語料對齊方式分為基于詞對齊、基于句子對齊、基于文檔對齊的學習方法。其中基于詞對齊的方法是所有方法的核心和基礎(chǔ)。為方便理解,圖3 分別給出了不同對齊語料的示例,其中圖3(a)是詞對齊的平行語料示例,圖3(b)是句對齊的平行語料示例,圖3(c)是類似于文檔對齊的語料示例。
Fig.2 English and Spanish word embedding representation圖2 英語、西班牙語詞向量表示
Fig.3 Examples of alignment of different types of corpus圖3 不同類型語料對齊示例
有監(jiān)督的學習方法一般需要大量的標注數(shù)據(jù),對于英文和中文而言,存在各種任務的標注數(shù)據(jù)集,而對于資源缺乏的語言,獲取這樣大量的數(shù)據(jù)比較困難。半監(jiān)督的學習方法可以緩解這一問題,使用較少的標注數(shù)據(jù)進行訓練。無監(jiān)督學習不需要任何人工標注的數(shù)據(jù)。本文將有監(jiān)督學習方法和半監(jiān)督學習方法一起進行分析,對所需的語料單獨進行歸納總結(jié)。下面分別從有監(jiān)督學習及無監(jiān)督學習兩方面對基于BERT 的跨語言詞向量學習方法的主要研究展開詳述。
2.1.1 基于共享空間映射的方法
跨語言詞向量映射是學習雙語詞向量的有效方法[22]。其基本思想是利用單語語料庫獨立訓練不同語言的詞向量,通過線性變換將它們映射到同一個共享空間。Mikolov 等[22]提出的映射方法包含一個雙語詞典和對應的向量,其中xi∈X是源語言詞向量,yi∈Y是目標語言詞向量。學習任務是找到一個變換矩陣W,使Wxi無限接近yi。訓練優(yōu)化公式如式(1)所示:
為提高模型的性能,研究者們在矩陣和向量上加了許多約束。Xing 等[40]提出源語言和目標語言的詞向量長度需要先進行歸一化操作。Faruqui 等[41]使用典型相關(guān)分析(canonical correlation analysis,CCA)將源語言和目標語言的向量映射到共享空間,最大限度地提高兩種單語向量空間映射的相關(guān)性。之后,在跨語言詞向量學習過程中,為了降低種子詞典的規(guī)模,許多研究者提出采用自學習的策略在迭代中擴充詞典。
為了解決不同語言、不同領(lǐng)域的詞匯分布差異問題,樊艷[42]提出了基于多個矩陣的軟分段映射模型(soft piecewise mapping model,SPMM),其中每個矩陣對源語言向量空間中的每個主題分布進行建模。在SPMM 中,訓練集中的每個實例(xi,yi)∈D(雙語訓練的詞典),對應著一組權(quán)重值構(gòu)成的向量
其中,W1,W2,…,WR代表R個映射矩陣,每個實例(xi,yi)對應著一個用于學習第r個映射矩陣Wr的權(quán)重值ai,r。并提出一種自動詞典擴充算法,在迭代中提升詞典數(shù)量。在每一次迭代中,首先在源語言和目標語言詞匯中進行采樣,得到集合DS(源語言詞匯集)和DT(目標語言詞匯集)。DS和DT中的每個詞是以概率正比于它在語料庫中的頻率進行采樣得到的。在維基百科的可比語料上相比前人的方法有了一定的提高,在非同一語系英文-中文、低資源的越南語-英語跨語言術(shù)語翻譯下游任務中有明顯的提升。并證明在跨領(lǐng)域知識體系遷移任務中,預訓練模型BERT 的效果最好。該方法適用于語言差距較大的跨語言任務中,非同一語系的詞匯在向量空間中的分布差異較大,需要多個矩陣進行細粒度的映射。利用源語言向量空間的詞向量分布信息,可以學習到每個聚類的權(quán)重,使得細粒度的映射可以在跨語言、跨領(lǐng)域中進行知識的遷移。該方法能夠緩解雙語詞典語料缺乏問題,但需要高質(zhì)量的初始詞典,文中主要采用了公開的詞典[43],并在維基百科的可比語料上做了自動詞典擴充。
用雙語詞典生成法來學習跨語言詞向量,克服了需要大規(guī)模語料的問題,但是對種子詞典的要求比較高,需要高質(zhì)量的種子詞典。Wang 等[44]提出了基于詞對齊的跨語言BERT 映射,在學習上下文跨語言詞向量時在單詞級別上進行監(jiān)督而不再是詞典級別上。其主要思想是:首先,通過無監(jiān)督的詞對齊工具獲得一組包含上下文信息的詞對;然后,用預訓練好的BERT 模型獲得詞向量表示;最后,找到一個合適的線性映射矩陣W,使得源語言詞向量空間與目標語言詞向量空間的距離盡可能接近。在依存分析的下游任務中,該方法遠超過了之前使用靜態(tài)跨語言嵌入的模型,平均增益為2.91%,相比其他跨語言模型,所需的訓練數(shù)據(jù)、計算資源和訓練時間要少得多,但實現(xiàn)了極具競爭力的結(jié)果。該方法能夠在有限的雙語語料上較快地獲取跨語言上下文相關(guān)的詞向量。但只是單一地解決了資源稀少語言學習詞向量的問題,沒有很好地體現(xiàn)跨語言語義融合的詞向量。因為該方法只是把目標語言詞向量映射到源語言詞向量,使得目標語言的詞向量盡量與源語言詞向量對齊,而對于學習跨語言語義融合詞向量模型的貢獻還是較少。
2.1.2 基于聯(lián)合學習方法
Klementiev 等[45]將跨語言表征的學習視為一個多任務學習問題。聯(lián)合優(yōu)化源語言和目標語言模型以及跨語言正則化術(shù)語,使得在并行語料庫中對齊單詞的詞向量在向量空間中更加相近。Castellucci等[46]提出BERT-Joint 模型,在多語言BERT 模型上設(shè)計了一種聯(lián)合學習方法,應用于多語言聯(lián)合文本分類和序列標注工作。通過多語言BERT(multilingual BERT,Multi-BERT)模型的[CLS]詞項的最終隱狀態(tài)h0的固定維數(shù)序列來實現(xiàn)文本分類,通過詞項對應的最終隱狀態(tài)對該詞項進行標注。為實現(xiàn)該目標,作者在模型上添加了句子級分類矩陣,分別實現(xiàn)了文本分類和序列標注功能。該方法在英文基準數(shù)據(jù)上得到了較好的結(jié)果。在跨語言方面,用翻譯器實現(xiàn)源語言詞匯和目標語言詞匯對齊,在有少量標注的意大利語數(shù)據(jù)集上得到了較好的效果。但該模型的跨語言詞向量學習完全依賴Multi-BERT 模型,通過機器翻譯源語言的訓練數(shù)據(jù)實現(xiàn)多語言的任務,實質(zhì)上訓練數(shù)據(jù)的意圖標簽和語義槽填充值并沒有改變,因此并沒有實現(xiàn)真正意義上的任務遷移。此外,利用機器翻譯會丟失源語言本身的語法等內(nèi)部信息,翻譯結(jié)果需花費大量的時間去矯正,這也不利于該方法的訓練。
Multi-BERT 雖然能夠?qū)W習跨語言詞向量,但其訓練過程仍是一種語言接著另一種語言的訓練,源語言和目標語言單獨進行編碼,二者之間沒有交互,產(chǎn)生的句子表示之間關(guān)聯(lián)性差,擬合后得到的分數(shù)也會低。陸金梁等[47]提出一種基于Multi-BERT 跨語言聯(lián)合編碼的詞向量學習方法。在預訓練好的Multi-BERT 模型基礎(chǔ)上使用少量的平行語料進行二次訓練,將其應用到譯文質(zhì)量估計任務中,并分析了該模型在句子級跨語言任務上的效果,如圖4 所示。該模型預訓練的任務與BERT 一樣,包括掩蔽詞匯預測和是否為互譯文句的預測兩個任務。在預訓練過程中與BERT 模型不同的是,源語言句子中沒有掩蔽詞匯,掩蔽詞匯都在目標語言句子中,即在知道源語言句子的情況下預測目標語言句子中掩蔽的詞匯。該方法在德語->英語、中文->英文的譯文質(zhì)量估計上都得到了較好的效果。在跨語言詞向量學習方面,以中文單詞和英文單詞為例,用平行語料進行二次訓練的Multi-BERT 得到的詞向量在向量空間中的相似度遠高于用單語語料二次訓練的Multi-BERT 得到的詞向量。他們通過觀察從源語言句子到目標語言句子的注意力權(quán)重分配,發(fā)現(xiàn)該方法使得在兩種語言中具有相似語義的單詞注意力分布基本一致。通過聯(lián)合編碼的預訓練方法,可以幫助相互注意在不同語言間具有關(guān)系的單詞,尤其是具有相似語義的單詞。
Fig.4 Multi-BERT quadratic training method using parallel corpus圖4 使用平行語料的Multi-BERT 二次訓練方法
Fig.5 Pre-training cross-lingual models圖5 跨語言模型預訓練
Lample 等[48]將平行數(shù)據(jù)的跨語言監(jiān)督納入到學習跨語言的語言模型(cross-lingual language model pretraining,XLM)中。結(jié)合掩蔽語言模型(masked language modeling,MLM)和翻譯語言模型(translation language modeling,TLM)實現(xiàn)半監(jiān)督的跨語言詞向量學習,如圖5 所示。掩蔽語言模型基本與Devlin 等[27]提出的想法一樣,類似于完形填空任務。與其不同的是,掩蔽語言模型使用由任意數(shù)量的句子組成的文本流代替成對的句子。翻譯語言模型的輸入是平行的翻譯句子,并隨機掩蔽源語言句子和目標語言句子中的一些詞匯。在訓練中,預測源語言句子中掩蔽的詞匯時,該模型不僅能注意到源語言詞匯上下文信息,還能夠注意到目標語言的上下文信息。該方法以高出4.9%的準確率刷新了XNLI(cross-lingual natural language inference)[49]的記錄。該方法的翻譯語言模型,在預測掩蔽詞匯的時候不僅捕獲了該語言詞匯的語義、語法信息,而且捕獲了另一種語言的深層次信息。
2.1.3 基于偽雙語語料的方法
基于偽雙語語料的詞向量學習方法使用雙語詞典,隨機替換源語言語料庫中的單詞來構(gòu)建偽雙語語料庫。Xiao 等[50]首次提出該方法,使用初始種子詞典,創(chuàng)建一個聯(lián)合跨語言詞匯表,其中每個翻譯對占據(jù)相同的向量表示。他們通過提供源語言和目標語言語料庫的上下文窗口使用最大邊界損失(max-margin loss,MML)[51]對這個模型進行訓練。Qin 等[52]在該方法的基礎(chǔ)上,提出跨語言零樣本學習的多語言文本混合(code-switching)數(shù)據(jù)增強方法(multi-lingual codeswitching data augmentation for zero-shot cross-lingual,CoSDA-ML),實現(xiàn)更好地微調(diào)Multi-BERT。該模型通過混合上下文信息來一次性對齊源語言和多目標語言的詞表示。如圖6 所示,首先使用數(shù)據(jù)增強的多語言文本混合對Multi-BERT 進行微調(diào),即將“It's a very sincere work”數(shù)據(jù),變化成“It's a 非常aufrichtig work”。微調(diào)結(jié)束后,直接將其應用到零樣本遷移測試。其中,數(shù)據(jù)增強方法包括選句子、選詞和替換已選詞三個步驟。經(jīng)過CoSDA-ML 微調(diào)后在多語言環(huán)境中語義相近詞的向量變得更接近并相互重疊。但該方法的局限在于需要高質(zhì)量的多語言的雙語詞典,對于資源稀少的語言還是有一定的困難。
Fig.6 Training and zero-shot transfer圖6 訓練和零樣本遷移過程
Table 1 Comparison of supervised cross-lingual word embedding learning methods based on BERT表1 基于BERT 的有監(jiān)督跨語言詞向量學習方法對比
基于共享空間映射的跨語言詞向量學習方法通過利用豐富的雙語詞典或詞對齊語料實現(xiàn)有效的跨語言詞向量學習。但該方法存在一個缺點,一次只考慮一對源語言和目標語言,因此導致每種目標語言要有單獨的模型。近年來,隨著多語言BERT 的盛行,基于聯(lián)合學習的跨語言詞向量學習方法頗受研究者的青睞。通過預訓練和微調(diào),實現(xiàn)多語言詞向量的語義對齊,并且克服了共享空間映射方法的缺點,成為目前較為流行的跨語言詞向量學習方法。在實際應用中,偽雙語語料方法的成本較高,在大型單語語料上從頭開始訓練。相比之下,基于共享空間映射方法的計算效率高,因為它利用了預訓練的單語詞向量。基于共享空間映射的方法、基于聯(lián)合學習的方法和基于偽雙語語料的方法看起來非常不同,但它們有時非常相似,事實上,它們是等價的[1],等價性證明這里不做贅述。根據(jù)上文的論述,表1 是對基于BERT 的有監(jiān)督跨語言詞向量學習方法的大致歸納總結(jié)。
上文介紹的基于BERT 跨語言詞向量學習方法需要一些平行語料或雙語詞典,但這對資源稀缺的語言還是比較難獲得。Multi-BERT 在完全無監(jiān)督的情況下能進行跨語言遷移,改變了跨語言詞向量學習方法。通過聯(lián)合訓練Transformer 模型來執(zhí)行多種語言的掩蔽語言建模,然后在下游任務上進行微調(diào)。Wu 和Dredze[53]發(fā)現(xiàn),Multi-BERT 的跨語言泛化能力基于三個因素:(1)種子詞典的共享詞匯;(2)多種語言語料的聯(lián)合訓練;(3)深度的跨語言表征。Artetxe 等[54]提出單語言的跨語言遷移模型(crosslingual transfer of monolingual model,MONOTRANS),通過將單語種模型遷移到詞匯級別的新語言中的方法來反駁此假設(shè)。首先,使用L1未標注的語料訓練BERT 模型,訓練任務為掩蔽的語言模型和下一句話的預測;然后,凍結(jié)訓練好的BERT模型的Transformer主體結(jié)構(gòu)(embedding 層和softmax 層除外),用L2未標注數(shù)據(jù)訓練新的BERT 模型,訓練任務與上一步相同;其次,使用L1的標注數(shù)據(jù)在下游任務中,微調(diào)第一步訓練好的模型,微調(diào)過程中凍結(jié)embedding 層;最后,使用第二步得到的embedding 層替換第三步的embedding 層,得到新的模型,應用于L2中相同的下游任務,如圖7 所示。在標準的跨語言分類基準和新的跨語言問答數(shù)據(jù)集上,該方法與Multi-BERT 有一定的競爭力。該方法中的詞匯表是在各自的單語語料庫上訓練的,沒有為每種語言構(gòu)建單獨的詞匯表,即沒有共享子詞匯的概念,成功地反駁了Multi-BERT 跨語言泛化能力的三個因素。他們還發(fā)現(xiàn),在跨語言預訓練的模型中貢獻較大的是每種語言的有效詞匯,而不是有一個聯(lián)合的詞匯表或多種語言的共享詞匯表。無需共享詞匯只需要單語語料,對資源信息缺乏的語言是個較好的方法,是無監(jiān)督學習跨語言詞向量的一個新臺階。
Fig.7 Zero-shot cross-lingual transfer圖7 零樣本跨語言遷移
跨語言模型,在大量的跨多種語言的單語或雙語資源上進行了預先訓練,并對它們進行微調(diào)以適應下游的跨語言任務,取得了良好的效果[55]。然而在微調(diào)過程中可能會改變模型參數(shù),削弱跨語言的泛化能力。為了緩解這一問題,Liu 等[56]提出一種持續(xù)學習的方法,在微調(diào)下游的跨語言任務時,能夠保持預先訓練過模型的原始跨語言能力。假設(shè):模型已經(jīng)學習了n-1 個任務,并且需要學習第n個任務。梯度情景記憶(gradient episodic memory,GEM)的主要特性是情景記憶Mk,它存儲觀察到示例的一個子集任務k(k∈[1,n])。第k個任務的內(nèi)存損失定義為:
為了在學習第n個任務的同時保持模型在前n-1 個任務中的性能,GEM 將前n-1 個任務的損失作為不等式約束。在觀察第n個任務的訓練樣本(x,y) 時,GEM 的作用是最小 化L(fθ(x,n),y),其中,Mk),k 此外,在少數(shù)民族語言跨語言詞向量學習方面,孔祥鵬等[57]提出了一種基于遷移學習的聯(lián)合深度神經(jīng)網(wǎng)絡(luò)模型,通過共享權(quán)重的方法學習跨語言詞向量表示,應用于維吾爾語命名實體識別。首先用中文訓練BERT 語言模型獲得中文的語義詞向量表示,將詞向量輸入到空洞卷積神經(jīng)網(wǎng)絡(luò)減少神經(jīng)元層數(shù)和參數(shù),再通過雙向門控循環(huán)單元進行上下文語義信息提取,最后通過條件隨機場(conditional random fields,CRF)得到最優(yōu)標簽序列。中文實體識別模型訓練好后,采用共享深度神經(jīng)網(wǎng)絡(luò)隱藏層的方法捕捉維吾爾語字符之間的語義依賴關(guān)系,從而提高命名實體識別的性能,其準確率為91.39%,召回率為90.11%,F(xiàn)1 值達到了90.75%。該方法中跨語言詞向量學習主要依賴于BERT 的語義學習和神經(jīng)網(wǎng)絡(luò)權(quán)重的共享。模型在中文信息上學到的表示信息遷移到維吾爾語上,實現(xiàn)了從維吾爾語詞向量到中文詞向量的對齊。 對于資源缺乏的語言來說,獲取大量的標注數(shù)據(jù)進行有監(jiān)督訓練是比較困難的,因此如何從已訓練好的高資源語言遷移到一個低資源的語言,并且不需要標注數(shù)據(jù)成為一個新的挑戰(zhàn)。無監(jiān)督的跨語言學習方法無需人工標注數(shù)據(jù)且具有領(lǐng)域無關(guān)性,適合有大規(guī)模開放的無結(jié)構(gòu)化數(shù)據(jù)的語言,但這種訓練方法對硬件的消耗也比較大。表2 是對以上各種基于BERT 的無監(jiān)督跨語言詞向量方法給出的其適用范圍和資源消耗情況。 Table 2 Comparison of unsupervised cross lingual word embedding learning methods based on BERT表2 基于BERT的無監(jiān)督跨語言詞向量學習方法對比 基于BERT 的有監(jiān)督跨語言詞向量學習方法通過豐富的對齊語料,實現(xiàn)從源語言詞向量到目標語言詞向量的遷移。但需要大量的標注數(shù)據(jù)或高質(zhì)量的種子詞典。而基于BERT 的無監(jiān)督的跨語言詞向量學習方法不需要任何監(jiān)督數(shù)據(jù),并證明部分無監(jiān)督方法能獲得與有監(jiān)督方法相媲美的結(jié)果,從而得到了許多研究者的青睞。表3 是對基于BERT 的有監(jiān)督和無監(jiān)督跨語言詞向量學習方法的大致歸納總結(jié),表4 是按照訓練語料多少排序的跨語言詞向量模型。 Table 3 Comparison of cross-lingual word embedding learning methods based on BERT表3 基于BERT 的跨語言詞向量學習方法對比 Table 4 Cross-lingual word embedding model sorted according to the number of training corpus表4 按照訓練語料多少排序的跨語言詞向量模型 跨語言詞向量的質(zhì)量評估,通常分為兩類:內(nèi)在評估方法和外在評估方法[1]。內(nèi)在評估是度量兩種語言詞向量的相似性,直接評估詞之間的語法、語義關(guān)系。其方法是:先用詞向量計算兩個詞對的余弦相似性值,然后計算其與人工標注的相似性值的斯皮爾曼等級相關(guān)系數(shù)。該方法雖然簡單、快速,但是存在幾個明顯的缺點:(1)人為標注的相似性值過于主觀;(2)數(shù)據(jù)集評估的是語義相似性而不是基于某個任務上的相似性;(3)沒有標準的分割;(4)詞向量在下游任務上的相關(guān)度不高;(5)沒有考慮詞匯的聚義現(xiàn)象[16]。外在評估是將訓練好的跨語言詞向量作為NLP 下游任務的輸入特征,通過下游任務的表現(xiàn)來評估跨語言詞向量的質(zhì)量。 本文主要對基于BERT 的跨語言詞向量學習方法進行了介紹。按照詞向量訓練方法的不同,將其分為有監(jiān)督學習和無監(jiān)督學習兩類。在有監(jiān)督的學習方法中,重點概述了基于詞對齊的跨語言詞向量學習方法,分為基于映射的學習方法、基于聯(lián)合學習方法、基于偽雙語語料學習方法。在無監(jiān)督的方法中主要論述基于多語言BERT 的跨語言詞向量學習的方法和一些無需共享詞典和聯(lián)合學習的學習方法。在無監(jiān)督跨語言詞向量學習方法中,一個典型的辦法是利用對抗性訓練[34]映射共享語義空間,但作者并沒有找到先用BERT 預訓練模型學習單語詞向量,再用對抗性訓練學習跨語言詞向量的方法。此外,跨語言詞向量映射的自學習[33]方法也是一種無監(jiān)督的跨語言詞向量學習方法,但學習單語詞向量時并沒有用到BERT 模型。 跨語言詞向量將不同的語言映射到一個共享語言特征低維度稠密的向量空間,在不同語言間進行知識轉(zhuǎn)移,從而在多語言環(huán)境中能有效捕捉隱含在單詞上下文中的語法、語義信息。對于資源信息缺乏的語言,跨語言詞向量模型是一種研究方向,它能很好地學習跨語言詞向量表示。 蒙古文帶標注數(shù)據(jù)資源稀少,屬于低資源語言,無法構(gòu)建成熟的動態(tài)蒙古文詞向量模型,構(gòu)建基于BERT 的蒙漢文跨語言詞向量模型是一種研究方向,但同時伴隨著新的挑戰(zhàn),需要進一步探索和研究,重點有如下問題亟待解決: (1)一詞多義的表達。蒙古文與土耳其文、日文、朝鮮文一樣,是一種粘著性語言,具有復雜的形態(tài)變化結(jié)構(gòu)。在實際應用中常會有一詞多義現(xiàn)象。例 如,“這一句中兩個的含義不同,第一個是“頂”的意思,第二個是“頭”的意思,這句話的中文意思為“到了山頂后我頭疼了”。因而必須要考慮如何構(gòu)建上下文語境敏感的動態(tài)詞向量模型和蒙古文復雜的形態(tài)變化結(jié)構(gòu)。 (2)子詞的融合。BERT 模型的出現(xiàn),將子詞級的信息納入跨語言詞匯表征的學習中,但學習蒙古文詞向量需要將這些子詞進行融合,需要考慮用什么樣的融合方法才能表達單詞的真實語義。 (3)多音詞。蒙古文有一些多音詞,一種形式對應多種拼寫、發(fā)音、意義,如這個詞有“hvta”“hvda”“hqta”“hqda”“hvte”“hvde”“hqte”“hqde”等8種不同拼寫方式,其中“hqta”(意思:城市)和“hvda”(意思:親家)是正確的拼寫(微軟輸入法鍵盤映射),但輸入者往往只關(guān)注它的形式而不關(guān)心其正確的鍵盤映射?!啊边@句話也會因這個的多義性產(chǎn)生歧義句“我來到市里的家了”和“我來到親家的家里了”兩個意思。這些問題在蒙古文中較常見,構(gòu)建蒙漢文跨語言詞向量模型時需考慮進去。 (4)功能詞的表述??缯Z言詞向量模型與其他單語詞向量模型一樣,對功能詞不太敏感,例如“給我一支筆”和“給我這支筆”。這種功能詞對跨語言對話系統(tǒng)中尤為重要,需要考慮進去。 (5)數(shù)據(jù)集的獲取。目前大多數(shù)跨語言詞向量模型都基于雙語詞典或平行數(shù)據(jù),蒙古文屬于低資源語言,獲取這樣的數(shù)據(jù)集比較困難。一個重要的相關(guān)研究方向是在多語言預訓練模型的基礎(chǔ)上,用少量的平行數(shù)據(jù)進行微調(diào)。 (6)語言差異性。蒙古文和中文不屬于同一個語系,差異性較大。將兩種語言映射到一個共享語義空間還需要考慮語內(nèi)翻譯和語際翻譯。語內(nèi)翻譯多指詞對應翻譯,比較嚴謹,準確復現(xiàn)了原文本內(nèi)容,語際翻譯偏向于意譯,更加靈活,也能體現(xiàn)出語言文化和語言表達方式的不同。因此模型的約束條件中,既要體現(xiàn)語內(nèi)翻譯中詞匯的對應正確性,也要涵蓋語際翻譯中的文本語義一致性。3.2 基于BERT 的有監(jiān)督和無監(jiān)督的跨語言詞向量學習方法的對比與分析
4 跨語言詞向量學習的評估方法
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望