• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于點(diǎn)關(guān)聯(lián)測度矩陣分解的中英跨語言詞嵌入方法

      2017-04-25 08:26:28韋林煊荀恩東
      中文信息學(xué)報 2017年1期
      關(guān)鍵詞:測度語料文檔

      于 東,趙 艷,韋林煊,荀恩東

      (1.北京語言大學(xué) 大數(shù)據(jù)與教育技術(shù)研究所,北京 100083;2.北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

      基于點(diǎn)關(guān)聯(lián)測度矩陣分解的中英跨語言詞嵌入方法

      于 東1,2,趙 艷2,韋林煊2,荀恩東1,2

      (1.北京語言大學(xué) 大數(shù)據(jù)與教育技術(shù)研究所,北京 100083;2.北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

      研究基于矩陣分解的詞嵌入方法,提出統(tǒng)一的描述模型,并應(yīng)用于中英跨語言詞嵌入問題。以雙語對齊語料為知識源,提出跨語言關(guān)聯(lián)詞計(jì)算方法和兩種點(diǎn)關(guān)聯(lián)測度的計(jì)算方法:跨語言共現(xiàn)計(jì)數(shù)和跨語言點(diǎn)互信息。分別設(shè)計(jì)目標(biāo)函數(shù)學(xué)習(xí)中英跨語言詞嵌入。從目標(biāo)函數(shù)、語料數(shù)據(jù)、向量維數(shù)等角度進(jìn)行實(shí)驗(yàn),結(jié)果表明,在中英跨語言文檔分類中以前者作為點(diǎn)關(guān)聯(lián)測度最高得到87.04%的準(zhǔn)確率;在中英跨語言詞義相似度計(jì)算中,后者作為點(diǎn)關(guān)聯(lián)測度得到更好的性能,同時在英—英詞義相似度計(jì)算中的性能略高于主流的英語詞嵌入。

      點(diǎn)關(guān)聯(lián)測度;詞嵌入;跨語言;矩陣分解

      1 引言

      詞嵌入(Word Embeddings)可以將自然語言中的每個詞表示為稠密、低維的連續(xù)實(shí)數(shù)向量,在基于深度神經(jīng)網(wǎng)絡(luò)的自然語言處理方法中,詞嵌入往往作為預(yù)處理步驟,起到基礎(chǔ)性作用,是目前語言信息處理領(lǐng)域研究和應(yīng)用的熱點(diǎn)問題??缯Z言詞嵌入(Cross-lingual Word Embeddings,CWE)是該領(lǐng)域的一個分支,目的是將兩種甚至多種語言的詞匯以向量形式表示在同一個向量空間中,從而能夠直接通過向量計(jì)算來描述不同語言詞匯之間的關(guān)系,為跨語言信息處理提供良好表示形式,在近一段時間受到廣泛關(guān)注。Klementiev[1]等人最早提出跨語言詞嵌入問題。近幾年許多學(xué)者針對該問題開展研究,第一類方法是采用新的學(xué)習(xí)框架學(xué)習(xí)跨語言映射知識,如基于自動編碼器[2]、典型相關(guān)性分析[3]等;第二類方法通過語料變換和洗牌,將跨語言詞向量問題轉(zhuǎn)變?yōu)槠胀ㄔ~向量問題[4-5]。在應(yīng)用方面,跨語言詞嵌入被應(yīng)用于機(jī)器翻譯[6]、雙語詞典抽取[4]、句法分析[7]等任務(wù),均取得良好的效果。目前,跨語言詞嵌入主要針對英語、德語等西方語言,相關(guān)研究在國內(nèi)開展較少,尚無針對中文的研究成果發(fā)表。

      目前,基于矩陣分解的詞嵌入學(xué)習(xí)逐漸受到重視,Pennington[8]和Levy[9]均對此問題進(jìn)行探討。本文認(rèn)為詞嵌入可以由詞語的點(diǎn)關(guān)聯(lián)測度經(jīng)矩陣分解學(xué)習(xí)得到,并給出統(tǒng)一的目標(biāo)函數(shù)形式。在此基礎(chǔ)上,將該方法擴(kuò)展用于中英跨語言詞嵌入。本文以中英對齊語料為主要知識源,提出跨語言關(guān)聯(lián)詞和點(diǎn)關(guān)聯(lián)測度的計(jì)算方法,分別探討以跨語言共現(xiàn)計(jì)數(shù)(Cross-lingual Co-occurrenc)和跨語言點(diǎn)互信息(Cross-lingual PMI)作為點(diǎn)關(guān)聯(lián)測度時的目標(biāo)函數(shù),用于學(xué)習(xí)跨語言詞嵌入表示,并以跨語言文檔分類(Cross-lingual Document Classification,CDC)和跨語言語義相似度(Cross-lingual Similarity,CLS)評價詞嵌入性能。實(shí)驗(yàn)中,通過對比不同目標(biāo)函數(shù)、不同知識源、不同維度下跨語言詞嵌入的性能,驗(yàn)證本文訓(xùn)練跨語言詞嵌入的有效性,并從適用問題、應(yīng)用領(lǐng)域等方面給出綜合分析。

      本文第二節(jié)介紹跨語言詞向量訓(xùn)練的相關(guān)工作;第三節(jié)具體介紹模型和方法;第四節(jié)介紹跨語言詞向量的應(yīng)用問題;第五節(jié)針對CDC和CLS等任務(wù)進(jìn)行實(shí)驗(yàn)和分析;第六節(jié)給出結(jié)論和未來工作。

      2 相關(guān)工作

      2.1 跨語言詞嵌入相關(guān)研究

      跨語言詞嵌入問題由Klementiev[1]等人提出,首先借助神經(jīng)網(wǎng)絡(luò)語言模型構(gòu)建初始詞向量,然后借鑒多任務(wù)學(xué)習(xí)框架,利用對齊語料的詞共現(xiàn)特征導(dǎo)出跨語言詞嵌入。此后,許多學(xué)者對該問題進(jìn)行研究,提出不同的學(xué)習(xí)模型。Faruqui[3],Zou[6]等將跨語言詞嵌入分為兩步,首先分別訓(xùn)練單語言詞嵌入,然后以兩者的某種距離作為目標(biāo)函數(shù),學(xué)習(xí)得到跨語言詞嵌入。由于采用串行級聯(lián)形式,該方法難以同時學(xué)習(xí)單語言和跨語言的嵌入表示。Hermann和Blunsom[10],Chandar A P[2]等以對齊語料中的句子作為訓(xùn)練單元,通過組合詞向量構(gòu)成句向量,再以句子向量距離、兩個語言作為目標(biāo)函數(shù)學(xué)習(xí)詞嵌入。這種方式對于句子級別的表達(dá)具有較高的性能,但缺乏對詞之間的語義表達(dá)。在目標(biāo)函數(shù)設(shè)計(jì)方面,Gouws[11]分別設(shè)計(jì)單語、跨語目標(biāo)函數(shù),然后累加得到總目標(biāo)函數(shù)訓(xùn)練跨語言詞嵌入,該思路也被Soyer[12],Shi[13]等采用。2015年后Gouws[5],Vulic[4],Coulmance[14]等分別設(shè)計(jì)算法對齊語料進(jìn)行隨機(jī)詞混合,將得到的混合語料作為訓(xùn)練數(shù)據(jù),將跨語言詞嵌入轉(zhuǎn)換為單一語言詞嵌入,也得到了較好的效果。

      目前,跨語言詞嵌入仍然是表示學(xué)習(xí)的一個研究熱點(diǎn)問題,并開始逐漸向多語言、多粒度、多功能的方向發(fā)展,在跨語言文檔分類、跨語言情感分類、跨語言相似度計(jì)算、機(jī)器翻譯、跨語言句法分析等領(lǐng)域得到應(yīng)用。

      2.2 基于矩陣分解的詞嵌入

      (1)

      在同一時期,Pennington[8]也提出類似的觀點(diǎn),認(rèn)為詞的共現(xiàn)計(jì)數(shù)與上述矩陣直接相關(guān),并由此提出Glove詞嵌入方法,在特定任務(wù)中的性能超越了word2vec。使得基于矩陣分解的詞嵌入方法成為主流。Shi[13]借鑒Levy等人的理論,提出矩陣協(xié)同分解方法用于跨語言詞嵌入方法,并通過融入詞翻譯概率知識,在英語—德語跨語言文檔分類中獲得優(yōu)秀表現(xiàn)。

      3 模型描述

      3.1 點(diǎn)關(guān)聯(lián)測度與詞嵌入的矩陣分解

      文獻(xiàn)[8-9]分別用不同的目標(biāo)函數(shù)驗(yàn)證了矩陣分解方法學(xué)習(xí)得到的詞向量可以有效表示語言中的詞義相似度,兩者雖在目標(biāo)函數(shù)上存在差異,但最終詞嵌入性能接近。本文認(rèn)為兩者是同質(zhì)的。為此,我們定義詞的點(diǎn)關(guān)聯(lián)測度為:一個自然語言詞匯與其關(guān)聯(lián)詞匯之間關(guān)聯(lián)程度的度量,則可導(dǎo)出基于矩陣分解詞嵌入的統(tǒng)一模型。

      R≈WTC

      (2)

      基于矩陣分解的詞嵌入就是將式(2)作為依據(jù)訓(xùn)練Wd×m和C,目標(biāo)函數(shù)的核心部分通常為點(diǎn)關(guān)聯(lián)測度的差值,如式(3)所示。

      (3)

      其中,rij表示目標(biāo)詞wi和其關(guān)聯(lián)詞cj的點(diǎn)關(guān)聯(lián)測度。該目標(biāo)函數(shù)進(jìn)一步由隨機(jī)梯度下降算法迭代訓(xùn)練,最終得到訓(xùn)練結(jié)果。

      式(3)可理解為矩陣分解詞嵌入學(xué)習(xí)的統(tǒng)一模型,文獻(xiàn)[8-9]中的目標(biāo)函數(shù)均為其特定形式。如定義rij為詞的點(diǎn)互信息(PMI),則目標(biāo)函數(shù)等價于式(1)。如果定義rij為wi和cj的共現(xiàn)計(jì)數(shù),則近似于文獻(xiàn)[8]提出的目標(biāo)函數(shù)。根據(jù)該模型,基于矩陣分解方法學(xué)習(xí)詞嵌入必須解決三個核心問題。

      (1) 如何根據(jù)語料數(shù)據(jù),確定目標(biāo)詞和對應(yīng)的關(guān)聯(lián)詞;

      (2) 選取何種點(diǎn)關(guān)聯(lián)測度作為訓(xùn)練參數(shù)的依據(jù);

      (3) 如何設(shè)計(jì)合理的目標(biāo)函數(shù)。

      下面將針對以上三個問題討論跨語言詞嵌入問題。

      3.2 跨語言關(guān)聯(lián)詞的確定

      下面以中文詞為例描述關(guān)聯(lián)詞確定方法。可以進(jìn)一步分為兩種情況。

      圖1 詞對齊情況下關(guān)聯(lián)詞的確定示例

      3.3 跨語言關(guān)聯(lián)測度計(jì)算

      本文分別以跨語言共現(xiàn)計(jì)數(shù)和跨語言點(diǎn)互信息作為點(diǎn)關(guān)聯(lián)測度,給出其在跨語言詞嵌入問題中的計(jì)算方法。以中文目標(biāo)詞為例,分兩種情況討論跨語言共現(xiàn)計(jì)數(shù)的計(jì)算方法,目標(biāo)詞為英語詞時的計(jì)算與之對稱:

      顯然,關(guān)聯(lián)詞共現(xiàn)計(jì)數(shù)是根據(jù)距離的加權(quán)的,距離目標(biāo)詞越遠(yuǎn)則權(quán)重越低。圖1給出關(guān)聯(lián)詞的權(quán)重計(jì)算示例,其中跨語言的直接對齊詞距離從1開始計(jì)算。

      (6)

      跨語言點(diǎn)互信息的計(jì)算依賴于共現(xiàn)計(jì)數(shù),對于兩種語言均采用相同的形式,如式(7)所示。

      (7)

      (8)

      在計(jì)算過程中,為保證兩種語言計(jì)算得到的共現(xiàn)概率處于同一個概率空間,計(jì)算|D|時不區(qū)分語言。

      3.4 目標(biāo)函數(shù)設(shè)計(jì)

      (9)

      類似地,采用跨語言點(diǎn)互信息作為關(guān)聯(lián)測度時的目標(biāo)函數(shù)為式(10)。

      (10)

      (11)

      在訓(xùn)練過程中,除了使用對齊語料庫外,還可以將非對齊的單語語料庫作為額外的訓(xùn)練數(shù)據(jù)加入訓(xùn)練過程,以強(qiáng)化詞嵌入的表示能力。將參與訓(xùn)練的單語語料記為S′、T′,則(8)、(9)兩種損失函數(shù)可擴(kuò)展為式(12)和式(13)。

      4 跨語言詞嵌入的應(yīng)用和評價

      4.1 跨語言文本分類

      CDC問題通常使用NIST發(fā)布的Reuters RCV1/RCV2文檔集*http://trec.nist.gov/data/reuters/reuters.html作為CDC數(shù)據(jù)源。其中RCV1為英文文檔集,RCV2為多語言文檔集,共包含4類文檔,每個文檔均對應(yīng)于一個或多個類型標(biāo)記。與之類似,本文從RCV1和RVC2中選取具有單一類型的英文、中文文檔。考慮到RCV2中提供的中文文檔數(shù)量遠(yuǎn)小于RCV1的英文文檔數(shù)量,我們對英文文檔數(shù)量做了隨機(jī)選取,以保證兩種語言文檔數(shù)量、詞匯數(shù)量基本協(xié)調(diào)。最終抽取得到中文文檔共24 330個,詞典規(guī)模為10.56萬詞;英文文檔33 286個,詞典規(guī)模為13.65萬詞。詳細(xì)的數(shù)據(jù)使用情況將在實(shí)驗(yàn)部分介紹。

      4.2 跨語言詞義相似度計(jì)算

      詞義相似度是評價詞嵌入的重要方法,英文詞嵌入評價常以WordSimilarity-353(WS353)[16]作為測試集。WS353數(shù)據(jù)中包含353對英文單詞,由十名以上標(biāo)注者對每對單詞的相似度進(jìn)行1~10分打分,取平均值作為最終相似度。該相似度與待測試詞向量計(jì)算得到的相似度取Spearman相關(guān)系數(shù),作為評價詞嵌入的指標(biāo)。

      本文將該方法應(yīng)用于跨語言詞嵌入的評價。由于目前沒有公開的中英詞匯相似度數(shù)據(jù)集,我們首先對WS353進(jìn)行翻譯,將其中所有單詞翻譯為中文,并沿用原始相似度打分。例如,對于實(shí)例(e1,e2,s),s為人工標(biāo)注的相似度數(shù)值。經(jīng)人工翻譯后擴(kuò)展為(e1,c1,e2,c2,s),則該實(shí)例的跨語言詞義相似度計(jì)算公式記為式(14)。

      (14)

      在翻譯過程中,盡量使用短詞,以減少翻譯傾向性對翻譯結(jié)果的影響。仍以Spearman相關(guān)系數(shù)作為最終的評價指標(biāo)。

      5 實(shí)驗(yàn)和分析

      5.1 訓(xùn)練跨語言詞嵌入

      本文中用于訓(xùn)練跨語言詞嵌入的數(shù)據(jù)包括兩部分:(1)NIST2008機(jī)器翻譯評測提供的中英雙語對齊語料; (2)從RCV1/RCV2抽取文檔集合,其中的雙語數(shù)據(jù)是非對齊的。在預(yù)處理階段,我們將英文語料全部小寫化,采用LTP*http://www.ltp-cloud.com/工具對中文進(jìn)行分詞,去掉雙語中所有常規(guī)標(biāo)點(diǎn)和特殊符號,去掉過長和過短的句子。預(yù)處理后,中英對齊語料共計(jì)425萬句對,包含中文詞61.39M,英文詞72.22M,使用SymGiza++[17]工具學(xué)習(xí)其中對齊知識。作為對比,我們采用類似Trans-gram[14]提出的方法訓(xùn)練跨語言的詞向量表示:利用SymGiza++生成的對齊語料,以p=0.5的概率進(jìn)行隨機(jī)混合,然后以混合后的語料作為訓(xùn)練數(shù)據(jù),使用Glove工具訓(xùn)練詞嵌入。

      實(shí)驗(yàn)主要考察不同的知識和目標(biāo)函數(shù)對跨語言詞向量性能的影響,分為三個維度:(1)采用何種點(diǎn)關(guān)聯(lián)特征作為學(xué)習(xí)目標(biāo); (2)在訓(xùn)練中是否使用詞對齊知識; (3)在訓(xùn)練中是否使用非對齊單語語料。訓(xùn)練過程中的其他的參數(shù)設(shè)置參考了文獻(xiàn)[1,13],包括:低頻權(quán)重調(diào)整參數(shù)x_max_monoligual=30.0,x_max_bilingual=100.0,α=0.75;低頻詞截止參數(shù)min_count=5;學(xué)習(xí)率η=0.05;共現(xiàn)窗口長度window_size=10;訓(xùn)練迭代次數(shù)為50。實(shí)驗(yàn)中,每種詞嵌入方法均訓(xùn)練dim={20,40,80,160}四種維度,以觀察維度的變化對性能的影響。

      5.2 跨語言文檔分類實(shí)驗(yàn)

      如前文所述, RCV1/RCV2文檔集作為非對齊語料庫參與詞嵌入訓(xùn)練。在CDC實(shí)驗(yàn)中,首先利用該語料庫計(jì)算中英文單詞的IDF權(quán)重,然后根據(jù)文檔集中四種類型文檔的原始分布比例隨機(jī)抽取10 000個英文文檔作為訓(xùn)練集,抽取5 000、1 000個中文文檔作為測試集、參數(shù)調(diào)試開發(fā)集。我們在不同參數(shù)下訓(xùn)練跨語言詞嵌入,使用感知器算法學(xué)習(xí)跨語言文檔分類知識,測試其性能。設(shè)置感知器算法迭代次數(shù)為十次。

      實(shí)驗(yàn)設(shè)計(jì)兩組對比結(jié)果,其中B0是測試集中文檔數(shù)量最多的類別的比例,B1是以隨機(jī)混詞為訓(xùn)練數(shù)據(jù)得到的詞嵌入的性能測試。實(shí)驗(yàn)文檔的分類正確率作為評價標(biāo)準(zhǔn),最后的測試結(jié)果匯總于表1,其中用于CDC實(shí)驗(yàn)的所有向量的維度為d=40。

      在CDC問題中,采用簡單的隨機(jī)混詞方法能夠得到較好的性能。本文訓(xùn)練得到的詞向量在CDC問題上的性能均超過B1。根據(jù)表1可以得到如下結(jié)論:首先,使用非對齊的單語語料參與訓(xùn)練,會使得分類正確率有較大提升,最高有T4-T3=9.06%。這 說明在詞嵌入訓(xùn)練過程中,跨語言的知識可以與領(lǐng)域知識分開表達(dá),在有一定規(guī)模對齊語料的前提下,使用非對齊的領(lǐng)域語料可以提升特定任務(wù)下跨語言詞嵌入的性能。其次,使用詞對齊信息時的性能普遍高于未使用對齊信息的情況,如T4-T2=8.35%,T7-T5=5.92%等。這是因?yàn)樵贑DC問題中,文檔由高權(quán)重關(guān)鍵詞的向量加權(quán)表示,高權(quán)重詞的對齊特征更加重要。

      此外,表1中基于跨語言共現(xiàn)計(jì)數(shù)(CO)和基于跨語言點(diǎn)互信息(CP)兩種關(guān)聯(lián)測度下得到的詞嵌入性能差別不大,但T4、T8的性能有明顯提高。為解釋該現(xiàn)象,我們分別在20、40、80、160四種維度重復(fù)訓(xùn)練詞嵌入,并進(jìn)行測試得到對比結(jié)果如圖2。

      圖2(a)是CO方法與B1的對比結(jié)果,在d=40、80情況下T2略高于T6;圖2(b)是CP方法與B1的對比結(jié)果,在d=40、80情況下T4高于T8。兩種方法均在d=40、80時取得最高準(zhǔn)確率。說明對于CDC問題,基于跨語言共現(xiàn)計(jì)數(shù)的方法更有效,原因是互信息傾向于選擇低頻詞,使得文檔表示時低頻詞權(quán)重過高,反而影響最終性能。

      圖2 不同方法、不同維數(shù)詞嵌入在CDC上的性能對比

      表1 跨語言詞向量實(shí)驗(yàn)結(jié)果

      5.3 跨語言詞義相似度實(shí)驗(yàn)

      表1的最后一列給出跨語言詞義相似度(CLS)的實(shí)驗(yàn)結(jié)果。由于對比實(shí)驗(yàn)B1在d=80時取得最好性能,因此該實(shí)驗(yàn)以d=80時的實(shí)驗(yàn)結(jié)果做比較。

      實(shí)驗(yàn)中,跨語言互信息學(xué)習(xí)得到的詞嵌入明顯好于共現(xiàn)計(jì)數(shù),最高有T8-T4=0.059 3,該結(jié)果與CDC的實(shí)驗(yàn)結(jié)果恰好相反,說明點(diǎn)互信息更適合于表示詞與詞之間的相似性,而不是文檔級別的相似性。

      其次,在詞嵌入過程中不使用詞對齊信息,在測試中取得更好的性能,如T1-T3=0.036 5,T5-T7=0.023。預(yù)訓(xùn)練得到的詞對齊信息雖然更加精確,但相對于無詞對齊時的平均分布,仍存在信息損失。也說明在詞相似度計(jì)算方面,使用更多的關(guān)聯(lián)詞能夠得到更好的效果。最后,非對齊的語料對詞相似度的計(jì)算仍然有貢獻(xiàn),說明單語的語料雖然不包含跨語言知識,但作為補(bǔ)充數(shù)據(jù)仍然有助于詞向量性能的提升。

      同樣,為了考察不同維度詞嵌入在CLS問題中的變化趨勢,我們以B1、T2、T6,T4、T8為例進(jìn)行測試,結(jié)果如圖3所示。各組實(shí)驗(yàn)都在d=80時取得最好性能。圖3(a)中,由于訓(xùn)練B1使用的混詞語料也使用了詞對齊信息,且同樣采用共現(xiàn)計(jì)數(shù)訓(xùn)練,因此T4與B1性能非常接近,三者趨勢基本一致,無詞對齊情況下性能更好。圖3(b)中,基于互信息的詞嵌入整體趨勢與B1類似,但性能有較大提高,說明該方法的有效性。

      表2給出跨語言詞嵌入實(shí)驗(yàn)T6的相似詞計(jì)算示例,目標(biāo)詞分為中文和英文兩組,選取相似度最高的五個跨語言詞作為示例??梢?,目標(biāo)詞與其Top1相似詞非常接近直譯結(jié)果。對比而言,根據(jù)中文詞匯計(jì)算英文相似度的結(jié)果相對較好。

      圖3 不同方法CLS性能對比

      表2 跨語言詞向量CLS性能

      5.4 單語詞義相似度實(shí)驗(yàn)

      跨語詞嵌入不僅能夠表示兩種語言之間詞匯關(guān)聯(lián)特征,而且在各自語言中也應(yīng)該具有詞嵌入的基本特征。本文使用英文Sim353測試集,對跨語言詞嵌入得到的英文詞向量進(jìn)行測試。首先用Glove工具,僅使用雙語對齊語料中的英文數(shù)據(jù)單獨(dú)訓(xùn)練d=80維的英文詞嵌入,并對Sim353數(shù)據(jù)集,計(jì)算整體Spearman相關(guān)度,作為參考記為B2。使用由同樣數(shù)據(jù)訓(xùn)練的詞向量(T1、T3、T5、T7)進(jìn)行測試,結(jié)果見表3。

      表3 單語詞嵌入相似度實(shí)驗(yàn)

      續(xù)表

      可見,在相同的訓(xùn)練數(shù)據(jù)條件下,除了T3性能略有下降,其余幾組實(shí)驗(yàn)均超過了Glove訓(xùn)練得到的詞嵌入,證明本文所述方法的有效性。

      6 結(jié)論

      近幾年,詞嵌入在自然語言處理中扮演了日益重要的角色。以特定關(guān)聯(lián)測度為學(xué)習(xí)目標(biāo),借鑒矩陣分解形式設(shè)計(jì)機(jī)器學(xué)習(xí)系統(tǒng),是獲取詞嵌入的主要方法。本文將該方法擴(kuò)展到跨語言詞嵌入訓(xùn)練問題中,以對齊語料為主要知識源,分別探討跨語言共現(xiàn)計(jì)數(shù)和跨語言點(diǎn)互信息作為詞的關(guān)聯(lián)測度情況下跨語言詞嵌入的訓(xùn)練方法。提出跨語言關(guān)聯(lián)詞確定方法和統(tǒng)一形式的詞關(guān)聯(lián)測度的計(jì)算方法,建立目標(biāo)函數(shù)實(shí)現(xiàn)詞向量的學(xué)習(xí)。

      本文采用跨語言文檔分類和跨語言語義相似度計(jì)算作為評價詞嵌入的主要依據(jù),從多個層面測試影響跨語言詞嵌入性能的因素。通過實(shí)驗(yàn)驗(yàn)證跨語言共現(xiàn)計(jì)數(shù)作為關(guān)聯(lián)測度適合解決CDC問題,而跨語言點(diǎn)互信息則適合解決CLS問題。訓(xùn)練得到的跨語言詞嵌入能夠有效表示中英文詞匯之間的語義聯(lián)系,同時其詞向量在單一語言中能夠保持性能不降低。因此該方法可以作為跨語言信息處理的預(yù)處理表示方法,廣泛應(yīng)用于各類應(yīng)用中。

      最后,本文提出的基于點(diǎn)關(guān)聯(lián)測度的詞嵌入方法,研究新的點(diǎn)關(guān)聯(lián)測度,針對特定任務(wù)、特定領(lǐng)域使用特定的點(diǎn)關(guān)聯(lián)測度,可以提高詞嵌入訓(xùn)練的靈活性和性能,將是本工作未來研究的重點(diǎn)。

      [1] Alexandre Klementiev,Ivan Titov,Binod Bhattarai.Inducing crosslingual distributed representations of words[C]//Proceedings of COLING 2012,Technical Papers.Mumbai,2012:1459-1474.

      [2] Sarath Chandar A P,Stanislas Lauly,Hugo Larochelle,et al.An autoencoder approach to learning bilingual word representations[C]//Proceedings of NIPS 2014.Montreal,2014:1853-1861.

      [3] Manaal Faruqui,Chris Dyer.Improving vector space word representations using multilingual correlation[C]//Proceedings of EACL2014.Gothenburg,2014:462-471.

      [4] Ivan Vulic,Marie-Francine Moens.Bilingual Word Embeddings from Non-Parallel Document-Aligned Data Applied to Bilingual Lexicon Induction[C]//Proceedings of ACL2015(Short papers).Beijing,2015:719-725.

      [5] Stephan Gouws,Anders Sogaard.Simple task-specific bilingual word embeddings[C]//Proceedings of NAACL2015.Denver,2015:1386-1390.

      [6] Will Y Zou,Richard Socher,Daniel M Cer,et al.Bilingual word embeddings for phrase-based machine translation[C]//Proceedings of EMNLP2013.Seattle,Washington,2013:1393-1398.

      [7] Jiang Guo,Wanxiang Che,David Yarowsky,et al.Crosslingual dependency parsing based on distributed representations[C]//Proceedings of ACL2015.Beijing,2015:719-725.

      [8] Jeffrey Pennington,Richard Socher,Christopher D Manning.Glove:Global vectors for word representation[C]//Proceedings of EMNLP2014.Doha,2014:1532-1543.

      [9] Omer Levy,Yoav Goldberg.Neural word embedding as implicit matrix factorization[J].Advances in neural information processing systems.2014,(3):2177-2185.

      [10] Karl Moritz Hermann,Phil Blunsom.Multilingual models for compositional distributed semantics[C]// Eprint Arxiv,2014.

      [11] Stephan Gouws,Yoshua Bengio,Greg Corrado.Bilbowa:Fast bilingual distributed representations without word alignments[C]//Proceedings of ICML2015.Lille,2015:748-756.

      [12] Hubert Soyer,Pontus Stenetorp,Akiko Aizawa.Leveraging monolingual data for crosslingual compositional word representations[C]//Proceedings of ICLR2015.San Diego,2015.

      [13] Tianze Shi,Zhiyuan Liu,Yang Liu,et al.Learning cross-lingualword embeddings via matrix co-factorization[C]//Proceedings of ACL2015(Short papers).Beijing,2015:567-572.

      [14] Jocelyn Coulmance,Jean-Marc Marty,Guillaume Wenzek,et al.Trans-gram,Fast Cross-lingual Word-embeddings[C]//Proceedings of EMNLP2015.Lisbon,2015:1109-1113.

      [15] Tomas Mikolov,Ilya Sutskever,Kai Chen,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of NIPS2013.South Lake Tahoe,2013:3111-3119.

      [16] Lev Finkelstein,Evgeniy Gabrilovich,Yossi Matias,et al.Placing Search in Context:The Concept Revisited[J].ACM Transactions on Information Systems,2002,20(1):116-131.

      [17] Marcin Junczys-Dowmunt,Arkadiusz Szat.Symgiza++:symmetrized word alignment models for statistical machine translation[C]//Proceedings of International Cooference on Security and Intelligent Information Systems,2011,(7053):379-390.

      Chinese-English Cross-lingual Word Embeddings Based on PointwiseRelevant Measurement Matrix Factorization

      YU Dong1,2,ZHAO Yan2,WEI Linxuan2,XUN Endong1,2

      (1.Institute of Big Data and Language Education,Beijing Language and Culture University,Beijing 100083,China;2.College of Information Science,Beijing Language and Culture University,Beijing 100083,China)

      This paper presents a unified model for matrix factorization based word embeddings,and applies the model to Chinese-English cross-lingual word embeddings.It proposes a method to determine cross-lingual relevant word on parallel corpus.Both cross-lingual word co-occurrence and pointwise mutual information are served as pointwise relevant measurements to design objective function for learning cross-lingual word embeddings.Experiments are carried out from perspectives of different objective function,corpus,and vector dimension.For the task of cross-lingual document classification,the best performance model achieves 87.04% in accuracy,as it adopts cross-lingual word co-occurrence as relevant measurement.In contrast,models adopt cross-lingual pointwise mutual information get better performance in cross-lingual word similarity calculation task.Meanwhile,for the problem of English word similarity calculation,experimental result shows that our methods get slightly higher performance than English word embeddings trained by state-of-the-art methods.

      pointwise relevant measurement; word embedding; cross-lingual; matrix factorization

      于東(1982—),博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:yudong_bluc@126.com趙艷(1994—),碩士研究生,主要研究領(lǐng)域?yàn)檎Z言信息處理。E-mail:zhaoyan0819@126.com韋林煊(1995—),本科生,主要研究領(lǐng)域?yàn)檎Z言信息處理。E-mail:515984350@qq.com

      1003-0077(2011)00-0058-08

      2016-09-15 定稿日期:2016-10-26

      國家自然科學(xué)基金(61300081);國家高技術(shù)研究發(fā)展計(jì)劃(863)(2015AA015409);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(北京語言大學(xué)科研項(xiàng)目:16YJ030002)

      TP391

      A

      猜你喜歡
      測度語料文檔
      三個數(shù)字集生成的自相似測度的乘積譜
      R1上莫朗測度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
      有人一聲不吭向你扔了個文檔
      非等熵Chaplygin氣體測度值解存在性
      Cookie-Cutter集上的Gibbs測度
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      栾城县| 江阴市| 宁远县| 镇赉县| 观塘区| 湘乡市| 铜山县| 保山市| 青铜峡市| 德格县| 射洪县| 新源县| 安龙县| 思茅市| 墨竹工卡县| 浠水县| 甘南县| 墨竹工卡县| 舞钢市| 辛集市| 文化| 古蔺县| 宁乡县| 云南省| 托克逊县| 会宁县| 正镶白旗| 资中县| 曲水县| 聂拉木县| 万荣县| 阜阳市| 环江| 青浦区| 珲春市| 云林县| 高平市| 汽车| 石狮市| 呼和浩特市| 通榆县|