基于雙語約束的蒙古語無監(jiān)督依存分析

2011-06-28 06:27:06烏日力嘎斯欽圖姜文斌

中文信息學(xué)報 2011年4期

劉凱, 烏日力嘎,斯欽圖, 姜文斌, 劉群

(1. 中國科學(xué)院計算技術(shù)研究所,中國科學(xué)院智能信息處理重點實驗室，北京 100190；2. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古呼和浩特 010021)

1 引言

由于國家對少數(shù)民族語言研究的重視，近年來對少數(shù)民族語言及其他次主流語種的研究越來越廣泛和深入。這幾年來在相應(yīng)的研究方面取得了不少可喜的成果。但是大多數(shù)研究都是基于序列化結(jié)構(gòu)上的許多研究，較為復(fù)雜的樹結(jié)構(gòu)上許多的研究[1-4]都是偏向理論語言學(xué)方面的，直接應(yīng)用到自然語言處理上還是有比較大的困難的。

目前，主流語言(英語、漢語等)的句法分析的研究已經(jīng)有了比較系統(tǒng)和成熟的方法:

1) 有監(jiān)督的句法分析

2) 無監(jiān)督的句法分析

3) 基于雙語映射的句法分析[5]

其中，有監(jiān)督的句法分析方法需要有一定標(biāo)準(zhǔn)和規(guī)模的樹庫。而以目前少數(shù)民族語言的研究現(xiàn)狀來看，藏語、蒙語沒有較成熟的句法理論研究和標(biāo)準(zhǔn)樹庫。而維語雖然有較成熟的句法理論研究，但是并沒有一個能夠使用的公開的句法樹庫。并且維語的短語成分樹和依存樹之間的相互轉(zhuǎn)換的研究也基本處于空白階段。所以要使用有監(jiān)督的句法分析方法，對這些少數(shù)民族語言進行句法建模和分析是十分困難的。而現(xiàn)有的無監(jiān)督方法的效果并不理想，對語言的詞性標(biāo)注要求較強，并且在算法上的費效比高，所以并不適合用于實際應(yīng)用中?；陔p語映射的方法，需要雙語語料庫，雙語對齊及一端單語的依存樹。此方法的效果介于有監(jiān)督及無監(jiān)督方法之間。鑒于我們擁有漢語和各個少數(shù)民族互譯的平行語料，及較成熟的漢語句法分析方法，利用雙語映射方法對少數(shù)民族語言進行依存句法分析是較為可取的方法。

我們在本文中提出了一種基于雙語約束的無監(jiān)督依存句法分析方法，并在蒙語上進行了實驗、測試，取得了較好的效果。本文將在下一節(jié)(第2節(jié))介紹相關(guān)背景技術(shù)，特別是雙語依存相似性(2.2節(jié))及蒙語依存約束假設(shè)(2.4.2節(jié))；在第3節(jié)中詳細(xì)介紹了訓(xùn)練及進行依存分析的算法；在第4節(jié)中我們在蒙語200句人工標(biāo)注的語料上進行了相關(guān)實驗，并且取得了73%的正確率；本文的最后對我們的工作做了總結(jié)。

2 相關(guān)技術(shù)簡介

2.1 依存句法

依存語法最先由法國語言學(xué)家L.Tensniere提出的。盡管在理論語言學(xué)中其受重視的程度越來越小，但是由于其在機器翻譯、語義消歧、語義角色標(biāo)注等方面的潛在價值，使得其在自然語言處理的實際應(yīng)用中扮演著越來越重要的角色。

20世紀(jì)70年代，Robinson提出了依存語法中關(guān)于依存關(guān)系的4條公理：

1) 一個句子只有一個成分是獨立的；

2) 其他成分直接依存于某一成分；

3) 任何一個成分都不能依存于兩個或以上的成分；

4) 如果A成分直接依存于B，而C成分處于A，B之間，那么C或者直接依存于A，或者直接依存于B，或者直接依存于A和B之間的某一部分。

圖1為一英文依存樹實例。

圖1 英文依存樹實例

2.2 判別式依存句法模型

基于最大生成樹的判別式句法分析最早由McDonald提出[6-7]。模型利用了依存邊兩端的特征信息，進行有監(jiān)督的判別式訓(xùn)練。利用最大生成樹進行依存句法分析。在英語和漢語上取得了很好的效果。其中訓(xùn)練和分析時，所取的特征為依存邊兩端詞的上下文特征。如表1。

表1 依存分析最大熵特征模板

中間詞性特征周圍詞性特征p-pos b-pos c-posp-pos p-pos+1 c-pos-1 c-posp-pos-1 p-pos c-pos-1 c-posp-pos p-pos+1 c-pos c-pos+1p-pos-1 p-pos c-pos c-pos+1

在表1中，p-word:在依存邊上父節(jié)點上的詞。c-word: 在依存邊上子節(jié)點上的詞。p-pos:父節(jié)點的詞性。c-pos:子節(jié)點的詞性。p-pos+1:父節(jié)點右邊詞的詞性。p-pos-1:父節(jié)點左邊詞的詞性。c-pos+1及c-pos-1同理。

由于判別式句法模型利用的是依存邊兩端的信息，簡單直接，易于使用。本文中基于雙語約束的方法，就是將源端依存約束信息通過判別式依存模型，對目標(biāo)端進行約束的。

2.3 雙語依存相似性

2.3.1 雙語依存相似度定義

本文中提出了一種基于雙語對齊的依存相似度評價方法。由于雙語的異構(gòu)性和對齊的多種情況，需要設(shè)計一種相對模糊的相似度評價方法。這里相似度評價的原理是：考察雙語句子對應(yīng)對齊的詞之間，相互的直接或間接的依存一致性。

我們定義源端句子為F，單詞為f；目標(biāo)端句子為E，單詞為e；源端依存樹為Tf，目標(biāo)端依存樹為Te；雙語對齊信息為A；為詞x1到詞x2的一組依存關(guān)系；為在樹T上的依存關(guān)系；EdgeSet(T)為依存樹T上所有關(guān)系集合；在依存樹T上定義一組依存邊的關(guān)系，R()為b1能夠通過任意次數(shù)的有向依存邊到達b2，即b1為b2的在依存樹T上的父親或祖先節(jié)點；R(b1|T)為集合{R(|T)∪R(b2|T)|?a2∈R(|T)}，即以b1為根節(jié)點的子樹下的所有R(|T)關(guān)系的集合；映射到目標(biāo)端詞e的源端詞集合為ef，則在目標(biāo)端依存關(guān)系R(|Te)上所映射關(guān)系數(shù)為：

Count(|E,A,F)

=|{?;x1∈e1f;x2∈e2f}

(1)

而其相似的映射關(guān)系總數(shù)為：

并且直接相似的映射關(guān)系總數(shù)為：

在依存樹上依存關(guān)系的映射依存關(guān)系總數(shù)定義為：

相似的映射關(guān)系總數(shù)為：

則源端依存樹上依存邊與目標(biāo)端依存樹Tf，通過對齊連線A，所得的雙語依存相似度為：

在目標(biāo)端不存在依存樹，只存在目標(biāo)端句子，源端依存樹及雙語對齊時，我們定義依存連線值Edge(|E,A,Tf)=1時是與源端相似的依存邊，Edge(|E,A,Tf)=0是目前不能確定的依存邊，Edge(|E,A,Tf)=-1是不相似依存邊。幾種情況的條件如式(7)所示：

根據(jù)式(7)定義的依存關(guān)系，依存邊示例如圖2。

圖2 依存邊相似性示例圖

其中實線為我們認(rèn)為相似的依存邊，點劃線為不相似依存邊，虛線則為目前無法確定的依存邊。

2.3.2 雙語依存相似性實驗

進行語言間信息映射的前提是語言之間依存的同構(gòu)性。如果語言間依存同構(gòu)性假設(shè)無法滿足的話，雙語之間的語言信息映射也就沒有了理論基礎(chǔ)。

現(xiàn)分別在蒙漢在雙語依存句對上依據(jù)式(6)計算出的雙語依存相似度如圖3。

圖3 英漢和蒙漢在互譯語料上所得的雙語相似度面積圖

圖3中，橫坐標(biāo)為按相似度排好序的句對的編號，縱坐標(biāo)為相似度評分。左圖：在濱州樹庫漢英 2 745 互譯句對上的相似度結(jié)果，其均值為0.66；右圖：在人工標(biāo)注的蒙漢200句互譯語句對上的相似度結(jié)果，均值為0.69。

由圖3中依存相似度得分的面積圖可以看出英漢雙語和蒙漢雙語之間的依存結(jié)構(gòu)是存在比較強的同構(gòu)現(xiàn)象的。由于語言的同構(gòu)性，我們認(rèn)為漢蒙雙語之間也是具有相似性，可以利用雙語相似信息進行雙語依存映射分析。

2.4 黏著語特點

黏著語是一種通過在詞根的前中后粘貼不同的詞綴來實現(xiàn)語法功能的語言語法類型。日語、土耳其語是典型的黏著語。語法意義主要由加在詞根的詞綴來表示的，詞綴分為前綴、中綴、后綴，常見的有前綴、后綴。

2.4.1 蒙古語特點

蒙古語同樣屬于黏著型語言。蒙古語的構(gòu)詞、構(gòu)形都是通過在詞干后面綴接不同的詞尾而實現(xiàn)的，并且它們還可以層層綴接。蒙古語的附加成分包括構(gòu)詞附加成分和構(gòu)形附加成分。構(gòu)詞詞綴具有構(gòu)造新詞的功能，構(gòu)形只表達語法意義。

2.4.2 蒙語端依存約束假設(shè)

根據(jù)Kemal Oflazer等人長期的對土耳其語等黏著性語言的研究及分析[8]：一個黏著語的單詞中一般有且只能有一個成分能夠與外界發(fā)生依存關(guān)系。也就是說單詞之間具有相對的封閉性。在參考文獻[8]中，Kemal Oflazer等人就是利用黏著語這個特點進行的土耳其語的依存分析。同樣我們也可以對蒙古語進行類似的依存結(jié)構(gòu)假設(shè)：

假設(shè)1：所有詞只有詞干能和詞外的依存成分發(fā)生依存關(guān)系；

假設(shè)2：在假設(shè)1的基礎(chǔ)上，所有詞綴都只能直接依存到詞干上。

圖4 兩種假設(shè)分別合法和不合法的邊的示例圖

如圖4所示，“THERE/Rj”和“OLOS/Ve2-O/Zv2-GSEN/Ft11”分別為一個詞。其中THERE/Rj和OLOS/Ve2分別為兩個詞的詞干。圖中，實線為各假設(shè)的合法依存邊，而虛線則為根據(jù)假設(shè)不合法的依存邊。我們將在后繼實驗中證明這兩種假設(shè)的合理性。

3 基于雙語映射的無監(jiān)督依存分析

3.1 最大熵訓(xùn)練

本文中利用成熟的有監(jiān)督的判別式依存模型，作為雙語約束方法的基礎(chǔ)模型。運用判別式進行有監(jiān)督訓(xùn)練時，一般運用在線的訓(xùn)練方法，如MIRA、感知機等。因為有監(jiān)督分類訓(xùn)練對正、反例的比例有一定要求，使用離線算法無法保證正反例特征的合理性，所以一般效果較差[9-10]。但是，本文中的方法是基于雙語約束方法的，本身就無法確保正例和反例特征的正確性。由于最大熵方法訓(xùn)練精度高、速度快，所以本文中采用離線的最大熵訓(xùn)練方法進行模型訓(xùn)練。同時訓(xùn)練所用的抽取特征的模板與2.2節(jié)表1中的一樣。

3.1.1 語料處理

首先，對蒙漢雙語句對中的漢語端，進行依存句法分析，獲得所有漢語端的依存樹。并對蒙語語料進行詞法分析，獲得蒙語的詞干、詞綴及詞干、詞綴標(biāo)記信息。再對蒙漢平行語料進行詞語對齊，獲得蒙漢雙語詞對齊信息。

3.1.2 分類特征抽取及訓(xùn)練

根據(jù)2.3.1節(jié)中的定義，在獲得的漢語依存樹、雙語對齊上抽取，從目標(biāo)端抽取所有的Edge=1的相似依存邊(如圖2中的實線邊)，并隨機抽取當(dāng)前句子Edge=1的邊的數(shù)目兩倍的Edge=-1的不相似邊(如圖2中的點畫線邊)。使用表1中的特征模板，在已抽取的相似和不相似依存邊上，分別抽取目標(biāo)端蒙語的句子上的正反例特征。

最后利用最大熵訓(xùn)練對抽出的分類特征進行訓(xùn)練，獲得一個基于當(dāng)前漢語依存和對齊約束的蒙語判別式依存模型M。

3.2 依存分析

3.2.1 最大生成樹依存分析

進行依存分析時，對等待依存分析的蒙語句子上每一個可能的依存邊，計算最大熵的正反例得分。設(shè)w(e1,e2|E,y,M,+1)為蒙語句子E上，依存關(guān)系邊，在特征模板y上的正例特征權(quán)重，同理w(e1,e2|E,y,M,-1)為反例特征權(quán)重。設(shè)Y為表1中所有的特征模板，則當(dāng)前依存關(guān)系邊為正例的概率為：

我們要對當(dāng)前進行依存分析的句子E進行依存分析，就是要找出句子上模型概率最大的依存樹T：

從式(8)可以看出，尋找概率最大的依存樹就是最大生成樹問題。本文中利用Chu-Liu-Edmonds的最大生成樹算法尋找最佳依存樹。

最大生成樹依存分析算法

1：輸入：句子E

2：計算句子E上所有依存關(guān)系的模型概率=>buffer //將候選依存邊存入buffer

3： buffer=>Chu-Liu-Edmonds最大生成樹算法=>TreeMax //將樹存入TreeMax

4：輸出： TreeMax

3.2.2 蒙語依存分析

在第2節(jié)中，利用上了漢語映射到蒙語的依存結(jié)構(gòu)信息。筆者認(rèn)為可以在進行依存分析的同時，利用一些蒙語端的依存結(jié)構(gòu)信息，從而進一步提升蒙語依存分析的正確率。

為此我們在2.4.2節(jié)中對蒙語依存結(jié)構(gòu)進行了兩個適當(dāng)?shù)募僭O(shè)。并且在進行最大生成樹依存分析算法的同時，利用上這些假設(shè)。具體做法，就是在上一節(jié)中依存分析算法的第2步中，分別將兩種不同假設(shè)的不合法邊刪除。利用剩下的合法候選依存邊進行最大生成樹分析。則最后生成的依存樹就分別符合兩種假設(shè)的約束。

4 實驗

我們利用CLDC上公開的蒙漢6萬平行句對，作為訓(xùn)練語料。使用ICTCLAS對中文端語料進行分詞，在分詞結(jié)果上使用斯坦福大學(xué)的standfordparser，對中文語料進行依存分析。使用中國科學(xué)院計算技術(shù)研究所研制的蒙語詞法分析器，對蒙語語料進行詞法分析。使用GIZA++對中文分詞結(jié)果和蒙語詞法分析結(jié)果進行雙語對齊。

然后在處理好的語料上進行特征抽取和最大熵訓(xùn)練。分別利用假設(shè)1和假設(shè)2的約束進行依存分析。并在人工標(biāo)注好依存樹的200句長度小于10的蒙語句子的測試集上進行了測試。

圖5中使用不同約束信息在200句測試集上所得的依存邊正確率。其中雙向約束指的是同時使用源端依存約束和目標(biāo)端依存假設(shè)約束，其中約束1和約束2是分別在蒙語假設(shè)1和假設(shè)2上做出的結(jié)果；源端約束結(jié)果是直接使用漢語依存的映射約束的結(jié)果；目標(biāo)端約束的結(jié)果是直接利用假設(shè)2在目標(biāo)句子上隨機生成的依存樹(有向的正確率是在計算正確率時考慮依存邊的方向，而無向的正確率則不考慮方向)。

由圖5的測試結(jié)果可以看出，不管是僅用源端約束或目標(biāo)端約束所得的效果，都遠低于兩者結(jié)合一起使用的效果。可以看出雙語兩端的信息具有極強的互補性。同樣由于目標(biāo)端約束所起的效果十分明顯，可以在本實驗中證實，我們基于目標(biāo)端蒙語依存結(jié)構(gòu)約束的假設(shè)是合理的。并且假設(shè)2比假設(shè)1更為合理一些。其中雙語約束2的有向和無向正確率分別達到了67.2%和73.3%。

我們在2.3.1節(jié)中定義了映射的相似邊、不相似邊及待定邊。在抽取特征時是否使用待定邊，把待定邊定義為正例還是反例的多種情況依次進行了實驗(均是在雙向約束2上進行的實驗)，如圖6所示。

圖6 在訓(xùn)練中對待定邊賦予不同角色的測試結(jié)果

由圖6中可以看出，不管是把待定邊作為正例還是反例，結(jié)果都不如不使用待定邊的效果好。所以我們認(rèn)為在2.3.1節(jié)中對待定邊角色的定義是合理的。在訓(xùn)練中不使用待定邊的特征，去除了一些互相沖突的信息，保留了蒙語端的自身的一些特征，使得源端的映射約束效果更好。

5 結(jié)論

本文利用中文端依存信息映射到蒙語端，約束蒙語依存樹結(jié)構(gòu)。并且對蒙語的依存結(jié)構(gòu)進行了合理的假設(shè)。最終利用雙語約束信息對蒙語進行依存分析，最終得到了滿意的效果，其中無向正確率為73.3%，有向正確率為67.2%。本文基于雙語約束的方法，只需雙語平行句對，無需人工標(biāo)注的詞法及句法信息，有很強的自適應(yīng)性和魯棒性?？梢灾苯討?yīng)用到蒙語樹庫的構(gòu)建上，應(yīng)用在蒙語初始樹庫的構(gòu)建可以極大的減少人工成本。并且還可以直接應(yīng)用到其他自然語言處理領(lǐng)域上，同時無需標(biāo)注好的蒙語依存樹庫，例如：在機器翻譯、文本摘要、信息過濾、自動問答等領(lǐng)域，有廣泛的應(yīng)用空間。

[1] 力提甫·托乎提.從短語結(jié)構(gòu)到最簡方案——阿爾泰語言的句法結(jié)構(gòu)[M].北京：中央民族大學(xué)出版社，2004.

[2] 亞熱·艾拜都拉. 維吾爾語句法分析方面存在的一些問題[J]. 新疆大學(xué)學(xué)報：哲學(xué)社會科學(xué)維文版，2010，31(2): 46-53.

[3] 玉素甫·艾白都拉. 維語句法分析器中的詞義排岐問題的研究[J]. 計算機應(yīng)用與軟件，2002，19( 4): 59-62.

[4] 阿布都克力木·阿不力孜，哈里旦木·阿布都克里木，吐爾根·依布拉音，等.基于自頂向下算法的維吾爾語句法分析初探[J]. 電腦知識與技術(shù), 2010(2)Z: 1182-1183,1185.

[5] Wenbin Jiang, Qun Liu. Dependency Parsing and Projection Based on Word-Pair Classification[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). Uppsala, Sweden 2010: 12-20.

[6] Ryan McDonald, Koby Crammer, Fernando Pereira. Online Large-Margin Training of Dependency Parsers [C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL). University of Michigan, USA, 2005: 91-98.

[7] Klein, D. and Manning, C.D. Corpus-based Induction of Syntactic Structure: Models of Dependency and Constituency[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL). Barcelona, Spain, 2004: 478-485.

[8] Gulsen Eryigit, Kemal Oflazer. Statistical Dependency Parsing of Turkish[C]//11th Conference of the European Chapter of the Association for Computational Linguistics(EACL). Trento, Italy, 2006: 89-96.

[9] E. Charniak. A Maximum-entropy-inspired Parser[C]//Proc.NAACL. Seattle, Washington, USA, 2000: 1396-1400.

[10] A. Ratnaparkhi. Learning to Parse Natural Language with Maximum Entropy Models[J]. Machine Learning, 34: 151-175.