吐?tīng)柡椤の崴韭瑮钛沛?,?磊,周 喜,程 力
(1.中國(guó)科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011)
句法分析是自然語(yǔ)言處理中的關(guān)鍵技術(shù)之一,其基本任務(wù)是確定句子的句法結(jié)構(gòu)或句子中詞匯之間的依存關(guān)系[1],從而有助于提高人類(lèi)對(duì)自然語(yǔ)言的理解程度,因此句法分析研究具有重要的理論依據(jù)和廣泛的應(yīng)用前景。目前句法分析的結(jié)果可以用在統(tǒng)計(jì)機(jī)器翻譯[2]、情感分析[3]、問(wèn)答系統(tǒng)[4]及自動(dòng)摘要[5]等應(yīng)用系統(tǒng)中。
依存句法是句法分析的重要分支之一,由于其關(guān)注的對(duì)象是句中詞與詞之間的句法功能關(guān)系,因此容易表示和理解。早期的依存句法分析主要采用基于規(guī)則的方法,有動(dòng)態(tài)規(guī)劃算法、約束滿足的方法以及確定性分析策略等,而隨著基于統(tǒng)計(jì)的方法在自然語(yǔ)言處理領(lǐng)域中的廣泛使用,出現(xiàn)了生成式依存分析、判別式依存分析和確定性依存分析等一批基于數(shù)據(jù)驅(qū)動(dòng)的分析方法[6],并相繼構(gòu)建漢語(yǔ)[7]、俄語(yǔ)[8]、荷蘭語(yǔ)[9]、捷克語(yǔ)[10]及土耳其語(yǔ)[11]等語(yǔ)言的依存樹(shù)庫(kù),這些樹(shù)庫(kù)所采用的標(biāo)注規(guī)則及標(biāo)注集互相不兼容,因此后來(lái)又提出了跨語(yǔ)種依存句法標(biāo)注框架UD (universal dependencies)[12],旨在促進(jìn)多語(yǔ)種分析器的開(kāi)發(fā)、跨語(yǔ)種學(xué)習(xí)及從語(yǔ)言學(xué)角度進(jìn)行分析研究。
維吾爾語(yǔ)是一門(mén)相對(duì)于漢語(yǔ)和英語(yǔ)而言資源缺乏的語(yǔ)言,雖然新疆大學(xué)和新疆師范大學(xué)在維吾爾語(yǔ)語(yǔ)料庫(kù)建設(shè)方面做了大量的工作[13-15],但大部分研究工作集中在詞法層面展開(kāi),并且這些語(yǔ)料庫(kù)到目前為止還沒(méi)有可用的公開(kāi)版本。維吾爾語(yǔ)依存句法研究是維吾爾語(yǔ)自然語(yǔ)言處理中起步較晚的研究方向之一,目前面向句法分析的維吾爾語(yǔ)樹(shù)庫(kù)建設(shè)工作還處于初始階段,文獻(xiàn)[16]開(kāi)展維吾爾語(yǔ)語(yǔ)義角色標(biāo)注集的研究;文獻(xiàn)[17-18]中討論如何建立維吾爾語(yǔ)依存關(guān)系標(biāo)注語(yǔ)料庫(kù)及標(biāo)注規(guī)范等問(wèn)題,并介紹了維吾爾語(yǔ)依存樹(shù)庫(kù)UDT (Uyghur Dependency Treebank)規(guī)范;文獻(xiàn)[19]提出了從UDT到UD的轉(zhuǎn)換方法。
樹(shù)庫(kù)是一種屬于深度加工的語(yǔ)料庫(kù),其中不僅包括詞干、詞性以及詞綴等形態(tài)學(xué)層面的信息,還包含句法結(jié)構(gòu)、句法功能及語(yǔ)義角色等句法層面的信息,是給統(tǒng)計(jì)自然語(yǔ)言處理研究提供了數(shù)據(jù)支撐。雖然通過(guò)人工標(biāo)注構(gòu)建樹(shù)庫(kù)具有規(guī)范化、質(zhì)量高等特點(diǎn),但是也存在標(biāo)注難度大、耗時(shí)長(zhǎng)、成本高等弊端,因此出現(xiàn)了利用已有語(yǔ)言的樹(shù)庫(kù),借助知識(shí)轉(zhuǎn)移、詞對(duì)齊等方法獲取第二種語(yǔ)言樹(shù)庫(kù)的研究工作[20-21]。
本文借鑒雙語(yǔ)之間依存信息的轉(zhuǎn)移思想,利用現(xiàn)有的漢維平行語(yǔ)料庫(kù),通過(guò)漢維雙語(yǔ)句子之間的詞對(duì)齊關(guān)系,把漢語(yǔ)句子的依存關(guān)系映射到維吾爾語(yǔ)句子獲得維吾爾語(yǔ)依存樹(shù)庫(kù)。在此過(guò)程中維吾爾語(yǔ)的復(fù)雜形態(tài)特性導(dǎo)致數(shù)據(jù)稀疏問(wèn)題,從而降低對(duì)齊精度,最終影響到映射結(jié)果的正確性;而漢維語(yǔ)種之間的差異也會(huì)影響最終的結(jié)果。針對(duì)復(fù)雜形態(tài)導(dǎo)致的數(shù)據(jù)稀疏問(wèn)題,本文先做形態(tài)分析獲取詞干,再進(jìn)行詞對(duì)齊;而針對(duì)語(yǔ)種之間差異造成的問(wèn)題,則利用語(yǔ)言學(xué)規(guī)則來(lái)降低其對(duì)最終結(jié)果的影響。
維吾爾語(yǔ)是一種黏著性語(yǔ)言,其句法具有如下特性。
第一,維吾爾語(yǔ)是采用S—O—V結(jié)構(gòu)(主—賓—謂)的語(yǔ)種,采用從右往左的書(shū)寫(xiě)方式;
第三,維吾爾語(yǔ)句子中單詞之間的協(xié)調(diào)由構(gòu)形詞綴來(lái)完成,它們不僅能確保句子的通順,而且還攜帶相應(yīng)的語(yǔ)義信息。
(廣州白云機(jī)場(chǎng)今天一共取消了436個(gè)航班。)
表1 形態(tài)和依存分析結(jié)果
注:*此列顯示最后一個(gè)詞綴。
維吾爾語(yǔ)依存句法除了包括上述例子中的主謂關(guān)系、動(dòng)賓關(guān)系、狀中關(guān)系、定中關(guān)系、復(fù)合關(guān)系、領(lǐng)屬關(guān)系、標(biāo)點(diǎn)符號(hào)及中心詞等依存關(guān)系之外,常用的依存關(guān)系還有以下幾種。
通過(guò)以上分析可以發(fā)現(xiàn),維吾爾語(yǔ)句子中從屬成分的形態(tài)信息取決于支配成分的形態(tài)信息,反過(guò)來(lái),從屬成分的形態(tài)信息在確定依存關(guān)系時(shí)起到參考作用,因此形態(tài)分析對(duì)依存句法分析有一定的幫助作用。
維吾爾語(yǔ)是黏著性語(yǔ)言,黏著性語(yǔ)言的最大特點(diǎn)是具有豐富的形態(tài)特性和音變現(xiàn)象(弱化、脫落及增音),其詞干按規(guī)律由不同的詞綴構(gòu)形,形成新的詞語(yǔ),而且構(gòu)形過(guò)程中還會(huì)發(fā)生音變現(xiàn)象。
而漢語(yǔ)是分析語(yǔ)(又叫孤立語(yǔ)),其最大的特點(diǎn)是沒(méi)有形態(tài)變化,但有聲調(diào),不同的聲調(diào),其表達(dá)的意思會(huì)完全不同。
漢語(yǔ)跟維吾爾語(yǔ)不僅在詞法上具有較大的不同,而且句法上也存在較大的差異,具體如下。
(1) 書(shū)寫(xiě)方式不一樣,漢語(yǔ)是從左往右書(shū)寫(xiě),而維吾爾語(yǔ)是從右往左書(shū)寫(xiě);漢語(yǔ)句子中詞語(yǔ)之間沒(méi)有分隔符;而維吾爾語(yǔ)句子中的詞語(yǔ)必須由空格隔開(kāi)。
雖然漢語(yǔ)和維吾爾語(yǔ)在詞法和句法上具有較大的差異,但是依存句法研究的對(duì)象是詞語(yǔ)跟詞語(yǔ)之間的依存關(guān)系,和詞序、句法結(jié)構(gòu)的關(guān)系不大,圖2分別給出了例7和例8的依存關(guān)系圖,從圖中可以發(fā)現(xiàn),這兩個(gè)句子的依存關(guān)系沒(méi)有因詞序的改變而發(fā)生變化。
圖2 依存關(guān)系圖
圖3 例9的依存關(guān)系圖
圖4 例9譯文的依存關(guān)系圖
表2 例9和譯文的詞對(duì)齊矩陣
本文利用漢維平行語(yǔ)料庫(kù),采用依存關(guān)系映射的思路,根據(jù)漢語(yǔ)句子的依存關(guān)系得到維吾爾語(yǔ)句子的依存關(guān)系,并借助詞法、語(yǔ)法等規(guī)則優(yōu)化最終結(jié)果,圖5是算法流程圖。
圖5 算法流程圖
由于維吾爾語(yǔ)依存句法分析依賴(lài)于形態(tài)分析,因此,首先對(duì)漢維雙語(yǔ)語(yǔ)料中的維吾爾語(yǔ)句子進(jìn)行形態(tài)分析,形態(tài)分析的內(nèi)容有詞干提取、詞綴切分及詞性標(biāo)注。表3顯示例9的形態(tài)分析結(jié)果,其中切分形式的第一項(xiàng)為該詞的詞干。
表3 例9的形態(tài)分析結(jié)果
本文中漢維之間的詞對(duì)齊信息是依存關(guān)系從漢語(yǔ)映射到維吾爾語(yǔ)的重要依據(jù),因此詞對(duì)齊結(jié)果的好壞直接影響到最終得到的維吾爾語(yǔ)依存樹(shù)庫(kù)的質(zhì)量。
圖6 詞對(duì)齊的對(duì)比結(jié)果
詞對(duì)齊完成之后,通過(guò)對(duì)齊信息把漢語(yǔ)句子的依存信息映射到平行的維吾爾語(yǔ)句子,此過(guò)程包括預(yù)處理和映射。
2.4.1 預(yù)處理
預(yù)處理要過(guò)濾包含過(guò)長(zhǎng)句子的句對(duì)和對(duì)齊不合理的句對(duì),其中對(duì)齊不合理情況包括如下兩種情況:
(1) 一個(gè)漢語(yǔ)單詞對(duì)齊過(guò)多的維吾爾語(yǔ)單詞;
(2) 一個(gè)漢語(yǔ)單詞對(duì)齊不連續(xù)的幾個(gè)維吾爾語(yǔ)單詞。
表4給出對(duì)齊之后同時(shí)出現(xiàn)以上兩種不合理情況的對(duì)齊例子。
表4 不合理的對(duì)齊結(jié)果
表4中的漢語(yǔ)詞語(yǔ)“挨家挨戶(hù)”不僅對(duì)齊到維吾爾語(yǔ)中的四個(gè)單詞,而且這四個(gè)單詞不是連續(xù)出現(xiàn)的。
2.4.2 依存信息映射
假設(shè)依存信息Di={Reli,Hi,Ei},其中Reli,Hi,Ei分別表示第i個(gè)依存信息的依存關(guān)系名稱(chēng)、支配成分以及從屬成分,那么一個(gè)句子的依存信息可表示為D={D1,D2,D3,…,Dl},其中l(wèi)表示句子中依存關(guān)系的數(shù)量,因此漢維依存信息的映射函數(shù)可由式(1)表示。
Du=f(Dc,Mu,Aligncu)
(1)
其中Dc為漢語(yǔ)句子的依存信息,Mu為對(duì)應(yīng)的維吾爾語(yǔ)句子的形態(tài)切分信息,Aligncu為漢維句子的詞對(duì)齊信息。映射函數(shù)f的具體功能是根據(jù)詞對(duì)齊信息Aligncu,查找依存關(guān)系Dci中支配成分Hci和從屬成分Eci所對(duì)應(yīng)的維吾爾語(yǔ)詞做Huj和Euj,并把依存關(guān)系Relci的值賦予Reluj,最終形成對(duì)應(yīng)的維吾爾語(yǔ)依存信息Duj={Reluj,Huj,Euj}。
由于漢維雙語(yǔ)句對(duì)在對(duì)齊過(guò)程中存在一個(gè)漢語(yǔ)單詞對(duì)齊連續(xù)幾個(gè)維吾爾語(yǔ)單詞的情況,因此映射之后這些連續(xù)的維吾爾語(yǔ)單詞當(dāng)目標(biāo)依存關(guān)系的依存成分,此時(shí)這些維吾爾語(yǔ)單詞中各詞語(yǔ)之間的依存關(guān)系暫時(shí)未知。針對(duì)具體的對(duì)齊情況以及對(duì)它們的處理策略如下:
(1)Huj,Euj都是單詞
(2)Huj,Euj中至少有一個(gè)是詞組
最后形成:
如果漢語(yǔ)依存關(guān)系中的支配單詞或者從屬單詞的詞性為名詞,其對(duì)應(yīng)維吾爾語(yǔ)詞組之間的未知復(fù)合關(guān)系改成復(fù)合關(guān)系,因此上述映射關(guān)系改為:
第三條依存關(guān)系中的未知復(fù)合關(guān)系在后續(xù)優(yōu)化部分中進(jìn)行處理。
由于通過(guò)映射形成的依存信息中存在一些不符合維吾爾語(yǔ)依存句法的依存關(guān)系以及還未處理的未知復(fù)合關(guān)系,因此利用規(guī)則來(lái)完成進(jìn)一步的優(yōu)化處理。本文針對(duì)以上情況,結(jié)合維吾爾語(yǔ)句法給出如下的優(yōu)化規(guī)則:
(1) 主語(yǔ)必須以主格形式出現(xiàn);
(2) 主謂關(guān)系中的主語(yǔ)和做謂語(yǔ)的動(dòng)詞必須擁有一致的人稱(chēng)和數(shù)信息;
(3) 帶賓格的成分跟動(dòng)詞的依存關(guān)系為動(dòng)賓關(guān)系;
(4) 名詞跟后續(xù)的動(dòng)詞之間形成動(dòng)賓關(guān)系;
(5) 帶屬格的成分依存于離它最近,由人稱(chēng)構(gòu)形的成分形成領(lǐng)屬關(guān)系,而且支配成分跟從屬成分的人稱(chēng)信息必須一致;
(6) 體助動(dòng)詞不能當(dāng)中心詞,主動(dòng)詞做中心詞,體助動(dòng)詞跟主動(dòng)詞形成體助關(guān)系;
(7) 副詞或副動(dòng)詞跟動(dòng)詞之間的依存關(guān)系為狀中關(guān)系;
(8) 形容詞和形容詞短語(yǔ)跟名詞短語(yǔ)形成定中關(guān)系;
(9) 帶向格的成分跟動(dòng)詞形成指向關(guān)系;
(10) 標(biāo)點(diǎn)符號(hào)依存中心詞形成標(biāo)點(diǎn)符號(hào)關(guān)系;
(11) 當(dāng)名詞跟形容詞之間形成依存關(guān)系,其中形容詞為中心詞時(shí),其依存關(guān)系為主謂關(guān)系;
(12) 形容詞跟動(dòng)詞之間的依存關(guān)系為狀中關(guān)系;
(13) 代詞修飾名詞形成限定關(guān)系。
本文利用新聞?wù)?wù)領(lǐng)域60萬(wàn)句對(duì)的漢維平行語(yǔ)料庫(kù),首先采用文獻(xiàn)[22]的方法對(duì)維吾爾語(yǔ)進(jìn)行形態(tài)分析,第二步用GIZA++[注]http://www.statmt.org/moses/giza/GIZA++.html進(jìn)行漢維詞對(duì)齊操作,第三步用Stanford Neural Network Dependency Parser[注]https://nlp.stanford.edu/software/nndep.shtml進(jìn)行漢語(yǔ)依存分析,之后用依存轉(zhuǎn)移方法得到維吾爾語(yǔ)依存信息,最后通過(guò)基于規(guī)則優(yōu)化得到3萬(wàn)句的維吾爾語(yǔ)依存樹(shù)庫(kù)。
為了驗(yàn)證所得到的依存樹(shù)庫(kù)的質(zhì)量以及優(yōu)化規(guī)則對(duì)樹(shù)庫(kù)質(zhì)量的有效性,本文用CoNLL 2017 Shared Task[注]http://universaldependencies.org/conll17/提供的訓(xùn)練工具UDPipe[注]https://ufal.mff.cuni.cz/udpipe及測(cè)試語(yǔ)料ug-ud-test.conll(100句)進(jìn)行模型訓(xùn)練并測(cè)試。表5給出優(yōu)化之前的樹(shù)庫(kù)訓(xùn)練得到的模型Model1,優(yōu)化之后的樹(shù)庫(kù)訓(xùn)練得到的模型Model2以及CoNLL 2017 Shared Task基線系統(tǒng)所提供的模型Model3在同樣測(cè)試集上的得分情況。
表5 測(cè)試結(jié)果
從表5得知,本文訓(xùn)練得到的模型在兩個(gè)指標(biāo)上的得分均低于CoNLL 2017 Shared Task基線系統(tǒng)所提供的模型,針對(duì)得分偏低的情況,本文經(jīng)分析之后得出以下結(jié)論。
(1) 本文用的Stanford Neural Network Dependency Parser在中文樹(shù)庫(kù)上UAS和LAS指標(biāo)分別得分83.90%和82.40%[23]。從圖5可以發(fā)現(xiàn),實(shí)驗(yàn)中各子任務(wù)以串行方式執(zhí)行,它們之間存在一定的錯(cuò)誤傳播問(wèn)題,因此分析得到的漢語(yǔ)樹(shù)庫(kù)的錯(cuò)誤率會(huì)影響到最終的維吾爾語(yǔ)依存樹(shù)庫(kù)的質(zhì)量。
(2) 模型Model3是由人工標(biāo)注的語(yǔ)料庫(kù)訓(xùn)練得到的,而我們的模型Model1和Model2訓(xùn)練所用的語(yǔ)料庫(kù)由算法從漢維語(yǔ)料庫(kù)中映射而得,因此語(yǔ)料庫(kù)的質(zhì)量不如由人工標(biāo)注而得到的語(yǔ)料庫(kù)的質(zhì)量。
(3) CoNLL 2017 Shared Task的測(cè)試集屬于文學(xué)領(lǐng)域,而本文所用的語(yǔ)料屬于新聞?wù)?wù)領(lǐng)域。語(yǔ)料領(lǐng)域不同,會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生一定的影響。
除此之外,模型Model2在兩個(gè)指標(biāo)上的得分都比模型Model1高,說(shuō)明實(shí)驗(yàn)中所采用的優(yōu)化規(guī)則在處理未知依存關(guān)系和不符合維吾爾語(yǔ)依存句法的依存關(guān)系時(shí)起到作用,因此進(jìn)一步完善語(yǔ)法規(guī)則,可以降低語(yǔ)種差異導(dǎo)致的映射錯(cuò)誤問(wèn)題,從而提高最終得到的維吾爾語(yǔ)依存樹(shù)庫(kù)的質(zhì)量。
本文介紹了從漢維平行語(yǔ)料庫(kù)中,借助GIZA++、Stanford Neural Network Dependency Parser等工具,利用映射方法獲取維吾爾語(yǔ)依存樹(shù)庫(kù)的過(guò)程。本文的研究成果不僅對(duì)人工構(gòu)建維吾爾語(yǔ)依存庫(kù)具有參考意義,而且對(duì)研究漢維之間的語(yǔ)義聯(lián)系也有一定的參考價(jià)值。