龍從軍,劉匯丹,周毛克
(1. 中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 2. 中國(guó)科學(xué)院軟件研究所,北京 100190; 3. 中國(guó)社會(huì)科學(xué)院大學(xué),北京 102488)
人通過識(shí)別文本中的實(shí)體、概念來理解文本。理解了文本中的實(shí)體概念,在某種程度上就理解了文本的大致內(nèi)容。名詞或名詞短語(yǔ)經(jīng)常被用來表達(dá)實(shí)體、概念。名詞或名詞短語(yǔ)的識(shí)別,是一個(gè)句子的主要組成部分,它攜帶著豐富的句法和語(yǔ)義信息,是分析和理解句子意義和結(jié)構(gòu)的基礎(chǔ)。在自然語(yǔ)言信息處理領(lǐng)域,名詞短語(yǔ)的識(shí)別和結(jié)構(gòu)分析正確,可以提高機(jī)器翻譯、信息檢索、文本分類、自動(dòng)句法分析等自然語(yǔ)言處理系統(tǒng)的性能。
在藏語(yǔ)信息處理領(lǐng)域,詞法分析取得了豐富的成果[1-4],信息處理逐漸從以詞法分析為主過渡到以句法、語(yǔ)義和篇章分析為主的階段。從句法分析的角度來看,研究?jī)?nèi)容表現(xiàn)在兩個(gè)方面:一是句子識(shí)別,二是句法分析。句子識(shí)別主要討論如何從連續(xù)文本中切分出單個(gè)句子。如從語(yǔ)言規(guī)則出發(fā),可以根據(jù)藏語(yǔ)動(dòng)詞語(yǔ)尾的特點(diǎn),構(gòu)建句子邊界切分標(biāo)記庫(kù),實(shí)現(xiàn)句子切分[5-7];或者采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法識(shí)別句子邊界[8-12];也有一些研究,在雙語(yǔ)語(yǔ)料對(duì)齊研究中,探討句子的邊界問題[13-14]。句法分析主要討論基于短語(yǔ)結(jié)構(gòu)的句法分析[15]和基于依存語(yǔ)法的句法分析[16-17]。為了降低句法分析的難度,研究者傾向于采用組塊分析方法進(jìn)行局部句法分析,其中名詞組塊是組塊分析的重要部分[18-20]。盡管局部句法分析取得了一定的成果,但是,從語(yǔ)言工程實(shí)踐角度來看,成系統(tǒng)、上規(guī)模的藏語(yǔ)句法樹庫(kù)資源仍極其缺乏,實(shí)用的句法分析工具也未見公開。
本文開展基于藏語(yǔ)短語(yǔ)結(jié)構(gòu)句法樹庫(kù)的最長(zhǎng)名詞短語(yǔ)研究,從構(gòu)建短語(yǔ)結(jié)構(gòu)樹的角度,厘清最長(zhǎng)名詞短語(yǔ)的定義、類別。從句法樹庫(kù)中選取了6 038個(gè)句子,對(duì)名詞短語(yǔ)的類型、結(jié)構(gòu)等進(jìn)行統(tǒng)計(jì)分析。初步構(gòu)建藏語(yǔ)最長(zhǎng)名詞短語(yǔ)識(shí)別器,分析識(shí)別效果和存在的問題。
臺(tái)灣學(xué)者Chen研究英語(yǔ)名詞短語(yǔ)的分類,總結(jié)出三種名詞短語(yǔ):最短名詞短語(yǔ)、最長(zhǎng)名詞短語(yǔ)和普通名詞短語(yǔ)。所謂最短名詞短語(yǔ)是指不包含其他名詞短語(yǔ)的名詞短語(yǔ)。最長(zhǎng)名詞短語(yǔ)是指不被其他名詞短語(yǔ)所包含的名詞短語(yǔ)。普通名詞短語(yǔ)是不具有任何限制的名詞短語(yǔ)[21]。周強(qiáng)把名詞短語(yǔ)也分成三類:最短、最長(zhǎng)和一般名詞短語(yǔ)。一般名詞短語(yǔ)指所有不是最長(zhǎng)和最短的名詞短語(yǔ)[22]。兩種分類類似,但內(nèi)涵有差別,如在對(duì)待單個(gè)詞構(gòu)成短語(yǔ)時(shí),前者的基本思想是,一個(gè)詞可以構(gòu)成最長(zhǎng)名詞短語(yǔ);但后者認(rèn)為,一個(gè)詞構(gòu)成的短語(yǔ)不是最長(zhǎng)名詞短語(yǔ)。錢小飛在總結(jié)各種名詞短語(yǔ)定義之后,區(qū)分了最長(zhǎng)名詞短語(yǔ)和表層最長(zhǎng)名詞短語(yǔ),從他列舉的例子中,可以觀察得出,所謂表層最長(zhǎng)名詞短語(yǔ)是指在句法樹的子樹中包含的第一個(gè)層級(jí)的名詞短語(yǔ),非表層最長(zhǎng)名詞短語(yǔ)是指表層最長(zhǎng)名詞短語(yǔ)中不包含動(dòng)詞短語(yǔ)的嵌套名詞短語(yǔ)[23]。
Koehn和Knight從句法樹的角度界定最長(zhǎng)名詞短語(yǔ)和介詞短語(yǔ),即給定一個(gè)句子S和它的句法分析樹t,名詞和介詞短語(yǔ)是句子S的子樹ti,它至少包含一個(gè)名詞,但不包含動(dòng)詞,不被更大的名詞短語(yǔ)和介詞短語(yǔ)所包含[24]。Koehn和Knight對(duì)最長(zhǎng)名詞短語(yǔ)的界定基于句法樹,這個(gè)定義比較符合本文基于短語(yǔ)結(jié)構(gòu)樹的藏語(yǔ)最長(zhǎng)名詞短語(yǔ)的定義,藏語(yǔ)最長(zhǎng)名詞短語(yǔ)基于句法分析樹,更加注重名詞短語(yǔ)及其他短語(yǔ)在句法分析樹上的位置。參考前人的研究成果,結(jié)合藏語(yǔ)句法分析樹的實(shí)際情況,本文把藏語(yǔ)最長(zhǎng)名詞短語(yǔ)界定為:
給定一個(gè)藏語(yǔ)句子的句法分析樹S,最長(zhǎng)名詞短語(yǔ)是S的子樹t,t是名詞短語(yǔ),但t的父節(jié)點(diǎn)及祖先節(jié)點(diǎn)都不是名詞短語(yǔ)。
這個(gè)概念界定比較寬泛,從句法分析樹看,自頂向下,第一個(gè)名詞短語(yǔ)就是本文所指的最長(zhǎng)名詞短語(yǔ)。
最長(zhǎng)名詞可以由單個(gè)名詞、代詞、數(shù)詞等構(gòu)成。如圖1所示,KP-SBJ-AGE短語(yǔ)的子節(jié)點(diǎn)NP(人稱代詞提升為名詞性短語(yǔ)),KP-OBJ-TAR短語(yǔ)的子節(jié)點(diǎn)NP,VP短語(yǔ)的子節(jié)點(diǎn)NP為最長(zhǎng)名詞短語(yǔ)。
圖1 句法樹中的最長(zhǎng)名詞短語(yǔ)
為了更加細(xì)致地描述藏語(yǔ)最長(zhǎng)名詞短語(yǔ),特做如下界定:
① 最長(zhǎng)名詞短語(yǔ)是指中心詞為名詞的所有短語(yǔ);最長(zhǎng)名詞短語(yǔ)的中心詞位置可以居于短語(yǔ)首、短語(yǔ)中和短語(yǔ)末。如圖2(a)的中心名詞居尾、圖2(b)的中心名詞居中、圖2(c)的中心名詞居首。
③ 名詞化標(biāo)記可以作為最長(zhǎng)名詞短語(yǔ)的中心詞,如圖2(d)名詞短語(yǔ)的中心是名詞化標(biāo)記。
④ 最長(zhǎng)名詞短語(yǔ)可以是嵌套短語(yǔ),包括內(nèi)嵌名詞化短語(yǔ),如圖2(a)是嵌套的名詞化短語(yǔ),圖2(b)中嵌套有名詞短語(yǔ),圖2(d)內(nèi)嵌套動(dòng)詞短語(yǔ)。
圖2 名詞短語(yǔ)結(jié)構(gòu)類型
本文使用的藏語(yǔ)句法樹庫(kù)由中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所構(gòu)建,句法分析采用了短語(yǔ)結(jié)構(gòu)語(yǔ)法,本文研究材料來源于1萬(wàn)句基本句型句法分析樹庫(kù)。
在句法樹庫(kù)中,一個(gè)句子除了按照詞切分之外,還包括詞的詞性信息、短語(yǔ)類型信息、句法功能信息、語(yǔ)義角色信息,以及句子(或者結(jié)構(gòu))的關(guān)系信息。在短語(yǔ)類型層級(jí)的節(jié)點(diǎn)上,標(biāo)注的信息包括短語(yǔ)類型、句法功能和語(yǔ)義角色。如果涉及句子或者結(jié)構(gòu)之間的關(guān)系,在短語(yǔ)的句法功能之后標(biāo)注關(guān)系信息,例如:
葉子節(jié)點(diǎn)(終節(jié)點(diǎn))是詞和詞性。詞與詞性的上位節(jié)點(diǎn)是短語(yǔ)(非終節(jié)點(diǎn)),非終節(jié)點(diǎn)可以承載短語(yǔ)信息、句法功能信息、語(yǔ)義角色信息和句子關(guān)系信息。上例中,KP-OBJ-TAR表示帶有格標(biāo)記的名詞短語(yǔ)(KP)的子節(jié)點(diǎn)在句子中充當(dāng)間接賓語(yǔ)(OBJ),表示對(duì)象(TAR)語(yǔ)義角色。
基于短語(yǔ)結(jié)構(gòu)語(yǔ)法的藏語(yǔ)句法樹庫(kù)標(biāo)注符號(hào)可以分成三類:短語(yǔ)標(biāo)注符號(hào)、句法標(biāo)注符號(hào)和語(yǔ)義角色標(biāo)注符號(hào)。
① 短語(yǔ)標(biāo)注符號(hào)包括IP(帶時(shí)體態(tài)的句子)、S(核心句)、NP(名詞短語(yǔ))、KP (帶有格標(biāo)記短語(yǔ))、NZP(名詞化短語(yǔ))、VP(動(dòng)詞短語(yǔ))、ADJP(形容詞短語(yǔ))、ADVP(副詞短語(yǔ))、ADZP(副詞化短語(yǔ))、NGP(領(lǐng)屬關(guān)系短語(yǔ))、QP(量詞短語(yǔ))、MP(數(shù)詞短語(yǔ))、PRN(插入語(yǔ)短語(yǔ))、IDE(獨(dú)立成分)、UP(帶助詞標(biāo)記短語(yǔ))。
② 句法標(biāo)注符號(hào)包括SBJ(主語(yǔ))、OBJ(賓語(yǔ))、PRE(謂語(yǔ))、ADV(狀語(yǔ))、APP(同位語(yǔ))。
③ 語(yǔ)義角色標(biāo)注符號(hào)包括AGE(施事)、PAT(受事)、TAR(對(duì)象)、DIR(方向)、SPA(處所)、TIM(時(shí)間)、MAN(方式)、INS(工具)、MAT(材料)、SOU(源點(diǎn))、PUR(目的)、FAC(使役)、RES(結(jié)果)、BAS(依據(jù))。
在句法樹標(biāo)注過程中還需要說明的一些標(biāo)注符號(hào)包括I(時(shí)體態(tài))、T(時(shí))、E(態(tài))、H(名詞化標(biāo)記)、AUX(助動(dòng)詞)、G(連接標(biāo)記-屬格)、PL(復(fù)數(shù)標(biāo)記)、U(助詞標(biāo)記)、Z(后綴標(biāo)記)、RP(人稱代詞)、K(格標(biāo)記)、Y(語(yǔ)氣標(biāo)記)。詞性標(biāo)注體系可以參閱《中國(guó)語(yǔ)言生活綠皮書A006》[注]趙小兵,孫媛,龍從軍,等.信息處理用現(xiàn)代藏語(yǔ)詞類標(biāo)記集規(guī)范(草案).教育部語(yǔ)言文字信息管理司.中國(guó)語(yǔ)言生活綠皮書A006. 北京: 商務(wù)印書館,2015.。
為了研究最長(zhǎng)名詞短語(yǔ)的內(nèi)部結(jié)構(gòu),展示藏語(yǔ)最長(zhǎng)名詞短語(yǔ)的特性,作者首先從句法樹庫(kù)中選擇一定的句法樹,抽取出最長(zhǎng)名詞短語(yǔ)。抽取方法主要根據(jù)嵌套括號(hào)標(biāo)記,找到句法樹中最長(zhǎng)的、節(jié)點(diǎn)標(biāo)記類型為NP的短語(yǔ),并將該節(jié)點(diǎn)的文本表示抽取出來;同時(shí),將構(gòu)成短語(yǔ)的每個(gè)詞語(yǔ)的類別也抽取出來。例如:
表1 低頻最長(zhǎng)名詞短語(yǔ)結(jié)構(gòu)類型的種類及出現(xiàn)次數(shù)
頻次大于10的名詞短語(yǔ)結(jié)構(gòu)類型出現(xiàn)次數(shù)如表2所示。
表2 頻次大于10的最長(zhǎng)名詞短語(yǔ)的結(jié)構(gòu)類型及出現(xiàn)次數(shù)
序號(hào)類型頻次實(shí)例實(shí)例翻譯38RP+G+NP+ADJP10我的許多好友39 RP+PL+G+NP10你們的家鄉(xiāng)
實(shí)際上,出現(xiàn)頻次最高的前10個(gè)約占全部最長(zhǎng)名詞短語(yǔ)的87%。尤其是單個(gè)名詞和代詞充當(dāng)?shù)亩陶Z(yǔ)占比高于64%。頻次較高的前10種類型結(jié)構(gòu)都不包含嵌套名詞化短語(yǔ),長(zhǎng)度也不大,最多由4個(gè)音節(jié)構(gòu)成,詳細(xì)情況如表2所示。
從表2中可以歸納如下幾種類型:
(1)獨(dú)詞短語(yǔ)包括名詞、代詞、數(shù)詞都可以直接構(gòu)成獨(dú)詞短語(yǔ),RP,NP,MP,例如,
(2)獨(dú)詞加標(biāo)記(復(fù)數(shù)、敬語(yǔ)和約數(shù)標(biāo)記) 名詞、代詞帶復(fù)數(shù)、敬語(yǔ)標(biāo)記構(gòu)成RP+PL,NP+PL,NP+Z,數(shù)詞可以帶約數(shù)標(biāo)記構(gòu)成MP+Z,例如,
(3)雙詞短語(yǔ)根據(jù)中心詞的位置不同可以分成:中心詞居后和中心詞居前,前者構(gòu)成的類型是NP+NP,后者構(gòu)成的類型有NP+RP、RP+MP、NP+MP、NP+ADJP,例如,
(4)三詞短語(yǔ)根據(jù)中心詞的位置不同可以分成:中心詞居后和中心詞居前,前者構(gòu)成類型有:NP+G+NP、RP+G+NP、NP+NP+NP、NP+VP+H[注]名詞化短語(yǔ)不作為修飾語(yǔ)時(shí),名詞化標(biāo)記是短語(yǔ)的中心。,后者構(gòu)成類型NP+ADJP+MP、NP+QP+MP,例如,
其他類型的短語(yǔ)都是在上述四種類型的基礎(chǔ)上擴(kuò)充,本文不再一一闡述。
藏語(yǔ)最長(zhǎng)名詞短語(yǔ)的邊界詞也具有明顯特征。名詞短語(yǔ)經(jīng)常添加格標(biāo)記,格標(biāo)記是名詞短語(yǔ)最重要的右邊界特征詞之一,還有包括數(shù)詞、指示代詞、復(fù)數(shù)標(biāo)記、敬語(yǔ)標(biāo)記、形容詞等邊界特征詞。從本文數(shù)據(jù)統(tǒng)計(jì)結(jié)果看,作為名詞短語(yǔ)一部分的、典型右邊界詞中,數(shù)詞有1 313個(gè),復(fù)數(shù)標(biāo)記267個(gè),代詞905個(gè),不作為名詞短語(yǔ)一部分的右邊界特征詞主要是格標(biāo)記,共有4 752個(gè)名詞短語(yǔ)有格標(biāo)記。名詞短語(yǔ)左邊界特征詞不明顯,判斷難度相對(duì)大一些。
本文使用兩種方法進(jìn)行最長(zhǎng)名詞短語(yǔ)識(shí)別實(shí)驗(yàn):一種基于序列標(biāo)注方法,把名詞短語(yǔ)識(shí)別轉(zhuǎn)換為對(duì)名詞短語(yǔ)邊界特征詞的識(shí)別;另一種基于句法分析方法,在整個(gè)句法樹生成過程中,統(tǒng)計(jì)名詞短語(yǔ)子樹分析的結(jié)果。
在實(shí)驗(yàn)中,共使用6 038句藏文句法樹進(jìn)行實(shí)驗(yàn),將其中5 000句作為訓(xùn)練語(yǔ)料,其余1 038句作為測(cè)試語(yǔ)料,其實(shí)驗(yàn)結(jié)果如表3所示。
表3 短語(yǔ)識(shí)別情況
基于句法分析的方法,使用伯克利大學(xué)的Berkeley Parser在訓(xùn)練集上訓(xùn)練一個(gè)句法分析器,對(duì)測(cè)試語(yǔ)料進(jìn)行句法分析,提取其中的最長(zhǎng)名詞短語(yǔ)。句法分析完全正確的句子比例為32.49%。從測(cè)試語(yǔ)料中共識(shí)別出短語(yǔ)2 290個(gè),其中1 947個(gè)是測(cè)試語(yǔ)料中實(shí)際有的短語(yǔ),測(cè)試語(yǔ)料中實(shí)有名詞短語(yǔ)的總數(shù)為2 304,名詞短語(yǔ)識(shí)別的正確率、召回率和F1值分別為85.02%、84.51%、84.76%。
基于序列標(biāo)注的模型,將最長(zhǎng)名詞短語(yǔ)識(shí)別轉(zhuǎn)化為序列標(biāo)注問題,根據(jù)詞語(yǔ)在名詞短語(yǔ)中的位置,給其分別賦予位置標(biāo)簽,本文采用常用的BMESO標(biāo)簽集。使用CRF++進(jìn)行序列標(biāo)注的訓(xùn)練和預(yù)測(cè)。從測(cè)試語(yǔ)料中共識(shí)別出短語(yǔ)2 240個(gè),其中1 952個(gè)是測(cè)試語(yǔ)料中實(shí)際有的短語(yǔ),測(cè)試語(yǔ)料中實(shí)有名詞短語(yǔ)的總數(shù)為2 304,名詞短語(yǔ)識(shí)別的正確率、召回率和F1值分別為87.14%、84.72%、85.92%。
從表中數(shù)據(jù)可以看出,在識(shí)別最長(zhǎng)名詞短語(yǔ)任務(wù)中,基于序列標(biāo)注的方法要比基于句法分析的方法稍好。
在基于句法分析方法中,缺乏格標(biāo)記的名詞短語(yǔ)容易出錯(cuò),尤其是VP的孩子節(jié)點(diǎn),通常,VP可以分析為NP和VP,也可以是ADVP和VP,從訓(xùn)練語(yǔ)料的情況來看,分析為NP和VP的概率相對(duì)較大,因此,模型在預(yù)測(cè)時(shí)經(jīng)常會(huì)把ADVP預(yù)測(cè)為NP,如圖3所示。
圖3 句法分析模型預(yù)測(cè)結(jié)果(右),標(biāo)準(zhǔn)答案(左)
本文實(shí)驗(yàn)以基本句型語(yǔ)料為主,從前文的統(tǒng)計(jì)分析也可以看出,較長(zhǎng)的名詞短語(yǔ)所占比例不大,因此在實(shí)驗(yàn)中,基于序列標(biāo)注模型的處理結(jié)果要好于句法分析模型。
最長(zhǎng)名詞短語(yǔ)識(shí)別是句法分析的一項(xiàng)重要子任務(wù),本文在藏語(yǔ)句法樹庫(kù)建設(shè)中,針對(duì)最長(zhǎng)名詞短語(yǔ)問題,從句法樹角度界定了最長(zhǎng)名詞短語(yǔ)的定義,專門分析了最長(zhǎng)名詞短語(yǔ)的結(jié)構(gòu)類型,并采用句法分析方法和序列標(biāo)注方法分別進(jìn)行實(shí)驗(yàn),考察最長(zhǎng)名詞短語(yǔ)的識(shí)別結(jié)果,從實(shí)驗(yàn)結(jié)果來看,在針對(duì)小規(guī)模語(yǔ)料實(shí)驗(yàn)中,序列標(biāo)注的方法比句法分析的方法稍好。但是,本結(jié)果也許與實(shí)驗(yàn)的語(yǔ)料類型有關(guān),序列標(biāo)注對(duì)短距離標(biāo)注任務(wù)效果明顯,從最長(zhǎng)名詞短語(yǔ)結(jié)構(gòu)分析來看,本次語(yǔ)料對(duì)序列標(biāo)注模型有利。由于受到語(yǔ)料規(guī)模和句法分析文本類型的限制,本文未能開展基于神經(jīng)網(wǎng)絡(luò)的句法分析實(shí)驗(yàn),這是今后努力的方向。藏語(yǔ)句法分析急需在兩個(gè)方面開展工作:擴(kuò)充句法樹庫(kù)規(guī)模;完成短語(yǔ)結(jié)構(gòu)樹與依存句法樹庫(kù)之間的轉(zhuǎn)換,這兩個(gè)問題也是我們近期研究的重點(diǎn)任務(wù)。