• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于中文AMR語(yǔ)料庫(kù)的非投影結(jié)構(gòu)研究

      2019-01-22 03:31:58吳泰中周俊生曲維光
      中文信息學(xué)報(bào) 2018年12期
      關(guān)鍵詞:謂詞語(yǔ)料庫(kù)投影

      聞 媛,宋 麗,吳泰中,李 斌,周俊生,曲維光,3

      (1. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097;2. 南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210023;3. 閩江學(xué)院 福建省信息處理與智能控制重點(diǎn)實(shí)驗(yàn)室,福建 福州 350121)

      0 引言

      近年來,隨著依存語(yǔ)法的研究在自然語(yǔ)言處理中的比重逐步增大,句法依存樹庫(kù)[1]、語(yǔ)義依存圖庫(kù)的建設(shè)也開始覆蓋越來越多的語(yǔ)言[2]。在諸多語(yǔ)言的依存語(yǔ)料庫(kù)上都發(fā)現(xiàn)了一定數(shù)量的非投影結(jié)構(gòu)(non-projective structure)。非投影結(jié)構(gòu)是指依存樹上的詞語(yǔ)節(jié)點(diǎn)與原句中的詞語(yǔ)序列出現(xiàn)的錯(cuò)位結(jié)構(gòu)(圖1)。在國(guó)際上,非投影結(jié)構(gòu)引發(fā)了語(yǔ)言學(xué)領(lǐng)域的分析和討論[3],也有研究對(duì)自動(dòng)分析算法進(jìn)行了改進(jìn)[4]。目前國(guó)內(nèi)對(duì)依存語(yǔ)法研究較少,在語(yǔ)料庫(kù)構(gòu)建時(shí)也大都遵循了投影性原則,這使得非投影結(jié)構(gòu)在漢語(yǔ)里是否存在、有哪些類型,成為難以解答的問題,對(duì)非投影結(jié)構(gòu)的自動(dòng)分析更是無從談起。

      本文針對(duì)非投影現(xiàn)象展開了系統(tǒng)的討論,回顧其在語(yǔ)言學(xué)理論和句法語(yǔ)義資源建設(shè)過程中從被排斥到認(rèn)可的過程,分析了在依存樹中的非投影現(xiàn)象和轉(zhuǎn)換生成語(yǔ)法理論的關(guān)系。為了尋找和分析漢語(yǔ)中的非投影結(jié)構(gòu),我們使用了新的語(yǔ)義表示方法——抽象語(yǔ)義表示(abstract meaning representation,AMR)。這種方法脫胎于依存語(yǔ)法,引入了超越樹結(jié)構(gòu)的圖結(jié)構(gòu)來表示句子語(yǔ)義,增加了概念增刪修改機(jī)制,語(yǔ)義表示能力強(qiáng)[5]。但由于缺少和原句詞語(yǔ)對(duì)齊的信息,無法直接使用抽象語(yǔ)義表示發(fā)現(xiàn)非投影結(jié)構(gòu)。我們使用“概念—詞語(yǔ)”對(duì)齊的中文AMR語(yǔ)料庫(kù)[6],統(tǒng)計(jì)出非投影的具體類型和比例,并為中文句法語(yǔ)義自動(dòng)分析提出相應(yīng)對(duì)策。

      全文結(jié)構(gòu)如下: 第1節(jié)回顧和梳理非投影結(jié)構(gòu)的研究歷史和現(xiàn)狀;第2節(jié)介紹對(duì)齊版中文抽象語(yǔ)義庫(kù)的基本情況;第3節(jié)展示我們基于該語(yǔ)料庫(kù)得到的漢語(yǔ)非投影結(jié)構(gòu)占比情況,并進(jìn)行分類分析和理論探討;第4節(jié)是結(jié)論和未來工作。

      1 非投影結(jié)構(gòu)的研究歷史和現(xiàn)狀

      非投影結(jié)構(gòu)是依存語(yǔ)法中存在的一種特殊現(xiàn)象,特指依存樹上的節(jié)點(diǎn)垂直投影到句子上出現(xiàn)的交叉現(xiàn)象。如圖1中的句子“她看到一只貓昨天,花的”在依存樹上的節(jié)點(diǎn)向原句中的詞語(yǔ)做投影時(shí),就會(huì)出現(xiàn)“昨天”和“貓—花”的交叉。這種包含非投影結(jié)構(gòu)的句子在傳統(tǒng)的語(yǔ)言學(xué)理論中往往被作為有問題的句子,或者被解釋為生成語(yǔ)法理論的移位(movement)現(xiàn)象,沒有引起足夠的重視。但是后來發(fā)現(xiàn)這種句子在捷克語(yǔ)等形態(tài)豐富、語(yǔ)序自由的語(yǔ)言中出現(xiàn)較多,這引發(fā)了理論探討、資源建設(shè),乃至對(duì)分析算法的討論。

      圖中帶箭頭的實(shí)線表示依存關(guān)系,虛線表示投影關(guān)系。圖1 含非投影結(jié)構(gòu)的依存樹示例

      非投影結(jié)構(gòu)是根據(jù)依存語(yǔ)法的樹結(jié)構(gòu)發(fā)現(xiàn)的,早期的依存語(yǔ)法對(duì)非投影結(jié)構(gòu)是持忽視和排斥態(tài)度的,但是在后來的語(yǔ)料分析中,發(fā)現(xiàn)這一結(jié)構(gòu)是真實(shí)存在的,并且在越來越多的語(yǔ)言材料中得到驗(yàn)證。于是非投影現(xiàn)象才逐漸得到關(guān)注,進(jìn)而出現(xiàn)了對(duì)不同語(yǔ)言非投影結(jié)構(gòu)的專門研究。國(guó)際上對(duì)非投影現(xiàn)象的研究大致可以分為忽視期、發(fā)現(xiàn)期和發(fā)展期三個(gè)階段。

      1.1 忽視期

      法國(guó)的Tesnière提出依存語(yǔ)法理論時(shí)[7],采用普通的多叉樹來描述句子的結(jié)構(gòu),沒有論及非投影問題。之后Ihm和Lecerf提出了投影結(jié)構(gòu)[8]。美國(guó)的Hays進(jìn)一步指出,圖2中實(shí)線部分表示的是依存關(guān)系,低位置的節(jié)點(diǎn)依存于高位置的節(jié)點(diǎn)[9]。與依存樹上的節(jié)點(diǎn)用虛線連接的,是最小句法單位(minimal syntactic unit),且這些最小句法單位是有序的。當(dāng)句子的依存樹被準(zhǔn)確地分析出來后,依存樹上的依存關(guān)系一般不會(huì)交叉,這種特性就是“投影性(projective)”,它與直接成分理論(immediate-constituent theory)中的成分的非斷續(xù)性(non-discontinuity)很相似。此后,羅馬尼亞的Marcus對(duì)投影性的原則又進(jìn)行了詳細(xì)規(guī)定,正式提出了投影原則[10],為樹結(jié)構(gòu)對(duì)應(yīng)到句子詞語(yǔ)的線性序列提供了理論基礎(chǔ)。

      圖2 Hays對(duì)投影性結(jié)構(gòu)的定義

      Robinson更為系統(tǒng)地提出依存語(yǔ)法中關(guān)于依存關(guān)系的四條公理: ①一個(gè)句子只有一個(gè)獨(dú)立的成分;②句子的其他成分都從屬于某一成分;③任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的成分;④如果成分A直接從屬于成分B,而成分C在句子中位于A和B之間,那么,成分C或者從屬于A,或者從屬于B,或者從屬于A和B之間的某一成分[11]?,F(xiàn)在看來,這四條公理相當(dāng)于將依存樹的形式約束為單根(single rooted)、連通(connective)、無環(huán)(acyclic)和投影(projective),從而保證句子的依存分析結(jié)果是一棵單根投影樹。

      在依存樹庫(kù)建設(shè)的早期,遵循了投影性原則,忽視和回避了非投影結(jié)構(gòu)。將句子的結(jié)構(gòu)限制在一棵投影樹上,有助于計(jì)算機(jī)的自動(dòng)分析和處理,卻不夠尊重語(yǔ)言事實(shí)。隨著依存樹庫(kù)的建設(shè),在標(biāo)注形態(tài)復(fù)雜、語(yǔ)序自由的語(yǔ)言時(shí),非投影結(jié)構(gòu)占有相當(dāng)比例,無法再被忽視了。

      1.2 發(fā)現(xiàn)期

      1.3 發(fā)展期

      隨著更多語(yǔ)言的依存樹庫(kù)的建設(shè),非投影結(jié)構(gòu)在多種語(yǔ)言中的普遍存在逐漸得到認(rèn)可。Mannem和Ambati均發(fā)現(xiàn)印地語(yǔ)中非投影結(jié)構(gòu)占有一定比例,并歸納出成對(duì)連接詞、小句補(bǔ)語(yǔ)和關(guān)系子句三種類別[18-19]。此外,許多語(yǔ)言的依存樹庫(kù)中都存在非投影結(jié)構(gòu)[1,3,20],但從語(yǔ)言結(jié)構(gòu)的角度進(jìn)行詳細(xì)分析的研究則相對(duì)缺乏。表1總結(jié)了Zeman[20]的數(shù)據(jù),給出了29種語(yǔ)言的依存語(yǔ)料庫(kù)中含有非投影弧的比例,即造成非投影的那些弧(詞語(yǔ)關(guān)系)占到所有弧的比例。

      表1 Zeman給出的29種語(yǔ)言的非投影弧比例

      可以看到,這29種語(yǔ)言中大都存在非投影現(xiàn)象,特別是語(yǔ)序自由的古希臘語(yǔ),其比例接近20%。只有西班牙語(yǔ)、羅馬尼亞語(yǔ)、加泰羅尼亞語(yǔ)三種語(yǔ)言沒有統(tǒng)計(jì)到非投影結(jié)構(gòu),主要是由于這三個(gè)依存樹庫(kù)的構(gòu)建遵循了投影性原則。而根據(jù)Havelka[3]對(duì)于12種采用非投影原則標(biāo)注的依存樹庫(kù)的統(tǒng)計(jì)結(jié)果,西班牙語(yǔ)中的含有非投影結(jié)構(gòu)的句子比例為1.72%(表2)。

      表2 Havelka給出的12種語(yǔ)言的非投影句子比例

      這些數(shù)據(jù)表明,非投影結(jié)構(gòu)在多種語(yǔ)言的樹庫(kù)中都普遍存在。傳統(tǒng)的句子依存自動(dòng)分析算法,也都是基于投影樹的,自然無法處理這種結(jié)構(gòu)。McDonald則拋開投影原則,引入了針對(duì)有向圖的最小生成樹算法來分析含有非投影的句子[4]。而隨著學(xué)界對(duì)于非投影和論元共享現(xiàn)象的承認(rèn),以圖結(jié)構(gòu)取代了樹結(jié)構(gòu),發(fā)展出句法依存圖和語(yǔ)義依存圖[2],以及包含了概念增刪機(jī)制的抽象語(yǔ)義表示[5]。雖然圖結(jié)構(gòu)包含了非投影樹結(jié)構(gòu),但是圖結(jié)構(gòu)主要還是由論元共享、指代問題造成的。把非投影結(jié)構(gòu)表示為樹結(jié)構(gòu),能夠體現(xiàn)出語(yǔ)言中的錯(cuò)序現(xiàn)象,仍然是學(xué)界的重要研究對(duì)象。

      對(duì)于漢語(yǔ)依存樹庫(kù)來說,目前已有的資源,都有意或無意地遵循了投影原則,如CoNLL評(píng)測(cè)中使用的漢語(yǔ)依存樹庫(kù),是按照投影原則從短語(yǔ)結(jié)構(gòu)樹庫(kù)轉(zhuǎn)換而來的,無法從中統(tǒng)計(jì)出非投影結(jié)構(gòu)。鄭麗娟等[21]基于哈爾濱工業(yè)大學(xué)的依存圖庫(kù)報(bào)告了漢語(yǔ)中的非投射現(xiàn)象,但討論的是超越投影樹結(jié)構(gòu)的圖結(jié)構(gòu)。李斌等[6]在中文抽象語(yǔ)義庫(kù)的7 000句語(yǔ)料上,初步介紹了非投影結(jié)構(gòu)的比例和類型,但沒有介紹非投影結(jié)構(gòu)的研究歷史、語(yǔ)言學(xué)意義和對(duì)自動(dòng)分析的影響。

      本文基于更大規(guī)模的10 149句中文抽象語(yǔ)義庫(kù),探究漢語(yǔ)非投影結(jié)構(gòu)的存在情況,并對(duì)漢語(yǔ)非投影結(jié)構(gòu)進(jìn)行分類,探索漢語(yǔ)非投影結(jié)構(gòu)的特點(diǎn),并為自動(dòng)分析處理非投影結(jié)構(gòu)提供一些對(duì)策。

      2 對(duì)齊版中文AMR語(yǔ)料庫(kù)

      抽象語(yǔ)義表示(abstract meaning representation)是一種將句子語(yǔ)義抽象為一個(gè)單根有向無環(huán)圖的整句句子語(yǔ)義表示方法,擁有增刪修改概念和語(yǔ)義關(guān)系的較強(qiáng)表示能力[5],是目前最充分的句子語(yǔ)義表示方法。其主要思想是將句子中的實(shí)詞(如名詞、動(dòng)詞、形容詞等)作為概念節(jié)點(diǎn),用45種語(yǔ)義關(guān)系[如arg0(原型施事)、arg1(原型受事)、quant(數(shù)量)等]作為弧,從而形成表示句子語(yǔ)義的圖結(jié)構(gòu)。

      不過,AMR忽視概念和詞語(yǔ)的對(duì)齊信息,即忽略圖1和圖3中虛線表示的對(duì)應(yīng)關(guān)系,使得人們無法在AMR語(yǔ)料庫(kù)上提取非投影結(jié)構(gòu)。李斌等提出了將概念和詞語(yǔ)對(duì)齊的方法,構(gòu)建了中文AMR語(yǔ)料庫(kù)[6],使得我們能夠考察漢語(yǔ)中的非投影現(xiàn)象。圖3給出了具體實(shí)例,左側(cè)是利用詞語(yǔ)的下標(biāo)來鎖定詞與概念的關(guān)系,如x2表示第2個(gè)詞對(duì)應(yīng)的概念“看到-01”[注]01表示“看到”的第一個(gè)義項(xiàng)。;右側(cè)則是將其繪制為依存樹結(jié)構(gòu)的可視化結(jié)果,能清楚地顯示出“昨天”的虛線和“貓—花”的關(guān)系存在交叉,是非投影結(jié)構(gòu)。

      圖3 概念對(duì)齊的抽象語(yǔ)義表示實(shí)例

      本文選取了賓州中文樹庫(kù)CTB 8.0語(yǔ)料(以下簡(jiǎn)稱CTB)中的網(wǎng)絡(luò)媒體語(yǔ)料,共10 149句[注]選取的原始語(yǔ)料共10 325句,其中176句存在斷句錯(cuò)誤、句子意義錯(cuò)亂或句子格式錯(cuò)誤,未予標(biāo)注。,按照概念對(duì)齊的方式,標(biāo)注形成中文AMR語(yǔ)料庫(kù)。在隨機(jī)抽樣的500句語(yǔ)料上,雙人標(biāo)注一致性達(dá)到0.83的Smatch值[22],與英文AMR的標(biāo)注一致率基本相當(dāng)。謂詞義項(xiàng)及角色框架參考的是中文命題庫(kù)(CPB)的謂詞框架詞典[23]。該詞典是從CPB標(biāo)注語(yǔ)料中抽取出來的,含有每個(gè)謂詞在不同義項(xiàng)下的語(yǔ)義角色框架,共收錄了24 510個(gè)中文謂詞(包括動(dòng)詞、形容詞等)的26 650個(gè)義項(xiàng)的不同語(yǔ)義角色框架。這部詞典較好地覆蓋了CTB語(yǔ)料。少量未覆蓋到的謂詞的語(yǔ)義角色則根據(jù)標(biāo)注規(guī)范從AMR規(guī)定的語(yǔ)義關(guān)系中補(bǔ)充。

      3 漢語(yǔ)非投影結(jié)構(gòu)類型及比例統(tǒng)計(jì)

      語(yǔ)料標(biāo)注完成后,我們根據(jù)非投影規(guī)則自動(dòng)提取出所有的非投影結(jié)構(gòu)。在中文AMR語(yǔ)料庫(kù)的10 149個(gè)句子中,有3 208個(gè)句子含有非投影結(jié)構(gòu)(非投影樹),比例為31.62%。從弧的比例來看,一共有193 955條弧,造成非投影的弧有3 358條,占1.73%,說明非投影結(jié)構(gòu)在漢語(yǔ)中也是較為常見的。其次,和其他語(yǔ)言一樣,漢語(yǔ)的非投影結(jié)構(gòu)也是由許多具體的語(yǔ)言現(xiàn)象導(dǎo)致的, 如模態(tài)詞提升、話題化、成分分離等。此外,復(fù)句中兩個(gè)小句成分的分離也可能導(dǎo)致非投影結(jié)構(gòu)。表3給出了非投影結(jié)構(gòu)的詳細(xì)分類和比例,比例之和超過1,是因?yàn)榉肿影椿 ⒎帜赴淳渥佑?jì)數(shù),每個(gè)句子可能含有多處非投影現(xiàn)象。這樣統(tǒng)計(jì)方便觀察出有多少句子出現(xiàn)了非投影結(jié)構(gòu)。

      可以看到,在所有的非投影結(jié)構(gòu)類型中,模態(tài)詞的提升占比最高(52.37%),超過一半;其次是成分分離(28.49%)、話題化(13.34%)以及一般移位(5.14%)。下面我們來逐一說明。

      3.1 模態(tài)詞提升

      模態(tài)詞(modal word)提升是中文AMR語(yǔ)義結(jié)構(gòu)中非投影比例最高的一種類型, 這種非投影類型也存在于捷克語(yǔ)[17]等其他語(yǔ)言的依存語(yǔ)料庫(kù)中。在中文AMR中產(chǎn)生此現(xiàn)象的原因是我們將模態(tài)詞進(jìn)行了提升處理,即將模態(tài)詞作為謂詞的上層節(jié)點(diǎn)。

      表3 對(duì)齊版中文AMR語(yǔ)料中非投影結(jié)構(gòu)類別

      這類模態(tài)詞包括“可能”“也許”“似乎”“可以”等。下面以“大多數(shù)人可以做到”這個(gè)句子為例進(jìn)行分析,如圖4所示。

      圖4 模態(tài)詞提升的非投影結(jié)構(gòu)示例

      在這個(gè)句子中,“可以”作為句子的最上層節(jié)點(diǎn)。根據(jù)謂詞庫(kù),“可以”的第一個(gè)義項(xiàng)是“可以-01”。這個(gè)義項(xiàng)中有一個(gè)論元arg0,表示被允許的事件內(nèi)容,“做到”作為“可以”的arg0。“人”是“做到”的arg0,表示施事主體?!按蠖鄶?shù)”則表示“人”的數(shù)量成分,用quant表示“人”和“大多數(shù)”的關(guān)系。

      從圖4可以看出,由于“可以”位于上層,所以“可以”的投影弧與“人”和“做到”之間的弧有交叉,形成了非投影結(jié)構(gòu)。而傳統(tǒng)的句法語(yǔ)義分析是將模態(tài)詞依附于謂詞的,所以不會(huì)產(chǎn)生這種非投影結(jié)構(gòu)。

      3.2 話題化

      話題化指的是將句子中某些成分提前,語(yǔ)用上起到將該成分作為句子關(guān)注焦點(diǎn)的作用,在生成語(yǔ)法中研究較多。捷克語(yǔ)中也存在話題化導(dǎo)致的非投影結(jié)構(gòu)[17],印地語(yǔ)的非投影結(jié)構(gòu)中也存在15.3%的話題化[19],說明話題化導(dǎo)致非投影是跨語(yǔ)言的共性。

      話題化導(dǎo)致的非投影結(jié)構(gòu)又分為連謂結(jié)構(gòu)下的成分前置、從屬關(guān)系分離、數(shù)量結(jié)構(gòu)后置及整體/部分關(guān)系分離四種子類。篇幅限制,下面僅就連謂結(jié)構(gòu)下的成分前置、整體/部分關(guān)系分離進(jìn)行較為詳細(xì)的舉例分析。

      (1) 連謂結(jié)構(gòu)下的成分前置

      成分前置的情形是較為典型的“話題化”(topicalization)現(xiàn)象。通過分析,我們發(fā)現(xiàn)簡(jiǎn)單句的成分前置一般是不會(huì)造成非投影結(jié)構(gòu)的,而謂詞較多的嵌套句中的成分前置才更容易造成非投影結(jié)構(gòu)。當(dāng)一個(gè)小句中有多個(gè)謂詞(廣義的連謂結(jié)構(gòu))時(shí),這些謂詞各自有一套論元。這些論元在一個(gè)句子中的排列就容易出現(xiàn)錯(cuò)序情況。當(dāng)某個(gè)小句中處于語(yǔ)序較后位置的謂詞的論元發(fā)生了前時(shí),就容易形成非投影結(jié)構(gòu)。例如“必然導(dǎo)致對(duì)此案做出不公正判決”(圖5)。

      圖5 連謂結(jié)構(gòu)下論元前置的非投影結(jié)構(gòu)示例

      在這個(gè)句子中,“必然”是最上層節(jié)點(diǎn),“導(dǎo)致對(duì)此案做出不公正判決”是“必然”下面的子事件,“導(dǎo)致”及其下層所有節(jié)點(diǎn)充當(dāng)“必然”的arg0?!皩?duì)此案做出不公正判決”是“導(dǎo)致”的arg1。而“對(duì)此案不公正判決”則是“做出”的arg1,表示“做出”的行為事件?!按税浮笔恰芭袥Q”的arg1,“判決”是“公正”的arg0。這里用了一個(gè)反關(guān)系“arg0-of”,目的是為了保證有向圖的單根性,polarity(極性)為-,表示否定。

      從圖5的非投影結(jié)構(gòu)的可視化表示中可以看到,“判決”與“此案”之間的arg1關(guān)系與“做出”的投影線有了交叉。這種交叉正是由于判決的arg1,即句法層面上謂詞“判決”的論元“此案”前置所導(dǎo)致的,這種前置由介詞“對(duì)”引導(dǎo)。

      (2) 整體/部分關(guān)系分離

      整體/部分(part-of)關(guān)系往往由兩個(gè)概念構(gòu)成,如果這兩個(gè)概念在句子中被謂詞分開了,可能會(huì)造成非投影結(jié)構(gòu),例如“活熊取膽殘忍無比”(圖6)。

      圖6 整體/部分關(guān)系分離的非投影結(jié)構(gòu)示例

      可以看到,這個(gè)句子中的“熊”與“膽”之間有整體/部分(part-of)關(guān)系,但是由于強(qiáng)調(diào)這個(gè)行為的殘忍性,所以在表面詞序上將“活熊”提到了整個(gè)句子的最前面,最終導(dǎo)致了“膽”和“熊”之間的整體/部分關(guān)系的分離。從可視化結(jié)果可以看到,“熊”和“膽”之間的整體/部分關(guān)系(part-of)與“取”的投影線發(fā)生了交叉,導(dǎo)致了非投影結(jié)構(gòu)。

      類似的話題化現(xiàn)象還有從屬關(guān)系(poss)的分離,如“給兒子補(bǔ)身體”,“身體”從屬于“兒子”;數(shù)量結(jié)構(gòu)后置,如“蘋果有五個(gè)”。

      3.3 成分分離

      成分分離又分為由復(fù)句關(guān)系的小句拆分導(dǎo)致的非投影結(jié)構(gòu)和一般成對(duì)結(jié)構(gòu)的分離。

      (1) 復(fù)句關(guān)系的小句拆分

      復(fù)句關(guān)系的小句拆分又分為前件和后件的分離,以及主體感受插入兩類。例如“如果國(guó)家不及時(shí)采取措施,我覺得會(huì)給國(guó)家?guī)斫?jīng)濟(jì)危機(jī)?!?圖7)

      圖7中圈出來的部分表示的是中文AMR中對(duì)復(fù)句結(jié)構(gòu)(discourse relation)處理時(shí)添加的“condition”概念節(jié)點(diǎn)。在這個(gè)句子中,“覺得”是整個(gè)句子的最上層節(jié)點(diǎn),“我”是“覺得”的arg0,即感受主體,條件復(fù)句“如果國(guó)家不采取措施,會(huì)給國(guó)家?guī)斫?jīng)濟(jì)危機(jī)”是“覺得”的arg1,即內(nèi)容。“國(guó)家不采取措施”和“會(huì)給國(guó)家?guī)斫?jīng)濟(jì)危機(jī)”分別是條件復(fù)句的前件和后件。從圖7不難看到,“覺得”的插入使得條件句的前件和后件被割斷開來,形成了交叉。

      (2) 成對(duì)結(jié)構(gòu)的分離

      成對(duì)結(jié)構(gòu)的分離往往導(dǎo)致樹結(jié)構(gòu)上有一個(gè)節(jié)點(diǎn)對(duì)應(yīng)表面詞序中的多個(gè)詞的情況,這種情況沒有造成投影邊的交叉,但是破壞了正常的投影結(jié)構(gòu)。如“法官以事實(shí)為依據(jù)”(圖8)。

      圖7 復(fù)句關(guān)系中間插入主體感受的非投影結(jié)構(gòu)示例

      圖8 一般的成對(duì)結(jié)構(gòu)分離的非投影結(jié)構(gòu)示例

      在這個(gè)句子里,“以……為”按照AMR的要求被合并為一個(gè)概念“以為-03”,是句子的核心,處于最上層結(jié)構(gòu)?!胺ü佟笔恰耙詾椤钡腶rg0,表示感受主體;“事實(shí)”是“以為”的arg1,表示“以為”的對(duì)象;“依據(jù)”是“以為”的arg2,表示“以為”的結(jié)果。從可視化的中文AMR語(yǔ)義結(jié)構(gòu)可以看到,由于“以為”在表面詞序上的分離,導(dǎo)致了其被“事實(shí)”隔斷,不是節(jié)點(diǎn)與詞語(yǔ)一一對(duì)應(yīng)的投影結(jié)構(gòu)。當(dāng)然,這種類型不一定算作是非投影樹結(jié)構(gòu),也可以直接作為圖結(jié)構(gòu)的一種類型。

      3.4 一般移位

      除此以外,一些普通的移位(movement),也會(huì)導(dǎo)致非投影結(jié)構(gòu)的產(chǎn)生,主要包括狀語(yǔ)、定語(yǔ)、同位語(yǔ)及其他介詞結(jié)構(gòu)的移位。下面以同位語(yǔ)的移位為例,如“我們?cè)谶@兒等你,地下車庫(kù)”。

      這個(gè)句子中,狀語(yǔ)“地下車庫(kù)”發(fā)生了移位,其AMR語(yǔ)義結(jié)構(gòu)表達(dá)的一般語(yǔ)序是“我們?cè)诘叵萝噹?kù)這兒等你”,“地下車庫(kù)”的后置導(dǎo)致了非投影結(jié)構(gòu)(圖9)。

      3.5 非投影結(jié)構(gòu)的理論探討與處理對(duì)策

      從上面四種非投影結(jié)構(gòu)的示例,我們可以看出基于概念對(duì)齊的抽象語(yǔ)義表示能夠清晰地刻畫出漢語(yǔ)中的非投影結(jié)構(gòu)。在傳統(tǒng)的基于投影原則的依存樹上,是無法找到這些非投影結(jié)構(gòu)的。即使是基于圖結(jié)構(gòu)的依存圖,如果不從語(yǔ)義的角度來描寫,也很難找出這么多真實(shí)的用例。對(duì)齊版AMR更真實(shí)地刻畫了句子的語(yǔ)義結(jié)構(gòu),能夠表示出“活熊取膽”等非投影結(jié)構(gòu)。

      (1) 理論探討

      在非投影結(jié)構(gòu)中,模態(tài)詞提升占的比例較高,主要源于AMR標(biāo)注體系的處理方式。在傳統(tǒng)的句法依存標(biāo)注中, 模態(tài)詞一般都依附于謂詞。在圖5的例子中,如果“必然”依附于“導(dǎo)致”,就不會(huì)形成非投影結(jié)構(gòu)了。但是在比較新的生成語(yǔ)法和依存語(yǔ)法的研究中,模態(tài)詞的位置一般認(rèn)為處于更高層。因?yàn)?,“必然”是說話人對(duì)整個(gè)命題的判斷,而非命題的附屬。在其他語(yǔ)言的依存語(yǔ)料庫(kù)中,模態(tài)詞提升也占據(jù)了一定比例[19]。AMR遵從了語(yǔ)言學(xué)的理論分析,而非強(qiáng)行約定。

      話題化和一般的移位,在生成語(yǔ)法中有較多研究[24],但在依存語(yǔ)法中卻存在較大局限。依存語(yǔ)法沒有像生成語(yǔ)法那樣,區(qū)分移位前的深層結(jié)構(gòu)和移位后的表層結(jié)構(gòu),依存語(yǔ)法更多的是直接描寫移位后的句子結(jié)構(gòu),所以在體系上不如生成語(yǔ)法嚴(yán)密。另一方面,生成語(yǔ)法雖然可以用轉(zhuǎn)換(transformation)操作來描寫移位,但往往需要在句法樹上增加很多層次和空位,但在標(biāo)注真實(shí)語(yǔ)料時(shí),又做了很多簡(jiǎn)化,使得移位標(biāo)注并不那么完整。而對(duì)于從屬關(guān)系分離、復(fù)句關(guān)系中插入主體感受、成對(duì)結(jié)構(gòu)的分析,生成語(yǔ)法和依存語(yǔ)法也盡量回避。

      圖9 同位語(yǔ)后置的非投影結(jié)構(gòu)示例

      對(duì)于自然語(yǔ)言處理來說,句子的語(yǔ)義結(jié)構(gòu)需要更為清晰的描寫和表示方法。如果按照簡(jiǎn)約的句法表示,雖然自動(dòng)分析的F值很高,但不能完整而正確地表示句子的語(yǔ)義結(jié)構(gòu),對(duì)后續(xù)的處理會(huì)產(chǎn)生負(fù)面影響。例如,將“活熊取膽”簡(jiǎn)化為“施事—謂詞—受事”結(jié)構(gòu),顯然是不妥的。AMR則在語(yǔ)義依存圖的基礎(chǔ)上增加了概念和關(guān)系的靈活處理機(jī)制,能夠更好地刻畫句子的語(yǔ)義結(jié)構(gòu)。而“概念—詞語(yǔ)”對(duì)齊機(jī)制的加入和非投影結(jié)構(gòu)的研究,能夠讓我們進(jìn)一步看清漢語(yǔ)中真實(shí)存在的移位和特殊的語(yǔ)序現(xiàn)象,從而為語(yǔ)言學(xué)理論提供更多的討論素材,提供相應(yīng)的處理對(duì)策,為漢語(yǔ)的語(yǔ)義自動(dòng)分析奠定基礎(chǔ)。非投影結(jié)構(gòu)的正確分析也能夠提升漢語(yǔ)句子的句法語(yǔ)義分析效果,為文本摘要、輿情分析等應(yīng)用提供更準(zhǔn)確的結(jié)果。

      (2) 自動(dòng)處理對(duì)策

      目前,英文AMR自動(dòng)分析的F值最高為74%[25],漢語(yǔ)僅有58%左右[26]。非投影結(jié)構(gòu)是漢語(yǔ)處理的一大難點(diǎn)。通過上面對(duì)非投影結(jié)構(gòu)的分類和具體分析可以看到,非投影結(jié)構(gòu)產(chǎn)生的原因雖然情況復(fù)雜、種類較多,但也具有一定的規(guī)律性。其中由模態(tài)詞提升導(dǎo)致的非投影結(jié)構(gòu)占據(jù)了超過50%的比例,一般的成分分離占據(jù)了將近30%的比例。這樣對(duì)模態(tài)詞和成分可以分離的詞語(yǔ)建立相應(yīng)的詞典,對(duì)這兩種類型的句子進(jìn)行預(yù)處理或做特殊標(biāo)記進(jìn)行機(jī)器學(xué)習(xí),80%左右的非投影結(jié)構(gòu)就有望得以解決。剩下20%稍顯零散的非投影結(jié)構(gòu),則需要進(jìn)一步深入探究,或可考慮對(duì)詞語(yǔ)移位進(jìn)行建模計(jì)算。我們也期待著基于圖結(jié)構(gòu)的一體化句子語(yǔ)義分析方法能有算法上的突破,將本文的分析結(jié)果更好地融合到分析算法中。

      4 結(jié)論及未來工作

      近年來,隨著句法依存和語(yǔ)義依存在理論和資源建設(shè)上的進(jìn)展,非投影結(jié)構(gòu)在越來越多的語(yǔ)言中被發(fā)現(xiàn)和研究,但漢語(yǔ)中的非投影結(jié)構(gòu)一直沒有得到較好的理論與實(shí)證研究。本文系統(tǒng)地梳理了國(guó)際上對(duì)于非投影結(jié)構(gòu)的研究歷程,并且基于AMR的新體系,在增加概念對(duì)齊的機(jī)制后的10 149句中文AMR語(yǔ)料庫(kù)上,通過程序自動(dòng)提取和人工統(tǒng)計(jì)分析得出,帶有非投影結(jié)構(gòu)的句子比例為31.62%??偨Y(jié)出非投影的產(chǎn)生原因主要是模態(tài)詞提升、話題化、成分分離和一般移位,其中模態(tài)詞提升和成分分離的情況最為普遍。進(jìn)而提出利用這兩種情況與特定動(dòng)詞之間的較強(qiáng)聯(lián)系,為其構(gòu)建相應(yīng)的詞庫(kù),對(duì)其進(jìn)行特殊處理,以提升中文AMR的自動(dòng)分析效果。

      在未來的工作中,我們將繼續(xù)分析抽象語(yǔ)義庫(kù)中超越單純的投影樹結(jié)構(gòu)的語(yǔ)言現(xiàn)象,包括非投影結(jié)構(gòu)和圖結(jié)構(gòu)。同時(shí),我們會(huì)借助賓州樹庫(kù)等語(yǔ)料標(biāo)注的移位信息,更為系統(tǒng)地對(duì)比分析和研究漢語(yǔ)中的語(yǔ)序問題,從而為語(yǔ)言學(xué)研究提供更多理論探討的空間。最后,我們希望基于中文AMR語(yǔ)料庫(kù)進(jìn)行非投影結(jié)構(gòu)的自動(dòng)分析,可提高AMR分析器的效果。

      猜你喜歡
      謂詞語(yǔ)料庫(kù)投影
      解變分不等式的一種二次投影算法
      被遮蔽的邏輯謂詞
      ——論胡好對(duì)邏輯謂詞的誤讀
      基于最大相關(guān)熵的簇稀疏仿射投影算法
      黨項(xiàng)語(yǔ)謂詞前綴的分裂式
      西夏研究(2020年2期)2020-06-01 05:19:12
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      找投影
      找投影
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      也談“語(yǔ)言是存在的家”——從語(yǔ)言的主詞與謂詞看存在的殊相與共相
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開發(fā)與實(shí)現(xiàn)
      赤水市| 酉阳| 安泽县| 阳朔县| 湖南省| 曲阜市| 济阳县| 婺源县| 蒙城县| 沈丘县| 孝感市| 台前县| 呈贡县| 合水县| 天等县| 上饶县| 平利县| 安宁市| 峨眉山市| 黄骅市| 乌兰县| 财经| 江川县| 和政县| 南城县| 洪雅县| 砀山县| 怀仁县| 南召县| 南京市| 余姚市| 普定县| 土默特右旗| 新宾| 永州市| 义乌市| 区。| 嘉荫县| 达日县| 南京市| 曲阳县|