• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    英漢《小王子》抽象語義圖結構的對比分析

    2017-04-25 07:29:52卜麗君曲維光薛念文
    中文信息學報 2017年1期
    關鍵詞:小王子英漢省略

    李 斌,聞 媛,卜麗君,曲維光,薛念文

    (1.南京師范大學 文學院,江蘇 南京 210097;2.南京師范大學 計算機科學與技術學院,江蘇 南京 210023;3.布蘭迪斯大學 計算機系,美國 沃爾瑟姆 02453)

    英漢《小王子》抽象語義圖結構的對比分析

    李 斌1,聞 媛1,卜麗君1,曲維光2,薛念文3

    (1.南京師范大學 文學院,江蘇 南京 210097;2.南京師范大學 計算機科學與技術學院,江蘇 南京 210023;3.布蘭迪斯大學 計算機系,美國 沃爾瑟姆 02453)

    AMR(抽象語義表示)是國際上一種新的句子語義表示方法,有著接近于中間語言的表示能力,其研發(fā)者已經建立了英文《小王子》等AMR語料庫。AMR與以往的句法語義表示方法的最大不同在于兩個方面,首先采用圖結構來表示句子的語義;其次允許添加原句之外的概念節(jié)點來表示隱含的語義。該文針對漢語特點,在制定中文AMR標注規(guī)范的基礎上,標注完成了中文版《小王子》的AMR語料庫,標注一致性的Smatch值為0.83。統(tǒng)計結果顯示,英漢雙語含圖結構句子具有很高的相關性,且含有圖的句子比例高達40%左右,額外添加的概念節(jié)點則存在較大差異。最后討論了AMR在漢語句子語義表示以及跨語言對比方面的優(yōu)勢。

    抽象語義表示;語義圖;英漢對比;自然語言處理

    1 引言

    抽象語義表示(Abstract Meaning Representation)簡稱為AMR,是一種新型的句子語義表示方式,由美國賓夕法尼亞大學的語言數據聯盟(LDC)、南加州大學、科羅拉多大學等科研機構的多位學者共同提出[1]。與傳統(tǒng)的基于樹的句法語義表示方法不同,AMR使用單根有向無環(huán)圖*Banarescu等[6]指出,在技術操作上仍有約0.3%的句子的AMR結構存在環(huán)。來表示一個句子的語義。這種表示方法相比樹結構擁有較大的優(yōu)勢:首先,單根結構保持了句子的樹形主干;其次,有向無環(huán)圖使用圖結構可以較好地描寫一個名詞由多個謂詞支配所形成的論元共享(argument sharing)等現象;第三,AMR還允許補充出句中隱含或省略的成分,以還原出較為完整的句子語義。這三大優(yōu)點,使得AMR一經公布,就引起了國際上的重視,涌現了從跨語言翻譯價值角度進行的討論[2]、自動分析技術[3]、轉化應用[4]等多方面的研究論文。AMR配套發(fā)布了包括《小王子》在內的兩萬多句英文語料庫,2016年的SemEval語義評測也舉辦了英文AMR的自動分析競賽項目*http://alt.qcri.org/semeval2016/task8/。。英文《小王子》語料中帶有圖結構的句子比例高達42%*雖然AMR采用單根有向圖表示句子語義,但很多句子沒有形成圖結構,仍為樹結構。英文《小王子》語料中,剩余58%的句子為單根樹結構。,帶有補充概念節(jié)點的句子比例也在10%以上,說明了AMR使用圖結構和補充概念節(jié)點的有效性和合理性,也使得學術界對于句子的結構有了新的認識。

    另一方面,漢語的句法語義自動分析研究,也開始從句法樹走向了語義圖。Ding等[5]加工了漢語語義依存圖庫,其中帶有圖結構的句子僅10%左右。雖然句子的標注體系不同,也沒有增添概念節(jié)點的機制,但相比英文《小王子》帶有圖結構的句子比例42%,仍有較大差異。這促使我們試圖分析英文的圖結構到底由哪些因素造成,漢語中圖結構的情況又如何。為了使中英文數據能夠在可比較的語料庫上進行分析,我們根據英文AMR的標注規(guī)范[6],設計了中文AMR標注規(guī)范,標注了和英文《小王子》句對齊的中文《小王子》1 562句。由兩位語言學研究生分別獨立標注,標注一致性的Smatch值為0.83。統(tǒng)計結果顯示,中文《小王子》含有圖的句子比例也高達36%左右,且與英語具有很高的一致性。而英漢雙語的補充的概念節(jié)點的數量卻存在較大差異,體現出語言結構的差異。

    2 AMR簡介及相關研究

    2.1 AMR簡介

    AMR(Abstract Meaning Representation,抽象語義表示)是句子語義的一種表示方法,將一個句子的語義抽象為一個單根有向無環(huán)圖。在這個語義圖上,句子中的實詞抽象為概念節(jié)點,實詞之間的關系抽象為帶有語義關系標簽的有向弧,同時忽略虛詞和形態(tài)變化體現的較虛的語義(如the、單復數、時、體等等)。圖1分別給出了“The boy wants to go to school”及中文翻譯“男孩想去學?!钡腁MR表示。

    圖1 “The boy wants to go to school”的AMR英漢表示方法

    圖1中,每個概念節(jié)點都有一個字母開頭的編號?!跋?want)”作為句子唯一的根節(jié)點,編號分別是x和w,“男孩(boy)”作為“想(want)”的arg0(施事),“去(go)”作為“想(want)”的arg1(受事)。這里與傳統(tǒng)的句法分析或語義角色標注有一些差異,英文做了詞形還原,省略了冠詞the、形態(tài)標記(動詞的數、介詞to),而漢語則沒有詞形方面的變化。與傳統(tǒng)表示方法的主要不同在于對論元共享現象的處理,例如“想(want)”和“去(go)”的arg0都是“男孩(boy)”。傳統(tǒng)的句法分析方法受限于樹結構,往往舍棄“男孩-去”這個關系;而語義角色標注會保留兩個關系,形成圖結構。AMR為了保留論元共享的信息,又避免圖結構的凌亂顯示,允許重復使用詞語的編號b和x1,使得AMR在保持樹狀層次結構的同時,保有圖結構的信息。

    為了明確謂詞及其論元之間的語義關系,AMR要求標注謂詞的具體義項。因為一個謂詞會有多個義項,而不同義項下的論元框架會存在差異。在圖1中,動詞“想(want)”被標注了“-01”的信息,表示此處的“想(want)”使用的是其第一個義項的論元框架。

    AMR暫時忽略語言中語義較虛的成分,如英文中“名詞的數、動詞的數、有定/無定、時、體”等由形態(tài)變化體現的語義。而它最令人稱道之處,在于它允許根據整體語義增刪概念節(jié)點,能夠彌補傳統(tǒng)句法表示的嚴重缺陷。例如,The injured was taken home.(受傷的被送回家了)。在短語結構文法和依存文法的框架下,The injured(受傷的)只能作為一個整體來處理,其語義難以得到揭示。

    圖2 “The injured was taken home”的AMR英漢表示方法

    圖2給出了AMR的處理方式。AMR允許補充句子中省略的成分,將“person(人)”補充出來,作為“take(送)”的arg1(受事),也作為“injure(傷)”的arg1(受事),更完整地表示了句子的語義。

    AMR的補充概念節(jié)點和刪除語義較虛的詞語的方式,對漢語來說也很重要。一方面,漢語的“的”字結構(如“受傷的”),在傳統(tǒng)的句法分析中也被當作一個整體來對待,難以體現出其真正的語義。而在AMR的補充概念的方式下,person(人)的補充使得意義得到了較為完整的表達,“受”的被動義也由“person :arg1-of 傷”描寫出來,體現出AMR對于中文語義表示的價值。

    另一方面,AMR也允許刪除一些在意義上冗余的實詞,使得句子的基本意義更加明確。比如,“他回答說”可以省略為“他回答”。此外,AMR還規(guī)定了一部分近義詞可以使用最常見或歧義較少的單詞進行替換,如在句中表示“好像”的意思的“l(fā)ike”替換為“resemble-01”。

    AMR的抽象語義表示方法給句子語義以更加清晰的表達,受到學界的密切關注,但也褒貶不一[2]。贊揚者認為這種表示方法整體上簡潔有效,彌補了句法樹在表示語義上的缺陷,接近真正意義上的中間語言(interlingua);批評者則認為忽略形態(tài)變化所表達的意義是難以接受的。不過這一缺點對于漢語來說并不那么重要,因為漢語本來就沒有形態(tài)變化,甚至被一些語言學家稱作“語義型語言”[7]。從上面的例子我們也可以看出,由于沒有形態(tài)變化,漢語表示為AMR以后,損失的信息遠比英文少。換言之,相比英文、德文等具有形態(tài)變化的印歐語言,AMR更適于表示漢語的句法語義。除去形態(tài)變化,漢語在句法分析時遇到的常見難題,如造成論元共享的連動句、兼語句等可以通過圖結構得到很好的解決;“的”字結構等省略句子成分的結構也可以通過補充概念來解決。

    AMR對于句子語義較為簡潔而完整的表示、可計算評測的特點,使其至少具有三點潛在價值:(1)提升智能問答、文本摘要、事件分析等應用技術; (2)作為機器翻譯的中間語言,提升機器翻譯效果; (3)為句子級別之上的篇章語義表示奠定研究基礎。因此,提高AMR的自動分析效果,增加更多語種的AMR語料就成為目前該領域最為迫切的研究內容。而中文AMR語料的構建一方面可以滿足中文句法語義分析的應用需求,另一方面對于漢語的句法語義研究也有重要的語言學價值。

    2.2 句子的圖結構研究

    傳統(tǒng)的句法分析以樹作為句子的基本結構[8-9]。而隨著框架語義學(Frame Semantics)的興起[10-11],語義角色的標注(Semantic Role Labelling)工作也逐步展開[12]。當一個句子中多個謂詞共享同一個名詞性成分時,多個謂詞及其語義角色就會形成圖結構。根據2009年依存和語義角色標注評測CoNLL2009 Shared Task語料,英語和漢語由于語義角色的論元共享現象,出現了較多的圖結構[13]。2014和2015年的SemEval國際評測則直接引入了語義依存圖(Semantic Dependency Graph),在DM、PAS、PCEDT三個英文語料上由重入的回邊(reentrance)造成的圖結構的句子分別占到了27.35%、29.40%和9.27%[14]。英文《小王子》AMR語料庫上具有圖結構的句子比例更高達42%。

    英語句子的表示方法不僅使用了圖結構,而且圖結構的比例也確實較高。但是,漢語句子圖結構的情況依然不夠清楚。CoNLL2009語義角色標注數據[13]只標注了謂詞及其論元的語義關系,所以并不能忠實地反映出漢語完整句子的圖結構情況。借鑒Oepen等[14]的體系,Ding等[5]加工了中文語義依存圖庫,其中帶有圖結構的句子僅10%左右,與英文語義依存圖和英文AMR的差異較大。Xue等[2]從機器翻譯的中間語言角度,對英語、漢語和捷克語各100句的三語平行語料庫進行了AMR的對比分析。其中,漢語的語料也出現了圖結構。不過,100句的語料在規(guī)模上比較小,沒有專門從圖結構的角度進行分析。

    因此,基于英漢平行語料構建更大規(guī)模的AMR語義圖庫,可以更好地比較兩種語言中圖結構的對應情況、圖結構存在的比例、圖結構的共性和差異等,以進一步觀察AMR的跨語言表示能力和AMR對于漢語的句法語義表示能力。

    3 中文《小王子》AMR的標注

    《小王子》英文AMR庫*語料下載地址http://amr.isi.edu/。提供了1 562句的標注數據,并附帶了句對齊的中文《小王子》生語料。在此基礎上標注中文《小王子》的AMR,便可得到英漢句對齊的雙語AMR語料庫。我們首先根據中文賓州樹庫(CTB)[15]的分詞規(guī)范,對中文《小王子》語料進行了自動分詞和人工校對;其次,參照英文AMR標注規(guī)范[6],制定了中文AMR標注規(guī)范;然后,標注了中文《小王子》的AMR語料庫[16]*語料下載地址http://www.cs.brandeis.edu/~clp/camr/camr.html。。

    制定中文AMR的標注規(guī)范,是一件難度較大的工作?,F有的AMR規(guī)范畢竟是根據英語的語言現象制定出來的,對于漢語中特有的量詞(本、臺)、重疊式(認認真真)、離合詞(幫忙—幫了一個忙)、動補結構(跑得快、吃不了)等現象,還缺少具體的規(guī)定和處理方法。我們參考AMR的基本原則,經過大量的試標與討論,制定出較為詳細的標注規(guī)范。限于篇幅,現簡述如下。

    (1) 語義關系參照AMR的標準,分為核心語義關系與非核心語義關系。核心語義關系與英文AMR相同,沿用Propbank[12]和Chinese Propbank[15]的標注體系,共有五個:ARG0(原形施事)、ARG1(原形受事)、ARG2(間接賓語、工具等)、ARG3(出發(fā)點、受益者等)、ARG4(終點)。非核心語義關系,包括accompanier(伴隨)、age(年齡)、beneficiary(受益者)等共計43個。

    此外,還有一些比較特殊的關系標簽,如and(和)、or(或)等概念的分項關系op1、op2等,用于multi-sentence(句群)的分項關系snt1、snt2等。

    (2) 按照AMR省略較虛的語義成分的原則,漢語特有的量詞“本、張、臺”等應該被省略,重疊式“認認真真”應該被還原為“認真”。

    (3) 漢語離合式采取“合”的方式,如“幫了一個忙”的謂詞合并為“幫忙”。

    (4) 對于漢語中較為復雜的動補結構,根據句子中的具體語義進行標注。動補結構通常分為多種類型,如表示程度的“跑得快”、表示可能的“吃不了”、表示體的“做完作業(yè)”、表示結果的“看清楚、跑丟”等,均在規(guī)范中予以規(guī)定。

    (5) 對于漢語“的”字結構為代表的需要補充概念節(jié)點的情況,也分門別類地予以規(guī)定。

    謂詞所采用的語義角色框架則使用中文謂詞庫(CPB)的謂詞框架詞典[17]。該詞典是從CPB標注語料中抽取出來的,含有每個謂詞在不同義項下的語義角色框架,共收錄了24 510個中文謂詞(包括動詞、形容詞等)的26 650個義項的不同語義角色框架。這部詞典較好地覆蓋了《小王子》的語料。少量沒有覆蓋到的謂詞,其語義角色則根據標注規(guī)范從AMR規(guī)定的語義關系中選取。

    中文《小王子》的AMR數據,由兩位語言學研究生分別獨立標注(語料A、B),標注一致性的Smatch值[18]為0.83,與英文小王子的標注一致性達到了同等質量[1]。

    4 英漢對比統(tǒng)計和分析

    下面對本文使用的兩個標注語料進行含有圖結構的基本情況進行統(tǒng)計對比,并進行相應的統(tǒng)計檢驗,觀察《小王子》英語語料和《小王子》漢語語料的差異性和相關性。具體來說,統(tǒng)計英漢對齊的句子中是否含有圖結構以及含有圖結構的個數,檢驗漢語和英語中圖結構存在情況的差異性和一致性,并對產生差異的原因進行分析。

    4.1 基本統(tǒng)計數據

    對于英漢《小王子》全部1 562句語料,漢語的兩份人工標注結果(A、B)和英語人工標注的結果呈現出一定的共性和差異。表1給出了三份語料的圖結構的統(tǒng)計數據。英語語料中,總共出現了1 293條回邊,造成了663個圖結構的句子。而漢語的語料A和B僅分別出現了1 037和1 040條回邊,分別造成548和576個句子出現圖結構。

    表1 《小王子》英漢AMR語料庫的圖結構統(tǒng)計

    表1的數據體現出:(1)英漢雙語出現圖結構的句子都較多。兩種語言都有約40%的句子出現了圖結構。(2)英語的圖結構比漢語略多一些。英語含有圖結構的句子比例為42.45%,漢語的比例則略低,分別為35.08%和36.88%*人工對比后發(fā)現,語料B的圖結構數量略多,且A、B之間的差異對后文的統(tǒng)計影響較小,所以后文統(tǒng)計僅使用漢語語料B的數據。。從形成圖結構的回邊的數量看,英語也是略高于漢語。(3)英漢雙語出現圖結構的一致性較高。英語句子出現圖結構,則有著對譯關系的漢語句子也傾向于出現圖結構。Pearson檢驗顯示,漢語A和B兩個語料與英文語料是否含有圖結構的相關系數分別為0.555和0.565;而單個句字中含有圖結構的數量的相關系數為0.695和0.705。 這些結果均在0.01的水平上顯著。

    這三點統(tǒng)計結果,已經可以回答本文的基本問題,即漢語和英語的圖結構比例到底相差多少。在雙語平行語料上,能夠清楚地看出具有圖結構的句子數量較大,AMR的圖結構的表示方法具有合理性。但是,我們依然想弄清楚,形成圖結構的回邊的比例,以及英語圖結構的句子多于漢語的原因。

    4.2 圖結構對比分析

    漢語和英語產生圖結構的主要原因都是語義角色的共享,即同一個語義角色被不同的論元結構所分享。和圖1相似,《小王子》語料中出現了大量的論元共享的句子,見圖3。

    圖3 英漢雙語的論元共享實例

    圖3中,無論是英語的“So then I chose another profession,and learned to pilot airplanes.”還是漢語的“后來,我只好選擇了另外一個職業(yè),我學會了開飛機。”都涉及三個主要動詞“選擇(choose)”、“學會(learn)”和“開(pilot)”。而這三個動詞都共同分享了同一個施事(arg0)——我(I),在語義圖中就會有三條弧指向“我(I)”這個詞,形成圖結構。論元共享無論在漢語還是在英語中都十分普遍,這也是漢語和英語中圖結構比例都較高的主要原因。而傳統(tǒng)的短語結構語法和依存語法都不允許出現圖結構,到了框架語義學、依存圖和AMR的研究中,才使用圖結構。而AMR體系下,含有圖結構的句子比例更高。所以,在論元共享中哪些語義角色特別容易引起圖結構就成為需要統(tǒng)計的對象。

    表2針對漢語和英語做了相應的統(tǒng)計,發(fā)現:(1)漢語和英語圖結構中arg0、arg1和arg2共享引發(fā)圖結構的情況都比較普遍,英語語料中占到77.11%,漢語語料(B)中占到85.19%; (2)兩種語言中,arg0、arg1和arg2的數量依次遞減。arg0(原型施事)所占的比例約在一半以上,arg1(原型受事)和arg2(原型與事)的比例較低; (3)英漢差異較大之處在于,漢語中的arg0比例明顯較多(71.06%),明顯多于英語(46.64%),也就是說,漢語中原型施事(arg0)的共享是比較普遍的,雖然英語中這種情況也比較多,但是在分布上比漢語更加均勻一些。

    從語法的角度來解釋這種差異性并不難。我們知道arg0無論在漢語還是英語中做主語的情況是比較多的,而漢語中主語省略情況也相對較多。當多個動詞連續(xù)出現時,漢語更傾向于將一個主語放在最前面,后面的主語承前省略。而英語則更加注重句子結構的完整性。所以漢語中這種由于arg0的共享產生圖結構的比例就更高,也是可以理解的。

    除此以外,表3也給出了其他類型的語義角色共享導致的圖結構情況的比例,主要是非核心語義關系下的圖結構。在非核心語義關系內,poss(領屬關系)和domain(系動詞關系)也造成了較多的圖結構。需要注意的是,由于種類較多,這里并沒有窮盡所有的語義關系。

    表2 漢語和英語中arg0、arg1、arg2的共享導致的圖結構

    表3 漢語和英語中其他語義關系共享導致的圖結構

    漢語圖較英語圖較少的原因,主要在于漢語翻譯得較為簡潔。我們分析了英語存在圖結構而漢語是樹結構的句子,多是源于英語句子較長、語義關系較為復雜所致。例如,“I answered you with the first thing that came into my head”這句話,“I”既作為“answer”的arg0,即“the person who answers”,同時,“head”與“I”又是“part-of”的關系(身體的一部分),這樣一來,就形成一條回邊,造成圖結構。但是漢語的句子則十分簡潔,譯為“我是隨便回答你的”,沒有出現圖結構。

    整體上來說,英漢《小王子》的句子中出現圖結構的比例較為接近,且呈現出較高的相關性。造成圖結構的原因在于論元共享,尤以arg0、arg1、arg2和poss為主。

    4.3 添加的概念節(jié)點分析

    AMR允許添加概念節(jié)點,是其與傳統(tǒng)的句法語義分析體系最大的不同。通過thing(物)、person(人)、company(公司)等概念節(jié)點的添加,可以使得句子語義的表示更為自然和完整。AMR擁有一個完整的命名實體概念集合,可以用來表示添加的概念節(jié)點,thing和person只是最為常用的兩個概念。不過,AMR并不標注每個概念與原來句子中的詞語的對應關系,這些命名實體也以英文單詞表示,和句子中的詞語沒有形式上的差別,所以統(tǒng)計英文《小王子》中概念節(jié)點的添加情況較為困難*有專門針對AMR概念和原句詞語對齊的研究,如Pourdamghani等[19],對齊的Smatch值為90%左右。。我們只以最為常見的thing和person兩個概念,來觀察概念添加在兩種語言中的作用。表4~表7根據概念添加的類型,分別給出了英漢《小王子》中添加這兩種概念的統(tǒng)計數據。Thing在英漢語料中分別出現了86次和38次,person在英漢語料中分別出現了97次和8次。概念添加在英語語料中所出現的句子比例超過了10%,而漢語句子的比例較低。

    表4 英語語料中添加thing的統(tǒng)計

    表5 漢語語料B中添加thing的統(tǒng)計

    表6 英語語料中添加person的統(tǒng)計

    表7 漢語語料B中添加person的統(tǒng)計

    從這些數據可以看出:(1)概念添加對于英語來說作用更大。英語中由詞綴或形態(tài)變化構成的名詞,往往被AMR進行內部分析。例如,帶有-ing的drawing(圖畫)分析為thing :arg1-of draw(thing是畫的受事),帶有-er的admirer(仰慕者)分析為person :arg0-of admire(person是仰慕的施事)等。這種描寫方式的優(yōu)劣也許存在爭議,但是對于what/how等引導的從句來說,顯得不可或缺。例如,what you like,處理為 thing :arg1-of like 和 like :arg0 you.對于“some of it”之類的短語,補充為“some+thing of it”也顯得更為完整。(2)漢語中出現的數量略少,但對于刻畫“的”字結構、“所”字結構、數量結構非常有效。如前文所述,AMR的概念添加方式對于“的”字結構有著良好的表示能力,能夠補充出轉指的成分thing、person等?!八弊纸Y構如“所思”、“所想”、“所言”等,一般省略了動詞的賓語,借助thing等概念可以很好地補充出來。數量結構,如承接上文省略的“我也買了一個”和連動結構中的“吃一個少一個”,都省略了名詞性成分,也需要根據上下文來補充概念節(jié)點。(3)如果去掉詞語內部結構的分析造成的概念添加,則英漢雙語在補充原句中省略的詞語方面數量較為接近。英語補充thing的總數86減去詞語內部分析的55,則剩余31個較為純粹的添加操作,與漢語添加thing的36個非常接近。英語補充person的總數97個,減去名詞內部分析的65個,剩余32個較為純粹的概念添加操作,與漢語的8個差距縮小了很多。一方面,AMR對詞語內部的分析,刻畫出英漢在構詞和形態(tài)變化上的差異;另一方面,AMR通過概念添加的方式對兩種語言句子中省略成分的補充較為有效。這也加深了我們對于兩種語言的理解。一般來說,英語比較強調句子結構的完整性,而漢語句子中成分省略現象較多。但是通過AMR的標注數據來看,英漢都存在成分省略的現象。最為可貴的是,AMR的這種標注方法使得英漢句子在語義層面上得到了較為接近的表示,顯示了其充當跨語言翻譯的中間語言的潛力。

    5 結論及未來工作

    本文通過標注漢語《小王子》AMR語料庫,與英文《小王子》AMR語料庫進行對比分析,得出的主要結論是:(1)漢語和英語中都含有較高比例的圖結構,分別為36%和42%左右,說明圖結構在漢語和英語中都是普遍存在的; (2)添加概念節(jié)點的方式能夠更好地描寫句子中省略的詞語的語義。特別對于漢語的“的”字結構、“所”字結構和數量結構,具有良好的補充能力。

    這兩點結論體現出AMR確實具有良好的句子語義表征能力。一方面,具備圖結構的句子比例較高說明圖結構的引入確有必要;另一方面,AMR能夠補充出句子中省略的成分,以完整地表征句子的語義,便于進行跨語言的比較。

    當然,本文的工作還是初步的,需要在以下幾個方面深入研究。首先,統(tǒng)計分析英漢《小王子》語料庫中每一個句子在AMR表示上的異同,以進一步探究AMR的跨語言表示能力和英漢兩種語言本身在詞匯和句法上的差異;其次,標注更大規(guī)模的漢語AMR語料庫,以研究漢語的句法語義問題,同時為漢語AMR自動分析技術提供訓練和測試數據。然后,與英語、捷克語等其他語言的AMR語料庫進行跨語言對比研究;最后,AMR是句子級別的語義表示方法,漢語中的成分省略特別是主語省略情況會導致我們處理時丟失一些語義上應該存在的圖結構,還需要考慮篇章級別AMR的標注方法。

    [1] Banarescu L,Bonial C,Cai S,et al.Abstract Meaning Representation for Sembanking[C]//Proceedings of the 7th Linguistic Annotation Workshop,Sophia,Bulgaria,2013.

    [2] Xue N,Bojar O,Hajiě J,et al.Not an Interlingua,but Close:Comparison of English AMRs to Chinese and Czech[C]//Proceedings of the 9th International Conference on Language Resources and Evalua-tion (LREC’14),Reykjavik,Iceland,May 26-31,2014:1765-1772.

    [3] Flanigan J,Thomson S,Carbonell J,et al.A Discriminative Graph-Based Parser for the Abstract Meaning Representation[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,2014:1426-1436.

    [4] Liu F,Flanigan J,Thomson S,et al.Toward Abstractive Summarization Using Semantic Representations Human Language Technologies[C]//Proceedings of the 2015 Annual Conference of the North American Chapter of the ACL,Denver,Colorado,May 31- June 5,2015:1077-1086.

    [5] Ding Y,Shao Y,Che W,et al.Dependency Graph Based Chinese Semantic Parsing[C]//Proceedings of the Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.Springer International Publishing,2014:58-69.

    [6] Banarescu L,Bonial C,Cai S,et al.Abstract Meaning Repre-sentation (AMR) 1.2.2 Specification[DB/OL].[2015].https://github.com/amrisi/amr-guidelines/blob/master/amr.md.

    [7] 徐通鏘.語言論——語義型語言的結構原理和研究方法[M].長春:東北師范大學出版社.1997.

    [8] Chomsky N.Syntactic Structures[M].The Hague/Paris:Mouton,1957.

    [9] Tesnière L.Eléments de syntaxe structurale[M].Paris:Librairie C.Klincksieck,1959.

    [10] Fillmore C J.Frame Semantics[J].Encyclopedia of Language & Linguistics,2006:613-620.

    [11] Baker Collin F,Charles J Fillmore,John B Lowe.The Berkeley FrameNet Project[C]//Proceedings of COLING/ACL-98,Montreal,1998:86-90.

    [12] Palmer M.Daniel G,Paul K.The Proposition Bank:An Annotated Corpus of Semantic Roles[J].Computational Linguistics,2005,31(1):71-106.

    [13] Hajiě,Jan,Ciaramita M,et al.The CoNLL-2009 Shared Task:Syntactic and Semantic Dependencies in Multiple Languages[C]//Proceedings of the 13th Conference on Computational Natural Language Learning:Shared Task.Association for Computational Linguistics,2009:1-18.

    [14] Oepen S,Kuhlmann M,Miyao Y,et al.SemEval 2014 Task 8:Broad-Coverage Semantic Dependency Parsing[C]//Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014),2014:63-72.

    [15] Xue N,Xia F,Chiou F,et al.The Penn Chinese TreeBank:Phrase Structure Annotation of a Large Corpus[J].Natural Language Engineering,2005,11(2):207-238.

    [16] Bin Li,YuanWen,Lijun Bu,et al.Annotating the Little Prince with Chinese AMRs[C]//Proceedings of the 10th Linguistic Annotation Workshop.Berlin,Aug,2016.

    [17] Nianwen Xue,Martha Palmer.Adding Semantic Roles to the Chinese Treebank[J].Natural Language Engineering,2009,15(1):143-172.

    [18] Cai S,Knight K.Smatch:an Evaluation Metric for Semantic Feature Structures[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics.Sofia,Bulgaria,August 4-9,2013:748-752.

    [19] Pourdamghani N,Gao Y,Hermjakob U,et al.Aligning English Strings with Abstract Meaning Representation Graphs[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).2014:425-429.

    A Comparative Analysis of the AMR GraphsBetween English and Chinese Corpus oftheLittlePrince

    LI Bin1,WEN Yuan1,BU Lijun1,QU Weiguang2,XUE Nianwen3

    (1.School of Chinese Language and Literature,Nanjing Normal University,Nanjing,Jiangsu 210097,China;2.School of Computer Science and Technology,Nanjing Normal University,Nanjing,Jiangsu 210023,China;3.Computer Science Department,Brandeis University,Waltham,MA 02453,USA)

    AMR is a new representation of the abstract meaning of a sentence,which is close to the Interlingua.The English AMR corpus includingtheLittlePrincehas been released.The major differences between AMR and the previous syntactic and semantic representation lie in two aspects.First,AMR uses a graph.Second,it allows adding concept nodes which are omitted in a sentence.In this paper,we design the Chinese AMR annotation specification and construct the ChineseLittlePrinceAMR corpus,achieving an inter-agreement Smatch value is 0.83.The bilingual comparison shows that the graph structures in English and Chinese sentences are highly correlated.With a proportion of 40% sentences having graph structure.But the added concept nodes are different.We also discuss AMR’s ability to represent the semantic meaning of Chinese sentences as well as the advantages of AMR in cross language comparison.

    abstract semantic representation; semantic graph; English-Chinese comparison; natural language processing

    李斌(1981—),博士,副教授,主要研究領域為計算語言學。E-mail:libin.njnu@gmail.com聞媛(1992—),碩士研究生,主要研究領域為計算語言學。E-mail:wenyuan.njnu@gmail.com卜麗君(1990—),碩士研究生,主要研究領域為計算語言學。E-mail:blj_njnu@163.com

    1003-0077(2011)00-0050-08

    2016-09-15 定稿日期:2016-10-20

    江蘇高校哲學社會科學研究項目(2016SJB740004);國家科技支撐計劃課題(2014BAK04B02);國家自然科學基金(61272221)

    TP391

    A

    猜你喜歡
    小王子英漢省略
    小王子
    偏旁省略異體字研究
    小王子的圣誕節(jié)
    童話世界(2019年35期)2020-01-04 03:01:32
    呆萌小王子
    商務英語翻譯中英漢褒貶義詞的應用探討
    中間的省略
    詩選刊(2015年6期)2015-10-26 09:47:13
    淺談英漢習語的文化差異及翻譯方法
    《小王子》:喚醒內心深處的柔軟
    電影故事(2015年29期)2015-02-27 09:02:56
    英漢文化中的委婉語應用對比分析
    英漢校園小幽默
    澎湖县| 陆良县| 沂水县| 荆州市| 常州市| 蓬安县| 离岛区| 磐石市| 成安县| 青浦区| 浠水县| 门源| 库伦旗| 延吉市| 乐陵市| 大英县| 确山县| 涞水县| 山东| 正安县| 剑河县| 江西省| 永嘉县| 抚顺市| 曲阳县| 渭源县| 毕节市| 嘉鱼县| 融水| 喜德县| 淮南市| 石林| 衡阳县| 澄城县| 驻马店市| 炉霍县| 双鸭山市| 凯里市| 咸丰县| 农安县| 五大连池市|