邱立坤,金 澎,王厚峰
(1. 魯東大學(xué) 文學(xué)院 山東省語言資源開發(fā)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,山東 煙臺 264025;2. 北京大學(xué) 計(jì)算語言學(xué)研究所,北京 100871;3. 樂山師范學(xué)院 智能信息處理及應(yīng)用實(shí)驗(yàn)室,四川 樂山 614004)
?
基于依存語法構(gòu)建多視圖漢語樹庫
邱立坤1,2,金 澎2,3,王厚峰2
(1. 魯東大學(xué) 文學(xué)院 山東省語言資源開發(fā)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,山東 煙臺 264025;2. 北京大學(xué) 計(jì)算語言學(xué)研究所,北京 100871;3. 樂山師范學(xué)院 智能信息處理及應(yīng)用實(shí)驗(yàn)室,四川 樂山 614004)
樹庫是自然語言處理中一項(xiàng)重要的基礎(chǔ)資源,現(xiàn)有樹庫基本上都是單視圖樹,支持短語結(jié)構(gòu)語法或者依存語法。該文提出一套基于依存語法的多視圖漢語樹庫標(biāo)注體系,僅需標(biāo)注中心語和語法角色兩類信息,之后可以自動(dòng)地推導(dǎo)出描述句法結(jié)構(gòu)所需的短語結(jié)構(gòu)功能和層次信息,從而可以在不增加標(biāo)注工作量的前提下獲得更多語法信息。基于該體系,構(gòu)建了北京大學(xué)多視圖漢語樹庫(PMT)1.0版,含有64 000句、140萬詞,支持短語結(jié)構(gòu)語法和依存語法兩個(gè)視圖。
多視圖樹庫;依存語法;短語結(jié)構(gòu)語法
樹庫是標(biāo)注有句法信息的語料庫,是一種深度標(biāo)注的語言知識資源。在語料庫語言學(xué)和計(jì)量語言學(xué)中,樹庫可以用于研究各種語法現(xiàn)象以及語言整體的特點(diǎn);在計(jì)算語言學(xué)中,樹庫可以用于訓(xùn)練和測試句法分析器。20世紀(jì)90年代之前,自動(dòng)句法分析主要使用規(guī)則的方法,通過大量人工總結(jié)的規(guī)則來進(jìn)行句法分析。賓州樹庫[1]以及一系列類似句法樹庫的構(gòu)建改變了這一局面。自賓州樹庫發(fā)布之后,詞匯化的統(tǒng)計(jì)句法分析取得了長足進(jìn)展,在評測中與基于規(guī)則方法相比具有較大優(yōu)勢。Collins[2-3]基于賓州樹庫所提出的句法分析方法取得了很大成功,代表著統(tǒng)計(jì)句法分析方法達(dá)到了一個(gè)全新的水平。一系列樹庫的建設(shè)促進(jìn)了統(tǒng)計(jì)句法分析研究的產(chǎn)生與繁榮。
就樹庫構(gòu)建中的語法理論而言,最主流的理論是短語結(jié)構(gòu)語法,大多數(shù)樹庫都是基于這一理論構(gòu)建的。依存語法是另外一種比較流行的理論,主要描述詞語之間的依存關(guān)系,甚至是非相鄰的依存關(guān)系,在自然語言處理和信息檢索中具有重要價(jià)值。依存樹庫因此日益受到重視,許多學(xué)者研究將現(xiàn)有的短語結(jié)構(gòu)樹庫轉(zhuǎn)換為依存樹庫[4-6]。
就漢語而言,目前成規(guī)模的樹庫主要有賓州中文樹庫、清華中文樹庫、北大中文樹庫、教育部語用所樹庫和哈工大依存樹庫。在現(xiàn)有樹庫的基礎(chǔ)上,本研究提出一套以依存語法為核心的多視圖漢語樹庫標(biāo)注體系,該體系僅需標(biāo)注中心語和語法角色(指主、謂、賓、定、狀、補(bǔ)等句法成分)兩種信息,可以自動(dòng)推導(dǎo)出短語功能信息(指NP、VP、ADJP等短語功能信息)和層次信息,從而在標(biāo)準(zhǔn)的依存樹庫基礎(chǔ)上自動(dòng)生成短語結(jié)構(gòu)樹庫?;诒疚乃岢龅臉?biāo)注體系,我們開發(fā)了“北京大學(xué)多視圖漢語樹庫1.0版”。
本文其余部分組織如下: 第2節(jié)簡單介紹相關(guān)研究;第3節(jié)介紹我們提出的多視圖樹庫標(biāo)注體系;第4節(jié)介紹我們所構(gòu)建的多視圖樹庫的基本情況;最后一節(jié)是結(jié)語和展望。
除去通過自動(dòng)轉(zhuǎn)換得到的樹庫以外,世界上成規(guī)模的樹庫主要是短語結(jié)構(gòu)樹和依存樹兩種類型。這兩種類型中,又以短語結(jié)構(gòu)樹庫影響最大、使用最廣。比如在英語和漢語中,主要的樹庫都是短語結(jié)構(gòu)樹庫。從短語結(jié)構(gòu)樹出發(fā),通過自動(dòng)轉(zhuǎn)換的形式產(chǎn)生了中心語驅(qū)動(dòng)的短語結(jié)構(gòu)語法(HPSG)、詞匯功能語匯法(LFG)、組合范疇語法(CCG)等多種類型的樹庫,許多依存樹庫也是從短語結(jié)構(gòu)樹庫轉(zhuǎn)換來的。
多數(shù)短語結(jié)構(gòu)樹和依存樹并不依賴于特定的語法理論,短語結(jié)構(gòu)樹和依存樹之間的區(qū)別主要在于標(biāo)注信息的側(cè)重點(diǎn)不同。句法結(jié)構(gòu)的描寫中可以包括詞類、層次、語法結(jié)構(gòu)關(guān)系、短語整體功能等信息[7],其中結(jié)構(gòu)關(guān)系又可以分解為中心語和語法角色兩個(gè)信息。短語結(jié)構(gòu)樹是一棵層次樹,其中突顯的是層次信息;此外,由于在自動(dòng)句法分析中基于生成式規(guī)則的(概率)上下文無關(guān)文法較為流行,在標(biāo)注短語結(jié)構(gòu)樹時(shí)短語整體功能信息就成了另外一個(gè)突顯的信息;中心語和語法角色信息相對而言不受重視。相比于短語結(jié)構(gòu)樹,依存樹缺少了短語這一級中間結(jié)點(diǎn),直接描寫詞與詞之間的關(guān)系,因此突顯的是中心語信息和語法角色信息,層次和短語功能信息在其中均沒有直接表示。
目前成規(guī)模的中文樹庫主要有賓州中文樹庫[8]、Sinica中文樹庫[9]、清華中文樹庫[10]、國家語委中文樹庫[11]、北大中文樹庫[12]和哈工大中文依存樹庫[13]。這些樹庫的基本信息如表 1所示。
表1 現(xiàn)有中文樹庫基本信息一覽表
除了樹庫轉(zhuǎn)換之外,多表達(dá)形式(Multi-representational)樹庫是另外一種可行的思路。Xia等[14]介紹了構(gòu)建Hindi/Urdu語多表達(dá)形式樹庫的計(jì)劃,并認(rèn)為下一代樹庫應(yīng)該是多表達(dá)形式的樹庫,各表達(dá)形式之間可以相互轉(zhuǎn)換。由于該樹庫及其詳細(xì)規(guī)范尚未發(fā)布,所以目前還不知道其細(xì)節(jié)情況。
3.1 多視圖樹的定義與基本框架
對同一個(gè)句子,基于同一個(gè)數(shù)據(jù)源,提供多種視圖,如依存視圖、短語結(jié)構(gòu)視圖、組合范疇語法視圖等。我們稱這種樹為多視圖樹。一般意義上的依存樹、短語結(jié)構(gòu)樹或組合范疇語法樹可以視為單視圖樹。
多視圖樹的“多”首先體現(xiàn)在構(gòu)建階段。在構(gòu)建多視圖樹時(shí),可以選一個(gè)視圖作為中心視圖,其他視圖與中心視圖共享數(shù)據(jù)、彼此之間可以相互轉(zhuǎn)換。
多視圖樹的“多”還體現(xiàn)在使用階段。在使用階段,多視圖樹不僅僅為同一個(gè)句子提供多種體系的句法分析結(jié)果,更重要的是這些不同體系的句法分析結(jié)果具有相同數(shù)據(jù)來源,不同視圖只是同一數(shù)據(jù)來源的不同表現(xiàn)形式而已。
本文設(shè)定的多視圖漢語樹庫基本框架為: 以依存視圖為核心,在句法層面上僅僅標(biāo)注中心語和語法角色兩類信息,通過層次生成程序和結(jié)構(gòu)功能映射規(guī)則自動(dòng)地產(chǎn)生層次信息和短語結(jié)構(gòu)功能信息,從而自動(dòng)轉(zhuǎn)換出相應(yīng)的短語結(jié)構(gòu)樹;在語義層面上,通過對部分語法標(biāo)簽的細(xì)化進(jìn)一步標(biāo)注語義角色標(biāo)簽,并通過虛詞的格傳遞來保證語法依存和語義依存在中心語上的一致性;在以上視圖的基礎(chǔ)上再生成組合范疇語法視圖。最終生成的多視圖樹庫可以含有語法依存視圖、短語結(jié)構(gòu)視圖、組合范疇視圖和語義依存視圖等多個(gè)視圖。
在本文中,我們主要討論含有短語結(jié)構(gòu)語法和依存語法兩個(gè)視圖的多視圖樹,其中需要解決的關(guān)鍵問題是短語整體功能的推導(dǎo)和層次信息的推導(dǎo)。
3.2 短語功能和層次信息的可推導(dǎo)性及解決辦法
3.2.1 整體功能的可推導(dǎo)性及推導(dǎo)方法
對于短語整體功能的可推導(dǎo)性,漢語學(xué)界很早就有過討論。朱德熙先生[15]提出,“內(nèi)部構(gòu)造相同的結(jié)構(gòu),功能一般相同;功能相同的結(jié)構(gòu),內(nèi)部構(gòu)造不一定相同?!?陳保亞先生[16]則將之總結(jié)為結(jié)構(gòu)功能原則,“如果兩個(gè)言語片斷的直接成分功能相同,結(jié)構(gòu)關(guān)系相同,它們的功能也相同。”“這個(gè)規(guī)律叫做結(jié)構(gòu)功能原則。根據(jù)這一原則,只要知道了直接成分的功能和結(jié)構(gòu)關(guān)系,結(jié)構(gòu)功能就知道了”。換言之,我們知道了具有依存關(guān)系的兩個(gè)詞的詞類以及它們之間語法關(guān)系的類型,這兩個(gè)詞構(gòu)成的短語的功能也就可以推導(dǎo)出來了。
按照結(jié)構(gòu)功能原則,推導(dǎo)短語整體功能時(shí)在每一步都需要知道直接成分的功能。依存樹中只標(biāo)注了詞的功能標(biāo)記,沒有短語的功能標(biāo)記,但是通過遞歸的方式,可以依次獲得各短語直接成分的功能標(biāo)記。
本文使用短語功能標(biāo)記作為推導(dǎo)的目標(biāo)標(biāo)記,推導(dǎo)短語整體功能的規(guī)則為: 父結(jié)點(diǎn)詞類+子結(jié)點(diǎn)詞類+語法角色=>短語整體功能標(biāo)記。例如,“v+n+VOB=>VP”表示父結(jié)點(diǎn)詞類為動(dòng)詞(v)、子結(jié)點(diǎn)詞類為名詞(n)、子結(jié)點(diǎn)充當(dāng)父結(jié)點(diǎn)的賓語(VOB),則整個(gè)短語的功能類型為動(dòng)詞性短語VP。
通過設(shè)計(jì)不同的規(guī)則體系,可以從同樣的依存樹庫生成不同體系的短語結(jié)構(gòu)樹庫。目前,我們已經(jīng)設(shè)計(jì)出針對北大中文樹庫和賓州中文樹庫兩套體系的推導(dǎo)規(guī)則。
3.2.2 層次的可推導(dǎo)性及推導(dǎo)方法
對于整體功能的可推導(dǎo)性,學(xué)界基本上是有共識的;層次的可推導(dǎo)性,目前卻很少有人論及。本文中將以并列結(jié)構(gòu)為例來分析層次推導(dǎo)過程中的歧義及其消解辦法。
并列結(jié)構(gòu)是一類比較特殊的結(jié)構(gòu),從依存樹轉(zhuǎn)換到短語結(jié)構(gòu)樹的過程中,并列結(jié)構(gòu)的子結(jié)點(diǎn)在與父結(jié)點(diǎn)結(jié)合時(shí)會面臨歧義,其子結(jié)點(diǎn)可能依附于并列結(jié)構(gòu)多個(gè)并列成分中的一個(gè),也可能依附于整個(gè)并列結(jié)構(gòu)。如果以并列結(jié)構(gòu)中最左側(cè)的并列成分為核心結(jié)點(diǎn),則左邊的子結(jié)點(diǎn)可能依附于最左側(cè)的并列成分,也可能依附于整個(gè)并列結(jié)構(gòu);如果以最右側(cè)的并列成分為核心結(jié)點(diǎn),則右邊的子結(jié)點(diǎn)可能依附于最右側(cè)的并列成分,也可能依附于整個(gè)并列結(jié)構(gòu)。
例如,在以最右側(cè)并列成分為核心結(jié)點(diǎn)的情況下,圖 1中“建立和完善”是一個(gè)并列結(jié)構(gòu),“各地”是并列結(jié)構(gòu)的一個(gè)子結(jié)點(diǎn),它依附于整個(gè)并列結(jié)構(gòu),為兩個(gè)并列成分所共享,位于父結(jié)點(diǎn)的左側(cè);“市場”也是并列結(jié)構(gòu)的一個(gè)子結(jié)點(diǎn),它也依附于整個(gè)并列結(jié)構(gòu),為兩個(gè)并列成分所共享,位于父結(jié)點(diǎn)的右側(cè)。在圖 2中,“充滿生機(jī)、充滿希望”是一個(gè)并列結(jié)構(gòu),“希望”只是并列結(jié)構(gòu)中的一個(gè)并列成分的子結(jié)點(diǎn),而不是整個(gè)并列結(jié)構(gòu)的子結(jié)點(diǎn)。從依存樹上看,圖 1 中的“市場”和圖 2 中的“希望”均依存于最右側(cè)的并列成分,但是在前一個(gè)句子中,“市場”事實(shí)上依附于整個(gè)并列結(jié)構(gòu),為并列成分所共享;在后一個(gè)句子中,“希望”事實(shí)上只依附于最右側(cè)的并列成分,不為其它并列成分所共享。在轉(zhuǎn)換到短語結(jié)構(gòu)樹時(shí),僅依存于一個(gè)并列成分的子結(jié)點(diǎn)與依存于整個(gè)并列結(jié)構(gòu)的子結(jié)點(diǎn)就會難以區(qū)分。以最左側(cè)并列成分為核心結(jié)點(diǎn)時(shí)會有類似的問題,在此不再贅述。
為了解決并列結(jié)構(gòu)的層次歧義問題,本文將并列結(jié)構(gòu)區(qū)分為共享并列(COS)和一般并列(COO)。所謂共享并列指的是,兩個(gè)或多個(gè)并列成分共享右邊的子結(jié)點(diǎn),右邊的子結(jié)點(diǎn)從依存樹上看只指向并列結(jié)構(gòu)最右側(cè)的結(jié)點(diǎn)(即并列結(jié)構(gòu)的核心結(jié)點(diǎn)),實(shí)際上卻是并列結(jié)構(gòu)中多個(gè)并列成分共享的子結(jié)點(diǎn)。共享并列之外的并列為一般并列,其中的并列成分不共享右邊的子結(jié)點(diǎn)。因此,圖 1中的并列結(jié)構(gòu)為共享并列(COS),圖 2中的并列結(jié)構(gòu)為一般并列(COO)。通過共享并列和一般并列的區(qū)分,可以較好地解決將依存樹轉(zhuǎn)換到短語結(jié)構(gòu)樹時(shí)推導(dǎo)并列結(jié)構(gòu)層次時(shí)所面臨的歧義。
限于篇幅問題,詳細(xì)的層次推導(dǎo)算法將另文敘述。
圖1 含并列結(jié)構(gòu)的依存樹示例1
圖2 含并列結(jié)構(gòu)的依存樹示例2
3.3 支持多視圖的依存語法標(biāo)注體系
設(shè)計(jì)支持多視圖的依存語法標(biāo)注體系的主要工作是發(fā)現(xiàn)視圖轉(zhuǎn)換時(shí)的歧義,并通過語法標(biāo)注體系的設(shè)計(jì)和約定來消解這些歧義,上文中共享并列與一般并列的區(qū)分就是一個(gè)典型的例子。根據(jù)從中心語和語法角色出發(fā)推導(dǎo)層次和短語整體功能信息的需要,本文提出如表2所示的依存語法標(biāo)注體系,共含有30個(gè)語法角色標(biāo)簽,這些語法角色大體上可以分為三類。
表2 支持多視圖的依存語法標(biāo)注體系
第一大類是句子的核心結(jié)點(diǎn)以及與謂詞中心語具有直接依存關(guān)系的結(jié)點(diǎn),稱之為主干成分,共11個(gè)。其中“核心、主語、賓語、補(bǔ)語、狀語、時(shí)體、連動(dòng)”等標(biāo)記與一般語法書中所講的基本一致,“話題”用于標(biāo)示一般所說的主謂謂語句中的大主語,“強(qiáng)調(diào)”用于標(biāo)示一般所說的客體提前到主語之后、動(dòng)詞之前的現(xiàn)象,“間接賓語”用于標(biāo)示雙賓語中的近賓語,“行為賓語”用于標(biāo)示兼語句。
第二大類是與謂詞中心語的子結(jié)點(diǎn)或?qū)O子結(jié)點(diǎn)具有直接依存關(guān)系的結(jié)點(diǎn),稱之為局部成分,共九個(gè)。其中“定語、數(shù)字、數(shù)量、介賓、同位”與一般語法書中所講的基本一致,“數(shù)量補(bǔ)語”用于標(biāo)示后置的起修飾功能的數(shù)量結(jié)構(gòu),“的字、地字、得字”分別用于標(biāo)示依附于“的、地、得”充當(dāng)定語、狀語和補(bǔ)語的成分。
第三大類是一些較為特殊的結(jié)點(diǎn),共十個(gè)。其中,“前附加、后附加”用于標(biāo)示連詞、語氣詞及一些助詞等,“獨(dú)立成分、并列式獨(dú)立成分”均指獨(dú)立于句子的主謂賓結(jié)構(gòu)之外的成分,“重疊”主要指動(dòng)詞重疊現(xiàn)象,“并列、共享并列”均指并列結(jié)構(gòu),“小句”用于標(biāo)示小句的核心結(jié)點(diǎn)與另一個(gè)小句核心結(jié)點(diǎn)之間的關(guān)系,“標(biāo)點(diǎn)、跨句標(biāo)點(diǎn)”之間的區(qū)別在于是否跨一個(gè)以上的小句。這些特殊標(biāo)記的設(shè)置也是為了消解視圖轉(zhuǎn)換時(shí)的層次歧義。
根據(jù)本文所設(shè)計(jì)的視圖轉(zhuǎn)換算法(包括整體功能推導(dǎo)和層次推導(dǎo)),可以將圖1和圖2所示的依存樹分別轉(zhuǎn)換成圖3和圖4所示的短語結(jié)構(gòu)樹(賓州中文樹庫格式*在圖中沒有顯示由詞類直接上升的短語功能標(biāo)記。另外,該短語結(jié)構(gòu)樹是嚴(yán)格的二叉樹,這也是不同于賓州中文樹庫的地方。如需要,每個(gè)短語功能標(biāo)記上還可以顯示兩個(gè)直接成分之間的語法結(jié)構(gòu)關(guān)系標(biāo)記。)。在轉(zhuǎn)換過程中,通過共享并列和一般并列的區(qū)分,可以解決并列結(jié)構(gòu)所帶來的層次歧義問題。例如,圖1中,“建立”和“完善”之間的語法角色是共享并列(COS),“組織”和“引導(dǎo)”之間的語法角色也是COS,所以兩個(gè)動(dòng)詞先組合成VP,然后再帶賓語。圖2中,兩個(gè)“充滿”之間的語法角色是一般并列(COO),所以兩個(gè)動(dòng)詞先分別帶一個(gè)賓語,組成兩個(gè)VP,兩個(gè)VP再組合形成一個(gè)更大的VP。
圖3 從依存視圖轉(zhuǎn)換得到的短語結(jié)構(gòu)視圖例1
基于上述體系,我們制定了一部比較完整的句法樹庫標(biāo)注規(guī)范,并開發(fā)了一套支持短語結(jié)構(gòu)語法和依存語法兩個(gè)視圖的標(biāo)注工具。該工具的主要功能有: 編輯依存弧和標(biāo)簽,查詢詞、詞性、語法角色或特定結(jié)構(gòu),檢測視圖轉(zhuǎn)換錯(cuò)誤,檢測標(biāo)注錯(cuò)誤,檢測標(biāo)注不一致現(xiàn)象等。
使用上述規(guī)范和工具, 我們已經(jīng)進(jìn)行了大規(guī)模樹庫的標(biāo)注實(shí)踐。部分語料采用兩個(gè)標(biāo)注人員雙盲標(biāo)注、第三方校對的標(biāo)注方式完成;部分語料采用雙遍校對的方式完成。目前已經(jīng)完成標(biāo)注的語料為2000年1月份和1998年1月份1~10日10天的《人民日報(bào)》語料,共計(jì)64 000句140萬詞。我們將該樹庫命名為“北京大學(xué)多視圖中文樹庫1.0版”,并于2014年年底發(fā)布,其中1998年1月份1~10日10天共計(jì)14 000句語料將面向國內(nèi)學(xué)術(shù)界免費(fèi)共享*具體信息發(fā)布在http://klcl.pku.edu.cn/上,敬請留意。。該版本樹庫支持短語結(jié)構(gòu)語法和依存語法兩個(gè)視圖,其中依存語法視圖使用本文所提出的標(biāo)注體系,短語結(jié)構(gòu)語法視圖基本采用賓州中文樹庫的標(biāo)注體系。
在本文中,我們提出了一套以依存語法為核心的多視圖漢語樹庫標(biāo)注體系,并介紹了基于該體系構(gòu)建的“北京大學(xué)多視圖中文樹庫1.0版”的基本情況。受篇幅所限,本文只做框架性的介紹,文中所提及的整體功能推導(dǎo)方法、層次推導(dǎo)算法(包括算法的可靠性測試)、樹庫標(biāo)注規(guī)范、樹庫標(biāo)注工具等未詳細(xì)說明,將另文介紹。
后續(xù)發(fā)布的版本將會從以下幾個(gè)方面升級: (1)增加視圖類別。陸續(xù)提供組合范疇語法視圖、語義角色視圖、篇章結(jié)構(gòu)視圖等;(2)擴(kuò)展語料范圍。語料涉及的領(lǐng)域?qū)U(kuò)展到微博、產(chǎn)品評論、問答和專利等;(3)擴(kuò)大語料規(guī)模。在2014年年底以前達(dá)到300萬詞以上的規(guī)模。
[1] M P Marcus, B Santorin, M A Marcinkiewicz. Building a large annotated corpus of English: the Penn Treebank[J]. Computational Linguistics, 1993, 19(2): 313-330.
[2] M Collins. A Statistical Dependency Parser Of Chinese Under Small Training Data[C]//Proceedings of the 34th Annual Meeting of the ACL, 1996: 184-191.
[3] M Collins. Three Generative, Lexicalized Models for Statistical Parsing[C]//Proceedings of the 35th annual meeting of the association for computational linguistics, 1997: 16-23.
[4] H Yamada, Y Matsumoto. Statistical Dependency Analysis with Support Vector Machines[C]//Proceedings of the 8th International Workshop on Parsing Technologies (IWPT), 2003: 195-206.
[5] 黨政法,周強(qiáng).短語樹到依存樹的自動(dòng)轉(zhuǎn)換研究[J].中文信息學(xué)報(bào),2005,19(3): 21-27.
[6] 李正華,車萬翔,劉挺.短語結(jié)構(gòu)樹庫向依存樹庫轉(zhuǎn)化研究[J].中文信息學(xué)報(bào),2008,22(6): 14-19.
[7] 朱德熙.現(xiàn)代漢語語法研究[M].北京: 商務(wù)印書館,1979: 42-66.
[8] N Xue, F Xia, F D Chiou, et al. The Penn Chinese Treebank: Phrase Structure Annotation of a Large Corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238.
[9] 陳鳳儀,蔡碧芳,陳克健,等. 中文句結(jié)構(gòu)樹資料庫 (Sinica Treebank)的構(gòu)建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4(2): 87-104.
[10] 周強(qiáng).漢語句法樹庫標(biāo)注體系[J].中文信息學(xué)報(bào),2004,18(4): 1-8.
[11] 靳光瑾,肖航,富麗,等.現(xiàn)代漢語語料庫建設(shè)及深加工[J].語言文字應(yīng)用,2005(2): 111-120.
[12] 詹衛(wèi)東.樹庫在漢語語法輔助教學(xué)中的應(yīng)用初探[J]. Journal of Technology and Chinese Language Teaching, 2012, 3(2): 16-29.
[13] W Che, Z Li, T Liu. Chinese Dependency Treebank 1.0[DB]. Linguistic Data Consortium, Philadelphia.
[14] F Xia, O Rambow, R Bhatt, et al. Palmer. Towards a Multi-Representational Treebank[C]//Proceedings of The 7th International Workshop on Treebanks and Linguistic Theories (TLT 2009), 2009: 159-170.
[15] 朱德熙.語法講義[M].北京: 商務(wù)印書館,1982: 21.
[16] 陳保亞.20世紀(jì)中國語言學(xué)方法論[M].濟(jì)南: 山東教育出版社,1999: 106-107.
A Multi-view Chinese Treebank Based on Dependency Grammar
QIU Likun1,2, JIN Peng2,3, WANG Houfeng2
(1. Key Laboratory of Language Resource Development and Application of Shandong, School of Chinese Language and Literature, Ludong University, Yantai, Shandong 260045, China; 2. Institute of Computational Linguistics, Peking University, Beijing 100871, China; 3. Lab of Intelligent Information Processing and Application, Leshan Normal University, Leshan, Sichuan 614004, China)
Treebank is an important resource for natural language processing. All the existing dependency treebanks and phrase structure treebanks might be taken as single-view treebanks. This paper proposed a schema for building a multi-view Chinese treebank based on dependency grammar. In this schema, we only need to annotate the head information and syntactic role of a child node, and then could infer the phrase structure function and hierarchy information of the phrase, which can greatly improve the efficiency of the labeling process without losing information. According to this schema, we built the treebank PKU Multi-view Chinese Treebank (PMT) version 1.0, which contains 64 000 sentences and 1.4 million words, and supports the phrase structure grammar view and dependency grammar view.
Multi-view Chinese treebank; phrase structure grammar; dependency grammar
1003-0077(2015)03-0009-07
2013-04-08 定稿日期: 2013-07-24
國家863計(jì)劃主題項(xiàng)目(2012AA011101);國家社科基金重大項(xiàng)目(12&ZD227);國家自然科學(xué)基金青年項(xiàng)目(61103089);山東省優(yōu)秀中青年科學(xué)家科研獎(jiǎng)勵(lì)基金(BS2013DX020);魯東大學(xué)人文社會科學(xué)研究項(xiàng)目(WY2013003)。
TP391
A