張引兵,宋繼華,彭煒明,趙亞偉,宋天寶
(1. 北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京100875;2. 淮北師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,安徽 淮北235000)
樹庫是標(biāo)注了句法信息的語料庫,是一種深度標(biāo)注的語言知識(shí)資源。一般來說,一個(gè)句子雖然表面上呈現(xiàn)詞語的線性排列,但其內(nèi)部的成分組織還是存在一定層次結(jié)構(gòu)的。這種層次結(jié)構(gòu)通常用“樹”這種形式工具來表示,大量句子及其對(duì)應(yīng)的樹結(jié)構(gòu)的集合就構(gòu)成了樹庫[1]。然而,標(biāo)注樹庫是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,需要完善的標(biāo)注體系和規(guī)范的標(biāo)注流程以保證標(biāo)注的質(zhì)量。另一方面,由于標(biāo)注規(guī)范的復(fù)雜性,需要標(biāo)注者擁有相關(guān)的專業(yè)背景。即使這樣,標(biāo)注者對(duì)句子不同的理解也會(huì)產(chǎn)生不同的標(biāo)注結(jié)果,這為樹庫的建設(shè)帶來了一定的困難。
基于上述弊端,目前樹庫的構(gòu)建主要有兩種方法: 一是構(gòu)建自動(dòng)句法分析器;二是對(duì)標(biāo)注好的另一種體系下的高質(zhì)量語料進(jìn)行轉(zhuǎn)換。對(duì)于第一種方法,梁欣、臧德滋等人[2]已做了相關(guān)的研究;對(duì)于第二種方法,黨政法[3]、李正華[4]、邱立坤[5-6]以及周惠巍等人[7]的研究也具有十分重要的意義。在樹庫的轉(zhuǎn)換研究中,Lin[8]較早地進(jìn)行了將短語結(jié)構(gòu)樹庫向依存結(jié)構(gòu)樹庫轉(zhuǎn)換的嘗試。Fei Xia[9]在Lin的基礎(chǔ)上對(duì)其算法進(jìn)行了進(jìn)一步的完善,完成了從Penn Treebank到依存樹庫的轉(zhuǎn)換,取得了較好的效果。另外,Hiroyasu Yamada[10]、Joakim Nivre[11]和Tylman Ule[12]等也進(jìn)行過一些樹庫轉(zhuǎn)換相關(guān)的研究??v觀各種不同結(jié)構(gòu)的樹庫,之所以能夠從一種結(jié)構(gòu)的樹庫向另一種結(jié)構(gòu)的樹庫進(jìn)行轉(zhuǎn)換,是因?yàn)檫@些不同結(jié)構(gòu)的樹庫標(biāo)注方法雖然不同,但它們主要描述的都是句法結(jié)構(gòu),在更深層次上具有一致性。
目前計(jì)算語言學(xué)研究者已經(jīng)為世界上許多語言構(gòu)造了一定規(guī)模的樹庫,漢語方面也有一定數(shù)量的樹庫。因此如何減少樹庫建設(shè)中的工作量就成為一個(gè)重要的研究課題。利用已有的樹庫向目標(biāo)樹庫進(jìn)行轉(zhuǎn)換,不僅可以減少重復(fù)勞動(dòng),還能提高工作效率。針對(duì)漢語樹庫,短語結(jié)構(gòu)和依存結(jié)構(gòu)的研究工作已經(jīng)相當(dāng)成熟,而句式結(jié)構(gòu)的研究才剛剛起步,其相關(guān)研究主要在北京師范大學(xué)語言與文字資源研究中心開展。所謂句式結(jié)構(gòu),即以句本位語法為理論指導(dǎo)的一種圖解語法結(jié)構(gòu)。北京師范大學(xué)語言與文字資源研究中心在句本位理論的研究基礎(chǔ)之上,開發(fā)了句式圖解標(biāo)注系統(tǒng),進(jìn)行句式結(jié)構(gòu)樹庫的構(gòu)建。實(shí)現(xiàn)了經(jīng)典的語法理論與現(xiàn)代信息技術(shù)的結(jié)合,將復(fù)雜的句式結(jié)構(gòu)通過句式圖解的方式直觀展現(xiàn),更好地揭示了蘊(yùn)含在語言內(nèi)部的層次關(guān)系,從而使學(xué)習(xí)者更容易理清句子各成分間的邏輯關(guān)系,把握整個(gè)句子的句式結(jié)構(gòu)。無論在中小學(xué)語文教學(xué)中,還是在國際漢語教學(xué)中都有著廣泛的應(yīng)用前景。本文旨在實(shí)現(xiàn)短語結(jié)構(gòu)向句式結(jié)構(gòu)的轉(zhuǎn)換,提高句式結(jié)構(gòu)樹庫的構(gòu)建效率,擴(kuò)充現(xiàn)有的句式結(jié)構(gòu)樹庫的規(guī)模。
目前,世界上成規(guī)模的樹庫主要有短語結(jié)構(gòu)樹庫和依存結(jié)構(gòu)樹庫兩種類型。在中文領(lǐng)域,成規(guī)模的中文樹庫主要有賓州中文樹庫、Sinica中文樹庫、清華中文樹庫、國家語委中文樹庫、北大中文樹庫、哈工大中文依存樹庫及北師大句本位句式結(jié)構(gòu)樹庫。其中,賓州中文樹庫、清華中文樹庫、國家語委中文樹庫、北大中文樹庫均為短語結(jié)構(gòu)樹庫[5]。下文給出了本文所采用的實(shí)驗(yàn)語料——清華短語結(jié)構(gòu)樹庫(如無特殊說明,后文短語結(jié)構(gòu)樹庫均指此庫)和北師大句式結(jié)構(gòu)樹庫的基本情況介紹與比較分析。
清華短語結(jié)構(gòu)樹庫由清華大學(xué)周強(qiáng)[13]等人構(gòu)建。語料規(guī)模約五萬句子、100萬詞,涵蓋文學(xué)、學(xué)術(shù)、新聞、應(yīng)用文等多個(gè)領(lǐng)域。以“美國 T.A.愛迪生發(fā)明了白熾燈。”為例,其存儲(chǔ)形式為“[zj-XX [dj-ZW [np-DZ 美國/nS T.A.愛迪生/nP ] [vp-PO [vp-AD 發(fā)明/v 了/u ] 白熾燈/n ] ] 。/。 ]”,圖 1展示了其短語結(jié)構(gòu)樹。
圖1 清華短語結(jié)構(gòu)樹示例
從圖1中可見,除了詞性節(jié)點(diǎn)(若不計(jì)詞形節(jié)點(diǎn),可視為葉節(jié)點(diǎn))外,非葉節(jié)點(diǎn)均按“功能標(biāo)記—結(jié)構(gòu)標(biāo)記”格式標(biāo)記短語信息,例如,其中的“dj-ZW”節(jié)點(diǎn),“dj”是其外部功能標(biāo)記,表明這是一個(gè)單句;“ZW”是內(nèi)部結(jié)構(gòu)標(biāo)記,表明其子節(jié)點(diǎn)是主謂關(guān)系。由于可以借助“短語”節(jié)點(diǎn)的層級(jí)嵌套,它可以刻畫較為細(xì)致的層次結(jié)構(gòu)(數(shù)據(jù)存儲(chǔ)時(shí)通過括號(hào)的嵌套層級(jí)表示)。
在清華短語結(jié)構(gòu)樹庫的標(biāo)注體系中,采用了16個(gè)短語功能標(biāo)記和27個(gè)句法關(guān)系標(biāo)記,詳細(xì)信息可以參考文獻(xiàn)[13]。
1.2.1 句本位語法理論
在所有樹庫項(xiàng)目的開發(fā)過程中,一個(gè)特別值得重視的發(fā)展趨勢是樹庫構(gòu)建與語法理論研究的緊密結(jié)合[7]。句本位語法是黎錦熙先生在《新著國語文法》中建立的語法理論體系。其主張是在以句子為研究對(duì)象的基礎(chǔ)上來研究語法,指出: “句本位的文法,退而分析,便是詞類底細(xì)目;進(jìn)而綜合,便成段落篇章之大觀。”[14]句本位語法以句子作為觀察點(diǎn)和立足點(diǎn),以句子成分和句法格局為主要特征,著力研究各類句式的結(jié)構(gòu)規(guī)律。這種語法體系是在借鑒西方傳統(tǒng)語法理論和體系,考慮漢語這種分析性語言的特殊性的基礎(chǔ)上建立起來的,注重句法與語義的統(tǒng)一[15]。
關(guān)于句本位語法的學(xué)術(shù)思想和理論價(jià)值,黃昌寧先生曾經(jīng)指出: “黎錦熙先生在《新著國語文法》中倡導(dǎo)的句本位語法體系和中心詞分析法具有鮮活的生命力?!盵16]所謂句本位語法,主要體現(xiàn)在兩個(gè)方面: 1)詞類上“依句辨品、離句無品”; 2)句法上采用中心詞分析法,并以圖解法作為析句工具。
1.2.2 句式結(jié)構(gòu)圖解標(biāo)注平臺(tái)
北京師范大學(xué)語言與文字資源研究中心的研究
著眼于現(xiàn)代漢語語法教學(xué)的實(shí)際需求,對(duì)黎氏體系中一些術(shù)語和圖形展現(xiàn)方式進(jìn)行了調(diào)整和完善。何靜[17]、彭煒明[18-21]、楊天心[22]等在圖解法的形式化及其樹庫的構(gòu)建方面進(jìn)行了深入的系統(tǒng)研究。在堅(jiān)持黎氏語法句本位析句思想的同時(shí),改進(jìn)了部分陳舊的術(shù)語和分析方式,力求實(shí)現(xiàn)與經(jīng)過多年發(fā)展的主流教學(xué)語法體系的兼容。按照“基本句式→擴(kuò)展句式→復(fù)雜句式”的思路設(shè)計(jì)出一套形式化的句式圖解系統(tǒng)方案,并實(shí)現(xiàn)了一個(gè)基于句本位語法的圖解標(biāo)注系統(tǒng)(見圖2),為漢語句式結(jié)構(gòu)圖解樹庫的構(gòu)建奠定了基礎(chǔ)。
圖2 基于句本位的句式圖解標(biāo)注平臺(tái)
圖解析句法形式化設(shè)計(jì)方案,包括可視化的圖解樣式與XML格式的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)兩個(gè)方面,二者是一種編碼與解碼的關(guān)系。一個(gè)具體例句的圖解及其XML結(jié)構(gòu)分別如圖3和圖 4所示,標(biāo)記集如表1和表2所示。
圖3 句式圖解結(jié)構(gòu)示例
圖4 XML結(jié)構(gòu)存儲(chǔ)示例
序號(hào)結(jié)構(gòu)成分標(biāo)記序號(hào)詞類標(biāo)記1整句ju1名詞n2小句xj2時(shí)間詞t3主語sbj3方位詞f4謂語prd4數(shù)詞m5賓語obj5量詞q6定語att6代詞r7狀語adv7動(dòng)詞v8補(bǔ)語cmp8形容詞a9獨(dú)立語ind9副詞d10介詞位pp10介詞p11連詞位cc11連詞c12助詞位1uu12助詞u13助詞位2un13嘆詞e14助詞位3uv14擬聲詞o15方位詞位ff15標(biāo)點(diǎn)w
表2 屬性標(biāo)記集
從圖、表中可見句式結(jié)構(gòu)特色主要有如下兩點(diǎn),更多的詳細(xì)信息可參考文獻(xiàn)[21]。
(1) 動(dòng)態(tài)詞。對(duì)詞庫中未收錄,而又不適合進(jìn)行句子成分切分的一些結(jié)構(gòu)做詞法標(biāo)注,即設(shè)置動(dòng)態(tài)詞單位。如圖3中的“修路工”“準(zhǔn)備了”。
(2) 虛詞位。對(duì)于不單獨(dú)充當(dāng)句子成分的虛詞(主要有介詞、連詞、助詞等),在結(jié)構(gòu)中設(shè)置“虛詞位”結(jié)點(diǎn),如圖4中“的”標(biāo)記為“
樹庫的構(gòu)建都是在特定的語法理論的框架下制定標(biāo)注規(guī)范的,不同結(jié)構(gòu)類型的樹庫之間最本質(zhì)的區(qū)別不在于采用了何種標(biāo)注體系,而在于依照何種語法體系制定的該標(biāo)注體系。從這個(gè)角度上講,短語結(jié)構(gòu)樹庫最本質(zhì)的特征在于其標(biāo)注體系的制定是站在“短語”的角度,采用了“短語中心”的語法理論,這種語法理論是通過直接描寫句子“直接成分”(如主謂、定中、述賓、附加等)的方式分析句子的結(jié)構(gòu),進(jìn)而制定標(biāo)注體系。而句式結(jié)構(gòu)樹庫是站在“句子”的角度,采用了“句子中心”的語法理論,是通過傳統(tǒng)語法中的主語、謂語、賓語等句子成分分析句子的結(jié)構(gòu),進(jìn)而制定標(biāo)注體系的,進(jìn)一步的論述可以參考文獻(xiàn)[23]。
句式結(jié)構(gòu)樹庫構(gòu)建過程中所采用的標(biāo)注體系為“句子成分分析法”,以“句子成分”作為節(jié)點(diǎn);而短語結(jié)構(gòu)體系采用“直接成分分析法”,句子成分信息蘊(yùn)含在“直接成分”節(jié)點(diǎn)的“結(jié)構(gòu)標(biāo)記”中。從短語結(jié)構(gòu)到句式結(jié)構(gòu)主要依據(jù)“結(jié)構(gòu)標(biāo)記”進(jìn)行轉(zhuǎn)換,而忽略“NP、VP”等“功能標(biāo)記”?;舅悸肥?,逐層地將句子成分從節(jié)點(diǎn)“結(jié)構(gòu)標(biāo)記”信息中提取出來,用于對(duì)應(yīng)轉(zhuǎn)換規(guī)則的確定。而對(duì)于一般的葉子節(jié)點(diǎn)則直接進(jìn)行轉(zhuǎn)換,即將“詞/詞性”直接轉(zhuǎn)換為“”。對(duì)于標(biāo)點(diǎn)符號(hào),可以看作這里的“詞”,而詞性統(tǒng)一使用“w”。
在具體轉(zhuǎn)換規(guī)則的制定過程中,將要轉(zhuǎn)換的對(duì)象分成兩類。一類是只涉及兩種體系下所采用的標(biāo)注體系不同,而不涉及體系本質(zhì)的不同。對(duì)于這一類,只需按照兩種體系的對(duì)應(yīng)關(guān)系,制定對(duì)應(yīng)的轉(zhuǎn)換規(guī)則,直接按照對(duì)應(yīng)轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換即可。另一類是由于兩種不同的標(biāo)注體系之間某些部分具有完全不同的本質(zhì)區(qū)別,因而需要進(jìn)行特殊結(jié)構(gòu)的單獨(dú)處理,進(jìn)行必要的人工干預(yù)。
在短語結(jié)構(gòu)的標(biāo)注體系中,大部分節(jié)點(diǎn)是二分結(jié)構(gòu),也有少量是多分結(jié)構(gòu),對(duì)于不同的情況應(yīng)區(qū)別對(duì)待。此處是否“二分”的判斷,僅從實(shí)義節(jié)點(diǎn)考慮,暫不計(jì)標(biāo)點(diǎn)符號(hào)、連詞、助詞等形式節(jié)點(diǎn)的影響。
2.1.1 二分結(jié)構(gòu)
短語結(jié)構(gòu)標(biāo)注體系中的二分結(jié)構(gòu)主要有缺省(XX)、主謂(ZW)、述賓(PO)、述補(bǔ)(SB)、定中(DZ)、狀中(ZZ)、連謂(LW)、介賓(JB)、方位(FW)等九種結(jié)構(gòu)形式,各節(jié)點(diǎn)的左右子樹分別以【LP】、【RP】表示。其轉(zhuǎn)換舉例如表 3所示。
表3 二分結(jié)構(gòu)的轉(zhuǎn)換規(guī)則
續(xù)表
2.1.2 多分結(jié)構(gòu)
短語結(jié)構(gòu)標(biāo)注體系中的多分結(jié)構(gòu)主要有聯(lián)合(LH)、兼語(JY)、框式(KS)等三種結(jié)構(gòu)形式。轉(zhuǎn)換舉例如表 4所示。
表4 非二分結(jié)構(gòu)的轉(zhuǎn)換規(guī)則
2.1.3 詞法結(jié)構(gòu)轉(zhuǎn)換規(guī)則
正如朱德熙先生所說: “句法研究的是句子的內(nèi)部構(gòu)造,以詞為基本單位;詞法研究的是詞的內(nèi)部構(gòu)造,以語素為基本單位??梢娋浞ê驮~法是兩個(gè)平面的東西?!盵24]句式結(jié)構(gòu)樹庫中的動(dòng)態(tài)詞結(jié)構(gòu)來源有二: 一是漢語中的構(gòu)形,二是句法構(gòu)詞。
根據(jù)葛本儀先生的研究[25],漢語中構(gòu)形分為附加式和重疊式兩類。附加式構(gòu)形主要是: 名詞加詞尾“們”表示多數(shù),動(dòng)詞加詞尾“著”“了”“過”表示進(jìn)行態(tài)、完成態(tài)和經(jīng)歷態(tài)。重疊式構(gòu)形主要有: “VV”“V了V”“V一V”“V不V”等,分別對(duì)應(yīng)短語結(jié)構(gòu)中的附加結(jié)構(gòu)(AD)和重疊結(jié)構(gòu)(CD),轉(zhuǎn)換規(guī)則如表5所示。
句式結(jié)構(gòu)中定義的句法構(gòu)詞種類很多,常見的如“數(shù)詞-量詞”構(gòu)成的數(shù)量詞結(jié)構(gòu)、“單音名詞+方位詞”構(gòu)成的處所名詞、動(dòng)結(jié)式動(dòng)詞、動(dòng)趨式動(dòng)詞,以及圖 3中的“修路工”等,并且句法構(gòu)詞與短語結(jié)構(gòu)之間的對(duì)應(yīng)關(guān)系相對(duì)復(fù)雜,轉(zhuǎn)換時(shí)具有一定的歧義性,詳見2.2節(jié)。
表5 詞法結(jié)構(gòu)轉(zhuǎn)換規(guī)則
續(xù)表
在由短語結(jié)構(gòu)向句式結(jié)構(gòu)進(jìn)行轉(zhuǎn)換的過程中,除了按照如上所述的對(duì)應(yīng)轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換之外,由于兩種體系結(jié)構(gòu)之間的差異及漢語語法及句式的復(fù)雜性、靈活性,在實(shí)際的轉(zhuǎn)換過程中,會(huì)出現(xiàn)轉(zhuǎn)換的歧義現(xiàn)象以及某些特定情形的不可預(yù)期性。
在短語結(jié)構(gòu)體系中關(guān)系標(biāo)記區(qū)分了各種復(fù)句類型,而句本位語法體系著重于對(duì)小句的分析,所以對(duì)于一般的復(fù)句結(jié)構(gòu),簡單地轉(zhuǎn)換為若干小句即可。例如,“財(cái)政是一個(gè)歷史范疇,它隨著國家的產(chǎn)生而產(chǎn)生。”其短語結(jié)構(gòu)字符串為: “[zj-XX [fj-LS [dj-ZW 財(cái)政/n [vp-PO 是/vC [np-DZ [mp-DZ 一/m 個(gè)/qN ] [np-DZ 歷史/n 范疇/n ] ] ] ],/,[dj-ZW 它/rN [vp-ZZ [pp-JB 隨著/p [np-DZ 國家/n 的/u 產(chǎn)生/vN ] ] [vp-XX 而/c 產(chǎn)生/v ] ] ] ] 。/。 ]”而在句式結(jié)構(gòu)語法體系中是將其分為“財(cái)政是一個(gè)歷史范疇,”“它隨著國家的產(chǎn)生而產(chǎn)生。”兩個(gè)單句來進(jìn)行處理的。故從這個(gè)角度而言,從短語結(jié)構(gòu)向句式結(jié)構(gòu)的轉(zhuǎn)換無法做到轉(zhuǎn)換的完全對(duì)應(yīng)。
2.2.1 緊縮復(fù)句
需要注意的是,短語結(jié)構(gòu)體系中的“緊縮復(fù)句”在句式結(jié)構(gòu)體系中分析為“聯(lián)合謂語”句。緊縮復(fù)句一般也為二分結(jié)構(gòu),其轉(zhuǎn)換規(guī)則為:
[fj-JS 【LP】【RP】] → 【LP】
2.2.2 含能愿動(dòng)詞的狀中結(jié)構(gòu)
在短語結(jié)構(gòu)中,“能愿動(dòng)詞+VP”的組合歸為狀中結(jié)構(gòu),例如,[vp-ZZ 能夠/vM 演化/v]。而句式結(jié)構(gòu)語法中能愿動(dòng)詞稱為“助動(dòng)詞”,其與VP的組合按“合成謂語”分析。因此,修正ZZ結(jié)構(gòu)的轉(zhuǎn)換規(guī)則為:
當(dāng)【LP】為: “助動(dòng)詞/vM”時(shí),[vp-ZZ 【LP】【RP】] →
2.2.3 連謂結(jié)構(gòu)
一般而言,短語結(jié)構(gòu)中的“連謂結(jié)構(gòu)”(LW)主要對(duì)應(yīng)句式結(jié)構(gòu)中的“連動(dòng)句”結(jié)構(gòu)。但句式結(jié)構(gòu)的“連動(dòng)句”定義更為嚴(yán)格,要求前后VP之間:
① 無關(guān)聯(lián)詞語;
② 為序列關(guān)系。
因此,表3中的[vp-LW 【LP】【RP】]的轉(zhuǎn)換規(guī)則需考慮以上兩種例外情形,例如:
① 在形式上多順應(yīng)中國戲曲及文明戲以適應(yīng)觀眾的欣賞趣味。
② 在雷達(dá)發(fā)明之前,利用脈沖無線電裝置測量電離層高度的工作已進(jìn)行多年。
按照句本位語法,①應(yīng)轉(zhuǎn)為聯(lián)合謂語句,可以通過判斷【RP】中連詞或關(guān)聯(lián)副詞的存在來識(shí)別;②應(yīng)轉(zhuǎn)為狀中結(jié)構(gòu),其轉(zhuǎn)換規(guī)則需要判斷兩個(gè)VP之間的語義關(guān)系,而并無具體的形式標(biāo)記可資利用。這可視為轉(zhuǎn)換中需要消解的結(jié)構(gòu)歧義之一。
2.2.4 動(dòng)態(tài)詞情形
分析短語結(jié)構(gòu)樹庫和句式結(jié)構(gòu)樹庫的語料標(biāo)注情況,可以看出在詞語層面分歧較多,主要表現(xiàn)在對(duì)“動(dòng)態(tài)詞”切分粒度的不同。句式結(jié)構(gòu)樹庫中“動(dòng)態(tài)詞”是指一般詞庫中沒有收錄,而在句法分析時(shí)又不適宜做進(jìn)一步句子成分切分的造句單位。動(dòng)態(tài)詞范圍非常廣泛,除專有名詞、慣用語外還包括大量的臨時(shí)性句法構(gòu)詞,如全校、桌椅、張老師、家里、看清、舉起、每天、五六年等[26]。
句式結(jié)構(gòu)樹庫中定義的句法構(gòu)詞種類很多,常見的如“數(shù)詞+量詞”構(gòu)成的數(shù)量詞結(jié)構(gòu)、“單音名詞+方位詞”構(gòu)成的處所名詞、動(dòng)結(jié)式動(dòng)詞、動(dòng)趨式動(dòng)詞等。為此,文獻(xiàn)[19]專門構(gòu)建了動(dòng)態(tài)詞結(jié)構(gòu)模式知識(shí)庫,以輔助句式結(jié)構(gòu)析句時(shí)的動(dòng)態(tài)詞識(shí)別。部分常用的動(dòng)態(tài)詞結(jié)構(gòu)模式如圖 5所示。
圖5 動(dòng)態(tài)詞結(jié)構(gòu)模式知識(shí)庫示例
動(dòng)態(tài)詞在短語結(jié)構(gòu)樹庫中又分為兩種情形:
① 是直接作為單詞標(biāo)記為葉子節(jié)點(diǎn);
② 是按短語結(jié)構(gòu)分析。
在句式結(jié)構(gòu)中,動(dòng)態(tài)詞則直接進(jìn)行詞法分析(見圖 3和圖 4)。在轉(zhuǎn)換過程中,①的情形因?yàn)闆]有對(duì)應(yīng)的內(nèi)部結(jié)構(gòu)信息,故直接轉(zhuǎn)換,留待后續(xù)人工分析;②則需要根據(jù)短語結(jié)構(gòu)類型及其內(nèi)部成分的音節(jié)數(shù)、語素是否自由及語義整合程度等約束條件進(jìn)行綜合判斷。具體可參考文獻(xiàn)[27]中所構(gòu)建的動(dòng)態(tài)詞結(jié)構(gòu)模式知識(shí)庫的應(yīng)用。
從短語結(jié)構(gòu)樹庫向句式結(jié)構(gòu)樹庫的轉(zhuǎn)換包括兩個(gè)方面: 一是在兩種不同的語法結(jié)構(gòu)體系下詞性標(biāo)記集的轉(zhuǎn)換;二是兩種不同句法結(jié)構(gòu)體系下對(duì)應(yīng)結(jié)構(gòu)層次的轉(zhuǎn)換。
3.1.1 數(shù)據(jù)預(yù)處理
句式結(jié)構(gòu)體系中詞性標(biāo)記粒度比短語結(jié)構(gòu)更粗,只設(shè)置了15個(gè)大詞類,轉(zhuǎn)換時(shí)一般取短語結(jié)構(gòu)體系中詞性標(biāo)記的第一個(gè)字母即可。如短語結(jié)構(gòu)中的詞性vN、rN、qC、nS、dN、aD等,在句式結(jié)構(gòu)體系下對(duì)應(yīng)的詞性分別為v、r、q、n、d、a等。特殊情況做相應(yīng)映射即可。短語結(jié)構(gòu)樹庫中的標(biāo)點(diǎn)符號(hào)是用其自身標(biāo)記的,句式結(jié)構(gòu)樹庫中標(biāo)點(diǎn)符號(hào)統(tǒng)一轉(zhuǎn)為“w”。采用這種轉(zhuǎn)換映射處理方式,使得詞性信息粒度變粗了,但并不會(huì)丟失詞性的大類信息,而句本位語法體系對(duì)詞類的劃分不要求太細(xì),故可以滿足后繼應(yīng)用的需要。
3.1.2 算法
結(jié)合清華短語結(jié)構(gòu)樹庫存儲(chǔ)結(jié)構(gòu)信息,算法1給出了短語結(jié)構(gòu)向句式結(jié)構(gòu)的轉(zhuǎn)換方法的算法描述。
算法1: 短語結(jié)構(gòu)向句式結(jié)構(gòu)的轉(zhuǎn)換方法輸入: 短語結(jié)構(gòu)字符串輸出: 句式結(jié)構(gòu)的XML數(shù)據(jù)
算法流程:
(1) 針對(duì)輸入的短語結(jié)構(gòu)形式的字符串,進(jìn)行數(shù)據(jù)的預(yù)處理操作。將短語結(jié)構(gòu)字符串中的詞性標(biāo)記符號(hào)和標(biāo)點(diǎn)標(biāo)記符號(hào)轉(zhuǎn)換為句式結(jié)構(gòu)對(duì)應(yīng)的詞性標(biāo)記符號(hào)和標(biāo)點(diǎn)標(biāo)記符號(hào)。
(2) 小句獲取。如果是復(fù)句,則先將其切分成小句;如果是單句,則可以直接對(duì)所輸入的數(shù)據(jù)進(jìn)行解析,構(gòu)造短語結(jié)構(gòu)樹。
(3) 從短語結(jié)構(gòu)樹的根節(jié)點(diǎn)出發(fā),逐層掃描短語結(jié)構(gòu)樹。針對(duì)掃描到的當(dāng)前節(jié)點(diǎn),判斷其是否為葉子節(jié)點(diǎn)(不計(jì)詞語節(jié)點(diǎn),視詞性節(jié)點(diǎn)為葉子節(jié)點(diǎn))。
① 如果當(dāng)前節(jié)點(diǎn)不是葉子節(jié)點(diǎn),首先判斷其是否滿足句法處理的要求,若滿足,則將節(jié)點(diǎn)的結(jié)構(gòu)標(biāo)記與句法結(jié)構(gòu)轉(zhuǎn)換規(guī)則中的結(jié)構(gòu)標(biāo)記進(jìn)行匹配并進(jìn)行對(duì)應(yīng)轉(zhuǎn)換;若不滿足,則結(jié)合動(dòng)態(tài)詞模式庫按照詞法轉(zhuǎn)換規(guī)則進(jìn)行對(duì)應(yīng)轉(zhuǎn)換。
② 如果當(dāng)前節(jié)點(diǎn)是葉子節(jié)點(diǎn),則繼續(xù)判別其父節(jié)點(diǎn)的功能標(biāo)記是否為VP。若其父節(jié)點(diǎn)的功能標(biāo)記為VP,則直接將該葉節(jié)點(diǎn)轉(zhuǎn)換為謂語成分,其轉(zhuǎn)換得到的句式結(jié)構(gòu)的形式為: “
(4) 生成句式結(jié)構(gòu)的XML文件。
算法1對(duì)應(yīng)的流程如圖6所示。
圖6 轉(zhuǎn)換算法流程圖
以“美國 T.A.愛迪生發(fā)明了白熾燈。”一句為例,其短語結(jié)構(gòu)字符串為 “[zj-XX [dj-ZW [np-DZ 美國/nS T.A.愛迪生/nP ] [vp-PO [vp-AD 發(fā)明/v 了/u ] 白熾燈/n ] ] 。/。 ]”。由于該句是單句,所以無需再切分。接著由預(yù)處理過的短語結(jié)構(gòu)字符串構(gòu)造類似于圖 1的短語結(jié)構(gòu)樹,結(jié)果如圖7所示。經(jīng)過算法1各步執(zhí)行之后,最后生成句式結(jié)構(gòu)的XML文件,如圖 8所示。
為了更加形象地對(duì)語料轉(zhuǎn)換前后的結(jié)構(gòu)進(jìn)行對(duì)比,搭建了一套可擴(kuò)展的可視化平臺(tái),用于不同句法結(jié)構(gòu)語料的可視化查看。圖 9為兩種結(jié)構(gòu)下的可視化展示界面。在圖 9所示的系統(tǒng)中,不僅能夠可視化查看不同的句法結(jié)構(gòu),而且可以對(duì)轉(zhuǎn)換后的語料是否正確進(jìn)行校對(duì),后期將陸續(xù)完善相關(guān)功能,將短語結(jié)構(gòu)向句式結(jié)構(gòu)、依存結(jié)構(gòu)向句式結(jié)構(gòu)的轉(zhuǎn)換集成其中。
在測試過程中,經(jīng)過對(duì)轉(zhuǎn)換結(jié)果的初步分析,我們發(fā)現(xiàn)句子的長度對(duì)轉(zhuǎn)換正確率有著較大的影響。在對(duì)文獻(xiàn)[28]中關(guān)于“清華漢語樹庫”語料句子長度分析的基礎(chǔ)上,綜合考慮了語料庫中全部句子的平均句長、簡單句的平均句長及復(fù)雜句的平均句長等因素,我們選取了句子長度為20個(gè)漢字和句子長度為30個(gè)漢字作為斷點(diǎn),對(duì)不同區(qū)間的轉(zhuǎn)換正確率進(jìn)行了統(tǒng)計(jì)。對(duì)清華短語結(jié)構(gòu)樹庫中的1 000條文本進(jìn)行了轉(zhuǎn)換正確率的測試,通過對(duì)轉(zhuǎn)換結(jié)果的校對(duì)統(tǒng)計(jì),發(fā)現(xiàn)其中轉(zhuǎn)換正確的句子有929句,總體正確率為92.9%。表 6給出了不同區(qū)間的句子長度對(duì)應(yīng)的轉(zhuǎn)換統(tǒng)計(jì)情況。
圖7 數(shù)據(jù)預(yù)處理后生成的短語結(jié)構(gòu)樹
圖8 轉(zhuǎn)換后的XML數(shù)據(jù)
圖9 多視圖可視化界面
表6 轉(zhuǎn)換正確率
由表6可以看出,當(dāng)句子長度在30個(gè)漢字以下時(shí),轉(zhuǎn)換的正確率都在90%以上。而當(dāng)句子長度在30個(gè)漢字以上時(shí),轉(zhuǎn)換的正確率則明顯地降低。在1 000句被測試的句子中,30個(gè)漢字以下的句子有829句,所以整體的轉(zhuǎn)換正確率還是比較理想的。實(shí)驗(yàn)結(jié)果表明: ①所設(shè)計(jì)的從短語結(jié)構(gòu)向句式結(jié)構(gòu)轉(zhuǎn)換的算法是切實(shí)可行的; ②轉(zhuǎn)換結(jié)果的總體正確率為92.9%,對(duì)于不是太長的句子而言,轉(zhuǎn)換結(jié)果的正確率都在90%以上; ③最終轉(zhuǎn)換結(jié)果的正確率與句子的長度密切相關(guān)。如果有些句子比較復(fù)雜,大多句子的長度達(dá)到了30字以上,其正確率會(huì)有明顯的下降。
通過對(duì)轉(zhuǎn)換不準(zhǔn)確的語料進(jìn)行分析,可以看出轉(zhuǎn)換不準(zhǔn)確的原因主要有兩個(gè)方面,一是原始標(biāo)注語料不一致。例如,在短語結(jié)構(gòu)語料中“專家學(xué)者”有的標(biāo)注為“[ np-DZ 專家/n 學(xué)者/n ]”,有的標(biāo)注為“[np-LH 專家/n 學(xué)者/n ]”,“小白菜”有的標(biāo)注為“小白菜/n”,有的標(biāo)注為“[ np-DZ 小/a 白菜/n ]” 等。二是動(dòng)態(tài)詞模式庫中所收集的結(jié)構(gòu)模式有限。由于動(dòng)態(tài)詞的結(jié)構(gòu)模式繁多,動(dòng)態(tài)詞知識(shí)庫中動(dòng)態(tài)詞的結(jié)構(gòu)模式不可能窮盡收集所有的結(jié)構(gòu)模式。因此,在由短語結(jié)構(gòu)向句式結(jié)構(gòu)進(jìn)行轉(zhuǎn)換的過程中,該部分內(nèi)容僅僅靠程序自動(dòng)地進(jìn)行轉(zhuǎn)換則無法達(dá)到完全的一致,這更多地依賴于動(dòng)態(tài)詞知識(shí)庫應(yīng)用過程中的不斷完善。
本文從短語結(jié)構(gòu)和句式結(jié)構(gòu)的區(qū)別與聯(lián)系入手,設(shè)計(jì)了一種將短語結(jié)構(gòu)自動(dòng)轉(zhuǎn)換為句式結(jié)構(gòu)的算法,實(shí)現(xiàn)了從短語結(jié)構(gòu)向句式結(jié)構(gòu)的自動(dòng)轉(zhuǎn)換。為句式樹庫的構(gòu)建提供了一種由已有的短語結(jié)構(gòu)樹庫通過自動(dòng)轉(zhuǎn)換的方式快速構(gòu)建樹庫的方法。并以清華短語結(jié)構(gòu)樹庫(TCT)為測試語料,實(shí)現(xiàn)了將大規(guī)模短語結(jié)構(gòu)語料向句式結(jié)構(gòu)語料的轉(zhuǎn)換。
另外,本文在設(shè)計(jì)了從短語結(jié)構(gòu)向句式結(jié)構(gòu)自動(dòng)轉(zhuǎn)換算法的基礎(chǔ)之上,還搭建了一套可擴(kuò)展的可視化系統(tǒng),用于不同句法結(jié)構(gòu)語料的可視化查看。通過句法結(jié)構(gòu)體系分析的可視化系統(tǒng),我們可以方便地比較從短語結(jié)構(gòu)向句式結(jié)構(gòu)轉(zhuǎn)換的正確情況,研究兩種體系下的語料規(guī)律。下一步的工作主要是從轉(zhuǎn)換不準(zhǔn)確的語料入手,特別是對(duì)于較長的句子,找出影響轉(zhuǎn)換正確性的因素,進(jìn)一步提高轉(zhuǎn)換算法的精度,同時(shí)向系統(tǒng)中添加依存結(jié)構(gòu)向句式結(jié)構(gòu)的轉(zhuǎn)換模塊,實(shí)現(xiàn)一套多視圖的漢語樹庫自動(dòng)轉(zhuǎn)換系統(tǒng)。
[1] 王躍龍,姬東鴻. 漢語樹庫綜述[J]. 當(dāng)代語言學(xué),2009,(01): 47-55,94.
[2] 梁欣,臧德滋.自然語言句法分析器自動(dòng)構(gòu)造系統(tǒng)[C]. 全國計(jì)算機(jī)語言系聯(lián)合學(xué)術(shù)會(huì)議,1993.
[3] 黨政法,周強(qiáng). 短語樹到依存樹的自動(dòng)轉(zhuǎn)換研究[J]. 中文信息學(xué)報(bào),2005,19(03): 21-27.
[4] 李正華,車萬翔,劉挺,等.短語結(jié)構(gòu)樹庫向依存結(jié)構(gòu)樹庫轉(zhuǎn)化研究[J].中文信息學(xué)報(bào), 2008, 22(6): 14-19.
[5] 邱立坤. 多視圖漢語樹庫構(gòu)建的理論研究與實(shí)踐[R]. 北京: 北京大學(xué)博士后研究工作報(bào)告,2012.
[6] 邱立坤,金澎,王厚峰. 基于依存語法構(gòu)建多視圖漢語樹庫[J]. 中文信息學(xué)報(bào), 2015,29: 9-15.
[7] 周惠巍,黃德根. 短語結(jié)構(gòu)到依存結(jié)構(gòu)樹庫轉(zhuǎn)換研究[J]. 大連理工大學(xué)學(xué)報(bào),2010(04): 609-613.
[8] Lin D. A dependency-based method for evaluating broad-coverage parsers[C]//Proceedings of IJCAI. Montreal, Quebec, Canada, 1995: 97-114.
[9] Fei Xia, Martha Palmer. Converting dependency structures to phrase structures[C]//Proceedings of the Human Language Technology Conference(HLT). San Diego, CA, 2001: 1-5.
[10] Hiroyasu Yamada, Yuji Matsumoto. Statistical dependency analysis with support vector machines[C]//Proceedings of 8th International Workshop on Parsing Technologies, 2003: 195-206.
[11] Joakim Nivre, Mario Scholz. Deterministic dependency parsing of English text [C]//Proceedings of COLING,2004.
[12] Tylman Ule, Sandra Kǜbler: From phrase structure to dependencies, and Back[C]//Proceedings of the International Conference on Linguistic Evidence, Tǜbingen, Germany, January , 2004.
[13] 周強(qiáng). 漢語句法樹庫標(biāo)注體系[J]. 中文信息學(xué)報(bào),2004,18(04): 1-8.
[14] 黎錦熙. 新著國語文法[M]. 北京: 商務(wù)印書館, 1992.
[15] 廖序東. 論句本位語法[J]. 北京師范大學(xué)學(xué)報(bào),1990,(02): 7-14.
[16] 黃昌寧,李玉梅.從樹庫的實(shí)踐看句本位和中心詞分析法的生命力[J].北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2010,(5): 53-58.
[17] Jing He, Weiming Peng, Jihua Song, et al. Annotation schema for contemporary Chinese based on JinXi Li’s grammar system[C]//Proceedings of the 14th Chinese Lexical Semantics Workshop(CLSW2013), LNAI,Volume 8229, Springer,2013: 668-681.
[18] 彭煒明,宋繼華,王寧. 基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計(jì)[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,06: 11-18.
[19] 彭煒明,宋繼華,俞士汶. 中文信息處理的詞法問題——以句本位語法圖解樹庫構(gòu)建為背景[J]. 中文信息學(xué)報(bào),2014,28(02): 1-7.
[20] 彭煒明. 析句圖解法及其信息化[J]. 暨南學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2014, 36(7): 106-112.
[21] 彭煒明. 句本位語法樹庫構(gòu)建及其在對(duì)外漢語教學(xué)中的應(yīng)用[R]. 北京: 北京大學(xué)博士后研究工作報(bào)告,2014.
[22] 楊天心,彭煒明,宋繼華. 基于句式結(jié)構(gòu)的高效語法圖解標(biāo)注系統(tǒng)[J]. 中文信息學(xué)報(bào), 2014,28(04): 43-49,67.
[23] 何靜,彭煒明,宋繼華. 漢語句式結(jié)構(gòu)的數(shù)字化——句本位語法與“圖解法”改造[J]. 北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,(04): 413-419.
[24] 朱德熙. 語法講義[M].北京: 商務(wù)印書館,1999.
[25] 葛本儀. 漢語詞匯研究[M]. 北京: 外語教學(xué)與研究出版社, 2006.
[26] 郭冬冬.句本位樹庫構(gòu)建中的動(dòng)態(tài)詞及其結(jié)構(gòu)模式分析 [D].北京: 北京師范大學(xué)碩士學(xué)位論文,2016.
[27] Dongdong Guo, Shuqin Zhu, etc. Construction of the dynamic word structural mode knowledge base for the international Chinese teaching[C]//Proceedings of the 16th Chinese Lexical Semantics Workshop(CLSW2016), 2016: 251-260.
[28] 王東波,謝靖. 基于清華漢語樹庫的有標(biāo)記聯(lián)合結(jié)構(gòu)統(tǒng)計(jì)分析[J]. 現(xiàn)代圖書情報(bào)技術(shù),2010(04): 12-17.