王笑盈,馮志偉,張 丹,瞿云華*
(1.浙江大學(xué)外國(guó)語(yǔ)言文化與國(guó)際交流學(xué)院,浙江 杭州 310058;2.杭州師范大學(xué)外語(yǔ)學(xué)院,浙江 杭州 311121)
句子是語(yǔ)言的基本運(yùn)用單位,以特定句式構(gòu)造而成[1].句式是句子的語(yǔ)法結(jié)構(gòu)格式,它是從大量句例中抽象概括出的、具有共性和本質(zhì)性的語(yǔ)法結(jié)構(gòu)格式.句式研究是漢語(yǔ)語(yǔ)法研究中至關(guān)重要的一部分,是漢語(yǔ)學(xué)界的重要議題.對(duì)漢語(yǔ)句式進(jìn)行研究,進(jìn)而構(gòu)建漢語(yǔ)句式系統(tǒng),一方面可滿足深層理解漢語(yǔ)的自身需求;另一方面可直接服務(wù)于漢語(yǔ)自然語(yǔ)言處理的各種應(yīng)用,如漢字輸入、語(yǔ)音識(shí)別、文本檢索、漢語(yǔ)自動(dòng)分詞、信息抽取、機(jī)器翻譯與問(wèn)答系統(tǒng)等.但是,現(xiàn)有適用于自然語(yǔ)言處理的語(yǔ)法分析體系在分析漢語(yǔ)句式時(shí)都無(wú)法準(zhǔn)確體現(xiàn)出漢語(yǔ)句子的3個(gè)重要特點(diǎn):1) 漢語(yǔ)作為非形態(tài)語(yǔ)言,語(yǔ)序是其意義的載體,漢語(yǔ)語(yǔ)序既相對(duì)固定,又便于靈活變換構(gòu)成新的結(jié)構(gòu)關(guān)系[1-3];2) 虛詞是漢語(yǔ)的重要語(yǔ)法手段,虛詞對(duì)實(shí)詞的使用具有選擇和限定的關(guān)系[2,4];3) 漢語(yǔ)注重話題,結(jié)構(gòu)松散,多流水句[5-7].現(xiàn)有語(yǔ)法分析體系的缺陷不僅導(dǎo)致對(duì)漢語(yǔ)句子本體研究不夠深入,而且也限制了漢語(yǔ)自然語(yǔ)言處理各種應(yīng)用的精度和速度.鑒于此,急需開(kāi)發(fā)一套能夠準(zhǔn)確全面描述和分析漢語(yǔ)句式的語(yǔ)法體系、歸納漢語(yǔ)句式規(guī)則、服務(wù)漢語(yǔ)句式研究和自然語(yǔ)言處理的系統(tǒng).
目前國(guó)內(nèi)外自然語(yǔ)言處理領(lǐng)域中應(yīng)用最廣的語(yǔ)法分析體系是短語(yǔ)結(jié)構(gòu)語(yǔ)法和依存語(yǔ)法.短語(yǔ)結(jié)構(gòu)語(yǔ)法[8](phrase structure grammar)是喬姆斯基用數(shù)學(xué)方法研究自然語(yǔ)言和人工語(yǔ)言的語(yǔ)法理論,其基本思想是句子由短語(yǔ)結(jié)構(gòu)組成.短語(yǔ)結(jié)構(gòu)分為兩大類型:名詞性短語(yǔ)結(jié)構(gòu)(NP)和謂詞性短語(yǔ)結(jié)構(gòu)(VP),S代表句子,S=NP+VP.短語(yǔ)結(jié)構(gòu)語(yǔ)法能夠識(shí)別出句子的語(yǔ)序、層次和詞類信息.方立等[9-11]介紹了短語(yǔ)結(jié)構(gòu)語(yǔ)法在漢語(yǔ)中的應(yīng)用;也有一些學(xué)者利用短語(yǔ)結(jié)構(gòu)語(yǔ)法對(duì)漢語(yǔ)進(jìn)行分析,姚小烈[12]探索了漢語(yǔ)“的”字結(jié)構(gòu),鄭友階[13]考察了漢語(yǔ)同位句,張瑩[14]研究了漢語(yǔ)人稱代詞相關(guān)句法問(wèn)題,劉亮[15]分析了漢語(yǔ)輕動(dòng)詞體系,上述研究考察了某些特定的漢語(yǔ)句子結(jié)構(gòu).同時(shí),短語(yǔ)結(jié)構(gòu)語(yǔ)法在漢語(yǔ)句法自動(dòng)分析中有廣泛的應(yīng)用,如賓州中文樹(shù)庫(kù)(Chinese Penn treebank)、斯坦福中文句法分析器(Stanford parser)、Readworld語(yǔ)言信息處理研究院研制的短語(yǔ)結(jié)構(gòu)語(yǔ)法分析器.短語(yǔ)結(jié)構(gòu)語(yǔ)法能夠體現(xiàn)句子線性順序和層級(jí)結(jié)構(gòu),但也有不盡如人意之處:它的樹(shù)形圖是單標(biāo)記的(如詞類標(biāo)記N,V;詞組類型標(biāo)記NP、VP等),這使得它難以表達(dá)紛繁復(fù)雜的自然語(yǔ)言現(xiàn)象,分析能力過(guò)弱[16];短語(yǔ)結(jié)構(gòu)樹(shù)中標(biāo)有大量不在句中出現(xiàn)的非終極結(jié)點(diǎn)(NP、 VP等),層次過(guò)多;短語(yǔ)結(jié)構(gòu)樹(shù)無(wú)法體現(xiàn)句中各終極結(jié)點(diǎn)之間的支配關(guān)系[17].
依存語(yǔ)法[18](dependency grammar)是泰尼埃提出的基于詞間關(guān)系的語(yǔ)法,強(qiáng)調(diào)動(dòng)詞為句子中心,其他詞匯依存于動(dòng)詞.依存語(yǔ)法的優(yōu)勢(shì)體現(xiàn)在依存樹(shù)的層次少、結(jié)點(diǎn)少,能夠清晰地表示句中各詞之間的依存關(guān)系.漢語(yǔ)學(xué)者曾對(duì)依存語(yǔ)法進(jìn)行了綜述,如馮志偉[19-20]、劉海濤[21];不少學(xué)者采用依存語(yǔ)法研究漢語(yǔ)中的名詞短語(yǔ)[22]、句法歧義結(jié)構(gòu)[23]、并列結(jié)構(gòu)[24],或構(gòu)建長(zhǎng)句分析多視圖漢語(yǔ)樹(shù)庫(kù)[25]等.但是,依存語(yǔ)法忽視了自然語(yǔ)言的語(yǔ)序特點(diǎn):結(jié)點(diǎn)之間的支配關(guān)系不能直接推導(dǎo)出它們之間的前于關(guān)系.
總之,短語(yǔ)結(jié)構(gòu)語(yǔ)法和依存語(yǔ)法在分析漢語(yǔ)句子時(shí)均存在以下缺陷:未能凸顯虛詞對(duì)實(shí)詞的限定關(guān)系,對(duì)漢語(yǔ)流水句的處理也差強(qiáng)人意.
模式語(yǔ)法[注]由于本文中旨在研究漢語(yǔ)句式,因此僅關(guān)注模式語(yǔ)法與句式相關(guān)的特征.(pattern grammar)是Hunston等[26]提出的語(yǔ)言描述模型.模式是以特定方式共現(xiàn)的、兩個(gè)或更多虛詞與詞類以及詞類之間的組合,能夠呈現(xiàn)語(yǔ)言真實(shí)的線性序列.如:標(biāo)點(diǎn)句“曾是個(gè)運(yùn)動(dòng)員”的模式為“曾…vshi…個(gè)…n”.模式語(yǔ)法采取新穎的編碼方式,使用具體詞形(曾、個(gè))、詞類標(biāo)簽(vshi、n)而非傳統(tǒng)的語(yǔ)法功能范疇標(biāo)簽(NP、VP),清晰地描述了詞類之間的關(guān)系及具體虛詞與實(shí)詞詞類之間的關(guān)系,呈現(xiàn)了句子結(jié)構(gòu)信息.在一定程度上,增補(bǔ)了上述語(yǔ)法缺少具體虛詞對(duì)于實(shí)詞詞類限定關(guān)系描述的功能.利用這一限定關(guān)系,可在漢語(yǔ)自然語(yǔ)言處理中提高對(duì)實(shí)詞的預(yù)測(cè)準(zhǔn)確度,降低計(jì)算復(fù)雜度與計(jì)算量,從而提升漢語(yǔ)句式分析質(zhì)量.此外,模式的深度淺、長(zhǎng)度短、出現(xiàn)頻率高,更適合作為語(yǔ)言特征構(gòu)建自然語(yǔ)言處理中的語(yǔ)言模型.
采用模式理論對(duì)英語(yǔ)進(jìn)行的語(yǔ)法分析已經(jīng)發(fā)揮了重要作用.英國(guó)陸續(xù)出版了基于模式的詞典與參考語(yǔ)法書(shū),如《The Collins cobuild English language dictionary》[27]、《The Collins cobuild English grammar》[28]、《The Collins cobuild English dictionary》[29]等,這些成果側(cè)重描述在真實(shí)語(yǔ)言中常見(jiàn)的、典型的英語(yǔ)模式,增強(qiáng)學(xué)習(xí)者識(shí)別和使用英語(yǔ)詞匯及結(jié)構(gòu)的能力.目前模式語(yǔ)法在國(guó)內(nèi)的應(yīng)用仍處于起步階段:王勇[30]對(duì)模式語(yǔ)法進(jìn)行了介紹;陳功等[31]綜述了模式語(yǔ)法的產(chǎn)生、特點(diǎn)和應(yīng)用價(jià)值.個(gè)別研究者將模式語(yǔ)法應(yīng)用在英語(yǔ)研究中,如:Huang 等[32]將模式語(yǔ)法運(yùn)用到學(xué)習(xí)者語(yǔ)法檢查系統(tǒng)中;陳功[33]構(gòu)建了一個(gè)面向中國(guó)學(xué)生的英語(yǔ)書(shū)面語(yǔ)動(dòng)詞形式錯(cuò)誤檢查系統(tǒng);熊思?jí)m[34]在不同語(yǔ)域中研究了英語(yǔ)“it模式”;于濤[35]開(kāi)發(fā)了一套自動(dòng)識(shí)別和抽取英語(yǔ)動(dòng)詞模式的程序等.但迄今為止,還沒(méi)有研究者將模式語(yǔ)法應(yīng)用于漢語(yǔ)句式研究.但模式語(yǔ)法也有其局限性:短語(yǔ)結(jié)構(gòu)語(yǔ)法和依存語(yǔ)法的研究對(duì)象是整個(gè)句子,而Hunston 等[26]描述的模式不包括主語(yǔ)和表示時(shí)間、地點(diǎn)及方式的狀語(yǔ),因此模式語(yǔ)法的研究范圍僅限于句子片段.若將模式語(yǔ)法應(yīng)用于漢語(yǔ)句式研究,必須對(duì)其理論進(jìn)行擴(kuò)展和補(bǔ)充以適應(yīng)漢語(yǔ)句子層面的研究.
綜上所述,為了對(duì)漢語(yǔ)句式進(jìn)行深入研究,同時(shí)將研究成果服務(wù)于自然語(yǔ)言處理,本研究提出構(gòu)建能夠凸顯漢語(yǔ)句子特征的“現(xiàn)代漢語(yǔ)句子的擴(kuò)展模式語(yǔ)法模型”(后文簡(jiǎn)稱為擴(kuò)展模式語(yǔ)法模型),全面描述漢語(yǔ)句式規(guī)則,構(gòu)建漢語(yǔ)句式體系.
針對(duì)漢語(yǔ)句式研究,本研究構(gòu)建擴(kuò)展模式語(yǔ)法模型.該模型以模式語(yǔ)法[26]和廣義話題理論[36]為基礎(chǔ),并在漢語(yǔ)句式研究背景下對(duì)二者加以擴(kuò)充、改進(jìn)和整合.
模式語(yǔ)法誕生于語(yǔ)料庫(kù)研究,基于大量真實(shí)語(yǔ)料對(duì)語(yǔ)言進(jìn)行可靠性描述.模式語(yǔ)法是對(duì)Firth[37]的“搭配(collocation)”研究和Sinclair[38]的“成語(yǔ)原則(idiom principle)”思想的繼承和發(fā)展.該語(yǔ)法繼承了Sinclair的思想,認(rèn)為語(yǔ)言具有短語(yǔ)傾向,即詞語(yǔ)不是孤立存在,而是通過(guò)它們的共選關(guān)系而獲得意義.與此同時(shí),模式語(yǔ)法將詞匯看成語(yǔ)言的核心,句法結(jié)構(gòu)和詞項(xiàng)之間具有共選關(guān)系,不能將其分開(kāi)考察,具體表現(xiàn)為:一方面,特定的句法結(jié)構(gòu)通常與特定的詞項(xiàng)共現(xiàn);另一方面,詞項(xiàng)通常只出現(xiàn)在有限的結(jié)構(gòu)中[26].模式語(yǔ)法最初在描述時(shí)著眼于短語(yǔ)層面,因此模式缺失了表示主語(yǔ)和表示時(shí)間、地點(diǎn)及方式的狀語(yǔ)等元素.但這些元素在漢語(yǔ)句式研究中是不可或缺的.鑒于此,本研究以模式語(yǔ)法的核心思想為理論指導(dǎo),擴(kuò)充模式元素,進(jìn)而提出擴(kuò)展模式語(yǔ)法,將擴(kuò)展模式的研究范圍提升至句式研究層面.
話題現(xiàn)象是漢語(yǔ)語(yǔ)法的重要特點(diǎn).趙元任[6]指出在漢語(yǔ)中,把主語(yǔ)和謂語(yǔ)當(dāng)作話題和說(shuō)明來(lái)看待比較合適.考慮到話題是漢語(yǔ)句子的突出特征,本模型在擴(kuò)展模式語(yǔ)法的基礎(chǔ)上引入“廣義話題理論”[39]以深入挖掘漢語(yǔ)句式的話題信息.該理論根據(jù)漢語(yǔ)篇章特點(diǎn),將實(shí)體、時(shí)間/處所、狀性/謂性/推理前提等納入話題范圍[36],以邊界明確的標(biāo)點(diǎn)句為基本單位,闡述了漢語(yǔ)話題結(jié)構(gòu)和話題句特征[40].話題自足句對(duì)于漢語(yǔ)篇章信息處理有重要意義,話題自足句中話題與說(shuō)明成對(duì)出現(xiàn),結(jié)構(gòu)相對(duì)完整,許多上下文信息在話題自足句中已經(jīng)聚集在一起,處理話題自足句可以提高漢語(yǔ)信息處理應(yīng)用系統(tǒng)的性能[41].若僅把標(biāo)點(diǎn)句作為完整的句子來(lái)處理顯然會(huì)嚴(yán)重影響漢語(yǔ)信息處理系統(tǒng)的性能,是漢語(yǔ)句子自動(dòng)分析和機(jī)器翻譯質(zhì)量較差的主要原因[36].本模型的話題非自足分析模塊將標(biāo)點(diǎn)句轉(zhuǎn)為語(yǔ)法通順、語(yǔ)義清楚的話題自足句,從而分析和歸納漢語(yǔ)句式類型和特征.
在模式語(yǔ)法與廣義話題理論的基礎(chǔ)上構(gòu)建擴(kuò)展模式語(yǔ)法模型,以彌補(bǔ)短語(yǔ)結(jié)構(gòu)語(yǔ)法、依存語(yǔ)法與模式語(yǔ)法在描述漢語(yǔ)句式時(shí)的局限性.本研究在構(gòu)建擴(kuò)展模式語(yǔ)法時(shí),利用基于短語(yǔ)結(jié)構(gòu)語(yǔ)法和依存語(yǔ)法的句法分析器分析出句法樹(shù),并將句法樹(shù)轉(zhuǎn)換為擴(kuò)展模式語(yǔ)法的表現(xiàn)形式.在轉(zhuǎn)換過(guò)程中,保留了短語(yǔ)結(jié)構(gòu)語(yǔ)法能夠體現(xiàn)句子線性順序和層級(jí)結(jié)構(gòu)的優(yōu)勢(shì),同時(shí)借鑒了依存語(yǔ)法非終極結(jié)點(diǎn)少的優(yōu)點(diǎn),并在此基礎(chǔ)上融入了擴(kuò)展模式語(yǔ)法的編碼方式,一方面凸顯虛詞與實(shí)詞的限定關(guān)系,另一方面直觀反映句子各元素的線性序列而非非終極結(jié)點(diǎn)的序列.從本質(zhì)上講,擴(kuò)展模式語(yǔ)法與短語(yǔ)結(jié)構(gòu)語(yǔ)法、依存語(yǔ)法是不矛盾的,擴(kuò)展模式語(yǔ)法在繼承此兩種傳統(tǒng)語(yǔ)法精髓的基礎(chǔ)上,進(jìn)行了表現(xiàn)形式的變化,為漢語(yǔ)句式研究提供了新的觀察視角.
本研究利用現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)與口語(yǔ)平衡語(yǔ)料庫(kù),通過(guò)對(duì)把字句擴(kuò)展模式進(jìn)行實(shí)例分析,探究在利用擴(kuò)展模式語(yǔ)法分析漢語(yǔ)句式時(shí)較傳統(tǒng)語(yǔ)法的優(yōu)勢(shì),從而提出現(xiàn)代漢語(yǔ)句子的擴(kuò)展模式語(yǔ)法類型.如果在本模型增加句子必有成分與漢語(yǔ)特色結(jié)構(gòu),對(duì)語(yǔ)料進(jìn)行模式標(biāo)注,將實(shí)詞標(biāo)為詞類,虛詞標(biāo)為具體詞形,就有望在今后最終建立漢語(yǔ)句子模式樹(shù)庫(kù),總結(jié)出一套凸顯漢語(yǔ)特征的句子模式規(guī)則.
為了同時(shí)服務(wù)于漢語(yǔ)句式理論研究和自然語(yǔ)言處理的實(shí)際應(yīng)用,本研究提出建立新的句式分析模型——“現(xiàn)代漢語(yǔ)句子的擴(kuò)展模式語(yǔ)法模型”.本模型是一種基于模式語(yǔ)法的考察漢語(yǔ)句式全貌的語(yǔ)言描述模型,關(guān)注漢語(yǔ)的語(yǔ)序特點(diǎn)和虛詞對(duì)實(shí)詞的限定關(guān)系,同時(shí)提高漢語(yǔ)流水句的分析質(zhì)量,以期最終服務(wù)于自然語(yǔ)言處理.本模型包含兩大模塊:標(biāo)點(diǎn)句分析模塊與話題非自足句分析模塊,能夠?qū)?biāo)點(diǎn)句和話題非自足句的句式進(jìn)行統(tǒng)一分析.標(biāo)點(diǎn)句分析模塊對(duì)模式語(yǔ)法進(jìn)行擴(kuò)充,將表示主語(yǔ)、時(shí)間、地點(diǎn)及方式的介詞短語(yǔ)和副詞短語(yǔ)納入考察范圍,本模塊能夠描述漢語(yǔ)句式構(gòu)成規(guī)則,構(gòu)建漢語(yǔ)句式體系;在此基礎(chǔ)上,話題非自足句分析模塊引入廣義話題理論,補(bǔ)全標(biāo)點(diǎn)句話題,考察漢語(yǔ)流水句的話題-句式特征,進(jìn)而提高流水句的自動(dòng)處理質(zhì)量.模型具體內(nèi)容見(jiàn)圖1.
圖1 擴(kuò)展模式語(yǔ)法模型
句式研究是現(xiàn)代漢語(yǔ)語(yǔ)法研究中的核心課題之一.早在20世紀(jì)70年代,以朱德熙、呂叔湘、陸儉明、范曉、張斌為首的語(yǔ)法學(xué)家都非常關(guān)注漢語(yǔ)句式研究.朱德熙[42]曾將句式定義為“代表這個(gè)句子的有一定的層次構(gòu)造和內(nèi)部結(jié)構(gòu)關(guān)系的抽象的詞類序列”;張斌等[43]在《現(xiàn)代漢語(yǔ)句子》一書(shū)中指出句式反映了句子內(nèi)部層次、關(guān)系、成分和特殊標(biāo)志;陸儉明[44]認(rèn)為同一句式通常具有相同的詞類序列、詞語(yǔ)、構(gòu)造層次和內(nèi)部語(yǔ)法結(jié)構(gòu),并指出范曉對(duì)漢語(yǔ)句式及其特征做了較為全面的綜述;范曉[45-46]基于前人對(duì)漢語(yǔ)句式的研究成果,總結(jié)出漢語(yǔ)句式的四大特征,即線條性、有序性、層次性和抽象性;句式的形式主要以詞類、詞類排序、特定詞語(yǔ)、層次分合、固定格式等體現(xiàn).
本研究提出的擴(kuò)展模式語(yǔ)法模型中,句式的形式以具體虛詞、實(shí)詞詞類、具體詞和詞類排序、層次分合、漢語(yǔ)特殊結(jié)構(gòu)等體現(xiàn),凸顯漢語(yǔ)虛詞對(duì)實(shí)詞的限定作用,能夠體現(xiàn)出漢語(yǔ)學(xué)界認(rèn)可的句式特征:
1) 線條性.句式一般由一個(gè)或多個(gè)漢語(yǔ)擴(kuò)展模式組成,表現(xiàn)為擴(kuò)展模式按照語(yǔ)流的先后順序排列成線.如擴(kuò)展模式“他…挺…adj”(“他挺高”),擴(kuò)展模式元素他、挺、adj按照先后順序成串出現(xiàn).
2) 有序性.句式內(nèi)部的擴(kuò)展模式不是孤立的,而是互相聯(lián)系互相制約的,有一定的排列規(guī)則.改變了排列次序句式也就改變了,表達(dá)的意義也隨之改變.如擴(kuò)展模式“她…v…n”(“她教學(xué)生”),如果改變?yōu)椤皀…v…她”(“學(xué)生教她”),該句式的句式意義隨之改變.
3) 層次性.句式中擴(kuò)展模式的內(nèi)部結(jié)構(gòu)關(guān)系具有層次性,在本模型中體現(xiàn)為模式流、模式線和模式環(huán):模式間沒(méi)有重疊稱為模式線(pattern string),有重疊稱為模式流(pattern flow),大模式嵌套小模式稱為模式環(huán)(pattern loop).如標(biāo)點(diǎn)句“你應(yīng)該掌握提問(wèn)的技巧”,其句式的擴(kuò)展模式層次體現(xiàn)為:
你…v
v…v… n
v…的…n
擴(kuò)展模式“r…v”和“v…v…n”具有上下層級(jí)的關(guān)系,且這兩個(gè)模式有重疊部分“v”,因此它們共同組成了模式流;v…的…n”體現(xiàn)了“n”的內(nèi)部構(gòu)成,因此它們共同組成模式環(huán).
4) 抽象性.句式是不同內(nèi)容的具體句的相同語(yǔ)法組合格式的集合.同一句式下的具體句中同一位置上的詞或詞類具有替換關(guān)系.例如標(biāo)點(diǎn)句“我把蘋(píng)果吃了”和標(biāo)點(diǎn)句“你把作業(yè)寫(xiě)了”,其句式的擴(kuò)展模式類型均為“你…把…n…v…了”.在該擴(kuò)展模式中,同一位置上的“你”“我”可統(tǒng)一抽象為元素“v”,同理“蘋(píng)果”和“作業(yè)”抽象為“n”,“吃”和“寫(xiě)”抽象為“v”.
在擴(kuò)展模式語(yǔ)法模型分析句式的框架下,本文中對(duì)漢語(yǔ)“把”字句的句式進(jìn)行了分析.“把”字句是現(xiàn)代漢語(yǔ)中極其常用且比較復(fù)雜的句式,一直是漢語(yǔ)語(yǔ)法學(xué)界一個(gè)重要研究課題.張伯江[47]將“把”字句句式概括為“A把B v C”,其意義為由A作為起因,針對(duì)選定對(duì)象B以v的方式進(jìn)行的使B變化為C的行為.本文中基于前人對(duì)“把”字句的研究,在語(yǔ)料庫(kù)中提取“把”字句,在擴(kuò)展模式語(yǔ)法模型下探索“把”字句更加細(xì)化和準(zhǔn)確的句式類型.
本研究采用總規(guī)模為220萬(wàn)詞次的浙江大學(xué)現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)與口語(yǔ)平衡語(yǔ)料庫(kù)中的普通小說(shuō)和新聞評(píng)論子庫(kù).普通小說(shuō)子庫(kù)約5萬(wàn)詞次,新聞評(píng)論子庫(kù)約5.3萬(wàn)詞次.語(yǔ)料均經(jīng)過(guò)中國(guó)科學(xué)院計(jì)算技術(shù)研究所ICTCLAS系統(tǒng)分詞、標(biāo)注,經(jīng)過(guò)人工檢查和修正后其準(zhǔn)確率達(dá)98%以上.
在提取“把”字句擴(kuò)展模式時(shí),開(kāi)放詞類標(biāo)注為詞性,封閉詞類標(biāo)注為具體詞形,其中開(kāi)放詞類包括名詞、動(dòng)詞、形容詞、描摹類副詞、區(qū)別詞、處所詞、狀態(tài)詞、擬聲詞、時(shí)間詞,封閉詞類包括介詞、助詞、連詞、代詞、方位詞、描摹類之外的副詞、數(shù)詞、量詞、感嘆詞、語(yǔ)氣詞.在自建的220萬(wàn)詞次現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)與口語(yǔ)平衡語(yǔ)料庫(kù)中提取句子擴(kuò)展模式,得到漢語(yǔ)句子擴(kuò)展模式庫(kù).基于擴(kuò)展模式樹(shù)庫(kù),在普通小說(shuō)和新聞評(píng)論子庫(kù)中抽取“把”字句模式.提取時(shí)排除“把”作為量詞的結(jié)構(gòu),如“二把手”“推了一把”;排除“把”作為動(dòng)詞的結(jié)構(gòu),如“嚴(yán)把質(zhì)量關(guān)”.共得到“把”字句265句,其中150句來(lái)自普通小說(shuō)子庫(kù),115句來(lái)自新聞評(píng)論子庫(kù).
通過(guò)對(duì)普通小說(shuō)和新聞評(píng)論子庫(kù)中抽取的265個(gè)“把”字句的總結(jié),共歸納出“把”字句擴(kuò)展模式類型11類,模式實(shí)例和具體“把”字句見(jiàn)表1,包含了“把”字句中時(shí)間、地點(diǎn)及方式的介詞短語(yǔ)和副詞短語(yǔ)的模式分析.對(duì)于這些句式實(shí)例化后的話題非自足句補(bǔ)足話題分析,詳見(jiàn)擴(kuò)展模式語(yǔ)法優(yōu)勢(shì)第3點(diǎn).
為了便于歸類,表1第1列為“把”字句的擴(kuò)展模式,第2列為具體“把”字句.通過(guò)觀察可發(fā)現(xiàn)依據(jù)擴(kuò)展模式語(yǔ)法模型描述“把”字句,能夠完全反映出漢語(yǔ)“把”字句句式的特征.
首先,“把”字句的線條性體現(xiàn)為各類“把”字句擴(kuò)展模式均按照漢語(yǔ)語(yǔ)流線性排列,例如“把”字句“把瓦罐收起來(lái)”的擴(kuò)展模式為“把…n…v…vf”,模式中的各元素之間的順序均按照語(yǔ)流排列;其次,“把”字句有序性體現(xiàn)在模式內(nèi)部元素按照規(guī)則有序排列,且相互制約,這種規(guī)則體現(xiàn)為若改變排列次序,則句子的意義也隨之改變或不符合漢語(yǔ)語(yǔ)法,例如“把”字句“把問(wèn)題搞清楚”,其擴(kuò)展模式為“把…n…v…adj”,若改變其中任意元素的位置,則會(huì)導(dǎo)致該句意義不明且違反了語(yǔ)法規(guī)則;再次,“把”字句的擴(kuò)展模式也具有層次性,其中的名詞性元素“n”在部分情況下可能代表名詞性短語(yǔ),如果深入研究“n”,就能發(fā)現(xiàn)它與“把”字句的擴(kuò)展模式形成上下層級(jí)的關(guān)系,如“把深圳建成
表1 普通小說(shuō)和新聞評(píng)論語(yǔ)域中“把”字句的擴(kuò)展模式
國(guó)際城市”的擴(kuò)展模式為“把…n…v…n”,其中最后一個(gè)元素n實(shí)質(zhì)為名詞短語(yǔ)“國(guó)際城市”,若進(jìn)行具體分析可進(jìn)一步將n擴(kuò)展為“n…n”;最后,把字句的擴(kuò)展模式具有抽象性,具有開(kāi)放性的實(shí)詞標(biāo)記為詞類,封閉性的虛詞標(biāo)記為具體詞形,內(nèi)容不同但語(yǔ)法格式相同的“把”字句可抽象為同一“把”字句模式,例如句子“把他抱住”、“把他嚇?biāo)馈钡臄U(kuò)展模式均可歸納為“把… 他…v”.因此,擴(kuò)展模式語(yǔ)法適用于漢語(yǔ)句式研究.
利用擴(kuò)展模式語(yǔ)法模型研究漢語(yǔ)句式相對(duì)于短語(yǔ)結(jié)構(gòu)語(yǔ)法和依存語(yǔ)法等傳統(tǒng)語(yǔ)法具有以下優(yōu)勢(shì):
1) 擴(kuò)展模式語(yǔ)法著重體現(xiàn)了句式中虛詞與實(shí)詞之間的限定關(guān)系.短語(yǔ)結(jié)構(gòu)語(yǔ)法和依存語(yǔ)法沒(méi)有強(qiáng)調(diào)漢語(yǔ)虛詞與實(shí)詞的限定關(guān)系.Hunston和Francis[26]指出語(yǔ)言中虛詞對(duì)其后的實(shí)詞類型有限定作用.文本構(gòu)建的擴(kuò)展模式語(yǔ)法使用詞類或具體詞形的標(biāo)注方式,這樣的編碼方式凸顯了漢語(yǔ)虛詞對(duì)實(shí)詞的限定關(guān)系,利用這一限定關(guān)系可在漢語(yǔ)自然語(yǔ)言處理中提高對(duì)實(shí)詞的預(yù)測(cè)準(zhǔn)確度,消解部分歧義,降低計(jì)算復(fù)雜度與計(jì)算量.以“把”字句“把人往房間拉”為例,圖2為短語(yǔ)結(jié)構(gòu)語(yǔ)法和擴(kuò)展模式語(yǔ)法的分析結(jié)果.
圖2 短語(yǔ)結(jié)構(gòu)語(yǔ)法(a)和擴(kuò)展模式語(yǔ)法(b)分析結(jié)果
從圖2(a)可以看出,短語(yǔ)結(jié)構(gòu)語(yǔ)法關(guān)注語(yǔ)法范疇NP與VP內(nèi)部的層級(jí)關(guān)系,但不強(qiáng)調(diào)各詞之間的限定關(guān)系;在圖2(b)的擴(kuò)展模式“把…n…往…n…v”中,虛詞“把”“往”以具體詞形體現(xiàn),實(shí)詞“人”“房間”以詞類“n”體現(xiàn).圖2(b)不僅能反映出句中5個(gè)組成元素的層級(jí)關(guān)系,并且能凸顯其中虛詞與實(shí)詞之間的限定關(guān)系,尤其能體現(xiàn)出介詞“往”對(duì)其后元素的限制:介詞“往”表示動(dòng)作的方向,通常將其后出現(xiàn)的名詞限制為方位詞、方位短語(yǔ)、處所名詞、方所指示代詞,且一般搭配的動(dòng)詞是位移性方向動(dòng)詞.在本例中,介詞“往”之后出現(xiàn)的名詞是處所名詞“房間”,搭配的動(dòng)詞是位移方向動(dòng)詞“拉”.由此可見(jiàn),擴(kuò)展模式語(yǔ)法在捕捉虛詞和實(shí)詞的互選關(guān)系時(shí)更具優(yōu)勢(shì).
2) 擴(kuò)展模式語(yǔ)法能夠直觀反映句式的線性序列.線性是語(yǔ)言的基本屬性[48].盡管依存語(yǔ)法以層次少、結(jié)點(diǎn)少、體現(xiàn)詞與詞之間的支配關(guān)系的特點(diǎn)彌補(bǔ)了短語(yǔ)結(jié)構(gòu)語(yǔ)法的不足,但依存樹(shù)中結(jié)點(diǎn)之間的支配關(guān)系和前于關(guān)系是互相排斥的,只有把表示結(jié)構(gòu)關(guān)系的依存樹(shù)轉(zhuǎn)變成表示線性關(guān)系的句子才能推導(dǎo)出句子結(jié)點(diǎn)之間的前于關(guān)系[49].以“把”字句“把紙飛機(jī)拋向窗戶外面”為例,采用兩種分析結(jié)果如下:
圖3 依存語(yǔ)法(a)和擴(kuò)展模式語(yǔ)法(b)分析結(jié)果
從圖3(a)看出,依存樹(shù)明確體現(xiàn)出詞與詞之間的支配關(guān)系:核心動(dòng)詞“拋”支配“把”和“向”,“把”和“向”分別支配“飛機(jī)”和“外面”,“飛機(jī)”和“外面”分別支配“紙”和“窗戶”.但是依存樹(shù)無(wú)法反映出“紙”前于“飛機(jī)”、“窗戶”前于“外面”的句子真實(shí)語(yǔ)序.圖3(b)中的擴(kuò)展模式體現(xiàn)了把字句的真實(shí)語(yǔ)序.
3) 依據(jù)擴(kuò)展模式語(yǔ)法補(bǔ)全標(biāo)點(diǎn)句話題,繼而研究漢語(yǔ)句式,有助于提高漢語(yǔ)流水句的自動(dòng)分析質(zhì)量.補(bǔ)全話題后標(biāo)點(diǎn)句在句法和語(yǔ)義上都是完整的單句,話題與說(shuō)明成對(duì)出現(xiàn),上下文信息集中,這可以解決涉及漢語(yǔ)局部篇章的問(wèn)題[40].下文通過(guò)對(duì)比補(bǔ)全話題前后標(biāo)點(diǎn)句的譯文,證明補(bǔ)全話題有利于提高漢語(yǔ)流水句的自動(dòng)分析質(zhì)量.表2對(duì)比了流水句補(bǔ)全話題前后谷歌翻譯的質(zhì)量,下劃線部分是補(bǔ)全的話題.
表2 流水句補(bǔ)全話題前后譯文對(duì)照表
將表2中標(biāo)點(diǎn)句補(bǔ)全話題后得到話題自足句.“俺哥”是流水句中各標(biāo)點(diǎn)句的話題.觀察未補(bǔ)全話題流水句的谷歌翻譯結(jié)果,可發(fā)現(xiàn)譯文存在句子成分缺失嚴(yán)重、可讀性差的問(wèn)題;相比之下,補(bǔ)全話題后的標(biāo)點(diǎn)句譯文質(zhì)量明顯提升,各標(biāo)點(diǎn)句均翻譯準(zhǔn)確,語(yǔ)法正確,可讀性高.翻譯質(zhì)量的提高表明機(jī)器對(duì)漢語(yǔ)流水句原文的分析質(zhì)量顯著提升,進(jìn)而說(shuō)明補(bǔ)全話題是提高漢語(yǔ)流水句自動(dòng)分析質(zhì)量的有效途徑.
本研究構(gòu)建了擴(kuò)展模式語(yǔ)法模型.該模型內(nèi)置了標(biāo)點(diǎn)句分析模塊與話題非自足句分析模塊:標(biāo)點(diǎn)句分析模塊含有表示主語(yǔ)、時(shí)間、地點(diǎn)及方式的介詞短語(yǔ)和副詞短語(yǔ)的模式,以及漢語(yǔ)句子特殊結(jié)構(gòu)模式的功能;話題非自足句分析模塊能夠識(shí)別和補(bǔ)全流水句的話題,并對(duì)標(biāo)點(diǎn)句和話題非自足句的句式進(jìn)行統(tǒng)一分析,考察漢語(yǔ)流水句的話題-句式特征.
本模型從全新角度分析漢語(yǔ)句式,用擴(kuò)展模式的線性組合和層級(jí)構(gòu)造描述句式,并凸顯漢語(yǔ)虛詞對(duì)實(shí)詞的限定關(guān)系,同時(shí)可以對(duì)漢語(yǔ)句式進(jìn)行系統(tǒng)的歸納和總結(jié).通過(guò)詳細(xì)梳理該模型的背景、概念、特征及優(yōu)勢(shì),認(rèn)為擴(kuò)展模式語(yǔ)法模型將補(bǔ)充和發(fā)展現(xiàn)有的漢語(yǔ)語(yǔ)法體系,對(duì)機(jī)器和人學(xué)習(xí)漢語(yǔ)句子都具有可觀的發(fā)展前景和應(yīng)用價(jià)值:
1) 擴(kuò)展模式語(yǔ)法模型的構(gòu)建將為描述漢語(yǔ)語(yǔ)法提供新視角.在理論創(chuàng)新方面,本模型結(jié)合模式語(yǔ)法與廣義話題理論,補(bǔ)充句子必有成分,關(guān)注漢語(yǔ)虛詞對(duì)實(shí)詞的限定關(guān)系以及語(yǔ)序特點(diǎn)和流水句的結(jié)構(gòu)特征;在方法論方面,本模型采用語(yǔ)料庫(kù)方法,觀察和歸納漢語(yǔ)句子模式的結(jié)構(gòu)類型,以期彌補(bǔ)傳統(tǒng)漢語(yǔ)句法分析多基于經(jīng)驗(yàn)、無(wú)大量數(shù)據(jù)支持的不足;與此同時(shí),本模型運(yùn)用自然語(yǔ)言處理中的前沿算法開(kāi)發(fā)識(shí)別和補(bǔ)全話題、提取模式、檢索統(tǒng)計(jì)模式的程序,能夠高效分析漢語(yǔ)話題自足句的模式類型和結(jié)構(gòu)特征.
2) 本模型研究成果將服務(wù)于自然語(yǔ)言處理中語(yǔ)言模型的構(gòu)建.傳統(tǒng)基于規(guī)則及基于統(tǒng)計(jì)的語(yǔ)言模型均未重視漢語(yǔ)中虛詞對(duì)實(shí)詞的限制作用,導(dǎo)致運(yùn)算量過(guò)大或精度較低.擴(kuò)展模式語(yǔ)法模型因其虛實(shí)結(jié)合、線性順序的特點(diǎn)能夠提高虛詞對(duì)實(shí)詞的預(yù)測(cè)準(zhǔn)確度,降低計(jì)算復(fù)雜度與計(jì)算量.與此同時(shí),本模型還能夠提高漢語(yǔ)長(zhǎng)句自動(dòng)分析的質(zhì)量和漢語(yǔ)句子處理系統(tǒng)的性能,降低漢語(yǔ)篇章處理的難度.
3) 本模型研究成果將為漢語(yǔ)作為第二語(yǔ)言的教學(xué)提供新視角.相較傳統(tǒng)句法分析,擴(kuò)展模式語(yǔ)法模型產(chǎn)出的句子結(jié)構(gòu)規(guī)則更加簡(jiǎn)潔,可以幫助漢語(yǔ)學(xué)習(xí)者把握句子的典型用法、提高語(yǔ)言產(chǎn)出的準(zhǔn)確性和流利性.