○劉小蝶 閆慧穎 晉耀紅
(北京師范大學(xué) 中文信息處理研究所,北京100875)
在現(xiàn)代漢語中,“和、與、跟、同”這四個(gè)虛詞既可當(dāng)連詞又可當(dāng)介詞。如何區(qū)別這組連介兼類詞,一直是現(xiàn)代漢語語法研究中一個(gè)頗費(fèi)周章的問題。劉靜輝(1984)歸納出三種方法:互換法、代替法、插入法。沈錫倫(1987)提出四種方法:分解法、互換法、插入法、調(diào)換位置方法。玉柱(1988)認(rèn)為分解法、互換法和調(diào)換位置法并不能對所有動(dòng)詞都適用,而插入法是最有效的分辨方法。上述研究主要是面向人的研究,靠實(shí)驗(yàn)和轉(zhuǎn)換來嘗試,判斷的標(biāo)準(zhǔn)是語義是否改變。
本文的研究是面向?qū)@臐h英機(jī)器翻譯的,此判斷標(biāo)準(zhǔn)對于目前無法理解語言的機(jī)器而言是無能為力的,各種鑒別方法對于機(jī)器也是不可操作的。在依賴語言知識(shí)的規(guī)則機(jī)器翻譯系統(tǒng)中,系統(tǒng)只能按照給定的標(biāo)記識(shí)別連詞和介詞。本文以專利語料為研究對象,以“語義為主、形式為輔”,從句子層、短語層和篇章層三個(gè)層面對兼類單用時(shí)進(jìn)行考察并總結(jié)規(guī)律,希望能在此基礎(chǔ)上構(gòu)建形式化的規(guī)則庫指導(dǎo)機(jī)器對兼類詞進(jìn)行識(shí)別。
語料是來自NTCIR-9 PatentMT①訓(xùn)練集中的2000句專利語料句對,包括漢語和英語參考譯文,我們對例句進(jìn)行逐條分析,歸納總結(jié)規(guī)則。
“和、與、同、跟”都具有連詞和介詞的詞性,在專利領(lǐng)域這種書面語體中出現(xiàn)的頻率如表1所示,可知四詞在專利文本中的使用上比重差別很大,“和”和“與”的比重占98%。本文主要考察“和”和“與”兩個(gè)兼類詞。
表1“和、與”在2000句專利語料中的頻率
在專利語料中,“和”主要有三種詞性:名詞、介詞和連詞。名詞出現(xiàn)的語言環(huán)境比較容易確定:“和”前一定有“的”或“之”,可能位于句尾。
所以本文考察的重點(diǎn)內(nèi)容是:“和、與”在作連詞和作介詞時(shí)(為行文方便,下文以“和”代替“和、與”兩個(gè)兼類詞),跟哪些詞語搭配使用?例如,作連詞時(shí),其連接的前后項(xiàng)表達(dá)式為“X1和X2”,是聯(lián)合結(jié)構(gòu),此結(jié)構(gòu)是一個(gè)復(fù)數(shù)范疇,其作為一個(gè)整體時(shí)比單數(shù)范疇增加了數(shù)量多概念,這種需要在漢語語言表達(dá)上有所體現(xiàn),需要考察哪些動(dòng)詞、名詞、形容詞、副詞、方位詞要求與其搭配的短語一定是復(fù)數(shù)范疇。其中“動(dòng)詞、形容詞”一般做核心謂詞,對主賓語有語義需求,而“副詞、方位詞”數(shù)量較少只需跟形式掛鉤。下面從語義和形式兩方面進(jìn)行探討。
1.語義方面。(1)句子層面的考察。在句子層面,“和、與”兼類詞做介詞還是連詞的一個(gè)難點(diǎn)是“X1和X2”在句子開頭時(shí),即在“X1和X2 V(O)”結(jié)構(gòu)中,“X1和X2”是聯(lián)合結(jié)構(gòu)作主語,還是“和X2”作介賓短語。張誼生(2000)從核心謂詞的語義要求的角度,即按照“X1和X2”與核心謂詞搭配后如何充當(dāng)該詞語的關(guān)涉對象和陳述對象,將其分為三類:零涉詞語、單涉詞語、雙涉詞語。跟零涉詞語搭配時(shí),“X1、X2”都不充當(dāng)關(guān)涉對象,都是陳述對象,“和”必定是連詞;“和”跟單涉詞語搭配時(shí),“和”必定是介詞;跟雙涉詞語搭配時(shí),“X1、X2”可以都是陳述對象,又可以互為關(guān)涉對象,“和”詞性的判定需要依賴篇章層面的信息。
(2)短語層面的考察。在短語層面,據(jù)考察主要有如下四種情況:
1)任何一個(gè)小句都可以采用加“的”的句法手段,變成一個(gè)短語。經(jīng)考察,零涉謂詞的句子只能變成“V(O)的X1和X2”,其中“和”是連詞;單涉謂詞的句子只可以變成“和X2 V(O)的X1”,其中“和”是介詞;雙涉謂詞可以變成“和X2 V(O)的X1”或“和X1 V(O)的X2”,其中“和”都是介詞。
2)框架“PRON+和X的NP”,PRON代表代詞,NP沒有太多限制,但一般是雙涉動(dòng)詞產(chǎn)生的效應(yīng),可以雙涉動(dòng)詞加上語素的形式構(gòu)成,其中“和”都是介詞。
3)在“X1和X2”中,當(dāng)“X1、X2”都是動(dòng)詞或形容詞時(shí),“和”是連詞。從連詞的意義來說,連詞連接至少兩個(gè)項(xiàng),不限于連接名詞性短語,也可以連接動(dòng)詞或形容詞[5]。但介詞一般只介紹對象而非動(dòng)作。所以,如果兩個(gè)動(dòng)詞、形容詞由“和”連接,可以判定為是連詞。
4)在“X1和X2”中,當(dāng)“X1、X2”都是標(biāo)號時(shí),“和”是連詞。在專利語料中出現(xiàn)較多的是對發(fā)明的裝置、部件的詳細(xì)介紹,出現(xiàn)許多數(shù)字或數(shù)字與字母構(gòu)成的指示性標(biāo)號。如果“和”兩邊緊挨著的是標(biāo)號,則優(yōu)先是連詞。
(3)篇章層面的考察
此部分主要考察框架“X1和X2 V(O)”下,其中V是雙涉動(dòng)詞或雙涉形容詞時(shí),“和”的詞性。如果后續(xù)句的句首一般是用表示復(fù)數(shù)的代詞加以復(fù)指、用表示單數(shù)的代詞(如“前者、一方面、這”等)加以分指,如果后續(xù)句的句首是動(dòng)詞、虛詞或者用表示單數(shù)的人稱代詞,“和”一般是介詞。
2.形式方面。漢語重意合,具有較少的形態(tài)變化。但是考察一定的語料發(fā)現(xiàn),漢語的副詞、方位詞或短語對“和”的區(qū)分具有重要的提示信息。
當(dāng)“X1和X2”與總括標(biāo)記、相互標(biāo)記、協(xié)同標(biāo)記、獨(dú)立標(biāo)記、復(fù)指標(biāo)記搭配使用時(shí),“和”是連詞??偫?biāo)記、協(xié)同標(biāo)記、相互標(biāo)記、獨(dú)立標(biāo)記一般出現(xiàn)在動(dòng)詞前,總括標(biāo)記如“相繼、共同、都、全部、全、之間、中的至少一個(gè)、中的任何一個(gè)、中的任意一個(gè)”等相互標(biāo)記如“互相、彼此、互為”等,協(xié)同標(biāo)記如“一起、一塊兒、同時(shí)”等,獨(dú)立標(biāo)記如“各自、分別”等,復(fù)指標(biāo)記主要是同位短語中復(fù)指前面的內(nèi)容的標(biāo)記,一般出現(xiàn)在聯(lián)合結(jié)構(gòu)的后面,如“兩者、二者、之一、雙方、兩個(gè)”等。
在框架“和X2”中,如果“和”前為空,即句首是“和”,或者如果“和”前是虛詞“并且、雖然、但是、可、將”等或虛詞的組合時(shí),則判定為介詞。
本文對專利文本中的介詞和連詞兼類的情況進(jìn)行了考察,以“和”為代表從語義和形式兩個(gè)方面從句子、短語和篇章三個(gè)層次對連介兼類詞進(jìn)行研究,并歸納了一些規(guī)則。未來的工作重點(diǎn)是將本文的考察成果形式化為規(guī)則和知識(shí)庫應(yīng)用于一個(gè)基于規(guī)則的語義翻譯系統(tǒng),并根據(jù)英語轉(zhuǎn)換和生成的需要調(diào)整或者改進(jìn)兼類詞的識(shí)別。
【注釋】
①是由日本國家科學(xué)咨詢系統(tǒng)中心策劃主辦的NTCIR中建立的一個(gè)標(biāo)準(zhǔn)測試集,作為咨詢檢索與自然語言處理研究的基礎(chǔ)語料。
②“X1和X2”由“和”連接的前項(xiàng)X1和后項(xiàng)X2,“X1和X2V(O)”中V指的是核心謂詞,(0)指的是賓語,可有可無。
[1]劉靜輝.怎樣辨別連詞“和”與介詞“和”[J].語文教學(xué)與研究,1984.
[2]沈錫倫.從“和”看介詞和連詞的區(qū)別[J].漢語學(xué)習(xí),1987.
[3]玉柱.關(guān)于介詞和連詞的區(qū)分問題[J].漢語學(xué)習(xí),1988.
[4]張斌,張誼生.現(xiàn)代漢語虛詞[M].華東師范大學(xué)出版社,2000.
[5]晉家泉.連詞“和”連接謂詞性詞語芻議[J].濱州師專學(xué)報(bào),1995(9).