孫曉迪
內(nèi)容摘要:雙語(yǔ)平行語(yǔ)料庫(kù)對(duì)翻譯研究、語(yǔ)言對(duì)比以及自然語(yǔ)言處理等領(lǐng)域有重要的影響。目前國(guó)內(nèi)外對(duì)于雙語(yǔ)語(yǔ)料庫(kù)的研究已經(jīng)較為成熟,但是仍存在很多問(wèn)題,使其應(yīng)用結(jié)果受到限制。本文主要考察現(xiàn)有的漢英雙語(yǔ)語(yǔ)料庫(kù),并指出構(gòu)建雙語(yǔ)語(yǔ)料庫(kù)需要考慮特定的語(yǔ)言特點(diǎn)對(duì)并且應(yīng)該易于分析和操作,同時(shí)就漢英雙語(yǔ)而言,本文提出以漢語(yǔ)標(biāo)點(diǎn)句為對(duì)齊單位構(gòu)建雙語(yǔ)語(yǔ)料庫(kù)。
關(guān)鍵詞:漢語(yǔ)標(biāo)點(diǎn)句 漢英 雙語(yǔ)語(yǔ)料庫(kù)
1.引言
雙語(yǔ)語(yǔ)料庫(kù)是指源語(yǔ)文本和它所對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯文本構(gòu)成的文本集合,兩種語(yǔ)言對(duì)應(yīng)的文本對(duì)之間語(yǔ)言形式雖然不同,但是表達(dá)的內(nèi)容是一致的,是一種雙語(yǔ)對(duì)齊的語(yǔ)料庫(kù)。雙語(yǔ)語(yǔ)料庫(kù)對(duì)翻譯研究、語(yǔ)言對(duì)比以及自然語(yǔ)言處理等領(lǐng)域有重要的參考價(jià)值。
構(gòu)建雙語(yǔ)語(yǔ)料庫(kù)的關(guān)鍵技術(shù)之一是雙語(yǔ)對(duì)齊,從已有的雙語(yǔ)語(yǔ)料庫(kù)的研究來(lái)看,有段落、句子、短語(yǔ)、詞匯等不同語(yǔ)法層級(jí)的對(duì)齊,但更多的是句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù),例如最著名的雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)就是英語(yǔ)與法語(yǔ)間的句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)(王斌,1999)。漢英雙語(yǔ)句對(duì)齊語(yǔ)料庫(kù)也是參照該語(yǔ)料庫(kù)建立的,雖然國(guó)內(nèi)語(yǔ)料庫(kù)對(duì)于國(guó)外起步較晚,但是有關(guān)漢英雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)及其研究也取得了一定的成就,如燕山大學(xué)劉澤權(quán)支持建立的“《紅樓夢(mèng)》中英文平行語(yǔ)料庫(kù)”、北京外國(guó)語(yǔ)大學(xué)王克非主持研制的一億詞規(guī)模的“中國(guó)英漢平行語(yǔ)料庫(kù)”以及上海交通大學(xué)楊慧中教授主持建立的JDEST科技英語(yǔ)語(yǔ)篇語(yǔ)料庫(kù)等。
目前對(duì)漢英雙語(yǔ)語(yǔ)料庫(kù)研究都集中于句對(duì)齊算法和模型的研究,但是漢語(yǔ)自身的獨(dú)特性使得僅對(duì)雙語(yǔ)對(duì)齊模型和算法研究是遠(yuǎn)遠(yuǎn)不夠的,應(yīng)該從語(yǔ)言本身出發(fā),考察特定語(yǔ)言的語(yǔ)言特點(diǎn)。同時(shí),句子為單位構(gòu)建漢英雙語(yǔ)語(yǔ)料庫(kù)的準(zhǔn)確率遠(yuǎn)遠(yuǎn)不如屬于同一語(yǔ)系的英法對(duì)齊之間的準(zhǔn)確率高。如Brown(1993)在加拿大Hansard語(yǔ)料進(jìn)行法英句對(duì)齊,其準(zhǔn)確率可以達(dá)到99.6%,而漢英對(duì)齊準(zhǔn)確率卻僅90.6%(李維剛,2006)。
基于以上原因,本文總結(jié)分析已有的漢英雙語(yǔ)語(yǔ)料庫(kù),指出構(gòu)建漢英雙語(yǔ)語(yǔ)料庫(kù)從漢英兩種語(yǔ)言的語(yǔ)言特點(diǎn)出發(fā),并提出以漢語(yǔ)標(biāo)點(diǎn)句為參照構(gòu)建漢英雙語(yǔ)語(yǔ)料庫(kù)的設(shè)想。本文接下來(lái)的章節(jié)分別是第二章總結(jié)現(xiàn)有的漢英對(duì)齊語(yǔ)料庫(kù),第三章描述以漢語(yǔ)標(biāo)點(diǎn)句為基礎(chǔ)構(gòu)建漢英雙語(yǔ)語(yǔ)料庫(kù)的過(guò)程,第四章是對(duì)全文的總結(jié)。
2.漢語(yǔ)標(biāo)點(diǎn)句
漢語(yǔ)與英語(yǔ)不同,存在著很多省略的現(xiàn)象,尤其是對(duì)于主語(yǔ)的省略,此外,漢語(yǔ)句與句間的邏輯關(guān)系也少有顯化的詞來(lái)體現(xiàn)。因此,為使?jié)h語(yǔ)和英語(yǔ)處于同一語(yǔ)法層級(jí)上,本文提出以漢語(yǔ)標(biāo)點(diǎn)句為參照構(gòu)建漢英雙語(yǔ)語(yǔ)料庫(kù)。
標(biāo)點(diǎn)句是指漢語(yǔ)書(shū)面語(yǔ)篇章中鄰近的兩個(gè)標(biāo)點(diǎn)之間的詞串。這里所說(shuō)的標(biāo)點(diǎn),包括逗號(hào)、句號(hào)、分號(hào)、嘆號(hào)、問(wèn)號(hào)以及直接引語(yǔ)前的冒號(hào)。頓號(hào)、書(shū)名號(hào)、連接號(hào)、間隔號(hào)、著重號(hào)不看作標(biāo)點(diǎn)句的邊界,破折號(hào)和刪節(jié)號(hào)出現(xiàn)較少,所以也不涉及(宋柔,2008)。
在標(biāo)點(diǎn)句中,如果一個(gè)成分或者整個(gè)標(biāo)點(diǎn)句被另一些標(biāo)點(diǎn)句談?wù)?,也就是前者為后者的話題,后者為前者的說(shuō)明。話題和它的所有說(shuō)明組成一個(gè)話題結(jié)構(gòu)。(宋柔,2008)例如:
①我們把保增長(zhǎng)與調(diào)結(jié)構(gòu)緊密結(jié)合起來(lái);
②加快解決制約經(jīng)濟(jì)發(fā)展的結(jié)構(gòu)性矛盾。
上句中有兩個(gè)標(biāo)點(diǎn)句,其中標(biāo)點(diǎn)句①具有完整的主謂結(jié)構(gòu),標(biāo)點(diǎn)句②則缺少主語(yǔ),其主語(yǔ)是標(biāo)點(diǎn)句①中的“我們”。在話題結(jié)構(gòu)中,“我們”被稱(chēng)為話題,該話題被標(biāo)點(diǎn)句②共享,標(biāo)點(diǎn)句②的內(nèi)容是對(duì)于話題“我們”的說(shuō)明。
基于以上分析,標(biāo)點(diǎn)句①具備了完整的話題和說(shuō)明成分,因此是話題自足句,標(biāo)點(diǎn)句②則只有說(shuō)明部分,并不是一個(gè)完整的話題說(shuō)明結(jié)構(gòu),但是由于其共享了標(biāo)點(diǎn)句①的話題,因此被稱(chēng)作是潛在的話題自足句。大量的漢語(yǔ)語(yǔ)料分析顯示,漢語(yǔ)標(biāo)點(diǎn)句中絕大部分都是話題自足句或是潛在的話題自足句,這是以標(biāo)點(diǎn)句為參照構(gòu)建雙語(yǔ)語(yǔ)料庫(kù)的基本依據(jù)。
上句對(duì)應(yīng)的英文譯文是:
①We closely integrated sustaining economic growth with economic restructuring,
②and moved more quickly to resolve structural problems limiting economic development.
從英文譯文看,漢語(yǔ)標(biāo)點(diǎn)句①對(duì)應(yīng)英文①,標(biāo)點(diǎn)句②對(duì)應(yīng)英文譯文②,英文譯文②也是缺少了主語(yǔ),其主語(yǔ)共享了前一句的主語(yǔ)“We”。從結(jié)構(gòu)上看,譯文①是一個(gè)完整的主謂句,譯文②補(bǔ)足主語(yǔ)后,依然是一個(gè)完整的主謂句,且兩個(gè)主謂句內(nèi)部不再嵌套其他主謂句,也就是說(shuō)兩部分譯文的結(jié)構(gòu)都具有單一性,都可以獨(dú)立成為更大語(yǔ)言單位的組成部分。
綜上所述,漢語(yǔ)標(biāo)點(diǎn)句具備使得漢英能夠?qū)崿F(xiàn)較高質(zhì)量對(duì)齊的基本性質(zhì),即:(1)漢語(yǔ)標(biāo)點(diǎn)句是可操作、高覆蓋的。漢語(yǔ)的句子不易界定,但是標(biāo)點(diǎn)句基本上沒(méi)有歧義。(2)每一個(gè)標(biāo)點(diǎn)句本身是(或潛在是)一個(gè)話題自足句,一個(gè)話題句就是一個(gè)成分完整的命題,而命題具有完整的語(yǔ)義內(nèi)容,能夠較好地在雙語(yǔ)之間建立起對(duì)應(yīng)關(guān)系,是較為理想的雙語(yǔ)對(duì)齊單位。
3.基于漢語(yǔ)標(biāo)點(diǎn)句的漢英雙語(yǔ)語(yǔ)料庫(kù)創(chuàng)建
語(yǔ)料庫(kù)創(chuàng)建包括預(yù)料采集、語(yǔ)料對(duì)齊以及語(yǔ)料標(biāo)注等步驟。
本文自建的語(yǔ)料庫(kù)是以語(yǔ)言研究為目的專(zhuān)門(mén)語(yǔ)料庫(kù),雖然理論上語(yǔ)料庫(kù)的規(guī)模應(yīng)該盡可能大,但是現(xiàn)實(shí)因素限制該語(yǔ)料庫(kù)的規(guī)模不可能實(shí)現(xiàn)盡可能大,能夠滿足研究目標(biāo)既可。為使其能充分代表整體并具有平衡性,本文選取近十年《政府工作報(bào)告》及小說(shuō)《圍城》(部分)為本文研究的語(yǔ)料,語(yǔ)料分為中文及其英語(yǔ)譯文兩部分,共包括16239對(duì)標(biāo)點(diǎn)句對(duì)。
語(yǔ)料對(duì)齊是使語(yǔ)料庫(kù)能夠具備語(yǔ)言分析的功能前提。雙語(yǔ)對(duì)齊首先需要選取適合漢英兩種語(yǔ)言的對(duì)齊單位,由于漢語(yǔ)標(biāo)點(diǎn)句本身或者潛在是一個(gè)話題自足句,經(jīng)過(guò)標(biāo)注便能與注重形合的英語(yǔ)處于同一語(yǔ)法層面,因此本文選取以漢語(yǔ)標(biāo)點(diǎn)句為雙語(yǔ)對(duì)齊單位進(jìn)行語(yǔ)料庫(kù)的構(gòu)建。雙語(yǔ)對(duì)齊分為自動(dòng)對(duì)齊和人工對(duì)齊兩部分。第一步,進(jìn)行機(jī)器對(duì)齊,首先輸入漢英篇章級(jí)對(duì)齊的原始語(yǔ)料,根據(jù)標(biāo)點(diǎn)將漢語(yǔ)切分成標(biāo)點(diǎn)句,為每一個(gè)漢語(yǔ)標(biāo)點(diǎn)句順序?qū)ふ移鋵?duì)應(yīng)的英文譯文,如遇到漢語(yǔ)標(biāo)點(diǎn)句語(yǔ)序與譯文語(yǔ)序不對(duì)應(yīng)的情況,則將漢語(yǔ)標(biāo)點(diǎn)句合并,直到漢英雙方的語(yǔ)序一致為止,最后輸出漢語(yǔ)標(biāo)點(diǎn)句及與之對(duì)應(yīng)的英文譯文。第二步,為了提高對(duì)齊準(zhǔn)確率需在機(jī)器對(duì)齊的基礎(chǔ)上輔以人工校對(duì)。
為使語(yǔ)言特點(diǎn)顯化需要對(duì)語(yǔ)料庫(kù)增加文本語(yǔ)言的信息標(biāo)注,包括詞匯、句法、命名實(shí)體、語(yǔ)篇結(jié)構(gòu)等,但具體需要根據(jù)研究目的確定信息的標(biāo)注類(lèi)型。本文為了能夠更好實(shí)現(xiàn)漢英兩種語(yǔ)言的對(duì)齊,對(duì)語(yǔ)料進(jìn)行信息顯化的標(biāo)注,如:
在上例中,漢語(yǔ)中①、③、④標(biāo)點(diǎn)句都省略了話題“全國(guó)各族人民”,為了使每個(gè)標(biāo)點(diǎn)句都變成話題和說(shuō)明完整的話題自足句,標(biāo)注出其隱藏的語(yǔ)言信息,其對(duì)應(yīng)的英語(yǔ)譯文也是如此,對(duì)①、③、④隱藏的信息“we the Chinese people”添加標(biāo)注。經(jīng)過(guò)標(biāo)注的語(yǔ)料庫(kù)基本可以實(shí)現(xiàn)中文和英文的一一對(duì)應(yīng),這是以漢語(yǔ)標(biāo)點(diǎn)句為單位構(gòu)建漢英雙語(yǔ)語(yǔ)料庫(kù)的優(yōu)點(diǎn),也為進(jìn)一步提高機(jī)器翻譯提供參考。
4.總結(jié)
目前,語(yǔ)料庫(kù)成為語(yǔ)言研究的熱點(diǎn)之一,其質(zhì)量也直接影響著語(yǔ)言對(duì)比、翻譯研究甚至自然語(yǔ)言處理的研究效果,而受漢語(yǔ)獨(dú)特性的影響,現(xiàn)存的漢英雙語(yǔ)語(yǔ)料庫(kù)存在著一些缺點(diǎn)和不足。本文從漢語(yǔ)本身的特點(diǎn)出發(fā),即每一個(gè)漢語(yǔ)標(biāo)點(diǎn)句都可以是或補(bǔ)充成為話題說(shuō)明完整的句子,因此以漢語(yǔ)標(biāo)點(diǎn)句為參照構(gòu)建漢英雙語(yǔ)對(duì)齊語(yǔ)料庫(kù),并對(duì)其語(yǔ)言信息進(jìn)行標(biāo)注,可以建立一個(gè)高質(zhì)量的漢英對(duì)齊語(yǔ)料庫(kù),為語(yǔ)言研究及自然語(yǔ)言處理提供更多的語(yǔ)言特征支持。
參考文獻(xiàn)
[1]Brown P F , Lai J C , Mercer R L . Aligning sentences in parallel corpora[C]//Proceedings of the 29th annual meeting on Association for Computational Linguistics, 1991:169-176.
[2]劉冬明.漢英雙語(yǔ)平行語(yǔ)料庫(kù)中對(duì)齊方法的研究[D].山西大學(xué),2004.
[3]李維剛,劉挺,張宇,等.基于長(zhǎng)度和位置信息的雙語(yǔ)句子對(duì)齊方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006,38(5):689-692.
[4]牛洪梅.服務(wù)于漢維機(jī)器翻譯系統(tǒng)的雙語(yǔ)句子對(duì)齊的研究[D].新疆大學(xué),2007.
[5]宋柔,葛詩(shī)利.面向篇章機(jī)器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學(xué)報(bào),2015,29(05):125-135.
[6]宋柔.現(xiàn)代漢語(yǔ)跨標(biāo)點(diǎn)句句法關(guān)系的性質(zhì)研究[J].世界漢語(yǔ)教學(xué),2008(02):26-44+2.
[7]宋柔.漢語(yǔ)篇章廣義話題結(jié)構(gòu)的流水模型[J].中國(guó)語(yǔ)文,2013(06):483-494+575.
[8]宋柔,葛詩(shī)利,尚英,盧達(dá)威.面向文本信息處理的漢語(yǔ)句子和小句[J].中文信息學(xué)報(bào),2017,31(02):18-24+35.
[9]尚英,宋柔,盧達(dá)威.廣義話題結(jié)構(gòu)理論視角下話題自足句成句性研究[J].中文信息學(xué)報(bào),2014,28(06):107-113+136.
[10]王斌.漢英雙語(yǔ)語(yǔ)料庫(kù)自動(dòng)對(duì)齊研究[D].中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),1999.
(作者單位:青島大學(xué))