胡海珠
(河南師范大學(xué) 外國語學(xué)院, 河南 新鄉(xiāng) 453007)
漢英學(xué)術(shù)平行語料庫開發(fā)設(shè)計(jì)
胡海珠
(河南師范大學(xué) 外國語學(xué)院, 河南 新鄉(xiāng) 453007)
在漢英學(xué)術(shù)平行語料庫的建設(shè)中,雙語界面開發(fā)、平行語料庫建設(shè)、平行語料的對(duì)齊和索引軟件開發(fā)都是重要的內(nèi)容。由于平行語料在段落、句子和詞匯層面的對(duì)齊對(duì)機(jī)助翻譯研究的意義有限,在平行語料的對(duì)齊過程中,雙語“對(duì)應(yīng)單位”的對(duì)齊研究成為新的焦點(diǎn)。本研究從一個(gè)小的試驗(yàn)性漢英平行學(xué)術(shù)語料庫的建設(shè)著手,圍繞建庫設(shè)計(jì)、雙語“對(duì)應(yīng)單位”對(duì)齊和索引軟件開發(fā)等展開,希望為大型漢英學(xué)術(shù)平行語料庫的建設(shè)提供一個(gè)操作參考。
漢英平行學(xué)術(shù)語料庫;開發(fā)設(shè)計(jì);對(duì)應(yīng)單位
將雙語語料庫的技術(shù)應(yīng)用于機(jī)助翻譯研究,是近20年語言學(xué)家研究的熱點(diǎn)之一,它將翻譯從規(guī)定性引向描述性,為翻譯研究提供了一個(gè)新的視角。目前雙語語料庫的研究主要集中于web雙語語料的獲取、雙語語料庫的建庫設(shè)計(jì)、雙語語料的對(duì)齊和雙語語料庫的應(yīng)用等。但雙語語料庫的對(duì)齊多停留在段落和句子層面,這樣做雖然為從雙語視角研究語言的實(shí)際使用提供了便利,但難以滿足自動(dòng)翻譯研究的實(shí)際需求。而詞匯層面的對(duì)齊雖然更精確,但類似于傳統(tǒng)紙質(zhì)詞典的電子化,就翻譯而言,由于需要大量的詞匯組合和重組,其對(duì)于翻譯的實(shí)際作用有限。目前一些研究者正致力于基于雙語對(duì)應(yīng)單位的對(duì)齊,以實(shí)現(xiàn)基于實(shí)例和基于存儲(chǔ)的自動(dòng)翻譯。雙語對(duì)應(yīng)單位的提取多來自平行語料庫。
(一)平行語料庫建設(shè)
語料庫是指“按照一定的采樣標(biāo)準(zhǔn)采集而來的、能夠代表一種語言或者某語言的一種變體或文類的電子文本集”[1]。雙語語料庫和單語語料庫相對(duì),是指由源語言和對(duì)源語言進(jìn)行翻譯后的目標(biāo)語言集合而成、整體對(duì)應(yīng)的語料庫。
雙語語料庫又可分為平行語料庫、翻譯語料庫和類比語料庫,分別指由一種語言及其對(duì)應(yīng)的其他語言的翻譯文本所構(gòu)成的語料庫、由對(duì)同一源語言文本進(jìn)行的不同譯文構(gòu)成的語料庫和由時(shí)間、領(lǐng)域、語境、內(nèi)容、規(guī)模等相似的不同語言文本構(gòu)成的語料庫。平行語料庫可以是單向的,也可以是雙向甚至多向的。
語料庫的語料來源一般分為紙質(zhì)材料、電子文檔、網(wǎng)絡(luò)資源和其他(如通過拍照或錄制得來的語言材料)。網(wǎng)絡(luò)來源的語料庫又分為人工采集(即通過人工選擇性收集語料,經(jīng)過人工降噪和格式整理轉(zhuǎn)化為需要的形式,更具語料選擇的精確性,但很耗時(shí)耗力)、自動(dòng)采集(即根據(jù)需要編輯的程序從網(wǎng)絡(luò)上或者其他特定語料庫中自動(dòng)采集文本,此種采集低成本、高效率,但是目標(biāo)語料不夠精確)、人機(jī)結(jié)合采集(即先用計(jì)算機(jī)自動(dòng)采集語料,然后對(duì)其進(jìn)行人工選擇和整理)。
(二)雙語對(duì)應(yīng)單位
語料的對(duì)齊是指將源語言的文本和對(duì)應(yīng)的譯文文本對(duì)應(yīng)儲(chǔ)存,并使兩個(gè)文本在一定的語言層面(如篇章、段落、句子、短語、詞等不同深度)一一對(duì)齊。段與段的對(duì)齊、句與句的對(duì)齊目前技術(shù)相對(duì)成熟,在語言研究中也有很重要的意義,但是句子以上層面的雙語對(duì)應(yīng),其復(fù)現(xiàn)率很小,而基于計(jì)算機(jī)統(tǒng)計(jì)的機(jī)助翻譯研究離不開頻率信息。沒有高的復(fù)現(xiàn)率,也就很難得到有意義的頻率信息,對(duì)于機(jī)助翻譯研究的意義就變得有限。
語料對(duì)齊可以基于詞匯層面,即將源語言的詞匯和其對(duì)應(yīng)的翻譯語言詞匯對(duì)應(yīng)起來。但是,詞匯層面除了形式上的一一對(duì)應(yīng),還有一對(duì)空、空對(duì)一、空對(duì)多等其他對(duì)應(yīng)形式;而形式上一一對(duì)應(yīng)的詞匯其實(shí)也很復(fù)雜,研究者可以依據(jù)后臺(tái)預(yù)制的詞庫將部分詞匯一一對(duì)應(yīng)起來,但這些詞匯本身并不是一一對(duì)應(yīng)的意義關(guān)系。經(jīng)過計(jì)算機(jī)統(tǒng)計(jì),這些詞匯最終多表現(xiàn)為一對(duì)多或多對(duì)一的關(guān)系。在翻譯實(shí)踐中,計(jì)算機(jī)可以將一對(duì)多的翻譯按頻率的高低顯示給譯者,供其選擇或參考,問題在于單純的頻率信息對(duì)于翻譯來說明顯是不夠的。任何詞匯意義的產(chǎn)生都是脫離不了語境的,也就是說,離開了語境,詞匯的意義就不能被完全確定。
雙語平行文本在段落和句子上的對(duì)齊對(duì)于機(jī)助翻譯研究的意義有限,在詞匯層面的對(duì)齊也不能提供令人非常滿意的翻譯參考。我們可以取其中間,將詞匯進(jìn)行擴(kuò)展,把對(duì)齊層面界定為帶有微語境的片段。這個(gè)語境雖然不大,但是足以使詞匯意義相對(duì)明確。于是,語言研究者提出了“對(duì)應(yīng)單位”的概念。
對(duì)應(yīng)單位是指在平行語料庫中源文和譯文中任何可識(shí)別的對(duì)應(yīng)片段。它不只是一個(gè)理論概念,更是一個(gè)操作概念。根據(jù)一定的工作原則,如果文本的處理者認(rèn)為平行語料庫中的某兩個(gè)雙語片段在翻譯過程中是對(duì)應(yīng)的,就可以將它確認(rèn)。這個(gè)過程當(dāng)然也有意義的判斷,但是它的操作相對(duì)自由。只要文本操作者是具備相關(guān)語言知識(shí)的人,他憑借自身的語言經(jīng)驗(yàn)所做出的選擇都是可接受的。北京外國語大學(xué)李文中教授曾提出,“對(duì)應(yīng)單位”的概念是基于現(xiàn)有的語言理論研究的,但它本身不是一個(gè)語言理論層面的概念,而是用于操作層面,它使語料的處理者不會(huì)無所適從,同時(shí)又符合服務(wù)于機(jī)助翻譯的目的。
我們的目標(biāo)語料庫是一個(gè)單向的漢英學(xué)術(shù)平行語料庫,源語言為漢語,目標(biāo)語言為英語。該語料庫開發(fā)的主要目的是用于學(xué)術(shù)漢英文本對(duì)應(yīng)單位的提取和存儲(chǔ),為大型英漢學(xué)術(shù)平行語料庫的建設(shè)提供一個(gè)參考模型,最終服務(wù)于漢語學(xué)術(shù)語料機(jī)助翻譯事業(yè),力圖使其質(zhì)量有所提高。
(一)語料的選擇
學(xué)術(shù)研究領(lǐng)域可用的雙語電子語料非常少。要建立雙語學(xué)術(shù)語料庫,一般途徑是購買原版和翻譯版書籍進(jìn)行掃描和文字識(shí)別,經(jīng)過人工正誤后整理為規(guī)范的電子文本,再將雙語文本對(duì)應(yīng)入庫。即便如此,我們可得到的雙語語料多是英漢學(xué)術(shù)平行語料,漢譯英的語料很少,正規(guī)漢語學(xué)術(shù)著作的英譯版本收集難度更大。
我們選擇語料的指導(dǎo)思想是:第一,必須是學(xué)術(shù)語料;第二,必須以漢語為源語言、英語為目標(biāo)語言;第三,必須是雙語都很規(guī)范且翻譯相對(duì)穩(wěn)定的文本;第四,由于該語料庫為嘗試性研究,建庫規(guī)模不應(yīng)太大。本著“漢英譯向、學(xué)術(shù)性、規(guī)范性、小尺寸”四個(gè)原則,我們將目標(biāo)語料設(shè)定為中文博士學(xué)位論文的中英文對(duì)應(yīng)摘要,規(guī)模約10萬字(源語言)。
(二)語料入庫
文本入庫格式被設(shè)為TXT文本,原因是這種格式的文本很干凈,沒有很多的文檔內(nèi)標(biāo)記信息,所占空間很小。入庫前每一篇摘要需要被整理為一個(gè)文件夾下的三個(gè)文本。第一個(gè)文本是漢語的摘要部分,第二個(gè)文本是對(duì)應(yīng)的英語摘要部分,第三個(gè)文本為信息文本,保留了論文的百科分類、題目、學(xué)校、年代、文本字?jǐn)?shù)等,用于雙語界面錄入摘要文本時(shí)輸入題頭信息。
建庫用的雙語界面需要自主開發(fā)。整個(gè)雙語界面被設(shè)定為一個(gè)十字架結(jié)構(gòu),左上為漢語的題頭信息錄入界面,需要錄入的信息包括篇名、關(guān)鍵詞、作者性別(男、女和未知)、年代、學(xué)校、文本領(lǐng)域和子領(lǐng)域、文本字?jǐn)?shù)等,不包含作者姓名信息。左下角為漢語文本的錄入界面、需要復(fù)制之前存儲(chǔ)的TXT格式的摘要文本,粘貼到文本框架內(nèi),粘貼后在提交之前允許編輯和修改。右上角和右下角為對(duì)應(yīng)的英語文本錄入界面,提交前同樣允許編輯和修改。
語料庫開發(fā)團(tuán)隊(duì)的每個(gè)成員都被分配一個(gè)用戶名和初始密碼,使用所分配的用戶名和初始密碼可以打開雙語錄入界面,將漢語的題頭信息和文本以及英語的對(duì)應(yīng)題頭信息和文本錄入,檢查無誤后可點(diǎn)擊右下角的提交按鈕。如看到提交成功的提示,錄入者所錄內(nèi)容就被成功收入。提交成功后所錄入的內(nèi)容不可以再修改,但可以刪除,然后重新錄入。為了保證意外的重復(fù)錄入,完全相同的題頭信息和文本內(nèi)容不能提交成功,題頭信息錄入不全的也不能提交成功。
語料提交成功后,雙語界面的開發(fā)和管理者可以查看某個(gè)文本的錄入負(fù)責(zé)人和錄入時(shí)間,也可以對(duì)錄入文檔進(jìn)行管理。如果發(fā)現(xiàn)問題,可以對(duì)其進(jìn)行處理,也可以告知該文本的錄入負(fù)責(zé)人,由其負(fù)責(zé)刪除和重新錄入。這樣的監(jiān)控措施保證了文本錄入的規(guī)范和質(zhì)量。
入庫語料的段落對(duì)應(yīng)很規(guī)整,通過界面錄入的題目和分類等標(biāo)注信息將被軟件自動(dòng)轉(zhuǎn)換,并在后臺(tái)自動(dòng)生成XML格式的題頭信息。除了題頭信息,文本內(nèi)容中的文本開始、文本結(jié)束、段落開始、段落結(jié)束等位置也被自動(dòng)添加XML標(biāo)記。經(jīng)過XML標(biāo)注的文本和錄入時(shí)的純文本形式的生語料是分開的,這樣保證了生語料的干凈。使用者可以在后期對(duì)生語料根據(jù)自身的需要另設(shè)標(biāo)注體系,也可以使用XML標(biāo)注快速定位到現(xiàn)有語料庫的某一個(gè)文本。
(三)文本對(duì)齊及軟件開發(fā)
雙語翻譯對(duì)應(yīng)單位的對(duì)齊在起步階段需人工識(shí)別和手動(dòng)對(duì)齊,對(duì)齊的原則由語料庫開發(fā)團(tuán)隊(duì)在抽樣試驗(yàn)后經(jīng)過討論進(jìn)行統(tǒng)一。隨著人工識(shí)別的雙語對(duì)應(yīng)單位的積累,后期智能匹配的比率會(huì)逐漸增加,人工干預(yù)成分隨之逐漸減少。另外,語料庫的建設(shè)在經(jīng)過雙語界面開發(fā)、建庫和雙語對(duì)應(yīng)單位提取的階段后,還需開發(fā)對(duì)應(yīng)的索引軟件,使語料的使用者能夠?qū)σ呀?jīng)匹配的對(duì)應(yīng)單位進(jìn)行查詢和語境還原。
(一)建成的語料庫
據(jù)上所述,本著“漢英譯向、學(xué)術(shù)性、規(guī)范性、小尺寸”四個(gè)原則,我們的目標(biāo)語料為中文博士學(xué)位論文的中英文對(duì)應(yīng)摘要,規(guī)模約10萬字(源語言)。
經(jīng)過人工收集和整理,該研究所建成的語料庫收入了人文、理學(xué)、工業(yè)、農(nóng)業(yè)和醫(yī)藥衛(wèi)生等學(xué)科語料。其中人文類33篇,約計(jì)20 000字;理學(xué)類21篇,約計(jì)15 000字;工業(yè)類36篇,約計(jì)23 000字;農(nóng)業(yè)類30篇,約計(jì)20 000字;醫(yī)藥衛(wèi)生類30篇,約計(jì)23 000字。以源語言漢語計(jì)算,共計(jì)150篇,約101 000字,符合預(yù)期的語料類型和規(guī)模。
(二)對(duì)應(yīng)單位的提取
對(duì)應(yīng)單位的識(shí)別是一個(gè)復(fù)雜的工作過程。語料庫開發(fā)團(tuán)隊(duì)在對(duì)應(yīng)單位識(shí)別中采用人工識(shí)別和智能識(shí)別相結(jié)合的原則,即在初始階段對(duì)平行文本中的對(duì)應(yīng)單位進(jìn)行純粹的人工判斷和識(shí)別,由軟件系統(tǒng)對(duì)識(shí)別出的對(duì)應(yīng)單位進(jìn)行自動(dòng)提取和標(biāo)注,并利用數(shù)據(jù)庫將其管理起來,繼而利用數(shù)據(jù)庫對(duì)新入庫的文本進(jìn)行智能識(shí)別和提取,而現(xiàn)有數(shù)據(jù)庫中沒有儲(chǔ)存的部分仍然靠人工完成。在智能匹配的過程中,軟件系統(tǒng)會(huì)給操作者以匹配建議,而操作者可以選擇使用或者不用給出的建議。
對(duì)應(yīng)單位的人工提取需要一定的工作理念和操作原則。經(jīng)過試驗(yàn)和討論,團(tuán)隊(duì)在這個(gè)環(huán)節(jié)的操作過程中的基本工作原則如下。
1.原則上只要操作者按照個(gè)人的語言知識(shí)判斷為意義對(duì)應(yīng)較完整,并且對(duì)應(yīng)邊界清晰的雙語片段都可以被標(biāo)記和提取(不影響對(duì)應(yīng)單位的準(zhǔn)確性,只影響所提取單位的長度和數(shù)量,不悖于服務(wù)機(jī)助翻譯的目的)。
2.對(duì)于可長可短的對(duì)應(yīng),以取短優(yōu)先;但對(duì)于長短難以取舍的對(duì)應(yīng),不拒絕一個(gè)長的語言片段和其內(nèi)部成分的同時(shí)對(duì)應(yīng)(不影響短對(duì)應(yīng)的數(shù)量,只增加長對(duì)應(yīng)的數(shù)量)。
3.如果源語言中出現(xiàn)習(xí)語、成語、熟語等集體出現(xiàn)的成分,則不再拆分,將其整體對(duì)應(yīng)。
4.如果源語言中出現(xiàn)組織機(jī)構(gòu)名稱、人名、地名、術(shù)語等成分,則不再拆分,將其整體對(duì)應(yīng)。
5.功能詞不再對(duì)應(yīng),如冠詞、介詞、連詞和代詞等(通過詞庫可以實(shí)現(xiàn)自動(dòng)翻譯)。
6.對(duì)于非連續(xù)的對(duì)應(yīng)單位,可以間斷選擇,再進(jìn)行對(duì)應(yīng)。非連續(xù)的成分以非連續(xù)的結(jié)構(gòu)形式進(jìn)行存儲(chǔ)。
7.對(duì)于較難判斷的成分,由操作者根據(jù)自己的語言經(jīng)驗(yàn)確定對(duì)應(yīng)邊界。
以句子“以人機(jī)工程學(xué)為基礎(chǔ),分析了軟技術(shù)的內(nèi)涵和作用機(jī)理”及其翻譯“Based on Human Engineering,this paper analyzed and validated the meaning and mechanism of soft-technology”為例,根據(jù)個(gè)人的語言判斷,我們可以對(duì)漢語中的“以……為基礎(chǔ)”“人機(jī)工程學(xué)”“分析了”“軟技術(shù)”“內(nèi)涵”和“作用機(jī)理”進(jìn)行提取,分別對(duì)應(yīng)英語中的Based on、Human Engineering、analyzed、soft-technology、meaning和mechanism,“的”與“和”沒有處理,翻譯中的this paper和validated也沒有處理。
我們接受平行文本對(duì)應(yīng)過程中的人工判斷是基于以下討論結(jié)果:雖然每個(gè)人的語言知識(shí)和語言判斷不盡相同,所劃分的對(duì)應(yīng)邊界也會(huì)不同,但這種對(duì)應(yīng)的判斷是基于雙語視角的,雙語片段必須同時(shí)界限清晰。這有效地幫助了操作者的判斷和識(shí)別。操作者識(shí)別和提取的對(duì)應(yīng)片段一般不會(huì)是“錯(cuò)”的,即不會(huì)不對(duì)應(yīng)。只是不同的操作者在對(duì)同一個(gè)文本進(jìn)行處理時(shí),所提取的對(duì)應(yīng)單位的長度不同,不影響所提取的雙語單位的對(duì)應(yīng)性。即使偶爾出現(xiàn)錯(cuò)的情況,即所提取的雙語是不對(duì)應(yīng)的,這種錯(cuò)誤后期被其他操作者所重復(fù)的概率也很小。前期的人工識(shí)別在進(jìn)行了一個(gè)階段之后會(huì)輔以智能識(shí)別,即當(dāng)操作者選取了源語言的某個(gè)片段之后,軟件系統(tǒng)會(huì)將前期提取和儲(chǔ)存的對(duì)應(yīng)結(jié)果進(jìn)行動(dòng)態(tài)統(tǒng)計(jì),同時(shí)將建議的譯文對(duì)應(yīng)片段高亮化顯示給操作者。如果操作者接受系統(tǒng)建議,則系統(tǒng)將把這一組作為新的對(duì)應(yīng)儲(chǔ)存起來;如果操作者不接受系統(tǒng)的建議,他可以繼續(xù)手動(dòng)以使之對(duì)應(yīng)。這樣,已經(jīng)被儲(chǔ)存的對(duì)應(yīng)單位或被繼續(xù)認(rèn)可和重復(fù),從而得到頻率的增長和地位的提高;或被反復(fù)拒絕,因其頻率排序越來越低而成為尾巴選項(xiàng),最終等同于從對(duì)應(yīng)單位的行列中被剔除。因此,個(gè)別的對(duì)應(yīng)錯(cuò)誤并不能夠影響對(duì)應(yīng)單位提取的整體結(jié)果,只有識(shí)別者的重復(fù)對(duì)應(yīng)才會(huì)形成對(duì)應(yīng)單位統(tǒng)計(jì)上的概率基礎(chǔ)。
(三)索引軟件開發(fā)
該庫對(duì)應(yīng)的漢英平行學(xué)術(shù)語料庫的索引軟件已經(jīng)由河南師范大學(xué)語料庫應(yīng)用研發(fā)中心開發(fā)完成,版權(quán)歸河南師范大學(xué)語料庫應(yīng)用研發(fā)中心。目前軟件經(jīng)過反復(fù)測(cè)試,可以實(shí)現(xiàn)使用者所需要的基本功能。主要包括:1.對(duì)應(yīng)單位的檢索;2.對(duì)應(yīng)單位的頻率信息統(tǒng)計(jì);3.對(duì)檢索結(jié)果的統(tǒng)計(jì)分析;4.雙語語境還原;5.雙語全文檢索。
不足的是,目前該索引軟件只能實(shí)現(xiàn)精確查詢,即用戶輸入一個(gè)確定的語言單位,讓軟件系統(tǒng)執(zhí)行查詢服務(wù),并將查詢結(jié)果顯示給使用者。使用者可以對(duì)查詢的結(jié)果進(jìn)行進(jìn)一步的語境查詢等操作。但是,目前開發(fā)出的軟件不認(rèn)可通配符等符號(hào),不能進(jìn)行模糊查詢,如“*穴”等。
語言研究者和計(jì)算機(jī)工作者的合作會(huì)給機(jī)助翻譯的研究帶來驚人的收獲。平行語料庫與機(jī)助翻譯的對(duì)接是一個(gè)潛力巨大的項(xiàng)目,而漢英學(xué)術(shù)平行語料庫是目前國內(nèi)平行語料庫建設(shè)所缺少但很重要的構(gòu)成。該語料庫的開發(fā)是在國內(nèi)學(xué)術(shù)入超、平語語料庫研究興起、平行語料庫研究與機(jī)助翻譯研究的結(jié)合日益密切、國內(nèi)漢英學(xué)術(shù)平行語料庫稀缺的背景下展開的,它在小規(guī)模語料庫的基礎(chǔ)上完成了建庫、對(duì)應(yīng)單位提取和軟件開發(fā)等系列工作,為大規(guī)模的漢英平行學(xué)術(shù)語料庫開發(fā)提供了可借鑒的理念基礎(chǔ)和操作依據(jù)。
在接下來的研究中,我們將對(duì)語料庫的規(guī)模加以擴(kuò)大,對(duì)語料類型豐富化,對(duì)索引軟件進(jìn)行改進(jìn),并嘗試與機(jī)助翻譯實(shí)踐進(jìn)行實(shí)驗(yàn)性對(duì)接,以期為漢語學(xué)術(shù)語料的機(jī)助英譯研究做出自己的貢獻(xiàn)。
[1]梁茂成.語料庫應(yīng)用教程[M]. 北京: 外語教學(xué)與研究出版社,2010:3.
【責(zé)任編輯 郭慶林】
Design and Construction of Chinese-English Academic Parallel Corpus
HU Haizhu
(Faculty of International Studies, Henan Normal University, Xinxiang 453007, China)
Bilingual interface develops, parallel corpus construction, parallel text alignment and concordance software development are all important contents in the construction of Chinese-English academic parallel corpora. As the alignments of parallel texts at paragraph, sentence and lexicon levels are all limited in the use for machine-assist translation, the alignment of bilingual “corresponding unit” has become a new focus. This is a pilot study about the construction of a small Chinese-English academic parallel corpus, focusing on the parallel text alignment and concordance software development to offer a reference for the construction of large-scale Chinese-English academic parallel corpora.
Chinese-English academic parallel corpus; design and construction; corresponding unit
2015-03-25
胡海珠(1979—),女,河南西平人,講師,研究方向:應(yīng)用語言學(xué)。
H319
A
2095-7726(2015)07-0050-04