卡拉·沃伯頓 宋楠楠 朱波
摘?要:公司跨國經(jīng)營離不開翻譯,翻譯質(zhì)量和速度是獲取目標(biāo)市場份額的關(guān)鍵因素。積極主動(dòng)地管理術(shù)語,包括預(yù)處理翻譯項(xiàng)目中的關(guān)鍵術(shù)語,會(huì)產(chǎn)生積極影響。在商業(yè)環(huán)境中,翻譯內(nèi)容包羅萬象,術(shù)語來源廣泛。以術(shù)語提取為基礎(chǔ),采取重用已有詞匯的后處理策略,可最大限度提高效率,把術(shù)語自動(dòng)整合到翻譯管道中。從語料庫中提取用于翻譯的術(shù)語,導(dǎo)入術(shù)語庫,用于商業(yè)開發(fā)。根據(jù)工作經(jīng)驗(yàn),作者探討了術(shù)語提取的有效方法。
關(guān)鍵詞:計(jì)算機(jī)輔助翻譯;術(shù)語提取;翻譯記憶;詞匯;術(shù)語;術(shù)語數(shù)據(jù)庫
中圖分類號:H059;H083??文獻(xiàn)標(biāo)識(shí)碼:A??DOI:10.3969/j.issn.1673-8578.2019.05.003
Processing Terminology for the Translation Pipeline// Kara Warburton,
Translated by SONG Nannan,ZHU Bo
Abstract: Companies must translate their content if they want to operate multinationally. Both quality and speed of translation are key factors in determining market share in the target market. Proactively managing terminology, including pretranslating key terms for a translation project, has beneficial effects on these factors. However, in commercial environments, the volumes of content and required terms are typically large. Therefore, integrating terms into the translation pipeline requires a process that is as automated as possible. Term extraction is the cornerstone of this process, but to maximize efficiency requires a postprocessing strategy that repurposes existing lexical resources. Terms extracted from corpora and subsequently translated should be channeled into the company term base so that they can be leveraged for other purposes. Based on our experiences in one large company, we discussed effective practices for processing extracted terms in this
paper.
Keywords: computerassisted translation (CAT); term extraction;
translation memory; lexical resources; terminology; term bases
一?簡?介
產(chǎn)品多元化的大型公司是翻譯產(chǎn)業(yè)的重要客戶。翻譯越快,產(chǎn)品面市越早,搶占的市場份額就越大。如今,各大公司都致力于同時(shí)上線旗下產(chǎn)品的所有語言版本。提升速度也要保證質(zhì)量,否則將影響目標(biāo)市場客戶滿意度,給公司帶來損失。
在壓力之下,公司正尋求技術(shù)解決方案。哪些工具可減少工作時(shí)間,又能保證翻譯質(zhì)量?幾十年前,第一種科技工具以計(jì)算機(jī)輔助翻譯(CAT)的形式出現(xiàn)。CAT工具由翻譯編輯器和數(shù)據(jù)庫組成,翻譯編輯器可查看源句和目標(biāo)句,數(shù)據(jù)庫保存翻譯以便日后重復(fù)使用。如今CAT功能日益強(qiáng)大,可用于項(xiàng)目管理、文件管理、術(shù)語提取和術(shù)語管理等。
雖然CAT轉(zhuǎn)換率更快、一致性更高,但術(shù)語數(shù)據(jù)庫(termbase)可獲得額外收益。本文將把術(shù)語數(shù)據(jù)庫與CAT工具結(jié)合,利用術(shù)語提取來補(bǔ)充CAT中雙語術(shù)語的不足。文章將證明術(shù)語可以被提取、處理、翻譯和重新利用,從而節(jié)省商業(yè)翻譯的時(shí)間和成本。
二?術(shù)語與翻譯記憶
大多數(shù)CAT工具依賴于翻譯記憶(TM)技術(shù),翻譯人員不必重新翻譯已有句子,節(jié)省很多時(shí)間。翻譯句子時(shí),源句和譯文作為一個(gè)“翻譯單元”存儲(chǔ)在數(shù)據(jù)庫中,即TM。每次譯者翻譯其他句子時(shí),數(shù)據(jù)庫會(huì)自動(dòng)搜尋,看看該句或類似句子是否已存在。如符合,就會(huì)顯示該句譯文,供譯者重復(fù)使用。歷經(jīng)幾十年發(fā)展,TM技術(shù)已達(dá)到“爐火純青”的地步,目前正尋找獲取額外收益的方法。
一些學(xué)者認(rèn)為,術(shù)語通常是名詞短語(NP),有多種句法功能,如介詞補(bǔ)語、主語、直接賓語等。TM針對完整句子運(yùn)行。查詢句子的部分TM,比如搜尋給定術(shù)語的翻譯,需要大量資源,不切實(shí)際。因此,大多數(shù)CAT為補(bǔ)充TM,有單獨(dú)查詢術(shù)語的功能。許多公司認(rèn)為有TM就足夠,忽略了CAT術(shù)語數(shù)據(jù)庫。使用CAT術(shù)語數(shù)據(jù)庫,可減少術(shù)語使用中的不一致和錯(cuò)誤。研究表明,術(shù)語錯(cuò)誤是譯者最常犯的錯(cuò)誤之一。
本地化行業(yè)標(biāo)準(zhǔn)協(xié)會(huì)建議在翻譯項(xiàng)目之前預(yù)處理給定項(xiàng)目的術(shù)語,并輸入CAT術(shù)語數(shù)據(jù)庫中。確保關(guān)鍵術(shù)語可自動(dòng)索引,并預(yù)先確定目標(biāo)的標(biāo)準(zhǔn)譯法。雙語術(shù)語補(bǔ)充TM:譯者可同時(shí)從TM中看到之前句子譯文和術(shù)語庫中任何匹配的術(shù)語。譯員如發(fā)現(xiàn)TM段之間或TM和術(shù)語數(shù)據(jù)庫之間的術(shù)語不一致,可實(shí)時(shí)修復(fù)。長此以往,翻譯后的新內(nèi)容和TM會(huì)總體改進(jìn)。
為翻譯項(xiàng)目提供預(yù)先確定、質(zhì)量過關(guān)的雙語術(shù)語并不簡單。要獲得高水平術(shù)語,需要采取以下步驟:
(1)獲取項(xiàng)目專用語料庫;
(2)從語料庫中提取術(shù)語;
(3)縮減實(shí)際術(shù)語候選表(清理“噪聲”);
(4)翻譯術(shù)語;
(5)保留譯后術(shù)語為將來所用。
每一個(gè)步驟都有自己的挑戰(zhàn),本文著重介紹(2)和(3)。
三?獨(dú)立語料庫
語料庫是進(jìn)行研究的基礎(chǔ)資源,其中存放的是在語言使用中出現(xiàn)過的真實(shí)語料,需要經(jīng)過加工、分析和處理,才能成為有用資源。因此,提供一個(gè)合適途徑來訪問和匯總提取術(shù)語的語料庫非常重要。許多公司的產(chǎn)品都是零星開發(fā)的,生產(chǎn)部門、地理位置、時(shí)區(qū)和團(tuán)隊(duì)各不相同。通常,團(tuán)隊(duì)文件保存在本地網(wǎng)絡(luò)的存儲(chǔ)庫中,無法輕易進(jìn)入并提取術(shù)語,所需文件也不確定。大型項(xiàng)目有數(shù)千個(gè)文件,但并不是每個(gè)都有用,比如那些不需翻譯或重譯的文件。當(dāng)前可直接利用的語料庫數(shù)量非常有限,這就需要根據(jù)需求構(gòu)建符合要求的獨(dú)立語料庫,以減少問題,提升效率。
四?術(shù)語提取
由于內(nèi)容太多,只靠人工提取不切實(shí)際,必須借助一些工具。
這些工具主要使用基于統(tǒng)計(jì)的方法,基于語法(有時(shí)稱為基于規(guī)則或語言學(xué))的方法,或語法與統(tǒng)計(jì)相結(jié)合的方法。用統(tǒng)計(jì)方法導(dǎo)出所有單詞,并注明出現(xiàn)頻率。簡單的統(tǒng)計(jì)方法使用空格建立術(shù)語邊界,只導(dǎo)出單詞單元。復(fù)雜的統(tǒng)計(jì)方法基于頻率,因此可能導(dǎo)出一些多詞單元。基于語法的方法利用語法分析器和標(biāo)記符來識(shí)別詞匯的形態(tài)和語法屬性,可以自動(dòng)歸類,考慮句法環(huán)境可以更準(zhǔn)確地確定術(shù)語邊界。兩者結(jié)合的方法是基于語法來準(zhǔn)備初始候選詞,然后通過統(tǒng)計(jì)數(shù)據(jù)進(jìn)一步對詞頻排序。
在產(chǎn)品文本中,經(jīng)常出現(xiàn)的一個(gè)詞,無論它是否是傳統(tǒng)意義上的“術(shù)語”,保持翻譯一致性非常重要。比如open和save,它們是軟件用戶界面的關(guān)鍵選項(xiàng)。傳統(tǒng)的術(shù)語理論支持名詞,可能會(huì)忽視動(dòng)詞,因?yàn)槊~比其他語法范疇更能表達(dá)有形的概念。此外,如果是一般詞匯,而不是某特定主題領(lǐng)域的詞,就不能歸類為“術(shù)語”,因?yàn)閭鹘y(tǒng)定義術(shù)語是“在特定主題領(lǐng)域指定一般概念”。
如果像open和save這樣的單詞用多個(gè)不同術(shù)語表達(dá),可能會(huì)對公司形象和產(chǎn)品準(zhǔn)確性產(chǎn)生負(fù)面影響。事實(shí)上,軟件廣泛使用這些普遍和常見的表達(dá)方式表明,有必要將單詞的出現(xiàn)頻率作為是否納入“術(shù)語”的參考標(biāo)準(zhǔn)。通過觀察結(jié)果,我們得出結(jié)論,頻率是術(shù)語提取的一個(gè)重要因素。
雖然動(dòng)詞是軟件用戶界面中的關(guān)鍵術(shù)語,但通常來說,名詞是最常見的形式,能傳遞更多意義。多詞名詞性組(以名詞為詞頭的多詞術(shù)語)非常有價(jià)值,不僅是因?yàn)樵S多術(shù)語是多詞名詞性,還因?yàn)檫@種詞在目標(biāo)語言中可以有不同的等價(jià)詞,詞序變化或介詞使用很常見。因此,用詞性篩選提取名詞和動(dòng)詞是有益的,需要一個(gè)基于規(guī)則的術(shù)語提取器。在本文描述的過程中,同時(shí)依據(jù)頻率和詞性的混合方法效率最高。
五?縮減實(shí)際術(shù)語候選表
每個(gè)術(shù)語提取工具都會(huì)輸出“噪聲”,“噪聲”是指對當(dāng)前翻譯項(xiàng)目沒有幫助的詞匯或其他各種字符串。翻譯術(shù)語列表前,應(yīng)先去除噪聲。本文基于規(guī)則來定義噪聲。
噪聲可以通過以下分類過濾:
(1)通用詞匯。它們易于翻譯,可以在詞典中找到,而且翻譯不一致對整體翻譯質(zhì)量幾乎沒有影響。
(2)不受翻譯約束的字符串,如字母數(shù)字字符串、標(biāo)記標(biāo)簽、代碼、內(nèi)部注釋等。
(3)重復(fù)或同義項(xiàng)(稍后將對此進(jìn)行解釋)。
(4)低頻術(shù)語,除非它們有一些重要的屬性,例如它們是否高度可見(在用戶界面或包裝材料上等)。
縮減候選表是一個(gè)復(fù)雜的、多階段的過程,需要一系列特殊技能。經(jīng)驗(yàn)表明,完全自動(dòng)化不切實(shí)際,但是,如果沒有任何自動(dòng)化,完全手工也耗時(shí)耗力。出于這個(gè)原因,我們將縮減過程分解為一系列步驟,其中一些可以自動(dòng)化。在預(yù)翻譯對項(xiàng)目有價(jià)值的術(shù)語時(shí),會(huì)產(chǎn)生主觀因素。因此,可遵循下列原則:
1.刪除通用詞匯
從候選表中刪除通用詞匯可以增加其與翻譯項(xiàng)目的相關(guān)性。翻譯人員可以輕松地翻譯這些單詞,而且翻譯不一致對整體翻譯質(zhì)量幾乎沒有影響。如果該詞在產(chǎn)品中有重要意義則例外,如前面軟件用戶界面中的單詞。通用詞匯示例如下:person、page、time、useful
information、correct use、following step。
大多數(shù)術(shù)語提取工具都可以自動(dòng)刪除虛詞(介詞、冠詞、代詞等),所以我們將重點(diǎn)討論名詞和動(dòng)詞。再以軟件行業(yè)為例,像socks、cookie、mouse、Apple和worm這樣的單詞具有特殊含義,與字典解釋不同,它們需要根據(jù)產(chǎn)品進(jìn)行準(zhǔn)確翻譯。使用現(xiàn)有單詞表作為排除表可能會(huì)無意刪除這些單詞。因此,除非仔細(xì)檢查過現(xiàn)有排除表,否則不推薦使用。公司可逐步構(gòu)建自己的通用詞匯排除表,這也是我們采用的方法。手動(dòng)清理時(shí),術(shù)語專家每刪除一個(gè)單詞,就自動(dòng)存儲(chǔ)在排除表中,這需要一個(gè)程序自動(dòng)記錄刪除時(shí)的情況。此外,只有在術(shù)語專家刪除通用詞匯時(shí)才啟用程序,而不是刪除其他類型的噪聲。否則,該表將被非通用詞匯污染,無法在其他需要純通用詞匯列表的應(yīng)用程序中重新使用。
由于對術(shù)語候選詞“普遍性”的決定存在主觀性,術(shù)語專家應(yīng)定期檢查排除表,收回任何可能有價(jià)值的術(shù)語。此外,由于通用詞匯的含義取決于特定領(lǐng)域,在某些情況下排除通用詞匯會(huì)更精確。
2. 刪除專有名詞
專有名詞應(yīng)移到單獨(dú)文件中,因?yàn)樗鼈兒芸赡茉谀繕?biāo)語言中保持未翻譯。如果被標(biāo)注為專有名詞,則可以保存在術(shù)語表中,以便下游目標(biāo)語言術(shù)語學(xué)家能夠相應(yīng)地處理它們。區(qū)分普通名詞和專有名詞需要一個(gè)自動(dòng)詞性標(biāo)注模塊。所采取的方法取決于公司中心術(shù)語數(shù)據(jù)庫是否允許包含專有名詞,因?yàn)樾g(shù)語文件最終將被合并到術(shù)語數(shù)據(jù)庫中。
3. 刪除標(biāo)記不可譯的字串符
有些字符串不用翻譯。如軟件行業(yè)的文件名、編程代碼和網(wǎng)站鏈接之類的機(jī)器可讀信息。理想情況下,源語料庫應(yīng)該用基于XML索引標(biāo)記語言編碼,比如Darwin信息分類體系結(jié)構(gòu)(DITA)。當(dāng)源語料庫中使用“不翻譯”標(biāo)注時(shí),譯員可忽略它們的內(nèi)容。因此,沒有必要在CAT術(shù)語數(shù)據(jù)庫中包含這些字符串。
4.過濾前置修飾語
在詞匯候選表中,應(yīng)將具有共同含義的前置修飾語(如first、last、following、correct、next、right、wrong等)從多詞單元中刪除。比如把next replication 簡化為replication,不僅能提供更準(zhǔn)確的術(shù)語,還可以提高術(shù)語在自動(dòng)檢索中的再利用潛力??s減術(shù)語可以和其他復(fù)合詞搭配,比如last
replication,failed replication。為此,可以創(chuàng)建或從外部獲取一組常見的前置修飾語表,在提取過程中自動(dòng)對應(yīng)刪除。
5.合并近似術(shù)語
有些術(shù)語僅僅是大小寫(如Userid和userid)、連字符(如eCommerce和eCommerce)或者有無空格(如check box和checkbox)的區(qū)別,我們將它們稱為近似項(xiàng)。有時(shí),候選詞的大小寫都有效且含義不同(如White House和white
house)。在決定兩個(gè)術(shù)語是否近似時(shí),術(shù)語專家需仔細(xì)評估,從而刪除其中一個(gè)或同時(shí)保留兩者。
CAT術(shù)語數(shù)據(jù)庫中不需要近似項(xiàng)。大多數(shù)CAT工具的自動(dòng)索引功能支持模糊查找,如果術(shù)語庫中沒有術(shù)語直接匹配,則會(huì)自動(dòng)顯示緊密相關(guān)的術(shù)語。刪除近似項(xiàng)可實(shí)現(xiàn)部分自動(dòng)化。編寫一個(gè)程序,依據(jù)公司商定的術(shù)語表保留或刪除。但是,這種自動(dòng)化涉及成本,雖節(jié)省時(shí)間,但可能會(huì)誤刪一些有效術(shù)語。在大型項(xiàng)目中,自動(dòng)化可提高生產(chǎn)率,損失一些有效術(shù)語在一定程度上可以接受。
6.刪除已翻譯術(shù)語
先前翻譯項(xiàng)目中已翻譯術(shù)語可減少新項(xiàng)目術(shù)語候選表的清理工作。如果譯員的CAT工具接入了公司術(shù)語庫,那么重新翻譯已在該術(shù)語庫中的術(shù)語毫無意義。原則上,公司術(shù)語數(shù)據(jù)庫中已有術(shù)語可以從新候選術(shù)語表中刪除。這里假設(shè)公司術(shù)語庫中的術(shù)語與候選列表中“匹配”術(shù)語具有相同含義,否則就需要不同翻譯,兩者都要保留。如果候選術(shù)語和術(shù)語庫術(shù)語都有詞性標(biāo)注,則可以驗(yàn)證兩者語法類別是否相同。
確定公司術(shù)語數(shù)據(jù)庫中已翻譯術(shù)語取決于許多因素,包括:
主題領(lǐng)域:如果語料庫的主題領(lǐng)域未包含在公司術(shù)語庫中,則輸入的術(shù)語與現(xiàn)有術(shù)語具有不同含義的可能性更高。
候選術(shù)語表大?。寒?dāng)候選表非常大時(shí),目標(biāo)語言術(shù)語學(xué)家不可能預(yù)翻譯所有術(shù)語。這時(shí)應(yīng)刪除已翻譯術(shù)語,從而將列表簡化為“新”術(shù)語,因?yàn)橹辽僖恍﹦h除的術(shù)語在公司術(shù)語數(shù)據(jù)庫中具有可接受翻譯。
公司術(shù)語數(shù)據(jù)庫的翻譯數(shù)量:與翻譯較少的語言相比,有大量翻譯語言的匹配術(shù)語具有不同含義的風(fēng)險(xiǎn)較低。
從理論上講,可以考慮用這些因素來制定加權(quán)公式,以確定與刪除匹配項(xiàng)相關(guān)的風(fēng)險(xiǎn)因素。同時(shí),需要進(jìn)一步研究以確定上述風(fēng)險(xiǎn)因素和公式是否可用于過濾術(shù)語候選項(xiàng)。
7.人工進(jìn)一步整理
完成所有自動(dòng)步驟后,必須全面清理候選表。刪除通用詞匯需要在特定步驟中完成,以便可以自動(dòng)更新通用詞匯排除表。我們提到了刪除不可翻譯的字符串和專有名詞,但是,還有清理任務(wù)需人工手動(dòng)改進(jìn)。
六?步驟順序
這些步驟按以下順序執(zhí)行,可最大限度減少人工操作。
(1)刪除多詞術(shù)語中常見的前置修飾語;
(2)刪除標(biāo)注不可譯的字符串;
(3)刪除已在所有目標(biāo)語言中翻譯的交集詞源;
(4)刪除同義和近似項(xiàng);
(5)刪除現(xiàn)有排除表中的通用單詞;
(6)手動(dòng)刪除其他剩余通用單詞;
(7)基于刪除項(xiàng)自動(dòng)更新通用單詞排除表;
(8)將專有名詞移到單獨(dú)文件中(基于詞性標(biāo)注和專有名詞的排除列表);
(9)手動(dòng)刪除其他剩余不可譯字符串;
(10)手動(dòng)合并拆分相關(guān)復(fù)合詞;
(11)手動(dòng)將其他剩余專有名詞移動(dòng)到單獨(dú)文件中;
(12)刪除各種語言的獨(dú)立翻譯術(shù)語表。
步驟1~5和7(完全自動(dòng)化)刪除了60%~80%的候選術(shù)語,從而減少了人工清理(步驟6、8和9)。統(tǒng)計(jì)基于一個(gè)包含2000個(gè)候選術(shù)語的列表,整個(gè)過程,包括手動(dòng)部分,大約需要30分鐘,最終得到一個(gè)包含100~250個(gè)經(jīng)過驗(yàn)證的詞匯列表。
七?問?題
由于統(tǒng)計(jì)方法本身的特點(diǎn),考量信息較少,只從概率視角來考察詞語內(nèi)部結(jié)合強(qiáng)度,進(jìn)而判斷是否是術(shù)語,必然造成某些低頻術(shù)語未被識(shí)別;此外,基于統(tǒng)計(jì)的方法統(tǒng)計(jì)信息有限,忽略了大量語義、句法、詞性以及上下文信息,這些信息均對提取術(shù)語有很大的幫助。掃描語料庫時(shí)出現(xiàn)打字和拼寫等錯(cuò)誤,那么術(shù)語候選表將包含這些錯(cuò)誤。如果提取時(shí)設(shè)置一個(gè)高頻閾值,大多數(shù)錯(cuò)誤輸出時(shí)就不會(huì)出現(xiàn)。因此,術(shù)語提取工具是一種有效的拼寫檢查工具。術(shù)語提取工具把公司術(shù)語數(shù)據(jù)庫作為“識(shí)別詞典”,將公司唯一的術(shù)語識(shí)別為有效單詞,這使得術(shù)語提取工具比現(xiàn)有的拼寫檢查工具更具上下文相關(guān)性。
八?新術(shù)語
如果語料庫中有新術(shù)語,它們也可能出現(xiàn)在候選術(shù)語表中。什么是“新”術(shù)語?
在商業(yè)環(huán)境中,“新”術(shù)語是指以前在翻譯過程或公司術(shù)語數(shù)據(jù)庫中沒有考慮到的術(shù)語。這種對新術(shù)語的解釋適用于與術(shù)語資源建設(shè)有關(guān)的專門術(shù)語管理,是在現(xiàn)有公司術(shù)語數(shù)據(jù)庫中重新使用術(shù)語的另一個(gè)機(jī)會(huì)。現(xiàn)有的數(shù)據(jù)庫術(shù)語,同樣帶有詞性標(biāo)注,可以作為“識(shí)別表”輸入術(shù)語提取工具。該工具不像排除表那樣排除這些術(shù)語,而是使用這個(gè)列表來識(shí)別已在術(shù)語數(shù)據(jù)庫中的語料庫術(shù)語。這些術(shù)語在輸出時(shí)指定了一個(gè)特殊標(biāo)注。這樣,術(shù)語專家很容易知道哪些術(shù)語是“已知的”,哪些是“新的”,以便進(jìn)行術(shù)語加工。術(shù)語專家可以在公司術(shù)語數(shù)據(jù)庫中添加可接受的新詞,并與產(chǎn)品開發(fā)團(tuán)隊(duì)一起審查有爭議的新詞,從而在創(chuàng)建初期進(jìn)行主動(dòng)干預(yù)。
九?翻譯術(shù)語并重新利用
最終列表只包含每種語言的新術(shù)語(即公司術(shù)語數(shù)據(jù)庫中沒有翻譯的術(shù)語),以及詞性值和上下文句子等元數(shù)據(jù)。它們被轉(zhuǎn)換成CAT工具支持的文件格式,然后發(fā)送給目標(biāo)語言術(shù)語學(xué)家。最終產(chǎn)品是一個(gè)翻譯后的CAT術(shù)語數(shù)據(jù)庫。CAT術(shù)語數(shù)據(jù)庫連同要翻譯的產(chǎn)品內(nèi)容一起提供給譯員,譯員使用TM和術(shù)語數(shù)據(jù)庫在CAT工具中翻譯。翻譯項(xiàng)目完成后,將雙語CAT術(shù)語數(shù)據(jù)庫導(dǎo)入公司的術(shù)語數(shù)據(jù)庫中,如本文所述,在未來的項(xiàng)目中,這些翻譯將重復(fù)利用。
十?迭代改進(jìn)
近十幾年來術(shù)語提取方法一直是學(xué)者們關(guān)注的熱點(diǎn),從雙語語言資源中抽取出互為翻譯等價(jià)對的詞語是語言信息處理技術(shù)的重要橋梁。提取術(shù)語候選表半自動(dòng)化的清理過程會(huì)隨著時(shí)間推移不斷改進(jìn)。第五節(jié)描述了如何篩選術(shù)語候選表,未來會(huì)越來越自動(dòng)化。第九節(jié)描述了如何重用譯后術(shù)語。構(gòu)建專有名詞列表(最好在術(shù)語數(shù)據(jù)庫中)將迭代改進(jìn)自動(dòng)更新的步驟。實(shí)踐證明,企業(yè)特有詞典資源可以顯著提高詞匯提取過程的可行性。
十一?結(jié)?語
本文方法是基于語料庫的術(shù)語提取和術(shù)語標(biāo)注原則,滿足為翻譯管道快速提供相關(guān)高質(zhì)量術(shù)語的商業(yè)需求。文章描述的過程適用于將大量術(shù)語豐富的語料庫翻譯成多種語言的公司,必須仔細(xì)權(quán)衡一些自動(dòng)化步驟的誤差幅度,以及通過自動(dòng)化實(shí)現(xiàn)的規(guī)模經(jīng)濟(jì)。這種方法的優(yōu)點(diǎn)之一是重新利用現(xiàn)有資源,缺點(diǎn)是有些資源語義沒有對齊,可能導(dǎo)致處理錯(cuò)誤。語料庫和術(shù)語數(shù)據(jù)庫之間的術(shù)語語義對齊需要進(jìn)一步研究,將風(fēng)險(xiǎn)降到最低,還應(yīng)該考慮主題字段參數(shù)。目前研究以經(jīng)驗(yàn)性為主,有待實(shí)證檢驗(yàn)。
參考文獻(xiàn)
[1]Ananiadou S, Frantzi K. Statistical Measures for Terminological Extraction\[R\]. Working paper of the Department of Computing of ManchesterMetropolitan University, 1995.
[2] Arppe A. Term Extraction from Unrestricted Text \[DB/OL\]. (1995) \[2012-12-01\]http://www2.lingsoft.fi/doc/nptool/termextraction.html.
[3] Cabré M T.TerminologyTheory, Methods and Applications \[M\]. Amsterdam/Philadelphia:John Benjamins Publishing Company, 1998.
[4] Champagne G. The Economic Value of Terminology: An Exploratory Study \[EB/OL\].(2004) \[2012-12-20\].Montreal: Guy Champagne Inc.http://www.termologic.com/EconomicValueTerminology.pdf.
[5] Daille B,Gaussier , Langé J. Towards Automatic Ext
raction of Monolingual and Bilingual Terminology\[C\]// Coling. 94 Proceedings of 15th InternationalConference on Computational Linguistics, 1994(1):515-521.
[6] Daille B. Qualitative Terminology ExtractionIdentifying Relational Adjectives\[C\]// Bourigault D, et al. Recent Advances in Computational Terminology.
Amsterdam/Philadelphia: John Benjamins Publishing Company, 2001:149-166.
[7] Enguehard C, Pantera L. Automatic Natural Acquisition of a Terminology \[J\].Journal of Quantitative Linguistics, 1994, 2(1): 27-32.
[8] Fang A C, Cao J, Song Y. A New Corpus Resource for Studies in the Syntactic Characteristics of Terminologies in Contemporary English \[C/OL\].(2009) \[2012-12-10\]. Proceedings of the 8th International Conference on Terminology and Artificial Intelligence. Toulouse.http://www.irit.fr/TIA09/thekey/articles/fangcaosong.pdf.
[9] Frantzi K T. Automatic Recognition of MultiWord Terms \[D\]. PhD thesis. ManchesterMetropolitan University, UK, 1998.
[10] Gillam L, Tariq M, Khurshid A. Terminology and the Construction of an Ontology \[C\]// Fidelia I S, Condamines A, Castellvi M. ApplicationDriven Terminology Engineering. Amsterdam/Philadelphia: John Benjamins Publishing Company, 2007(2):49-73.
[11] Heid U, et al. Term Extraction with Standard Tools for Corpus Exploration. Experience from German \[C\]// TKE 96: Terminology and KnowledgeEngineering. Berlin: Indeks Verlag, 1996:139-150.
[12] Hull D. Software Tools to Support the Construction of Bilingual Terminology Lexicons\[C\]// Bourigault D, et al. Recent Advances in Computational Terminology, Amsterdam/Philadelphia:John Benjamins Publishing Company, 2001: 225-244.
[13] ISO 1087-1, quoted from the ISO TC37 Termbase \[DB/OL\]. (2000) \[2012-12-18\] .http://iso.iterm.dk.
[14] Justeson J, Katz S. Technical terminology: somelinguistic properties and an algorithm for identification in text \[J\].Natural Language Engineering,1995, 1 (1): 9-27.
[15] Nataly K, DePalma D. TheCase for Terminology Management. Common Sense Advisory \[EB/OL\]. (2009) \[2012-12-20\].http://www.commonsenseadvisory.com/Portals/_default/Knowledgebase/ArticleImages/090226_R_terminology_management_Preview.pdf.
[16] LHomme M C. La?Terminologie: Principles et Techniques\[M\]. Montreal: Les Presses de?lUniversité de Montréal, 2004.
[17] LHomme M C, Bowker L. Terminological Relationships and Corpusbased Methods for Discovering Them—an Assessment for Terminographers \[C\]// Bowker L, Lexicography, Terminology, and Translation. TextBased Studies in Honour of Ingrid Meyer, Ottawa: University of OttawaPress, 2006: 67-80.
[18] Lee K, Webster J, Fang A C. eSpatial ML: An EventDriven Spatial Annotation Framework \[C\]// Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation. Sendai, Japan,2010: 223-232.
[19] Li H. Word Frequency Distribution for Electronic?Learners English Dictionaries \[C\]// Granger S, Paquot M. eLexicography in the 21st century: New challenges, new applications, LouvainlaNeuve: Cahiersdu CENTAL, Presses Universitaires de Louvain, 2010:203-217.
[20] Li H, Fang A. Age Tagging and Word Frequency for Learners Dictionaries\[C\]// Newman J, Rice S, Baayen H, Corpusbased Studies in Language Use, Language Documentation, and Language Learning. Amsterdam: Rodopi Press,
2010:157-177.
[21] Sager J. A Practical Course in Terminology Processing\[M\]. Amsterdam/Philadelphia: John Benjamins Publishing Company, 1990.
[22] Warburton K. LISA Terminology Survey Results\[R\]. Localization IndustryStandards Association, 2001.
[23] Warburton K. LISA Terminology Management SurveyTerminology Management Practices and Trends\[R\] Localization IndustryStandards Association, 2005.
[24] Woyde R. Introduction to SAE J1930. Bridging the Disconnect Between the Engineering, Authoring and Translation Communities\[EB/OL\].(2005) \[2012-12-20\].LISA Globalization Insider.http://www.translationdirectory.com/article903.htm.
[25] Zhang X, Fang A. An ATE system based on probabilistic relations between terms and syntactic functions \[C/OL\].(2010)\[2012-12-24\].Proceedings of 10th International Conference on Statistical Analysis of Textual Data.http://lexicometrica.univparis3.fr/jadt/jadt2010/allegati/JADT-2010-1135-1144_155Zhang.pdf.
收稿日期:2019-06-05
基金項(xiàng)目:江蘇省研究生教育教學(xué)改革課題(JGLX19_019)和南京航空航天大學(xué)研究生教育教學(xué)改革課題(2018YJXGG19)階段性成果
作者簡介:卡拉·沃伯頓(1963—),女,術(shù)語管理學(xué)博士,曾任國際商業(yè)機(jī)器公司(IBM)術(shù)語專家、本地化行業(yè)標(biāo)準(zhǔn)協(xié)會(huì)(LISA)術(shù)語戰(zhàn)略專家。通信方式:
kara@termologic.com。
譯者簡介:宋楠楠(1994—),女,南京航空航天大學(xué)外國語學(xué)院2017級碩士研究生,研究方向?yàn)橛⒄Z筆譯。通信方式:723203319@qq.com。朱波(1971—),男,南京航空航天大學(xué)外國語學(xué)院教授,研究方向?yàn)榉g學(xué)和術(shù)語學(xué)。通信方式:zhu_bo@126.com。