• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)時(shí)代漢英語際對(duì)應(yīng)詞的挖掘*

      2016-06-01 01:21:42馬立東吳光華
      辭書研究 2016年3期
      關(guān)鍵詞:詞典語料庫(kù)英語

      馬立東 吳光華

      ?

      大數(shù)據(jù)時(shí)代漢英語際對(duì)應(yīng)詞的挖掘*

      馬立東吳光華

      摘要文章分析了大數(shù)據(jù)時(shí)代詞典編纂可用或可參考數(shù)據(jù)的特點(diǎn),探索如何從海量數(shù)據(jù)中挖掘漢英語際對(duì)應(yīng)詞等詞匯知識(shí),還簡(jiǎn)要探討了與數(shù)據(jù)或語料使用相關(guān)的問題。挖掘?qū)嵺`表明: 充分利用可用資源,從紛雜的大數(shù)據(jù)中可以挖掘出所需的詞匯知識(shí),但目前仍需專業(yè)人員進(jìn)行篩選、認(rèn)定和解讀。詞典要保持生命力必須及時(shí)修訂和收錄新詞。對(duì)于漢英詞典來說,提供漢語詞語的地道英語對(duì)應(yīng)詞會(huì)提升其實(shí)用價(jià)值。研究語際對(duì)應(yīng)詞挖掘不僅有助于編纂出符合用戶需求的雙語詞典,對(duì)構(gòu)建大數(shù)據(jù)語言資源庫(kù)和開發(fā)挖掘分析軟件也有參考價(jià)值。

      關(guān)鍵詞大數(shù)據(jù)時(shí)代對(duì)應(yīng)詞新詞挖掘漢英詞典

      一、 研究背景

      移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展加快了媒體融合的進(jìn)程,也使傳統(tǒng)的詞典學(xué)研究和詞典編纂實(shí)踐面臨挑戰(zhàn)。不僅紙質(zhì)詞典,就連掌上型電子詞典也遭到了前所未有的冷遇。人們更喜歡通過智能手機(jī)或計(jì)算機(jī)查詢?cè)诰€網(wǎng)絡(luò)詞典或離線電子詞典。

      移動(dòng)互聯(lián)網(wǎng)的不斷普及也加速了大數(shù)據(jù)的產(chǎn)生和應(yīng)用。詞典學(xué)研究和編纂實(shí)踐不僅要跟上時(shí)代的步伐,更應(yīng)抓住機(jī)遇。2011年,世界知名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。”(韓蕊2013)自從2012年以來,大數(shù)據(jù)(big data)這個(gè)新詞熱度不減。大數(shù)據(jù)研究及應(yīng)用成為世界范圍內(nèi)各界持續(xù)關(guān)注的焦點(diǎn)?!洞髷?shù)據(jù)時(shí)代》的作者舍恩伯格和庫(kù)克耶(2013)斷言:“大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。就像望遠(yuǎn)鏡讓我們感受宇宙,顯微鏡讓我們能夠觀測(cè)到微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢(shì)待發(fā)。”2014年初舍恩伯格和庫(kù)克耶又出版了LearningwithBIGDATA: The Future of Education《與大數(shù)據(jù)同行——學(xué)習(xí)和教育的未來》一書,暢談大數(shù)據(jù)與學(xué)習(xí)和教育的關(guān)系以及大數(shù)據(jù)將如何深刻影響到學(xué)習(xí)和教育的未來態(tài)勢(shì)。(趙中建,張燕南2014)蔡翠紅(2014)認(rèn)為,大數(shù)據(jù)不僅迅速成為計(jì)算機(jī)行業(yè)討論的熱門概念,而且也開始滲透到國(guó)際關(guān)系領(lǐng)域。針對(duì)數(shù)字出版業(yè)發(fā)展迅速并產(chǎn)生海量數(shù)字出版數(shù)據(jù)這個(gè)現(xiàn)狀,齊元軍(2014)指出:“如何將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到數(shù)字出版業(yè)中,已成為出版行業(yè)目前研究的熱點(diǎn)話題?!?/p>

      大數(shù)據(jù)的應(yīng)用前景廣闊。但是,詞典學(xué)研究和詞典編纂可用的數(shù)據(jù)是大數(shù)據(jù)嗎?詞典學(xué)研究和詞典編纂真的需要大數(shù)據(jù)嗎?我們嘗試從大數(shù)據(jù)時(shí)代詞典學(xué)研究和編纂實(shí)踐可用數(shù)據(jù)的特點(diǎn)出發(fā)回答第一個(gè)問題,結(jié)合漢英語際對(duì)應(yīng)詞的挖掘?qū)嵗治龌卮鸬诙€(gè)問題,還簡(jiǎn)要探討與數(shù)據(jù)或語料使用相關(guān)的問題。

      二、 大數(shù)據(jù)與編纂詞典的可用數(shù)據(jù)

      1. 大數(shù)據(jù)的特點(diǎn)

      傳統(tǒng)意義上的“數(shù)據(jù)”指的是“有根據(jù)的數(shù)字”。現(xiàn)在,“數(shù)據(jù)”不僅指“數(shù)字”,還統(tǒng)稱一切保存在電腦中的信息(包括文本、聲音、視頻等)。(趙勇,徐軻2014)在這個(gè)信息爆炸的時(shí)代,經(jīng)過一定時(shí)間的積累就會(huì)出現(xiàn)海量或巨量的數(shù)據(jù)。過去,計(jì)算機(jī)存儲(chǔ)信息或數(shù)據(jù)的計(jì)量單位用GB/Gigabytes(1GB=1024MB)就已經(jīng)很大了?,F(xiàn)在用到TB/Terabytes(1TB=1024GB),PB/Petabytes(1PB=1024TB=1048576GB),甚至更大的計(jì)量單位。但是,不能簡(jiǎn)單地認(rèn)為數(shù)量大就是大數(shù)據(jù)。大數(shù)據(jù)的體量巨大,不僅存儲(chǔ)量大,計(jì)算量也大,超出了傳統(tǒng)數(shù)據(jù)處理方法所能管理和處理的能力。

      現(xiàn)在具有代表性的觀點(diǎn)是大數(shù)據(jù)具備4V特征: (1) 數(shù)據(jù)量龐大(Volume)。(2) 數(shù)據(jù)呈現(xiàn)多樣性(Variety),不但類型多(如文本、網(wǎng)頁(yè)、圖片、音頻、視頻和位置信息等),而且來自多種數(shù)據(jù)源,不僅有結(jié)構(gòu)化數(shù)據(jù),更多的是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(3) 時(shí)效性(Velocity),即數(shù)據(jù)增長(zhǎng)速度快、變化速度快,處理速度也要求快,包括大量的在線或?qū)崟r(shí)數(shù)據(jù)分析處理。例如電子商務(wù)對(duì)銷售數(shù)據(jù)的實(shí)時(shí)快速分析就意味著能及時(shí)抓住商機(jī)。(4) 數(shù)據(jù)價(jià)值高(Value),但價(jià)值密度低,即價(jià)值與數(shù)據(jù)總量之比很低,需要對(duì)海量的數(shù)據(jù)進(jìn)行挖掘分析才能形成用戶價(jià)值。如在長(zhǎng)時(shí)間連續(xù)的監(jiān)控視頻中查找犯罪線索,有用的數(shù)據(jù)可能只有短短幾秒鐘。(趙勇,徐軻2014;嚴(yán)霄鳳,張德馨2013;宗威,吳鋒2013)

      2. 大數(shù)據(jù)的定義

      信息時(shí)代的“數(shù)據(jù)”概念是明確的,但是對(duì)于“大數(shù)據(jù)”至今還沒有一個(gè)公認(rèn)的標(biāo)準(zhǔn)定義。

      美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)將大數(shù)據(jù)定義為:“由科學(xué)儀器、傳感設(shè)備、互聯(lián)網(wǎng)交易、電子郵件、音頻視頻軟件、網(wǎng)絡(luò)點(diǎn)擊流等多種數(shù)據(jù)源生成的大規(guī)模、多元化、復(fù)雜、長(zhǎng)期的分布式數(shù)據(jù)集。”(黃南霞,謝輝,王學(xué)東2013)

      李戰(zhàn)懷、王國(guó)仁和周傲英(2013)從數(shù)據(jù)庫(kù)研究者的視角對(duì)大數(shù)據(jù)進(jìn)行了解讀,認(rèn)為大數(shù)據(jù)是個(gè)籠統(tǒng)的概念。他們指出:“與應(yīng)用密切相關(guān)的各類數(shù)據(jù)都屬于大數(shù)據(jù)范疇,大數(shù)據(jù)強(qiáng)調(diào)支持實(shí)際應(yīng)用所涉及到的多個(gè)來源且相互關(guān)聯(lián)的大量、高速、異構(gòu)數(shù)據(jù);世界上凡是可以表達(dá)出來的信息都是數(shù)據(jù);當(dāng)為了一個(gè)具體的應(yīng)用而需要把大量的不同類型、質(zhì)量各異的數(shù)據(jù)及時(shí)進(jìn)行處理時(shí),這些數(shù)據(jù)就進(jìn)入了大數(shù)據(jù)的范疇。”

      胡雄偉、張寶林和李抵飛(2013)認(rèn)為:“不存在嚴(yán)格意義上的大數(shù)據(jù)資源的定義,任何已有數(shù)據(jù)資源的匯集和整合就可以構(gòu)成所謂的大數(shù)據(jù)資源?!髷?shù)據(jù)是各種類型的小數(shù)據(jù)的集合,通過各種類型的小數(shù)據(jù)整合、集合、集成處理,從中挖掘出潛在的新價(jià)值。所以說,大數(shù)據(jù)是小數(shù)據(jù)的再次利用和多次重復(fù)利用。”

      3. 編纂詞典的可用數(shù)據(jù)及特點(diǎn)

      各行各業(yè)都有可能產(chǎn)生大數(shù)據(jù),但是并非所有的數(shù)據(jù)都能用于詞典編纂。

      從是否付費(fèi)的角度看,編纂詞典的可用數(shù)據(jù)包括自有內(nèi)部數(shù)據(jù),可免費(fèi)使用的外部數(shù)據(jù)和需交費(fèi)使用的外部數(shù)據(jù)。

      在大數(shù)據(jù)時(shí)代,除了語料庫(kù)數(shù)據(jù)和已有詞典數(shù)據(jù),還有海量的其他電子數(shù)據(jù)可用作詞典編纂的語料或知識(shí)來源。例如文本、網(wǎng)頁(yè)、學(xué)術(shù)論文、期刊、電子書、博客、微博、跟帖、留言和問答記錄。

      編纂詞典的可用數(shù)據(jù)具有大數(shù)據(jù)的典型特征。具體體現(xiàn)在下列幾個(gè)方面: (1) 海量或巨量數(shù)據(jù)。許多機(jī)構(gòu)多年積累的數(shù)據(jù)存儲(chǔ)于各自的計(jì)算機(jī)上,有些可供聯(lián)網(wǎng)調(diào)用,也有些可在本機(jī)安裝后離線使用。每天都有大量新聞等網(wǎng)頁(yè)信息發(fā)布或更新。大量電子期刊定期出版。(2) 異質(zhì)、異構(gòu)、類型多。有些數(shù)據(jù)是結(jié)構(gòu)化的,但更多的可用的原始數(shù)據(jù)是半結(jié)構(gòu)化的,甚至是非結(jié)構(gòu)化的。數(shù)據(jù)源的文件格式也是紛雜的。如純文本格式文件、網(wǎng)頁(yè)文件、Office文件、WPS文件、XML文件、PDF文件、圖像文件和影音文件。(3) 重復(fù)內(nèi)容多。(4) 數(shù)據(jù)質(zhì)量參差不齊。(5) 噪聲干擾嚴(yán)重。

      通過互聯(lián)網(wǎng)等各種途徑搜集或積累起來的單語、雙語,甚至是多語語言資源,為詞典編纂提供了豐富的語料或知識(shí)來源。但是將收集到的海量或巨量數(shù)據(jù)進(jìn)行挖掘,找出規(guī)律并有效地加以利用才能創(chuàng)造價(jià)值。因此,挖掘和提煉出有價(jià)值的詞匯知識(shí)對(duì)詞典編纂工作來說至關(guān)重要。

      三、 漢英語際對(duì)應(yīng)詞及其挖掘

      1. 語際對(duì)應(yīng)詞

      語際對(duì)應(yīng)詞(interlingual equivalents)指的是可插入性對(duì)應(yīng)詞(insertible equivalents),包括兩種語言間的絕對(duì)對(duì)應(yīng)詞和部分對(duì)應(yīng)詞。

      包雙喜和斯日古楞(2007)指出: 一種語言的詞,在基本意義上可以與另一種語言直接對(duì)譯的詞,彼此之間稱為“對(duì)應(yīng)詞”;對(duì)應(yīng)詞是大量存在的,否則不同語言之間的翻譯和交流就不能實(shí)現(xiàn)。

      李明和周敬華(2000)在《雙語詞典編纂》一書中詳細(xì)介紹和探討過對(duì)應(yīng)詞的分類、在雙語詞典中提供對(duì)應(yīng)詞的方法、辨別對(duì)應(yīng)詞意義的手段,以及對(duì)應(yīng)詞的質(zhì)量問題。他們發(fā)現(xiàn)雙語詞典編纂者在尋找(語際)對(duì)應(yīng)詞時(shí)可能會(huì)遇到三種情況: (1) 能找到絕對(duì)對(duì)應(yīng)詞(absolute equivalents;或稱對(duì)等詞);(2) 只能找到部分對(duì)應(yīng)詞(partial equivalents;或稱局限對(duì)應(yīng)詞bound equivalents);(3) 找不到對(duì)應(yīng)詞,出現(xiàn)詞匯空缺(lexical gap)。李明和周敬華(2000)認(rèn)為: 除了絕對(duì)對(duì)應(yīng)詞和部分對(duì)應(yīng)詞,還可以把對(duì)應(yīng)詞分為翻譯對(duì)應(yīng)詞(translational equivalents,又稱插入對(duì)應(yīng)詞insertible equivalents)和解釋性對(duì)應(yīng)詞(explanatory equivalents,又稱描寫性對(duì)應(yīng)詞descriptive equivalents)。他們建議把對(duì)應(yīng)詞分成插入性對(duì)應(yīng)詞和非插入性對(duì)應(yīng)詞。因?yàn)榉遣迦胄詫?duì)應(yīng)詞只是詞語的解釋性翻譯或描寫性釋義,所以不是嚴(yán)格意義上的對(duì)應(yīng)詞。插入性對(duì)應(yīng)詞有助于產(chǎn)出,而非插入性對(duì)應(yīng)詞有助于理解。在兩者都可用的情況下,雙語詞典提供的插入性對(duì)應(yīng)詞在翻譯方面對(duì)讀者的幫助更大。

      2. 現(xiàn)存問題

      提供語際對(duì)應(yīng)詞是編纂雙語詞典的重要任務(wù),也是專家們的共識(shí)。但是,提供地道實(shí)用的語際對(duì)應(yīng)詞的難度不小。正如曾泰元(2005)指出的那樣,雙語詞典中對(duì)應(yīng)詞不夠地道或不準(zhǔn)確的現(xiàn)象并不少見,冗長(zhǎng)的解釋性釋義依然存在。李安興(2010)的研究顯示: 國(guó)內(nèi)一些漢英詞典編纂者未能將前人(尤其是國(guó)內(nèi)外翻譯家)已經(jīng)給出的一些漢語詞語的佳譯提供給讀者。

      通過構(gòu)建語料庫(kù)獲取對(duì)應(yīng)詞的研究早已有之。我國(guó)的語料庫(kù)建設(shè)和應(yīng)用也有了實(shí)質(zhì)性進(jìn)展。盡管不少研究機(jī)構(gòu)和出版社已經(jīng)或正在構(gòu)建與詞典編纂和出版相關(guān)的語料庫(kù),但是各方都是專注建設(shè)自己的語料庫(kù)或數(shù)字出版資源庫(kù),沒有采用統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。而且,僅僅依靠現(xiàn)有的語料庫(kù)不能完全滿足詞典編纂的需要。再加上建設(shè)周期、更新速度和使用權(quán)限的限制,詞典編纂人員實(shí)際可用的語料庫(kù)并不像人們想象的那樣全面。

      3. 漢英語際對(duì)應(yīng)詞的挖掘探索

      大數(shù)據(jù)時(shí)代的到來為充分利用包括網(wǎng)絡(luò)資源在內(nèi)的各種資源和技術(shù)編纂漢英詞典打開了更廣闊的視野。下面結(jié)合實(shí)例探索如何從紛雜的大數(shù)據(jù)中挖掘出編纂漢英雙語詞典所需的語際對(duì)應(yīng)詞等詞匯知識(shí)。漢英語際對(duì)應(yīng)詞的挖掘是指從帶噪聲非結(jié)構(gòu)化或半結(jié)構(gòu)化的語料中找出未知的或未收錄的漢語詞語的英語對(duì)應(yīng)詞。

      (1) 挖掘方法和步驟

      語際對(duì)應(yīng)詞的挖掘技術(shù)和效果已有顯著進(jìn)步。微軟的必應(yīng)網(wǎng)絡(luò)詞典(http:∥cn.bing.com/dict/)就采用了此類技術(shù)。挖掘應(yīng)該是自動(dòng)的,但是因?yàn)槟壳翱捎谜Z料缺乏集成或整合,挖掘結(jié)果仍需改進(jìn),我們實(shí)際使用的方法是根據(jù)關(guān)聯(lián)關(guān)系,通過計(jì)算機(jī)和網(wǎng)絡(luò)獲取原始數(shù)據(jù),經(jīng)人工分析、甄別和提煉后得到最終結(jié)果。首先,采用數(shù)據(jù)驅(qū)動(dòng)的方法確定漢語詞目詞或表達(dá)法。然后,利用必應(yīng)網(wǎng)絡(luò)詞典的檢索功能、百度(https:∥www.baidu.com/)等互聯(lián)網(wǎng)搜索引擎和離線文本挖掘工具獲得相關(guān)的英語對(duì)應(yīng)詞和英漢/漢英語句對(duì)。接下來,借助上下文關(guān)鍵詞(KWIC)檢索進(jìn)行語際對(duì)應(yīng)詞語義對(duì)比和分析。最后,在大型語料庫(kù)British News和UK-WAC(前者為英國(guó)英語新聞?wù)Z料庫(kù),后者是英國(guó)的英語網(wǎng)頁(yè)內(nèi)容語料庫(kù);這兩個(gè)語料庫(kù)的檢索起始頁(yè)面為http:∥corpus.leeds.ac.uk/protected/query.html),以及COCA美國(guó)當(dāng)代英語語料庫(kù)(http:∥corpus.byu.edu/coca/)中檢索英語對(duì)應(yīng)詞是否地道或是否符合英語的表達(dá)習(xí)慣。

      (2) 挖掘?qū)嵺`

      因?yàn)闈h英語際對(duì)應(yīng)詞的挖掘涉及面很廣,所以我們選取了十項(xiàng)有代表性的挖掘任務(wù),結(jié)合典型實(shí)例展示大數(shù)據(jù)在詞典學(xué)研究和詞典編纂實(shí)踐中的重要應(yīng)用價(jià)值。

      1) 補(bǔ)充漢語詞語(尤其是新詞)的對(duì)應(yīng)詞。對(duì)于源自英語的漢語詞語,我們能夠從英漢對(duì)照文本中找出地道的對(duì)應(yīng)詞或?qū)Φ仍~(例如“債務(wù)上限debt ceiling”)。因?yàn)槭侵苯咏栌糜⒄Z中已有詞語的詞義,即便是使用了隱喻,也不難理解。一個(gè)漢語詞或表達(dá)法有多個(gè)英語對(duì)應(yīng)詞的情況很常見。大數(shù)據(jù)有助于挖掘出更多更全面的語際對(duì)應(yīng)詞。例如“車展”的典型對(duì)應(yīng)詞有auto show,motor show和car show(見例1至例3)。

      例1:THEstarofthisweek’sParisMotorShowwas a Jaguar supercar. 巴黎車展的本周之星是一輛捷豹跑車?!獁ww.ecocn.org

      例2:ThefirstprototypesarecurrentlyindevelopmentbutaconceptversionofthevehiclewasunveiledtodayattheDenverAutoShow. 第一個(gè)原型正在發(fā)展,而且一個(gè)概念版車亮相今天在丹佛車展。[原漢語譯文像是機(jī)器翻譯的結(jié)果。經(jīng)人工修正后可譯為: 第一代原型車目前正在開發(fā)中,但是該車型的一款概念車今天在丹佛車展上首次亮相。]——usa.315che.com

      例3:FewatthelastFrankfurtcarshow, in 2009, could have predicted the industry’s sharp rebound from the global recession that year. 在2009年法蘭克福車展上,幾乎沒人預(yù)料到汽車業(yè)會(huì)從當(dāng)年的全球衰退中急劇反彈?!猚hinese.wsj.com

      根據(jù)語料庫(kù)詞頻數(shù)據(jù)對(duì)比,不僅可以找出“車展”的地道對(duì)應(yīng)詞,還可以判斷出對(duì)應(yīng)詞的使用地域分布特點(diǎn)(見表1)。

      表1 “車展”對(duì)應(yīng)詞的語料庫(kù)詞頻比較

      在英國(guó)英語中,motor show的詞頻最高,是“車展”的典型地道對(duì)應(yīng)詞。對(duì)應(yīng)詞auto show在British News語料庫(kù)中的詞頻為零,這說明,英國(guó)的主流新聞媒體可能有意避開使用auto show;UK-WAC語料庫(kù)的34個(gè)應(yīng)用實(shí)例證實(shí)在英國(guó)也有人使用auto show(如“the Detroit auto show底特律車展”)。COCA美國(guó)當(dāng)代英語語料庫(kù)的檢索結(jié)果證實(shí)auto show在美國(guó)英語中的使用頻率最高,是美國(guó)英語中“車展”的典型地道對(duì)應(yīng)詞。語料庫(kù)統(tǒng)計(jì)結(jié)果的橫向比較顯示,有人用car exhibition,但使用頻率極低,分布不廣。此外,UK-WAC語料庫(kù)中的一個(gè)實(shí)例(preview or full screen mode, auto show, panorama mode)顯示auto show不是“車展”,而是“自動(dòng)播放”的意思。這些信息在漢英詞典中應(yīng)適當(dāng)標(biāo)注。

      2) 區(qū)分義項(xiàng),標(biāo)注所屬學(xué)科。如果專業(yè)術(shù)語的使用范圍不斷擴(kuò)大,也會(huì)進(jìn)入普通詞匯。詞典收錄時(shí),應(yīng)根據(jù)學(xué)科領(lǐng)域劃分義項(xiàng)并標(biāo)注。例如: 近幾年,中國(guó)人喜歡為所有健康、樂觀、積極向上的人,以及催人奮進(jìn)、給人力量和充滿希望的事貼上“正能量”的標(biāo)簽?!罢芰俊痹醋杂⒄Z中的positive energy。在心理學(xué)領(lǐng)域,“正能量”的意思是“積極的能量;正向的能量;積極進(jìn)取的動(dòng)力”。但是“正能量”原是物理學(xué)領(lǐng)域的一個(gè)概念,與心理學(xué)領(lǐng)域“正能量”的英語對(duì)應(yīng)詞相同,意思不同(見例4)。

      例4:WefirstsawMasdarHQacoupleofyearsago,whenitwasaimingtobetheworld’sfirstpositiveenergybuilding. 我們幾年前第一次認(rèn)識(shí)了馬斯達(dá)爾的總部大廈,當(dāng)時(shí)它的目標(biāo)是成為世界上第一個(gè)正能量建筑(也就是產(chǎn)生的能量大于消耗的能量)?!猘rticle.yeeyan.org

      3) 驗(yàn)證兩個(gè)或多個(gè)近義漢語詞語是否有共同的對(duì)應(yīng)詞。例如: 英漢對(duì)照文本顯示“民意測(cè)驗(yàn)”和“民意調(diào)查”有共同的高頻英語對(duì)應(yīng)詞poll和opinion poll(見例5至例7的對(duì)照)。

      例5a:MorethanhalfofAmericansinarecentopinionpollviewed China as an adversary, compared with 28 per cent who saw it as an ally. 在最近的一次民意測(cè)驗(yàn)中,半數(shù)以上的美國(guó)人視中國(guó)為對(duì)手。相比之下,只有28%的人認(rèn)為中國(guó)是盟友?!獁ww.ftchinese.com

      例5b:Herapprovalratinginonerecentopinionpollwas only 15%. 她的支持率在最近的一次民意調(diào)查顯示只有15%?!獁ww.ecocn.org

      例6a:However,Foysaid,thepollshould be interpreted with caution. 但是,他說民意測(cè)驗(yàn)應(yīng)謹(jǐn)慎解讀?!猘rticle.yeeyan.org

      例6b:Theresultsofthepollshow Bill Clinton’s approval rating has gone up in his second term. 民意調(diào)查的結(jié)果顯示比爾·克林頓的工作支持率在他的第二任期內(nèi)提高了?!獁ww.kekenet.com

      例7a:Pollsshow the majority of French are against the reforms. 民意測(cè)驗(yàn)顯示,大部分法國(guó)人反對(duì)這項(xiàng)改革?!獁ww.voanews.cn

      例7b:Pollsshow that up to half of Americans support the demonstrators or at least believe they reflect public opinion. 民意調(diào)查顯示,多達(dá)半數(shù)的美國(guó)人支持這些示威者,或者至少認(rèn)為他們代表了公眾的意見?!獁ww.fortunechina.com

      4) 更新已成熟漢語新詞語的英語對(duì)應(yīng)詞。對(duì)于剛出現(xiàn)的漢語新詞,語料不足會(huì)影響其英語釋義的可靠性,找到恰當(dāng)?shù)恼Z際對(duì)應(yīng)詞也很困難。隨著時(shí)間的推移,人們會(huì)逐漸找到英語中已有的可用對(duì)應(yīng)詞。大數(shù)據(jù)有助于搜集、審定并及時(shí)更新這類對(duì)應(yīng)詞。例如:“皮包公司”是二十世紀(jì)中國(guó)改革開放之后出現(xiàn)的一個(gè)新詞,指“沒有資金、場(chǎng)地和固定人員的商業(yè)組織”,因僅靠為數(shù)不多的成員手提皮包奔走于買賣雙方而得名。這個(gè)漢語新詞已經(jīng)成熟。它的早期譯文briefcase company很容易被誤認(rèn)為是“生產(chǎn)皮包的公司(a company that makes briefcases)”(葉小寶2000)。實(shí)際上,“皮包公司”是個(gè)空殼公司/外殼公司(shell company)(見例8)或虛假公司(bogus company)(見例9)。

      例8:Longkongiscontrolledbyashellcompanyin Hong Kong, with little more than a mailing address. 龍崗旅游被一家僅有通信地址的香港外殼公司控股?!猘rticle.yeeyan.org

      例9:Theboguscompany’s location turned out to be an ordinary residential apartment with the room number removed, the newspaper said. 據(jù)該報(bào)紙報(bào)道,這家皮包公司的辦公地點(diǎn)是一處被抹去房間號(hào)的普通民宅?!獁ww.chinadaily.com.cn

      用dummy company(虛設(shè)公司;掛名公司;傀儡公司;秘密代營(yíng)公司)或fly-by-night company(無信用公司;不可靠公司;唯利是圖的公司)也可以表達(dá)“皮包公司”的意思,但這兩種表達(dá)法的使用廣度不如shell compay和bogus company。表2是“皮包公司”英語對(duì)應(yīng)詞的語料庫(kù)詞頻比較。

      5) 梳理對(duì)應(yīng)詞并分類。詞典對(duì)詞語的收錄不應(yīng)回避社會(huì)生活的負(fù)面狀況。有些詞語描述的是社會(huì)轉(zhuǎn)型過程中出現(xiàn)的負(fù)面狀況,漢語中有,英語中也有。如“傍大款”就是個(gè)典型的例子。從互聯(lián)網(wǎng)上能搜索到“傍大款”的多種英譯表達(dá)。表3是必應(yīng)網(wǎng)絡(luò)詞典中“傍大款”的網(wǎng)頁(yè)挖掘結(jié)果(根據(jù)2015年3月1日的檢索結(jié)果復(fù)制)。這個(gè)挖掘?qū)嵗日故玖司W(wǎng)頁(yè)文本挖掘的重要作用,也暴露出自動(dòng)挖掘結(jié)果的不足之處。

      表2 “皮包公司”英語對(duì)應(yīng)詞的語料庫(kù)詞頻比較

      表3 必應(yīng)網(wǎng)絡(luò)詞典中“傍大款”的網(wǎng)頁(yè)挖掘結(jié)果

      (續(xù)表)

      從表3可以篩選出“傍大款”的英語對(duì)應(yīng)詞,但必須排除噪聲干擾。首先是第一項(xiàng)中的of a girl被錯(cuò)誤提取并列為對(duì)應(yīng)詞。它出現(xiàn)的頻率高,但只是括注。接下來是第一項(xiàng)和第六項(xiàng)中都有l(wèi)ean on a moneybags??瓷先oneybags的前面加冠詞a不符合語法,但實(shí)際上moneybags是單復(fù)數(shù)同形,其前用冠詞a是可以的。而第五項(xiàng)和第八項(xiàng)中的a moneybag只有“錢袋”之意,沒有“大款;闊佬”的意思。第四項(xiàng)與第七項(xiàng)給出的對(duì)應(yīng)詞結(jié)構(gòu)相似,但是一個(gè)用介詞for,另一個(gè)用to。第五項(xiàng)列出的結(jié)果是lean on a moneybag,接下來的第六項(xiàng)卻出現(xiàn)了與之不一致的to lean on a moneybags。第八項(xiàng)錯(cuò)誤地提取出beer belly(將軍肚;啤酒肚)作為“傍大款”的英語對(duì)應(yīng)詞。

      經(jīng)人工整理,并參考其他來源的挖掘結(jié)果,能提煉出下列可用的英語對(duì)應(yīng)詞: (of a girl) find/have a sugar daddy; (be a) gold digger; lean on/live off a moneybags; find a fat cat; be a rich man’s mistress。例10至例12是應(yīng)用實(shí)例。

      例10:Anddon’tyoutakethattonewithme,yougolddigger. 不許用那樣的語氣對(duì)我說話,你這個(gè)傍大款的?!獁ww.douban.com

      例11:Most[of]herfriendsadmirethatsheleansonamoneybags, but she is not happy. 很多朋友都羨慕她找了個(gè)有錢人(傍大款),可是她一點(diǎn)也不幸福!——dictsearch.appspot.com

      例12:Please,historysuggestswedon’thaveasugardaddywho will take care of the problem. 歷史表明,我們并沒有一個(gè)可以解決問題的大款來傍。——www.imsci.cn

      6) 找出同一詞語在不同語境中使用的英語對(duì)應(yīng)詞,并根據(jù)對(duì)應(yīng)詞的詞性分組。一詞多譯是翻譯中的普遍現(xiàn)象。通過大數(shù)據(jù)挖掘,可以搜集到同一詞語或詞義在不同語境中使用的語際對(duì)應(yīng)詞。把它們按詞性分組后,有助于對(duì)應(yīng)詞的選用。例如: 下列詞語都有“毫不留情”的意思: ①毫不留情(地)without mercy; mercilessly; relentlessly; unsparingly; in no uncertain terms;②毫不留情(地)give/get no quarter; lash back(毫不留情地予以回?fù)?;③毫不留情(的)be relentless/unsparing/implacable/inexorable; be tough on sb.。如果要表達(dá)“絕不容忍”的意思,則可從①will not be tolerated; don’t put up with;②no-tolerance等對(duì)應(yīng)詞中選用。

      如果漢語中已經(jīng)存在多個(gè)近義表達(dá),但又出現(xiàn)了新的源自英語的漢語近義詞,其英語對(duì)應(yīng)詞容易辨認(rèn)且穩(wěn)定,應(yīng)收錄并單列詞條。例如:“零容忍”已漸漸成為人們關(guān)注和討論的熱點(diǎn)。“零容忍”不僅能表達(dá)“毫不留情”“毫不遷就”“毫不寬容”“絕不容忍”“絕不留情”,以及“決不姑息”的意思,而且含義明確,態(tài)度堅(jiān)決,英語對(duì)應(yīng)詞zero tolerance在漢英跨語言交流中的信息傳遞既直接又準(zhǔn)確(見例13至例16)。

      例13:Baltimore,forexample,hasadoptedazero-tolerancepolicy in dealing with kids who miss school. 例如,巴爾的摩在處理失學(xué)兒童問題時(shí)采取零容忍的政策?!猘rticle.yeeyan.org

      例14:StaffofficershaveinsistedtheArmy’spolicymustbe“zerotoleranceto all forms of discrimination”. 參謀人員堅(jiān)持認(rèn)為軍隊(duì)的政策必須是“對(duì)一切形式的歧視零容忍”?!猘rticle.yeeyan.org

      例15:MrWolfowitzhasespousedapolicyof“zerotolerance” towards graft and corruption in the bank’s staff and activities. 沃氏已經(jīng)支持在世行職員和業(yè)務(wù)中對(duì)貪污和腐敗采取一項(xiàng)“零容忍(zero tolerance)”政策。——www.ecocn.org

      例16:NewUefapresidentMichelPlatinilastweekcalledfora‘zerotolerance’ approach to football-related violence. 僅在上周,新一屆的歐足聯(lián)主席普拉蒂尼還呼吁對(duì)足球暴力采用“零容忍度”的對(duì)策?!獁ww.mufans.org

      7) 增補(bǔ)新出現(xiàn)的對(duì)應(yīng)詞,但需區(qū)分詞性。例如: 英語中的mutually beneficial可以表達(dá)“(互利/互惠)雙贏的”意思(見例17和例18)。

      例17:ChinawilljoinhandswiththeUKtofurtherpromotemutuallybeneficialresults out of the dialogue. 中方將與英方一道,共同推動(dòng)對(duì)話取得更多互利雙贏的成果?!獁ww.hjenglish.com

      例18:Thesestatisticsspeakvolumesforthemutuallybeneficialnature of China-US economic relations and trade. 這些數(shù)據(jù)充分表明中美經(jīng)貿(mào)關(guān)系是互利雙贏的?!獁ww.fmprc.gov.cn

      英語中的win-win是“雙贏(的)”地道的新對(duì)應(yīng)詞。但win-win既可用作形容詞,也可用作名詞,詞典收錄時(shí)應(yīng)區(qū)分詞性。例19至例22是win-win用作形容詞的實(shí)例:

      例19: “Inthefuture,wehopethetwosidescanholdtalksonmutualtrustandcreateawin-winsituation.” he said.“我們希望,將來我們雙方可以本著互相信任的原則舉行對(duì)話,實(shí)現(xiàn)雙贏的局面?!彼f?!獁ww.suiniyi.com

      例20:Buthewentontosaythata“win-win” solution could be found where a dialogue could yield candidates suitable to both sides. 但他接著指出,雙方可以找到一個(gè)“雙贏”的解決方案,即通過對(duì)話,找到雙方都認(rèn)可的候選人。——www.ftchinese.com

      例21:Ourobjectiveistoforgewin-winpartnerships in which both countries gain and which further contribute to the strength of the friendship. 我們的目標(biāo)是雙贏,兩國(guó)共獲益,進(jìn)一步加深加強(qiáng)兩國(guó)間的友誼。——article.yeeyan.org

      例22: “Ipersonallythinkthesecountries’investmentinAfricaandLatinAmericacanbenefit[everyone]sothatitiswin-win.” he said. “我個(gè)人認(rèn)為這些國(guó)家在非洲和拉丁美洲的投資可以造福[所有人],因此它是雙贏的。”他說?!獁ww.scidev.net

      英語中的win-win也常用作名詞(見例23至例25)。區(qū)分詞性有助于理解詞語的語法功能,從而提升參考價(jià)值。

      例23:Theprojectcouldbeawin-winfor the two nations as they seek to build expertise and market share in the emerging clean energy sector. 鑒于兩國(guó)在清潔能源行業(yè)尋求積累專業(yè)知識(shí)和市場(chǎng)占有率,該項(xiàng)目可能為兩國(guó)創(chuàng)造雙贏的局面?!獁ww.america.gov

      例24:Inaworseningeconomicclimate,itwouldbeharderforthebigeconomiestoseetheirrelationshipsasmutuallybeneficial—asawin-win. 在日益惡化的經(jīng)濟(jì)氣候下,大型經(jīng)濟(jì)體之間將越發(fā)難以看到多方互惠(也稱之為雙贏win-win)的關(guān)系。——article.yeeyan.org

      例25:Itcanbesaid,thebeesintheplantflowersfornectarforbeesandplant,isatypical“win-win”. 可以這樣說,蜜蜂在植物花朵上采蜜,對(duì)蜜蜂和植物來說是典型的“雙贏”?!獁ww.cnqr.org

      8) 增補(bǔ)舊詞的新義項(xiàng),匹配目前可用的基本對(duì)應(yīng)詞,添加必要的詞法信息和辨析內(nèi)容。有些舊詞有了新用法,但是由于特殊的社會(huì)文化背景,沒有最合適的對(duì)應(yīng)詞,只能找到英語中基本對(duì)應(yīng)的詞。例如:“土豪”原指“舊時(shí)地方上有錢有勢(shì)橫行霸道的壞人(local bully; local tyrant; local despot)”。后來指那些在網(wǎng)絡(luò)游戲上舍得花大錢的玩家。2013年,“土豪(氣質(zhì)夠土;花錢夠豪)”成了諷刺和調(diào)侃的流行語,指有錢但品位差的暴發(fā)戶或新貴。

      英語中已經(jīng)有個(gè)源自法語的名詞nouveau riche /nuvri?/,字面意思是the new rich,指那些品位不高且愛炫富的暴發(fā)戶。這個(gè)詞與“土豪”的新詞義最接近。從牛津詞典網(wǎng)絡(luò)版(http:∥www.oxforddictionaries.com/)查到的兩條詞法信息對(duì)于正確使用nouveau riche也很重要,漢英詞典中應(yīng)予以標(biāo)注。這兩條信息是: (1) nouveau riche用作復(fù)數(shù)名詞(treated as plural);(2) nouveau riche前面的限定詞通常用the(usually the nouveau riche)。應(yīng)用實(shí)例參見例26和例27。

      例26:Sheisoneofthenouveaurichein her hometown. 她是當(dāng)?shù)氐谋┌l(fā)戶之一。——article.yeeyan.org

      例27:Theworld’stopluxuryvehiclesareastatussymbolforChina’snouveauriche. 對(duì)于中國(guó)的富豪來說,世界頂級(jí)豪車似乎已經(jīng)成為了一種身份的象征?!猘rticle.yeeyan.org

      根據(jù)焦瑞娟(2013)的研究,漢英詞典有必要提供對(duì)應(yīng)詞辨析信息。經(jīng)核查,英語單詞parvenu(復(fù)數(shù)形式為parvenus)的意思也是“暴發(fā)戶;新貴”,但這個(gè)詞語體正式,沒有“土豪”所含的“品位不高”“愛炫富”和“粗俗”等意思,也沒有諷刺和調(diào)侃的意味。有人用rich rednecks表達(dá)“土豪”的新詞義。土豪既有鄉(xiāng)下人也有城里人,但redneck(鄉(xiāng)巴佬;紅脖子)指美國(guó)文化水平不高且政治觀點(diǎn)保守的鄉(xiāng)下人,含貶義。

      2013年,許多人預(yù)測(cè),tuhao(土豪)有望在2014年被收錄進(jìn)《牛津英語詞典》。但2015年3月1日的檢索結(jié)果顯示牛津詞典網(wǎng)絡(luò)版還沒收錄tuhao這個(gè)詞。不過,根據(jù)滬江網(wǎng)塘生春草(2013)的介紹,法語中又出現(xiàn)了與“土豪”更對(duì)應(yīng)的新詞riche péquenaud。用作形容詞時(shí),péquenaud的意思是“土里土氣的”;用作名詞時(shí),意為“鄉(xiāng)下佬”。將來英語會(huì)借用源自漢語的tuhao還是源自法語的riche péquenaud?現(xiàn)在還無法下結(jié)論。但是有一點(diǎn)是肯定的: 跟蹤語言的發(fā)展變化,及時(shí)記錄,客觀描寫,根據(jù)大數(shù)據(jù)來確定。

      9) 準(zhǔn)確把握詞義,區(qū)分易混淆的對(duì)譯詞或?qū)?yīng)詞。例如:“外資”的對(duì)譯詞有foreign investments, foreign capital, foreign funds,但是在有些語境下需要譯成overseas investments。使用時(shí)還需分清是“外國(guó)投資;來自外國(guó)的投資”還是“海外投資;在海外投(的)資”。

      “海外投資;在海外投(的)資;投資海外;境外投資”的英語對(duì)應(yīng)詞是investments overseas和overseas investments(見例28和例29)。

      例28:Indiansarepermittedtoinvestupto$200,000perfinancialyearinoverseasinvestments. 印度政府規(guī)定,印度人每個(gè)財(cái)務(wù)年度可以進(jìn)行最多20萬美元的海外投資。——chinese.wsj.com

      例29:Bigstate-ownedenterpriseswouldlobbyformonthstoconvincetheirregulatorstoapproveinvestmentsoverseas. 大型國(guó)企會(huì)花費(fèi)數(shù)月時(shí)間游說,以說服監(jiān)管部門批準(zhǔn)它們進(jìn)行海外投資?!獁ww.ftchinese.com

      如果“外資”的含義是“外國(guó)投資;來自外國(guó)的投資”,仍需使用foreign investiments這個(gè)對(duì)應(yīng)詞(見例30和例31)。

      例30:Whilethepileofmothballedforeigninvestmentsin China keeps growing, Korean investors are sweeping up. 盡管越來越多的外國(guó)投資項(xiàng)目在中國(guó)被擱置,但韓國(guó)投資者卻在收獲果實(shí)?!獁ww.ftchinese.com

      例31:CFIUSisaninter-agencycommitteeresponsibleforreviewingthenationalsecurityimplicationsofforeigninvestmentsin U.S. companies. 美國(guó)外國(guó)投資委員會(huì)是美國(guó)政府的一個(gè)跨部門機(jī)構(gòu),負(fù)責(zé)審查外資投資美國(guó)企業(yè)如何影響美國(guó)國(guó)家安全?!猚.wsj.com

      10) 找出經(jīng)打磨和修正的新譯文或?qū)?yīng)詞。新詞的翻譯常有這樣的情況: 因?yàn)槔斫庥姓`,表達(dá)欠佳,或原詞的內(nèi)涵發(fā)生了變化,到了一定時(shí)候,人們不得不對(duì)某些譯文進(jìn)行修正甚至另覓新譯。(楊全紅1999)近幾年我國(guó)常提到“法治”和“依法治國(guó)”,其英譯就經(jīng)歷了一個(gè)打磨和修正的過程。

      首先是介詞by和of的選用問題。陳中繩(1998)曾指出“法治”應(yīng)譯作rule of law。賈釗(2014)解釋說,rule of law表示沒有人能在法律之上,而rule by law則可以指政府用法律施行統(tǒng)治、推行其決策;rule by law有可能被解讀為“The law is a tool of the government(法律是政府的工具)”;中國(guó)古代法家提出的“以法治國(guó)”,恰好可譯成rule by law,因?yàn)楫?dāng)時(shí)的“以法治國(guó)”強(qiáng)調(diào)的是為君主統(tǒng)治服務(wù)。賈釗總結(jié)說“在事關(guān)原則問題的翻譯上,真的不可盲目套用西方的成品,因?yàn)橛脛e人的標(biāo)準(zhǔn)說自己的事情,總是說不大清的”。

      翻譯“法治”和“依法治國(guó)”還需根據(jù)語境選用動(dòng)詞或措辭。何海波(2011)在《中國(guó)行政法若干關(guān)鍵詞的英文翻譯》這篇論文中的結(jié)論是: 依法治國(guó),如果直譯,govern the country according to law是最好的;govern the country in accordance with (the) law非常正式,但略顯冗長(zhǎng);rule the country in accordance with (the) law 也是非常正式,但rule透露出一種居高臨下的統(tǒng)治意味,除非有意傳達(dá)這層意思,建議不用;manage state affairs according to law重在強(qiáng)調(diào)依法管理國(guó)家事務(wù),與“依法治國(guó)”相比,含義偏窄;run the country according to law 非??谡Z化,不夠正式。此外,根據(jù)何海波的梳理,英譯“依法行政”和“法治政府”時(shí),需要注意: administration according to law是“依法行政”的簡(jiǎn)潔佳譯,用administration in accordance with the law則略顯冗長(zhǎng);如果強(qiáng)調(diào)“依法而為的行政”,law-based adminstration更能簡(jiǎn)明地傳達(dá)它在中國(guó)當(dāng)下語境中的官方含義;在表述中國(guó)官方文獻(xiàn)時(shí),“法治政府”譯作law-based government更通用。

      中國(guó)共產(chǎn)黨十七大報(bào)告和十八大報(bào)告英漢對(duì)照版中“依法治國(guó)”的英譯就及時(shí)吸納了“法治”和“依法治國(guó)”的英譯修正研究成果(例32選自十七大報(bào)告,例33選自十八大報(bào)告),這不僅準(zhǔn)確反映了漢語原文的含義,也能幫助外國(guó)讀者更準(zhǔn)確地了解中國(guó)建設(shè)法治國(guó)家的決策。

      例32: 堅(jiān)持依法治國(guó)基本方略,樹立社會(huì)主義法治理念,實(shí)現(xiàn)國(guó)家各項(xiàng)工作法治化,保障公民合法權(quán)益。Wemustupholdtheruleoflawas a fundamental principle and adopt the socialistconceptoflaw-basedgovernanceto ensure that all work of the state is based on the law and that the legitimate rights and interests of citizens are safeguarded.——http:∥language.chinadaily.com.cn/2007-10/31/content_6218870.htm

      例33: 依法治國(guó)基本方略全面落實(shí),法治政府基本建成,司法公信力不斷提高,人權(quán)得到切實(shí)尊重和保障。Theruleoflawshould be fully implemented as a basic strategy,alaw-basedgovernmentshould be basically in function, judicial credibility should be steadily enhanced, and human rights should be fully respected and protected.——http:∥language.chinadaily.com.cn/news/2012-11/19/content_15941774.htm

      現(xiàn)在從互聯(lián)網(wǎng)上查到的“法治”和“依法治國(guó)”的英譯五花八門,許多網(wǎng)頁(yè)中提供的是有錯(cuò)誤或過時(shí)的翻譯。為防止以訛傳訛,漢英詞典在修訂時(shí)必須剔除錯(cuò)誤的翻譯或過時(shí)的譯文,并及時(shí)收錄經(jīng)打磨和修正的譯文或?qū)?yīng)詞。

      (3) 小結(jié)

      大數(shù)據(jù)時(shí)代詞典編纂實(shí)踐的可用數(shù)據(jù)是豐富的,但也是紛雜的。從可用的大數(shù)據(jù)中可以挖掘出編纂詞典所需的詞匯知識(shí),潛在價(jià)值高但價(jià)值密度低,目前還離不開專業(yè)人員的判斷和解讀。由于數(shù)據(jù)是不斷變化的,收集到的數(shù)據(jù)有可能是過期的、無效的,甚至是錯(cuò)誤的。數(shù)據(jù)之間也有可能存在不一致,甚至是相互矛盾的現(xiàn)象。要發(fā)揮大數(shù)據(jù)的價(jià)值,必須接受它的紛繁復(fù)雜,必須能夠去偽存真做出正確的判斷和解讀。

      四、 數(shù)據(jù)或語料使用的相關(guān)問題

      使用大數(shù)據(jù)還需注意與數(shù)據(jù)使用相關(guān)的幾個(gè)問題并關(guān)注其前景,包括大數(shù)據(jù)集成問題、知識(shí)產(chǎn)權(quán)的尊重和保護(hù),以及數(shù)據(jù)資源的開放和共享。

      1. 大數(shù)據(jù)集成問題

      詞典編纂的可用數(shù)據(jù)散布于不同的數(shù)據(jù)管理系統(tǒng)中,在數(shù)據(jù)分析之前需要先進(jìn)行數(shù)據(jù)集成。由于數(shù)據(jù)量大、異質(zhì)、異構(gòu)和多樣性等原因,大數(shù)據(jù)的集成面臨巨大挑戰(zhàn)。由于資金投入和利益分配等問題,跨部門語言資源共享和交換存在障礙,大量數(shù)據(jù)橫向不聯(lián)、縱向不通。大數(shù)據(jù)語言資源的建設(shè)者是否能夠得到合理的經(jīng)濟(jì)回報(bào)直接影響建設(shè)的規(guī)模、周期、更新速度、質(zhì)量和積極性。

      要防止大數(shù)據(jù)集成后出現(xiàn)數(shù)據(jù)壟斷,以免對(duì)大數(shù)據(jù)的利用和知識(shí)的傳播形成阻礙。

      2. 知識(shí)產(chǎn)權(quán)的尊重和保護(hù)

      在大數(shù)據(jù)時(shí)代,數(shù)據(jù)使用方應(yīng)提高對(duì)知識(shí)產(chǎn)權(quán)的尊重和保護(hù)意識(shí)。如果是網(wǎng)絡(luò)詞典,應(yīng)標(biāo)注數(shù)據(jù)或語料的來源;如果是紙質(zhì)版詞典,應(yīng)在致謝頁(yè)或參考文獻(xiàn)處注明。

      在尊重知識(shí)產(chǎn)權(quán)的前提下,針對(duì)詞典編纂過程中使用大數(shù)據(jù)的典型問題,需達(dá)成行業(yè)共識(shí),找出解決方案。例如,從大數(shù)據(jù)中抽取到的已被廣泛使用的原創(chuàng)對(duì)應(yīng)詞譯文是否需要付費(fèi)?只參考了一兩行的內(nèi)容,如何付費(fèi)?如何判斷誰是原創(chuàng)?

      推行具有可操作性的稿酬支付機(jī)制,探索快速代理授權(quán)和代理付費(fèi)模式,提高交易便捷度,使著作權(quán)人能獲得相應(yīng)的版權(quán)收入。

      3. 數(shù)據(jù)資源的開放和共享

      齊元軍(2014)研究過大數(shù)據(jù)時(shí)代數(shù)字出版版權(quán)保護(hù)的難點(diǎn)與策略。他指出: 大數(shù)據(jù)時(shí)代的數(shù)據(jù)共享思想對(duì)傳統(tǒng)的版權(quán)保護(hù)制度提出了新挑戰(zhàn)。有人認(rèn)為目前的版權(quán)保護(hù)制度過于嚴(yán)格,阻礙了知識(shí)的傳播,呼吁減少版權(quán)保護(hù)的一些限制條款。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源的開放和共享正成為全球化的趨勢(shì)。許多國(guó)家的政府和組織已建立專門的數(shù)據(jù)網(wǎng)站,為數(shù)據(jù)的共享和挖掘創(chuàng)造條件。有些著作權(quán)人接受網(wǎng)絡(luò)時(shí)代共享和免費(fèi)的理念,愿意免費(fèi)將其作品分享,而不采取傳統(tǒng)的版權(quán)保護(hù)模式。

      五、 結(jié)語

      隨著計(jì)算機(jī)和互聯(lián)網(wǎng)在各行各業(yè)的廣泛應(yīng)用,信息爆發(fā)式增長(zhǎng),累積的數(shù)據(jù)量越來越大,逐步形成了大數(shù)據(jù)這個(gè)概念?,F(xiàn)在已經(jīng)到了開始引發(fā)變革的程度。

      詞典編纂可用或可參考的數(shù)據(jù)具備大數(shù)據(jù)的典型特征,通過關(guān)聯(lián)關(guān)系能夠從中挖掘出隱含的詞匯知識(shí)或有用信息,在詞典學(xué)研究和詞典編纂領(lǐng)域具有重要的應(yīng)用價(jià)值。從紛雜的大數(shù)據(jù)中挖掘或抽取出編纂詞典可用的知識(shí)并非易事。傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)挖掘工具和數(shù)據(jù)清洗技術(shù)在處理方式、速度和分析能力上都面臨挑戰(zhàn)。在現(xiàn)階段,計(jì)算機(jī)和工具軟件只能起到輔助作用;挖掘目標(biāo)的設(shè)定,挖掘結(jié)果的篩選、分析、抽取和利用還離不開復(fù)合型專業(yè)人員的參與。操作者需要掌握大數(shù)據(jù)分析技術(shù),能夠從海量數(shù)據(jù)中發(fā)現(xiàn)變量間的相關(guān)性,解讀大數(shù)據(jù)的挖掘結(jié)果,敏銳地提取出有價(jià)值的信息。

      大數(shù)據(jù)時(shí)代強(qiáng)調(diào)的是分析所有相關(guān)數(shù)據(jù),而不是僅僅依靠采樣分析。因此,必須重視大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫(kù)建設(shè)和集成,完成從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)處理方式向同時(shí)兼具結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)處理方式的轉(zhuǎn)變。

      現(xiàn)在,網(wǎng)絡(luò)詞典和電子詞典已經(jīng)成為發(fā)展方向。詞典的呈現(xiàn)形式和贏利模式都在發(fā)生變化。我國(guó)的詞典編纂和出版已經(jīng)向數(shù)字化和網(wǎng)絡(luò)化邁進(jìn)了一大步,但是針對(duì)詞典編纂的大數(shù)據(jù)集成和自動(dòng)分析技術(shù)還不成熟,工具欠缺,數(shù)據(jù)存取及管理的系統(tǒng)處理經(jīng)驗(yàn)不足,詞匯知識(shí)的挖掘技術(shù)水平亟待提高。研究大數(shù)據(jù)的收集、集成和分析技術(shù),從紛雜的大數(shù)據(jù)中挖掘出編纂雙語詞典所需的語際對(duì)應(yīng)詞等詞匯知識(shí)有助于編纂出符合用戶需要的雙語詞典,促進(jìn)知識(shí)傳播和國(guó)際交流。

      參考文獻(xiàn)

      1. 包雙喜,斯日古楞.小議對(duì)應(yīng)詞.內(nèi)蒙古民族大學(xué)學(xué)報(bào),2007(3).

      2. 蔡翠紅.國(guó)際關(guān)系中的大數(shù)據(jù)變革及其挑戰(zhàn).世界經(jīng)濟(jì)與政治,2014(5).

      3. 陳中繩.《漢英詞典》(修訂版)的錯(cuò)謬.汕頭大學(xué)學(xué)報(bào),1998(1).

      4. 韓蕊.企業(yè)大數(shù)據(jù)已進(jìn)入應(yīng)用摸索階段.互聯(lián)網(wǎng)周刊,2013(19).

      5. 何海波.中國(guó)行政法若干關(guān)鍵詞的英文翻譯.行政法學(xué)研究,2011(3).

      6. 胡雄偉,張寶林,李抵飛.大數(shù)據(jù)研究與應(yīng)用綜述(中).標(biāo)準(zhǔn)科學(xué),2013(10).

      7. 黃南霞,謝輝,王學(xué)東.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)協(xié)同創(chuàng)新平臺(tái)及其應(yīng)用研究.現(xiàn)代情報(bào),2013(10).

      8. 賈釗.法治:ruleoflaw還是rulebylaw?.國(guó)際先驅(qū)導(dǎo)報(bào),2014-11-04.http:∥ihl.cankaoxiaoxi.com/2014/1104/552794.shtml.

      9. 焦瑞娟.內(nèi)向型漢英詞典中動(dòng)詞詞目英語對(duì)應(yīng)詞辨析問題初探.辭書研究,2013(3).

      10. 李安興.關(guān)于漢英詞典編纂方法與理論創(chuàng)新問題的思考.中國(guó)出版,2010(24).

      11. 李明,周敬華.雙語詞典編纂.上海: 上海外語教育出版社,2000.

      12. 李戰(zhàn)懷,王國(guó)仁,周傲英.從數(shù)據(jù)庫(kù)視角解讀大數(shù)據(jù)的研究進(jìn)展與趨勢(shì).計(jì)算機(jī)工程與科學(xué),2013(10).

      13. 齊元軍.大數(shù)據(jù)時(shí)代數(shù)字出版版權(quán)保護(hù)的難點(diǎn)與策略研究.科技與出版,2014(11).

      14. 塘生春草.土豪法語怎么說?法媒解讀中國(guó)新詞,2013-12-26.http:∥www.hjenglish.com/fr/p558423/.

      15. 維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代: 生活、工作與思維的大變革.盛楊燕,周濤譯.杭州: 浙江人民出版社,2013.

      16. 嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究.計(jì)算機(jī)技術(shù)與發(fā)展,2013(4).

      17. 楊全紅.簡(jiǎn)論漢英新詞新語的翻譯.中國(guó)翻譯,1999(3).

      18. 葉小寶.評(píng)《漢英詞典》修訂版釋義的翻譯.四川外語學(xué)院學(xué)報(bào),2000(4).

      19. 曾泰元.語料庫(kù)與漢英詞典編纂.辭書研究,2005(1).

      20. 趙勇,徐軻.大數(shù)據(jù)時(shí)代的公共資源交易前瞻.招標(biāo)采購(gòu)管理,2014(12).

      21. 趙中建,張燕南.與大數(shù)據(jù)同行的學(xué)習(xí)與教育——《大數(shù)據(jù)時(shí)代》作者舍恩伯格教授和庫(kù)克耶先生訪談.全球教育展望,2014(12).

      22. 宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn).西安交通大學(xué)學(xué)報(bào),2013(5).

      (馬立東廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心廣州510420)

      (吳光華大連交通大學(xué)辭書研究所遼寧116028)

      (責(zé)任編輯李瀟瀟)

      *本文得到了《世紀(jì)漢英大詞典》項(xiàng)目的支持。該項(xiàng)目2012年被列為“十二五”國(guó)家重點(diǎn)圖書、音像、電子出版物規(guī)劃增補(bǔ)項(xiàng)目,2013年又被國(guó)家新聞出版廣電總局列入《2013—2025年國(guó)家辭書編纂出版規(guī)劃》。

      猜你喜歡
      詞典語料庫(kù)英語
      《語料庫(kù)翻譯文體學(xué)》評(píng)介
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
      讀英語
      基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      酷酷英語林
      《胡言詞典》(合集版)刊行
      語料庫(kù)語言學(xué)未來發(fā)展趨勢(shì)
      子洲县| 白玉县| 富顺县| 沅陵县| 蒙山县| 南投市| 绵竹市| 齐河县| 新和县| 崇州市| 临沭县| 靖州| 保靖县| 建德市| 平谷区| 肥乡县| 吕梁市| 东丰县| 太原市| 玉屏| 阜新| 玛多县| 大理市| 彝良县| 江津市| 平度市| 涟水县| 龙胜| 忻州市| 比如县| 桂平市| 望谟县| 确山县| 舞阳县| 浦江县| 皋兰县| 孟连| 无棣县| 仁布县| 莱西市| 古田县|