• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      小型英漢平行語(yǔ)料庫(kù)的建設(shè)研究與應(yīng)用

      2018-02-07 08:58:05周影
      中小企業(yè)管理與科技 2018年21期
      關(guān)鍵詞:美語(yǔ)英漢語(yǔ)料

      周影

      (北方民族大學(xué),銀川 750021)

      1 語(yǔ)料庫(kù)介紹

      1.1 語(yǔ)料庫(kù)的分類

      語(yǔ)料庫(kù)的英文為corpus,從字面上的意思講,即收集語(yǔ)料的倉(cāng)庫(kù)。早期的語(yǔ)料庫(kù)規(guī)模較小,隨著計(jì)算機(jī)技術(shù)的發(fā)展和語(yǔ)言詞匯數(shù)量的增加,其發(fā)展規(guī)模越來(lái)越大,類型也變得更加多樣化,常見(jiàn)的語(yǔ)料庫(kù)分為單語(yǔ)語(yǔ)料庫(kù)和雙語(yǔ)/多語(yǔ)語(yǔ)料庫(kù)。單語(yǔ)語(yǔ)料庫(kù)是目前開(kāi)發(fā)和使用最多的語(yǔ)料庫(kù),它僅收集一種語(yǔ)言的語(yǔ)料。雙語(yǔ)/多語(yǔ)語(yǔ)料庫(kù)是指由兩種或兩種以上語(yǔ)言的文本構(gòu)成的語(yǔ)料庫(kù)。平行語(yǔ)料庫(kù)是指由原文文本及其平行對(duì)應(yīng)的譯語(yǔ)文本構(gòu)成的雙語(yǔ)語(yǔ)料庫(kù),其雙語(yǔ)對(duì)應(yīng)程度有詞級(jí)、句級(jí)和段級(jí)幾種。

      1.2 語(yǔ)料庫(kù)研究現(xiàn)狀

      20世紀(jì)60年代初,第一代現(xiàn)代計(jì)算機(jī)語(yǔ)料庫(kù)LOB(1961)和BROWN(1961)建成。人們對(duì)語(yǔ)料庫(kù)的研制興趣日益濃厚,后隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語(yǔ)料庫(kù)研究也得到迅速發(fā)展。在雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)的對(duì)象語(yǔ)言上,從一開(kāi)始的僅側(cè)重于英語(yǔ),發(fā)展到現(xiàn)在的幾乎覆蓋世界上所有主要語(yǔ)言,其所涉語(yǔ)種達(dá)20種之多。目前,國(guó)內(nèi)外建立了許許多多規(guī)模迥異、語(yǔ)種多樣的平行語(yǔ)料庫(kù),如北京外國(guó)語(yǔ)大學(xué)北京日本學(xué)研究中心研制的中日對(duì)譯語(yǔ)料庫(kù);北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所開(kāi)發(fā)的主要應(yīng)用于新聞的、機(jī)助翻譯類的雙語(yǔ)平行語(yǔ)料庫(kù);Johansson等人在挪威奧斯陸大學(xué)建立的英語(yǔ)和挪威語(yǔ)雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)等。國(guó)內(nèi)平行語(yǔ)料庫(kù)起步較晚,但發(fā)展很快。北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教育研究中心王克非主持和研制的北外“通用漢英對(duì)應(yīng)語(yǔ)料庫(kù)”是目前世界上最大的雙語(yǔ)語(yǔ)料庫(kù),容量為3000萬(wàn)字詞,并在進(jìn)一步建設(shè)中。(王克菲,2004)

      2 語(yǔ)料庫(kù)的建設(shè)

      2.1 語(yǔ)料的選取與處理

      獲得英漢對(duì)照的原語(yǔ)料的方法有很多種。本文主要講解的語(yǔ)料的獲取方法為直接從網(wǎng)上下載流行的美劇和美國(guó)電影的字幕。下載美劇字幕作為原語(yǔ)料有兩點(diǎn)好處,第一,研究人員可以直接從網(wǎng)上獲取大量英漢對(duì)照語(yǔ)料,無(wú)需到處搜集,更無(wú)需手動(dòng)敲打到電腦上;第二,下載近幾年的美劇字幕作為原語(yǔ)料能幫助人們了解近幾年美語(yǔ)的使用習(xí)慣和流行用語(yǔ)的使用,畢竟,語(yǔ)言在不斷的變化,例如,“how are you”“I am fine thank you,and you”這種對(duì)話不再常見(jiàn)[1]。

      下載好的語(yǔ)料需要進(jìn)行去噪處理。本文處理語(yǔ)料使用的軟件為emeditor。該軟件功能強(qiáng)大、簡(jiǎn)單好用、支持多種配置。首先,打開(kāi)原語(yǔ)料文檔,去除時(shí)間軸和一些無(wú)關(guān)緊要的內(nèi)容,只留下漢英語(yǔ)料以及譯者和語(yǔ)料來(lái)源(注意:去除時(shí)間軸可用ALT鍵進(jìn)行豎排文本選擇然后右鍵刪除,去噪時(shí)不能更改語(yǔ)料內(nèi)容,要保持原有語(yǔ)料翻譯風(fēng)格)。去噪完成后,將漢英進(jìn)行分開(kāi)處理。以提取英語(yǔ)語(yǔ)料為例,使用漢語(yǔ)通配符[一-龥](méi),利用查找替換去除全部漢語(yǔ)語(yǔ)料,并將漢語(yǔ)語(yǔ)料中殘留的阿拉伯?dāng)?shù)字、漢語(yǔ)標(biāo)點(diǎn)和多余的空格全部刪除,留下英語(yǔ)語(yǔ)料即可。提取漢語(yǔ)語(yǔ)料時(shí),方法與提取英語(yǔ)語(yǔ)料相同,英語(yǔ)的通配符為[a-zA-Z]。將英語(yǔ)語(yǔ)料去除后,要人工為漢語(yǔ)語(yǔ)料添加標(biāo)點(diǎn),因?yàn)樵Z(yǔ)料中沒(méi)有漢語(yǔ)標(biāo)點(diǎn)(注意:添加標(biāo)點(diǎn)時(shí)要與相對(duì)應(yīng)的英語(yǔ)標(biāo)點(diǎn)保持一致)[2]。

      2.2 語(yǔ)料的標(biāo)注

      本文介紹使用的標(biāo)注應(yīng)用程序?yàn)闈h語(yǔ)詞性標(biāo)注工具。該應(yīng)用程序操作簡(jiǎn)單、還可批量處理文件。將處理好的漢語(yǔ)語(yǔ)料保存在一個(gè)文件夾中,加載該文件夾,選擇要處理的文件,點(diǎn)擊開(kāi)始切分標(biāo)注,即可得到標(biāo)注好詞性的漢語(yǔ)語(yǔ)料。對(duì)英語(yǔ)進(jìn)行標(biāo)注處理,使用的應(yīng)用程序?yàn)門(mén)agAnt。該應(yīng)用程序操作簡(jiǎn)便,但不可批量處理,一次只能處理一個(gè)文檔且只能處理utf-8格式的文檔。點(diǎn)擊input files選擇要處理的英語(yǔ)語(yǔ)料,點(diǎn)擊start即可得到標(biāo)注好詞性的英語(yǔ)語(yǔ)料。標(biāo)注好詞性后的語(yǔ)料,還需用emeditor做分句處理。打開(kāi)語(yǔ)料,在每個(gè)句號(hào)、問(wèn)號(hào)和嘆號(hào)的句子后面加上</seg> <seg>,英漢語(yǔ)料處理方法相同,此處可利用查找替換操作。(注意:查找替換時(shí)要勾選“使用正則表達(dá)式”)

      2.3 語(yǔ)料的平行匹配

      本文介紹使用的匹配軟件為paraconc。在平行匹配時(shí),只能上下調(diào)動(dòng)語(yǔ)料位置,不能更改語(yǔ)料內(nèi)容,所以在匹配之前,要確保英漢語(yǔ)料在內(nèi)容上沒(méi)有問(wèn)題。首先,點(diǎn)擊file里的load corpus file加載英漢語(yǔ)料,因?yàn)楸疚闹饕v解的是英漢雙語(yǔ)平行語(yǔ)料庫(kù),所以在parallel texts處選擇2,在語(yǔ)言處選擇漢語(yǔ)和美語(yǔ)并在對(duì)應(yīng)的框里分別加載相應(yīng)的漢英語(yǔ)料,點(diǎn)擊OK即可。然后,點(diǎn)擊file里的view corpus alignment,選擇Alignment即可查看語(yǔ)料。因?yàn)榇蟛糠值恼Z(yǔ)料都不是對(duì)齊的,所以需要研究者手動(dòng)調(diào)節(jié),可單擊右鍵選擇merge with next segment或merge with previous segment將此行語(yǔ)料與下一行或上一行語(yǔ)料合并;還可選擇split segment將此行語(yǔ)料調(diào)至下一行;當(dāng)操作錯(cuò)誤時(shí),可選擇undo撤銷上一行為。

      保存語(yǔ)料有兩種方法。①點(diǎn)擊file里的save workspace as,然后命名好并保存到相應(yīng)位置,再次操作時(shí)打開(kāi)該workspace即可,但該workspace不能移動(dòng)位置,更改路徑將無(wú)法打開(kāi);②點(diǎn)擊file里的export corpus files,命名并選擇保存到相應(yīng)位置,在alignment style處選擇tags,然后點(diǎn)擊OK即可。應(yīng)用時(shí)按照匹配的第一步驟分別加載該漢英文檔。使用此保存方法在移動(dòng)語(yǔ)料位置時(shí),對(duì)該語(yǔ)料無(wú)影響。

      3 語(yǔ)料庫(kù)的應(yīng)用

      Paraconc具有檢索動(dòng)能,點(diǎn)擊search,在彈出的搜索框內(nèi)輸入需要搜索的詞匯即可。輸入漢語(yǔ)關(guān)鍵詞時(shí),可得到大量相對(duì)應(yīng)的英語(yǔ)的相關(guān)表達(dá)。相比于英漢詞典,語(yǔ)料庫(kù)內(nèi)容更為豐富,而且有相應(yīng)語(yǔ)境,語(yǔ)料更新鮮、地道,這些內(nèi)容是無(wú)法從詞典里搜索到的。輸入英語(yǔ)關(guān)鍵詞時(shí),可得到大量詞匯搭配、構(gòu)詞法、地道的美語(yǔ)例句等。英語(yǔ)愛(ài)好者可利用英漢平行語(yǔ)料庫(kù)學(xué)習(xí)地道美語(yǔ),通過(guò)其檢索功能,學(xué)習(xí)新鮮英語(yǔ)詞匯,了解相同詞匯在不同語(yǔ)境下的用法,以及學(xué)習(xí)最正宗的美語(yǔ)表達(dá),練就一口地道美語(yǔ)口語(yǔ),避開(kāi)中式英語(yǔ)的影響。

      語(yǔ)料庫(kù)中包含大量真實(shí)的語(yǔ)言材料及其譯文,翻譯工作者可通過(guò)譯者的不同翻譯風(fēng)格對(duì)比分析,來(lái)掌握規(guī)律,從而提高自身翻譯水平;英漢語(yǔ)言對(duì)比研究人員可對(duì)建成的語(yǔ)料庫(kù)進(jìn)行詞匯檢索,來(lái)得到大量檢索詞的常見(jiàn)搭配形式及其譯文,可幫助研究人員更好地開(kāi)展語(yǔ)言對(duì)比研究;詞匯學(xué)家和語(yǔ)法學(xué)家可利用語(yǔ)料庫(kù)進(jìn)行詞典編纂工作和歸納總結(jié)語(yǔ)法。

      英語(yǔ)教師可利用語(yǔ)料庫(kù)中的資源,為學(xué)生提供優(yōu)秀的翻譯文本,讓學(xué)生平行比較源語(yǔ)言和譯入語(yǔ),幫助學(xué)生認(rèn)識(shí)二者的關(guān)系。此外,英語(yǔ)和漢語(yǔ)分屬于兩個(gè)不同語(yǔ)系,它們中的大部分詞語(yǔ)都不是一一對(duì)應(yīng)的,一種句型的翻譯方式也不是單一的,學(xué)生無(wú)法簡(jiǎn)單地從教材上或詞典中學(xué)習(xí)到這些,教師可以利用平行語(yǔ)料庫(kù),讓學(xué)生獲得感性認(rèn)識(shí)。語(yǔ)料庫(kù)中的真實(shí)語(yǔ)料可為學(xué)生提供豐富的知識(shí)來(lái)源,還可作為學(xué)生的語(yǔ)言能力訓(xùn)練的測(cè)試的平臺(tái),可有效提高學(xué)生的翻譯能力和外語(yǔ)知識(shí)水平。

      4 結(jié)語(yǔ)

      英漢平行語(yǔ)料庫(kù)的建成可為翻譯人員、語(yǔ)料庫(kù)研究人員、英語(yǔ)語(yǔ)言學(xué)習(xí)者以及英漢語(yǔ)言對(duì)比分析學(xué)家等提供大量的重要的語(yǔ)言材料,我國(guó)從研究建庫(kù)開(kāi)始到現(xiàn)在,已能夠建設(shè)并建成雙語(yǔ)或多語(yǔ)語(yǔ)料庫(kù),為很多領(lǐng)域提供了重要的信息來(lái)源。但語(yǔ)料庫(kù)的發(fā)展還有許多不足之處,由于語(yǔ)料庫(kù)相關(guān)軟件的稀缺,大型英漢語(yǔ)料庫(kù)的建設(shè),從最開(kāi)始的語(yǔ)料處理操作到最后的平行匹配都需要花費(fèi)大量的人力物力。平行語(yǔ)料庫(kù)的建設(shè)與應(yīng)用還有很大的發(fā)展空間,等待各位語(yǔ)料庫(kù)愛(ài)好者去挖掘與應(yīng)用。

      猜你喜歡
      美語(yǔ)英漢語(yǔ)料
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      商務(wù)英語(yǔ)翻譯中英漢褒貶義詞的應(yīng)用探討
      美語(yǔ)口語(yǔ)詞串You Know What探析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      淺談?dòng)h習(xí)語(yǔ)的文化差異及翻譯方法
      英漢文化中的委婉語(yǔ)應(yīng)用對(duì)比分析
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      英漢校園小幽默
      不容錯(cuò)過(guò)的最新流行美語(yǔ)
      宁陵县| 屏南县| 左权县| 枞阳县| 石城县| 台北县| 乌拉特后旗| 兴仁县| 宜昌市| 麻阳| 德安县| 汕头市| 彰化县| 大渡口区| 万山特区| 同江市| 阜康市| 长治市| 密山市| 江门市| 徐闻县| 乌兰浩特市| 青州市| 高尔夫| 新泰市| 海南省| 香格里拉县| 南陵县| 梓潼县| 揭阳市| 阳西县| 瑞丽市| 卢湾区| 东乡| 神农架林区| 循化| 高碑店市| 阿尔山市| 钟山县| 阜新| 庆云县|