• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    “一帶一路”背景下多模態(tài)、多語種建筑工程平行語料庫的創(chuàng)建與應(yīng)用

    2020-01-10 03:36:56張夙艷
    關(guān)鍵詞:多語種口譯語料

    張夙艷 丁 玫

    (山東建筑大學(xué) 外國語學(xué)院,山東 濟(jì)南 250100)

    多模態(tài)語料庫是指視頻、音頻、圖像、文字語料等多種信息進(jìn)行集成整合,使用者運(yùn)用計(jì)算機(jī)通過多模態(tài)方法對(duì)其進(jìn)行加工、檢索、應(yīng)用的大型語料集合[1]。平行語料庫是由原文文本及其平行對(duì)應(yīng)的譯文文本構(gòu)成的雙語或多語語料庫,其雙語對(duì)應(yīng)程度可有詞級(jí)、句級(jí)和段級(jí)幾種,是機(jī)輔(器)翻譯的核心要素。當(dāng)前,我國多模態(tài)語料庫的研究與建設(shè)正處在發(fā)展階段,顧曰國教授已于2013年建立起包含三個(gè)子庫(話語活動(dòng)庫、幼兒成人庫、網(wǎng)上良師庫)的“SCCSD”多模態(tài)語料庫;2014年,中國社會(huì)科學(xué)院與北京外國語大學(xué)聯(lián)手建立了中國多語言多模態(tài)語料庫暨大數(shù)據(jù)研究中心,旨在全面推動(dòng)我國多模態(tài)語料庫的研創(chuàng)與發(fā)展;上海交通大學(xué)的劉劍自2014年起就開始建設(shè)多模態(tài)口譯平行語料庫,利用跨平臺(tái)多媒體標(biāo)注軟件ELAN對(duì)音頻、視頻語料進(jìn)行切分、多層次標(biāo)注、分析、建檔與檢索,實(shí)現(xiàn)了原文、譯文與對(duì)應(yīng)音頻和視頻的同步呈現(xiàn)[2]。但目前,國內(nèi)還沒有具有一定影響力的多模態(tài)、多語種的建筑工程平行語料庫,僅有少部分小型建筑工程英漢雙語平行語料庫,建庫目的是嘗試實(shí)現(xiàn)建筑英語詞匯的在線索引、數(shù)據(jù)共享、檢索、查詢、下載等服務(wù),所需語料庫技術(shù)主要涉及對(duì)齊、術(shù)語標(biāo)注、檢索與提取[3-4]。這些小型建筑工程語料庫提供的應(yīng)用遠(yuǎn)遠(yuǎn)無法滿足日益發(fā)展的建筑行業(yè)語言服務(wù)、教學(xué)實(shí)踐及學(xué)術(shù)研究的需求。當(dāng)前,積極建設(shè)多模態(tài)、多語種的建筑工程平行語料庫,開發(fā)研究多模態(tài)、多語種的語料信息加工處理技術(shù)成為當(dāng)務(wù)之急[5]。

    一、創(chuàng)建多模態(tài)、多語種建筑工程平行語料庫的步驟

    (一)語料庫語料的采集、錄入與存儲(chǔ)

    大規(guī)模多模態(tài)、多語種建筑工程平行語料庫語料的采集要遵守權(quán)威性原則,無論是圖文材料,還是音頻、視頻材料,都要從國家級(jí)的權(quán)威出版物或者官方網(wǎng)站上通過隨機(jī)抽取的辦法獲取。不同語料的錄入采用不同的方式:對(duì)于圖文資料,主要采用手動(dòng)錄入(電腦鍵盤敲擊)和光電掃描錄入(OCR技術(shù))兩種方式;對(duì)于音頻、視頻語料和圖像,則采用Elan、Python等多模態(tài)語料處理軟件進(jìn)行轉(zhuǎn)寫、切分、標(biāo)注等。語料錄入完成后,還需要進(jìn)行校對(duì),以便控制語料質(zhì)量。另外,文本語料的添加、錄入還可以借助計(jì)算機(jī)輔助翻譯生成的翻譯記憶庫。當(dāng)前,翻譯記憶技術(shù)的提高及翻譯記憶庫的發(fā)展為平行語料庫提供了大量素材及技術(shù)支持,主要體現(xiàn)在質(zhì)和量?jī)蓚€(gè)方面。在質(zhì)的方面,隨著譯者對(duì)記憶庫提供的語料的編輯、翻譯水平不斷提高,記憶庫中語料的匹配度也越來越高,平行語料庫的語料質(zhì)量得到保障;在量的方面,翻譯記憶庫的動(dòng)態(tài)擴(kuò)充使得庫中的語料源源不斷。此外,當(dāng)前大多數(shù)翻譯軟件的記憶系統(tǒng)都內(nèi)置了翻譯記憶、術(shù)語管理、文本對(duì)齊、機(jī)器翻譯、自動(dòng)匹配、項(xiàng)目管理等功能,省去了之前人工去噪、對(duì)齊、檢索等多項(xiàng)工作。這些都對(duì)雙語平行語料庫的創(chuàng)建起到了推進(jìn)作用。多模態(tài)語料的存儲(chǔ)需要根據(jù)描述語料屬性的元數(shù)據(jù)信息分門別類地進(jìn)行存儲(chǔ)。

    (二)語料對(duì)齊處理

    這里的語料對(duì)齊主要是指文字語料的對(duì)齊。平行語料庫需要對(duì)不同語種的語料進(jìn)行句級(jí)對(duì)齊處理,目前比較常見的對(duì)齊工具包括Paraconc、Bilingual-sentence-aligner、CTK(Champollion Tool Kit)、Vanille Aligner、Hunalign、Tmxmall Aligner等,可根據(jù)建庫要求和用途選擇合適的工具。

    (三)多模態(tài)語料加工

    多模態(tài)語料加工涉及文字、音頻、視頻以及動(dòng)、靜態(tài)圖像等多符號(hào)語料的標(biāo)注和處理,常用的多模態(tài)語料加工工具有Elan、Python、Anvil等。針對(duì)某些加工效果的要求,還需要研發(fā)新的軟件與加工工具。

    (四)建筑工程平行語料庫的日常檢索與維護(hù)管理

    平行語料庫文字類檢索工具包括WordSmith Tools、Paraconc、Multiconcord等,多模態(tài)類語料檢索工具包括Elan、Python等。日常檢索可實(shí)現(xiàn)的功能包括術(shù)語表生成、詞頻統(tǒng)計(jì)、關(guān)鍵詞索引、全文索引、搭配詞提取、語料比較等。語料庫建成后,后期的更新、維護(hù)與管理包括確保新語料的及時(shí)補(bǔ)錄、維持庫中語料類別的平衡比例、對(duì)新語料進(jìn)行加工處理、確保語料檢索的準(zhǔn)確性與速度等。

    二、多模態(tài)、多語種建筑工程平行語料庫創(chuàng)建與應(yīng)用的難點(diǎn)

    (一)多模態(tài)語料庫技術(shù)的研發(fā)與應(yīng)用

    現(xiàn)階段對(duì)多模態(tài)語料進(jìn)行加工的軟件主要有Anvil、Elan、Python等。比如,上海交通大學(xué)劉劍建設(shè)的多模態(tài)口譯平行語料庫,就是利用跨平臺(tái)多媒體標(biāo)注軟件ELAN對(duì)音頻、視頻語料進(jìn)行切分、多層次標(biāo)注、分析、建檔與檢索,實(shí)現(xiàn)了原文、譯文與對(duì)應(yīng)音視頻的同步呈現(xiàn)。但是,針對(duì)不同研究目的與應(yīng)用需求,仍需要研究開發(fā)具有更多功能的處理軟件,以便更好地進(jìn)行語料加工與處理。

    (二)多語種建筑工程語料庫加工技術(shù)

    多語種語料庫加工技術(shù)需要通曉多種語言的研究人員,而且建筑工程平行語料庫的建設(shè)還需要具有建筑知識(shí)的專業(yè)人才,這極大制約了該類語料庫的建設(shè)與應(yīng)用。同時(shí),因?yàn)楫?dāng)前開發(fā)的大多數(shù)加工軟件只兼容英語和漢語文本,這也加大了該類語料庫建設(shè)與應(yīng)用的難度。因此,在數(shù)據(jù)庫建設(shè)初始階段,可以先全力進(jìn)行英漢雙語建筑工程平行語料庫的創(chuàng)建,待英漢平行語料庫創(chuàng)建經(jīng)驗(yàn)成熟后,再推廣到多語種建筑工程平行語料庫的建設(shè)和應(yīng)用研究上。

    三、創(chuàng)建多模態(tài)、多語種建筑平行語料庫的意義

    在“一帶一路”建設(shè)大規(guī)模推進(jìn)的當(dāng)下,中國與沿線國家的建筑工程合作項(xiàng)目不斷增多,以大型多模態(tài)、多語種建筑工程平行語料庫為基礎(chǔ)提供的研究成果必將為更多海外工程的順利推進(jìn)提供高效服務(wù),具有重要的現(xiàn)實(shí)意義和極高的應(yīng)用價(jià)值。

    (一)有利于提升建筑工程類項(xiàng)目語言服務(wù)的質(zhì)量與效率

    多語種平行語料庫是機(jī)輔(器)翻譯的基礎(chǔ),建立大規(guī)模、多語種的平行語料庫,為和多個(gè)國家合作項(xiàng)目的語言服務(wù)提供了保障,同時(shí)也有力促進(jìn)了了語言服務(wù)工作的質(zhì)量與效率。

    (二)有利于建筑工程語言體系的建設(shè)和建筑工程數(shù)據(jù)分析

    多模態(tài)、多語種語料庫和術(shù)語庫的建成對(duì)建筑類文獻(xiàn)保存、信息查詢、學(xué)術(shù)研究、技術(shù)咨詢、對(duì)外合作等具有重要的現(xiàn)實(shí)意義。同時(shí),多模態(tài)、多語種建筑平行語料庫還可為建筑工程雙語詞典編纂,特別是可視化、多模態(tài)雙語詞典的實(shí)現(xiàn)提供可能。多模態(tài)、多語種建筑工程平行語料庫的創(chuàng)建將彌補(bǔ)國內(nèi)建筑類雙語平行語料庫建設(shè)的不足,其技術(shù)開發(fā)與利用不僅將極大擴(kuò)展我國語料庫研究規(guī)模,而且將有力推動(dòng)國家建筑事業(yè)的信息化建設(shè)與發(fā)展。

    (三)建筑工程語料庫是培養(yǎng)高層次建筑人才的寶貴資源和重要平臺(tái)

    一個(gè)高質(zhì)量的建筑工程語料庫存有大量的語料和教學(xué)資源,不僅對(duì)建筑工程專業(yè)教學(xué)有巨大的推動(dòng)作用,而且對(duì)建筑工程翻譯教學(xué)與實(shí)踐起著重要的支撐作用。對(duì)于建筑工程專業(yè)教學(xué),多模態(tài)語料庫不僅是教材編寫的源泉,而且可為其提供專業(yè)術(shù)語、專業(yè)圖片、專業(yè)視頻的檢索與提取。特別是建筑方向的口譯教學(xué),利用多模態(tài)語料庫,教師能創(chuàng)設(shè)虛擬的仿真口譯實(shí)訓(xùn)實(shí)驗(yàn)室,讓口譯學(xué)習(xí)者感受到來自口譯現(xiàn)場(chǎng)的挑戰(zhàn),體會(huì)在緊張、有壓力的氛圍下進(jìn)行口譯工作,從而獲得更好的口譯訓(xùn)練效果。

    猜你喜歡
    多語種口譯語料
    語聯(lián)世界,言通天下
    多語種《中級(jí)軍事漢語》教材的編寫思路與指導(dǎo)思想
    中外口譯研究對(duì)比分析
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    EAP視聽說對(duì)英語口譯關(guān)聯(lián)遷移的增效性——以交替?zhèn)髯g為例
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
    論心理認(rèn)知與口譯記憶
    北美“新清史”研究的基石何在——是多語種史料考辨互證的實(shí)證學(xué)術(shù)還是意識(shí)形態(tài)化的應(yīng)時(shí)之學(xué)?(上)
    巴东县| 合江县| 北宁市| 莒南县| 凯里市| 原平市| 聊城市| 黎平县| 碌曲县| 三台县| 青神县| 兰州市| 新营市| 香港 | 黑龙江省| 铜川市| 凉城县| 广丰县| 马山县| 宜宾县| 南康市| 栾川县| 安顺市| 信宜市| 博爱县| 长泰县| 会同县| 龙南县| 珲春市| 林西县| 辉南县| 天津市| 福海县| 天峨县| 潍坊市| 新疆| 富宁县| 兴化市| 错那县| 普陀区| 昭觉县|