• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      論國際報紙新聞話語語料庫的構(gòu)建

      2020-01-19 06:23:07
      哈爾濱學(xué)院學(xué)報 2020年11期
      關(guān)鍵詞:傳遞信息語料語料庫

      李 婧

      (綏化學(xué)院,黑龍江 綏化 152000)

      語料庫包括單模態(tài)語料庫(Unimodal Corpus)與多模態(tài)語料庫(Multimodal Corpus)。前者是純文本語料庫,我國學(xué)者在研制和應(yīng)用單模態(tài)語料庫上做出了開拓性的貢獻;后者是在單模態(tài)語料庫基礎(chǔ)上做出的新的發(fā)展,是指音頻、視頻以及文字語料信息的集成,運用多模態(tài)的方式完成加工、檢索以及統(tǒng)計研究的語料庫。也就是說,通過轉(zhuǎn)寫、處理以及標注語言文本及音視頻數(shù)據(jù)庫就是多模態(tài)語料庫,其可以運用實證法研究語言符號與非語言符號之間的作用。這遠遠超出之前所定義的語料庫范疇,其通過標注不同交際渠道協(xié)同的數(shù)據(jù)集合,達到直接記錄人類行為的目的。因此,我們需要深入研究多模態(tài)語料庫的相關(guān)內(nèi)容,以便加深理解。

      一、國際報紙新聞話語的科學(xué)取樣

      1.語料錄入

      國際報紙新聞規(guī)模型文本庫的文本傳遞信息途徑可分為以下四種基本形式:紙質(zhì)文本、電子文本、網(wǎng)頁、靜態(tài)圖像。這些信息傳遞途徑采用UAM image tool 2.0等多模態(tài)文本傳遞信息途徑處理軟件予以特殊的集成處理。利用UAM image tool 2.0軟件把文本傳遞信息途徑依附于類別導(dǎo)入到文本傳遞信息途徑庫中,為下一步標注做好準備。而針對文本傳遞信息途徑的收集,要先通過不同種渠道收集多模態(tài)語篇樣本,把紙質(zhì)的語篇樣本通過掃描、拍照等方式予以數(shù)字化處理。[1]

      2.語料依附原稿核準

      因為國際報紙新聞文本傳遞信息途徑存在一定的特殊性,所以在文本傳遞信息途徑完成錄入時要第一時間予以“自動依附原稿核準+人工依附原稿核準”。

      3.語料加工及存儲

      文本傳遞信息途徑依附既有稿件予以核準的基礎(chǔ)上,其能夠獲取文本相關(guān)傳遞信息途徑,只有對其予以加工后才會生成規(guī)模型文本庫。而對于篇頭元信息設(shè)計,采取依附于文本傳遞信息途徑來源、發(fā)布時間以及種類等設(shè)計多層次內(nèi)容標簽,涉及內(nèi)容主要包括:規(guī)模型文本庫差異化模態(tài)類型、相關(guān)語種信息、傳遞信息途徑、獲取文本的發(fā)布時間、文本種類、翻譯以及既有文本標題等。文本傳遞信息途徑予以分詞(中文)以及自動詞性標注,依附于相關(guān)內(nèi)容嘗試對文本傳遞信息途徑予以各門學(xué)科專用詞匯、句型自動標注。其傳遞信息途徑以及靜態(tài)圖像等多模態(tài)文本傳遞信息途徑在一定程度上要依附于研究側(cè)重點選擇己有工具予以有針對性的標注。[2]

      針對存儲,為了方便在使用中可以第一時間予以有效的查詢,可以將元內(nèi)容以及文本進行單獨的存儲。而且,為了使規(guī)模型文本庫能夠直接通過國際報紙新聞計算機輔助翻譯系統(tǒng)(Computer-aided Translation,簡稱CAT),要將析出文本傳遞信息途徑錄入至tmx格式,進而構(gòu)建機器翻譯存儲模塊。[3]

      4.語料對齊處理

      本研究中,筆者首先予以可差異化語類間的對比,其中包括圖像模態(tài)的再現(xiàn)價值、互動意義、構(gòu)圖意義等方面的特性,這些特性包括在文本傳遞信息途徑標注區(qū)間之中,經(jīng)對比研究找到差異化語類對圖像模態(tài)的選擇傾向。其次,還要予以具體多模態(tài)語篇和該語類的綜合特性對比。經(jīng)對具體多模態(tài)語篇實例予以研究,總結(jié)其特性,并在此基礎(chǔ)上以及文本傳遞信息途徑庫內(nèi)經(jīng)查詢統(tǒng)計獲取的平均語類特征予以對比研究,以揭示多模態(tài)語篇意義系統(tǒng)的選擇和實現(xiàn)語篇目的之間的深層關(guān)系。[4]

      5.多語種語料加工

      現(xiàn)階段,世界范圍內(nèi)多語種平行規(guī)模型文本庫建設(shè)發(fā)展較為緩慢。這主要是由于受規(guī)模型文本庫加工介質(zhì)以及查詢軟件的影響,很多的工具以及軟件僅能夠兼容英語文本或漢語文本,又缺乏同時掌握多種語言學(xué)的研究者。因此,多語種國際報紙新聞平行規(guī)模型文本庫的建設(shè)需具備一定的專業(yè)性。在數(shù)據(jù)庫還未建設(shè)的時候,其側(cè)重點應(yīng)是探究漢英雙語國際報紙新聞平行規(guī)模型文本庫的建設(shè);在漢英規(guī)模型文本庫編制具有一定成就的基礎(chǔ)上,再將其作為范例拓展至多語種國際報紙新聞話語平行數(shù)據(jù)庫之中。[5]

      6.多模態(tài)語料加工

      多模態(tài)文本傳遞信息途徑的加工,依附于研究目的來確定采用己有的(如,UAM image tool 2.0)或自主開發(fā)新的加工工具予以處理以及標注。[6]在完成文本傳遞信息途徑庫建設(shè)后,可以通過該庫予以語篇研究及語類特性研究擇取定性、定量相結(jié)合的研究方法,前者用于從具體多模態(tài)語篇實例中概括規(guī)律性的語篇特性,后者通過文本傳遞信息途徑庫的查詢功能和統(tǒng)計功能,對查詢所獲取的數(shù)據(jù)予以統(tǒng)計對比,在量化研究的先決條件下驗證定性研究方法獲取的語篇及語類特性的正確性、適用區(qū)間等。兩種方法相結(jié)合,使語篇研究以及語類研究的結(jié)果更為精準。[7]

      二、國際報紙新聞話語語料庫的查詢及維護管理

      國際報紙新聞規(guī)模型文本庫的在線搜索平臺需匹配于單機平臺功能,而要達到翻譯輔助功能目標,需要結(jié)合規(guī)模型文本庫搜索軟件翻譯記憶交換文件(tmx)拓展以及UAM image tool 2.0多模態(tài)查詢軟件。此平臺不但能夠?qū)⒁?guī)模型文本庫整合到CAT系統(tǒng)之內(nèi),不論載入路徑亦或翻譯拓展,規(guī)模型文本庫內(nèi)所衍生出的翻譯記憶庫均可得到拓展。此平臺還能夠予以全文查詢、語境內(nèi)關(guān)鍵詞查詢等。

      規(guī)模型文本庫的建成,首先要對規(guī)模型文本庫予以常規(guī)運維管理。管理的側(cè)重點主要是友好的用戶交互面板以及程序的綜合利用系數(shù);確保數(shù)據(jù)的可靠及穩(wěn)定性;確保查詢速率。維護的側(cè)重點主要是變更規(guī)模型文本庫的制衡性、拓展文本傳遞信息途徑。[8]

      三、國際報紙新聞話語語料庫中各門學(xué)科專用詞匯庫的生成

      1.國際報紙新聞話語語料庫的各門學(xué)科專用詞匯庫的自動生成

      各門學(xué)科專用詞匯是國際報紙新聞翻譯的側(cè)重點,各門學(xué)科專用詞匯一致性以及譯文有效性在國際報紙新聞規(guī)模型文本庫建設(shè)中具有深遠的意義。在國際報紙新聞規(guī)模型文本庫的設(shè)計過程中,需將各門學(xué)科專用詞匯庫的自動生成視為主要內(nèi)容。首先要運用計算機翻譯軟件創(chuàng)建各門學(xué)科專用詞匯庫的生成流程,將矩陣內(nèi)的平行文本滲透至數(shù)據(jù)庫之中,即自動生成各門學(xué)科專用詞匯核心詞表,利用人工進行深度處理,制成國際報紙新聞各門學(xué)科專用詞匯庫。同時,通過前沿的自然傳遞信息途徑處理以及規(guī)模型文本庫技術(shù),對國際報紙新聞各門學(xué)科專用詞匯予以自動生成。不過任何的方法,都需要進行相應(yīng)的人工干預(yù)。[9]

      2.國際報紙新聞CAT模型下的各門學(xué)科專用詞匯庫的構(gòu)建

      本研究中,筆者在翻譯模塊中構(gòu)建了兩個規(guī)模型文本庫,即雙語規(guī)模型文本庫和國際報紙新聞規(guī)模型文本庫。不過,這兩個規(guī)模型文本庫還需進一步完善,其中并未將各門學(xué)科的特殊專用詞匯列入其中,因此,需要根據(jù)實際情況對模型予以完善和升級。筆者認為,可以在CAT系統(tǒng)內(nèi)加設(shè)各門學(xué)科專用詞匯庫,在此基礎(chǔ)上經(jīng)前沿的機器學(xué)習(xí)技術(shù),將AI技術(shù)的優(yōu)勢拓展到國際報紙新聞話語自動翻譯之中,進而從根本上提高國際報紙新聞翻譯軟件CAT的性能??梢姡栏接诜g過程中的人工參與,在機器介入予以匹配翻譯的基礎(chǔ)上,再側(cè)重于各門學(xué)科專用詞匯規(guī)范化翻譯,翻譯完成后,新詞匯會被拓展至各門學(xué)科專用詞匯庫內(nèi),同時反饋到規(guī)模型文本庫中。長此以往,新增的各門學(xué)科專用詞匯庫在整個CAT機制內(nèi)會得到全面的利用。[10]

      四、國際報紙新聞話語語料庫的應(yīng)用展望

      國際報紙新聞話語語料庫為多模態(tài)語料庫,其能夠真實反映國際報紙新聞原貌,具有較強的使用價值。該庫在使用過程中,通過多層次標注就可以完成較為精準的定向檢索,從而達到檢索國際報紙新聞話語的目的,并對非語言因素完成檢索;通過研究國際報紙新聞話語中語言轉(zhuǎn)換規(guī)律,可以探究語言符號與非語言符號間的關(guān)系,從而掌握國際報紙新聞話語深層次的信息。此外,運用“快速檢索”能夠快速地檢索到任意的語言字符;點擊任意檢索,可同步查到對應(yīng)的音視頻信息,重復(fù)播放,也能更加直觀的查看口譯過程,全方位的了解更加精準的國際信息。[11]

      五、小結(jié)

      國際報紙新聞話語語料庫的構(gòu)建,是以UAM image tool 2.0和CAT為主要應(yīng)用軟件。首先,經(jīng)過語料錄入、語料依附原稿核準、語料加工及存儲、語料對齊處理、多語種語料加工、多模態(tài)語料加工等流程完成語料庫的科學(xué)取樣。然后,通過完善語料庫的檢索功能、維護管理以及學(xué)科專用詞匯庫建設(shè)等措施完成語料庫的構(gòu)建。其目的在于提高國際報紙新聞翻譯的質(zhì)量。本研究成果具有一定的推廣價值。

      猜你喜歡
      傳遞信息語料語料庫
      《語料庫翻譯文體學(xué)》評介
      舞臺字幕與表演不同的原因及解決措施
      論組織中有效溝通模式
      把課文的優(yōu)美表達存進語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      體態(tài)語在語文教學(xué)中的運用
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      晋江市| 辽宁省| 宁强县| 财经| 吴堡县| 恩施市| 灵武市| 宜兴市| 大方县| 浙江省| 泸水县| 丽水市| 汕尾市| 娄烦县| 镇康县| 泗水县| 长丰县| 蒲城县| 仙桃市| 九江县| 塔城市| 肥城市| 枝江市| 界首市| 米脂县| 清水县| 肇东市| 通海县| 兴隆县| 栾川县| 准格尔旗| 洛宁县| 车致| 杂多县| 金秀| 绥江县| 博野县| 绥滨县| 景泰县| 大庆市| 全椒县|