• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      使用“結(jié)巴”分詞和Excel制備雙語口譯詞匯表

      2022-02-18 11:32:46李晨輝
      科教導(dǎo)刊·電子版 2022年36期
      關(guān)鍵詞:詞匯表結(jié)巴詞表

      李晨輝

      (同濟(jì)大學(xué)浙江學(xué)院,浙江 嘉興 314200)

      0 引言

      口譯詞匯表是譯前準(zhǔn)備階段必不可少的材料??谧g詞匯的提取有多種方法。傳統(tǒng)的方式是通讀稿件,人工標(biāo)注并手工提取,詞匯表的形式多為紙媒或word文檔[1]。諸多技術(shù)手段也被用來實(shí)現(xiàn)口譯詞匯的自動(dòng)提取,如TTC TermSuite、Syllabs Tools和Teaboat[2]。但其提取對象往往是術(shù)語,更適合專業(yè)的口譯譯員,而非口譯學(xué)習(xí)者,準(zhǔn)確率也有待提高。還有一類是使用商業(yè)化的口譯軟件,如Intragloss、InterpretBank、Interplex UE、LookUp、AnyLexic、Intraplex等,這類軟件的結(jié)果也有準(zhǔn)確性不高,特別是價(jià)格不菲的缺點(diǎn),因而未得到譯員的青睞[3]。因此,如何利用現(xiàn)代技術(shù)高效、廉價(jià)、準(zhǔn)確地獲取面向口譯學(xué)習(xí)者的雙語詞匯就成了十分現(xiàn)實(shí)的需求。

      1 口譯詞匯

      牛津詞典對“glossary”的定義是“某個(gè)文本中附有意義解釋的技術(shù)性或特別詞匯的列表”[4]。由此可以得出如下含義:第一,口譯詞匯包含術(shù)語,即某個(gè)領(lǐng)域內(nèi)固定的行業(yè)詞匯。第二,口譯詞匯還包括一些特殊的詞匯。就口譯領(lǐng)域而言,它可以是口譯學(xué)習(xí)者需要習(xí)得的非術(shù)語類詞匯。由此,就可以確定口譯詞匯提取的對象是術(shù)語和特殊詞匯。

      特殊詞匯的分布是雜亂無章的,但必須是口譯學(xué)習(xí)者未掌握的。從詞匯長度看,口譯詞匯小到一個(gè)漢字,多到涵蓋整個(gè)短語。從頻率分布上看,盡管名詞詞組和動(dòng)賓短語占據(jù)較大比例,仍不乏其他類型的口譯詞匯存在。從口譯學(xué)習(xí)者的角度看,不同學(xué)習(xí)者對同一詞語的掌握程度不同,導(dǎo)致口譯詞匯存在個(gè)體差異,因此很難建立標(biāo)準(zhǔn)的口譯詞匯數(shù)據(jù)庫。

      為此,要實(shí)現(xiàn)高效提取口譯詞匯并制備雙語對照的詞匯表,一種可行的思路是利用中文分詞工具獲取中文詞匯,篩選過濾后調(diào)用翻譯軟件進(jìn)行批量翻譯。前者可以利用“結(jié)巴”中文分詞組件實(shí)現(xiàn),后者可以通過Excel調(diào)用翻譯工具的API接口或利用其自帶翻譯功能實(shí)現(xiàn)。

      2 “結(jié)巴”中文分詞

      中文分詞算法及模型分為知識驅(qū)動(dòng)的機(jī)械分詞和數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)分詞[5]?!敖Y(jié)巴”中文分詞是GitHub上的一款開源中文分詞組件,致力于做最好的python中文分詞組件。它結(jié)合了上述兩種模型并提供4種分詞模式:精確模式適合文本分析;全模式盡可能地切分漢語詞匯,但會(huì)造成歧義,切分太細(xì)導(dǎo)致無用詞過多;搜索引擎模式適用于在線搜索;paddle模式基于PaddlePaddle深度學(xué)習(xí)框架,可進(jìn)行詞性標(biāo)注[6]。

      3 獲取雙語詞匯表

      論壇的主旨演講是最常見的口譯場景。因此本實(shí)驗(yàn)選取了新華社發(fā)布的習(xí)近平總書記在博鰲亞洲論壇2022年年會(huì)開幕式上的主旨演講作為分詞實(shí)驗(yàn)材料。整體思路如圖1(P268)所示。

      圖1 雙語口譯詞匯表制備流程

      3.1 分詞前

      首先,進(jìn)行文本預(yù)處理。訪問新華社官方網(wǎng)站獲取實(shí)驗(yàn)材料并保存為.“txt”文件,刪除不必要的空格、換行等字符。

      其次,制備停用詞表。停用詞表是“結(jié)巴”中文分詞組件中用于過濾無效字符的文本文件,使用停用詞表,可以大大減輕對分詞結(jié)果的數(shù)據(jù)清洗工作。有許多停用詞表可使用,如哈工大停用詞表、百度停用詞表、四川大學(xué)停用詞表等。但口譯詞匯與口譯學(xué)習(xí)者的英漢互譯能力關(guān)系密切,故這類停用詞表的字符并不能直接用于口譯詞匯的過濾。因此,需制備一個(gè)停用詞表備用。參考成熟的各類停用詞表,本次實(shí)驗(yàn)的停用詞表首先收錄了GB/T15834-2011中的所有標(biāo)點(diǎn)(“·”未收錄,因?yàn)樗S脕順?biāo)示某些相關(guān)聯(lián)成分之問的分界,說明前后內(nèi)容是一個(gè)詞條[7])。其次,收錄了現(xiàn)代漢語中的人稱代詞、介詞、能愿動(dòng)詞、連詞和助詞這類口譯學(xué)習(xí)者大多都能翻譯的詞匯。

      3.2 分詞中

      分詞的基本思路是在python集成開發(fā)環(huán)境中讀取實(shí)驗(yàn)材料(“test.txt”)中的文本,使用jieba.lcut()方法分詞并將結(jié)果暫存于一個(gè)臨時(shí)列表中,再經(jīng)過去重、過濾操作寫入新的文本文件(“result.txt”)中。所有文件均存放在“D:python”文件夾中,代碼如下:

      3.3 分詞后

      分詞結(jié)果無法保證100%的正確率,在獲取雙語詞匯表前,需進(jìn)行分詞結(jié)果的人工校驗(yàn)和刪改,刪改后的分詞結(jié)果另存為文本文件(“result_filtered.txt”),后期可用于構(gòu)建用戶詞典或口譯語料庫。為了數(shù)據(jù)處理方便,先通過python中的 xlwt模塊將制備好的詞匯文件(“result_filtered.txt”)寫入Excel文件(“result.xls”)中。代碼如下:

      3.4 翻譯詞匯表

      分詞后得到的中文詞匯,還需進(jìn)行翻譯才可獲得雙語詞匯表。顯然,這一步不能通過人工逐條檢索。更為高效的做法是通過翻譯軟件進(jìn)行批量翻譯。Excel提供了自帶的翻譯功能,可以在“審閱-翻譯”中進(jìn)行調(diào)用,翻譯結(jié)果通過記事本軟件去除格式后,再存入表格的第4列中。許多翻譯軟件提供了API接口,但出于節(jié)約資源等目的,普遍存在訪問限制。有道翻譯的服務(wù)相對友好,可以通過Excel中的WEBSERVICE()函數(shù)配合FILTERXML()函數(shù)獲取有道翻譯結(jié)果(需注意對應(yīng)的單元格的變化),最終生成的雙語詞匯表如圖2所示。

      圖2 翻譯結(jié)果展示(部分)

      此次實(shí)驗(yàn)共計(jì)得到123條雙語詞匯。逐條檢查翻譯質(zhì)量后發(fā)現(xiàn),兩種翻譯結(jié)果還是具有較大差異的,有道翻譯的結(jié)果中存在33條不符合預(yù)期的詞條,如有道翻譯將“博鰲亞洲論壇”翻譯成了“Boao Asia BBS”,“脆弱乏力”翻譯成了“weak weak”。而Excel的結(jié)果中只有7條存在較大問題,只需稍加訂正就可以作為口譯學(xué)習(xí)的雙語詞匯表使用。因此可以認(rèn)為Excel內(nèi)置的翻譯功能提供了更為可靠的翻譯結(jié)果。當(dāng)然,必須承認(rèn)的是機(jī)器翻譯的結(jié)果無法做到100%正確,因此在后期的口譯學(xué)習(xí)中逐條審核這些詞匯還是十分必要的。

      4 結(jié)語

      測試結(jié)果表明,通過“結(jié)巴”中文分詞組件獲得口語語料中的漢語詞匯,人工校驗(yàn)后再通過Excel軟件自帶的翻譯功能獲取雙語口譯詞匯表的方法是高效、簡便和較為準(zhǔn)確的。對口譯學(xué)習(xí)者和教師來說,可以使用這種方法生成的口譯詞匯表,并配合雙語文本,逐條學(xué)習(xí)記憶。在這個(gè)過程中,還可以不斷修改詞匯表,積少成多建構(gòu)學(xué)習(xí)或教學(xué)用雙語語料庫。

      猜你喜歡
      詞匯表結(jié)巴詞表
      Video Star Gets Job Promoting Tourism
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
      結(jié)巴俠
      巧妙提取英文詞匯表的純英文單詞
      電腦迷(2014年16期)2014-04-29 03:32:41
      張亮:扼住命運(yùn)的結(jié)巴
      海峽姐妹(2014年2期)2014-02-27 15:08:49
      自信讓我不再結(jié)巴了
      國外敘詞表的應(yīng)用與發(fā)展趨勢探討*
      常用聯(lián)綿詞表
      對聯(lián)(2011年20期)2011-09-19 06:24:36
      詞匯表
      普定县| 留坝县| 资源县| 马山县| 台中市| 大同县| 乌鲁木齐县| 新干县| 米泉市| 长葛市| 保靖县| 汉阴县| 辽阳市| 绩溪县| 若尔盖县| 札达县| 长海县| 临洮县| 东乡县| 察隅县| 阿城市| 吉首市| 通江县| 北辰区| 博兴县| 临沧市| 深圳市| 刚察县| 乌拉特前旗| 德江县| 房山区| 肇东市| 永新县| 靖远县| 沁阳市| 乾安县| 民乐县| 明溪县| 新宾| 绿春县| 黑水县|