李晨輝
(同濟(jì)大學(xué)浙江學(xué)院,浙江 嘉興 314200)
口譯詞匯表是譯前準(zhǔn)備階段必不可少的材料??谧g詞匯的提取有多種方法。傳統(tǒng)的方式是通讀稿件,人工標(biāo)注并手工提取,詞匯表的形式多為紙媒或word文檔[1]。諸多技術(shù)手段也被用來實(shí)現(xiàn)口譯詞匯的自動(dòng)提取,如TTC TermSuite、Syllabs Tools和Teaboat[2]。但其提取對象往往是術(shù)語,更適合專業(yè)的口譯譯員,而非口譯學(xué)習(xí)者,準(zhǔn)確率也有待提高。還有一類是使用商業(yè)化的口譯軟件,如Intragloss、InterpretBank、Interplex UE、LookUp、AnyLexic、Intraplex等,這類軟件的結(jié)果也有準(zhǔn)確性不高,特別是價(jià)格不菲的缺點(diǎn),因而未得到譯員的青睞[3]。因此,如何利用現(xiàn)代技術(shù)高效、廉價(jià)、準(zhǔn)確地獲取面向口譯學(xué)習(xí)者的雙語詞匯就成了十分現(xiàn)實(shí)的需求。
牛津詞典對“glossary”的定義是“某個(gè)文本中附有意義解釋的技術(shù)性或特別詞匯的列表”[4]。由此可以得出如下含義:第一,口譯詞匯包含術(shù)語,即某個(gè)領(lǐng)域內(nèi)固定的行業(yè)詞匯。第二,口譯詞匯還包括一些特殊的詞匯。就口譯領(lǐng)域而言,它可以是口譯學(xué)習(xí)者需要習(xí)得的非術(shù)語類詞匯。由此,就可以確定口譯詞匯提取的對象是術(shù)語和特殊詞匯。
特殊詞匯的分布是雜亂無章的,但必須是口譯學(xué)習(xí)者未掌握的。從詞匯長度看,口譯詞匯小到一個(gè)漢字,多到涵蓋整個(gè)短語。從頻率分布上看,盡管名詞詞組和動(dòng)賓短語占據(jù)較大比例,仍不乏其他類型的口譯詞匯存在。從口譯學(xué)習(xí)者的角度看,不同學(xué)習(xí)者對同一詞語的掌握程度不同,導(dǎo)致口譯詞匯存在個(gè)體差異,因此很難建立標(biāo)準(zhǔn)的口譯詞匯數(shù)據(jù)庫。
為此,要實(shí)現(xiàn)高效提取口譯詞匯并制備雙語對照的詞匯表,一種可行的思路是利用中文分詞工具獲取中文詞匯,篩選過濾后調(diào)用翻譯軟件進(jìn)行批量翻譯。前者可以利用“結(jié)巴”中文分詞組件實(shí)現(xiàn),后者可以通過Excel調(diào)用翻譯工具的API接口或利用其自帶翻譯功能實(shí)現(xiàn)。
中文分詞算法及模型分為知識驅(qū)動(dòng)的機(jī)械分詞和數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)分詞[5]?!敖Y(jié)巴”中文分詞是GitHub上的一款開源中文分詞組件,致力于做最好的python中文分詞組件。它結(jié)合了上述兩種模型并提供4種分詞模式:精確模式適合文本分析;全模式盡可能地切分漢語詞匯,但會(huì)造成歧義,切分太細(xì)導(dǎo)致無用詞過多;搜索引擎模式適用于在線搜索;paddle模式基于PaddlePaddle深度學(xué)習(xí)框架,可進(jìn)行詞性標(biāo)注[6]。
論壇的主旨演講是最常見的口譯場景。因此本實(shí)驗(yàn)選取了新華社發(fā)布的習(xí)近平總書記在博鰲亞洲論壇2022年年會(huì)開幕式上的主旨演講作為分詞實(shí)驗(yàn)材料。整體思路如圖1(P268)所示。
圖1 雙語口譯詞匯表制備流程
首先,進(jìn)行文本預(yù)處理。訪問新華社官方網(wǎng)站獲取實(shí)驗(yàn)材料并保存為.“txt”文件,刪除不必要的空格、換行等字符。
其次,制備停用詞表。停用詞表是“結(jié)巴”中文分詞組件中用于過濾無效字符的文本文件,使用停用詞表,可以大大減輕對分詞結(jié)果的數(shù)據(jù)清洗工作。有許多停用詞表可使用,如哈工大停用詞表、百度停用詞表、四川大學(xué)停用詞表等。但口譯詞匯與口譯學(xué)習(xí)者的英漢互譯能力關(guān)系密切,故這類停用詞表的字符并不能直接用于口譯詞匯的過濾。因此,需制備一個(gè)停用詞表備用。參考成熟的各類停用詞表,本次實(shí)驗(yàn)的停用詞表首先收錄了GB/T15834-2011中的所有標(biāo)點(diǎn)(“·”未收錄,因?yàn)樗S脕順?biāo)示某些相關(guān)聯(lián)成分之問的分界,說明前后內(nèi)容是一個(gè)詞條[7])。其次,收錄了現(xiàn)代漢語中的人稱代詞、介詞、能愿動(dòng)詞、連詞和助詞這類口譯學(xué)習(xí)者大多都能翻譯的詞匯。
分詞的基本思路是在python集成開發(fā)環(huán)境中讀取實(shí)驗(yàn)材料(“test.txt”)中的文本,使用jieba.lcut()方法分詞并將結(jié)果暫存于一個(gè)臨時(shí)列表中,再經(jīng)過去重、過濾操作寫入新的文本文件(“result.txt”)中。所有文件均存放在“D:python”文件夾中,代碼如下:
分詞結(jié)果無法保證100%的正確率,在獲取雙語詞匯表前,需進(jìn)行分詞結(jié)果的人工校驗(yàn)和刪改,刪改后的分詞結(jié)果另存為文本文件(“result_filtered.txt”),后期可用于構(gòu)建用戶詞典或口譯語料庫。為了數(shù)據(jù)處理方便,先通過python中的 xlwt模塊將制備好的詞匯文件(“result_filtered.txt”)寫入Excel文件(“result.xls”)中。代碼如下:
分詞后得到的中文詞匯,還需進(jìn)行翻譯才可獲得雙語詞匯表。顯然,這一步不能通過人工逐條檢索。更為高效的做法是通過翻譯軟件進(jìn)行批量翻譯。Excel提供了自帶的翻譯功能,可以在“審閱-翻譯”中進(jìn)行調(diào)用,翻譯結(jié)果通過記事本軟件去除格式后,再存入表格的第4列中。許多翻譯軟件提供了API接口,但出于節(jié)約資源等目的,普遍存在訪問限制。有道翻譯的服務(wù)相對友好,可以通過Excel中的WEBSERVICE()函數(shù)配合FILTERXML()函數(shù)獲取有道翻譯結(jié)果(需注意對應(yīng)的單元格的變化),最終生成的雙語詞匯表如圖2所示。
圖2 翻譯結(jié)果展示(部分)
此次實(shí)驗(yàn)共計(jì)得到123條雙語詞匯。逐條檢查翻譯質(zhì)量后發(fā)現(xiàn),兩種翻譯結(jié)果還是具有較大差異的,有道翻譯的結(jié)果中存在33條不符合預(yù)期的詞條,如有道翻譯將“博鰲亞洲論壇”翻譯成了“Boao Asia BBS”,“脆弱乏力”翻譯成了“weak weak”。而Excel的結(jié)果中只有7條存在較大問題,只需稍加訂正就可以作為口譯學(xué)習(xí)的雙語詞匯表使用。因此可以認(rèn)為Excel內(nèi)置的翻譯功能提供了更為可靠的翻譯結(jié)果。當(dāng)然,必須承認(rèn)的是機(jī)器翻譯的結(jié)果無法做到100%正確,因此在后期的口譯學(xué)習(xí)中逐條審核這些詞匯還是十分必要的。
測試結(jié)果表明,通過“結(jié)巴”中文分詞組件獲得口語語料中的漢語詞匯,人工校驗(yàn)后再通過Excel軟件自帶的翻譯功能獲取雙語口譯詞匯表的方法是高效、簡便和較為準(zhǔn)確的。對口譯學(xué)習(xí)者和教師來說,可以使用這種方法生成的口譯詞匯表,并配合雙語文本,逐條學(xué)習(xí)記憶。在這個(gè)過程中,還可以不斷修改詞匯表,積少成多建構(gòu)學(xué)習(xí)或教學(xué)用雙語語料庫。