使用“結(jié)巴”分詞和Excel制備雙語口譯詞匯表

2022-02-18 11:32:46李晨輝

科教導(dǎo)刊·電子版 2022年36期

李晨輝

（同濟(jì)大學(xué)浙江學(xué)院，浙江嘉興 314200）

0 引言

口譯詞匯表是譯前準(zhǔn)備階段必不可少的材料?？谧g詞匯的提取有多種方法。傳統(tǒng)的方式是通讀稿件，人工標(biāo)注并手工提取，詞匯表的形式多為紙媒或word文檔[1]。諸多技術(shù)手段也被用來實(shí)現(xiàn)口譯詞匯的自動(dòng)提取，如TTC TermSuite、Syllabs Tools和Teaboat[2]。但其提取對象往往是術(shù)語，更適合專業(yè)的口譯譯員，而非口譯學(xué)習(xí)者，準(zhǔn)確率也有待提高。還有一類是使用商業(yè)化的口譯軟件，如Intragloss、InterpretBank、Interplex UE、LookUp、AnyLexic、Intraplex等，這類軟件的結(jié)果也有準(zhǔn)確性不高，特別是價(jià)格不菲的缺點(diǎn)，因而未得到譯員的青睞[3]。因此，如何利用現(xiàn)代技術(shù)高效、廉價(jià)、準(zhǔn)確地獲取面向口譯學(xué)習(xí)者的雙語詞匯就成了十分現(xiàn)實(shí)的需求。

1 口譯詞匯

牛津詞典對“glossary”的定義是“某個(gè)文本中附有意義解釋的技術(shù)性或特別詞匯的列表”[4]。由此可以得出如下含義：第一，口譯詞匯包含術(shù)語，即某個(gè)領(lǐng)域內(nèi)固定的行業(yè)詞匯。第二，口譯詞匯還包括一些特殊的詞匯。就口譯領(lǐng)域而言，它可以是口譯學(xué)習(xí)者需要習(xí)得的非術(shù)語類詞匯。由此，就可以確定口譯詞匯提取的對象是術(shù)語和特殊詞匯。

特殊詞匯的分布是雜亂無章的，但必須是口譯學(xué)習(xí)者未掌握的。從詞匯長度看，口譯詞匯小到一個(gè)漢字，多到涵蓋整個(gè)短語。從頻率分布上看，盡管名詞詞組和動(dòng)賓短語占據(jù)較大比例，仍不乏其他類型的口譯詞匯存在。從口譯學(xué)習(xí)者的角度看，不同學(xué)習(xí)者對同一詞語的掌握程度不同，導(dǎo)致口譯詞匯存在個(gè)體差異，因此很難建立標(biāo)準(zhǔn)的口譯詞匯數(shù)據(jù)庫。

為此，要實(shí)現(xiàn)高效提取口譯詞匯并制備雙語對照的詞匯表，一種可行的思路是利用中文分詞工具獲取中文詞匯，篩選過濾后調(diào)用翻譯軟件進(jìn)行批量翻譯。前者可以利用“結(jié)巴”中文分詞組件實(shí)現(xiàn)，后者可以通過Excel調(diào)用翻譯工具的API接口或利用其自帶翻譯功能實(shí)現(xiàn)。

2 “結(jié)巴”中文分詞

中文分詞算法及模型分為知識驅(qū)動(dòng)的機(jī)械分詞和數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)分詞[5]?！敖Y(jié)巴”中文分詞是GitHub上的一款開源中文分詞組件，致力于做最好的python中文分詞組件。它結(jié)合了上述兩種模型并提供4種分詞模式：精確模式適合文本分析；全模式盡可能地切分漢語詞匯，但會(huì)造成歧義，切分太細(xì)導(dǎo)致無用詞過多；搜索引擎模式適用于在線搜索；paddle模式基于PaddlePaddle深度學(xué)習(xí)框架，可進(jìn)行詞性標(biāo)注[6]。

3 獲取雙語詞匯表

論壇的主旨演講是最常見的口譯場景。因此本實(shí)驗(yàn)選取了新華社發(fā)布的習(xí)近平總書記在博鰲亞洲論壇2022年年會(huì)開幕式上的主旨演講作為分詞實(shí)驗(yàn)材料。整體思路如圖1（P268）所示。

圖1 雙語口譯詞匯表制備流程

3.1 分詞前

首先，進(jìn)行文本預(yù)處理。訪問新華社官方網(wǎng)站獲取實(shí)驗(yàn)材料并保存為.“txt”文件，刪除不必要的空格、換行等字符。

其次，制備停用詞表。停用詞表是“結(jié)巴”中文分詞組件中用于過濾無效字符的文本文件，使用停用詞表，可以大大減輕對分詞結(jié)果的數(shù)據(jù)清洗工作。有許多停用詞表可使用，如哈工大停用詞表、百度停用詞表、四川大學(xué)停用詞表等。但口譯詞匯與口譯學(xué)習(xí)者的英漢互譯能力關(guān)系密切，故這類停用詞表的字符并不能直接用于口譯詞匯的過濾。因此，需制備一個(gè)停用詞表備用。參考成熟的各類停用詞表，本次實(shí)驗(yàn)的停用詞表首先收錄了GB/T15834-2011中的所有標(biāo)點(diǎn)（“·”未收錄，因?yàn)樗Ｓ脕順?biāo)示某些相關(guān)聯(lián)成分之問的分界，說明前后內(nèi)容是一個(gè)詞條[7]）。其次，收錄了現(xiàn)代漢語中的人稱代詞、介詞、能愿動(dòng)詞、連詞和助詞這類口譯學(xué)習(xí)者大多都能翻譯的詞匯。

3.2 分詞中

分詞的基本思路是在python集成開發(fā)環(huán)境中讀取實(shí)驗(yàn)材料（“test.txt”）中的文本，使用jieba.lcut()方法分詞并將結(jié)果暫存于一個(gè)臨時(shí)列表中，再經(jīng)過去重、過濾操作寫入新的文本文件（“result.txt”）中。所有文件均存放在“D:python”文件夾中，代碼如下：

3.3 分詞后

分詞結(jié)果無法保證100%的正確率，在獲取雙語詞匯表前，需進(jìn)行分詞結(jié)果的人工校驗(yàn)和刪改，刪改后的分詞結(jié)果另存為文本文件(“result_filtered.txt”)，后期可用于構(gòu)建用戶詞典或口譯語料庫。為了數(shù)據(jù)處理方便，先通過python中的 xlwt模塊將制備好的詞匯文件（“result_filtered.txt”）寫入Excel文件(“result.xls”)中。代碼如下：

3.4 翻譯詞匯表

分詞后得到的中文詞匯，還需進(jìn)行翻譯才可獲得雙語詞匯表。顯然，這一步不能通過人工逐條檢索。更為高效的做法是通過翻譯軟件進(jìn)行批量翻譯。Excel提供了自帶的翻譯功能，可以在“審閱-翻譯”中進(jìn)行調(diào)用，翻譯結(jié)果通過記事本軟件去除格式后，再存入表格的第4列中。許多翻譯軟件提供了API接口，但出于節(jié)約資源等目的，普遍存在訪問限制。有道翻譯的服務(wù)相對友好，可以通過Excel中的WEBSERVICE()函數(shù)配合FILTERXML()函數(shù)獲取有道翻譯結(jié)果（需注意對應(yīng)的單元格的變化），最終生成的雙語詞匯表如圖2所示。

圖2 翻譯結(jié)果展示（部分）

此次實(shí)驗(yàn)共計(jì)得到123條雙語詞匯。逐條檢查翻譯質(zhì)量后發(fā)現(xiàn)，兩種翻譯結(jié)果還是具有較大差異的，有道翻譯的結(jié)果中存在33條不符合預(yù)期的詞條，如有道翻譯將“博鰲亞洲論壇”翻譯成了“Boao Asia BBS”，“脆弱乏力”翻譯成了“weak weak”。而Excel的結(jié)果中只有7條存在較大問題，只需稍加訂正就可以作為口譯學(xué)習(xí)的雙語詞匯表使用。因此可以認(rèn)為Excel內(nèi)置的翻譯功能提供了更為可靠的翻譯結(jié)果。當(dāng)然，必須承認(rèn)的是機(jī)器翻譯的結(jié)果無法做到100%正確，因此在后期的口譯學(xué)習(xí)中逐條審核這些詞匯還是十分必要的。

4 結(jié)語

測試結(jié)果表明，通過“結(jié)巴”中文分詞組件獲得口語語料中的漢語詞匯，人工校驗(yàn)后再通過Excel軟件自帶的翻譯功能獲取雙語口譯詞匯表的方法是高效、簡便和較為準(zhǔn)確的。對口譯學(xué)習(xí)者和教師來說，可以使用這種方法生成的口譯詞匯表，并配合雙語文本，逐條學(xué)習(xí)記憶。在這個(gè)過程中，還可以不斷修改詞匯表，積少成多建構(gòu)學(xué)習(xí)或教學(xué)用雙語語料庫。