袁博 馮倩 馬晶 郭龐娜 郭夢遙
摘要:在全球傳染病呈上升趨勢的背景下,國際間傳染病領域的合作與研究顯得尤為重要。但有關傳染病學的語料庫的建設及研究在我國才剛剛起步。因此,本研究旨在豐富傳染病學雙語語料庫存在的空白,同時該庫也對“語言+醫(yī)學”的教學方向起到了輔助作用。本文主要通過傳染病學英漢雙語平行語料庫建庫基礎與研究背景、建庫過程、建庫意義及應用、結語四方面來展開討論。
關鍵詞:平行語料庫建設;傳染病;醫(yī)學英語
分類號:G623.31
1.建庫基礎與研究背景
近年來,全球傳染病呈上升趨勢。2020年初,我國迎來了一項巨大的傳染病挑戰(zhàn),2019-nCov病毒導致的新型冠狀病毒肺炎在武漢迅速爆發(fā)并蔓延至全國乃至其他國家。此外,近些年爆發(fā)的由SARS、MERS和埃博拉病毒引起的傳染病也極大的危害了人們的健康。因此,國際間的傳染病防控與研究就顯得尤為重要。傳染病學平行語料庫在醫(yī)學相關領域的科學研究及教學中可以起到重要作用。
通過語料庫進行語言研究的方式得到了國際社會的廣泛認可。語料庫已逐漸運用于學科教學及語言教學等多個領域。語料庫主要指經科學取樣和加工的大規(guī)模電子文本庫,借助語料分析工具,研究者能夠開展相關的語言理論及語言應用研究。同時,語料庫的類型也多種多樣,根據不同的研究目的, 語料庫可以劃分為通用語料庫和專用語料庫。通用語料庫主要針對一般性語料庫研究,例如:人民日報分詞語料庫(NEPD)、英國國家語料庫(BNC)等;而專用語料庫則是針對某一特定專業(yè)領域的語言的研究,例如:中國傳媒大學的媒體語言語料庫(MLC)和本研究涉及的傳染病學語料庫等。按照語料的語種,語料庫也可以分成單語語料庫、雙語語料庫和多語語料庫。按照語料的組織形式,雙語語料庫可分為平行語料庫和可比語料庫,前者是指原文文本及其平行對應的譯語文本構成的雙語語料庫,相互間存在“翻譯關系”;后者收集的文本是由不同語言的文本或同一種語言不同變體的文本所構成的兩個或兩個以上的語料庫。針對同一主題,如學習者產出的語言與本族語者產生的語言,但相互之間不存在直接的“翻譯關系”。其中雙語平行語料庫是探索同一內容如何用兩種語言表達的語料庫,它是一種能將源語言文本和其譯語文本進行全文檢索并對照顯示的語料庫,可用于譯文比較、翻譯教學等多個領域。
本研究基于國內外權威醫(yī)學網站和圖書資源, 經過整合編輯處理,旨在建立一個適應傳染病學研究和醫(yī)學英語及翻譯教學需求的傳染病學英漢雙語平行語料庫。
2.傳染病學英漢雙語平行語料庫的建設意義
2.1語料庫與翻譯研究
語料庫在翻譯領域的應用程度不言而喻,傳染病學英漢雙語平行語料庫的建成會方便譯員進行傳染病學對語言會議的譯前準備工作,同時也會對有關醫(yī)學文獻和新聞的筆譯工作者提供相當程度的便利。此外,在翻譯研究領域,本庫也能夠滿足譯員“語言+專業(yè)背景”的現實需求,準譯員對專業(yè)雙語語料庫的大量輸入, 其專業(yè)語言的轉換意識也會得到質的飛躍,成為具有扎實專業(yè)背景的翻譯技術人才,以適應未來的專業(yè)翻譯環(huán)境。
2.2語料庫與教學
在北華大學,醫(yī)學英語的教學及MBBS培訓得到了醫(yī)學院老師們的重視。傳染病學英漢雙語平行語料庫為原始的課堂提供了新的教學方向?;谡鎸崙脠鼍岸a生的語料庫,為醫(yī)學英語教學提供了切實可行的語言事實。并在一定程度上能夠對傳染病學教材的編寫起到輔助作用。
近年來ESP(專門用途英語)課程改革正在一步一步地推進中,教師可通過本庫創(chuàng)新傳染病學科英語的詞匯課和寫作課教學模式,以詞為“點”進行檢索,展開語“面”,根據詞頻使用和搭配頻率,拓展相關詞匯和表達,也能作為診斷式語言教學提供系統(tǒng)而準確的依據,為專用英語教學課堂提供新的路徑。ESP課程教學借助語料庫的功能,通過工具的索引、詞表和搭配查詢三大基本功能,以數據支撐的形式提供給學生具有代表性、針對性的教學素材。
3.語料庫的建設過程
傳染病學英漢雙語平行語料庫的建設總原則是建立一個能夠比較全面反映傳染病學英漢雙語語言事實的語料庫。因此,本語料庫建庫過程分為以下三個步驟:選擇語料、采集加工語料、語料勘誤及檢索語料、最后將加工好的語料導入以形成語料庫。
3.1選擇語料
在建設的前期要充分考慮語料庫的抽樣原則,即什么樣的語料方為有效語料。此外還要考慮到如何保證樣本分布均衡,要兼顧文體特點、時間跨度、語料屬性是否全面等問題, 從而使該語料庫盡可能具有代表性和可用性。[2] 語料也要有合理的數量比例, 要如實反映近年來傳染病領域英語的橫向和縱向發(fā)展趨勢。[3]所以,選擇語料是決定一個語料庫是否有意義,建成后能否達到預期應用方向的根本步驟。
因此,語料的選擇范圍被鎖定在包括國內外醫(yī)學科技類網站、WHO官網、國外傳染病學期刊(如:《柳葉刀》(LANCET)、《傳染病》(Infectious Diseases)等)、國內外傳染病學專業(yè)書目(如:《醫(yī)院感染學》、《傳染病百科全書》(Encyclopedia of Infectious Diseases)、《傳染病學原理與實踐》(Principles and Practice of Infectious Diseases)等)以及高校醫(yī)學專業(yè)部分教材在內的專業(yè)資料。本研究選取的語料來源均為醫(yī)學學科的重要文獻和資料,語料來源經過學界專家編輯校正,可確保準確無誤、專業(yè)性強。
3.2采集加工語料
(1)語料的采集與降噪
在采集語料的過程中會遇到一些難以提取處理的語料來源,對于不同的語料來源,本研究也采用了不同的提取方式。
對于來源為紙質材料的語料(下稱紙質語料),先掃描所有紙質材料為PDF格式,然后將其轉化為可編輯的TXT文檔。對于紙質語料,文檔的可編輯轉化只能通過OCR進行識別,但此方法適用于文本較少,頁面較小的語料來源,因為OCR識別需要依賴于手機或電腦等電子設備,受屏幕大小的限制,導致OCR的識別區(qū)域有限、識別的清晰度閾值較大。除上述限制,紙質語料還存在一個弊端,就是要保證掃描清晰度可使識別工具閱讀,得到足夠清晰的PDF是后續(xù)步驟開展的關鍵。
相較于紙質語料,來自于PDF格式或Word文檔的語料可以直接采用文檔轉換進行采集,一種是通過文檔轉換器轉化,然后經過人工降噪,即對轉化后的Word文本進行再加工,刪除其中存在的背景、圖表、空行和附錄等對語料庫意義不大的內容,使文本內容更加規(guī)范,格式保持一致。此方式比紙質語料采集容易很多,也會大大提高語料的采集效率,但也偶然存在亂碼和信息缺失等情況。
因此,本研究采用了上述兩種方式結合的方法進行語料采集,保證了兩者的互補性,也使得語料來源具有豐富性,更加符合建庫原則。
(2)語料的對齊與賦碼
在語料的加工處理過程中,對齊與賦碼是決定語料在具體應用中能否呈現語言事實的關鍵。對齊后的語料擁有更強的直觀性,在實際應用中會達到事半功倍的效果。
筆者項目組先后試用Trados,ABBYYAligner和雪人CAT進行雙語對齊處理,但效果均不盡人意。經過多方比較,最終采取“Transmate+Xbench”模式,雖然處理方法較為繁瑣,但處理質量高、效果好。
首先,將采集到的“生語料”導入Transmate進行自動對齊。但計算機的自動識別會存在無法避免的錯誤及亂碼情況,這時就需要將自動識別出現的竄行以及語義緊密段的錯誤合并和分離等情況進行人工干預,經過手動處理的語料得到了進一步的美化,符合了對齊的標準。再將全部處理好的語料導出為tmx格式,然后用Xbench將tmx格式的語料轉碼為txt格式,然后按語料的分類建立文件夾分別保存。
對齊之后就要對語料賦碼,賦碼后的語料擁有了更多的語言信息,更廣的應用范圍和更高的使用價值。賦碼語料庫主要有三種賦碼形式:詞性碼、語法碼和句法碼。本研究主要賦予詞性碼,并采用學屆上接受度較高,實際應用效果好的Treetagger軟件進行賦碼。賦碼后的語料由“生語料”變成了“熟語料”(也稱賦碼語料),熟語料可以通過Keywords Plus等軟件進行語料分析等方向。
3.3語料刪重及語料檢索
借助Ultraedit和Editplus文本處理器對文本進行整理,利用正則表達刪去重復語料,再進行人工復核,做好重復語料的清理工作。至此,得到的熟語料就可以用于檢索,進行實際應用。
本研究通過對比試用BFSU_Paraconc、CUC_Paraconc和SADU_ParaConc三款平行語料庫檢索軟件,發(fā)現本庫更加適合后兩者進行檢索,其優(yōu)點如下:支持單文檔雙語語料檢索可自動識別雙語保存在單文件中的對齊形式,支持多種編碼的純文本語料檢索。經過試用,本語料庫可以通過檢索,快速分析單詞使用場景,例如在遇到“epidemic”這個詞的時候,通過查詢,可得到圖1,2所示結果,因篇幅所限,僅列舉部分作為舉例。
4.結語
在人們開始發(fā)現語料庫對語言研究的重要性后,語料庫研究在中國已經有了很大的進步。與此同時,也難免存在一些問題,比如:語料庫的重復性問題、語料庫共享化問題等依然亟待解決、針對個別領域(如醫(yī)學),國內的語料庫資源還比較貧乏,在細化的傳染病領域更是少之又少。因此,如何讓將傳染病學與語料庫技術結合是本研究重點解決的任務,也希望本語料庫的建成能夠滿足翻譯研究和醫(yī)學英語教學需要,真正發(fā)揮現實作用。
參考文獻
[1] Hardie Andrew Lars Borin (ed). 2002. Parallel corpora, parallel worlds. Selected papers from a symposium on parallel and comparable corpora at Uppsala University, Sweden, 22–23 April, 1999. Languages in Contrast. International Journal for Contrastive Linguistics,2005,5(2)
[2] 王連柱.醫(yī)學英語語料庫的建庫原則探析[J].新鄉(xiāng)學院學報(社會科學版),2009,23(04):131-132.
[3] 章國英.專門用途醫(yī)學英語語料庫構建的意義及實踐[J].中國醫(yī)學教育技術,2014,28(02):146-149.
[4] 施稱,章國英.醫(yī)學英語語料庫在ESP課程改革中的應用[J].西北醫(yī)學教育,2015,23(01):129-132.
該文為2019年北華大學外國語學院國家級大學生創(chuàng)新創(chuàng)業(yè)項目 【醫(yī)學傳染病學英漢雙語平行語料庫建設】(項目號:201910201024)的階段性研究成果。