• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      應(yīng)急語言服務(wù)視角下的新冠肺炎醫(yī)學(xué)英語專題術(shù)語表開發(fā)

      2021-04-22 05:32:51李龍興王憲
      中國(guó)科技術(shù)語 2021年2期
      關(guān)鍵詞:醫(yī)學(xué)英語新冠肺炎語料庫(kù)

      李龍興 王憲

      摘 要:新型冠狀病毒肺炎在全球的迅速蔓延,讓我們深刻意識(shí)到突發(fā)公共衛(wèi)生危機(jī)中應(yīng)急醫(yī)療和社會(huì)治理之外,應(yīng)急知識(shí)和語言服務(wù)的重要性。以詞表開發(fā)和術(shù)語管理等形式提供的術(shù)語支援是應(yīng)急語言服務(wù)的一種重要方式和途徑,是保障精確溝通、順暢傳播的必要條件。文章從應(yīng)急語言服務(wù)視角出發(fā),利用Sketch Engine語料庫(kù)工具,從COVID-19語料庫(kù)中提取出364條新冠肺炎英語單詞術(shù)語和176條多詞術(shù)語,以期助力于新冠疫情的防控。從本次新冠肺炎專題詞表的開發(fā)實(shí)踐中,文章總結(jié)出以目的為導(dǎo)向的學(xué)術(shù)詞表制作流程,并提出學(xué)術(shù)詞表的后續(xù)研究方向,為應(yīng)急語言服務(wù)中的術(shù)語支援提供參考。

      關(guān)鍵詞:應(yīng)急語言服務(wù);新冠肺炎;醫(yī)學(xué)英語;術(shù)語表;語料庫(kù)

      中圖分類號(hào):H083;K826.2文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2021.02.005

      The Development of COVID-19 Word List from the Perspective of Emergency Language Services//LI Longxing,WANG Xian

      Abstract: The COVID-19 pandemic around the globe made us acutely aware of the importance of emergency language services in public health emergencies. Terminology support provided in the form of word list development and terminology management is an important way of emergency language services, which ensures accurate and smooth communication. In order to help prevent and control the pandemic from the perspective of emergency language services, 364 single-word terms and 176 multi-word terms of COVID-19 are extracted from the COVID-19 corpus using the corpus tool of Sketch Engine. From the practice of producing this word list, we summarize a procedure of academic word list development and point out future directions for academic word list making and research in the hope of providing reference for terminology support in emergency language services.

      Keywords:emergency language services; COVID-19; English for Medical Purposes; word list; corpus

      引言

      2019年年底突發(fā)的新冠疫情讓我們深感突發(fā)公共衛(wèi)生事件中應(yīng)急服務(wù)的重要性??挂咂陂g,關(guān)于應(yīng)急語言服務(wù)的實(shí)踐和理論研究都大為增加,在教育部語信司的指導(dǎo)下,以國(guó)家語委科研機(jī)構(gòu)為骨干的語言學(xué)界及相關(guān)行業(yè)火速推出《抗擊疫情湖北方言通》和《疫情防控外語通》,為抗擊疫情的醫(yī)護(hù)人員及相關(guān)群體提供語言應(yīng)急服務(wù),該領(lǐng)域的研究?jī)?nèi)涵也大為豐富。比如疫情防控中的醫(yī)患溝通、疾病命名、多語言信息發(fā)布、抗疫語言翻譯服務(wù)、新聞宣傳用語、謠言防控等[1]。王立非等梳理了應(yīng)急語言服務(wù)的概念、研究現(xiàn)狀與機(jī)制體制建設(shè)[2];滕延江從應(yīng)急語言服務(wù)視角出發(fā),明確了應(yīng)急語言服務(wù)的學(xué)科屬性,提出應(yīng)急語言服務(wù)研究的十大研究課題與三個(gè)研究范式[3]。

      以詞表開發(fā)和術(shù)語管理等形式提供的術(shù)語支援是應(yīng)急救災(zāi)管理中語言應(yīng)急的主要方式和途徑之一,清晰、一致的術(shù)語是快速溝通、順暢交流的必要條件,尤其是在生命受到威脅時(shí)更為關(guān)鍵[4]。陶源、趙浩在應(yīng)急語言能力視角下討論了新型冠狀病毒及新型冠狀病毒肺炎的術(shù)語命名問題[5];葉其松從術(shù)語學(xué)角度對(duì)新型冠狀病毒命名進(jìn)行了探索和思考[6];殷健以新冠術(shù)語為例,從國(guó)家文化安全視角探討了術(shù)語的命名、翻譯與傳播[7];曾江霞以新冠病毒相關(guān)術(shù)語翻譯為例,對(duì)多模態(tài)大數(shù)據(jù)語境下的科技術(shù)語翻譯標(biāo)準(zhǔn)進(jìn)行了分析[8]。目前,對(duì)新冠肺炎醫(yī)學(xué)術(shù)語詞表的制作和研發(fā)的探討相對(duì)較少,現(xiàn)有詞表還不夠完善,制作方法和流程不夠透明。因此本文在梳理借鑒以往學(xué)術(shù)詞表制作的經(jīng)驗(yàn)基礎(chǔ)上,從語言應(yīng)急角度出發(fā),基于Sketch Engine平臺(tái)COVID-19醫(yī)學(xué)語料庫(kù)探索專題術(shù)語表的制作及其在應(yīng)急醫(yī)療語言服務(wù)等方面的應(yīng)用,以期助力疫情防控。

      1 學(xué)術(shù)詞表

      1.1 詞表研究

      詞匯是理解的一個(gè)主要前提條件和影響因素[9],在語言學(xué)習(xí)和應(yīng)用中起著舉足輕重的作用,詞匯學(xué)習(xí)的廣度和深度還對(duì)寫作的準(zhǔn)確性和質(zhì)量有直接影響[10]。為了服務(wù)英語詞匯的教與學(xué),West較早開發(fā)了通用英語詞表(General Service List, GSL) [11],列出了英語中常用的2000個(gè)詞族(word family)。學(xué)術(shù)英語詞匯是詞匯學(xué)習(xí)的難點(diǎn)[12],在學(xué)術(shù)英語學(xué)習(xí)中占有重要地位,開發(fā)各類英語詞表也成為學(xué)術(shù)英語研究的重要任務(wù)和熱點(diǎn)問題[13]。Coxhead基于350萬詞的人文、商業(yè)、法律、科學(xué)四個(gè)領(lǐng)域的學(xué)術(shù)文本語料庫(kù)開發(fā)出學(xué)術(shù)單詞表 (Academic Word List, AWL) [14],共包含570 個(gè)詞族。AWL排除了通用英語詞表GSL中的詞匯,采用了詞族的方式,沒有對(duì)單詞詞形進(jìn)行還原(lemmatisation),也沒有進(jìn)行詞性標(biāo)注。AWL詞表的出現(xiàn)激發(fā)了大量后續(xù)研究和諸多學(xué)科的學(xué)術(shù)英語詞表開發(fā),是當(dāng)代影響最為廣泛的學(xué)術(shù)英語詞表。Gardner 和 Davies基于120多萬詞的當(dāng)代美國(guó)英語語料庫(kù)(COCA),采用全新方法開發(fā)了學(xué)術(shù)詞匯表(Academic Vocabulary List, AVL) [15],包含 3015 個(gè)學(xué)術(shù)英語單詞。AVL未將通用英語詞表中的高頻詞排除在外,而是通過頻次比率(ratio)的方法,要求收錄單詞在學(xué)術(shù)文本中的頻次是其在非學(xué)術(shù)文本中的1.5倍,以保證收錄的單詞是真正的高頻學(xué)術(shù)詞匯??紤]到有些高頻詞在通用英語與學(xué)術(shù)英語中的詞義可能完全不同,AVL沒有采用詞族方法收錄詞匯,對(duì)所有單詞進(jìn)行了還原處理和詞性標(biāo)注。

      1.2 醫(yī)學(xué)詞表研究

      醫(yī)學(xué)詞匯的難度和重要性使得醫(yī)學(xué)英語詞表成了學(xué)術(shù)英語詞表研究的一個(gè)重要分支。Wang等從109萬詞的醫(yī)學(xué)論文語料庫(kù)中提取開發(fā)了醫(yī)學(xué)英語學(xué)術(shù)詞表(Medical Academic Word List,MAWL) [16],共收錄623個(gè)詞族。Lei 和 Liu大致采用AVL的方法,利用270萬詞的醫(yī)學(xué)學(xué)術(shù)英語語料庫(kù)和350萬詞的醫(yī)學(xué)英語教科書語料庫(kù)開發(fā)了醫(yī)學(xué)英語詞匯表(Medical Academic Vocabulary List, MAVL) [17]。與 MAWL不同的是,MAVL設(shè)置了最低頻次標(biāo)準(zhǔn)(minimum frequency),即收錄在 MAVL 的單詞頻次至少為28.57次每百萬詞(PMWs),以確保收錄的單詞為高頻詞。MAVL比MAWL更短,但覆蓋的醫(yī)學(xué)英語詞匯卻更廣。Lei 和 Liu在編寫MAVL的研究啟示中提到,醫(yī)學(xué)這一大學(xué)科還有很多細(xì)分的領(lǐng)域,未來的研究可以考察醫(yī)學(xué)具體某個(gè)領(lǐng)域中的詞匯使用,并制作特定專業(yè)領(lǐng)域的醫(yī)學(xué)詞表[17]。如Hsu基于中醫(yī)英語教材語料庫(kù)開發(fā)了中醫(yī)英語學(xué)術(shù)詞表[18]。

      總體而言,當(dāng)前學(xué)術(shù)詞表的開發(fā)和研究還存在以下主要問題或爭(zhēng)議。第一,在詞匯收錄形式上存在爭(zhēng)議,包括對(duì)詞族、詞形還原和詞性標(biāo)注的選擇。多數(shù)學(xué)術(shù)詞表以詞族形式收錄,經(jīng)過歸納后的詞表看似規(guī)模較小,但實(shí)際單詞量并不少。比如AWL表面看只有570 個(gè)詞族,實(shí)際上包含了 3100 多個(gè)不同詞形的單詞。并且同一個(gè)詞族的詞匯意義可能并不一致,詞性和同形(音)異義詞等情況也沒有考慮,這會(huì)導(dǎo)致學(xué)術(shù)詞表選詞不全或不準(zhǔn)確,從而降低詞表的信度和效度[19]。第二,在學(xué)術(shù)詞表與通用詞表的關(guān)系上,即學(xué)術(shù)詞表在排除還是保留通用詞匯高頻詞方面有較多爭(zhēng)議。通用高頻詞匯與學(xué)術(shù)詞匯會(huì)有交叉,難以將二者明確區(qū)分。一律排除通用詞匯表的詞匯會(huì)使一些具有特殊學(xué)術(shù)意義的詞匯不被收錄;若保留又會(huì)使詞表稍顯冗長(zhǎng)(如AVL 包含 3015 個(gè)學(xué)術(shù)英語單詞),或收入大量簡(jiǎn)單的與通用英語重合的詞匯(如MAVL收錄的819個(gè)醫(yī)學(xué)英語單詞中含有313個(gè)GSL中的通用英語詞匯,如ability、age、care、cause、change、high),從而使得學(xué)科專業(yè)性和針對(duì)性被削弱。第三,上述各類詞表的研究大多是對(duì)單詞詞表的研究,對(duì)多詞表達(dá)的研究較少,學(xué)術(shù)詞匯的多詞表達(dá)研究也較為缺乏。有少數(shù)學(xué)者進(jìn)行了學(xué)術(shù)英語多詞表達(dá)的研究,并呼吁未來進(jìn)行更多學(xué)術(shù)語言多詞表達(dá)的研究[20-22]。

      由于上述問題的存在,雖然已有上述多種學(xué)術(shù)英語詞表或醫(yī)學(xué)英語詞表可供選擇,但在COVID-19應(yīng)急醫(yī)療服務(wù)中針對(duì)性不強(qiáng),使用效率不高。英語作為醫(yī)學(xué)國(guó)際交流和研究通用語,我們有必要快速開發(fā)出專業(yè)的、針對(duì)性強(qiáng)的COVID-19專題英語術(shù)語表,為世界各地抗疫一線的科研工作者和相關(guān)工作人員節(jié)約寶貴時(shí)間,助力疫情防控和新冠肺炎相關(guān)研究,以便在與新冠病毒的賽跑中挽救更多生命。語料庫(kù)工具Sketch Engine的關(guān)鍵詞功能在提取術(shù)語和多詞表達(dá)上作用強(qiáng)大,能同時(shí)解決上述三個(gè)問題。下文將探索新冠肺炎學(xué)術(shù)英語術(shù)語表(COVID-19 Word List) 制作的工具、語料來源、流程、應(yīng)用及啟示。

      2 語料庫(kù)工具Sketch Engine及COVID-19醫(yī)學(xué)語料庫(kù)

      2.1 語料庫(kù)工具Sketch Engine

      詞匯速描系統(tǒng)是第四代語料庫(kù)檢索工具的代表[23-24],實(shí)現(xiàn)了語料庫(kù)在線檢索并提供以下核心功能:詞匯速描(word sketch),詞匯差異速描(word sketch difference),類義詞(thesaurus),索引行(concordance),詞表(wordlist),關(guān)鍵詞(keywords),多詞表達(dá)(n-grams/multiword expressions, MWEs)等(圖1)。該系統(tǒng)已被廣泛用于詞典學(xué)、語言研究與教學(xué)、語篇分析、翻譯研究等領(lǐng)域[25],也是關(guān)鍵詞研究[26]和詞匯語義研究[27-28]的有力工具。下面將主要介紹在制作詞表或術(shù)語表中常用到的關(guān)鍵詞功能。

      過去的學(xué)術(shù)詞表制作通常先從學(xué)術(shù)語料庫(kù)中提取高頻詞,再對(duì)比通用詞表進(jìn)行篩選。Sketch Engine的關(guān)鍵詞功能則是通過一次性比較兩個(gè)語料庫(kù)找出一個(gè)語料庫(kù)相對(duì)于另一個(gè)語料庫(kù)的獨(dú)特或典型的詞匯,通過這些詞可以了解該語料庫(kù)的內(nèi)容或主題,因此該功能尤其適用于尋找關(guān)鍵詞或提取術(shù)語。參照語料庫(kù)的選擇可以決定提取出的備選詞匯與專題的相關(guān)性。以制作COVID-19專題詞表為例,若以通用英語語料庫(kù)作為參照,則詞表可能會(huì)出現(xiàn)大量通用醫(yī)學(xué)常用語,與專題的直接相關(guān)性沒有以醫(yī)學(xué)英語語料庫(kù)作為參照得到的詞表強(qiáng)。而選擇Sketch Engine中的其他醫(yī)學(xué)語料庫(kù)做參照,能提高COVID-19醫(yī)學(xué)詞表的針對(duì)性和應(yīng)急性,減少詞表使用者可能已知的大量通用醫(yī)學(xué)詞匯。關(guān)鍵詞的術(shù)語提取功能對(duì)聚焦語料庫(kù)(focus corpus)的規(guī)模要求不高,但規(guī)模越大的語料庫(kù)覆蓋的術(shù)語更多[29],參照語料庫(kù)(reference corpus)的規(guī)模則是越大越好[30]。Sketch Engine平臺(tái)的COVID-19語料庫(kù)和其他醫(yī)學(xué)語料庫(kù)的規(guī)模足以滿足本專題詞表制作的要求。

      關(guān)鍵詞功能的檢索結(jié)果分為keywords和terms兩部分。keywords是在聚焦語料庫(kù)中出現(xiàn)頻率高于參照語料庫(kù)的單詞詞條(single word items) ,可根據(jù)需要選擇以詞元(lemma)或單詞(word)等形式顯示,并可區(qū)分大小寫;terms是在聚焦語料庫(kù)中出現(xiàn)頻率高于參照語料庫(kù)的多詞詞條(N-grams/MWEs)。也就是說關(guān)鍵詞功能可根據(jù)研究者需要選擇詞匯的展示形式,并同時(shí)實(shí)現(xiàn)單詞術(shù)語和多詞術(shù)語的提取,解決詞表制作耗時(shí)低效、多詞術(shù)語制作難度高成果少的問題。由此可見,Sketch Engine是一款非常適用于在緊急情況下提供應(yīng)急術(shù)語服務(wù)的語料庫(kù)工具。第4部分將詳細(xì)介紹Sketch Engine用于COVID-19學(xué)術(shù)英語單詞術(shù)語表和多詞術(shù)語表的制作。

      2.2 醫(yī)學(xué)語料庫(kù)

      1)醫(yī)學(xué)語料庫(kù)建設(shè)應(yīng)用現(xiàn)狀

      雖然近年來各類語料庫(kù)的建設(shè)、應(yīng)用和研究如火如荼,但是醫(yī)學(xué)語料庫(kù)資源依然相對(duì)欠缺。國(guó)內(nèi)最近的醫(yī)學(xué)語料庫(kù)建設(shè)成果主要有馮欣等建立的MedAca醫(yī)學(xué)學(xué)術(shù)英語語料庫(kù)[31],作為學(xué)術(shù)英語語料庫(kù)(Database for English for Academic Purposes)的醫(yī)學(xué)子庫(kù),文本來自2012至2017年間在臨床醫(yī)學(xué)領(lǐng)域的國(guó)際學(xué)術(shù)期刊上發(fā)表的優(yōu)秀論文全文及其摘要,共計(jì)5 041 631個(gè)形符(tokens);而李文和楊炳鈞建立的現(xiàn)代醫(yī)學(xué)英語書面語語料庫(kù)規(guī)模僅有約 200 萬詞,文本時(shí)間為2000年以后[32]。大部分醫(yī)學(xué)語料庫(kù)規(guī)模較小,缺乏統(tǒng)一的建設(shè)規(guī)范和標(biāo)準(zhǔn),部分語料庫(kù)語料來源較為陳舊,無法反映日新月異的醫(yī)學(xué)研究,難以體現(xiàn)醫(yī)學(xué)英語的全貌。

      2)COVID-19醫(yī)學(xué)語料庫(kù)

      COVID-19語料庫(kù)文本來自COVID-19開源研究數(shù)據(jù)庫(kù)(COVID-19 Open Research Dataset, CORD-19)。該數(shù)據(jù)庫(kù)旨在支持與新冠肺炎相關(guān)的研究工作,由經(jīng)同行評(píng)議的論文組成,并隨著新研究的發(fā)表而不斷更新,反映新冠肺炎防治的最新科學(xué)進(jìn)展。截至2020年5月2日,該數(shù)據(jù)庫(kù)收錄了大約57 000篇新冠肺炎相關(guān)的學(xué)術(shù)論文,是新冠肺炎研究寶貴的一手資料。該語料庫(kù)在Sketch Engine語料庫(kù)平臺(tái)上供開放使用,可訪問http://ske.li/covid_19進(jìn)行語料庫(kù)檢索及相關(guān)研究。該語料庫(kù)規(guī)模龐大,總詞數(shù)為224 061 570,形符數(shù)為280 762 172,按照論文的不同部分劃分為摘要庫(kù)、附件庫(kù)和正文庫(kù)三個(gè)子語料庫(kù),其規(guī)模和構(gòu)成如表1所示。

      3)參照語料庫(kù):Open Access Journals-Medicine

      提取COVID-19語料庫(kù)中的關(guān)鍵詞需要一個(gè)參照語料庫(kù)。為了增強(qiáng)所提取備選術(shù)語的專業(yè)性和相關(guān)性,本文將在Sketch Engine平臺(tái)的Open Access Journals(DOAJ)語料庫(kù)下建立醫(yī)學(xué)子語料庫(kù)(DOAJ-Medicine)作為參照。DOAJ由各個(gè)領(lǐng)域的開源期刊論文構(gòu)成,涵蓋領(lǐng)域包括科學(xué)、技術(shù)、醫(yī)學(xué)、社會(huì)科學(xué)、人文科學(xué)等。該語料庫(kù)有規(guī)模大、時(shí)效性強(qiáng)、元信息豐富等特點(diǎn),總共26億詞,其中約99%的文本發(fā)表年份在2000至2017年之間,保留了包括期刊名稱、國(guó)別、發(fā)表年份、出版社等豐富的元信息,便于根據(jù)不同需要?jiǎng)?chuàng)建子語料庫(kù)。DOAJ-Medicine語料庫(kù)總形符數(shù)175 136 014,約占整個(gè)語料庫(kù)的5.2%。COVID-19語料庫(kù)和DOAJ-Medicine語料庫(kù)均為上億詞級(jí)的語料庫(kù),并且還在不斷擴(kuò)充,在醫(yī)學(xué)語料庫(kù)中規(guī)模位居世界前列。兩個(gè)語料庫(kù)語料時(shí)效性強(qiáng),可在同一平臺(tái)進(jìn)行檢索操作,具有很強(qiáng)的可比性和可參照性,是制作詞表的理想語料庫(kù)。

      3 COVID-19術(shù)語表制作

      3.1 術(shù)語表制作的目的和原則

      如前文所述,我們制作術(shù)語表的目的是提供應(yīng)急語言服務(wù),特別是服務(wù)在抗疫前線的醫(yī)護(hù)人員、研究人員、醫(yī)學(xué)師生、外宣、媒體等相關(guān)人員,滿足其閱讀文獻(xiàn)資料、撰寫學(xué)術(shù)論文、教學(xué)研究或宣傳報(bào)道等需求。該詞表的大部分受眾是有一定專業(yè)醫(yī)學(xué)知識(shí)和醫(yī)學(xué)英語基礎(chǔ)或較高文化水平的專業(yè)人士。根據(jù)該目的,我們制定了入選術(shù)語表的兩個(gè)基本原則:一為實(shí)現(xiàn)入選術(shù)語在相關(guān)文獻(xiàn)中有較高的覆蓋率,入選術(shù)語必須是COVID-19研究中的高頻詞;二為提高詞表的專業(yè)度,減少詞條數(shù)量,減輕使用者負(fù)擔(dān),入選術(shù)語需在滿足高頻的前提下與主題有較強(qiáng)的相關(guān)性。

      3.2 語料庫(kù)檢索方案和詞條收錄標(biāo)準(zhǔn)

      在兩條原則的指導(dǎo)下,我們制定出具體的檢索方案,設(shè)定術(shù)語的收錄篩選標(biāo)準(zhǔn)。首先需要確定術(shù)語的來源語料庫(kù)。如前文提到COVID-19語料庫(kù)分為摘要庫(kù)、附件庫(kù)和正文庫(kù)三個(gè)子語料庫(kù)。摘要是對(duì)一篇論文精練的總結(jié)概括,與主題相關(guān)性最強(qiáng),涵蓋了一篇論文最核心的關(guān)鍵詞匯,選擇摘要庫(kù)作為聚焦語料庫(kù)可使檢索出的備選詞條更具相關(guān)性,減少人工篩選的工作量。摘要庫(kù)6 946 594個(gè)形符的規(guī)模也遠(yuǎn)遠(yuǎn)超過前文提及的大部分醫(yī)學(xué)語料庫(kù)全庫(kù),可以保證相當(dāng)數(shù)量的術(shù)語產(chǎn)生。先后用COVID-19全庫(kù)、摘要庫(kù)和正文庫(kù)嘗試檢索后的結(jié)果也證實(shí)摘要庫(kù)提取的術(shù)語與主題相關(guān)性最強(qiáng)。結(jié)合Sketch Engine的功能特征,我們?cè)陉P(guān)鍵詞功能中檢索備選術(shù)語時(shí)進(jìn)行了如圖2的設(shè)置。首先從COVID-19語料庫(kù)中選擇摘要子庫(kù)(only abstract),“focus on”的設(shè)置保持系統(tǒng)默認(rèn)值1(該設(shè)置偏向rare,即檢索的詞將聚焦在通用語言或參照語料庫(kù)中罕有或較少使用的詞匯,該設(shè)置更適用于術(shù)語提取),最小頻率設(shè)置為10,隨后選擇“at least one alphanumeric”,即檢索的詞匯短語中至少含有一個(gè)字母或數(shù)字,例如16-year-old,3D。兩個(gè)術(shù)語表的參照語料庫(kù)均為DOAJ醫(yī)學(xué)子語料庫(kù),最大候選詞項(xiàng)數(shù)均設(shè)置為2000,單詞術(shù)語以lemma形式顯示。

      通過檢索得出的兩個(gè)詞表中各有2000個(gè)備選詞條,將檢索結(jié)果保存為Excel表格。圖3展示出關(guān)鍵性值(keyness score)位于前10位的備選單詞術(shù)語詞條。我們?cè)趯?duì)詞條進(jìn)行瀏覽觀察以后,根據(jù)相對(duì)頻率(relative frequency)和關(guān)鍵性值兩個(gè)數(shù)值進(jìn)行一輪自動(dòng)篩除,然后在第二輪進(jìn)行逐條閱讀人工篩除。就收錄術(shù)語的相對(duì)頻率最低值而言,單詞和多詞表達(dá)有所不同。Coxhead在制作AWL時(shí),限定入選詞匯須在其350萬詞的語料庫(kù)中出現(xiàn)100 次或以上(即28.57 PMWs) [14]。Lei 和 Liu亦沿用了這一最低頻率標(biāo)準(zhǔn),收錄到MAVL的單詞頻率至少為28.57次每百萬詞[17]。對(duì)多詞表達(dá)而言,前人采用的最低出現(xiàn)頻率各不相同,從10到40次每百萬詞不等[21]。Biber、Johansson、Leech等[33],Simpson-Vlach 和Ellis[20]使用10次每百萬詞; Biber 和Conrad[34],Hyland[35],Liu[21]選擇20次每百萬詞;Biber、Conrad和Cortes [36]則采用了40次每百萬詞的標(biāo)準(zhǔn)?;谏鲜鲅芯考皩?duì)備選術(shù)語的觀察,本文采用的收錄術(shù)語最低頻率標(biāo)準(zhǔn)是:?jiǎn)卧~28.57次每百萬詞以上,多詞表達(dá)20次每百萬詞以上。初步滿足這一標(biāo)準(zhǔn)的單詞術(shù)語有586條(關(guān)鍵性值介于3.61~523.09),多詞術(shù)語有232條(關(guān)鍵性值介于3.38~227.58)。

      關(guān)鍵性值是Sketch Engine用于判斷某個(gè)詞條在聚焦語料庫(kù)相對(duì)于參照語料庫(kù)的特別性的一個(gè)數(shù)值,起到的作用相當(dāng)于Gardner和 Davies開發(fā)AVL時(shí)使用的收錄單詞標(biāo)準(zhǔn)中的頻次比率[15]。關(guān)鍵性值越高表明該詞在聚焦語料庫(kù)中越突出,因此更能反映聚焦語料庫(kù)的特征或者更有可能是術(shù)語。至于選擇哪一個(gè)關(guān)鍵性值作為入選術(shù)語的標(biāo)準(zhǔn),目前罕有研究或者沒有統(tǒng)一標(biāo)準(zhǔn)。結(jié)合本文術(shù)語表的目的,考慮到術(shù)語表應(yīng)有的適度規(guī)模,本文決定采用的標(biāo)準(zhǔn)為:?jiǎn)卧~術(shù)語的關(guān)鍵性值大于5,多詞術(shù)語的關(guān)鍵性值大于3.5。滿足上述最低頻次標(biāo)準(zhǔn)和關(guān)鍵性值兩個(gè)標(biāo)準(zhǔn)的備選單詞術(shù)語和多詞術(shù)語分別有448條和230條。

      接下來第二道程序是對(duì)備選詞條逐一進(jìn)行人工檢查,排除語料庫(kù)工具自動(dòng)識(shí)別產(chǎn)生的少量錯(cuò)誤和無關(guān)詞匯。篩選整理術(shù)語時(shí)遵循以下原則:(1)無關(guān)詞匯直接排除。比如full text出現(xiàn)頻率約46 PMWs,關(guān)鍵性值為16.6,但是通常出現(xiàn)在Publisher/Free Full Text中,指論文全文,是與doi、publisher、copyright holder、biorxiv preprint等類似的論文出版相關(guān)詞匯,與主題無關(guān)。另外,由于部分論文摘要以法語寫成,或者有法語翻譯,因此一些高頻法語詞如une、dans、des、est等也出現(xiàn)在備選詞表中,需排除。(2)與COVID-19相關(guān),但是廣為人知或?qū)I(yè)性不強(qiáng),如地名(China、 Chinese、 Korea、 Wuhan、 Taiwan、 Saudi Arabia、 Singapore、 Beijing)或其他簡(jiǎn)單的普通名詞(background、 entry、 winter、 threat、 disaster、 re-use、 tourism、 traveler)等,也進(jìn)行相應(yīng)排除。(3)多詞表達(dá)中部分因短語識(shí)別和分割等錯(cuò)誤形成的詞條需要排除,如i interferon、syndrome virus。(4)在備選多詞表達(dá)中會(huì)有長(zhǎng)短不一、部分重疊的短語,在收入術(shù)語表時(shí)會(huì)根據(jù)醫(yī)學(xué)常識(shí)排除一部分,收錄最常見的術(shù)語作為主體,并用括號(hào)表示其他必要的形式,在詞表排序時(shí)以主體術(shù)語的頻率計(jì)算。比如respiratory syndrome、 acute respiratory syndrome、 severe acute respiratory syndrome、 severe acute respiratory syndrome coronavirus、 acute respiratory syndrome coronavirus等形式在備選詞表中均有出現(xiàn),在正式術(shù)語表中會(huì)以severe acute respiratory syndrome (coronavirus)的形式出現(xiàn),并按228.6 PMWs的頻率排序。(5)不確定的詞條通過Sketch Engine檢索結(jié)果頁(yè)面的索引行查看詞條在聚焦語料庫(kù)中的上下文,并以權(quán)威醫(yī)學(xué)詞典作為參照并咨詢醫(yī)學(xué)專業(yè)人士,確定為COVID-19相關(guān)的醫(yī)學(xué)術(shù)語才收錄。

      3.3 COVID-19術(shù)語表

      經(jīng)過上述步驟篩除、整理并參考醫(yī)學(xué)專業(yè)人士意見,COVID-19術(shù)語表制作便完成了。成形的COVID-19術(shù)語表分為兩部分,其中單詞術(shù)語表含364個(gè)單詞,多詞術(shù)語表含176個(gè)多詞表達(dá),分別呈現(xiàn)在表2和表3中,并按照詞頻高低分為三個(gè)等級(jí)。MAVL中包含的ability、 age、 change、 high、 number等常見的或醫(yī)學(xué)特征不明顯的詞匯很少或幾乎沒有被收錄到COVID-19專題術(shù)語表內(nèi)。詞條的精簡(jiǎn)使得術(shù)語表使用者能專注于與主題高關(guān)聯(lián)度的術(shù)語學(xué)習(xí)和應(yīng)用,節(jié)約時(shí)間,符合應(yīng)急語言服務(wù)講求效率的要求。當(dāng)然,本術(shù)語表也未將個(gè)別簡(jiǎn)單的通用英語詞匯排除在外,比如常見的bat、 pig、 cat、 dog等,因?yàn)樵搫?dòng)物類詞匯與病毒的起源、傳播和影響可能有極大關(guān)聯(lián),若這些詞匯被排除,為保持標(biāo)準(zhǔn)的一致性,則次常見的calf、 camel、 cattle、 poultry、 ferret、 wildlife、 livestock、 macaque等表示動(dòng)物的詞匯也可能被排除在外,無法客觀反映事實(shí)。

      備選術(shù)語表到正式術(shù)語表的單詞和多詞術(shù)語的人工篩除率分別為18.75%和23.48%。備選多詞術(shù)語篩除率稍高是因?yàn)橛胁糠肿詣?dòng)切分錯(cuò)誤的短語和部分重疊的詞條。相比其他語料庫(kù)詞表制作方式,Sketch Engine更高效,人工干預(yù)更少。與前文提到的通用英語、學(xué)術(shù)英語和學(xué)科術(shù)語詞表開發(fā)相比,Sketch Engine開發(fā)的專題術(shù)語表更具有針對(duì)性,更適用于應(yīng)急語言服務(wù),是可靠的術(shù)語挖掘和應(yīng)急術(shù)語服務(wù)工具。

      4 結(jié)語

      詞表的開發(fā)始終需要考慮使用者的需求和詞表的目的以確定收詞的詞頻范圍和針對(duì)性。沒有能滿足所有需求、適用于所有用途的詞表。本文以新冠疫情防控中的應(yīng)急語言服務(wù)為出發(fā)點(diǎn),明確了對(duì)COVID-19術(shù)語表的需求及本術(shù)語表的制作目的,確定詞表制作的原則和方案,使用Sketch Engine語料庫(kù)工具及其豐富的醫(yī)學(xué)語料庫(kù)資源高效地完成了新冠肺炎學(xué)術(shù)英語詞表的制作。在此次詞表制作實(shí)踐基礎(chǔ)上,我們總結(jié)出以目的為導(dǎo)向的詞表制作流程,該流程包括五個(gè)步驟:(1)分析使用需求以確定詞表目的;(2)根據(jù)目的決定詞表制作的原則;(3)根據(jù)原則指導(dǎo)制定可操作的詞條篩選的量化和質(zhì)化標(biāo)準(zhǔn);(4)參考相關(guān)領(lǐng)域?qū)I(yè)人士意見,檢驗(yàn)和修正詞表;(5)公布詞表。后續(xù)的詞表開發(fā)可以以此流程為指引,使詞表制作流程標(biāo)準(zhǔn)化、規(guī)范化,如開發(fā)COVID-19高頻醫(yī)學(xué)縮略語詞表,并提供縮略語的全稱及釋義等作為本詞表的補(bǔ)充,為世界各地醫(yī)護(hù)工作者和其他相關(guān)人士提供全面的新冠肺炎英文詞表支援服務(wù)。此外,詞表的應(yīng)用反饋以及修訂完善等后續(xù)工作還需要持續(xù)關(guān)注。與各學(xué)科領(lǐng)域?qū)I(yè)人士和詞表使用者在術(shù)語表的開發(fā)、應(yīng)用與研究方面的合作還需加強(qiáng),以便對(duì)專題詞表的實(shí)際使用情況進(jìn)行調(diào)查,對(duì)使用效果進(jìn)行評(píng)價(jià),在此基礎(chǔ)上不斷對(duì)詞表進(jìn)行完善和修訂,為未來其他詞表的開發(fā)制作提供借鑒。

      [19] 馬蓉. 學(xué)術(shù)詞匯研究四十五年[J]. 現(xiàn)代外語, 2017 (3):420-428,439.

      [20] SIMPSON-VLACH R,ELLIS N. An academic formulas list: New methods in phraseology research [J]. Applied Linguistics, 2010 (31): 487-512.

      [21] LIU D. The most frequently-used multi-word constructions in academic written English: A multi-corpus study [J]. English for Specific Purposes, 2012 (1): 25-35.

      [22] COXHEAD A,DANG T N Y, MUKAI S. Single and multi-word unit vocabulary in university tutorials and laboratories: Evidence from corpora and textbooks [J]. Journal of English for Academic Purposes, 2017 (30): 66-78.

      [23] KILGARRIFF A, RYCHLY′ P, SMRZ P, et al. THE SKETCH ENGINE[C]//Proceedings of the Eleventh EURALEX International Congress , 2004.

      [24] KILGARRIFF A, BAISA V,BUTA J, et al. The Sketch Engine: ten years on [J]. Lexicography,2014(1):7-36.

      [25] 葛曉華. Sketch Engine的核心功能和應(yīng)用前景[J].外語電化教學(xué), 2017 (4):23-30.

      [26] LI L, DONG S, WANG V X. Gaige and Reform: A Chinese-English Comparative Keywords Study [C]//SU Q, ZHAN W (eds.). From Minimal Contrast to Meaning Construct: Corpus-based, Near Synonym Driven Approaches to Chinese Lexical Semantics. Singapore: Springer, 2020: 321-332.

      [27] LI L, HUANG C R,GAO X. A SkE-Assisted Comparison of Three “Prestige” Near Synonyms in Chinese [C]//HONG J F,SU Q,WU J S (eds.). Chinese Lexical Semantics 19th Workshop. Cham: Springer, 2018: 256-266.

      [28] LI L, HUANG C R,WANG V X. Lexical competition and change: A corpus-assisted investigation of gambling and gaming in the past centuries[J]. SAGE Open, 2020, 10(3).

      [29] KILGARRIFF A, JAKUBEK M, KOV V, et al. Finding terms in corpora for many languages with the Sketch Engine [J]. EACL 2014.

      [30] HORK A, RYCHLY′ P,RAMBOUSEK A(eds.). Proceedings of Recent Advances in Slavonic Natural Language Processing [C].RASLAN 2016:135-141.

      [31] 馮欣,吳菁菁,齊暉,等. MedAca醫(yī)學(xué)學(xué)術(shù)英語語料庫(kù)的創(chuàng)建[J].語料庫(kù)語言學(xué), 2017 (2):107-113,116.

      [32] 李文,楊炳鈞. 現(xiàn)代醫(yī)學(xué)英語書面語語料庫(kù)建設(shè)及其意義[J].外語教學(xué), 2018 (5):26-30.

      [33] BIBER D, JOHANSSON S, LEECH G, et al. Longman Grammar of Spoken and Written English [M]. London: Longman, 1999.

      [34] BIBER D,CONRAD S. Lexical bundles in conversation and academic prose [C]//HASSELGARD H, OKSFJELL S(eds.). Out of Corpora: Studies in Honor of Stig Johansson. Amsterdam: Rodopi, 1999: 181-190.

      [35] HYLAND K. As can be seen: Lexical bundles and disciplinary variation [J]. English for Specific Purposes, 2008 (27): 4-21.

      [36] BIBER D, CONRAD S,CORTES V. If you look at: Lexical bundles in university teaching and textbooks [J]. Applied Linguistics, 2004 (25): 371-405.

      [37] NATION I S P, WEBB S. Researching and Analyzing Vocabulary [M]. Boston, MA: Heinle, 2011.

      作者簡(jiǎn)介:

      李龍興(1986—),男,澳門理工學(xué)院講師,澳門大學(xué)博士候選人。曾赴新加坡南洋理工大學(xué)(2014—2015)和香港理工大學(xué)(導(dǎo)師黃居仁教授)訪學(xué)(2017—2018)。主要研究方向涉及語料庫(kù)語言學(xué)、翻譯學(xué)、詞匯語義學(xué)和話語研究。在Sage Open、System、International Journal of Bilingual Education and Bilingualism、Language and Education等SSCI期刊發(fā)表文章和書評(píng)4篇,另有數(shù)篇文章發(fā)表于《外語與翻譯》等期刊,為Springer出版社撰寫專書章節(jié)。通信方式:yb67707@um.edu.mo。

      王憲(1970—),男,澳門大學(xué)英文系副教授,昆士蘭大學(xué)應(yīng)用語言學(xué)博士(2006),NAATI翻譯員。 研究興趣為跨語言語用學(xué)、基于語料庫(kù)的對(duì)比語言研究以及翻譯中的話語和語用研究。文章發(fā)表于Sage Open、Target、Journal of Language、Literature and Culture以及TESOL相關(guān)期刊,為Springer、Routledge和Brill等出版社撰寫專書章節(jié),專著《中國(guó)英語學(xué)習(xí)者的請(qǐng)求研究》由John Benjamins出版。近期主要研究利用大數(shù)據(jù)和語料庫(kù)語言學(xué)方法考察語言特征、話語以及在新冠肺炎疫情等社會(huì)事件中概念隱喻的使用。通信方式:vxwang@um.edu.mo。

      猜你喜歡
      醫(yī)學(xué)英語新冠肺炎語料庫(kù)
      《語料庫(kù)翻譯文體學(xué)》評(píng)介
      政府要做好公共價(jià)值的創(chuàng)造者和守護(hù)者
      黨政論壇(2020年2期)2020-03-16 03:30:42
      新冠肺炎疫情前期應(yīng)急防控的“五情”大數(shù)據(jù)分析
      治理研究(2020年2期)2020-03-13 08:10:15
      科學(xué)與價(jià)值:新冠肺炎疫情背景下的風(fēng)險(xiǎn)決策機(jī)制及其優(yōu)化
      治理研究(2020年2期)2020-03-13 08:10:15
      臺(tái)陸委會(huì)正式改稱“新冠肺炎”
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
      圖式理論在醫(yī)學(xué)英語閱讀中的作用
      高職院校醫(yī)學(xué)英語教學(xué)現(xiàn)狀調(diào)查及對(duì)策分析
      亞太教育(2016年34期)2016-12-26 18:45:46
      過渡試點(diǎn)課醫(yī)學(xué)英語詞匯記憶調(diào)查
      亞太教育(2016年31期)2016-12-12 21:46:20
      在醫(yī)學(xué)類高職高專公共英語教學(xué)中融入醫(yī)學(xué)英語的有效途徑初探
      长白| 龙江县| 韩城市| 宿州市| 邛崃市| 绵阳市| 吴桥县| 上饶市| 保康县| 孟村| 江陵县| 海盐县| 上饶市| 天气| 祥云县| 广平县| 东明县| 铜梁县| 安远县| 镇赉县| 基隆市| 时尚| 新津县| 鲜城| 三明市| 盐山县| 冷水江市| 靖宇县| 宝鸡市| 无为县| 深水埗区| 曲麻莱县| 东源县| 紫云| 瑞昌市| 延川县| 宝山区| 安西县| 克山县| 惠东县| 阜康市|