盧植 胡健 廣東外語外貿大學
【提 要】大數據為語言研究帶來了大量新型自然語料,但這些基于網絡的非結構電子數據對于語料庫研制而言既是機遇又是挑戰(zhàn)。本文通過梳理語料庫研制基本步驟,回顧現(xiàn)有研制軟件和引介新技術工具,發(fā)現(xiàn)語料庫研制當前呈現(xiàn)出三大趨勢:研制工具上,單機軟件轉向網絡應用;研制目的上,語料庫研制與分析功能融合;研制應用上,語料庫研制趨向大數據應用。
伴隨現(xiàn)代信息技術的更新迭代,數據數量越來越大,種類越來越多,復雜程度越來越高,“大數據”的概念應運而生。2001年分析師萊尼在《3-D數據管理》報告中首提“大數據”的3V特征,即數據即時處理的速度(Velocity)、數據格式的多樣化(Variety)與數據量的規(guī)模(Volume)(Laney 2001)。麥肯錫(McKinsey)在報告《大數據:創(chuàng)新、競爭和生產力的下一個前沿》中將大數據定義為:數據規(guī)模超出常規(guī)數據庫工具獲取、存儲、管理和分析能力的數據集(Manyika 2011)。
截至2011年,全球擁有互聯(lián)網用戶數已達到20億;RFID標簽在2005年的保有量僅有13億,但是到2010年這個數字超過了300億;2006年資本市場的數據比2003年增長了17.5倍;目前新浪微博上每天上傳的微博數超過1億條;Facebook每天處理10TB的數據(趙國棟、易歡歡、糜萬軍、鄂維南2013)。大量文本、圖像、影像等數據的電子化和網絡化,為單、多模態(tài)語料庫的研制及相關應用提供了大量真實語料。然而,文本、圖象、聲音等作為非結構化數據,難以像在MS Excel中統(tǒng)計分析(王華樹2016:3),人工復制粘貼無法應對海量語料以及社交媒體、電商信息、視頻彈幕等新型網絡自然語料等獲取,因此語料庫研制勢必要求采用新的技術和工具應對語料的提取、加工等方面的挑戰(zhàn)。
語料一般指實際使用中真實出現(xiàn)過的語言材料。按字面意思,“語料庫”(corpus)指存放語言材料的“倉庫”。事實上,語料庫不是伴隨計算機出現(xiàn)而產生的現(xiàn)代概念。在計算機化以前,學者已經開始建立語料庫,當時的語料庫主要用于詞匯索引、編撰詞典、方言調查等,包括“為研究語法、編纂詞典而采集的卡片引證庫,為教學目的和編制詞表而采集的書面文章庫,以及為語言文化調查而采集的資料庫”(王建新2005:21)。但早在中世紀,原始意義上的手工語料庫出現(xiàn)得更早,甚至可以追溯到中世紀(楊惠中2002:46),從其在OED中的詞典義變化:“身體——尸體——匯編,全集——(口語或書面語的)語料——語料庫”(見王克非2012:8),可以看出人們對這一概念認識的變遷。其中,正是伴隨計算機的迅猛發(fā)展,以計算機應用參與語料庫研制為標志,語料庫邁入計算機時代,進入現(xiàn)代語料庫時期(鄒煜2011)。
關于現(xiàn)代語料庫的定義,中外學者(Sinclair 1991;McEnery&Wilson 1996;顧曰國 1998;Leech 2014等)的觀點雖各有側重,但具有一定共性,即現(xiàn)代意義的語料庫是基于一定目的,以一定采集標準采集的具有一定規(guī)模和代表性的、可供機讀的真實語料集合,而且語料庫采集的是文本,而非詞匯或孤立句子。
語料采集之所以需基于一定采集標準或代表性,這是由于真實語料難以窮盡和實際獲取難度。如果分析某位作家的小說語言特色,理想狀態(tài)下是采集到其所有小說文本(而非書信、雜談等題材作品),進而再進行分析;但問題在于,每時每刻世界都在產生大量真實語料,很多類型或文體的真實語料并不是如同某位作家的小說可以窮盡,現(xiàn)實情況往往是無法窮盡,同時也涉及到語料版權和實際采集難度,所以語料的采集就需按照一定采集標準,進行取樣;最后,采集的語料一般是電子文本,如非電子文本,則要轉化為計算機可讀的電子文本,因為現(xiàn)代語料庫研究及應用一般需借助計算機手段。
綜上所述,隨著計算機技術和語料庫研究的深入,語料庫建設也在不斷深化。就時間跨度而言,王克非(2012:9)將語料庫發(fā)展分為三個階段:原始語料庫(18世紀-20世紀初)、現(xiàn)代語料庫(1950s-80s)和當代語料庫(1990s-)。就語料而言,語料庫建設其發(fā)展歷程基本經歷從紙質(卡片)到電子文本,從文本、音頻圖像(靜態(tài)或動態(tài))再到視頻,換言之,存儲方式也從單模態(tài)發(fā)展到多模態(tài)。故Knight認為,語料庫建設在經歷了手工采集(語料庫1.0)——初步經過計算機處理(語料庫2.0)——大規(guī)模數據采集與加工(語料庫3.0)后,伴隨現(xiàn)代計算機多媒體技術的發(fā)展,以及人們對語言活動本質認識的提升(見黃立鶴2015:1),即語料庫建設進入多模態(tài)采集,即“語料庫4.0”階段。
語料庫研制之前需要根據研究目的考慮建庫設計。語料庫對于語言研究的意義在于,“通過語料庫,我們可觀察到之前未意識到的或僅僅隱約覺察到的語言模式”(Johansson 2007:1)。這也就意味著語料的容量一般較大,并非凡針對零星語料的研究都需要基于“語料庫”,導致“語料”與“語料庫”混為一談。其次,套入語料檢索軟件,空得數據,無法解釋,有“語料庫”之名,無語料庫之實。語料庫是語料庫研究的起點和核心,正如Kennedy(1998:60)所言:“語料庫設計和編輯問題直接關系到基于某一語料庫研究的有效性和可靠性”。
在確定研究目的和語料庫研制可行性后,語料庫創(chuàng)建一般涉及語料采集、轉寫降噪、分詞標注、對齊等步驟。以下按照這些步驟大致回顧并引介相關技術工具,但值得一提的是,這些語料加工操作如采用軟件或網絡應用自動處理,還需人工核對調整,以保持語料庫及后續(xù)研究的有效性和可靠性。
3.1.1 語料采集
語料采集傳統(tǒng)上通過人工采集。除了人工轉寫輸入外,紙質語料可在掃描或拍照后,通過ABBYY FineReader等本地軟件、smallpdf.com等在線網站、或者手機和平板等移動端上的全能掃描王之類的應用(APP),進行光學字符識別(ORC)轉換為電子文本。
對于網絡文本語料,很多語料可直接復制粘貼為純文本。對于某些無法直接復制文字的頁面,比如圖片格式頁面或者該頁面設置為不可復制,有如下幾種方法應對:使用ABBYY Screenshot Reader等識別軟件框選所需文本內容再剪切到Word或txt文件中即可;通過將所需頁面的網頁保存為“網頁,全部”,得到一個文件夾和網頁,再用word打開所保存的網頁,此時即可編輯或保存;打開其網頁源代碼后復制相關內容,但會連帶復制較多無關信息;對于某些失效網頁語料,可打開其網頁快照,通過網絡服務器緩存,復制相關語料。
以上人工采集優(yōu)點在于采集準確,但缺點在于耗時費力。伴隨網絡成為語言生活的重要組成部分,眾多語言新現(xiàn)象借助網絡媒體從線上傳播到線下,比如社交網站信息和電商平臺信息,包括食宿評價、購物反饋、書評影評等,從而成為重要的海量自然語言語料,因此大規(guī)模語料采集開始逐漸采用網絡爬蟲技術。網絡爬蟲(Web Crawler,又稱網絡蜘蛛、網絡機器人)是一種請求網站并提取數據的自動化程序,其基本原理是爬蟲程序從若干初始網頁的統(tǒng)一資源定位符(URL)開始,獲得初始網頁上的URL,在獲取網頁文字、圖片、影像等內容的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件,從而實現(xiàn)數據批量采集。王朝暉、余軍(2016:18)曾介紹火車頭采集器、網絡礦工等數據采集軟件,并以后者對阿里巴巴茶類商品和iHerb網站omega類商品進行語料采集、整理,制作雙語對應語料庫,極大提高了語料采集效率。
多模態(tài)語料的獲取可依靠影音軟件緩存,或通過流媒體嗅探軟件和視頻錄制工具下載和錄制。伴隨網絡娛樂化和視頻社交化趨勢,一種新型的視頻分享網站應運而生——彈幕網站。不同于傳統(tǒng)視頻網站,視頻觀看者可在觀看的同時評論,即將評論即時疊加在視頻上。由于評論數量之多,密集程度有時掩蓋整個視頻畫面,猶如軍事上連續(xù)射擊掩護或齊射式進攻,因此這種不是字幕但又類似字幕的評論被稱之為“彈幕”(見圖1)。彈幕不只是評論,更成為視頻內容的一部分,觀眾觀看視頻,有時就是為了發(fā)表和閱讀彈幕。因此作為動漫游戲文化(ACG)語言的重要載體和形式,彈幕自然也是一種新型的網絡自然語料。
圖1 視頻彈幕截圖
3.1.2 轉寫與降噪
語料轉寫主要針對多模態(tài)語料庫研制,比如口譯語料庫研制中需要將錄音或視頻中的語音轉寫文字。傳統(tǒng)上研究者采用人工聽寫,該方法雖然準確,但耗時耗力。伴隨語音識別和語音合成技術的發(fā)展,相關的語音轉換軟件和應用程序已經能夠自動識別和轉換,可以在一定程度上輔助人工轉寫。其中,搜狗輸入法、訊飛輸入法等不少輸入法軟件已經兼容語音輸入功能。鑒于其以相對較高的準確性和速度自動支持普通話、廣東話和英語輸入,在此以訊飛輸入法為例簡述兩臺設備之間語料轉寫,即一臺設備播放音、視頻,另一臺設備記錄轉寫。比如在電腦上播放音、視頻文件之時,保持手機“訊飛輸入法”語音輸入狀態(tài),此時該輸入法自動識別并轉化為文字,最后通過微信或QQ社交軟件或藍牙將手機中的轉寫稿傳輸至電腦,再通過文本編輯軟件處理。然而,由于現(xiàn)場錄制的語音語料存在背景噪音以及停頓、猶豫、重復、修正、笑聲等副語言信息(胡開寶2011:179),故軟件轉寫后語料還需人工核實加工。
圖2 命令提示符下You-Get安裝與視頻、彈幕下載
語料降噪是指消除語料中多余的字符或影響語料對齊的字符、公式、圖表等,以提高語料庫統(tǒng)計分析的效用(管新潮、陶友蘭2017:20)。語料降噪常用軟件包括 EditPlus3、EmEditor、Microsoft Word、文本整理器等。Microsoft Word通過通配符查找替換噪音標點或字符。另外,也可在Word錄制宏或在通過國產文字編輯軟件WPS通過自帶宏處理“文字工具”,進行批量段落重排、刪除多余空格或換行符等格式處理。
3.1.3 分詞與標注
語料降噪整理后一般需語料分詞和詞性標注。所謂分詞(tokenization)是指將一連串的字符轉換成相互分離,容易識別的形符(token)的過程(梁茂成、李文中、許家金2011:45)。由于英文基本是以空格劃分的單詞為單位,其分詞較為簡便(即以空格劃分),而中文字與字和詞與詞之間并沒有明顯的區(qū)分標記,而目前語料庫軟件基本都是針對西方拼音文字,因此首先需要分詞處理,以便后續(xù)中文檢索分析。對于英文分詞,主要是刪減單詞之間多余空格或增加必要空格,可依靠Microsoft Word和WPS軟件的拼寫檢查和替換以及錄入宏,或者通過文本整理器進行處理。
外語研究中的分詞處理主要應用張華平研制NLPIR漢語分詞系統(tǒng)(又名ICTCLAS),實現(xiàn)便捷分詞、詞頻統(tǒng)計、詞性標注、關鍵詞提取等操作,但該系統(tǒng)的單機版和網頁演示版分別存在試用期限和單次處理字數上限(3000字)。事實上,分詞與標注早也是自然語言處理(Natural Language Processing)的基礎工作之一,因此大量NLP的工具或模塊,比如jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP中文分詞模塊,可為外語研究中語料庫研制提供便利。不過,這些基于java、python等編程語言的分詞工具模塊一般沒有用戶視窗界面,需要輸入代碼進行操作,因此存在一定難度。不過,國內研究人員仍在不斷開發(fā)本地單機語料處理軟件,比如Laurence Anthony開發(fā)的SegmentAnt,可進行中文、英文、日文分詞,內置jieba等分詞及POS賦碼引擎;北京外國語大學語料庫語言學團隊(FLERIC)研制的BFSU Stanford POS Tagger是斯坦福大學自動標注軟件Stanford POS Tagger的圖形界面。通過這兩款軟件,用戶無需在命令行中輸入命令和參數就可對語料進行標注處理,從而降低原軟件的操作難度。在語料庫研制中,語料標注需確定一套統(tǒng)一標注體系。在英文詞性標注方面,蘭卡斯特大學推出了英文詞性集CLAWS5和CLAWS7,并提供CLAWS WWW tagger在線標注;在中文詞性標注方面,有中科院(ICTPOS)、北大(PKU)、中傳(CUC)等各種中文詞性標注集,各標注集在詞性劃分略有不同,切分顆粒度上又分粗、細度,需根據研究目的進行選擇。其中教育部語言文字應用研究所計算語言學研究室下屬“語料庫在線”網站、國家語言資源監(jiān)測與研究有聲媒體中心可提供在線漢語分詞和詞性自動標注。
對于多模態(tài)語料庫建設,由于涉及到錄音錄像轉寫,當前主要借助Anvil、ELAN等主流多模態(tài)建庫工具。其中尤為值得一提的是多模態(tài)轉寫標注軟件 ELAN(EUDICO Linguistic Annotator)。該軟件支持多種音視頻格式,具有轉寫模式、同步模式、標注模式和分割模式四種不同的工作模式,支持父層與子層等級式的多層次標注,用戶可自行設定標注的內容和標簽,此外該軟件還具有強大的檢索功能(劉劍、胡開寶2015:80)。當前基于ELAN的語料庫建設、應用和語言研究大致包括三類:漢語方言多媒體語料庫研制及其應用(李斌2012)、中國手語語料庫建設(呂會華、劉輝2014)和應用語言學研究的多模態(tài)分析(王立非、文艷2008)。
3.1.4 對齊
語料對齊針對對應或翻譯語料庫,需要根據研究目的或假設,對語料在詞、句、段或語塊等層級進行對齊。常用語料對齊軟件包括Paraconc等專門語料軟件以及CAT軟件中附帶的對齊工具,比如 SDL Trados的 WinAlign、ABBYY Aligner和雪人CAT的對齊工具等。然而,云技術的發(fā)展和翻譯實踐的云平臺化促使翻譯和語料處理趨向于在線進行,比如Tmxmall公有云平臺便推出了其免費在線對齊服務。該在線對齊可以實現(xiàn)單/雙文檔對齊,涉及中文、英語在內的46種語言,2070種語言對,自動識別“一對多”、“多對一”、“多對多”句子對應關系,極大地提高對齊效率和準確度,并支持多種主流格式的導入和導出。
不過,在句子層面對齊中,由于譯者翻譯中可能或多或少作出一定調整,從而出現(xiàn)原文多句合譯為一句譯文或原文一句分譯為多句譯文的情況,盡管當前對齊工具能在一定程度上自動應對“一對多”或“多對一”的情況,但仍需在使用軟件對齊之中或之后人工介入調整相關句段。
完成建庫后,接下來就是對語料庫進行檢索、統(tǒng)計和分析。語料庫建立和分析傳統(tǒng)上是在本地計算機進行,故這一階段使用的主流語料庫工具屬于第三代語料庫分析工具,其中以WordSmith、AntConc、MonoConc、Xaira和 PowerConc等為代表,索引分析、詞頻表、主題詞是這些工具的幾大核心功能(許家金、賈云龍2013;許家金、吳良平2014:10)。但在大數據時代下,得益于網絡技術的突飛猛進,語料庫研制與分析的網絡化程度越發(fā)深入,因此語料庫研制當前呈現(xiàn)三大趨勢:研制工具上,單機軟件轉向網絡應用;研制目的上,語料庫研制與分析功能融合;研制應用上,語料庫研制趨向大數據應用化。
3.2.1 單機軟件轉向網絡應用
對于語料庫單機軟件的開發(fā),一種是開發(fā)全新的語料處理軟件,另一種則是為已有軟件設計圖形界面,比如上文所提到的Ant系列軟件與BFSU系列語料庫軟件及工具。然而,盡管新型單機軟件不斷降低語料庫研制的門檻,但鑒于本地電腦的硬盤空間和處理能力有限,而語料庫建庫容量越來越大,分析越發(fā)復雜,大量語料需要直接從網絡獲取或上傳保存到網絡,單機軟件(本地)轉向網站應用(網絡化)的趨勢已經出現(xiàn),在工具上為語料庫研制提供更多選擇(簡介見表1)。
表1 語料處理單機軟件與網絡應用列舉
3.2.2 語料庫研制與分析功能融合
作為單機軟件轉向網絡應用的成果,Sketch Engine、Webcorp、BNCweb、CQPweb 等基于網絡的第四代語料庫分析工具已逐步興起,具備詞表生成、索引分析、詞語搭配計算、主題詞分析等當前主流單機版語料庫工具的幾乎所有功能(許家金、吳良平2014:10),同時實現(xiàn)語料庫研制與分析功能融合。比如Sketch Engine,研究人員可自行上傳語料或調用搭配其已有子庫,再借助其統(tǒng)計工具自動分析,或者通過輸入數個種子詞(Seed word),自動在網絡上獲取還有數個種子詞的URL,再對所獲URL進行文本內容提取,從而建立語料庫。無獨有偶,NLPIR漢語分詞系統(tǒng)提供網頁URL頁面信息獲取,只需輸入需提取網頁的網址,該演示系統(tǒng)就自行獲取頁面文字,隨后可進行語料處理。
3.2.3 語料庫研制趨向大數據應用化
在語言服務行業(yè),應用大數據技術包括但不限于以下幾個方面:基于大數據可視化分析、基于大數據的預測、基于大數據的商業(yè)交易(王華樹2016:3),其中基于大數據的可視化分析和商業(yè)交易可與語料庫建設及研究結合。
所謂大數據可視化分析指對大量抽象數據進行視覺表現(xiàn),使讀者直觀地把握數據的空間分布模式、趨勢、相關性等描述和推斷統(tǒng)計信息,而這些統(tǒng)計信息可能會在其他呈現(xiàn)方式下難以被發(fā)現(xiàn),基于詞頻分析的詞云(word cloud)就是數據可視化的經典代表之一。我們相信,未來的語料庫研制的關注點不但只在于建庫或分析,也將更多關注于分析結果的呈現(xiàn)方式,不應滿足于索引定位(concor-dance plot)等機械式描述,而是以一種更為人性化的方式呈現(xiàn)多模態(tài)數據的統(tǒng)計信息和數據之間的互動。
大數據交易包括如語料庫或翻譯記憶庫交易以及多語種數據處理服務。作為一種狹義的語言資源(陳章太2008:10),語料庫在語言研究中不僅具有學術價值,而且在自然語言處理中具有詞典編纂、機器翻譯、軟件開發(fā)等商業(yè)價值,故其成品及研制過程中各個環(huán)節(jié)亦可為大數據交易提供商機。語料庫研制的主體將分為研究者自行研發(fā)或邀請專人研制,抑或把語料清洗、標注、對齊等工作分工外包,比如Tmxmall現(xiàn)已推出人工對齊服務。
大數據時代下,各種新型網絡自然語料不斷涌現(xiàn),有利于擴展語料庫研制及研究的邊界,同時,隨著網絡技術和自然語言處理技術的進步,各種自然語言處理軟件的圖形界面化、網絡應用普及和第四代語料庫分析工具的逐步興起,均有利于降低語料處理和語料庫建設的難度。然而,語料庫研制在取樣、標注等基礎標準暫未統(tǒng)一,比如對于漢語分詞,不同的標注結果將影響后續(xù)研究的信度和效度。同時,單、多模態(tài)的語料采集、用于漢語翻譯語言分析的檢索和統(tǒng)計工具還不夠豐富,尤其是缺少特別適合漢語語言分析的工具(秦洪武、李嬋、王玉 2014:66-67)。
因此,為應對以上挑戰(zhàn),外語專業(yè)研究人員必須提高自身語料庫研制技術,而采用Python、R等編程語言進行文本處理已是大勢所趨,或將成為未來語料庫研制、翻譯技術乃至翻譯研究的亮點。已有學者出版相關著作,探索如何在語料庫的教與學及其應用、語料庫科研中習得Python能力(管新潮2018)。相信隨著語料庫研制技術的發(fā)展,研究人員會在語料采集、分詞、深度標注、分析、可視化等方面提高語料庫研制的水平,助力語言研究分享大數據時代的數據紅利。