摘要: CCL語料庫和BCC語料庫是現(xiàn)代應(yīng)用較為廣泛的兩大通用現(xiàn)代漢語語料庫,在語言研究、語言教學(xué)、計算語言學(xué)等領(lǐng)域發(fā)揮著重要作用。本文從語料庫的建設(shè)和編纂、加工與管理兩個角度對兩者進行對比分析,以期為將來語料庫的建設(shè)和發(fā)展提供參考。
關(guān)鍵詞:BCC語料庫;CCL語料庫;對比
一、引言
本文選取了應(yīng)用較為廣泛的兩大通用語料庫——北京大學(xué)CCL語料庫、北京語言大學(xué)BCC語料庫作為研究對象,從語料庫的建設(shè)與編纂、加工與管理和服務(wù)的角度對以上兩個語料庫進行對比分析,以期為將來語料庫的建設(shè)和發(fā)展提供參考。
二、語料庫對比
(一)語料庫的建設(shè)與編纂
在語料庫的類型方面,BCC和CCL語料庫都是動態(tài)、平衡、通用、單模塊語料庫。不同的是BCC語料庫除了提供漢語語料外還兼顧如英語、西班牙語、法語、德語、土耳其語等其他語言,是多語語料庫。而CCL語料庫是漢語的單語語料庫。另外,BBC語料庫兼?zhèn)涔矔r語料和歷時語料,而CCL語料庫是歷時語料庫。
對于語料庫的建設(shè)資源方面,我們可以從語料的規(guī)模、語料的來源、語料的分布三個方面來探討。首先,BCC語料庫全庫約有150億字,其中現(xiàn)代漢語130億字,古代漢語20億字。CCL語料庫全庫約有7億字符,現(xiàn)代漢語占2億字符,古代漢語占5億字符。由數(shù)據(jù)我們可以看出,BCC語料庫的語料規(guī)模要遠遠大于CCL語料庫,且前者以現(xiàn)代漢語語料為主,后者以古代漢語語料為主。其次,語料來源方面,CCL語料庫的現(xiàn)代語料主要來源于口語、史傳、應(yīng)用文、報刊(《人民日報》等)、文學(xué)、電視電影、相聲、網(wǎng)絡(luò)語料、翻譯作品或戲劇和文學(xué),其中1949年之前的“現(xiàn)代”語料占全部現(xiàn)代漢語語料的1.28%,1949年之后的“當(dāng)代”語料占現(xiàn)代漢語語料的98.72%。BCC語料庫包括文學(xué)、報刊、微博、科技、古漢語、學(xué)生作文等多個領(lǐng)域。其中,新聞?wù)Z料主要采自《廈門日報》、《廈門商報》、《廈門晚報》等;口語(微博)語料采自2013年新浪微博;科技語料采自國內(nèi)學(xué)術(shù)期刊;文學(xué)語料采自國內(nèi)外文學(xué)作品;綜合語料包括以上四個領(lǐng)域。將兩者的語料來源進行對比后,我們不難發(fā)現(xiàn)CCL的語料涉及的領(lǐng)域更廣泛且分類較細致,來源正式,注重官方性,多史料;而BCC的語料則更多選取當(dāng)下的語料,語料更具有“新鮮度”,有“微博”、“科技”等的分類,更加現(xiàn)代化。最后,從語料的分布來看(僅對比現(xiàn)代漢語語料),由圖1可知,CCL語料庫的現(xiàn)代語料中報刊語料占較大比重,故具有權(quán)威性。而BCC語料庫(如圖2)語料分布相對均勻,可以全面反映當(dāng)今社會語言生活。
(二)語料庫的加工與管理
在語料的加工深度方面,CCL語料庫是生語料庫,除了分類、題目、作者等元信息外,正文部分未經(jīng)過任何加工處理,檢索系統(tǒng)以漢字為基本單位。而BCC語料庫是熟語料庫,其中現(xiàn)代漢語語料進行了分詞和詞性標注,支持帶詞性檢索。古代漢語語料未進行分詞和詞性處理,只能以字為單位進行檢索,此外少量語料庫還做了句法分析。由此可見,BCC語料庫的加工程度要高于CCL語料庫,兩者在加工程度上的不同主要取決于對語料庫在語言研究中所起作用的定位差異,即所謂語料庫驅(qū)動的語言學(xué)(CCL語料庫)與基于語料庫的語言學(xué)(BCC語料庫)之分。前者把語料本身作為語言學(xué)理論的數(shù)據(jù)來源,追求在純粹的原始語言數(shù)據(jù)基礎(chǔ)上,構(gòu)建全新的、區(qū)別于傳統(tǒng)的、真正意義上的語料庫語言學(xué)理論;后者把語料庫作為工具看待,主張在標注語料基礎(chǔ)上,檢驗并發(fā)展已有的語言學(xué)理論。
語料庫的檢索方面,兩者都支持復(fù)雜的檢索表達式。CCL語料庫在普通檢索的基礎(chǔ)上還提供了批量查詢和模式查詢,用戶可以自行上傳查詢文件和檢索特定的模式,并對標點符號進行檢索(比如查詢“?”可以檢索語料庫中所有的疑問句)。但由于CCL語料庫沒有對語料進行分詞與詞性標注,其檢索結(jié)果存在不夠精確的問題。BCC在此方面的優(yōu)點在于提供了更加豐富的檢索功能,不僅可以共時檢索還可以歷時檢索和自定義檢索。此外,它還可以設(shè)定語料范圍,在特定領(lǐng)域內(nèi)進行檢索。而BCC的局限性在于查詢可以滿足形式意義上的匹配,但在語義上則不一定。我們以檢索“愛V不V”為例分別在兩個語料庫中進行檢索,對比檢索結(jié)果(表1)可以發(fā)現(xiàn),BCC語料庫檢索結(jié)果雖然在語法上符合檢索表達式,但在語義上卻存在偏差。
除此以外,兩者在其他的功能使用上也各有優(yōu)劣。如BCC提供了統(tǒng)計功能,有利于對非普通字符串進行檢索,而CCL并未提供此功能。但在下載方面,CCL可以下載所有檢索結(jié)果,而BCC則最多只能下載10000條結(jié)果。
三、小結(jié)
通過上述的分析對比,我們可以總結(jié)出CCL語料庫和BCC語料庫在建設(shè)和編纂、加工與管理上有以下區(qū)別:
(一)BCC是多語、歷時兼共時語料庫,CCL是單語、共時語料庫(漢英雙語句對齊語料不對外開放)。
(二)BCC語料庫規(guī)模更大,現(xiàn)代漢語語料占比大,更具現(xiàn)代性且分布均勻。CCL語料庫古代漢語語料和“當(dāng)代”語料占比大,現(xiàn)代漢語語料中報刊語料占比大,來源權(quán)威,類型豐富、可靠性高。
(三)BCC語料庫是熟語料庫,進行了分詞、詞性標注和句法標注。而CCL語料庫是生語料庫。BCC 在語料加工程度上遠遠高于CCL,體現(xiàn)了建設(shè)者在設(shè)計理念上的差異。
(四)BCC語料庫支持歷時和自定義檢索,可設(shè)定語料范圍,在特定領(lǐng)域內(nèi)檢索,但在查詢結(jié)果的語義匹配上有待提高。CCL語料庫可以進行批量查詢和模式查詢,且支持對標點符號的查詢,但生語料導(dǎo)致其在精確度上有所欠缺
(五)BCC提供統(tǒng)計功能,而CCL不提供。BCC只限下載10000條檢索結(jié)果,而CCL可以下載所以檢索結(jié)果。
參考文獻:
[1]荀恩東,饒高琦,肖曉悅,臧嬌嬌.大數(shù)據(jù)背景下BCC語料庫的研制[J].《語料庫語言學(xué)》,2016(1)
[2]詹衛(wèi)東,郭銳,常寶寶,諶貽榮,陳龍.北京大學(xué)CCL語料庫的研制[J].《語料庫語言學(xué)》,2019(1)
[3]王超.關(guān)于CCL和COCA在線語料庫使用方法的研究[J].《才智》,2014(28)
作者簡介:
王姝蕾(1999.03—),女,陜西商洛人,華僑大學(xué),應(yīng)用語言學(xué)專業(yè),本科生