王曉玉
摘要:文章探索了中古漢語(yǔ)研究型語(yǔ)料庫(kù)的設(shè)計(jì)原則和具體構(gòu)建方法。首先,明確了中古漢語(yǔ)語(yǔ)料庫(kù)設(shè)計(jì)的總原則,并針對(duì)語(yǔ)料庫(kù)構(gòu)建過(guò)程中的每一個(gè)環(huán)節(jié)設(shè)立了分原則;其次,把語(yǔ)料庫(kù)構(gòu)建過(guò)程分為語(yǔ)料選取、語(yǔ)料加工、語(yǔ)料庫(kù)管理及檢索系統(tǒng)研發(fā)三大塊,勾勒出了每一模塊構(gòu)建的具體流程和方法,并對(duì)構(gòu)建環(huán)節(jié)中遇到的具體問(wèn)題及對(duì)策做出了闡述。文章是對(duì)中古漢語(yǔ)研究型語(yǔ)料庫(kù)構(gòu)建過(guò)程和方法的總結(jié),可以輔助人們更加深入地了解該語(yǔ)料庫(kù)的總體概況和使用方法,對(duì)語(yǔ)料庫(kù)理論的發(fā)展也可起到一定的補(bǔ)充作用。
關(guān)鍵詞:語(yǔ)料庫(kù)建設(shè)中古漢語(yǔ)語(yǔ)料標(biāo)注語(yǔ)料檢索
一、 前言
自20世紀(jì)80年代始,中古漢語(yǔ)研究取得了長(zhǎng)足進(jìn)展。然而遺憾的是,古漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)遠(yuǎn)遠(yuǎn)地落后于研究的進(jìn)展。綜觀國(guó)內(nèi)外研究現(xiàn)狀,要么對(duì)中古的語(yǔ)料收錄不多,要么沒(méi)有進(jìn)行精細(xì)加工。(董志翹2011)中古時(shí)期是漢語(yǔ)的質(zhì)變期,中古漢語(yǔ)的研究對(duì)于理清漢語(yǔ)語(yǔ)音、詞匯、語(yǔ)法等的發(fā)展脈絡(luò)有著不可或缺的作用?,F(xiàn)今語(yǔ)料庫(kù)中收錄的中古語(yǔ)料十分不足,而未做分詞標(biāo)注等深層加工又在很大程度上減弱了語(yǔ)料庫(kù)的整體使用價(jià)值。為使中古漢語(yǔ)研究不斷走向縱深,并有更加整體定性的研究方法和多層面的分析角度,建設(shè)深加工的研究型中古漢語(yǔ)語(yǔ)料庫(kù)十分必要。
中古時(shí)期的語(yǔ)言面貌與現(xiàn)代很不相同,兩者在語(yǔ)料庫(kù)的構(gòu)建上也必然存在差別。一方面,無(wú)論在語(yǔ)言學(xué)理論,還是語(yǔ)料庫(kù)理論上,針對(duì)現(xiàn)代漢語(yǔ)的研究均更為成熟。特別是在分詞標(biāo)準(zhǔn)、語(yǔ)法標(biāo)注類(lèi)別等方面,現(xiàn)代漢語(yǔ)成果頗多,不僅有權(quán)威的分詞規(guī)范出版,句法分析、格語(yǔ)法、框架語(yǔ)法等多種語(yǔ)法研究也產(chǎn)生了大量研究成果。中古漢語(yǔ)及其語(yǔ)料庫(kù)構(gòu)建理論的相關(guān)研究則還很薄弱,尚有待進(jìn)一步探索。另一方面,中古漢語(yǔ)語(yǔ)料庫(kù)在構(gòu)建技術(shù)上還比較落后,自動(dòng)分詞、自動(dòng)標(biāo)注的相關(guān)研究相對(duì)滯后,這不僅加大了人工操作的工作量,也不利于提高分詞、標(biāo)注的一致性,為語(yǔ)料庫(kù)的構(gòu)建質(zhì)量埋下了隱患。除此之外,由于中古漢語(yǔ)只存留在文獻(xiàn)中,并不會(huì)出現(xiàn)在日常交際中,這使得語(yǔ)料庫(kù)在構(gòu)建目的、加工方法、加工層級(jí)上與現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)也有所不同。中古漢語(yǔ)語(yǔ)料庫(kù)的構(gòu)建目的較為單一,主要服務(wù)于漢語(yǔ)史研究和古漢語(yǔ)學(xué)習(xí),這就要求在構(gòu)建時(shí)更加注重傳統(tǒng)句法、古代特殊語(yǔ)法、特殊語(yǔ)用現(xiàn)象的標(biāo)注,以及疑難字的解析、與現(xiàn)代漢語(yǔ)的對(duì)譯等。
中古漢語(yǔ)研究型語(yǔ)料庫(kù)主要收錄從東漢到隋的傳世文獻(xiàn)37本,除此之外還有匯集的詩(shī)歌雜帖及出土的中古文獻(xiàn)。收錄原始語(yǔ)料的庫(kù)容約1000萬(wàn)字(化振紅2014),加工后的庫(kù)容將大大擴(kuò)展,包括書(shū)籍庫(kù)、句子庫(kù)、詞匯庫(kù)、疑難字庫(kù)、義項(xiàng)庫(kù)、編碼庫(kù)六大不同層級(jí)的子庫(kù)。語(yǔ)料庫(kù)采用開(kāi)源的MySQL數(shù)據(jù)庫(kù)[1]對(duì)語(yǔ)料信息進(jìn)行存取,本文擬就語(yǔ)料庫(kù)構(gòu)建的相關(guān)問(wèn)題,進(jìn)行較深入說(shuō)明。
二、 語(yǔ)料庫(kù)構(gòu)建原則及方法
(一) 語(yǔ)料庫(kù)構(gòu)建目標(biāo)及原則
中古漢語(yǔ)研究型語(yǔ)料庫(kù)是基于中古漢語(yǔ)書(shū)面語(yǔ)的共時(shí)專(zhuān)語(yǔ)語(yǔ)料庫(kù),在建立語(yǔ)料庫(kù)之初首先要明確的是語(yǔ)料庫(kù)構(gòu)建的目標(biāo)和原則。
中古漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的主要目標(biāo)有: 1) 提供經(jīng)過(guò)??钡闹泄盼墨I(xiàn)已校注的電子版;2) 為中古各種詞匯、語(yǔ)法、搭配等語(yǔ)言現(xiàn)象提供可進(jìn)行統(tǒng)計(jì)的平臺(tái);3) 為中古文獻(xiàn)提供可靠的釋義,為機(jī)器翻譯、語(yǔ)言學(xué)習(xí)領(lǐng)域提供基礎(chǔ)材料;4) 為中古漢語(yǔ)語(yǔ)言研究提供大量好的語(yǔ)言實(shí)例。
中古漢語(yǔ)語(yǔ)料庫(kù)設(shè)計(jì)遵循的總原則是: 1) 語(yǔ)料庫(kù)的設(shè)計(jì)和建設(shè)在系統(tǒng)的理論語(yǔ)言學(xué)原則指導(dǎo)下進(jìn)行;2) 語(yǔ)料庫(kù)語(yǔ)料的構(gòu)成有明確的語(yǔ)言學(xué)理論指導(dǎo),按照一定比例收集語(yǔ)料,而不是中古文獻(xiàn)的簡(jiǎn)單堆砌;3) 中古漢語(yǔ)研究型語(yǔ)料庫(kù)作為中古時(shí)期語(yǔ)言運(yùn)用的樣本,須采用科學(xué)的方法確定各種語(yǔ)料的比例,使語(yǔ)料具有代表性;4) 語(yǔ)料加工時(shí)采用自動(dòng)和人工相結(jié)合的方式;5) 語(yǔ)料庫(kù)中語(yǔ)料以電子文本形式儲(chǔ)存并且可以方便快捷地通過(guò)計(jì)算機(jī)對(duì)語(yǔ)料進(jìn)行各種處理。
(二) 語(yǔ)料庫(kù)模塊劃分
在明確構(gòu)建目的和原則的基礎(chǔ)上,初步確立了語(yǔ)料庫(kù)構(gòu)建所涉及的幾個(gè)模塊,具體如圖1所示:
圖1中“語(yǔ)料選取及整理”“語(yǔ)料加工”是針對(duì)具體語(yǔ)料進(jìn)行的工作,是把選定、加工后的語(yǔ)料整合起來(lái),以一定方式存儲(chǔ)在數(shù)據(jù)庫(kù)中?!罢Z(yǔ)料庫(kù)管理及使用”是提供管理和使用該數(shù)據(jù)庫(kù)的平臺(tái),針對(duì)構(gòu)建好的語(yǔ)料庫(kù)設(shè)計(jì)管理、檢索系統(tǒng),以便為研究者提供共享服務(wù)。這三大模塊在語(yǔ)料庫(kù)構(gòu)建中都至關(guān)重要,其中“語(yǔ)料選取及整理”是基礎(chǔ),“語(yǔ)料加工”是核心,這兩者屬語(yǔ)料庫(kù)本體層,決定了語(yǔ)料庫(kù)構(gòu)建的質(zhì)量?!罢Z(yǔ)料庫(kù)管理及使用”屬語(yǔ)料庫(kù)應(yīng)用層,決定了語(yǔ)料庫(kù)的功能和用戶體驗(yàn)。這里先介紹本體層的兩個(gè)環(huán)節(jié)。
(三) 語(yǔ)料選取及分類(lèi)
語(yǔ)料是構(gòu)成語(yǔ)料庫(kù)的基礎(chǔ),語(yǔ)料的選取是影響語(yǔ)料庫(kù)質(zhì)量的重要因素。中古語(yǔ)料庫(kù)所收錄的絕大多數(shù)為東漢至隋朝時(shí)期的文獻(xiàn),在選取語(yǔ)料時(shí)要遵循代表性、平衡性、關(guān)聯(lián)性與區(qū)別度、特色性四大原則,(化振紅2014)以保證對(duì)中古時(shí)期語(yǔ)言事實(shí)的覆蓋率。入庫(kù)的語(yǔ)料如表1所示:
由于影響語(yǔ)言全貌的內(nèi)在因素有很多,單純從某一特征來(lái)界定語(yǔ)料庫(kù)的代表性、平衡性是不夠的,薩默斯主張采用一種“廣泛的客觀定義的文本類(lèi)型”(Leech 1991),基于該理論,本文主張從多個(gè)角度采用多種特征突出語(yǔ)料的區(qū)別度,如成書(shū)時(shí)代、作者、作者地域、類(lèi)型、出土/傳世文獻(xiàn)、語(yǔ)體等,這就使得對(duì)語(yǔ)料庫(kù)平衡性的界定突破了簡(jiǎn)單的線性描述。中古語(yǔ)料庫(kù)在收錄語(yǔ)料時(shí),在確保語(yǔ)料規(guī)模的基礎(chǔ)上,盡量均衡語(yǔ)料所具備的各種特征,并保證各種特征的值在所有特征值中不是獨(dú)一份的(除“作者”外),從而提高語(yǔ)料庫(kù)的代表性和平衡性。
中古時(shí)期的文獻(xiàn)雖然以文言為主,但古白話已經(jīng)開(kāi)始興起,文獻(xiàn)中的口語(yǔ)成分在數(shù)量上雖然比不上文言成分,其增量也十分可觀。然而文獻(xiàn)中的口語(yǔ)成分與書(shū)面語(yǔ)成分并不是截然分開(kāi)的,而是相互混雜、難以剝離的,比如,不少漢譯佛經(jīng)的受眾是廣大勞動(dòng)人民,為了便于傳播,其口語(yǔ)化程度更深;農(nóng)書(shū)、醫(yī)書(shū)強(qiáng)調(diào)實(shí)用性,口語(yǔ)性也較為突出,等等。基于中古漢語(yǔ)的這一特點(diǎn),再加上目前市面上已有的文獻(xiàn)情況,中古語(yǔ)料庫(kù)確定各種語(yǔ)料的大致收錄比例如表1,其中官修正史和漢譯佛典類(lèi)語(yǔ)料現(xiàn)存最多,也最具代表性,因此收錄數(shù)量也分別為最多、次多;其次分別是出土文獻(xiàn)、筆記小說(shuō)、詩(shī)歌等。
除此之外,對(duì)語(yǔ)料的加工方式及層次也進(jìn)行了分類(lèi)。標(biāo)記型指對(duì)分詞后的語(yǔ)料僅進(jìn)行句法層面的標(biāo)注,加工層級(jí)較淺;標(biāo)注型指對(duì)分詞后的語(yǔ)料進(jìn)行句法、語(yǔ)義、語(yǔ)用等方面的標(biāo)注,加工層級(jí)較深;而自動(dòng)型指僅借助中古漢語(yǔ)分詞軟件對(duì)語(yǔ)料進(jìn)行分詞的粗加工。從表1可以看出,目前中古漢語(yǔ)語(yǔ)料庫(kù)中絕大多數(shù)為深加工語(yǔ)料,標(biāo)注型與標(biāo)記型語(yǔ)料的比例將近1∶6。
(四) 語(yǔ)料加工
語(yǔ)料庫(kù)作為一種研究資源,其價(jià)值不能僅僅通過(guò)規(guī)模來(lái)衡量,語(yǔ)料庫(kù)更重要的價(jià)值在于通過(guò)加工給語(yǔ)料庫(kù)帶來(lái)的“附加”價(jià)值。這種“附加”價(jià)值就是對(duì)語(yǔ)料庫(kù)進(jìn)行多種有用語(yǔ)言信息的加工標(biāo)注,以擴(kuò)展語(yǔ)料庫(kù)的語(yǔ)言信息含量,從而對(duì)語(yǔ)言研究做出更大貢獻(xiàn)。生語(yǔ)料庫(kù)[2](尤其是漢語(yǔ))包含的詞法和句法等信息非常少,因此其應(yīng)用價(jià)值也就相對(duì)有限。分詞是漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)性工作,也是進(jìn)行語(yǔ)料標(biāo)注的前提,而詞是從句子中提取出來(lái)的。因此,中古語(yǔ)料庫(kù)語(yǔ)料加工流程包括斷句、分詞、標(biāo)注三個(gè)部分,具體如圖2所示。
圖2中,斷句是把文本拆成長(zhǎng)短合宜的句子,并對(duì)句子進(jìn)行篇章、書(shū)籍頁(yè)碼等相關(guān)信息的標(biāo)注;分詞是把斷句后的句子根據(jù)中古時(shí)期語(yǔ)言的實(shí)際使用情況拆分為詞語(yǔ);標(biāo)注是對(duì)拆分后的詞語(yǔ)進(jìn)行詞性、句法、義項(xiàng)、按語(yǔ)等相關(guān)信息的標(biāo)注。中古語(yǔ)料庫(kù)中的斷句過(guò)程相對(duì)簡(jiǎn)單,不贅述,這里主要介紹分詞和標(biāo)注兩大部分。
1. 分詞
漢語(yǔ)的詞沒(méi)有形式上的標(biāo)記,因而分詞對(duì)于漢語(yǔ)來(lái)說(shuō)是一件麻煩事。為了確保分詞的正確性和一致性[3],首先需要確立分詞規(guī)范。中古漢語(yǔ)分詞的難點(diǎn)已有專(zhuān)文論述(化振紅2014),分詞規(guī)范的細(xì)則也將另文闡釋。中古漢語(yǔ)語(yǔ)料庫(kù)的分詞采取人工分詞和自動(dòng)分詞兩種方法。人工分詞是逐句手工錄入,并參考上下文對(duì)句子結(jié)構(gòu)以詞為單位分析判斷并逐條錄入,非常耗費(fèi)人力和物力。自動(dòng)分詞采用CRF分詞模型(陳晴2005),在模版中加入古漢語(yǔ)音韻、構(gòu)字等信息,以提高分詞正確率,詳情另有專(zhuān)文論述(石民,李斌,陳小荷2010)。需要指出的是該論文的實(shí)驗(yàn)對(duì)象是先秦文獻(xiàn),先秦文獻(xiàn)與中古文獻(xiàn)存在一定差異,再加上中古文獻(xiàn)內(nèi)部本身存在著很大的區(qū)別度(陳小荷,馮敏萱,徐潤(rùn)華等2013),自動(dòng)分詞的準(zhǔn)確率不是很高,目前僅在80%~90%,但已成倍提高了人工分詞的效率?,F(xiàn)今仍需通過(guò)提高分詞一致性、細(xì)化分詞規(guī)范、調(diào)整訓(xùn)練數(shù)據(jù)等方法進(jìn)一步提高分詞的準(zhǔn)確率。
2. 標(biāo)注
為了能夠從語(yǔ)料庫(kù)中抽取出更多有用信息,必須對(duì)語(yǔ)料進(jìn)行標(biāo)注。語(yǔ)料庫(kù)是供許多帶著不同目的的用戶使用的。數(shù)字化手段讓研究者能從多角度對(duì)多層次帶標(biāo)注語(yǔ)料進(jìn)行數(shù)據(jù)挖掘,大大拓展了語(yǔ)言研究的深度和廣度,有些研究目的甚至連語(yǔ)料庫(kù)設(shè)計(jì)者都不曾想到過(guò)。因此,語(yǔ)料庫(kù)的多層次標(biāo)注很重要。中古語(yǔ)料的標(biāo)注應(yīng)遵循兩個(gè)基本原則:
一是語(yǔ)料加工分為篇、章、句、詞四個(gè)層級(jí),由大到小對(duì)這幾個(gè)層級(jí)進(jìn)行標(biāo)注。
二是標(biāo)注資源具有復(fù)用性。語(yǔ)料庫(kù)的標(biāo)注昂貴且耗時(shí),如果能復(fù)用就物有所值了。為保證語(yǔ)料庫(kù)的復(fù)用性,需使每本文獻(xiàn)、每層標(biāo)注信息有足夠的獨(dú)立性,改變某文獻(xiàn)、某層的標(biāo)注信息不會(huì)對(duì)其他語(yǔ)料產(chǎn)生影響。
黃昌寧等(2002)指出,目前語(yǔ)言各層面的標(biāo)注發(fā)展很不平衡。發(fā)展較快的有詞匯層、句法層、語(yǔ)音層和音位層等,今后應(yīng)重點(diǎn)加強(qiáng)語(yǔ)義層和語(yǔ)用層的標(biāo)注。(黃昌寧,李涓子2002)由于中古時(shí)期漢語(yǔ)的語(yǔ)音系統(tǒng)與今天相比有很大不同,語(yǔ)音標(biāo)注困難很大且并沒(méi)有很強(qiáng)的實(shí)用性。語(yǔ)料庫(kù)的標(biāo)注取決于語(yǔ)料庫(kù)的整體設(shè)計(jì)及具體研究目的,同時(shí)也是一個(gè)重要的檢索依據(jù)。(梁茂成,李文中,許家金2010)中古語(yǔ)料庫(kù)的標(biāo)注信息宜涵蓋篇章、詞匯、句法、語(yǔ)義、語(yǔ)用各層,并對(duì)文獻(xiàn)中涉及的疑難字以圖片格式進(jìn)行收錄標(biāo)注。據(jù)此,中古語(yǔ)料庫(kù)中的標(biāo)注從大到小包括以下五個(gè)方面。
(1) 語(yǔ)篇標(biāo)注。語(yǔ)篇標(biāo)注包括文本來(lái)源、版本、朝代、作者等相關(guān)信息。如果語(yǔ)料源于書(shū)籍,該書(shū)籍的版本、頁(yè)碼信息等也會(huì)標(biāo)注出來(lái)。篇章書(shū)籍信息是古文獻(xiàn)、古漢語(yǔ)研究專(zhuān)家進(jìn)行相關(guān)研究的基本信息。語(yǔ)篇標(biāo)注和??焙蟮奈墨I(xiàn)構(gòu)成中古語(yǔ)料庫(kù)中獨(dú)立的書(shū)籍庫(kù)。
(2) 句子標(biāo)注。句子標(biāo)注是把語(yǔ)篇中的句子標(biāo)記上文本自身的信息,以便管理者統(tǒng)一管理語(yǔ)料庫(kù)中的語(yǔ)料。常用的文本信息包括行分割符、行數(shù)、章、節(jié)、段落等,中古語(yǔ)料庫(kù)中選取“章節(jié)段句”這四層信息組成編碼對(duì)句子進(jìn)行標(biāo)注,形成句子標(biāo)記。該標(biāo)注信息屬于篇章層,但在詞匯層會(huì)自動(dòng)生成詞匯所從屬句子的句子標(biāo)記,從而使詞匯層可以獨(dú)立于句子層。該標(biāo)記不僅方便語(yǔ)料庫(kù)管理者統(tǒng)一管理語(yǔ)料,而且是詞匯和句子進(jìn)行關(guān)聯(lián)的中介,為檢索詞匯時(shí)可以查詢到上下文信息提供了條件。句子標(biāo)注連同句子形成了句子庫(kù)。
(3) 詞匯標(biāo)注。詞匯標(biāo)注是指對(duì)詞匯從語(yǔ)法地位、詞性、釋義、用法四個(gè)方面進(jìn)行標(biāo)注,分別稱(chēng)為“句法標(biāo)注”“詞性標(biāo)注”“義項(xiàng)標(biāo)注”“用法標(biāo)注”。其中詞的句法、詞性、用法標(biāo)注信息均為封閉類(lèi),如表2所示:
由表2可知,句法標(biāo)注、詞性標(biāo)注屬于句法層;用法標(biāo)注的層次比較復(fù)雜,大部分屬于語(yǔ)用層,其中“古今字”“通假字”“假借字”屬于漢字層面;義項(xiàng)標(biāo)注屬于語(yǔ)義層。義項(xiàng)標(biāo)注后的詞條匯總形成了義項(xiàng)庫(kù),句法、詞性、用法標(biāo)注信息與詞匯共同形成了詞庫(kù)。
詞匯標(biāo)注中,尤其值得一提的是語(yǔ)義層的義項(xiàng)標(biāo)注,它在中古語(yǔ)料庫(kù)的構(gòu)建中是一項(xiàng)十分重要的基礎(chǔ)性工作。如果把古漢語(yǔ)中每個(gè)詞的現(xiàn)代意義搞清楚,基本語(yǔ)義也就理解了。義項(xiàng)標(biāo)注信息和中古文獻(xiàn)信息形成了古今平行對(duì)比語(yǔ)料,因此,義項(xiàng)標(biāo)注在中古語(yǔ)料庫(kù)中是重中之重。為了提高義項(xiàng)標(biāo)注的速度,避免把時(shí)間過(guò)多地花費(fèi)在查閱相關(guān)資料上,中古語(yǔ)料庫(kù)中設(shè)立了通用義項(xiàng)庫(kù),義項(xiàng)庫(kù)的構(gòu)成如圖3所示:
中古語(yǔ)料庫(kù)中的義項(xiàng)庫(kù)目前共包括不重復(fù)的541456條義項(xiàng),隨著語(yǔ)料庫(kù)構(gòu)建過(guò)程中自擬義項(xiàng)的增加和其他相關(guān)研究成果的錄入,義項(xiàng)庫(kù)的庫(kù)容仍會(huì)進(jìn)一步增加。
(4) 按語(yǔ)標(biāo)注。傳世文獻(xiàn)在流傳過(guò)程中不可避免地會(huì)產(chǎn)生一些訛誤,甚至?xí)霈F(xiàn)不同的文本;再加上時(shí)代的限制和編纂者認(rèn)識(shí)上的局限,詞典對(duì)古代文獻(xiàn)的釋義、對(duì)最早文獻(xiàn)的引例也難免會(huì)有所疏漏。這種在對(duì)文本標(biāo)注時(shí)需要特別說(shuō)明的信息可放在按語(yǔ)中。按語(yǔ)信息可以避免研究者重復(fù)前人已進(jìn)行過(guò)的工作,對(duì)研究工作會(huì)起到一定輔助作用。
(5) 疑難字標(biāo)注。中古文獻(xiàn)中存在著一些現(xiàn)代字庫(kù)中不支持的字,還有一些出土文獻(xiàn)中的字尚未能完全辨識(shí)。針對(duì)這些疑難字,語(yǔ)料庫(kù)專(zhuān)門(mén)設(shè)置疑難字庫(kù),以圖片的形式存儲(chǔ),并對(duì)該疑難字進(jìn)行編號(hào),通過(guò)編號(hào)可定位到該疑難字的上下文信息及語(yǔ)義信息。
使用Access進(jìn)行標(biāo)注的主界面設(shè)計(jì)圖如圖4所示:
綜上可知,中古研究型語(yǔ)料庫(kù)由其所包含文本的書(shū)籍、句子、詞匯、義項(xiàng)、疑難字信息(分別對(duì)應(yīng)于上圖中的“shuji、juzi、cihui、yixiang、quezi”五張表)組成,包含書(shū)籍庫(kù)、句子庫(kù)、詞匯庫(kù)、義項(xiàng)庫(kù)、疑難字庫(kù)五大子庫(kù)。此外,為了方便語(yǔ)料庫(kù)的管理和使用,語(yǔ)料庫(kù)中還設(shè)有用戶信息庫(kù)。
三、 檢索管理系統(tǒng)研發(fā)
語(yǔ)料庫(kù)不僅是文本的集合,它還應(yīng)該具有良好的存儲(chǔ)、擴(kuò)展、檢索、反饋、修正等性能,以便各種研究人員都能從中得到自己所需要的信息。為方便語(yǔ)料庫(kù)的管理和使用,我們針對(duì)中古語(yǔ)料庫(kù)研發(fā)了檢索管理系統(tǒng),其功能如圖5所示。
(一) 管理系統(tǒng)
管理系統(tǒng)是提供給語(yǔ)料庫(kù)內(nèi)部成員使用以便操作和管理語(yǔ)料庫(kù)的頁(yè)面管理系統(tǒng)。它主要提供了書(shū)籍和疑難字的增加、刪除、查詢功能。書(shū)籍的管理功能是以已加工的語(yǔ)料作為對(duì)象按書(shū)籍為單位進(jìn)行的,包括書(shū)籍庫(kù)、句子庫(kù)、詞匯庫(kù)、義項(xiàng)庫(kù)。對(duì)疑難字的管理直接以疑難字庫(kù)為單位,每個(gè)疑難字的記錄中又有它所對(duì)應(yīng)的語(yǔ)料及篇章段信息。如果需要對(duì)單個(gè)語(yǔ)料中的標(biāo)注信息進(jìn)行更改維護(hù),無(wú)須直接操作語(yǔ)料庫(kù)中的數(shù)據(jù),只要在未導(dǎo)入的語(yǔ)料版本中直接通過(guò)Access數(shù)據(jù)庫(kù)進(jìn)行修改,確認(rèn)無(wú)誤后再次導(dǎo)入數(shù)據(jù)庫(kù)即可。
(二) 檢索系統(tǒng)
語(yǔ)料庫(kù)建立之后將提供給研究者使用,使他們能夠訪問(wèn)語(yǔ)料庫(kù)內(nèi)容,對(duì)相關(guān)語(yǔ)言現(xiàn)象進(jìn)行分析研究。檢索系統(tǒng)是實(shí)現(xiàn)語(yǔ)料庫(kù)共享的必要條件,也是語(yǔ)料庫(kù)應(yīng)該向用戶提供的基本工具?;跈z索系統(tǒng)在語(yǔ)料庫(kù)研發(fā)中的重要地位,中古語(yǔ)料庫(kù)檢索系統(tǒng)滿足以下幾個(gè)條件。
1. 檢索條件多樣化
檢索條件設(shè)置得是否適宜、專(zhuān)業(yè),這直接決定了語(yǔ)料庫(kù)的用戶功能適用性,也影響著使用者對(duì)整個(gè)檢索系統(tǒng)的使用體驗(yàn)。由圖5可知,中古語(yǔ)料庫(kù)具有五種主要的查詢方式:
(1) 標(biāo)記型查詢。檢索條件是同一詞的詞形、詞性、句法三種信息的組合。
(2) 標(biāo)注型查詢。檢索條件是同一詞的詞形、句法、義項(xiàng)三種信息的組合。
(3) 組合查詢。檢索條件是兩個(gè)不同詞的邏輯關(guān)系組合,包括相鄰、同句、或、非四種邏輯關(guān)系。其中“相鄰”指這兩個(gè)選定的詞處于同一句子語(yǔ)料中的相鄰位置;“同句”指它們處于同一句語(yǔ)料,但不是相鄰位置;“或”指檢索結(jié)果中包含這兩個(gè)選定詞中任何一個(gè);“非”指檢索結(jié)果中包含前一個(gè)選定詞但不包含后一個(gè)選定詞。
(4) 對(duì)比查詢。檢索條件是同一或不同的兩個(gè)詞的詞形、句法、書(shū)籍信息的組合。用于對(duì)同一詞的不同句法地位或所在文獻(xiàn)(或者不同詞的不同句法地位或所在文獻(xiàn))進(jìn)行對(duì)比檢索。
(5) 疑難字查詢。檢索條件為書(shū)籍、疑難字編號(hào)兩種信息的組合。
除了這五種基本檢索功能外,中古語(yǔ)料庫(kù)還實(shí)現(xiàn)了檢索結(jié)果是否附加上下文信息的可選項(xiàng)。還可以針對(duì)詞的不同特征選擇不同的查詢范圍,如高頻詞可以選擇某本專(zhuān)書(shū)查詢來(lái)減小用例的查詢范圍,低頻詞可以選擇全語(yǔ)料庫(kù)查詢來(lái)擴(kuò)大用例的查詢范圍。
2. 結(jié)果輸出方便快捷,且易于保存
中古語(yǔ)料庫(kù)檢索系統(tǒng)的輸出結(jié)果以網(wǎng)頁(yè)形式呈現(xiàn),可直接保存為文本。
3. 解讀清晰易懂
檢索系統(tǒng)頁(yè)面上不存在語(yǔ)料庫(kù)設(shè)計(jì)時(shí)所使用的內(nèi)部編碼(如用法碼“RM01”代表用法“姓加名”),內(nèi)部編碼均以轉(zhuǎn)碼形式轉(zhuǎn)換為自然詞匯,符合使用者的操作習(xí)慣,不需要研究者再去過(guò)多學(xué)習(xí)語(yǔ)料庫(kù)操作規(guī)范,且轉(zhuǎn)碼后整個(gè)檢索系統(tǒng)的頁(yè)面顯得更加清晰易懂。
4. 具有開(kāi)放性和可維護(hù)性
整個(gè)語(yǔ)料庫(kù)通過(guò)檢索系統(tǒng)實(shí)現(xiàn)開(kāi)放性,通過(guò)數(shù)據(jù)庫(kù)維護(hù)或管理系統(tǒng)實(shí)現(xiàn)可維護(hù)性。用戶在使用檢索系統(tǒng)時(shí)如需交流意見(jiàn),可在頁(yè)面上直接進(jìn)行反饋,反饋信息會(huì)以郵件的形式發(fā)送給語(yǔ)料庫(kù)管理員,由管理員收集整理后提交給語(yǔ)料庫(kù)維護(hù)專(zhuān)業(yè)人員進(jìn)行討論和回復(fù)。
四、 中古語(yǔ)料庫(kù)的應(yīng)用
(一) 漢語(yǔ)史研究
中古語(yǔ)料庫(kù)最基本的服務(wù)對(duì)象是漢語(yǔ)史研究人員。由于在語(yǔ)篇、句子、詞匯等多個(gè)層面對(duì)文獻(xiàn)進(jìn)行了標(biāo)注,它可以支持多種檢索方式,漢語(yǔ)史研究人員利用這些檢索結(jié)果可以進(jìn)行特定的語(yǔ)言學(xué)研究,例如以下四個(gè)方面的應(yīng)用:
第一,使用中古語(yǔ)料庫(kù)中最基本的句法、義項(xiàng)、特定句式、詞性、疑難字查詢、統(tǒng)計(jì)功能,以輔助相關(guān)的語(yǔ)言學(xué)研究及語(yǔ)文教學(xué)。
第二,根據(jù)不同的研究目的,可對(duì)句法、義項(xiàng)、詞性三個(gè)條件變換各種組合進(jìn)行查詢、統(tǒng)計(jì),可用以輔助對(duì)中古時(shí)期特定詞匯、句法的研究。
第三,根據(jù)字詞的使用頻率統(tǒng)計(jì)結(jié)果,大致確定中古時(shí)期常用詞的范圍,然后結(jié)合句法、義項(xiàng)、語(yǔ)用查詢來(lái)研究常用詞在句法成分、語(yǔ)義等方面的應(yīng)用、變化情況。
第四,檢索同一詞匯、句法結(jié)構(gòu)在各個(gè)文獻(xiàn)中的使用情況,以對(duì)不同類(lèi)別、時(shí)期、作者的文獻(xiàn)語(yǔ)言風(fēng)格進(jìn)行對(duì)比研究。
(二) 中古漢語(yǔ)詞典編纂
中古漢語(yǔ)語(yǔ)料庫(kù)收錄了大批中古時(shí)期的文獻(xiàn),為詞典編纂提供了大量可供篩選的例證。此外,語(yǔ)料庫(kù)中對(duì)每個(gè)詞進(jìn)行了詞性、句法、義項(xiàng)等方面的標(biāo)注,標(biāo)注時(shí)主要采用人工方法,在參考各種權(quán)威中古漢語(yǔ)詞典的基礎(chǔ)上,對(duì)各個(gè)詞的義項(xiàng)、用法及例證進(jìn)行考證、補(bǔ)充、修正,此外還對(duì)人名、地名、稱(chēng)號(hào)、離合式詞等進(jìn)行了語(yǔ)用標(biāo)注。這些標(biāo)注信息可以提供中古時(shí)期每個(gè)詞匯各個(gè)層面的統(tǒng)計(jì)信息,為中古漢語(yǔ)斷代詞典的編纂提供了直接依據(jù),專(zhuān)家只需根據(jù)分詞情況對(duì)檢索到的例證進(jìn)行篩選,不僅為詞項(xiàng)賦義提供了客觀標(biāo)準(zhǔn),也保證了詞典可以真實(shí)反映中古時(shí)期的語(yǔ)言面貌,同時(shí)也大大減少了詞典編纂人員的工作強(qiáng)度、縮短了編纂周期。
(三) 語(yǔ)言教學(xué)及文化研究
中古漢語(yǔ)語(yǔ)料庫(kù)可以直接或間接用于中古文獻(xiàn)的教學(xué)。不僅老師可以利用語(yǔ)料庫(kù)向?qū)W生展示某些特定語(yǔ)法范疇、詞匯在中古時(shí)期的使用情況,學(xué)生也可以自己利用語(yǔ)料庫(kù)來(lái)檢索詞的用法、搭配、詞義間的細(xì)微差別等,也就是所謂的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)。這種學(xué)習(xí)方法不僅能為學(xué)生營(yíng)造一個(gè)真實(shí)的語(yǔ)境,而且能提供一種探索語(yǔ)言的手段,對(duì)教學(xué)的意義是顯而易見(jiàn)的。
除此之外,中古漢語(yǔ)語(yǔ)料庫(kù)收錄了中古時(shí)期多個(gè)領(lǐng)域(如歷史、宗教、醫(yī)學(xué)、農(nóng)業(yè)等)的多本專(zhuān)書(shū),并對(duì)這些書(shū)做了???、分詞、標(biāo)注,這就為相關(guān)領(lǐng)域的文化研究提供了可靠的電子檢索資源。
五、 結(jié)語(yǔ)
中古漢語(yǔ)研究型語(yǔ)料庫(kù)是我國(guó)第一個(gè)針對(duì)中古時(shí)期文獻(xiàn)的斷代專(zhuān)語(yǔ)語(yǔ)料庫(kù),目前在該語(yǔ)料庫(kù)建設(shè)中仍不可避免地存在一些問(wèn)題,隨著分詞規(guī)范進(jìn)一步細(xì)化、分詞一致性的提高、對(duì)中古詞匯特點(diǎn)的深入了解、自動(dòng)分詞正確率的提升,這些問(wèn)題也將逐步得到解決。該語(yǔ)料庫(kù)目前已應(yīng)用于中古時(shí)期專(zhuān)書(shū)、詞匯、語(yǔ)法等方面的研究,并產(chǎn)生了一些成果。隨著語(yǔ)料庫(kù)的構(gòu)建完成并實(shí)現(xiàn)共享,詞典編纂、歸納性語(yǔ)法、語(yǔ)義搭配等相關(guān)應(yīng)用研究不難預(yù)見(jiàn),而更深層次的語(yǔ)言研究及其他專(zhuān)項(xiàng)應(yīng)用研究也等待諸位同仁共同來(lái)發(fā)掘。
附注
[1]MySQL是一種開(kāi)放源代碼的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),具有速度快、可靠性高和適應(yīng)性強(qiáng)等優(yōu)點(diǎn)。在不需要事務(wù)化處理的情況下,MySQL是管理內(nèi)容最好的選擇。
[2]生語(yǔ)料指收集以后未經(jīng)加工的語(yǔ)料,生語(yǔ)料庫(kù)指收錄生語(yǔ)料的數(shù)據(jù)庫(kù);與此相對(duì),熟語(yǔ)料指經(jīng)過(guò)加工的語(yǔ)料。
[3]在保持語(yǔ)義同一性的前提下,結(jié)構(gòu)體在語(yǔ)料庫(kù)中的分合是否始終一致,如“豬肉”是否始終保持為一個(gè)整體,或者始終分開(kāi)。(孫茂松1999: 90—93)
參考文獻(xiàn)
1. 陳晴.基于條件隨機(jī)場(chǎng)的自動(dòng)分詞技術(shù)的研究.東北大學(xué)碩士學(xué)位論文.2005.
2. 陳小荷,馮敏萱,徐潤(rùn)華等.先秦文獻(xiàn)信息處理.北京: 世界圖書(shū)出版公司,2013.
3. 董志翹.為中古漢語(yǔ)研究夯實(shí)基礎(chǔ)——“中古漢語(yǔ)研究型語(yǔ)料庫(kù)”建設(shè)瑣議.燕山大學(xué)學(xué)報(bào),2011(1).
4. 國(guó)家技術(shù)監(jiān)督局.信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范.北京: 中國(guó)標(biāo)準(zhǔn)出版社,1993.
5. 化振紅.深加工中古漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的若干問(wèn)題.西南大學(xué)學(xué)報(bào),2014(3).
6. 黃昌寧,李涓子.語(yǔ)料庫(kù)語(yǔ)言學(xué).北京: 商務(wù)印書(shū)館,2002.
7. 梁茂成,李文中,許家金.語(yǔ)料庫(kù)應(yīng)用教程.北京: 外語(yǔ)教學(xué)與研究出版社,2010.
8. 石民,李斌,陳小荷.基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究.中文信息學(xué)報(bào),2010(2).
9. 孫茂松.談?wù)劃h語(yǔ)分詞語(yǔ)料庫(kù)的一致性問(wèn)題.語(yǔ)言文字應(yīng)用,1999(2).
10. Leech G. The State of Art in Corpus Linguistics. English Corpus Linguistics, 1991(1): 1—16.
(南京師范大學(xué)中文系南京210000)
(責(zé)任編輯馬沙)