王大鵬
(渤海大學(xué)大學(xué)外語教研部,遼寧錦州,121013)
語料庫是為一個(gè)或多個(gè)應(yīng)用目標(biāo)而專門收集,有一定結(jié)構(gòu)、代表性、可被計(jì)算機(jī)程序檢索、具有一定規(guī)模的語料的集合。現(xiàn)代語料庫語言學(xué)基于計(jì)算機(jī)平臺(tái),并隨計(jì)算機(jī)技術(shù)的發(fā)展而逐步走向成熟。目前,國內(nèi)絕大多數(shù)語料庫仍然采用TXT存儲(chǔ),但在其中融入了TEI 文本編碼及CES標(biāo)準(zhǔn)——兩者均基于SGML或XML標(biāo)記語言。采用此標(biāo)注方式的語料庫有:JDEST,CLEC,SWECCL,COLSEC,PACCEL等。但國外權(quán)威的語料庫如BNC第二版是完整意義上的SGML,第三版更新為XML,已不再采用TXT模式存儲(chǔ)。
TXT存儲(chǔ)模式的優(yōu)勢在于文本占用空間小,檢索速度快;常用于檢索TXT文本的檢索器有WordSmith, Antconc等。基于TXT并融入XML的標(biāo)記模式可以滿足簡單的研究需求,但缺點(diǎn)在于此模式并非完整意義上的XML文檔,不適合復(fù)雜的多層及和多維度標(biāo)注。如:對一個(gè)語料庫同時(shí)進(jìn)行詞性標(biāo)注、語義標(biāo)注和語篇信息標(biāo)注時(shí),TXT存儲(chǔ)模式的語料庫必須建立相應(yīng)的新庫以滿足需求,檢索也必須分別、獨(dú)立進(jìn)行,耗時(shí)耗力。 簡言之,TXT模式的語料庫已不適用于復(fù)雜的語言研究需求,取而代之的是真正意義的XML語料庫。
XML(Extensible Markup Language)可擴(kuò)展性標(biāo)記語言繼承了SGML(Standard Generalized Markup Language)的優(yōu)勢并由其簡化而來,由于其描述性強(qiáng),易讀性好,可跨平臺(tái)和系統(tǒng)使用等特性,已成為一種通用的數(shù)據(jù)交換格式。XML Schema的優(yōu)勢在于:一、可定義文檔結(jié)構(gòu)和語法標(biāo)準(zhǔn);二、支持更多的數(shù)據(jù)類型定義,允許用戶自定義,具有更好的擴(kuò)展性;三、提供了一套更為完整而易用的機(jī)制去規(guī)范XML文檔中的標(biāo)記使用。文檔樹的應(yīng)用使復(fù)雜的信息標(biāo)記和數(shù)據(jù)索引更為簡化。以上優(yōu)勢適用于復(fù)雜的多層級(jí)和多維度語言研究。目前較為流行的基于XML語料庫建庫和檢索的工具有MMAX和UAM Corpus Tool,本文以UAM Corpus Tool為例介紹XML在語料庫建設(shè)及后期檢索、開發(fā)中的應(yīng)用。UAM Corpus Tool的軟件特色是:一、采用Stand-off XML 標(biāo)注模式,標(biāo)注文件和生語料庫分離式存儲(chǔ),便于多維度、多層及分析同一語料庫;二、多個(gè)文本或多套語料庫可使用同一標(biāo)注體系進(jìn)行標(biāo)注,由于標(biāo)注方案獨(dú)立存儲(chǔ)在XML文件中,便于跨程序共享。 三、提供多層級(jí)標(biāo)注、跨層級(jí)檢索和跨標(biāo)注子集數(shù)據(jù)對比等功能。
實(shí)驗(yàn)語料選自BNC(第三版)中的書面語部分,隨機(jī)抽取其中100篇文章并去除原始標(biāo)注和標(biāo)記,分析這些篇章的語法特征、語域分布和語篇銜接特點(diǎn)。語法特征分析即對實(shí)驗(yàn)語料進(jìn)行句法標(biāo)注,程序自動(dòng)調(diào)用Stanford Parser對文本進(jìn)行標(biāo)注。語域分布研究語篇的分布類型,如:新聞、小說、學(xué)術(shù)英語和雜志等。語篇分析部分,著重分析語篇的銜接,銜接是語篇特征的重要內(nèi)容,它體現(xiàn)在語篇的表層結(jié)構(gòu),可分為語法銜接和詞匯銜接,語法手段又可分為照應(yīng)、替代和省略和連接;詞匯手段可分為復(fù)現(xiàn)關(guān)系和同現(xiàn)關(guān)系。此標(biāo)注體系包含了三大維度及其下多個(gè)層級(jí)的樹狀關(guān)系,基于XML的UAM Corpus Tool尤其適用這種復(fù)合式標(biāo)注。點(diǎn)擊Add Layer添加標(biāo)注維度,點(diǎn)擊Edit詳細(xì)制定標(biāo)注層級(jí)(圖1)。在編輯具體的標(biāo)注層級(jí)時(shí)候需注意,大括號(hào)和方括號(hào)表示不同的含義,這與系統(tǒng)功能語言學(xué)定義兩種不同括號(hào)的功能有關(guān):大括號(hào)為包容關(guān)系,方括號(hào)為互斥關(guān)系。多維度、多層及的標(biāo)注體系制定完成后,便可用其標(biāo)注語料庫了。
UAM Corpus Tool是一款多功能的語料庫工具,集建庫、檢索和統(tǒng)計(jì)等功能于一身。 本程序支持跨標(biāo)注層級(jí)的復(fù)合式檢索,如查詢復(fù)合句中包含was的從句,通過clause + containing immediately “was”的表達(dá)式,可檢索到 They left because[she was tired]之類的句子;檢索使用過去完成時(shí)的從句,可編寫表達(dá)式:past-perfect + anywhere in clause。檢索語篇銜接中的前指照應(yīng)可編寫表達(dá)式:cohesion + containing anywhere anaphoric-reference。數(shù)據(jù)統(tǒng)計(jì)方面,提供語料庫的文本復(fù)合度、詞匯密度、主觀性分析和指稱密度等基本統(tǒng)計(jì)。 提供兩個(gè)標(biāo)注集的對比功能,即兩個(gè)集合在指定層級(jí)上所標(biāo)注特征的數(shù)據(jù)對比;差異顯著性可通過T檢驗(yàn)和方差來量化統(tǒng)計(jì),提供多文本數(shù)據(jù)對比功能。 拓展功能方面,提供詞的云圖(word cloud)和詞圖(word plot)功能,使語料庫高頻詞顯示更為直觀化。 自動(dòng)標(biāo)注部分(Autocode)可根據(jù)特征自動(dòng)的批量標(biāo)注文本,表達(dá)式Select passive if contains 'be% @participle表示:如果句中包含有be動(dòng)詞及動(dòng)詞的過去分詞形式,此句會(huì)被標(biāo)注為被動(dòng)句;Select active if clauses and not passive則將其它的非被動(dòng)句標(biāo)注為主動(dòng)句。
當(dāng)今語料庫領(lǐng)域,集標(biāo)注、檢索、統(tǒng)計(jì)和兼顧后期在線檢索功能的軟件只有MMAX和UAM,以上兩款程序均基于完整意義上的XML建設(shè)語料庫。采用Stand-off XML建設(shè)的語料庫,其標(biāo)注方案獨(dú)立存貯,可跨程序應(yīng)用于其它系統(tǒng)平臺(tái)。因此,基于以上兩款程序建設(shè)的語料庫便于在線檢索的后期開發(fā)。在互聯(lián)網(wǎng)迅猛發(fā)展的今天,語料庫發(fā)展有在線化的趨勢,在線語料庫可以打破時(shí)空和版權(quán)限制供更多人使用,優(yōu)勢不言而喻。 在線語料庫的建設(shè)需要應(yīng)用SQL數(shù)據(jù)庫系統(tǒng),XML可完美應(yīng)用于此平臺(tái)。MMAX和UAM CORPUS TOOL從研究特征的選擇、語料的準(zhǔn)備、標(biāo)注的進(jìn)行到后期的數(shù)據(jù)庫索引、在線檢索統(tǒng)計(jì)等都要一體設(shè)計(jì)。世界上較成功的實(shí)例是MARK DAVIES設(shè)計(jì)開發(fā)的系列在線檢索平臺(tái),其基于微軟的商用數(shù)據(jù)庫MSSQL,如COCA(http://corpus.byu.edu/coca/)和 BNC(http://corpus.byu.edu/bnc/);國內(nèi)的北京外國語大學(xué)和上海交通大學(xué)等院校也均設(shè)有大型在線檢索平臺(tái)。在線語料庫建設(shè)的模式很多,如:可采用Dreamweaver與PHP & MYSQL相結(jié)合的方式。通過Dreamweaver來完成檢索面板,以及數(shù)據(jù)庫連接與查詢、插入、更新和刪除等部分;MYSQL為免費(fèi)開源數(shù)據(jù)庫,PHP的設(shè)計(jì)目的是用于編寫Web腳本,對MYSQL支持較好,是一種服務(wù)端和跨平臺(tái)技術(shù),可完美運(yùn)行在絕大多數(shù)操作系統(tǒng)上。在線語料庫建設(shè)完畢后,用戶只需要訪問該網(wǎng)站,便可對語料庫進(jìn)行基本的查詢和統(tǒng)計(jì);語料庫網(wǎng)站由專人進(jìn)行維護(hù)和更新,用戶不需要學(xué)習(xí)語料庫后臺(tái)維護(hù)技術(shù)。在線語料庫技術(shù)使語料庫的統(tǒng)計(jì)和檢索如同使用百度和谷歌一樣便捷。
XML技術(shù)已成為跨平臺(tái)、跨應(yīng)用程序的一種通用標(biāo)準(zhǔn),其應(yīng)用于語料庫領(lǐng)域有利于規(guī)范語料庫的標(biāo)注模式、打破應(yīng)用壁壘、減少重復(fù)建設(shè);使語料庫不僅可以應(yīng)用在語言學(xué)領(lǐng)域,還可應(yīng)用在軍事、醫(yī)學(xué)、社會(huì)生活等各個(gè)方面。 基于XML的語料庫技術(shù)在“大型在線語料庫建設(shè)、基于云計(jì)算的語料庫藍(lán)圖規(guī)劃和安卓系統(tǒng)下的語料庫終端建設(shè)等方面都具有重大的理論和現(xiàn)實(shí)意義。
[1]馮志偉.序言 語料庫語言學(xué)的進(jìn)展 [Z].2009:d9.
[2]朱暾,樓新遠(yuǎn).基于XML Schema XML索引技術(shù)研究[J].鐵路計(jì)算機(jī)應(yīng)用,2011,20(10):8-10+14.
[3]郭艷艷,吳揚(yáng)揚(yáng).一種基于XML schema的XML索引[J].華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(1):43-47.
[4]黃國文.語篇分析概要[M].湖南:湖南教育出版社,1988.[5]Halliday,M.A.K.& R.Hason.Cohesion in English[M].London:Longman,1976.