俄語國家語料庫的標(biāo)注系統(tǒng)

2014-09-27 03:05:23陳虹

文教資料 2014年12期

陳虹

摘要：標(biāo)注是語料庫的重要特征，其層次和質(zhì)量決定所建語料庫的級(jí)別和有效使用程度。俄語國家語料庫是當(dāng)今世界上成功創(chuàng)建的大型現(xiàn)代語料庫之一，其標(biāo)注模式是在國際標(biāo)注模式的基礎(chǔ)上，結(jié)合俄語自身的語言特征進(jìn)行擴(kuò)展的成功范例。目前它的標(biāo)注體系包括四種，即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語義標(biāo)注。研究國外包括俄語在內(nèi)的各語種語料庫的標(biāo)注經(jīng)驗(yàn)，可以更好地為建設(shè)國內(nèi)語料庫提供參考和借鑒。

關(guān)鍵詞：俄語國家語料庫標(biāo)注語料庫

一、引言

在創(chuàng)建語料庫時(shí)，需要對收集來的普通文本進(jìn)行處理，即在純文本文件中添加表示文本基本信息或文本單位語言特征的特殊符號(hào)或符號(hào)串，這些符號(hào)或符號(hào)串稱為標(biāo)記或附碼（тэг，tag）。為語料庫純文本添加標(biāo)記的過程稱為標(biāo)注（разметка или аннотация，annotation or tagging），標(biāo)注后，文本包含的信息由隱性變?yōu)轱@性，利用相應(yīng)的檢索系統(tǒng)可以最大限度地使用語料庫，語料庫的有效使用依賴于純文本標(biāo)注的層次和質(zhì)量。對純文本利用計(jì)算機(jī)資源進(jìn)行批量處理和檢索，以及多維度、多層面標(biāo)注純文本，是語料庫語言學(xué)、計(jì)算語言學(xué)的重要課題之一。

從世界范圍來看，俄語語料庫的標(biāo)注以俄語國家語料庫（Национальный Корпус Русского Языка，НКРЯ）的標(biāo)注最成功、最具代表性，層次和質(zhì)量最高。和漢語一樣，俄語也是世界上最復(fù)雜的語言之一，研究俄語純文本的標(biāo)注及俄語語料庫的標(biāo)注系統(tǒng)，有助于進(jìn)行漢語相關(guān)領(lǐng)域的研究。

二、語料庫標(biāo)注

（一）語料庫標(biāo)注的規(guī)范語言

為了表示文本中包含的語言信息，方便語言學(xué)研究，語料庫需要進(jìn)行規(guī)范、系統(tǒng)的標(biāo)注。適用于萬維網(wǎng)大多數(shù)網(wǎng)頁的標(biāo)記語言——HTML語言（HyperText Markup Language，超文本標(biāo)記語言），由于其標(biāo)記是固定的，因此不能滿足標(biāo)記必須是自定義的語料庫標(biāo)注的需要?，F(xiàn)階段世界各國開發(fā)語料庫使用的標(biāo)記語言有兩種，即SGML語言（Standard General Markup Language，標(biāo)準(zhǔn)通用標(biāo)記語言）和XML語言（Extensible Markup Language，可擴(kuò)展標(biāo)記語言）。

SGML語言是1986年國際標(biāo)準(zhǔn)化組織頒布的一個(gè)信息管理方面的國際標(biāo)準(zhǔn)（ISO8879：1986），用于規(guī)定在各種電子文本中嵌入描述標(biāo)記的標(biāo)準(zhǔn)格式，定義各種電子文本結(jié)構(gòu)的標(biāo)準(zhǔn)方法，以及指定文本結(jié)構(gòu)的標(biāo)準(zhǔn)標(biāo)記代碼。該置標(biāo)語言復(fù)雜、龐大，功能十分強(qiáng)大，適用于各種類型的文本。XML語言是SGML語言的一個(gè)子集，也用于標(biāo)記電子文本的結(jié)構(gòu)。它不僅重新定義了SGML語言的一些內(nèi)部值和參數(shù)，去掉了大量很少用到的功能，而且允許自定義標(biāo)記，因此它的結(jié)構(gòu)化功能更簡單方便。世界公認(rèn)語料庫典范的英語國家語料庫（BNC）及斯拉夫語語料庫典范的捷克國家語料庫（ЧНК）使用的都是SGML和XML語言，我國“國家現(xiàn)代漢語語料庫管理系統(tǒng)”是國內(nèi)率先使用XML語言組織的大型語料庫?？梢哉f，世界上新建和在建的語料庫使用的都是這兩種語言。

（二）語料庫標(biāo)注的基本模式

從語料庫開發(fā)角度看，目前最常用的語料庫文本標(biāo)記模式是建立在SGML語言或XML語言上的TEI、EAGLES和CES。TEI（Text Encoding Initiative，文本編碼規(guī)范）具有超大限度的靈活性、綜合性和可擴(kuò)展性，能支持對各種類型或特征的文本進(jìn)行編碼，被認(rèn)為是“最能反映當(dāng)前語料庫語言學(xué)家致力于建立更具形式化的機(jī)讀語篇信息編碼國際標(biāo)準(zhǔn)的方向”（崔剛，盛永梅，2000：90）的標(biāo)注模式。EAGLES（Expert Advisory Group Language Engineering Standards，專家顧問團(tuán)語言工程標(biāo)準(zhǔn)）是歐盟在1993年2月制定的關(guān)于語言工程的標(biāo)準(zhǔn)，其內(nèi)容涉及大型語言資源（包括文本語料庫、詞匯庫、言語語料庫）的建設(shè)、語言知識(shí)的處理工具（形式語法、標(biāo)記語言、各種軟件）、語言工程系統(tǒng)的評(píng)估資源和工具等。CES（Corpus Encoding Standard，語料庫編碼標(biāo)準(zhǔn)）是EAGLES的一部分，它規(guī)定了語料庫的總體結(jié)構(gòu)、語言信息標(biāo)記等語料庫建設(shè)的技術(shù)規(guī)范，與TEI相兼容，目標(biāo)是建立一套能被廣泛承認(rèn)的語料庫標(biāo)注模式。

從俄語語料庫的建設(shè)實(shí)踐看，俄語語料庫建設(shè)總體上采用的是語料庫建設(shè)的國際標(biāo)準(zhǔn)和模式。但由于俄語本身是一種綜合性語言，詞形變化比英語等語言復(fù)雜得多、豐富得多，因此俄語語料庫在采用國際通用的標(biāo)注模式的同時(shí)，還根據(jù)俄語自身特點(diǎn)對標(biāo)準(zhǔn)標(biāo)注模式做了一些修訂。俄國國家語料庫的標(biāo)注模式就是在SGML語言、符合TEI和EAGLES標(biāo)準(zhǔn)的基礎(chǔ)上，根據(jù)俄語語言的自身特點(diǎn)對TEI進(jìn)行了必要擴(kuò)展后得到的。

三、俄國國家語料庫的標(biāo)注

（一）俄語國家語料庫簡介

俄語國家語料庫（以下簡稱НКРЯ）是在俄羅斯學(xué)者С.А.Шаров 和В.Б.Касевич的積極倡導(dǎo)下，由俄羅斯科學(xué)院語言學(xué)研究所于2003年年底納入《語文學(xué)與信息學(xué)》計(jì)劃并開始建設(shè)的。該語料庫計(jì)劃規(guī)模為2億詞次，擁有多個(gè)文本類型，包括1個(gè)主庫和8個(gè)子庫。其中主庫是深度標(biāo)注語料庫；子庫有俄英俄德平行語料庫、方言語料庫、詩歌文本語料庫、俄語教學(xué)語料庫、口語語料庫、報(bào)紙語料庫、句法語料庫和重音語料庫。НКРЯ目前暫時(shí)有四種標(biāo)注，即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語義標(biāo)注。它在網(wǎng)絡(luò)上開放的部分是20世紀(jì)下半葉至21世紀(jì)初的現(xiàn)代俄語文本語料庫，規(guī)模超過1.4億詞次，有9個(gè)文本類型，提供精確和詞匯—語法兩種查詢方法。

（二）俄國國家語料庫的元標(biāo)注

由于НКРЯ希望能為盡可能多的一般用戶服務(wù)，因此其文本元標(biāo)注非常細(xì)致和多樣，分為兩大部分，即基本文本參數(shù)和文本類型?；疚谋緟?shù)主要用來說明文本的自然情況，分為五個(gè)方面，即文本名稱、文本作者、文本作者的性別、文本作者出生年代、文本產(chǎn)生的年代。文本類型參數(shù)主用用來對文本進(jìn)行分類，分為兩個(gè)方面，即文學(xué)文本和非文學(xué)文本。

其中，文學(xué)文本分三項(xiàng)，即文本體裁選項(xiàng)，包括散文、偵探和戰(zhàn)爭類、兒童類、歷史散文、驚險(xiǎn)類、幻想類、愛情故事、幽默諷刺類、文獻(xiàn)散文、戲劇、翻譯作品11種體裁；文本類型選項(xiàng)，包括寓言、謎語、便函、傳說、歌劇劇本、小品、隨筆、書信、中篇小說、詩歌、諷喻作品、話劇、短篇小說、長篇小說、童話故事、民間故事、電影劇本17種類型；文本產(chǎn)生的時(shí)間和地點(diǎn)選項(xiàng)，如歐洲中世紀(jì)、亞洲19世紀(jì)、俄羅斯/蘇聯(lián)1999—1914等詳細(xì)的時(shí)間分期和地點(diǎn)。

非文學(xué)文本分為三項(xiàng)，即文本的功能領(lǐng)域，包括日常生活領(lǐng)域、正式公文、生產(chǎn)技術(shù)領(lǐng)域、時(shí)事評(píng)論、教學(xué)科研領(lǐng)域、教堂教會(huì)領(lǐng)域、電子交際7個(gè)領(lǐng)域；文本類型，包括時(shí)事評(píng)論、教學(xué)科研類、正式公文和日常生活類4大類，每一個(gè)大類下又細(xì)分為若干小類；文本主題，包括科學(xué)技術(shù)類和非科學(xué)技術(shù)類兩大類，每一個(gè)大類下也繼續(xù)細(xì)分為若干小類。

從НКРЯ的元文本標(biāo)注體系可以看出，它不是嚴(yán)格按照普遍性的語料庫語言學(xué)國際分類標(biāo)準(zhǔn)描述各個(gè)文本的，其分類自由、細(xì)致、豐富，但非常好地貫徹了其設(shè)計(jì)理念——為盡可能多的一般用戶服務(wù)，而不是針對專門的語言研究者或語言學(xué)家。

（三）俄語國家語料庫的詞法標(biāo)注

НКРЯ的詞法標(biāo)注是由俄羅斯開發(fā)的多用途語言處理系統(tǒng)ЭТАП—3詞法分析儀利用半自動(dòng)詞法程序Mystem完成初始標(biāo)注的，然后語言研究者們對初標(biāo)結(jié)果中的400萬詞次進(jìn)行手工消歧，以及進(jìn)一步檢查和校對。Mystem程序詞法分析模式的基礎(chǔ)是А.А.Зализняк的《俄語語法詞典》（《Грамматический словарь русского языка》）（M.1977; 4-е изд.，M.2003）。如果文本中的詞形存在于該詞典中，程序就賦予全部可能的標(biāo)注；如果不在，則給予假設(shè)的標(biāo)注，并加上“？”。

endprint