通拉嘎
(泉州師范學(xué)院圖書館,福建 泉州 362000)
語料庫是大量自然語言素材的有序集合,這些語言素材是書面文本、言語錄音或其轉(zhuǎn)寫[1],語料庫標(biāo)注是為語料庫增加一些語言學(xué)信息[2]。語料庫不僅為語言研究提供新的研究手段,也為信息檢索、文本分類、機器翻譯等自然語言信息處理的研究提供重要支持。由于國內(nèi)外語料庫建設(shè)尚缺乏通用的規(guī)范或標(biāo)準(zhǔn)可以遵循,如何衡量語料庫標(biāo)注的質(zhì)量、語料庫標(biāo)注出現(xiàn)了哪些問題,都值得我們深入探究。筆者以智能信息處理發(fā)展相對薄弱的少數(shù)民族信息處理典型代表蒙古文信息處理的子問題——《漢語人名拉丁轉(zhuǎn)寫方案》的設(shè)計為例,探討影響語料庫標(biāo)注質(zhì)量的各類因素。
蒙古文語料庫的建設(shè)從20世紀(jì)80年代開始興起,由于傳統(tǒng)蒙古文書寫形式從上至下,蒙古文部分元音、輔音顯示形式相同,新以蒙古文語料庫建設(shè)之初即以拉丁形式轉(zhuǎn)寫各式語料,避免了排版、顯示、系統(tǒng)兼容及部分歧義問題,把面向信息處理的蒙古文本形式簡化為蒙古文(或漢字)包括標(biāo)點符號等組成的一個字符串問題[3]。不過與中、英文大規(guī)模語料庫的發(fā)展相比,蒙、藏、維為代表的少數(shù)民族語言信息處理的研究與發(fā)展相對滯后,語料庫經(jīng)過機器標(biāo)注之后,還需大量的人工校對過程,這不僅耗時耗力,還因標(biāo)注者的不同理解,語料有不同層次的標(biāo)注問題。蒙古文信息處理作為少數(shù)民族語言信息處理發(fā)展的卓越代表,發(fā)展中出現(xiàn)的問題極富典型性意義。對不同的自然語言理解來說,未登錄詞及歧義問題始終是重點及難點問題,而未登錄詞問題比歧義問題更為棘手。在Bake-off-2003的4個語料庫中因未登錄詞造成的分詞精度失落比歧義切分造成的精度失落至少大10倍左右,未登錄詞主要包括各類命名實體,人名、地名、機構(gòu)名等專有名詞和新詞語,未登錄詞中人名的分布將近30%[2]40-41;而內(nèi)蒙古大學(xué)26萬詞規(guī)模語料庫中,人名有3522個,漢語人名即有1243個,占據(jù)了35.29%的較高比例,漢語人名的拉丁轉(zhuǎn)寫問題成為了蒙古文語料庫標(biāo)注無法忽視的問題。我們設(shè)計的《漢語人名拉丁轉(zhuǎn)寫方案》(以下簡稱《轉(zhuǎn)寫方案》)是在詳細分析蒙古文語料庫標(biāo)注問題的基礎(chǔ)上提出的解決方案,在分析語料庫標(biāo)注質(zhì)量影響因子時有其獨特的視角及代表意義。
語料庫開發(fā)通常包括規(guī)劃、設(shè)計、選材、建庫和標(biāo)注等5個階段[4]。語言學(xué)知識的賦予是語料庫具備可用性的基本前提。目前,語料庫的標(biāo)注還未達到完全的自動化標(biāo)注,后續(xù)還需要人工干預(yù),語料庫的設(shè)計與加工差異較大,標(biāo)注質(zhì)量也千差萬別。影響語料庫標(biāo)注質(zhì)量的因子有標(biāo)注的規(guī)范化發(fā)展、標(biāo)注的準(zhǔn)確性、一致性、中立性、通用性等5方面。
標(biāo)注的規(guī)范化發(fā)展是指語料庫建立之初,即以通用科學(xué)的規(guī)范來指導(dǎo)語料庫具體的標(biāo)注工作。語言文字是信息的主要載體,沒有高水平的語言文字的規(guī)范化、標(biāo)準(zhǔn)化,就不可能有真正意義上的高水平的信息化。人們在生活工作中愈加注重時效,更加注意信息現(xiàn)代化,標(biāo)準(zhǔn)化規(guī)范化比以往任何時候都顯得重要和迫切。
語料庫的標(biāo)注必須以完整、通用的規(guī)范作為指導(dǎo),語料庫的標(biāo)注規(guī)范是為語料庫提供科學(xué)、實用的系統(tǒng)化規(guī)則,是語料庫標(biāo)注的導(dǎo)引性文件,對智能信息處理的規(guī)范化發(fā)展、對各類系統(tǒng)的兼容,對語言資源的數(shù)據(jù)共享都有積極影響。
有鑒于此,我們在設(shè)計《轉(zhuǎn)寫方案》之初,參考各類的中文分詞規(guī)范,以適應(yīng)語料庫現(xiàn)狀的4條規(guī)則作為《轉(zhuǎn)寫方案》的設(shè)計原則?!掇D(zhuǎn)寫方案》具體以蒙古語外來詞標(biāo)注習(xí)慣為基礎(chǔ),適當(dāng)參考現(xiàn)代蒙古文拉丁及漢語拼音的標(biāo)注習(xí)慣,條例以排列順序享受優(yōu)先:
條例1漢語語音需一一對應(yīng)成蒙古文拉丁字母。
條例2以蒙古文書面語的外來詞拼寫習(xí)慣為基礎(chǔ)。
條例3以蒙古文語料庫的標(biāo)注現(xiàn)行規(guī)則為參考。
條例4以《現(xiàn)代蒙古語語料庫標(biāo)注規(guī)范》為參考[5]。
標(biāo)注的準(zhǔn)確性,顧名思義,指語料庫標(biāo)注要求準(zhǔn)確,才能實現(xiàn)通用及實用,以CLAWS為例,采用統(tǒng)計方法標(biāo)注,正確率達到96%~97%[6],這已經(jīng)是標(biāo)注效果非常好的語料庫了。語料庫標(biāo)注按加工層次可以分為詞法標(biāo)注、句法標(biāo)注、語義標(biāo)注、篇章標(biāo)注等,無論對哪種深度的標(biāo)注來說,準(zhǔn)確性是影響語料庫實用的基本前提。
以蒙古文語料庫的漢語人名的拉丁轉(zhuǎn)寫來說,雖然經(jīng)過自動標(biāo)注和人工校對,語料庫的標(biāo)注還是出現(xiàn)大小寫字母混用,相同的聲母、韻母被標(biāo)注成了不同的形式等問題,如“zhzhi”“ch-chi”“sh-shi”被標(biāo)注成了不同聲母,“j、q、x、z、c、s、zh、ch”等漢語多個聲母與蒙古語少數(shù)輔音相對應(yīng),漢語韻母被賦予了蒙古語元音的陰、陽性特征。
目前,蒙古文語料庫的漢語人名的標(biāo)注有些參考了漢語拼音,有些參考了蒙古語人名的標(biāo)注慣例,因而漢語人名標(biāo)注不一,甚至相同人名的標(biāo)注也未能統(tǒng)一,如:LIU=LAN=T00|LIU=LAN=T0V(劉蘭濤),LIYAN=POWe|LIYAN=PUWE(廉頗)。
蒙古文語料庫中漢語人名標(biāo)注的錯誤直接影響到了未登錄詞的處理,并進而影響了蒙古文信息處理的發(fā)展,使系統(tǒng)的實用性大打折扣,由此可見標(biāo)注的準(zhǔn)確性對語料庫質(zhì)量產(chǎn)生的影響。
標(biāo)注的一致性指按固定的規(guī)范或原則指導(dǎo)語料庫的標(biāo)注,對相同語言成分的標(biāo)注要前后一致,貫徹數(shù)據(jù)庫始終。
以蒙古文語料庫漢語人名的拉丁轉(zhuǎn)寫為例,由于存在較多的人工標(biāo)注與校對的成分,人名在拉丁轉(zhuǎn)寫方面并非前后一致,相同的聲母、韻母轉(zhuǎn)寫為不同的元音、輔音形式,不同的聲母、韻母轉(zhuǎn)寫為相同的蒙古文大小寫形式,這給語料庫的使用帶來很大困難。
2.3.1 聲母轉(zhuǎn)寫出現(xiàn)的問題
c標(biāo)注為C|c(c0V=CONG曹聰);c、q、ch都標(biāo)注為C(cAI=LUN蔡倫|JIYANG=CING江青|CeN=D0V=$eNG陳道生);d標(biāo)注為D|d(LIU=YAN=DONG劉延?xùn)||deNG=SIY0V=PING鄧小平);g標(biāo)注為G|g(BUWe=GU 博古|JU=geN=JU朱根柱);h標(biāo)注為H|h(HU=CI=LI胡啟立|cAI=he=SeN蔡和森);r標(biāo)注為R|r(BAI=RU=BING白如冰|CeN=JING=rUN 陳景潤);x、s都標(biāo)注為S(SIVWAN=WANG宣王|(LI=LI=SAN李立三);j、zh都標(biāo)注為J(JIYANG=JIYe=$I蔣介石|deNG=JUNG=SIYA鄧中夏;z標(biāo)注為Z|z(LIU=ZONG=YVWAN柳宗元|LIN=ze=SIUI林則徐);zh標(biāo)注為J|Z(ZeU=IVI周瑜|JeU=eN=LAI周恩來);zhi標(biāo)注為zhI|zHI(FANG=zhI=MIN方志敏|$eN=I=zHI沈一智)。
2.3.2 韻母轉(zhuǎn)寫出現(xiàn)的問題
ao標(biāo)注為0V|00|AV(LI=J0V=SING李肇星|J00=ZI=YANG趙紫陽|MAV=Ze=dONG毛澤東);i標(biāo)注為 e|I(LI=Se=GVWANG李四光|HU=CI=LI胡啟立);ian標(biāo)注為IYEN|IYAN(Ye=JIYEN=ING葉劍英|CIYAN=CI=CeN錢其琛);o標(biāo)注為00|Owe(LIYANG=$eNG=B00梁勝波|BOWe=I=BOWe薄一波);ou標(biāo)注為eU|EU(JeU=BA=PI周扒皮|PeNG=YONG=EU);ong標(biāo)注為ONG|UNG|VNG(c0V=CONG曹聰|dUNG=cUN=rUI董存瑞|J0V=zhI=HVNG趙志紅);uo標(biāo)注為OWe|UWe(JANG=ZOWe=LIN張作霖|YANG=$UWe楊朔);ü標(biāo)注為IVI|IUI(SIVI=SIYANG=CIYAN徐向前|dA大=IUI禹)。
標(biāo)注的中立性指語料庫標(biāo)注中要采取被標(biāo)注者、使用者及系統(tǒng)本身可以普遍接受的中立模式,很多分詞單位的界限有時較為模糊,我們在語料庫標(biāo)注中要注重以中立的態(tài)度標(biāo)注語料,以適應(yīng)不同深度、不同層次、不同受眾的需求,提高語料庫的使用價值。以《轉(zhuǎn)寫方案》的設(shè)計原則為例,“漢語語音需一一對應(yīng)成蒙古文拉丁字母”指漢語聲母需與蒙古語輔音達到一一對應(yīng),以避免混淆。漢語無法對應(yīng)到蒙古語的聲、韻母可以參考《漢語拼音方案》進行標(biāo)注。
“以蒙古文書面語外來詞拼寫習(xí)慣為基礎(chǔ)”指應(yīng)充分尊重蒙古文歷來的外來詞拼寫習(xí)慣。蒙古語經(jīng)過多年的演變與發(fā)展,已有相當(dāng)固定的外來詞拼寫規(guī)則,如:“紅”在蒙古語中拼寫為“HVNG”或“hUNG”,“河”拼寫為“he”,我們對現(xiàn)已成形的蒙古文外來詞拼寫習(xí)慣應(yīng)予以充分重視。
“以蒙古文語料庫標(biāo)注現(xiàn)行規(guī)則為參考”指需遵守現(xiàn)代蒙古文語料庫的現(xiàn)有標(biāo)注習(xí)慣。現(xiàn)行的語料庫標(biāo)注規(guī)則是基于蒙古文傳統(tǒng)的詞語標(biāo)注習(xí)慣,以大、小寫字母區(qū)分漢語聲、韻母,我們應(yīng)予以保留。
“以《現(xiàn)代蒙古語語料庫標(biāo)注規(guī)范》為參考”指《轉(zhuǎn)寫方案》的制訂應(yīng)遵循《現(xiàn)代蒙古語語料庫標(biāo)注規(guī)范》確立的專有名詞標(biāo)注的4條規(guī)則:“zhi、chi、shi標(biāo)注為zhI、chI1;人姓和名之間的圓點以等號表示;蒙古語的dong標(biāo)注為dUNG;專名必須以等號連接,如,MAV=Ze=dONG?!?/p>
設(shè)計原則充分中和了蒙古文語料庫標(biāo)注固有知識、蒙古語書面語外來詞拼寫慣例及《漢語拼音方案》,既照顧了蒙古文語料庫已有的語料庫標(biāo)注習(xí)慣,也考慮了蒙古文非語料庫使用的外來詞拼寫習(xí)慣,又綜合參照了中文信息處理用途,有很強的中立性,適應(yīng)了語料庫標(biāo)注需要及語言研究需要。
標(biāo)注的通用性指不僅符合智能信息處理的各項標(biāo)注需求,也適應(yīng)不同文本之間的文本轉(zhuǎn)換、數(shù)據(jù)共享的需求。我們以設(shè)計原則為指導(dǎo),對漢語的蒙古文拉丁轉(zhuǎn)寫制訂了具體的轉(zhuǎn)寫方案。
表1 漢語聲母的蒙古語拉丁轉(zhuǎn)寫方案
表2 漢語韻母的蒙古語拉丁轉(zhuǎn)寫方案
《轉(zhuǎn)寫方案》不僅適應(yīng)蒙古文語料庫各類文本的標(biāo)注,適應(yīng)詞法分析、句法分析、信息檢索、信息抽取直至機器翻譯的需求,也適應(yīng)蒙古文本與其他文種間的雙語、多語語料庫的建設(shè)需要,具有非常強的通用性。
語料庫對智能語言信息處理及語言學(xué)研究都具有重要意義,筆者著重探討了影響語料庫標(biāo)注質(zhì)量的因素,認為語料庫的規(guī)范化發(fā)展,標(biāo)注的準(zhǔn)確性、一致性、中立性、通用性等是影響語料庫標(biāo)注質(zhì)量的關(guān)鍵因素,并以蒙古文語料庫標(biāo)注中的重要及典型問題——漢語人名的拉丁轉(zhuǎn)寫為例,分析了影響因素對語料庫建設(shè)產(chǎn)生的作用。蒙古文語料庫中的漢語人名的拉丁轉(zhuǎn)寫問題是語言文字的標(biāo)準(zhǔn)化問題,以蒙古語語料庫標(biāo)注現(xiàn)狀及蒙古文標(biāo)注外來詞的固定習(xí)慣為基礎(chǔ),以《現(xiàn)代蒙古語語料庫標(biāo)注規(guī)范》為參考,適當(dāng)借鑒漢語的標(biāo)注規(guī)則,提出了較為詳盡和通用的《轉(zhuǎn)寫方案》,希望語料庫標(biāo)注質(zhì)量影響因子的探討能對語料庫的科學(xué)化發(fā)展、語言的本質(zhì)屬性和規(guī)律的探討及信息資源的共享與交換產(chǎn)生積極影響。
注釋:
文中的符號說明:
等號(=)為連接符號,表示被連接的是一個標(biāo)記單位,如“SIVI=SIYANG=CIYAN徐向前”。
豎線(|)表示語言單位之間的切分或隔斷,如“C|c”。
[1] 趙鐵軍.機器翻譯原理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000.
[2] 達胡白乙拉.蒙古語基本動詞短語自動識別研究[D].呼和浩特:內(nèi)蒙古大學(xué),2005.
[3] 劉連元.現(xiàn)代漢語語料庫選材設(shè)計[A].羅振聲,袁毓林.計算機時代的漢語和漢字研究[C].北京:清華大學(xué)出版社,1996.
[4] 嘎日迪.蒙古文信息處理技術(shù)及自然語言理解[M].呼和浩特:內(nèi)蒙古大學(xué)出版社,2006.
[5] 鄭家恒.智能信息處理——漢語語料庫加工技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2010.
[6] 國家語言資源監(jiān)測與研究中心.中國語言生活狀況報告[M].北京:商務(wù)印書館,2007.