關(guān) 白
(西藏大學(xué) 計算機(jī)科學(xué)技術(shù)系,西藏 拉薩 850000)
藏文分詞是藏文信息處理中一項不可缺少的基礎(chǔ)性工作。從基本的輸入系統(tǒng),到文字處理,無處不滲透著分詞系統(tǒng)的應(yīng)用,所以藏文分詞作為藏文信息處理系統(tǒng)的基礎(chǔ),有著極其廣泛的應(yīng)用前景。
藏文分詞的研究從1999年中國藏學(xué)研究中心扎西次仁所著的《一個人機(jī)互助的藏文分詞和詞登陸系統(tǒng)的設(shè)計》[1]算起已有十多年的時間了,其間不管是對其應(yīng)用還是理論都做過很多的研究。2002年2月,陳玉忠等人分析了藏文文本的規(guī)則分詞、格助詞分詞以及切分難點的基礎(chǔ)上,根據(jù)藏文的字、詞、句切分的特點,首次提出了一種基于格助詞和連續(xù)特征(BCCF, Based on Case-auxiliary word and Continuous Feature)的書面藏文自動分詞方案[2]。初步測試表明該方案在發(fā)現(xiàn)和消除切分歧義、解決未登錄詞問題、提高藏文分詞精度方面都具有很高的實用價值。同年12月,依據(jù)BCCF的總體設(shè)計思想,陳玉忠等人闡述了書面藏文自動分詞系統(tǒng)的具體實現(xiàn)過程,并通過實驗表明該系統(tǒng)具有較高的切分精度和較好的通用性[3]。2005年“第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會”使得對藏文信息的研究推向一個高潮,在此后的四五年的時間里有關(guān)于藏文分詞的文章就如雨后春筍般涌現(xiàn)。
藏文的分詞問題雖然和漢文分詞有很多相似性,但藏文作為拼音文字且具有二維的書寫規(guī)則、由音節(jié)字成詞以及其特殊的構(gòu)詞方式和語序等特點,使得它的分詞研究又有別于漢文分詞,但是“借鑒漢語分詞研究的已有成果和成功經(jīng)驗,無疑對把握分詞問題的本質(zhì),針對性地開展藏文分詞理論研究具有非常重要的指導(dǎo)意義[4]。”
要確立分詞單位首先要明確分詞單位的定義,分詞單位是國家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》[5]中的一個基本概念,是指信息處理中使用的、具有確定的語義和語法功能的基本單位。由《信息處理用現(xiàn)代漢語分詞規(guī)范》中對分詞單位的定義可以看到,信息處理中的分詞單位比傳統(tǒng)意義上的詞更寬泛些,這也就避開了理論上對于詞的界定難以把握的困擾,分詞系統(tǒng)可以根據(jù)實際問題的需求和真實語料中使用的頻繁程度來確定分詞單位。
分詞單位除了詞,也包括了一部分使用頻度高的詞組?!霸谀承┨厥馇闆r下孤立的語素或非語素字也可能出現(xiàn)在切分序列中”[6],也可以包含未登錄詞識別以及一些詞法分析的切分單位,例如:一些人名、地名、機(jī)構(gòu)名、外國人譯名等?!皬淖?jǐn)?shù)考慮,對兩個字的組合可較寬地看作是一個分詞單位,三個字的較嚴(yán),四個字以上的若不是成語、習(xí)慣用語、簡稱、地名或外族人名,則一般不看作是一個分詞單位”[6]。
詞類劃分體系是確立分詞單位的依據(jù),為了進(jìn)行語法研究與信息處理,需要把語法功能相同的或者相近的詞歸成一類。本文將以《信息處理用現(xiàn)代漢語分詞規(guī)范》對分詞單位的定義為出發(fā)點,以藏文文法對詞類的劃分為基礎(chǔ),參照《信息處理用現(xiàn)代漢語分詞規(guī)范》和《資訊處理用中文分詞規(guī)范》、《現(xiàn)代漢語語法信息詞典》、《新編藏文字典》[7]、《藏漢詞典》[8]、《信息處理用現(xiàn)代漢語分詞規(guī)范》及《信息處理用現(xiàn)代藏語詞語的分類方案》[9]所采用的詞類劃分體系,結(jié)合藏文文法自身的特點,建立信息處理用藏文分詞所需的十六個詞類如下:1.名詞;2.時間詞;3.處所詞;4.方位詞;5.數(shù)詞;6.量詞;7.代詞;8.動詞;9.形容詞;10.狀態(tài)詞;11.副詞;12.格助詞[9];13.接續(xù)詞[9];14.助詞;15.象聲詞;16.嘆詞。藏語中的格助詞和接續(xù)詞按《信息處理用現(xiàn)代藏語詞語的分類方案》單獨作為一詞類進(jìn)行分類。對這十六個詞類的細(xì)分將在第三章中敘述。
除了以上詞類,在分詞時還會遇到比詞大或小的分詞單位,比如詞藻、語素、標(biāo)點符號和成語等。其中詞藻是藏文詞類中區(qū)別于其他類的最為特殊的一類,由于它表示“明白論證事物名字之命名、運用、同義異名等”[10],從而被《藏漢詞典》將其歸為名詞。對這些小于或大于詞的字符串進(jìn)行分析和歸類后得到的六個類,即:1.前接成分;2.后接成分;3.語素;4.非語素字;5.簡稱略語;6.標(biāo)點符號。再將其歸入此體系中,從而產(chǎn)生了由二十二個詞與非詞組成的分類體系。大于詞的習(xí)慣語和成語根據(jù)其語法屬性歸類到相應(yīng)的詞類中。
切分原則是確定分詞單位最主要的基礎(chǔ),是排除了語言學(xué)界眾多歧義而確立的分詞標(biāo)準(zhǔn)。分詞單位的確立需要充分考慮形式和意義的統(tǒng)一,“形式上要看一個結(jié)構(gòu)體的組成成分能否單用,結(jié)構(gòu)體能否擴(kuò)張,組成成分的結(jié)構(gòu)關(guān)系以及結(jié)構(gòu)體的音節(jié)結(jié)構(gòu);意義上要看結(jié)構(gòu)體的整體意義是否具有組合性[11]”,所以分詞既要符合語言學(xué)的一般原則,也要便于詞類和句法分析,因此確定哪些是分詞單位,哪些又不是分詞單位,需要分詞單位的定義和詞類劃分等諸多因素外,更要有切分的原則。本文參考《信息處理用現(xiàn)代漢語分詞規(guī)范》和《資訊處理用中文分詞規(guī)范》[12],為藏文分詞單位確立了九項基本原則和三項輔助原則。
2.3.1 基本原則
基本原則從語義、語法兩方面來規(guī)范并使之符合語言學(xué)理論,也就是從語義與語法兩個方面來說明分詞單位。這是依據(jù)語言學(xué)理論給出的分詞依據(jù),視為分詞的不變的最高原則。
1) 具有獨立意義,且扮演固定詞類的字符串被視為一分詞單位[12]。例如:
2) 空格或標(biāo)點符號是計算機(jī)中分詞單位的分隔標(biāo)記被視為一分詞單位。藏文文本中有一些較為常用,但又不屬于藏文原“書寫符號系統(tǒng)”的特殊符號,如借用漢語或英語的引號、問號、書名號、圓括號、方括號、尖括號、百分比號等符號。
3) 凡字符串之間有助詞及格助詞被視為一分詞單位。例如:
4) 附著語素盡量和詞根合為一個分詞單位。例如:
5) 略語一律被視為一分詞單位。例如:
6) 現(xiàn)在藏語中出現(xiàn)的非藏文字符號被視為一分詞單位,例如其他語言的字符串、數(shù)學(xué)符號、化學(xué)符號、阿拉伯?dāng)?shù)字等,仍保留原有形式[13]。例如:
CCTV 3.14 NBA
7) 藏語中其他語言的藏文音譯外來詞被視為一分詞單位[13]。例如:
8) 使用頻率高或共現(xiàn)率高的字符串被視為一分詞單位。例如:
9) 十位數(shù)與個位數(shù)之間的墊詞被視為一分詞單位[13]。例如:
基本原則配合定義分詞單位,是以根據(jù)語言學(xué)的信息處理為著眼點,是規(guī)范藏文字符串基本語意單位切分的遵循標(biāo)準(zhǔn)。
2.3.2 輔助原則
輔助原則可因需要而有變異性。因為詞的界定是抽象概念,必須在定義和基本原則上增加一些輔助原則,并依各種不同詞的類型分別確定切分辦法。因此輔助原則是操作性原則,并非絕對原則,富于彈性,是用來輔助基本原則的,不同的語言環(huán)境視情況需要而有所增減。
1) 語義無法由組合成分直接相加而得到的字符串應(yīng)該合為一個分詞單位。下列字符串因其組合后語意已改變,皆應(yīng)視為一個分詞單位。例如:
由于切分后所得分詞單位相加后,不能組合出原有詞語的意義,故可視為一個分詞單位。
3) 不同語言環(huán)境中的同形異構(gòu)現(xiàn)象,按照具體語言環(huán)境的語義進(jìn)行切分。例如:
語言是一個復(fù)雜的有機(jī)體,很多規(guī)則不能用定量的形式描述,幾乎每條規(guī)則都有可能出現(xiàn)例外。本文力圖用二十二個詞類和切分原則兩大塊來明確文本中出現(xiàn)的每一串字符,而這樣定性描述也不可避免地帶來一定的模糊性,造成了前后不一致,甚至相互矛盾的說法。因此在下面的“劃分分詞單位”中將進(jìn)行逐一進(jìn)行說明。
以下將以詞類劃分體系中二十二個類為依據(jù),分詞的基本原則和輔助原則為基礎(chǔ)對藏語文本中所出現(xiàn)的字符串進(jìn)行具體說明如下。
3.1.1 兩個音節(jié)詞或兩個音節(jié)詞的名詞性復(fù)合詞為一個分詞單位。例如:
3.1.2 由名詞加形容詞組成的詞組中的表示性質(zhì)或狀態(tài)的形容詞為一個分詞單位。例如:
3.1.3 名詞加形容詞組成的有轉(zhuǎn)義的復(fù)合詞為一個分詞單位。例如:
3.1.5 動詞與名詞結(jié)合而成的名詞為一個分詞單位。例如:
3.1.6 各類專業(yè)的基本術(shù)語為一個分詞單位。例如:
3.1.7 藏語中人名與稱謂經(jīng)常出現(xiàn)在一起的為一個分詞單位。例如:
3.1.9 國家名為一個分詞單位。例如:
3.2.1 每周的七天各為一個分詞單位。例如:
3.2.3 表示節(jié)氣的時間詞為一分詞單位。例如:
3.2.4 表示年代的時間詞為一分詞單位。例如:
3.5.1 數(shù)詞為一個分詞單位
3.5.3 表示概數(shù)的數(shù)字為一個分詞單位。例如:
3.7.3 人稱代詞為一個分詞單位。例如:
3.8.1 及物動詞為一個分詞單位。例如:
3.8.2 不及物動詞為一個分詞單位。例如:
3.8.3 判斷動詞為一個分詞單位。例如:
3.8.4 助動詞為一個分詞單位。例如:
3.9.1 重疊形式的形容詞(A AA AABB)為一個分詞單位。例如:
3.9.2 并列形式的形容詞為一個分詞單位。例如:
3.9.3 有關(guān)顏色帶后綴的或復(fù)合形式的形容詞為一個分詞單位。例如:
3.12.1 屬格助詞為一個分詞單位。例如:
3.12.2 作格助詞為一個分詞單位。例如:
3.12.3 La格助詞為一個分詞單位。例如:
3.12.4 從格助詞為一個分詞單位。例如:
3.14.1 時態(tài)助詞為一個分詞單位。例如:
3.14.2 語氣助詞為一個分詞單位。例如:
3.14.3 疑問助詞為一個分詞單位。例如:
3.14.4 終助詞為一個分詞單位。例如:
分詞單位作為分詞系統(tǒng)的基礎(chǔ),對其進(jìn)行研究有著非常重要的意義,要使分詞系統(tǒng)更加準(zhǔn)確地切分藏文字符串,必須有專門的理論體系。本文以建立分詞單位的基礎(chǔ)(切分原則)和依據(jù)(詞類體系)為出發(fā)點,論述了各個分詞單位及其歸屬,力圖為信息處理用藏文分詞單位提供理論依據(jù)。
[1] 扎西次仁.一個人機(jī)互助的藏文分詞和詞登陸系統(tǒng)的設(shè)計 [C]//李晉有.中國少數(shù)民族語言文字現(xiàn)代化文集.北京:民族出版社,1999: 322-327.
[2] 陳玉忠,李保利,俞士汶,等. 基于格助詞和連續(xù)特征的藏文自動分詞方案[J].語言文字應(yīng)用, 2003,(1): 75-82.
[3] 陳玉忠,李保利,俞士汶. 藏文自動分詞系統(tǒng)的設(shè)計與實現(xiàn)[J].中文信息學(xué)報,2003,17(3): 15-20.
[4] 陳玉忠,俞士汶. 藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J]. 中國藏學(xué), 2003,(4): 97-107.
[5] 中華人民共和國國家標(biāo)準(zhǔn)(GB13715).信息處理用現(xiàn)代漢語分詞規(guī)范[S]. 北京,中國標(biāo)準(zhǔn)出版社,1992.
[6] 俞士汶,朱學(xué)鋒,段慧明.大規(guī)模現(xiàn)代漢語標(biāo)注語料庫的加工規(guī)范[J]. 中文信息學(xué)報,2000,14(6): 58-64.
[7] 新編藏文字典[M]. 青海民族出版社,西寧,1979.6.
[8] 西北民族學(xué)院藏文教研組編. 藏漢詞典[M]. 甘肅民族出版社, 蘭州, 1996.5.
[9] 陳玉忠. 信息處理用現(xiàn)代藏語詞語的分類方案[C]//第十屆全國少數(shù)民族語言文字處理學(xué)術(shù)研討會論文集,西寧,2005:24-29.
[10] 張怡蓀,藏漢大詞典[M]. 北京:民族出版社,1999.
[11] 973當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注加工規(guī)范(草案)[EB/OL] http://www.chineseldc.org/EN/doc/CLDC-LAC-2003-003/label.htm.
[12] 臺灣經(jīng)濟(jì)部中央標(biāo)局標(biāo)準(zhǔn)(CNS98).資訊處理用中文信息分詞規(guī)范[S].臺北:臺灣計算語言學(xué)學(xué)會,1996.
[13] 羅秉芬,江荻.藏語計算機(jī)自動分詞的基本規(guī)則[C]//李晉有.中國少數(shù)民族語言文字現(xiàn)代化文集.北京:民族出版社,1999: 304-314.
[14] 江荻. 現(xiàn)代藏語組塊分詞的方法與過程[J]. 民族語文,2003(4): 30-39.
[15] 祁坤鈺. 信息處理用藏文自動分詞研究[J]. 西北民族大學(xué)學(xué)報,2006(4): 92-97.
[16] 江荻.現(xiàn)代藏語的機(jī)器處理及發(fā)展之路[C]// 徐波,孫茂松,靳光瑾. 中文信處理若干重要問題,北京:科學(xué)出版社,2003年,438-448.
[17] 陳玉忠,俞士汶. 面向信息處理的藏語虛詞的語法信息表述研究[C]//Advances in Computation of Oriental Languages—Proceedings of the 20th International Conference on Computer Processing of Oriental Languages , 2003: 161-168.