陳小瑩
摘要:本文通過對藏文文本中不規(guī)范文本進行分類后,針對不同類型的文本特征制定規(guī)范化處理方法,最終實現(xiàn)了對藏文文本的規(guī)范化處理。但因藏文文本來源的不確定性,文本中可能會存在一些未收集到的不規(guī)范文本類型,需在后期的研究工作中繼續(xù)收集整理。
關鍵詞:信息處理; 藏文文本; 規(guī)范化
中圖分類號: TP391
文獻標志碼:A
文章編號: 2095-2163(2016)06-0029-03
0引言
[JP2]藏文文本規(guī)范化處理主要是對藏文文本做版面分析,識別并規(guī)范藏文文本中可能出現(xiàn)的非正常藏文字符的過程。藏文文字屬于符號文字,藏文文本中除包含正常的藏文字符外,還可能會出現(xiàn)借形詞、特殊符號、黏著語等一些特殊字符形式\[1\]。這些藏文特殊字符的存在會直接影響到文本信息處理的正確性。在規(guī)范化處理時,需在正確理解其產(chǎn)生原因的基礎上確定相應處理方式,依據(jù)其所處語境設定相應規(guī)則將這些符號轉換成規(guī)范的藏文文本形式。在藏語字音轉換系統(tǒng)中,對非規(guī)范形式的藏文文本進行規(guī)范化處理能保證后續(xù)字音轉換順利完成,因此對藏文文本規(guī)范化處理是一個必不可少的基礎工作。
[JP3]本文通過對藏文文本進行分析,確定藏文文本規(guī)范化主要有2個任務:第一個任務是特殊符號歸一化;第二個任務是外借詞藏文化。在此,擬將針對每一部分研究給出如下分析論述。[JP]
[BT4]1特殊符號歸一化
藏文文本規(guī)范化主要是指在藏文文本中出現(xiàn)的一些非常用藏文標記符號以及其它有特殊含義的符號,這些特殊符號的存在會對后期文本理解造成歧義。
[BT5]1.1標記符號歸一化處理
在藏文文本中可能會存在這樣一些符號,這類符號有些能夠表達語言功能,有些只是文本中存在的裝飾性圖案,這些標記符號對語音并沒有任何作用,因此在獲取規(guī)范化設計時即需要進行歸一化處理。
根據(jù)目前從各類文獻中收集藏文符號和圖形的分析,藏文文本中的字符與圖形可以劃分為文字符號與非文字符號兩大類。其中,文字符號除了包括能夠書寫語言聲音的藏文字符外,還包括描寫聲音連接、停頓和結束的符號;非文字符號可以表示某種事物或觀念意義,但與語言聲音無關,主要包括篇章符、敬重符、歷算符等\[3\]。
藏文文本中出現(xiàn)的藏文標記符號,一般沒有實際語義,所以對這些符號推行規(guī)范化處理時,只需要獲取其出現(xiàn)的特征標記以及對應的編碼形式,通過建立標記符號替換規(guī)則表,然后在待處理的文本中識別出這些符號,利用標記符號替換規(guī)則表即可實現(xiàn)歸一化處理。
[BT5]1.2其它類型特殊符號歸一化處理
其它類型特殊符號規(guī)范化處理時,首先收集整理可能出現(xiàn)的符號類型以及其表示的具體語義;其次是確定標準的藏文文本表示形式;最后再建立對應的映射規(guī)則表。規(guī)范化處理時直接通過映射規(guī)則表查找出對應的符號,再將其利用表里的標準藏文文本形式代替即可。映射規(guī)則表如表1所示。
2外借詞藏文化處理
因藏文文本的網(wǎng)絡化傳播,許多藏文文本中存在這樣一類詞,這一類詞借用藏語以外的其他民族語言字形,但是卻需要按照藏語的讀音來讀,這類詞就是外借詞。外借詞主要有2種形式,一種是簡略詞形式,一種是數(shù)字符號形式。
[BT5]2.1簡略詞規(guī)范化處理
藏文文本中的簡略詞,主要來源于其它語種中一些事物縮略表示形式。簡略詞的存在會影響對藏文文本的正確分析,因此對簡略詞規(guī)范化處理在自動注音系統(tǒng)中非常重要。
一般而言,藏文文本中包含的簡略詞主要有2類:一類是常用的單位簡寫形式。例如:mm、cm、kg等,這種形式需要轉換成藏文進行發(fā)音;另一類是一些特殊名詞的簡略表示形式。例如:CO、LA、CA、DC、USA等,這一類外借詞在規(guī)范化處理時直接按照原來的形式與藏文分開。簡略詞規(guī)范化處理主要是通過建立簡略詞轉換表來獲得實現(xiàn)的,簡略詞轉換如表2所示,具體處理過程如下[3]:
1)首先對已進行符號歸一化處理的藏文文本按照句子進行切分,其次將藏文句子按照藏文文本、數(shù)字符號以及其它文本進行識別并標記,以此得到3類不同的字符塊。
2)將切分后的句子中所有文本塊分別在簡略詞表中查找,若在簡略詞表中,轉3),否則轉4)。
3)查找結果在上下文中進行一一對應,確定對應的規(guī)范化形式。
4)繼續(xù)處理下一個句子。
2.2數(shù)字符號規(guī)范化處理
2.2.1數(shù)字符號種類
數(shù)字符號的表示形式主要有4類[4],具體給出如下分析論述。
1)電話號碼形式。固定電話號碼形式相對一致,可能包含前綴符號、區(qū)號和普通號碼三個部分,每部分之間可能存在分隔符號。一般而言,國內(nèi)的電話基本一致,包含區(qū)號和普通號碼兩部分共計11個數(shù)字符號,其中區(qū)號部分有3~4個數(shù)字,普通號碼有7~8個數(shù)字。如果一個文本塊判別屬于這種模式,那么其顯示為電話號碼形式的幾率就比較大。[JP2]之后再利用該文本塊相鄰的上下文內(nèi)容進行查找,判斷是否有一些指時間在藏文文本中也可能有多種表示形式。常見的一些關于時間的書寫方式有9:30,9:30am,8:00-8:30等。但有時候如果僅僅出現(xiàn)上述形式,并不能完全說明該文本表示形式就是時間。比如“9:30”這種形式如果出現(xiàn)在比賽描述中,說明場上比分是“9:30”,此時的“9:30”就不能用時間形式來進行轉換,而需要綜合上下文語境后再進行轉換。針對這些可能出現(xiàn)歧義的表示形式,不能簡單地只考慮文本表達式的匹配,還需要考慮上下文的環(huán)境,確定具體描述的意義之后再進行對應的轉換。
3)金錢貨幣形式。藏文文本中也可能會出現(xiàn)一些常見的貨幣表示形式,該形式在藏文文本出現(xiàn)時基本可以通過貨幣單位而得到關聯(lián)辨別,在規(guī)范化處理時,直接進行識別替代即可。
4)其它數(shù)字符號形式。由于藏文文本來源各異,因此在藏文文本中可能會出現(xiàn)小數(shù)2.178、溫度-20.5 ℃、商品型號M4350、IP地址202.200.10.11等常見數(shù)字符號形式,也可能會出現(xiàn)其它特定的數(shù)字符號形式。這些數(shù)字符號在規(guī)范處理過程中需要動態(tài)加入新的數(shù)字塊識別規(guī)則,以便處理新的數(shù)字形式。
2.2.2數(shù)字符號規(guī)范化處理的技術設計方案
數(shù)字符號在規(guī)范化處理時,首先參照陳志剛等在《中文語音合成系統(tǒng)中的文本標準化方法》一文中對文本標準化規(guī)則庫的創(chuàng)建方法,建立百分數(shù)規(guī)則、小數(shù)規(guī)則、數(shù)字區(qū)間規(guī)則、溫度規(guī)則等規(guī)則,確定不同含義數(shù)字的組合規(guī)則;其次利用數(shù)字符號、特征詞和標準藏文文本建立數(shù)字符號轉換規(guī)則表,基于該表即可實現(xiàn)不同意義數(shù)字符號到標準藏文文本形式的轉換[5]。數(shù)字符號轉換規(guī)則如表3所示。
因藏文文本來源的不確定性,在文本中可能會存在一些未收集到的不規(guī)范文本類型,所以建立的規(guī)則知識庫并不能處理這類文本。針對這種情況,項目中開放了數(shù)字符號轉換規(guī)則表,允許用戶添加新的數(shù)字符號識別特征詞和組合規(guī)則,以便更加有效識別數(shù)字符號,從而提高數(shù)字符號規(guī)范化處理的準確性和完整性。
3結束語
[JP+1]藏文文本標準化處理是藏文信息處理領域中的重要內(nèi)容之一,藏文文本標準化處理對藏文信息處理的進一步發(fā)展有著重要推動作用。本文通過對藏文文本中不規(guī)范文本設定提供了有效分類后,又針對不同類型的文本特征制定規(guī)范化處理方法,最終實現(xiàn)了對藏文文本的規(guī)范化處理。但因藏文文本來源的不確定性,文本中可能會存在一些未收集到的不規(guī)范文本類型,需在后期的研究工作中繼續(xù)補充征集。
參考文獻:[1]格桑居冕,格桑央京. 實用藏文文法教程[M]. 成都:四川民族出版社,2008.
[2] 扎西加,珠杰. 面向信息處理的藏文分詞規(guī)范研究[J]. 中文信息學報,2009,23(4):113-117,123.
[3] [JP3]高璐,陳琪,李永宏,等. 藏語語音合成中文本分析的若干問題研究[J]. 西北民族大學學報(自然科學版),2010,31(2):27-32,75.[JP]
[4] 于洪志,楊博,關白. 藏文文本規(guī)范化技術的研究與實踐[J]. 西北民族大學學報(自然科學版),2006,27(1):43-47.
[5] 陳志剛,胡國平,王熙法. 中文語音合成系統(tǒng)中的文本標準化方法[J]. 中文信息學報,2003,17(4):45-51.[ZK)]