趙維納,李 琳,劉匯丹,普布頓珠, 吳 健
(1. 青海師范大學,青海 西寧 810008;2. 中國科學院軟件研究所,北京 100190;3. 中央民族大學,北京 100081)
?
藏語三音動詞短語自動抽取研究
趙維納1,2,李 琳1,劉匯丹2,普布頓珠3, 吳 健2
(1. 青海師范大學,青海 西寧 810008;2. 中國科學院軟件研究所,北京 100190;3. 中央民族大學,北京 100081)
藏語三音節(jié)復合動詞短語(以下簡稱三音動詞短語)能產性強,使用頻率高,結構不穩(wěn)定,給藏語文本處理帶來很多麻煩。針對這些特點,該文提出了一種統計和規(guī)則相結合的三音動詞短語的自動抽取算法。首先,從三音動詞短語的結構出發(fā),以構成三音動詞短語的動語素作為標志,獲得三音動詞短語候選項。然后,利用統計算法和語言規(guī)則庫對候選項進行過濾,獲得三音動詞短語。實驗結果表明,統計和規(guī)則結合的方法可以有效地從未經標注的藏語語料中獲取三音動詞短語。
中文信息處理;藏語信息處理;詞匯獲取;藏語三音節(jié)復合動詞短語
藏語三音動詞短語是指由雙音節(jié)名詞或形容詞與單音節(jié)動語素構成的動詞短語,這種結構在較早的歷史文獻中也存在,但是數量不多。然而在現代藏語中這種現象大量產生[1]。三音動詞短語的識別問題已經影響到藏語自動分詞、組塊分析、句法分析以及機器翻譯等各領域的研究。由于它具有開放性、能產性、數量的不確定性以及結構的不穩(wěn)定性等特點,三音動詞短語的識別與抽取目前還沒有較好的處理策略。如何從大規(guī)模真實語料中自動獲取三音動詞短語是一項值得探索的課題。
目前,從大規(guī)模語料庫中自動提取多詞表達式、短語或搭配等語言知識的研究已經在國內外流行,并獲得了較多的研究成果與研究經驗,這些研究可以為藏語三音動詞短語的研究提供可借鑒的經驗。如文獻[2]采用了互信息、t檢驗,χ2檢驗,似然比四種度量方法進行了搭配自動獲取的比較測試。文獻[3]采用互信息通過對兩個詞語在語料庫中的相關性進行度量,從而獲取搭配。文獻[4]提出了一種利用互信息與熵融合的方法自動獲取動賓搭配的方法。結果表明,互信息與熵融合的方法雖然采用的度量少,但取得的實驗效果仍然較好。文獻[5]提出了包括強度、離散度及尖峰三項指標的定量評估體系,對“能力”一詞構成的搭配進行了全面分析。文獻[6]利用互信息在大規(guī)模語料中進行詞語搭配自動抽取,然后利用語言學中詞語搭配規(guī)律對候選搭配進行過濾。文獻[7]提出了統計和規(guī)則相結合的語塊自動獲取算法,首先利用融合的方法獲取候選塊,然后利用語言學規(guī)則對候選塊進行過濾。
在藏語三音動詞短語識別方面,已有的研究主要采用規(guī)則的方法,從構詞法角度對文本中的三音動詞短語識別。文獻[1]剖析了三音動詞短語的基本構成及語法功能。文獻[8-13]梳理了三音動詞短語的基本類別,分析了三音動詞短語的結構,文獻[9]提出了基于規(guī)則的方法對由三個常用的動詞后綴構成的三音動詞短語進行了識別。在此基礎上,本文提出了統計和規(guī)則相結合的自動獲取方法。首先利用互信息和熵相融合的方法從未經任何標注的藏語語料庫中抽取三音動詞短語的候選項,然后利用三音動詞短語的結構規(guī)則對候選項過濾,實驗取得了令人滿意的結果。
從結構上看三音動詞短語是由兩部分組成的,即三音動詞短語=雙音節(jié)詞語+單音節(jié)動語素。其中,大部分雙音節(jié)詞是名詞或形容詞,而動語素是由單音動詞虛化而來的,因此三音動詞短語的詞義主要由雙音名詞或形容詞決定。
2.1 三音動詞短語的動語素
2.2 藏語三音動詞短語中的雙音節(jié)詞的構成
2.3 插入性成分
根據上述三音動詞短語的一些特點,本節(jié)主要討論三音動詞短語候選詞的抽取過程。我們的基本思路是將動語素作為標志進行抽取,因此首先需要構造動語素。《藏漢對照拉薩口語詞典》收錄了部分常用三音動詞短語,我們根據這些三音動詞短語,建立了動語素表。首先從該詞典抽取出所有由三個音節(jié)構成的詞語。并人工篩選和標注三音動詞短語。經過統計,共有875個可能的動語素。我們結合文獻[1]和文獻[8,10-11]列舉出了部分動語素,對篩選出的動語素表進行了整理。
利用該動語素表,從藏語真實文本中抽取三音動詞短語候選詞。值得注意的是,這些語料均是未經過任何標注的語料。在抽取過程中,充分考慮到了三音動詞短語的插入成分,對不同情況抽取不同位置的音節(jié)。具體抽取過程如表1所示。
表1 三音動詞短語候選詞抽取過程
我們利用統計的方法對候選詞進行評分來判斷該詞是否是三音動詞短語。三音動詞短語具有兩個特點: 首先,經常同時出現;其次,三音動詞短語與其上下文詞匯之間有比較清晰的界限。所以,利用兩個度量值對候選詞進行過濾,一是“內部結合緊密度”,二是“外部邊界判定”[7]。
4.1 內部結合緊密度
從統計學的角度看,某個音節(jié)串的共現頻率越高,音節(jié)間的結合緊密性越強?;谶@一基本假設,經常共現的音節(jié)串更有可能是一個詞或者固定結構。衡量詞語共現頻率的方法較多,本文使用了互信息的度量方法?;バ畔⒃谛畔⒄撝谐1挥脕砗饬績蓚€隨機變量的相關程度,適用于衡量兩個部分如兩個詞語在語料庫中共同出現概率的顯著程度,互信息越大,說明兩部分之間結合得越緊密?;バ畔⒌膬炔烤o密度計算公式如式(1)所示。
(1)
其中,PXY表示由兩部分組成的音節(jié)串出現概率;PX是前兩個音節(jié)的概率,PY是該動語素的出現概率。
4.2 外部邊界獨立度
一般來說,通過觀察詞語和詞語周圍語境的關系,可以判定詞語的外部邊界。本文使用最大熵的方法,分別考察候選項左邊界和右邊界的熵,以此作為衡量候選項的邊界獨立度的指標。根據信息熵的理論,熵越大說明該候選項上下文出現的詞語形式越多,該候選項就更有可能是一個三音動詞短語。信息熵的計算公式如式(2)、式(3)所示。
(2)
(3)
公式中,Le和Re分別表示左邊界熵和右邊界熵;W表示候選詞;A表示候選詞左邊出現的所有音節(jié)的集合,a表示左邊出現的某一個音節(jié);B表示候選詞右邊出現的所有音節(jié)的集合,b表示右邊出現的某一個音節(jié)。
我們將式(2)和式(3)結合起來,得到外部邊界獨立度計算公式如式(4)所示。
(4)
4.3 內部結合緊密度與外部邊界獨立度融合方法
以上兩種統計過濾方式都各有優(yōu)點和不足,如果把這兩種方法結合起來,能取長補短,更有效地獲取三音動詞短語。我們將內部和外部計算公式結合起來,形成一個綜合過濾公式。在這個公式中我們還考慮了音節(jié)串的頻度信息F(W)對結果的影響,具體的計算方法如式(5)所示。
(5)
利用這種融合的方法,對三音動詞短語的過濾效果要比單純的統計方法要好,詳細結果請參見實驗部分。
三音動詞短語前兩個音節(jié)主要是名詞,格標記、名詞化標記等通常不會出現。如果候選詞中出現了這些成分,那么該詞就不太可能是三音動詞短語。這些過濾規(guī)則是相對的,而不是絕對的,可以根據文本類型和實際情況增補或改變。鑒于三音動詞短語的特點,特制定如下的過濾規(guī)則庫,如表2所示。
表2 三音動詞短語過濾規(guī)則庫
6.1 實驗過程以及結果分析
本實驗采用書面藏語句子共五萬句作為實驗語料,利用統計和規(guī)則方法對這些候選項進行了過濾。為了比較統計方法和規(guī)則方法的得到的不同結果,分別進行了三組不同的實驗。
? 統計方法1: 互信息
? 統計方法2: 互信息+左/右熵
? 統計方法和規(guī)則結合的方法: 互信息+左/右熵+規(guī)則
此外,考慮到動語素表對實驗精度的影響,我們根據動語素(MV)在詞典中的出現頻度(Frequency,F)作為依據構造不同規(guī)模的動語素表進行對比實驗,實驗正確率(Precsion, P)如表3所示。
表3 三音動詞短語抽取準確率
實驗結果表明,動語素表的規(guī)模對實驗結果有很大影響。整體上看,利用頻度越高的動語素構成語素表,實驗的準確率越高,最好結果的準確率達到了91.8。 但是由于過濾掉了大部分動語素導致獲取的結果數量較少。因此在考慮到實驗效果的前提下,我們選擇頻度大于等于10的動語素構造語素表,這樣得到了包含161條記錄的表,將這些語素不同的時、體形式擴充到表中,擴充后的表共包含271個動語素。
以該表中的動語素為標志從文本中抽取出了65 764個詞,經過詞形還原后得59 899個候選項。刪除出現次數小于3的低頻項,候選項減少到11 243個。從實驗結果可以看到,融合的統計方法比單一的互信息方法效果要好,單純使用互信息的準確度比較低,平均為0.759。而將互信息和左/右熵方法融合起來后,平均準確率提高了0.04。語言規(guī)則對準確率影響很大,加入規(guī)則后,平均準確率達到了0.892,比融合的方法要好接近0.1,更比單獨的互信息方法提高了0.133。表4列舉出了正確抽取結果的例子。
表4 獲取的三音動詞短語樣例
6.2 錯誤分析
總體上,利用統計和規(guī)則相結合的過濾方法獲取藏語三音動詞短語的效果還是比較好的。如表4中的結果示例,都是符合三音動詞短語結構規(guī)律且在真實文本中大量出現的短語。但是抽取結果中也存在一些非三音動詞短語的音節(jié)串,大部分錯誤屬于以下四類情況之一。
針對上述四種情況,我們后續(xù)研究中將考慮細化規(guī)則,利用規(guī)則對過濾結果矯正,進一步提高精確度。
本文利用統計和規(guī)則相結合的方法,對藏語三音動詞短語自動抽取,實驗結果表明: 互信息和熵相融合的統計方法效果比較好,當加入規(guī)則庫后,較大地提高了抽取的準確率。說明統計和規(guī)則相融合的方法比單一方法要好。后續(xù)我們將努力提高三音動詞短語抽取的精度,同時把這種嘗試應用到抽取其他藏語動詞短語的研究中去。
[1] 江荻,孔江平.中國民族語言工程研究新進展[M].北京:社會科學文獻出版社,2005:106-122.
[2] 孫健,王偉,鐘義信.基于統計的常用詞搭配Collocation的發(fā)現方法[J].情報學報,2002,21(1):12-16.
[3] Kenneth Ward Church, Patrick Hanks. Word association norms, mutual information, and lexicography [J]. Computational Linguistics, 1990, 16(1):22-29.
[4] 王素格,楊軍玲,張武.自動獲取漢語詞語搭配[J].中文信息學報,2005,20(6):31-37.
[5] 孫茂松,黃昌寧,方捷.漢語搭配定量分析初探[J].中國語文,1997,(1):29-38.
[6] 曲維光,陳小荷,吉根林.基于框架的詞語搭配自動抽取方法[J].計算機工程,2004,30(23):22-24.
[7] 姜柄圭, 張秦龍, 諶貽榮, 等. 面向機器輔助翻譯的漢語語塊自動抽取研究[J]. 中文信息學報, 2007, 21(1): 9-16.
[8] 胡坦.藏語研究論文[M].北京:中國藏學出版社,2002:505-519.
[9] 龍從軍.藏語三音動詞分析及自動識別方法[C]//民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集.中國云南西雙版納傣族自治州.2007: 548-555.
[10] 胡坦.藏語研究論文[M].北京:中國藏學出版社,2002:505-519.
[11] 王志敬.藏語拉薩口語語法[M].北京:中央名族大學出版社,1994:46-67.
[12] 格桑居冕.實用藏文文法[M].四川: 四川民族出版社,1987: 477-488.
[13] 胡書津.簡明藏文文法.云南: 云南民族出版社,1994:75-89.
[14] 周季文,謝后芳.藏語拉薩話語法.北京: 民族出版社,2003:50-59.
Automatic Extraction of Trisyllabic Verb Phrases in Tibetan
ZHAO Weina1,2, LI Lin1,LIU Huidan2, Pubudunzhu3, WU Jian2
(1.Qinghai Normal University, Xining, QING Hai 810008; 2. Institute of Software, Chinese Academy of Sciences, Beijing 100190; 3. Minzu University of China, Beijing 100081)
Trisyllabic verb phrases in Tibetan are flexible with complex structures. In this paper, an algorithm for the automatic extraction of trisyllabic verb phrases is designed by combining statistical models with linguistic rules. First, the candidate trisyllabic verb phrases are retrieved according to the verb phrases morphemes. Then filters by various statistical or rule-based methods are developed. The efficiency of this method are validated by the experiment.
Chinese information processing; Tibetan information processing; lexical acquisition;Tibetan trisyllabic verb phrases
趙維納(1979-),博士,副教授,主要研究領域為藏語信息處理。E?mail:490333294@qq.com李琳(1980-),博士,講師,主要研究領域為藏語信息處理。E?mail:lilin20081@foxmail.com劉匯丹(1982-),博士,副研究員,主要研究領域為操作系統、中文信息處理和多語言信息處理。E?mail:huidan@iscas.ac.cn
1003-0077(2015)03-0196-05
2013-06-14 定稿日期: 2013-11-25
青海省科技創(chuàng)新能力促進項目(2015-23-923Q)
TP391
A