• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于知識(shí)融合的CRFs藏文分詞系統(tǒng)

    2015-04-14 07:50:42洛桑嘎登楊媛媛趙小兵
    中文信息學(xué)報(bào) 2015年6期
    關(guān)鍵詞:藏語藏文分詞

    洛桑嘎登,楊媛媛,趙小兵

    (1.中央民族大學(xué)信息工程學(xué)院,北京100081;2.中央民族大學(xué)少數(shù)民族語言文學(xué)系,北京100081;3.中央民族大學(xué)國家語言資源監(jiān)測(cè)中心少數(shù)民族語言分中心,北京100081)

    1 引言

    藏文自動(dòng)分詞可以看作是計(jì)算機(jī)自動(dòng)辯識(shí)藏文文本字符流中的詞,并在詞與詞之間加入明顯的詞切分標(biāo)記符的過程[1]。藏文自動(dòng)分詞的主要目的是確定藏文信息處理的基本語言單位,為進(jìn)一步開展藏文智能分析和處理做好前期準(zhǔn)備工作。目前藏文分詞技術(shù)的研究方法大體可以分成兩類,一種是基于藏文自身的語法特點(diǎn),首先將文本通過標(biāo)點(diǎn)分成句子,其次通過格助詞將句子分成組塊,最后再對(duì)組塊內(nèi)部通過匹配等方法將詞與詞分開;另一種是基于統(tǒng)計(jì)的方法,將在中文分詞中取得不錯(cuò)效果的統(tǒng)計(jì)自然語言的方法移植到藏文自然語言處理過程中,例如隱馬爾科夫,最大熵,條件隨機(jī)場(chǎng)等。

    2 相關(guān)研究

    藏語分詞作為藏文信息處理中重要的基礎(chǔ)工作,迄今為止已經(jīng)有不少學(xué)者進(jìn)行了研究。最早的關(guān)于藏文分詞系統(tǒng)的研究可以追溯到1997年,江荻進(jìn)行了規(guī)則分詞技術(shù)研究,提出藏語最大匹配算法、任意詞和句尾詞分詞匹配校驗(yàn)等設(shè)計(jì)方案。1999年,羅秉芬、江荻等從12萬詞條和500萬字藏語真實(shí)文本語料分詞的實(shí)踐中歸納出了藏文計(jì)算機(jī)自動(dòng)分詞的36條基本規(guī)則,并提出了藏文分詞的基本框架[2]。同年扎西次仁基于5 000多個(gè)常用詞詞表,利用最大匹配法和人工校對(duì)的方式實(shí)現(xiàn)了分詞功能,但是由于詞庫和方法上的局限性,該系統(tǒng)僅僅具備演示效果,不具備實(shí)用性[3]。2003年,陳玉忠從藏文的語法接續(xù)規(guī)則出發(fā),提出了基于格助詞和接續(xù)特征的書面藏語自動(dòng)分詞方案[4],并依據(jù)該分詞方案的總體設(shè)計(jì)思路,陳玉忠等闡述了書面藏語自動(dòng)分詞系統(tǒng)的具體實(shí)現(xiàn)過程[5]。該方案在將藏文句子分塊的過程中增加了藏文語法中接續(xù)規(guī)則,一定程度上提高了分詞的準(zhǔn)確性,但是無法切分的塊,采取加標(biāo)記但不切分的“謹(jǐn)慎”策略,并默認(rèn)其屬于未登錄詞。這樣的做法顯然對(duì)未登錄詞的識(shí)別不夠精確。2009年,才智杰設(shè)計(jì)了“班智達(dá)藏文分詞系統(tǒng)”[6],此系統(tǒng)分三步實(shí)現(xiàn)分詞功能,首先將文本分成句子,再通過格助詞將句子分成組塊,塊內(nèi)再通過詞典匹配切分成詞,并對(duì)詞典搜索算法進(jìn)行了改進(jìn),既對(duì)詞典進(jìn)行按照詞長(zhǎng)排序,以提高搜索速度。但是此方法針對(duì)在分詞中存在的歧義問題,沒有給出合理的處理方法。

    以上系統(tǒng)實(shí)現(xiàn)的技術(shù)思路主要是根據(jù)藏語中的接續(xù)特征[7],字、詞、句各級(jí)語言單位之間的自然切分標(biāo)記,先利用字切分特征、字性庫“認(rèn)字”,再用標(biāo)點(diǎn)符號(hào)、關(guān)聯(lián)詞“斷句”,用格助詞“分塊”,最后通過詞典匹配“認(rèn)詞”。該技術(shù)方案進(jìn)一步發(fā)展為組塊分詞策略,即充分利用藏語豐富的句法形式標(biāo)記,通過各類名物化標(biāo)記、格標(biāo)記、指代詞、連詞、動(dòng)詞語尾、構(gòu)詞詞綴等形式標(biāo)記構(gòu)建不同的藏語句法組塊類型,并建立相應(yīng)的組塊規(guī)則,分詞時(shí)先根據(jù)形式標(biāo)記和規(guī)則分塊,然后在塊內(nèi)進(jìn)行分詞。在具體操作時(shí)采取最大正向匹配法、最大逆向匹配法或者是最大雙向匹配法等不同的策略。

    隨著漢語分詞開始使用各種統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,如隱馬爾科夫模型、最大熵馬爾科夫模型、條件隨機(jī)場(chǎng)模型等,基于統(tǒng)計(jì)的藏語分詞研究成果也逐漸多起來。2011年,史曉東、盧亞軍率先把統(tǒng)計(jì)方法引入藏語分詞研究,他們開發(fā)的央金藏文分詞系統(tǒng)把漢語分詞系統(tǒng)Segtag的技術(shù)移植到藏語分詞中,實(shí)現(xiàn)了藏語的分詞標(biāo)注一體化[8]。該系統(tǒng)主要采用的隱馬爾科夫模型,使用了約2.7M文本作為訓(xùn)練語料,其分詞結(jié)果F值為91.115%。2012年,劉匯丹等在研究分析了藏文分詞中的格助詞分塊、臨界詞識(shí)別、詞頻統(tǒng)計(jì)、交集型歧義檢測(cè)和消歧等問題之后,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)藏文分詞系統(tǒng)SegT[9],該系統(tǒng)采用雙向切分檢測(cè)交集型歧義字段進(jìn)行消歧處理,在系統(tǒng)分詞的正確率上得到了很大的提升。此外,江荻[10]、羊毛卓么[11]、扎西加[12]等學(xué)者還對(duì)藏文詞語詞形變體識(shí)別規(guī)則、詞組結(jié)構(gòu)以及詞性標(biāo)注等方面進(jìn)行了研究,總體上推進(jìn)了藏文分詞以及文本分析研究的進(jìn)展。

    3 基于條件隨機(jī)場(chǎng)的藏文自動(dòng)分詞

    3.1 條件隨機(jī)場(chǎng)相關(guān)介紹

    條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,它由John Lafferty,Andrew McCallum和Femando Peerira在2001年首次提出[10-11]。它是一種無向圖模型,對(duì)于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的節(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化[11]。線性鏈?zhǔn)荂RFs中常見的特定圖結(jié)構(gòu)之一,它由指定的輸出節(jié)點(diǎn)順序鏈接而成。一個(gè)線性鏈與一個(gè)有限狀態(tài)機(jī)相對(duì)應(yīng),可用于解決序列數(shù)據(jù)的標(biāo)注問題。下面,如果不加說明,CRFs均指線性的CRFs。用x=(x1,x2,…,xn)表示要進(jìn)行標(biāo)注的數(shù)據(jù)序列,y=(y1,y2,…,yn)表示對(duì)應(yīng)的結(jié)果序列。例如,對(duì)于藏文分詞任務(wù),x可以表示一個(gè)藏文句子則表示該句子中每個(gè)音節(jié)所在位置的序列y=(B,E,B,I,Eg,S,S,B,I,I,E,S,B,E,B,I,E,S,S,S,B,E,B,I,E,S,S,S)

    對(duì)于(X,Y),C由局部特征向量f和對(duì)應(yīng)的權(quán)重向量λ確定。對(duì)于輸入數(shù)據(jù)序列x和標(biāo)注結(jié)果序列y,條件隨機(jī)場(chǎng)C的全局特征表示為式(1)。

    其中i遍歷輸入數(shù)據(jù)序列的所有位置,f(y,x,i)表示在i位置時(shí)各個(gè)特征組成的特征向量。于是,CRFs定義的條件概率分布為式(2)。

    其中:

    給定一個(gè)輸入數(shù)據(jù)序列X,標(biāo)注的目標(biāo)就是找出其對(duì)應(yīng)的最可能的標(biāo)注結(jié)果序列,即式(4)。

    由于Zλ(X)不依賴于y,因此有式(5)。

    CRFs模型的參數(shù)估計(jì)通常采用L-BFGS算法實(shí)現(xiàn),CRFs解碼過程,也就是求解未知串標(biāo)注的過程,需要搜索計(jì)算該串上的一個(gè)最大聯(lián)合概率,解碼過程采用Viterbi算法來完成。

    CRFs具有很強(qiáng)的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富。CRF模型沒有隱馬爾可夫模型(Hidden Markov Model,HMM)的強(qiáng)獨(dú)立性假設(shè)條件,因此可以加入更多的文本信息特征;而且CRFs模型計(jì)算的是全局而非局部最優(yōu)輸出結(jié)點(diǎn)的條件概率,正因如此它解決了最大熵模型(Maximum EntroPy Model,MEM)的標(biāo)記偏置問題。CRFs模型能更容易的融合客觀世界數(shù)據(jù)的真實(shí)特征,因此,此模型被廣泛用于自然語言處理的很多領(lǐng)域。

    3.2 基于CRFs的藏文分詞

    3.2.1 總體流程

    如圖1所示,我們對(duì)整個(gè)實(shí)驗(yàn)的流程做簡(jiǎn)單的陳述,

    圖1 基于CRF和規(guī)則的藏文分詞的流程圖

    第一步,首先將從西藏新聞網(wǎng)、人民網(wǎng)藏語頻道和青海藏語廣播網(wǎng)爬取的語料進(jìn)行預(yù)處理,通過詞典匹配分詞,再先后經(jīng)過三次的人工校正,形成訓(xùn)練語料。將訓(xùn)練語料進(jìn)行標(biāo)注轉(zhuǎn)換后,利用CRFs模型對(duì)轉(zhuǎn)換后的語料進(jìn)行訓(xùn)練,最終生成模型參數(shù)。

    第二步,對(duì)來自新華網(wǎng)的語料進(jìn)行預(yù)處理,進(jìn)行詞典匹配分詞,再先后經(jīng)過三次的人工校正,形成測(cè)試語料。

    第三步,通過測(cè)試語料反復(fù)測(cè)試結(jié)果,確定特征模板。

    第四步,通過分析CRFs分詞結(jié)果中的典型錯(cuò)誤設(shè)計(jì)規(guī)則,在上一步識(shí)別的基礎(chǔ)上,進(jìn)行二次識(shí)別,最終得到分詞結(jié)果。

    3.2.2 藏文自動(dòng)分詞標(biāo)注集的選擇

    我們首先定義條件隨機(jī)場(chǎng)模型的訓(xùn)練所需要的標(biāo)準(zhǔn)集,標(biāo)注集的目的是確定某個(gè)音節(jié)在藏文詞的位置,以此確定某個(gè)藏文詞的邊界。而藏文文本存在其特有的黏著詞,所以在對(duì)音節(jié)標(biāo)注時(shí),對(duì)于非單個(gè)音節(jié)構(gòu)成的詞的右邊界和單音節(jié)構(gòu)成的詞需要區(qū)分是黏著形式還是非黏著形式,因此目前研究者在基于條件隨機(jī)場(chǎng)的藏文分詞的標(biāo)注集的選擇上分為兩種方法,第一種是先標(biāo)注黏著詞,即在分詞之前先通過二元標(biāo)注集(Y/N)標(biāo)注當(dāng)前詞是否為黏著形式,再進(jìn)行分詞[12];第二種方法是直接在標(biāo)注音節(jié)位置的同時(shí)增加兩個(gè)新的標(biāo)簽,即五元標(biāo)注集(B,I,E,S,SS,ES)[13]。本文使用第二種方法。以藏文的每個(gè)音節(jié)為對(duì)象,標(biāo)注集中主要定義了藏文詞匯的開始音節(jié)、內(nèi)部音節(jié)、結(jié)尾音節(jié)、黏著形式的單字和黏著形式的結(jié)尾音節(jié),共五種類型,如表1所示。

    表1 藏文分詞標(biāo)注集

    3.2.3 藏文自動(dòng)分詞特征集的選擇

    使用CRFs進(jìn)行藏文分詞的過程就是給定一個(gè)藏文句子x=(x1,x2,…,xn),通過Viterbi解碼算法找出其對(duì)應(yīng)的每個(gè)音節(jié)的位置信息的結(jié)果序列y=(y1,y2,…,yn),使得條件概率Pλ(y|x)最大。而在基于CRFs的標(biāo)注分類問題中,特征函數(shù)的選擇通常起著關(guān)鍵性作用,特征選擇的好壞直接決定著CRFs標(biāo)注結(jié)果的優(yōu)劣。CRFs最大的優(yōu)點(diǎn)之一就是特征的選擇很靈活,根據(jù)要解決的問題,能夠融入任意的特征。選擇不同的特征,所得到的實(shí)驗(yàn)結(jié)果是不相同的。在本實(shí)驗(yàn)中,對(duì)于特征的選擇,利用了詞的上下文信息,這里所謂的“上下文”可以看作是以當(dāng)前詞為基線的、包括其前后若干詞的一個(gè)“觀測(cè)窗口”(w-n,w-(n-1),…,w0,…,wn-1,wn)。本文采用的特征模板如表2所示。

    表2 藏文分詞模型的特征模板

    3.2.4 未登錄詞的處理

    雖然我們的訓(xùn)練語料足夠大,但是對(duì)人名、地名、組織機(jī)構(gòu)名等的命名實(shí)體的覆蓋面有限,不可避免地會(huì)遇到一些在訓(xùn)練語料中沒有出現(xiàn)的詞,在這里把這類詞稱之為未登錄詞。未登錄詞的正確標(biāo)注是分詞的一個(gè)難點(diǎn),其標(biāo)注結(jié)果的好壞,會(huì)直接影響到整個(gè)分詞的正確率。解決未登錄詞正確標(biāo)注的方法有兩種,第一種是在訓(xùn)練語料中覆蓋足夠多的人名、地名、組織機(jī)構(gòu)名;第二種方法是通過總結(jié)規(guī)則來提高未登錄詞標(biāo)注的準(zhǔn)確率。本文基于以上兩種思想,在人民網(wǎng)藏語頻道2014年的全年的共6 000多篇藏文文章中提取了14 077條人名,5 359條地名,6 899條組織機(jī)構(gòu)名,共26 335條命名實(shí)體加入訓(xùn)練集中,同時(shí)整理了藏語常用地名、人名、組織機(jī)構(gòu)名實(shí)體庫。

    3.3 基于知識(shí)融合的藏文分詞

    我們通過總結(jié)CRFs分詞結(jié)果的錯(cuò)誤,并對(duì)錯(cuò)誤進(jìn)行分析,歸納總結(jié)了基于藏文自身知識(shí)的分詞規(guī)則,并通過這些知識(shí)對(duì)CRFs的結(jié)果進(jìn)行校正。主要針對(duì)非藏文字符切分錯(cuò)誤,藏文黏著詞識(shí)別錯(cuò)誤,停用詞切分錯(cuò)誤,一些典型的人名、地名、組織機(jī)構(gòu)名的識(shí)別錯(cuò)誤等問題分別總結(jié)了規(guī)則。首先列舉幾個(gè)基于CRFs的識(shí)別結(jié)果中的典型例句和經(jīng)過模型識(shí)別后的錯(cuò)誤標(biāo)注序列以及其正確的標(biāo)注序列,然后針對(duì)這些典型例句錯(cuò)誤標(biāo)注序列進(jìn)行分析。

    3.3.1 非藏文字符的識(shí)別錯(cuò)誤修正

    CRFs切分結(jié)果:

    正確的切分結(jié)果:

    切分錯(cuò)誤:65應(yīng)切分/65

    導(dǎo)致該類錯(cuò)誤的原因是有兩種,一是由于語料中存在一定量的非藏文字符,而本文所采用的基于CRFs的方法是對(duì)藏文音節(jié)序列的標(biāo)注,我們將未分詞的藏文語料按照音節(jié)序列交給CRFs模型參數(shù)去識(shí)別時(shí),會(huì)存在藏文字符和非藏文字符組合當(dāng)成一個(gè)音節(jié),這樣訓(xùn)練集中不存在這樣的音節(jié)而導(dǎo)致錯(cuò)誤;二是訓(xùn)練集中本身就存在藏文字符和非藏文字符的組合當(dāng)成一個(gè)音節(jié)的現(xiàn)象而導(dǎo)致分詞錯(cuò)誤。

    針對(duì)該類錯(cuò)誤我們定義如下規(guī)則:設(shè)S表示待切分的藏文句子,S={w0,w1......wi......,wn},(0<i<n),wi表示每一個(gè)音節(jié)。U={D,E,C,P},用U表示非藏文字符集合,用uj(0<j<n)表示非藏文字符集合U中的元素,其中D是時(shí)間和數(shù)字的集合,例如,“123”,“3.14”,“30%”等,E、C分別表示英文和中文字符,P表示標(biāo)點(diǎn)符號(hào),包括中英文標(biāo)點(diǎn)符號(hào)、半全角標(biāo)點(diǎn)符號(hào)。

    規(guī)則1

    如果wi∈U(i≠0);則將wi單獨(dú)從集合S中切分出來。

    在未分詞的語料按照每個(gè)音節(jié)分開之前先通過該規(guī)則將所有非藏文字符單獨(dú)切分出來,這樣避免了交給CRFs模型參數(shù)去識(shí)別時(shí),藏文字符和非藏文字符的組合當(dāng)成一個(gè)音節(jié)而導(dǎo)致的錯(cuò)誤。在得到CRFs分詞的結(jié)果之后,再通過該規(guī)則處理一次,這樣避免了訓(xùn)練集中本身就存在藏文字符和非藏文字符的組合當(dāng)成一個(gè)音節(jié)的現(xiàn)象而導(dǎo)致分詞錯(cuò)誤。

    3.3.2 黏著詞的識(shí)別錯(cuò)誤修正

    CRF切分結(jié)果:

    正確的切分結(jié)果:

    導(dǎo)致該類錯(cuò)誤的原因是對(duì)藏文中黏著詞的識(shí)別不準(zhǔn)確,針對(duì)這類錯(cuò)誤我們首次引入了詞頻的信息。首先我們統(tǒng)計(jì)了在大規(guī)模的訓(xùn)練語料中出現(xiàn)的所有包含黏著詞的音節(jié)的出現(xiàn)頻次,在我們的訓(xùn)練集中總共出現(xiàn)了101 265條包含黏著詞的音節(jié),去重后僅有305條不重復(fù)的包含黏著詞的音節(jié),從中不難發(fā)現(xiàn)這些包含黏著詞的音節(jié)的重復(fù)率很高。我們分別計(jì)算了每個(gè)包含黏著詞的音節(jié)在訓(xùn)練語料中所占的比例fc。fc的計(jì)算方法如式(6)所示。

    我們以前十個(gè)出現(xiàn)次數(shù)最多的包含黏著詞的音節(jié)作為例子,如表3所示。

    表3 前十個(gè)出現(xiàn)次數(shù)最多的包含黏著詞的音節(jié)

    我們對(duì)不同的fc值進(jìn)行了實(shí)驗(yàn),圖2給出了fc對(duì)黏著詞判斷的影響:

    從該表我們不難發(fā)現(xiàn),這幾個(gè)音節(jié)在文本中作為黏著形式的詞的概率fc都很高。我們定義以下規(guī)則:將所有符合fc>f的音節(jié)加入集合N,N表示常用包含黏著詞的音節(jié)集合,nj表示集合N中包含的元素。其中f是我們自定義的閾值,從實(shí)驗(yàn)數(shù)據(jù)可以得出f取值為55時(shí)效果最佳。

    規(guī)則2

    如果wi∈N(i≠0)且fc>f,則將wi判斷為帶有黏著形式的藏文音節(jié)。

    3.3.3 停用詞的分詞錯(cuò)誤修正

    由于目前還沒有學(xué)界公認(rèn)的藏文停用詞表,本文所指的停用詞包括如下內(nèi)容。無歧義的藏文格助詞:例如等;

    圖2 fc取值對(duì)黏著詞識(shí)別的效果圖

    CRFs切分結(jié)果:

    正確的切分結(jié)果:

    該類錯(cuò)誤是本該分開的格助詞在CRF識(shí)別結(jié)果中沒能分開。例如等。針對(duì)這類錯(cuò)誤我們整理了藏語常用停用詞表。對(duì)于這類詞我們定義如下規(guī)則:設(shè)SW(stop words)表示停用詞集合。

    規(guī)則3

    如果:wi∈SW(i≠0),則將wi單獨(dú)從集合S中分出來。

    3.3.4 未登錄詞識(shí)別錯(cuò)誤修正

    CRF切分結(jié)果:

    正確的切分結(jié)果:

    導(dǎo)致該類錯(cuò)誤的原因是因?yàn)橛?xùn)練集中不包含這個(gè)命名實(shí)體,從而CRFs未能識(shí)別出來。針對(duì)該類錯(cuò)誤,我們整理了藏語常用人名、地名、組織機(jī)構(gòu)名實(shí)體庫。對(duì)于這類詞我們定義如下規(guī)則,設(shè)T表示常用實(shí)體庫,tj表示集合T中的元素。

    規(guī)則4

    如果wi∈T(i≠0),則將wi單獨(dú)從集合S中分出來。

    4 實(shí)驗(yàn)結(jié)果

    4.1 實(shí)驗(yàn)數(shù)據(jù)

    雖然對(duì)藏文信息處理已進(jìn)行了多年的研究,但至今沒有公開的語料庫,因此本實(shí)驗(yàn)的訓(xùn)練集語料數(shù)據(jù)來源是西藏新聞網(wǎng)、人民網(wǎng)藏語頻道、青海藏語廣播網(wǎng)和新華網(wǎng)等主流媒體的藏語網(wǎng)站。所涉及的領(lǐng)域范圍包括新聞、娛樂、詩歌、文化、宗教不同類別的文章。具體的實(shí)驗(yàn)數(shù)據(jù)如表4所示。

    表4 實(shí)驗(yàn)數(shù)據(jù)詳細(xì)情況

    4.2 實(shí)驗(yàn)平臺(tái)

    本文實(shí)驗(yàn)都是在PC機(jī)環(huán)境下完成的,操作系統(tǒng)是Win7,使用條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練和測(cè)試,采用的是CRF++0.58。CRF++是一個(gè)實(shí)現(xiàn)了條件隨機(jī)場(chǎng)模型的工具,被大量應(yīng)用于序列數(shù)據(jù)的標(biāo)注和分割,具有良好的通用性,現(xiàn)在已經(jīng)被廣泛運(yùn)用于自然語言處理各個(gè)領(lǐng)域的研究和應(yīng)用中,例如,分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、信息抽取等。

    4.3 評(píng)測(cè)指標(biāo)

    我們用R、P、F分別表示召回率、正確率、F值。則R、P、F的計(jì)算方法公式如式(7)~(9)所示。

    4.4 藏語分詞結(jié)果

    我們分別對(duì)僅使用CRF模型的分詞結(jié)果和使用規(guī)則校正后的分詞結(jié)果做了比較,如表5所示。

    表5 CRFs和規(guī)則相結(jié)合分詞結(jié)果

    從上表我們可以看出加入本文總結(jié)的規(guī)則對(duì)基于條件隨機(jī)場(chǎng)模型的藏文分詞進(jìn)行校正之后,比起僅使用CRF模型在分詞的R、P、F都有了明顯提高。主要是對(duì)非藏文字符的切分和黏著詞的再識(shí)別以及停用詞的再切分都對(duì)分詞的準(zhǔn)確率的提升起到了很好的作用。

    在開放測(cè)試中,采用本文的CRF和規(guī)則相結(jié)合的方法,分詞的R、P、F等指標(biāo)值均達(dá)到了96%,說明基于本文的藏語分詞方法可以取得較好的分詞效果。在封閉測(cè)試中,分詞的各項(xiàng)指標(biāo)均超過了99%,雖然是在實(shí)驗(yàn)條件下的分詞結(jié)果,但是可以說明利用條件隨機(jī)場(chǎng)和規(guī)則相結(jié)合的分詞方法對(duì)于藏語分詞有理想的預(yù)期效果。

    經(jīng)過與其他學(xué)者的藏文分詞研究結(jié)果比較可以看出,本文提出的條件隨機(jī)場(chǎng)和規(guī)則相結(jié)合的分詞方法的分詞結(jié)果在各項(xiàng)指標(biāo)上均有提升。

    4.5 總結(jié)

    本文在前人研究的基礎(chǔ)上根據(jù)藏語的特點(diǎn)實(shí)現(xiàn)了一種基于CRF和規(guī)則相結(jié)合的藏語分詞系統(tǒng),通過基于字標(biāo)注的CRF模型分詞方法和依照藏文獨(dú)特的語法特點(diǎn),使用規(guī)則對(duì)CRF分詞結(jié)果進(jìn)行校正,取得了很好的分詞效果。分析分詞錯(cuò)誤的結(jié)果集發(fā)現(xiàn),大部分錯(cuò)誤都集中在未登錄詞的識(shí)別錯(cuò)誤上,接下來,我們希望通過加入更多的藏語語法規(guī)則來減少分詞系統(tǒng)中對(duì)于人名、地名、機(jī)構(gòu)名等命名實(shí)體的識(shí)別錯(cuò)誤。

    [1] 孫茂松,鄒嘉彥.漢語自動(dòng)分詞研究評(píng)述[J].當(dāng)代語言學(xué),2001,3(1):22-32.

    [2] 羅秉芬,江荻.藏文計(jì)算機(jī)自動(dòng)分詞的基本規(guī)則[C]//中國少數(shù)民族語言文字現(xiàn)代化文集.北京:民族出版社,1999

    [3] 扎西次仁.一個(gè)人機(jī)互助的藏語分詞和詞登錄系統(tǒng)的設(shè)計(jì)[C]//中國少數(shù)民族語言文字現(xiàn)代化文集.北京:民族出版社,1999.

    [4] 陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[J].語言文字應(yīng)用,2003,(01):75-82.

    [5] 陳玉忠,李保利,俞士汶.藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2003,17(03):15-20.

    [6] 才智杰.班智達(dá)藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].青海師范大學(xué)民族師范學(xué)院學(xué)報(bào),2010,21(02):75-77.

    [7] Norbu S,Choejey P,Dendup T,et al.Dzongkha word segmentation[C]//Proceedings of the 8th Workshop on Asian Language Resources.2010:95-102.

    [8] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2011,25(4):54-56.

    [9] Liu Huidan,Nuo Minghua,Ma Longlong,et al.Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Field[C]//Proceedings of the PACLIC.2011:168-177.

    [10] 洪銘材,張闊,唐杰等.基于條件隨機(jī)場(chǎng)(CRFs)的中文詞性標(biāo)注方法[J].計(jì)算機(jī)科學(xué),2006,33(10):146-151.

    [11] 魏歐,孫玉芳.基于非監(jiān)督訓(xùn)練的漢語詞性標(biāo)注的實(shí)驗(yàn)與分析[J].計(jì)算機(jī)研究與發(fā)展,2000,37(4):477-482.

    [12] 李亞超,加羊吉,宗成慶等.基于條件隨機(jī)場(chǎng)的藏語自動(dòng)分詞方法研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2013,27(04):52-58.

    [13] 康才畯.藏語分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文.2014.5.

    猜你喜歡
    藏語藏文分詞
    淺談藏語中的禮儀語
    客聯(lián)(2022年2期)2022-04-29 22:05:07
    漢藏語及其音樂
    西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    結(jié)巴分詞在詞云中的應(yīng)用
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    藏語拉達(dá)克話的幾個(gè)語音特征
    西藏研究(2017年3期)2017-09-05 09:44:58
    值得重視的分詞的特殊用法
    藏文音節(jié)字的頻次統(tǒng)計(jì)
    現(xiàn)代語境下的藏文報(bào)刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    藏語地理分布格局的形成原因
    西藏研究(2016年5期)2016-06-15 12:56:42
    方山县| 武邑县| 高阳县| 高州市| 长宁县| 米易县| 富蕴县| 峨山| 孟州市| 保定市| 自贡市| 太白县| 大新县| 旬邑县| 潜山县| 兴国县| 巩义市| 海林市| 石狮市| 象山县| 梓潼县| 视频| 廉江市| 新巴尔虎左旗| 教育| 留坝县| 大安市| 仪征市| 土默特左旗| 建德市| 乌拉特后旗| 山阴县| 和顺县| 陆川县| 广丰县| 景德镇市| 江口县| 广饶县| 湛江市| 靖宇县| 冀州市|