• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合形態(tài)特征的最大熵維吾爾語(yǔ)詞性標(biāo)注

      2015-01-01 03:14:24帕力旦吐爾遜房鼎益
      關(guān)鍵詞:維吾爾文詞干維吾爾語(yǔ)

      帕力旦·吐爾遜,房鼎益

      (1.西北大學(xué)信息學(xué)院,陜西 西安 710127;2.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830046)

      詞性標(biāo)注(Part-of-Speech Tagging)是詞法分析的一個(gè)重要部分,主要目的是給句中每一個(gè)詞賦以正確的分類標(biāo)記。詞性標(biāo)注的難點(diǎn)是如何正確判斷兼類詞的詞性以及對(duì)生詞詞類的判別。

      目前詞性標(biāo)注的方法有基于統(tǒng)計(jì)及基于規(guī)則的方法。最早提出的是基于規(guī)則的一種方法,主要是詞類消歧規(guī)則[3]的建立要依據(jù)兼類詞之間的搭配情況,在考慮語(yǔ)境以及上下文的含義。由于應(yīng)用的范圍廣,要求高,被標(biāo)注的語(yǔ)料的規(guī)模也會(huì)增大,原來(lái)的人工的方法提取規(guī)則雖然有其一定的優(yōu)點(diǎn),但是也有很大的缺點(diǎn),同時(shí)浪費(fèi)了時(shí)間和精力,再加上在不同的領(lǐng)域詞性標(biāo)注系統(tǒng)的要求都不一樣,針對(duì)各種語(yǔ)言標(biāo)注系統(tǒng)也不可通用,基于以上種種原因,在對(duì)大規(guī)模語(yǔ)料進(jìn)行處理時(shí)我們選擇了另一種標(biāo)注方法,也就是基于統(tǒng)計(jì)方法來(lái)進(jìn)行詞性標(biāo)注,這個(gè)方法克服了前一種方法的缺點(diǎn),也可以進(jìn)行移植,現(xiàn)在也成為了包括經(jīng)英語(yǔ)和漢語(yǔ)在內(nèi)的一些語(yǔ)言進(jìn)行詞性標(biāo)注方面研究的一種常用的方法,而且這個(gè)方法的效果也是令人滿意的。

      維吾爾文的詞性標(biāo)注的研究方面開展得比較晚一些,而且最開始大家都使用了基于詞典的方法以及基于規(guī)則的一種方法[4-6],同時(shí)也使用了基于N-gram的HMM模型[7],盡管它們的效果也都比較好,但在處理維吾爾文等黏著型的語(yǔ)言時(shí)也有一定的問(wèn)題,由于維吾爾語(yǔ)在融入語(yǔ)言知識(shí)上有一定的不足,因此在使用它時(shí)就受到了一定的局限。在維吾爾語(yǔ)的詞性標(biāo)注研究時(shí)遇到的一個(gè)很大的難點(diǎn)就是該語(yǔ)言的詞形變化十分豐富,舉例來(lái)說(shuō),如果在一個(gè)詞干的后面加上不同詞綴的附加成分,那么這個(gè)單詞就可以構(gòu)成不同的單詞。采用上述方法盡管取得了較好的成績(jī),但仍然有大量的未登錄詞無(wú)法避免,而且也使得維吾爾文的詞性標(biāo)注出現(xiàn)了更加嚴(yán)重歧義的現(xiàn)象,如果不能使用足夠的特征信息來(lái)進(jìn)行處理,就會(huì)對(duì)兼類詞消歧產(chǎn)生很大的影響,并且也會(huì)在對(duì)未知詞進(jìn)行標(biāo)注時(shí)影響它的詞性標(biāo)注的準(zhǔn)確度,一般采用猜測(cè)的方法對(duì)上述模型中未登錄詞的詞性進(jìn)行標(biāo)注。

      本文充分利用維吾爾文形態(tài)特征建立了一個(gè)基于最大熵理論的維吾爾文詞性標(biāo)注模型,由于最大熵模型使用的特征豐富,而且充分利用了上下文的信息,因此它的概率分布在給定的約束條件之下可以達(dá)到與訓(xùn)練數(shù)據(jù)大致一致,同時(shí)也因?yàn)檫x擇并使用了一些豐富的上下文信息,就使得在對(duì)未登錄詞的詞性標(biāo)注進(jìn)行預(yù)測(cè)時(shí)結(jié)果也非常理想[8-10]。通過(guò)對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行分析,最后證明在對(duì)維吾爾文兼類詞進(jìn)行消歧以及對(duì)未知詞的詞性進(jìn)行標(biāo)注時(shí),使用最大熵模型對(duì)其進(jìn)行預(yù)測(cè)就能夠得到較滿意的效果,而且該方法取得的標(biāo)注的效果也會(huì)優(yōu)于其他方法。

      1 維吾爾文詞性標(biāo)注

      1.1 維吾爾語(yǔ)詞類分析

      維吾爾文按照詞的大的類型來(lái)劃分,則可以將其分為實(shí)詞、虛詞、感嘆詞等類型,如果對(duì)其中的實(shí)詞再細(xì)分還能分成動(dòng)詞、靜詞兩種,其中靜詞還可分成副詞、數(shù)詞、名詞、形容詞、量詞、代詞、擬聲詞等幾種類型;虛詞還可分成語(yǔ)氣詞、連詞、后置詞等幾種類型。實(shí)詞中包含的分類有形態(tài)的變化并可以表達(dá)意義,虛詞詞類則沒(méi)有形態(tài)變化[11]。維吾爾語(yǔ)靜詞的不同詞綴有65個(gè),其中形容詞的不同詞綴有55個(gè),名詞的不同詞綴49個(gè),數(shù)詞的不同詞綴57個(gè),動(dòng)詞有150多個(gè)不同詞綴。維吾爾文實(shí)詞詞綴的各種組合中靜詞總計(jì)可達(dá)1 502種,動(dòng)詞可達(dá)1 500種。而實(shí)際上語(yǔ)料庫(kù)卻只有368種組合方式。

      1.2 維吾爾語(yǔ)詞性標(biāo)記集

      維吾爾語(yǔ)沒(méi)有一個(gè)統(tǒng)一詞性標(biāo)記集的規(guī)范,新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室[7]和新疆師范大學(xué)[5]的標(biāo)注規(guī)范有自己的標(biāo)準(zhǔn)。本文采用的維吾爾文詞性標(biāo)注標(biāo)記集是新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室采用的。該標(biāo)記集在對(duì)英文、中文詞性標(biāo)注標(biāo)記集參考的基礎(chǔ)上,在維吾爾文原有12個(gè)基本詞類的基礎(chǔ)上(表1),制定的詞性標(biāo)注規(guī)范[7]中具有一級(jí)標(biāo)記集15個(gè),二級(jí)標(biāo)記集71個(gè),三級(jí)標(biāo)記集51個(gè)。本文進(jìn)行建模與實(shí)驗(yàn)時(shí)采用一級(jí)標(biāo)記集是由于語(yǔ)料庫(kù)規(guī)模不大。

      表1 新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室維吾爾語(yǔ)詞性一級(jí)標(biāo)記集Tab.1 First level POS tagging set proposed by the key laboratory of multilingual information technology in Xinjiang

      1.3 詞性標(biāo)注難點(diǎn)

      維吾爾語(yǔ)形態(tài)會(huì)有變化,所以需要考慮詞性標(biāo)注前是否需要對(duì)維吾爾語(yǔ)單詞進(jìn)行形態(tài)分析的問(wèn)題。若對(duì)單詞不進(jìn)行詞干提取的話,則詞性標(biāo)注時(shí)同一個(gè)單詞的不同變體被系統(tǒng)認(rèn)為不同的單詞,大量的未登錄詞可能會(huì)出現(xiàn);若對(duì)單詞進(jìn)行詞干提取的話,雖然在一定程度上減小了數(shù)據(jù)稀疏的問(wèn)題,但是同時(shí)卻又增大歧義現(xiàn)象的可能。例如:

      (拉丁文轉(zhuǎn)寫):m?ning ?timbek oruq,hazirche beygige yarimaydu,s?ning?tingniat beygisge qatnashturup baqsaq qandaq?

      (翻譯成):我的馬太瘦了,現(xiàn)在還不能參加賽馬,你的馬參加一下如何?

      “馬”這個(gè)單詞在以上的句子中出現(xiàn)了3次,每一次都是不一樣的形態(tài)。若訓(xùn)練庫(kù)中只有?tim和at的形式,而?tingni(你的馬)形式卻沒(méi)有,則模型將?tingni判斷為未登錄詞,實(shí)際上該單詞的詞干形式已在訓(xùn)練庫(kù)有了,由于單詞形態(tài)的變化使得已有詞被識(shí)別為未登錄詞的現(xiàn)象產(chǎn)生。即便如此,對(duì)單詞進(jìn)行詞干提取后也可能有更多的歧義產(chǎn)生。比如,單詞at在以上句子中的還有“射擊”的意思,是動(dòng)詞,對(duì)?tim詞干提取之后,at就有了歧義。若利用當(dāng)前連接的詞綴模型或規(guī)則就能確定當(dāng)前詞干at不是動(dòng)詞而是個(gè)名詞。另外,詞性轉(zhuǎn)移概率一定程度上受在訓(xùn)練語(yǔ)料庫(kù)中的形態(tài)影響。文獻(xiàn)[7]中基于HMM的詞性標(biāo)注方法的研究中就遇到了該問(wèn)題。HMM模型不能利用有利于歧義消除或未登錄詞預(yù)測(cè)的特征信息而只能用發(fā)射概率、單詞的前后搭配出現(xiàn)概率等。故本文建立維吾爾語(yǔ)統(tǒng)計(jì)詞性標(biāo)注模型時(shí)采用最大熵模型。

      近幾十年來(lái)研究者研究了基于支持向量機(jī)、隱馬爾科夫、條件隨機(jī)場(chǎng)、最大熵等模型的詞性標(biāo)注工作[1]。由于最大熵模型可以和自然語(yǔ)言模型很好地匹配,還能對(duì)多類約束信息進(jìn)行融合,因此在用其進(jìn)行詞性標(biāo)注研究時(shí)效果較好。在英語(yǔ)的詞性標(biāo)注中使用最大熵方法其準(zhǔn)確率達(dá)到了97%以上,已和人工標(biāo)注的準(zhǔn)確度[2]相似。

      2 基于最大熵的維吾爾文詞性標(biāo)注模型

      2.1 最大熵的模型及原理

      自然語(yǔ)言處理的方法中最大熵模型經(jīng)常被使用[8]??梢詫⑺鼞?yīng)用到自然語(yǔ)言處理里的詞性標(biāo)注、分詞、詞義排歧、文本分類、機(jī)器翻譯等方面。

      首先建立一個(gè)隨機(jī)過(guò)程的模型p,把自然語(yǔ)言看作隨機(jī)過(guò)程,p∈P;輸出值的集合為Y,y∈Y;上下文集合X,x∈X;N個(gè)樣本的集合S={(x1,y1),(x2,y2),…,(xN,yN)},(xi,yi)是對(duì)一個(gè)事件的觀察,事件空間為X×Y;用特征表示語(yǔ)言知識(shí),特征為一個(gè)2值函數(shù)f:X×Y→{0,1}。

      模型p的熵

      其中C是滿足約束條件的模型集合,接下來(lái)就要在C中尋找具有下面形式的p*

      式中Z(x)是模型的參數(shù),表示一個(gè)歸一化常量。

      也可以將它看作是特征的權(quán)值,而權(quán)值的大小則由λi每個(gè)特征的貢獻(xiàn)來(lái)決定。

      2.2 特征選擇方法

      模型中針對(duì)問(wèn)題選取特征集合[8]是最大熵模型的關(guān)鍵。將復(fù)雜的語(yǔ)言現(xiàn)象轉(zhuǎn)化為簡(jiǎn)單的特征表示。使用最大熵模型構(gòu)建序列對(duì)模型進(jìn)行標(biāo)注,即標(biāo)注結(jié)果y是根據(jù)x的上下文特征來(lái)確定的,由此可見合適的特征集合的建立十分重要。本文中建立維吾爾文詞性標(biāo)注模型的特征集合的方法:

      1)常規(guī)特征:詞的詞性和它的上下文環(huán)境有很大關(guān)系,故判斷當(dāng)前詞的詞性時(shí)應(yīng)當(dāng)考慮這個(gè)詞w的前n個(gè)詞及后m個(gè)詞的含義及其他信息。

      2)維吾爾文中構(gòu)詞的特點(diǎn):維吾爾語(yǔ)是黏著型的語(yǔ)言,屬于阿爾泰語(yǔ)系突厥語(yǔ)族,其他如蒙古語(yǔ)、滿語(yǔ)、土耳其語(yǔ)、日語(yǔ)、韓語(yǔ)、匈牙利語(yǔ)、芬蘭語(yǔ)、泰米爾語(yǔ)均屬于黏著型語(yǔ)言。它的特點(diǎn)是時(shí)態(tài)的變化可以通過(guò)在單詞的詞尾加上各類詞綴來(lái)實(shí)現(xiàn)。

      維吾爾文詞語(yǔ)在結(jié)構(gòu)上分為詞根和詞干兩部分,詞根不可再分,為最小的語(yǔ)義單位。幾個(gè)詞根連接在一起,或者詞根和詞綴連接在一起就組成了詞干。例如:詞根為 ish(事宜,事情,職業(yè),事),通過(guò)這個(gè)詞根后面連接構(gòu)詞詞綴chi,可以得到詞干ish+chi=ishchi(工人)。在維吾爾文文本中的單詞一般由詞干和連接詞尾的幾個(gè)構(gòu)形詞綴來(lái)表達(dá)句中的語(yǔ)法功能。例如:ishchi(工人)+ning(構(gòu)形詞綴)=ishchining(工人的)。

      經(jīng)新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室的《維吾爾語(yǔ)百萬(wàn)詞詞法標(biāo)注語(yǔ)料庫(kù)》進(jìn)行統(tǒng)計(jì)得知,平均每條句子中出現(xiàn)形態(tài)變化的單詞約有66.54%,句子中單詞連接兩個(gè)以上詞綴的詞匯有37.39%。因此,對(duì)維吾爾文詞性標(biāo)注模型而言,詞干是能夠有效減小數(shù)據(jù)稀疏問(wèn)題的重要信息,構(gòu)形詞綴是有利于消除歧義及識(shí)別未登錄詞詞類的重要線索之一。

      2.3 特征模板定義

      本文中,文獻(xiàn)[8-9]是在詞性標(biāo)注模型特征模板的基礎(chǔ)上,根據(jù)維吾爾文的構(gòu)詞特點(diǎn),設(shè)計(jì)了維吾爾文詞的內(nèi)部特征、前后依存特征及混合特征。

      2.3.1 維吾爾文詞內(nèi)部特征 詞干和詞綴信息統(tǒng)稱詞內(nèi)部特征。在維吾爾文文本中的單詞一般由詞干和連接詞尾的幾個(gè)構(gòu)形詞綴來(lái)表達(dá)句中的語(yǔ)法功能。本文設(shè)計(jì)的詞內(nèi)部特征模板如下:

      1)詞干信息

      維吾爾語(yǔ)中詞干附加構(gòu)形詞綴原詞干的詞性不變,只是表達(dá)語(yǔ)法功能,所以對(duì)句子中的單詞進(jìn)行詞干提取不影響詞干詞性的識(shí)別。例如:kitab(書)+ta(構(gòu)形詞綴)=kitabta(書上),所以句子中只考慮kitab的詞性就可以,特征函數(shù)定義為

      2)詞綴信息

      作為黏著語(yǔ)言,維吾爾語(yǔ)有豐富的形態(tài)變化,名詞有49個(gè)詞綴,數(shù)詞有57個(gè)詞綴,形容詞詞綴有55個(gè),動(dòng)詞詞綴有150多個(gè)。不同組合數(shù)可以達(dá)到3 002種,動(dòng)詞詞綴超過(guò)1 500種,但在實(shí)際語(yǔ)料庫(kù)中出現(xiàn)的有368種組合方式。詞綴的主要作用是表達(dá)語(yǔ)法功能,在句中什么位置連接什么樣的詞綴,要看具體的上下文。因此,詞綴在識(shí)別未登錄詞詞性和排除兼類詞詞性時(shí)能夠提供線索。例如,at是兼類詞,詞類是名詞和動(dòng)詞,at+ing=?ting(你的馬),根據(jù)詞綴ing就可以判斷當(dāng)前詞類是名詞,at+ma=atma(不要射擊)就可以判斷當(dāng)前詞類是動(dòng)詞。特征函數(shù)定義為

      表2 詞內(nèi)部信息特征模板Tab.2 Inner word information feature template

      2.3.2 前后依存特征 前后依存詞特征指的是與句子中的當(dāng)前詞聯(lián)系緊密的詞之間的關(guān)系,對(duì)于兼類詞可以根據(jù)前后依存詞的相關(guān)信息予以解決。例如,句子1:“men dora yeyishni untup qaptimen.(我忘了吃藥。)”;句子2:“sen meni dorima.(你不要模仿 我。)”。單詞dora有藥品、模仿等意思,可以看作名詞或動(dòng)詞。消歧處理時(shí)可以利用其前后詞的詞類特征來(lái)進(jìn)行。

      表3 前后依存詞信息特征模板Tab.3 Word context information feature template

      2.3.3 混合特征 就是混合當(dāng)前詞的詞干、詞綴、前驅(qū)詞的詞干、詞綴、后續(xù)詞的詞干、詞綴等特征信息,混合信息特征定義如表5所示。

      表4 混合信息特征模板Tab.4 Mixed information feature template

      3 分析實(shí)驗(yàn)結(jié)果

      3.1 維吾爾語(yǔ)語(yǔ)料庫(kù)

      本文的實(shí)驗(yàn)使用的語(yǔ)料庫(kù)是較為權(quán)威的,新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室的《維吾爾語(yǔ)百萬(wàn)詞詞法標(biāo)注語(yǔ)料庫(kù)》,該語(yǔ)料庫(kù)包含詞性標(biāo)注,詞干、詞綴等信息,選用的規(guī)模為60 041條句子、詞次1 119 565,不重復(fù)的詞匯為98 941條,詞干為42 258,平均每條句子中出現(xiàn)形態(tài)變化的單詞約有66.54%,句子中單詞連接兩個(gè)以上詞綴的詞匯有37.39%,其中兼類單詞詞干1 848條、出現(xiàn)頻率為16 347次。

      表5 實(shí)驗(yàn)數(shù)據(jù)Tab.5 The experimental data

      因?yàn)檎Z(yǔ)料庫(kù)主要包括文學(xué)、醫(yī)學(xué)、農(nóng)業(yè)、法律、新聞等內(nèi)容,領(lǐng)域覆蓋度并不高,所以本文中對(duì)句子進(jìn)行了隨機(jī)抽取,其構(gòu)成如表6所示??煽闯?,各種詞性在訓(xùn)練語(yǔ)料庫(kù)和測(cè)試語(yǔ)料庫(kù)中分布均勻。形容詞、動(dòng)詞、名詞、標(biāo)點(diǎn)符號(hào)稍多一些。

      表6 訓(xùn)練和測(cè)試語(yǔ)料庫(kù)詳細(xì)統(tǒng)計(jì)Tab.6 Detailed statistics on training and testing corpus

      一般詞性標(biāo)注準(zhǔn)確度是評(píng)價(jià)標(biāo)注結(jié)果的有效數(shù)據(jù),其定義如下

      3.2 實(shí)驗(yàn)設(shè)置及結(jié)果分析

      在本文中,采用SharpNLP的MaxEnt工具包進(jìn)行實(shí)現(xiàn)最大熵模型,采用新疆大學(xué)多語(yǔ)種信息技術(shù)開發(fā)的XJUNLP基于N元語(yǔ)法的HMM模型進(jìn)行對(duì)比分析。由前所述,對(duì)各種不同組合的特征進(jìn)行實(shí)驗(yàn),選出最適合于維吾爾文詞性標(biāo)注的特征組合。表3作為基本特征組合使用,用T1表示。

      采用常用的詞依存特征進(jìn)行實(shí)驗(yàn),準(zhǔn)確度達(dá)到了94.21%,以此為基準(zhǔn)。實(shí)驗(yàn)2、實(shí)驗(yàn)3、實(shí)驗(yàn)4、實(shí)驗(yàn)5、實(shí)驗(yàn)6等加入了詞干特征,隨著增加上下文詞干特征,提高了模型準(zhǔn)確度。分析結(jié)果可得當(dāng)前單詞之前單詞詞干、當(dāng)前單詞詞干及后一個(gè)單詞詞干特征對(duì)準(zhǔn)確度貢獻(xiàn)較高。為了測(cè)試詞綴對(duì)模型的影響,實(shí)驗(yàn)7加入了當(dāng)前詞的詞綴特征,準(zhǔn)確度比基準(zhǔn)系統(tǒng)提高了0.47%。實(shí)驗(yàn)8中加入了連續(xù)兩個(gè)詞綴的混合特征,模型性能得到了明顯的提高。該特征證明了維吾爾文詞綴表達(dá)語(yǔ)法功能的說(shuō)法,大部分詞綴根據(jù)前一個(gè)單詞詞綴進(jìn)行連接。例如,menging kitabim(我的書),ing(的格詞綴),im(人稱詞綴),前一個(gè)詞綴ing要求一定要連接一個(gè)人稱詞綴,而人稱詞綴只能附加到名詞。根據(jù)實(shí)驗(yàn)5和實(shí)驗(yàn)8的結(jié)果,設(shè)置了實(shí)驗(yàn)9和實(shí)驗(yàn)10。分析結(jié)果可得,當(dāng)前單詞的前綴和后綴、前一個(gè)單詞詞綴和當(dāng)前單詞詞綴及后一個(gè)單詞詞綴等特征對(duì)模型準(zhǔn)確貢獻(xiàn)較大。

      表7 實(shí)驗(yàn)結(jié)果Tab.7 The experimental data

      為了對(duì)比HMM模型與最大熵模型的性能,采用相同的語(yǔ)料庫(kù)進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8所示。

      表8 HMM與最大熵對(duì)比實(shí)驗(yàn)結(jié)果Tab.8 Comparative experimental results of HMM and maximum entropy method

      從實(shí)驗(yàn)結(jié)果可看出,最大熵模型能夠較好地處理名詞、動(dòng)詞、形容詞等類,同時(shí)能夠較高地識(shí)別未登錄詞。

      3.3 錯(cuò)誤分析

      經(jīng)過(guò)對(duì)錯(cuò)誤數(shù)據(jù)分析得出,主要錯(cuò)誤是名詞、形容詞被標(biāo)注為動(dòng)詞的情況比較多,占32.8%;還有名動(dòng)詞、形動(dòng)詞、副動(dòng)詞等被標(biāo)注為名詞、形容詞、副詞的情況較多,占27.6%。

      另外,實(shí)驗(yàn)中出現(xiàn)的普通外國(guó)人名和漢族人名對(duì)系統(tǒng)的性能產(chǎn)生的正確率下降為12%左右。根據(jù)對(duì)錯(cuò)誤進(jìn)行分析發(fā)現(xiàn),除了句子頭部出現(xiàn)的外國(guó)人名、漢族人名以及一個(gè)詞的外國(guó)人名(只用名的情況,例如奧巴馬,而不是巴拉克·奧巴馬)以外的其他人名基本上給予錯(cuò)誤的標(biāo)注。因?yàn)橥鈬?guó)人或漢族人的姓名中間有空格或”?”,一般出現(xiàn)連續(xù)兩個(gè)或3個(gè)人名,這嚴(yán)重地削弱上下文信息量。例如:

      Junggo xelq tashqi dostluq jem'iyitining bashliqi①ch?n xawsu,afghanistan diplomatiye ministirlikining muaw?n ministiri ②muhemmed kabir falahi ziyapetke qatnashti hemde tebrik s?zi qildi.

      以上句子中,用①標(biāo)注的是漢族人名,按照維吾爾語(yǔ)的正字法,漢族人的姓和名之間留一個(gè)空格,所以在這個(gè)位置出現(xiàn)連續(xù)兩個(gè)未登錄詞。用②標(biāo)注的是阿富汗外交部副部長(zhǎng)的姓名,由3個(gè)單詞組成,除了第一個(gè)名詞“muhemmed”以外,連續(xù)出現(xiàn)的其他兩個(gè)人名均是未登錄詞。

      4 總結(jié)與展望

      本文介紹了維吾爾文融合語(yǔ)言特征的最大熵詞性標(biāo)注的研究工作,其亮點(diǎn)在于最大熵模型特征的選擇上,根據(jù)維吾爾文的形態(tài)特征特點(diǎn),選取當(dāng)前詞詞干、詞綴等混合形態(tài)特征信息,構(gòu)建了基于最大熵的維吾爾文詞性標(biāo)注系統(tǒng)。分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)最大熵適合于構(gòu)建維吾爾文詞性標(biāo)注序列標(biāo)注模型,通過(guò)融合多種特征,能夠顯著提高標(biāo)注準(zhǔn)確率。在本文實(shí)驗(yàn)中準(zhǔn)確度達(dá)到了96.85%,準(zhǔn)確度比原基準(zhǔn)系統(tǒng)提高了2.64%。由于所使用語(yǔ)料規(guī)模和覆蓋面還需進(jìn)一步提高,因此所做詞性標(biāo)注的整體效果也受到一定影響。在以后的工作中,繼續(xù)擴(kuò)建標(biāo)注語(yǔ)料庫(kù),進(jìn)一步考慮融合詞典和規(guī)則,把無(wú)歧義的感嘆詞、量詞、數(shù)字表達(dá)式等通過(guò)規(guī)則或詞典進(jìn)行標(biāo)注,然后把這個(gè)結(jié)果融入到模型,從而提高模型的魯棒性。

      [1] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.

      [2] 張貫虹,斯·勞格勞,烏達(dá)巴拉.融合形態(tài)特征的最大熵蒙古文詞性標(biāo)注模型[J].計(jì)算機(jī)研究與發(fā)展,2011,48(12):2385-2390.

      [3] 劉開瑛.中文文本自動(dòng)分詞和標(biāo)注[M].北京:商務(wù)印書館,2000.

      [4] 吐爾根·依布拉音,阿里甫·庫(kù)爾班,阿不都熱依木.基于詞典的現(xiàn)代維吾爾語(yǔ)詞性自動(dòng)標(biāo)注系統(tǒng)的研究[C].北京:中文信息處理會(huì)議,2006年10月.

      [5] 玉素甫·艾白都拉,張海軍,艾孜爾古麗.信息處理用現(xiàn)代維吾爾語(yǔ)詞干詞類標(biāo)記集研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2011(6):45-481.

      [6] 吐爾根·依布拉音,阿里甫·庫(kù)爾班.基于規(guī)則的維吾爾語(yǔ)詞性自動(dòng)標(biāo)注系統(tǒng)的研究[C].合肥:第二屆全國(guó)少數(shù)民族青年自然語(yǔ)言處理學(xué)術(shù)研討會(huì),2008:210-214.

      [7] 買合木提·買買提,吐爾根·依布拉音.基于N-gram的維吾爾語(yǔ)詞性自動(dòng)標(biāo)注系統(tǒng)的研究[C].合肥:第二屆全國(guó)少數(shù)民族青年自然語(yǔ)言處理學(xué)術(shù)研討會(huì),2008:206-209.

      [8] ADWAIT R.A maximum entropy model of part-ofspeech tagging[C].Proceedings of the Conference on Empirical Method in Natural Language Proeessing,1996,1:133-142.

      [9] 張磊.基于最大熵模型的漢語(yǔ)詞性標(biāo)注研究[D].大連:大連理工大學(xué),2008.

      [10]趙巖,王曉龍,劉秉權(quán),等.融合聚類觸發(fā)對(duì)特征的最大熵詞性標(biāo)注模型[J].計(jì)算機(jī)研究與發(fā)展,2006,43(2):268-274.

      [11]哈密提·鐵木爾.現(xiàn)代維吾爾語(yǔ)語(yǔ)法[M].北京:民族出版社,1987.

      猜你喜歡
      維吾爾文詞干維吾爾語(yǔ)
      論柯爾克孜語(yǔ)詞干提取方法
      維吾爾語(yǔ)詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
      西部少數(shù)民族語(yǔ)言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
      統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語(yǔ)人名識(shí)別方法
      維吾爾語(yǔ)話題的韻律表現(xiàn)
      維吾爾語(yǔ)詞重音的形式判斷
      融合多策略的維吾爾語(yǔ)詞干提取方法
      基于維吾爾語(yǔ)詞干詞綴粒度的漢維機(jī)器翻譯
      維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
      察合臺(tái)維吾爾文古籍的主要特點(diǎn)
      林口县| 秦安县| 红安县| 榆林市| 长沙市| 汉沽区| 莱州市| 日土县| 兴城市| 梧州市| 门源| 新沂市| 平南县| 那曲县| 平罗县| 灯塔市| 册亨县| 巍山| 彩票| 资源县| 涟源市| 湘阴县| 陆河县| 方城县| 桂阳县| 增城市| 商水县| 克山县| 信丰县| 宁晋县| 称多县| 德保县| 阳城县| 米脂县| 炉霍县| 武夷山市| 乐清市| 特克斯县| 威信县| 天门市| 探索|