• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語(yǔ)義詞特征提取及其在維吾爾文文本分類中的應(yīng)用

      2014-02-28 04:52:10吐爾地托合提艾克白爾帕塔爾艾斯卡爾艾木都拉
      中文信息學(xué)報(bào) 2014年4期
      關(guān)鍵詞:維吾爾文互信息分詞

      吐爾地·托合提, 艾克白爾·帕塔爾, 艾斯卡爾·艾木都拉

      (新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)

      1 引言

      文本分類中,先需要以某種粒度對(duì)文本進(jìn)行切分,因?yàn)榍蟹謱哟卧礁咂浞治龃鷥r(jià)也越高,因此常用以詞的級(jí)別切分文本,并用詞特征來(lái)形成文本模型。對(duì)于中文,因?yàn)樵~之間沒(méi)有明顯的切分標(biāo)記,因此需要特殊的分詞處理,這也是中文自然語(yǔ)言處理中的一個(gè)難點(diǎn)。與中文不同,英文詞間是以空格隔開,不需要特殊的分詞方法就可以將文本切分成單詞集合。維吾爾文與英文類似,也是一種拼音文字,詞與詞之間也是以空格隔開,因此,同樣以詞間自然分隔符進(jìn)行詞切分,是到目前為止唯一的分詞方法。

      針對(duì)以上情況,在中文統(tǒng)計(jì)分詞方法的先導(dǎo)作用下[4-6],我們提出了一種新的維吾爾文無(wú)監(jiān)督及無(wú)詞典語(yǔ)義分詞方法dme-TS,并把它用到維吾爾文文本分類中。dme-TS無(wú)需為它提供分詞詞典和人工分詞的指導(dǎo)信息,所需要的全部統(tǒng)計(jì)信息完全來(lái)自大規(guī)模生語(yǔ)料庫(kù),無(wú)需人工介入。dme-TS的分詞依據(jù)是,將相鄰單詞之間的t-測(cè)試差(difference of t-test),互信息(mutual information)及鄰接對(duì)熵(entropy of adjacency)的線性融合作為一個(gè)組合統(tǒng)計(jì)量(dme)來(lái)度量相鄰單詞之間的關(guān)聯(lián)緊密程度,并將dme小于給定閾值的詞間位置確定為切分位置,從而提取語(yǔ)義具體獨(dú)立的單詞和多詞(二詞,三詞或四詞)結(jié)構(gòu)的語(yǔ)義詞。

      研究者們已有共識(shí),以短語(yǔ)特征表征文本可以得到更好的分類效果,因?yàn)榕c單個(gè)的詞特征相比,短語(yǔ)特征包含更豐富的信息。文獻(xiàn)[7]的實(shí)驗(yàn)結(jié)果表明,以n元法提取短語(yǔ)特征,n的取值不超過(guò)4時(shí),分類效果最好。我們提取的特征也是長(zhǎng)不超過(guò)4個(gè)單詞的語(yǔ)義詞,信息表達(dá)能力不如短語(yǔ),但其語(yǔ)義表達(dá)能力比傳統(tǒng)分詞方法提取的抽象單詞特征更具體和獨(dú)立,而且其分析代價(jià)比短語(yǔ)提取方法更小。

      dme-TS是我們最近的一項(xiàng)研究工作(一種無(wú)監(jiān)督及無(wú)詞典支持的維吾爾文語(yǔ)義分詞方法),本文的研究重點(diǎn)是這種分詞方法在維吾爾文分類中的應(yīng)用及驗(yàn)證其有效性。因此,我們分別用傳統(tǒng)方法和dme-TS來(lái)切分訓(xùn)練文本和測(cè)試文本,再用被認(rèn)為最好的有監(jiān)督特征選擇方法IG來(lái)選取最優(yōu)特征,觀察了最流行的三種分類算法NB,SVM和KNN在兩種特征集下的分類效果,并得到了我們期望的結(jié)果。

      2 dme-TS分詞的語(yǔ)義詞特征提取

      我們知道,對(duì)于一個(gè)獨(dú)立使用的語(yǔ)言單元,其內(nèi)部詞與詞(字與字)之間的結(jié)合程度應(yīng)該是非常緊密的,而它與外部上下文的關(guān)聯(lián)應(yīng)該是非常松散的,這種“緊密”或“松散”性可以用某種統(tǒng)計(jì)量來(lái)度量,而這個(gè)統(tǒng)計(jì)量也能夠非常容易地從大規(guī)模真實(shí)語(yǔ)料中獲取。

      dme-TS中,從大規(guī)模生語(yǔ)料庫(kù)中自動(dòng)獲取維吾爾文單詞Bigram及上下文語(yǔ)境信息,充分考慮維吾爾文單詞間結(jié)合規(guī)律的前提下,將相鄰單詞間的t-測(cè)試差、互信息及雙詞上下文鄰接對(duì)熵的線性融合作為組合統(tǒng)計(jì)量dme來(lái)度量相鄰單詞之間的結(jié)合程度,并在dme小于給定閾值的詞間位置插入一個(gè)切分標(biāo)記“|”。這樣,完全不考慮詞間空格,切分出文本中語(yǔ)義具體的單詞特征和語(yǔ)義獨(dú)立完整的語(yǔ)義詞特征。

      2.1 互信息(mutual information)

      根據(jù)互信息原理,在以空格隔開的維吾爾文有序詞串A B中,單詞A,B之間的互信息定義如式(1)所示。

      其中,P(A,B)為詞串A B在語(yǔ)料庫(kù)中出現(xiàn)的概率,P(A)為單詞A出現(xiàn)的概率,P(B)為單詞B出現(xiàn)的概率。 如果mi(A,B)≥0,則A B間是強(qiáng)關(guān)聯(lián)的;如果mi(A,B)≈0,則A B間是弱關(guān)聯(lián)的;如果mi(A,B)<0,則A B間是互斥的。隨著mi(A,B)的增加,緊密程度也增加,當(dāng)mi(A,B)大于給定的一個(gè)閾值Tmi時(shí),可以認(rèn)為A B是不可分割的。

      從式(1)看出,互信息反應(yīng)了相鄰單詞A B之間的靜態(tài)結(jié)合能力,而不考慮它們的上下文,因此僅依靠互信息這個(gè)絕對(duì)度量,有時(shí)也會(huì)出現(xiàn)判斷錯(cuò)誤。

      2.2 t-測(cè)試差(difference of t-test)

      Church等首次引入t-測(cè)試,以度量一個(gè)英文單詞A與其它任意兩個(gè)單詞x和y的結(jié)合緊密程度[8]。根據(jù)定義,維吾爾文單詞串xAy的t-測(cè)試值計(jì)算如式(2)所示。

      其中p(y|A)和p(A|x)分別是單詞串A y和x A的Bi-gram概率,σ2(P(y|A))和σ2(P(A|x))分別是二者的方差。由式(2)可以看出,如tx,y(A)>0,則A與后繼y結(jié)合的強(qiáng)度大于與前趨x結(jié)合的強(qiáng)度,此時(shí)A應(yīng)與x分開,而與y要連。如tx,y(A)<0, 則A與前趨x結(jié)合的強(qiáng)度大于與后繼y結(jié)合的強(qiáng)度, 此時(shí)A應(yīng)與y分開,而要與x連。如tx,y(A)=0,則A與其前趨和后繼的結(jié)合強(qiáng)度相等,無(wú)法判斷A跟哪個(gè)要連或分開。

      t-測(cè)試是基于字的統(tǒng)計(jì)量,而不是基于字間位置,因此為了能夠在中文分詞中直接用來(lái)計(jì)算相鄰字間連斷概率,清華大學(xué)孫茂松教授等人提出了t-測(cè)試差的概念[4]。

      根據(jù)定義,對(duì)于維吾爾文單詞串x A B y,相鄰單詞A,B之間的t-測(cè)試差值計(jì)算如式(3)所示。

      當(dāng)dts(A,B)>Tdts(Tdts為閾值)時(shí),A B的單詞間位置更傾向于連,反之傾向于斷。與互信息不同,t-測(cè)試差反映的是相鄰單詞之間的動(dòng)態(tài)結(jié)合能力,因?yàn)樗C合考慮一個(gè)單詞的上下文結(jié)合趨向,因此總的切分正確率比互信息好。

      2.3 鄰接對(duì)熵(entropy of adjacency)

      信息熵是判斷一個(gè)語(yǔ)言單元對(duì)于上下文語(yǔ)言環(huán)境的獨(dú)立性及完整性的有效度量。如文獻(xiàn)[9]提出的新詞識(shí)別方法中,計(jì)算一個(gè)詞串的左鄰接熵和右鄰接熵,當(dāng)左右鄰接熵大于一個(gè)閾值是,認(rèn)為該詞串是一個(gè)獨(dú)立語(yǔ)言單元,并將該詞串提取為一個(gè)新詞,否則將它舍去。我們將以上思路引入到本文研究中,但我們發(fā)現(xiàn)以左右鄰接熵判斷詞間位置,就無(wú)法整體獲取三詞語(yǔ)義詞。例如,判斷三詞關(guān)聯(lián)模式A B C中的A和 B間的位置時(shí),詞對(duì)A B的左鄰接可能是變化多樣的,但右鄰接是確定不變的,也就是C。根據(jù)信息熵的定義,A B的右鄰接熵是0(最小值),因此將A B間的位置被錯(cuò)誤地判斷為斷(B和C間位置也是被錯(cuò)判為斷)。針對(duì)以上情況,如果我們將問(wèn)題改成計(jì)算鄰接對(duì)熵及基于鄰接對(duì)熵的詞間位置連、斷判斷問(wèn)題,那就適合文本的研究需求。

      定義對(duì)維吾爾文有序單詞串x A B y(x和y是任何一個(gè)維吾爾文單詞),A B在文本中每次出現(xiàn)的左鄰接元素x和右鄰接元素y構(gòu)成一個(gè)鄰接對(duì),那么A Badg={},m是集合中所有鄰接對(duì)個(gè)數(shù),c是集合鄰接對(duì)種類數(shù)(不重復(fù)鄰接對(duì)個(gè)數(shù)),ni是每個(gè)鄰接對(duì)的頻次,則AB的鄰接對(duì)集合的信息熵(鄰接對(duì)熵)的計(jì)算如式(4)所示。

      由計(jì)算公式得知,鄰接對(duì)熵的最小理論值為0(當(dāng)c=1時(shí)),而最大理論值為log(m)(當(dāng)c=m時(shí))。如果ea(A,B)取值越大,表明詞串A B的語(yǔ)言環(huán)境變化多樣,是不依賴于上下文的語(yǔ)言單元。如果ea(A,B)取值越小,則表明A B的獨(dú)立性不強(qiáng),很可能是一種偶然性組合。因此,當(dāng)ea(A,B)>Tea(Tea為閾值)時(shí),A B的單詞間位置更傾向于判斷為連,反之判斷為斷。

      2.4 組合統(tǒng)計(jì)量dme

      不管是互信息、t-測(cè)試差還是鄰接對(duì)熵,都是將詞在語(yǔ)言環(huán)境中某一方面的信息特征作為計(jì)算依據(jù),因此必然存在著一定的局限性。中文分詞中已有成功的案例表明,可將基本統(tǒng)計(jì)量加以組合從而各取所長(zhǎng)[4-5]。除此之外,我們分別用互信息、t -測(cè)試差和鄰接對(duì)熵進(jìn)行切分實(shí)驗(yàn),也發(fā)現(xiàn)將它們結(jié)合互補(bǔ)的較大的可行性。因此,我們將以上三個(gè)基本統(tǒng)計(jì)量進(jìn)行線性疊加,融合成一個(gè)新的統(tǒng)計(jì)量dme,并完全根據(jù)dme來(lái)判斷詞間位置,從而得到了更準(zhǔn)確的切分結(jié)果。

      因?yàn)橐陨匣窘y(tǒng)計(jì)量取值范圍相差較大,因此我們用與文獻(xiàn)[4]相同的方法,先對(duì)各統(tǒng)計(jì)量進(jìn)行歸一化處理,然后進(jìn)行線性疊加。三者疊加的dme計(jì)算如式(5)所示。

      其中λ和γ的值經(jīng)實(shí)驗(yàn)測(cè)定, 發(fā)現(xiàn)λ=0.35,γ=0.30時(shí)的切分準(zhǔn)確率最高。

      分詞時(shí),計(jì)算待處理文本中各相鄰單詞(詞干)之間的dme值,如dme(A,B)>Tdme(Tdme=0),則保留他們之間的關(guān)聯(lián)性,否則以分隔符(本文用“|”)將它們隔開(圖1)。

      圖1 以dme-TS切分的一個(gè)例子

      可以看出,如用傳統(tǒng)的切分方法來(lái)切分,就把圖1中的維吾爾文句子切分成語(yǔ)義不完整的8個(gè)詞特征,但dme-TS的輸出是5個(gè)特征,而且都是語(yǔ)義具體而獨(dú)立的語(yǔ)言單元。本算法開放測(cè)試中的切分準(zhǔn)確率達(dá)到了88.21%。

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 數(shù)據(jù)集

      本文用新疆大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室提供的維吾爾文分類文本集進(jìn)行分類實(shí)驗(yàn)和分析,共含6類(01經(jīng)濟(jì),02體育,03政治,04教育,05法制,06健康)3 000篇文本(每類500篇)。

      3.2 實(shí)驗(yàn)方案

      為了對(duì)本文提出方法進(jìn)行有效的評(píng)估,我們?cè)O(shè)計(jì)了兩個(gè)實(shí)驗(yàn)。

      實(shí)驗(yàn)1 用傳統(tǒng)方法對(duì)整個(gè)文本集進(jìn)行分詞并用停用詞表去除停用詞,再用性能最好的有監(jiān)督特征選擇方法IG來(lái)評(píng)估特征詞的重要度。然后從經(jīng)過(guò)排序的特征序列中遞增地選取N個(gè)(N的增量為100)特征組成一個(gè)特征子集,并將其作為最流行的三種分類器NB,SVM和K-NN的輸入,觀察分類準(zhǔn)確率。

      實(shí)驗(yàn)2 用dme-TS對(duì)整個(gè)文本集進(jìn)行分詞,然后用實(shí)驗(yàn)1同樣的方法進(jìn)行分類實(shí)驗(yàn),觀察用語(yǔ)義詞特征表征文本時(shí)的分類準(zhǔn)確率。

      3.3 結(jié)果及分析

      分別用傳統(tǒng)分詞方法和我們的dme-TS對(duì)文本集進(jìn)行切分,得到了兩種原始特征集,如表1所示。

      表1 兩種切分方法對(duì)應(yīng)的原始特征集

      可以看出,用dme-TS分詞的特征維數(shù)是傳統(tǒng)分詞獲取的特征維數(shù)的62.3%(特征空間降維率為37.6%),其中32%左右的特征是二詞、三詞和四詞語(yǔ)義詞,它們比單詞更能表達(dá)具體而獨(dú)立的語(yǔ)義。因此,從這樣的原始特征集中選取少量的最優(yōu)特征來(lái)表征文本,這對(duì)分類算法性能的提高會(huì)有很大的幫助。

      為了驗(yàn)證語(yǔ)義詞特征提取在維吾爾文文本分類中的有效性,我們用開發(fā)工具Visual C# 2010,分別實(shí)現(xiàn)了三種最流行的分類器NB,KNN和SVM,并在以上兩種特征集上進(jìn)行分類實(shí)驗(yàn)。在評(píng)價(jià)分類器的性能時(shí),我們將5次5-fold交叉驗(yàn)證運(yùn)行結(jié)果的分類準(zhǔn)確性的平均值作為最終的分類準(zhǔn)確性。經(jīng)過(guò)試驗(yàn)確定KNN的K值為11。在兩種特征集下不同N值的三種分類器分類效果如圖2~4所示。

      圖2 兩種特征集的NB分類效果

      圖3 兩種特征集的KNN分類效果

      圖4 兩種特征集的SVM分類效果

      很容易看出,每一個(gè)學(xué)習(xí)算法對(duì)于兩種特征集的分類效果有明顯區(qū)別。表2給出了三種算法對(duì)于兩種特征集的最佳特征子集的特征個(gè)數(shù)和對(duì)應(yīng)的最高分類準(zhǔn)確率。

      從表2中可以看出,相對(duì)于單詞特征,用更少的語(yǔ)義詞特征表征文本時(shí),得到了更準(zhǔn)確的分類結(jié)果。

      表2 最佳特征子集及分類性能

      這是因?yàn)?,用IG打分并放在特征序列前面的特征都是具有代表性和富含信息的重要特征,我們又發(fā)現(xiàn)其中大部分是多詞語(yǔ)義詞。這就充分說(shuō)明了語(yǔ)義詞特征提取在維吾爾文文本分類中是有效的。

      4 結(jié)束語(yǔ)

      文本分類中,特征提取的粒度和特征詞條的語(yǔ)義獨(dú)立性會(huì)決定被形成文本模型的質(zhì)量,這也是影響分類器性能的主要因素。針對(duì)維吾爾文傳統(tǒng)分詞及基于詞特征的文本模型對(duì)維吾爾文文本分類的影響,本文提出一種語(yǔ)義詞特征提取方法,并用三種流行的分類算法進(jìn)行分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,用語(yǔ)義詞作為特征表征文本時(shí),不僅縮小原始特征空間的維度,還可以用少量特征來(lái)形成易于理解的,緊湊而泛化能力更強(qiáng)的文本模型,因此明顯提高了分類準(zhǔn)確率。

      [1] 阿力木江·艾沙,吐爾根·依布拉音,艾山·吾買爾, 馬爾哈巴·艾力.基于機(jī)器學(xué)習(xí)的維吾爾文文本分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,36 (7):110-112.

      [2] 徐峻嶺,周毓明,陳林,徐寶文. 基于互信息的無(wú)監(jiān)督特征選擇[J].計(jì)算機(jī)研究與發(fā)展,2012,49(2):372-382.

      [3] 孟春艷.用于文本分類和文本聚類的特征抽取方法的研究[J].微計(jì)算機(jī)信息,2009,25(3):149-150.

      [4] 孫茂松, 肖明, 鄒嘉彥. 基于無(wú)指導(dǎo)學(xué)習(xí)策略的無(wú)詞表?xiàng)l件下的漢語(yǔ)自動(dòng)分詞[J].計(jì)算機(jī)學(xué)報(bào), 2004, 27(6) : 736-742.

      [5] 王思力,王斌.基于雙字耦合度的中文分詞交叉歧義處理方法[J].中文信息學(xué)報(bào), 2007,21(5):14-17.

      [6] 費(fèi)洪曉,康松林,朱小娟,謝文彪.基于詞頻統(tǒng)計(jì)的中文分詞的研究[J].計(jì)算機(jī)工程與應(yīng)用,2005,30(7):67-69.

      [7] Furnkranz J.A Study Using N-gram Features for Text Categorization[R].Technical Report:TR-98-30,http://www.ai.univie.ac.at/cgi-bin/tr-online?number+98-30,1998.

      [8] Church K W, Gale W, Hanks P, Hindle D. Using statistics in lexical analysis[C]//Proceedings of the Zernik U. ed.. Lexical Acquisition: Exploiting On-line Resources to Build a Lexicon. Hillsdale NJ :Law rence Erlbaum Associates,1991: 115-164.

      [9] 賀敏,龔才春,張華平,程學(xué)旗.一種基于大規(guī)模語(yǔ)料的新詞識(shí)別方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2007,43(21): 157-159.

      猜你喜歡
      維吾爾文互信息分詞
      結(jié)巴分詞在詞云中的應(yīng)用
      西部少數(shù)民族語(yǔ)言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
      值得重視的分詞的特殊用法
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      改進(jìn)的互信息最小化非線性盲源分離算法
      基于增量式互信息的圖像快速匹配方法
      維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
      察合臺(tái)維吾爾文古籍的主要特點(diǎn)
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      宜丰县| 江源县| 金沙县| 东平县| 定远县| 郑州市| 海南省| 宁武县| 新民市| 龙里县| 青川县| 石阡县| 乌拉特前旗| 丹凤县| 闽清县| 高陵县| 清新县| 澄江县| 武宁县| 宝鸡市| 武川县| 博客| 阳朔县| 海林市| 剑河县| 景洪市| 青铜峡市| 双柏县| 祥云县| 墨竹工卡县| 广西| 平顺县| 陵川县| 灵石县| 元谋县| 丽水市| 临沭县| 忻城县| 金沙县| 天长市| 唐海县|