覃 俊,林葉川,易云飛
(1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢430074;2 河池學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,宜州 546300)
基于互信息改進(jìn)算法和t-測(cè)試差的壯文分詞算法研究
覃 俊1,林葉川1,易云飛2,*
(1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢430074;2 河池學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,宜州 546300)
針對(duì)傳統(tǒng)的壯文分詞方法將單詞之間的空格作為分隔標(biāo)志,在多數(shù)情況下,會(huì)破壞多個(gè)單詞關(guān)聯(lián)組合而成的語(yǔ)義詞所要表達(dá)的完整且獨(dú)立的語(yǔ)義信息,在借鑒前人使用互信息MI方法來(lái)度量相鄰單詞間關(guān)聯(lián)程度的基礎(chǔ)上,首次采用互信息改進(jìn)算法MIk和t-測(cè)試差對(duì)壯文文本分詞,并結(jié)合兩者在評(píng)價(jià)相鄰單詞間的靜態(tài)結(jié)合能力和動(dòng)態(tài)結(jié)合能力的各自優(yōu)勢(shì),提出了一種MIk和t-測(cè)試差相結(jié)合的TD-MIk混合算法對(duì)壯文文本分詞,并對(duì)互信息改進(jìn)算法MIk、t-測(cè)試差、TD-MIk混合算法三種方法的分詞效果進(jìn)行了比較.使用人民網(wǎng)壯文版上的文本集作為訓(xùn)練及測(cè)試語(yǔ)料進(jìn)行了實(shí)驗(yàn),結(jié)果表明:三種分詞方法都能夠較準(zhǔn)確而有效地提取文本中的語(yǔ)義詞,并且TD-MIk混合算法的分詞準(zhǔn)確率最高.
壯文分詞;MI改進(jìn)算法;t-測(cè)試差;混合算法;語(yǔ)義詞
壯語(yǔ)是漢藏語(yǔ)系壯侗語(yǔ)族壯傣語(yǔ)支的一種語(yǔ)言,目前存世的壯族文字有古壯文和現(xiàn)代壯文,其中,現(xiàn)代壯文(簡(jiǎn)稱(chēng)壯文)是一種拼音文字[1,2].在互聯(lián)網(wǎng)發(fā)展迅速的時(shí)代,專(zhuān)注于壯文交流的有人民網(wǎng)壯文版、壯族在線、鼓歌壯族、壯族娛樂(lè)網(wǎng)等.分詞是文本信息處理的第一道“工序”,在自然語(yǔ)言處理的許多應(yīng)用領(lǐng)域,如機(jī)器翻譯、文本分類(lèi)、信息檢索等扮演著極其重要的角色.目前,在分詞這個(gè)研究領(lǐng)域,漢文分詞的研究成果已經(jīng)很多也相對(duì)成熟,漢文分詞技術(shù)發(fā)展到今天,大體上可以將其分為這幾類(lèi):基于詞典的分詞方法(又稱(chēng)機(jī)械分詞)、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法、詞典與統(tǒng)計(jì)相結(jié)合的分詞方法[3].漢文分詞的難點(diǎn)主要有兩個(gè):消除歧義和未登錄詞.對(duì)于消除歧義問(wèn)題,需要結(jié)合上下文語(yǔ)境,因此,基于理解的分詞方法能夠較好的克服這個(gè)難點(diǎn),而基于統(tǒng)計(jì)的分詞可以較好地克服未登錄詞這個(gè)難點(diǎn)[4].壯文分詞與漢文有很大的相似性,但是,對(duì)壯文的文本信息處理的研究成果較少:2011年南寧平方軟件開(kāi)發(fā)了一款壯漢翻譯試驗(yàn)系統(tǒng),翻譯結(jié)果的可理解率大約在40%;同年,廣西民族大學(xué)的學(xué)生開(kāi)發(fā)了一款基于短語(yǔ)的漢壯統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[2];2016年由中國(guó)民族語(yǔ)文翻譯局與東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室共同研發(fā)的壯文與漢文智能翻譯系統(tǒng)正式上線運(yùn)行,這是國(guó)內(nèi)首套壯文與漢文雙向翻譯系統(tǒng);除此之外,對(duì)于壯文文本信息處理的研究成果基本沒(méi)有較為詳實(shí)的公開(kāi)報(bào)道.因此,對(duì)于壯文分詞算法的研究具有重要意義.
壯文文本是一種以空格分隔開(kāi)的詞序列,傳統(tǒng)的壯文分詞只需把空格標(biāo)志作為分詞方法即可.但在很多情況下,壯文中的多個(gè)單詞的關(guān)聯(lián)組合模式,也是一種不可分割的獨(dú)立語(yǔ)言單元,這種多個(gè)單詞的組合將會(huì)表達(dá)一個(gè)具體而獨(dú)立的語(yǔ)義信息,用空格隔開(kāi)的分詞方法將會(huì)喪失這種單詞組合所要表達(dá)的完整語(yǔ)義信息.這樣獲取的單詞就難以在文本標(biāo)引中發(fā)揮詞的作用,相應(yīng)的各種文本處理效果也很不理想[5,6].
在壯文的機(jī)器翻譯中,按傳統(tǒng)的分詞方法翻譯,例如“raemx hawq raen bya”,這是一個(gè)固定的詞組,漢文意思是“水落石出”,如果以空格分隔,借助Stoneman、honghlaj等制作的Sawloih Cuengh-Gun壯漢詞典,按每個(gè)單詞去翻譯,意思就變?yōu)椤八梢?jiàn)山(石)”.這樣就很難正確表達(dá)出一個(gè)單詞組合所要表達(dá)的語(yǔ)義信息,大大降低了翻譯的準(zhǔn)確性.
在信息檢索中,用傳統(tǒng)的分詞方法檢索出來(lái)的文本信息并不全是與搜索關(guān)鍵字相關(guān)的結(jié)果.例如關(guān)鍵字“sevei cujyi”(社會(huì)主義),傳統(tǒng)分詞會(huì)把它分成“sevei”和“cujyi”.用該關(guān)鍵字在百度上進(jìn)行測(cè)試,返回了相關(guān)結(jié)果約6440個(gè),其中返回的第一個(gè)頁(yè)面的10個(gè)結(jié)果中,有4個(gè)結(jié)果是與該關(guān)鍵字不相關(guān)的(2017年5月10日測(cè)試),結(jié)果不令人滿意.
此外,傳統(tǒng)的空格分詞方法還會(huì)在文本主題詞提取、文本分類(lèi)及聚類(lèi)等文本處理中產(chǎn)生負(fù)面的影響.因此,研究一種能夠從壯文文本中獲取結(jié)構(gòu)穩(wěn)定、語(yǔ)義完整而獨(dú)立的壯文單詞的組合將對(duì)壯文的各種文本處理效果起到重要的積極作用.本文從漢文分詞和其他一些少數(shù)民族語(yǔ)言(如維吾爾文)的相關(guān)研究工作中得到啟發(fā),使用互信息的方法作為壯文相鄰單詞間關(guān)聯(lián)程度的度量,切分壯文文本中能夠獨(dú)立表達(dá)完整的語(yǔ)義信息的單詞組,并提出一種基于互信息改進(jìn)算法MIk和t-測(cè)試差相結(jié)合的TD-MIk混合算法,更準(zhǔn)確而有效地提取文本中的語(yǔ)義詞.
根據(jù)互信息原理,對(duì)于以空格分隔的壯文詞串序列WiWi+1、單詞Wi和Wi+1之間的互信息MI(Mutual Information)定義如下:
(1)
其中,P(Wi,Wi+1)表示詞串序列WiWi+1在文本集中出現(xiàn)的概率;P(Wi)表示單詞Wi在文本集中出現(xiàn)的概率;P(Wi+1)表示單詞Wi+1在文本集中出現(xiàn)的概率.互信息MI(Wi,Wi+1)反映了相鄰單詞Wi和Wi+1之間的關(guān)聯(lián)程度:若MI(Wi,Wi+1)≥0,則WiWi+1間是強(qiáng)關(guān)聯(lián)的,當(dāng)MI(Wi,Wi+1)大于給定的一個(gè)閾值時(shí),認(rèn)為WiWi+1可以構(gòu)成一個(gè)不可分割的獨(dú)立語(yǔ)言單元;若MI(Wi,Wi+1)≈0,則WiWi+1間是弱關(guān)聯(lián)的,表示W(wǎng)iWi+1很難構(gòu)成一個(gè)獨(dú)立語(yǔ)言單元;若MI(Wi,Wi+1)<0,則WiWi+1間是互斥的,表示W(wǎng)iWi+1間基本不能構(gòu)成一個(gè)獨(dú)立語(yǔ)言單元.
基于互信息MI的壯文分詞過(guò)程如下:每次從句子文本集S中依次讀取一個(gè)句子Si(1≤i≤n),并從Si中的第一個(gè)單詞開(kāi)始,從左到右依次掃描詞串,以兩個(gè)單詞為一組,統(tǒng)計(jì)單詞Wi,Wi+1以及它們的組合WiWi+1在訓(xùn)練文本集Ds中的頻度,并根據(jù)公式(1)計(jì)算WiWi+1間的互信息MI(Wi,Wi+1).若MI(Wi,Wi+1)≥Ti(Ti為給定的閾值),則認(rèn)為當(dāng)前組合可以構(gòu)成一個(gè)獨(dú)立的語(yǔ)義詞.然后把WiWi+1看成一個(gè)新的單詞,并與下一個(gè)單詞Wi+2組合(本文限制最大詞串的單詞數(shù)為4),同樣地計(jì)算它們之間的互信息;依此類(lèi)推,將問(wèn)題始終簡(jiǎn)化為計(jì)算相鄰兩個(gè)單詞之間的互信息,判斷它們是否能構(gòu)成獨(dú)立的語(yǔ)義詞.組詞過(guò)程如圖1所示.
圖1 組詞過(guò)程圖Fig.1 The graph of Lexical process
互信息的計(jì)算公式始終不變,在組詞過(guò)程中,當(dāng)計(jì)算得到的互信息小于對(duì)應(yīng)的閾值時(shí),說(shuō)明后續(xù)新加入單詞更不可能構(gòu)成詞.所以,應(yīng)把當(dāng)前加入的新的單詞作為第一個(gè)單詞,開(kāi)始新一輪的組詞.考慮到組詞長(zhǎng)度(單詞個(gè)數(shù))的影響,根據(jù)組詞長(zhǎng)度的增加,其對(duì)應(yīng)的閾值也相應(yīng)地變小(T1>T2>T3>…>Tn-1).
基于互信息MI的壯文分詞的特點(diǎn)是算法簡(jiǎn)單、速度快.但在分詞過(guò)程中發(fā)現(xiàn),存在部分兩個(gè)低頻單詞且總是一起出現(xiàn)的詞串,MI方法會(huì)過(guò)高地估計(jì)包含這些低頻詞串的結(jié)合強(qiáng)度.例如,“daihheiq mokfaenx”(大氣霧霾)、“canzciz ginhyinz”(殘疾軍人)等這些低頻詞在訓(xùn)練語(yǔ)料中低頻且總是相鄰出現(xiàn),這些詞串的MI值非常高,導(dǎo)致包含這些低頻詞的垃圾詞串相應(yīng)的MI值也非常高,例如“gij daihheiq mokfaenx”(的大氣霧霾),明顯不符合分詞要求.為了過(guò)濾掉這些垃圾詞串,克服高估低頻詞串結(jié)合強(qiáng)度這個(gè)缺點(diǎn),我們首次采用改進(jìn)互信息MIk算法對(duì)壯文進(jìn)行分詞,MIk算法是在MI方法基礎(chǔ)上引進(jìn)一個(gè)或者多個(gè)字串A與B的聯(lián)合概率因子P(A,B)[7,8].MIk算法的定義如下:
(2)
其中P(A)、P(B)分別表示單詞A、B的概率,P(A,B)表示詞串AB的聯(lián)合概率,MIk(A,B)表示詞串AB之間的相關(guān)度,也稱(chēng)MIk值.特殊地,當(dāng)k=1時(shí),MIk算法即為MI算法[9,10].我們分別對(duì)k值在1~10之間的取值做了實(shí)驗(yàn),得到當(dāng)k=2或3時(shí),分詞效果有比較明顯地提高,k的取值對(duì)分詞準(zhǔn)確率的影響見(jiàn)第3節(jié)實(shí)驗(yàn).
MIk算法的壯文分詞思路:對(duì)于每一個(gè)由四個(gè)單詞組成的壯文詞串序列xABy,計(jì)算中間兩個(gè)單詞串AB和前面兩個(gè)單詞串xA的MIk值的平均值average1以及中間兩個(gè)單詞串AB和后面兩個(gè)單詞串By的MIk值的平均值average2.計(jì)算公式如下:
(3)
(4)
對(duì)于詞串序列xABy,如果滿足:
MIk(A,B)>MIk(x,A)+average1,
(5)
MIk(A,B)>MIk(B,y)+average2,
(6)
則認(rèn)為詞串AB能構(gòu)成獨(dú)立語(yǔ)義詞或者是獨(dú)立語(yǔ)義詞組成的一部分的概率較大;否則,認(rèn)為單詞AB是各自成詞或者是詞的邊界的概率較大.
從互信息的計(jì)算公式(1)和(2)可知,互信息考慮的是相鄰單詞之間的內(nèi)部結(jié)合強(qiáng)度,與上下文無(wú)關(guān),反映了單詞之間的靜態(tài)結(jié)合能力.實(shí)驗(yàn)發(fā)現(xiàn),改進(jìn)的互信息方法不僅能夠有效過(guò)濾掉低頻詞的垃圾詞串,還能夠更好地保證由多個(gè)單詞組成的長(zhǎng)詞串語(yǔ)義詞不被遺漏,像“it rangh it loh”(一帶一路)等這樣的新詞串能夠更好地提取出來(lái),但同時(shí)也存在不足的地方,在連接詞的切分準(zhǔn)確度較低.例如“caenleix caeuq fazcanj”(真理和發(fā)展),MIk算法把這三個(gè)單詞組合當(dāng)作一個(gè)獨(dú)立的語(yǔ)義詞,因?yàn)檫@三個(gè)單詞組合的頻度較高,它只考慮了單詞間的靜態(tài)結(jié)合,但沒(méi)有考慮上下文單詞之間結(jié)合趨勢(shì).而正確的分詞結(jié)果應(yīng)該以中間的連詞“caeuq”為邊界切分成三個(gè)詞.因此,如果能有一種能夠衡量上下文單詞間的動(dòng)態(tài)結(jié)合趨勢(shì)的方法,來(lái)彌補(bǔ)互信息這種靜態(tài)結(jié)合的局限性,分詞的準(zhǔn)確性將會(huì)提高.
為尋找一種能夠衡量壯文上下文單詞間的動(dòng)態(tài)結(jié)合趨勢(shì)的方法,我們首次采用t-測(cè)試差對(duì)壯文進(jìn)行分詞.Church[11]等首次引入t-測(cè)試,以度量一個(gè)英文單詞A與其它任意兩個(gè)單詞x和y的結(jié)合緊密程度.根據(jù)定義,壯文單詞串xyz的t-測(cè)試值如下公式所示:
(7)
其中p(y|x),p(z|y)分別是y關(guān)于x,z關(guān)于y的條件概率,σ2(p(y|x)),σ2(p(z|y))代表各自的方差.由t-測(cè)試值的定義可知:若tx,z(y)>0,則y與后繼z的結(jié)合強(qiáng)度大于與前驅(qū)x的結(jié)合強(qiáng)度,此時(shí)y應(yīng)與x分開(kāi),而與z組詞;若tx,z(y)=0,則無(wú)法判斷y要與哪個(gè)分開(kāi)或者組詞;若tx,z(y)<0,則y與前驅(qū)x的結(jié)合強(qiáng)度大于與后繼z的結(jié)合強(qiáng)度,此時(shí)y應(yīng)與z分開(kāi),而與x組詞.
t-測(cè)試是基于字的統(tǒng)計(jì)量,而不是基于字間位置,因此為了能夠在漢文分詞中直接用來(lái)計(jì)算相鄰字間連斷概率,清華大學(xué)孫茂松教授等人提出了t-測(cè)試差的概念[12].根據(jù)定義,對(duì)于壯文單詞串xABY,相鄰單詞A,B之間的t-測(cè)試差值計(jì)算如下所示:
TD(A,B)=tx,B(A)-tA,y(B).
(8)
當(dāng)TD(A,B)>T(T為閾值)時(shí),AB的單詞間位置更傾向于連,反之傾向于斷.與互信息不同,t-測(cè)試差考慮的是單詞之間的相對(duì)結(jié)合強(qiáng)度,是一個(gè)單詞與上下文的結(jié)合趨向,反映了相鄰單詞之間的動(dòng)態(tài)結(jié)合能力.從分詞的結(jié)果發(fā)現(xiàn),t-測(cè)試差方法在連接詞的切分準(zhǔn)確度更高,例如“caenleix caeuq fazcanj”(真理和發(fā)展),t-測(cè)試差能夠?qū)⑦@個(gè)詞串分成3個(gè)詞.
從前面的分析中可以知道,互信息反映的是單詞之間的靜態(tài)結(jié)合能力,而t-測(cè)試差反映的是單詞之間的動(dòng)態(tài)結(jié)合能力,兩種方法在壯文的分詞中各有優(yōu)勢(shì),但各自又存在局限性.例如:改進(jìn)互信息MIk方法能夠準(zhǔn)確提取“it rangh it loh”(一帶一路)等這樣的新詞串,而t-測(cè)試差方法不能;t-測(cè)試差方法能夠準(zhǔn)確地把“caenleix caeuq fazcanj”(真理和發(fā)展)切分成三個(gè)詞,而改進(jìn)互信息MIk方法不能.因此,如果能夠把互信息和t-測(cè)試差這兩個(gè)統(tǒng)計(jì)原理相結(jié)合,起到互補(bǔ)效果的可行性極大.鑒于此,我們將改進(jìn)的互信息方法MIk與t-測(cè)試差相結(jié)合發(fā)現(xiàn),該方法能夠在一定程度起到互補(bǔ)的作用,既能提取“it rangh it loh”,又能將“caenleix caeuq fazcanj”正確切分成三個(gè)詞.MIk與t-測(cè)試差組合的TD-MIk的混合算法的計(jì)算公式如下:
TD-MIk(A,B)=α*TD(A,B)+β*Mlk(A,B),
(9)
其中,α、β分別是t-測(cè)試差和MIk算法的權(quán)重因子,它們的和為1,具體取值見(jiàn)下一節(jié)實(shí)驗(yàn)判斷合適的取值.
TD-MIk混合算法的分詞思路:對(duì)于壯文單詞串xABy,計(jì)算中間詞串AB的TD-MIk的值,當(dāng)TD-MIk(A,B)>T(T為閾值)時(shí),則認(rèn)為詞串AB能構(gòu)成獨(dú)立語(yǔ)義詞或者是獨(dú)立語(yǔ)義詞組成的一部分的概率較大;否則,認(rèn)為詞串AB是各自成詞或者是詞的邊界的概率較大.TD-MIk(A,B)既能在TD(A,B)和MIk(A,B)兩者判斷一致時(shí)保持判斷不變,又能在兩者判斷不一致時(shí),在一定程度上得到互補(bǔ).例如:“caeuq fazcanj”的MIk值為-5.97,判斷為連,而TD值為-9.78,判斷為斷,混合后的TD-MIk值為-8.26,判斷為斷,把兩個(gè)單詞切分開(kāi).
為了驗(yàn)證算法的可行性及準(zhǔn)確率,從人民網(wǎng)壯文版搜集所有壯文文本,隨機(jī)選取一組文章作為測(cè)試文本,并以中國(guó)民族語(yǔ)文翻譯局的翻譯系統(tǒng)為輔助工具,對(duì)測(cè)試文本做人工標(biāo)記.壯文文本訓(xùn)練語(yǔ)料的大小約為2.8MB,主要為政府工作報(bào)告文章及政治新聞文章.
本文采用準(zhǔn)確率、召回率和F值3個(gè)指標(biāo)來(lái)衡量分詞算法的性能,計(jì)算公式如下:
(10)
(11)
(12)
其中,切分結(jié)果正確的詞數(shù)(C1)是指測(cè)試文本根據(jù)分詞算法切分后切分正確的詞數(shù);切分結(jié)果的總詞數(shù)(C2)是指測(cè)試文本根據(jù)分詞算法切分后得到的總詞數(shù);分詞后應(yīng)得到的總詞數(shù)(C3)是指測(cè)試文本人工切分后得到的總詞數(shù);F值反應(yīng)的是根據(jù)準(zhǔn)確率和召回率得出的算法的綜合性能指標(biāo).
使用C++語(yǔ)言,Visual Studio 2015為實(shí)驗(yàn)工具,對(duì)壯文進(jìn)行分詞實(shí)驗(yàn).對(duì)于改進(jìn)互信息MIk算法中,k值的選取與準(zhǔn)確率變化的趨勢(shì)圖如圖2所示.
圖2 隨著k值變化的準(zhǔn)確率變化趨勢(shì)Fig.2 The change tendency of accuracy with the change of k value
從圖2中可以看出,當(dāng)k=2或3時(shí),分詞準(zhǔn)確率有比較明顯的提高.
在TD-MIk混合算法中α、β的取值實(shí)驗(yàn)如圖3所示.
圖3 隨著α值變化的準(zhǔn)確率變化趨勢(shì)Fig.3 The change tendency of accuracy with the change of alpha value
圖3中α是t-測(cè)試差的權(quán)重因子,相應(yīng)的MIk算法的權(quán)重因子β值為1-α.從圖中可看出當(dāng)α=0.6時(shí)為圖中曲線波峰,分詞的準(zhǔn)確率最高.
分別用傳統(tǒng)分詞方法、改進(jìn)互信息的MIk算法、基于t-測(cè)試差算法以及TD-MIk混合算法對(duì)測(cè)試文本進(jìn)行切分得到四種詞匯表,如表1所示.其中,測(cè)試文本分詞后應(yīng)得到的總詞數(shù)即人工切分后得到的總詞數(shù)C3為9384.
表1 不同分詞方法對(duì)應(yīng)切分結(jié)果詞匯表
從表1可以看出傳統(tǒng)的分詞方法將文本集中大約25%的單詞組合而成的語(yǔ)義詞拆分成單個(gè)單詞,而這種多個(gè)單詞的組合將會(huì)表達(dá)一個(gè)具體而獨(dú)立的語(yǔ)義信息,包括一些人名、成語(yǔ)、專(zhuān)有名詞等,拆分成多個(gè)單詞將會(huì)喪失這種單詞組合所要表達(dá)的完整語(yǔ)義信息.因此,用傳統(tǒng)分詞方法獲取的單詞就難以在文本標(biāo)引中發(fā)揮詞的作用,相應(yīng)的各種文本處理效果也會(huì)受到消極影響.相比較而言,使用改進(jìn)互信息的MIk算法、基于t-測(cè)試差算法以及TD-MIk混合算法作為分詞算法所獲得的詞語(yǔ)不止有單個(gè)詞,還有雙詞、三詞、四詞,這樣的詞就能更好的表達(dá)完整的語(yǔ)義信息,構(gòu)成更能表達(dá)文本信息的語(yǔ)義詞,這將有助于提升各種文本處理的效果.例如,在文本的主題詞提取中,一般的主題詞都是由多個(gè)單詞組合而成的,這樣就有效地提高了主題詞提取的準(zhǔn)確性.表2中列舉了2個(gè)例句的分詞實(shí)驗(yàn)結(jié)果.
表2 分詞實(shí)驗(yàn)結(jié)果舉例
表2的第一個(gè)例句中的“diuz roen seicouz”(絲綢之路)由3個(gè)單詞組成一個(gè)專(zhuān)有名詞,是不可分割的,實(shí)驗(yàn)結(jié)果表明本文使用的分詞算法能夠正確地把這單詞組合切分出來(lái).此外,壯文在某些方面與漢文有很大的相似性,漢文方面,兩個(gè)單一的字組合成一個(gè)詞語(yǔ),例如“建設(shè)”是一個(gè)詞語(yǔ);在壯文方面,第二個(gè)例句中的“l(fā)ai guek”(多國(guó)),也是由兩個(gè)單詞組合成一個(gè)詞語(yǔ),把這樣的單詞組合切分出來(lái)對(duì)后續(xù)的機(jī)器翻譯或者信息檢索等都有很大的促進(jìn)作用.顯然,本文使用的分詞算法很好的切分出壯文句子中獨(dú)立而完整的語(yǔ)義詞,且切分效果也是令人滿意的.
本文使用的幾種分詞方法由于分詞的策略不同,在分詞的效果上也有差異.不同分詞方法的分詞效果差異對(duì)比如表3所示.
表3 分詞方法效果對(duì)比
從表3可以看出,本文使用的分詞方法都能得到較高的準(zhǔn)確率和召回率,對(duì)應(yīng)的F值也較高.互信息反映的是單詞之間的靜態(tài)結(jié)合能力,而t-測(cè)試差反映的是單詞之間的動(dòng)態(tài)結(jié)合能力,兩者都各有優(yōu)勢(shì),t-測(cè)試差的分詞準(zhǔn)確率相比改進(jìn)互信息MIk方法稍微好一些,而TD-MIk混合算法則結(jié)合兩者的特點(diǎn),分詞的準(zhǔn)確率和召回率分別提高了3.77%和4.7%.
本文分析了壯文文本中多個(gè)單詞組合所表達(dá)的完整而獨(dú)立的語(yǔ)義信息,以及傳統(tǒng)壯文分詞方法對(duì)這種完整而獨(dú)立的語(yǔ)義信息的破壞,同時(shí)在各種文本信息處理中所獲得的結(jié)果不令人滿意.為了能夠更好地提取文本中的這種能夠更好的表達(dá)完整的語(yǔ)義信息的語(yǔ)義詞,在使用互信息MI方法來(lái)度量壯文相鄰單詞間關(guān)聯(lián)程度的基礎(chǔ)上,提出一種基于互信息改進(jìn)算法MIk和t-測(cè)試差相結(jié)合的TD-MIk混合算法對(duì)壯文文本分詞,并用準(zhǔn)確率、召回率和F值對(duì)分詞結(jié)果進(jìn)行評(píng)價(jià).實(shí)驗(yàn)表明本文的分詞算法的分詞結(jié)果得到較高的準(zhǔn)確率和召回率,能夠較準(zhǔn)確而有效地提取文本中的語(yǔ)義詞,提出的TD-MIk混合算法也有效地提高了分詞的準(zhǔn)確率.另外,由于目前網(wǎng)上的壯文文本大都是政府工作報(bào)告文章和政治類(lèi)新聞文章,所以本文的分詞算法在對(duì)在政府工作報(bào)告和政治類(lèi)壯文文本的分詞效果相對(duì)較好,該分詞算法同樣也適用于壯文的其他各類(lèi)文本.
[1] 韋景云,覃曉航.狀語(yǔ)通論[M].北京:中央民族大學(xué)出版社,2006:3-110.
[2] 劉連芳,顧 林,黃家裕,等. 壯文與壯文信息處理[J]. 中文信息學(xué)報(bào),2011,25(6):175-182.
[3] 趙秦怡,王麗珍. 一種基于互信息的串掃描中文文本分詞方法[J]. 情報(bào)雜志,2010,29(7):161-162.
[4] Min K, Ma C, Zhao T,et al. BosonNLP: An ensemble approach for word segmentation and POS tagging[C]// Springer. The 4th CCF Conference on Natural Language Processing and Chinese Computing (NLPCC2015).Berlin: Springer, 2015:520-526.
[5] 吐?tīng)柕亍ね泻咸?艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 基于互信息的維吾爾文自適應(yīng)組詞算法[J]. 計(jì)算機(jī)應(yīng)用研究,2013,30(2):429-431.
[6] 吐?tīng)柕亍ね泻咸?艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 語(yǔ)義詞特征提取及其在維吾爾文文本分類(lèi)中的應(yīng)用[J]. 中文信息學(xué)報(bào),2014,28(4):140-144.
[7] Bouma G. Normalized (pointwise) mutual information in collocation extraction [C]// UIMA. Proceedings of German Society for Computational Linguistics (GSCL 2009), Potsdam:UIMA, 2009: 31-40.
[8] Pazienza M, Pennacchiotti M, Zanzotto F. Terminology extraction: an analysis of linguistic and statistical approaches[J]. Springer Berlin Heidelberg, 2005,185: 255-279.
[9] 杜麗萍,李曉戈,于 根,等. 基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):35-40.
[10] 杜麗萍,李曉戈,周元哲,等. 互信息改進(jìn)方法在術(shù)語(yǔ)抽取中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2015,35(4):996-1000.
[11] Church K W, Gale W, Hanks P, et al. Using Statistics in Lexical Analysis[M].Hillsdale NJ :Lawrence Erlbaum Associates,1991:115-164.
[12] 孫茂松,肖 明,鄒嘉彥. 基于無(wú)指導(dǎo)學(xué)習(xí)策略的無(wú)詞表?xiàng)l件下的漢語(yǔ)自動(dòng)分詞[J]. 計(jì)算機(jī)學(xué)報(bào),2004,27(6):736-742.
The traditional method of Zhuangwen word segmentation is to use the space between words as a separation mark.But in most cases, the word segmentation method will destroy multiple words association combination of semantic words which express the complete and independent semantic information. For the first time we use the mutual information to improve algorithm MIkandt-test difference in Zhuangwen text word segmentation that based on the use of mutual information MI method to measure the degree of correlation between adjacent words, and combine with the two in the evaluation of adjacent words’static binding ability and dynamic binding ability, a TD-MIkhybrid algorithm based on the MIkandt-test difference is proposed. The segmentation effects of MIk,t-test difference and TD-MIkhybrid algorithm are compared. We use the text set on the People′s network in Zhuangwen as a training and test corpus to do the experiments. The experimental results show that the three segmentation methods can extract the semantic words in text accurately and efficiently,and TD-MIkhybrid algorithm has the highest accuracy of word segmentation .
zhuangwen word segmentation;MI improved algorithm;t-test difference;hybrid algorithm;semantic word
2017-09-01 *
易云飛,研究方向:智能計(jì)算,E-mail:gxyiyf@163.com
覃 俊(1968-),女,教授,博士,研究方向:智能優(yōu)化、數(shù)據(jù)挖掘,E-mail:498011695@qq.com
國(guó)家科技支撐計(jì)劃項(xiàng)目子課題(2015BAD29B01);中南民族大學(xué)研究生學(xué)術(shù)創(chuàng)新基金項(xiàng)目(2017sycxjj051)
TP391
A
1672-4321(2017)04-0100-06
ResearchonZhuangwenWordSegmentationAlgorithmBasedonMutualInformationImprovedAlgorithmandt-testDifference
QinJun1,LinYechuan1,YiYunfei2
(1 College of Computer Science,South-Central University for Nationalities,Wuhan 430074, China;
2 College of Computer and Information Engineering, Hechi University, Yizhou 546300,China)