江 濤,于洪志
(西北民族大學(xué) 甘肅省民族語言智能處理重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州730030)
一種面向藏文聚類的文本建模方法
江 濤,于洪志
(西北民族大學(xué) 甘肅省民族語言智能處理重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州730030)
現(xiàn)有的藏文文本聚類算法均采用向量空間模型來進(jìn)行文本建模 .該模型存在向量維度過高和無法表示語義信息的問題.該文根據(jù)藏文的語法特性并借鑒主題模型的思想,提出了一種基于詞向量的藏文文本建模方法.該方法首先采用最大熵模型進(jìn)行藏文文本詞性標(biāo)注,選擇名詞和動詞作為文本的特征,然后利用word2vec工具訓(xùn)練得到詞語類別并計(jì)算其在各文本的概率分布,最終以詞類別概率矩陣表示文本,從而實(shí)現(xiàn)文本建模.與基于VSM和基于LDA的文本建模方法相比,該方法文本聚類結(jié)果的F值分別提高了10.5%和2.4%,聚類效果提升明顯.
藏文文本;文本建模;文本聚類;詞性標(biāo)注;詞向量
隨著網(wǎng)絡(luò)中藏文內(nèi)容數(shù)量的不斷增長,如何高效地組織和挖掘這些藏文文本所蘊(yùn)涵的有用信息已成為當(dāng)前的研究熱點(diǎn).藏文文本聚類是藏文文本挖掘的基礎(chǔ)和面向互聯(lián)網(wǎng)的藏文話題識別、跟蹤和藏文輿情分析技術(shù)的核心,藏文數(shù)字圖書館、藏文搜索引擎、藏文智能文本分析等應(yīng)用領(lǐng)域都需要藏文文本聚類算法的支持.
藏文文本聚類首先要解決的問題是將無結(jié)構(gòu)化的藏語言文本轉(zhuǎn)化成計(jì)算機(jī)可理解的特征 .該步驟為文本建模,而文本建模在一定程度上決定聚類效果的好壞.目前文本建模主要的方法有向量空間模型和主題模型.向量空間模型(Vector Space Model,VSM)[1]由Salton等1969年提出,是當(dāng)前應(yīng)用最廣且最為成熟的文本表示模型.VSM將文本內(nèi)容轉(zhuǎn)化為向量空間表示,向量的每一維都用特征詞的權(quán)重表示.VSM不考慮文本中詞語的順序和語義關(guān)聯(lián),無法解決文本中的同義詞和多義詞情況,并存在向量維度過高、數(shù)據(jù)稀疏的問題.主題模型通過詞在文本集的共現(xiàn)信息抽取出語義相關(guān)的主題集合,并能夠?qū)⒃~項(xiàng)空間中的文本變換到主題空間,得到文本在低維空間中的表達(dá)[2].當(dāng)前主流的主題模型有隱性語義索引(Latent Semantic Indexing,LSI)[3]、概率隱性語義索引(probabilistic Latent Semantic Indexing,pLSI)[4]、隱含狄列克雷分配(Latent Dirichlet Allocation,LDA)[5].LSI可以解決詞語匹配過程中同義和多義現(xiàn)象,但是表示效率較低且不支持大規(guī)模語料庫建模.LDA是在pLSI基礎(chǔ)上擴(kuò)展得到的一個更為完全的概率生成模型,更符合實(shí)際文本中的主題分布情況,并且不易發(fā)生過擬合,適合處理大規(guī)模語料.
中文和英文的文本聚類研究較為成熟,文本聚類工具已達(dá)到了實(shí)用化水平,而藏文文本聚類效果與中英文相比具有較大差距.將不同語言的文本轉(zhuǎn)化為特征后,聚類的核心算法與文本表述語言是無關(guān)的,因此提升藏文文本聚類效果的關(guān)鍵在于改進(jìn)藏文文本的預(yù)處理和文本特征表示.本文根據(jù)藏語言特性并借鑒文本主題模型的思想,提出了基于詞性選擇的藏文文本預(yù)處理方法和基于詞向量的藏文文本表示模型.
鑒于藏文文本聚類研究在藏文文本挖掘研究的基礎(chǔ)性作用和多個應(yīng)用領(lǐng)域的實(shí)際需求,其已成為藏文信息處理研究的熱門.文獻(xiàn)[6]實(shí)現(xiàn)了一種基于藏文Web的熱點(diǎn)發(fā)現(xiàn)算法.該算法采用向量空間模型對文本進(jìn)行表示 .藏文分詞采用語法規(guī)則結(jié)合分詞詞典的方式實(shí)現(xiàn),用藏文格助詞將句子切分成短語形式,然后利用詞典匹配的方法對短語再進(jìn)行切分.文獻(xiàn)[7]提出藏文搜索結(jié)果聚類方法,針對藏文文本預(yù)處理提出了一種ALLCut藏文分詞算法.該分詞算法使用詞典匹配,結(jié)合藏文格助詞和接續(xù)特征的方式實(shí)現(xiàn)分詞,文本表示采用向量空間模型.文獻(xiàn)[8]提出了一種基于簡易改進(jìn)的藏文文本聚類算法,改進(jìn)了文本順序?qū)垲惤Y(jié)果的影響,并通過確定種子話題來確定話題類別.文獻(xiàn)[9]結(jié)合向量空間模型提出了基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法.該方法提取文本中詞頻統(tǒng)計(jì)TF-IDF值較高作為對比詞項(xiàng),以每個句子作為一個語境主題,利用卡方統(tǒng)計(jì)量計(jì)算文本中詞項(xiàng)與對比詞項(xiàng)的關(guān)聯(lián)程度.文獻(xiàn)[10]提出基于群體智能的半結(jié)構(gòu)化藏文Web文本聚類算法(SCAST),將藏文文本和智能蟻群隨機(jī)放置于一個文本向量空間中,利用智能螞蟻隨機(jī)選擇藏文文本,計(jì)算藏文文本在當(dāng)前局部區(qū)域內(nèi)的相似性,而文本預(yù)處理階段采用藏文詞典匹配的方法實(shí)現(xiàn)藏文分詞.
現(xiàn)有藏文文本聚類算法在文本表示上均采用向量空間模型,預(yù)處理階段大都結(jié)合藏文詞典使用最大匹配的方法進(jìn)行藏文分詞.采用向量空間模型進(jìn)行文本建模無法表示文本的語義信息,并且容易引起維度災(zāi)難;使用最大匹配的分詞方法無法解決歧義切分和未登錄問題,分詞效果較差.根據(jù)現(xiàn)有藏文文本聚類研究所存在的不足,本文結(jié)合藏文的語言特點(diǎn),提出了一種基于詞向量的文本建模方法,藏文文本預(yù)處理采用最大熵模型對文本進(jìn)行分詞詞性標(biāo)注,實(shí)現(xiàn)基于詞性的文本特征選擇,在選定特征的基礎(chǔ)上利用word2vec訓(xùn)練詞聚類類別,將文本表示為詞聚類類別集合上的混合分布.
藏文在詞匯概念聯(lián)想的約束和話語音律的限制下構(gòu)成句子,句子由若干格關(guān)系構(gòu)成,格關(guān)系是主體和其周圍對象發(fā)生事件的約束關(guān)系[11].藏文通過虛詞和詞序作為表達(dá)語法意義,因此虛詞在文本中所占的比例較大.本文將藏文分詞和詞性標(biāo)注看成序列標(biāo)記問題,基于最大熵模型實(shí)現(xiàn)藏文文本的分詞及詞性標(biāo)注,在對藏文文本語料庫進(jìn)行詞性統(tǒng)計(jì)分析基礎(chǔ)上提出基于藏文詞性的藏文文本特征選擇方法.2.1 基于最大熵的藏文分詞及詞性標(biāo)注
最大熵模型最初由E.T.Jaynes在1950年提出,Della Pietra等[12]將其應(yīng)用于自然語言處理中.模型利用給定的訓(xùn)練樣本,在滿足所有已知的事實(shí)情況下選擇一個與訓(xùn)練樣本一致的概率分布.最大熵模型:
H(P)是模型P的熵,C是滿足條件約束的模型集合.下面需要尋求P*,P*的形式如下:
Z(x)是歸一化常數(shù),表示形式如下:
λi為特征的權(quán)重參數(shù).
本文以最大熵模型為基本框架融合藏文的構(gòu)詞特征實(shí)現(xiàn)藏文分詞和詞性標(biāo)注,能較好地處理未登錄詞識別和標(biāo)注問題.選用最大熵模型作為序列標(biāo)注工具是因?yàn)槠湓诓匚脑~性標(biāo)注速度與準(zhǔn)確度上的優(yōu)異表現(xiàn)[13],與其他序列標(biāo)注模型相比,最大熵模型在藏文詞性標(biāo)注上可以取得更好的結(jié)果.對于藏文緊縮詞的處理,本文參照文獻(xiàn)[14]的處理方法,建立緊縮詞識別模板,將緊縮詞識別同樣轉(zhuǎn)化為序列標(biāo)注問題.
2.2 藏文文本特征
目前還沒有統(tǒng)一的藏文詞性標(biāo)注規(guī)范或標(biāo)準(zhǔn).本文采用西北民族大學(xué)祁坤鈺教授提供的藏文詞性標(biāo)注集[15],其將藏文詞匯劃分為名詞、數(shù)詞、量詞、代詞、動詞、形容詞、副詞、助詞、介詞、連詞等21個大類.我們對2500篇藏文文檔進(jìn)行了詞性分布統(tǒng)計(jì)(結(jié)果見表1).從統(tǒng)計(jì)結(jié)果可看出,只表示某種語法意義的虛詞所占詞匯的比例達(dá)到了1/3以上.不同詞性的詞在表征文本的時候其貢獻(xiàn)是不同的,名詞和動詞最為重要,形容詞和副詞次之,虛詞幾乎沒有任何作用[16].根據(jù)藏語表述中虛詞較多的語法特點(diǎn),本文在詞性標(biāo)注的基礎(chǔ)上只選擇名詞和動詞作為文本特征.
表1 藏文文本詞性分布統(tǒng)計(jì)
以下面經(jīng)過詞性標(biāo)注的藏文句子為例:
3.1 詞向量
詞向量(distributed representation)最早有Hinton[17]在1986年提出,詞向量由神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到,其基本思想是通過訓(xùn)練將語料中的詞語映射到N維實(shí)數(shù)向量,利用詞之間的距離來判斷它們之間的語義相似度,不但包含了詞語間的潛在語義關(guān)系,同時也避免了維數(shù)災(zāi)難[18].
本文采用Google開源工具word2vec2提供的Skip-Gram模型進(jìn)行詞向量訓(xùn)練,選擇Hierarchical Softmax方法訓(xùn)練Skip-Gram模型[19].假設(shè)文本集合中有一組W1,W2,W3,…,WT詞序列,Skip-Gram模型的最大化目標(biāo)函數(shù)為:
其中c是決定上下文窗口范圍的常數(shù).
3.2 藏文文本建模方法
基于詞向量的藏文文本建模方法包括藏文文本詞性標(biāo)注、文本特征提取、詞類別聚類、詞類別分布統(tǒng)計(jì)四個步驟,最終將文本轉(zhuǎn)化為詞語類別權(quán)重的表示,實(shí)現(xiàn)文本建模.具體步驟如下:
1)采用最大熵的方法對每一篇藏文文本進(jìn)行分詞及詞性標(biāo)注.
2)僅選擇名詞、動詞作為文檔的特征,并計(jì)算每個特征的tf-idf值.文檔表示如下:d={(W1,t1)(W2,t2),…,(Wk,tk)},其中Wk表示文檔的一個名詞或動詞,tk表示W(wǎng)k對應(yīng)的tf-idf值,k表示文本d中名詞和動詞的總個數(shù).
3)使用word2vec對整個文檔集合訓(xùn)練詞向量,得到文檔的詞類別結(jié)果,d={(W1,c1)(W2,c2),…,(Wk,ck)},其中ck表示word2vec訓(xùn)練后詞語Wk對應(yīng)的詞聚類類別編號.
4)計(jì)算每篇文檔在各詞語類別上的權(quán)重,并使用Frobenius范數(shù)進(jìn)行歸一化,最終將文檔轉(zhuǎn)化為詞語類別權(quán)重表示,di={(Wi1,Wi2,…Wij,…,Win),其中Wij表示第j類別在第i篇文檔的權(quán)重,
4.1 實(shí)驗(yàn)語料
相比于眾多公開的英文(如:reuters21578)和中文(如:搜狗文本語料)文本語料庫,目前藏文沒有公開可用于藏文聚類算法評測的語料庫.為了驗(yàn)證本文所提出方法的有效性,我們從西藏信息中心藏文版、人民網(wǎng)藏文版中收集了2 500篇文檔建立了用于藏文文本聚類評測的語料庫,這些文檔分為政治、經(jīng)濟(jì)、衛(wèi)生、科技、教育五個大類,每個類別包含500篇文章.為了保證文檔類別的正確性,每一篇文檔都經(jīng)過了人工校對確認(rèn).
4.2 實(shí)驗(yàn)分析
本文分別設(shè)計(jì)藏文文本預(yù)處理方法對比和藏文文本建模方法對比兩組實(shí)驗(yàn)來驗(yàn)證本文提出基于最大熵的藏文詞性選擇方法和基于詞向量藏文文本建模方法的優(yōu)勢與不足.兩組實(shí)驗(yàn)均采用K-Means算法實(shí)現(xiàn)藏文文本聚類.由于K-Means聚類結(jié)果存在不穩(wěn)定的情況,因此選取5次聚類實(shí)驗(yàn)結(jié)果的平均值作為最終實(shí)驗(yàn)結(jié)果,另外藏文文本聚類效果采用F-measure度量值來評價.
4.2.1 藏文文本預(yù)處理方法對比實(shí)驗(yàn)
圖1 藏文文本預(yù)處理實(shí)驗(yàn)結(jié)果對比
本組實(shí)驗(yàn)采用三種藏文文本預(yù)處理方法在實(shí)驗(yàn)語料上進(jìn)行藏文文本聚類實(shí)驗(yàn),實(shí)驗(yàn)均采用基于詞向量的藏文文本建模方法.方法一為基于藏文詞典的分詞方法[10],該方法也是目前藏文文本聚類中最常用的文本預(yù)處理方法,首先使用格助詞對文本分塊,然后利用藏文詞典按照最大匹配原則進(jìn)行分詞.方法二為基于CRF的藏文分詞方法[13].該方法將藏文分詞問題轉(zhuǎn)化成序列標(biāo)注任務(wù),建立分詞和緊縮詞特征模板,使用CRF++實(shí)現(xiàn)藏文分詞;方法三為本文提出了基于最大熵的藏文詞性選擇的方法.三種方法的實(shí)驗(yàn)結(jié)果見圖1.從實(shí)驗(yàn)結(jié)果可看出,與基于藏文詞典和基于CRF的藏文分詞預(yù)處理方法相比,本文所提出基于詞性選擇的方法在準(zhǔn)確率和召回率上都有所提高.基于藏文詞典匹配的方法無法利用詞語的上下文信息,歧義切分錯誤較多導(dǎo)致分詞準(zhǔn)確率不高,聚類的準(zhǔn)確率和召回率都比較低.基于CRF的藏文分詞方法,較好地解決了分詞歧義性和音節(jié)縮減問題,分詞的準(zhǔn)確率有了大幅提升,聚類結(jié)果F值比基于藏文詞典的方法提高了10%.與基于CRF的藏文分詞方法相比,本文使用最大熵模型對文本進(jìn)行分詞和詞性標(biāo)注,在保證較高分詞準(zhǔn)確率的前提下選擇名詞和動詞作為文本語義特征,剔除文本噪音和冗余信息,從而提升了藏文文本聚類的效果.
4.2.2 藏文文本建模方法對比實(shí)驗(yàn)
本實(shí)驗(yàn)分別采用基于VSM的文本建模方法(方法一)、基于LDA的文本建模方法(方法二)和本文提出基于詞向量的文本建模方法(方法三)進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果見表2.方法一利用向量空間模型來進(jìn)行文本表示,使用Tf-idf作為特征項(xiàng)的權(quán)重.方法二利用Gibbs Sampling算法估計(jì)模型參數(shù),并構(gòu)建文本的主題概率空間,用主題的概率分布向量來表示文本.實(shí)驗(yàn)選取LDA-Gibbs模型的先驗(yàn)超參數(shù)α和β分別為α=50/k,β=0.01,K為主題數(shù).當(dāng)K=150時藏文文本聚類的F值最高,最優(yōu)主題數(shù)確定為150.方法三使用Google開源工具word2vec進(jìn)行詞向量的訓(xùn)練,詞聚類類別為200時聚類效果最好.
表2 藏文文本建模方法結(jié)果對比
從實(shí)驗(yàn)結(jié)果可以看出,方法二和方法三的F值相對與方法一分別提高了8.1%和10.5%,聚類效果提升明顯.因?yàn)榉椒ǘ头椒ㄈ谖谋窘r均考慮了文本的語義信息,較好地解決了同義詞和多義詞對文本相似度計(jì)算的影響.方法三與方法二的聚類結(jié)果相比,F(xiàn)值提高了2.4%.說明本文提出使用詞聚類類別概率信息進(jìn)行文本表示的聚類效果要優(yōu)于基于主題的概率分布.另外,方法二的參數(shù)估計(jì)需要模擬Dirichlet過程,計(jì)算量較大,因此隨著聚類文檔量的增大方法二效率上的優(yōu)勢會更加明顯.
評測語料來自政治、經(jīng)濟(jì)、衛(wèi)生、科技、教育五個大類,以基于詞向量的文本建模方法的結(jié)果來分析各類別的聚類效果.衛(wèi)生類別的聚類效果最好,準(zhǔn)確率達(dá)到了0.98;而經(jīng)濟(jì)類的文章聚類效果最差,準(zhǔn)確率為0.75;各類別的聚類結(jié)果不同跟類別的區(qū)分度存在一定關(guān)系.醫(yī)療衛(wèi)生類的文章與其他類別交叉程度較小,而政治和經(jīng)濟(jì)類的文章較難區(qū)分.
綜合藏文文本預(yù)處理和文本建模方法的實(shí)驗(yàn)可得出以下結(jié)論:①藏文文本預(yù)處理階段,相對于藏文詞典分詞的方法采用基于統(tǒng)計(jì)的分詞方法能夠明顯提升藏文文本聚類效果.②采用詞聚類類別概率信息進(jìn)行藏文文本表示模型引入了文本的語義信息,提高了文本相似度計(jì)算的準(zhǔn)確率 .藏文文本聚類結(jié)果明顯優(yōu)于基于VSM的方法.
藏文文本建模是藏文文本聚類的重要步驟,也是影響文本聚類效果的重要因素.本文根據(jù)藏語言的特點(diǎn)提出了基于最大熵的藏文詞性選擇方法,僅選擇最能表示文本語義的名詞和動詞作為特征;借鑒主題模型的思想提出了基于詞向量的藏文文本建模方法,將詞語類別分布信息作為文本的表示,增加了文本語義信息,同時也大大降低了文本向量的維度.實(shí)驗(yàn)結(jié)果表明,該方法的聚類效果優(yōu)于基于向量空間和基于LDA的文本建模方法.下一步將融合更多藏文語義特征來提升藏文文本聚類的效果.
[1]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
[2]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436. [3]Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
[4]Hofmann T.Probabilistic Latent Semantic Indexing[C]//Proceedings of the 22th Annual International SIGIR Conference.New York:ACM Press,1999,50-57.
[5]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.
[6]江濤.基于藏文web輿情分析的熱點(diǎn)發(fā)現(xiàn)算法研究[D].西北民族大學(xué)碩士學(xué)位論文,2010.
[7]萬德穩(wěn).藏文搜索和搜索結(jié)果聚類研究及系統(tǒng)實(shí)現(xiàn)[D].西南交通大學(xué)碩士學(xué)位論文,2013.
[8]曹暉,孟祥和.基于藏文新聞文本話題檢測的聚類算法研究[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,48(1):37-41.
[9]徐濤,于洪志,加羊吉.基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法[J].計(jì)算機(jī)工程,2014,40(6):185-189.
[10]康健,喬少杰,格桑多吉,等.基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法[J].模式識別與人工智能,2014,27(7):663-671.
[11]祁坤鈺.信息處理用藏文自動分詞研究[J].西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2006,(4):92-97.
[12]Adam L.Berger,Stephen A.Della Pietra,Vincent J.Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistics,1996,1(22):39-71.
[13]于洪志,李亞超,汪昆,冷本扎西.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2013,27(5):160-165.
[14]李亞超,加羊吉,宗成慶,于洪志.基于條件隨機(jī)場的藏語自動分詞方法研究[J].中文信息學(xué)報(bào),2013,27(4):52-58.
[15]祁坤鈺.藏文分詞與標(biāo)注研究[M].蘭州:甘肅民族出版社,2015.
[16]Kummamuru K,Lotlikar R,Roy S,et al.A hierarchical Monothetic Document Clustering Algorithm for Summarization and Browsing Search Results[C]//Proceedings of the 13th International Conference on World Wide Web,2004.658-665.
[17]Hinton,Geoffrey E.Learning Distributed Representations of Concepts[C]//Proceedings of the Eighth Annual Conference of the Cognitive Science Society.1986.
[18]楊陽,劉龍飛,魏現(xiàn)輝,等.基于詞向量的情感新詞發(fā)現(xiàn)方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):51-58.
[19]Mikolov T,Sutskever I,Chen K,et al.Distributed Representions of Words and Phrases and Their compositionality[J].Advances in Neural Information Processing Systems,2013,3111-3119.
TP391
A
1009-2102(2016)03-0024-06
2016-08-02
本文得到甘肅省高校科研項(xiàng)目(2015B-005);西北民族大學(xué)基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(zyp2015003)資助.
江濤(1983—),男,河南焦作人,博士,講師,主要從事自然語言處理方面的研究.