張 永,王 芳,張譯勻
蘭州理工大學(xué) 計(jì)算機(jī)通信學(xué)院,蘭州 730050
結(jié)構(gòu)特征和內(nèi)容分析融合的博客文章分類
張 永,王 芳,張譯勻
蘭州理工大學(xué) 計(jì)算機(jī)通信學(xué)院,蘭州 730050
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,博客以極快的速度融入到社會(huì)生活中,隨之帶來(lái)海量的博客文章。如何組織其中的大量文章,從中快速準(zhǔn)確獲取所需要的信息,成為一項(xiàng)重要而緊迫的研究課題。博客文章的分類是其中的核心任務(wù)之一。
普通的文本分類方法通常基于主題突出,有明確類別傾向,且多為第三人稱對(duì)事物敘述,語(yǔ)氣較為客觀的新聞文章,而考慮到博客文章通常包含多個(gè)主題,類別歸屬不明顯,且多為第一人稱對(duì)事物的敘述,涉及較多的作者的主觀意見,且博客文章有標(biāo)簽等自身的結(jié)構(gòu)特性的現(xiàn)象。所以,普通的文本分類并不適用于博客文章分類。目前,對(duì)博客文章分類已經(jīng)開展了一些研究。文獻(xiàn)[1]使用標(biāo)簽對(duì)博客進(jìn)行分類,并且發(fā)現(xiàn)標(biāo)簽的數(shù)量對(duì)分類結(jié)果有一定的影響,因此通過(guò)對(duì)標(biāo)簽擴(kuò)充來(lái)進(jìn)一步改善分類的效果。它們的不足在于以博客作為分類對(duì)象,由于一個(gè)博客中會(huì)包含多個(gè)類別的文章,因此這種方法的分類力度不夠細(xì)致。文獻(xiàn)[2]利用文章中提取的關(guān)鍵詞代替標(biāo)簽進(jìn)行博客文章聚類,取得了較好的效果。文獻(xiàn)[3]利用博文間的評(píng)論,閱讀關(guān)系,進(jìn)行文章聚類。文獻(xiàn)[4]通過(guò)構(gòu)建一個(gè)詞條-頁(yè)面矩陣來(lái)對(duì)博客進(jìn)行聚類。它們的不足在于聚類得到的類別數(shù)量太大并且結(jié)構(gòu)混亂,缺乏層次性和條理性。
針對(duì)上述情況,本文提出一種結(jié)構(gòu)特征和內(nèi)容分析融合的博客文章分類方法。該方法通過(guò)組合期望交叉熵(CrossEntropy)和互信息(MI)兩種不同的特征選擇方法提取的特征詞集前提下,結(jié)合正文,標(biāo)題,標(biāo)簽作為衡量博客文章分類的三個(gè)方面,并將其利用分類器訓(xùn)練融合,從而取得好的分類效果。
本文采用樸素貝葉斯分類算法作為分類的基本算法。其基本思想是假設(shè)文檔中詞與詞之間對(duì)于類別的影響是相互獨(dú)立的前提下,計(jì)算文檔屬于各個(gè)類別的概率,最終選擇最大的概率值對(duì)應(yīng)的類別作為文檔屬于的類別[5]。
步驟如下:
(1)根據(jù)貝葉斯定理,轉(zhuǎn)換類別對(duì)于文檔的后驗(yàn)概率,公式如下:
其中,d:文檔,ci:第i個(gè)類別。P(ci|d):給定文檔條件下,文檔屬于ci的概率。P(ci):類別ci的先驗(yàn)概率。P(d):文檔的先驗(yàn)概率,P(d|ci):給定類別ci的條件下,產(chǎn)生文檔d的概率。
(2)文檔d用向量空間模型表示為一組特征詞向量(t1,t2,…,tn),公式(1)的分子部分為:
假設(shè)各特征詞之間對(duì)于類別的影響是相互獨(dú)立的,公式(2)變?yōu)椋?/p>
(3)得到的概率值最大的類別為文檔d的類別。
給定一個(gè)博客文章的集合,本文的目標(biāo)是取得較好的分類效果。通過(guò)期望交叉熵和互信息兩種不同的特征選擇方法提取的特征詞集進(jìn)行組合,一定程度上改善了博客內(nèi)容上的多主題,類別歸屬不明顯的現(xiàn)象,結(jié)合正文,標(biāo)題兩個(gè)方面分類博客文章。利用博客文章自身結(jié)構(gòu)特性上的標(biāo)簽,作為衡量博客文章分類的第三個(gè)方面。最終,利用分類器訓(xùn)練融合正文,標(biāo)題,標(biāo)簽三個(gè)方面。
3.1 內(nèi)容分類
為了改善博客文章內(nèi)容上,包含多個(gè)主題,類別歸屬不明顯,且多為作者自己主觀意見的現(xiàn)象,提出結(jié)合互信息和期望交叉熵兩種不同的特征詞選擇方法,更好地挖掘出體現(xiàn)博客文章內(nèi)容的特征詞集,從而取得好的分類效果。
3.1.1 融合的特征選擇方法
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),不同的特征提取方法會(huì)產(chǎn)生不同的特征詞集合,且各個(gè)特征詞集合最低重合率還不到10%,每個(gè)特征提取方法都傾向于選擇自己認(rèn)為重要的一些特征詞,但其他的特征提取方法卻不一定這樣認(rèn)為。因此,組合它們選擇的特征項(xiàng)結(jié)果,來(lái)改善博客文章內(nèi)容上的多主題,類別歸屬不明顯的現(xiàn)象,從而進(jìn)一步取得較好的博客文章分類效果。
特征項(xiàng)提取的方法[6]有很多,試圖組合互信息和期望交叉熵兩種不同的特征提取方法提取的特征詞集,從而取得更好的分類效果。因?yàn)椋海?)互信息是在統(tǒng)計(jì)語(yǔ)言模型中被廣泛采用,且大量的研究表明采用互信息算法的效果要明顯優(yōu)于其他算法。(2)互信息方法是對(duì)不同的類別抽取不同的特征項(xiàng),而期望交叉熵考慮的是各個(gè)特征在每個(gè)類別中的分布情況,所以本文選取的是互信息與期望交叉熵兩種方法進(jìn)行迭代。下面是這兩種方法的標(biāo)準(zhǔn)形式(t表示特征詞,ci表示類別)。
互信息函數(shù)定義如下:
其中,P(t/ci):訓(xùn)練語(yǔ)料中特征詞t出現(xiàn)在類別ci中的概率,P(ci):類別ci出現(xiàn)的概率,P(t):訓(xùn)練語(yǔ)料中特征項(xiàng)出現(xiàn)的頻率。對(duì)于每一類別來(lái)講,詞t的互信息越大,說(shuō)明該詞與該類的共現(xiàn)概率越大。一般取t在所有類中的最大值為其MI值。
期望交叉熵,定義如下:
其中,P(ci|t):文章中出現(xiàn)詞條t時(shí),文本屬于ci的概率,m:類別的總數(shù)。如果詞條和類別強(qiáng)相關(guān),且相應(yīng)的類別出現(xiàn)概率又小的話,則說(shuō)明詞條對(duì)分類的影響大,相應(yīng)的函數(shù)值就大,就很可能被選中作為特征項(xiàng)。
3.1.2 改進(jìn)的特征選擇過(guò)程
(1)分別計(jì)算所有特征項(xiàng)的互信息和期望交叉熵。
(2)分別按分值的大小排序。
(3)按互信息和期望交叉熵所占特征集的比例,分別抽取特征項(xiàng),并將其合并得到特征子集。
(4)計(jì)算該條件下對(duì)分類性能的影響。
(5)調(diào)整比例大小,重復(fù)(3)(4)直到獲取最優(yōu)特征子集。
3.1.3 正文,標(biāo)題分類
利用改進(jìn)的特征提取方法提取的特征項(xiàng),結(jié)合貝葉斯分類算法,進(jìn)行博客文章內(nèi)容的分類。對(duì)于一篇博客文章d,利用正文對(duì)博客文章分類,得到一組對(duì)應(yīng)各個(gè)類別的概率值,其中,P1(d,ci)表示利用正文分類時(shí),博客文章d屬于類別ci的概率值,同理利用標(biāo)題對(duì)博客文章分類,得到一組對(duì)應(yīng)各個(gè)類別的概率值,其中,P2(d,ci)表示利用標(biāo)題分類時(shí),博客文章d屬于類別ci的概率值。
3.2 標(biāo)簽分類
利用改進(jìn)的特征提取方法提取的特征項(xiàng),結(jié)合貝葉斯分類算法,進(jìn)行博客文章結(jié)構(gòu)的分類。標(biāo)簽是一篇博客文章中特有的結(jié)構(gòu)特性,是和文章內(nèi)容相關(guān)的一組關(guān)鍵詞。它通常由博客作者自行標(biāo)注,用來(lái)高度概括博客文章的內(nèi)容,并被證明對(duì)博客文章的分類起到了積極作用。對(duì)于一篇博客文章d,使用博客文章特有的結(jié)構(gòu)特性:標(biāo)簽,進(jìn)行分類后,得到一組對(duì)應(yīng)各個(gè)類別的概率值,其中,P3(d,ci)表示利用標(biāo)簽分類時(shí),博客文章d屬于類別ci的概率值。
3.3 結(jié)構(gòu)特性和內(nèi)容分析融合的博客文章分類
正文,標(biāo)題,標(biāo)簽分類都可作為衡量博客文章分類的方面,因此將這三個(gè)方面融合。
3.3.1 博客文章的最終分?jǐn)?shù)
對(duì)于一篇博客文章d,單獨(dú)利用正文,標(biāo)題,標(biāo)簽三方面的一種分類后,得到一組對(duì)應(yīng)各個(gè)類別的概率值。將三個(gè)方面都分類后,得到各個(gè)類別的最終分?jǐn)?shù):
對(duì)于任一篇博客文章d,分?jǐn)?shù)最高的類別即為它所屬的類別。其中,S(d,ci):類別ci的最終分?jǐn)?shù),P1(d,ci):使用正文分類時(shí),文章d屬于類別ci的概率,P2(d,ci):使用標(biāo)題分類時(shí),文章d屬于類別ci的概率,P3(d,ci):使用標(biāo)簽分類時(shí),文章d屬于類別ci的概率。ω1,ω2,ω3三個(gè)參數(shù)用以權(quán)衡不同因素的重要程度。
3.3.2 參數(shù)估計(jì)
本文采用與文獻(xiàn)[7]中多分類器組合類似的方法,估計(jì)三個(gè)特征權(quán)重,區(qū)別在于本文只使用一個(gè)分類器,訓(xùn)練特征權(quán)重。單獨(dú)使用正文,標(biāo)題,標(biāo)簽三個(gè)方面分類的結(jié)果表示為向量P=(Pj1,Pj2,…,Pji),j∈[1,3],其中Pji:使用任一方面 j分類后類別i的概率值。那么,用本文中的三個(gè)方面分類后的結(jié)果可以用矩陣P=(P1,P2,P3)來(lái)表示。根據(jù)公式(6),對(duì)于文章d,可以得到方程組:
S=P*ω (7)其中,向量ω=(ω1,ω2,ω3)表示要求的特征權(quán)重,P為概率矩陣,通過(guò)文中的三個(gè)方面分類可以獲取。S=(S(d,c1),S(d,c2),…,S(d,c5))表示累加后各個(gè)類別的分?jǐn)?shù),通過(guò)人工標(biāo)注可以得到。
在訓(xùn)練權(quán)重時(shí),對(duì)訓(xùn)練集中文章的類別進(jìn)行標(biāo)注。一般而言,標(biāo)注后訓(xùn)練集中的文章d屬于某正確類別的概率設(shè)為1,屬于其他類別的概率均為0。但為了避免出現(xiàn)過(guò)擬合現(xiàn)象,為其他類別加入松弛變量,即假設(shè)文章屬于正確類別的分?jǐn)?shù)S為θ,剩下的錯(cuò)誤類別對(duì)應(yīng)的分?jǐn)?shù)為(1-θ)/ (m-1),m為類別總數(shù)。保持所有類別的概率值總和為1。選擇θ值時(shí),應(yīng)考慮使文章屬于錯(cuò)誤類別的概率值要遠(yuǎn)小于正確類別的概率θ,從而保證加入的松弛變量對(duì)分類結(jié)果影響很小,同時(shí)有效避免了過(guò)擬合現(xiàn)象。因此,對(duì)于文章d,可以利用公式(7),用線性回歸的方法求得向量ω的值。然后,對(duì)總訓(xùn)練文章的解求平均值,從而得到最終的特征權(quán)重。
4.1 數(shù)據(jù)集
實(shí)驗(yàn)中利用Heritrix從http://blog.sina.com.cn/網(wǎng)站抓取5 000篇博文,因?yàn)椴┛途W(wǎng)站中文章類別標(biāo)注錯(cuò)誤的現(xiàn)象比較嚴(yán)重,所以需要對(duì)抓取的博客文章重新人工標(biāo)注文章類別。并且考慮到部分博客文章的標(biāo)簽,正文可能為空,所以經(jīng)過(guò)篩選,得到標(biāo)簽和正文兩個(gè)特征都不為空的4 000篇博客文章。本文只選取健康,財(cái)經(jīng),軍事,娛樂和體育5個(gè)類別進(jìn)行訓(xùn)練和測(cè)試。其中,這5個(gè)類別的分布情況如表1所示。
表1 各主題類文本分布
本文從各主題類別中分別取出200篇作為訓(xùn)練集,200篇作為測(cè)試集,訓(xùn)練集和測(cè)試集彼此不重疊,不包括任何重復(fù)博客文章。
4.2 評(píng)價(jià)指標(biāo)
采用標(biāo)準(zhǔn)的查全率和查準(zhǔn)率以及F-調(diào)和均值作為評(píng)價(jià)準(zhǔn)則[8]。
查全率(Recall)是與人工分類結(jié)果吻合的博文數(shù)與分類應(yīng)有的博文數(shù)的比率。
查準(zhǔn)率(Precision)是與人工分類結(jié)果吻合的博文數(shù)與總博文數(shù)的比率。
F-調(diào)和均值綜合考慮了查全率和查準(zhǔn)率,其值能夠更好地反映分類性能,取值在[0,1]范圍內(nèi),當(dāng)查全率和查準(zhǔn)率都增大時(shí),F(xiàn)的值也增大,F(xiàn)值越大表示性能越好。其定義如下:
4.3 結(jié)果與分析
實(shí)驗(yàn)分為兩部分,第一部分驗(yàn)證互信息和期望交叉熵在特征集中所占的比例是多少時(shí),能得到最優(yōu)的特征集,更好地達(dá)到分類的效果;第二部分驗(yàn)證利用互信息和期望交叉熵組合的最優(yōu)比例,且區(qū)分博客文章的標(biāo)簽,正文,標(biāo)題對(duì)分類的影響。
4.3.1 特征子集
針對(duì)3.1.2節(jié)改進(jìn)的特征抽取過(guò)程中,特征集由互信息和期望交叉熵兩部分組成,考慮到測(cè)試集和訓(xùn)練集的數(shù)目相對(duì)較少的情況,本文通過(guò)大量實(shí)驗(yàn),利用互信息在特征集中10%的比例遞增,相反期望交叉熵以10%遞減的比例,且未區(qū)分博客文章的標(biāo)簽,正文,標(biāo)題對(duì)分類影響,分別對(duì)5個(gè)類別的分類效果驗(yàn)證,數(shù)據(jù)結(jié)果如表2所示。
從表2可以看出,利用互信息和期望交叉熵結(jié)合的方法進(jìn)行特征抽取,明顯優(yōu)于單獨(dú)使用互信息或期望交叉熵的特征抽取方法,且最優(yōu)的特征集組合是,互信息占70%,期望交叉熵占30%。然而,這個(gè)實(shí)驗(yàn)結(jié)果也與所選的類別及比例遞進(jìn)的間隔有關(guān),今后將在更多類別中收集數(shù)據(jù),以進(jìn)行更全面的驗(yàn)證。
由于F-調(diào)和均值能更好地反映分類性能,故進(jìn)行F的比較,結(jié)果如圖1所示。
圖1 不同特征集組合的分類方法F值比較
表2 不同特征集組合的博客文章分類結(jié)果
4.3.2 分類結(jié)果
改進(jìn)前,采用互信息占70%,期望交叉熵占30%的最優(yōu)特征子集進(jìn)行特征選擇,但未區(qū)分博客文章的標(biāo)簽,正文,標(biāo)題對(duì)分類的影響,利用傳統(tǒng)貝葉斯分類。改進(jìn)后,采用互信息和期望交叉熵的最優(yōu)組合進(jìn)行特征選擇,且區(qū)分博客文章的標(biāo)簽,正文,標(biāo)題對(duì)分類的影響。訓(xùn)練中,考慮到本文的類別總數(shù)只有5類,比較小,所以選取θ=0.7,而剩下的錯(cuò)誤分類每個(gè)只占0.3/4=0.075,這樣就遠(yuǎn)小于0.7。訓(xùn)練后得到的標(biāo)題,正文,標(biāo)簽三個(gè)特征的特征權(quán)重分別為0.27,0.25,0.48。利用這三個(gè)特征權(quán)重,分別對(duì)改進(jìn)前和改進(jìn)后的分類效果比較,數(shù)據(jù)結(jié)果分別如表3和表4所示。
表3 改進(jìn)前博客文章的分類結(jié)果
表4 改進(jìn)后博客文章的分類結(jié)果
從表3和表4可以看出,改進(jìn)后博客文章的分類性能有顯著的提高,主要原因是:改進(jìn)前的分類方法,忽略了博客文章不同與普通文本的,特有的結(jié)構(gòu)特性和內(nèi)容特性,所以造成查全率和查準(zhǔn)率較低的現(xiàn)象。而本文的改進(jìn)方法,全面考慮博客文章的特性,內(nèi)容上,通過(guò)期望交叉熵和互信息的最優(yōu)組合,利用正文,標(biāo)題兩個(gè)方面分類。結(jié)構(gòu)上,利用博客文章特有的標(biāo)簽分類,并區(qū)分三個(gè)方面對(duì)分類的影響。
由于F-調(diào)和均值能更好地反映兩種方法的分類性能,故進(jìn)行F的比較,結(jié)果如圖2所示。
圖2 兩種博客文章分類方法的F值比較
本文針對(duì)博客文章的結(jié)構(gòu)特征和內(nèi)容分析,提出一種改進(jìn)的貝葉斯博客文章分類算法。通過(guò)組合期望交叉熵和互信息兩種不同的特征選擇方法提取特征詞集,結(jié)合正文,標(biāo)題,標(biāo)簽作為衡量博客文章分類的三個(gè)方面,并將其利用分類器訓(xùn)練融合。實(shí)驗(yàn)證明,該方法有效地提高了博客文章分類的性能。在以后的工作中,將把構(gòu)建博客作者的興趣,考慮博客的其他結(jié)構(gòu)特征等,作為文章分類的新重點(diǎn)。
[1]Sun Aixin,Suryanto M A,Liu Ying.Blog classification using tags:an empirical study[C]//LNCS 4882:ICADL 2007.Berlin:Springer-Verlag,2007:307-316.
[2]Brooks C H,Montanez N.Improved annotation of the blogosphere via autotagging and hierarchical clustering[C]//WWW'06. New York:ACM,2006:625-632.
[3]Li Xin,Yan Jun,F(xiàn)an Weiguo.An online blog reading system by topicclustering and personalized ranking[J].ACM Transactions on Internet Technology,2009,9(3).
[4]Li Beibei,Xu Shuting,Zhang Jun.Enhancing clustering blog documentsby utilizing author/readercomments[C]//ACM-SE 45:Proceedings of the 45th Annual Southeast Regional Conference.New York:ACM,2007:94-99.
[5]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[6]Yang Yiming,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proceedings of the 14th International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufman Publishers,1997:412-420.
[7]Ni Xiaochuan,Wu Xiaoyuan,Yu Yong.Automatic identification of Chinese weblogger's interests based on text classification[C]//Proceedings of IEEE/WIA/ACM International Conferenceon Web Intelligence.Washington,DC,USA:IEEE Computer Society,2006:247-253.
[8]徐威,董淵.針對(duì)中文文本自動(dòng)分類算法的評(píng)估體系[J].計(jì)算機(jī)科學(xué),2007,34(18):177-179.
ZHANG Yong,WANG Fang,ZHANG Yiyun
School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China
Aiming at the problems of blog posts contents including multiple themes,unobvious categories ownership and more author's subjective views,structures including tags which are different from texts,common text classification methods not performing well,a new blog posts classification method is presented based on structural characteristics and content analysis.By taking into account blog posts content features,it iterates two different feature extraction methods to enhance the representative ability of feature collection effectively,makes use of main body and title classification.By taking into account the structural features of blog posts,it makes use of tags classification and finally fuses three aspects.The experimental results show that the performance of the improved method is obviously better than common text classification methods.
text classification;blog post classification;structural characteristics;content analysis
針對(duì)博客文章內(nèi)容上,包含多個(gè)主題,類別歸屬不明顯,多為作者自己主觀意見且結(jié)構(gòu)上,包括不同于文本的標(biāo)簽,普通文本分類方法直接應(yīng)用于博客文章效果不理想的問題,提出一種結(jié)構(gòu)特征和內(nèi)容分析融合的博客文章分類方法。內(nèi)容上,通過(guò)迭代兩種不同特征選擇方法,提高特征集代表性的前提下,利用正文,標(biāo)題兩個(gè)方面分類.結(jié)構(gòu)上,利用博客文章特有的標(biāo)簽分類,并將三個(gè)方面融合。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的分類方法有效地提高了博客文章分類的性能。
文本分類;博客文章分類;結(jié)構(gòu)特征;內(nèi)容分析
A
TP391
10.3778/j.issn.1002-8331.1107-0441
ZHANG Yong,WANG Fang,ZHANG Yiyun.Structural characteristics and content analysis fusion for blog post classification.Computer Engineering and Applications,2013,49(5):123-126.
張永(1968—),男,教授,研究領(lǐng)域:智能信息處理;王芳,女,碩士;張譯勻,女,碩士。E-mail:3wf851008@163.com
2011-07-21
2011-09-06
1002-8331(2013)05-0123-04
CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0941.032.html