馬長林,謝羅迪,陳夢麗
(華中師范大學(xué)計算機學(xué)院,湖北 武漢 430079)
如今的網(wǎng)絡(luò)媒體時代,微博、微信、BBS論壇等信息媒介層出不窮,這些信息平臺已經(jīng)成為人們生活中必不可少的一部分,再加上移動終端設(shè)備以及無線通信技術(shù)的發(fā)展,大眾可以隨時隨地利用手機、平板等設(shè)備獲取互聯(lián)網(wǎng)資源,人們可以方便地進行信息分享和人際交流。
互聯(lián)網(wǎng)中的網(wǎng)頁信息絕大部分以文本的方式存在,根據(jù)這些文本的描述性質(zhì)可以將其劃分為主觀信息文本與客觀信息文本兩大類別。主觀文本中的內(nèi)容往往帶有個人的感情色彩,以文本撰寫者的意志為起點來發(fā)表對某一物品或者事件的觀點;客觀文本則是客觀地沒有摻雜個人主觀感情色彩地去描述物品或事件的特征與屬性。無論是主觀文本或者客觀文本,其中所包含的觀點信息都是非常重要的,通過獲取這些觀點信息,人們可以宏觀地把握某一事物具體的特征,進而推動社會和生產(chǎn)技術(shù)的進步。因此,當(dāng)下面對大數(shù)據(jù)時代產(chǎn)生的海量網(wǎng)絡(luò)評論,如何快速提取其背后隱藏的主題觀點特征并進行情感分析,這是眼下亟待解決的問題,也是觀點挖掘研究大發(fā)展的原因。
觀點挖掘是當(dāng)前自然語言處理領(lǐng)域的熱門話題,被國內(nèi)外學(xué)者廣泛研究,它是指通過相關(guān)技術(shù)分析文本中表達的觀點與情感極性,幫助用戶快速地獲取有用信息。情感極性一般被分為正向、負向、中性,正向表示情感傾向為褒義,負向表示情感傾向為貶義,而中性則表示沒有明顯的褒貶傾向,還有些學(xué)者將文檔的情感傾向采用定量的方式來表示,例如分值1~9,這樣不僅可以表示出情感傾向,還可以描述傾向的強弱。觀點提取主要是挖掘文檔背后潛在的觀點,主要包含情感分析、特征詞和觀點詞抽取聚類[1,2],在此基礎(chǔ)上獲取相關(guān)詞表和文檔主題評論摘要[3 - 5]。
目前,采用LDA(Latent Dirichlet Allocation)主題模型進行觀點挖掘已取得很多研究成果[6 - 9],它是在假設(shè)文檔主題獨立的前提下進行觀點抽取,但實際上主題與主題之間有著復(fù)雜的層次關(guān)系和內(nèi)在聯(lián)系;為此,Blei等[10,11]對LDA模型加以改進提出了相關(guān)主題模型CTM(Correlated Topic Model),對主題用正態(tài)對數(shù)分布取代了標(biāo)準(zhǔn)LDA模型中的狄利克雷分布,進而對主題相關(guān)性進行了分析,CTM模型的應(yīng)用已經(jīng)涉及自然語言處理的很多領(lǐng)域。
朱韶平等[12]以CTM模型和詞間相關(guān)性為基礎(chǔ)利用啟發(fā)式迭代算法進行圖像標(biāo)注,提高了標(biāo)注詞的準(zhǔn)確性。王燕霞等[13]利用CTM模型對數(shù)據(jù)集建模以降低數(shù)據(jù)維度,同時用支持向量機SVM(Support Vector Machine)對簡化后的數(shù)據(jù)進行文本分類,取得了較高的分類精確度。徐桂彬等[14]首次將CTM模型運用到了音樂分類中,他們利用DBSCAN(Density-Based Spatial Clusting of Application with Noise)聚類為CTM模型選取最佳主題數(shù)目,同時將HMM(Hidden Markov Model)算法與CTM模型相結(jié)合提出了動態(tài)相關(guān)主題模型,提高音樂分類系統(tǒng)的性能。然而,目前還鮮有研究將CTM模型用于觀點挖掘領(lǐng)域進行情感分析。
綜合以上利弊,本文對CTM模型進行了改進,在引入情感層的基礎(chǔ)上提出基于主題情感混合的CTM模型STCTM(Sentiment-and-Topic hybrid Correlated Topic Model),在分析主題相關(guān)性的前提下實現(xiàn)文檔主題的觀點特征提取和情感極性的分析。
標(biāo)準(zhǔn)LDA主題模型中存在著狄利克雷與多項式分布這樣一對共軛分布,在為一個單詞選取主題時先由狄利克雷分布超參數(shù)得到一個關(guān)于主題的多項式分布,由多項式分布再獲取主題,使用狄利克雷先驗分布決定了主題是相互獨立的,實際上文檔中的主題與主題之間存在著復(fù)雜的層次關(guān)系和內(nèi)在聯(lián)系,例如體育類別下的文檔經(jīng)常討論的主題“籃球”與“乒乓球”,二者在對應(yīng)主題的特征詞上具有一定的共性;主題與主題之間的出現(xiàn)也有一定的先后順序,在一篇關(guān)于旅游的文檔中,在出發(fā)之前討論的主要是攻略、注意事項等話題,到達目的地以后則更多地會討論具體的景點。LDA模型無法反映主題之間這種復(fù)雜的關(guān)系,而CTM模型則能很好地解決這一問題。
在CTM主題模型中,主題服從的分布不再服從狄利克雷分布,取而代之的是正態(tài)對數(shù)分布,模型圖如圖1所示[10]。
Figure 1 CTM model圖1 CTM模型
從圖1可以發(fā)現(xiàn),CTM仍然是一個層次模型,與LDA主題模型類似,同樣認為文檔由不同的主題按照一定比例混合生成,而主題則是由不同的單詞按照一定比例混合生成。其中βk表示主題k下單詞的多項式分布;Wd,n表示第d篇文檔下第n個單詞;Zd,n表示第d篇文檔中第n個單詞的主題;ηd則為第d篇文檔下的主題分布,其服從參數(shù)為μ,Σ的對數(shù)正態(tài)分布,ηd~N(μ,Σ),μ為K維均值向量,用來表示文檔下的主題分布,Σ是一個K行K列的協(xié)方差矩陣,用于表示文檔中主題與主題之間的內(nèi)在聯(lián)系。
CTM模型中將主題所服從的狄利克雷分布替換為正態(tài)對數(shù)分布,用以表征主題與主題之間的內(nèi)在聯(lián)系。由于正態(tài)分布沒有類似狄利克雷分布與多項式分布共軛的性質(zhì),因此常規(guī)求解LDA模型的方法比如Gibbs采樣等都不能夠使用。
CTM主題模型與LDA主題模型類似也是一個生成模型,其生成文檔過程描述如下[10]:
(1)對于一個語料庫:
得到語料庫中對應(yīng)每個主題下的單詞分布βk。
(2)對于語料庫中的第d篇文檔:
由正態(tài)分布先驗參數(shù)得到其主題分布ηd,ηd服從參數(shù)為μ,Σ的對數(shù)正態(tài)分布。
(3)對于第d篇文檔中的第n個單詞Wd,n:
①從文檔d中主題的多項式分布ηd中為單詞Wd,n選擇一個主題;
②從上述選定的主題所對應(yīng)的單詞多項式分布βk中確定具體的單詞。
在利用CTM模型進行觀點挖掘時,對于一個語料庫如果已經(jīng)確定其主題數(shù)目K以及其他相關(guān)參數(shù),則需要推測語料庫中文檔的隱藏主題分布ηd,Blei等[11]提出使用快速變分推斷算法用以近似估計。
對于語料庫中的第ω篇文檔,若其主題服從的正態(tài)對數(shù)先驗和對應(yīng)主題下的單詞分布βk已經(jīng)確定,則文檔d中隱藏的主題后驗分布如公式(1)所示:
p(η,z|ω,β1:k,μ,Σ)=
(1)
利用CTM模型進行觀點挖掘研究,不僅可以獲得對應(yīng)主題下的特征詞,還可以獲得不同主題之間的內(nèi)在聯(lián)系,但它沒有考慮到單詞背后所隱藏的情感。為解決該問題,本文對CTM模型進行改進,提出STCTM模型,在主題層與單詞層之間引入情感層進行情感極性分析,利用對數(shù)正態(tài)分布描述主題間相關(guān)性,在獲取對應(yīng)主題觀點特征的同時,還得到每一主題下的情感分布。STCTM模型如圖2所示,模型中參數(shù)含義如表1所示。
Figure 2 STCTM model圖2 STCTM模型
STCTM模型生成文檔過程描述如下:
(1)對一個語料庫:
由狄利克雷先驗參數(shù)β獲得語料庫中對應(yīng)主題與情感下的單詞分布Φt,s~Dir(β)(其中s表示
Table 1 Meanings of the notations in STCTM model表1 STCTM模型中符號含義
情感,取值-1,1;t表示主題,取值1,…,T)。
(2)對語料庫中每一篇文檔d:
①由對數(shù)正態(tài)分布參數(shù){μ,Σ}得出文檔下主題的多項式分布ηd~N(μ,Σ);
②由Beta先驗參數(shù)γ得出對應(yīng)主題下的情感分布πd,z~Beta(γ) (其中z表示主題,取值1,…,T)。
(3)對每一篇文檔d中的第n個單詞 :
①選擇對應(yīng)的主題zd,n,其中zd,n~Multinomial(ηd);
②選擇對應(yīng)主題下的情感sd,n,z,sd,n,z~Multinomial(πd,z);
③選擇對應(yīng)主題與情感下具體的單詞,wd,n~Multinomial(Φt,s)。
STCTM模型在CTM模型的基礎(chǔ)上引入了情感層進行情感極性分析,在文檔主題所服從的分布上與CTM模型類似,采用正態(tài)對數(shù)分布來處理主題間的相關(guān)性,而單詞與情感的分布則與LDA模型類似,服從的是狄利克雷分布。
對STCTM模型的求解主要在于求解主題與情感的后驗分布,由于情感服從狄利克雷分布,其求解過程與標(biāo)準(zhǔn)LDA模型類似,采用Gibbs采樣算法進行求解,主題所服從的正態(tài)對數(shù)分布由于其不與多項式分布共軛,不能直接用積分求出,因此計算難度較大,本文采用變分推斷的方式進行求解。
STCTM模型中主題的后驗分布如公式(2)所示:
p(η,z|d,μ,Σ)=
(2)
其中,zn表示第n個單詞的主題;分子表示對某個具體的η文檔d中所有單詞{w1,…,wn}取對應(yīng)主題{z1,…,zn}的概率;分母則表示對η取所有可能的值時,文檔d中所有單詞{w1,…,wn}取所有主題的概率。由于正態(tài)對數(shù)分布與多項式分布不是一對共軛分布,對于分母的積分不能像LDA模型中推導(dǎo)后驗概率一樣使用馬爾可夫鏈蒙特卡羅MCMC(Markov Chain Monte Carlo)的采樣技巧直接求出,本文借助Blei[11]在其論文中所提出的解決辦法。為了近似估計后驗概率,采用變分法替代MCMC確定法估算出最真實的后驗概率。變分方法的思想是優(yōu)化一個對隱含變量的分布自由的參數(shù),用以接近真實的后驗分布。
首先,利用詹森不等式對文檔的log似然函數(shù)進行可調(diào)約束,如公式(3)所示:
logP(w1:N|μ,Σ,β)≥
(3)
通過主題的后驗分布為單詞確定主題以后,使用Gibbs采樣確定文檔情感的后驗概率。Gibbs抽樣算法通過積分避免了對實際待估參數(shù)的直接計算,而是對文檔中的每個詞采樣主題標(biāo)簽,然后在對應(yīng)主題下具體選擇一個單詞,采樣完成以后通過統(tǒng)計單詞與主題頻率計算模型參數(shù)。采樣公式如(4)所示:
(4)
本文實驗使用的開發(fā)工具為Java語言和R語言,實驗數(shù)據(jù)來源于搜狗實驗室提供的中文語料庫,它們來自Internet的原始網(wǎng)頁,涉及包括體育、汽車、財經(jīng)等10個類別。
先對語料庫文本進行預(yù)處理,主要是去除停用詞和分詞處理。實驗步驟分為兩部分:(1)主題相關(guān)性分析;(2)實驗結(jié)果可視化。
本文提出的STCTM模型是對CTM模型的改進,在考慮主題相關(guān)性的前提下引入情感層進行情感極性分析。
首先從實驗數(shù)據(jù)中抽取100篇文檔,做出它們的文檔詞云圖,如圖3所示,按照指定的順序給出每個關(guān)鍵詞的顏色,同時使用詞頻參數(shù)進行設(shè)置,按照詞頻出現(xiàn)高低從大到小顯示。從圖3中可以看出文檔大致分為10類,其中云圖中各顏色分布表示不同類型文檔所占比例。
Figure 3 Word cloud picture of document圖3 文檔詞云圖
再以體育類別下的1 990篇文檔作為語料庫進行觀點抽樣。CTM模型和STCTM模型的觀點抽樣結(jié)果分別如表2和表3所示。
對比表2與表3可知,在引入情感層后,STCTM模型在獲取對應(yīng)主題特征的同時還可以獲取主題背后隱藏的情感極性,觀點挖掘效果更加細膩有價值。
STCTM模型中協(xié)方差矩陣Σ如表4所示。
協(xié)方差矩陣是一個對角矩陣,由協(xié)方差矩陣可以計算出主題之間的相關(guān)性值表,如表5所示。表5中cor項代表主題之間的相關(guān)性取值,若為正,則代表主題之間正相關(guān);若為負,則代表二者之間負相關(guān)。呈正相關(guān)的兩個主題同時出現(xiàn)在一篇文檔中的概率較大,并且隨著相關(guān)性取值的增大概率也逐漸增大;呈負相關(guān)的兩個主題同時出現(xiàn)在同一篇文檔的概率則較小。觀察表5可以發(fā)現(xiàn),本文所設(shè)定的10個主題之間正相關(guān)的主題較多,這與實驗所選用體育類別下的文檔作為語料庫有關(guān),在體育類別中常見的主題例如“籃球”“足球”“乒乓球”等聯(lián)系非常緊密。主題3與主題7正相關(guān)性最高。
Table 2 Opinion sampling results of CTM model表2 CTM模型觀點抽樣結(jié)果
Table 3 Opinion sampling results of STCTM model表3 STCTM模型觀點抽樣結(jié)果
Table 4 Covariance matrix表4 協(xié)方差矩陣
Table 5 Correlation values between topics表5 主題之間相關(guān)性取值
為了更直觀清晰地展示主題之間的相關(guān)性,對表5進行可視化得到主題相關(guān)性圖,結(jié)果如圖4所示。圖4中,圓圈表示兩個主題之間正相關(guān),而三角形表示主題之間負相關(guān),顏色越深則表示相關(guān)性越強。觀察圖4發(fā)現(xiàn),對角線上的圓圈顏色最深,這表示每個主題與自身之間都是強正相關(guān)。
Figure 4 Figure of correlation between topics圖4 主題相關(guān)性圖
本文對CTM模型進行了改進,在引入情感層的基礎(chǔ)上提出基于主題情感混合的STCTM模型,在考慮到主題相關(guān)性的同時,還分析了對應(yīng)主題下的觀點特征以及潛藏的情感傾向,更為精確地獲取了文檔主題的情感極性。實驗結(jié)果驗證了本文理論的正確性,可視化分析多方位豐富了實驗數(shù)據(jù)的顯示效果。
參考文獻:
[1] Bethard S,Yu H,Thornton A,et al.Automatic extraction of opinion propositions and their holders[C]∥Proc of the 2004 AAAI Spring Symposium on Exploring Attitude and Affect in Text,2004:22-24.
[2] Choi Y,Cardie C,Riloff E,et al.Identifying sources of opinions with conditional random fields and extraction patterns[C]∥Proc of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing,2005:355-362.
[3] Kaji N,Kitsuregawa M.Building lexicon for sentiment analysis from massive collection of HTML documents[C]∥Proc of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-Co NLL),2007:1075-1083.
[4] Qiu G,Liu B,Bu J,et al.Expanding domain sentiment lexicon through double propagation[C]∥Proc of the 21st International Joint Conference on Artifical Intelligence,2009:1199-1204.
[5] Kanayama H, Nasukawa T.Fully automatic lexicon expansion for domain-oriented sentiment analysis[C]∥Proc of the Conference on Empirical Methods in Natural Language Processing (EMNLP),2006:355-363.
[6] Titov I, McDonald R. Modeling online reviews with multi-grain topic models[C]∥Proc of the 17th International Conference on World Wide Web,2008:111-120.
[7] Brody S,Elhadad N.An unsupervised aspect-sentiment model for online reviews[C]∥Proc of Human Language Technologies:The Annual Conference of the North American Chapter of the Association for Computational Linguistics,2010:804-812.
[8] Zhao X,Jiang J,Yan H,et al.Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C]∥Proc of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2010:56-65.
[9] Mei Q,Ling X,Wondra M,et al.Topic sentiment mixture:Modeling facets and opinions in weblogs[C]∥Proc of the 16th International Conference on World Wide Web, 2007:171-180.
[10] Blei D,Lafferty J.Correlated topic models [J].Advances in Neural Information Processing Systems,2005,18(1):147-154.
[11] Blei D, Lafferty J.Correction:A correlated topic model of science[J].Annals of Applied Statistics,2007,1(2):634.
[12] Zhu Shao-ping, Xia Li-min,Zhu Cheng.Image annotation based on CTM model and optimal tag sets [J].Journal of Fudan University(Natural Science),2014,53(1):147-153.(in Chinese)
[13] Wang Yan-xia,Deng Wei.Text classification method combining CTM and SVM [J].Computer Engineering,2010,36(22):203-205.(in Chinese)
[14] Xu Gui-bin. Research on the music classification method based on correlated topic model [D].Suzhou:Soochow University,2012.(in Chinese)
附中文參考文獻:
[12] 朱韶平,夏利民,朱城.基于CTM模型和最優(yōu)標(biāo)簽集的圖像標(biāo)注[J].復(fù)旦學(xué)報(自然科學(xué)版),2014,53(1):147-153.
[13] 王燕霞,鄧偉.CTM與SVM相結(jié)合的文本分類方法[J].計算機工程,2010,36(22):203-205.
[14] 徐桂彬.基于相關(guān)主題模型的音樂分類方法研究[D].蘇州:蘇州大學(xué),2012.