韓肖赟,侯再恩,孫 綿
(陜西科技大學文理學院,陜西 西安 710021)
互聯(lián)網(wǎng)技術和智能社會的快速發(fā)展,推動了信息的快速交流和傳播,表現(xiàn)為常見的信息組織形式(像語音、視頻、圖片和文本等)向更快捷的形態(tài)轉(zhuǎn)變。文本作為其中的重要成員,也實現(xiàn)了由長到短的轉(zhuǎn)變。對于文本分析而言,如何高效地從大量高維、低質(zhì)量、無標注的非結(jié)構(gòu)化數(shù)據(jù)中尋找有價值的信息成為當前數(shù)據(jù)挖掘的重要目標。
主題模型是解決上述問題的一種重要方法,目前已經(jīng)滲透到主題提取、文本聚類、文本分類、社交網(wǎng)絡關系挖掘以及情感極性分析等多個領域[1,2]。目前比較成熟的主題模型包括概率潛語義模型PLSA(Probalistic Latent Semantic Analysis)[3]、潛在狄利克雷分配模型LDA(Latent Dirichlet Allocation)[4]、非負矩陣分解NMF(Non-negative Matrix Factorization)及其它衍生模型。PLSA(PLSI表示概率隱含語義標引模型,又稱為PLSA)和LDA都是對隱含語義標引模型LSI(Latent Semantic Indexing)的改進。LSI模型的基本思想是通過奇異值分解將高維的向量空間模型表示的文檔映射到低維的潛在語義空間,但其本身卻不能提供明確的語義解釋。PLSA是在LSI的基礎上,引入了概率,增強了潛在主題與詞匯文檔之間的匹配關系,即文檔的主題分布;而LDA是在PLSA的基礎上,引入多項式的共軛先驗分布Dirichlet來豐富分布的參數(shù)。這樣可以準確地實現(xiàn)對文檔分詞、文檔和詞-主題內(nèi)部的相似性判定。文獻[5]對PLSA和LDA模型的實際應用性能進行了綜合比較,發(fā)現(xiàn)在文檔級分類上,前者要明顯優(yōu)于后者,但卻容易出現(xiàn)過擬合現(xiàn)象。文獻[6]進一步發(fā)現(xiàn),LDA模型偏向更細粒度的文本分類。上述主題模型的建立主要依賴于長文本中的詞共現(xiàn)關系,當文本長度發(fā)生變化時,應用性能都會出現(xiàn)不同程度的削減。NMF可以很好地處理短文本數(shù)據(jù)集,尤其是處理不平衡數(shù)據(jù)集,但存在擬合結(jié)果不一致的問題,且穩(wěn)定性不如LDA[7]。
文獻[8]提出了狄利克雷多項混合模型DMM(Dirichlet Multinomial Mixture),其與LDA最大的不同在于假設每一篇短文本至多有一個主題,而不是多個主題,且文檔內(nèi)部的所有單詞之間主題共享,從而可以有效地緩解文本特征稀疏對建模的影響。而且DMM可以看作是LDA的一元混合模型。兩者都是基于詞-詞共同出現(xiàn)的模式(也稱同現(xiàn)關系)進行建模,所以改善同現(xiàn)關系將成為主題模型研究的關鍵。
Salton等[9]在1975年基于詞匯的上下文無關文法提出了向量空間模型VSM(Vector Space Model),將所有文檔表示成有意義的向量,通過“文檔-詞項”矩陣有效地實現(xiàn)了模型推導。
關于特征計算,目前已有布爾權(quán)重、絕對詞頻TF(Term Frequency)、熵權(quán)重、倒排文檔頻度IDF(Inverse Document Frequency) 以及組合計算方法TFIDF(或TF-IDF)等。宗成慶研究員[10]指出特征權(quán)重計算的實質(zhì)是,考慮特征項在整個類中的分布問題。
詞向量的出現(xiàn),不僅能夠再現(xiàn)文檔中詞項的同現(xiàn)模式,還能捕捉到文本的語義和句法信息。它經(jīng)歷了從獨熱編碼(One-hot)向分布式表示DR(Distributed Representation)[11]的轉(zhuǎn)變。One-hot編碼將每一篇文檔表示為一個N(表示文檔的詞袋規(guī)模)維向量。雖然這種文本表示比較直觀,但是容易出現(xiàn)數(shù)據(jù)維災,且0,1表示不能很好地刻畫詞與詞之間的相關關系。分布式表示將文檔中的每一個詞在語義空間映射成一個長度固定的向量,并且可以通過歐氏距離刻畫詞之間的語義相似性。詞向量訓練經(jīng)典的工作包括Bengio的語言模型框架,以及SCNNA(Single Convolutional Neural Network Architecture)、HLBLM (Hierarchical Log-Bilinear Language Model)和RNNLM(Recurrent Neural Network Language Model)等模型[12],以及Google的詞向量訓練工具word2vec[13]。詞向量有效地引入上下文信息,從根本上提高了文本的表示效率。
以LDA為主的傳統(tǒng)的主題模型依賴于詞同現(xiàn)模式實現(xiàn)建模,短文本勢必會降低這種模式出現(xiàn)的可能性。但是,近幾年短文本數(shù)據(jù)集的出現(xiàn)頻率要遠高于長文本的,所以傳統(tǒng)主題模型需要去適應和改變,主要包括主題模型的自適應和短文本調(diào)整。
(1)主題模型的自適應。
傳統(tǒng)主題模型以LDA模型為例,其中最簡單的處理方式是對LDA的詞假設進行弱化,即文檔中每一個詞具有不同主題。Yan等[14]基于詞對同現(xiàn)模式提出了雙詞話題模型BTM(Biterm Topic Model),即將原來的一個詞擴展到一個詞對。但在實際應用過程中,并非所有共現(xiàn)的詞對都能表現(xiàn)出高度的主題聯(lián)系。蔡洋等[15]基于詞對網(wǎng)絡的主題聯(lián)系度,提出利用三角圖結(jié)構(gòu)篩選目標詞對,然后假定這些詞同時具有不同的主題。這些方法可以有效地緩解短文本數(shù)據(jù)集上特征稀疏的問題,其他方法將在第3節(jié)介紹。
(2)短文本的人工干預。
主要包括2種方法:①采用聚類或者增加考察屬性的方式,將短文本擴展成一個可以接受的偽長文檔。文獻[16]提出自聚集方法SADTM(Self-Aggregation Dynamic Topic Model)的動態(tài)主題模型,能夠有效捕捉主題分布隨時間的漸變信息,并通過文本聚合為主題建模提供了更多新的詞對同現(xiàn)模式。文獻[17]利用同一用戶的興趣標簽以及文本時間戳等信息元素對推特文本進行特征擴充。這種方法在增加文本特征的同時也豐富了文本形式,但在有些領域上不適用。②基于詞向量,依托外部語料庫提供額外輔助文本信息,從而緩解短文本上特征稀疏以及同現(xiàn)模式缺乏等問題。雖然這種處理方法目前效果較好,但是其對外部數(shù)據(jù)源的質(zhì)量要求較高,且文本依賴性較強。文獻[9,18]提出了通過維基百科(Wikipedia)和詞網(wǎng)絡(WordNet)等外部語料訓練詞向量來豐富小語料庫上短文本語義,但是在實際應用過程中,不可避免地會引入噪聲和個人的主觀偏好。Zheng等[19]通過引入一組共軛定義來表征主題和詞的結(jié)構(gòu),并提供了一種虛擬生成短文本的方法。這種方法的好處在于保持主題一致的同時,能夠有效地處理好新詞。
3.1.1 模型生成過程
如圖1所示,LDA和DMM具有相似的生成過程,且都為3層貝葉斯網(wǎng)絡的生成式概率模型。
Figure 1 Graph model of LDA and DMM圖1 LDA和DMM的圖模型
以下是LDA模型和DMM模型的具體生成過程:
(1)LDA模型。
假設每一篇文檔是由多個主題混合而成;每一個主題是單詞集合上的概率分布,且文檔中每一個詞都是由一個固定的主題生成。
生成過程:
②每一個文檔dm,采樣一個主題分布θd~Dir(α)。
③對于文檔dm中的所有詞匯wm,i,遍歷a,b:
a 選擇一個主題zm,j,zm,j~Multi(θd);
(2)DMM模型。
將整個語料庫看作是多個主題的混合;假設每一篇短文檔至多有一個主題,且該主題在同一篇文檔中的所有詞之間共享。
生成過程:
①采樣整個語料庫上的主題混合比πz~Dir(α)。
③對于每一篇文檔d,對于每一個單詞wm,i:
a 選擇主題分布zd,zd~Multi(πz);
接下來將分別介紹LDA和DMM模型的塌陷吉布斯采樣的參數(shù)估計推導、潛在主題個數(shù)的確定方案、主題模型目前的擴展研究以及在網(wǎng)絡輿情上的應用現(xiàn)狀。
3.1.2 參數(shù)估計
在主題模型中,wm,n(d)為已知變量,α和β為給定的狄利克雷分布先驗參數(shù),zm,n為潛在主題,是模型的生成變量,所以真正需要估計的是文檔-主題分布θm,k和主題-詞分布φk,t。目前主要的參數(shù)估計方法主要有期望極大EM(Expectation Maximization)算法、吉布斯采樣GS (Gibbs Sampling)、變分貝葉斯估計、消息傳遞算法、平均場變分期望最大化和期望傳播算法[21,22]。吉布斯抽樣和變分推斷是2種比較常用的方法,前者通過構(gòu)造一個具有平穩(wěn)狀態(tài)的馬爾科夫鏈的后驗分布去逼近未知的真實樣本分布,而后者使用已知簡單分布逼近需推斷的復雜分布,并通過限制近似分布的類型,得到一種局部最優(yōu)且有確定解的近似后驗分布[23]。本文主要介紹LDA的塌陷吉布斯抽樣和DMM的吉布斯采樣GSDMM算法[24]。
(1)LDA模型。
塌陷吉布斯抽樣中“塌陷”的含義是指通過積分的形式避開對隱含參數(shù)的直接計算,利用主題與參數(shù)之間的統(tǒng)計關系,實現(xiàn)對文檔-主題分布和主題-詞分布的估計。
①根據(jù)圖1a的圖模型所示以及3.1.1節(jié)中的生成過程,可以得到主題模型的聯(lián)合概率分布:
p(w,z|α,β)=p(w|z,β)p(z|α)
(1)
其中,
(2)
②利用主題模型的聯(lián)合概率分布,計算條件后驗概率。
(3)
③利用多項式分布的先驗分布——狄利克雷分布的推論以及式(3),可以得到目標參數(shù)的概率分布。最終通過狄利克雷的期望實現(xiàn)對參數(shù)的估計。
Dir(θm|nm+α)
(2)GSDMM算法。
p(d,z|α,β)=p(d|z,β)p(z|α)=
(4)
(5)
其中,V表示語料庫單詞的總量。
3.1.3 潛在主題個數(shù)的確定
無論是LDA還是DMM模型,都需要確定出具體的主題個數(shù),對應于超參數(shù)α的維數(shù)K。鑒于兩者的相似性,以下主要分析LDA的主題數(shù)確定方法。
(1)直接確定方法。這類方法一般選取具體指標作為優(yōu)化參數(shù),理解簡單,比較容易實現(xiàn)。通常采用困惑度(Perplexity)最小作為最優(yōu)模型的衡量標準[4]。但在實際應用中,存在質(zhì)量不穩(wěn)定和主題數(shù)范圍偏大的問題。后續(xù)比較有效的優(yōu)化指標還包括困惑度-主題方差(Perplexity-Var)指標[25]、主題一致性TC(Topic Coherence)[26]和困惑度拐點法RPC(the Rate of Perplexity Change)[27]。
為了衡量上述常見指標在確定最優(yōu)主題數(shù)時的有效性,以下將選用2個不同分布的數(shù)據(jù)集進行對比實驗,具體實驗準備見表1。
具體測試結(jié)果如圖2和圖3所示,圖2表示不均勻數(shù)據(jù)集上的相關指標測試,圖3為均勻數(shù)據(jù)集上的相關指標測試。
Figure 2 Performance comparison of different methods (uneven data)圖2 不均勻數(shù)據(jù)集上相關指標測試
Figure 3 Performance comparison of different methods (uniform data)圖3 均勻數(shù)據(jù)集上相關指標測試
Table 1 Pre-experiment preparation表1 實驗前期準備
Table 2 Statistics of optimal number of topics表2 最優(yōu)主題數(shù)結(jié)果統(tǒng)計
如表3所示,基于困惑度、困惑度拐點法以及困惑度-方差以及確定的最優(yōu)主題數(shù)對數(shù)據(jù)集的分布比較敏感,前兩者確定的主題數(shù)比較相近,后者相差較遠。文獻[2]的實驗數(shù)據(jù)為期刊論文摘要,訓練模型的過程中,主題方差隨著主題數(shù)目的增加而減少。這與本文的實驗結(jié)果幾乎相反,對于困惑度-主題方差指標而言,引入的主題方差未能實現(xiàn)對寬泛主題的有效約束。本文認為文本篇幅普遍較長,是造成困惑度-方差性能差異的主要原因。當文檔詞袋規(guī)模大幅度增加時,盡管隨著主題數(shù)的增加會造成分詞的主題占比的差異性減小,但是較大的基數(shù)并不能保證其累積方差出現(xiàn)顯著性下降。根據(jù)主題一致性指標在2個數(shù)據(jù)集上確定的主題數(shù)分別為25和30,比較符合實驗數(shù)據(jù)集的主題分布和步長限定(見表2),所以可以確認該指標的有效性。文獻[26]認為通常意義上的測試集對選擇最優(yōu)主題數(shù)是一個充分非必要條件。在上述實驗中發(fā)現(xiàn),基于該指標在訓練集和測試上確定的最優(yōu)主題數(shù)比較相近。綜上所述,可以認為主題一致性指標的性能要優(yōu)于其它3種指標的。
(2)間接確定方法。這類方法主要借助其它優(yōu)化算法實現(xiàn)對問題的有效轉(zhuǎn)化,避免直接求解最優(yōu)主題數(shù)。一是非參數(shù)化方法。Teh等[28]通過層次狄利克雷過程對主題數(shù)目進行了非參數(shù)化處理,得到了與困惑度指標方法類似的結(jié)論。但是,這種方法時間復雜度較高。Griffiths等[29]提出用貝葉斯模型確定最優(yōu)主題數(shù)目的方法。二是基于聚類或分類方法。李菲菲等[30]發(fā)現(xiàn)文檔聚類簇與文檔集隱含的主題數(shù)相一致的特點,基于高頻詞網(wǎng)絡利用社區(qū)發(fā)現(xiàn)算法確定出LDA模型的最優(yōu)主題個數(shù)。文獻[8]通過模擬學生電影愛好分類情景,提出了MGP(Movies Group Process)算法,實現(xiàn)了主題個數(shù)的自適應。
Mazarura等[31]通過測量模型的主題一致性和主題穩(wěn)定性發(fā)現(xiàn),在短文本上GSDMM算法的性能總體上要優(yōu)于LDA模型的。Liu等[32]提出主題詞嵌入模型TWE(Topical Word Embeddings),以詞-主題分布為對象,引入詞嵌入實現(xiàn)對特定主題的特征表示。李思宇等[33]針對BTM中詞對缺少主題和語義相關性的問題,提出了詞對GS采樣算法。余沖等[34]權(quán)衡了由內(nèi)外部語料訓練得到的詞向量對主題表達的影響,提出了詞-主題混合WTM(Word Topic Mixture)模型,重新定義了主題模型與詞嵌入條件概率分布。這些模型大多都在不同程度上實現(xiàn)了對LDA模型的擴展,要么引入詞嵌入技術訓練詞向量,要么是基于同現(xiàn)關系的文本特征擴展。所以不可否認,LDA模型對主題模型擴展的借鑒意義和重要價值。
Table 3 Research on the extension of thematic models in recent years表3 近幾年主題模型的擴展研究
對近2年主題模型的擴展研究進行總結(jié)比較(如表3所示)發(fā)現(xiàn),針對不同表現(xiàn)形式以及不同數(shù)據(jù)結(jié)構(gòu)的主題建模已經(jīng)進入了一個新的高度。而且關于緩解數(shù)據(jù)稀疏性、噪聲以及數(shù)據(jù)冗余問題的解決方案較多。與以往的主題模型[2,35]相比,如今主題模型對文本信息考慮得更加全面,主要包括文本信息、語義信息以及句法信息。這些從根本上得益于深度學習算法的快速發(fā)展和自然語言模型的自我完善。主題模型作為重要的信息提取手段,雖然可以提取出主題,但是不能直接體現(xiàn)出熱點主題與相應主題之間的關聯(lián)關系。在未來基于主題模型的擴展框架研究將會增多,如文獻[36,37]所示,主題模型將承接主題詞提取的重要環(huán)節(jié),研究重心會偏向主題可擴展性、熱點主題詞網(wǎng)絡演化、可視化和交互應用開發(fā)等方面。
主題模型是網(wǎng)絡輿情分析的重要工具。網(wǎng)絡輿情本身所具有的主觀性使其容易被引導,所以針對輿情的演化研究具有十分重要的意義。目前關于網(wǎng)絡輿情的研究主要包括輿情熱點話題識別[37]、網(wǎng)絡社交關系研究、話題演化研究(包括話題強度和話題內(nèi)容演化)[48]、新話題探測以及基于主題模型的協(xié)同過濾等。話題的演化包括初現(xiàn)、衰減、高潮、潛伏、終結(jié)等階段。輿情本身的時效性使得信息的時間屬性的作用被放大,尤其是在話題演化研究上。為了提高主題的提取效率,文獻[21]提出主題模型的快速推理算法、在線學習算法、文本流推理算法以及分布式學習等研究。目前比較重要的結(jié)合時間屬性的主題模型有在線LDA模型OLDA(Online LDA)以及增量LDA模型(Increment LDA)。文獻[48]對兩者做了具體的比較,即兩者都可以在線處理,ILDA模型偏向內(nèi)容演化,文本需要根據(jù)時間先分類(即先離散),話題數(shù)量可變,且可自動確定;而OLDA既可以進行內(nèi)容演化又可以進行強度演化,一般按照時間順序直接建模,雖然提取的話題數(shù)量固定,但是可以實現(xiàn)新話題的檢測。目前關于短文本的直接在線處理不多,一般是通過時間窗口進行聚類或者分類研究[49,50]。
主題模型作為目前信息提取的重要工具之一,雖然針對短文本的稀疏、噪聲以及冗余等問題出現(xiàn)了不同側(cè)重的解決方案,但是缺乏全面型通用模型的研究。數(shù)據(jù)產(chǎn)生量大、速度快以及存儲空間增大等外部環(huán)境,將對主題模型的并行化或者分布式協(xié)同能力提出更高的要求。此外,面向特定短文本的主題建模研究將越來越多,以網(wǎng)絡輿情為例,除了一般意義上的主題提取,目前已經(jīng)衍生出一系列集成化程度更高的領域,如輿情動態(tài)熱點識別、熱點動態(tài)演化預測以及資訊的實時推薦等。主題模型作為其中的重要環(huán)節(jié),在模型擴展以及應用擴展等方面已經(jīng)取得了巨大進步,但是目前關于主題模型算法性能的系統(tǒng)評測體系并不完整,研究略顯不足。所以,后續(xù)這一部分的研究應該得到充分的重視。