萬紅新,彭 云
1(江西科技師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,南昌 330038) 2(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,南昌 330022) E-mail :wanhongxin@126.com
隨著互聯(lián)網(wǎng)的發(fā)展和普及,網(wǎng)民規(guī)模及社交媒體呈現(xiàn)爆發(fā)式增長(zhǎng)趨勢(shì).截至2017年6月,中國(guó)網(wǎng)民規(guī)模達(dá)7.51億,半年共計(jì)新增網(wǎng)民1992萬人,互聯(lián)網(wǎng)普及率為54.3%,各類論壇/bbs和微博社交媒體的用戶規(guī)模數(shù)達(dá)到4.23億[1].由于互聯(lián)網(wǎng)信息傳播具有迅速、便捷的特點(diǎn),人們?cè)敢庠诰W(wǎng)絡(luò)上通過多種途徑發(fā)表自己的觀點(diǎn)和看法.一些事件在社交媒體傳播過程中會(huì)引起公眾的極大關(guān)注和熱烈討論,在網(wǎng)絡(luò)上快速形成評(píng)論文本大數(shù)據(jù),其中蘊(yùn)含著大量的主題信息.如何從不斷涌現(xiàn)的海量非結(jié)構(gòu)文本數(shù)據(jù)中,尤其是具有復(fù)雜語法和語義表達(dá)的中文文本,有效地發(fā)現(xiàn)熱點(diǎn)主題以及捕捉熱點(diǎn)主題演變趨勢(shì),是社交媒體主題發(fā)現(xiàn)和提取所面臨的挑戰(zhàn).本文提出的模型可以進(jìn)行動(dòng)態(tài)主題詞鏈的提取,即不僅僅發(fā)現(xiàn)評(píng)論對(duì)象(評(píng)論主體),同時(shí)可以提取與之匹配的評(píng)論詞(情感詞),而且可以獲取其隨時(shí)間的變化情況.將以國(guó)內(nèi)知名微博、論壇等的實(shí)際社交媒體文本為數(shù)據(jù)源,在對(duì)中文評(píng)論文本的語法結(jié)構(gòu)、語義特征進(jìn)行分析的基礎(chǔ)上,提出語義約束和時(shí)間關(guān)聯(lián)的SCTA-LDA(semantic constrained and time associated LDA)模型,在改善LDA的語義理解能力的同時(shí)提高LDA的時(shí)間敏感度,以有效提取動(dòng)態(tài)的主題詞鏈.
一些研究利用機(jī)器學(xué)習(xí)的方法進(jìn)行文本主題詞語的發(fā)現(xiàn)和提取.文獻(xiàn)[2]定義了社交媒體文本之間語義和內(nèi)容等復(fù)合關(guān)聯(lián)關(guān)系,從這種關(guān)系中發(fā)現(xiàn)網(wǎng)絡(luò)文本的主題熱點(diǎn);文獻(xiàn)[3]針對(duì)微博信息噪音大、新穎度難以判斷的問題,在動(dòng)量模型的基礎(chǔ)上進(jìn)行優(yōu)化,提出了基于時(shí)序分析的微博突發(fā)話題檢測(cè)方法;文獻(xiàn)[4]基于網(wǎng)頁聚類生成的主題關(guān)鍵詞進(jìn)行組合生成子話題,并以吸收馬爾可夫鏈對(duì)子話題進(jìn)行吸收衍化,進(jìn)行重排序提取熱點(diǎn)子話題;文獻(xiàn)[5]提出主題詞頻數(shù)進(jìn)行加權(quán)的共現(xiàn)分析方法,利用詞語對(duì)的最大信息系數(shù)來度量主題詞聚類的相似性,并識(shí)別網(wǎng)絡(luò)社交媒體文本中的熱點(diǎn)主題;文獻(xiàn)[6]構(gòu)建基于老詞生命值計(jì)算的熱詞間相關(guān)性詞語共現(xiàn)網(wǎng)絡(luò),并引入多標(biāo)簽傳播方法解決話題間重疊熱詞以及時(shí)效性等問題,設(shè)計(jì)聚類算法獲取熱點(diǎn)主題集;文獻(xiàn)[7]提出了一種網(wǎng)絡(luò)社交媒體預(yù)測(cè)模型,通過主題分割、熱點(diǎn)提取和數(shù)據(jù)聚合獲取原始數(shù)據(jù),然后利用相空間重構(gòu)社交媒體的時(shí)間序列,最后將時(shí)間序列輸入支持向量機(jī)進(jìn)行建模和預(yù)測(cè);文獻(xiàn)[8]指出熱點(diǎn)發(fā)現(xiàn)在于提取社交媒體文本的特征,提出了結(jié)合粗糙集和最大熵的模型系統(tǒng)來發(fā)現(xiàn)社交媒體熱點(diǎn)主題.
隨著社交媒體文本的大數(shù)據(jù)化趨勢(shì),常規(guī)的機(jī)器學(xué)習(xí)方法很難處理海量的文本數(shù)據(jù),特別是有監(jiān)督的機(jī)器學(xué)習(xí)方法,需要對(duì)大量的數(shù)據(jù)進(jìn)行人工標(biāo)注.一些研究利用LDA(latent Dirichlet allocation)[9]主題模型的無監(jiān)督特點(diǎn),在實(shí)現(xiàn)有效文本降維和主題詞提取的基礎(chǔ)上進(jìn)行社交媒體主題發(fā)現(xiàn).LDA主題模型是一種文本概率生成模型,其主要思想為:文檔是主題的隨機(jī)混合,而主題是詞語的概率組合,利用文檔-主題和主題-詞語的分配過程來生成文檔.LDA將表達(dá)文本的詞向量轉(zhuǎn)化為主題向量,大大地降低了文本維度,同時(shí)在文檔的生成過程中可以提取主題詞.文獻(xiàn)[10]提出DTM(dynamic topic model)主題模型,將離散化的時(shí)間片信息加入到LDA,生成按時(shí)間片序列分布的文本語料片,從而獲取隨時(shí)間演化的文本主題;文獻(xiàn)[11]提出一種基于可擴(kuò)展 LDA模型的微博主題特征抽取方法,利用詞語權(quán)重調(diào)整方法篩選高貢獻(xiàn)度高頻詞語,基于bootstrap思想,迭代產(chǎn)生特征詞條候選集,引入信息熵值理論篩選主題詞條,并利用四維泛化分類實(shí)現(xiàn)對(duì)特征詞條的泛化和歸類;文獻(xiàn)[12]基于話題熱度和內(nèi)容兩方面變化建立動(dòng)態(tài)主題模型,挖掘隨時(shí)間變化的動(dòng)態(tài)主題鏈,并提出主題熱度計(jì)算方法;文獻(xiàn)[13]基于LDA提取微博中的隱含主題,利用主題間的共用詞匯關(guān)聯(lián)將主題構(gòu)成一個(gè)無向加權(quán)圖,并通過PageRank算法將主題排序以獲取熱度主題;文獻(xiàn)[14]針對(duì)社交網(wǎng)絡(luò)中海量短文本信息具有高維性以及主題分布不均,提出一種基于LDA主題模型的CBOW-LDA(continuous bag-of-word LDA)主題建模方法,通過引入基于CBOW模型的詞向量化方法對(duì)目標(biāo)語料進(jìn)行相似詞的聚類,能夠有效降低LDA模型輸入文本的維度,并且使主題更明確;文獻(xiàn)[15]提出基于LDA主題模型的社交媒體觀點(diǎn)挖掘方法,分析了LDA在海量評(píng)論文本中提取社交媒體觀點(diǎn)的優(yōu)勢(shì)及路徑;文獻(xiàn)[16]針對(duì)傳統(tǒng)LDA主題模型忽視節(jié)點(diǎn)重要性的問題,提出一種新的社會(huì)網(wǎng)絡(luò)主題發(fā)現(xiàn)算法iMLDA (importance-latent Dirichlet allocation).算法將LDA主題模型與基于Pagerank的節(jié)點(diǎn)重要性算法相融合,充分挖掘社會(huì)網(wǎng)絡(luò)中蘊(yùn)含的結(jié)構(gòu)信息,提高主題發(fā)現(xiàn)的準(zhǔn)確率;文獻(xiàn)[17]針對(duì)目前提取主題詞和評(píng)論詞時(shí),往往沒有考慮它們之間關(guān)聯(lián)關(guān)系,提出了主題-評(píng)論TS(topic-sentiment)主題模型,并基于Gibbs抽樣過程進(jìn)行模型參數(shù)推導(dǎo).TS模型中同樣主題的不同描述對(duì)應(yīng)了不同的評(píng)論情感傾向,強(qiáng)調(diào)評(píng)論情感極性的分布和特定主題的關(guān)聯(lián)性.模型考慮了評(píng)論對(duì)象與評(píng)論詞的關(guān)聯(lián)性,通過在LDA中加入情感層來實(shí)現(xiàn),但沒有分析低頻局部評(píng)論對(duì)象和評(píng)論詞的關(guān)聯(lián)性;文獻(xiàn)[18]采用LDA主題模型進(jìn)行文本建模,得到所有用戶內(nèi)容在各個(gè)不同主題上的分布,并基于興趣話題集合構(gòu)造了一組話題相似性特征用于鏈路預(yù)測(cè);文獻(xiàn)[19]提出了一種基于加權(quán)LDA的熱門主題獲取方法.從提取表征話題的主題詞角度,改進(jìn)LDA詞語分配權(quán)重,并將類別區(qū)分詞方法應(yīng)用于詞序優(yōu)化,在主題-詞語的分配過程中引入文檔貢獻(xiàn)度和話題權(quán)值概率;文獻(xiàn)[20]提出了一種詞聚類LDA的商品評(píng)論對(duì)象的提取模型,利用詞義相似度和上下文相關(guān)性計(jì)算詞語間聚類距離,并以詞語聚類簇作為先驗(yàn)知識(shí)影響LDA進(jìn)行主題-詞語分配,從而提取更符合語義要求的主題評(píng)論對(duì)象.
從上述研究現(xiàn)狀可以看出,相對(duì)于機(jī)器學(xué)習(xí)方法,主題模型是一種無監(jiān)督學(xué)習(xí)模型,不需要進(jìn)行數(shù)據(jù)的人工標(biāo)注,并且對(duì)文本具有降維作用,所以較適于處理大規(guī)模的文本數(shù)據(jù).同時(shí)主題模型提取的主題詞可以反映所關(guān)注的焦點(diǎn)內(nèi)容,在分配過程中可以實(shí)現(xiàn)詞語的聚類,即主題模型不僅能發(fā)現(xiàn)主題熱點(diǎn)詞,而且能發(fā)現(xiàn)它們之間的潛在關(guān)聯(lián)性,從而實(shí)現(xiàn)主題詞鏈的提取.在社交媒體文本大數(shù)據(jù)化的背景下,利用改進(jìn)的主題模型進(jìn)行關(guān)鍵詞挖掘也日漸成為主題發(fā)現(xiàn)的研究趨勢(shì)之一.由于社交媒體文本存在復(fù)雜的語義關(guān)系,同時(shí)討論主題具有動(dòng)態(tài)變化性,本文將語義獲取和動(dòng)態(tài)主題提取進(jìn)行有機(jī)結(jié)合,提出融合語義約束和時(shí)間關(guān)聯(lián)的社交媒體動(dòng)態(tài)主題詞鏈提取模型,從而有效獲取社交媒體評(píng)論主題信息及其變化趨勢(shì).
利用同義詞語義關(guān)系獲取同義評(píng)論對(duì)象關(guān)聯(lián)關(guān)系,并利用關(guān)聯(lián)關(guān)系來影響LDA的主題-詞語分配,有利于提取更多的低頻評(píng)論對(duì)象.以句子為單位基于依存句法分析和詞性分析來發(fā)現(xiàn)評(píng)論對(duì)象和評(píng)論對(duì)象、評(píng)論對(duì)象和評(píng)論詞之間的關(guān)聯(lián)關(guān)系,并通過改進(jìn)的PMI、詞頻關(guān)聯(lián)等算法計(jì)算關(guān)聯(lián)強(qiáng)度,最后利用這些關(guān)聯(lián)關(guān)系和關(guān)聯(lián)強(qiáng)度來影響LDA模型中詞語的主題分配,以便發(fā)現(xiàn)更多的低頻評(píng)論對(duì)象、低頻評(píng)論詞及其關(guān)聯(lián)關(guān)系.
關(guān)注評(píng)論對(duì)象的同義性,同義評(píng)論對(duì)象可以互相取代,應(yīng)盡量分配到同一主題,如“罪犯”“不法之徒”“違法者”“犯罪分子”“罪人”“以身試法者”等,這類評(píng)論對(duì)象具有較強(qiáng)的同義語義關(guān)系,一些低頻的評(píng)論對(duì)象可以通過同義性關(guān)聯(lián)到高頻評(píng)論對(duì)象,從而有利于LDA的識(shí)別.
圖1 評(píng)論對(duì)象的同義語義關(guān)系圖Fig.1 Synonymy semantic of the comment objects
候選評(píng)論對(duì)象是名詞和動(dòng)名詞,利用《同義詞詞林?jǐn)U展版》的層級(jí)結(jié)構(gòu)可以獲取候選評(píng)論對(duì)象之間的同義關(guān)系,公式如式(1)所示,其中S(wi,wj)等于1表示評(píng)論對(duì)象詞語w1和w2具有同義性,l1-4表示同義詞詞林的前四層結(jié)構(gòu).
(1)
在獲取評(píng)論對(duì)象間的同義關(guān)聯(lián)集后,可構(gòu)建如圖1所示的語義關(guān)系圖,每一個(gè)連通子圖對(duì)應(yīng)一個(gè)同義評(píng)論對(duì)象聚類簇,并依此構(gòu)建同義關(guān)聯(lián)組合集Ssoo.
3.2.1 構(gòu)建候選組合集
利用依存句法關(guān)系發(fā)現(xiàn)句子中的典型評(píng)論對(duì)象-評(píng)論詞句法結(jié)構(gòu),并運(yùn)用詞性關(guān)系限制得到候選關(guān)聯(lián)組合集,設(shè)置規(guī)則如下:
規(guī)則1.依存句法關(guān)系滿足SBV(主謂關(guān)系),詞性關(guān)系滿足名詞+形容詞,其中的名詞對(duì)應(yīng)評(píng)論對(duì)象,形容詞對(duì)應(yīng)評(píng)論詞.
例1.“這次車禍非常慘烈.”“車流慢但是秩序很好.”2個(gè)句子的依存句法分析及詞性標(biāo)注如圖2所示.其中,句1的關(guān)聯(lián)組合單元為<車禍,慘烈>,句2具有并列關(guān)系,關(guān)聯(lián)組合單元為<車流,慢>和<秩序,好>.
圖2 例1的依存句法分析及詞性標(biāo)注Fig.2 Dependency parsing and POS tagging for example 1
通過規(guī)則1可以構(gòu)建候選關(guān)聯(lián)組合集Sor1,利用S-PMI(sentence pointwise mutual information)計(jì)算Sor1中的元素
(2)
其中,fc(wi,wj)是詞語wi和wj在句子中的共現(xiàn)頻率,f(wi)是wi的詞頻,f(wj)是wj的詞頻.低頻評(píng)論詞和評(píng)論對(duì)象的句式結(jié)構(gòu)關(guān)系同樣滿足規(guī)則1,可以利用規(guī)則1提取的候選關(guān)聯(lián)組合集Sor1,在此基礎(chǔ)上計(jì)算關(guān)聯(lián)度.
3.2.2 抽取低頻評(píng)論對(duì)象-評(píng)論詞的組合
低頻評(píng)論詞一般只修飾比較固定的評(píng)論對(duì)象,一些低頻的評(píng)論詞很難被LDA發(fā)現(xiàn).為了提高低頻評(píng)論詞與其修飾的評(píng)論對(duì)象的關(guān)聯(lián)度,從詞頻比與共現(xiàn)頻率差值進(jìn)行分析,即不僅考察共現(xiàn)頻率,而且考察相互的專有性,其關(guān)聯(lián)度計(jì)算如式(3).
(3)
其中,ζ1是詞頻閾值,p′是候選關(guān)聯(lián)組合中wi和wj的詞頻比,f′(wi)是wi詞頻與共現(xiàn)頻率fc(wi,wj)的差值.取關(guān)聯(lián)度值大于一定閾值的關(guān)聯(lián)組合并進(jìn)行歸一化后構(gòu)成低頻評(píng)論對(duì)象-評(píng)論詞關(guān)聯(lián)集合Slor.
3.2.3 評(píng)論詞組合關(guān)系的提取
由于評(píng)論文本情感表達(dá)中經(jīng)常使用多個(gè)詞語組合的形式,如“影響很大”“影響不大”“影響不太大”“影響很不明顯”等,其中的主體評(píng)論詞都不同程度地和副詞、否定詞進(jìn)行結(jié)合,形成了評(píng)論詞組合,并且不同組合表達(dá)的情感語義也不相同.在主題模型的主題詞提取過程中如果將這些詞語分開提取的話,會(huì)影響評(píng)論詞語對(duì)評(píng)論對(duì)象真實(shí)情感的表達(dá).所以對(duì)于此類組合式情感表達(dá)可以進(jìn)行預(yù)先評(píng)論詞組合關(guān)系提取.利用句法分析來發(fā)現(xiàn)評(píng)論詞的組合關(guān)系,即不僅僅提取單個(gè)主體評(píng)論詞,而是將否定詞和程度副詞也同時(shí)提取,這樣才能獲得較完整的評(píng)論語義.利用以下規(guī)則來發(fā)現(xiàn)評(píng)論詞組合關(guān)系:
規(guī)則2.一個(gè)單句中滿足SBV(主謂關(guān)系) + ADV(狀中結(jié)構(gòu))依存結(jié)構(gòu)關(guān)系,或SBV(主謂關(guān)系) + ADV(狀中結(jié)構(gòu)) + ADV(狀中結(jié)構(gòu))依存結(jié)構(gòu)關(guān)系,對(duì)應(yīng)的“副詞(或否定副詞‘不’) + 形容詞”,或“副詞(或否定副詞‘不’) + 否定副詞‘不’(或副詞) + 形容詞”構(gòu)成評(píng)論詞組合,其中形容詞為主體評(píng)論詞.
圖3 詞性標(biāo)注和依存句法分析Fig.3 Dependency parsing and POS tagging for the examples
根據(jù)規(guī)則2,從圖3中可以識(shí)別出評(píng)論詞組合“很大”“不大”“不太大”“很不明顯”.
1)詞語語義關(guān)系對(duì)主題-詞語分配的約束.在對(duì)詞語w進(jìn)行主題分配時(shí),首先判斷是否存在于同義詞關(guān)聯(lián)集合Ssoo中,如果存在則盡量將該詞語分配到同義詞最多的主題中;否則,以句子為單位找到詞語w前一位置相鄰詞語wp,然后判斷
圖4 SCTA-LDA模型圖Fig.4 SCTA-LDA model
2)SCTA-LDA的時(shí)間關(guān)聯(lián)主要包括2個(gè)方面:① 時(shí)間片對(duì)主題個(gè)數(shù)約束的設(shè)置;② 時(shí)間片內(nèi)的主題-詞語分配的約束.相對(duì)于標(biāo)準(zhǔn)LDA模型主題個(gè)數(shù)設(shè)置的不受約束,SCTA-LDA的主題個(gè)數(shù)與時(shí)間片個(gè)數(shù)形成動(dòng)態(tài)關(guān)聯(lián),即由時(shí)間片的數(shù)量來決定主題個(gè)數(shù);SCTA-LDA加入和時(shí)間片關(guān)聯(lián)的主題-詞語分配權(quán)重因子,使得同一時(shí)間片內(nèi)的詞語分配到同一主題的概率要高于非同一時(shí)間片內(nèi)詞語.
在主題模型LDA中加入時(shí)間層,形成四層模型結(jié)構(gòu):文檔層、時(shí)間層、主題層和詞語層,可以獲取隨時(shí)間變化的主題詞,并通過主題聚類識(shí)別主題詞間的關(guān)聯(lián)性,實(shí)現(xiàn)動(dòng)態(tài)主題詞鏈發(fā)現(xiàn).SCTA-LDA模型結(jié)構(gòu)如圖4所示,符號(hào)說明見表1.
表1 SCTA-LDA模型符號(hào)說明Table 1 Notation of SCTA-LDA
SCTA-LDA模型的文檔生成算法如表2所示.
表2 SCTA-LDA文檔生成算法Table 2 Text generation algorithm of SCTA-LDA
(4)
可推導(dǎo),SCTA-LDA模型Gibbs抽樣的概率估算公式如式(5)所示.
(5)
由式(5),可推導(dǎo)出SCTA-LDA四個(gè)分布參數(shù)的估算如式(6)、(7)、(8)和(9)所示.
(6)
(7)
(8)
(9)
數(shù)據(jù)采集于新浪微博(http://weibo.com)的文本數(shù)據(jù),共采集了92 427篇評(píng)論文檔,共包含2 865 237個(gè)句子.分詞工具采用中科院ICTCLAS,依存句法分析采用哈工大LTP[21].進(jìn)行實(shí)驗(yàn)效果比較的主題模型分別為SCAT-LDA、DTM[10]、TS[17]和LDA[9],均采用Gibbs抽樣進(jìn)行參數(shù)估計(jì).主題模型測(cè)試集和訓(xùn)練集評(píng)價(jià)文檔數(shù)的比例設(shè)置為1:10.相關(guān)系數(shù)設(shè)置為:文檔-主題概率分布參數(shù)α為50/K,K為主題個(gè)數(shù),top-n取值為20(即在每個(gè)主題中取按概率降序排列的前top-n個(gè)詞語作為主題詞);主題-詞語概率分布參數(shù)β為0.01,抽樣次數(shù)為1 000次,采用10-fold交叉驗(yàn)證.比較標(biāo)準(zhǔn)使用人工標(biāo)注的評(píng)論對(duì)象集合、評(píng)論詞集合和評(píng)論對(duì)象-評(píng)論詞組合集,采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值來評(píng)估不同模型的主題詞語提取效果.
5.2.1 評(píng)論對(duì)象提取
評(píng)論對(duì)象提取的準(zhǔn)確率和召回率如圖5和圖6所示.其中,橫坐標(biāo)為主題個(gè)數(shù)K,縱坐標(biāo)為準(zhǔn)確率P和召回率R.
圖5 評(píng)論對(duì)象提取的準(zhǔn)確率比較Fig.5 Precision comparison of comment objects extraction
圖6 評(píng)論對(duì)象提取的召回率比較Fig.6 Recall comparison of comment objects extraction
從圖5進(jìn)行分析,SCTA-LDA在不同主題數(shù)時(shí)都具有更高的準(zhǔn)確率.在主題數(shù)目大于等于90的時(shí)候,其他模型的準(zhǔn)確率下降趨勢(shì)較明顯,而SCTA-LDA由于引入了語義約束,能夠捕捉低頻評(píng)論對(duì)象,所以下降趨勢(shì)不明顯.LDA傾向于提取全局性的高頻評(píng)論對(duì)象,并且沒有時(shí)間的約束,在主題數(shù)較大的時(shí)候,準(zhǔn)確率下降更為明顯.
從圖6進(jìn)行分析,主題數(shù)少的時(shí)候,由于提取的主題詞語有限,各個(gè)模型的召回率相差不大.隨著主題數(shù)的增加,SCTA-LDA的優(yōu)勢(shì)逐漸體現(xiàn)出來.在主題數(shù)較高的時(shí)候,語義約束和時(shí)間關(guān)聯(lián)下的SCTA-LDA能夠識(shí)別更多的低頻評(píng)論對(duì)象,而其他模型難以進(jìn)一步發(fā)現(xiàn)低頻評(píng)論對(duì)象.例如,SCTA-LDA可以發(fā)現(xiàn)低頻的同義評(píng)論對(duì)象,如與高頻評(píng)論對(duì)象“罪犯”同義的“以身試法者”,而其他模型難以發(fā)現(xiàn)此類低頻評(píng)論對(duì)象.
5.2.2 評(píng)論詞提取
評(píng)論詞提取的準(zhǔn)確率、召回率如圖7和圖8所示.其中,橫坐標(biāo)為主題個(gè)數(shù)K,縱坐標(biāo)為準(zhǔn)確率P和召回率R.
圖7 評(píng)論詞提取的準(zhǔn)確率比較Fig.7 Precision comparison of opinion words extraction
從圖7和圖8進(jìn)行分析,可以發(fā)現(xiàn)SCTA-LDA的準(zhǔn)確率優(yōu)勢(shì)較明顯,召回率優(yōu)勢(shì)隨著K的增加也逐漸表現(xiàn)出來.表明語義約束可以提高低頻評(píng)論詞的分配概率,從而更多地發(fā)現(xiàn)關(guān)聯(lián)于相對(duì)高頻評(píng)論對(duì)象的低頻評(píng)論詞.由于TS考慮了主題和評(píng)論詞的關(guān)聯(lián),所以評(píng)論詞提取的準(zhǔn)確率和召回率要高于DTM和LDA.
圖8 評(píng)論詞提取的召回率比較Fig.8 Recall comparison of opinion words extraction
SCTA-LDA的R值隨著主題數(shù)的增加其上升趨勢(shì)很迅速,也說明了一些低頻評(píng)論詞通過關(guān)聯(lián)約束更好地匹配到了相對(duì)應(yīng)的評(píng)論對(duì)象,隨著這類評(píng)論對(duì)象的提取而提高了與其關(guān)聯(lián)評(píng)論詞的發(fā)現(xiàn)率.例如,一些低頻評(píng)論詞,如關(guān)聯(lián)與評(píng)論對(duì)象“事故”的評(píng)論詞“蹊蹺”、“不可理喻”等,在LDA、DTM和TS中沒有發(fā)現(xiàn),而在SCTA-LDA模型中得以發(fā)現(xiàn).
5.2.3 評(píng)論對(duì)象-評(píng)論詞匹配組合提取
評(píng)論對(duì)象-評(píng)論詞匹配組合提取的準(zhǔn)確率和召回率可以考察模型的主題詞鏈提取能力,應(yīng)盡量將匹配程度高的詞語分配到同一主題.匹配組合提取的P和R如圖9和圖10所示.其中,橫坐標(biāo)為主題個(gè)數(shù)K,縱坐標(biāo)為準(zhǔn)確率P和召回率R.
圖9 匹配組合提取的準(zhǔn)確率比較Fig.9 Precision comparison of matching group extraction
從圖9進(jìn)行比較分析,在各個(gè)主題數(shù)下,SCTA-LDA模型提取匹配組合的準(zhǔn)確率都高于其他模型,表明在語義約束和時(shí)間關(guān)聯(lián)情況下,LDA模型可以提取更符合語義要求的主題詞語.TS模型的準(zhǔn)確率高于DTM,說明引入主題-評(píng)論詞關(guān)聯(lián)的LDA相對(duì)于時(shí)間關(guān)聯(lián)的LDA更能獲取匹配關(guān)系.由于LDA沒有加入先驗(yàn)知識(shí),難以發(fā)現(xiàn)一些低頻詞語關(guān)系,所以匹配組合提取的準(zhǔn)確率偏低.
圖10 匹配組合提取的召回率比較Fig.10 Recall comparison of matching group extraction
從圖10進(jìn)行比較分析,LDA傾向于發(fā)現(xiàn)高頻詞語和高頻共現(xiàn)關(guān)系,導(dǎo)致了詞頻較高的詞語在各主題下被重復(fù)提取,影響了其他詞語及詞語關(guān)系的提取.DTM和TS引入了相應(yīng)約束后,對(duì)于詞語關(guān)系的發(fā)現(xiàn)率有了明顯改善.而SCTA-LDA在語義約束和時(shí)間關(guān)聯(lián)的作用下,提高了單位時(shí)間內(nèi)的低頻詞語關(guān)系的提取率,可以發(fā)現(xiàn)一些LDA、DTM和TS模型難以發(fā)現(xiàn)的低頻匹配組合,例如,<事故,蹊蹺>、<以身試法者,窮兇惡極>等.
5.2.4 評(píng)論對(duì)象及評(píng)論詞語提取性能比較
對(duì)只加入語義約束的LDA模型(記為SC-LDA)、只加入時(shí)間關(guān)聯(lián)的LDA模型(記為TA-LDA)和SCTA-LDA模型進(jìn)行比較,分析各個(gè)模型對(duì)于評(píng)論對(duì)象及評(píng)論詞的提取能力,用F值進(jìn)行評(píng)估,如圖11所示.
圖11 評(píng)論對(duì)象和評(píng)論詞提取的F值比較Fig.11 F comparison of comment objects and opinion words extraction
從圖11進(jìn)行比較分析,在各個(gè)主題數(shù)下,SCTA-LDA模型的F值均高于其他2個(gè)模型,說明相對(duì)于僅僅加入一種先驗(yàn)知識(shí)的LDA模型,同時(shí)加入語義約束和時(shí)間關(guān)聯(lián)因子的LDA模型具有更好的評(píng)論對(duì)象和評(píng)論詞提取效果.SC-LDA模型的F值高于TA-LDA模型表明語義約束對(duì)于主題詞鏈的提取更有幫助,能夠提取一些低頻評(píng)論對(duì)象及其關(guān)聯(lián)的評(píng)論詞語.加入時(shí)間關(guān)聯(lián)的TA-LDA模型,雖然增加了主題詞語聚類的時(shí)間區(qū)分度,但對(duì)低頻詞語的提取率沒有明顯改善.
由于LDA主題模型可以從大規(guī)模的社交媒體文本數(shù)據(jù)中提取主題詞,并通過主題聚類發(fā)現(xiàn)潛在的評(píng)論對(duì)象和評(píng)論詞之間的關(guān)系,許多研究利用LDA模型來實(shí)現(xiàn)基于主題聚類的主題詞提取.但由于LDA模型語義理解能力的不足,同時(shí)對(duì)時(shí)間缺乏敏感性,提取的主題詞鏈往往不能滿足主題分析的要求,尤其是面對(duì)具有復(fù)雜語法及語義結(jié)構(gòu)的中文社交媒體評(píng)論文本.
根據(jù)中文社交媒體評(píng)論的特點(diǎn),充分考慮LDA主題模型文檔-主題-詞語的概率分配機(jī)制的基礎(chǔ)上,通過引入語義約束和時(shí)間關(guān)聯(lián),指導(dǎo)LDA進(jìn)行主題-詞語分配.其中語義約束可以提升LDA對(duì)低頻評(píng)論對(duì)象、評(píng)論詞及其關(guān)系的提取率,時(shí)間關(guān)聯(lián)可以提高LDA的時(shí)間敏感性,實(shí)現(xiàn)動(dòng)態(tài)主題詞語的獲取.實(shí)驗(yàn)結(jié)果表明,提出的SCTA-LDA模型對(duì)評(píng)論對(duì)象和評(píng)論詞的提取具有較高的準(zhǔn)確率和召回率,同時(shí)對(duì)評(píng)論對(duì)象-評(píng)論詞匹配關(guān)系也具有較好的聚類效果,通過這些詞語及其關(guān)系的獲取,可以實(shí)現(xiàn)大規(guī)模文本數(shù)據(jù)下的中文社交媒體主題的有效提取和分析.
[1] The 40th China statistical report on internet development [EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201708/P020170807351923262153.pdf,2017.
[2] Zhi S,Qinke P.An opinion detection algorithm based on online posts′ relation[C].Proceedings of the 13th International Conference on Computer and Information Science (ICIS),2014:153-156.
[3] He Min,Xu Jie,Du Pan,et al.Bursty topic detection method for microblog based on time series analysis[J].Journal on Communications,2016,37(3):48-54.
[4] Wei Ming-chuan,Zhu Jun-jie,Zhang Jin,et al.An algorithm for subtopic detecting based on absorbing Markov chain[J].Journal of Chinese Information Processing,2014,28(1):41-46.
[5] Li Lei,Liu Ji,Zhang Hong-kui.Topics identification and evolution trend of network public opinion based on co-occurrence analysis[J].Information Science,2016,34(1):44-47+57.
[6] Chen Yu-zhong,F(xiàn)ang Ming-yue,Guo Wen-zhong.Research on multi-label propagation clustering method for microblog hot topic detection[J].Pattern Recognition and Artificial Intelligence,2015,28(1):1-10.
[7] Song L,Wu H,Zhang Z.Research on SVM prediction model based on chaos theory[J].Advanced Science and Technology Letters,2016,123(13):59-63.
[8] Devi K N,Bhaskaran V M.Rough set and entropy based feature selection for online forums hotspot detection[J].International Journal of Computer Applications,2015,117(10):37-41.
[9] Blei D,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.
[10] Blei D,Lafferty J D.Dynamic topic models[C].Proceedings of the 23rd International Conference on Machine Learning (ICML),2006:113-120.
[11] Qiu Ming-tao,Ma Jing,Zhang Lei,et al.A feature extraction method of microblog based on a scalable topic LDA model[J].Information Science,2017,35(4):22-26+31.
[12] Cao Li-na,Tang Xi-jin.Trends of BBS topics based on dynamic topic model[J].Journal of Management Sciences in China,2014,17(11):109-121.
[13] Li Feng-ling,Zhu Bao-ping.On LDA-based microblogging topic detection[J].Computer Applications and Software,2014,31(10):24-26.
[14] Guo Lan-tian,Li Yang,Mu De-jun,et al.A LDA model based topic detection method[J].Journal of Northwestern Polytechnical University,2016,34(4):698-702.
[15] Chen Xiao-mei,Gao Cheng,Guan Xin-hui.Extraction method of network public opinion based on LDA topic model[J].Library and Information Service,2015,59(21):21-26.
[16] Qiu Li-qing,Chen Zhuo-yan,Ding Chang-qing,et al.A novel topic discovery algorithm iMLDA based on modified LDA topic model in social networks[J].Information Science,2016,34(9):115-188+133.
[17] Dermouche M,Kouas L,Velcin J,et al.A joint model for topic-sentiment modeling from text[C].Proceedings of the 30th ACM Symposium on Applied Computing (SAC),2015:819-824.
[18] Wang Fei-fei,Yang Yang,Jiang Fei,et al.A link prediction method based on similarity of user′s topics[J].Journal of xi′an Jiaotong University,2016,50(8):103-109.
[19] Li Xiang-dong,Ba Zhi-chao,Huang Li.News topic mining method based on weighted latent Dirichlet allocation model[J].Journal of Computer Applications,2014,34(5):1354-1359.
[20] Peng Yun,Wan Chang-xuan,Jiang Teng-jiao,et al.An algorithm based on words clustering LDA for product aspects extraction[J].Journal of Chinese Computer Systems,2015,36(7):1458-1463.
[21] Che W X,Li Z H,Liu T.LTP:a Chinese language technology platform[C].Proceedings of the 23rd International Conference on Computational Linguistics (COLING),2010:13-16.
附中文參考文獻(xiàn):
[1] 第40次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201708/P020170807351923262153.pdf,2017.
[3] 賀 敏,徐 杰,杜 攀,等.基于時(shí)間序列分析的微博突發(fā)話題檢測(cè)方法[J].通信學(xué)報(bào),2016,37(3):48-54.
[4] 魏明川,朱俊杰,張 瑾,等.基于吸收馬爾可夫鏈的子話題發(fā)現(xiàn)方法[J].中文信息學(xué)報(bào),2014,28(1):41-46.
[5] 李 磊,劉 繼,張竑魁.基于共現(xiàn)分析的網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)及態(tài)勢(shì)演化研究[J].情報(bào)科學(xué),2016,34(1):44-47+57.
[6] 陳羽中,方明月,郭文忠.面向微博熱點(diǎn)話題發(fā)現(xiàn)的多標(biāo)簽傳播聚類方法研究[J].模式識(shí)別與人工智能,2015,28(1):1-10.
[11] 邱明濤,馬 靜,張 磊,等.基于可擴(kuò)展LDA模型的微博話題特征抽取研究[J].情報(bào)科學(xué),2017,35(4):22-26+31.
[12] 曹麗娜,唐錫晉.基于主題模型的BBS話題演化趨勢(shì)分析[J].管理科學(xué)學(xué)報(bào),2014,17(11):109-121.
[13] 李鳳嶺,朱保平.基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(10):24-26.
[14] 郭藍(lán)天,李 揚(yáng),慕德俊,等.一種基于LDA主題模型的話題發(fā)現(xiàn)方法[J].西北工業(yè)大學(xué)學(xué)報(bào),2016,34(4):698-702.
[15] 陳曉美,高 鋮,關(guān)心惠.網(wǎng)絡(luò)輿情觀點(diǎn)提取的LDA主題模型方法[J].圖書情報(bào)工作,2015,59(21):21-26.
[16] 仇麗青,陳卓艷,丁長(zhǎng)青,等.基于改進(jìn)LDA主題模型的社會(huì)網(wǎng)絡(luò)話題發(fā)現(xiàn)算法iMLDA[J].情報(bào)科學(xué),2016,34(9):115-188+133.
[18] 王菲菲,楊 揚(yáng),蔣 飛,等.面向用戶話題相似性特征的鏈路預(yù)測(cè)方法[J].西安交通大學(xué)學(xué)報(bào),2016,50(8):103-109.
[19] 李湘東,巴志超,黃 莉.基于加權(quán)隱含狄利克雷分配模型的新聞話題挖掘方法[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1354-1359.
[20] 彭 云,萬常選,江騰蛟,等.一種詞聚類LDA的商品特征提取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(7):1458-1463.