洪旭東, 余正濤, 嚴(yán)梅
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 昆明 650500;2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室, 昆明 650500)
基于事件句關(guān)聯(lián)的新聞主題模型構(gòu)建方法
洪旭東1,2, 余正濤1,2, 嚴(yán)梅1,2
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 昆明 650500;2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室, 昆明 650500)
考慮新聞事件句關(guān)聯(lián)信息對(duì)新聞主題構(gòu)建的重要指導(dǎo)作用,提出了基于事件分析的新聞主題模型構(gòu)建方法。利用新聞文本中事件句中包含的事件元素,判斷事件句之間的關(guān)聯(lián),并將這一關(guān)聯(lián)信息作為L(zhǎng)DA建模過(guò)程中主題分配的指導(dǎo)信息。從而獲得不同新聞文檔在主題空間上更加準(zhǔn)確的概率分布。實(shí)驗(yàn)結(jié)果表明,提出的新聞主題模型(E-LDA)比LDA主題模型對(duì)新聞文本有更好的表達(dá)效果。
事件句關(guān)聯(lián); LDA; 新聞主題模型; E-LDA
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)中出現(xiàn)了大量的新聞文本,且每天不斷更新,呈指數(shù)級(jí)增長(zhǎng)。對(duì)新聞文本進(jìn)行主題建模,為用戶(hù)提供方便快捷的新聞主題信息展示,是新聞文本分析的重要任務(wù)之一。同時(shí)也是新聞文本分類(lèi)、新聞推薦、話題發(fā)現(xiàn)等新聞文本處理的重要支撐。目前在文本主題建模方面,Blei等人[1]提出的LDA(latent dirichlet allocation)主題模型,是一個(gè)全概率生成模型,能夠快速的訓(xùn)練出各種文本內(nèi)容的主題信息,對(duì)高維的文檔信息進(jìn)行有效的降維。在很多分類(lèi),聚類(lèi)任務(wù)中得到了廣泛應(yīng)用。對(duì)于面向特定任務(wù),也出現(xiàn)了很多基于LDA擴(kuò)展的主題模型。如李文波等人[2]針對(duì)文本分類(lèi)問(wèn)題,在訓(xùn)練語(yǔ)料中加入文本類(lèi)別標(biāo)記作為監(jiān)督信息,提出的LabeledLDA模型。Blei等人[3]針對(duì)文本得分預(yù)測(cè)問(wèn)題,將文本的屬性關(guān)聯(lián)信息作為指導(dǎo)信息,提出的sLDA模型。Mccallum等人[4]針對(duì)作者主題獲取問(wèn)題,將發(fā)送者和接受者對(duì)(pair)作為約束信息,提出的ART模型。以上主題模型有效的利用了目標(biāo)文本自身特點(diǎn)的指導(dǎo)信息,取得了更好的效果。
目前針對(duì)新聞文本特點(diǎn)進(jìn)行主題建模的方法還相對(duì)較少。在文獻(xiàn)[5~10]中出現(xiàn)的新聞主題建模基本是直接利用LDA型或基于LDA擴(kuò)展的主題模型。沒(méi)有考慮到新聞文本的事件信息。本文將通過(guò)分析新聞文本的事件特點(diǎn),利用其中的關(guān)聯(lián)作為L(zhǎng)DA模型的指導(dǎo)信息,對(duì)新聞主題模型進(jìn)行建模。新聞報(bào)道通常是圍繞著一個(gè)中心事件展開(kāi)描述的。包括對(duì)事件發(fā)生的經(jīng)過(guò)、產(chǎn)生的原因、造成的影響以及與之相關(guān)的其他事件等的描述。新聞報(bào)道上下文內(nèi)容之間是緊密相關(guān)的。因此,在對(duì)新聞文本進(jìn)行主題建模時(shí),不能簡(jiǎn)單的認(rèn)為詞語(yǔ)之間是相互獨(dú)立的,前后詞語(yǔ)所對(duì)應(yīng)的主題應(yīng)該是相互關(guān)聯(lián)的。同時(shí)新聞文本中通常會(huì)包含很多對(duì)事實(shí)進(jìn)行描述的句子。例如在某個(gè)時(shí)間、地點(diǎn)發(fā)生了某個(gè)事情。在不同聞報(bào)道中則會(huì)出現(xiàn)很多句子,雖然它們的表達(dá)方式不同,但是描述的是同一個(gè)事實(shí),顯然這些句子所對(duì)應(yīng)的主題應(yīng)該相同。針對(duì)這些新聞報(bào)道的特點(diǎn),本文在LDA模型的基礎(chǔ)上,提出了事件主題模型(E-LDA),將新聞報(bào)道中上下文詞語(yǔ)主題之間存在的關(guān)聯(lián)以及不同新聞報(bào)道中句子主題之間的關(guān)聯(lián)作為L(zhǎng)DA建模過(guò)程中的指導(dǎo)信息。首先利用句子中的事件元素信息判斷兩個(gè)句子是否描述的是同一個(gè)事件;然后在主題建模過(guò)程中,一方面認(rèn)為后一個(gè)詞對(duì)應(yīng)的主題和前一個(gè)詞的主題是相關(guān)的,另一方面認(rèn)為描述同一事實(shí)的句子對(duì)應(yīng)相同的主題;最后采用EM算法對(duì)模型進(jìn)行求解。
1.1 新聞事件要素提取及事件句分析
事件要素是與事件相關(guān)的實(shí)體以及實(shí)體的屬性,通常包括事件發(fā)生的時(shí)間、地點(diǎn)、參與者等。比如,在自然災(zāi)害類(lèi)事件中,其事件要素包括自然災(zāi)害發(fā)生的時(shí)間、地點(diǎn)、何種自然災(zāi)害以及受難者等;而對(duì)于一個(gè)交通事故事件,它的要素則包括事故發(fā)生的時(shí)間、地點(diǎn)、何種事故以及肇事者等。事件要素抽取的任務(wù)即是從事件區(qū)域中識(shí)別出與事件相關(guān)的實(shí)體以及實(shí)體的屬性并抽取。事件句識(shí)別及事件句標(biāo)記流程如圖1所示:
事件元素抽取的定義和實(shí)例來(lái)自于ACE[11]。ACE(Automatic Content Extraction)會(huì)議是典型的含有事件抽取任務(wù)的評(píng)測(cè)會(huì)議。根據(jù)定義,事件由事件觸發(fā)詞(Trigger)和描述事件結(jié)構(gòu)的元素(Argument)構(gòu)成。分為L(zhǎng)ife,Movement,Conflict,Contact等8大類(lèi)事件,30多個(gè)子事件,子事件模板定義,如表1所示:
圖1 事件句識(shí)別及標(biāo)記過(guò)程
表1 ACE定義的事件模板
命名實(shí)體一般是指人名、地名、組織機(jī)構(gòu)名等。利用中科院工具(NLPIR(ICTCLAS2014)對(duì)新聞的標(biāo)題、正文進(jìn)行分詞以及命名實(shí)體識(shí)別,利用正則表達(dá)式提取新聞中的時(shí)間表達(dá)信息。事件觸發(fā)詞之間引發(fā)事件的產(chǎn)生,是決定事件類(lèi)別的重要特征,本文利用文獻(xiàn)[12]中的方法識(shí)別事件句的事件類(lèi)別,以及事件句中的事件元素抽取,本文抽取的事件元素包括觸發(fā)詞所在的事件的實(shí)體、時(shí)間表達(dá)、屬性詞3類(lèi)。在計(jì)算兩個(gè)句子之間是否屬于描述同一事件中,首先判斷句子中的觸發(fā)詞是否一樣或?yàn)橥x詞,同義詞使用哈工大信息檢索研究室的〈同義詞林(擴(kuò)展版)〉進(jìn)行判斷。如果兩個(gè)句子中的觸發(fā)詞屬于同一詞或同義詞時(shí),進(jìn)一步對(duì)這兩個(gè)句子中的其他事件元素進(jìn)行匹配,如果有兩個(gè)或兩個(gè)以上的其他事件元素完全相同,則認(rèn)為這兩個(gè)句子描述的是同一個(gè)事件,對(duì)于描述事件i的句子s1,s2,...,sn標(biāo)記為同一事件集合,用ei(s1,s2,...sn)表示,其中ei表示事件i,sn表示第m新聞文檔dm的第n個(gè)句子dmn。
2.2 新聞事件主題模型
基于“句袋”模型假設(shè),加入新聞的事件句關(guān)聯(lián)信息,本文提出的基于事件句關(guān)聯(lián)的新聞主題模型圖模型(后面簡(jiǎn)稱(chēng)E-LDA),E-LDA圖模型如圖2所示: 表示如圖2a所示?!熬浯蹦P褪侵肝臋n由句子為單位組成,同一句話內(nèi)所有的單詞將共享同一個(gè)主題,文檔中的句子可以變換順序而不改變模型訓(xùn)練結(jié)果。事件句關(guān)聯(lián)是指對(duì)描述同一事件的事件句分配同一主題。
如圖2b所示,一篇文檔中的主題是與θ和主題轉(zhuǎn)換變量Ψn相關(guān)的馬爾科夫鏈。當(dāng)Ψn=1,從θ中抽取一個(gè)新的主題。當(dāng)Ψn=0,第n個(gè)詞賦予與其前一個(gè)詞相同的主題。我們假設(shè)只有在句子之間才可能出現(xiàn)主題的轉(zhuǎn)換,所以Ψn只有在句子的第一個(gè)詞的時(shí)候才會(huì)出現(xiàn)非零的情況。E-LDA模型的算法描述如圖3所示。在模型的訓(xùn)練過(guò)程中,需要對(duì)新聞文本中的每個(gè)詞語(yǔ)進(jìn)行主題采樣。首先判斷當(dāng)前需要采樣的詞是否屬于句子中的第一個(gè)詞,如果是,則根據(jù)前面所獲得的事件集合,判斷當(dāng)前詞所屬的句子是否屬于事件句,如果是,則觀察該事件句所在的事件集合里面有沒(méi)有被采樣過(guò)的句子,如果有,則將采樣過(guò)的句子中詞語(yǔ)的主題賦給當(dāng)前句的第一個(gè)詞,如果沒(méi)有,則將從文檔的主題分布中隨機(jī)抽取一個(gè)主題。如果不是事件句,則從文檔的主題分布中抽取一個(gè)主題。如果當(dāng)前詞不是句子的第一個(gè)詞,則賦予該詞前一個(gè)詞的主題。
其中K是隱層主題個(gè)數(shù),Nd表示文檔d的長(zhǎng)度。在主題分布計(jì)算中,對(duì)于一篇文檔中不同位置出現(xiàn)的同一個(gè)詞不一定分配的是同一個(gè)主題,這樣有一定的詞義消岐作用。對(duì)于描述同一事件的句子共享同一個(gè)主題,這樣訓(xùn)練得到的新聞主題模型,更能表達(dá)新聞的事件信息。
a LDA模型
b E-LDA模型
圖3 E-LDA模型算法描述
1.3 模型參數(shù)求解
對(duì)于LDA擴(kuò)展的模型,由于參數(shù)的依賴(lài)性,根據(jù)提出的主題模型自身的特點(diǎn),采用標(biāo)準(zhǔn)參數(shù)估計(jì)工具HMMs,即EM和前饋算法相結(jié)合對(duì)模型參數(shù)進(jìn)行推斷。隱參數(shù)zn由變量Ψn決定其取值,根據(jù)不同Ψn值,zn賦值為zn-1、ze(s(n))或從θd中抽取。需要求解的參數(shù)是θd,β和ε。假設(shè)超參數(shù)α和η已知。參數(shù)求解過(guò)程如下:
E-step:
在E-step,對(duì)文檔中的每句話計(jì)算概率Pr(zn,Ψn|d,w1...wNd;θ,β,ε)。利用前饋算法在HMM中的應(yīng)用計(jì)算此概率。每篇文檔的轉(zhuǎn)移矩陣都是根據(jù)參數(shù)θd和ε而定的。參數(shù)βz,w表示句子中的局部概率。得到概率Pr(zn,Ψn|d,w1...wNd)后,計(jì)算M-step中需要求解的期望值。分兩步進(jìn)行計(jì)算:
(1)在主題z結(jié)束時(shí)的主題轉(zhuǎn)換期望;
(2)詞語(yǔ)w與主題z共現(xiàn)的期望數(shù)。
Cd,z表示在文檔d中主題z從θd中抽取的次數(shù)。Cz,w表示詞語(yǔ)w根據(jù)βz,w從主題z中抽取的次數(shù)。則有式(1)、(2)。
(1)
(2)
M-step:
對(duì)θ和β的MAP估計(jì)中,θd和βz是屬于概率向量。標(biāo)準(zhǔn)計(jì)算運(yùn)用拉格朗日乘數(shù)法(Lagrange Multipliers)如式(3)、(4)。
(3)
(4)
(5)
其中βz,w是正規(guī)化參數(shù),βz形成了一個(gè)分布。本文中EM算法假設(shè)超參數(shù)α,η是確定的。文獻(xiàn)假設(shè)α=1+50/K和η=1.01。
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)爬取了新浪、騰訊、鳳凰等各大新聞網(wǎng)站,其中包括經(jīng)濟(jì)政治、文化、科技、體育類(lèi)新聞各200篇。共1000篇新聞文檔,其中隨機(jī)抽取每類(lèi)中各180篇,共900篇作為訓(xùn)練數(shù)據(jù),剩余100篇作為測(cè)試數(shù)據(jù)。新聞文檔都是經(jīng)過(guò)分詞、分句去停用詞預(yù)處理的文檔。
3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
關(guān)于主題模型的評(píng)價(jià)指標(biāo),當(dāng)前比較權(quán)威的評(píng)價(jià)指標(biāo)是Perplexity(困惑度),本文采用該指標(biāo)對(duì)提出的新聞主題模型實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證。Perplexity表示利用訓(xùn)練集預(yù)測(cè)新文本生成的不確定度,該值越小,證明模型性能越好。其計(jì)算如式(6)。
(6)
其中,Ntest表示測(cè)試文本的長(zhǎng)度。
提出的新聞主題模型的perplexity值求解過(guò)程如下:
(1)在β=βtrain和ε=εtrain固定的情況下,通過(guò)新文檔的前N個(gè)詞使用EM算法求得得到θnew。
(2)使用HMM的前饋算法,計(jì)算新文檔前N個(gè)詞的潛層變量Pr(zN+1|w1...wN),通過(guò)Pr(zN+1|w1...wN)推導(dǎo)Pr(zN|w1...wN)。
(3)利用前面得到的θnew,βtrain,εtrain和Pr(zN+1|w1...wN)計(jì)算Pr(wN+1...wNtest|w1...wN)。
3.3 實(shí)驗(yàn)設(shè)計(jì)與分析
實(shí)驗(yàn)一。為了驗(yàn)證E-LDA模型的有效性,設(shè)計(jì)了一組與LDA[1]、HTMM[13]模型的對(duì)比實(shí)驗(yàn)。參數(shù)設(shè)置:主題數(shù)K=15?!獙?shí)驗(yàn)結(jié)果,如圖4所示。
圖4 不同觀測(cè)數(shù)據(jù)下各主題模型的perplexity
從圖4可以看出,LDA、HTMM和E-LDA模型在主題數(shù)K=15時(shí),各主題模型的Perplexity值隨觀測(cè)詞N不同而發(fā)生的變化。隨著觀測(cè)詞數(shù)量的增加,E-LDA和HTMM比LDA模型的Perplexity值小。E-LDA和HTMM模型都是基于“句子袋模型”,在新聞文檔數(shù)據(jù)集中有更好的應(yīng)用效果,與HTMM模型相比,E-LDA模型在不同觀測(cè)值時(shí)有更小的Perplexity值,驗(yàn)證了事件句關(guān)聯(lián)信息對(duì)新聞主題模型的有效指導(dǎo)作用,E-LDA模型對(duì)新聞主題有更好的表達(dá)效果。
實(shí)驗(yàn)二。為了驗(yàn)證在不同主題數(shù)目下E-LDA模型與LDA、HTMM模型的性能比較。參數(shù)設(shè)置:N=10,實(shí)驗(yàn)結(jié)果,如圖5所示。
圖5 不同主題下主題模型的Perplexity值
從圖5可以看出,3種主題模型在觀測(cè)數(shù)據(jù)一定的情況下,在不同主題下的Perplexity值情況,各主題模型的Perplexity值隨著主題的變化而變動(dòng),整體趨勢(shì)都是先隨著主題數(shù)的增加而減小,當(dāng)減小到一定程度后又隨著主題數(shù)的增加而上升,在K=20的時(shí)候HTMM模型和E-LDA模型的Perplexity值達(dá)到最小。在整個(gè)過(guò)程中,E-LDA模型在相同主題數(shù)時(shí)Perplexity最小,驗(yàn)證了E-LDA模型對(duì)新聞文本主題建模有更好的效果。
通過(guò)分析新聞文檔中事件句的關(guān)聯(lián)信息,在LDA模型基礎(chǔ)上,將事件句關(guān)聯(lián)作為新聞主題模型構(gòu)建的指導(dǎo)作用,提出了E-LDA主題模型。實(shí)驗(yàn)驗(yàn)證了提出方法的有效性。進(jìn)一步研究將結(jié)合新聞文本的篇章關(guān)聯(lián)信息對(duì)新聞文本進(jìn)行建模。
[1] Blei D M,Ng A Y,Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.
[2] 李文波, 孫樂(lè), 張大鯤. 基于Labeled-LDA模型的文本分類(lèi)新算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 31(4):620-627.
[3] Blei D M, Mcauliffe J D. Supervised Topic Models[J]. Advances in Neural Information Processing Systems, 2010, 3:327-332.
[4] Mccallum A, Corrada-Emmanuel A, Wang X. The Author-Recipient-Topic Model for Topic and Role Discovery in Social Networks: Experiments with Enron and Academic Email[J]. Artificial Intelligence Research,2007,30:249-272.
[5] Florent Garcin,Christos Dimitrakakis,Boi Faltings.Personalized News Recommendation with Context Trees[C]//Proceedings of the 7th ACM Conference on Recommender Systems,2013:105-112.
[6] Jenders M, Lindhauer T, Kasneci G, et al. A Serendipity Model for News Recommendation[M]// KI 2015: Advances in Artificial Intelligence. Springer International Publishing, 2015, 9324:111-123.
[7] Meguebli Y, Kacimi M, Doan B L, et al. Building Rich User Profiles for Personalized News Recommendations[C]// UMAP 2014, 1181:33-40.
[8] 吳永輝,王曉龍,丁宇新,徐軍,郭鴻志.基于主題的自適應(yīng)、在線網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J].電子學(xué)報(bào),2010,(11):2620-2624.
[9] Hong M D, Oh K J, Ga M H, et al. Content-based Recommendation Based on Social Network for Personalized News Services[J]. Journal of Intelligence & Information Systems, 2013, 19(3):57-71.
[10] 路榮, 項(xiàng)亮, 劉明榮,等. 基于隱主題分析和文本聚類(lèi)的微博客中新聞話題的發(fā)現(xiàn)[J]. 模式識(shí)別與人工智能, 2012, 25(3):382-387.
[11] ACE(Automatic Content Extraction)Chinese Annotation Guidelines for Events.National Institute of Standards and Technology[R].2005.
[12] 趙妍妍,秦兵,車(chē)萬(wàn)翔,等.中文事件抽取技術(shù)研究[J].中文信息學(xué)報(bào),2008, 22(1):3-8.
[13] Gruber A, Weiss Y, Rosen-Zvi M. Hidden Topic Markov Models.[J]. Proceedings of Artificial Intelligence & Statistics, 2007:163-170.
News Topic Model Based on Relevance of Event Sentence
Hong Xudong1,2,Yu Zhengtao1,2,Yan Mei1,2
(1. School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500, China;2. Intelligent Information Processing Key Laboratory,Kunming University of Science and Technology,Kunming 650500,China)
The relevance relationship of news event sentences plays a very important guiding function role in the processing of news topic constraction. A news topic model based on event sentence relevance is proposed. The relevance relationship of event sentences obtained by using the event element of news document will be used as the supervision information in the LDA, then one can get more accuracy probability distribution of news document in the topic space. The experimental results show that E-LDA can make better result than LDA in news documents.
Event sentence relevance; LDA; News topic model; E-LDA
洪旭東(1989-),男,昆明理工大學(xué),博士研究生,研究方向:自然語(yǔ)言處理、信息檢索,昆明 650500
余正濤(1970-),男,昆明理工大學(xué),教授,博士,博士生導(dǎo)師,研究方向:自然語(yǔ)言處理、信息檢索及信息抽取。昆明 650500 嚴(yán) 梅(1989-),女,昆明理工大學(xué),碩士,研究方向:自然語(yǔ)言處理、智能信息處理,昆明 650500
1007-757X(2017)01-0050-05
TP311
A
2016.04.25)