陳 千,郭 鑫,王素格,張 虎
(山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)
?
文本流多粒度主題結(jié)構(gòu)建模研究
陳 千,郭 鑫,王素格,張 虎
(山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)
主題檢測近年來在文本挖掘和自然語言處理領(lǐng)域得到了廣泛的應(yīng)用,對主題進(jìn)行結(jié)構(gòu)建模是主題檢測的基礎(chǔ)。為了對文本流中的多粒度主題進(jìn)行建模,提出一種基于語義層次樹的主題結(jié)構(gòu)模型。該模型利用領(lǐng)域本體的特點,將主題同本體作一一映射,結(jié)合概率理論,將概念集里的概念用主題樹的葉子節(jié)點表示,每一層中的節(jié)點均是下一層節(jié)點的多項分布,使之更適合描述文本流中多粒度的主題結(jié)構(gòu)。為了便于構(gòu)建主題的空間結(jié)構(gòu),提出主題的相似度和事件相關(guān)度計算方法。該文結(jié)尾設(shè)計了實驗構(gòu)造真實新聞文本流數(shù)據(jù)上的主題樹。實驗結(jié)果表明,該結(jié)構(gòu)模型能夠體現(xiàn)主題豐富的多粒度空間語義特征。
主題檢測;多粒度主題建模;文本流
隨著計算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,大數(shù)據(jù)和流數(shù)據(jù)的普遍存在,利用計算機(jī)對海量文本數(shù)據(jù)進(jìn)行自動主題檢測在輿情監(jiān)測、郵件檔案整理、情報科學(xué)分類和Web日志訪問挖掘[1]等領(lǐng)域有著廣泛的應(yīng)用前景。主題檢測的主要任務(wù)是對主題進(jìn)行識別,對主題進(jìn)行結(jié)構(gòu)化建模是主題檢測的基礎(chǔ)工作,包括主題的定義、描述以及結(jié)構(gòu)設(shè)計。隨著主題的抽象程度不同,主題宏觀上體現(xiàn)了一定的層次粒度性,因此如何對主題進(jìn)行層次粒度建模,是難點之一;文本流中的主題并不是相互獨立的,可能存在相互關(guān)系,如何表達(dá)這種相互關(guān)系是主題建模難點之二。由于主題檢測需要識別出與某個主題相關(guān)的事件,因此,主題建模涉及到多個對象,包括事件等,它體現(xiàn)了主題的時間特性,具有一定的多元性。因此,這些問題給主題建模帶來諸多挑戰(zhàn)。
目前國內(nèi)外對主題還尚未有統(tǒng)一的定義。一般來說,話題檢測和跟蹤國際會議(Topic Detection and Tracking,TDT)將主題定義為一個核心事件或活動以及與之直接相關(guān)的事件或活動[2]。近年來,采用概率統(tǒng)計學(xué)對主題進(jìn)行建模誕生了概率主題模型,該模型假設(shè)存在這樣一種隱含變量,該變量用于表示和被觀測文本文檔相聯(lián)系的主題,且該變量和單詞的使用模式具有某種關(guān)系。Blei 提出的潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型[3]未考慮主題的層次性問題和相關(guān)性問題。Wei Li等人提出了一種有向無環(huán)圖結(jié)構(gòu)的彈球分配模型[4](Pachinko allocation model,PAM)來表達(dá)主題間的相關(guān)性,但未涉及到主題的時間特征。Berendt提出一種基于單邊路徑聚類的方法進(jìn)行主題檢測[5],沒有考慮到主題的粒度問題。權(quán)小軍等人提出一種基于概率主題模型的層次文本分類方法[6],但主要面向分類問題。陳千[7]等人提出一種文本流層次主題檢測技術(shù),但文中討論不夠細(xì)節(jié),本文是對文獻(xiàn)[7]中提到的主題樹展開深入探討。
本文首先介紹多粒度主題的研究背景,然后提出一種基于語義層次本體樹的主題結(jié)構(gòu)模型。為了進(jìn)行推理,本文將主題樹同概率論結(jié)合,將概念集里的概念用主題樹的葉子節(jié)點表示,本體樹每一層中的節(jié)點均是下一層節(jié)點的多項分布,使之更適應(yīng)于描述文本流中真實的多粒度主題結(jié)構(gòu)。實驗表明該結(jié)構(gòu)模型能夠體現(xiàn)主題豐富的多粒度語義特征。
2.1 多粒度主題
本文將文本流看成是一系列具有動態(tài)性、周期性、潛在無限性、以時間先后順序連續(xù)到達(dá)的文本數(shù)據(jù)記錄。這些文本流中蘊含著多個主題,我們認(rèn)為主題是概念空間中一系列概念按照某種規(guī)律組合在一起的集合,文本流是主題的載體。同時,主題又是一個個事件的載體,即事件可以被看成是一個或多個主題的實例。從抽象的程度角度看,主題具有多粒度特征,其中事件是一種特殊的主題,其抽象程度最低。
正如現(xiàn)實世界中一樣,“球類運動”這一主題可以具體為“羽毛球運動”和“籃球運動”等,文本流中所討論的主題同樣具有一定大小的粒度。例如,報道奧運會的新聞和奧運會“游泳比賽”的新聞,這兩個主題就具有簡單的多粒度父子層級關(guān)系。經(jīng)典的主題模型將所有主題都看成扁平結(jié)構(gòu)的,這很大程度上忽視了文本流中主題的這種層次語義結(jié)構(gòu),因此對文本流中的多粒度主題檢測具有廣泛的現(xiàn)實應(yīng)用背景。本文主要關(guān)注文本流中主題的多粒度結(jié)構(gòu)建模問題。
2.2 主題結(jié)構(gòu)建模與本體
一般來講,本體可以表示為一個五元組集合:O={C,R,P,I,A},其中C表示概念集合;R表示概念之間關(guān)系的集合;P表示概念的屬性集合,包括屬性所屬的概念,屬性名以及屬性值;I表示概念相關(guān)的實例集合;A表示本體中的公理集。借鑒本體的五元組理論,針對主題的結(jié)構(gòu)模式進(jìn)行深入研究,提出一種主題層次結(jié)構(gòu)模型,研究對象同本體以及主題所涉及到的研究領(lǐng)域?qū)?yīng)關(guān)系如圖1所示。
模型利用領(lǐng)域本體的特點,將主題同本體作一一映射,即主題對應(yīng)概念、主題屬性對應(yīng)概念的屬性、事件對應(yīng)實例、主題層次關(guān)系對應(yīng)概念間關(guān)系。這四個核心概念分別對應(yīng)著文本流主題檢測框架的四個主要研究任務(wù),本文主要側(cè)重于主題結(jié)構(gòu)建模研究。
2.3 基本概念
定義1 概念表(Concept List)。概念表是某個特定類型語料庫的本體概念集按照索引進(jìn)行順序標(biāo)識所構(gòu)成的概念列表。
概念表中的所有概念均來自領(lǐng)域本體中的概念,它們是一一對應(yīng)的。一個概念表構(gòu)成了一個概念空間,以后提到概念空間,若未做特殊說明,均表示由概念表構(gòu)成的空間。假設(shè)概念表中包含概念的個數(shù)為V,則概念表CL可以表示為CL={t1,t2,...,tv,...,tV},其中tv是概念表中索引位置為v的概念詞匯。
圖1 多粒度主題建模涉及到的研究對象
事件主要描述的是在某個時間、某個地點涉及到某些對象(包括某人或物)發(fā)生的某個動作行為或一系列動作行為的總稱,它是一個或多個主題的實例,即主題的具體實現(xiàn)。因此事件由兩個部分構(gòu)成,其一是包含具體時間、地點、 人物、 動作的元數(shù)據(jù)集合,其二是概念表上的概率分布。若事件E發(fā)生的時間是time,地點是location,參與的對象是object,行為是action,則E可表示為E=[Em,Ed],其中Em表示事件的元數(shù)據(jù)metadata信息,且Ed表示事件的概念空間上的概率分布信息,則有式(2)。
我們將事件看成是一個或多個主題的實例。事件中的元數(shù)據(jù)信息均同領(lǐng)域本體中的概念進(jìn)行匹配。另外,事件主要針對新聞、博客類型的文本流,對于科技文獻(xiàn)而言,意義不是很大,因為科技文獻(xiàn)主要探討各種科學(xué)技術(shù)理論以及應(yīng)用。一個事件可以屬于一個或多個主題,這在真實世界中非常常見,例如,“日本2011.3.11大地震”是主題“地震”的一個實例,同時也是主題“日本”的一個實例。需要注意的是,有時候事件和主題的界限很模糊,即對于某個事件,它也可以被看成是一個主題。事件與主題之間的關(guān)系是多對多關(guān)系,為了便于分析,假設(shè)任何一個主題可對應(yīng)多個事件,且不同主題對應(yīng)的事件集合之間是不相容的。
定義2 主題屬性。主題屬性是與領(lǐng)域相關(guān)的,表示主題某種統(tǒng)計特征的對象,它具有屬性名和屬性值。設(shè)屬性名為Pname,主題屬性函數(shù)用TPname(.)表示,它是一個值函數(shù),TPname:N,T→R,其中N表示時間索引上的正整數(shù)空間,R是實數(shù)集,T表示主題空間。主題屬性值也可以歸一化,從而使得屬性值在0和1之間。主題屬性值與主題和時間有關(guān),涉及到主題的演化模式。雖然主題屬性概念是主題結(jié)構(gòu)的組成部分,但基于主題屬性的生命周期等演化模式亦不在本文的討論范疇。
主題是本文最核心的研究對象。首先,主題之間具有層次性特點,每個主題可能有若干個子主題或者一個父主題,從而構(gòu)建出主題的樹狀結(jié)構(gòu),且與主題相關(guān)的主題屬性和事件這三個核心對象之間還存在空間結(jié)構(gòu)關(guān)系,這是結(jié)構(gòu)層面。其次從時間層面討論演化問題,它體現(xiàn)了主題在時間上的特征: (1)一個主題對應(yīng)多個事件實例,文本流事件集合中的事件之間在時間上還存在某種潛在的轉(zhuǎn)移規(guī)律,從而體現(xiàn)了主題的演化特性;(2)主題具有特征屬性,對于不同的文本流,主題可能具有不同的主題屬性,且每個主題均具有若干屬性,這種屬性是一種與主題相關(guān)的屬性,主題不同,其屬性對應(yīng)的屬性值不同,而且隨著時間的推移其屬性值相應(yīng)發(fā)生變化,從而從側(cè)面體現(xiàn)了主題的周期特性。
因此總的來說,主題具有兩個方面的潛在語義模式: 演化模式(與時間相關(guān)的)和結(jié)構(gòu)模式(與空間相關(guān)的),本文主要關(guān)注于后者。本小節(jié)結(jié)合本體論,提出一種主題樹模型,該模型包含三個核心對象,以及三個對象之間的內(nèi)在關(guān)系。接下來給出主題樹結(jié)構(gòu)模型的相關(guān)定義和描述。
同本體類似,主題樹也是一個五元組集合,其中,主題對應(yīng)于本體中的概念,主題層次關(guān)系對應(yīng)于本體中的關(guān)系。根據(jù)主題是否是最上層或最下層,主題分為根主題、葉子主題和中間主題。根據(jù)主題的父子層關(guān)系又分為父主題和子主題。例如,一個四層結(jié)構(gòu)的主題樹,包括文檔層、根主題層、葉子主題層、概念層。文檔層只有一個根節(jié)點,根主題層是一系列根主題節(jié)點,即對于每一篇文檔而言,可以看成是根主題按照一定比例的混合,因此,一篇文檔可以用在根主題空間上的多項分布來表示;葉子主題層由一系列葉子主題構(gòu)成,依此類推,每一個根主題可以表示成葉子主題上的多項分布,因此每一個根主題是葉子主題層中所有的節(jié)點按照一定比例的混合。所有的葉子主題均是概念層中所有概念上的多項分布。葉子主題層是最為關(guān)鍵的一層,只有該層節(jié)點才能具有事件實例。
主題樹的根結(jié)點為文本流,我們對主題樹做了進(jìn)一步限制,假設(shè)主題樹中的節(jié)點有明顯的層數(shù),即任意兩個不相鄰層節(jié)點是不允許有鏈接的,使得主題樹具有明顯的層次關(guān)系。對于主題樹中的主題,它可以用概念空間上的多項分布來表示,由于概念空間的維度一般很大,在實驗中為了便于展示,一般選取Top k個關(guān)鍵的概念來代表該主題。由于概念完全來自于領(lǐng)域本體中的概念集合,為了體現(xiàn)語義的特點,利用本體論中的概念擴(kuò)展,將一定范圍內(nèi)與該主題的概念相關(guān)的概念進(jìn)行相似度和概念方法匹配,匹配的方法是基于領(lǐng)域本體中概念之間的關(guān)系,得到匹配程度較高的若干概念,并將它們一起加入到主題樹的主題概念中,實現(xiàn)了語義擴(kuò)展,從而在一定程度上增強(qiáng)了主題的語義表達(dá)能力。
需要注意的是,主題樹可以在根主題層和葉子主題層加入任意多層中間主題,其中每個父主題層中的任意節(jié)點是相鄰下一層的子主題上的多項分布。由于從Dirichlet分布抽樣得到的樣本是多項分布,因此從根主題層到葉子主題層,每一層逐層都可以用一個Dirichlet分布來表示,其中每一個父節(jié)點均是該Dirichlet分布的一個樣本。事實上,用有向無環(huán)圖來描述該主題樹結(jié)構(gòu)更為確切,這里所謂的方向一般是從高層次節(jié)點到低層次節(jié)點。其次,為了便于推理,假設(shè)主題樹中的節(jié)點有明顯的層數(shù)。根據(jù)上面的定義,一個主題是在概念詞匯表上的一種多項分布,同時也可以看成是V維概念詞匯空間中的一個向量,有利于進(jìn)行主題結(jié)構(gòu)模型的推理。
本節(jié)主要給出主題樹基礎(chǔ)上的主題推理方法,主要包括主題層次推理、主題相似度計算和事件轉(zhuǎn)移度計算,它們構(gòu)成了主題樹構(gòu)建和推理的過程。其中,主題層次推理能將任何層次上的主題表示成概念空間上的多項分布,它和上一小節(jié)給出的主題樹結(jié)構(gòu)模型是密不可分的,共同構(gòu)成了多粒度主題模型。
3.1 主題層次推理
主題可表示成行向量,即V維概念空間中處于單型區(qū)域的點,根據(jù)主題樹的定義,只有葉子節(jié)點才能表示成概念集上的多項分布,因此需要將主題樹中上層節(jié)點主題轉(zhuǎn)換成概念空間上的多項分布。本小節(jié)主要討論給定主題樹中層與層間的多項分布關(guān)系,如何將任意給定主題映射到概念空間上,即主題的層次推理。由于主題樹是針對某個具體的文本流而言的,也即一個文本流對應(yīng)一個主題樹結(jié)構(gòu),我們對該文本流構(gòu)建領(lǐng)域本體,概念表則由所有的本體概念構(gòu)成。
定義5 主題層矩陣(Topic Lever Matrix,TLM)。若主題樹的第i層主題個數(shù)為Ni,其下一層子主題個數(shù)為Ni+1,i層主題層中的所有主題都可以用下一層主題的多項分布表示或向量表示,從而i層主題層中的所有主題構(gòu)成了一個Ni×Ni+1矩陣,我們稱之為主題層矩陣,表示為式(5)。
其中第j個行向量[ρj1,ρj2,...,ρjNi+1]表示第i層主題層的第j個主題在其子主題空間上的權(quán)重分配情況,則我們有引理1。
證明: 將MC寫成列向量形式,列向量中的每一個元素看成是一個行向量。拆開分析得式(7)。
因父主題是各個子主題的比例混合,因此有式(8)。
從上述引理1可知,任何一個主題均可以表示成該主題在其子主題層的多項分布向量與主題層矩陣的乘積。下面的定理告訴我們?nèi)绾斡酶拍羁臻g的一個向量來表示任意層主題。若從下往上數(shù),葉子主題層被稱為第一層,則葉子主題的父主題層被稱為第二層,依此類推。
其中M的右下標(biāo)為該矩陣的大小。
證明: 采用數(shù)學(xué)歸納法證明。
則根據(jù)引理1,第n+ 1層某個主題為
對于任意n,均成立,因此,命題得證□
從定理1可知,我們將所有的主題全部映射到概念空間,即任意層主題都可表示成V維向量空間中的向量,很容易證明向量的元素之和為1。則每個主題均可表示成概念集合上的多項分布,即概念集合的線性組合。這在語義上很容易解釋,更容易在計算機(jī)上進(jìn)行推理和計算,主題的層次關(guān)系則用主題樹來刻畫。
需要注意,主題樹中的概念表是語料庫相關(guān)的,本文擬采用自動抽取方法對語料庫進(jìn)行概念表的自動構(gòu)建。構(gòu)建質(zhì)量的好壞對主題檢測以及主題演化任務(wù)的結(jié)果有著直接的影響。一般來說,對語料庫首先采用分詞,然后進(jìn)行去停用詞操作。根據(jù)停用詞表中去除各種常見的停用詞,剩下的一些詞語基本構(gòu)成了概念表中的主要概念,為了確保質(zhì)量,有時候需要領(lǐng)域?qū)<覅⑴c決策。
本小節(jié)同主題樹中的主題一起構(gòu)成了本文提出的基于主題樹的主題語義描述方法。下面將針對另外兩個推理任務(wù)進(jìn)行研究,包括主題的相似度計算和主題事件的轉(zhuǎn)移度計算。而這兩個計算方法構(gòu)成了圖1顯示的文本流主題檢測框架中3大研究任務(wù)的基礎(chǔ)。
3.2 主題相似度計算
主題相似度計算對于主題樹的層次結(jié)構(gòu)具有一定的指導(dǎo)作用,主要探究主題與主題之間的潛在空間語義關(guān)系。由于主題是采用分布來表示的,為了計算主題之間的相似度,傳統(tǒng)方法采用KL散度。主題p到q的相似度度量方法如式(10)所示。
另外一種做法是通過計算向量的夾角余弦得到兩個主題的相似度。前者是非對稱的度量,從主題Tp到Tq的度量并不等于從主題Tq到Tp的度量。文獻(xiàn)[7]采用對稱的測度sym-KL如式(11)所示。
當(dāng)構(gòu)造好一棵主題樹,也可以根據(jù)樹節(jié)點之間的最短路徑距離結(jié)合之前的相似度結(jié)果進(jìn)行加權(quán)求和來計算主題的最終相似度,我們稱之為sim散度,其計算公式為式(12)。
其中shortest(p,q)表示兩個節(jié)點之間的最短路徑長度,all(T)表示兩個節(jié)點的所有出入度總和。
3.3 事件轉(zhuǎn)移度計算
事件轉(zhuǎn)移度計算用于進(jìn)行基于事件的時間演化模式推理,它主要研究兩個事件之間的潛在時間語義關(guān)系。
定義8: 事件轉(zhuǎn)移度(event transition)。事件轉(zhuǎn)移描述的是從一個事件到另一個事件之間的因果依賴程度或相關(guān)性,也即,起始事件導(dǎo)致后續(xù)事件發(fā)生的原因程度大小。采用條件概率ET(estart,eend)=p(eend|estart)來表示,其中ET(estart,eend)∈[0,1]。
事件轉(zhuǎn)移度可以看成一個二元函數(shù),描述的是始發(fā)事件引起后續(xù)事件的成因大小,由于時間的不可逆性,事件轉(zhuǎn)移度也是不可逆的。另外結(jié)合事件的時間、人物、對象等元數(shù)據(jù)信息和事件的多項分布,則事件et1(loc1,obj1,p)到事件et2(loc2,obj2,q)的轉(zhuǎn)移度ET(et1,et2)如式(13)所示。
其中,dice(X,Y)為戴斯函數(shù),如式(14)所示。
事件轉(zhuǎn)移度一般用來描述起始事件到后續(xù)事件的轉(zhuǎn)移程度,即起始事件引起后續(xù)事件發(fā)生的程度大小。
主題相似度計算和事件轉(zhuǎn)移度計算分別揭示了文本流中主題的潛在空間結(jié)構(gòu)特征和潛在時間演化特征,是文本流中主題檢測和演化研究的基礎(chǔ)。
4.1 數(shù)據(jù)集準(zhǔn)備
本小節(jié)對主題樹結(jié)構(gòu)模型在真實新聞文本流數(shù)據(jù)上進(jìn)行實驗驗證。為了獲得真實的新聞報道數(shù)據(jù)集,采用開源網(wǎng)絡(luò)爬蟲工具Heritrix 1.14.0,自行設(shè)計的抽取器和過濾器從雅虎英語官方網(wǎng)址中抽取新聞報道。通過該工具獲得26 578篇有效的頁面文檔,時間跨度從2011年三月份到2011年五月份。實驗語料庫所包含的主要主題事件如表1所示。將雅虎門戶網(wǎng)站主題分類瀏覽的類別信息作為評測的基準(zhǔn),考慮多粒度主題的層次性問題,結(jié)合專家人工分類和整理的方法,結(jié)合以上兩種方式得到主題和事件的baseline,同該基準(zhǔn)對比用于評測計算方法的準(zhǔn)確性。
表1 實驗語料包含的葉子主題事件
4.2 實驗設(shè)計
本實驗主要目的是通過實例說明并驗證主題樹相比較于已有的主題層次模型能表達(dá)更豐富的語義結(jié)構(gòu)和概念。在驗證結(jié)構(gòu)之前,實驗對提出的基于sim散度的相似度計算方法跟已有的KL散度等計算方法進(jìn)行對比,從而評測各種計算方法的準(zhǔn)確性。采用F-score指標(biāo)來評測主題相似度計算方法的準(zhǔn)確度。其中,F(xiàn)-score綜合了precision和recall,用來評測模型或計算方法的性能。由于新聞?wù)Z料的precision比recall更重要一些,設(shè)λ=0.6。如式(15)所示。
為了驗證和構(gòu)建這樣一個主題樹結(jié)構(gòu),需要抽取事件、主題,并通過計算主題之間的相似度來構(gòu)建這些對象之間的關(guān)聯(lián)。本實驗采用Thomas Hofmann的概率潛在語義分析pLSA模型[8]對概念和主題進(jìn)行抽取。為更好地獲取文本流事件,根據(jù)文本流新聞的規(guī)范化結(jié)構(gòu),提取了新聞中的元數(shù)據(jù),包括新聞時間、主要關(guān)鍵字,對于難以提取的地點和人物對象等元數(shù)據(jù),我們采用與領(lǐng)域本體中的概念相匹配的方法,因此能較好地捕獲地點、人物和對象等元數(shù)據(jù)信息。
為了模擬真實的文本流環(huán)境,采用Heritrix從網(wǎng)絡(luò)上抓取和抽取過濾文件,按5天的時間跨度來分批次執(zhí)行pLSA。同時,在每個時間塊上進(jìn)一步執(zhí)行pLSA算法,最后得到兩層主題層次結(jié)構(gòu),我們將抽取的主題進(jìn)行主題相似度計算,從而構(gòu)造出各個主題之間的相似度鏈接。當(dāng)相似度達(dá)到某個閾值,將該鏈接加入到主題樹中。
4.3 結(jié)果分析
本實驗對3種主題相似度計算公式在語料庫的baseline基礎(chǔ)上進(jìn)行了實驗對比,采用F-score評測我們提出的sim散度同cosine夾角余弦、KL散度和sym-KL這3種主題相似度計算方法的準(zhǔn)確度,得到的結(jié)果對比表如表2所示。
表2 夾角余弦、KL散度、對稱散度和sim散度的F-score
從上面的數(shù)據(jù)顯示來看,我們提出的sim散度相對于其他度量的效果平均略高,但優(yōu)勢不明顯。另外,由于E1主題本身具有更大的辨識度,因此,其F-score值相比較于其他兩個根主題而言略顯優(yōu)勢。
本實驗只基于sim散度構(gòu)建主題樹,效果如圖2所示。對于新聞文本流數(shù)據(jù)考慮兩種屬性,影響力和關(guān)注度,因此圖2只體現(xiàn)了這兩種屬性,本文只討論主題上的空間語義結(jié)構(gòu)模式,對于屬性的時間演化模式不在本文討論范圍。圖2沒有顯示概念層是因為系統(tǒng)抽取了top 10概念詞作為子主題的語義表示,為方便起見,只顯示前3、4個概念詞。
圖2 采用pLSA對新聞文本流抽取的主題樹結(jié)構(gòu)效果圖
本文提出的基于主題樹的主題結(jié)構(gòu)模型不僅包含了主題之間的層次關(guān)系,也包含了每個葉子節(jié)點的事件對象, 且在每個主題上均具有屬性,如圖2,這種豐富的主題結(jié)構(gòu)比簡單的層次主題結(jié)構(gòu)更能深層刻畫文本流主題語義特征。
表3 實驗語料抽取的事件
本文主要描述主題空間結(jié)構(gòu)建模問題,包括主題的表示,主題的結(jié)構(gòu)模型,與主題相關(guān)的屬性、事件以及關(guān)系的描述。該模型利用領(lǐng)域本體的特點,將主題同本體作一一映射,即主題對應(yīng)概念、主題的屬性對應(yīng)概念的屬性、事件對應(yīng)實例、主題樹本身對應(yīng)關(guān)系。在主題的層次關(guān)系上能挖掘主題間的相似關(guān)聯(lián)度和主題的抽象粒度,在事件的轉(zhuǎn)移分析上能挖掘主題的轉(zhuǎn)移演化規(guī)律,在屬性值的計算上能挖掘主題的生命周期規(guī)律。其中,后兩者是今后的研究重點。在真實新聞?wù)Z料庫上的驗證實驗結(jié)果表明,主題樹相比較于其他簡單的主題結(jié)構(gòu)模型而言,更能深層次挖掘文本流中主題的潛在空間語義特征,且該結(jié)構(gòu)模型具有的其他核心對象使得主題樹結(jié)構(gòu)模型能有效適應(yīng)于主題的時間和空間挖掘任務(wù),從而更方便挖掘文本流中主題時間和空間語義特征。同時,模型可擴(kuò)展至無限多層,具有良好的可擴(kuò)展性。
事件轉(zhuǎn)移度一般是用來描述起始事件到后續(xù)事件的轉(zhuǎn)移程度,即起始事件引起后續(xù)事件發(fā)生的程度大小,上述方法還不能完全表達(dá)這種程度的大小,因此在后續(xù)工作中將進(jìn)一步研究事件的轉(zhuǎn)移度,從而方便構(gòu)建基于事件的主題演化圖。
對主題屬性開展生命周期研究將有利于突發(fā)事件檢測,熱點問題識別和主題預(yù)測,本文對這個問題尚未展開討論,這些也是我們后續(xù)工作的重點。
[1] 方奇,劉奕群,張敏等.基于群體智慧的Web訪問日志會話主題識別研究[J]. 中文信息學(xué)報,2011,25(1): 35-40.
[2] J Allan, J Carbonell, G Doddington, et al. Topic detection and tracking pilot study: Final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, 1998: 194-218.
[3] D M Blei, A Y Ng, M I Jordan. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[4] W Li, A Mccallum, W Cohen. et al. Dag-structured mixture models of topic correlations[C]//Proceedings of International Conference on Machine Learning (ICML’06), 2006: 577-584.
[5] Berendt B, Subasic L. Measuring graph topology for interactive temporal event detection[J]. Kunstliche Intelligenz, 2009, 23(2): 11-17.
[6] 權(quán)小軍,林洋港,羅奇鳴,等. 基于概率主題的文本層次分類[J]. 中國科學(xué)技術(shù)大學(xué)學(xué)報,2009,39(8): 875-879.
[7] 張琪,陳千,郭鑫. 基于主題本體樹的文本流層次主題檢測技術(shù)[J]. 微電子學(xué)與計算機(jī),2013,30(7): 60-63.
[8] Thomas Hofmann. Probabilistic Latent Semantic Indexing[C]//Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999.
Multi- granularity Topic Structure Modeling in Text Stream
CHEN Qian, GUO Xin, WANG Suge, ZHANG Hu
(School of Computer and Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China)
Topic Detection has been widely used in text mining and NLP, while the basis of which is topic structure modeling. In this paper, we propose a semantic hierarchical topic structure model to describe multi-granularity topic structure. This model utilizes the characteristics of domain ontology, with each concept in the ontology mapped to a topic. The concepts in concept list are respresented as topic-tree leaf nodes, and nodes in each layer can be treated as multinomial mixture distribution on the lower layer nodes. This delicate structure is easily adapted to multi-granularity topic structure in real world text stream. Experiment showed that the structure model reflect rich multi-granularity semantic feature of topic.
topic detection; multi-granularity topic modeling; text stream
陳千(1983—),博士,講師,主要研究領(lǐng)域為機(jī)器學(xué)習(xí)、文本挖掘、主題檢測。E?Mail:chenqian@sxu.edu.cn郭鑫(1982—),博士,講師,主要研究領(lǐng)域為機(jī)器學(xué)習(xí)、數(shù)據(jù)降維、文本挖掘。E?mail:guoxinjsj@sxu.edu.cn王素格(1964—),教授,博士,博士生導(dǎo)師,主要研究領(lǐng)域為中文信息處理、文本傾向分析、機(jī)器學(xué)習(xí)。E?Mail:wsg@sxu.edu.cn
1003-0077(2015)01-0118-08
2013-06-27 定稿日期: 2014-09-26
國家自然科學(xué)基金(61403238,61100138);山西省自然科學(xué)基金(2014021022-1,2011011016-2);山西省回國留學(xué)人員科研資助項目(2013-022)
TP391
A