閆 蓉,高光來(lái)
(1. 內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021;2. 內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,內(nèi)蒙古 呼和浩特 010021)
概率主題模型,如LDA(latent dirichlet allocation)[1]和PLSA(probabilistic latent semantic analysis)[2]為用戶在海量信息中篩選和挖掘有效信息發(fā)揮了重要作用[3]。目前,已經(jīng)有很多工作致力于構(gòu)建新的主題模型和改進(jìn)算法來(lái)捕獲主題結(jié)構(gòu)[4-6]及實(shí)現(xiàn)主題模型的可視化[7-9]。該類文本主題分析技術(shù)多數(shù)為利用統(tǒng)計(jì)方法實(shí)現(xiàn)文本主題獲取,通??紤]詞頻較大的詞項(xiàng)對(duì)于文本內(nèi)容的貢獻(xiàn)。核心假設(shè)是利用文本集中包含特定數(shù)目的潛在主題變量,來(lái)構(gòu)建文本語(yǔ)義描述空間。這些數(shù)目的潛在主題變量在表達(dá)文本集固有抽象的同時(shí),也利用多個(gè)不同主題變量抽象地表示文本的不同語(yǔ)義, 實(shí)現(xiàn)了文本
間的區(qū)別。但這種方法由于受到其概率主題建模機(jī)理的限制,文本主題分析結(jié)果并不理想。原因有三點(diǎn): 第一,利用統(tǒng)計(jì)方法獲取這些潛在主題變量的同時(shí),假設(shè)各潛在主題變量之間是相互獨(dú)立的。盡管各潛在主題變量之間有結(jié)構(gòu),但潛在主題變量?jī)?nèi)部描述卻無(wú)結(jié)構(gòu)、無(wú)聯(lián)系。而實(shí)際情況是,各潛在主題變量在表達(dá)文本時(shí),它們之間并不是孤立的。同一詞項(xiàng)會(huì)同時(shí)出現(xiàn)在多個(gè)不同潛在主題變量中,使得利用潛在主題變量實(shí)現(xiàn)文本內(nèi)容表達(dá)效用降低。第二,文本主題建模所抽象表達(dá)的語(yǔ)義,是通過(guò)描述各潛在主題變量中排名靠前的那部分詞項(xiàng)的分布來(lái)實(shí)現(xiàn),但這些詞項(xiàng)間并無(wú)明顯關(guān)聯(lián)關(guān)系,故人工界定主題解釋非常困難。第三,各文本語(yǔ)義由于被“強(qiáng)制”利用特定數(shù)目的潛在主題變 量表達(dá), 因“強(qiáng)制主
題”問題(forced topic problem)[10],可能會(huì)造成對(duì)不同文本的主題表達(dá)結(jié)果一致,無(wú)法有效辨識(shí)文本語(yǔ)義。尤其是對(duì)短文本的主題分析,會(huì)影響到與之相關(guān)的諸多文本處理任務(wù)。如,文本檢索和文本分類等。
到目前為止,有諸多研究工作都致力于改善這種狀況。其中值得關(guān)注的是,在過(guò)去的幾十年間,大量的數(shù)據(jù)分析表明“無(wú)標(biāo)度”特性廣泛存在于各種網(wǎng)絡(luò)中。近年來(lái),學(xué)術(shù)界對(duì)語(yǔ)言的社會(huì)網(wǎng)絡(luò)分析有較多成果[11-13],使得我們可以實(shí)現(xiàn)文本的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)。并利用現(xiàn)有社會(huì)網(wǎng)絡(luò)分析技術(shù)對(duì)其進(jìn)行分析和研究,重新審視和實(shí)現(xiàn)文本理解。
本文致力于結(jié)合主題內(nèi)部語(yǔ)義耦合關(guān)系與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析,識(shí)別和解釋文本主題語(yǔ)義,梳理和獲取更加細(xì)化的主題分析結(jié)果,提出一種基于主題網(wǎng)絡(luò)的偽主題分析方法(pseudo topic analysis, PTA)。通過(guò)構(gòu)造文本主題網(wǎng)絡(luò)圖,旨在通過(guò)對(duì)各主題網(wǎng)絡(luò)的社區(qū)內(nèi)部結(jié)構(gòu)分析和解釋,獲取描述各主題詞項(xiàng)之間更加細(xì)化的語(yǔ)義關(guān)聯(lián)關(guān)系。調(diào)整主題網(wǎng)絡(luò)中各詞項(xiàng)重要度,凸顯描述主題語(yǔ)義的詞項(xiàng),實(shí)現(xiàn)豐富和補(bǔ)充主題內(nèi)容表達(dá),有助于更好地解釋主題表達(dá)內(nèi)涵。
復(fù)雜網(wǎng)絡(luò)顯著的動(dòng)力學(xué)特征之一就是具有社區(qū)結(jié)構(gòu)[14]。即社區(qū)內(nèi)各節(jié)點(diǎn)連接緊密,但兩個(gè)社區(qū)之間節(jié)點(diǎn)連接稀疏。知曉復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu),對(duì)更準(zhǔn)確地理解并分析復(fù)雜系統(tǒng)的拓?fù)浣Y(jié)構(gòu)及動(dòng)力學(xué)特性起著重要的作用。關(guān)于復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的研究主要包括兩種: 社區(qū)結(jié)構(gòu)及關(guān)聯(lián)關(guān)系的研究和社區(qū)結(jié)構(gòu)識(shí)別的研究。
關(guān)于文本網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)研究,大體包括與文本處理相關(guān)具體任務(wù)實(shí)現(xiàn)和文本主題內(nèi)容分析兩種。其中,相關(guān)任務(wù)實(shí)現(xiàn)包括詞義消歧[15]、文本分類[16]和信息推薦[17]等。文本的主題內(nèi)容分析主要集中對(duì)文本主題識(shí)別研究[9,18-22]。Smith等[9]通過(guò)獲取主題內(nèi)各詞項(xiàng)間關(guān)聯(lián)關(guān)系構(gòu)建各主題內(nèi)部詞項(xiàng)間的網(wǎng)絡(luò)關(guān)系圖和主題間的網(wǎng)絡(luò)關(guān)系圖。但該文所構(gòu)建的詞項(xiàng)間的網(wǎng)絡(luò)關(guān)系圖僅考慮了主題內(nèi)部各詞項(xiàng)間的局部關(guān)聯(lián)關(guān)系,并未充分考慮各詞項(xiàng)在文本數(shù)據(jù)集中的全局關(guān)聯(lián)關(guān)系。Zhou等[18]利用社會(huì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,提出一種自動(dòng)文本主題生成方法HLSM。Lancichinetti等[19]利用社區(qū)發(fā)現(xiàn)方法,優(yōu)化概率主題建模結(jié)果。Arruda等[20]提出新的文本社會(huì)網(wǎng)絡(luò)表示方法,同時(shí)兼顧文本內(nèi)容和主題結(jié)構(gòu),獲取詞項(xiàng)間的語(yǔ)義關(guān)聯(lián)關(guān)系。Akimushkin 等[21]研究了文本中不同部分的詞共現(xiàn)網(wǎng)絡(luò)的拓?fù)溲莼hen等[22]利用社區(qū)識(shí)別算法實(shí)現(xiàn)文本主題發(fā)現(xiàn),其工作本質(zhì)上構(gòu)建的是一種基于知識(shí)源的主題網(wǎng)絡(luò)圖,通過(guò)模塊度計(jì)算劃分社區(qū)獲取主題分布,并利用各主題節(jié)點(diǎn)的緊度值評(píng)估其對(duì)于文本內(nèi)容貢獻(xiàn)的重要程度。
但是,這些方法并沒有從主題內(nèi)部各詞項(xiàng)間所具備的潛在語(yǔ)義耦合關(guān)系與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相結(jié)合,實(shí)現(xiàn)對(duì)文本各主題的理解。從某種角度而言,其分析結(jié)果仍是一種粒度較粗的文本語(yǔ)義分析。但事實(shí)是,出現(xiàn)在不同主題中的相同詞項(xiàng)對(duì)于主題內(nèi)容貢獻(xiàn)程度不同。其不同的語(yǔ)義貢獻(xiàn)程度不僅僅體現(xiàn)在詞項(xiàng)-主題概率分布中的概率值大小的差異,還在于詞項(xiàng)間語(yǔ)義關(guān)聯(lián)關(guān)系的強(qiáng)度程度不同所體現(xiàn)的語(yǔ)義表達(dá)不一致。
近幾年,付京成等[23-24]的研究致力于通過(guò)研究社區(qū)內(nèi)部結(jié)構(gòu),從而獲取更加合理的網(wǎng)絡(luò)中各節(jié)點(diǎn)在社區(qū)結(jié)構(gòu)中的作用。即,在社區(qū)結(jié)果內(nèi)部識(shí)別兩種不同的社區(qū)組織結(jié)構(gòu)。分別為領(lǐng)導(dǎo)者社區(qū)和自組織社區(qū)。其中,在領(lǐng)導(dǎo)者社區(qū)內(nèi)部存在一個(gè)或者多個(gè)具有較大度數(shù)的節(jié)點(diǎn),其地位要高于自組織社區(qū)中各節(jié)點(diǎn)。各領(lǐng)導(dǎo)節(jié)點(diǎn)不僅連接了社區(qū)中其余節(jié)點(diǎn),還保證了社區(qū)的稠密和維護(hù)社區(qū)之間的通信,體現(xiàn)的是網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的中心性原則。自組織社區(qū)內(nèi)各節(jié)點(diǎn)度數(shù)基本一致,各節(jié)點(diǎn)在社區(qū)中的地位等同,體現(xiàn)的是網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的自組織性原則。
綜上,我們可在文本主題建模的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)中,通過(guò)社區(qū)劃分識(shí)別其內(nèi)部的領(lǐng)導(dǎo)社區(qū)和自組織社區(qū),實(shí)現(xiàn)從復(fù)雜網(wǎng)絡(luò)社區(qū)內(nèi)部結(jié)構(gòu),來(lái)審視主題變量在抽象表達(dá)文本語(yǔ)義過(guò)程中的生成機(jī)制。從而,細(xì)化明確各主題變量所隱含的內(nèi)部語(yǔ)義。這將有助于文本的主題語(yǔ)義分析,減少“強(qiáng)制主題”問題對(duì)文本分析影響,獲取更加精細(xì)的文本間語(yǔ)義相似度。
基于主題網(wǎng)絡(luò)偽主題的分析過(guò)程,本質(zhì)上是在各主題的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中,分析和識(shí)別其隱含的社區(qū)結(jié)構(gòu)。并將表達(dá)主題內(nèi)涵的詞項(xiàng)通過(guò)社區(qū)內(nèi)部結(jié)構(gòu)分析,實(shí)現(xiàn)主題內(nèi)部語(yǔ)義耦合關(guān)系與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相結(jié)合,獲取新的主題特征來(lái)描述原主題分析結(jié)果。即不斷地修正主題網(wǎng)絡(luò)中各詞項(xiàng)節(jié)點(diǎn)的重要程度及詞項(xiàng)節(jié)點(diǎn)對(duì)之間的關(guān)聯(lián)程度,將其作為新的主題分析結(jié)果。圖1為偽主題分析獲取構(gòu)架圖。
圖1 偽主題分析獲取構(gòu)架圖
本文采用標(biāo)準(zhǔn)的LDA對(duì)文本數(shù)據(jù)集進(jìn)行主題建模。設(shè)文本數(shù)據(jù)集D有K個(gè)主題T={T1,T2,…,TK},即有K個(gè)主題網(wǎng)絡(luò)圖,表示為G={G1,G2,…,GK}。其中,每一個(gè)主題網(wǎng)絡(luò)可以表示為無(wú)向圖Gi=(Vi,Ei),i∈[1,K]。每個(gè)主題網(wǎng)絡(luò)的節(jié)點(diǎn)集,表示為V={v1,v2,…,vn},節(jié)點(diǎn)總數(shù)記為n=|V|,節(jié)點(diǎn)v的度記為kv;每個(gè)網(wǎng)絡(luò)的邊集E中每條邊ei,j對(duì)應(yīng)V集中節(jié)點(diǎn)對(duì)(vi,vj)之間的連接關(guān)系,邊總數(shù)記為m=|E|。圖2為構(gòu)建的主題網(wǎng)絡(luò)圖。
圖2 構(gòu)建的主題網(wǎng)絡(luò)圖
其中,在每個(gè)主題網(wǎng)絡(luò)圖中,各節(jié)點(diǎn)是描述該主題的各詞項(xiàng)節(jié)點(diǎn),各節(jié)點(diǎn)的權(quán)重體現(xiàn)的是該詞項(xiàng)節(jié)點(diǎn)描述主題內(nèi)容的重要程度。節(jié)點(diǎn)對(duì)之間的連邊權(quán)重體現(xiàn)各詞項(xiàng)在描述主題語(yǔ)義時(shí),所體現(xiàn)的語(yǔ)義關(guān)聯(lián)關(guān)系。具體的定義如下所述。
2.1.1 節(jié)點(diǎn)的權(quán)重定義
本文把數(shù)據(jù)集主題建模后,將描述各主題排名靠前的n個(gè)詞項(xiàng)作為各主題網(wǎng)絡(luò)圖的n個(gè)詞項(xiàng)節(jié)點(diǎn)。節(jié)點(diǎn)的權(quán)重即為該節(jié)點(diǎn)在主題網(wǎng)絡(luò)中的重要度。實(shí)質(zhì)上,本文的偽主題分析就是從各主題網(wǎng)絡(luò)中,抽取出更能抽象表達(dá)各主題內(nèi)容的節(jié)點(diǎn)描述特征,并利用這些新的描述特征來(lái)構(gòu)造數(shù)據(jù)集的偽主題分析結(jié)果。這就要求這些新的描述特征,不僅能夠抽象各詞項(xiàng)節(jié)點(diǎn)在各個(gè)主題網(wǎng)絡(luò)中的重要程度,同時(shí)也要增加不同主題網(wǎng)絡(luò)之間的區(qū)別?;谝陨显瓌t,將主題網(wǎng)絡(luò)Gi中各節(jié)點(diǎn)的權(quán)重定義為式(1)。
其中,N(vj)表示節(jié)點(diǎn)vj鄰接節(jié)點(diǎn)的集合,φi,vj表示在主題i(即主題網(wǎng)絡(luò)Gi)中第j個(gè)詞項(xiàng)vj的概率值,kvj表示節(jié)點(diǎn)vj的度數(shù)。w(v,w)表示節(jié)點(diǎn)對(duì)(v,w)之間的邊權(quán)重。
2.1.2 邊及邊權(quán)重定義
判斷每個(gè)主題網(wǎng)絡(luò)中每個(gè)詞項(xiàng)節(jié)點(diǎn)對(duì)之間是否存在連邊,可以通過(guò)計(jì)算該節(jié)點(diǎn)對(duì)之間是否存在某種語(yǔ)義聯(lián)系來(lái)獲取。本文將利用工具Word2Vec[注]http://code.google.com/p/word2vec,將每個(gè)詞項(xiàng)節(jié)點(diǎn)用詞向量來(lái)抽象表示,通過(guò)計(jì)算兩個(gè)詞項(xiàng)節(jié)點(diǎn)向量之間的相似度值的大小,判斷該節(jié)點(diǎn)對(duì)之間是否存在連邊。若節(jié)點(diǎn)對(duì)相似度大于0,則該節(jié)點(diǎn)對(duì)存在連邊。反之,該節(jié)點(diǎn)對(duì)不存在連邊。
為了能夠更加準(zhǔn)確地度量描述主題的各詞項(xiàng)節(jié)點(diǎn)對(duì)的關(guān)聯(lián)強(qiáng)度,需要對(duì)主題網(wǎng)絡(luò)中節(jié)點(diǎn)連邊的權(quán)重進(jìn)行定義。通常,各種不同類型的復(fù)雜網(wǎng)絡(luò)中邊權(quán)重往往具有一定的實(shí)際意義,有助于社區(qū)的識(shí)別。因此,本文在定義主題網(wǎng)絡(luò)圖中節(jié)點(diǎn)連邊權(quán)重的時(shí)候,不僅要考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),還要考慮節(jié)點(diǎn)之間連邊的實(shí)際意義。這里,我們的工作主要是想通過(guò)對(duì)主題的網(wǎng)絡(luò)結(jié)構(gòu)描述,實(shí)現(xiàn)從網(wǎng)絡(luò)結(jié)構(gòu)角度描述文本特征,彌補(bǔ)統(tǒng)計(jì)方法對(duì)文本語(yǔ)義結(jié)構(gòu)刻畫的不足。因此,在主題網(wǎng)絡(luò)的邊權(quán)重定義時(shí),要從整個(gè)數(shù)據(jù)集層面來(lái)考慮。本文的邊權(quán)重定義如式(2)所示。
其中,
其中,|E(G)|表示圖G的邊總數(shù)。sim_con和sim_word分別表示節(jié)點(diǎn)對(duì)之間的網(wǎng)絡(luò)拓?fù)浣Y(jié)相似度和詞向量相似度。N(v)∩N(w)表示節(jié)點(diǎn)v和節(jié)點(diǎn)w的公共鄰接節(jié)點(diǎn)集合。
描述主題的各詞項(xiàng),在共同抽象地表達(dá)主題語(yǔ)義時(shí),對(duì)主題語(yǔ)義的貢獻(xiàn)程度是不一樣的。首先,體現(xiàn)在詞項(xiàng)—主題概率分布中的概率值大小的不同。通常,概率值較大的詞項(xiàng)認(rèn)為貢獻(xiàn)程度較大。另外,還體現(xiàn)在這些詞項(xiàng)間語(yǔ)義關(guān)聯(lián)關(guān)系的強(qiáng)度不同所體現(xiàn)的語(yǔ)義表達(dá)的不一致。通常,主題所表達(dá)語(yǔ)義是由其中少數(shù)詞項(xiàng)通過(guò)協(xié)調(diào)和語(yǔ)義關(guān)聯(lián)其他詞項(xiàng)實(shí)現(xiàn)的,且其所表達(dá)語(yǔ)義描述較強(qiáng)。同時(shí),其他詞項(xiàng)對(duì)這部分詞項(xiàng)所表達(dá)語(yǔ)義起補(bǔ)充作用,且彼此間關(guān)聯(lián)關(guān)系較弱。這些均為主題內(nèi)部的耦合關(guān)系。
傳統(tǒng)基于統(tǒng)計(jì)的概率主題建模方法,由于受其建模機(jī)理限制,無(wú)法獲取主題內(nèi)部耦合關(guān)系。值得注意的是,這種耦合關(guān)系與社區(qū)內(nèi)部結(jié)構(gòu)非常相似。我們可以利用社區(qū)內(nèi)部結(jié)構(gòu)分析方法應(yīng)用到主題網(wǎng)絡(luò)內(nèi)部耦合關(guān)系的獲取。其中,社區(qū)內(nèi)部結(jié)構(gòu)分為領(lǐng)導(dǎo)者社區(qū)和自組織社區(qū)[23-24]。在領(lǐng)導(dǎo)者社區(qū)內(nèi)部存在少數(shù)幾個(gè)領(lǐng)導(dǎo)節(jié)點(diǎn)高度關(guān)聯(lián)其余節(jié)點(diǎn)。同時(shí),其余節(jié)點(diǎn)必須通過(guò)這幾個(gè)少數(shù)節(jié)點(diǎn)的支配才能相互聯(lián)系。在自組織社區(qū)內(nèi)部各點(diǎn),不存在任意節(jié)點(diǎn)具有支配其他節(jié)點(diǎn)的功能,且社區(qū)內(nèi)部各節(jié)點(diǎn)地位等同。
在付京成等2017年的工作中,通過(guò)計(jì)算社區(qū)內(nèi)各節(jié)點(diǎn)度數(shù)的方差,與相同節(jié)點(diǎn)數(shù)的隨機(jī)零模型的節(jié)點(diǎn)度數(shù)的方差比值作為社區(qū)劃分依據(jù)[24]。但在實(shí)際的網(wǎng)絡(luò)中,節(jié)點(diǎn)屬性描述特征不僅包括節(jié)點(diǎn)度數(shù),還包括具體網(wǎng)絡(luò)中節(jié)點(diǎn)的實(shí)際含義,即節(jié)點(diǎn)點(diǎn)強(qiáng)度。在本文所描述的主題網(wǎng)絡(luò)中,網(wǎng)絡(luò)中各節(jié)點(diǎn)點(diǎn)強(qiáng)度即為其描述主題內(nèi)涵的強(qiáng)度大小。所以,我們對(duì)劃分依據(jù)進(jìn)行了部分調(diào)整,如式(6)所示。
其中,VARreal和VARrand分別表示主題網(wǎng)絡(luò)中社區(qū)的節(jié)點(diǎn)度數(shù)及點(diǎn)強(qiáng)度的方差和對(duì)應(yīng)隨機(jī)社區(qū)的節(jié)點(diǎn)度數(shù)及點(diǎn)強(qiáng)度的方差。隨機(jī)社區(qū)節(jié)點(diǎn)的點(diǎn)強(qiáng)度就是節(jié)點(diǎn)的點(diǎn)度數(shù)。這里,我們采用和文獻(xiàn)[24]相同的閾值標(biāo)準(zhǔn),將1作為閾值。當(dāng)ρ>1時(shí),識(shí)別為領(lǐng)導(dǎo)者社區(qū);當(dāng)ρ<1時(shí),識(shí)別為自組織社區(qū);當(dāng)ρ=1時(shí),既不是領(lǐng)導(dǎo)者社區(qū)也不是自組織社區(qū)。
除此之外,在實(shí)際的主題建模過(guò)程中,一定會(huì)有一部分詞項(xiàng)同時(shí)出現(xiàn)在多個(gè)不同主題描述中的情況發(fā)生。即有部分詞項(xiàng)節(jié)點(diǎn)在社區(qū)識(shí)別過(guò)程中,會(huì)出現(xiàn)在多個(gè)不同社區(qū)中,存在重疊社區(qū)現(xiàn)象。通常,處于重疊社區(qū)的那些節(jié)點(diǎn),對(duì)完成網(wǎng)絡(luò)間語(yǔ)義信息流動(dòng)和不同網(wǎng)絡(luò)間意義的關(guān)聯(lián)起到關(guān)鍵作用。所以,在實(shí)際的主題網(wǎng)絡(luò)社區(qū)識(shí)別結(jié)果中,對(duì)于處理重疊社區(qū)的那部分詞項(xiàng)節(jié)點(diǎn),本文將適當(dāng)增加其節(jié)點(diǎn)屬性重要度。
在整個(gè)偽主題分析獲取構(gòu)架中,最關(guān)鍵的部分就是識(shí)別主題網(wǎng)絡(luò)中最能體現(xiàn)主題語(yǔ)義內(nèi)涵的詞項(xiàng)節(jié)點(diǎn)信息。直觀地講,重要程度大且能夠最大語(yǔ)義關(guān)聯(lián)其他節(jié)點(diǎn)的那些節(jié)點(diǎn),是最有可能體現(xiàn)主題語(yǔ)義內(nèi)涵的。這與社區(qū)內(nèi)部結(jié)構(gòu)中的領(lǐng)導(dǎo)者節(jié)點(diǎn)特點(diǎn)是一致的。本文將各主題網(wǎng)絡(luò)圖結(jié)構(gòu)中,處于領(lǐng)導(dǎo)者社區(qū)且權(quán)重較大的節(jié)點(diǎn),作為體現(xiàn)主題語(yǔ)義內(nèi)容新的主題詞項(xiàng)特征集。
本文將對(duì)中、英兩種不同語(yǔ)料進(jìn)行實(shí)驗(yàn)。其中,中文采用NTCIR8[注]http://research.nii.ac.jp/ntcir/index-en.html提供的新華社簡(jiǎn)體中文四年的
新聞?wù)Z料XINHUA(2002~2005年),包括 308 845 個(gè)文檔,涉及多種主題新聞?wù)Z料。英文采用MEDLINE[注]http://medline.cos.com提供的五年的醫(yī)療文檔語(yǔ)料OHSUMED(1987~1991年),包括 348 566 個(gè)文檔,涵蓋270種醫(yī)學(xué)雜志發(fā)表的醫(yī)療文獻(xiàn)。表1列出了中、英兩個(gè)不同數(shù)據(jù)集的基本情況。
表1 實(shí)驗(yàn)數(shù)據(jù)集描述
本文采用基于模塊度最大化最好的社區(qū)劃分算法之一BGLL算法[25]作為主題網(wǎng)絡(luò)社區(qū)劃分方法。
由于本文所構(gòu)建的主題網(wǎng)絡(luò)是無(wú)社區(qū)劃分標(biāo)簽,所以評(píng)價(jià)標(biāo)準(zhǔn)采用模塊性EQ[26]來(lái)度量社區(qū)發(fā)現(xiàn)質(zhì)量。
設(shè)社區(qū)劃分結(jié)果為C={C1,C2,…,CM},EQ值的計(jì)算如式(7)所示。
其中,M為社區(qū)劃分?jǐn)?shù),Ov表示在最終社區(qū)劃分結(jié)果中節(jié)點(diǎn)v屬于的社區(qū)數(shù),A是原始網(wǎng)絡(luò)的鄰接矩陣,m是社區(qū)劃分前原始網(wǎng)絡(luò)的總邊數(shù)。
本文采用開源的JGibbLDA[注]http://sourceforge.net/progjects/jgibblda/工具實(shí)現(xiàn)對(duì)文本數(shù)據(jù)集的主題建模。設(shè)置初始主題數(shù)目K=10,超參數(shù)設(shè)定α=50/K、β=0.01;Gibbs采樣的估計(jì)迭代次數(shù)設(shè)定為100次,返回主題描述詞項(xiàng)個(gè)數(shù)word_number=20。主題數(shù)目依次取K=10、20,直至100,分別對(duì)數(shù)據(jù)集進(jìn)行主題建模。為了降低少數(shù)低頻詞對(duì)文本建模結(jié)果的影響,實(shí)驗(yàn)預(yù)先去除了數(shù)據(jù)集中詞頻低于5的部分詞項(xiàng)。其中包含XINHUA中130 363個(gè)詞項(xiàng)和OHSUMED中77 322個(gè)詞項(xiàng)。本文利用困惑度Perplexity[6]度量建立的主題模型的生成性能,取困惑度取值最低值對(duì)應(yīng)的主題數(shù)目作為數(shù)據(jù)集的最佳主題數(shù)目K。
模型困惑度值采用式(8)計(jì)算:
其中,Rtest表示有J個(gè)文檔的測(cè)試集,Nj表示第j篇文檔dj包含的詞項(xiàng)數(shù);P(dj)表示模型產(chǎn)生文檔dj的概率。由圖3所示中、 英數(shù)據(jù)集Perplexity值變化曲線,可知中、英文數(shù)據(jù)集最佳主題數(shù)目分別為60和70。
表2為中、 英兩種不同文本數(shù)據(jù)集原始的主題分析結(jié)果(top-20)和經(jīng)過(guò)偽主題分析的樣例結(jié)果比較。圖4為相應(yīng)樣例的偽主題圖結(jié)果描述。
從表2和圖4的結(jié)果可以看出,對(duì)各主題網(wǎng)絡(luò)的偽主題分析結(jié)果不僅可以更加體現(xiàn)主題表達(dá)內(nèi)涵,還進(jìn)一步體現(xiàn)了這些詞項(xiàng)間的關(guān)聯(lián)關(guān)系。
圖5為中英數(shù)據(jù)集各主題網(wǎng)絡(luò)圖模塊性結(jié)果。
從圖5結(jié)果來(lái)看,本文所提方法對(duì)各主題網(wǎng)絡(luò)模塊性整體表現(xiàn)良好。圖5中存在個(gè)別主題的模塊性值較低,分析其主要原因是由于該主題描述中組成詞項(xiàng)關(guān)聯(lián)關(guān)系缺乏影響社區(qū)劃分結(jié)果。
圖3 中英數(shù)據(jù)集Perplexity值變化曲線
XINHUA數(shù)據(jù)集OHSUMED數(shù)據(jù)集主題原始主題分析結(jié)果偽主題分析結(jié)果主題原始主題分析結(jié)果偽主題分析結(jié)果Topic 2增長(zhǎng),去年,今年,美元,經(jīng)濟(jì),出口,下降,增加,統(tǒng)計(jì),同期,達(dá)到,消費(fèi),占,顯示,季度,上升,同比,達(dá),報(bào)告,減少增長(zhǎng),經(jīng)濟(jì),美元,消費(fèi),同期,同比,出口,達(dá)到,上升,統(tǒng)計(jì)Topic 4expression, cells, class,sur-face, lines, complex,ex-pressed, T-cell, molecules, cells., major, bound, interfer-on, HLA-DR, murine, mole-cule, sites, interleukin, dis-tinct, transcripts sites, complex, dis-tinct, interferon, lines, HLA-DR, molecules, cellsTopic 4教育,大學(xué),學(xué)生,學(xué)校,兒童,人才,培訓(xùn),婦女,專業(yè),學(xué)習(xí),就業(yè),青年,培養(yǎng),學(xué)院,青少年,工作,務(wù),職業(yè),高校,社會(huì)培養(yǎng),兒童,職業(yè),工作,婦女,服務(wù),就業(yè),青少年,青年,教育,培訓(xùn),人才Topic16observed, study, studies, dis-tribution, suggesting, rapid, investigated, epitopes, demon-strated, potential, determined, absorption, staining, possibili-ty, labeled, quantitative, re-spect, identical, preparations, investigated staining, deter-mined, potential, i-dentical, rapid, suggesting, possi-bilityTopic 6上海,國(guó)際,舉辦,世界,城市,中心,協(xié)會(huì),來(lái)自,展覽,舉行,活動(dòng),主辦,上海市,成功,申辦,博覽會(huì),今天,中國(guó),世博會(huì),浦東 世界,博覽會(huì),展覽,城市,上海,舉辦,活動(dòng),中心,主辦,協(xié)會(huì),舉行Topic18hospital, patient, support, study, time, program, costs, nursing, programs, status, ad-mitted, elderly, community, care, patients, survey, recom-mended, systems, improve, benefitsunderwent, dura-tion, radiation, preoperative, tumor, surgery
圖5 中英文本集各主題網(wǎng)絡(luò)圖EQ值結(jié)果
總體而言,本文所提方法在主題內(nèi)容發(fā)現(xiàn)過(guò)程中,綜合考慮了網(wǎng)絡(luò)的拓?fù)涮卣骱驮济枋鲋黝}詞項(xiàng)的權(quán)重信息,能夠給出更符合主題所表達(dá)語(yǔ)義的偽表達(dá)結(jié)果。
本文提出了一種基于主題網(wǎng)絡(luò)的偽主題分析
方法。該方法綜合考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和主題網(wǎng)絡(luò)社區(qū)內(nèi)部結(jié)構(gòu),從全局?jǐn)?shù)據(jù)集角度考慮,評(píng)估主題網(wǎng)絡(luò)各社區(qū)節(jié)點(diǎn)重要度,實(shí)現(xiàn)從網(wǎng)絡(luò)結(jié)構(gòu)角度抽象描述文本語(yǔ)義特征,彌補(bǔ)統(tǒng)計(jì)方法對(duì)文本語(yǔ)義結(jié)構(gòu)刻畫的不足。對(duì)實(shí)際文本數(shù)據(jù)集的主題網(wǎng)絡(luò)的偽主題分析實(shí)驗(yàn)中,模塊性表現(xiàn)良好。本文所提方法可以幫助用戶更好地分析和理解大規(guī)模數(shù)據(jù),進(jìn)一步應(yīng)用于文本主題內(nèi)容可視化分析應(yīng)用中。