張志遠(yuǎn),霍緯綱
(1.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300;2.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京210016)
一種基于PL-LDA模型的主題文本網(wǎng)絡(luò)構(gòu)建方法
張志遠(yuǎn)1,2,霍緯綱1
(1.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300;2.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京210016)
Labeled LDA能挖掘出給定主題下的單詞概率分布,但卻無(wú)法分析主題詞之間的關(guān)聯(lián)關(guān)系。采用PMI雖可計(jì)算兩個(gè)單詞的相互關(guān)系,但卻和給定主題失去聯(lián)系。受PMI在窗口中統(tǒng)計(jì)詞對(duì)共現(xiàn)頻率的啟發(fā),提出了一種PL-LDA(Pointwise Labeled LDA)主題模型,可計(jì)算給定主題下詞對(duì)的聯(lián)合概率分布,在航空安全報(bào)告數(shù)據(jù)集上的實(shí)驗(yàn)表明PL-LDA模型所得結(jié)果具有很好的解釋性。利用PL-LDA構(gòu)建了主題文本網(wǎng)絡(luò),該網(wǎng)絡(luò)除能反映主題詞分布外,還可展現(xiàn)它們之間的復(fù)雜關(guān)聯(lián)關(guān)系。
主題模型;文本挖掘;復(fù)雜網(wǎng)絡(luò);PMI
主題建模是文本挖掘中的一項(xiàng)重要研究?jī)?nèi)容,用于在大量文檔構(gòu)成的集合中發(fā)現(xiàn)感興趣的主題及隸屬于這些主題的單詞分布情況,主要分為無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)兩種模型。PLSA[1](Probabilistic Latent Semantic Analysis)是一種無(wú)監(jiān)督學(xué)習(xí)模型,通過(guò)引入潛在主題層,利用極大似然假設(shè)擬合單詞與主題及文檔與主題的概率分布情況。由于PLSA中的參數(shù)個(gè)數(shù)隨文檔數(shù)正比增加,易出現(xiàn)過(guò)擬合問(wèn)題,Blei等[2]提出了LDA(Latent Dirichlet Allocation)模型。LDA也是一種無(wú)監(jiān)督學(xué)習(xí)模型,利用極大后驗(yàn)概率擬合單詞與主題及文檔與主題的概率分布情況。由于其假設(shè)生成主題的多項(xiàng)分布參數(shù)θ符合Dirichlet先驗(yàn)分布,從而消除了由于參數(shù)個(gè)數(shù)隨文檔數(shù)成比例增加導(dǎo)致的過(guò)擬合問(wèn)題。PLSA和LDA均基于一元語(yǔ)言模型,只能發(fā)現(xiàn)單個(gè)詞語(yǔ)的主題概率分布,人們又進(jìn)一步提出了二元主題模型[3](Bigram Topic Model)及多元主題模型[4-5](N-grams Topic Model),用于發(fā)現(xiàn)短語(yǔ)級(jí)別的主題概率分布。
以上無(wú)監(jiān)督學(xué)習(xí)模型中需事先給定隱含主題數(shù)目K,對(duì)于分析獲取的K個(gè)主題,需根據(jù)單詞分布情況人工界定其主題含義,若有明顯無(wú)關(guān)的單詞出現(xiàn)在同一主題下,其解釋就更加困難。實(shí)際使用過(guò)程中,人們更關(guān)心指定主題下的單詞分布情況。如在分析航空安全報(bào)告(Aviation Safety Reports)時(shí)可能會(huì)問(wèn):“發(fā)生高度偏離時(shí)的單詞分布情況是怎樣的?”[6]。有監(jiān)督主題模型[7-9]有效利用了文檔標(biāo)簽信息,可給出明確主題下的單詞分布情況。文獻(xiàn)[7]的supervised LDA模型適用于單標(biāo)簽文檔,文獻(xiàn)[8]的LabeledLDA模型對(duì)多標(biāo)簽文檔效果更好,文獻(xiàn)[9]通過(guò)分析標(biāo)簽頻次及標(biāo)簽間的相關(guān)性提出了FLDA(Frequency-LDA)和DFLDA(Dependency-Frequency-LDA)兩種LDA擴(kuò)展模型,在多標(biāo)簽有偏文檔集合上取得了較好的效果。
有監(jiān)督主題模型可給出明確主題下的單詞分布情況,例如在分析航空安全報(bào)告的地面沖突主題時(shí)單詞概率分布可能為:{tug 0.059,park 0.031,pushback 0.031,ramp 0.029…}[6],表明拖車、停泊、推出和廊橋占主要因素。考慮到地面沖突又分為跑道、滑行道及廊橋沖突等多種情況,若能同時(shí)給出單詞之間的連接關(guān)系從而形成一個(gè)主題文本網(wǎng)絡(luò),且其社區(qū)結(jié)構(gòu)可反映主題不同側(cè)面的單詞聚集及其間的復(fù)雜聯(lián)系,可為分析人員提供更加直觀有效的信息。另外缺乏主題詞間的連接關(guān)系可能導(dǎo)致理解上的困難,如在分析Equipment Problem主題時(shí)出現(xiàn)的單詞first就很令人費(fèi)解,但當(dāng)它與flying連接在一起時(shí)其意義就很明顯了。主題模型的可視化有很多研究成果,Chuang[10]等使用表格形的Termite展示單詞和主題之間的相關(guān)性并用其評(píng)估主題模型的質(zhì)量;Dou[11]等使用樹(shù)形的Topic Rose Tree展示主題間的層次關(guān)系;Smith[12]等使用PMI(Pointwise Mutual Information)對(duì)每個(gè)主題的前n個(gè)單詞兩兩計(jì)算相關(guān)性,并據(jù)此畫(huà)出主題詞間的網(wǎng)絡(luò)關(guān)系圖。此方法中PMI相關(guān)性計(jì)算和主題模型是割裂開(kāi)來(lái)的,計(jì)算的是兩個(gè)詞的全局而非特定主題下的相關(guān)性。另外由于PMI對(duì)噪聲和稀疏數(shù)據(jù)敏感,在小規(guī)模文檔上的可信度較差[13],不適合本文情況。本文主要關(guān)注給定主題下單詞之間的相關(guān)性計(jì)算和主題文本網(wǎng)絡(luò)構(gòu)建問(wèn)題,并提出了一種PL-LDA(Pointwise Labeled LDA)模型。
Labeled LDA[8]是一種有監(jiān)督學(xué)習(xí)方法,其模型如圖1所示。每一篇文檔d由其單詞列表w(d)={w1,w2,…,wNd}和標(biāo)簽列表Λ(d)= {l1,l2,…,lK}組成,其中wi∈{1,…,V},lk∈{0,1}。這里Nd是文檔d的長(zhǎng)度,V是詞匯表大小,K是文檔集合中不同標(biāo)簽的個(gè)數(shù)。在生成文檔d的多項(xiàng)分布參數(shù)θ時(shí)LabeledLDA限制其只能從文檔標(biāo)簽(即Λ(d)中取值為1的lk)對(duì)應(yīng)的α中選取,除此之外,其余均與標(biāo)準(zhǔn)LDA類似。例如若Λ(d)= {0,1,1,0},則θ(d)服從參數(shù)為α(d)= (α2,α3)T的狄利克雷分布(上標(biāo)T表示轉(zhuǎn)置)。觀察到Λ(d)后,標(biāo)簽先驗(yàn)參數(shù)Ф和模型的其余部分滿足d-seperation條件,因此可以和標(biāo)準(zhǔn)LDA一樣使用collapsed Gibbs抽樣算法[14]進(jìn)行訓(xùn)練,文檔d中第i個(gè)位置單詞的主題zi的概率計(jì)算公式為
Labeled LDA主題模型可得到任意主題下單詞的概率分布,即{p(wi|k),i=1,…,V,k=1,…,K}。回憶一下我們的目標(biāo)是不但要找到某主題下概率值高的單詞,還要找到這些單詞之間的關(guān)聯(lián)關(guān)系。假設(shè)兩個(gè)單詞wi和wj在主題k下均具有較大的概率,那么兩者之間是否一定有關(guān)聯(lián)關(guān)系呢?答案顯然是否定的??紤]天氣異常時(shí)暴雨和暴雪均可能概率較大,而兩者同時(shí)出現(xiàn)在一起的可能性卻很小。PMI是一種衡量單詞相關(guān)性的有效方法,首先由Church[15]等引入自然語(yǔ)言計(jì)算領(lǐng)域,并在詞語(yǔ)關(guān)聯(lián)[15-16]和同義詞識(shí)別[17]等領(lǐng)域取得了非常好的效果。計(jì)算公式為
其中,聯(lián)合概率p(x,y)由x和y在某尺寸窗口中共現(xiàn)頻數(shù)f(x,y)除以詞量總規(guī)模N估計(jì)。若文檔規(guī)模不夠大,數(shù)據(jù)太稀疏,PMI的計(jì)算就不可靠,如文獻(xiàn)[13]中處理的單詞總量為2個(gè)billon。由于我們處理的文本規(guī)模較小,不適合采用PMI作為度量指標(biāo)。但受啟發(fā)于其統(tǒng)計(jì)兩個(gè)單詞在尺寸固定窗口中共現(xiàn)頻數(shù)的思想,若兩個(gè)單詞在相同窗口中頻繁同時(shí)出現(xiàn),直觀上感覺(jué)兩者之間應(yīng)存在某種關(guān)聯(lián),因此本文轉(zhuǎn)而計(jì)算兩個(gè)單詞在主題k下的聯(lián)合概率即p(wi,wj|k)。若p(wi|k)和p(wj|k)均較大且p(wi,wj|k)也較大,說(shuō)明兩個(gè)主題詞之間存在較強(qiáng)的關(guān)聯(lián)性;若p(wi|k)和p(wj|k)均較大而p(wi,wj|k)較小(考慮上面的暴雨和暴雪的例子),雖然兩者的關(guān)聯(lián)性不強(qiáng),但其反映了主題k的不同側(cè)面;若p(wi|k)和p(wj|k)只有一個(gè)較大且p(wi,wj|k)也較大,說(shuō)明兩個(gè)單詞之間存在較強(qiáng)的關(guān)聯(lián)性,且概率低的單詞為概率高的單詞提供了額外的解釋信息(考慮上面的first和flying的例子)。
圖1 Labeled LDA模型圖Fig.1 Graphical model of Labeled LDA
圖2 Pointwise Labeled LDA模型圖Fig.2 Graphical model of PointwiseLabeled LDA
2.1 PL-LDA模型
每篇文檔d中所有位置的單詞均生成大小為2L的窗口,因此文檔大小變?yōu)樵瓉?lái)的2L倍,記為dL。所有dL構(gòu)成新的文檔集合DL,則PL-LDA的計(jì)算過(guò)程等同于文檔集為DL和詞匯表為VL的Labeled LDA,而βk,
2.2 窗口大小對(duì)數(shù)據(jù)稀疏的影響
由于窗口的引入,新的詞匯表VL可能遠(yuǎn)大于V,易導(dǎo)致數(shù)據(jù)稀疏問(wèn)題。假設(shè)文檔集合D共包含N個(gè)詞,詞匯表大小為V,則每個(gè)單詞w的平均出現(xiàn)次數(shù)f(w)=N/V。單詞w在所有出現(xiàn)位置上均生成大小為2L的窗口,最多生成2L個(gè)不同的詞對(duì),則VL最大的可能值為f(w)×2L×V= 2NL,即原文檔的2L倍,等于新的文檔集合DL的大小。若真如此,則數(shù)據(jù)太稀疏,計(jì)算也就失去了意義。為此在數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)選取的是2013年22個(gè)異常事件主題的航空安全報(bào)告(詳見(jiàn)3.1),共4 279篇文檔,去掉停用詞后共包含約52.6萬(wàn)個(gè)詞,詞匯表大小約為1.9萬(wàn)。實(shí)驗(yàn)結(jié)果如圖3所示,當(dāng)L取1到5時(shí)VL大概為V*2L的7.5倍。具體地當(dāng)L=5時(shí)VL約為128萬(wàn),這一倍數(shù)為128/(1.9*2*5) ≈ 6.7??紤]到DL的大小亦為原文檔的2L倍,則數(shù)據(jù)較原始文檔稀疏6.7倍,仍在可接受范圍之內(nèi)。
2.3 窗口大小對(duì)實(shí)驗(yàn)結(jié)果的影響
本節(jié)主要討論窗口大小和主題詞對(duì)及主題詞的關(guān)系,實(shí)驗(yàn)數(shù)據(jù)仍為4 279篇航空安全報(bào)告。
首先窗口大小對(duì)主題詞對(duì)的結(jié)果有何影響?對(duì)每個(gè)主題取前100個(gè)概率值較大的詞對(duì),計(jì)算窗口增大時(shí)詞對(duì)的變化情況,即當(dāng)窗口為L(zhǎng)時(shí),其前100個(gè)詞對(duì)中包含多少窗口為L(zhǎng)-1時(shí)的結(jié)果。實(shí)驗(yàn)中取22個(gè)類別的平均重復(fù)率,實(shí)驗(yàn)結(jié)果如圖4中帶方塊線所示,可知詞對(duì)間的重復(fù)率在51%到77%之間,且隨著窗口的增大,其和前一個(gè)窗口的重復(fù)率也同時(shí)增大。增大窗口導(dǎo)致計(jì)算量急劇增加,而對(duì)結(jié)果的影響又不大,因此認(rèn)為L(zhǎng)取值為5較合理。
圖3 航空安全報(bào)告中窗口和詞匯表大小關(guān)系Fig.3 window size and vocabulary size in ASRS reports
圖4 詞對(duì)之間及其和主題詞的重復(fù)率Fig.4 overlap ratio of wordpairs and topic words
其次主題詞對(duì)和主題詞間的關(guān)系是怎樣的?對(duì)每個(gè)主題取前20個(gè)概率值較大的單詞,計(jì)算窗口增大時(shí)主題詞對(duì)和主題詞的重復(fù)情況。實(shí)驗(yàn)結(jié)果如圖4中帶加號(hào)線所示,可知詞對(duì)和主題詞間的重復(fù)率在64%到70%之間,較為穩(wěn)定,說(shuō)明超過(guò)一半的主題詞之間存在較強(qiáng)關(guān)聯(lián)關(guān)系,這也印證了本方法的有效性。
表1 “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主題下3種方法結(jié)果對(duì)比Tab.1 Results comparison of 3 methods under the topic of “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”
表2 “Aircraft Equipment Problem Critical”主題下3種方法結(jié)果對(duì)比Tab.2 Results comparison of 3 methods under the topic of “Aircraft Equipment Problem Critical”
2.4 實(shí)驗(yàn)結(jié)果對(duì)比
為進(jìn)一步檢驗(yàn)結(jié)果的合理性,表1和表2分別給出了PL-LDA模型當(dāng)L=5時(shí)EventSomke主題和Equipment Problem主題中前10個(gè)概率值較大的詞對(duì)。作為對(duì)比,取Labeled LDA的前10個(gè)主題詞,以及PMI值中前10個(gè)相關(guān)度大的詞對(duì)(取Labeled LDA的前20個(gè)主題詞的兩兩組合,計(jì)算方法同文獻(xiàn)[12],PMI窗口大小為10,和PL-LDA的2L相當(dāng))。由表1可見(jiàn),三者均與對(duì)應(yīng)主題基本吻合,PL-LDA所得詞對(duì)之間亦存在很強(qiáng)的相關(guān)性,并且符合主題描述,如SMELL SMOKE,SMOKE FUMES,SMELL BURNING等。值得一提的是,PMI中很多詞對(duì)的計(jì)算結(jié)果為負(fù)相關(guān),如SMOKE FIRE,SMOKE FUMES等(限于表格大小原因,此處并未列出,實(shí)際上從第12個(gè)開(kāi)始全部為負(fù)相關(guān)),說(shuō)明PMI在小規(guī)模文檔集上的計(jì)算存在較大偏差。
表2是關(guān)于Equipment Problem主題下3種方法的對(duì)比結(jié)果。其中PMI值全部為負(fù)相關(guān),用黑體字予以標(biāo)識(shí)。PL-LDA所得詞對(duì)與主題切合度較好,如LANDING GEAR,LEFT ENGINE,RIGHT ENGINE等,由此進(jìn)一步說(shuō)明PL-LDA較單純的PMI在小規(guī)模文檔集上效果更好。
3.1 實(shí)驗(yàn)數(shù)據(jù)
ASRS(Aviation Safety Reporting System,http://asrs.arc.nasa.gov)收集民航從業(yè)人員自愿提交的影響航空安全的事件或情況的報(bào)告,由領(lǐng)域工程師進(jìn)行分析,以識(shí)別民航運(yùn)行過(guò)程中包括程序、手冊(cè)、設(shè)備等在內(nèi)的各種缺陷并向相關(guān)人員發(fā)布告警信息,提高民航運(yùn)行安全。實(shí)驗(yàn)數(shù)據(jù)選取自ASRS上2013年全年的航空安全報(bào)告。抽取了其中的22個(gè)異常事件主題(每個(gè)主題均超過(guò)100篇文檔),共得到4 279篇報(bào)告,平均每篇報(bào)告涉及2種主題。預(yù)處理包括去除標(biāo)點(diǎn)符號(hào)、純數(shù)字、長(zhǎng)度為1的單詞及停用詞(使用google-stop-words-collection,包含174個(gè)停用詞,下載地址:http://code.google.com/p/stop-words/),共得到19 324個(gè)不同單詞組成的詞匯表。
3.2 主題文本網(wǎng)絡(luò)構(gòu)建
根據(jù)第2節(jié)開(kāi)始部分的討論,概率大的詞反映了主題的不同側(cè)面,而概率大的詞對(duì)反映了這些詞之間的關(guān)聯(lián)關(guān)系。首先運(yùn)行Labeled LDA,得到每個(gè)主題的前20個(gè)主題詞,記為集合A。然后運(yùn)行PL-LDA(L=5),得到每個(gè)主題的前100個(gè)主題詞對(duì),記為集合B。對(duì)于每個(gè)主題,取A和B中所有單詞的并集作為節(jié)點(diǎn)集,詞對(duì)之間有邊連接,無(wú)關(guān)聯(lián)關(guān)系的主題詞表現(xiàn)為一個(gè)獨(dú)立的點(diǎn)。使用cytoscape軟件繪制的“Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主題文本網(wǎng)絡(luò)如圖5所示。其中集合A中的主題詞為紅色,字體大小和其概率值成正比,詞對(duì)中的非主題詞用較小的淺藍(lán)色字表示,以作區(qū)別。文本網(wǎng)絡(luò)較好地表現(xiàn)了主題詞的分布情況及連接關(guān)系,另外詞對(duì)也提供了非常有意義的信息,如strong smell,smell noticed,visiblesmoke,oxygenmasks,fireextinguisher,emergencylanding等。
生成的“Aircraft Equipment Problem Critical”主題文本網(wǎng)絡(luò)如圖6所示。和圖5相同,詞對(duì)提供了非常有意義的信息,如engine shutdown,engine failure,aircraft damage等。和圖5不同的是,有兩個(gè)主題詞back和time以及7個(gè)詞對(duì)未連接到最大的網(wǎng)絡(luò)中,但這些詞對(duì)仍然提供了較多的分析內(nèi)容,如hydraulic system,EICAS(發(fā)動(dòng)機(jī)指示和機(jī)組警告系統(tǒng):Engine Indication and Crew Alerting System)message等。
圖5 “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主題文本網(wǎng)絡(luò)Fig.5 Topic text network of “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”
圖6 “Aircraft Equipment Problem Critical”主題文本網(wǎng)絡(luò)Fig.6 Topic text network of “Aircraft Equipment Problem Critical”
圖7和圖8是根據(jù)PMI計(jì)算結(jié)果構(gòu)建的兩個(gè)主題的文本網(wǎng)絡(luò),其中PMI值大于0的主題詞之間有邊連接。對(duì)比圖5和圖6可知,此種方法提供的有效信息少,有時(shí)主題詞間的關(guān)聯(lián)信息甚至全部丟失,不利于工作人員的分析。
對(duì)于航空安全異常事件如InflightEvent等大的類別,其下又包含了若干不同的子類如encounter fuel issue,encounter weather turbulence,encounter loss of aircraft control等,不同子類之間描述的信息存在較大的差異。對(duì)比了encounter fuel issue和encounter weather turbulence兩種主題文本網(wǎng)絡(luò),如圖9和圖10所示。圖9中都是一些和燃油緊密相關(guān)的詞語(yǔ),且這些主題詞間存在較多的關(guān)聯(lián)關(guān)系,如TANK(油箱)和GALLONS(加侖),LBS(磅),PUMP(泵)等。圖10中都是一些和天氣密切相關(guān)的詞語(yǔ),且這些單詞之間也存在較多有意義的關(guān)聯(lián),如VFR(Visual Flight Rules可視飛行規(guī)則)CONDITIONS,SEVERE TURBULENCE,HEAVY TURBULENCE等。
圖7 基于PMI構(gòu)建的“Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主題文本網(wǎng)絡(luò)Fig.7 Topic text network of“Flight Deck/Cabin/Aircraft Event Smoke/Fire/Fumes/Odor” based on PMI
圖8 基于PMI構(gòu)建的“Aircraft Equipment Problem Critical”主題文本網(wǎng)絡(luò)Fig.8 Topic text network of “Aircraft Equipment Problem Critical”based on PMI
圖9 “Inflight event-encounter fuel issue”主題文本網(wǎng)絡(luò)Fig.9 Topic text network of “Inflight event-encounter fuel issue”
圖10 “Inflight event-encounter weather-turbulence”主題文本網(wǎng)絡(luò)Fig.10 Topic text network of “Inflight event-encounter weather-turbulence”
PL-LDA是一種有監(jiān)督的主題模型,可計(jì)算給定主題下詞對(duì)的聯(lián)合概率分布,在航空安全報(bào)告上的實(shí)驗(yàn)證明該模型具有較好的效果。窗口增大后數(shù)據(jù)規(guī)模的增大導(dǎo)致計(jì)算量急劇增加,且易受數(shù)據(jù)稀疏影響,并且所得結(jié)果和增大前存在較多重復(fù),因此需選擇合適的窗口大小?;赑L-LDA模型構(gòu)建的主題文本網(wǎng)絡(luò)以更直觀的方式展示主題詞的分布情況和它們之間的復(fù)雜聯(lián)系,主題詞對(duì)補(bǔ)充和豐富了主題詞的解釋并提供了額外的有效信息,對(duì)領(lǐng)域工程師的分析具有輔助作用。
[1]Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(1):177-196.
[2]Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[3]Wallach H M.Topic modeling:beyond bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning.NY:ACM,2006:977-984.
[4]Wang X,McCallum A,Wei X.Topical n-grams:Phrase and topic discovery,with an application to information retrieval[C]//Proceedings of the seventh IEEE International Conference on Data Mining.NJ:IEEE,2007:697-702.
[5]Noji H,Mochihashi D,Miyao Y.Improvements to the Bayesian topic N-Gram models[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle:ACL,2013:1180-1190.
[6]Zhang D,Zhai C X,Han J,et al.Topic modeling for OLAP on multidimensional text databases:topic cube and its applications[J].Statistical Analysis and Data Mining:the ASA Data Science Journal,2009,2(5/6):378-395.
[7]Blei D M,Mcauliffe J D.Supervised Topic Models[J].Advances in Neural Information Processing Systems,2010,3:327-332.
[8]Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Singapore:ACL,2009:248-256.
[9]Li X,Ouyang J,Zhou X.Supervised topic models for multi-label classification[J].Neurocomputing,2015,149:811-819.
[10] Chuang J,Manning C D,Heer J.Termite:Visualization techniques for assessing textual topic models[C]//Proceedings of the International Working Conference on Advanced Visual Interfaces.NY:ACM,2012:74-77.
[11] Dou W,Yu L,Wang X,et al.Hierarchicaltopics:Visually exploring large text collections using topic hierarchies[J].IEEE Transactions on Visualization and Computer Graphics,2013,19(12):2002-2011.
[12] Smith A,Chuang J,Hu Y,et al.Concurrent visualization of relationships between words and topics in topic models[C]// Proceedings of the Workshop on Interactive Language Learning,Visualization,and Interfaces.Baltimore:ACL,2014:79-82.
[13] Han L,Finin T,McNamee P,et al.Improving word similarity by augmenting pmi with estimates of word polysemy[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(6):1307-1322.
[14] Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(suppl 1):5228-5235.
[15] Church K W,Hanks P.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.
[16] Manning C,Schütze H,Foundations of Statistical NaturalLanguage Processing[M].Cambridge,MA:MIT Press,1999.
[17] Turney P D.Mining the web for synonyms:PMI-IR versus LSA on TOEFL[J].Computer Science,2002,2167:491-502.
(責(zé)任編輯 耿金花)
A Topic Text Network Construction Method Based on PL-LDA Model
ZHANG Zhiyuan1,2,HUO Weigang1
(1.School of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China;2.College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
Labeled LDA can mine words’ probabilities under a given topic,however,it can’t analyze the association relationships among these topic words.Although the correlation between word pairs can be calculated by utilizing PMI (Pointwise Mutual Information),their relationship to the given topic is lost.Motivated by the operation of counting word pairs in a fixed window used in PMI,this paper proposes a topic model called PL-LDA (Pointwise Labeled LDA),which can compute the joint probabilities between word pairs under a given topic.Experimental results on aviation safety reports show that this model achieves results with good interpretability.Based on the results of PL-LDA,this paper constructs a topic text network,which provides rich and effective information for analyzers including reflecting the distribution of topic words and displaying the complex relationships among them.
topic mode; text mining; complex network; PMI
1672-3813(2017)01-0052-06;
10.13306/j.1672-3813.2017.01.008
2015-05-01;
2016-03-22
國(guó)家自然科學(xué)基金(61201414,61301245,U1233113)
張志遠(yuǎn)(1978-),男,河北景縣人,碩士,副教授,主要研究方向?yàn)槲谋就诰?,?shù)據(jù)倉(cāng)庫(kù),復(fù)雜網(wǎng)絡(luò)。
TP181
A
復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)2017年1期