張小鵬,呂學(xué)強(qiáng),李 卓,徐麗萍
1(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101 2(北京城市系統(tǒng)工程研究中心,北京 100089)
文獻(xiàn)主題提取技術(shù),不僅能提高文檔檢索的質(zhì)量,而且可以有效處理文檔向量空間表示模型的高維稀疏性問(wèn)題,在文本分類、聚類、信息推薦等NLP任務(wù)中具有廣泛應(yīng)用,因此主題提取也是當(dāng)今文本挖掘領(lǐng)域的研究重點(diǎn)之一.
目前國(guó)內(nèi)外學(xué)者所采用的主題識(shí)別或抽取方法主要有三種:第一種是基于詞頻和共現(xiàn)詞頻等統(tǒng)計(jì)方法,如詞匯鏈(Lexical chain)[1],TF-IDF[2]等;第二種是基于向量空間模型的方法,如PLSA[3],LDA(latent Dirichlet allocation)[3]等;第三種是基于網(wǎng)或圖的方法,如共詞網(wǎng)絡(luò)(Co-Word)[4],TextRank[5]等.其中詞匯鏈與文本的結(jié)構(gòu)存在一種對(duì)應(yīng)關(guān)系,提供了關(guān)于文本中主題與結(jié)構(gòu)的重要線索[6],且包含了較為豐富的語(yǔ)義信息,因此可利用詞匯鏈進(jìn)行文章主題信息的反映;另一方面,詞匯鏈雖然能夠表達(dá)文本的語(yǔ)義結(jié)構(gòu),但其構(gòu)造過(guò)程需依賴知識(shí)庫(kù)進(jìn)行詞匯間語(yǔ)義相似度的計(jì)算,在知識(shí)庫(kù)不完備的情況下,未包含詞及其關(guān)鍵短語(yǔ)抽取的效果較差[7].LDA模型是一種經(jīng)典的概率主題模型.在不依賴知識(shí)庫(kù)的情況下就可識(shí)別大規(guī)模文檔集和語(yǔ)料庫(kù)潛在的主題信息.但傳統(tǒng)LDA模型基于 “詞袋”[8]模型假設(shè),忽略了文檔中各個(gè)詞之間的順序.因此在很多情況下主題抽取效果并不理想,存在主題詞信息粒度過(guò)小、主題辨識(shí)度低、主題詞二義性等問(wèn)題.
綜上所述,LDA模型是一種在文檔主題研究領(lǐng)域被普遍采用的概率主題模型;存在 “詞袋”模型假設(shè)的不足,且僅考慮了語(yǔ)料庫(kù)內(nèi)部語(yǔ)義信息,因此抽取效果往往不夠理想;而詞匯鏈借助語(yǔ)料庫(kù)之外的語(yǔ)義知識(shí)庫(kù)來(lái)計(jì)算詞語(yǔ)間關(guān)系,可以彌補(bǔ)LDA模型的不足,達(dá)到充分利用語(yǔ)料庫(kù)內(nèi)部和外部語(yǔ)義信息的目的.基于上述思路,本文提出了LDA結(jié)合詞匯鏈抽取主題的方法.實(shí)驗(yàn)結(jié)果表明,該方法能明顯減少主題詞二義性問(wèn)題,但依然存在主題詞信息粒度過(guò)小、主題辨識(shí)度低的問(wèn)題.由此,本文通過(guò)進(jìn)一步利用強(qiáng)詞匯鏈中心詞,并結(jié)合一定的詞性規(guī)則,提取了文中更具表達(dá)力的主題短語(yǔ).從而解決了主題詞信息粒度過(guò)小、主題辨識(shí)度低的問(wèn)題.
詞匯鏈概念起源于1976年由Halliday與hasan提出的詞匯集聚概念[9],用于將文本中相關(guān)的詞構(gòu)成一個(gè)鏈的過(guò)程.它是一種詞語(yǔ)間語(yǔ)義關(guān)系連貫性的外在表現(xiàn),與文本的結(jié)構(gòu)和主題都有一定的對(duì)應(yīng)關(guān)系,能夠用于確定語(yǔ)境,進(jìn)而幫助消歧;也能夠用于文本抽取的各個(gè)任務(wù)中.
詞匯鏈?zhǔn)峭ㄟ^(guò)詞義間的關(guān)系來(lái)識(shí)別的構(gòu)建的,計(jì)算語(yǔ)義相似度需要知識(shí)庫(kù)的支持.而WordNet[10]就是一個(gè)較為完備的語(yǔ)義知識(shí)庫(kù),因此可以將WordNet應(yīng)用到詞匯鏈構(gòu)建算法中.詞匯鏈構(gòu)建算法的核心思想是從當(dāng)前已構(gòu)造的詞匯鏈中選擇一條最合適的詞匯鏈作為與該候選詞相關(guān)的詞匯鏈.但由于該算法考慮的是到目前為此所出現(xiàn)的詞語(yǔ)間的語(yǔ)義關(guān)系,并不從文章總體上考慮,所以構(gòu)建的詞匯鏈往往不能正確表達(dá)文章的語(yǔ)義結(jié)構(gòu),容易出現(xiàn)詞語(yǔ)的詞義誤判問(wèn)題,這也是對(duì)詞匯鏈進(jìn)行改進(jìn)的主要著手點(diǎn)之一.如圖 1所示,本文只選取文本片段中的名詞作為候選詞匯,該片段中三條詞匯鏈及其分布情況:{specifications,requirements,obsolete,replacement,reasons,material,nature,scope},{technical,solutions}和{reports,performance,system}
圖1 詞匯鏈分布樣例
詞義相似度指的是兩個(gè)詞在不同的語(yǔ)境中相互替換但不影響語(yǔ)境的句法語(yǔ)義結(jié)構(gòu)的程度[11].Dekang Lin[12]認(rèn)為任何兩個(gè)詞語(yǔ)之間的相似度不僅取決于兩個(gè)詞之間的共性(Commonality)也取決于它們之間個(gè)性(Differences),然后基于語(yǔ)義詞典并結(jié)合信息論的知識(shí)定義了相似度計(jì)算公式:
(1)
其中,S1,S2表示兩個(gè)義原,Sp表示離它們最近的共同祖先,p(Si),(i=1,2或p)是Si結(jié)點(diǎn)的子結(jié)點(diǎn)個(gè)數(shù)(包括自己)與樹(shù)中的所有結(jié)點(diǎn)個(gè)數(shù)的比值.
主題模型是為了揭示大數(shù)據(jù)集合中的隱藏結(jié)構(gòu)而設(shè)計(jì)的一系列無(wú)監(jiān)督學(xué)習(xí)算法.主要思想是文檔可以看作是一系列主題的集合,而主題可以看作是一系列詞語(yǔ)的集合.換言之,一個(gè)文檔可以包含多個(gè)主題,而一個(gè)主題是由若干個(gè)詞語(yǔ)組成的集合.Hofmann把主題定義為基于詞的概率分布,同時(shí)把文檔定義為基于主題集合的概率分布.把文檔-主題-詞語(yǔ)三者的關(guān)系可以表示為:
(2)
其中,D表示文檔;T表示主題;W表示詞語(yǔ).
Blei等人[11]基于上述理論于2003年提出了LDA(Latent Dirichlet Allocation)主題模型,它是一個(gè)用于主題生成的三層貝葉斯概率模型.LDA的概率主題模型可以表示為圖2所示.為了簡(jiǎn)化問(wèn)題的復(fù)雜性,LDA模型不考慮詞與詞之間的順序,把文檔中的每個(gè)詞看作是相互獨(dú)立的變量,即基于“詞袋”模型的假設(shè),這也為模型的改進(jìn)提供了著手點(diǎn).LDA模型同時(shí)采用Dirichlet分布函數(shù)來(lái)表示文檔中的各個(gè)主題分布,而Dirichlet分布的隨機(jī)向量中各個(gè)分向量之間是弱相關(guān)的,即假設(shè)了各個(gè)主題之間幾乎互不相關(guān),這樣的假設(shè)與實(shí)際問(wèn)題不符,這是LDA模型的另一個(gè)問(wèn)題.
圖2 LDA概率主題模型
其中,k表示topic個(gè)數(shù),α、β為先驗(yàn)參數(shù).Zm,n為第m個(gè)document下第n個(gè)詞的topic.Wm,n第m個(gè)document的第n個(gè)word.θm表示第m個(gè)document的topic分布,φk表示第k個(gè)topic下詞的分布.
短語(yǔ)往往比單個(gè)詞蘊(yùn)含的信息更加豐富,含義也相對(duì)明確,具有較好的主題概括力.本文提出的LDA結(jié)合詞匯鏈抽取主題短語(yǔ)的具體流程,如圖3所示.
為了便于描述流程圖,使用簡(jiǎn)寫(xiě)符號(hào)指代過(guò)程中數(shù)據(jù)集,Cp (Corps)表示實(shí)驗(yàn)語(yǔ)料集,DTSet(Document-Topic Set)表示文檔-主題集,F(xiàn)CSet(Fulltext Chain Set)表示全文詞匯鏈集,NPSet (Noun- Phrase Set)表示二元和三元名詞短語(yǔ)集,CWSet(Center Word Set)表示中心詞集,TTPSet(Temp Topic Phrase Set)候選主題短語(yǔ)集,TPSet(Topic Phrase Set)主題短語(yǔ)集.具體流程步驟如下:
1)文檔預(yù)處理:去除停用詞和標(biāo)點(diǎn)符號(hào)后以′$′符號(hào)作為分割符,得到實(shí)驗(yàn)語(yǔ)料Cp;
2)求DTSet、FCSet及NPSet:在實(shí)驗(yàn)語(yǔ)料Cp的基礎(chǔ)上,利用LDA訓(xùn)練及Gibbs采樣得到DTSet,并利用詞語(yǔ)相關(guān)度和WordNet知識(shí)庫(kù)構(gòu)造 FCSet,同時(shí)用規(guī)則匹配方式提取語(yǔ)料庫(kù)中的NPSet;
圖3 主題短語(yǔ)抽取流程圖
3)求CWSet:在上一步中求出的DTSet和FCSet的基礎(chǔ)上,計(jì)算主題詞與詞匯鏈的相關(guān)度,利用強(qiáng)鏈規(guī)則求出強(qiáng)詞匯鏈集合,然后循環(huán)遍歷強(qiáng)詞匯鏈集合中的每一個(gè)強(qiáng)鏈,將強(qiáng)鏈集合中頻率最高的元素作為最能代表該鏈的詞(即中心詞),并將該詞加入到CWSet中,直到循環(huán)到強(qiáng)詞匯鏈集合中最后一個(gè)強(qiáng)鏈,循環(huán)結(jié)束,得到CWSet;
4)求TTPSet:在上述步驟中求出的NPSet和CWSet,經(jīng)過(guò)包含與被包含等規(guī)則的合并、去重操作得到TTPSet;
5)求TPSet:通過(guò)頻率、詞長(zhǎng)和短語(yǔ)在文中所在的位置構(gòu)造主題度計(jì)算公式,計(jì)算TTPSet中每一個(gè)短語(yǔ)的主題度并設(shè)定閾值,將主題度滿足閾值的短語(yǔ)加入到TPSet,從而得到主題短語(yǔ)集,流程結(jié)束.
詞匯鏈可以通過(guò)計(jì)算詞語(yǔ)相關(guān)度的方式進(jìn)行構(gòu)建.詞語(yǔ)語(yǔ)義相關(guān)度是從語(yǔ)義層面反映詞語(yǔ)關(guān)聯(lián)程度的概念,本文使用兩個(gè)詞在同一語(yǔ)境下的共現(xiàn)的概率來(lái)計(jì)算詞語(yǔ)之間的語(yǔ)義相關(guān)度.語(yǔ)義相似度與語(yǔ)義相關(guān)度很容易被混淆,語(yǔ)義相似度指的是詞匯之間的相似性.語(yǔ)義相似度與語(yǔ)義相關(guān)度又具有一定的聯(lián)系,兩個(gè)詞匯語(yǔ)義相關(guān),它們之間不一定語(yǔ)義相似,但如果兩個(gè)詞匯語(yǔ)義相似,那么它們一定是語(yǔ)義相關(guān)的.綜上所述,本文可以把語(yǔ)義相似度的計(jì)算作為語(yǔ)義相關(guān)度求解過(guò)程的一部分.
由于通信領(lǐng)域的技術(shù)文獻(xiàn)中涉及到大量的縮略詞,如表4 中的SIM(Subscriber Identification Module),GSM(Global System for Mobile Communication),BTS(Base Transceiver Station)等.這些縮略詞并沒(méi)有被WordNet所收錄,語(yǔ)義相似度計(jì)算公式也就無(wú)法應(yīng)用在這些縮略詞上.Manning[14]等人提出基于互信息的方法解決WordNet中未收錄詞的相關(guān)度計(jì)算問(wèn)題[15].互信息常被應(yīng)用于計(jì)算兩個(gè)詞語(yǔ)之間的相關(guān)程度,具有不用依賴任何知識(shí)庫(kù)的特點(diǎn),但互信息在低頻詞共現(xiàn)場(chǎng)景取得的效果并不好,且LDA抽取的文檔—詞匯矩陣是一種稀疏矩陣,本文只能基于段落內(nèi)詞共現(xiàn)計(jì)算詞語(yǔ)之間的相關(guān)程度.基于段落內(nèi)計(jì)算詞之間的相關(guān)程度,主題詞之間會(huì)出現(xiàn)大量低頻共現(xiàn)現(xiàn)象.為了解決上述問(wèn)題,本文引入對(duì)數(shù)似然比(Log Likelihood Ratio).對(duì)數(shù)似然比在計(jì)算詞的低頻共現(xiàn)時(shí)比互信息具有更好的穩(wěn)定性.其基本思想是比較兩個(gè)詞匯相互獨(dú)立時(shí)得到的概率與構(gòu)造或然表得到的概率的一致程度.給定兩個(gè)詞匯u和v,則u,v所組成的或然表如表1所示.
表1 u、v組成的或然表
k11表示單詞u和單詞v共同出現(xiàn)的次數(shù); k12表示單詞u出現(xiàn)但單詞v不出現(xiàn)的次數(shù);k21表示單詞v出現(xiàn)但單詞u不出現(xiàn)的次數(shù);k22表示單詞u和單詞v都不出現(xiàn)的次數(shù);需要指出的是,本文對(duì)數(shù)似然比的應(yīng)用場(chǎng)景是基于LDA抽取結(jié)果的文檔-主題詞矩陣,因?yàn)樵摼仃囀且环N稀疏矩陣,所以或然表中的詞共現(xiàn)現(xiàn)象統(tǒng)計(jì)是基于段落級(jí)而不是常規(guī)的句子級(jí).對(duì)數(shù)似然比的公式如公式(3)所示.
(3)
其中,p=(k11+k12)/N,N=k11+k12+k21+k22,k11,k12,k21,k22,表示單詞u出現(xiàn)的概率,P1表示在v出現(xiàn)的情況下u出現(xiàn)的概率,P2表示在v不出現(xiàn)的情況下u出現(xiàn)的概率.對(duì)數(shù)似然比的值越大,表示語(yǔ)料中u、v搭配的短語(yǔ)是隨機(jī)出現(xiàn)的概率越小.
為了便于計(jì)算,本文將對(duì)數(shù)似然比的求解過(guò)程轉(zhuǎn)換為求行熵、列熵、矩陣熵的求解過(guò)程.引入對(duì)數(shù)似然比后,設(shè)wi,wj為文檔中的兩個(gè)詞語(yǔ),可根據(jù)公式(1)將wi,wj的相似度表示為Sim(wi,wj),根據(jù)公式(3)對(duì)數(shù)似然比表示為L(zhǎng)LR(wi,wj);若用Rel(wi,wj)表示wi,wj的相關(guān)度,則相關(guān)度計(jì)算方法如公式(4)所示.
Rel(wi,wj)=(1-λ)Sim(wi,wj)+λLLR(wi,wj);
(i≥0;j≥0,i≠j)
(4)
其中,λ為可調(diào)節(jié)參數(shù),由于在通信領(lǐng)域技術(shù)文獻(xiàn)中縮略詞所包含的信息量更大一些,而涉及到縮略詞的相關(guān)度計(jì)算中,公式(4)中前半部分相似度函數(shù)不一定會(huì)有值,但后半部分的對(duì)數(shù)似然比函數(shù)一定會(huì)有值,因此在本文實(shí)驗(yàn)中將λ值設(shè)為0.6.
針對(duì)技術(shù)文獻(xiàn)利用LDA抽取出文檔-主題詞集合DTSet后,結(jié)合詞語(yǔ)相關(guān)度計(jì)算方法可以進(jìn)一步完成詞匯鏈的構(gòu)建.首先構(gòu)建全文詞匯鏈,具體方法是通過(guò)掃描語(yǔ)料庫(kù)(Corps)中選定 文檔(D)的詞集合,利用公式(4)求出相關(guān)度值與當(dāng)前處理的詞匯最大的詞 ,并將該詞插入到此詞匯鏈中,從而完成全文詞匯鏈的構(gòu)建.然后在全文詞匯鏈集合中求出與主題詞集合DTSet中的詞滿足一定相似度閾值 的詞匯鏈集(LSet).具體方法是遍歷主題詞集合DTSet中的每一個(gè)詞w_i,利用公式(5)計(jì)算當(dāng)前詞w_i與全文詞匯鏈集合中的每一個(gè)詞匯鏈L_j的相似度,如果大于相似度閾值,就將該詞匯鏈L_j加入到詞匯鏈集(LSet)中.重復(fù)上述步驟,直至集合U中的詞掃描完成,也就求出了詞匯鏈集(LSet).對(duì)于給定詞w_i與詞匯鏈L_j的相似度計(jì)算方法如公式(5)所示.
(5)
其中,Sim(wi,Lj)表示當(dāng)前詞wi與詞匯鏈Lj的相似度.
為了更好地體現(xiàn)文檔的主題,還需要對(duì)詞匯鏈集(LSet)進(jìn)行強(qiáng)詞匯鏈的提取.強(qiáng)詞匯鏈對(duì)文檔的核心內(nèi)容更加具有代表性.為了得出強(qiáng)詞匯鏈,這里引入權(quán)重計(jì)算方法,如公式(6)所示.
(6)
其中,Score(Chain)為詞匯鏈權(quán)重評(píng)分函數(shù),Len(Chain)為求鏈長(zhǎng)函數(shù),Hg(Chain)為均衡函數(shù);Ti為詞匯鏈中第i個(gè)詞在全文出現(xiàn)的次數(shù),n為詞匯鏈中的成員個(gè)數(shù).
使用權(quán)值評(píng)分函數(shù)對(duì)詞匯鏈進(jìn)行評(píng)分,選擇滿足一定“強(qiáng)鏈規(guī)則”的詞匯鏈作為強(qiáng)詞匯鏈;本文用ChainScore(Chain)表示強(qiáng)詞匯鏈的評(píng)分函數(shù),AVG(Scores)表示(6)式中詞匯鏈權(quán)重評(píng)分函數(shù)得分的平均值,STD(Scores)表示(6)式中詞匯鏈權(quán)重評(píng)分函數(shù)得分的標(biāo)準(zhǔn)差;則“強(qiáng)鏈規(guī)則”可以表示為:Score(Chain)>AVG(Scores)+ 2×StandardDeviation(Scores),選擇其中權(quán)重滿足“強(qiáng)鏈規(guī)則”的詞匯鏈作為詞匯鏈強(qiáng)鏈.
每條強(qiáng)鏈都對(duì)應(yīng)著一個(gè)主題線索,每個(gè)主題線索都有著互不相同的側(cè)重點(diǎn).可以選取代表不同側(cè)重點(diǎn)的強(qiáng)詞匯鏈中的中心詞作為文檔主題信息的代表.對(duì)于選定文檔中的中心詞,其出現(xiàn)的頻次應(yīng)超過(guò)一定閾值,本文實(shí)驗(yàn)中將閾值取為δ=(選定詞在文檔中出現(xiàn)次數(shù)/文檔不相同詞數(shù)),把超過(guò)閾值δ的詞作為文檔的候選詞中心詞.很多相關(guān)研究?jī)H考慮名詞作為詞匯鏈中的候選詞,但經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),除名詞以外的詞語(yǔ)對(duì)抽取文檔主題詞有正負(fù)兩方面的影響.具體為動(dòng)詞對(duì)抽取的文檔主題詞質(zhì)量有相對(duì)積極的影響,而形容詞、副詞等其它詞對(duì)抽取主題詞的質(zhì)量有相對(duì)消極影響.因此只選擇文檔中具有名詞詞性或動(dòng)詞詞性的詞語(yǔ)作為候選中心詞.根據(jù)上述實(shí)驗(yàn)確定的閾值δ獲得每條鏈的候選中心詞集合.
短語(yǔ)比詞匯更能體現(xiàn)文檔的主題,本文期望以短語(yǔ)來(lái)體現(xiàn)文檔的主題.現(xiàn)實(shí)中的關(guān)鍵短語(yǔ)多以二元和三元結(jié)構(gòu)出現(xiàn)[13],而名詞短語(yǔ)(N-P,Noun Phrase)與文檔內(nèi)容的表達(dá)最為一致[14],因此可以用名詞短語(yǔ)來(lái)描述文檔的主題,英文中的名詞短語(yǔ)的主要語(yǔ)言模式如表2所示.
表2 英文文本中主要的名詞短語(yǔ)語(yǔ)言模式
如果兩個(gè)詞語(yǔ)在同一文本片段內(nèi)同時(shí)出現(xiàn),那么這兩個(gè)詞就具有一定的相關(guān)性.兩個(gè)詞的同現(xiàn)頻率越高,則它們的相關(guān)性就越大,成為短語(yǔ)的可能性也就越大.由此可以聯(lián)系信息論中互信息的相關(guān)知識(shí),得出詞語(yǔ)間的共現(xiàn)頻率計(jì)算方法.
(7)
(8)
其中,w1,w2,w3表示任意三個(gè)互不相同的詞語(yǔ),F(xiàn)(w1,w2,w3)表示w1,w2,w3共同出現(xiàn)的次數(shù),COF(w1,w2)表示w1與w2共同出現(xiàn)的頻率COF(w1,w2,w3),表示,w1,w2,w3共同出現(xiàn)的頻率.
本文以3GPP官方網(wǎng)站提供的8500篇技術(shù)規(guī)范作為統(tǒng)計(jì)語(yǔ)料庫(kù),記上文提到的英文名詞短語(yǔ)語(yǔ)言模式模版為Pt,設(shè)計(jì)的主題短語(yǔ)抽取算法步驟描述如下:
算法:主題短語(yǔ)抽取算法
輸入:3GPP技術(shù)規(guī)范統(tǒng)計(jì)語(yǔ)料庫(kù),名詞短語(yǔ)模板Pt
輸出:主題短語(yǔ)集TPSet
L1 begin
L2 初始化 TPSet、TTPSet、CWSet;閾值變量γ=0.65;
L3 讀入統(tǒng)計(jì)語(yǔ)料庫(kù),對(duì)語(yǔ)料進(jìn)行去停用詞、標(biāo)點(diǎn)預(yù)處理操作后得到Cp;
L4 按照詞性模版Pt對(duì)Cp中前一步處理過(guò)的語(yǔ)料進(jìn)行篩選,選出滿足詞性模版的二元、三元名詞短語(yǔ);再對(duì)選出的名詞短語(yǔ)進(jìn)行統(tǒng)計(jì),將出現(xiàn)次數(shù)大于1次的短語(yǔ)按照公式(c)和(d)計(jì)算共現(xiàn)頻率COF,篩選COF出大于閾值γ的名詞短語(yǔ)加入到集合TTPSet中.
L5 刪除TTPSet中被三元名詞短語(yǔ)已含有的二元名詞短語(yǔ);
L6 刪除CWS中被TTPSet中短語(yǔ)所包含的中心詞,同時(shí)將TTPSet中包含中心詞的短語(yǔ)加入到TTPSet中,將CWS中剩下的中心詞也加入到TTPSet中;
L7 最后將TTPSet中的詞按照公式計(jì)算短語(yǔ)的主題度,對(duì)滿足主題度閾值的,按照主題度大小順序輸出,得到主題短語(yǔ)集合TPSet.
L8 End
候選主題短語(yǔ)與文檔主題的相關(guān)度通常與多種因素有關(guān).本文綜合考察候選主題短語(yǔ)的頻率特征、詞匯鏈長(zhǎng)度特征以及位置特征對(duì)主題度的影響,通過(guò)構(gòu)造主題因子計(jì)算公式衡量候選主題短語(yǔ)的主題度.
1)頻率特征. 從統(tǒng)計(jì)學(xué)角度來(lái)看,候選主題短語(yǔ)的出現(xiàn)頻率從一定程度上能夠反映出文檔主題,如果候選主題短語(yǔ)在同一篇文檔中頻繁出現(xiàn),則有較大可能性與文檔主題密切相關(guān)[16].考慮到作者在撰寫(xiě)技術(shù)文檔時(shí),通常會(huì)為了凸顯主題而反復(fù)使用主題相關(guān)的短語(yǔ)詞匯.因此,短語(yǔ)的頻率特征可以作為衡量主題度的一個(gè)因素.
2)詞長(zhǎng)特征. 主題短語(yǔ)一般包含多個(gè)單詞,表達(dá)的涵義往往比單個(gè)詞匯更具體.本文將主題短語(yǔ)包含的單詞個(gè)數(shù)作為主題短語(yǔ)的長(zhǎng)度特征.相對(duì)而言,候選主題短語(yǔ)長(zhǎng)度越短,則提供的信息量越少,概括的主題含義越抽象;候選主題短語(yǔ)長(zhǎng)度越長(zhǎng),則承載的信息越豐富,更有可能貼近文檔的主題思想.文獻(xiàn)[17]表明,同一篇文檔中,反映文檔主題思想的短語(yǔ)對(duì)應(yīng)的詞匯滿足長(zhǎng)度最大的條件.因此,詞長(zhǎng)也是一個(gè)不容忽視的因素.
3)位置特征. 同一個(gè)主題短語(yǔ)在特定的文檔中一般會(huì)在不同位置處多次出現(xiàn),不同的位置對(duì)主題度的影響也不一樣.候選主題短語(yǔ)出現(xiàn)在文檔標(biāo)題中一般比出現(xiàn)在正文中更能體現(xiàn)文檔主題,出現(xiàn)在正文起始段落中的候選主題短語(yǔ)一般起到開(kāi)門見(jiàn)山的作用,出現(xiàn)在正文末尾段落中的候選主題短語(yǔ)一般起到總結(jié)性的作用.因此,出現(xiàn)在正文的開(kāi)頭和結(jié)尾部分的候選主題短語(yǔ)一般比中間位置更能體現(xiàn)文檔主題.本文將候選主題短語(yǔ)出現(xiàn)的位置劃分為標(biāo)題、正文起始段落、正文末尾段落以及正文中間部分,不同位置處賦予的主題權(quán)重如公式(9)所示.
(9)
綜合上述分析,本文針對(duì)候選主題短語(yǔ)提出如下計(jì)算主題度的方法,公式如(10)所示.
(10)
本文實(shí)驗(yàn)數(shù)據(jù)為3GPP官方網(wǎng)站FTP服務(wù)(http://www.3gpp.org/ftp/)中公開(kāi)的8500篇通信行業(yè)技術(shù)規(guī)范(TSG)文獻(xiàn).為了便于實(shí)驗(yàn),需要將技術(shù)規(guī)范文件中的扉頁(yè)、目錄和圖表等信息統(tǒng)一去除,只保留正文部分作為實(shí)驗(yàn)語(yǔ)料(Corps),并去除語(yǔ)料中的停用詞和標(biāo)點(diǎn)符號(hào)并以′$′符號(hào)作為分割符.由于實(shí)驗(yàn)語(yǔ)料的規(guī)模較大,加上所能獲取的專家知識(shí)有限,很難人工準(zhǔn)確識(shí)別出所有的主題短語(yǔ),這也對(duì)評(píng)價(jià)指標(biāo)的計(jì)算帶來(lái)了一定的困難,為此本文選取其中的五種技術(shù)規(guī)范文檔集作為對(duì)比實(shí)驗(yàn)的五個(gè)實(shí)驗(yàn)組.由于每種技術(shù)規(guī)范又分為三個(gè)系列,為了達(dá)到更好的實(shí)驗(yàn)效果,選取過(guò)程中盡量對(duì)技術(shù)規(guī)范的若干系列進(jìn)行平衡選取.把所選取的技術(shù)規(guī)范文檔集設(shè)置為3個(gè)不同的規(guī)模,并對(duì)選取的文檔進(jìn)行手工標(biāo)注主題短語(yǔ).由于所選的實(shí)驗(yàn)語(yǔ)料平均長(zhǎng)度在4000字以上,為了較好的表達(dá)主題,每篇文獻(xiàn)手工標(biāo)注的主題短語(yǔ)個(gè)數(shù)設(shè)定為100個(gè),3個(gè)文檔集合分別包含150篇,300篇,450篇實(shí)驗(yàn)文獻(xiàn),具體分配情況如表3所示.
表3 實(shí)驗(yàn)文檔分配情況
本文通過(guò)LDA與詞匯鏈相結(jié)合的方法進(jìn)行主題短語(yǔ)的抽取.使用LDA4j作為主題抽取模型.將LDA的各參數(shù)分別設(shè)置為:文檔-主題參數(shù)alpha=2.0,主題-詞語(yǔ)參數(shù)beta=0.5,主題數(shù)目k=20,收斂前迭代次數(shù)BURN_IN=100,最大迭代次數(shù)ITERATIONS = 1000.利用LDA對(duì)上述語(yǔ)料庫(kù)進(jìn)行訓(xùn)練后,預(yù)測(cè)其中編號(hào)為ETSI-TS-101-402技術(shù)規(guī)范文件的主題,如表4所示,本文只列出前6個(gè)主題.
表4 LDA抽取的部分主題集
通過(guò)觀察LDA的抽取結(jié)果發(fā)現(xiàn)所抽取的主題可用性并不高.主要存在以下三個(gè)問(wèn)題:
1)詞匯信息粒度過(guò)小,每個(gè)詞都是獨(dú)立的單詞;
2)主題詞二義性,沒(méi)有考慮詞匯的真正含義,如band,call等;
3)存在主題漂移現(xiàn)象,如文章的真實(shí)主題是與全球移動(dòng)通信(GSM)的基站服務(wù)(BTS)有關(guān),而topic3預(yù)測(cè)的主題是與移動(dòng)交換中心(MSC)有關(guān),與實(shí)際主題略有偏離.
本文在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)實(shí)驗(yàn)語(yǔ)料存在大量可利用的數(shù)據(jù)特征,這些具有明顯數(shù)據(jù)特征的字符串很大概率上是縮略詞或者是具有專指意義的名詞短語(yǔ),而且在主題表達(dá)上具有特殊的意義,如CDMA,IMMEDIATE ASSIGNMENT,Private Telecommunication Networks等.這些數(shù)據(jù)特征給主題抽取提供了便利,可以用字符串匹配技術(shù)將這些字符串直接標(biāo)定為名詞或者名詞短語(yǔ),然后通過(guò)互信息、對(duì)數(shù)似然比等方法進(jìn)行過(guò)濾,最后將它們加入到候選主題短語(yǔ)集合中,計(jì)算主題度并按照所得的主題度大小進(jìn)行排序輸出.部分結(jié)果如表5所示,篇幅原因,本文展示每篇文獻(xiàn)主題度值排在前10的主題短語(yǔ).
表5 部分抽取的主題短語(yǔ)
通過(guò)對(duì)比不難發(fā)現(xiàn),與傳統(tǒng)的基于LDA主題抽取方法相比較,本文方法對(duì)于文獻(xiàn)的主題表達(dá)主要有以下4個(gè)方面的改善:1)主題信息粒度方面,傳統(tǒng)的PLSA、LDA等主題模型通常使用一系列單詞去解釋文本主題,信息粒度過(guò)小,不利于概念的表達(dá);而本文使用一系列信息粒度更大的短語(yǔ)描述主題有助于更深一步地對(duì)主題概念進(jìn)行解釋.2)主題的辨識(shí)度方面,使用基于單詞的主題模型表達(dá)文本主題,往往會(huì)產(chǎn)生主題不易被區(qū)分的問(wèn)題,如表4中topic1、topic3、topic6都是描述用戶電話信息的,topic2、topic4和topic5又都是描述全球移動(dòng)通信系統(tǒng)的,無(wú)法準(zhǔn)確區(qū)分主題,如果人為進(jìn)行區(qū)分,會(huì)造成結(jié)果客觀性不足,也可能會(huì)產(chǎn)生一些矛盾.而基于短語(yǔ)進(jìn)行主題表達(dá),每個(gè)短語(yǔ)都包含較為豐富的語(yǔ)義信息,從而對(duì)主題辨識(shí)度的提升有所幫助.3)語(yǔ)義消歧方面,基于單詞的主題模型容易出現(xiàn)多義詞,無(wú)法辨別其真正含義,從而產(chǎn)生歧義,影響主題無(wú)法準(zhǔn)確地得到表達(dá).如 topic2 中“power”的意思是“功率”還是“電源”? 在缺少上下文語(yǔ)境的情況下,讀者憑借主觀猜想很難對(duì)其正確地進(jìn)行區(qū)分.而基于短語(yǔ)的主題表達(dá)提供了一定的語(yǔ)境信息,有助于對(duì)多義詞的進(jìn)行正確的解讀,從而消除主題表達(dá)中的歧義現(xiàn)象.4)主題的可解釋性方面,傳統(tǒng)的基于單詞的主題模型中,同一個(gè)單詞可能被多個(gè)主題所包含,如表4中GSM同時(shí)在topic2、topic4和topic5中出現(xiàn),這種情況對(duì)文獻(xiàn)主題的解釋以及分類具有負(fù)面影響,僅僅知道這些主題與“全球移動(dòng)通信系統(tǒng)”有關(guān),意義不大,所能為主題解釋提供的價(jià)值有限.而基于短語(yǔ)對(duì)主題進(jìn)行解釋則會(huì)大大改善這一情況.
表6 三種主題短語(yǔ)抽取方法在不同規(guī)模數(shù)據(jù)集上的準(zhǔn)確率和召回率
為了對(duì)提出的主題短語(yǔ)抽取方法的有效性進(jìn)行評(píng)價(jià),本文進(jìn)行了一系列對(duì)比實(shí)驗(yàn)并用準(zhǔn)確率、召回率和F1值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià).在表(3)所示的五組實(shí)驗(yàn)語(yǔ)料的基礎(chǔ)上,分別采用基于LDA的方法、基于詞匯鏈的方法以及LDA與詞匯鏈相結(jié)合的方法進(jìn)行主題短語(yǔ)的抽取,然后與手工標(biāo)注的主題短語(yǔ)進(jìn)行對(duì)比,從而得到每組語(yǔ)料抽取主題短語(yǔ)準(zhǔn)確率、召回率和F值.計(jì)算方法如公式(8)-公式(10)所示.
(11)
(12)
(13)
其中,Pi表示第i組的準(zhǔn)確率,Ri表示第i組的召回率,F(xiàn)1i表示第i組的F1值,TPi第i組正確抽取主題短語(yǔ)的個(gè)數(shù),F(xiàn)Pi第i組提取主題短語(yǔ)不正確的個(gè)數(shù).
圖4 準(zhǔn)確率P的均值對(duì)比 圖5 召回率R的均值對(duì)比
本文針對(duì)通信領(lǐng)域技術(shù)規(guī)格文獻(xiàn),提出了一種LDA模型與詞匯鏈相結(jié)合的主題短語(yǔ)抽取方法.傳統(tǒng)的LDA模型基于“詞袋”模型的假設(shè),忽略了文中原有詞語(yǔ)的順序;對(duì)語(yǔ)料庫(kù)本身進(jìn)行主題采樣,只利用了語(yǔ)料庫(kù)內(nèi)部的語(yǔ)義信息;因此容易出現(xiàn)較多的主題詞二義性問(wèn)題.與詞匯鏈相結(jié)合,可以利用語(yǔ)料庫(kù)之外的具有較完備語(yǔ)義信息的知識(shí)庫(kù)WordNet,通過(guò)語(yǔ)義相關(guān)度計(jì)算和強(qiáng)鏈規(guī)則篩選可以得到強(qiáng)詞匯鏈,從而在很大程度上減少主題詞二義性問(wèn)題.利用中心詞提取方法和N-P規(guī)則合并、去重等步驟可以完成主題短語(yǔ)的提取.借助具有更豐富語(yǔ)義信息的主題短語(yǔ)來(lái)表達(dá)主題,從而解決了主題詞粒度過(guò)小、辨識(shí)度低等問(wèn)題.雖然將兩種技術(shù)相結(jié)合能夠保證主題抽取的準(zhǔn)確率和召回率,主題漂移現(xiàn)象也會(huì)得到改善.但該方法依賴較多,且主要針對(duì)三元以下的主題短語(yǔ)的進(jìn)行識(shí)別,具有一定的局限性.下一步作者將嘗試對(duì)該方法的適用范圍進(jìn)行改進(jìn),在短語(yǔ)長(zhǎng)度和中文語(yǔ)料上進(jìn)行改進(jìn),以期達(dá)到較好應(yīng)用效果.