邵 洲,張 暉
(西南科技大學 計算機科學與技術學院,四川 綿陽621010)
互聯(lián)網的快速發(fā)展使得互聯(lián)網上的文檔呈爆發(fā)性增長,文檔中主題也因此變得越來越稀疏。如何解決稀疏情況下的多文檔摘要問題成為目前研究多文檔自動摘要的一個關鍵問題。本文研究了稀疏條件下的基于統(tǒng)計的多文檔摘要方法。將完全稀疏主題模型(fully sparse topic models,F(xiàn)STM)引入到該領域,同時提出了對應的摘要生成算法。完全稀疏主題模型能夠很好地解決大數(shù)據集中主題稀疏性的問題。而本文提出的句子權重計算的方法以及摘要生成算法,解決了稀疏情況下文本摘要的生成問題。
基于潛在狄利克雷分布(latent dirichlet allocation,LDA)及其變種的主題模型摘要算法是自動摘要研究的主流方向之一。LDA 是一個三層(文檔、主題和詞匯)貝葉斯生成模型,該模型假設文檔D 是由潛在主題混合生成,而主題是由所有詞匯混合而成,不同的文檔D 之間主題的混合比重不同。它使用狄利克雷分布作為隱含表達的分布函數(shù),狄利克雷分布是連續(xù)分布,給未知文本分配屬于某個主題集的概率,產生一個主題的集合。文獻[1]詳細闡述了LDA 的相關理論,其中參數(shù)估計是LDA 最重要的任務,主要包括兩種方法:吉布斯抽樣法和變分貝葉斯推斷法。
2008年Arora[2]等使用LDA 提出了基于簡單推理(simple inference based)、部分生成(partial generative)和完全生成(full generative)3種方式來獲取主題并選擇句子從而生成摘要的方法。2009年Chen[3]等人以廣播新聞演講為語料庫在LDA 的基礎上提出了句子生成概率和句子先驗概率相結合的句子排序。
2009年Chang和Chien[4]以LDA 為基礎對模型改進提出基于句子的SLDA 模型,并提出了基于SLDA 的摘要方法,獲得了較好的效果。2012年Jiwei Li[5]等根據相同句子由相同主題生成的思想,在SLDA 的基礎上,進一步提出了S-sLDA 模型,并在該模型上充分利用句子位置、圖位置、句子長度和句子圖頻率,使用摘要和主題之間的相對熵進行句子排序。2012年Paul和Dredze[6]提出了稱為fLDA 的多維文本模型,它是無監(jiān)督的,但是考慮多個語料庫的因素。它通過提取最小化的KL 散度來確定詞分布的5個文本的片段來生成摘要。2013年,Li X[7]等在主題模型的基礎上提出了自我表達句子相關模型。根據該方法,文檔中的重要句子自動地 “表達”它們自己,并且獲得一個顯著值,最終選擇得分前k的句子生成摘要。
這些改進模型和摘要方法都在一定程度上提高了摘要提取的準確性。但是,Khoat Than1[8]提出當詞匯量很大的時候,潛在表達會變得十分稀疏,上述主題模型的推斷和學習都變得相當復雜和困難。這無疑是對基于主題模型的文本摘要的一個挑戰(zhàn)。同時,這些摘要算法也沒有考慮到在稀疏情況下如何正確有效地提取與分主題相關的中心句子。
首先,本文中符號約定如下:
M:數(shù)據集中文檔的數(shù)量;
K:模型中主題的個數(shù);
S:文檔d中的句子;
v:第v個詞匯,通常寫作{1,2,…,V};
主題模型是在多文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型。直觀的來說,主題模型中,給定的文檔按照一定權重包含幾個特定的主題,一個主題對應于一些特定的詞,這些詞以不同的概率出現(xiàn)在文檔中?,F(xiàn)在的主題模型都面臨著以下問題:①被訓練的文檔數(shù)目很大;②被學習的主題數(shù)目很大;③詞匯數(shù)量很大;④文檔需要在有限的時間內完成后驗推斷。
完全稀疏主題模型是由Khoat Than和Tu Bao Ho[9]于2012年在LDA 和PLSA 的基礎上提出的新主題模型。傳統(tǒng)的LDA 模型使用狄利克雷分布作為先驗,大大簡化了計算復雜度,但它阻止了術語對主題的任何零貢獻。因此,被學習的主題和文檔新的表達是極其稠密的,這使得其內存消耗變得很大。與LDA 不同,F(xiàn)STM 模型不使用狄利克雷先驗,同時允許學習文檔中存在稀疏的潛在表達,這些在實際應用中都是非常有用的。
FSTM 假定一個語料集由K 個主題組成,文檔和主題都是稀疏的。文檔的稀疏性和主題的稀疏性表達為式(1)和式(2)
式中:V——文檔d中的詞匯的數(shù)量。
根據FSTM 理論,每個文檔d是由以下過程生成:
(1)從隨機挑選主題比重θ;
(2)對于d中的第j個詞:-以P(zk|d)=θk的概率選擇潛在主題zk;-以P(wj|zk)=βkj的概率生成一個詞wj。
過程如圖1所示。
圖1 完全稀疏主題模型的圖形表示
它的推斷采用Frank-Wolfe[9]算法,其基本思想是將目標函數(shù)作線性近似,通過求解線性規(guī)劃求得可行下降方向,并沿該方向在可行域內作一維搜索。該算法在優(yōu)化問題中經常使用,其重要特性之一是它早期收斂很快,后期較慢。因此,可以調節(jié)稀疏程度使其在適當?shù)臅r間內收斂到合適的精度就可以保證推斷質量和時間,并采用EM 算法進行迭代學習。重復下面的兩步,直到收斂。E-步:為C 的每個文檔做推斷;M-步:最大化C的關于主題的似然。
FSTM 與PLSA、LDA、STC、SRS、RLSI相較而言,在解決稀疏性問題中具有明顯優(yōu)勢:
(1)文檔和主題的稀疏程度可通過該模型進行衡量;
(2)可以人為地控制其稀疏性程度;
(3)通過調整文檔或者主題的稀疏程度能夠保證質量和運行時間;
(4)推斷的復雜性為L.O(n.珡K+K);
(5)存儲主題的數(shù)量為V.珡K;
(6)沒有任何的輔助參數(shù)。
其中V 是詞匯的大小,K 是主題的數(shù)量,n是推斷的文檔的長度。珡K 是一個術語對主題是零貢獻的數(shù)量的平均,L是推斷中的迭代次數(shù)。這些特性使得FSTM 在處理主題比較稀疏的大數(shù)據集的時候能夠在質量和時間上都達到很好的效果。這對在該模型上研究自動摘要的抽取有著十分重要的意義。
本文以句子作為摘要抽取的基本單位,根據摘要算法進行抽取。
主題模型是一種生成型的概率模型。根據上文中文檔d的生成描述了解到:文檔是主題的概率分布,主題是詞的概率分布。可以通過兩個分布為基礎計算句子的綜合權重。
FSTM 模型需學習所有的主題β,可由EM 算法計算βkj。
在主題模型FSTM 中若包含有K 個主題,在每個文檔d用θ={θ1,…,θK}來進行表示。FSTM 中推斷問題是通過在模型M 下最大化d的似然去獲得主題比重θk。與此同時,還可以獲得K 個主題、K 個主題下的比重按大小排序的前N(N 的值由用戶決定)個詞語Vkn以及它們的比重Pkn。定義Vkn(k∈[1 ,…,K] )為主題zk的關鍵詞。
首先,根據上述的分析可以得到:在已經選擇了特定主題zk的情況下單詞v被生成的概率P(v|d,zk)為
其次,定義特定主題zk下文檔摘要模型中句子權重Score(S|d,zk)的計算公式為
式中:n(v,S|zk)——文檔d中在選定主題詞zk下v在句子S中出現(xiàn)的次數(shù),沒有出現(xiàn)的記為0。
最后,定義句子的綜合權重Score(S|d)為各個主題zk下句子權重之和,即
權重準則可以歸納為:
(1)它是建立在概率生成模型上的權重準則,句子的權重完全由該句子包含的詞決定;
(2)長句子的權重比短句子的權重占優(yōu)勢。這也符合摘要選取的事實,長句子包含的信息量更大,更能反映文章的中心意思,更適合做文章的摘要;
(3)保證了包含較高概率值詞匯的句子具有較重的比重,而使比重較重的句子并非都是長句。
(4)充分考慮稀疏情況下,分主題對摘要貢獻的有效性。用分主題集合T={T1,…,TK}表示文檔d,如果θk≠0(k∈[1 ,K ]),則認為文檔存在分主題Tk,否則Tk為空。同時,設定分主題直選摘要閾值λ,即當θk>λ時,不事先考慮綜合權重Score(S|d),直接加入分主題權重最重的句子到摘要中。
首先,做如下說明:
Nsumm:所需要提取摘要的字數(shù);
Ns:句子s所含有的總字數(shù),Ns=NSs+NNs,其中NSs為句子s中停用詞的個數(shù),NNs為句子s中非停用詞的個數(shù);
λ:分主題直選摘要閾值;
SS:句子集合,最后的時候即為最終摘要;
根據如上的定義和公式推導,總結出FSTM 模型下文檔摘要的算法如下:
算法1:
INPUT:Nsumm,K,stop words list;document d;λ
OUTPUT:SS
(1)Preprocess for DUC document using stop words list for word index,tarin input and test input.
(2)Input preprocess results into FSTM model and train the model,gettingθandβ.
(3)Calculate all Score(S|d,zk)byβ.Then order d by it,getting d1,…,dK.
(4)Initial SS,counter n;
(5)for i=1,…,K do
(6)if Tk?。絥ull andθk>λAdd dk[]1 into SS;
(7)end for
(8)Calculate Score(S|d)byθ.Then order d by it(if the score of the sentence is the same order by NNs/NSsasc),getting d*.
(9)do
(10) if current S not equals the previous one
(11) Move top score sentence to SS;
(12) else Remove current sentence
(13)while n<Nsumm
(14)Remove last sentence from SS and print SS;
該算法體現(xiàn)了,稀疏性狀態(tài)下分主題的有效性,并且完全體現(xiàn)了生成模型的特點。
實驗中使用了DUC 2007 語料庫作為測試數(shù)據集。DUC 2007包括主要任務(main task)和更新任務(update task),主要任務含有23個文檔集,更新任務含有30個文檔集。其中,一個文檔集中又包含若干篇文檔。本文采用主要任務中的23 個文檔集進行多文檔自動摘要的實現(xiàn)。DUC 2007中每篇文檔集都給出了250 字的抽取式專家摘要。為了保證評測結果的準確性,本文所有實驗的摘要結果都在250字以內。
根據DUC 2007 提供的文檔進行預處理,轉換成FSTM 的輸入格式進行輸入訓練。將23組DUC 2007主要任務用于FSTM 模型的訓練,將30組DUC 2007的更新數(shù)據用于模型的測試。
在實驗測試中,發(fā)現(xiàn)FSTM 對于實驗參數(shù)的依賴性較弱,對于絕大多數(shù)實驗對象不需要進行參數(shù)的調整就能達到比較理想的效果。因此,全部采用FSTM 模型的默認參數(shù)設置。其參數(shù)設置見表1。
進行參數(shù)設置后,在Linux服務器上進行FSTM 的模型訓練,最終得到的實驗結果見表2。
表1 模型參數(shù)設置
表2 實驗結果
從表2可以看到FSTM 收斂得十分快,僅僅進行了4次迭代就收斂了。文獻[10]中,為了使得模型趨于最終穩(wěn)定的狀態(tài),迭代的次數(shù)均為1000次。
本文同時借鑒了相關論文中的方法,參考了傳統(tǒng)方法、圖排序的方法、抽取式摘要的方法、基于主題模型的方法等,采用了基于LexRank[11]、TF、TF-IDF、hits、Page Rank[12]、統(tǒng)計的方法和LDA[13]的方法進行了相同的實驗,作為本實驗的對比實驗。
LDA 參數(shù)估計中,吉布斯抽樣法計算量大,但相對簡單和精確;變分貝葉斯推斷法計算量小,精度差。LDA 摘要實驗中,采用吉布斯抽樣方法進行參數(shù)估計。為了保證精度,設置的最大迭代次數(shù)為10000 次,即當達到10000次的時候吉布斯就停止。
目前,ROUGE評測方法已經被廣泛應用于DUC 的摘要評測任務中。本次實驗中使用了ROUGE-1、ROUGE-2、ROUGE-3、 ROUGE-4、 ROUGE-L、 ROUGE-W-1.2、ROUGE-S*和ROUGE-SU*這8 個評測標準進行評測。評測參數(shù)均采用Rouge 1.5.5示例(a)的默認參數(shù)。其專家摘要是DUC 2007給定的基于ROUGE 評測的人工抽象摘要。采用本文方法在數(shù)據集DUC 2007上生成了250字的摘要進行評測。
對所有的實驗數(shù)據進行評測,發(fā)現(xiàn)在沒有進行任何調優(yōu)的情況下,基于FSTM 的自動摘要的準確率P、召回率R 和F值多數(shù)情況下和DUC 2007給出的專家抽象摘要比較接近。同時,多數(shù)情況下都優(yōu)于其它方法所得到的摘要。
圖2給出了在DUC 2007 語料庫中的文檔D0742 在評測標準ROUGE-SU*下,基于FSTM 的摘要和專家在準確率P、召回率R 和F值上的對比。
圖2 與專家摘要對比
圖3給出了在DUC 2007 語料庫中的隨機選擇的文檔D0701在評測標準ROUGE-1下與各個對比方法的對比。
圖3 對比實驗效果
本文提出的基于FSTM 的在不進行任何調優(yōu)的情況下具有很好的效果,這證明了該模型的假設。說明文檔中的確存在很多稀疏的潛在表達,充分利用這些稀疏的表達可以更好的學習文檔。由此,可以假設:當文檔中單詞的量增大的時候,主題會變得更加稀疏,F(xiàn)STM 相對于其它的模型會更加的具有優(yōu)勢。
在實驗過程中可以看到相同的實驗對象,F(xiàn)STM 模型僅僅迭代了4次就收斂了,而LDA 的方法使用Gibbs Sampling迭代了10000次,仍然不能夠達到與該方法一樣好的效果。該方法極大地提高了運算效率與空間利用率,從側面反映了FSTM 更加適合處理大數(shù)據集。同時,也證明了在DUC 2007數(shù)據集上,F(xiàn)STM 模型關于文檔和潛在表達式完全稀疏的假設是正確的。本文驗證了將完全稀疏主題模型引入到多文檔摘要領域的可行性,以及所提出的摘要算法的可用性。
由于該方法在計算時間和準確率上都比較有優(yōu)勢,在以后的工作中將考慮將該模型用于超大規(guī)模的數(shù)據建模中。并對一些問題進行改進,進一步提高摘要的準確性。
本文提出了一種基于FSTM 模型的摘要提取的新方法,該方法簡單易操作,能夠充分利用文檔稀疏性達到較好的摘要效果。為了驗證該方法的有效性,在DUC 2007數(shù)據集的基礎上,使用ROUGE-1.5.5 的評測工具包對摘要結果多方面進行評測。由實驗結果可知,本文方法在提高摘要質量上具有比較明顯的優(yōu)勢,同時該模型本身也證明了對于大數(shù)據集在時間上以線性收斂,實驗結果驗證了模型的運算效率。
[1]YANG Xiao,MA Jun,YANG Tongfeng,et al.Automatic multi-document summarization based on the latent Dirichlet topic allocation model [J].CAAI Transactions on Intelligent Systems,2010,5 (2):169-176 (in Chinese). [楊瀟,馬軍,楊同峰,等.主題模型LDA 的多文檔自動文摘 [J].智能系統(tǒng)學報,2010,5 (2):169-176.]
[2]Arora R,Ravindran B.Latent dirichlet allocation based multidocument summarization [C]//Proceedings of the Second Workshop on Analytics for Noisy Unstructured Text Data.ACM,2008:91-97.
[3]Chen Y T,Chen B,Wang H M.A probabilistic generative framework for extractive broadcast news speech summarization[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17 (1):95-106.
[4]Chang Y L,Chien J T.Latent dirichlet learning for document summarization [C]//IEEE International Conference on Acoustics,Speech and Signal Processing,2009:1689-1692.
[5]Li J,Li S.A novel feature-based Bayesian model for query focused multi-document summarization [J].Transactions of Association for Computational Linguistics,2013 (1):89-98.
[6]Paul M J,Dredze M.Drug extraction from the web:Summarizing drug experiences with multi-dimensional topic models[C]//NAACL,2013.
[7]Li X,Zhu S,Xie H,et al.Document summarization via selfpresent sentence relevance model[C]//Database Systems for Advanced Applications.Berlin:Springer Berlin Heidelberg,2013:309-323.
[8]Than K,Ho T B.Fully sparse topic models [M].Machine Learning and Knowledge Discovery in Databases.Berlin:Springer Berlin Heidelberg,2012:490-505.
[9]Than K,Ho T B.Managing sparsity,time,and quality of inference in topic models [R].arXiv Preprint arXiv:1210.7053,2012.
[10]YAO Quanzhu,SONG Zhili,PENG Cheng.Research on textclossification based on LDA model[J].Computer Engineering and Applications,2011,47 (13):150-153 (in Chinese).[姚全珠,宋志理,彭程.基于LDA 模型的文本分類研究 [J].計算機工程與應用,2011,47 (13):150-153.]
[11]Liang X,Qu Y,Ma G.Research on extension LexRank in summarization for opinionated texts[C]//Proceedings of the 13th International Conference on Parallel and Distributed Computing,Applications and Technologies.IEEE Computer Society,2012:517-522.
[12]XIAO Xinyan.Rearch on lexical chains and PageRank based multi-document summarization [D].Xiamen:Xiamen University,2008 (in Chinese). [肖欣延.基于詞匯鏈和Page-Rank的多文檔自動文摘研究 [D].廈門:廈門大學,2008.]
[13]ZHANG Minghui,WANG Hongling,ZHOU Guodong.An automatic summarization approach based on LDAP feature[J].Compuert Application and Software,2011,28 (10):20-22 (in Chinese).[張明慧,王紅玲,周國棟.基于LDA主題特征的自動文摘方法 [J].計算機應用與軟件,2011,28 (10):20-22.]
[14]Hovy E,Lin C Y,Zhou L,et al.Automated summarization evaluation with basic elements[C]//Proceedings of the Fifth Conference on Language Resources and Evaluation,2006:604-611.
[15]Lin C Y,Hovy E.Automatic evaluation of summaries using n-gram cooccurrence statistics[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology Volume 1.Association for Computational Linguistics,2003:71-78.