莫鵬,胡珀,黃湘冀,何婷婷
(華中師范大學(xué)計(jì)算機(jī)學(xué)院,湖北武漢430079)
文本摘要是從給定的文本中生成能夠表達(dá)原文主題的精簡(jiǎn)摘要;關(guān)鍵詞抽取是從給定文章中抽取出重要的詞或短語(yǔ),這些詞或短語(yǔ)能夠代表原文的重要信息。上述兩種研究任務(wù)有一定的相似性,它們的目的都是獲取文章的簡(jiǎn)潔表達(dá)。文本摘要和關(guān)鍵詞抽取之所以受到很大關(guān)注,是因?yàn)樗鼈冊(cè)谖谋就诰虻暮芏囝I(lǐng)域有著重要的應(yīng)用,包括文本檢索、文本聚類等。例如,文本摘要能夠方便用戶快速瀏覽搜索的結(jié)果并且快速找到所需信息;而關(guān)鍵詞可以作為文章的索引,以此來(lái)提高文本檢索的準(zhǔn)確性。
文本摘要和關(guān)鍵詞抽取都可以分為一般式的和查詢相關(guān)的。一般式的文本摘要和關(guān)鍵詞抽取要盡可能覆蓋原文的重要信息,它面向的是所有用戶。而查詢相關(guān)的文本摘要和關(guān)鍵詞抽取是在給定一個(gè)查詢條件下,生成的摘要和抽取出的關(guān)鍵詞要盡可能地和這個(gè)查詢相關(guān),它面向的是特定用戶需求。還可按照處理文本的數(shù)量將其劃分為單文檔式和多文檔式。本文關(guān)注的是一般式的單文檔摘要和關(guān)鍵詞抽取。
文本摘要和關(guān)鍵詞抽取已經(jīng)在自然語(yǔ)言處理和信息檢索領(lǐng)域被廣泛研究。近年來(lái),基于圖的排序算法已經(jīng)成功地應(yīng)用于文本摘要[1-2]和關(guān)鍵詞抽?。?]。通常,這些方法利用投票機(jī)制從文本中抽取出句子或關(guān)鍵詞。雖然這兩個(gè)任務(wù)有很多共同之處,但是大多數(shù)方法僅研究其中一個(gè)任務(wù)。
Wan等人提出了一種基于圖的迭代強(qiáng)化方法[3]在一個(gè)框架下同時(shí)處理這兩個(gè)任務(wù)。該方法基于兩個(gè)假設(shè),假設(shè)1:一個(gè)句子如果與其他重要的句子有密切的關(guān)系,那么這個(gè)句子也是重要的;一個(gè)詞如果與其他重要的詞關(guān)系密切,則這個(gè)詞也是重要的。假設(shè)2:一個(gè)句子如果包含許多重要的詞,那么這個(gè)句子應(yīng)該是重要的;一個(gè)詞如果出現(xiàn)在許多重要的句子中,則這個(gè)詞也是重要的。該方法同時(shí)考慮了句子與詞之間的三種關(guān)系(句子與句子之間的同質(zhì)關(guān)系,詞與詞之間的同質(zhì)關(guān)系,句子與詞之間的異質(zhì)關(guān)系),分別構(gòu)造了三種關(guān)系圖(SS-Graph、WW-Graph、SW-Graph),句子和詞之間的上述三種關(guān)系相互強(qiáng)化,迭代計(jì)算出句子和詞的重要性得分,直到收斂。此方法僅能表達(dá)句子與詞之間的各種二元關(guān)系,而忽視了不同文本單元間潛在的若干重要的高階關(guān)系。為此,本文提出了一種基于超圖的文本摘要和關(guān)鍵詞協(xié)同抽取方法HBCE(Hypergraphbased Collaborative Extraction),以句子作為超邊,以詞作為節(jié)點(diǎn)構(gòu)建超圖,在一個(gè)統(tǒng)一的超圖模型下同時(shí)利用句子與詞之間的高階信息來(lái)生成摘要和關(guān)鍵詞。另外,該方法不需要利用知識(shí)庫(kù)或背景語(yǔ)料,使得該方法在模型和計(jì)算復(fù)雜度上都更有優(yōu)勢(shì)。
文本摘要的方法通常分為抽取式和摘要式,本文主要研究抽取式單文本摘要。抽取式文本摘要首先給文章中的每個(gè)句子打分,根據(jù)分?jǐn)?shù)將句子排序。句子分?jǐn)?shù)的計(jì)算通常結(jié)合了統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)特征,包括詞頻、句子位置特征、線索詞和主題標(biāo)簽[4-5]等。也有一些利用機(jī)器學(xué)習(xí)抽取句子的方法,有非監(jiān)督的方法[6]和監(jiān)督的方法[7-8],除此之外,還有最大邊際相關(guān)性(MMR)[9]、潛在語(yǔ)義分析(LSA)[10]等方法?;趫D的方法也被廣泛應(yīng)用于抽取式文本摘要任務(wù)中,包括TextRank[1]和LexPageRank[2],這些方法基于句子相似性,構(gòu)建關(guān)系矩陣,每個(gè)句子的重要性由和它相關(guān)的句子來(lái)決定。這些方法通常都只考慮了句子和句子之間的關(guān)系。Wan等人提出了一種基于圖的迭代強(qiáng)化方法[3],該方法同時(shí)考慮了句子與句子、詞與詞、句子與詞之間的各種關(guān)系,在句子排序的過程中融入了詞的強(qiáng)化作用。
傳統(tǒng)的關(guān)鍵詞抽取方法僅僅使用文本中包含的顯式信息,如詞頻和位置等。Salton和Buckley提出了一個(gè)簡(jiǎn)單的基于詞頻的關(guān)鍵詞抽取方法[11]?;趫D的方法有TextRank[1],該方法使用了三種統(tǒng)計(jì)屬性信息,包括tf×idf、距離和關(guān)鍵短語(yǔ)頻率。還有Wan等人提出的基于圖的迭代強(qiáng)化方法[3],考慮了句子對(duì)詞的強(qiáng)化作用。Ercan和Cicekli提出了使用詞匯鏈特征的方法[12]。比較流行的還有基于機(jī)器學(xué)習(xí)的關(guān)鍵詞抽取方法[13-15],通過機(jī)器學(xué)習(xí)算法為候選詞分類,進(jìn)而判斷候選詞是否屬于關(guān)鍵詞。目前,已經(jīng)有很多方法開始使用Wikipedia作為背景知識(shí)來(lái)抽取文本中的關(guān)鍵詞[16-17]。
定義HG(V,E,w)為一個(gè)有權(quán)無(wú)向超圖,點(diǎn)集合為V,邊集合為E。超邊e是V的一個(gè)子集∪e∈Ee=V,e的權(quán)重為w:E→。如果v∈e,則超邊e與v關(guān)聯(lián)。超圖的關(guān)聯(lián)矩陣定義為H∈?|V|×|E|如式(1)所示。
點(diǎn)和超邊的度定義如式(2)、(3)所示。
De和Dv分別代表超邊和點(diǎn)的度對(duì)角矩陣。We是邊權(quán)重對(duì)角矩陣。
超圖里的每一條邊代表一個(gè)句子,句子的權(quán)重可以由這個(gè)句子的主題信息密度來(lái)衡量。對(duì)于詞w∈V,假設(shè)詞w所包含的主題信息為T(w),則句子的主題信息密度的計(jì)算方式如式(4)所示。
我們可以把漫游者在超圖上的隨機(jī)游走過程看作是在傳統(tǒng)圖上游走的一個(gè)推廣,在傳統(tǒng)的圖上,漫游者沿著邊的游走可以看作是選擇與該邊相連的點(diǎn),然后轉(zhuǎn)移到另外一條邊上。但是,在超圖上一條邊可能與多個(gè)點(diǎn)相連,因此我們需要一般化這個(gè)過程。漫游者在超圖上游走分為兩步:第一步,漫游者從當(dāng)前所在超邊ei上隨機(jī)選擇一個(gè)點(diǎn)v;第二步,漫游者以w(ej)與包含v的所有邊的權(quán)重之和的比值作為概率選擇邊ej,且滿足v∈ei∩ej。ei到ej的轉(zhuǎn)移概率,計(jì)算方法如式(5)所示。
矩陣表示形式為:
De為公式(3)中的超邊的度對(duì)角矩陣,HT是關(guān)聯(lián)矩陣H的轉(zhuǎn)置矩陣,行為邊,列為點(diǎn)。Dv是公式(2)中的帶權(quán)的度對(duì)角矩陣。We為邊權(quán)重對(duì)角矩陣,對(duì)角線上的值為對(duì)應(yīng)邊的權(quán)重。為了避免回路,我們把Pe中的對(duì)角線元素置為0,然后再把Pe歸一化,使每一行元素之和為1。
基于點(diǎn)的隨機(jī)游走過程與基于邊的隨機(jī)游走過程類似,漫游者的游走過程也分為兩步:第一步,漫游者從與當(dāng)前所在點(diǎn)vi關(guān)聯(lián)的所有邊中,以w(e)與包含vi的所有邊的權(quán)重之和的比值作為概率選擇一條邊e;第二步,漫游者從e上隨機(jī)選擇一個(gè)點(diǎn)vj,且滿足vi,vj∈e。vi到vj的轉(zhuǎn)移概率,計(jì)算方法如式(7)所示。
矩陣表示形式為:
De為公式(3)中的超邊度對(duì)角矩陣,HT是關(guān)聯(lián)矩陣H的轉(zhuǎn)置矩陣,行為邊,列為點(diǎn)。Dv是公式(2)中的有權(quán)的度對(duì)角矩陣。We為邊權(quán)重對(duì)角矩陣,對(duì)角線上的值為對(duì)應(yīng)邊的權(quán)重。為了避免回路,我們把Pv中的對(duì)角線元素置為0,然后再把Pv歸一化,使每一行元素之和為1。
我們采用PageRank方法來(lái)進(jìn)行隨機(jī)游走,→v為待排序的點(diǎn)向量,α為阻尼系數(shù),具體如式(8)所示。
我們用兩個(gè)列向量u=[u(si)]n×1和v=[v(ti)]m×1分別表示一篇特定文章中句子和詞的重要性得分。α的值設(shè)為0.85。u和v的所有元素的初值分別設(shè)為1/n和1/m,即初始時(shí)每個(gè)句子包含的主題信息密度為1/n,每個(gè)詞包含的主題信息為1/m。我們迭代交替執(zhí)行以下兩步,直至u和v的值收斂。
1.根據(jù)v的值,我們可以計(jì)算Dv,We,然后用公式(9)計(jì)算句子重要性得分。
2.根據(jù)u的值,我們可以重新計(jì)算Dv,We,然后用公式(10)計(jì)算詞重要性得分。
u(n)和v(n)分別表示句子得分向量和詞得分向量在第n次迭代的計(jì)算結(jié)果。如果相鄰兩次迭代u(n)和u(n-1),v(n)和v(n-1)對(duì)應(yīng)位置的元素差值的絕對(duì)值小于某固定閾值(本文設(shè)為0.0001),則停止迭代,同時(shí)我們得到了句子和詞的最終得分,我們抽取得分最高的若干句子生成摘要,取得分最高的若干詞作為文章的關(guān)鍵詞。
4.1.1 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)
實(shí)驗(yàn)語(yǔ)料采用NLPCC 2015面向微博的新聞文本摘要任務(wù)數(shù)據(jù)集。該數(shù)據(jù)集包括250篇來(lái)自新浪的新聞文本,包括原始文本和已分句的文本,本實(shí)驗(yàn)采用后者。
評(píng)價(jià)方法采用ROUGE[18]工具(1.5.5版),此工具被DUC作為標(biāo)準(zhǔn)評(píng)測(cè)工具,在歷年的自動(dòng)文本摘要任務(wù)中被廣泛使用。它通過計(jì)算待評(píng)價(jià)摘要與標(biāo)準(zhǔn)摘要在n-gram上的重疊度來(lái)衡量機(jī)器生成摘要的質(zhì)量。ROUGE可以分別計(jì)算1、2、3、4-gram和最大共現(xiàn)子序列ROUGE-L的分?jǐn)?shù)。在這些分?jǐn)?shù)中,基于1-gram的ROUGE分?jǐn)?shù)(ROUGE-1)被公認(rèn)為和人工評(píng)價(jià)的結(jié)果最接近[18]。在表1中展示了ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4和ROUGE-L。另外由于摘要長(zhǎng)度限定在140字以內(nèi),所以我們?cè)谠u(píng)價(jià)時(shí)使用了“-l”命令。
4.1.2 評(píng)價(jià)結(jié)果
我們選取了四個(gè)baseline與本文提出的HBCE方法比較,這四個(gè)方法是:HBR(Hyperedge-based Ranking)、GBIR(Graph based Iterative Reinforcement)、SentenceRank和Log likelihood。HBR[19]是基于超邊的排序方法,該方法首先使用Topic Signatures[5]方法找出文章的主題詞,每個(gè)主題詞權(quán)重為1,非主題詞權(quán)重為0,用公式(4)計(jì)算句子權(quán)重,然后用基于邊的隨機(jī)游走算法(即公式(5)~(6))計(jì)算句子的最終得分。GBIR[3]方法是基于圖的迭代強(qiáng)化方法,它在計(jì)算詞與詞之間的語(yǔ)義相似性用到的方法是基于語(yǔ)料的滑動(dòng)窗口法,窗口大小設(shè)置為5,把250篇新聞文本作為背景語(yǔ)料。SentenceRank[1]方法是Mihalcea和Tarau在2004年提出來(lái)的,該方法利用句子與句子之間的關(guān)系來(lái)對(duì)所有句子排序。Log Likelihood方法是將HBR方法計(jì)算出帶權(quán)重的句子,按權(quán)重大小排序,這里的句子權(quán)重為主題詞密度。評(píng)價(jià)結(jié)果見表1。
表1 摘要評(píng)價(jià)結(jié)果
4.1.3 結(jié)果分析
從實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的HBCE方法在所有ROUGE指標(biāo)上都優(yōu)于其他方法,證明了此方法的有效性。HBR方法在沒有利用詞的強(qiáng)化作用下,僅利用基于超邊的隨機(jī)游走算法,其結(jié)果比SentenceRank方法要好,證明句子與詞之間的高階關(guān)系是一個(gè)十分重要的關(guān)系,但是基于圖的排序方法中無(wú)法表示這種關(guān)系。基于圖的迭代強(qiáng)化方法GBIR和利用句子之間關(guān)系的圖排序算法SentenceRank方法效果相當(dāng)。Log Likelihood按照句子主題詞密度給句子排序,從表1可以看出這個(gè)方法是有效的,同時(shí)證明我們?cè)贖BCE方法中采用主題信息密度作為句子的權(quán)重是合理的。
4.2.1 評(píng)價(jià)方法
實(shí)驗(yàn)語(yǔ)料采用NLPCC 2015面向微博的新聞文本摘要任務(wù)數(shù)據(jù)集中的前30篇新聞文本,人工標(biāo)注出每篇文本中的關(guān)鍵詞,每篇最多標(biāo)注10個(gè)關(guān)鍵詞。對(duì)這30篇文本,利用本文提出的方法,每篇文本提取出10個(gè)得分最高的詞。我們通過計(jì)算候選詞在標(biāo)注詞上的正確率P,召回率R以及F值(F=2PR/(P+R))來(lái)評(píng)價(jià)方法的有效性。
4.2.2 評(píng)價(jià)結(jié)果
在實(shí)驗(yàn)中,分別用GBIR、WordRank和Topic Signatures為每一篇文檔提取出10個(gè)候選詞來(lái)與本文的方法作對(duì)比。WordRank[1]方法是Mihalcea和Tarau在2004年提出來(lái)的,該方法利用詞與詞之間的共現(xiàn)關(guān)系來(lái)對(duì)所有詞排序。Topic Signatures[5]方法提取每篇新聞文本關(guān)鍵詞的時(shí)候,把除去這篇文本的剩下249篇新聞文本作為背景語(yǔ)料。評(píng)價(jià)結(jié)果見表2。
表2 關(guān)鍵詞評(píng)價(jià)結(jié)果
4.2.3 結(jié)果分析
從表2中的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,本文的方法比只考慮詞與詞之間關(guān)系的WordRank方法效果要好,但是和基于背景語(yǔ)料的方法相比還存在一定的差距,如果從計(jì)算的時(shí)間復(fù)雜度和是否使用背景語(yǔ)料來(lái)綜合考慮,本文的方法優(yōu)勢(shì)較為明顯。
本文提出了一種基于超圖的協(xié)同抽取方法HBCE,可以同時(shí)對(duì)一篇文檔生成摘要和抽取出關(guān)鍵詞,該方法以句子作為超邊,以詞作為結(jié)點(diǎn)構(gòu)建超圖,在一個(gè)統(tǒng)一的超圖模型下同時(shí)利用句子與詞之間的高階信息來(lái)生成摘要和關(guān)鍵詞。最后的評(píng)價(jià)結(jié)果表明本文的方法在文本摘要上的效果要優(yōu)于其他基于圖的方法,同時(shí)優(yōu)于僅考慮句子與句子間關(guān)系而忽視了詞與句子間潛在的高階關(guān)系的方法,關(guān)鍵詞抽取的評(píng)價(jià)結(jié)果也優(yōu)于僅考慮詞與詞之間關(guān)系的方法,雖然與基于語(yǔ)料或知識(shí)庫(kù)的方法相比還存在一定的差距,但是本方法的綜合性能優(yōu)勢(shì)較為明顯。下一步我們打算把該方法應(yīng)用于英文數(shù)據(jù)集,以驗(yàn)證本文方法的有效性。除此之外,本文在進(jìn)行迭代的過程中,無(wú)論是基于點(diǎn)的隨機(jī)游走過程還是基于邊的隨機(jī)游走過程,都是以一個(gè)固定的概率在超邊上選擇點(diǎn),下一步我們將驗(yàn)證以該詞的權(quán)重占句子權(quán)重的比值作為概率來(lái)選擇點(diǎn)的有效性。
[1] Mihalcea R,Tarau P.TextRank:Bringing order into texts[C]//Proceedings of Association for Computational Linguistics.2004.
[2] Erkan G,Radev D R.LexPageRank:Prestige in Multi-Document Text Summarization[C]//Proceedings of EMNLP.2004,4:365-371.
[3] Wan X,Yang J,Xiao J.Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction[C]//Proceedings of Annual Meeting-Association for Computational Linguistics.2007,45(1):552.
[4] Hovy E,Lin C Y.Automated text summarization and the SUMMARIST system[C]//Proceedings of a workshop on held at Baltimore,Maryland:October 13-15,Association for Computational Linguistics,1998:197-214.
[5] Lin C Y,Hovy E.The automated acquisition of topic signatures for text summarization[C]//Proceedings of the 18th Conference on Computational Linguistics-Volume 1.Association for Computational Linguistics,2000:495-501.
[6] Nomoto T,Matsumoto Y.A new approach to unsupervised text summarization[C]//Proceedings of the 24th Annual international ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2001:26-34.
[7] Kupiec J,Pedersen J,Chen F.A trainable document summarizer[C]//Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,1995:68-73.
[8] Conroy J M,O'leary D P.Text summarization via hidden markov models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2001:406-407.
[9] Carbonell J,Goldstein J.The use of MMR,diversitybased reranking for reordering documents and producing summaries[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,1998:335-336.
[10] Gong Y,Liu X.Generic text summarization using relevance measure and latent semantic analysis[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2001:19-25.
[11] Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information processing &management,1988,24(5):513-523.
[12] Ercan G,Cicekli I.Using lexical chains for keyword extraction[J].Information Processing &Management,2007,43(6):1705-1714.
[13] Turney P D.Learning algorithms for keyphrase extraction[J].Information Retrieval,2000,2(4):303-336.
[14] Wu Y B,Li Q,Bot R S,et al.Domain-specific keyphrase extraction[C]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management.ACM,2005:283-284.
[15] Witten I H,Paynter G W,F(xiàn)rank E,et al.KEA:Practical automatic keyphrase extraction[C]//Proceedings of the 4th ACM Conference on Digital Libraries.ACM,1999:254-255.
[16] Mihalcea R,Csomai A.Wikify:linking documents to encyclopedic knowledge[C]//Proceedings of the 16th ACM conference on Conference on Information and Knowledge Management.ACM,2007:233-242.
[17] Grineva M,Grinev M,Lizorkin D.Extracting key terms from noisy and multitheme documents[C]//Proceedings of the 18th International Conference on World wide web.ACM,2009:661-670.
[18] Lin C Y,Hovy E.Automatic evaluation of summaries using n-gram co-occurrence statistics[C]//Proceedings of the 2003Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Computational Linguistics,2003:71-78.
[19] Bellaachia A,Al-Dhelaan M.Multi-document Hyperedge-based Ranking for Text Summarization[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:1919-1922.