基于超圖的文本摘要與關(guān)鍵詞協(xié)同抽取研究

2015-04-12 11:30:54莫鵬胡珀黃湘冀何婷婷

中文信息學(xué)報(bào) 2015年6期

莫鵬，胡珀，黃湘冀，何婷婷

（華中師范大學(xué)計(jì)算機(jī)學(xué)院，湖北武漢430079）

1 引言

文本摘要是從給定的文本中生成能夠表達(dá)原文主題的精簡(jiǎn)摘要；關(guān)鍵詞抽取是從給定文章中抽取出重要的詞或短語(yǔ)，這些詞或短語(yǔ)能夠代表原文的重要信息。上述兩種研究任務(wù)有一定的相似性，它們的目的都是獲取文章的簡(jiǎn)潔表達(dá)。文本摘要和關(guān)鍵詞抽取之所以受到很大關(guān)注，是因?yàn)樗鼈冊(cè)谖谋就诰虻暮芏囝I(lǐng)域有著重要的應(yīng)用，包括文本檢索、文本聚類等。例如，文本摘要能夠方便用戶快速瀏覽搜索的結(jié)果并且快速找到所需信息；而關(guān)鍵詞可以作為文章的索引，以此來(lái)提高文本檢索的準(zhǔn)確性。

文本摘要和關(guān)鍵詞抽取都可以分為一般式的和查詢相關(guān)的。一般式的文本摘要和關(guān)鍵詞抽取要盡可能覆蓋原文的重要信息，它面向的是所有用戶。而查詢相關(guān)的文本摘要和關(guān)鍵詞抽取是在給定一個(gè)查詢條件下，生成的摘要和抽取出的關(guān)鍵詞要盡可能地和這個(gè)查詢相關(guān)，它面向的是特定用戶需求。還可按照處理文本的數(shù)量將其劃分為單文檔式和多文檔式。本文關(guān)注的是一般式的單文檔摘要和關(guān)鍵詞抽取。

文本摘要和關(guān)鍵詞抽取已經(jīng)在自然語(yǔ)言處理和信息檢索領(lǐng)域被廣泛研究。近年來(lái)，基于圖的排序算法已經(jīng)成功地應(yīng)用于文本摘要［1－2］和關(guān)鍵詞抽?。?］。通常，這些方法利用投票機(jī)制從文本中抽取出句子或關(guān)鍵詞。雖然這兩個(gè)任務(wù)有很多共同之處，但是大多數(shù)方法僅研究其中一個(gè)任務(wù)。

Wan等人提出了一種基于圖的迭代強(qiáng)化方法［3］在一個(gè)框架下同時(shí)處理這兩個(gè)任務(wù)。該方法基于兩個(gè)假設(shè)，假設(shè)1：一個(gè)句子如果與其他重要的句子有密切的關(guān)系，那么這個(gè)句子也是重要的；一個(gè)詞如果與其他重要的詞關(guān)系密切，則這個(gè)詞也是重要的。假設(shè)2：一個(gè)句子如果包含許多重要的詞，那么這個(gè)句子應(yīng)該是重要的；一個(gè)詞如果出現(xiàn)在許多重要的句子中，則這個(gè)詞也是重要的。該方法同時(shí)考慮了句子與詞之間的三種關(guān)系（句子與句子之間的同質(zhì)關(guān)系，詞與詞之間的同質(zhì)關(guān)系，句子與詞之間的異質(zhì)關(guān)系），分別構(gòu)造了三種關(guān)系圖（SS－Graph、WW－Graph、SW－Graph），句子和詞之間的上述三種關(guān)系相互強(qiáng)化，迭代計(jì)算出句子和詞的重要性得分，直到收斂。此方法僅能表達(dá)句子與詞之間的各種二元關(guān)系，而忽視了不同文本單元間潛在的若干重要的高階關(guān)系。為此，本文提出了一種基于超圖的文本摘要和關(guān)鍵詞協(xié)同抽取方法HBCE（Hypergraphbased Collaborative Extraction），以句子作為超邊，以詞作為節(jié)點(diǎn)構(gòu)建超圖，在一個(gè)統(tǒng)一的超圖模型下同時(shí)利用句子與詞之間的高階信息來(lái)生成摘要和關(guān)鍵詞。另外，該方法不需要利用知識(shí)庫(kù)或背景語(yǔ)料，使得該方法在模型和計(jì)算復(fù)雜度上都更有優(yōu)勢(shì)。

2 相關(guān)工作

2.1 文本摘要

文本摘要的方法通常分為抽取式和摘要式，本文主要研究抽取式單文本摘要。抽取式文本摘要首先給文章中的每個(gè)句子打分，根據(jù)分?jǐn)?shù)將句子排序。句子分?jǐn)?shù)的計(jì)算通常結(jié)合了統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)特征，包括詞頻、句子位置特征、線索詞和主題標(biāo)簽［4－5］等。也有一些利用機(jī)器學(xué)習(xí)抽取句子的方法，有非監(jiān)督的方法［6］和監(jiān)督的方法［7－8］，除此之外，還有最大邊際相關(guān)性（MMR）［9］、潛在語(yǔ)義分析（LSA）［10］等方法?；趫D的方法也被廣泛應(yīng)用于抽取式文本摘要任務(wù)中，包括TextRank［1］和LexPageRank［2］，這些方法基于句子相似性，構(gòu)建關(guān)系矩陣，每個(gè)句子的重要性由和它相關(guān)的句子來(lái)決定。這些方法通常都只考慮了句子和句子之間的關(guān)系。Wan等人提出了一種基于圖的迭代強(qiáng)化方法［3］，該方法同時(shí)考慮了句子與句子、詞與詞、句子與詞之間的各種關(guān)系，在句子排序的過程中融入了詞的強(qiáng)化作用。

2.2 關(guān)鍵詞抽取

傳統(tǒng)的關(guān)鍵詞抽取方法僅僅使用文本中包含的顯式信息，如詞頻和位置等。Salton和Buckley提出了一個(gè)簡(jiǎn)單的基于詞頻的關(guān)鍵詞抽取方法［11］?；趫D的方法有TextRank［1］，該方法使用了三種統(tǒng)計(jì)屬性信息，包括tf×idf、距離和關(guān)鍵短語(yǔ)頻率。還有Wan等人提出的基于圖的迭代強(qiáng)化方法［3］，考慮了句子對(duì)詞的強(qiáng)化作用。Ercan和Cicekli提出了使用詞匯鏈特征的方法［12］。比較流行的還有基于機(jī)器學(xué)習(xí)的關(guān)鍵詞抽取方法［13－15］，通過機(jī)器學(xué)習(xí)算法為候選詞分類，進(jìn)而判斷候選詞是否屬于關(guān)鍵詞。目前，已經(jīng)有很多方法開始使用Wikipedia作為背景知識(shí)來(lái)抽取文本中的關(guān)鍵詞［16－17］。

3 基于超圖的協(xié)同抽取方法

3.1 構(gòu)造超圖

定義HG（V，E，w）為一個(gè)有權(quán)無(wú)向超圖，點(diǎn)集合為V，邊集合為E。超邊e是V的一個(gè)子集∪e∈Ee＝V，e的權(quán)重為w：E→。如果v∈e，則超邊e與v關(guān)聯(lián)。超圖的關(guān)聯(lián)矩陣定義為H∈?｜V｜×｜E｜如式（1）所示。

點(diǎn)和超邊的度定義如式（2）、（3）所示。

De和Dv分別代表超邊和點(diǎn)的度對(duì)角矩陣。We是邊權(quán)重對(duì)角矩陣。

3.2 超邊權(quán)重計(jì)算

超圖里的每一條邊代表一個(gè)句子，句子的權(quán)重可以由這個(gè)句子的主題信息密度來(lái)衡量。對(duì)于詞w∈V，假設(shè)詞w所包含的主題信息為T（w），則句子的主題信息密度的計(jì)算方式如式（4）所示。

3.3 基于邊的隨機(jī)游走

我們可以把漫游者在超圖上的隨機(jī)游走過程看作是在傳統(tǒng)圖上游走的一個(gè)推廣，在傳統(tǒng)的圖上，漫游者沿著邊的游走可以看作是選擇與該邊相連的點(diǎn)，然后轉(zhuǎn)移到另外一條邊上。但是，在超圖上一條邊可能與多個(gè)點(diǎn)相連，因此我們需要一般化這個(gè)過程。漫游者在超圖上游走分為兩步：第一步，漫游者從當(dāng)前所在超邊ei上隨機(jī)選擇一個(gè)點(diǎn)v；第二步，漫游者以w（ej）與包含v的所有邊的權(quán)重之和的比值作為概率選擇邊ej，且滿足v∈ei∩ej。ei到ej的轉(zhuǎn)移概率，計(jì)算方法如式（5）所示。

矩陣表示形式為：

De為公式（3）中的超邊的度對(duì)角矩陣，HT是關(guān)聯(lián)矩陣H的轉(zhuǎn)置矩陣，行為邊，列為點(diǎn)。Dv是公式（2）中的帶權(quán)的度對(duì)角矩陣。We為邊權(quán)重對(duì)角矩陣，對(duì)角線上的值為對(duì)應(yīng)邊的權(quán)重。為了避免回路，我們把Pe中的對(duì)角線元素置為0，然后再把Pe歸一化，使每一行元素之和為1。

3.4 基于點(diǎn)的隨機(jī)游走

基于點(diǎn)的隨機(jī)游走過程與基于邊的隨機(jī)游走過程類似，漫游者的游走過程也分為兩步：第一步，漫游者從與當(dāng)前所在點(diǎn)vi關(guān)聯(lián)的所有邊中，以w（e）與包含vi的所有邊的權(quán)重之和的比值作為概率選擇一條邊e；第二步，漫游者從e上隨機(jī)選擇一個(gè)點(diǎn)vj，且滿足vi，vj∈e。vi到vj的轉(zhuǎn)移概率，計(jì)算方法如式（7）所示。

矩陣表示形式為：

De為公式（3）中的超邊度對(duì)角矩陣，HT是關(guān)聯(lián)矩陣H的轉(zhuǎn)置矩陣，行為邊，列為點(diǎn)。Dv是公式（2）中的有權(quán)的度對(duì)角矩陣。We為邊權(quán)重對(duì)角矩陣，對(duì)角線上的值為對(duì)應(yīng)邊的權(quán)重。為了避免回路，我們把Pv中的對(duì)角線元素置為0，然后再把Pv歸一化，使每一行元素之和為1。

我們采用PageRank方法來(lái)進(jìn)行隨機(jī)游走，→v為待排序的點(diǎn)向量，α為阻尼系數(shù)，具體如式（8）所示。

3.5 協(xié)同抽取方法

我們用兩個(gè)列向量u＝［u（si）］n×1和v＝［v（ti）］m×1分別表示一篇特定文章中句子和詞的重要性得分。α的值設(shè)為0.85。u和v的所有元素的初值分別設(shè)為1／n和1／m，即初始時(shí)每個(gè)句子包含的主題信息密度為1／n，每個(gè)詞包含的主題信息為1／m。我們迭代交替執(zhí)行以下兩步，直至u和v的值收斂。

1.根據(jù)v的值，我們可以計(jì)算Dv，We，然后用公式（9）計(jì)算句子重要性得分。

2.根據(jù)u的值，我們可以重新計(jì)算Dv，We，然后用公式（10）計(jì)算詞重要性得分。

u（n）和v（n）分別表示句子得分向量和詞得分向量在第n次迭代的計(jì)算結(jié)果。如果相鄰兩次迭代u（n）和u（n－1），v（n）和v（n－1）對(duì)應(yīng)位置的元素差值的絕對(duì)值小于某固定閾值（本文設(shè)為0.0001），則停止迭代，同時(shí)我們得到了句子和詞的最終得分，我們抽取得分最高的若干句子生成摘要，取得分最高的若干詞作為文章的關(guān)鍵詞。

4 實(shí)驗(yàn)與分析

4.1 摘要評(píng)價(jià)

4.1.1 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)

實(shí)驗(yàn)語(yǔ)料采用NLPCC 2015面向微博的新聞文本摘要任務(wù)數(shù)據(jù)集。該數(shù)據(jù)集包括250篇來(lái)自新浪的新聞文本，包括原始文本和已分句的文本，本實(shí)驗(yàn)采用后者。

評(píng)價(jià)方法采用ROUGE［18］工具（1.5.5版），此工具被DUC作為標(biāo)準(zhǔn)評(píng)測(cè)工具，在歷年的自動(dòng)文本摘要任務(wù)中被廣泛使用。它通過計(jì)算待評(píng)價(jià)摘要與標(biāo)準(zhǔn)摘要在n－gram上的重疊度來(lái)衡量機(jī)器生成摘要的質(zhì)量。ROUGE可以分別計(jì)算1、2、3、4－gram和最大共現(xiàn)子序列ROUGE－L的分?jǐn)?shù)。在這些分?jǐn)?shù)中，基于1－gram的ROUGE分?jǐn)?shù)（ROUGE－1）被公認(rèn)為和人工評(píng)價(jià)的結(jié)果最接近［18］。在表1中展示了ROUGE－1、ROUGE－2、ROUGE－3、ROUGE－4和ROUGE－L。另外由于摘要長(zhǎng)度限定在140字以內(nèi)，所以我們?cè)谠u(píng)價(jià)時(shí)使用了“－l”命令。

4.1.2 評(píng)價(jià)結(jié)果

我們選取了四個(gè)baseline與本文提出的HBCE方法比較，這四個(gè)方法是：HBR（Hyperedge－based Ranking）、GBIR（Graph based Iterative Reinforcement）、SentenceRank和Log likelihood。HBR［19］是基于超邊的排序方法，該方法首先使用Topic Signatures［5］方法找出文章的主題詞，每個(gè)主題詞權(quán)重為1，非主題詞權(quán)重為0，用公式（4）計(jì)算句子權(quán)重，然后用基于邊的隨機(jī)游走算法（即公式（5）～（6））計(jì)算句子的最終得分。GBIR［3］方法是基于圖的迭代強(qiáng)化方法，它在計(jì)算詞與詞之間的語(yǔ)義相似性用到的方法是基于語(yǔ)料的滑動(dòng)窗口法，窗口大小設(shè)置為5，把250篇新聞文本作為背景語(yǔ)料。SentenceRank［1］方法是Mihalcea和Tarau在2004年提出來(lái)的，該方法利用句子與句子之間的關(guān)系來(lái)對(duì)所有句子排序。Log Likelihood方法是將HBR方法計(jì)算出帶權(quán)重的句子，按權(quán)重大小排序，這里的句子權(quán)重為主題詞密度。評(píng)價(jià)結(jié)果見表1。

表1 摘要評(píng)價(jià)結(jié)果

4.1.3 結(jié)果分析

從實(shí)驗(yàn)結(jié)果來(lái)看，本文提出的HBCE方法在所有ROUGE指標(biāo)上都優(yōu)于其他方法，證明了此方法的有效性。HBR方法在沒有利用詞的強(qiáng)化作用下，僅利用基于超邊的隨機(jī)游走算法，其結(jié)果比SentenceRank方法要好，證明句子與詞之間的高階關(guān)系是一個(gè)十分重要的關(guān)系，但是基于圖的排序方法中無(wú)法表示這種關(guān)系。基于圖的迭代強(qiáng)化方法GBIR和利用句子之間關(guān)系的圖排序算法SentenceRank方法效果相當(dāng)。Log Likelihood按照句子主題詞密度給句子排序，從表1可以看出這個(gè)方法是有效的，同時(shí)證明我們?cè)贖BCE方法中采用主題信息密度作為句子的權(quán)重是合理的。

4.2 關(guān)鍵詞評(píng)價(jià)

4.2.1 評(píng)價(jià)方法

實(shí)驗(yàn)語(yǔ)料采用NLPCC 2015面向微博的新聞文本摘要任務(wù)數(shù)據(jù)集中的前30篇新聞文本，人工標(biāo)注出每篇文本中的關(guān)鍵詞，每篇最多標(biāo)注10個(gè)關(guān)鍵詞。對(duì)這30篇文本，利用本文提出的方法，每篇文本提取出10個(gè)得分最高的詞。我們通過計(jì)算候選詞在標(biāo)注詞上的正確率P，召回率R以及F值（F＝2PR／（P＋R））來(lái)評(píng)價(jià)方法的有效性。

4.2.2 評(píng)價(jià)結(jié)果

在實(shí)驗(yàn)中，分別用GBIR、WordRank和Topic Signatures為每一篇文檔提取出10個(gè)候選詞來(lái)與本文的方法作對(duì)比。WordRank［1］方法是Mihalcea和Tarau在2004年提出來(lái)的，該方法利用詞與詞之間的共現(xiàn)關(guān)系來(lái)對(duì)所有詞排序。Topic Signatures［5］方法提取每篇新聞文本關(guān)鍵詞的時(shí)候，把除去這篇文本的剩下249篇新聞文本作為背景語(yǔ)料。評(píng)價(jià)結(jié)果見表2。

表2 關(guān)鍵詞評(píng)價(jià)結(jié)果

4.2.3 結(jié)果分析

從表2中的對(duì)比實(shí)驗(yàn)結(jié)果可以看出，本文的方法比只考慮詞與詞之間關(guān)系的WordRank方法效果要好，但是和基于背景語(yǔ)料的方法相比還存在一定的差距，如果從計(jì)算的時(shí)間復(fù)雜度和是否使用背景語(yǔ)料來(lái)綜合考慮，本文的方法優(yōu)勢(shì)較為明顯。

5 總結(jié)與展望

本文提出了一種基于超圖的協(xié)同抽取方法HBCE，可以同時(shí)對(duì)一篇文檔生成摘要和抽取出關(guān)鍵詞，該方法以句子作為超邊，以詞作為結(jié)點(diǎn)構(gòu)建超圖，在一個(gè)統(tǒng)一的超圖模型下同時(shí)利用句子與詞之間的高階信息來(lái)生成摘要和關(guān)鍵詞。最后的評(píng)價(jià)結(jié)果表明本文的方法在文本摘要上的效果要優(yōu)于其他基于圖的方法，同時(shí)優(yōu)于僅考慮句子與句子間關(guān)系而忽視了詞與句子間潛在的高階關(guān)系的方法，關(guān)鍵詞抽取的評(píng)價(jià)結(jié)果也優(yōu)于僅考慮詞與詞之間關(guān)系的方法，雖然與基于語(yǔ)料或知識(shí)庫(kù)的方法相比還存在一定的差距，但是本方法的綜合性能優(yōu)勢(shì)較為明顯。下一步我們打算把該方法應(yīng)用于英文數(shù)據(jù)集，以驗(yàn)證本文方法的有效性。除此之外，本文在進(jìn)行迭代的過程中，無(wú)論是基于點(diǎn)的隨機(jī)游走過程還是基于邊的隨機(jī)游走過程，都是以一個(gè)固定的概率在超邊上選擇點(diǎn)，下一步我們將驗(yàn)證以該詞的權(quán)重占句子權(quán)重的比值作為概率來(lái)選擇點(diǎn)的有效性。

［1］ Mihalcea R，Tarau P.TextRank：Bringing order into texts［C］／／Proceedings of Association for Computational Linguistics.2004.

［2］ Erkan G，Radev D R.LexPageRank：Prestige in Multi－Document Text Summarization［C］／／Proceedings of EMNLP.2004，4：365－371.

［3］ Wan X，Yang J，Xiao J.Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction［C］／／Proceedings of Annual Meeting－Association for Computational Linguistics.2007，45（1）：552.

［4］ Hovy E，Lin C Y.Automated text summarization and the SUMMARIST system［C］／／Proceedings of a workshop on held at Baltimore，Maryland：October 13－15，Association for Computational Linguistics，1998：197－214.

［5］ Lin C Y，Hovy E.The automated acquisition of topic signatures for text summarization［C］／／Proceedings of the 18th Conference on Computational Linguistics－Volume 1.Association for Computational Linguistics，2000：495－501.

［6］ Nomoto T，Matsumoto Y.A new approach to unsupervised text summarization［C］／／Proceedings of the 24th Annual international ACM SIGIR Conference on Research and Development in Information Retrieval.ACM，2001：26－34.

［7］ Kupiec J，Pedersen J，Chen F.A trainable document summarizer［C］／／Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM，1995：68－73.

［8］ Conroy J M，O'leary D P.Text summarization via hidden markov models［C］／／Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM，2001：406－407.

［9］ Carbonell J，Goldstein J.The use of MMR，diversitybased reranking for reordering documents and producing summaries［C］／／Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM，1998：335－336.

［10］ Gong Y，Liu X.Generic text summarization using relevance measure and latent semantic analysis［C］／／Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM，2001：19－25.

［11］ Salton G，Buckley C.Term－weighting approaches in automatic text retrieval［J］.Information processing ＆management，1988，24（5）：513－523.

［12］ Ercan G，Cicekli I.Using lexical chains for keyword extraction［J］.Information Processing ＆Management，2007，43（6）：1705－1714.

［13］ Turney P D.Learning algorithms for keyphrase extraction［J］.Information Retrieval，2000，2（4）：303－336.

［14］ Wu Y B，Li Q，Bot R S，et al.Domain－specific keyphrase extraction［C］／／Proceedings of the 14th ACM International Conference on Information and Knowledge Management.ACM，2005：283－284.

［15］ Witten I H，Paynter G W，F(xiàn)rank E，et al.KEA：Practical automatic keyphrase extraction［C］／／Proceedings of the 4th ACM Conference on Digital Libraries.ACM，1999：254－255.

［16］ Mihalcea R，Csomai A.Wikify：linking documents to encyclopedic knowledge［C］／／Proceedings of the 16th ACM conference on Conference on Information and Knowledge Management.ACM，2007：233－242.

［17］ Grineva M，Grinev M，Lizorkin D.Extracting key terms from noisy and multitheme documents［C］／／Proceedings of the 18th International Conference on World wide web.ACM，2009：661－670.

［18］ Lin C Y，Hovy E.Automatic evaluation of summaries using n－gram co－occurrence statistics［C］／／Proceedings of the 2003Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology－Volume 1.Association for Computational Linguistics，2003：71－78.

［19］ Bellaachia A，Al－Dhelaan M.Multi－document Hyperedge－based Ranking for Text Summarization［C］／／Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM，2014：1919－1922.