于洋,范文義,劉美玲,王慧強(qiáng)
(1.東北林業(yè)大學(xué)林學(xué)院,黑龍江哈爾濱150040;2.哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001)
動態(tài)多文檔文摘的主要任務(wù)是在人們已經(jīng)了解同一主題相關(guān)歷史信息的基礎(chǔ)上,獲得隨時(shí)間推移的相同主題下的動態(tài)變化的新穎性信息。一個(gè)新聞話題,通常有它自己的生命周期,包括出現(xiàn)階段、發(fā)展階段、衰退階段和消亡階段。不同的階段具有不同的側(cè)重點(diǎn),而不同時(shí)刻的話題重心之間具有關(guān)聯(lián)性,動態(tài)多文檔文摘技術(shù)需要在主題相關(guān)性的基礎(chǔ)上考慮多個(gè)文檔集之間的時(shí)序關(guān)系。
動態(tài)文摘任務(wù)是由document understanding conference(DUC)[1]2007 年提出的,并且成為了 Text Analysis Conference(TAC)2008年的一項(xiàng)子任務(wù),由美國NIST[2]承辦。在 IARPA的支持下于2007年舉行了第一屆評測會議。主要研究的主題是分析出歷史信息和當(dāng)前信息之間的關(guān)系,找出它們之間的相同信息和相異信息然后提取新信息,過濾歷史信息,實(shí)現(xiàn)對文檔集信息演化性的建模。因此,人們希望快速高效的識別出重要的新穎的信息,以減少獲取信息的代價(jià)。
張瑾[3]等提出了高性能的動態(tài)多文檔文摘方法,利用模糊理論中的隸屬度來衡量當(dāng)前候選文摘句與歷史信息的關(guān)聯(lián)性,設(shè)定閾值,過濾掉關(guān)聯(lián)性度量值高于閾值的候選文摘句,這屬于第1大類動態(tài)文摘方法。參加TAC2008 Update task評測的系統(tǒng)中的大部分使用的動態(tài)文摘方法都屬于第2大類。第3大類動態(tài)文摘方法是面向語義的文摘方法,多應(yīng)用在面向領(lǐng)域的文摘系統(tǒng)和多語言環(huán)境中,參加TAC2009 Update task評測的系統(tǒng)絕大部分都是基于語義的建模方法。綜上可知,以上3大類動態(tài)文摘方法是該領(lǐng)域中的主導(dǎo)方法。
本研究從分析歷史文檔與當(dāng)前文檔關(guān)系的角度,研究動態(tài)演化環(huán)境下動態(tài)文摘求解模型。首先給出了基于文本相似度累加(text similarity cumulative model,TSCM)的動態(tài)多文檔文摘模型和基于質(zhì)心整體優(yōu)選(centroid integer selection model,CISM)的動態(tài)多文檔文摘模型,應(yīng)用TSCM來給候選文摘句加權(quán)打分,為使文摘具有較低的信息冗余度,使用提出的動態(tài)MMR(maximal marginal relevance)算法,然后用CISM進(jìn)行質(zhì)心判別和多層過濾。并在TAC2008測試集上進(jìn)行測試。
1)文本相似度累加思想。
文本相似度累加思想體現(xiàn)在分析歷史文檔和當(dāng)前文檔間的關(guān)系上。文本相似度累加的思路是計(jì)算文檔中所有句子的相似度并進(jìn)行累加,對比以往的詞級相似度計(jì)算,提高了內(nèi)容過濾的可理解性和準(zhǔn)確性。因此在文檔內(nèi)容一層過濾時(shí),首先從動態(tài)性的演化性分析的角度對歷史文檔集合和當(dāng)前文檔集合做句子相似度計(jì)算,以時(shí)間信息和相似度值為依據(jù)過濾掉重復(fù)的文本信息,對過濾后的新產(chǎn)生的文檔句子集合重新排序,并抽取出相似度值最低最能反映出信息新穎性的句子集合。句子級的相似度累加所產(chǎn)生的文摘比詞級計(jì)算更能反應(yīng)當(dāng)前時(shí)序階段內(nèi)容的側(cè)重點(diǎn)。
2)質(zhì)心整體優(yōu)選。動態(tài)多文檔文摘生成文摘結(jié)構(gòu)包括如下幾個(gè)步驟:①預(yù)處理相關(guān)文檔集;②對候選文摘句加權(quán)打分;③從候選文摘句集合中提取文摘句想成文摘;④根據(jù)相關(guān)時(shí)間信息對文摘句排序,進(jìn)而生成連貫合理的文摘。無論動態(tài)文摘方法還是靜態(tài)文摘方法,這4個(gè)步驟都缺一不可。文摘句選取階段是動態(tài)多文檔文摘方法的關(guān)鍵階段,該階段算法的好壞直接影響該動態(tài)文摘方法的性能。質(zhì)心多層過濾優(yōu)選方法以文本相似度累加模型為參照,涉及了多文檔文摘技術(shù)的3大類型,改進(jìn)了相應(yīng)的解決方案。并在動態(tài)多文檔文摘的信息顯著度、信息新穎度和信息冗余度3項(xiàng)主要標(biāo)準(zhǔn)指標(biāo)中應(yīng)用了新的算法提高性能。
多文檔文摘系統(tǒng)的關(guān)鍵問題是如何識別重要性信息和刪去冗余性信息。自動多文檔文摘系統(tǒng)在最近幾年獲得了足夠的重視,而對動態(tài)多文檔文摘的研究工作才剛剛開始。他們共同的問題是,在不同文檔中出現(xiàn)的信息不可避免的會互相重疊,即有較高的冗余度。因此,高效的動態(tài)多文摘方法,需要仔細(xì)分析測試任務(wù),解決當(dāng)前文摘高冗余度和歷史文摘低關(guān)聯(lián)度的問題。
目前在動態(tài)多文檔文摘領(lǐng)域的評價(jià)方法主要包括自動評價(jià) ROUGE[4]、BE(basic elements)[5]方法和人工評價(jià)金字塔PYRAMID[6]方法。
1)ROUGE和BE方法。
ROUGE方法是由Lin Chin Yew等于2002年提出并在2004年的DUC會議上正式使用。這個(gè)評價(jià)方法通過計(jì)算系統(tǒng)產(chǎn)生的文摘和人工文摘間所重疊的最長單詞數(shù)目來評價(jià)系統(tǒng)文摘。其評價(jià)方法的計(jì)算比較復(fù)雜。Eduard Hovy等提出了BE方法,它以最小的基本詞素作為比較單元,對ROUGE進(jìn)行了很好的擴(kuò)展。
2)Pyramid方法。
該方法是由Nenkova和Passonneau于2004年提出的。它采用一致確認(rèn)的方法來進(jìn)行評測。該方法以多年累積的權(quán)威性參考文摘中提取得到的短語表做為參考(這些短語由短而長排列,形如金字塔),通過比較機(jī)器文摘和參考文摘中在短語表中包含相同成分的多少來評測機(jī)器文摘的質(zhì)量。
具體實(shí)現(xiàn)過程如算法1所示。
算法1:基于TSCM的多文檔文摘算法
Input:多文檔集合
Output:生成的動態(tài)文摘結(jié)果
1)設(shè)歷史信息句子集合為Sh,當(dāng)前信息句子集合為Sc,統(tǒng)計(jì)Sh中句子長度;
2)對Sc中的每個(gè)句子Sci(0<i< count(Sc))計(jì)算Sci與Shi(0<j< count(Sh))相似度值 Sim(senti,sentj),應(yīng)用提出的句子級的相似度計(jì)算方法進(jìn)行相似度計(jì)算;
3)計(jì)算相似度的累加迭代的值:
式中:Weight(Sci)(j)表示句子Sci與Sh中前j(0<j<count(Sh))個(gè)句子相似度值的累加;
4)根據(jù)當(dāng)前文檔句子集合Sc中的句子Sci的Weight(Sci)(j(j=count(Sh))值按照從高到底的順序排列。設(shè)置一個(gè)閾值n表示過濾掉的句子的數(shù)目,刪除當(dāng)前文檔句子集合Sc中的前n個(gè)句子。count(Sc)代表當(dāng)前文檔集合中句子的數(shù)目。剩下的count(Sc)-n個(gè)句子就是當(dāng)前文檔中包含新信息的句子。在利用TSCM分析歷史信息和當(dāng)前信息的一層信息過濾之后,動態(tài)演化性特征已經(jīng)凸顯,接下來,使用CISM進(jìn)行多層的動態(tài)信息過濾。
本文提出的CISM涉及了MDS技術(shù)的3種類型,改進(jìn)了相應(yīng)的解決方案,并應(yīng)用在動態(tài)MDS的信息顯著度、信息新穎度和信息冗余度3項(xiàng)主要標(biāo)準(zhǔn)指標(biāo)中,增強(qiáng)了模型性能。
1)信息顯著度指標(biāo)。
為提高質(zhì)心整體優(yōu)選動態(tài)模型產(chǎn)生文摘的信息顯著度,本章提出應(yīng)用文本相似度算法來給候選文摘句加權(quán)打分?;诰渥酉嗨贫扔?jì)算的句子加權(quán)方法參見1.5節(jié)
2)信息新穎度指標(biāo)。
信息新穎度是動態(tài)MDS的又一重要度量指標(biāo),為了動態(tài)MDS在信息動態(tài)演化過程中保持信息新穎度,本章CISM采用上述提到的第1大類方法過濾與歷史信息具有高關(guān)聯(lián)度的句子,即在對文摘句加權(quán)之前,對文檔集句子集合進(jìn)行過濾處理,過濾掉當(dāng)前文檔集中的歷史信息,對文檔集的信息差異性建模,然后從經(jīng)過濾處理后的句子集合中產(chǎn)生文摘。
3)信息冗余度指標(biāo)。為了動態(tài)文摘能具有較低的信息冗余度,需要選擇高性能的去冗余算法。此模型應(yīng)用提出的動態(tài)MMR算法,參見1.4節(jié)。首先從候選文摘句集合中選出權(quán)值最高的句子作為正式文摘集合的第1個(gè)句子,下一步依據(jù)候選文摘句與正式文摘句集合中所有句子的相關(guān)性度量值,給候選文摘句集合中所有句子一定懲罰值后獲得新的權(quán)值,然后提取權(quán)值最高的后選文摘句加入正文摘句集合當(dāng)中,這樣迭代執(zhí)行,直到文摘句達(dá)到指定的數(shù)目。
為提高該動態(tài)文摘方法產(chǎn)生文摘的信息顯著度,本模型首先應(yīng)用文本相似度算法來給候選文摘句加權(quán)打分。為使文摘具有較低的信息冗余度,需要選擇高性能的去冗余算法,現(xiàn)階段主流的去冗余算法是最大邊緣相關(guān)算法(MMR)[7]使生成的文摘具有低信息冗余性。MMR是一種有效的去冗余度算法,該算法流程如下:
1)首先從候選文摘句集合中選出權(quán)值最高的句子作為正式文摘集合的第1個(gè)句子;
2)依據(jù)候選文摘句與正式文摘句集合中所有句子的相關(guān)性度量值,給候選文摘句集合中所有句子一定懲罰值后獲得新的權(quán)值;
3)提取權(quán)值最高的候選文摘句加入文摘句集合當(dāng)中,這樣迭代執(zhí)行直到文摘句達(dá)到指定的數(shù)目。
MMR算法毋庸置疑的使文摘的性能具有較大幅度的提升,但是它也帶來了相關(guān)的問題,即對首句文摘句選擇的成功與否對文摘的性能有較大的影響。如果第1句文摘句選擇失敗,整個(gè)文摘將不會具有好的性能。為了解決此問題,提出了一種基于質(zhì)心整體選優(yōu)的動態(tài)文摘方法。
基于質(zhì)心整體選優(yōu)的動態(tài)文摘方法著重考慮了文摘中第一個(gè)句子的選擇對文摘的影響,在文摘生成過程中分別以多個(gè)高分句子為初始句,利用已有的動態(tài)文摘句選擇方法生成多個(gè)候選文摘,再引入質(zhì)心概念對多個(gè)候選文摘從整體的內(nèi)容完整性、新穎性進(jìn)行衡量。即以文檔集合的質(zhì)心作為評價(jià)依據(jù),以候選文摘整體作為評價(jià)對象,對其表述信息的完整性進(jìn)行衡量,最終從多個(gè)候選文摘中選擇內(nèi)容完整性最好的候選文摘作為該文檔集合的文摘。
基于質(zhì)心整體選優(yōu)的文摘句選擇方法包括以下幾個(gè)方面:初始句的選擇、多候選文摘的生成以及最終文摘的選擇。CISM方法包括以下幾個(gè)方面:初始句的選擇、多候選文摘的生成以及最終文摘的選擇。過程如圖1所示。
1)初始文摘句的選擇。
首先運(yùn)用文摘句過濾算法過濾掉當(dāng)前候選文摘句集合中信息新穎度低的句子,生成一個(gè)信息新穎度高的候選文摘句集合。用句子的長度信息、位置信息和所包含詞語的TF*IDF*ISF權(quán)值(詳見1.5節(jié))對句子進(jìn)行打分,計(jì)算上述處理后的候選文摘句集合中所有句子的信息顯著度,根據(jù)句子信息顯著對句子排序。從排序后的序列中,一次選取分值高的指定書目N個(gè)的非重復(fù)句子作為多個(gè)候選文摘的初始句。
圖1 CISM流程Fig.1 CISM process diagram
2)多候選文摘算法描述。
算法2:相似度質(zhì)心多層過濾文摘算法
Input:文檔集合
Output:N個(gè)候選文摘
利用句子的位置信息,長度信息以及所包含詞語的TF*IDF*ISF權(quán)值對句子打分。根據(jù)權(quán)重值對加權(quán)后的句子按照從高到低的順序排列,形成句子隊(duì)列A。從隊(duì)列A選出分值最高的指定數(shù)目的N(這里N初值設(shè)置給10)個(gè)句子作為多候選文摘的初始句。對每一個(gè)初始句執(zhí)行以下操作:
①清空已選文摘句隊(duì)列S,將初始句加入S中;
②按句子權(quán)重依次選取后續(xù)句子,選擇排名最高的候選句加入已選文摘句集合S;
③重復(fù)步驟②,直到已選文摘句集合S達(dá)到文摘的目標(biāo)尺寸(句子數(shù)、字?jǐn)?shù)),終止;
④將生成的候選文摘加入到候選文摘隊(duì)列M;
3)最優(yōu)文摘的選擇。
對隊(duì)列M中的每一個(gè)候選文摘計(jì)算權(quán)重:
式中:Score(Di)代表候選文摘打分;senti是候選文摘中句子;Di代表候選文摘;C代表當(dāng)前文檔集合的句子集合;sentj代表當(dāng)前句子集合中的句子;sentk代表歷史文摘中的句子;H代表歷史文摘句集合;α和β分別代表候選文摘與當(dāng)前文檔句的相似度和與歷史文摘句的相似度所占的比例。應(yīng)用此模型算法,將候選文摘的權(quán)重進(jìn)行重排列,選出打分最高的最優(yōu)文摘作為最終結(jié)果。
應(yīng)用本項(xiàng)目前期工作中作者[8]提出的3種改進(jìn)的句子加權(quán)方法:分別是動態(tài)短語的信息粒度[9]表示方法,動態(tài)TF-IDF-ISF的句子加權(quán)方法和動態(tài)句子級相似度計(jì)算的加權(quán)方法。
動態(tài)短語信息粒度的表示方法為
式中:Phrase_Weight(j)是句子中短語的權(quán)重:
式中:FR(Phrase)是短語的詞頻,MaxFR是詞頻最大短語的詞頻,SentLength_Weight(senti)是句子長度權(quán)重。
在實(shí)際的計(jì)算過程中,如果SentLength<x,舍掉此句,不參與運(yùn)算;
如SentLength>=x則SentLength_Weight(senti)=0;x是動態(tài)的句子長度閾值,根據(jù)實(shí)際需要進(jìn)行調(diào)整。
動態(tài)TF-IDF-ISF的句子加權(quán)方法:
式中 :Weight(senti)表示句子Si的打分,fWordWgt=ISF表示句子 senti的詞語權(quán)重,其中,TF(w)表示詞w在文檔中的出現(xiàn)頻率,IDF(w)表示詞w的反文檔頻率,ISF(w)表示詞w的反句子頻率,f(w)是頻率統(tǒng)計(jì)函數(shù),DF(w)為整個(gè)文檔集合中包含詞w的文檔數(shù),SF(w)為整個(gè)文檔集中包含詞w的句子數(shù)。
基于句子相似度計(jì)算的句子加權(quán)方法:
式中:Weight(Si)(0<i<count)表示句子Si的權(quán)重;count表示文檔集合中句子的總數(shù) Simij=,表示句子Si與Sj相似度值.
從DUC 2007開始,Update Summarization測試語料從主要任務(wù)的45個(gè)話題中挑選10個(gè)話題,每個(gè)話題由3個(gè)連續(xù)進(jìn)化的時(shí)間片組成。假定讀者對先前的文檔有一定的了解,Update Summarization任務(wù)的目的就是針對每一個(gè)時(shí)間片給出100字的動態(tài)多文檔文摘,該文摘反映隨著時(shí)序的變化和基于同一主題的文檔集合內(nèi)容的動態(tài)演化,可見文摘技術(shù)向網(wǎng)絡(luò)動態(tài)數(shù)據(jù)信息處理方向發(fā)展。
在TAC 2008中,測試預(yù)料假設(shè)已有歷史多文檔集合,按照時(shí)間順序后產(chǎn)生的集合均看做是演化的多文檔集合。Update Summarization任務(wù)的測試語料由來自AQUAINT-2的48個(gè)話題組成,每個(gè)話題包含兩個(gè)時(shí)間片,均由10個(gè)大小相當(dāng)?shù)奈臋n組成。
在TAC2008的Update Summarization測試數(shù)據(jù)上,評價(jià)標(biāo)準(zhǔn)采用文摘評測領(lǐng)域著名的ROUGE工具,其中最主要的2個(gè)指標(biāo)ROUGE-2和 ROUGESU4*是評價(jià)動態(tài)多文檔文摘性能的。將動態(tài)文摘結(jié)果的(R-2)和(R-SU4*)得分與TAC 2008 Update國際標(biāo)準(zhǔn)參賽系統(tǒng)的得分進(jìn)行了對比,結(jié)果表明不同模型在性能上各有所長。
Example
<topic id=“D0801A”>
<title>Airbus A380<title>
<narrative>Describe developments in the production and launch of the Airbus A380.
<narrative>
<docsetA id=“D0801A-A”>
<doc id=“AFP ENG 20050115.0485”>
……
<doc id=“AFP ENG 20050504.0328”><docsetA>
<docsetB id=“D0801A-B”>
<doc id=“AFP ENG 20050601.0580”>
……
<doc id=“APW ENG 20060329.0349”>
<docsetB>
<topic>
在以上模型基礎(chǔ)上,以4組實(shí)驗(yàn)進(jìn)行結(jié)果的比較。
實(shí)驗(yàn)1 是在文本相似度累加動態(tài)多文檔文摘模型下3種不同加權(quán)算法生成的動態(tài)文摘的ROUGE評價(jià)結(jié)果,如表1所示。
表1 TSCM 3種算法的文摘性能對比Table 1 Comparison of three TSCM algorithms
實(shí)驗(yàn)2 測試模型中文檔過濾過程中的所設(shè)置的句子數(shù)對動態(tài)多文檔文摘的影響,對受句子長度影響最大的TSCM_C進(jìn)行了分析。實(shí)驗(yàn)在10到110的取值范圍內(nèi)對句子個(gè)數(shù)進(jìn)行測試,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 TSCM_C文摘長度閾值分析Fig.2 TSCM_C digest length threshold analysis
由圖2以看出,TSCM_C在句子數(shù)為100時(shí)達(dá)到最優(yōu)性能。此時(shí),在ROUGE-2和ROUGE-SU4*上的得分分別為0.050 13和0.138 60,在ROUGE-2上進(jìn)一步縮小了與第一名的差距,同時(shí)在ROUGESU4*上更加凸顯了TSCM_C模型的動態(tài)演化性。
實(shí)驗(yàn)3 CISM模型和TSCM模型最好性能性能的比較,如表2所示:
表2 CISM模型和TSCM模型性能對比Table 2 CISM and TSCM performance comparison
實(shí)驗(yàn)4 如表3所示,其中CISM模型整體性能接近最好成績,TSCM_C中短語信息粒度的句子加權(quán)方法的R-2比第1名的系統(tǒng)稍差,但是R-SU4*的分?jǐn)?shù)已經(jīng)超過了第1名。TSCM_B模型中綜合打分進(jìn)入前3名,說明這2種動態(tài)文摘模型在不同側(cè)重點(diǎn)上,具有很好的性能和潛力,具有發(fā)展的空間,是值得研究的算法。
表3 與TAC2008實(shí)際系統(tǒng)的性能對比Table 3 Comparison with performance of TAC2008
通過以上實(shí)驗(yàn)結(jié)果,綜合分析提出的2種模型,動態(tài)多文檔候選集多層過濾模型,基于文本相似度累加模型實(shí)驗(yàn)打分位于TAC2008發(fā)布的所有系統(tǒng)結(jié)果的上游。使用的改進(jìn)的基于短語的句子加權(quán)方法時(shí),它的ROUGE-SU4*打分已高出了TAC2008中第1名的系統(tǒng),基于文本相似度累加模型實(shí)驗(yàn)打分位于TAC2008發(fā)布的所有系統(tǒng)結(jié)果的上游。可見TSCM是一種動態(tài)性能較好的模型。適用于動態(tài)性較強(qiáng)的新聞?lì)I(lǐng)域及實(shí)時(shí)社會計(jì)算領(lǐng)域。CISM系統(tǒng)的ROUGE-2打分僅次于第2名的系統(tǒng),ROUGESU4*打分也在前列,表明通過修改去冗余方法也可使該模型生成的文摘具有較強(qiáng)的顯著性和代表性。以生成的文摘集合為候選集合的方法,具有更強(qiáng)的靈活性,經(jīng)算法調(diào)整可適用于有不同要求的領(lǐng)域,是一種適應(yīng)性較強(qiáng)的動態(tài)文摘模型。
在動態(tài)多文檔文摘領(lǐng)域中,動態(tài)多文檔文摘模型研究是一個(gè)全新的課題,前正處于起步階段。已有研究者提出了多種類型的動態(tài)文摘方法,有基于候選文摘句過濾的,有基于信息懲罰加權(quán)的,也有基于語義的,并且都獲得了良好的性能。本項(xiàng)目提出的2種改進(jìn)模型改善了原來動態(tài)文摘模型的性能,提高了文本抽取和文本理解的效率,與其他的模型比較,具有良好的動態(tài)性和生成高質(zhì)量文摘。但是還存在許多問題需要解決,比如如何提高首句提取的精確率,如何使提取的首句具有動態(tài)演化性等問題。下一步工作是解決該改進(jìn)算法所存在的問題,進(jìn)一步提高改進(jìn)算法的性能,應(yīng)用于多種實(shí)際數(shù)據(jù)介質(zhì),增強(qiáng)文摘演化的識別能力。此類研究對于大數(shù)據(jù)集及數(shù)據(jù)挖掘的研究具有積極意義。
[1]LIN C Y,HOVY E.Automatic evaluation of summaries using n-gram co-occurrence statistics[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Morristown,USA,2003:71-78.
[2]WAN Xiaojun.Using bilingual information for cross-language document summarization[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:HumanLanguageTechnologies. Portland,USA,2011:1546-1555.
[3]張瑾,許洪波,程學(xué)旗.面向網(wǎng)絡(luò)演化信息的動態(tài)文摘方法研究[J].計(jì)算機(jī)學(xué)報(bào),2008,3(4):696-696.ZHANG Jin,XU Hongbo,CHENG Xueqi.Research abstracts method for dynamic information network evolution[J].Journal of Computers,2008,3(4):696-696.
[4]LIN C Y.Rouge:a package for automatic evaluation of summaries[C]//Text Summarization Branches Out:Proceedings of the ACL-04 Workshop.Barcelona,Spain,2004:74-81.
[5]HOVY E,LIN C Y,ZHOU L,et al.Automated summarization evaluation with basic elements[C]//Proceedings of the Fifth Conference on Language Resources and Evaluation(LREC 2006).Genoa,Italy,2006:604-611.
[6]NENKOVA A,PASSONNEAU R,MCKEOWN K.The pyramid method:incorporating human content selection variation in summarization evaluation[J].ACM Transactions on Speech and Language Processing(TSLP),2007,4(2):1-8
[7]GOLDSTEIN J,MITTAL V,CARBONELL J,et al.Creating and evaluating multi-document sentence extract summaries[C]//Proceedings of The Ninth International Conference on Information and Knowledge Management.Washington DC,USA,2000:165-172.
[8]劉美玲,任洪娥,于洋.基于網(wǎng)絡(luò)的動態(tài)多文檔文摘系統(tǒng)框架[J].軟件學(xué)報(bào),2013,24(5):1006-1021.LIU Meiling,REN Honge,YU Yang.Based on dynamic multi-document summarization system network framework[J].J Of Software,2013,24(5):1006-1021.
[9]劉美玲,鄭德權(quán),趙鐵軍,等.動態(tài)多文檔文摘模型研究[J].軟件學(xué)報(bào),2012,23(2):289-298 .LIU Meiling,ZHENG Dequan,ZHAO Tiejun,et al.Dynamic multi-document summarization model[J].J of Software,2012,23(2):289-298.