• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)的MMR算法的新聞文本抽取式摘要方法

      2022-01-19 12:43:10李傳藝賈欣欣葛季棟
      應(yīng)用科學(xué)學(xué)報 2021年3期

      程 琨, 李傳藝, 賈欣欣, 葛季棟, 駱 斌

      南京大學(xué)軟件學(xué)院,江蘇南京210093

      自動文本摘要技術(shù)能夠從海量文本中快速提取有效信息,從而提升信息獲取效率。但是在面向新聞領(lǐng)域的應(yīng)用中,由于不同新聞文本之間長度差異較大,自動文本摘要技術(shù)表現(xiàn)出了以下缺點:1)對于長文本,摘要中的重復(fù)內(nèi)容較多,冗余問題較為嚴(yán)重,并且對于特定專業(yè)領(lǐng)域的文本優(yōu)化較差;2)對于短文本,在摘要過程中由于考慮的因素較少,所以摘要質(zhì)量較低。

      為此,結(jié)合已有的監(jiān)督方法和非監(jiān)督方法,本文分別提出了兩個抽取式摘要模型。第1個模型對傳統(tǒng)的基于最大邊緣相關(guān)(maximal marginal relevance, MMR)摘要算法進(jìn)行了改進(jìn),融入了句子位置、標(biāo)題相似度等多個權(quán)重。第2 個模型是結(jié)合支持向量機(support vector machine, SVM)和MMR 構(gòu)建SVM-MMR 的摘要模型,該模型加入了監(jiān)督學(xué)習(xí)方法,將新聞?wù)暈槎诸悊栴},即新聞文本中的每個句子只存在兩種情況:“摘要”與“不摘要”。選取詞語、結(jié)構(gòu)和語義3 個方面的特征,將新聞文本中的句子向量化,并通過SVM 進(jìn)行分類,最后在SVM 分類結(jié)果的基礎(chǔ)上引入MMR 算法對句子進(jìn)行二次選擇,從而降低摘要的冗余,提高摘要的質(zhì)量。

      基于MMR 摘要算法用來解決文檔的排序問題,其核心思想在于平衡文檔的相關(guān)性和冗余性,使得選出的文檔足夠準(zhǔn)確,從而能夠很好地完成文本摘要任務(wù)。因此本文所提出的兩種算法都是通過改進(jìn)MMR 算法實現(xiàn)的。

      抽取式摘要是一種常用的自動文本摘要技術(shù),包括4 類無監(jiān)督方法,分別是基于圖模型的方法、基于潛在語義的方法、基于線性規(guī)劃的方法和基于向量空間的方法。基于圖模型的方法認(rèn)為在一篇文本中,如果某句和文中所有句子都有較強的關(guān)聯(lián),那么這個句子就是該文本的中心句。TextRank 模型[1]及其改進(jìn)方法[2-3]常用來衡量句子的關(guān)聯(lián)性;基于潛在語義的方法通過挖掘文本的詞句隱藏信息來生成摘要[4-5];基于線性規(guī)劃的方法將抽取式摘要看作在一定約束條件下的最優(yōu)化問題,并基于整數(shù)線性規(guī)劃(integer linear programming, ILP)[6-7]進(jìn)行句子摘要和去冗余處理;基于向量空間的方法首先將句子向量化,然后通過計算余弦相似度來衡量每個句子的重要程度[7]。

      基于監(jiān)督學(xué)習(xí)的抽取式摘要方法先將文本中的句子映射為特征向量,再用決策樹[8]、隱馬爾科夫[9]、條件隨機場[10]等機器學(xué)習(xí)分類算法來訓(xùn)練模型,進(jìn)而對文本中的句子進(jìn)行分類。分類的結(jié)果為“1” 或“0”,分別代表該句子能否作為文本最終摘要。文獻(xiàn)[11] 提出用SVM作為分類器進(jìn)行抽取式摘要。文獻(xiàn)[12] 以語音摘要為研究對象,利用改進(jìn)的SVM 模型進(jìn)行抽取式摘要。文獻(xiàn)[13] 通過構(gòu)造多維度特征對摘要中的句子進(jìn)行向量化,然后使用SVM 模型對會議記錄進(jìn)行抽取式摘要。文獻(xiàn)[14] 利用神經(jīng)網(wǎng)絡(luò)模型來擬合ROUGE 分?jǐn)?shù),最后利用MMR 算法進(jìn)行摘要。近年來也出現(xiàn)了許多基于深度學(xué)習(xí)的模型[15-16],這一類模型不需要很多人工抽取的特征,更強調(diào)如何設(shè)計模型使其能自動地從輸入文本中學(xué)習(xí)特征。

      1 基于MMR 的改進(jìn)模型

      在實現(xiàn)該模型時,首先需要綜合考慮影響新聞?wù)母鱾€因素,計算新聞文本句子的初始權(quán)重。然后,通過改進(jìn)的MMR 算法對句子的初始權(quán)重進(jìn)行迭代,得到這些句子的最終權(quán)重。最后,按最終權(quán)重的大小對句子進(jìn)行排序選出一定比例的句子,進(jìn)而按照句子在原文中的順序輸出所抽取出的句子得到摘要集。

      1.1 影響新聞?wù)囊蛩?/h3>

      根據(jù)已有的抽取式文本摘要相關(guān)研究成果、對人工標(biāo)注文本摘要過程的分析以及對新聞文本特點的歸納,本文總結(jié)出了以下4 個影響新聞?wù)囊蛩亍?/p>

      1.1.1 句子的位置權(quán)重

      句子的位置與新聞文本的主題存在相關(guān)關(guān)系,一般來說,文本的第1 段或最后1 段通常是對整個報道的總結(jié),具有高度的概括性。根據(jù)文獻(xiàn)[17] 所述,設(shè)新聞文本的第1 段由u個句子組成,最后1 段由v個句子組成,文本中句子總數(shù)為n,則可設(shè)置句子Si的位置權(quán)重Lweight(Si) 為

      式(1) 保證了在第1 段話中距離第1 句越遠(yuǎn)的句子,其權(quán)重越??;而在最后1 段話中,距離最后1 句越近的句子,其權(quán)重越大。式中,e1和e2分別用來控制第1 段和最后1 段所有句子的相對初始權(quán)重,一般在0 到1 之間。具體值可以根據(jù)待處理新聞文本的特征進(jìn)行設(shè)置。如果新聞中第1 段的概括性更強,則將e1設(shè)為比e2更大的數(shù),例如e1為0.5,e2為0.1。

      1.1.2 線索詞與轉(zhuǎn)折詞

      線索詞和轉(zhuǎn)折詞通常引出具有總結(jié)性或強調(diào)性的句子。包含線索詞和轉(zhuǎn)折詞的句子往往比不包含該類詞的句子更能表達(dá)新聞主旨。設(shè)ClueWords 代表線索詞和轉(zhuǎn)折詞,Cweight(Si)表示句子Si的線索詞和轉(zhuǎn)折詞權(quán)重,則該權(quán)重的計算公式為

      1.1.3 標(biāo)題相似度

      標(biāo)題往往是新聞內(nèi)容的高度凝練,因此與標(biāo)題相似度高的句子應(yīng)具有更高的權(quán)重。本文使用預(yù)訓(xùn)練BERT 模型對句子和標(biāo)題進(jìn)行向量化,然后將兩個向量的余弦相似度作為句子和標(biāo)題的相似度。設(shè)句子Si和標(biāo)題T的句向量分別為(x1,··· ,xn) 和(y1,··· ,yn),則句子Si的標(biāo)題相似度權(quán)重Sweight(Si) 的計算公式為

      1.1.4 關(guān)鍵詞權(quán)重

      含有文本關(guān)鍵詞的句子通常比其他句子具有更多的文本有效信息。本文通過TF-IDF 算法來抽取新聞文本和新聞標(biāo)題中10 個關(guān)鍵詞作為關(guān)鍵詞表,使用Keywords 表示關(guān)鍵詞集合。如果句子中含有關(guān)鍵詞,則關(guān)鍵詞權(quán)重值Kweight(Si) 賦值為1,即

      1.2 初始權(quán)重計算

      得到上述影響新聞?wù)? 個權(quán)重值后,需要設(shè)計加權(quán)算法以計算最終的初始權(quán)重。首先由Lweight、Cweight、Kweight加權(quán)得到中間權(quán)重wmid,即

      式中:α,β,γ為加權(quán)系數(shù),且α+β+γ= 1。在具體應(yīng)用場景下,加權(quán)系數(shù)可以根據(jù)文本不同級別權(quán)重值的取值范圍及其重要程度進(jìn)行設(shè)置。

      再將中間權(quán)重wmid與標(biāo)題相似度權(quán)重Sweight加權(quán),得到句子Si的初始權(quán)重w(Si)

      式中,為了保證Sweight和wmid在同一數(shù)量級,而且為了能夠動態(tài)調(diào)整wmid的權(quán)重,引入了調(diào)節(jié)因子δ。

      1.3 改進(jìn)MMR 算法

      初始MMR 算法是用來根據(jù)查詢對文檔集合進(jìn)行排序的,本文對MMR 算法進(jìn)行了改進(jìn),使其適用于面向新聞文本的抽取式摘要。

      抽取式摘要的目的是對句子進(jìn)行合理的排序,然后根據(jù)順序選出一定比例的摘要集。根據(jù)這個目的,本文設(shè)計的面向摘要的MMR 算法如下:

      式中:D是通過MMR 算法得到的階段性候選集,λ為控制摘要概括性與冗余性的一個系數(shù)。

      該算法的公式共分為兩部分,w(Si) 計算的是新聞本文中所有句子的初始權(quán)重,similarity(Si,D) 計算的是新聞文本中句子與已入選候選集句子之間的相似度,其中?(1?λ)是負(fù)值。如果當(dāng)前句子與摘要集句子之間的相似度過大,那么該算法會對當(dāng)前句子的權(quán)重進(jìn)行懲罰,以盡可能地減少摘要集的冗余。

      使用該算法對初始權(quán)重進(jìn)行迭代的流程圖如圖1 所示。

      圖1 MMR算法流程圖Figure 1 Algorithm flow chart of MMR

      2 基于SVM-MMR 的融合模型

      在實現(xiàn)該模型時,首先需要構(gòu)造句子特征,將新聞文本中的句子轉(zhuǎn)化為句向量,然后訓(xùn)練并使用SVM 預(yù)測每個句子成為摘要的概率值,按概率值大小排序納入摘要集。對處于摘要比例邊緣的句子利用改進(jìn)的MMR 算法進(jìn)行二次選擇,得到最終的摘要集。

      2.1 特征工程

      在進(jìn)行句子特征構(gòu)造時,本文首先綜合選取了3 類特征,分別為詞語特征、結(jié)構(gòu)特征和語義特征。其中詞語特征14 個,結(jié)構(gòu)特征6 個,語義特征5 個,共計25 個。

      然后需要從這一系列特征中選取最優(yōu)的特征用于模型的訓(xùn)練。在選取特征的時候考慮兩方面的因素,一是特征的方差值不能過小,否則說明樣本在這個特征上區(qū)別不大;二是特征和目標(biāo)的相關(guān)性越高越好。

      本文采用過濾式選擇來選取特征,包括以下兩種方法。

      1)基于方差的特征過濾方法

      計算各特征方差值,過濾掉方差小于5 的特征。

      2)基于卡方驗證的特征過濾方法

      設(shè)自變量有N種取值,因變量有M種取值,考慮自變量等于i且因變量等于j的樣本頻數(shù)的觀察值A(chǔ)與期望E的差距,構(gòu)建統(tǒng)計量的計算公式為

      統(tǒng)計量x2的值即描述了自變量與因變量之間的相關(guān)程度,其值越大,相關(guān)程度也越大,相互獨立性越弱。

      經(jīng)過特征過濾后得到的最終特征如表1 所示。

      表1 輸入SVM的句子特征列表Table 1 List of sentence features used in SVM

      2.2 SVM-MMR 融合算法

      根據(jù)特征過濾得到的16 個特征可將新聞文本中的所有句子轉(zhuǎn)化為16 維向量。對特征向量使用SVM 算法訓(xùn)練并進(jìn)行概率估計,輸出句子入選摘要集中的概率,并根據(jù)概率值對新聞文本的句子進(jìn)行降序排列。

      在SVM 算法訓(xùn)練過程中,采用StandardScaler() 函數(shù)對特征進(jìn)行歸一化處理,采用SMOTE() 函數(shù)對樣本進(jìn)行過采樣,使得正負(fù)樣本均衡,并使用GridSearchCV() 函數(shù)對參數(shù)進(jìn)行網(wǎng)格搜索,通過交叉驗證確定最佳效果參數(shù)。

      這些句子分為兩類。第1 類為Ss,該類句子概率值排名很靠前,可以直接入選摘要集。第2 類為Sc,該類句子排名在摘要比例附近,有時其概率值的差異并不大,需要納入候選集中進(jìn)行二次選擇。本文采用改進(jìn)的MMR 算法對第2 類句子進(jìn)行處理。通過SVM 模型計算得到的概率值pi仍然具有有效信息,本文將概率值pi與MMR 算法相結(jié)合,求出每個句子的得分為

      式中:Sm表示摘要集,Si是摘要候選集Sc中的句子,sim(Si,T) 是指句子Si與新聞文本標(biāo)題T的相似度,sim(Si,Sm) 是指句子Si與當(dāng)前摘要集的相似度。

      為了使新聞?wù)娜哂喽容^低,定義MMR 得分為

      MMR 得分越高,說明最終摘要的冗余度越低、質(zhì)量越高。所以根據(jù)MMR 得分來選出最優(yōu)摘要句,公式為

      式中:Sf為最終的摘要集;Ss為被直接選作摘要的句子;S′c為從摘要候選集Sc中進(jìn)行二次選擇選出的摘要句;S′c有多種組合。選出其中MMR 得分最高的組合與Ss共同構(gòu)成最終的摘要。

      3 實 驗

      3.1 語料庫構(gòu)建

      本文采用的數(shù)據(jù)集是從“第一財經(jīng)”新聞網(wǎng)站的汽車新聞模塊[18]爬取的新聞報道,共計4 000 篇,保留了每篇報道的新聞標(biāo)題。其中3 200 篇用于監(jiān)督學(xué)習(xí)的模型訓(xùn)練,共有63 360個句子;800 篇為測試集,用于模型效果對比。

      對上面得到的數(shù)據(jù)集,需要進(jìn)行基本的處理,以構(gòu)建語料庫,主要步驟如下:

      步驟1對網(wǎng)頁標(biāo)記以及一些特殊字符進(jìn)行處理,刪除新聞中的圖集與視頻,提取出數(shù)據(jù)中的文本信息并進(jìn)行去重處理。

      步驟2對網(wǎng)頁標(biāo)記以及一些特殊字符進(jìn)行處理,刪除新聞中的圖集與視頻,以句號、感嘆號和問號為分割標(biāo)志對這4 000 篇新聞報道進(jìn)行分句和人工標(biāo)注,從每篇報道中抽取約20% 的句子,形成最終的摘要。

      經(jīng)過統(tǒng)計,本實驗數(shù)據(jù)集的基本信息如表2 所示。

      表2 數(shù)據(jù)集基本信息Table 2 Basic information of data set

      3.2 實驗設(shè)置

      對于構(gòu)建的語料,需要進(jìn)行一系列預(yù)處理方可輸入模型中使用,主要預(yù)處理步驟如下。

      步驟1中文分詞

      本文通過正則表達(dá)式去除文本中特殊字符、數(shù)字符號以及英文字母等,再采用jieba 精確模式對文本進(jìn)行分詞。

      步驟2去停用詞

      本文使用一本比較通用的停用詞詞典,去除新聞文本中的停用詞。

      步驟3詞性標(biāo)注

      名詞以及動詞往往能夠表達(dá)比較關(guān)鍵的信息,本文使用THULAC 工具進(jìn)行詞性標(biāo)注,以方便特征的抽取。

      在實驗時,如無特殊說明,那么所有模型的摘要比例均為20%,該最優(yōu)摘要比例可根據(jù)對比試驗得出。在MMR 模型中,將e1設(shè)為0.5,e2設(shè)為0.1,α,β,γ的值分別設(shè)定為0.2, 0.4,0.4,并且使用滾雪球的方法確定δ的取值為0.18,λ值設(shè)為0.9。在SVM-MMR 模型中,本文對SVM 的最優(yōu)參數(shù)進(jìn)行網(wǎng)格搜索,并采用5 折交叉驗證的方式來減少結(jié)果的偶然性,最終使用的各項參數(shù)如表3 所示。在綜合考慮MMR 和SVM 結(jié)果時,λ1取值為0.5,λ2取值為0.9。

      表3 SVM參數(shù)設(shè)置Table 3 Parameters of SVM

      3.3 評估標(biāo)準(zhǔn)

      本文采用兩方面的評價指標(biāo)。一方面的評價指標(biāo)為平均準(zhǔn)確率P、平均召回率R以及由P和R得到的平均F值,其定義分別如下:

      式中:n為新聞文本的總數(shù),ai表示通過抽取式摘要算法得到的第i個新聞文本的摘要句子集,ai表示人工摘要得到的第i個新聞文本的摘要句子集。

      另一方面的評價指標(biāo)從新聞?wù)膶嶋H目的出發(fā),定義了新聞標(biāo)題詞匯覆蓋率TitleCover和文章詞匯覆蓋率ContentCover,公式分別如下:

      式中:wsummary表示人工摘要以及通過各個抽取式摘要算法得到的摘要的詞匯集,wtitle表示新聞文本標(biāo)題的詞匯集,wcontent表示新聞文本內(nèi)容的詞匯集。

      3.4 對比實驗

      3.4.1 基線模型的對比試驗

      在本實驗中,所用的評價指標(biāo)為平均準(zhǔn)確率P與平均召回率R。對比模型共有4 個,分別為傳統(tǒng)的MMR 模型、文獻(xiàn)[19] 中的TextRank 摘要模型以及2 個基于SVM 的摘要模型。

      1) 傳統(tǒng)MMR 模型:該模型對于初始權(quán)重的定義較為單一,僅僅考慮了句子相似度,且基于詞匯重合度的句子相似度計算方法對于文本的語義不能充分地挖掘。

      2) TextRank 模型:本文復(fù)現(xiàn)了文獻(xiàn)[19] 中改進(jìn)的TextRank 模型,該模型首先使用Doc2Vec 模型對文本中的句子向量化,然后利用改進(jìn)的K-means 算法對文本進(jìn)行聚類,將句子的位置關(guān)系以及與標(biāo)題的相似度等因素融入到TextRank 算法的初始權(quán)重中進(jìn)行迭代,最后將每個簇類中最終權(quán)重最大的句子組合起來形成摘要集。但是,該模型句子與句子間聚類效果并不明顯,可見聚類算法對于冗余的消除效果有限。

      3) SVM-1 模型:該模型的特征工程采用文獻(xiàn)[13] 中的方法,其主要特征包括Unigram、Bigram 等基于詞頻的特征,還包括句子長度等結(jié)構(gòu)性特征。存在的主要問題有特征多數(shù)基于統(tǒng)計方面的特征、缺少高級特征、在文本內(nèi)容方面的挖掘不足等。

      4) SVM-2 模型:該模型采用本文的特征工程,使用SVM 進(jìn)行概率輸出,但是放棄后續(xù)利用MMR 算法進(jìn)行二次排序的流程。相比于TextRank、MMR 等無監(jiān)督模型,SVM 模型選取的特征更為全面,而且機器學(xué)習(xí)模型可以對不同特征進(jìn)行合理加權(quán)得到最終的結(jié)果,使得結(jié)果更為可靠。但其效果不如本文,因為本文的SVM-MMR 模型通過MMR 算法對SVM 模型的結(jié)果進(jìn)行了進(jìn)一步的處理,降低了摘要的冗余性,使得最終的摘要質(zhì)量更高。

      在該實驗中關(guān)于“汽車后市場”的新聞和摘要抽取結(jié)果如表4 所示。本新聞共29 句話,使用1,2,···,29 將每一句話按照順序進(jìn)行編號,新聞完整內(nèi)容參見鏈接https://www.yicai.com/news/100547881.html。從該抽取結(jié)果中可以看出,本文所提出的MMR 方法相比傳統(tǒng)的MMR方法,少了與新聞文本主旨關(guān)系不大的第19, 21 句,但多出了能夠較好概括文本內(nèi)容的第28句,驗證了本文MMR 方法所選取的權(quán)重在語義挖掘上的顯著進(jìn)步。另外,TextRank 方法中第20, 21 句出現(xiàn)了語義冗余,而本文MMR 方法抽取出的5 句摘要句中未出現(xiàn)該情況。

      表4 新聞?wù)e例Table 4 Example of news summary

      此外,本文所提出的SVM-MMR 方法相比SVM-1 方法,能夠多抽取出與主題密切相關(guān)的第3 句,說明SVM-MMR 方法在特征工程方面的顯著成效。與SVM-2 方法相比時,SVMMMR 方法在進(jìn)行二次選擇時去除了SVM-2 方法中由第1 句、第7 句摘要句帶來的冗余度,證明了SVM-MMR 方法具有較好的冗余處理能力。

      該實驗結(jié)果的統(tǒng)計數(shù)據(jù)如圖2 所示,這些統(tǒng)計數(shù)據(jù)證實了上述分析。在傳統(tǒng)MMR、TextRank 以及本文改進(jìn)MMR 這3 種無監(jiān)督模型中,本文改進(jìn)MMR 模型效果最好,其統(tǒng)計值相比于傳統(tǒng)MMR 算法有14.8% 的提升,相比于TextRank 算法也有4.6% 的提升。SVM-2的統(tǒng)計值相比于SVM-1 有5% 的提升,驗證了本文在特征工程方面的有效性。不管是平均準(zhǔn)確率P,還是平均召回率R,本文提出SVM-MMR 模型表現(xiàn)均達(dá)到最佳,相比于傳統(tǒng)MMR模型,準(zhǔn)確率提升了20.4%,驗證了本文改進(jìn)的MMR 算法對于冗余處理的有效性。

      圖2 基線模型對比實驗結(jié)果Figure 2 Baseline model comparison results

      3.4.2 摘要速度的對比實驗

      下文研究基于本文MMR 模型的新聞?wù)椒ê突赟VM-MMR 模型的新聞?wù)椒ㄟM(jìn)行摘要的速度差別。

      首先探究兩種摘要方法得到的摘要結(jié)果所占比例對摘要速度的影響。對于每一種方法分別進(jìn)行5 次實驗,統(tǒng)計每次實驗耗時,最終取5 次實驗耗時的平均值作為結(jié)果。每一次實驗均隨機選取200 個新聞文本。使用上述兩種方法批量生成摘要,并以運行時間作為指標(biāo)進(jìn)行對比。

      圖3 對比了兩種不同方法設(shè)定不同的摘要比例且處理相同的新聞文本時所消耗的時間??梢钥闯?,隨著設(shè)定的摘要比例數(shù)值的上升,兩種摘要方法的運行時間均逐漸增加。對于MMR 算法,摘要的句子數(shù)越多,算法迭代次數(shù)越多,運行時間就越多。此外在平均耗時方面,基于MMR 模型的新聞?wù)椒s為基于SVM-MMR 模型的新聞?wù)椒ǖ?/3,主要原因是MMR 模型為無監(jiān)督算法,不需要對新聞文本進(jìn)行特征抽取。這也說明MMR 模型更加適用于長文本的摘要任務(wù),而且在批量處理摘要任務(wù)時的效率更具優(yōu)勢。SVM-MMR 模型為監(jiān)督算法,首先需要抽取新聞文本的特征,將句子向量化之后再利用SVM 模型對句子進(jìn)行分類,耗時較長,因此比較適用于短文本的摘要任務(wù)。

      圖3 摘要比例對摘要速度的影響Figure 3 Impact of abstract ratio on abstract speed

      其次探究在相同的摘要比例下原文本長度對摘要速度的影響。將測試集中的新聞文本按照包含的句子數(shù)量進(jìn)行分類,分別使用基于MMR 模型的新聞?wù)椒ê突赟VM-MMR模型的新聞?wù)椒ㄅ可烧?,使用每篇新聞的平均摘要時間作為統(tǒng)計指標(biāo)。

      圖4 展示了當(dāng)摘要比例設(shè)定為20%時新聞文本長度與摘要平均耗時的變化情況。其中,本文所提MMR 摘要模型的摘要時間變化不大,對文本的長度不夠敏感,而SVM-MMR 模型的摘要時間明顯增大,對文本的長度較為敏感。這說明本文的MMR 摘要模型更適用于長文本或?qū)φ室筝^高的場景,而SVM-MMR 模型更適用于短文本或?qū)φ|(zhì)量要求較高的場景。

      圖4 文本長度對摘要速度的影響Figure 4 Effect of text length on abstract speed

      3.4.3 文本覆蓋率的對比試驗

      在本實驗中,所用的文本覆蓋率指標(biāo)為TitleCover 和ContentCover。

      實驗結(jié)果如圖5 所示,可以看出人工摘要的TitleCover 與ContentCover 分別為69.7%和52.4%。

      圖5 摘要對新聞文本的覆蓋率Figure 5 Abstract coverage of news text

      通過對比可得,本文MMR 模型在兩項指標(biāo)上分別比人工摘要低約4% 和5%。SVMMMR 模型的TitleCover 只比人工摘要低0.4%,而ContentCover 卻略高于人工摘要。這是因為在利用SVM-MMR 模型對句子進(jìn)行摘要的過程中,比較偏向于選擇信息更為豐富、長度更長的句子,所以ContentCover 的值也就更高。例如,同樣是表4 “汽車后市場”一例中,SVM-MMR 相比人工摘要,更多地選擇了語義更豐富的句子,而非僅僅長度較短的句子。本文所提出的MMR 模型和SVM-MMR 模型抽取出的摘要句能較好地幫助人們理解文本內(nèi)容的含義。該實驗也說明了通過MMR 模型與SVM-MMR 模型抽取出來的摘要對新聞文本的內(nèi)容具有一個較好的覆蓋率,而且SVM-MMR 模型的效果要優(yōu)于MMR 模型的效果。

      3.5 結(jié)果分析

      首先,本文提出的基于MMR 和基于SVM-MMR 的摘要模型,相比傳統(tǒng)MMR 模型來說,正確率分別提升了14.8% 和20.4%,體現(xiàn)了本文兩種摘要方法的強大優(yōu)勢。

      其次,由上述對比試驗可以看出,基于MMR 模型的摘要效果遠(yuǎn)優(yōu)于傳統(tǒng)MMR 模型的摘要效果,而且其摘要效率約為SVM-MMR 模型的3 倍,對新聞文本的長度不太敏感。但基于MMR 的模型對影響摘要的因素考慮得不夠全面,其摘要質(zhì)量不及SVM-MMR 模型,因此該模型適用于對摘要效率要求較高的場景,比如面向長文本的摘要任務(wù)以及對時間有要求的批量摘要任務(wù)等。

      對于基于SVM-MMR 的摘要模型來說,其優(yōu)點是在判斷一個句子是否屬于摘要句時考慮的因素較為全面,而且不需要考慮特征的權(quán)重。此外,SVM-MMR 模型通過MMR 算法進(jìn)一步對摘要進(jìn)行“二次篩選”,提高了摘要質(zhì)量。但是該模型在摘要過程中,首先需對新聞文本中的句子進(jìn)行特征選擇,這導(dǎo)致了該模型的摘要效率較低,耗時約為MMR 模型的3 倍,且對文本長度較為敏感,因此基于SVM-MMR 的摘要模型適用于對摘要質(zhì)量要求較高的場景,比如面向短文本的摘要任務(wù)等。

      如果對摘要質(zhì)量或運行效率沒有特殊的要求,那么在大規(guī)模批量處理新聞?wù)娜蝿?wù)中,如果是短文本則可以調(diào)用SVM-MMR 模型進(jìn)行摘要,如果是長文本則可以調(diào)用MMR 模型進(jìn)行摘要。綜合使用兩個模型,可以在摘要質(zhì)量與運行效率之間取得一個平衡。

      4 結(jié) 語

      本文根據(jù)新聞文本的特點,提出了兩種新聞?wù)椒?,分別為基于MMR 的摘要模型以及基于SVM-MMR 的摘要模型。前者結(jié)合數(shù)據(jù)集的特點,將標(biāo)題相似度、句子位置、關(guān)鍵詞以及線索詞信息融入到句子的初始權(quán)重之中,然后通過MMR 迭代完成新聞?wù)蝿?wù)。后者選取詞語、結(jié)構(gòu)、語義3 個方面的特征,將新聞文本中的句子映射到向量空間,通過SVM 對句子進(jìn)行概率預(yù)測,并利用MMR 算法去除摘要集中的冗余。

      然而,本文所提出的摘要方法存在對特征選取依賴較大的問題,在基于SVM-MMR 模型的摘要方法中,模型效果的好壞十分依賴于特征的選取。神經(jīng)網(wǎng)絡(luò)可以自動學(xué)習(xí)數(shù)據(jù)的特征,若將抽取式摘要視為序列標(biāo)注任務(wù),循環(huán)神經(jīng)網(wǎng)絡(luò)則能很好地解決這一任務(wù),因此利用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行抽取式摘要是未來的一個研究方向。

      (編輯:管玉娟)

      麟游县| 西安市| 朝阳区| 阿拉尔市| 枣庄市| 湖北省| 肇庆市| 太仓市| 应城市| 杭州市| 景宁| 建湖县| 鹿邑县| 玉田县| 南京市| 凭祥市| 体育| 百色市| 措勤县| 独山县| 弥勒县| 常熟市| 临高县| 嘉义市| 旬邑县| 吉林市| 专栏| 阳信县| 共和县| 来宾市| 彭泽县| 石阡县| 揭阳市| 宜昌市| 米易县| 建平县| 博湖县| 平陆县| 北安市| 肃宁县| 通城县|