萬 國,張桂平,白 宇,朱耀輝
(沈陽航空航天大學(xué) 知識(shí)工程研究中心,遼寧 沈陽 110136)
基于特征加權(quán)的新聞主題句抽取
萬 國,張桂平,白 宇,朱耀輝
(沈陽航空航天大學(xué) 知識(shí)工程研究中心,遼寧 沈陽 110136)
根據(jù)新聞文本的特點(diǎn),分別對新聞標(biāo)題與正文進(jìn)行分析,該文提出了一種針對新聞文本的特征加權(quán)的主題句抽取方法。首先對新聞主題句在文本中的分布情況進(jìn)行分析,選取了位置特征;然后根據(jù)新聞標(biāo)題對于新聞主旨的提示作用,選取了標(biāo)題句子重合度與關(guān)聯(lián)度的特征,且在關(guān)聯(lián)度特征中將基于加權(quán)二部圖的最大匹配算法融入其中;最后依據(jù)句子的得分排名,進(jìn)行主題句抽取。實(shí)驗(yàn)顯示,利用該方法進(jìn)行主題句抽取的P@1為75.9%,P@3 達(dá)到92.4%。
特征加權(quán);重合度;關(guān)聯(lián)度;加權(quán)二部圖
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)正以爆炸式的方式迅速增長。新聞作為眾多信息來源的一種,具有真實(shí)、及時(shí)、廣泛等特點(diǎn),是人們了解實(shí)時(shí)動(dòng)態(tài)的主要渠道。然而面對海量的新聞報(bào)道,人們?nèi)绾慰焖冁i定所關(guān)注的內(nèi)容,一直是一個(gè)亟需解決的問題。
新聞主題句作為一篇新聞報(bào)道的核心,基本能夠反映出新聞的主要內(nèi)容。若能標(biāo)注出文章的主題句,無疑會(huì)加速人們對新聞文本的閱讀和理解,節(jié)省大量的時(shí)間。而且基于文本的主題句抽取對文本分類[1]、文本文摘[2]、信息檢索[3]、文本傾向性分析[4]等有著重要的作用。然而面對海量的新聞文獻(xiàn),人工一一進(jìn)行標(biāo)注,顯然是不切實(shí)際的,如何快速有效地自動(dòng)識(shí)別出新聞的主旨一直是人們關(guān)注的焦點(diǎn)。
目前國內(nèi)外的學(xué)者在主題句抽取方面已經(jīng)做了一些研究。王力[5]等人基于LDA模型進(jìn)行主題抽取,采用Gibbs抽樣的方法通過多個(gè)側(cè)面來反映主題的信息,利用主題概率分布的平滑度進(jìn)行可信度計(jì)算,取得最終的主題句,在實(shí)驗(yàn)驗(yàn)證中取得了較好的效果。Harada[6]等人利用文章作者寫作時(shí)表述觀點(diǎn)的語氣和態(tài)度、句子主題的依賴性和句子中運(yùn)用的修辭手法等綜合因素進(jìn)行主題句的抽取,實(shí)驗(yàn)證明最終抽取的句子可以很清楚地表達(dá)作者的觀點(diǎn)。張?jiān)茲齕7]等人運(yùn)用不同的權(quán)值度量方式,對同義概念進(jìn)行語義歸并,對上下文概念進(jìn)行語義聚焦,綜合評估句子反映主題價(jià)值的多少,以此抽取最能反映文章主題的句子。葛斌[8],Yeh[9]等人將主題句抽取問題轉(zhuǎn)化為無向圖中結(jié)點(diǎn)權(quán)重計(jì)算問題,根據(jù)圖中邊的權(quán)重來衡量其在文章中的重要程度,以此抽取最終的主題句。
雖然已有不少針對文本主題句抽取的研究,但專門針對新聞主題句抽取的研究卻還相對較少。新聞作為一種特殊的文本有著自身的特性,對于它的研究與其他文本的研究有著很重要的差異。目前針對新聞抽取的研究主要集中于新聞中關(guān)鍵詞、短語的抽取[10-11]等。而在新聞文本的主題句抽取方面,Kastner[12]等人運(yùn)用了大量的特征包括(語法、語義和一般的統(tǒng)計(jì)特征)來從新聞專線的文章中找出能夠代表文章內(nèi)容的關(guān)鍵句子。王偉[13]等人根據(jù)新聞標(biāo)題對于主題句的查找是否具有提示作用,將新聞標(biāo)題進(jìn)行分類,并結(jié)合句子的位置、長度及句子中的命名實(shí)體等綜合特征來計(jì)算句子的重要程度。
本文在借鑒前人的基礎(chǔ)之上,分析新聞文本自身的特點(diǎn),依據(jù)主題句在文本中的分布與新聞標(biāo)題對新聞主旨的借鑒作用來制定規(guī)則,最終通過特征加權(quán)的方式建立主題句抽取模型。
新聞作為一種信息傳輸?shù)拿浇?,一種特殊的文本,具有其自身的特性。一般的新聞主要由新聞標(biāo)題、新聞?wù)膬刹糠謽?gòu)成。對于一般的新聞,標(biāo)題統(tǒng)領(lǐng)文章的主要含義,正文是對新聞標(biāo)題的延續(xù)與擴(kuò)充。新聞主題句正是根據(jù)新聞標(biāo)題與新聞內(nèi)容的特點(diǎn),從新聞文本中篩選過濾而得的能代表新聞主旨的句子。下面分別從新聞標(biāo)題與新聞?wù)膬煞矫骊U述新聞文本的特點(diǎn)。
2.1 新聞標(biāo)題
新聞工作者認(rèn)為新聞標(biāo)題是新聞的靈魂,為了吸引讀者的眼球,新聞標(biāo)題大體表述了新聞的主旨思想。新聞標(biāo)題的長度一般較短,但卻包含了豐富的含義、便于人們了解新聞報(bào)道的主體信息。用戶一般根據(jù)新聞標(biāo)題來選取自身感興趣的話題,短而精煉的標(biāo)題對于用戶快速定位自身感興趣的新聞?dòng)兄芎玫拇龠M(jìn)作用。
本文從人民網(wǎng)、新華網(wǎng)、科學(xué)網(wǎng)等網(wǎng)站中搜集了總計(jì)10 000個(gè)新聞標(biāo)題,對新聞標(biāo)題的長度進(jìn)行統(tǒng)計(jì)分析,具體情況如圖1所示。
圖1 新聞標(biāo)題長度的統(tǒng)計(jì)
由圖1可知,新聞標(biāo)題的長度大多數(shù)集中于 11~25個(gè)字符之間。正好符合新聞寫作的一般技巧[14],若字符太少,很難詳盡地描述出新聞的主體內(nèi)容;若字符過多,又顯得不那么簡約精煉。新聞標(biāo)題正是通過這些短而精煉的字符,將新聞最核心的內(nèi)容呈現(xiàn)給了讀者。因此新聞標(biāo)題對于最終主題句的抽取有著很好的借鑒作用。
2.2 新聞?wù)?/p>
新聞?wù)脑敿?xì)論述了新聞的具體事務(wù),按照新聞表述的一般形式,新聞的要點(diǎn)一般出現(xiàn)在新聞的前面,新聞的后半部分只是對新聞主題的具體闡述與擴(kuò)充。主題句的位置對于人們了解文本的內(nèi)容至關(guān)重要[15],因此新聞主題句一般出現(xiàn)在新聞的開頭。圖2為本文語料中主題句在新聞文本中的分布情況(僅統(tǒng)計(jì)前十句為主題句的情形)。
圖2 主題句在新聞中的位置分布比例
由圖2可以看出,隨著位置的后移,新聞主題句分布比例不斷減少。這與新聞要點(diǎn)前置這一現(xiàn)象基本一致,也為新聞主題句的抽取提供了可靠的依據(jù)。
新聞主題句是指基本能夠反映新聞主旨的句子,目前已有許多運(yùn)用特征進(jìn)行主題句抽取的研究,但選取的特征大都基于特定領(lǐng)域,對于文本的依賴性較大。本文根據(jù)上文描述的新聞標(biāo)題、正文的特點(diǎn),即新聞主旨鮮明、標(biāo)題大體反映新聞的主要內(nèi)容、正文從結(jié)構(gòu)上講將要點(diǎn)前置等這些準(zhǔn)則,選取了針對新聞文本自身的一些特征,最終通過特征加權(quán)的方式建立了新聞主題句抽取的模型。
3.1 特征選取
(1) 句子的位置
根據(jù)圖2可知,句子的相對位置與該句是否為主題句有很大的關(guān)聯(lián)。因此文本中句子的相對位置對主題句的抽取有很大的借鑒作用。具體特征如式(1)所示。
Scoreloc(si)=1-logi/logn
(1)
其中i為句子在文本中的相對位置,n為文本中句子總數(shù)。
(2) 標(biāo)題句子重合度
標(biāo)題對于主題句的選取有著很好的指引作用。一般情況下句子與標(biāo)題中重復(fù)的詞越多,該句話是主題句的概率也越高。具體特征如式(2)所示。
Scoreoverlap(si)=∑w∈T∈siterm_weight(w)
(2)
其中T為新聞標(biāo)題,si為文本中的第i句話,term_weight(w)為詞的權(quán)重,權(quán)重計(jì)算公式用傳統(tǒng)的tf-idf方式計(jì)算而得,Scoreoverlap(si)為該句子與標(biāo)題重合度的得分。
實(shí)驗(yàn)過程中發(fā)現(xiàn),某些時(shí)候tf-idf的計(jì)算方式不能很好地度量詞的權(quán)重,如句子與標(biāo)題有很多重復(fù)的詞,但這些詞的權(quán)重都相對較小。此時(shí)將重復(fù)詞的個(gè)數(shù)與權(quán)重進(jìn)行組合得式(3)。
(3)
其中Numoverlap為句子與標(biāo)題中重合的詞的個(gè)數(shù)。
最后,為了保證最終特征加權(quán)時(shí)每個(gè)特征在0~1范圍內(nèi),對該特征進(jìn)行歸一化。最終的句子特征重合度的計(jì)算公式為式(4)。
(4)
其中Min指用式(3)計(jì)算而得的文本中句子標(biāo)題重合度中值最低的得分, Max為最高得分。
(3) 標(biāo)題句子關(guān)聯(lián)度
鑒于新聞標(biāo)題在新聞文本中無可替代的作用。雖然上面句子標(biāo)題重合度已經(jīng)將標(biāo)題應(yīng)用于主題句抽取的特征中,但上述特征要求重合的詞必須完全一致。但實(shí)際應(yīng)用中發(fā)現(xiàn)在標(biāo)題中很多時(shí)候?yàn)榱苏Z言的精煉使用了大量的簡稱、縮略詞等。如北大和北京大學(xué),這樣的情況重合度的特征就不適用。為了解決這一情形對于實(shí)驗(yàn)結(jié)果的影響,我們引入詞向量來描述詞與詞之間的相近程度,運(yùn)用加權(quán)二部圖的最大匹配法尋找句子標(biāo)題之間的極大匹配作為句子標(biāo)題的關(guān)聯(lián)度。
計(jì)算標(biāo)題與句子關(guān)聯(lián)度的偽代碼如下:
句子標(biāo)題關(guān)聯(lián)度算法輸入:標(biāo)題T(w1,w2,...,wn)、句子Si(s1,s2,...,sm)、詞向量字典初始化參數(shù):句子標(biāo)題的關(guān)聯(lián)度得分Scoresim(si)repeatfori=1tondo forj=1tomdo 計(jì)算句子標(biāo)題的權(quán)值矩陣weights 根據(jù)weights,用加權(quán)二部圖的最大匹配計(jì)算標(biāo)題句子的關(guān)聯(lián)度Scoresim(si) endforendfor運(yùn)用式(4)的方法進(jìn)行歸一化輸出:句子標(biāo)題的關(guān)聯(lián)度得分Scoresim(si)
其中,T(w1,w2,...,wn),Si(s1,s2,...,sm)分別表示標(biāo)題T和句子Si,w1,w2,...,wn和s1,s2,...,sm分別表示構(gòu)成標(biāo)題和句子Si的詞。詞向量字典的獲得通過ICTCLAS2014(http://ictclas.nlpir.org/)將新聞?wù)Z料進(jìn)行分詞,然后通過開源工具word2vec(https://code.google.com/p/word2vec/)訓(xùn)練而得。句子標(biāo)題的權(quán)值矩陣weights,由詞與詞之間的相似度矩陣構(gòu)成,而詞與詞之間的相似度通過cos的方式計(jì)算兩個(gè)單詞間的詞向量而得。
用加權(quán)二部圖的最大匹配計(jì)算標(biāo)題句子的關(guān)聯(lián)度Scoresim(si),將標(biāo)題中的詞的集合和句子中的詞的集合看成二部圖,詞與詞之間的相似關(guān)系,看成它們之間的權(quán)值。通過Kuhn-Munkras求解出權(quán)和最大的匹配。如圖3所示的案例中,標(biāo)題T中有兩個(gè)詞(w1,w2),句子S中有三個(gè)詞(s1,s2,s3),邊上的權(quán)
圖3 基于加權(quán)二部圖的句子標(biāo)題關(guān)聯(lián)度實(shí)例
值代表詞與詞之間的相似性。運(yùn)用加權(quán)二部圖的極大匹配可以求得最終標(biāo)題與句子的關(guān)聯(lián)度為13。當(dāng)然,最終要對文本中所有的標(biāo)題句子關(guān)聯(lián)度進(jìn)行歸一化。
3.2 主題句提取
根據(jù)上述選取的特征,結(jié)合新聞自身的特點(diǎn),最終新聞主題句的計(jì)算如式(5)所示。
g(x)=∑iwi·Scorei
(5)
其中wi為它們對應(yīng)的權(quán)值,Scorei代表Scoreloc,Scoreoverlap,Scoresim,其中∑wi= 1,0≤wi≤1。
求解wi的值時(shí),根據(jù)∑wi=1,0≤wi≤1,設(shè)定步長為0.1,組合所有的可能性共66種,因?yàn)樾侣勚黝}句語料的限制,運(yùn)用5折交叉驗(yàn)證的方式查看不同特征值組合時(shí)主題句抽取的準(zhǔn)確率的情況,實(shí)驗(yàn)中發(fā)現(xiàn)每次取最優(yōu)值時(shí)的參數(shù)比較集中,為了求解出最終的實(shí)驗(yàn)結(jié)果,取五次實(shí)驗(yàn)的平均值。 圖4顯示了wi為不同取值時(shí),新聞主題句抽取正確率的情況。由圖4可知,當(dāng)w1=0.3,w2=0.2,w3=0.5時(shí),實(shí)驗(yàn)的準(zhǔn)確率最高,最終主題句抽取模型的參數(shù)就選定為該組值。
圖4 每組wi對應(yīng)的準(zhǔn)確率的值
為了更好地理解該組參數(shù),表1分別對圖4中的特殊點(diǎn)進(jìn)行分析研究。其中實(shí)驗(yàn)1至3為每個(gè)特征單獨(dú)抽取時(shí)的準(zhǔn)確率,實(shí)驗(yàn)4至6為三個(gè)特征兩兩組合,準(zhǔn)確率最高時(shí)的情形。實(shí)驗(yàn)7為三個(gè)特征組合時(shí)準(zhǔn)確率最高時(shí)的情形。可以看到兩個(gè)特征組合時(shí),無論loc與overlap組合還是與sim組合,得到的效果都很顯著,并且loc與sim組合時(shí)的效果要優(yōu)于與overlap組合時(shí)的效果,說明loc對于sim的促進(jìn)效果更加顯著。而overlap與sim組合的效果低于overlap單個(gè)特征時(shí)的準(zhǔn)確率,卻高于sim單個(gè)特征時(shí)的準(zhǔn)確率,說明這兩個(gè)特征組合到一起對overlap有抑制作用,而對sim有促進(jìn)作用。三個(gè)特征組合時(shí)求得的結(jié)果最終優(yōu)于上面的情形。根據(jù)上面的分析,當(dāng)取得最大值時(shí)對應(yīng)的參數(shù)w1=0.3,w2=0.2,w3=0.5便比較合理了。
表1 特征選擇及對應(yīng)準(zhǔn)確率的值
4.1實(shí)驗(yàn)語料及評價(jià)指標(biāo)
為了驗(yàn)證本文提出的特征對于新聞主題句抽取的有效性,從人民網(wǎng)、新華網(wǎng)、科學(xué)網(wǎng)等網(wǎng)站中收集了1500篇新聞文本,涉及政治、民生、體育、環(huán)保、IT等多個(gè)方面。由兩名自然語言處理專業(yè)的研究生分別進(jìn)行主題句的標(biāo)注,人工標(biāo)注時(shí)對于主題混淆不清的新聞報(bào)道予以剔除,最終選取兩名同學(xué)標(biāo)注一致的新聞共878篇,作為我們的語料進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中隨機(jī)選取語料中的80%作為訓(xùn)練數(shù)據(jù),剩余的20%作為測試數(shù)據(jù)。實(shí)驗(yàn)過程中為了消除不同新聞?wù)Z料對實(shí)驗(yàn)結(jié)果的影響,使用了交叉驗(yàn)證。
表2為所使用語料的基本信息。
表2 新聞?wù)Z料的信息統(tǒng)計(jì)
本文的主題句主要是指最能夠代表新聞?dòng)^點(diǎn)的論句。設(shè)定每篇新聞報(bào)道只標(biāo)注一句話作為其主題句。本文采用的評價(jià)指標(biāo)為準(zhǔn)確率。但與傳統(tǒng)的準(zhǔn)確率略有不同,具體如式(6)所示。
其中,正確抽取的句子數(shù)指從單篇文本中抽取得分最高的N句,若其中包含所標(biāo)注的句子,則記為抽取正確。根據(jù)從單篇文本中抽取句子數(shù)目的不同,準(zhǔn)確率記為P@N。
4.2 實(shí)驗(yàn)結(jié)果和分析
通過特征加權(quán)的主題句抽取,實(shí)際上就是通過選取能夠描述文章內(nèi)容的特征,選取合理的權(quán)值,將它們結(jié)合到一起,選取最能夠代表文章內(nèi)容的一句話。本文主要通過三種方法進(jìn)行主題句抽取的對比分析。
① 首句法,根據(jù)圖2的分析研究,了解到句子的位置與該句是否為主題句有很大的關(guān)系,以及Dorr[16]直接將首句作為主題句的先例,本文直接選取首句作為新聞的主題句,記為基于首句的主題抽取方法(FS_based)。
② 運(yùn)用文獻(xiàn)[8]中的方法,在該篇論文中選擇的特征較多,同時(shí)還考慮到了標(biāo)題是否具有提示作用,選擇最好的實(shí)驗(yàn)效果作為本實(shí)驗(yàn)的對比結(jié)果,記為基于多特征的主題抽取方法(Multi_Feature)。
③ 為本文提出的特征加權(quán)的主題句抽取方法(Feature_Weight)。
為了減少新聞?wù)Z料差異性對主題句抽取結(jié)果的影響,分別在交叉驗(yàn)證集上進(jìn)行五次實(shí)驗(yàn),最終取五次的平均值作為最終實(shí)驗(yàn)的結(jié)果。實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 三種方法準(zhǔn)確率的比較
如圖5所示,基于特征加權(quán)的方法大大優(yōu)越于基于首句的方式,比多特征的主題抽取方法也高出了10%,說明本文提出的方法能更有效地提取新聞的主題句。方法②中的特征個(gè)數(shù)比方法③中的特征個(gè)數(shù)多,實(shí)驗(yàn)結(jié)果卻不及方法③,說明特征的選取并非越多越占優(yōu)勢,選取的特征之間相互影響或許會(huì)降低整個(gè)抽取的效果。
本文還加大了單篇文本的抽取數(shù)目,以查看不同P@N值的情況,詳情如圖6所示。
圖6 兩種算法在不同候選值中準(zhǔn)確率
用主題句抽取算法進(jìn)行主題句抽取時(shí),隨著抽取數(shù)目的增多,能夠抽取的新聞主題句的數(shù)目也不斷增加。當(dāng)選擇前三句話作為候選主題句時(shí),兩種方法的準(zhǔn)確率都有較大幅度的提升,而且本文中的方法要明顯高于多特征方法的準(zhǔn)確率。當(dāng)抽取三句話時(shí),本文方法的P@3達(dá)到了92%,說明本實(shí)驗(yàn)中的方法可以將候選的主題集合限定在較小的范圍內(nèi)。關(guān)于沒有抽取到的10%,可能的原因如下: 某些新聞的主旨太過分散,一兩句話難以描述該新聞的主要內(nèi)容,案例如圖7所示;也有些新聞標(biāo)題太短,透露的信息量相對較少,文中有很多句子都可以描述新聞標(biāo)題所要描述的內(nèi)容,案例如圖8所示,圖中灰色標(biāo)注的都可以反映新聞的主旨。
圖7 新聞案例1
圖8 新聞案例2
為了進(jìn)一步驗(yàn)證本文所選取特征的高效性,本文還考查了在單特征下選取不同數(shù)目的候選主題句時(shí)P@N的情況,具體如圖9所示。
圖9 單特征在不同候選主題句時(shí)的準(zhǔn)確率
由上圖可見,本文中所選取的標(biāo)題句子重合度與標(biāo)題句子關(guān)聯(lián)度就單特征而言,比其他選取的特征對于主題句的識(shí)別具有更好的優(yōu)越性。
本文針對新聞文本的特點(diǎn),選取了指定的特征,通過特征加權(quán)的方式進(jìn)行新聞的主題句抽取。實(shí)驗(yàn)結(jié)果表明本文提出的方法與選取的特征對于最終主題句抽取的結(jié)果有明顯的提升作用。但由于該方法是基于標(biāo)題能夠反映新聞主旨這一前提進(jìn)行的,若標(biāo)題不能夠很好地體現(xiàn)新聞的價(jià)值,如出現(xiàn)標(biāo)題黨問題[17]的情況,本文的方法則不能進(jìn)行很好的處理。下一步工作是針對這種問題進(jìn)行分析處理,將其與現(xiàn)有的主題句模型進(jìn)行融合,以使抽取的主題句更加精準(zhǔn)與完善。
[1] Ogura Y, Kobayashi I. Text Classification based on the Latent Topics of Important Sentences extracted by the PageRank Algorithm[C]//Proceedings of the ACL student research workshop, 2013: 46-51.
[2] Jung W, Ko Y, Seo J, et al. Automatic text summarization using two-step sentence extraction[C]//Proceedings of the asia information retrieval symposium, 2004: 71-81.
[3] Zuo J, Wang M, Wan J, et al. Information Retrieval Model Combining Sentence Level Retrieval[C]//Proceedings of the international conference on asian language processing. IEEE, 2013:37-40.
[4] You J, ZhangY, Tong Y. An Approach to Sentiment Analysis for Chinese News Text Based on Topic Sentences Extraction[C]//Proceedings of the international journal of knowledge and language processing, 2014:20-31.
[5] 王力, 李培峰, 朱巧明. 一種基于LDA模型的主題句抽取方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2013, (2):160-164.[6] 原田, 宗樹, 柳本等. Topic Sentence Extraction from Editorial Articles Based on Sentence Structure and Topic Relevance[J]. システム制御情報(bào)學(xué)會(huì)研究発表講演會(huì)講演論文集, 2013, 57.
[7] 張?jiān)茲? 龔玲, 王永成. 基于綜合方法的文本主題句的自動(dòng)抽取[J]. 上海交通大學(xué)學(xué)報(bào), 2006, 40(5):771-774.
[8] 葛斌, 李芳芳, 李阜等. 基于無向圖構(gòu)建策略的主題句抽取[J]. 計(jì)算機(jī)科學(xué), 2011, 38(5):181-185.
[9] Yeh J, Ke H, Yang W. iSpreadRank: Ranking sentences for extraction-based summarization using feature weight propagation in the sentence similarity network[J]. Expert Systems with Applications, 2008, 35(3):1451-1462.
[10] Wang C, Zhang M, Ru L, et al. An Automatic Online News Topic Keyphrase Extraction System[C]//Proceedings of the IEEE/WIC/ACM international conference on Web intelligence and intelligent agent technology. IEEE Computer Society, 2008:214-219.
[11] Yin Z H, Wang Y C, Cai W, et al. Extracting subject from internet news by string match[J]. Journal of Software, 2002,13(2):159-167.
[12] Kastner I, Monz C. Automatic single-document key fact extraction from newswire articles[C]//Proceedings of the conference of the european chapter of the association for computational linguistics. Association for Computational Linguistics, 2009:415-423.
[13] 王偉, 趙東巖, 趙偉. 中文新聞關(guān)鍵事件的主題句識(shí)別[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版, 2011,47(5):789-796.
[14] 張彥榮. 試論新聞標(biāo)題的制作技巧[J]. 青海師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版, 2011, (4):147-149.
[15] Farhady H. Location of the Topic Sentence, Level of Language Proficiency, and Reading Comprehension[J]. Iranian Efl Journal, 1999:308-318.
[16] Dorr, Bonnie, Zajic, et al. Hedge Trimmer: a parse-and-trim approach to headline generation[C]//Proceedings of the north American Chapter of the Association for Computational Linguistics, 2003: 1-8.
[17] Deng X. Cultural Interpretation of Online News Title Party[J]. Journal of Guangzhou Open University, 2012:71-79.
萬國(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔z索。
E-mail: wanguo_sau@163.com
張桂平(1962—),博士,教授,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯,知識(shí)管理。
E-mail: zgp@gesoft.com
白宇(1982—),博士研究生,講師,主要研究領(lǐng)域?yàn)樾畔z索。
E-mail: baiyu@sau.edu.cn
NewsTopicSentenceExtractionviaWeightedFeatures
WAN Guo, ZHANG Guiping, BAI Yu, ZHU Yaohui
(Knowledge Engineering Research Center, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)
A topic sentence extraction method for news text is proposed. Firstly, the location feature is derived from the distribution of news topic sentence in the text. Then, the overlap ratio between a sentence and the title calculated owing to the interrelation of the news title with the theme. To best estimate the relevancy between the title and the candidate topic sentence, a maximum matching based on weighted bipartite graph is applied. Finally, the topic sentence is selected according to the sentence rank score. The experimental results show that the proposed method reaches 75.9% in P@1, and 92.4% in P@3.
feature weighted; overlap ratio; relevancy degree; weighted bipartite graph
1003-0077(2017)05-0120-07
TP391
A
2015-11-03定稿日期2016-03-20
沈陽省自然科學(xué)基金(20170540696);沈陽市科技計(jì)劃項(xiàng)目(17-231-1-82)