• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于句子權(quán)重和篇章結(jié)構(gòu)的政府公文自動(dòng)文摘算法

    2015-11-25 03:00:48毛良文
    計(jì)算機(jī)與現(xiàn)代化 2015年12期
    關(guān)鍵詞:分詞文摘權(quán)重

    毛良文,徐 亮

    (1.湖南省產(chǎn)商品質(zhì)量監(jiān)督檢驗(yàn)研究院,湖南 長沙 410007;2.湖南師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖南 長沙 410081;3.高性能計(jì)算與隨機(jī)信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410081)

    0 引言

    現(xiàn)如今,計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)已經(jīng)深深地改變了人們的學(xué)習(xí)、生活和工作。人們的每一項(xiàng)活動(dòng)都已經(jīng)與計(jì)算機(jī)、互聯(lián)網(wǎng)緊緊相連。人們在享受信息技術(shù)所帶來的快速、透明和便捷的同時(shí),也在生活中逐漸陷入到海量信息、信息爆炸的困境中。如何從海量信息中快速而準(zhǔn)確地找到人們所關(guān)注的信息就成為了當(dāng)今信息處理的一項(xiàng)重要技術(shù)。

    自動(dòng)文摘技術(shù)就是這其中的一個(gè)重要研究領(lǐng)域。早在20 世紀(jì)50 年代,美國IBM 公司的H.P.Luhn就開始了自動(dòng)文摘的研究[1],隨后,H.P.Edmandson在Luhn 研究的基礎(chǔ)之上提出了綜合線索詞、標(biāo)題、詞頻等因素的加權(quán)方法生成自動(dòng)文摘,在句子的加權(quán)計(jì)算上前進(jìn)了一大步[2]。20 世紀(jì)70 年代開始,隨著自然語言理解技術(shù)的發(fā)展和人工智能技術(shù)的發(fā)展,在自動(dòng)文摘領(lǐng)域產(chǎn)生了各種各樣的應(yīng)用系統(tǒng),如采用刪除句子的策略產(chǎn)生自動(dòng)文摘的ADAM 系統(tǒng)[3]、基于腳本信息的FRUMP 系統(tǒng)[4]、基于混合方法的SCISOR系統(tǒng)[5]等。

    我國從20 世紀(jì)80 年代末才開始對(duì)中文自動(dòng)文摘系統(tǒng)進(jìn)行研究和開發(fā)工作。時(shí)間雖不長,但發(fā)展很迅速。尤其是隨著中文分詞、中文語義分析等技術(shù)的發(fā)展,自動(dòng)文摘技術(shù)的研究也快速向前推進(jìn),其中比較具有代表性的成果包括:綜合考慮句子位置、指示性短語、文本結(jié)構(gòu)等因素的SJTUVAA 系統(tǒng)[6];通過與用戶進(jìn)行交互,利用腳本表示知識(shí)的“中文全文自動(dòng)文摘系統(tǒng)”[7];基于“全信息”自然語言理論研發(fā)出了面向各種不同類型文章的中文自動(dòng)文摘系統(tǒng)[8];基于篇章理解并充分利用句子層面之間的語義信息的MATAS 系統(tǒng)[9]以及基于主題詞權(quán)重和句子特征的自動(dòng)文摘算法[10]等。

    本文在文獻(xiàn)[10]算法的基礎(chǔ)上,根據(jù)政府公文結(jié)構(gòu)性強(qiáng)這一特點(diǎn),提出了一種基于句子權(quán)重和篇章結(jié)構(gòu)的政府公文自動(dòng)文摘算法,主要是根據(jù)文章中的句子權(quán)重大小和文章篇章結(jié)構(gòu)來共同決定一個(gè)句子是否能成為自動(dòng)文摘句子。通過對(duì)文章篇章結(jié)構(gòu)和內(nèi)容層次的劃分,并將相關(guān)信息融入到對(duì)主題詞權(quán)重和句子權(quán)重的計(jì)算公式中,從而在一定程度上改進(jìn)了對(duì)文章句子權(quán)重排序的結(jié)果。實(shí)驗(yàn)表明,使用本文提出的自動(dòng)文摘算法,在進(jìn)行政府公文的文摘自動(dòng)生成時(shí),準(zhǔn)確率和召回率都較文獻(xiàn)[10]中的方法有較大提高。

    1 系統(tǒng)框架

    基于句子權(quán)重和篇章結(jié)構(gòu)的政府公文自動(dòng)文摘系統(tǒng)框架如圖1 所示。

    圖1 基于主題詞權(quán)重和句子特征的自動(dòng)文摘系統(tǒng)框架

    在構(gòu)建一個(gè)公文的文摘時(shí),首先分析公文的篇章結(jié)構(gòu)信息,根據(jù)篇章結(jié)構(gòu)信息,對(duì)句子、詞語所在的層級(jí)進(jìn)行統(tǒng)計(jì);然后通過分詞及詞性標(biāo)注、詞頻統(tǒng)計(jì)等操作,在考慮詞頻、詞性、詞的位置等因素的情況下,計(jì)算詞語的權(quán)重,并根據(jù)標(biāo)題的類型信息和用戶偏好信息對(duì)詞語的權(quán)重進(jìn)行修改;之后在詞語權(quán)重和句子相關(guān)特征信息的基礎(chǔ)上計(jì)算句子的權(quán)重,并根據(jù)句子權(quán)重得出候選文摘句;最后進(jìn)行文摘的篩選和潤色輸出。

    2 算法介紹

    2.1 篇章結(jié)構(gòu)分析

    篇章結(jié)構(gòu)分析是為了獲取詞語、句子所在的篇章結(jié)構(gòu)信息,這在生成政府公文摘要時(shí),是非常重要的信息,因?yàn)榇蠖鄶?shù)情況下,政府公文中的篇章結(jié)構(gòu)信息是十分明顯的,據(jù)此來進(jìn)行文摘的自動(dòng)生成必然會(huì)事半功倍。

    2.1.1 分句

    分句是將一篇文章分成一個(gè)個(gè)獨(dú)立的句子。分句是實(shí)現(xiàn)精確的句子信息統(tǒng)計(jì)的前提條件,準(zhǔn)確的分句將為后續(xù)的文摘句子權(quán)重計(jì)算和得到文章的篇章結(jié)構(gòu)打下堅(jiān)實(shí)的基礎(chǔ)。分句算法步驟為:

    步驟1 將文章的內(nèi)容和格式統(tǒng)一裝進(jìn)字符串序列S(C1,C2,...,Cn)中。

    步驟2 定義2 個(gè)下標(biāo)start、end,初值都為1。

    步驟3 判斷字符串序列S 中下標(biāo)為end 的字符是否為句子分割字符flag:

    1)如果Cend=flag,則執(zhí)行步驟4;

    2)如果Cend≠flag,則執(zhí)行步驟6。

    步驟4 將S 中的Cstart至Cend之間的字符組合為一個(gè)字符串S',裝進(jìn)句子容器D(s1,s2,...,sn)中。

    步驟5 將start、end 的值都變?yōu)閑nd+1,轉(zhuǎn)步驟3。

    步驟6 start 的值保持不變,end 的值變?yōu)閑nd+1,轉(zhuǎn)步驟3。

    步驟7 如果start >n(n 為S 的最大下標(biāo)),則算法結(jié)束。

    2.1.2 句子信息統(tǒng)計(jì)

    句子信息統(tǒng)計(jì)是句子權(quán)重計(jì)算的前提條件,同時(shí)可以為句子權(quán)重的計(jì)算提供充分的參考。

    在句子的信息統(tǒng)計(jì)中,每個(gè)句子的詳細(xì)信息都可以用一個(gè)六元組{x,y,z,u,v,w}來表示,分別用來代表句子的章節(jié)編號(hào)、段落編號(hào)、段落句子編號(hào)、文章句子編號(hào)、句子內(nèi)容的層以及句子的長度。章節(jié)編號(hào)將可以直接說明句子屬于文章的哪一大塊內(nèi)容;段落編號(hào)代表句子屬于一個(gè)章節(jié)的第幾段;段落句子編號(hào)用來代表句子在一個(gè)段落中的順序;文章句子編號(hào)是句子在文章中的精確編號(hào),代表句子在整個(gè)文章中的順序,通過文章句子編號(hào)可以直接精確定位到句子,同時(shí)通過文章句子編號(hào)可以在詞語信息統(tǒng)計(jì)結(jié)果中查找到該句子所含有的詞語;句子內(nèi)容的層級(jí)用來表示該句子在整篇文章中的層次地位。

    句子信息統(tǒng)計(jì)的算法步驟為:

    步驟1 定義章節(jié)編號(hào)、段落編號(hào)、段落句子編號(hào)、文章句子編號(hào)、內(nèi)容層級(jí)編號(hào)、句子長度分別為x、y、z、u、v、w,且初值均為0。

    步驟2 遍歷文章句子容器D(s1,s2,...,sn)中的句子Si(C1,C2,...,Cn)。

    步驟3 判斷Si(C1,C2,...,Cn)是否符合章節(jié)分割特征flag1:

    1)如果符合flag1,則執(zhí)行步驟4;

    2)如果不符合flag1,則執(zhí)行步驟8。

    步驟4 判斷Si(C1,C2,...,Cn)是否含有章節(jié)序號(hào)No1:

    1)如果含有No1,則執(zhí)行步驟5;

    2)如果不含有No1,則執(zhí)行步驟6。

    步驟5 判斷序號(hào)層級(jí)容器N([type1,1],[type2,2],...,[typen,n])中是否含有No1 的類型(其中,typen為序號(hào)的括號(hào)類型,n 為層級(jí)值):

    1)如果含有No1 的類型,則將v 賦值為N 中該類型對(duì)應(yīng)的層級(jí)值;

    2)如果不含有No1 的類型,則將[No1 的類型,n+1]添加進(jìn)容器N 中,并將v 賦值為n+1。

    步驟6 將x 賦值為x +1,y、z 賦值為0,u 賦值為u+1,v 不變。

    步驟7 計(jì)算出Si(C1,C2,...,Cn)的長度Si.length,將w 賦值為Si.length,將Si(C1,C2,...,Cn)、x、y、z、u、v、w 裝進(jìn)相應(yīng)的統(tǒng)計(jì)對(duì)象中,轉(zhuǎn)步驟2。

    步驟8 判斷Si(C1,C2,...,Cn)是否符合段落分割特征flag2:

    1)如果符合flag2,則執(zhí)行步驟9;

    2)如果不符合flag2,則執(zhí)行步驟12。

    步驟9 判斷Si(C1,C2,...,Cn)是否含有小章節(jié)序號(hào)No2:

    1)如果含有No2,則執(zhí)行步驟10;

    2)如果不含有No2,則執(zhí)行步驟11。

    步驟10 判斷序號(hào)層級(jí)容器N([type1,1],[type2,2],...,[typen,n])中是否含有No2 的類型:

    1)如果含有No2 的類型,則將r 賦值為N 中該類型對(duì)應(yīng)的層級(jí)值;

    2)如果不含有No2 的類型,則將[No2 的類型,n+1]添加進(jìn)容器N 中,并將v 賦值為n+1。

    步驟11 y 賦值為y+1,z 賦值為0,u 賦值為u+1,v 不變,轉(zhuǎn)步驟7。

    步驟12 x、y 不變,z 賦值為z+1,u 賦值為u +1,v 不變,轉(zhuǎn)步驟7。

    2.1.3 詞語信息統(tǒng)計(jì)

    詞語是文章內(nèi)容的原子,對(duì)詞語信息的精確統(tǒng)計(jì)是進(jìn)行詞語權(quán)重計(jì)算和句子權(quán)重計(jì)算的基礎(chǔ)。詞語信息統(tǒng)計(jì)可以分成3 大步驟:分詞詞性標(biāo)注、詞語統(tǒng)計(jì)和詞語頻率統(tǒng)計(jì)。分詞詞性標(biāo)注,筆者選擇使用中科院的ICTCLAS 中文分詞系統(tǒng)[12]。

    詞語信息統(tǒng)計(jì)的算法步驟為:

    步驟1 調(diào)用ICTCLAS 中文分詞系統(tǒng),對(duì)文檔進(jìn)行分詞詞性標(biāo)注,并拿到返回的分詞結(jié)果:字符串S(C1,C2,...,Cn)。

    步驟2 采用基于游標(biāo)的字符截取算法對(duì)S(C1,C2,...,Cn)進(jìn)行分詞模塊Wi(wi,flag,pi)的截取,并將截取到的分詞模塊Wi(wi,flag,pi)裝進(jìn)容器D(W1,W2,...,Wn)。

    步驟3 定義句子編號(hào)變量a、詞語長度變量len,且初值均為0。

    步驟4 遍歷容器D(W1,W2,...,Wn),對(duì)其中的分詞模塊Wi(wi,flag,pi)再次進(jìn)行分割得到wi和pi,然后判斷詞語wi是否含有句子分割符flag2:

    1)如果含有flag2,則a 增加1;

    2)如果不含有flag2,a 保持不變。

    再將 (wi,pi,a) 作為一條記錄,裝進(jìn)數(shù)據(jù)庫中的詞語統(tǒng)計(jì)表list1 中,直到遍歷結(jié)束。

    步驟5 刪除詞語統(tǒng)計(jì)表list1 中詞語wi為停用詞的相關(guān)記錄。

    步驟6 遍歷詞語統(tǒng)計(jì)表list1 中的記錄(wi,pi,a),判斷數(shù)據(jù)庫中詞頻統(tǒng)計(jì)表list2 中是否含有該詞語wi(詞語相同且詞性相同):

    1)如果不含有,則計(jì)算詞語wi的長度并將其賦值給變量len,將 (wi,pi,len,1)作為一條記錄裝進(jìn)list2 中;

    2)如果含有,則將表list2 中詞語為wi的詞頻字段加1。

    本算法中相關(guān)參數(shù)說明:

    分詞模塊Wi(wi,flag,pi):wi表示詞語,flag 表示詞語詞性分隔符,pi表示詞性;詞語統(tǒng)計(jì)表list1 的表結(jié)構(gòu)為:(‘詞語’,‘詞性’,‘句子編號(hào)’);詞語統(tǒng)計(jì)表list2 的表結(jié)構(gòu)為:(‘詞語’,‘詞性’,‘詞長’,‘詞頻’)。

    2.2 詞語權(quán)重計(jì)算

    在詞語自身所擁有的屬性當(dāng)中,詞義、詞性、詞頻、詞語長度、詞語位置都是需要考慮的因素。

    不同的詞語本身意味著不同的詞義,但是對(duì)于自動(dòng)文摘來說,很難說某一個(gè)詞義對(duì)于文章重要,某一個(gè)詞義對(duì)于文章就不重要。所以,在討論詞語的權(quán)重時(shí),詞義暫不考慮。而詞性在決定它是否能代表文章內(nèi)容上往往有著決定性的作用。計(jì)算機(jī)研究人員的實(shí)驗(yàn)研究結(jié)果則更證明了這點(diǎn)[13-14]。在表達(dá)文章內(nèi)容方面,名詞相對(duì)于其它詞有著天然的優(yōu)勢,所以在對(duì)詞語權(quán)重進(jìn)行計(jì)算時(shí),會(huì)給名詞以較高的權(quán)重。在詞語的長度方面,文獻(xiàn)[14]對(duì)2006 年度CSSCI 關(guān)鍵詞詞庫中關(guān)鍵詞的詞語長度進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),4~6 字詞占到關(guān)鍵詞總數(shù)的78.42%。所以,筆者對(duì)于長度為4~6 個(gè)字的詞語賦予較高的權(quán)重。在詞語位置方面,文章各個(gè)小標(biāo)題中的詞語無疑是最具概括性和代表性的詞語。除了文章的大小標(biāo)題,研究人員還發(fā)現(xiàn),出現(xiàn)在首段、尾段位置的詞語往往也更具代表性。在詞頻方面,詞語出現(xiàn)的次數(shù)越多,往往越能代表它對(duì)文章內(nèi)容的重要程度。

    綜合以上各因素,算法中詞語評(píng)分計(jì)算公式為:

    其中,ni為詞wi出現(xiàn)的次數(shù);δ 為均衡系數(shù),δ 的取值方法為:

    其中,L 為文章的長度。

    其中0 <α <1。

    其中,0 <β4<β3<β2<β1<1。

    其中,0 <γ2<γ1<1。

    上述公式中的各參數(shù)根據(jù)不同的文章類型會(huì)有不同的最優(yōu)值,可以根據(jù)情況給予不同比例的賦值,在本系統(tǒng)中則采用:

    詞語權(quán)重的計(jì)算公式為:

    2.3 句子權(quán)重計(jì)算

    句子權(quán)重計(jì)算的結(jié)果將直接決定一個(gè)句子是否會(huì)被當(dāng)作文摘句輸出。影響句子權(quán)重的因素包括句子的內(nèi)容、位置、長度、是否含有線索詞、是否是用戶關(guān)注的內(nèi)容等。為了能夠讓這些因素在句子權(quán)重計(jì)算中都發(fā)揮作用且滿足用戶的要求,筆者采用加權(quán)和來進(jìn)行句子權(quán)重計(jì)算。當(dāng)不考慮用戶偏好時(shí),句子權(quán)重計(jì)算公式為:

    其中,α、β、γ、φ、φ 為調(diào)節(jié)參數(shù),α+β+γ+φ+φ=1。

    基于內(nèi)容的句子權(quán)重Wcon(si)計(jì)算公式如下:

    其中,N 為句子si中詞語的個(gè)數(shù),詞語wj∈si,0 ≤Wcon(si)≤1。

    基于位置的句子權(quán)重Wloc(si)計(jì)算公式如下:

    句子的長度其實(shí)也是選為文摘句的一個(gè)重要參考因素。以抽取式的方式生成文摘,較短的句子往往因?yàn)榕c上下文有著較緊密的聯(lián)系,如果單獨(dú)抽取出來作為文摘句,容易造成該句與其他句子的不協(xié)調(diào)。其實(shí),在人工文摘中,如果同樣是以抽取式生成文摘,測試者在選文摘句的時(shí)候考慮的也更多是有較長內(nèi)容的句子。因?yàn)檫@些長的句子含有的內(nèi)容更加豐富,同時(shí)往往具有更強(qiáng)的獨(dú)立性和內(nèi)容的全面性,這些特性讓長句子擁有被選為文摘句的天然優(yōu)勢?;陂L度的句子權(quán)重Wlen(si)計(jì)算公式如下:

    句子的類型對(duì)于一個(gè)句子也非常重要,句子的內(nèi)容往往會(huì)因語氣的不同而不同。陳述句往往用來講述或說明某一事實(shí)或情況,表達(dá)的內(nèi)容明確、肯定;疑問句一般用于表達(dá)疑問提出問題;感嘆句則用于抒發(fā)情感。對(duì)于希望看到文章中心內(nèi)容的用戶來說,陳述句所具有的價(jià)值會(huì)更大,感嘆句次之,疑問句的價(jià)值往往最小?;陬愋偷木渥訖?quán)重Wset(si)計(jì)算公式為:

    不同的用戶對(duì)于同一篇文章有著不同的需求,計(jì)算機(jī)生成的單一文摘很難滿足所有人的要求。在生成文摘的時(shí)候,如果計(jì)算機(jī)可以根據(jù)用戶的需求來決定文摘的生成,毫無疑問將大大提高文摘的有效性。在自動(dòng)文摘生成之前,用戶可以輸入自己感興趣的關(guān)鍵詞,讓計(jì)算機(jī)在生成文摘的時(shí)候選擇更多含有用戶關(guān)心的內(nèi)容的句子。筆者認(rèn)為,用戶的偏好是直接對(duì)句子的重要程度產(chǎn)生了方向性改變,應(yīng)該成為決定句子權(quán)重的重要因素,而不是與上述的各項(xiàng)因素處于同一影響層次。當(dāng)需要考慮用戶偏好因素時(shí),一個(gè)句子的權(quán)重計(jì)算公式為:

    其中μ+ε=1。

    2.4 文摘后處理

    通過句子權(quán)重排序,得到的候選文摘集,在格式和可讀性上還存在一定的缺陷,需要對(duì)得到的候選集中的文摘句進(jìn)行一定的后處理。文摘后處理的主要內(nèi)容包括:

    1)刪除關(guān)系連詞。刪除句首諸如“因?yàn)椤?、“所以”、“還是”等連詞;

    2)刪除線索詞。刪除句首諸如“整體來說”、“總之”等線索詞;

    3)刪除句首序號(hào)。刪除句首的(1)、(一)等類型序號(hào);

    4)調(diào)整文摘的格式。刪除部分句尾的回車符,刪除句首的空格,在文摘第一句添加2 個(gè)空格。

    通過文摘后處理,可以將文摘句容器中的句子按照其在文章中的順序組織成一個(gè)段落進(jìn)行輸出,得到最終的文摘句。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)

    為了驗(yàn)證系統(tǒng)的性能,隨機(jī)的選取了來自新聞、軍事、財(cái)經(jīng)、科技和政府公文題材的文檔材料各50 篇進(jìn)行實(shí)驗(yàn)測試。

    3.2 實(shí)驗(yàn)結(jié)果及分析

    實(shí)驗(yàn)結(jié)果的評(píng)價(jià)方法如下:首先由3 名大學(xué)生對(duì)所選取的文檔單獨(dú)進(jìn)行人工文摘,然后綜合3 人生成的人工文摘形成理想文摘,將理想文摘作為自動(dòng)文摘的評(píng)價(jià)依據(jù),并計(jì)算自動(dòng)文摘的準(zhǔn)確率、召回率和F值[15]。

    首先,為了找出α、β 的較優(yōu)分配比例,隨機(jī)抽取50 篇政府公文,將α:β 的比值分別取3 種不同比例,在2 種壓縮比(摘要字?jǐn)?shù):文章字?jǐn)?shù))下進(jìn)行試驗(yàn)。實(shí)驗(yàn)的結(jié)果如表1 所示。

    表1 α、β 在不同比例下的自動(dòng)文摘結(jié)果

    通過對(duì)表1 進(jìn)行分析,發(fā)現(xiàn)當(dāng)α:β=80:20 時(shí),有著較高準(zhǔn)確率和召回率,同時(shí)F 值也較高。因此,將α:β 的比值取為80:20 進(jìn)行后面的實(shí)驗(yàn)對(duì)比。

    為了進(jìn)行對(duì)比實(shí)驗(yàn),筆者還采用了文獻(xiàn)[10]中的方法和Microsoft Word 2003 中的自動(dòng)摘要工具對(duì)相同的250 篇政府公文進(jìn)行自動(dòng)文摘。其中,句子權(quán)重計(jì)算公式(3)~公式(8)中的相關(guān)參數(shù)取其較優(yōu)值:α=0.48,β=0.12,γ=0.1,φ=0.2,φ=0.1。實(shí)驗(yàn)結(jié)果如表2 所示。

    表2 自動(dòng)文摘系統(tǒng)結(jié)果對(duì)比

    從表2 可以看出,本系統(tǒng)的平均準(zhǔn)確率為0.651,平均召回率為0.669,平均F 值為0.660,3 項(xiàng)指標(biāo)均高于文獻(xiàn)[10]中的方法和Word 2003 summarizer的平均值。這表明,考慮文章的篇章結(jié)構(gòu),并將其應(yīng)用到對(duì)候選文摘句的權(quán)重計(jì)算中,對(duì)文摘的自動(dòng)生成質(zhì)量有較為明顯的提升。

    4 結(jié)束語

    本文根據(jù)政府公文結(jié)構(gòu)性強(qiáng)的特點(diǎn),提出了一種基于句子權(quán)重和篇章結(jié)構(gòu)的政府公文自動(dòng)文摘算法,通過對(duì)篇章結(jié)構(gòu)信息的掌握,以及在此基礎(chǔ)上對(duì)詞語、句子權(quán)重進(jìn)行計(jì)算得出候選文摘集,并通過后處理最終形成文摘。實(shí)驗(yàn)結(jié)果表明,該算法有效地提高了政府公文自動(dòng)文摘系統(tǒng)的準(zhǔn)確率和召回率。今后,筆者考慮在該算法中,尤其是文摘后處理部分,增加相似度計(jì)算[16-18]、語義處理[15,19]的功能,讓其生成的自動(dòng)文摘更加符合標(biāo)準(zhǔn)文摘的定義和規(guī)范,更加接近于人工提取的文摘。

    [1]Luhn H P.The automatic creation of literature abstracts[J].IBM Journal of Research and Development,1958,2(2):159-165.

    [2]Edmundson H P.Problems of automatic abstracting[J].Communications of ACM,1964,7(4):259-263.

    [3]Mathis B A,Rush J E.Abstracting[M]// Encyclopedia of Computer and Technology.NewYork:Marcel Dekker Inc.,1975:102-142.

    [4]De Jong G.An overview of the FRUMP system[M]//Strategies for Natural Language Processing.London:Lawrence Erlbaum,1982:149-172.

    [5]Hahn U,Reimer U.The TOPIC project:Text-oriented procedures for information management and condensation of expository texts[J].Decision Support Systems,1985,1(4):342-343.

    [6]王永成,徐慧.OA 中文文獻(xiàn)自動(dòng)摘要系統(tǒng)[J].情報(bào)學(xué)報(bào),1997,16(2):124-129.

    [7]姚天順,朱靖波,張利,等.自然語言理解—一種讓機(jī)器懂得人類語言的研究[M].北京:清華大學(xué)出版社,1995.

    [8]李蕾,郭祥昊,鐘義信.面向特定鄰域的理解型中文自動(dòng)文摘系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2000,37(4):6-10.

    [9]劉挺,吳巖,王開鑄.中文自動(dòng)文摘系統(tǒng)CAAS 的研究與實(shí)現(xiàn)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),1999,31(6):59-62.

    [10]蔣昌金.基于關(guān)鍵詞提取的中文網(wǎng)頁自動(dòng)文摘方法研究[D].廣州:華南理工大學(xué),2010.

    [11]陳學(xué)智.基于分層的中文句子相似度研究[D].長沙:湖南師范大學(xué),2014.

    [12]張華平.NLPIR 漢語分詞系統(tǒng)[EB/OL].http://ictclas.nlpir.org,2015-10-15.

    [13]劉佳賓,陳超,邵正榮,等.基于機(jī)器學(xué)習(xí)的科技文摘關(guān)鍵詞自動(dòng)抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(14):170-172.

    [14]錢愛兵,江嵐.基于改進(jìn)TF-IDF 的中文網(wǎng)頁關(guān)鍵詞抽取—以新聞網(wǎng)頁為例[J].情報(bào)理論與實(shí)踐,2008,31(6):945-950.

    [15]江軍.基于語義的自動(dòng)文摘系統(tǒng)[D].成都:電子科技大學(xué),2011.

    [16]陳學(xué)智.基于分層的中文句子相似度研究[D].長沙:湖南師范大學(xué),2014.

    [17]張培穎.多特征融合的語句相似度計(jì)算模型[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(26):136-137.

    [18]夏天.中文信息相似度計(jì)算理論與方法[M].1 版.鄭州:河南科學(xué)技術(shù)出版社,2009.

    [19]王騰毅.基于語義的中文自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2013.

    猜你喜歡
    分詞文摘權(quán)重
    IAPA文摘
    權(quán)重常思“浮名輕”
    結(jié)巴分詞在詞云中的應(yīng)用
    為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
    基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
    文摘
    寶藏(2017年2期)2017-03-20 13:16:46
    值得重視的分詞的特殊用法
    層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
    河南科技(2014年15期)2014-02-27 14:12:51
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    論英語不定式和-ing分詞的語義傳承
    芮城县| 廊坊市| 绥阳县| 三原县| 彩票| 甘南县| 山阴县| 阿巴嘎旗| 鸡西市| 原平市| 彝良县| 龙门县| 清远市| 镇远县| 清镇市| 钟祥市| 兴文县| 石城县| 兰西县| 财经| 新绛县| 元朗区| 孝昌县| 云阳县| 伊春市| 贺州市| 宿松县| 孟连| 谷城县| 涡阳县| 班玛县| 上蔡县| 桐城市| 清涧县| 二连浩特市| 子洲县| 山丹县| 泰兴市| 荔浦县| 土默特右旗| 金华市|