• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM的融合多特征TextRank關鍵詞提取算法

      2020-05-25 02:30:57朱衍丞蔡滿春蘆天亮石興華丁祎姍
      軟件導刊 2020年2期
      關鍵詞:提取支持向量機

      朱衍丞 蔡滿春 蘆天亮 石興華 丁祎姍

      摘 要:網絡用戶通常使用關鍵詞篩選所需信息,但隨著網絡文本信息爆發(fā)式增長,且大多數(shù)文本信息不提供關鍵詞,用戶提取有效信息的難度不斷增大。利用關鍵詞提取算法可從文本數(shù)據(jù)中篩選出具有代表含義的關鍵詞,因此提出一種新型基于TextRank的關鍵詞提取算法。該算法利用每個詞的TF-IDF、詞向量、位置、詞性等特征,利用SVM訓練得到的詞語初始權重,使用TextRank提取文本關鍵詞。實驗表明,該算法準確率達到78.09%,相較于傳統(tǒng)TextRank算法提高了32.18%,證明該算法具有一定的實用及參考價值。

      關鍵詞:關鍵詞提取;支持向量機;TextRank

      DOI:10. 11907/rjdk. 192152 開放科學(資源服務)標識碼(OSID):

      中圖分類號:TP312文獻標識碼:A 文章編號:1672-7800(2020)002-0088-04

      英標:Research on SVM-based Fusion Multi-Feature Textrank Keyword Extraction Algorithm

      英作:ZHU Yan-cheng,CAI Man-chun,SHI Xing-hua,LU Tian-liang,DING Yi-shan

      英單:(Institute of Police Information and Cyber Security,Peoples Public Security University of China,Beijing 102628,China)

      Abstract:Network users usually use keywords to filter the required information, but as the network text information grows explosively, and most text information does not provide keywords, it is more difficult for users to extract valid information. The keyword extraction algorithm can be used to filter out the keywords with representative meanings from the text data. Therefore, a new TextRank keyword extraction algorithm is proposed. This algorithm uses the TF-IDF, word2vec, position, part of speech and other attributes of each word as well as the initial weights of the words obtained by SVM training. On this basis, TextRank algorithm is used to extract the keyword. The experimental result shows that the accuracy of the algorithm reaches 78.09%, which is 32.18% higher than the traditional TextRank algorithm. The results prove that the algorithm designed in this paper has certain practical and reference value.

      Key Words: keyword extraction; support vector machines; TextRank

      0 引言

      關鍵詞提取是自然語言處理中的一個重要子任務。關鍵詞是可反映文本主題或主要內容的詞語。準確提取文本關鍵詞在信息檢索、對話系統(tǒng)及文本分類方面具有重要意義。

      在不支持全文搜索的文獻檢索初期,關鍵詞作為搜索論文的必要條件,是論文設計過程中不可或缺的部分,該項設置保留至今[1-2]。但近年來,隨著網絡自媒體的快速發(fā)展,每個用戶都可成為網絡消息生產者、傳播者及消費者,沒有提供關鍵詞的網絡信息每時每刻在大量產生。在實際應用中,用戶通常更傾向于利用關鍵詞對網絡信息進行識別、區(qū)分對自己有價值的信息,再對網絡信息進行檢索、分類、聚類等操作。因此,一個有效的關鍵詞提取技術可幫助用戶實現(xiàn)快速搜索,獲取目標信息。

      傳統(tǒng)關鍵詞提取算法主要有TF-IDF、TextRank、LDA等基于無監(jiān)督的關鍵詞提取算法,這些算法通常建立在統(tǒng)計學分析基礎之上,基于候選詞詞頻、文檔頻率等統(tǒng)計信息篩選出關鍵詞,該類算法效率較高,在大量數(shù)據(jù)統(tǒng)計分析方面具有一定優(yōu)勢,但同時往往忽略了候選詞所在文章的內在結構與關聯(lián)信息,導致關鍵詞提取效果不佳[3]。目前這些方法在英文文本上具有較好的效果,在中文中的應用卻不盡如人意[4]。首先,漢語復雜性決定了任務難度,且大量長句和復雜句法也給算法帶來了巨大挑戰(zhàn)[5]。此外,語料資源稀缺也是限制自然語言處理發(fā)展的重要原因之一[6]。

      基于有監(jiān)督的關鍵詞提取方法,如SVM、Bayes等,利用提取算法分析大量文本,從而得到一種關鍵詞提取規(guī)則,該規(guī)則相較于基于無監(jiān)督的關鍵詞提取算法,獲取規(guī)則更加科學、有效,抽取的關鍵詞質量大幅提高,但是基于有監(jiān)督的自動關鍵詞提取算法不能提取文本關鍵詞,且操作過程較為復雜,使用不便[7-8]。

      為提高關鍵詞提取準確度,充分發(fā)揮有監(jiān)督與無監(jiān)督關鍵詞提取算法的優(yōu)點、克服其缺點,本文提出一種基于TextRank的關鍵詞提取模型,該模型使用Word2Vec算法提取詞的語意屬性,結合位置權值、TF-IDF值,詞性等屬性,利用SVM算法,對文本不同詞進行學習,預測其為關鍵詞的可能性(用百分比表示),并作為TextRank初始權值,進行關鍵詞提取[9-10]。

      為降低語料規(guī)模與領域性方面的影響,本文使用共計65萬多條所有欄目的新聞文本及新聞編輯篩選的關鍵詞作為訓練及測試樣本[11]。

      1 相關研究

      1.1 數(shù)據(jù)分析

      本文數(shù)據(jù)均來自于網上爬取的新聞數(shù)據(jù)及其關鍵詞(關鍵詞數(shù)量大于或等于1),利用Python的jieba包對文本數(shù)據(jù)進行分詞并標注詞性。在實際測試中,經過人工篩選的關鍵詞往往屬于人名、地名及短語,故將所有關鍵詞取出生成詞表,加入到jieba詞典庫中,提高分詞效果,減小因分詞算法缺陷造成的誤差。

      本文新聞樣本中的關鍵詞是編者基于真實用戶需求提取的,這些關鍵詞涵蓋了新聞關鍵信息,可使讀者更快速地了解相關新聞主旨并選擇是否詳細閱讀。從現(xiàn)狀來看,常規(guī)基于統(tǒng)計的關鍵詞提取算法在該類新聞樣本上測試效果不好。同時對于傳統(tǒng)算法,生成的結果形式是一個詞對應一個權值,按照權值從大到小排序后,選取一定數(shù)量靠前的詞作為文本關鍵詞。考慮到現(xiàn)實情況,根據(jù)閾值對關鍵詞進行篩選,該閾值為根據(jù)預測關鍵詞總數(shù)與實際關鍵詞總數(shù)比值約為2時對應的閾值。

      1.2 傳統(tǒng)算法測評

      詞頻-逆文本頻率((Term Frequency-Inverse Document Frequency,TF-IDF)由兩部分組成。詞頻指某個給定的詞語在單個文本中出現(xiàn)的頻率;逆文本頻率由包含文本總數(shù)目除以包含該給定單詞的文本數(shù)目。計算公式為:

      其中詞頻(TF)=某詞在文章中出現(xiàn)次數(shù)/文章的總詞數(shù),逆文檔頻率(IDF)=log(文本的總數(shù)/包含該詞的文本數(shù)+1)。

      經過統(tǒng)計分析,設定TF-IDF閾值為0.156,統(tǒng)計結果見表1。

      TextRank算法基于PageRank,是一種基于圖的模型,通過構建拓撲結構圖,對詞句進行排序,一般用于為文本生成關鍵詞和摘要。在關鍵詞自動抽取領域,TextRank作為當前主流方法,在各領域已有較成熟的應用。本文在對算法進行簡單介紹后,基于當前數(shù)據(jù)集進行測評。

      根據(jù)TextRank的定義,可將PageRank的公式改寫為:

      由式(4)、式(5)可知,如果某詞后來出現(xiàn)頻率高,則該詞將比較重要,即TextRank值很大;在TextRank值很大的詞后面出現(xiàn)的詞,TextRank值也會有一定增幅。

      其中,[w(vj,vi)]表示節(jié)點[vj]到節(jié)點[vi]的邊的轉移概率,[out(vj)]表示節(jié)點[vj]指向的所有點集合,[In(vi)]表示節(jié)點指向[vi]的所有點集合,[w(vi)]表示節(jié)點[vi]權值,每個節(jié)點初始權值相同。

      經過統(tǒng)計分析,設定TextRank閾值為2.20,統(tǒng)計結果見表2。

      改進的TextRank算法基于TextRank原理,利用不同規(guī)則生成初始權值提高TextRank效果,需復現(xiàn)兩種算法:TFIDF-TextRank算法與融合多特征的TextRank算法[12]。

      基于TextRank的計算公式,將[w(vi)]分別定義為:

      式中[α]是一個常數(shù),對于式(6),每個單詞的權重由TF-IDF值決定,對于式(7),[WFreq]、[WPos]、[WLoc]分別表示單詞平均信息熵、詞性權重、位置權重,其中[α]、[β]、[γ]是系數(shù)。

      經過統(tǒng)計分析,設定TFIDF-TextRank的閾值為3.30,融合多特征TextRank的閾值為2.30,統(tǒng)計結果見表3。

      對比TF-IDF與TextRank及其相關改進算法的結果可知,基于統(tǒng)計分析的傳統(tǒng)關鍵詞提取算法在當前數(shù)據(jù)集上的效果較差,提取的關鍵詞往往只能作為參考[13-14]。相比之下,改進后的TextRank算法效率較高,由此可知,關鍵詞不僅與其詞頻有關,還與詞的其它屬性有關[15]。所以,為獲得效率較高的關鍵詞提取算法,必須改進TextRank算法,充分利用該關鍵詞在文章中的其它信息,生成更好的初始權重,以提高關鍵詞提取準確率。

      2 算法創(chuàng)新

      2.1 詞屬性選擇

      基于關鍵詞的特點,從統(tǒng)計學角度分析發(fā)現(xiàn),關鍵詞與非關鍵詞在其詞性、首次出現(xiàn)的位置(位置權重標準見表7)、TF-IDF值均存在明顯差異。對當前數(shù)據(jù)集進行統(tǒng)計,結果如表4—表6所示。

      鑒于通過以上幾種屬性無法對詞進行語義層面的劃分,所以在模型中引入詞向量(Word2Vec)屬性。詞向量模型是一種簡化的神經網絡,利用one-hot對句子進行編碼,以相似度計算的方式,用指定長度的向量表示每一個在句子中出現(xiàn)的詞[16],這一特定長度的向量便稱為詞向量。

      2.2 初始權重生成

      以上屬性較為復雜,維度較大,往往很難通過人工設置權重的方式進行計算。采用支持向量機(SVM)對詞的屬性進行訓練,以生成TextRank的初始權重。SVM以統(tǒng)計學的VC維理論與結構風險最小原理為基礎,在解決一系列實際問題中表現(xiàn)出優(yōu)良的學習能力[17]。SVM不同于決策樹(DT)、樸素貝葉斯(NB)等分類算法,不僅在高維模式識別中表現(xiàn)出較好的效果,同時具有較強的泛化能力[18]??梢酝茰y,通過給TextRank設置更優(yōu)的初始權值可提高準確度。因此,本文利用SVM對文本中的詞進行訓練以生成初始權值[19]。

      在數(shù)據(jù)準備階段,首先計算并生成相關詞的屬性信息(見表7)。其中關鍵詞標簽為pos,非關鍵詞標簽為neg。

      訓練中使用Python 的sclera包中的SVM類,對以上數(shù)據(jù)進行訓練。其中,參數(shù)C=0.8,kernel=linear,gamma=1,同時,為了可以得到概率,將probability設為true。實驗證明,用以上參數(shù)對模型進行訓練可得到較好的訓練結果。

      考慮到計算時間,本文采用其中1萬篇文章,共計6萬余詞,其中關鍵詞和非關鍵詞的比例為1∶1,對模型進行訓練。最終利用SVM模型對文章中每一個詞進行判斷,以模型判斷為pos的概率,并作為TextRank初始權值。

      3 結果分析

      在實際應用過程中,因為模型較為復雜,每一次搜索及運算時耗較大,所以本文在測試集中隨機取3萬條文本進行3次統(tǒng)計分析,取其平均值作為最終結果。設定該算法閾值為4.20,統(tǒng)計結果如表8所示。

      相較于其它幾種算法,結合SVM提取特征的TextRank關鍵詞提取算法效果較好,且在大規(guī)模數(shù)據(jù)量上也能達到較平均的水平。

      從該結果可以推斷出,關鍵詞與其它詞在位置權重、詞性、TF-IDF值及詞向量等特征上具有明顯區(qū)別。在使用多種特征對詞進行篩選時,SVM可以對多種特征進行有效整合,生成一個特征值,該特征值可作為權重使用,結合TextRank,得到的結果可超過其中單獨某個算法可達到的最佳值。

      4 結語

      與傳統(tǒng)TextRank及其它利用位置、TF-IDF等表征屬性的改進型TextRank關鍵詞提取算法相比,本文結合SVM的TextRank關鍵詞提取算法在已有研究基礎之上,加入了詞性和詞向量等特征,并獨創(chuàng)性地使用SVM將這些特征有機結合起來,顯著提高了TextRank算法效果。但該算法生成的模型較為簡單,與基于理解的自然語言處理方法相比還存在較大差距[20],并且算法存在一定的局限性,還需進一步優(yōu)化。

      參考文獻:

      [1] 趙京勝,朱巧明,周國棟,等. 自動關鍵詞抽取研究綜述[J]. 軟件學報,2017,28(9):2431-2449.

      [2] 劉嘯劍. 基于主題模型的關鍵詞抽取算法研究[D]. 合肥:合肥工業(yè)大學, 2016.

      [3] 方龍, 李信, 黃永,等. 學術文本的結構功能識別——在關鍵詞自動抽取中的應用[J].? 情報學報, 2017(6):67-73.

      [4] NAN J,XIAO B,LIN Z, et al. Keywords extraction from chinese document based on complex network theory[C]. Hangzhou: 2014 Seventh International Symposium on Computational Intelligence and Design,2014.

      [5] 張謙,高章敏,劉嘉勇,等. 基于Word2vec的微博短文本分類研究[J]. 信息網絡安全, 2017(1):57-62.

      [6] 盛晨,孔芳,周國棟. 中文篇章零元素語料庫構建[J]. 北京大學學報:自然科學版, 2019, 55(1):18-24.

      [7] GU Y,XIA T. Study on keyword extraction with LDA and TextRank combination[J].? New Technology of Library and Information Service, 2014,30:41-47.

      [8] ZHANG K,XU H,TANG J,et al. Keyword extraction using support vector machine[M]. Berlin:Springer, 2006.

      [9] 徐曉霖. 融合Log-Likelihood與TextRank的關鍵詞抽取研究[J].? 軟件導刊,2018,17(3):87-89.

      [10] 寧建飛,劉降珍.? 融合Word2vec與TextRank的關鍵詞抽取研究[J].? 現(xiàn)代圖書情報技術,2016(6):20-25.

      [11] 徐冠華,趙景秀,楊紅亞,等. 文本特征提取方法研究綜述[J].? 軟件導刊,2018,17(5):17-22.

      [12] 李航,唐超蘭, 楊賢,等.? 融合多特征的TextRank關鍵詞抽取方法[J].? 情報雜志, 2017(8):187-191.

      [13] CHEN C H. Improved TFIDF in big news retrieval: an empirical study[J].? Pattern Recognition Letters, 2017,93:112-122.

      [14] LI W,ZHAO J. TextRank algorithm by exploiting Wikipedia for short text keywords extraction[C]. IEEE International Conference on Information Science & Control Engineering,2016.

      [15] TU S S, HUANG M L. Mining Microblog user interests based on TextRank with TF-IDF factor[J].? The Journal of China Universities of Posts and Telecommunications, 2016(5):44-50.

      [16] ZUO X,ZHANG S,XIA J.? The enhancement of TextRank algorithm by using word2vec and its application on topic extraction[J].? Journal of Physics: Conference Series, 2017, 887:012028.

      [17] GOLDBERG Y,ELHADAD M. splitSVM: fast, space-efficient, non-heuristic, polynomial kernel computation for NLP applications[C]. Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers,2008:237-240.

      [18] 丁世飛,齊丙娟,譚紅艷. 支持向量機理論與算法研究綜述[J].? 電子科技大學學報,2011,40(1):2-10.

      [19] 曹雪峰. SVM在決策樹歸納中的應用[D]. 保定:河北大學,2009.

      [20] XU S, KONG F. Toward better keywords extraction[C].? Suzhou:International Conference on Asian Language Processing, 2015.

      (責任編輯:江 艷)

      猜你喜歡
      提取支持向量機
      基于改進支持向量機的船舶縱搖預報模型
      中國水運(2016年11期)2017-01-04 12:26:47
      基于SVM的煙草銷售量預測
      軟件導刊(2016年11期)2016-12-22 21:52:38
      動態(tài)場景中的視覺目標識別方法分析
      論提高裝備故障預測準確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      現(xiàn)場勘查中物證的提取及應用
      土壤樣品中農藥殘留前處理方法的研究進展
      中學生開展DNA“細”提取的實踐初探
      基于熵技術的公共事業(yè)費最優(yōu)組合預測
      價值工程(2016年29期)2016-11-14 00:13:35
      淺析城市老街巷景觀本土設計元素的提取與置換
      蝦蛄殼中甲殼素的提取工藝探究
      科技視界(2016年22期)2016-10-18 17:02:00
      新巴尔虎左旗| 枣强县| 老河口市| 古蔺县| 乌兰县| 武安市| 涞水县| 中牟县| 珲春市| 凤冈县| 铜陵市| 集安市| 卢湾区| 成武县| 黎川县| 博兴县| 宝丰县| 外汇| 渭源县| 毕节市| 贵定县| 余庆县| 勃利县| 时尚| 黎平县| 醴陵市| 乌苏市| 开阳县| 祁门县| 丰台区| 苍溪县| 梅河口市| 尼木县| 明溪县| 定边县| 婺源县| 洛扎县| 铜山县| 阜康市| 赤城县| 岗巴县|