• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于上下文關(guān)系和TextRank算法的關(guān)鍵詞提取方法

      2018-01-16 02:40:00杜海舟陳政波鐘孔露
      關(guān)鍵詞:查全率查準(zhǔn)率權(quán)重

      杜海舟, 陳政波, 鐘孔露

      (1.上海電力學(xué)院, 上海 200090;2.浙江華云電力工程設(shè)計(jì)咨詢有限公司, 浙江 杭州 310000)

      隨著社會(huì)信息化的快速推進(jìn),網(wǎng)絡(luò)上的信息以爆炸式的趨勢(shì)飛速增長(zhǎng).若沒(méi)有強(qiáng)有力的工具支持,個(gè)人在面對(duì)海量甚至大數(shù)據(jù)級(jí)別的文本數(shù)據(jù)時(shí),很難進(jìn)行高效閱讀并提取知識(shí).同樣對(duì)于決策者而言,沒(méi)有準(zhǔn)確的信息支持很難在短時(shí)間內(nèi)做出正確的決策.因此,迫切需要一個(gè)能自動(dòng)提取文本關(guān)鍵信息的方法且以用戶可讀的方式呈現(xiàn)出來(lái).自然語(yǔ)言處理技術(shù)是目前解決海量文本數(shù)據(jù)問(wèn)題的有效技術(shù)之一.而特征關(guān)鍵詞提取方法正是其中最基礎(chǔ)和最關(guān)鍵的技術(shù),其提取效果對(duì)后續(xù)的自動(dòng)摘要、標(biāo)題提取、網(wǎng)頁(yè)去重,以及文本情感趨勢(shì)分析等起決定性作用.

      本文提出一種基于上下文關(guān)系和加權(quán)TextRank算法的關(guān)鍵詞提取方法.通過(guò)分析中文文本中的詞語(yǔ)組合來(lái)反映核心主題的客觀事實(shí),基于關(guān)鍵詞的上下文關(guān)系并利用TextRank算法來(lái)提取最能表達(dá)文本主題思想的關(guān)鍵詞.實(shí)驗(yàn)結(jié)果表明,相對(duì)其他同類技術(shù),該方法能得到更理想的效果.

      1 文本關(guān)鍵詞提取方法概述

      關(guān)于文本關(guān)鍵詞提取問(wèn)題,國(guó)內(nèi)外很多學(xué)者已經(jīng)進(jìn)行了研究,并取得了一定的成果.研究中使用的主流方法集中于以下3類:一是以TF-IDF(Term-Frequency Inverse Document Frequency)算法為代表的基于統(tǒng)計(jì)特征的關(guān)鍵詞提取方法;二是以LDA為代表的基于主題模型的關(guān)鍵詞提取方法;三是基于詞圖模型的關(guān)鍵詞提取方法.

      在基于統(tǒng)計(jì)特征方面以改進(jìn)TF-IDF算法最為流行,該算法是一種用于信息檢索和數(shù)據(jù)挖掘的常用加權(quán)技術(shù).HOW B C等人[1]提出了類別描述符,以此來(lái)減弱類別數(shù)據(jù)集偏斜帶來(lái)的影響;李運(yùn)田等人[2]則利用N-gram方法來(lái)提取特征值,可以提高關(guān)鍵詞提取的準(zhǔn)確率,但是在時(shí)間上無(wú)法滿足用戶快速檢索的要求;李鎮(zhèn)君等人[3]利用IPM收集用戶閱讀中行為的相關(guān)信息,將Document Triage引入到TF-IDF算法中,在一定程度上提高了文本關(guān)鍵詞提取的準(zhǔn)確率.上述研究者提出的改進(jìn)算法在一定程度上提高了文本特征提取的效果,但其也有一定的不足,如基于統(tǒng)計(jì)特征往往會(huì)出現(xiàn)低頻詞獲得高權(quán)重及不同關(guān)鍵詞間權(quán)重值區(qū)分度不夠等問(wèn)題,表明僅僅依靠詞語(yǔ)的統(tǒng)計(jì)特征而不考慮詞語(yǔ)的聯(lián)系進(jìn)行關(guān)鍵詞提取是不全面的.

      在基于主題模型的關(guān)鍵詞提取方面,LDA模型最具有代表性.PASQUIER C[4]將體現(xiàn)文本主題且聯(lián)系緊密的句子聚類后提取主題關(guān)鍵詞,以達(dá)到文本特征提取的目的.劉俊等人[5]利用詞和主題在主題模型中的分布情況,以及通過(guò)構(gòu)建關(guān)鍵詞抽取模型來(lái)進(jìn)行文本特征的選取.但上述模型最大的缺點(diǎn)就是過(guò)分依賴于訓(xùn)練數(shù)據(jù)集,訓(xùn)練集的數(shù)量和質(zhì)量都直接影響最后關(guān)鍵詞提取的準(zhǔn)確率,致使其在應(yīng)用方面受到較大限制.

      針對(duì)上述問(wèn)題,目前更多學(xué)者傾向基于詞圖模型的TextRank關(guān)鍵詞提取算法.李鵬等人[6]通過(guò)引入社會(huì)化標(biāo)簽(tag)這種新穎的信息源并提出一種具體的實(shí)現(xiàn)方法——Tag-TextRank算法.基于詞圖模型的算法在各個(gè)評(píng)價(jià)指標(biāo)上都優(yōu)于傳統(tǒng)的基于統(tǒng)計(jì)特征的關(guān)鍵詞提取.方康等人[7]提出基于隱馬爾科夫模型的加權(quán)TextRank關(guān)鍵詞抽取算法.實(shí)驗(yàn)結(jié)果表明,該算法在提取單文檔中較少的關(guān)鍵詞時(shí)準(zhǔn)確率比較理想.但該模型以“詞袋”來(lái)單獨(dú)考慮文本中的某一個(gè)詞語(yǔ),直接忽略上下文詞語(yǔ)對(duì)于關(guān)鍵詞的輔助作用以及其自身所帶的重要主題信息,導(dǎo)致其效果不甚理想.

      2 基于上下文關(guān)系和TextRank的文本關(guān)鍵詞提取方法

      針對(duì)上述方法存在的諸多問(wèn)題,在目前應(yīng)用最為廣泛的詞圖模型基礎(chǔ)上,本文提出了一種基于上下文關(guān)系和TextRank 算法的中文文本關(guān)鍵詞提取方法.該方法以詞語(yǔ)上下文依賴關(guān)系為基礎(chǔ),通過(guò)TextRank算法的不斷迭代計(jì)算,以提高獲取文本關(guān)鍵詞的準(zhǔn)確率.

      2.1 上下文詞語(yǔ)信息量關(guān)系

      關(guān)鍵詞的上下文是依據(jù)一個(gè)固定長(zhǎng)度的“窗口”來(lái)選定的,選定窗口是表示該關(guān)鍵詞左右一定范圍內(nèi)的詞語(yǔ)集合.當(dāng)然窗口長(zhǎng)度并不是越長(zhǎng)越好,魯松等人[8]對(duì)關(guān)鍵詞窗口長(zhǎng)度對(duì)應(yīng)的信息量進(jìn)行了研究和實(shí)驗(yàn),得出的結(jié)果如圖1所示.

      圖1 中文文本上下文位置與其信息量關(guān)系

      在利用最小代價(jià)的前提下,如何獲得文本關(guān)鍵詞上下文中最大信息量是基于上下文關(guān)系的關(guān)鍵詞提取算法中急需解決的問(wèn)題.結(jié)合相關(guān)文獻(xiàn)的結(jié)論以及信息熵知識(shí)可知,關(guān)鍵詞旁不同位置上的詞語(yǔ)信息量可用定量來(lái)表示:某位置上的信息量由系統(tǒng)熵與在該位置上時(shí)的條件系統(tǒng)熵的減少量決定.通過(guò)信息熵,文本中詞語(yǔ)的信息量就可以用定量表示出來(lái).以關(guān)鍵詞w為信息源頭的信息熵為:

      (1)

      式中:p(w)——關(guān)鍵詞w的詞頻.

      H(W|VP)是上下文位置P時(shí)的條件熵,其計(jì)算公式為:

      (2)

      式中:p(wc)——上下文詞語(yǔ)wc的詞頻.

      上下文位置P的信息量IP的計(jì)算式為:

      IP=H(W)-H(W|VP)

      (3)

      H(W|wc)是在上下文詞語(yǔ)wc已知情況下的條件熵,即:

      log2p(w|wc)

      (4)

      由此可知,不同位置上詞語(yǔ)的信息量可被定量表示,即不同位置上的詞語(yǔ)對(duì)關(guān)鍵詞的貢獻(xiàn)量可以用信息量表示.

      2.2 TextRank算法

      MIHALCEA R等人[9]通過(guò)改進(jìn)著名的網(wǎng)頁(yè)排序算法PageRank,提出了用于文本關(guān)鍵詞選擇的TextRank算法.TextRank算法的核心思想是一個(gè)節(jié)點(diǎn)的重要程度取決于相鄰指向節(jié)點(diǎn)的數(shù)量,即從文本中選取出若干關(guān)鍵詞并建立詞圖模型,利用投票機(jī)制迭代計(jì)算出每個(gè)關(guān)鍵詞的重要程度,從而進(jìn)行排序選出最能表達(dá)文本主題的關(guān)鍵詞.從TextRank的原理可知,該算法支持帶權(quán)重的迭代計(jì)算,同時(shí)根據(jù)中文語(yǔ)言特性以及文本特征選擇的規(guī)則分析可知,TextRank算法在迭代計(jì)算時(shí),重要的關(guān)鍵詞將獲得更高的投票分值,不重要的詞語(yǔ)則擁有較低的投票分值.

      2.3 基于上下文關(guān)系的TextRank模型

      基于上下文關(guān)系的TextRank算法最重要的兩個(gè)部分是帶有上下文信息的文本特征選取和帶有權(quán)重迭代計(jì)算的TextRank.其主要步驟為:

      (1) 將給定的文本進(jìn)行切割得到句子集合,并對(duì)句子集合中的每個(gè)句子做預(yù)處理,包括分詞、篩選停用詞等;

      (2) 利用傳統(tǒng)的基于統(tǒng)計(jì)特征選擇方法篩選出文本句子集合中每一個(gè)句子的初始關(guān)鍵詞集合;

      (3) 依次對(duì)初始集合中的關(guān)鍵詞進(jìn)行上下文依賴關(guān)系的定量分析并帶入計(jì)算,選擇與關(guān)鍵詞依賴程度最大的詞語(yǔ)加入集合中,形成修正關(guān)鍵詞集合;

      (4) 將修正關(guān)鍵詞集合中所有帶有權(quán)重值的關(guān)鍵詞組建關(guān)鍵詞圖模型,不斷迭代計(jì)算并得到最終的文本關(guān)鍵詞.

      具體流程如圖2所示.

      圖2 考慮上下文依賴關(guān)系以及TextRank的文本特征選取整體流程

      2.3.1 基于上下文依賴關(guān)系的關(guān)鍵詞選取

      本文利用互信息來(lái)衡量上下文中不同詞對(duì)于關(guān)鍵詞的依賴程度.依據(jù)式(1)至式(4)的核心思想,總結(jié)出互信息的計(jì)算公式為:

      (5)

      式中:wi——屬于關(guān)鍵詞k左右[a,b]之間的上下文詞語(yǔ);

      P(wi|k)——在關(guān)鍵詞k窗口范圍內(nèi)wi出現(xiàn)的概率;

      P(k)——關(guān)鍵詞k在文本中出現(xiàn)的概率.

      通過(guò)計(jì)算,將互信息與閾值α進(jìn)行比較,大于閾值的上下文被認(rèn)為是對(duì)關(guān)鍵詞貢獻(xiàn)大的詞語(yǔ).

      基于上下文依賴關(guān)系提取關(guān)鍵詞的局部流程如圖3所示.首先利用常見(jiàn)的特征選擇方法選取權(quán)重較大的關(guān)鍵詞作為初始關(guān)鍵詞集合;其次對(duì)初始關(guān)鍵詞集合當(dāng)中的每一個(gè)詞利用式(5)進(jìn)行上下文依賴關(guān)系的定量分析,從而篩選出對(duì)關(guān)鍵詞依賴度較大的上下文詞,并將其加入到修正關(guān)鍵詞集合中待進(jìn)一步處理.

      圖3 基于上下文依賴關(guān)系提取關(guān)鍵詞局部流程

      2.3.2 加權(quán)TextRank詞圖模型

      TextRank模型基于詞圖模型的文本特征選擇,將特征選擇轉(zhuǎn)變?yōu)樘卣麝P(guān)鍵詞重要性排序.將文檔中的關(guān)鍵詞及其關(guān)系組織成一張?jiān)~圖,并利用詞圖模型的迭代運(yùn)算得出權(quán)重值最大的文本特征.根據(jù)上述分析可知,在構(gòu)建詞圖模型時(shí),基于上下文關(guān)系的加權(quán)TextRank算法應(yīng)先從修正關(guān)鍵詞集合中取出關(guān)鍵詞以及各自對(duì)應(yīng)的權(quán)重開(kāi)始.

      首先,構(gòu)建初始圖G=(V,E),由詞語(yǔ)結(jié)點(diǎn)V以及其結(jié)點(diǎn)之間的邊E組成,修正關(guān)鍵詞集合中的關(guān)鍵詞為詞圖的結(jié)點(diǎn),每個(gè)詞的權(quán)重系數(shù)為對(duì)應(yīng)結(jié)點(diǎn)的權(quán)重.文獻(xiàn)[10]提出利用滑動(dòng)窗口來(lái)獲得詞與詞之間的關(guān)系,文本參考該方法來(lái)實(shí)現(xiàn)關(guān)鍵詞間的關(guān)系.本文使用較小的滑動(dòng)窗口來(lái)進(jìn)行詞與詞關(guān)系的提取.至此一個(gè)初步的加權(quán)TextRank初始模型就已建立.另外,基于TextRank的基本思想,利用投票機(jī)制來(lái)計(jì)算出每個(gè)關(guān)鍵詞的重要程度進(jìn)行排序,從而選出最能表達(dá)文本主題的詞語(yǔ).權(quán)重迭代計(jì)算式為:

      S(Vi)=(1-d)+d×

      (6)

      式中:ln(Vi)——詞圖模型中表示指向詞語(yǔ)結(jié)點(diǎn)Vi的結(jié)點(diǎn)集合;

      (Vj)out——詞語(yǔ)結(jié)點(diǎn)Vi指向其他結(jié)點(diǎn)的集合;

      Wji——初始值為修正關(guān)鍵詞集合中的權(quán)重;

      d——阻尼系數(shù),一般情況下取0.85.

      文獻(xiàn)[11]在PageRank算法中將阻尼系數(shù)定義為用戶在到達(dá)某網(wǎng)頁(yè)后繼續(xù)往后瀏覽的概率值,同時(shí)該系數(shù)的存在也可避免在迭代運(yùn)算過(guò)程遇到極端數(shù)據(jù)時(shí)而使迭代強(qiáng)行停止的情況.根據(jù)式(6)進(jìn)行多次迭代運(yùn)算直至達(dá)到所有的Wji都收斂為止,獲得權(quán)重系數(shù)最大的Top-N詞語(yǔ)即可作為文本的文本特征.

      3 實(shí)驗(yàn)評(píng)估及結(jié)果分析

      為能夠驗(yàn)證基于上下文關(guān)系和TextRank算法的中文文本關(guān)鍵詞提取方法的有效性,同時(shí)又不失樣本的普遍性,本文選取電力領(lǐng)域新聞文本作為實(shí)驗(yàn)樣本.電力領(lǐng)域具有完整的系統(tǒng)性、強(qiáng)烈的政策敏感性以及強(qiáng)大的社會(huì)發(fā)展導(dǎo)向性,所以以該領(lǐng)域的新聞文本作為實(shí)驗(yàn)語(yǔ)料庫(kù)對(duì)于算法驗(yàn)證以及該技術(shù)的發(fā)展有著重要的意義.

      本次實(shí)驗(yàn)的電力新聞文本語(yǔ)料庫(kù)全部來(lái)自互聯(lián)網(wǎng),采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從北極星電力網(wǎng)采集6大類別的電力新聞,共10 500篇最新的電力新聞.其中,火力發(fā)電、風(fēng)力發(fā)電、水力發(fā)電、核電以及智能電網(wǎng)5個(gè)類別的電力新聞文本各2 000篇,微電網(wǎng)這一類別由于數(shù)據(jù)有限,收集了500篇最新的新聞文本.與此同時(shí),收錄每篇電力新聞網(wǎng)頁(yè)當(dāng)中的關(guān)鍵詞和網(wǎng)頁(yè)的標(biāo)題作為關(guān)鍵詞標(biāo)準(zhǔn)來(lái)檢驗(yàn)不同的算法.

      本次實(shí)驗(yàn)的開(kāi)發(fā)語(yǔ)言是JAVA,編譯環(huán)境采用Eclipse Kepler Service Release 2,并利用中國(guó)科學(xué)院的中文分詞軟件來(lái)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;所用硬件環(huán)境為L(zhǎng)enovo ThinkCentre M8400t-N000,其處理器為Intel(R) Core(TM) i7-3770,4 GB內(nèi)存.

      3.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

      在語(yǔ)料庫(kù)中,實(shí)驗(yàn)的驗(yàn)證標(biāo)準(zhǔn)為每篇文章中的關(guān)鍵詞,該關(guān)鍵詞由網(wǎng)站上傳新聞時(shí)一并提供,可以準(zhǔn)確地提供該新聞的核心意思.關(guān)于評(píng)價(jià)標(biāo)準(zhǔn),本文使用查準(zhǔn)率、查全率以及F1值等方面來(lái)評(píng)價(jià)算法.衡量文本特征關(guān)鍵詞的提取效果應(yīng)從提取正確率和提取正確量?jī)蓚€(gè)方面加以考慮.查準(zhǔn)率用于描述提取的正確關(guān)鍵詞占提取總量的比重,查全率表明被提取出來(lái)的關(guān)鍵詞占文本所有關(guān)鍵詞的比例;F1值是查全率和查準(zhǔn)率兩個(gè)評(píng)價(jià)指標(biāo)綜合效果的體現(xiàn).從電力領(lǐng)域的語(yǔ)料庫(kù)中檢索到的關(guān)鍵詞可以大致分為A,B,C,D 4類,如表1所示.

      查準(zhǔn)率(Precision)和查全率(Recall)的計(jì)算公式分別為:

      (7)

      (8)

      除了對(duì)文本特征進(jìn)行兩個(gè)指標(biāo)的評(píng)價(jià)外,還將F1-measure值作為另一個(gè)評(píng)價(jià)標(biāo)準(zhǔn),即結(jié)合查準(zhǔn)率和查全率兩者使用情況而進(jìn)行的綜合評(píng)價(jià):

      (9)

      表1 語(yǔ)料庫(kù)文本特征分類

      3.2 實(shí)驗(yàn)與分析

      本文經(jīng)過(guò)網(wǎng)絡(luò)爬蟲(chóng)、預(yù)處理、權(quán)重計(jì)算、特征選擇以及精度計(jì)算等步驟,將基于上下文關(guān)系和TextRank算法選取的文本權(quán)重TOP-10的文本關(guān)鍵詞與文章標(biāo)準(zhǔn)的關(guān)鍵詞進(jìn)行對(duì)比.同時(shí),與傳統(tǒng)的TF-IDF算法的結(jié)果進(jìn)行比較,進(jìn)一步驗(yàn)證本文算法的高效與精確性.

      首先,利用傳統(tǒng)的TF-IDF算法得到文本的初始關(guān)鍵詞集合,然后根據(jù)上文描述的上下文關(guān)系對(duì)其進(jìn)行修正,得到修正關(guān)鍵詞集合,其中閾值α取0.01.依據(jù)文獻(xiàn)[8]的結(jié)論可知,對(duì)于85%的信息量可以通過(guò)關(guān)鍵詞左邊8個(gè)位置以及右邊9個(gè)位置的窗口來(lái)獲取,故窗口取值為[-8,9].最后,利用加權(quán)的TextRank的詞圖模型對(duì)修正關(guān)鍵詞集合進(jìn)行多次迭代運(yùn)算,最后選取權(quán)重TOP-10的文本特征詞作為最終的文本特征.將選取結(jié)果與標(biāo)準(zhǔn)的關(guān)鍵詞進(jìn)行多指標(biāo)的對(duì)比,其結(jié)果如表2所示.

      表2 基于不同算法的電力領(lǐng)域新聞文本特征關(guān)鍵詞選取實(shí)驗(yàn)結(jié)果 %

      由表2可知,相較于傳統(tǒng)的TF-IDF,基于上下文關(guān)系及TextRank算法在查準(zhǔn)率、查全率和F1-measure值3個(gè)指標(biāo)中都獲得了較理想的結(jié)果.

      為了進(jìn)一步驗(yàn)證本文算法在電力行業(yè)各個(gè)子領(lǐng)域中的準(zhǔn)確性,本文選取語(yǔ)料庫(kù)中的6大類別新聞文本數(shù)據(jù),分別用上述兩種算法進(jìn)行文本關(guān)鍵詞提取.依據(jù)上文所述的評(píng)價(jià)標(biāo)準(zhǔn),對(duì)相應(yīng)權(quán)重結(jié)果進(jìn)行查準(zhǔn)率、查全率以及F1-measure的計(jì)算,結(jié)果如表3所示.

      由表3可以看出,在電力行業(yè)各個(gè)不同子領(lǐng)域內(nèi),本文算法比傳統(tǒng)算法都有明顯提升.其中,本文算法比傳統(tǒng)算法在查準(zhǔn)率上平均高出近8%~9%,同時(shí)在各個(gè)子領(lǐng)域上也都有不同程度的提高.在查全率方面同樣高于傳統(tǒng)算法,其中火力發(fā)電和水利發(fā)電兩個(gè)類別體現(xiàn)得尤為明顯.由此也進(jìn)一步證實(shí)了本文算法同樣適合于各個(gè)子領(lǐng)域的文本關(guān)鍵詞的提取,并且結(jié)果較傳統(tǒng)算法更理想.

      為了更直觀地體現(xiàn)TF-IDF算法與基于上下文關(guān)系和TextRank的算法獲得正確關(guān)鍵詞的情況,又進(jìn)行了兩種算法在取不同數(shù)量的關(guān)鍵詞下平均正確關(guān)鍵詞數(shù)量的實(shí)驗(yàn).實(shí)驗(yàn)對(duì)象為整個(gè)電力行業(yè)內(nèi)的10 500篇電力新聞文本,其結(jié)果如圖4所示.

      表3 TF-IDF和本文算法在電力行業(yè)不同子領(lǐng)域文本語(yǔ)料關(guān)鍵詞提取實(shí)驗(yàn)結(jié)果 %

      圖4 TF-IDF算法與基于上下文關(guān)系和TextRank

      綜上所述,與傳統(tǒng)的TF-IDF算法相比,基于上下文關(guān)系和TextRank算法在查準(zhǔn)率、查全率和F1-measure,以及獲取平均正確關(guān)鍵詞數(shù)量方面都有大幅度的提升.

      4 結(jié) 語(yǔ)

      通過(guò)實(shí)驗(yàn)分析可知,相較于傳統(tǒng)的TF-IDF算法,采用基于上下文關(guān)系以及TextRank算法在查準(zhǔn)率、查全率和F1-measure方面有4%~7%的提升;在電力子領(lǐng)域的實(shí)驗(yàn)中,在查準(zhǔn)率上提高了6%~8%,在查全率以及F1-measure方面提升了5%~7%.因此,本文提出的方法能有效提高文本關(guān)鍵詞提取的準(zhǔn)確率,可以為文本關(guān)鍵詞提取技術(shù)提供一種新的思路.

      [1] HOW B C,NARAYANAN K.An empirical study of feature selection for text categorization based on termweightage[C]//Proceeding of the 2004 IEEE /WIC/ACM International Conference on Web Intelligence.Washington DC:IEEE Computer Society,2004:599-602.

      [2] 李運(yùn)田,吳瓊,鄭獻(xiàn)衛(wèi).改進(jìn)的TF-IDF模型在特征抽取中的應(yīng)用[J].工業(yè)控制計(jì)算機(jī),2014(2):51-52.

      [3] 李鎮(zhèn)君,周竹榮.基于Document Triage的TF-IDF算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用,2015(12):3 506-3 510.

      [4] PASQUIER C.Task 5:single document keyphrase extraction using sentence clustering and latent dirichlet allocation[C]//Proceedings of the 5th International Workshop on Semantic Evaluation.Stroudsburg,PA,USA:Association for Computational Linguistics,2010:154-157.

      [5] 劉俊,鄒東升,邢欣來(lái),等.基于主題特征的關(guān)鍵詞抽取[J].計(jì)算機(jī)應(yīng)用研究,2012,29(11):4 224-4 227.

      [6] 李鵬,王斌,石志偉,等.Tag-TextRank:一種基于Tag的網(wǎng)頁(yè)關(guān)鍵詞抽取方法[J].計(jì)算機(jī)研究與發(fā)展,2012(11):2 344-2 351.

      [7] 方康,韓立新.基于HMM的加權(quán)Textrank單文檔的關(guān)鍵詞抽取算法[J].信息技術(shù),2015(4):114-116.

      [8] 魯松,白碩.自然語(yǔ)言處理中詞語(yǔ)上下文有效范圍的定量描述[J].計(jì)算機(jī)學(xué)報(bào),2001(7):742-747.

      [9] MIHALCEA R,TARAU P.TextRank:bringing order into texts[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing,Barcelona,Spain,2004:404-411.

      [10] CORMODE G,GAROFALAKIS M.Sketching probabilistic data streams[C].Acm Sigmod International Conference on Management of Data,2007:281-292.

      [11] PAGE L.The PageRank citation ranking:bringing order to the web[J].Stanford Digital Libraries Working Paper,1998,9(1):1-14.

      猜你喜歡
      查全率查準(zhǔn)率權(quán)重
      權(quán)重常思“浮名輕”
      海量圖書(shū)館檔案信息的快速檢索方法
      基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)設(shè)計(jì)
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
      阳谷县| 原阳县| 简阳市| 苗栗县| 中宁县| 阜平县| 松桃| 新宾| 奎屯市| 哈密市| 同德县| 泾源县| 满洲里市| 梁平县| 上栗县| 锡林浩特市| 镇赉县| 梁河县| 临桂县| 洛浦县| 会宁县| 佛坪县| 绥江县| 通山县| 东莞市| 梧州市| 邛崃市| 定远县| 怀柔区| 乡城县| 沙河市| 晴隆县| 牡丹江市| 华阴市| 南昌县| 萝北县| 文山县| 浦城县| 南昌县| 全州县| 巴里|