• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    關(guān)鍵詞抽取策略研究

    2016-06-18 08:51:20郝曉燕張興忠陳耀文
    太原理工大學(xué)學(xué)報 2016年2期
    關(guān)鍵詞:詞頻間距

    胡 琪,郝曉燕,張興忠,陳耀文

    (太原理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,太原 030024)

    ?

    關(guān)鍵詞抽取策略研究

    胡琪,郝曉燕,張興忠,陳耀文

    (太原理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,太原 030024)

    摘要:針對傳統(tǒng)關(guān)鍵詞抽取方法統(tǒng)計特征單一,常用位置特征對文本寫作結(jié)構(gòu)有局限性的問題,提出了一種新的關(guān)鍵詞抽取方法。該方法根據(jù)關(guān)鍵詞在文中出現(xiàn)位置的分布特性,計算并提取出新的間距特征,更加適用于當下網(wǎng)絡(luò)文本隨意多變的寫作方式,同時考慮影響關(guān)鍵詞識別的各個因素,通過多個特征的提取與結(jié)合,改善了一般位置特征和傳統(tǒng)統(tǒng)計方法的不足之處。最終和傳統(tǒng)TF-IDF方法的對比實驗結(jié)果中,文中所提出的方法各方面性能都有所提高,表明該方法是有效可行的。

    關(guān)鍵詞:關(guān)鍵詞抽取;詞頻;間距;詞性;重要度

    隨著現(xiàn)在信息技術(shù)和互聯(lián)網(wǎng)的不斷發(fā)展,信息文本的數(shù)量正呈爆炸式增長,人們?nèi)绻肟焖俚貜倪@些海量信息資源中查找出自己所感興趣的內(nèi)容,就需要抽取出其中的關(guān)鍵詞,來代表文檔的主要內(nèi)容,方便人們查詢。關(guān)鍵詞自動抽取是利用計算機從文獻中提取出反映主題信息的詞語,是信息檢索、文本分類、文本聚類以及自動文摘生成等技術(shù)的基礎(chǔ)。LUHN在20世紀50年代首次開展關(guān)于關(guān)鍵詞自動抽取的實驗后,相關(guān)領(lǐng)域內(nèi)的研究就一直沒有間斷過,同時也不斷出現(xiàn)新的方法來提高關(guān)鍵詞抽取的準確率。目前,國內(nèi)外相繼提出許多關(guān)鍵詞自動抽取的方法,主要可分為3類:基于統(tǒng)計的方法、基于機器學(xué)習(xí)的方法和基于語言學(xué)的方法。

    1) 基于統(tǒng)計的方法?;诮y(tǒng)計的方法是利用文本特征的統(tǒng)計信息進行關(guān)鍵詞抽取,如詞頻[1]、TF-IDF(Term Frequency Inverse Document Frequency)[2]、詞共現(xiàn)[3]、N-Gram[4]、復(fù)雜網(wǎng)絡(luò)特征[5]等,該類方法是最早被提出的,不需要像機器學(xué)習(xí)那樣進行復(fù)雜的訓(xùn)練,可以對文本直接進行關(guān)鍵詞的提取,因此是目前應(yīng)用最多,并且效果較好的關(guān)鍵詞抽取方法之一。

    2) 基于機器學(xué)習(xí)的方法。基于機器學(xué)習(xí)的方法是把關(guān)鍵詞抽取問題看成二元分類問題,該類方法需要先對大規(guī)模語料庫進行學(xué)習(xí),然后對訓(xùn)練集進行訓(xùn)練,訓(xùn)練的同時提取出抽取關(guān)鍵詞的特征,來構(gòu)造關(guān)鍵詞抽取的分類模型,最后再利用該模型標注詞語,判斷是否為關(guān)鍵詞,常用的方法有:FRANK et al的貝葉斯算法[6]、決策樹、最大熵模型等,該類方法不能直接對文本進行關(guān)鍵詞的抽取,過程較為復(fù)雜,使用起來不是很方便。并且只要訓(xùn)練集不同,構(gòu)造的分類模型也會有所差異,最終也會影響關(guān)鍵詞抽取的準確性,因此該類方法在應(yīng)用方面不是很廣泛。

    3) 基于語言學(xué)的方法。基于語言學(xué)的方法是從人類語言學(xué)的角度出發(fā),通常需要對中文文本從詞、句、語義、篇章等層級進行分析,如基于詞匯鏈的方法[7]。這類方法比較人性化,更加貼近人類對文章的理解過程,但如何根據(jù)文章的結(jié)構(gòu),準確地對它進行語言學(xué)方面的劃分,目前還沒有十分準確的解決方法,但是在近幾年,此類方法受到了該領(lǐng)域研究者的廣泛關(guān)注。

    基于機器學(xué)習(xí)的方法和基于語言學(xué)的方法,雖然在性能方面可能會略好,但是其過程相對復(fù)雜,從實用性來說沒有基于統(tǒng)計的方法使用廣泛。而傳統(tǒng)的統(tǒng)計詞頻的方法,由于其特征單一,考慮方面不全,很容易受到一些高頻非關(guān)鍵詞的干擾,此外,一般的位置特征僅是對文章結(jié)構(gòu)進行劃分,對文本寫作方式有一定的局限性。針對上述問題,以統(tǒng)計方法為基礎(chǔ),提出了新的間距特征,排除了常用位置特征的不足,同時從多個方面進行考慮,結(jié)合詞頻、詞性、重要度多個特征進行關(guān)鍵詞抽取。從實驗結(jié)果來看,與傳統(tǒng)方法相比,本文提出的方法在準確率、召回率等各方面性能均有所提高。

    1關(guān)鍵詞抽取策略

    1.1文本預(yù)處理

    中文不像英文那樣在書寫方面詞語之間就有天然的分隔符,而且由于中文語義的多樣性,切分不同就會產(chǎn)生不同的意思。所以在實驗之前,先對數(shù)據(jù)集進行簡單的分詞處理,把文本中的詞語用空格隔開,分成若干個詞條。

    去除文本中的標點符號及停用詞,如逗號、句號之類的標點和“的”、“了”、“嗎”之類的虛詞,因為這些標點符號和停用詞對文章的主題表達并沒有實際的意義,只會對關(guān)鍵詞的抽取帶來影響和干擾。然后再去除文本中多余的格式、表格等內(nèi)容,并保留詞語所在的原來位置。對于處理后的文本,人工進行關(guān)鍵詞標注,作為實驗參考結(jié)果。

    1.2候選詞匯的特征統(tǒng)計

    雖然傳統(tǒng)的詞頻統(tǒng)計方法來抽取關(guān)鍵詞過程簡單,使用起來方便,但它一方面容易將一些高頻常用詞誤判為關(guān)鍵詞,另一方面又很可能無法識別出那些出現(xiàn)次數(shù)較少,但關(guān)鍵度較高的詞語。因此最終降低關(guān)鍵詞抽取的準確率。

    本方法考慮到影響關(guān)鍵詞識別的各個因素,經(jīng)過對比分析,統(tǒng)計出詞頻、間距、詞性、重要度作為關(guān)鍵詞抽取的特征。

    1.2.1詞頻

    關(guān)鍵詞要想準確的表達文本的主題信息,就必然會在文中多次出現(xiàn)。因此,詞語在文本中出現(xiàn)的次數(shù)越多,作為關(guān)鍵詞的可能性也就越大。FRANK[6]早在他提出的KEA算法中,就將詞頻作為實驗研究的一個特征項,并且取得很好的結(jié)果。TURNEY之后也用實驗證明了關(guān)鍵詞詞頻是與其所屬領(lǐng)域是相關(guān)的。而后續(xù)的研究者又發(fā)現(xiàn),即使不使用領(lǐng)域信息,關(guān)鍵詞詞頻仍然能夠有效工作。所以,本文選取詞頻作為關(guān)鍵詞抽取的一個重要特征。具體計算公式如下。

    (1)

    式中:ti表示提取的詞頻特征;f表示該詞在文章中出現(xiàn)的次數(shù)。

    對于詞頻特征項的計算,本文選取的是非線性函數(shù)的計算方法。由式(1)可以看出,詞在文中出現(xiàn)的次數(shù)越多,即詞頻越高,公式的值也就越趨向于1,該詞成為關(guān)鍵詞的可能性也就越大。同時,詞頻若高到一定程度,它的波動范圍又很小,因此也一定程度上排除了那些高頻的常用詞對關(guān)鍵詞抽取的干擾,符合人類寫作的實際情況。

    1.2.2間距

    在關(guān)鍵詞的位置特征研究中,楊穎[8]、謝晉[9]、張瑾[10]等多位研究者,在他們各自的實驗中都將文章分為標題、摘要、首尾段、正文等多個部分,并根據(jù)關(guān)鍵詞在文中的出現(xiàn)位置,為它們分配不同的參數(shù)值作為關(guān)鍵詞識別的一個特征項。但是對于網(wǎng)絡(luò)文本或新聞報道,很多都沒有摘要或標題,有時也只用一個段落進行敘述,此時這樣的位置分析并不合適。

    此后楊震等[11]在關(guān)鍵詞的排序研究中,認為關(guān)鍵詞在文中的分布,具有小的內(nèi)間距和大的外間距的特點。作為主題關(guān)鍵詞,為了表達作者敘述的完整性,在局部小話題或小段落中出現(xiàn)次數(shù)會比較多,而局部范圍較小,相鄰出現(xiàn)位置之間就會產(chǎn)生較小的間距;同時作為整個文本的關(guān)鍵詞,又必定貫穿于全文,會在文中多個段落或話題中出現(xiàn),而此時整個文本范圍較大,所以相鄰出現(xiàn)位置之間也產(chǎn)生較大的間距。本文就使用關(guān)鍵詞的這種分布特征,提取關(guān)鍵詞識別的間距特征項,具體計算公式如下:

    (2)

    式中:di表示詞語在文本中相鄰出現(xiàn)位置之間的間距,若詞語在文中出現(xiàn)位置分別t1,t2,…,ti,ti+1,則相鄰位置之間的間距就為d1=t2-t1,d2=t3-t2,…,di=ti+1-ti;i表示間距個數(shù);u表示i個間距總和的平均值。

    (3)

    (4)

    將小于平均值的間距(di

    (5)

    (6)

    將大于平均值的間距(di≥u)劃分到外間距當中,并計算所有屬于外間距的間距和db,然后計算出外間距和的平均值m(db)。

    (7)

    在實際文本中,如果產(chǎn)生的內(nèi)間距越小,說明這個詞在話題中出現(xiàn)頻繁,對這個話題的表述就越重要,關(guān)鍵度會越高;而如果產(chǎn)生的外間距越大,說明詞在的話題在文本中出現(xiàn)范圍很廣,與全文的主題思想關(guān)聯(lián)度越高,那么這個詞作為全文關(guān)鍵詞的可能性也就越大。

    用式(7)中外間距與內(nèi)間距平均值的比值大小的計算結(jié)果作為內(nèi)外間距特征項,即它們的比值越大,內(nèi)外間距的平均值相差越大,我們就認為該詞語的關(guān)鍵度也就越高。

    1.2.3詞性

    詞性是根據(jù)詞的特點來進行劃分的,也是一種淺層語言學(xué)的表示。楊穎等[7]就在實驗中對關(guān)鍵詞的詞性分布進行了統(tǒng)計分析,結(jié)果很直觀地看出名詞和動名詞在關(guān)鍵詞總數(shù)中所占比例較大,而形容詞、副詞等其他詞性所占比例較小,同時在很多其他研究者的實驗中,也證實了這一特征的有效性,由此我們將詞性作為關(guān)鍵詞抽取的一個特征項。本文采用文獻[12]中的方法,對不同詞性賦予不同的權(quán)重。具體計算如式(8)所示。

    (8)

    1.2.4重要度

    一個詞語如果要作為整個文本的關(guān)鍵詞,必然會在文中多個段落中出現(xiàn),因此,詞語在文中出現(xiàn)的段落數(shù),往往也能體現(xiàn)該詞對文章的重要程度[12]。另一方面,我們將詞頻作為特征項進行統(tǒng)計的同時,僅在一個段落或話題中出現(xiàn)多次的局部關(guān)鍵詞,很可能會因為其高頻優(yōu)勢被誤判為整個文本的關(guān)鍵詞,從而影響我們關(guān)鍵詞抽取的準確率,而該特征項在一定程度上可以改善這一不足。因此,我們將詞在全文中的重要度作為另一個選取關(guān)鍵詞的特征,具體計算如式(9)所示。

    (9)

    式中:s表示關(guān)鍵詞在文中出現(xiàn)的段落數(shù);r表示整個文檔的段落數(shù)。詞語在文中出現(xiàn)的段落數(shù)越多,與全文段落數(shù)的比值越大,我們就認為該詞的重要度也就越大。

    1.3關(guān)鍵詞權(quán)重計算

    提取出詞語的4個特征項后,再通過公式將提取的各個特征結(jié)合到一起,計算出詞語的權(quán)重wi,并根據(jù)每個詞的權(quán)重大小對詞語進行排序,最后選取出前n個詞語作為所要抽取的關(guān)鍵詞。具體計算見式(10)。

    (10)

    式中:ti表示提取的詞頻特征;li表示提取的間距特征;pi表示提取的詞性特征;ki表示提取的重要度特征。

    2實驗設(shè)置與結(jié)果

    2.1實驗平臺

    所有實驗均在操作系統(tǒng)為windows 7的計算機上進行。分詞系統(tǒng)采用中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS (Institute of computing Technology,Chinese Lexical Analysis system),實驗過程通過java語言編程實現(xiàn)。

    2.2實驗數(shù)據(jù)

    本實驗所使用的數(shù)據(jù)為ACE2005語料庫,其中包含CBS(哥倫比亞廣播電臺),CNR(中央人民廣播電臺),CTV(中國電視公司),XIN(新華社)等國內(nèi)外10個頻道的新聞報道。去除其中一些字數(shù)較少的文本后,最終選取出600篇新聞文本,作為實驗用的數(shù)據(jù)集。

    2.3評價標準

    由于在關(guān)鍵詞抽取領(lǐng)域,沒有統(tǒng)一的實驗數(shù)據(jù)和評價標準,所以本文采用常用的準確率(Precision)、召回率(Recall)和F-measure值來衡量關(guān)鍵詞抽取效果。

    1) 準確率(Precision)。實驗中提取正確的關(guān)鍵詞數(shù)與實際提取出的關(guān)鍵詞總數(shù)的比值,它衡量的是抽取的準確程度。表達式如式(11)所示,

    (11)

    2) 召回率(Recall)。實驗中提取的正確的關(guān)鍵詞與人工標注的關(guān)鍵詞總數(shù)的比值,它衡量的是算法的查全率和實驗的完備性。表達式如式(12)所示,

    (12)

    準確率和召回率分別反映了實驗性能的兩個不同方面,而F-measure評價指標,是它們兩個的綜合,計算公式如式(13)所示,

    (13)

    2.4實驗結(jié)果

    為了驗證本文所提出方法的有效性,進行了與近年來使用最多并且效果較好的TF-IDF算法的實驗比較,并且分別抽取不同的關(guān)鍵詞數(shù),來進一步驗證本方法的抽取效果。實驗結(jié)果如圖1—圖3所示。

    圖1 準確率實驗結(jié)果對比Fig.1 The precision comparison of experimental results

    圖2 召回率實驗結(jié)果對比Fig.2 The recall comparison of experimental results

    圖3 F-measure實驗結(jié)果對比Fig.3 The F-measure comparison of experimental results

    從實驗結(jié)果中可以得出,本文所提出的方法總體的準確率、召回率和F-measure值都有所提高,整體性能都高于TF-IDF方法,說明本文所提出的方法是很有效的。同時也可以看出,隨著抽取關(guān)鍵詞數(shù)的增加,準確率提高幅度變慢,當抽取關(guān)鍵詞個數(shù)為7時,準確率最高,到10時開始下降,這是因為文本中的詞數(shù)有限,而抽取的關(guān)鍵詞數(shù)越多,越容易產(chǎn)生權(quán)重相近或相同的詞語,從而影響最終的抽取效果。

    3結(jié)論

    在對關(guān)鍵詞出現(xiàn)位置進一步分析的基礎(chǔ)上,提取出了新的間距特征,相比于以往的位置特征更加適用于現(xiàn)在網(wǎng)絡(luò)文本靈活多變的寫作結(jié)構(gòu)。同時融合詞頻、詞性和詞語重要度等特征,根據(jù)最終計算出的權(quán)重大小來選取出文本的關(guān)鍵詞。最后通過和傳統(tǒng)方法的實驗結(jié)果對比,可以看出本文提出的方法各方面性能都有所提高,說明了本方法的有效性。

    由于時間和實驗條件有限,本方法也存在很多不足,比如本文中實驗所用語料數(shù)量不夠多,文本類型不夠全面;在提取間距特征時,還可以選取更符合關(guān)鍵詞實際分布情況的計算方法;最終計算關(guān)鍵詞權(quán)重時,還可以根據(jù)特征不同的影響力,給它們設(shè)定不同的參數(shù),進一步提高準確率等。此外,在中文關(guān)鍵詞抽取領(lǐng)域沒有統(tǒng)一現(xiàn)成的數(shù)據(jù)標準,經(jīng)常都需要人們進行人工標注,也會帶來一些主觀因素的影響。這些都是我們在今后的工作中要繼續(xù)研究和改進的問題。

    參考文獻:

    [1]LUHN H P.A statistical approach to mechanized encoding and searching of literary information[J].IBM Journal of Research & Development,1957,1(4):309-317.

    [2]WU H C,LUK R W P,WONG K F,et al.Interpreting TF-IDF term weights as making relevance decisions[J]. ACM Transactions on Information Systems,2008,26(3):55-59.

    [3]WARTENA C,BRUSSEE R,SLAKHORST W.Keyword extraction using word co-occurrence[C]∥IEEE.2010 Workshops on Database and Expert Systems Applications.Piscataway:IEEE Computer Society,2010:54-58.

    [4]JIAO H,LIU Q,JIA H.Chinese keyword extraction based on N-Gram and word Co-occurrence[C]∥IEEE.International Conference on Computational Intelligence and Security Workshops.Washington DC:IEEE,2007:152-155.

    [5]趙鵬,蔡慶生,王清毅,等.一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J].模式識別與人工智能,2007,20(6):827-831.

    [6]FRANK E,PAYNTER G W,WITTEN I H,et al.Domain-specific keyphrase extraction[C]∥IEEE Computer Society.Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence.San Francisco:Morgan Kaufmann Publishers Inc.,1999:668-673.

    [7]胡學(xué)鋼,李星華,謝飛,等.基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞抽取方法[J].模式識別與人工智能,2010,23(1):45-51.

    [8]楊穎,戴彬.基于多特征的中文關(guān)鍵詞抽取方法[J].計算機應(yīng)用與軟件,2014,31(11):109-112.

    [9]謝晉.基于詞跨度的中文文本關(guān)鍵詞自動提取方法[J].現(xiàn)代物業(yè):中旬刊,2012,11(4):108-111.

    [10]張瑾.基于改進TF-IDF 算法的情報關(guān)鍵詞提取方法[J].情報雜志,2014,33(4):153-155.

    [11]YANG Z, LEI J J,FAN K F,et al.Keyword extraction by entropy difference between the intrinsic and extrinsic mode[J].Physica A:Statistical Mechanics and its Applications,2013(923):4523-4531.

    [12]黃軒,李偉.基于多特征的中文關(guān)鍵詞抽取方法[J].計算機與現(xiàn)代化,2013(4):15-17.

    (編輯:朱倩)

    Research on the Strategy of Keyword Extraction

    HU Qi,HAO Xiaoyan,ZHANG Xingzhong,CHEN Yaowen

    (DepartmentofComputerScienceandTechnology,TaiyuanUniversityofTechnology,Taiyuan030024,China)

    Abstract:In the statistical method of keyword extraction, statistical aspects are insufficient,and general location features have limitations to the writing structure of the text. To resolve these problems, a new keyword extraction method is proposed,which,according to the location of the key words in the text,extracts the new features of word spacing,and is more suitable for the network text at random and changeable writing style. In addition, the method considers all factors affecting key word recognition,improves the shortcomings of traditional statistical methods by extracting word frequency, word spacing, part of speech and importance of words. Finally, in comparison with the traditional TF-IDF method,the proposed method is improved in all aspects, which shows that the method is effective and feasible.

    Key words:extraction;word frequency;word spacing;part of speech;importance of words

    文章編號:1007-9432(2016)02-0228-05

    *收稿日期:2015-05-27

    基金項目:山西省自然科學(xué)基金資助項目:基于框架語義標注的中文篇章指代消解策略研究(2012011011-2)

    作者簡介:胡琪(1990-)女,山西定襄人,碩士生,主要從事計算語言學(xué),自然語言處理方向的研究,(E-mail)314176086@qq.com通訊作者:郝曉燕,副教授,主要從事計算語言學(xué)、自然語言處理方向的研究,(E-mail) haoxiaoyan@tyut.edu.cn

    中圖分類號:TP391

    文獻標識碼:A

    DOI:10.16355/j.cnki.issn1007-9432tyut.2016.02.020

    猜你喜歡
    詞頻間距
    宋代君臣殿上間距考論
    基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    高速公路指揮中心小間距LED應(yīng)用探討
    算距離
    詞頻,一部隱秘的歷史
    云存儲中支持詞頻和用戶喜好的密文模糊檢索
    儒法兩家經(jīng)典的共詞分析與研究*
    同網(wǎng)絡(luò)結(jié)構(gòu)上的連接處過小和假間距的工程處理方法
    以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
    圖書館論壇(2014年8期)2014-03-11 18:47:59
    地下等間距水平埋管散熱量分析
    河南科技(2014年5期)2014-02-27 14:08:25
    阿克| 成武县| 岳阳市| 邵武市| 兴文县| 吴堡县| 康保县| 石屏县| 澳门| 武陟县| 铁岭市| 旌德县| 原平市| 孟州市| 昔阳县| 元江| 瑞昌市| 平舆县| 巧家县| 昭苏县| 溧阳市| 呼图壁县| 凌海市| 马公市| 密云县| 伊金霍洛旗| 于都县| 鄂伦春自治旗| 遵化市| 滦平县| 沾益县| 丹凤县| 定州市| 弥勒县| 响水县| 五莲县| 鹤岗市| 马边| 赤城县| 东乌| 罗平县|