• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卡方統(tǒng)計量的藏文新聞網(wǎng)頁關(guān)鍵詞提取方法

    2017-11-20 16:37:30徐濤藍(lán)傳锜
    電腦知識與技術(shù) 2017年26期
    關(guān)鍵詞:詞項藏文網(wǎng)頁

    徐濤+藍(lán)傳锜

    摘要:藏文文本關(guān)鍵詞在文本聚類/分類、自動摘要、信息檢索等領(lǐng)域具有重要地位,然而當(dāng)前互聯(lián)網(wǎng)上的藏文新聞網(wǎng)頁幾乎沒有提供關(guān)鍵詞。并且許多已有的關(guān)鍵詞自動提取算法都需要建立在人工標(biāo)注的訓(xùn)練集之上,擴(kuò)展性不強(qiáng)。關(guān)鍵詞是文本中主題關(guān)聯(lián)度凝聚度較高的詞,因此該文將卡方統(tǒng)計量進(jìn)行改進(jìn),運用詞與詞推薦的思想進(jìn)行關(guān)鍵詞抽取。通過藏文新聞網(wǎng)頁實驗結(jié)果表明,該文的方法優(yōu)于融入位置信息的TF/IDF。

    關(guān)鍵詞:藏文信息處理;卡方統(tǒng)計量;關(guān)鍵詞抽取

    中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)26-0171-03

    1 概述

    藏文屬于漢藏語系,是一種古老語言并在現(xiàn)代藏語言文本被廣泛使用。隨著藏文信息的發(fā)展,尤其是藏文Web的普及,推動了藏文文本信息量的急速增長。面對大量的新聞網(wǎng)頁,單單通過標(biāo)題用戶很容易錯過有價值或是自己感興趣的內(nèi)容。如果新聞網(wǎng)頁標(biāo)注有關(guān)鍵詞,那么這些問題就迎仍而解。關(guān)鍵詞是對文檔內(nèi)容的高度概括總結(jié),反映文檔的內(nèi)容和主題,為快速閱讀、文本分類聚類、文檔檢索等都提供了很大方便。一篇文檔的關(guān)鍵詞一般都是作者在創(chuàng)建文檔時手工添加或標(biāo)注的。但是在大量的文檔中沒有添加用于描述文檔的關(guān)鍵詞,并且手工添加關(guān)鍵詞是一個枯燥而繁重的工作,所以從文檔中自動提取關(guān)鍵詞就顯得日益重要。

    在國外的關(guān)鍵詞抽取研究方面,發(fā)展比較快也建立了一些實用系統(tǒng)。最早的如KEA[1]系統(tǒng)以其良好的可擴(kuò)展性而著名,該系統(tǒng)使用離散的貝葉斯方法訓(xùn)練關(guān)鍵詞抽取模型。另外GenEx[1]系統(tǒng)采用遺傳算法和C4.5決策樹歸納算法來抽取關(guān)鍵詞。也有方法直接抽取單個文檔的關(guān)鍵詞,文獻(xiàn)[3]就是通過LDA( latent dirichlet allocation) 模型[4]中的主題和詞的分布情況,使用給詞打分的方法直接抽取文檔關(guān)鍵詞,較好地抽取出了各主題的代表性詞。Barker和Cornacchia最早選擇名詞短語作為候選關(guān)鍵詞,再根據(jù)各個名詞短語的長度、頻率及第一個詞語的詞頻這三個特征構(gòu)造關(guān)鍵詞抽取模型[5]。Matsuo和Ishizuka用詞同現(xiàn)的統(tǒng)計特征提取關(guān)鍵詞[6]。在國內(nèi),關(guān)鍵詞抽取的研究方面雖然落后于國外,但是也進(jìn)行大量的研究并取得了不錯的成果[7]。在1997年,有關(guān)于PAT-Tree的關(guān)鍵詞提取算法提出[8],這一工作主要用于提取大數(shù)據(jù)量文本的關(guān)鍵詞提取,如長篇小說等。混合方法是綜合利用語言分析和統(tǒng)計學(xué)習(xí)方法[9-10],或加入啟發(fā)式知識(如詞的位置、詞長、HTML標(biāo)記等)來提高關(guān)鍵詞提取精度。2011年楊春明等提出了快速的領(lǐng)域文檔關(guān)鍵詞自動提取算法[11],是用簡單的詞項統(tǒng)計算法進(jìn)行關(guān)鍵詞抽取算法。清華大學(xué)的劉知遠(yuǎn)提出了基于主題的關(guān)鍵詞抽取方法[12],并首次在微博關(guān)鍵詞抽取中得以應(yīng)用。尹倩,胡學(xué)鋼等[13]提出一種基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取方法應(yīng)用在中文新聞網(wǎng)頁關(guān)鍵詞提取上。

    綜上所述,在關(guān)鍵詞抽取方面,大致可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類方法。第一類方法需要大量的標(biāo)注語料訓(xùn)練分類模型,且是針對某個特定領(lǐng)域的,主題還隨時間漂移,不適合普適性;另外,需要大量的訓(xùn)練語料,當(dāng)今關(guān)鍵詞抽取領(lǐng)域,對標(biāo)注語料的規(guī)范不統(tǒng)一,而且千差萬別,耗時耗力;而且在模型的解碼過程中還涉及的速度影響。而第二類方法不需要人工標(biāo)注訓(xùn)練集合的過程,因此更加快捷,而且主題更加更加直觀和現(xiàn)實。由于新聞網(wǎng)頁內(nèi)容領(lǐng)域涉及面比較廣,如果使用有監(jiān)督訓(xùn)練方法,抽取的出的關(guān)鍵詞主題漂移比較大,并且需要大量精確人工標(biāo)注語料,因此本文的研究使用第二類方式更為合適。

    2 藏文新聞網(wǎng)頁關(guān)鍵詞提取

    2.1 網(wǎng)頁文本處理與候選關(guān)鍵詞

    2.1.1 藏文網(wǎng)頁文本處理

    對從網(wǎng)絡(luò)中抓取的藏文新聞網(wǎng)頁進(jìn)行過濾,清理網(wǎng)頁中的廣告圖片、垃圾鏈接等。并對網(wǎng)頁中新聞內(nèi)容的必要的筆記進(jìn)行存取,例如,正文中的字體大小、顏色標(biāo)記等。對新聞內(nèi)容進(jìn)行標(biāo)準(zhǔn)化處理,即過濾后的純文本與網(wǎng)頁前臺展現(xiàn)必須一致。最后對內(nèi)容進(jìn)行編碼統(tǒng)一。

    2.1.2 候選關(guān)鍵詞

    在藏文中,詞與詞之間沒有分解開來,所以我們首選需要對文本進(jìn)行分詞處理。然后去除停用詞,即去除對主題貢獻(xiàn)不大的詞和某些高頻詞,統(tǒng)計每個候選關(guān)鍵詞詞語出現(xiàn)的頻率和位置信息。

    在許多相關(guān)文獻(xiàn)中只考慮名詞作為候選關(guān)鍵詞,但其他詞性的詞語對抽取新聞網(wǎng)頁的關(guān)鍵詞有著雙面性,如動詞對抽取的關(guān)鍵詞質(zhì)量有著積極影響,而形容詞、副詞等對抽取的關(guān)鍵詞質(zhì)量有著消極影響。新聞網(wǎng)頁不同于一般的文木,它強(qiáng)調(diào)近來發(fā)生的具有一定社會價值的人和事,文本中的動詞更能表達(dá)新聞主題,而相對名詞動詞而言,具有的修飾特性的形容詞、副詞對文章主題的表達(dá)力度較弱。此外,對非名詞、動詞詞義的過濾將減少關(guān)鍵詞抽取算法的時空花銷。

    2.2 基于卡方統(tǒng)計量的關(guān)鍵詞提取算法

    2.2.1 卡方統(tǒng)計量

    本文將卡方統(tǒng)計量引入藏文文本的關(guān)鍵詞提取。思路很簡單,首先從單文本中選取一組詞項H(通過語料分析詞項的高tf-idf值)作為文本的初步概括(對比詞項組)。將文本中的每個句子看成為一個主題句子,計算文本候選關(guān)鍵詞詞項ti(包括詞項H中的詞項)與對比 組H中的詞項h在每個句子中的共現(xiàn)分布率[fo(ti,h)]。通過卡方統(tǒng)計量來計算ti與h的關(guān)聯(lián)程度(Degree of Bias),NiPh為理論值(期望值),Ni為ti與H中詞項總的共現(xiàn)次數(shù),Ph為詞項h的tf-idf值。

    3 試驗分析

    之前介紹了基于卡方統(tǒng)計量的藏文新聞網(wǎng)頁關(guān)鍵詞抽取方法,如何利用這種方法來更好地進(jìn)行關(guān)鍵詞抽取任務(wù),本文在以下兩方面作出了研究與分析:參數(shù)設(shè)定實驗、評測實驗。參數(shù)設(shè)定實驗主要是針對本文中所設(shè)定的各種參數(shù)對關(guān)鍵詞抽取的影響,最后選取最優(yōu)參數(shù)。最后進(jìn)行評測實驗,以本文最優(yōu)方法與TFIDF與啟發(fā)式信息相結(jié)合的方方法做比較,以此來分析本文方法的優(yōu)劣。endprint

    3.1 試驗數(shù)據(jù)準(zhǔn)備

    本文的實驗數(shù)據(jù)以藏文新聞關(guān)鍵詞抽取實驗。由于目前還沒有藏文關(guān)鍵詞抽取測試數(shù)據(jù)集。為保證公平性,本文數(shù)據(jù)集來源于藏文網(wǎng)站(www.tibentcm.com),從3個類別的新聞網(wǎng)頁中各抽取50篇文章進(jìn)行實驗。并且在人工標(biāo)注關(guān)鍵詞方面制定了相應(yīng)的標(biāo)準(zhǔn)如下:

    (1) 每篇文章關(guān)鍵詞數(shù)量在3-8個;

    (2) 每篇文檔的關(guān)鍵詞組需要覆蓋該篇文章的所有話題;

    (3) 每個關(guān)鍵詞在該篇文章中出現(xiàn)應(yīng)大于1次;

    (4) 每篇測試文章應(yīng)不少于200個藏詞。

    3.2 評價指標(biāo)

    3.3 參數(shù)設(shè)定實驗

    在本文所展示的方法中,比較重要的一環(huán)就是待抽取文本中對比詞項H的個數(shù)設(shè)定,在本文中設(shè)定方法按照個數(shù)與文本中詞數(shù)之間的比例設(shè)為Hp,為了設(shè)定最優(yōu)Hp值,對Hp值進(jìn)行多次調(diào)值后進(jìn)行試驗,選取的比較優(yōu)的結(jié)果如表1。

    由此可以看出,Hp對抽取結(jié)果的影響是明顯的。由于在文中H中的詞項是待抽取文本中具有高TFIDF值的詞項,從信息檢索的角度來說,是比較重要的詞項,因此在文中起到一定的主題作用,即從理論和實驗上都能得出以這類詞組中相關(guān)聯(lián)比較緊密的詞項(通過卡方統(tǒng)計量計算),就越能體現(xiàn)出主題作用,也就是本文所抽取的關(guān)鍵詞。但是,H中的詞項個數(shù)應(yīng)該適中,如表1可以看出,Hp=35%為最優(yōu)。

    3.4 本文方法與TFIDF方法比較

    在實驗2中,按照方法劃分為3組: 1)TFIDF方法;2)TFIDF與位置特征集和的方法; 3)本文的方法.表2顯示的是這三種方法分別在第二組數(shù)據(jù)上所進(jìn)行的對比實驗結(jié)果。

    由表2可見,與僅基于TFIDF特征抽取關(guān)鍵詞相比,結(jié)合位置特征抽取的關(guān)鍵詞在精確率和召回率上均有明顯提高.基于TFIDF的方法傾向于考慮高頻詞對文章主題的貢獻(xiàn),增加的位置特征考慮特殊分布的詞語的重要性。而本文的方法完美詮釋了“重要詞”與“關(guān)鍵詞”的區(qū)別,使抽取的關(guān)鍵詞更能體現(xiàn)和概括文章的主題。

    4 結(jié)論

    本文以卡方統(tǒng)計量為基礎(chǔ),計算待抽取文章中詞項與文中主題緊密性,在藏文新聞內(nèi)容加以驗證,實驗結(jié)果表示,本文的方法是有效的。在實驗中還得出了對比詞項Hp的最優(yōu)結(jié)果。但是藏文測試數(shù)據(jù)規(guī)范上還有待提高,數(shù)量還需要擴(kuò)展,并且在本文的方法中,主題的體現(xiàn)性上還需進(jìn)行更多實驗和其他方法,如詞項聚類方法。

    參考文獻(xiàn):

    [1] Witten,Paynter,F(xiàn)rank,et al.Kea: practical automatic keyphrase extraction[C].Proc of ACM Conference on Digital Libraries. New York: ACM Press,1999:254-255.

    [2] Turney. Learning to extract key phrases from text[J].NRC Technical Report ERB-1057.Canada: National Research Council,1999.

    [3] Pasquier.Task 5:single document keyphrase extraction using sentence clustering and latent dirichlet allocation[C].Proc of ACL Workshop on Semantic Evaluation,2010,154-157.

    [4] David,Anderew,Michael. Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

    [5] Ken Barker,Nadia Cornacchia.Using noun phrase heads to extract document keyphrases[C].In Canadian Conference on Artificial Intelligence,2000:40-52.

    [6] Yutaka Matsuo,Mitsuru Ishizuka.KeyWord extraction from a single document using Word co-occurrence statistical information[J].International Journal on Artificial Intelligence Tools,,2004,13(1):157-169.

    [7] 章成志.自動標(biāo)引研究的回顧與展望[J].現(xiàn)代圖書情報技術(shù),2007(11):33-39.

    [8] CHIEN L.PAT-tree-based keyWord extraction for Chinese information retrieval[C].ACM SIGIR Forum.,1997:31:58.

    [9] 劉佳賓,陳超,邵正榮,等.基于機(jī)器學(xué)習(xí)的科技文摘關(guān)鍵詞自動提取方法[J].計算機(jī)工程與應(yīng)用,2007,43(14):170-172.

    [10] 張慶國,薛德軍,張振海,等.海量數(shù)據(jù)集上基于特征組合的關(guān)鍵詞自動抽取[J].情報學(xué)報,2006,25(5):587-593.

    [11] 楊春明,韓永國.快速的領(lǐng)域文檔關(guān)鍵詞自動提取算法[J].計算機(jī)工程與設(shè)計,2011,32(21):42-2145.

    [12] 劉知遠(yuǎn).基于文檔主題結(jié)構(gòu)的關(guān)鍵詞抽取方法研究[D].清華大學(xué).2011.

    [13] 尹倩,胡學(xué)鋼,謝飛,等.基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版.2009,27(1):201-204.endprint

    猜你喜歡
    詞項藏文網(wǎng)頁
    西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    自然種類詞項二難、卡茨解決與二維框架
    基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    藏文音節(jié)字的頻次統(tǒng)計
    現(xiàn)代語境下的藏文報刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
    電子測試(2015年18期)2016-01-14 01:22:58
    10個必知的網(wǎng)頁設(shè)計術(shù)語
    英語詞項搭配范圍及可預(yù)見度
    分宜县| 汶上县| 龙海市| 腾冲县| 河津市| 册亨县| 乌拉特前旗| 德江县| 江陵县| 监利县| 平阴县| 洪湖市| 浙江省| 讷河市| 鸡泽县| 亚东县| 河间市| 江口县| 屯门区| 宣汉县| 溆浦县| 云阳县| 安义县| 大兴区| 临城县| 盈江县| 巴彦县| 平邑县| 城步| 沂南县| 工布江达县| 柯坪县| 赤水市| 宿迁市| 伽师县| 石屏县| 界首市| 甘泉县| 廊坊市| 临漳县| 金堂县|