徐濤+藍(lán)傳锜
摘要:藏文文本關(guān)鍵詞在文本聚類/分類、自動摘要、信息檢索等領(lǐng)域具有重要地位,然而當(dāng)前互聯(lián)網(wǎng)上的藏文新聞網(wǎng)頁幾乎沒有提供關(guān)鍵詞。并且許多已有的關(guān)鍵詞自動提取算法都需要建立在人工標(biāo)注的訓(xùn)練集之上,擴(kuò)展性不強(qiáng)。關(guān)鍵詞是文本中主題關(guān)聯(lián)度凝聚度較高的詞,因此該文將卡方統(tǒng)計量進(jìn)行改進(jìn),運用詞與詞推薦的思想進(jìn)行關(guān)鍵詞抽取。通過藏文新聞網(wǎng)頁實驗結(jié)果表明,該文的方法優(yōu)于融入位置信息的TF/IDF。
關(guān)鍵詞:藏文信息處理;卡方統(tǒng)計量;關(guān)鍵詞抽取
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)26-0171-03
1 概述
藏文屬于漢藏語系,是一種古老語言并在現(xiàn)代藏語言文本被廣泛使用。隨著藏文信息的發(fā)展,尤其是藏文Web的普及,推動了藏文文本信息量的急速增長。面對大量的新聞網(wǎng)頁,單單通過標(biāo)題用戶很容易錯過有價值或是自己感興趣的內(nèi)容。如果新聞網(wǎng)頁標(biāo)注有關(guān)鍵詞,那么這些問題就迎仍而解。關(guān)鍵詞是對文檔內(nèi)容的高度概括總結(jié),反映文檔的內(nèi)容和主題,為快速閱讀、文本分類聚類、文檔檢索等都提供了很大方便。一篇文檔的關(guān)鍵詞一般都是作者在創(chuàng)建文檔時手工添加或標(biāo)注的。但是在大量的文檔中沒有添加用于描述文檔的關(guān)鍵詞,并且手工添加關(guān)鍵詞是一個枯燥而繁重的工作,所以從文檔中自動提取關(guān)鍵詞就顯得日益重要。
在國外的關(guān)鍵詞抽取研究方面,發(fā)展比較快也建立了一些實用系統(tǒng)。最早的如KEA[1]系統(tǒng)以其良好的可擴(kuò)展性而著名,該系統(tǒng)使用離散的貝葉斯方法訓(xùn)練關(guān)鍵詞抽取模型。另外GenEx[1]系統(tǒng)采用遺傳算法和C4.5決策樹歸納算法來抽取關(guān)鍵詞。也有方法直接抽取單個文檔的關(guān)鍵詞,文獻(xiàn)[3]就是通過LDA( latent dirichlet allocation) 模型[4]中的主題和詞的分布情況,使用給詞打分的方法直接抽取文檔關(guān)鍵詞,較好地抽取出了各主題的代表性詞。Barker和Cornacchia最早選擇名詞短語作為候選關(guān)鍵詞,再根據(jù)各個名詞短語的長度、頻率及第一個詞語的詞頻這三個特征構(gòu)造關(guān)鍵詞抽取模型[5]。Matsuo和Ishizuka用詞同現(xiàn)的統(tǒng)計特征提取關(guān)鍵詞[6]。在國內(nèi),關(guān)鍵詞抽取的研究方面雖然落后于國外,但是也進(jìn)行大量的研究并取得了不錯的成果[7]。在1997年,有關(guān)于PAT-Tree的關(guān)鍵詞提取算法提出[8],這一工作主要用于提取大數(shù)據(jù)量文本的關(guān)鍵詞提取,如長篇小說等。混合方法是綜合利用語言分析和統(tǒng)計學(xué)習(xí)方法[9-10],或加入啟發(fā)式知識(如詞的位置、詞長、HTML標(biāo)記等)來提高關(guān)鍵詞提取精度。2011年楊春明等提出了快速的領(lǐng)域文檔關(guān)鍵詞自動提取算法[11],是用簡單的詞項統(tǒng)計算法進(jìn)行關(guān)鍵詞抽取算法。清華大學(xué)的劉知遠(yuǎn)提出了基于主題的關(guān)鍵詞抽取方法[12],并首次在微博關(guān)鍵詞抽取中得以應(yīng)用。尹倩,胡學(xué)鋼等[13]提出一種基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取方法應(yīng)用在中文新聞網(wǎng)頁關(guān)鍵詞提取上。
綜上所述,在關(guān)鍵詞抽取方面,大致可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類方法。第一類方法需要大量的標(biāo)注語料訓(xùn)練分類模型,且是針對某個特定領(lǐng)域的,主題還隨時間漂移,不適合普適性;另外,需要大量的訓(xùn)練語料,當(dāng)今關(guān)鍵詞抽取領(lǐng)域,對標(biāo)注語料的規(guī)范不統(tǒng)一,而且千差萬別,耗時耗力;而且在模型的解碼過程中還涉及的速度影響。而第二類方法不需要人工標(biāo)注訓(xùn)練集合的過程,因此更加快捷,而且主題更加更加直觀和現(xiàn)實。由于新聞網(wǎng)頁內(nèi)容領(lǐng)域涉及面比較廣,如果使用有監(jiān)督訓(xùn)練方法,抽取的出的關(guān)鍵詞主題漂移比較大,并且需要大量精確人工標(biāo)注語料,因此本文的研究使用第二類方式更為合適。
2 藏文新聞網(wǎng)頁關(guān)鍵詞提取
2.1 網(wǎng)頁文本處理與候選關(guān)鍵詞
2.1.1 藏文網(wǎng)頁文本處理
對從網(wǎng)絡(luò)中抓取的藏文新聞網(wǎng)頁進(jìn)行過濾,清理網(wǎng)頁中的廣告圖片、垃圾鏈接等。并對網(wǎng)頁中新聞內(nèi)容的必要的筆記進(jìn)行存取,例如,正文中的字體大小、顏色標(biāo)記等。對新聞內(nèi)容進(jìn)行標(biāo)準(zhǔn)化處理,即過濾后的純文本與網(wǎng)頁前臺展現(xiàn)必須一致。最后對內(nèi)容進(jìn)行編碼統(tǒng)一。
2.1.2 候選關(guān)鍵詞
在藏文中,詞與詞之間沒有分解開來,所以我們首選需要對文本進(jìn)行分詞處理。然后去除停用詞,即去除對主題貢獻(xiàn)不大的詞和某些高頻詞,統(tǒng)計每個候選關(guān)鍵詞詞語出現(xiàn)的頻率和位置信息。
在許多相關(guān)文獻(xiàn)中只考慮名詞作為候選關(guān)鍵詞,但其他詞性的詞語對抽取新聞網(wǎng)頁的關(guān)鍵詞有著雙面性,如動詞對抽取的關(guān)鍵詞質(zhì)量有著積極影響,而形容詞、副詞等對抽取的關(guān)鍵詞質(zhì)量有著消極影響。新聞網(wǎng)頁不同于一般的文木,它強(qiáng)調(diào)近來發(fā)生的具有一定社會價值的人和事,文本中的動詞更能表達(dá)新聞主題,而相對名詞動詞而言,具有的修飾特性的形容詞、副詞對文章主題的表達(dá)力度較弱。此外,對非名詞、動詞詞義的過濾將減少關(guān)鍵詞抽取算法的時空花銷。
2.2 基于卡方統(tǒng)計量的關(guān)鍵詞提取算法
2.2.1 卡方統(tǒng)計量
本文將卡方統(tǒng)計量引入藏文文本的關(guān)鍵詞提取。思路很簡單,首先從單文本中選取一組詞項H(通過語料分析詞項的高tf-idf值)作為文本的初步概括(對比詞項組)。將文本中的每個句子看成為一個主題句子,計算文本候選關(guān)鍵詞詞項ti(包括詞項H中的詞項)與對比 組H中的詞項h在每個句子中的共現(xiàn)分布率[fo(ti,h)]。通過卡方統(tǒng)計量來計算ti與h的關(guān)聯(lián)程度(Degree of Bias),NiPh為理論值(期望值),Ni為ti與H中詞項總的共現(xiàn)次數(shù),Ph為詞項h的tf-idf值。
3 試驗分析
之前介紹了基于卡方統(tǒng)計量的藏文新聞網(wǎng)頁關(guān)鍵詞抽取方法,如何利用這種方法來更好地進(jìn)行關(guān)鍵詞抽取任務(wù),本文在以下兩方面作出了研究與分析:參數(shù)設(shè)定實驗、評測實驗。參數(shù)設(shè)定實驗主要是針對本文中所設(shè)定的各種參數(shù)對關(guān)鍵詞抽取的影響,最后選取最優(yōu)參數(shù)。最后進(jìn)行評測實驗,以本文最優(yōu)方法與TFIDF與啟發(fā)式信息相結(jié)合的方方法做比較,以此來分析本文方法的優(yōu)劣。endprint
3.1 試驗數(shù)據(jù)準(zhǔn)備
本文的實驗數(shù)據(jù)以藏文新聞關(guān)鍵詞抽取實驗。由于目前還沒有藏文關(guān)鍵詞抽取測試數(shù)據(jù)集。為保證公平性,本文數(shù)據(jù)集來源于藏文網(wǎng)站(www.tibentcm.com),從3個類別的新聞網(wǎng)頁中各抽取50篇文章進(jìn)行實驗。并且在人工標(biāo)注關(guān)鍵詞方面制定了相應(yīng)的標(biāo)準(zhǔn)如下:
(1) 每篇文章關(guān)鍵詞數(shù)量在3-8個;
(2) 每篇文檔的關(guān)鍵詞組需要覆蓋該篇文章的所有話題;
(3) 每個關(guān)鍵詞在該篇文章中出現(xiàn)應(yīng)大于1次;
(4) 每篇測試文章應(yīng)不少于200個藏詞。
3.2 評價指標(biāo)
3.3 參數(shù)設(shè)定實驗
在本文所展示的方法中,比較重要的一環(huán)就是待抽取文本中對比詞項H的個數(shù)設(shè)定,在本文中設(shè)定方法按照個數(shù)與文本中詞數(shù)之間的比例設(shè)為Hp,為了設(shè)定最優(yōu)Hp值,對Hp值進(jìn)行多次調(diào)值后進(jìn)行試驗,選取的比較優(yōu)的結(jié)果如表1。
由此可以看出,Hp對抽取結(jié)果的影響是明顯的。由于在文中H中的詞項是待抽取文本中具有高TFIDF值的詞項,從信息檢索的角度來說,是比較重要的詞項,因此在文中起到一定的主題作用,即從理論和實驗上都能得出以這類詞組中相關(guān)聯(lián)比較緊密的詞項(通過卡方統(tǒng)計量計算),就越能體現(xiàn)出主題作用,也就是本文所抽取的關(guān)鍵詞。但是,H中的詞項個數(shù)應(yīng)該適中,如表1可以看出,Hp=35%為最優(yōu)。
3.4 本文方法與TFIDF方法比較
在實驗2中,按照方法劃分為3組: 1)TFIDF方法;2)TFIDF與位置特征集和的方法; 3)本文的方法.表2顯示的是這三種方法分別在第二組數(shù)據(jù)上所進(jìn)行的對比實驗結(jié)果。
由表2可見,與僅基于TFIDF特征抽取關(guān)鍵詞相比,結(jié)合位置特征抽取的關(guān)鍵詞在精確率和召回率上均有明顯提高.基于TFIDF的方法傾向于考慮高頻詞對文章主題的貢獻(xiàn),增加的位置特征考慮特殊分布的詞語的重要性。而本文的方法完美詮釋了“重要詞”與“關(guān)鍵詞”的區(qū)別,使抽取的關(guān)鍵詞更能體現(xiàn)和概括文章的主題。
4 結(jié)論
本文以卡方統(tǒng)計量為基礎(chǔ),計算待抽取文章中詞項與文中主題緊密性,在藏文新聞內(nèi)容加以驗證,實驗結(jié)果表示,本文的方法是有效的。在實驗中還得出了對比詞項Hp的最優(yōu)結(jié)果。但是藏文測試數(shù)據(jù)規(guī)范上還有待提高,數(shù)量還需要擴(kuò)展,并且在本文的方法中,主題的體現(xiàn)性上還需進(jìn)行更多實驗和其他方法,如詞項聚類方法。
參考文獻(xiàn):
[1] Witten,Paynter,F(xiàn)rank,et al.Kea: practical automatic keyphrase extraction[C].Proc of ACM Conference on Digital Libraries. New York: ACM Press,1999:254-255.
[2] Turney. Learning to extract key phrases from text[J].NRC Technical Report ERB-1057.Canada: National Research Council,1999.
[3] Pasquier.Task 5:single document keyphrase extraction using sentence clustering and latent dirichlet allocation[C].Proc of ACL Workshop on Semantic Evaluation,2010,154-157.
[4] David,Anderew,Michael. Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[5] Ken Barker,Nadia Cornacchia.Using noun phrase heads to extract document keyphrases[C].In Canadian Conference on Artificial Intelligence,2000:40-52.
[6] Yutaka Matsuo,Mitsuru Ishizuka.KeyWord extraction from a single document using Word co-occurrence statistical information[J].International Journal on Artificial Intelligence Tools,,2004,13(1):157-169.
[7] 章成志.自動標(biāo)引研究的回顧與展望[J].現(xiàn)代圖書情報技術(shù),2007(11):33-39.
[8] CHIEN L.PAT-tree-based keyWord extraction for Chinese information retrieval[C].ACM SIGIR Forum.,1997:31:58.
[9] 劉佳賓,陳超,邵正榮,等.基于機(jī)器學(xué)習(xí)的科技文摘關(guān)鍵詞自動提取方法[J].計算機(jī)工程與應(yīng)用,2007,43(14):170-172.
[10] 張慶國,薛德軍,張振海,等.海量數(shù)據(jù)集上基于特征組合的關(guān)鍵詞自動抽取[J].情報學(xué)報,2006,25(5):587-593.
[11] 楊春明,韓永國.快速的領(lǐng)域文檔關(guān)鍵詞自動提取算法[J].計算機(jī)工程與設(shè)計,2011,32(21):42-2145.
[12] 劉知遠(yuǎn).基于文檔主題結(jié)構(gòu)的關(guān)鍵詞抽取方法研究[D].清華大學(xué).2011.
[13] 尹倩,胡學(xué)鋼,謝飛,等.基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版.2009,27(1):201-204.endprint