蘭曉芳 劉卓 許志豪 肖毅
摘 要:利用文本挖掘技術(shù)進行體育熱點分析,可以為體育領(lǐng)域的發(fā)展提供更多有用的信息。文中提出了一種基于TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)和TextRank(文本排序)的中文文本關(guān)鍵詞提取方法,該方法首先采用分詞、去除停用詞等對文本進行預(yù)處理;其次使用TF-IDF算法計算每個詞的重要性并進行歸一化處理,同時使用TextRank算法權(quán)衡單詞之間的關(guān)系并計算每個單詞的得分以進行歸一化處理;最后將TF-IDF值和TextRank得分進行加權(quán)和得到每個詞的綜合權(quán)重值,最終獲得權(quán)重值最高的N 個關(guān)鍵詞。應(yīng)用TF-IDF和TextRank結(jié)合的方法在F1 值上選擇5個關(guān)鍵詞時取得了更好的結(jié)果,相較于只使用TF-IDF方法或TextRank方法,其關(guān)鍵詞提取準確率分別提高約40%和32%。該方法有效提高了關(guān)鍵詞提取的準確性和提取效率。
關(guān)鍵詞:TF-IDF;TextRank;體育新聞;關(guān)鍵詞提取
中圖分類號:TP391.1 文獻標志碼:A
0 引言(Introduction)
隨著互聯(lián)網(wǎng)的發(fā)展,人們可以方便地在互聯(lián)網(wǎng)上獲取各種類型的文本數(shù)據(jù),而提取中文文本新聞的關(guān)鍵字有重大意義,新聞的關(guān)鍵字可以作為新聞標題和摘要的一部分出現(xiàn),吸引更多讀者點擊閱讀,進而促進新聞的傳播和推廣;還可以使讀者更快速地了解文章的主要內(nèi)容和重點,提高閱讀效率。同時,它可以作為搜索引擎的關(guān)鍵詞,提高搜索結(jié)果的精準度和效果[1]。此外,通過對新聞文本的關(guān)鍵字進行提取和分析,可以得到讀者關(guān)注的相關(guān)信息,提高廣告投放的精準性和效果[2]。近年來,基于TF-IDF和TextRank的關(guān)鍵詞提取算法在中文文本領(lǐng)域得到了廣泛應(yīng)用。然而,由于中文語言的復(fù)雜性,傳統(tǒng)的TF-IDF和TextRank算法在中文文本的關(guān)鍵詞提取中存在一定的局限性[3]。因此本文提出了一種基于TF-IDF和TextRank的中文文本的體育新聞關(guān)鍵詞提取方法,可以提高關(guān)鍵詞提取的準確性和覆蓋率。
1 相關(guān)工作(Related work)
關(guān)鍵詞提取是一個廣泛的研究領(lǐng)域,已經(jīng)有許多算法被提出。中文文本的關(guān)鍵詞提取與英文文本不同,主要因為中文詞匯具有復(fù)雜性和多義性。因此,中文文本的關(guān)鍵詞提取需要考慮詞匯的語義、詞頻、文本結(jié)構(gòu)等多方面因素。其中,基于頻率的TF-IDF算法是最常用的一種方法,它通過計算詞頻和文檔頻率衡量詞語的重要性。TextRank算法是一種基于圖的排序算法,它通過對文本中詞語之間的關(guān)系進行建模,計算每個詞語的重要性。這兩種算法已經(jīng)被證明在關(guān)鍵詞提取任務(wù)中取得了良好的效果[4]。然而,這兩種算法各自存在一些缺陷。
TF-IDF算法只考慮了單詞的頻率信息,忽略了單詞之間的關(guān)系。TextRank算法考慮了單詞之間的關(guān)系,但是它沒有考慮單詞的頻率信息。因此,結(jié)合應(yīng)用兩種算法可以克服它們各自的缺點,提高關(guān)鍵詞提取的準確性。
本文方法首先對文本進行預(yù)處理,包括分詞、去除停用詞等操作;其次使用TF-IDF算法計算每個詞的重要性并進行歸一化處理,同時使用TextRank算法考慮單詞之間的關(guān)系,計算每個單詞的得分并進行歸一化處理;最后,將TF-IDF值和TextRank得分進行加權(quán)和得到每個詞的綜合權(quán)重值,按照權(quán)重值從大到小排序后選擇權(quán)重值最高的前N 個單詞作為關(guān)鍵詞。關(guān)鍵詞提取步驟如圖1所示。
2 方法實現(xiàn)(Method implementation)
2.1 數(shù)據(jù)集
為了評估本文所提方法的效果,使用來自清華大學(xué)自然語言處理實驗室的THUCNews數(shù)據(jù)集中的131 601篇體育新聞數(shù)據(jù)集進行實驗。數(shù)據(jù)集中都是text文件,為了方便數(shù)據(jù)處理與計算,將數(shù)據(jù)存入MySQL數(shù)據(jù)庫中,數(shù)據(jù)集基本信息見表1,數(shù)據(jù)庫表設(shè)計見表2。
2.2 數(shù)據(jù)預(yù)處理
將文本從數(shù)據(jù)庫中讀取出來,使用jieba.lcut()進行分詞,同時使用百度停用詞表過濾停用詞等,方便后續(xù)處理。
(1)分詞。使用分詞工具(如jieba)對給定的中文文本進行分詞,將文本轉(zhuǎn)化為詞語序列。使用默認的精確模式words =jieba.lcut(sentence)。雖然Paddle模式(飛槳模式)對機構(gòu)團體名的解析更準確,但是對分詞效果不大。使用Paddle模式非常耗時,性價比不高。通過實際測算,使用Paddle模式對100條語句進行分詞的耗時,約是不使用Paddle模式的103倍,如表3所示。
(2)去停用詞。在進行新聞文本關(guān)鍵詞提取前,需要做停用詞處理,主要是為了去除一些無意義的高頻詞匯,如“的、是、了、而、和”等。這些詞語出現(xiàn)的頻率非常高,但它們本身并沒有太多的語義信息,對于關(guān)鍵詞提取沒有太大的幫助。同時,去除這些無用的詞匯也可以減少文本處理的時間和計算量。停用詞處理的方法通常是通過建立一個停用詞表,包含需要去除的無用詞匯。在進行文本處理時,對于每一個詞語都需要和停用詞表中的詞匯進行比對,如果該詞語屬于停用詞,則將其去除,否則保留。這樣可以去除一些無用的高頻詞匯,提高關(guān)鍵詞提取的準確性和效率。本文對比三個常用的中文停用詞表后,決定使用百度停用詞表過濾停用詞。停用詞表適用類型見表4。
2.3 計算TF-IDF得分
TF-IDF的中文名為“詞頻-逆文檔頻率”,是一種統(tǒng)計方法,用于評估一個詞語在文檔中的重要程度。由詞頻(TermFrequency,TF)和逆文檔頻率(Inverse Document Frequency,IDF)兩個部分組成,它的核心思想是一個詞語在一篇文檔中出現(xiàn)的次數(shù)越多,同時在其他文檔中出現(xiàn)的次數(shù)越少,那么就越能代表該文檔[5]。
TF(詞頻)指的是某個詞在一篇文檔中出現(xiàn)的頻率。TF越高,說明這個詞在文檔中出現(xiàn)的次數(shù)越多,越重要。
IDF(逆文檔頻率)指的是某個詞在所有文檔中出現(xiàn)的頻率的倒數(shù)。如果一個詞在所有文檔中都頻繁出現(xiàn),那么它的IDF就會很低,說明這個詞在區(qū)分文檔時并沒有太大的用處。相反,如果一個詞只在少數(shù)文檔中出現(xiàn),那么它的IDF就會很高,說明這個詞在區(qū)分文檔時具有很大的作用。
綜合考慮TF和IDF,可以計算一個詞的TF-IDF值,它越高就表示這個詞在文檔中越重要[6]。計算公式如下:
4 結(jié)論(Conclusion)
本文提出了一種基于TF-IDF和TextRank的中文文本體育新聞的關(guān)鍵詞提取方法。該方法結(jié)合了TF-IDF算法和TextRank算法的優(yōu)點,提高了關(guān)鍵詞提取的準確性。通過TF-IDF方法可以篩選出具有高重要性的單詞,而TextRank方法則可以通過考慮單詞之間的關(guān)系提高關(guān)鍵詞的準確性。為驗證該方法,使用體育新聞數(shù)據(jù)集進行實驗,并與只使用TF-IDF和只使用TextRank進行提取關(guān)鍵詞準確率結(jié)果的比較。實驗結(jié)果表明,TF-IDF和TextRank結(jié)合的方法在F1 值上選擇5個關(guān)鍵詞時取得了更好的結(jié)果,相對于只使用TFIDF方法準確性提高約40%,相對于只使用TextRank方法準確性提高約32%。對基于TF-IDF和TextRank的方法進行詳細分析發(fā)現(xiàn),使用TextRank算法可以捕捉單詞之間的關(guān)系,有助于識別出一些相關(guān)的關(guān)鍵詞,但是它也容易將一些不相關(guān)的單詞也包含進來,而使用TF-IDF算法可以過濾一些常見的單詞,提高了關(guān)鍵詞的準確性。結(jié)合這兩種算法可以更好地平衡準確性和召回率,提高關(guān)鍵詞的提取效果。
基于TF-IDF和TextRank的方法還有一些改進的空間,如將詞語的語義信息考慮進來,使用深度學(xué)習(xí)等方法進行建模等。在未來的研究中,可以繼續(xù)改進基于TF-IDF和TextRank的方法,并在其他領(lǐng)域的關(guān)鍵詞提取任務(wù)中應(yīng)用。
參考文獻(References)
[1] 孟慶麟. 我國新聞出版的熱點關(guān)鍵詞分析與發(fā)展對策究研究[D]. 大連:大連海事大學(xué),2019.
[2] 蔣艷. 語料庫方法在新聞傳播研究中的發(fā)展應(yīng)用分析[J].新聞研究導(dǎo)刊,2022,13(24):23-26.
[3] 何傳鵬,尹玲,黃勃,等. 基于BERT和LightGBM 的文本關(guān)鍵詞提取方法[J]. 電子科技,2023,36(3):7-13.
[4] 張曉麗. 面向新聞領(lǐng)域的關(guān)鍵詞提取方法研究及系統(tǒng)實現(xiàn)[D].太原:山西大學(xué),2021.
[5] WANG Z H,WANG D, LI Q. Keyword extraction fromscientific research projects based on SRP-TF-IDF[J]. ChineseJournal of Electronics,2021,30(4):652-657.
[6] 張瑾. 基于改進TF-IDF算法的情報關(guān)鍵詞提取方法[J].情報雜志,2014,33(4):153-155.
[7] 趙占芳,劉鵬鵬,李雪山. 基于改進TextRank的鐵路文獻關(guān)鍵詞抽取算法[J]. 北京交通大學(xué)學(xué)報,2021,45(2):80-86.
[8] 李晨,趙燕清,于俊鳳,等. 基于詞向量與TextRank的政策文本關(guān)鍵詞匯抽取方法研究[J]. 現(xiàn)代計算機,2023,29(2):68-72.
作者簡介:
蘭曉芳(1998-),女,本科生。研究領(lǐng)域:數(shù)據(jù)處理,推薦算法。
劉 卓(2002-),男,本科生。研究領(lǐng)域:人工智能,數(shù)據(jù)處理。
許志豪(2001-),男,本科生。研究領(lǐng)域:機器學(xué)習(xí),數(shù)據(jù)處理。
肖 毅(1978-),男,博士生,講師。研究領(lǐng)域:數(shù)據(jù)處理,模式識別。本文通信作者。