張孝飛
(西藏民族大學(xué)圖書館 陜西咸陽 712082)
隨著網(wǎng)絡(luò)技術(shù)與存儲技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上的信息呈爆炸式增長,海量的網(wǎng)絡(luò)大數(shù)據(jù)既給情報研究帶來了機遇,也對其提出了挑戰(zhàn)。一方面通過新技術(shù)能在網(wǎng)絡(luò)數(shù)據(jù)中挖掘重要線索,使得政府、企業(yè)及科研機構(gòu)更加重視情報研究工作;另一方面網(wǎng)絡(luò)作為情報信息重要來源的新基地,使情報工作重新進行了定位。然而網(wǎng)絡(luò)數(shù)據(jù)不同于傳統(tǒng)的文獻數(shù)據(jù),它是一種非結(jié)構(gòu)化數(shù)據(jù)資源。人們通常需要對網(wǎng)絡(luò)數(shù)據(jù)進行采集、抽取、聚類等技術(shù)處理之后才能發(fā)現(xiàn)情報線索,在這一系列復(fù)雜技術(shù)處理中,網(wǎng)頁關(guān)鍵詞提取是核心環(huán)節(jié)。一個高質(zhì)量的關(guān)鍵詞可以直擊網(wǎng)頁事件的核心,成為情報監(jiān)測的重要線索,能夠有效提升政府決策情報、企業(yè)競爭情報和科技研究情報的發(fā)現(xiàn)能力。
首先,對國家和地方政府而言,伴隨著我國社會經(jīng)濟的轉(zhuǎn)型與發(fā)展,網(wǎng)絡(luò)成為輿論的集散地和中心地,各種矛盾通過網(wǎng)絡(luò)途徑暴露出來。國家和地方政府如何借助于信息技術(shù)手段從海量的網(wǎng)絡(luò)大數(shù)據(jù)中挖掘和發(fā)現(xiàn)社會突發(fā)事件及輿情熱點話題,進而采取積極合理的措施對社會輿論進行引導(dǎo),已經(jīng)成為政府決策情報研究的重要課題。最常見的決策情報監(jiān)測手段是網(wǎng)絡(luò)輿情監(jiān)測。網(wǎng)絡(luò)輿情是人們通過網(wǎng)絡(luò)媒體、博客及論壇等平臺,對社會焦點問題、突發(fā)事件等各種社會現(xiàn)象所表達(dá)的言論及意見的總和,是網(wǎng)民對事件的看法、情緒及態(tài)度的集中體現(xiàn)。網(wǎng)絡(luò)輿情的源頭來自于社會生活中的事件,而事件則主要由話題組成,話題又是由關(guān)鍵詞構(gòu)成,所以輿情監(jiān)測中的基礎(chǔ)環(huán)節(jié)是關(guān)鍵詞提取,高質(zhì)量的關(guān)鍵詞可以命中熱點話題的核心,成為輿情監(jiān)測與話題追蹤的重要線索。因此,只有準(zhǔn)確、迅速地找到合適的關(guān)鍵詞,才能有效地發(fā)現(xiàn)話題,進而最終確定事件的源頭。
對企業(yè)而言,面對激烈的市場競爭,如何借助于網(wǎng)絡(luò)大數(shù)據(jù)快速與準(zhǔn)確地獲取產(chǎn)品市場需求和同行競爭者的相關(guān)情報,進而通過對策制定和預(yù)警機制在市場競爭中獲得先機也已經(jīng)成為企業(yè)競爭情報研究的課題。競爭情報是對整體競爭環(huán)境和競爭對手的一個全面監(jiān)測過程。具體地說,競爭情報是用合乎法律和道德的手段,通過長期系統(tǒng)地跟蹤、收集、分析和處理各種可能對企業(yè)發(fā)展、決策及運行產(chǎn)生影響的信息,最終提煉出本企業(yè)及主要對手企業(yè)在市場競爭中的優(yōu)勢、劣勢和機會的關(guān)鍵情報,從而為企業(yè)各職能部門在戰(zhàn)略規(guī)劃、投資與并購、研究與發(fā)展、市場營銷等方面制定決策提供依據(jù)[1]。通過對目前市場上的企業(yè)專用情報監(jiān)測系統(tǒng)的分析來看,其關(guān)鍵技術(shù)還是在于網(wǎng)絡(luò)信息關(guān)鍵詞的自動提取。
對于科研人員而言,如何從繁雜的網(wǎng)絡(luò)大數(shù)據(jù)中獲取有價值的科研信息也已經(jīng)成為研究情報的熱點課題。從研究情報、尤其是社科類的研究情報監(jiān)測來看,對于傳統(tǒng)結(jié)構(gòu)化文獻信息的研究,研究人員只需利用常規(guī)的文獻分類方法和檢索手段即可滿足某領(lǐng)域現(xiàn)狀及發(fā)展的需求分析。而對于網(wǎng)絡(luò)資料這類非結(jié)構(gòu)化的信息情報資料,只有關(guān)鍵詞提取才能夠為該類型情報收集、自動分類、鑒別篩選提供有用的素材和線索。
綜上所述,關(guān)鍵詞提取是決策情報輿情監(jiān)測、競爭情報線索發(fā)現(xiàn)、研究情報信息歸類的基礎(chǔ)性環(huán)節(jié),對于決策情報、競爭情報及研究情報有重要的應(yīng)用價值,它是情報學(xué)的理論研究前沿,并朝著交叉學(xué)科的態(tài)勢發(fā)展[2]。
目前,國內(nèi)外學(xué)者在關(guān)鍵詞提取方面進行了大量的研究與探索。歸納起來,關(guān)鍵詞提取方法主要可分為四類:基于機器學(xué)習(xí)的方法、基于復(fù)雜網(wǎng)絡(luò)的方法、基于語義的方法和基于統(tǒng)計的方法。
一是基于機器學(xué)習(xí)的方法。在大規(guī)模語料庫學(xué)習(xí)基礎(chǔ)之上,采用貝葉斯算法、支持向量機、最大熵模型以及決策樹等方法進行訓(xùn)練,獲取相關(guān)模型特征,再利用構(gòu)建的模型進行關(guān)鍵詞提取[3]。
二是基于復(fù)雜網(wǎng)絡(luò)的方法。依據(jù)文本詞語的關(guān)系構(gòu)建候選特征詞復(fù)雜網(wǎng)絡(luò),計算以候選詞網(wǎng)絡(luò)節(jié)點度中心性、特征向量中心性和節(jié)點介數(shù)中心性為基礎(chǔ)的綜合特征值,提取一定閾值范圍的綜合特征值的候選特征詞作為關(guān)鍵詞。
三是基于語義的方法。根據(jù)詞法分析對文本進行自動分詞與詞性標(biāo)注,然后依靠語義詞典和知識庫對切分的詞匯進行語義標(biāo)注,在此基礎(chǔ)上分析詞匯在文本上下文中及詞匯間的語義關(guān)系,再利用復(fù)雜計算提取關(guān)鍵詞。
四是基于統(tǒng)計的方法。根據(jù)文檔集詞語的統(tǒng)計信息來提取關(guān)鍵詞,最常用的基于統(tǒng)計的方法是詞頻—逆向文本頻率(TFIDF)方法。
上述四種關(guān)鍵詞提取方法從不同的領(lǐng)域和角度進行研究:基于機器學(xué)習(xí)的方法需要有人工標(biāo)注的語料庫進行訓(xùn)練,構(gòu)建模型的完備性對訓(xùn)練語料的依賴性較大,若語料庫規(guī)模不足或人工標(biāo)注語料不夠準(zhǔn)確,將會導(dǎo)致提取的關(guān)鍵詞準(zhǔn)確性欠佳;基于復(fù)雜網(wǎng)絡(luò)的方法能夠較為準(zhǔn)確地提取文本關(guān)鍵詞,但依據(jù)詞匯的共現(xiàn)關(guān)系、概念同義關(guān)系、句法依存關(guān)系構(gòu)建詞語的網(wǎng)絡(luò)關(guān)系較為復(fù)雜,計算量很大,對于數(shù)量稍大的網(wǎng)絡(luò)文本時間效率過低,缺陷較為明顯;基于語義的方法在關(guān)鍵詞提取過程中融入了語義特征,實驗效果較好,但該方法的實現(xiàn)需要背景知識庫的支持,且知識庫需要不斷更新和維護;基于統(tǒng)計的方法關(guān)鍵詞提取算法相對簡單,不需要語料庫訓(xùn)練,也不需要語義詞典和知識庫的支持,但準(zhǔn)確率和召回率相對較低。有一些研究者通過不同手段對TFIDF 方法進行了改進,例如:李靜月考慮了中文文本結(jié)構(gòu)特征和詞語詞性特征對TFIDF算法進行了改進,張建娥從計算詞語關(guān)聯(lián)度方面提出了《基于TFIDF 和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法》。這些改進的統(tǒng)計方法在一定程度上提高了關(guān)鍵詞的提取精度。
本文提出一種融合多元特征的中文網(wǎng)頁關(guān)鍵詞提取方法。該方法首先對網(wǎng)頁文本進行分詞、詞性標(biāo)注,然后綜合計算出文本詞語的詞頻特征、詞性特征、詞長特征、位置特征的統(tǒng)計信息,再利用同義詞詞典對同一文本候選關(guān)鍵詞中的高度同義詞進行詞頻合并,并對鄰接組合詞生成進行計算,最后按照綜合權(quán)值提取關(guān)鍵詞。該方法融合了詞語語義學(xué)和統(tǒng)計學(xué)多元特征,有效地彌補了單一統(tǒng)計方法在關(guān)鍵詞提取中的不足。實驗結(jié)果顯示,該方法能顯著提高中文網(wǎng)頁關(guān)鍵詞的提取性能。
本文關(guān)鍵詞提取方法的整體框架如圖1 所示,從圖中可以看出關(guān)鍵詞提取的思路包括:網(wǎng)頁預(yù)處理、統(tǒng)計特征、同義詞合并和組合詞生成,最后根據(jù)候選關(guān)鍵詞的綜合評分得到關(guān)鍵詞列表。
圖1 整體框架圖
3.2.1 網(wǎng)頁內(nèi)容抽取
對于給定的網(wǎng)頁鏈接,首先利用爬蟲算法抓取網(wǎng)頁的HTML 半結(jié)構(gòu)化的文件,利用正則化規(guī)則對抓取的網(wǎng)頁進行統(tǒng)一編碼,然后基于網(wǎng)頁結(jié)構(gòu)對網(wǎng)頁進行去噪處理,即去除網(wǎng)頁中的導(dǎo)航條、廣告及版權(quán)等信息,最后抽取網(wǎng)頁標(biāo)題與正文信息以結(jié)構(gòu)化的方式保存。
3.2.2 分詞與詞性標(biāo)注
由于對網(wǎng)頁文本進行分詞之后才能繼續(xù)關(guān)鍵詞提取的后續(xù)流程,所以分詞是網(wǎng)頁關(guān)鍵詞提取的基礎(chǔ)環(huán)節(jié),分詞質(zhì)量的優(yōu)劣直接影響到關(guān)鍵詞提取的準(zhǔn)確度。與英文文本相比,中文文本詞與詞之間沒有以空格符為分隔的語法特征,因此更為復(fù)雜。目前,國內(nèi)已經(jīng)出現(xiàn)了幾種成熟的中文分詞系統(tǒng),本文在進行對比研究之后,選取中國科學(xué)院計算技術(shù)研究所開發(fā)的《漢語語法分析系統(tǒng)ICTCLAS》對抽取的網(wǎng)頁文本進行分詞和詞性標(biāo)注,該分詞系統(tǒng)應(yīng)用廣泛且準(zhǔn)確率較高。
3.2.3 停用詞過濾
網(wǎng)頁中的關(guān)鍵詞基本上是由名詞、動詞等有實際意義的詞匯組成。因此,我們在對抽取的網(wǎng)頁文本進行分詞和詞性標(biāo)注之后,需要根據(jù)詞性對分詞結(jié)果進行過濾,如利用算法過濾介詞、連詞、助詞等沒有實際意義的虛詞,只保留名詞、動詞、形容詞和副詞等詞匯;然后再利用停用詞表對明顯不可能作為關(guān)鍵詞的停用詞語進行第二次過濾,如“有”“這”“要”“我”“能”等,經(jīng)停用詞過濾后的詞匯稱為一級候選關(guān)鍵詞;最后統(tǒng)計候選關(guān)鍵詞集合中每一個詞匯在文檔中的頻率和位置等信息。
3.3.1 詞頻特征
詞頻TF 是關(guān)鍵詞提取的一個重要特征,如果某個詞或短語在一篇文檔中出現(xiàn)的頻率越高,這個詞越有可能成為該文檔的關(guān)鍵詞[4]。詞頻權(quán)重通常由某個詞在某篇文檔中出現(xiàn)的次數(shù)表示,但由于文檔篇幅的長短不一,導(dǎo)致關(guān)鍵詞的提取向長文檔偏斜,因此,我們必須對詞頻特征進行歸一化處理以分配合理的權(quán)重。根據(jù)詞頻特征計算文檔中詞條ti的權(quán)重Weight(freqti),公式如下:
其中,TF(ti)表示詞條ti在文檔d 中出現(xiàn)的頻率;分母Max(TF(t1), TF (t2)…TF (tn))表示文檔d 中詞頻最大詞條的詞頻??梢钥闯?,Weight(freqti)的值在0 和1 之間。
3.3.2 詞性特征
詞性特征表示一種淺層語言學(xué)知識,該特征克服了采用傳統(tǒng)語言學(xué)方法的弊端,其詞性的獲取避免了對文本進行復(fù)雜的語言學(xué)分析與標(biāo)注處理。中文網(wǎng)頁的關(guān)鍵詞通常集中在名詞、動詞和形容詞等實詞之中。根據(jù)筆者大量的人工標(biāo)注抽取關(guān)鍵詞的實驗統(tǒng)計分析,詞條ti詞性權(quán)重Weight(posti)設(shè)置的計算公式如下:
3.3.3 詞長特征
詞語的語義也受到詞長的影響,通常詞語長度越長表示的意思越具體,包含的語義信息更豐富,因此,長度較長詞語的成為關(guān)鍵詞的概率更大。但詞語長度特征的權(quán)重并不是與其長度成線性關(guān)系,在計算時需要做歸一化處理,詞條ti詞長權(quán)重Weight(lenti)歸一化后的計算公式如下:
其中,len(ti)表示詞條ti 的實際詞長,分母Max(len(t1), len(t2)…len(tn))表示文檔d 中詞條最長詞的長度,可以看出,Weight(lenti)的值在0 和1 之間。
3.3.4 位置特征
關(guān)鍵詞提取還有一個重要特征就是詞條在文檔中的位置,通常如果詞條出現(xiàn)在文檔的標(biāo)題、首段、尾段中,則其成為關(guān)鍵詞的概率較高。按照詞條在標(biāo)題、首段、末段、正文等位置分別賦予不同的權(quán)重,詞條ti的位置權(quán)重Weight(locti)計算公式如下:
其中,loc(ti)表示詞條ti首次出現(xiàn)的次序,total_word表示文檔d 中詞條總數(shù),如果一個詞條多次出現(xiàn)在文檔中的不同位置則取所在位置中權(quán)重的最大值。
3.4.1 《同義詞詞林?jǐn)U展版》簡介
《同義詞詞林?jǐn)U展版》是哈爾濱工業(yè)大學(xué)信息檢索實驗室對原版《同義詞詞林》進行新詞擴充、罕用詞剔除后而形成的一部漢語大詞表,它收錄了77 343 條詞語。《同義詞詞林?jǐn)U展版》按樹形的層狀結(jié)構(gòu)組織所收錄的詞條,它具有5 級層結(jié)構(gòu),隨著層級的遞增,詞義刻畫更精細(xì),到了第5 層級,每個分類包含的詞條數(shù)量已不大,多數(shù)分類已不可再分,只有一個詞語,可以稱為原子節(jié)點或原子詞群?!锻x詞詞林?jǐn)U展版》中的每個詞語都有對應(yīng)的編碼,編碼是由5 層代碼和一位標(biāo)記碼共8 位構(gòu)成。第1 級用一位大寫英文字母表示;第2 級用一位小寫英文字母表示;第3 級用兩位十進位數(shù)字表示;第4 級用一位大寫英文字母表示;第5 級用兩位十進位數(shù)字表示。例:“Ae07C01=漁民 漁家 漁翁 漁夫 漁父 打魚郎”,其中,“Ae07C01=”是編碼,“漁民”“漁家”等是該編碼對應(yīng)的詞語。編碼自左至右按等級順序排列,編碼分支越靠右,詞語間的語義就越靠近。第8 位標(biāo)記符號有“=”“#”“@”3 種形式:“=”表示同義關(guān)系;“#”表示相關(guān)關(guān)系;“@”表示獨立關(guān)系,也就是該詞語無同義詞和相關(guān)詞[5]。
3.4.2 同義詞合并
在一篇網(wǎng)頁文檔中出現(xiàn)同義詞現(xiàn)象是很普遍的,即作者很可能選擇不同的詞語來表達(dá)相同的意思,如“保護”和“保衛(wèi)”、“教室”和“課堂”[6]。這些用不同詞語表達(dá)同一概念的現(xiàn)象可能會造成關(guān)鍵詞輸出結(jié)果的冗余或遺漏,影響到關(guān)鍵詞提取質(zhì)量。由于《同義詞詞林?jǐn)U展版》知識庫具有豐富的同義詞詞庫,我們可以考慮利用《同義詞詞林?jǐn)U展版》詞匯間的同義關(guān)系對文檔中同義詞進行合并。具體做法如下:對于網(wǎng)頁文檔中的每個一級候選關(guān)鍵詞在《同義詞詞林?jǐn)U展版》中找到其編碼第8 位標(biāo)記為“=”的同義關(guān)系詞匯組,利用該詞及其同義詞組遍歷一級候選關(guān)鍵詞序列,取序列中詞頻最高的詞匯作為該同義詞組的代表詞,并對文檔中所有該詞的同義一級候選詞頻進行合并計算,將頻數(shù)和作為代表詞詞頻。對一級候選關(guān)鍵詞序列進行同義詞合并后就形成了二級候選關(guān)鍵詞序列
在對網(wǎng)頁文檔中的一級候選關(guān)鍵詞進行同義詞合并處理后得到二級候選關(guān)鍵詞序列,針對二級候選關(guān)鍵詞序列中的每一個詞匯根據(jù)公式(1)、(2)、(3)、(4)設(shè)計一個詞匯綜合特征關(guān)鍵詞評分公式,如公式(5)所示:
其中,Scorei(ti)表示二級候選關(guān)鍵詞條ti在文檔中的關(guān)鍵詞評分,A、B、C、D 為各特征權(quán)重的比例因子,用以調(diào)節(jié)不同特征權(quán)重在關(guān)鍵詞綜合評分中的貢獻度。
由于目前的分詞算法很難分辨詞匯在文檔中的上下文語境關(guān)系,所以對文檔進行分詞后經(jīng)常會出現(xiàn)完整詞匯被割裂的現(xiàn)象(例:“傳染病”被切分為“傳染”和“病”)或?qū)⒙?lián)系緊密的詞拆分成兩部分(如:“政府工作報告”被拆分成“政府”“工作”和“報告”)。因此,我們在關(guān)鍵詞提取時必須考慮詞匯的特定語境及其完整性,有必要對經(jīng)過切分的詞匯進行組合,從而得到一個表達(dá)語義更為完整和豐富的組合詞。
3.6.1 組合詞生成規(guī)則
本文在借鑒漢語言搭配相關(guān)研究成果的基礎(chǔ)上,通過大量實驗得到組合詞生成的規(guī)則。由于3 詞以上組合詞出現(xiàn)的概率較低,所以本文在詞性組合規(guī)則中僅考慮2—3 詞的組合,3 詞以上的組合詞僅用前兩條規(guī)則限制,組合詞的具體生成規(guī)則如下:
(1)詞語相鄰,且同時在文檔中出現(xiàn)多次;
(2)組合詞至少在文檔中出現(xiàn)多次,以防止組合詞的偶然性;
(3)兩組合詞的詞性組合必須符合“形容詞+名詞”“動詞+名詞”“動詞+副詞”“名詞+動詞”“名詞+名詞”;
(4)三組合詞的詞性組合必須符合“名詞+形容詞+名詞”“名詞+名詞+名詞”“動詞+名詞+名詞”“名詞+名詞+動詞”“名詞+動詞+名詞”“形容詞+名詞+動詞”
3.6.2 組合詞的權(quán)重與關(guān)鍵詞評分
組合詞的特征權(quán)重與組配的二級候選關(guān)鍵詞的詞頻和組合詞的詞頻有關(guān),假設(shè)組合詞t 是由n 個二級候選關(guān)鍵詞(t1、t2、…tn)組合成的,t 及其候選關(guān)鍵詞在同一文檔中的詞頻分別為a、a1、a2、…an,則組合詞的特征權(quán)重計算公式如下:
得到了組合詞的特征權(quán)重后,再結(jié)合基于綜合特征的關(guān)鍵詞的評分方法可以得到組合的關(guān)鍵詞評分公式如下:
其中,Score(t)表示組合詞t 的關(guān)鍵詞評分,E 表示調(diào)節(jié)因子表示組合詞的特征權(quán)重表示n 個二級候選關(guān)鍵詞綜合特征評分的算術(shù)平均值。
關(guān)鍵詞提取的基本流程是:首先對給定的網(wǎng)頁進行預(yù)處理形成一級候選關(guān)鍵詞;其次對一級關(guān)鍵詞進行同義詞合并、基于綜合特征權(quán)重的關(guān)鍵詞評分后形成二級候選關(guān)鍵詞;然后對二級候選關(guān)鍵詞進行組合詞生成;再對二級關(guān)鍵詞及組合詞按關(guān)鍵詞評分的降序排列,按組合詞從屬關(guān)系過濾(因為原二級候選關(guān)鍵詞與其組合詞存在從屬關(guān)系,例如:組合詞“精準(zhǔn)扶貧”是由二級候選詞“精準(zhǔn)”與“扶貧”組合生成的),過濾是按照排列次序原則,也就是存在從屬關(guān)系的語匯誰靠后過濾掉誰;最后按照用戶指定關(guān)鍵詞的數(shù)目取前N 個作為最終提取的關(guān)鍵詞。
為了驗證本文所提出的關(guān)鍵詞提取算法的有效性,筆者利用實驗進行驗證。為了保證實驗數(shù)據(jù)的隨機性,我們隨機從新浪、搜狐等8 個新聞類網(wǎng)站中抽取200 篇中文新聞網(wǎng)頁,分別利用傳統(tǒng)的TF-IDF 方法和本文方法進行網(wǎng)頁關(guān)鍵詞提取,將人工標(biāo)注的關(guān)鍵詞與算法自動提取的關(guān)鍵詞進行對比,得到關(guān)鍵詞提取效率結(jié)果。
實驗按照以下的流程進行:
(1)利用HtmlParser 編寫的包裝器提取樣本網(wǎng)頁的標(biāo)題和正文,利用中科院開發(fā)的ICTCLAS 分詞系統(tǒng)對于提取的結(jié)構(gòu)化網(wǎng)頁信息進行分詞及詞性標(biāo)注。
(2)利用停用詞表去除文中的停用詞和標(biāo)點,并統(tǒng)計詞的相關(guān)特征得到一級候選關(guān)鍵詞序列。
(3)利用《同義詞詞林?jǐn)U展版》知識庫對一級候選關(guān)鍵詞序列進行同義詞合并形成二級候選關(guān)鍵詞序列。
(4)利用組合詞規(guī)則對二級候選關(guān)鍵詞進行組合詞生成,分別利用公式5 和公式7 計算二級候選關(guān)鍵詞和組合詞的關(guān)鍵詞評分,經(jīng)過多次實驗測試和調(diào)整,基于綜合特征的關(guān)鍵詞評分公式(即公式5)中的比例因子分別設(shè)定為:A=0.4、B=0.1、C=0.2、D=0.15,組合詞關(guān)鍵詞評分公式中(即公式7)的調(diào)節(jié)因子E=0.15。這樣設(shè)置突出了詞頻的貢獻,因為高頻詞成為關(guān)鍵詞的可能性更大一些。
(5)將二級候選關(guān)鍵詞與組合詞按關(guān)鍵詞評分降序排列,再進行詞匯從屬關(guān)系過濾,取前N 個詞作為最終關(guān)鍵詞。
以http://www.sohu.com/a/301634727_148781?_f=index_chan08news_3 搜狐網(wǎng)頁為例,文章標(biāo)題為“政府工作報告修改83 處 新增4 處‘改革’”,主要介紹了國務(wù)院研究室副主任郭瑋解讀2019 年政府工作報告修訂情況[7]。由本文算法提取的前5 個關(guān)鍵詞為“修改”“政府工作報告”“養(yǎng)老”“房地產(chǎn)”“保障”。由于分詞系統(tǒng)的局限性,傳統(tǒng)的關(guān)鍵詞提取算法不能提取出如“政府工作報告”這種組合關(guān)鍵詞,可能會提取出“政府”“工作”“報告”等,顯然沒有“政府工作報告”表達(dá)的意義完整和豐富。
實驗中采用查準(zhǔn)率(Precision)、查全率(Recall)和F測度值3 項指標(biāo)對關(guān)鍵詞提取算法的有效性進行評價。為了理解以下實驗中公式的意義,首先定義2 個變量,A 表示人工提取的關(guān)鍵詞,B 表示算法自動提取的關(guān)鍵詞。
(1)查準(zhǔn)率(Precision)指算法自動提取和人工提取均判斷為關(guān)鍵詞的數(shù)量占整個自動提取關(guān)鍵詞數(shù)量的比率[8]。它反映了關(guān)鍵詞提取算法抽取關(guān)鍵詞的準(zhǔn)確度。計算公式如下:
(2)查全率(Recall)指算法自動提取和人工提取均判斷為關(guān)鍵詞數(shù)量占整個人工提取關(guān)鍵詞數(shù)量的比率,它反映了關(guān)鍵詞提取算法發(fā)現(xiàn)關(guān)鍵詞的能力,計算公式如下:
(3)F 測度值(F-measure)是查準(zhǔn)率和查全率的調(diào)和平均值。它反映了關(guān)鍵詞提取算法提取關(guān)鍵詞的綜合能力,計算公式如下:
實驗中分別使用了傳統(tǒng)的TF-IDF 算法和本文的算法統(tǒng)計了抽取不同關(guān)鍵詞個數(shù)情況下的查準(zhǔn)率、查全率和F測量值。實驗結(jié)果數(shù)據(jù)如表1 所示:
表1 兩種算法在不同關(guān)鍵詞個數(shù)情況下提取性能對比
從實驗結(jié)果可以看出,本文算法的查準(zhǔn)率、查全率和F 測度值都要優(yōu)于傳統(tǒng)的TF-IDF 算法。本文算法既考慮了詞頻、詞長等多種特征的整合,又考慮了同義詞對關(guān)鍵詞提取的影響,另外組合詞的生成也有利于使關(guān)鍵詞的語義更豐富;而傳統(tǒng)的TF-IDF 算法僅考慮詞頻特征及逆文本頻率指數(shù)對關(guān)鍵詞提取的影響,考慮的特征偏少,性能效果不如本文的算法。
圖2 兩種算法的查準(zhǔn)率隨關(guān)鍵詞個數(shù)變化圖
圖2 表示兩種算法的查準(zhǔn)率隨關(guān)鍵詞個數(shù)變化的趨勢。從圖中可以看出,本文算法的查準(zhǔn)率要優(yōu)于傳統(tǒng)的TF-IDF算法,兩種算法的查準(zhǔn)率都呈現(xiàn)隨關(guān)鍵詞個數(shù)增加而遞減的趨勢,這是因為關(guān)鍵詞個數(shù)較少時,其綜合權(quán)值越靠前,被正確提取的可能性就越大,因此查準(zhǔn)率越高。
圖3 兩種算法的查全率隨關(guān)鍵詞個數(shù)變化圖
圖3 表示兩種算法的查全率隨關(guān)鍵詞個數(shù)變化的趨勢。從圖中可以看出,本文算法的查全率要優(yōu)于傳統(tǒng)的TF-IDF 算法,兩種算法的查全率都呈現(xiàn)隨關(guān)鍵詞個數(shù)增加而遞增的趨勢,這是因為所取關(guān)鍵詞個數(shù)較少時,部分關(guān)鍵詞的權(quán)值排序靠后不能被提取,因此查全率越低。
圖4 兩種算法的F 測度值隨關(guān)鍵詞個數(shù)變化圖
圖4 勾勒出了兩種算法的F 測量值隨關(guān)鍵詞個數(shù)變化的趨勢。從圖中可以看出,本文算法的F 測量值明顯高于傳統(tǒng)的TF-IDF 算法,兩種算法的F 測量值都隨關(guān)鍵詞個數(shù)的增加呈現(xiàn)先增后減的趨勢,在關(guān)鍵詞個數(shù)為5 時達(dá)到最大。
本文采取了基于多元特征并組合詞生成的關(guān)鍵詞提取算法。實驗結(jié)果表明:本文算法明顯優(yōu)于傳統(tǒng)的TF-IDF 算法,能夠抽取到令人滿意的關(guān)鍵詞。但是,本文所提出的關(guān)鍵詞提取新算法只是初步嘗試和探索,還存在不足和需要優(yōu)化的地方:①關(guān)鍵詞綜合評分公式中的比例因子和組合關(guān)鍵詞評分公式中的調(diào)節(jié)因子是實驗測試總結(jié)出來的,缺乏權(quán)威性,可能會對提取精度有所影響;②對于分詞系統(tǒng)不能正確切分的未登錄詞組合算法在關(guān)鍵詞提取時可能存在遺漏。下一步的研究方向是修正算法進一步提升關(guān)鍵詞提取效率和精度,注重未登錄詞的識別與提取研究,切實體現(xiàn)關(guān)鍵詞提取技術(shù)在決策情報、競爭情報和研究情報監(jiān)測中的作用。
(來稿時間:2019 年5 月)