楊歡歡,趙書良,李文斌,武永亮,田國強
(1. 河北師范大學計算機與網絡空間安全學院,石家莊,050024;2. 河北師范大學河北省供應鏈大數(shù)據(jù)分析與數(shù)據(jù)安全工程研究中心,石家莊,050024;3. 河北師范大學河北省網絡與信息安全重點實驗室,石家莊,050024;4. 河北地質大學信息工程學院,石家莊,050031;5.河北師范大學數(shù)學科學學院,石家莊,050024)
互聯(lián)網技術的發(fā)展帶來了大量的非結構化文本數(shù)據(jù),如新聞、日志及社交評論等。如何將文本數(shù)據(jù)表示成計算機可以處理的形式是文本挖掘任務的首要問題。詞袋模型是經典的文本表示方法,但是它忽略了詞出現(xiàn)的順序,不能表達完整的語義并且存在維數(shù)災難的問題。因此,近幾年的研究從詞語粒度轉變?yōu)槎陶Z粒度,實現(xiàn)了對文本更好的表示。從文檔中挖掘短語不僅可以幫助人們迅速準確地理解文檔主旨,還可以應用到主題建模、文檔摘要和信息檢索等任務中,具有重要的研究意義。
短語挖掘起源于自然語言處理中的自動術語識別,后來出現(xiàn)了基于語法規(guī)則的短語挖掘,Li 等[1]針對Twitter 數(shù)據(jù)提出基于分段的詞性標注分割框架HybridSeg。Shang 等[2]從公共知識庫中獲得Quality Phrase,構建了一種自動化短語挖掘框架AutoPhrase,并開發(fā)POS(Part of speech)引導的短語分割模型進一步提高性能。Lin 等[3]基于概念知識樹建立雙賓短語的語義表達模型,使計算機能夠理解并處理雙賓短語。但是,基于語法規(guī)則的短語挖掘不容易遷移到其他語言,不適合分析與語法無關的文本數(shù)據(jù),因此實現(xiàn)了基于數(shù)據(jù)驅動的短語挖掘。Noraset 等[4]利用邊緣估計來改進遞歸神經網絡語言模型,通過訓練邊緣值匹配語料庫中的N-Gram 概率。Chi 等[5]旨在挖掘具有區(qū)別力的、非冗余的文本最長閉頻繁序列模式。然而,基于數(shù)據(jù)的方法需要設定閾值,超過閾值認為符合短語,可想這種方式會丟失小于閾值但有意義的短語,為了改進提出基于統(tǒng)計的短語挖掘方法。該方法的思想是計算候選短語得分,從大到小排序來提高短語質量。Parameswaran 等[6]將從數(shù)據(jù)集中提取概念的問題視為超市購物籃問題,采用支持度和置信度作為統(tǒng)計指標來抽取概念。El-Kishky 等[7]提出根據(jù)索引找到大于最小支持度閾值的短語作為候選,自底向上地按照Sig 得分進行合并,最后將一篇文檔表示成短語袋的形式。Nedelina等[8]改進Topical PageRank 算法,將主題特異性和語料庫特異性作為短語顯著性得分指標,按照排名順序提取短語。
最新研究關注關鍵短語的生成與提取。文獻[9-11]基于Seq2Seq 架構,將語言的相關約束融入到關鍵短語生成中。文獻[12-14]研究得出神經關鍵短語的生成方法。Debanjan 等[15]使用短語嵌入提取關鍵短語。Florian[16]實現(xiàn)了基于多部圖的無監(jiān)督關鍵短語提取。Zhang 等[17]將人的注意力集成到關鍵短語提取模型中,有效改進了Twitter 數(shù)據(jù)集。
雖然有學者致力于關鍵短語的研究,但關鍵短語個數(shù)較少,不能很好地表示文檔。因此,本文以Quality Phrase 為挖掘目標,針對基于統(tǒng)計的短語挖掘存在候選短語質量不高、Quality Phrase 特征權重分配不恰當?shù)膯栴},提出基于統(tǒng)計特征的Quality Phrase 挖掘方法(Quality Phrase mining method based on statistic features,QPMSF)。該方法將頻繁N-Gram 挖掘、多詞短語的組合性約束和單詞短語的拼寫檢查相結合,保證了候選短語的質量;引入公共知識庫對候選短語添加類別標簽,實現(xiàn)了根據(jù)特征對Quality Phrase 貢獻程度的不同來分配相應的權重;最后按照候選短語的特征加權函數(shù)得分排序,提取Quality Phrase。
定義1 短語。短語P是由文本文檔d中從第i個單詞位置開始、長度為l的不間斷單詞序列組成,即P=d[i,i+l-1]=wi,wi+1,…,wi+l-1。短語是介于單詞和句子之間的語言單位。
定義2 Quality Phrase。文本文檔d中能夠表達特定的主題或含義,可以作為完整語義單元出現(xiàn)的短語稱為Quality Phrase。
定義3 Quality Phrase 挖掘。指從任意長度、任意形式的文本語料庫C(如商業(yè)評論語料庫、論文摘要語料庫、新聞語料庫等)中,提取每篇文本文檔內出現(xiàn)的短語,對短語賦予一定的質量得分,按照得分由高到低進行排序,選擇得分較大的前m個短語組成Quality Phrase 的集合QP={QP1,…,QPm},即為Quality Phrase 挖掘的結果。Quality Phrase 挖掘可以作為主題建模、文本分類以及信息檢索等文本任務的基礎。
定義4 點互信息PMI(Pointwise mutual information)。假設離散隨機變量Pi,Pj相互獨立,PMI量化了聯(lián)合概率p(Pi,Pj)與個體分布p(Pi),p(Pj)之間的差異,衡量了兩個隨機變量之間的相關性,具體表示為
在短語挖掘 領域,“Quality Phrase”還沒有一個通用的評價標準。本文根據(jù)文獻[18-21]的研究,總結得出較為客觀的短語質量評價準則:頻繁性、組合性、信息性和完整性,用于后續(xù)的Quality Phrase 挖掘方法。下面依次闡述各準則的具體含義,并給出數(shù)學公式來量化準則。
準則1 頻繁性。如果短語P在文本語料庫C中總共出現(xiàn)的次數(shù)f(P)大于某個特定的閾值ft,則短語P滿足頻繁性。閾值ft根據(jù)語料庫的規(guī)模、內容不斷變化。
從統(tǒng)計的角度來說,高頻短語具有相對重要的作用,低頻短語可能是不重要的。例如,一篇科技論文中多次寫到“deep learning”,那么該短語是Quality Phrase 的可能性極大。
準則2 組合性。短語P滿足組合性準則,當且僅當存在一組Pi,Pj,使得P=Pi⊕Pj并且function(Pi,Pj)=true。其中,⊕指短語P的詞序列可以由Pi,Pj兩部分組成,function 是某個特定統(tǒng)計意義度量(互信息、卡方檢驗、T 檢驗等)下的布爾函數(shù),決定Pi,Pj能否合并。
通俗地講,組合性指如果兩個相鄰的單詞或短語共同出現(xiàn)比單獨出現(xiàn)更有意義,則這兩個相鄰的單詞或短語可以合并成一個新的短語。例如,New 和York 共同出現(xiàn)比York 單獨出現(xiàn)的頻率更高,表達的意義更完整,因此在進行Quality Phrase 挖掘時,將New York 識別為具有組合性準則的短語。
本文利用信息論中的互信息相關理論來表示組合性的布爾函數(shù)function?;バ畔⒖梢远攘恳粋€隨機變量中包含另一個隨機變量的信息量。由互信息衍生出來的“點互信息”這一概念更適合應用到組合性準則的度量中。由定義4 可知,等式的最后一項可以理解為在Pi出現(xiàn)的情況下Pj出現(xiàn)的概率除以Pj單獨出現(xiàn)的概率。比值越大,說明Pi,Pj共同出現(xiàn)更有意義,可以合并,短語P滿足組合性。其中p(x)的計算方式為x在語料庫中出現(xiàn)的次數(shù)與所有頻繁短語出現(xiàn)總次數(shù)的比值。
式中Pop表示文本語料庫中所有符合準則1 的頻繁短語的集合。因此,組合性的布爾函數(shù)表示為
準則3 信息性。若短語P在文本文檔d中能夠表達特定的主題或準確的概念,則稱該短語滿足信息性準則。例如,一篇科技論文中,“text classification”這一短語要比“the paper”具有更好的信息性。
將頻繁性準則應用到N-Gram 短語提取過程中,可以過濾掉文本語料庫中頻數(shù)小于閾值ft的詞語序列,有效減少短語的數(shù)量。本文根據(jù)短語的索引位置提出基于索引信息的頻繁N-Gram 挖掘算法。其中用到2 個鍵值對字典表:第1 個為索引字典表,將短語字符串作為鍵,短語出現(xiàn)的所有位置的列表作為值;第2 個為頻數(shù)字典表,短語字符串為鍵,該短語在文本語料庫中出現(xiàn)的頻數(shù)作為值。代碼如算法1所示。
算法1 以數(shù)據(jù)預處理后的文本語料庫為基礎,第1~2 步初始化字典表;第3~8 步使用雙層循環(huán)將文本語料庫中所有單詞的索引信息保存在索引字典表中;第9~24 步的最外層循環(huán)根據(jù)短語的長度從小到大依次迭代,目的是若長度為len的短語不滿足頻繁性,則以它開始的長度為len+1 的短語必定不頻繁,可以按照短語長度排除該短語的所有超短語,減少算法的時間消耗。算法1 中ω是一個很小的輸入常數(shù),不會對時間復雜度產生影響。對于滿足頻繁性準則的短語,第12~19 步表示將頻繁短語放入頻數(shù)字典表,并將該短語的超短語(長度增加1)索引信息保存到臨時索引字典表,待當前長度的所有短語判斷完畢后,進入下一輪迭代。
3.1 節(jié)挖掘得到的短語滿足頻繁性準則,在此過程中,頻繁性閾值的大小起到了決定性作用。當頻繁性閾值設置較大時,從文本語料庫提取的短語數(shù)量相對較少、質量很高,但是這種方式會過濾掉一些出現(xiàn)次數(shù)不多卻對文章主旨有意義的短語;若頻繁性閾值設置較小,可以保證不遺漏出現(xiàn)頻數(shù)少卻有意義的短語,但隨之帶來的缺點是短語數(shù)量增多,為后續(xù)的Quality Phrase 挖掘帶來時間上的消耗。為解決頻繁性閾值帶來的問題,本文在候選短語挖掘階段加入組合性約束,在低頻短語的基礎上,需滿足統(tǒng)計意義度量函數(shù),既減少了低頻短語的數(shù)量,也確保了候選短語的質量。
由組合性準則可知,判斷短語是否符合組合性,關鍵是能否找到一個有效的分割位置,使得左右兩個子短語的統(tǒng)計意義得分為真。尋找最優(yōu)分割位置的方式根據(jù)自底向上、逐層迭代的思想,按照統(tǒng)計意義得分最大的原則,對每一層產生的兩個相鄰單元(可能是單字詞語或多詞短語)進行合并,最外層統(tǒng)計意義得分的結果決定該短語是否滿足組合性。迭代過程中小于組合性閾值繼續(xù)執(zhí)行。
下面以“Automated Phrase Mining from Text Corpora”為例,詳細說明組合性準則的評判過程。算法初始時,假設組合性閾值α=3,短語以空格為分隔,每個單詞自然形成一個單元。迭代的第一步計算任意兩個相鄰單元(Automated 和Phrase,Phrase 和Mining,Mining 和from,from 和Text,Text 和Corpora)的PMI 值,選取最大值Text 和Corpora,將2 個單詞合并到1 個單元。在此基礎上進行第2 層的迭代,計算相鄰單元(Automated 和Phrase,Phrase 和Mining,Mining和from,from 和Text Corpora)的PMI 值,此時計算結果顯示Phrase 和Mining 的緊密程度最大,將Phrase 和Mining 合并到同一個單元。第3 層的迭代共4 個單元、3 組候選組合,按照最大值原則合并的單元為from 和Text Corpora。第4 層迭代得出Phrase Mining 和from Text Corpora 之間的統(tǒng)計意義得分高于Automated 和Phrase Mining。最后,計算單元Automated 和單元Phrase Mining from Text Corpora 之間的PMI 值為3.3,高于設定的閾值α,因此該短語滿足組合性準則。判斷過程中,保存相鄰單元的PMI 值,避免重復計算。
組合性準則適用于2 個及以上單詞組成的短語,然而單詞的質量也會影響候選短語挖掘的精度。為改進暴力算法對單詞進行拼寫檢查的缺陷,本文引入Trie 單詞查找樹結構,利用字符串的公共前綴來減少查詢時間,最大限度地減少字符串的比較次數(shù),同時提升挖掘準確率。
Trie 單詞查找樹具有3 個基本性質:(1)根節(jié)點不包含字符,除根節(jié)點外的每一個節(jié)點都只包含1 個字符;(2)從根節(jié)點到某一節(jié)點,路徑上經過的字符連接起來為該節(jié)點對應的字符串;(3)每個節(jié)點的所有子節(jié)點包含的字符都不相同。圖3 是以adj,adv,auto,but,bus,from 和feel 為 例 構 建 的Trie 單 詞 查 找 樹。候 選 短 語 挖 掘的單詞短語拼寫檢查過程中,先構建單詞表的Trie 結構,然后檢查頻繁1-Gram 是否在Trie 中出現(xiàn),若出現(xiàn),則加入候選短語列表。
綜合頻繁N-Gram 挖掘、多詞短語的組合性約束和單詞短語的拼寫檢查,提出基于統(tǒng)計特征的候選短語挖掘方法。具體代碼實現(xiàn)如下。
圖2 短語的組合性判斷示例Fig.2 Example of combinatorial judgment of phrase
圖3 Trie 單詞查找樹結構Fig.3 Structure of Trie tree
將頻繁N-Gram 作為算法2 的輸入,第1~3 步結合外部字典表構建Trie 單詞查找樹;從第4 步開始,對頻繁短語進行逐個判斷。若短語長度為1,執(zhí)行第5~8 步,通過拼寫檢查的單詞放入候選短語列表;若長度為2,執(zhí)行第9~12 步,計算左右兩個單詞的PMI 是否大于α,若大于閾值則放入候選短語列表。當短語長度大于2 時,執(zhí)行第13 步的條件分支。如圖2 的判斷過程,短語長度決定第15 步的迭代次數(shù),每次迭代先找到相鄰兩個單元PMI 的最大值進行合并(第16~25 步),當只剩下2 個單元時,執(zhí)行第28~30 步計算PMI 值,若大于閾值α加入候選短語列表。
在上述候選短語挖掘的基礎上,計算頻繁性、組合性、信息性和完整性4 個準則的值作為候選短語的4 個特征,根據(jù)4 個特征對Quality Phrase 的貢獻程度得到對應的權重,考慮特征之間的相互影響引入懲罰因子調整權重分配。最后按照候選短語的特征加權函數(shù)得分排序,選擇Quality Phrase。
在Quality Phrase 挖掘中,特征加權的目的是得到頻繁性、組合性、信息性和完整性4 個特征對Quality Phrase 貢獻程度的大小,使得對Quality Phrase 影響較大的特征占較大的權重,對Quality Phrase影響較小的特征占較小的權重,按照特征加權函數(shù)得分進行排序,提高短語挖掘的性能。
本文根據(jù)類別信息計算權重,具體思路如下:
(1)計算每個候選短語的頻數(shù),PMI,IDF,Psub,標記候選短語的類別(以公共語料庫維基百科為基準,若候選短語在維基百科中出現(xiàn),則標記1;否則標記為0),得到特征矩陣,矩陣的每行代表一個候選短語,5 列分別代表頻次,PMI,IDF,Psub和類別。
(2)定義如下參數(shù):
ta:類別為1 的候選短語在當前特征維度的特征值之和;
tb:類別為1 的候選短語在除當前特征之外的其他特征維度上的特征值之和;
tc:類別為0 的候選短語在當前特征維度的特征值之和;
td:類別為0 的候選短語在除當前特征之外的其他特征維度上的特征值之和。
根據(jù)參數(shù),本文提出“特征貢獻程度”的概念表示4 個特征對Quality Phrase 的影響程度,表達式為
特征對類別的區(qū)分能力直接取決于類別為1 的候選短語在當前特征維度的特征值之和與所有候選短語在當前特征維度的特征值之和,比值越大,當前特征屬于類別1 的概率越大。
(3)對4 個特征的貢獻程度進行歸一化處理,得到候選短語的特征加權函數(shù)
考慮到特征之間相互影響存在冗余的情況,本節(jié)采用皮爾遜相關系數(shù)度量2 個特征之間的相關程度,加入懲罰因子表示特征的冗余量對Quality Phrase 造成的負面影響,改進特征貢獻程度,完善候選短語的特征加權函數(shù),提取Quality Phrase。
兩個特征之間的皮爾遜相關系數(shù)為
式中:fi,fj表示兩個特征;cov(fi,fj)為兩個特征的協(xié)方差;δfi和δfj分別為標準差。皮爾遜相關系數(shù)越大表明特征之間存在的冗余越多。由于本文只考慮特征之間的影響程度,與正負無關,因此取皮爾遜相關系數(shù)的絕對值|ρi,j|作為度量指標。那么,特征的冗余度計算方式為該特征與特征空間F中其他3 個特征的皮爾遜相關系數(shù)的絕對值之和的平均值,表達式為
式中ρi'的取值分為以下幾種情況:當ρi'=0 時,特征fi沒有冗余,即該特征的貢獻程度不需要減弱;當ρi'≠0 時,值越大表示該特征越冗余,需要調整特征fi的貢獻程度;當ρi'=1 時,表明該特征可以被其他特征所替代,為減少冗余可取消該特征。因此,引入懲罰因子βi來改進特征之間的相互影響
改進后,特征的權重為
最終,候選短語的特征加權函數(shù)為
結合4.1 節(jié)特征對Quality Phrase 的貢獻程度和4.2 節(jié)特征之間相互影響,本文提出基于統(tǒng)計特征的Quality Phrase 選擇方法,算法如下。
在算法3 中,第1~10 步根據(jù)式(7)的定義計算頻繁性、組合性、信息性和完整性4 個特征對Quality Phrase 的貢獻程度。第11~24 步根據(jù)式(9)—(12)加入懲罰因子去除特征之間的冗余,調整特征的權重比例。第25~28 步根據(jù)式(13)計算每個候選短語的特征加權函數(shù)得分,第30 步對函數(shù)得分排序,選擇排名前rankid 的候選短語作為Quality Phrase 輸出。將第3 節(jié)的候選短語挖掘和第4 節(jié)的特征加權方法合并,即為本文提出的基于統(tǒng)計特征的Quality Phrase 挖掘方法,方法框架如圖4 所示。
基于統(tǒng)計特征的Quality Phrase 挖掘方法框架分為4 部分:第1 部分實現(xiàn)對文本語料庫的預處理工作,包括去特殊字符、去停用詞以及提取詞元信息等;第2 部分融合頻繁N-Gram 短語挖掘、多詞短語組合性約束和單詞短語拼寫檢查來實現(xiàn)候選短語挖掘;第3 部分的主要目的是得到頻繁性、組合性、信息性、完整性的特征權重,使得對Quality Phrase 貢獻較大的特征占較大的比重,對Quality Phrase 貢獻小的特征占較小的權重;第4 部分根據(jù)候選短語的特征加權函數(shù)得分排序,提取排名靠前的短語作為Quality Phrase。
圖4 基于統(tǒng)計特征的Quality Phrase 挖掘方法框架Fig.4 Framework of Quality Phrase mining method based on statistic features
本節(jié)對基于統(tǒng)計特征的Quality Phrase 挖掘方法進行實驗分析,并與其他短語挖掘方法做比較。本文所有實驗環(huán)境:操作系統(tǒng)為Windows 10 專業(yè)版(64 位操作系統(tǒng))、處理器為Intel(R) Core(TM) i7-2600@ 3.40 GHz、內存8 GB、硬盤1 TB,實驗算法使用Java 語言編寫,開發(fā)工具為Eclipse Luna Service Release2,jdk1.8。
本文選擇5 個真實數(shù)據(jù)集作為實驗的文本語料庫:(1)5Conf 包含AI,DB,DM,IR,ML 五個領域科技論文的標題文本信息;(2)DBLP Abstracts 收集了計算機類文章的摘要信息;(3)AP News 是TREC 1998 年的新聞文本數(shù)據(jù)集;(4)AMiner-Titles 將AMiner-Paper[22](研究學術信息網絡的數(shù)據(jù)集)中的標題信息抽取出來;(5)AMiner-Abstracts為從AMiner-Paper 中抽取出來的摘要語料庫。對5 個文本語料庫進行數(shù)據(jù)預處理,去除特殊符號、去除停用詞、提取詞元信息后的數(shù)據(jù)集基本情況如表1 所示。
為證明本文方法的有效性以及采用本文方法挖掘的Quality Phrase 精度最高,將本文方法與現(xiàn)有的無監(jiān)督短語挖掘算法進行比較。
無監(jiān)督短語挖掘算法分為3 大類[23]:基于統(tǒng)計的、基于網絡圖的和基于主題的。由于QPMSF 框架總體趨向于無監(jiān)督的方式,因此對比算法選取3 類無監(jiān)督短語挖掘的代表性算法。TF-IDF 屬于基于統(tǒng)計的短語挖掘算法,TextRank 是基于網絡圖的代表,TopMine 是短語挖掘領域性能很好的基于主題的方法。另外,選擇最新的關鍵短語提取算法ParaNet+CoAtt 和最新的主題短語挖掘方法CQMine 進行對比。
(1)TF-IDF 是經典的短語挖掘算法,根據(jù)短語的頻率以及逆文檔頻率提取Quality Phrase。
(2)TextRank[24]由PageRank 網頁重要性排序算法衍生而來,它的基本思想是如果一個單詞出現(xiàn)在很多單詞后面,說明這個單詞比較重要。
(3)TopMine 采用自底向上的方式將1 篇文檔分割成單詞短語或多詞短語,并應用于文檔主題生成模型。
(4)ParaNet+CoAtt 將關鍵短語的語言約束集成到Seq2Seq 網絡,通過覆蓋機制減少重疊短語的產生。
(5)CQMine 是一種高效的主題短語挖掘方法,運用動態(tài)規(guī)劃和分塊的思想提取短語。
目前短語挖掘領域判定一個短語是否為Quality Phrase 有兩種方式:(1)以維基百科實體為基準;(2)通過領域專家進行評價。本文選擇第1 種方式,若算法挖掘的短語能夠在維基百科中找到一條對應的實體,則認為該短語是真正的Quality Phrase。由這種方式產生的混淆矩陣如表2 所示。根據(jù)混淆矩陣計算準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-Score,作為評價算法優(yōu)劣的指標。
表1 數(shù)據(jù)集總體情況Table 1 Data set in general
表2 混淆矩陣Table 2 Confusion matrix
5.4.1 組合性統(tǒng)計意義度量選擇
組合性準則應用于候選短語挖掘的多詞短語組合性檢驗過程,是候選短語挖掘乃至Quality Phrase挖掘的重要環(huán)節(jié)。其中,統(tǒng)計意義度量函數(shù)的選擇直接決定了多詞短語的質量。實驗通過對比統(tǒng)計學中的點互信息PMI、卡方檢驗CHI、T 檢驗3 種度量方式,選擇效果最好的函數(shù)作為判斷多詞短語能否組合的依據(jù)。由于3 種度量函數(shù)在5 個語料庫上的模型準確率均能達到99%以上,沒有明顯差異,不再給出圖表對比。圖5 用精確率和召回率的綜合指標F1-Score 來展示CHI,T-test 和PMI 的對比結果。
圖5 中的數(shù)據(jù)顯示,應用組合性準則挖掘5 個不同文本語料庫的候選短語,F(xiàn)1-Score 的范圍為70%~90%,能夠很好過濾低質量的短語。點互信息PMI 在5 個文本語料庫上的表現(xiàn)最好,相比于卡方檢驗CHI 平均提升2.96%,比T-test 平均提升5.53%。因此,本文在候選短語挖掘階段選擇點互信息PMI 作為組合性統(tǒng)計度量函數(shù),保證多詞短語的精度最高。
5.4.2 候選短語挖掘階段實驗結果對比
在候選短語挖掘階段,本文綜合了頻繁N-Gram 挖掘、多詞短語的組合性約束和單詞短語的拼寫檢查3 種思想,提出基于統(tǒng)計特征的候選短語挖掘方法。為確保每一個步驟對候選短語挖掘的有效性,本文在各個環(huán)節(jié)都進行了實驗驗證。通過不斷變換頻繁性閾值,5 個文本語料庫的Precision-Recall 曲線如圖6 所示。由于實驗所用的5 個文本語料庫的規(guī)模不同,所以頻繁性閾值的變化區(qū)間也不相同。
從5 個文本語料庫呈現(xiàn)的PR 曲線可以看出,單使用頻繁性一個準則進行N-Gram 短語挖掘時,精確率和召回率的結果受頻繁性閾值的影響極大,魯棒性差。若設置的頻繁性閾值較大,精確率可以達到較高的水平,但是召回率很低;相反,頻繁性閾值設置較小時,召回率很高,可以達到90%以上,但是精確率明顯下降。所以,單使用頻繁性一個準則,很難達到精確率和召回率的平衡。為解決頻繁性準則帶來的問題,加入多詞短語的組合性約束,兩者的結合可以使5 個數(shù)據(jù)集上的精確率穩(wěn)定在一個較好的區(qū)間,基本維持在90%~100%,此時保證在精確率不明顯下降的情況下,不斷調節(jié)頻繁性閾值來提升召回率,尋找最優(yōu)的參數(shù)組合。在頻繁N-Gram 挖掘和多詞短語組合性約束的基礎上,增加單詞短語的拼寫檢查可以進一步提高精確率,雖然拼寫檢查錯誤地排除了一部分真正的單詞,導致召回率有所下降,但綜合性指標F1-Score 仍然是上升趨勢。下面將5 個文本語料庫在3 種遞進組合(方法①表示頻繁N-Gram 挖掘,方法②表示頻繁N-Gram 挖掘+多詞短語組合性約束,方法③表示頻繁N-Gram 挖掘+多詞短語組合性約束+單詞短語拼寫檢查)上的最優(yōu)結果列舉如表3 所示。
圖5 組合性統(tǒng)計意義度量方式的對比Fig.5 Comparison of combinatorial statistical significance measures
圖6 候選短語挖掘階段精確率-召回率曲線Fig.6 Precision-Recall curves of candidate phrase mining phase
表3 數(shù)據(jù)顯示,方法③的準確率與方法①②基本持平,最多提高0.07%。由于精確率和召回率相互矛盾,所以方法③只能保證在一方面表現(xiàn)最好的情況下,另一方面不明顯降低。因此以精確率和召回率的綜合指標F1-Score 為考量,方法③比方法①提高2.06%~10.31%,平均提高5.45%。方法③比方法②提高0.17%~2.05%,平均提高0.93%。可見,候選短語挖掘將頻繁N-Gram 挖掘、組合性約束和拼寫檢查相結合的思路正確,很大程度上提高了候選短語的質量。
5.4.3 本文算法與其他算法的對比
短語挖掘領域已有多種算法,本文將TF-IDF,TextRank,TopMine,ParaNet+CoAtt,CQMine 與本文QPMSF 方法對比。各方法在文本語料庫上的F1-Score 分布情況如圖7 所示。
對比發(fā)現(xiàn),ParaNet+CoAtt 算法的F1-Score 最低,原因是雖然提取的關鍵短語精確度很高,但同時排除了大量的Quality Phrase,導致召回率下降,整體的F1-Score 只能維持在29.6%~36.96%。其次,TextRank 表現(xiàn)最差,在5 個語料庫上的平均F1-Score 為60.35%,需要進一步提高。 TF-IDF 和Top-Mine 的總體表現(xiàn)相似。但是觀察發(fā)現(xiàn),在短文本語料庫(5conf,AMiner-Titles)上,TopMine 要好于TF-IDF 方法,在長文本語料庫(DBLP Abstracts,AP News,AMiner-Abstracts)上,TF-IDF 好于Top-Mine。因為TopMine 采用自底向上的方式分割文本,標題語料庫中的Quality Phrase 比較集中,而新聞、摘要等語料庫中短語的凝練程度不高,相比于TF-IDF 來說,不適合使用TopMine。盡管CQMine方法在每個數(shù)據(jù)集上都有所提升,但是提升明顯的是短文本數(shù)據(jù)集,因為重疊短語分割方法對短文本更加有效。本文QPMSF 方法與5 種方法的最優(yōu)值相比,精確率提升了5.97%,召回率提升了1.77%,F(xiàn)1-Score 提高了4.02%??梢?,在候選短語的基礎上對短語準則進行加權處理能夠有效提高Quality Phrase 挖掘的精度。
表3 候選短語挖掘3 個階段對比Table 3 Comparison of three stages of candidate phrase mining %
圖7 本文算法與其他算法的對比Fig.7 Comparison of QPMSF with other algorithms
本文針對無監(jiān)督短語挖掘過程中候選短語質量不高和Quality Phrase 的特征權重不恰當分配的問題,提出基于統(tǒng)計特征的Quality Phrase 挖掘方法。結合頻繁的N-Gram 挖掘、組合性約束和拼寫檢查提高了候選短語的質量;引入公共知識庫維基百科中的實體對候選短語添加類別標簽,實現(xiàn)了Quality Phrase 的特征加權。與最優(yōu)的短語挖掘方法相比,基于統(tǒng)計特征的Quality Phrase 挖掘方法明顯提高了Quality Phrase 挖掘的精度,精確率、召回率和F1-Score 分別提升了5.97%,1.77% 和4.02%。本文將特征加權應用到Quality Phrase 的挖掘過程,為無監(jiān)督短語挖掘打開了新的思路。然而,短語挖掘領域對短語質量的評價方式還有待深入研究,以維基百科的實體為基準判斷一個短語屬于或不屬于Quality Phrase 還不夠準確。另外,實現(xiàn)多語言通用的Quality Phrase 挖掘方法,并應用到文本分類、主題建模等任務是本文今后研究的方向。