張競(jìng)元,劉 剛,2,曾 粵,周大雙,陳麒玉,2
1(中國(guó)地質(zhì)大學(xué)(武漢)計(jì)算機(jī)學(xué)院,武漢 430074)
2(智能地學(xué)信息處理湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430074)
地質(zhì)科學(xué)文獻(xiàn)、地質(zhì)勘查報(bào)告以及野外記錄等地質(zhì)類文本數(shù)據(jù)數(shù)量急劇增加,人們?nèi)绻褂靡酝姆椒◤暮A康慕Y(jié)構(gòu)化與非結(jié)構(gòu)化文本數(shù)據(jù)[1]中發(fā)掘、獲取信息意味著巨大的時(shí)間、精力的投入,導(dǎo)致工作效率的低下. 地質(zhì)文本數(shù)據(jù)相較于其他領(lǐng)域的數(shù)據(jù),在復(fù)雜度與專業(yè)程度上絲毫不低. 文本聚類[2]作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,其優(yōu)勢(shì)在于能夠?qū)ξ谋緮?shù)據(jù)進(jìn)行較為有效地組織、摘要和導(dǎo)航. 而這些也正是地質(zhì)文本數(shù)據(jù)處理所需要的. 由于地質(zhì)學(xué)科的龐大復(fù)雜,所以產(chǎn)生的文本數(shù)據(jù)也是種類繁多,而面向主題的思想能夠使我們有針對(duì)性地組織、管理和獲取數(shù)據(jù),從而得到所需的信息,是一個(gè)能對(duì)文檔集進(jìn)行整體分析的視角和工具[3].
為了完成文本聚類的同時(shí)挖掘文本數(shù)據(jù)的主題,文本主題模型是常用的方法. 不過(guò)相較于普通文本,專業(yè)領(lǐng)域的文本對(duì)文本主題控制會(huì)有進(jìn)一步要求,這對(duì)文本模型提取主題信息提出了挑戰(zhàn). 基于文本主題模型自身的優(yōu)勢(shì),目前有應(yīng)用于地質(zhì)大數(shù)據(jù)表示技術(shù)[4]、地質(zhì)文本分類[5]、 地質(zhì)實(shí)體識(shí)別[6]等. 而在地質(zhì)文本主題提取方面,樊中奎[7]使用信息提取技術(shù)對(duì)已進(jìn)行粗分類的地質(zhì)資料的具體內(nèi)容進(jìn)行按主題獲取,可以提高資料的利用效率; 王永志等[8]研發(fā)了融合加權(quán)與詞頻兩種方法的組合關(guān)鍵詞提取算法,該算法具有較高的地學(xué)關(guān)鍵詞命中率,能夠反映文本的主題信息; 邱芹軍[9]使用基于本體與增強(qiáng)詞向量的方法(OEWE)獲取文本關(guān)鍵詞從而提取主題信息; 陳喜文[10]提出了基于地質(zhì)資料特征的主題模型GIC-LDA,該方法基于時(shí)空權(quán)重,同時(shí)聯(lián)合摘要、目錄等元信息進(jìn)行聯(lián)合建模,從而提升模型的主題推薦效果. 但目前仍存在以下問(wèn)題: (1)需要大量的人力搜集較為齊全的外部詞典等先驗(yàn)知識(shí),另外為提高關(guān)鍵詞或?qū)I(yè)名詞命中率保留了大量冗余詞,故在存儲(chǔ)效率和詞語(yǔ)篩選效率上仍有待改進(jìn). (2)較少關(guān)注對(duì)地質(zhì)文本主題信息的挖掘分析,這在主題關(guān)鍵詞的連續(xù)性上有直接表現(xiàn),需要增強(qiáng)文本的地質(zhì)主題特征,減少雜詞的干擾,提高主題可描述性.
本文將以多種大類主題的地質(zhì)文本數(shù)據(jù)作為處理對(duì)象,針對(duì)以上的問(wèn)題,在現(xiàn)有分詞器的基礎(chǔ)之上改進(jìn)一般算法在保留地質(zhì)專業(yè)詞語(yǔ)的同時(shí)節(jié)省內(nèi)存、時(shí)間花銷以提升效率; 另外在對(duì)文本進(jìn)行聚類時(shí)結(jié)合面向主題[11]的思想,利用主題模型提取準(zhǔn)確度、連續(xù)性較高的主題描述詞. 針對(duì)傳統(tǒng)主題模型難以處理噪聲詞語(yǔ)和短文本的問(wèn)題,采用基于TF-IDF 算法和詞向量模型的數(shù)據(jù)增強(qiáng)算法,增強(qiáng)文本的主題特征,增強(qiáng)主題模型建模的先驗(yàn)信息,提升模型效果. 最后展示文本集包含的主題信息及模型對(duì)比指標(biāo),以此驗(yàn)證該方法的有效性及優(yōu)勢(shì).
為了實(shí)現(xiàn)基于數(shù)據(jù)增強(qiáng)的地質(zhì)文本主題模型,本方法包含以下步驟: (1)將搜集到的地質(zhì)文本逐一進(jìn)行預(yù)處理. 預(yù)處理的過(guò)程分為兩步: 第1 步獲取專業(yè)名詞并將其作為保留詞; 第2 步利用獲得的保留詞進(jìn)行二次分詞. 經(jīng)過(guò)預(yù)處理,則得到經(jīng)過(guò)分詞處理的語(yǔ)料.(2)計(jì)算詞語(yǔ)的TF-IDF 權(quán)重和詞向量. (3)利用TF-IDF權(quán)重和詞向量模型使用數(shù)據(jù)增強(qiáng)算法處理分詞語(yǔ)料.(4)使用步驟(3)中的語(yǔ)料對(duì)整個(gè)語(yǔ)料庫(kù)根據(jù)不同的主題個(gè)數(shù)建立模型,通過(guò)主題關(guān)鍵詞的描述選取主題個(gè)數(shù)合理的模型. 之后可以根據(jù)模型得到每篇文本的主題概率分布,由主題概率分布確定每篇文本所屬主題完成聚類. 具體處理流程如圖1 所示.
圖1 總體技術(shù)方案圖
預(yù)處理階段主要解決通用分詞器對(duì)未登錄詞無(wú)法識(shí)別誤將其切分的問(wèn)題,盡可能保留地質(zhì)專業(yè)名詞,從而保證主題關(guān)鍵詞的完整性,增強(qiáng)主題可描述性. 如圖2,該步驟細(xì)分為兩個(gè)階段: 在第一階段,使用通用分詞器直接對(duì)地質(zhì)語(yǔ)料進(jìn)行分詞,得到首次切分語(yǔ)料,使用的通用分詞器為jieba 分詞器. 第二階段,在首次切分結(jié)果上使用重復(fù)詞串提取算法,該算法首先獲取專業(yè)名詞候選集,之后添加約束條件對(duì)候選集進(jìn)行過(guò)濾,篩選出需要保留的地質(zhì)專業(yè)名詞,以得到地質(zhì)專業(yè)名詞.
圖2 預(yù)處理流程圖
為獲取候選集本文采用了一種基于詞頻統(tǒng)計(jì)的重復(fù)詞串提取算法,通過(guò)統(tǒng)計(jì)各個(gè)切分部分在切分語(yǔ)料中出現(xiàn)的頻率(如表1)得到詞頻序列,以詞頻序列中詞頻為1 的詞串為間隔,對(duì)詞頻大于1 的詞串進(jìn)行組合[12](如表2). 此處使用的約束條件為詞串組合頻率和字符長(zhǎng)度,對(duì)于出現(xiàn)頻率低于2 的詞串組合以及超過(guò)最大字符長(zhǎng)度的詞串組合直接過(guò)濾,最終得到專業(yè)名詞保留詞文檔. 由于《地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼》(GB 9649—1988)中的地質(zhì)專業(yè)術(shù)語(yǔ)長(zhǎng)度大多數(shù)不超過(guò)10,所以字符長(zhǎng)度閾值取該值. 該算法事先判斷了高頻詞串的位置,從而能直接對(duì)其進(jìn)行組合,避開(kāi)了未重復(fù)部分,大幅減少需要存儲(chǔ)的垃圾或冗余詞串,提升處理效率. 雖然詞頻為1 的詞串也有可能組成專業(yè)名詞,但是由于其出現(xiàn)頻率過(guò)低,說(shuō)明其與文本主題關(guān)聯(lián)不大,故可以忽略. 經(jīng)過(guò)預(yù)處理的兩個(gè)處理步驟后則得到保留詞文檔,將該文檔作為用戶自定義詞典,再次使用通用分詞器對(duì)原始語(yǔ)料進(jìn)行分詞處理,得到最終分詞語(yǔ)料.由于加載了用戶自定義詞典,通用分詞器能識(shí)別一定的地質(zhì)專業(yè)名詞,對(duì)其進(jìn)行保留,從而提升分詞效果.在兩次分詞過(guò)程中,均有去停用詞.
表1 詞頻序列(示例)
表2 詞串組合(示例)
基于詞頻統(tǒng)計(jì)的重復(fù)詞串提取算法偽代碼如算法1.
算法1. 基于詞頻統(tǒng)計(jì)的重復(fù)詞串提取算法輸入: 首次切分語(yǔ)料M輸出: 保留詞串K
初始化詞頻序列N,其值均為0,其長(zhǎng)度等于M 中詞串?dāng)?shù)量;for i in 0 to length(M)if N[i]>0 i+=1;統(tǒng)計(jì)M[i]在M索引序列L,其 0 to length(N)else 中的出現(xiàn)次數(shù)n,N[i]=n.初始化元素為詞頻為1 的詞串在N 中的索引;for i in if N[i]==1 將i 保存入L;if length(L)== 0 對(duì)M 進(jìn)行詞串組合并保存入K;else for i in 0 to length(L)if i!=length(L)–1 and L[i+1]–L[i]!=1 對(duì)M[L[i]+1]~ M[L[i+1]]進(jìn)行詞串組合并保存入K;for i in 0 to length(K)if K[i]在K 中出現(xiàn)次數(shù)<2 and length(K[i])<10 刪除K[i];return K.
在最終分詞語(yǔ)料基礎(chǔ)上應(yīng)該確定詞串對(duì)其所在文本的重要程度,本文采用TF-IDF (term frequency-inverse document frequency)權(quán)重作為度量標(biāo)準(zhǔn). TF-IDF 算法[13]的主要原理是: 如果某個(gè)詞語(yǔ)在一篇文本中出現(xiàn)的頻率TF 很高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)對(duì)文章進(jìn)行分類. 其中TF (詞頻)的計(jì)算較為簡(jiǎn)單,即對(duì)于任意一個(gè)詞語(yǔ)其在文本中出現(xiàn)的次數(shù)與文本詞語(yǔ)總數(shù)之比. 而IDF (逆向文件頻率)的意義是,對(duì)于某個(gè)詞語(yǔ),得到出現(xiàn)該詞語(yǔ)的文檔數(shù)量,然后使全部文本文檔數(shù)目除以該文檔數(shù),再求自然對(duì)數(shù). 常用的TF-IDF 公式如下:
其中,ni,d表示詞條ti在文檔d中出現(xiàn)的次數(shù),|d|表示全部樣本文檔的總數(shù),ni,D表示D中包含詞條ti的文檔數(shù). 根據(jù)該公式的性質(zhì),文本數(shù)據(jù)集中包含某一詞語(yǔ)的文本越多,它區(qū)分文檔類別的能力越低,其權(quán)重越小; 在某一文本中,某一詞語(yǔ)的出現(xiàn)頻率越高,說(shuō)明區(qū)分文本類別的能力越高,其權(quán)重就越大.
詞向量技術(shù)能夠?qū)⑽谋局袉蝹€(gè)詞語(yǔ)轉(zhuǎn)化為一個(gè)對(duì)應(yīng)的高維空間向量,通過(guò)該向量多維的屬性來(lái)表征該詞語(yǔ). 詞向量模型的編碼表示主要有獨(dú)熱(one-hot)表示和分布式表示兩種方式,其中獨(dú)熱方式雖然簡(jiǎn)單但是由于只有該詞對(duì)應(yīng)的詞典索引位置為1 外其余全為0,造成數(shù)據(jù)稀疏; 此外如果數(shù)據(jù)量大時(shí)還會(huì)造成維度災(zāi)難. 而分布式表示方法能夠?qū)⒃~語(yǔ)轉(zhuǎn)化為一個(gè)對(duì)應(yīng)的稠密向量,當(dāng)詞語(yǔ)表示為該種方式的向量時(shí),則可以通過(guò)計(jì)算向量的距離來(lái)計(jì)算詞語(yǔ)間的相似性.
LDA 模型[14]目標(biāo)在于分析文本的主題分布,識(shí)別主題,主要是用于文本主題分類[15]由文本-詞語(yǔ)矩陣生成文本-主題矩陣(分布)和主題-詞語(yǔ)矩陣(分布).LDA 模型是一個(gè)包含了詞語(yǔ)、主題、文本3 層的貝葉斯概率模型,以主題層作為核心層,包含多個(gè)相互獨(dú)立的主題,每個(gè)主題是詞語(yǔ)層上的詞語(yǔ)多項(xiàng)式分布,每篇文本由多個(gè)主題隨機(jī)混合而成,是多個(gè)主題上的多項(xiàng)式分布[16]. 建立LDA 模型其生成文檔的過(guò)程如下.
(1)依照先驗(yàn)概率從語(yǔ)料集中選擇一篇語(yǔ)料.
(2)從超參數(shù)為α的狄利克雷分布中取樣生成該篇文本語(yǔ)料的主題分布.
(3)從主題的多項(xiàng)式分布中獲取某一個(gè)主題.
(4)從超參數(shù)為β的狄利克雷分布中取樣生成該文本主題的詞語(yǔ)分布.
(5)從詞語(yǔ)的多項(xiàng)式分布中獲取詞語(yǔ).
其中,Dirichlet 的概率密度函數(shù)為:
多項(xiàng)分布概率密度函數(shù)為:
模型訓(xùn)練過(guò)程如下.
(1)對(duì)每篇語(yǔ)料中的每一個(gè)詞語(yǔ)賦予一個(gè)隨機(jī)的編號(hào).
(2)再次掃描整個(gè)語(yǔ)料庫(kù),使用Gibbs sampling 方法對(duì)每個(gè)詞語(yǔ)采樣,求出其歸屬的主題.
(3)重復(fù)步驟(2),直至Gibbs sampling 結(jié)果收斂.
(4)統(tǒng)計(jì)整個(gè)語(yǔ)料庫(kù)的主題-詞語(yǔ)共現(xiàn)頻率矩陣,得到LDA 主題模型.
利用主題模型可以得到數(shù)據(jù)集的主題概率分布,通過(guò)主題概率分布可確定每篇文本的主題歸屬,最終完成文本聚類. 所謂主題分布即每篇文本與每個(gè)主題相關(guān)的概率,某一主題概率越高就越有可能歸入該主題,其分布形式如表3 所示.
表3 文本語(yǔ)料的主題分布(示例)
一篇文本一般會(huì)圍繞一個(gè)中心主題展開(kāi)敘述,為獲取能描述文本主題的詞語(yǔ)本文使用了TF-IDF 算法尋找文本中權(quán)值較大的關(guān)鍵詞,這些詞語(yǔ)往往與文本主題高度相關(guān). 但是由于TF-IDF 算法本身的局限性,該算法無(wú)法體現(xiàn)詞語(yǔ)間的關(guān)系,為此采用詞向量技術(shù)對(duì)每個(gè)詞語(yǔ)生成對(duì)應(yīng)的稠密向量,從而能夠計(jì)算詞語(yǔ)間的相似性,此處相似度選用余弦相似度. 首先,通過(guò)TF-IDF 算法得到每篇文本中一定數(shù)量的權(quán)值最大的關(guān)鍵詞集合. 之后訓(xùn)練文本詞向量模型,利用關(guān)鍵詞對(duì)應(yīng)的詞向量,逐個(gè)計(jì)算每個(gè)關(guān)鍵詞與其他關(guān)鍵詞的相似度,將相似性范圍最廣的關(guān)鍵詞視為中心詞. 此時(shí)可能會(huì)出現(xiàn)有多個(gè)中心詞的情況,那么則生成該篇文本的中心詞集合. 之后,計(jì)算各個(gè)中心詞能覆蓋到的關(guān)鍵詞集合,將所有中心詞均無(wú)法覆蓋的關(guān)鍵詞剔除出關(guān)鍵詞集合,此時(shí)得到抽樣集.
利用得到的抽樣集開(kāi)始對(duì)分詞語(yǔ)料中的無(wú)關(guān)詞語(yǔ)進(jìn)行替換,增強(qiáng)文本主題特征. 逐篇語(yǔ)料逐個(gè)詞語(yǔ)的與對(duì)應(yīng)的中心詞集合中的中心詞進(jìn)行相似度計(jì)算判斷是否需要進(jìn)行抽樣替換. 如果需要進(jìn)行替換,則需先判斷當(dāng)前文本詞語(yǔ)對(duì)中心詞的相似傾向程度,從抽樣集中抽取相應(yīng)的中心詞傾向程度的關(guān)鍵詞對(duì)原詞進(jìn)行替換,直至遍歷結(jié)束. 在抽樣階段本文采用的是等概率抽樣,如果根據(jù)TF-IDF 權(quán)重來(lái)分配抽樣概率采取輪盤賭手法進(jìn)行抽樣,算法效果則會(huì)嚴(yán)重依賴TF-IDF 權(quán)重,如果關(guān)鍵詞采集出現(xiàn)偏差則會(huì)帶來(lái)不利后果. 算法具體流程如圖3 所示.
圖3 數(shù)據(jù)增強(qiáng)算法流程圖
本文從知網(wǎng)等文獻(xiàn)資源網(wǎng)站收集整理10006 篇地質(zhì)文獻(xiàn)摘要,共選取礦物、巖石、地質(zhì)工程技術(shù)、地球化學(xué)、地質(zhì)災(zāi)害、地質(zhì)構(gòu)造等十余種主題,構(gòu)建地質(zhì)文本數(shù)據(jù)集. 每一篇文獻(xiàn)摘要生成一個(gè)文本文檔,文獻(xiàn)標(biāo)題作為該文本文檔的文件名. 之后將所有文本文檔放入一個(gè)文件夾,則原始語(yǔ)料庫(kù)建立完成.
文本數(shù)據(jù)集制作完成后首先需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)分詞處理. 以語(yǔ)料《三維旋轉(zhuǎn)水射流與水力壓裂聯(lián)作增透技術(shù)研究》為例,該篇文本包含較多少見(jiàn)且冗長(zhǎng)的專業(yè)術(shù)語(yǔ). 表4 為使用通用分詞器處理后的語(yǔ)料與經(jīng)本文重復(fù)詞串提取算法處理后的語(yǔ)料對(duì)比結(jié)果,通過(guò)準(zhǔn)確率(Precision)、召回率(Recall)和F值(Fmeasure)對(duì)結(jié)果進(jìn)行評(píng)價(jià). 由表可知,通用分詞器在地質(zhì)專業(yè)名詞充斥的情況下分詞效果很差,而本文算法一定程度保留了專業(yè)名詞,故分詞效果顯著. 本文在一般重復(fù)詞串提取算法的基礎(chǔ)上進(jìn)行改進(jìn),通過(guò)統(tǒng)計(jì)詞頻,直接對(duì)高頻部分進(jìn)行組合,忽略詞頻為1 的切分部分,減少詞串組合時(shí)需要存儲(chǔ)的候選詞串?dāng)?shù)量,節(jié)約存儲(chǔ)空間; 另外,由于候選集詞串?dāng)?shù)量減少,加快了詞串的篩選過(guò)濾. 兩者的對(duì)比結(jié)果見(jiàn)表5,經(jīng)改進(jìn)的算法得到的候選集詞串?dāng)?shù)量?jī)H為一般算法的1.24%,一般算法得到的詞串候選集最終真正得到保留的只有原來(lái)的0.31%,經(jīng)改進(jìn)后達(dá)到原來(lái)的22.45%.
表4 分詞評(píng)價(jià)結(jié)果 (%)
表5 兩種算法獲取的詞串?dāng)?shù)量對(duì)比
經(jīng)過(guò)分詞處理,接下來(lái)要對(duì)處理后的語(yǔ)料計(jì)算其TF-IDF 權(quán)重和詞向量. 其中詞向量模型采用了Word2vec(CBOW 模型)和Glove 兩種常用方法. 之后,利用TFIDF 權(quán)重和詞向量文件進(jìn)行數(shù)據(jù)增強(qiáng)處理得到特征強(qiáng)化語(yǔ)料,在該語(yǔ)料上建立主題模型. 本文除LDA 模型外還使用BTM 模型進(jìn)行了實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)參數(shù)α=50/K,β=0.01,Gibbs sampling 最大迭代數(shù)為800,其中K為主題個(gè)數(shù). 數(shù)據(jù)增強(qiáng)算法中的相似度閾值根據(jù)具體數(shù)據(jù)集以及詞向量模型來(lái)確定,選擇標(biāo)準(zhǔn)是既能保證排除無(wú)關(guān)詞又能保證抽樣集有相對(duì)充足的樣本,本文實(shí)驗(yàn)使用的相似度閾值范圍是0.11–0.13. 在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),經(jīng)數(shù)據(jù)增強(qiáng)處理后,兩種模型訓(xùn)練的時(shí)間得到了減少,LDA 模型表現(xiàn)更為顯著,如圖4、圖5 所示.
圖4 LDA 模型訓(xùn)練時(shí)間折線圖
圖5 BTM 模型訓(xùn)練時(shí)間折線圖
為定量地衡量模型的優(yōu)劣程度,本文采用了主題間距離和模型困惑度(perplexity)兩種常用指標(biāo)對(duì)LDA模型進(jìn)行評(píng)估. 其中主題距離采用JS (Jensen-Shannon)散度,相較于KL 散度,它解決了計(jì)算結(jié)果非對(duì)稱的問(wèn)題. 其計(jì)算公式如下:
其中,KL為KL 散度. 模型困惑度是評(píng)價(jià)LDA 模型最常用的方法之一,其值越小表示模型的泛化性能越優(yōu).其計(jì)算公式如下:
其中,N為文本數(shù)量,Nd為文本d中包含的詞語(yǔ)數(shù)量.
結(jié)果見(jiàn)圖6 和圖7. 可以看出,經(jīng)本文方法處理過(guò)后建立的LDA 模型(TW-LDA)在主題距離和模型困惑度兩項(xiàng)指標(biāo)上均優(yōu)于傳統(tǒng)LDA 模型,即經(jīng)數(shù)據(jù)強(qiáng)化后模型泛化性能和主題獨(dú)立性均有提高,體現(xiàn)了本文方法的優(yōu)越性. 其中,使用Glove 方法訓(xùn)練得到的詞向量最終得出的LDA 模型的困惑度低于Word2Vec方法,這是由于相較于Word2Vec,Glove 引用了詞共現(xiàn)矩陣,同時(shí)考慮了詞語(yǔ)的局部和整體信息; 而Word2Vec只關(guān)注窗口內(nèi)的局部信息,故生成的詞向量準(zhǔn)確率相對(duì)較低. BTM 模型的實(shí)驗(yàn)結(jié)果見(jiàn)圖8、圖9 所示. 因?yàn)锽TM 模型沒(méi)有對(duì)文檔的生成過(guò)程進(jìn)行建模,所以無(wú)法使用困惑度指標(biāo)進(jìn)行評(píng)估[17]. 故選擇H-score對(duì)其進(jìn)行評(píng)價(jià).H-score在文本聚類的結(jié)果上同時(shí)考慮類內(nèi)和類間因素進(jìn)行考量,以評(píng)價(jià)文本主題模型,其值越小則代表模型輸出結(jié)果越優(yōu). 其計(jì)算方法如下:
圖6 LDA 模型平均主題距離折線圖
圖7 LDA 模型困惑度折線圖
圖8 BTM 模型平均主題距離折線圖
圖9 BTM 模型 H-score 折線圖
其中,Intra_Dis為類內(nèi)文本的平均距離,Inter_Dis為類間文本的平均距離.
兩者計(jì)算公式如下:
其中,C為文本聚類的類簇集合,Ck為C中第k個(gè)類簇,K為主題個(gè)數(shù),di為第i個(gè)文本.
由平均主題距離指標(biāo)可知,BTM 模型與Glove 結(jié)合的方法(TW-BTM(Glove))效果并沒(méi)有與Word2Vec結(jié)合(TW-BTM(Word2Vec))的效果好,該方法沒(méi)有發(fā)揮出Glove 全局詞向量的優(yōu)勢(shì). 同時(shí),BTM 模型的主題獨(dú)立性較差,3 種模型中最高平均主題距離仍低于傳統(tǒng)LDA 模型. 另外,H-score指標(biāo)同樣是TW-BTM(Word2Vec)有最好的表現(xiàn). 綜上,誠(chéng)然BTM 模型能很好地緩解短文本建模稀疏的問(wèn)題,使用詞對(duì)建模能夠挖掘詞語(yǔ)間一定的隱藏關(guān)系,有助于提取文本主題,但如此便削弱了詞向量技術(shù)帶來(lái)的提升,Glove 詞向量因利用詞共現(xiàn)矩陣采集詞對(duì)用于訓(xùn)練故情況尤甚. 而B(niǎo)TM 模型對(duì)規(guī)模較大的主題有較差細(xì)分能力的劣勢(shì)便體現(xiàn)出來(lái),即主題間獨(dú)立性差. 另外,由于使用詞對(duì)建模,BTM 模型的訓(xùn)練時(shí)間以及模型收斂迭代次數(shù)對(duì)比LDA 模型沒(méi)有優(yōu)勢(shì).
下面對(duì)主題模型進(jìn)行定性分析. 在傳統(tǒng)LDA、BTM 模型中,主題關(guān)鍵詞均出現(xiàn)了重復(fù)以及雜詞,這導(dǎo)致主題之間獨(dú)立性較差,這也表現(xiàn)了直接使用主題模型對(duì)大類主題難以進(jìn)行適當(dāng)?shù)募?xì)分. 如表6 所示,LDA 模型中主題9 和主題12 的最高主題關(guān)鍵詞均是“儲(chǔ)層”,主題間產(chǎn)生了重疊,并且主題9 雜糅了儲(chǔ)層和礦物浮選兩個(gè)主題,而主題14 關(guān)鍵詞連續(xù)性差難以對(duì)主題進(jìn)行描述,BTM 模型也出現(xiàn)了上述類似情況. 經(jīng)數(shù)據(jù)增強(qiáng)算法(Word2Vec)處理后的模型,有了較大改觀,見(jiàn)表7. 但LDA 模型主題1 的主題關(guān)鍵詞的連續(xù)性很弱,BTM 模型主題關(guān)鍵詞雖然連續(xù)性較高,但仍有主題詞重復(fù)的問(wèn)題.
表6 傳統(tǒng)LDA、BTM 模型主題關(guān)鍵詞表(局部)
表7 TW-LDA (Word2Vec)、TW-BTM (Word2Vec)模型主題關(guān)鍵詞表(局部)
采用Glove 詞向量技術(shù)后,BTM 模型每個(gè)主題相關(guān)概率最高的關(guān)鍵詞已經(jīng)沒(méi)有重復(fù)出現(xiàn),但主題間仍有交叉. 由表8 可知,主題2 與主題7 雖然都與礦物有關(guān),但主題2 為成礦主題,主題7 為找礦主題,而主題7 最高概率詞語(yǔ)仍為“成礦”; 另外主題15 應(yīng)為隧道、巖溶作用以及溶洞類主題,但與主題5 產(chǎn)生重疊. 另外,由于使用Glove 發(fā)掘了隧道、巖溶主題,但是由于BTM 模型本身的特性并沒(méi)有剝離與主題5 的交叉部分; 然而使用Word2Vec 的模型并沒(méi)有該主題,說(shuō)明數(shù)據(jù)增強(qiáng)的效果相對(duì)Glove 較明顯,故在前面指標(biāo)評(píng)估上遜于TW-BTM (Word2Vec). LDA 模型的主題關(guān)鍵詞的主題描述性最強(qiáng),內(nèi)部沒(méi)有雜詞,且主題之間沒(méi)有重疊,如表9 所示. 通過(guò)對(duì)比各個(gè)主題個(gè)數(shù)的模型的主題描述詞,發(fā)現(xiàn)主題個(gè)數(shù)為16 時(shí),主題關(guān)鍵詞能夠更好地對(duì)主題進(jìn)行解釋,故選取16 為最優(yōu)主題個(gè)數(shù). 由實(shí)驗(yàn)得數(shù)據(jù)集包含的主題有: 地質(zhì)災(zāi)害、礦物浮選、油藏開(kāi)采、巖土工程、城市地下空間、地質(zhì)構(gòu)造、花崗巖與巖漿、巖土力學(xué)、沉積礦物、土壤、儲(chǔ)層、礦床及成礦、地質(zhì)遺跡、化石、地質(zhì)數(shù)據(jù)建模、火山巖及其儲(chǔ)層.
表8 TW-BTM (Glove)模型主題關(guān)鍵詞表(局部)
表9 TW-LDA (Glove)模型主題關(guān)鍵詞表
在本文所建立的地質(zhì)文本聚類流程基礎(chǔ)之上,有以下總結(jié):
(1)本文采用基于統(tǒng)計(jì)詞頻序列的重復(fù)詞串提取算法,避開(kāi)低頻詞語(yǔ),減少冗余詞串的產(chǎn)生節(jié)省存儲(chǔ)空間. 通過(guò)實(shí)驗(yàn)結(jié)果可以看出能夠有效保留專業(yè)詞語(yǔ). 但是本文算法是運(yùn)行在通用分詞器的分詞結(jié)果之上的,如何提升和保障第一次分詞的準(zhǔn)確度,是進(jìn)一步需要研究的問(wèn)題.
(2)TW-LDA 算法雖然使用了詞向量技術(shù)提取語(yǔ)義信息,但是對(duì)于地質(zhì)專業(yè)名詞效果仍欠佳,在設(shè)置相似度閾值時(shí)難以確定,而地質(zhì)專業(yè)名詞對(duì)于地質(zhì)文本的主題又至關(guān)重要,這也是需待解決的問(wèn)題.