徐 巖 陶漢中
南京工業(yè)大學能源學院 江蘇 南京 210009
利用LDA-SVM模型來進行分類,主要原因是能夠克服SVM模型在進行分類時需求空間太多,在使用過程中能夠避免文本考慮不全導致的分類不全面問題。利用LDA主題模型能夠自動分布語義相近的主題特點,從中改進SVM主題分類中語義特點重復問題。
1.1 LDA模型建模 LDA模型算法每次進行分類時,需要每次選擇概率向量,從而完成一個維度,保證其他的維度數(shù)值一致后,對新維度數(shù)值進行推算。不停的迭代讓其收斂后得出估計的數(shù)值。在整個創(chuàng)建模型中,對主題模型的最終模型結(jié)構中的數(shù)值K造成直接影響。主題的差異對實驗的最終結(jié)果也造成直接性的影響。
1.2 文檔的主題向量提取 在進行SVM訓練在前,首先要確定文本特征值的權重。通過了解準里文本的數(shù)據(jù)可知,專利文本的內(nèi)容主要是將摘要、標題、主權等進行專利濃縮,其具有的特點詞匯成為代表,摘要表達的意義作為詞匯體現(xiàn)。在文檔中,位置不同呢,特點詞匯的代表程度也具有很大差異,例如在LDA模型中進行語料建模時,特點詞匯在文檔中的位置影響不做考慮時,文本的分類效果將受到嚴重的影響。因此,需要依據(jù)專利文本數(shù)據(jù)具備的特殊性,對特點詞匯在不同位置時體現(xiàn)的信息差異進行體現(xiàn),利用某一個位置的詞匯加權來對文本主題向量進行計算。
2.1 實驗數(shù)據(jù)獲取與處理 實驗中使用的數(shù)據(jù)主要來源為專利數(shù)據(jù)庫中,以這些專利數(shù)據(jù)作為本次實驗的文本數(shù)據(jù),從中選擇一萬條與濕法脫硫相關的專利數(shù)據(jù),然后從其中隨機選擇一定的文本數(shù)量,以選擇出來的文本數(shù)據(jù)進行模型測試與訓練樣本。其中五千條作為模型訓練數(shù)據(jù),主要進行模型分類訓練;五千條作數(shù)據(jù)作為模型測試,主要利用其來對模型分類的準確率進行檢測。根據(jù)搜索,濕法脫硫文本中有16709條數(shù)據(jù)屬,從其中選擇1條至5500條當做實驗檢測數(shù)據(jù)。
2.2 實驗過程 對于全部的實驗文本數(shù)據(jù)進行處理與篩選時,專利文本中存在大量的連接性詞匯與計量單位數(shù)據(jù),因此,在進行語料清洗過程中,必須依據(jù)中文詞匯表述來展開詞匯分類,同時必須將專利文本里無意義的固定詞匯添加帶停用表格中。以上個章節(jié)作為基礎,展開文本分類,對于摘要部分,依舊利用jieba分詞處理。以相同的方式清除其中的介詞、數(shù)量詞以及定冠詞等等,同時依據(jù)第四章節(jié)中的處理方式得出對其他特點造成影響的停用詞。
本文主題數(shù)為8,將實驗文本的數(shù)據(jù)和主題展開人為的調(diào)節(jié),因此,本文以實驗得出的數(shù)據(jù)作為主題標準。并且在主題數(shù)據(jù)為8時,表示訓練數(shù)據(jù)和文本主題標準接近,因此,在LDA分析數(shù)據(jù)設立為:主題數(shù)K等于8,表示成50/K=6.25,超參數(shù)β表示成0.1,代數(shù)表示成500。
使用SVM進行數(shù)據(jù)分類時,必須設置參數(shù)設置。SVN屬于二類分類器,與上文中的8類分類方式成為一對一形式實現(xiàn)方式是四種類型中選擇兩種類型,并且設計相同的支持向量機SVM,所以得出28個不同的SVM。在展開數(shù)據(jù)分類檢測過程中,次數(shù)在其中最多的類型便稱之為所屬類型。本文利用LIBSVM進行方案分類。SVM中選擇函數(shù)來計算高維空間,因此,必須設置LIBSVM核函數(shù)數(shù)據(jù)。假如m維空間的計算中存在問題,核函數(shù)的計算公式變?yōu)?n維空間的輸入值表示為x和y,f(x)表示為x在m維中形成的映射,相同道理,f(y)也表示為y在m維中形成的映射。目前具有很多形式的函數(shù)值,例如線性、多項性、高斯以及Sigmoid等形式的核函數(shù)。因濕法脫硫具有不確定性,因此文本會使用高斯核函數(shù)來進行最終驗證。提取特點詞匯-主題概率的分布過程中,會對文本的特點詞匯空間-主題的概率分布利用RBF核函數(shù)計算,通過10次驗證后確定最終數(shù)據(jù)。
本文利用Gibbs抽樣方式選擇出最佳的LDA的主題數(shù)據(jù),得出LDA提取主題的方式,然后使用文本特點來實現(xiàn)SVM分類模型訓練,最后得出LDA-SVM專利文本的分類模型。
LDA提取特點方式作為特點的分類方式,以主題為標簽進行分類檢測時,總體分類的準確率達到80%以上。依據(jù)F1數(shù)值的大小效果進行評價,數(shù)值越大,分類的效果就越標準,利用主題的特點展開分類能達到良好的效果。利用IPC標簽分類方式進行分類時,得出的結(jié)果非常差,準確率約為50%。實驗表明,利用IPC標簽分類方式對對主題展開的分類結(jié)果非常不準確,造成其主要是因素為:1、IPC分類方式不能全面表示文本中的信息,專利文本中具有多個不同的主題內(nèi)容。2、IPC分類不能對主題進行統(tǒng)計,同時也不能深入分類文本中的內(nèi)容信息,分類出來的主題非常粗糙。從中可見,利用LDA主題分類方式展開的主題特點提取,能夠?qū)⑽谋局黝}特點進行加密,從而了解文本特點中不具備語料的多種問題。在對專利文本展開文本分類時,利用專利文本中不同主題展開可行性分類,并且依據(jù)專利文本的主題數(shù)據(jù)展開詳細分析。
本文主要利用濕法脫硫?qū)@诸惙绞絹韺崿F(xiàn)自動化模型分類,依據(jù)模型分類方式對濕法脫硫主題進行劃分達到的效果。利用LDA模型分類方式來提取濕法脫硫摘要文本的特點,主要將文本主題的概率作為分類器的特點進行訓練。最后得出依據(jù)濕法脫硫摘要文本主題的模型分類,其分類結(jié)果具有確定性,對于之前使用的特點提取分類器更加明確,同時還能解決語義問題和準確性問題,并且實現(xiàn)了預期設置的濕法脫硫?qū)@黝}的分類任務。之后在依據(jù)主題展開詳細的文本分類,讓整個文本主題的分類更加快捷,結(jié)果更加明確科學。