檀亞寧 劉宏玉 王子浪
摘要:自然語言處理是目前智能科學(xué)領(lǐng)域中的一個非常熱門的方向,文本的分類同樣也是自然語言處理中的一項關(guān)鍵的技術(shù)。隨著深度學(xué)習(xí)發(fā)展,樸素貝葉斯算法也已經(jīng)在文本的分類中取得到了良好的分類效果。本文針對短文本的分類問題,首先對短文本數(shù)據(jù)進(jìn)行了預(yù)處理操作,其中包括中文分詞、去除停用詞以及特征的提取,隨后闡明了樸素貝葉斯算法構(gòu)建分類器的過程,最后將樸素貝葉斯算法與邏輯回歸和支持向量機分類算法的分類效果進(jìn)行了對比分析,得出樸素貝葉斯算法在訓(xùn)練所需的效率上及準(zhǔn)確率上有較為優(yōu)異的表現(xiàn)。
關(guān)鍵詞:自然語言處理文本分類機器學(xué)習(xí)樸素貝葉斯
引言
文本分類問題是自然語言處理中的一個非常經(jīng)典的問題。文本分類是計算機通過按照一定的分類標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記的有監(jiān)督學(xué)習(xí)過程。在文本特征工程中,和兩種方法應(yīng)用最為廣泛[1] 。在分類器中,使用普遍的有樸素貝葉斯,邏輯回歸,支持向量機等算法。其中樸素貝葉斯是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率?;诖?,本文采用基于的特征提取的樸素貝葉斯算法進(jìn)行文本分類,探求樸素貝葉斯算法在短文本分類中的適用性。
1數(shù)據(jù)預(yù)處理
1.1中文分詞
中文分詞是指將一個漢字序列切分成一個個單獨的詞。中文分詞是中文文本處理的一個基礎(chǔ)步驟,也是對中文處理較為重要的部分,更是人機自然語言交流交互的基礎(chǔ)模塊。在進(jìn)行中文自然語言處理時,通常需要先進(jìn)行中文分詞處理[2] 。
1.2停用詞處理
去除停用詞能夠節(jié)省存儲空間和計算時間,降低對系統(tǒng)精度的影響。對于停用詞的處理,要先對語料庫進(jìn)行分詞、詞形以及詞性的類化,為區(qū)分需求表述和信息內(nèi)容詞語提供基礎(chǔ)。去停用詞后可以更好地分析文本的情感極性,本文采用廣泛使用的哈工大停用詞表進(jìn)行去停用詞處理。
1.3特征提取
文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),一般要轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),一般是將文本轉(zhuǎn)換成“文檔-詞頻矩陣”,矩陣中的元素使用詞頻或者。它的計算為,
某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低詞語頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。
2模型的建立
2.1貝葉斯理論
樸素貝葉斯分類器是一系列以假設(shè)特征之間強(樸素)獨立下運用貝葉斯定理為基礎(chǔ)的簡單概率分類器[3] 。
構(gòu)成文本的有意義的單元是詞語,文本的類別和文本出現(xiàn)的詞語是有關(guān)聯(lián)性的。假設(shè)文本可以用一組能表示文本類別的特征詞來表示,可以把這組特征詞定義成文本的特征向量。假設(shè)訓(xùn)練樣本集中有個不同的類別,,,…,要確定特征向量屬于哪個類別,只需要計算每個類別的條件概率,選取概率值最大的類別作為文本的類別[4] 。根據(jù)貝葉斯定理可得文本分類函數(shù):
3實驗及結(jié)果分析
3.1實驗結(jié)果
經(jīng)過對比分析不同種類分類器效果,后進(jìn)行十折交叉驗證取平均值,實驗結(jié)果如下表。
3.2結(jié)果分析
綜合表1中的準(zhǔn)確率和F1值可以看出,樸素貝葉斯模型在準(zhǔn)確率和F1值與邏輯回歸和支持向量機分類器相比都較高。而且在訓(xùn)練時間上,樸素貝葉斯在有更為優(yōu)異的表現(xiàn)。
4結(jié)論
本文在研究短文本分類方法的基礎(chǔ)上,使用了樸素貝葉斯模型作為分類器,進(jìn)行了文本分類的實驗。通過基于的特征提取,十折交叉驗證后取平均值準(zhǔn)確率可以到達(dá)91.95%,F(xiàn)1值為0.91,得到了樸素貝葉斯分類器這一方法在短文本分類上具有較好的適用性的結(jié)果。
參考文獻(xiàn):
[1] 孟濤,王誠.基于擴展短文本詞特征向量的分類研究[J/OL].計算機技術(shù)與發(fā)展.
[2] 紀(jì)明宇,王晨龍,安翔,牟偉曄.面向智能客服的句子相似度計算方法[J/OL].計算機工程與應(yīng)用.
[3] 黃勇,羅文輝,張瑞舒.改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用.
[4] 丁月,汪學(xué)明.一種基于改進(jìn)特征加權(quán)的樸素貝葉斯分類算法[J/OL].計算機應(yīng)用研究.
(作者單位:華北理工大學(xué)理學(xué)院)