唐琳
摘 要:本文圍繞文本傾向性分析的基本流程進行論述,主要研究了以文本情感分析技術為主的傾向性分析,以主觀性文本及客觀性文本識別為前提,從特征選擇算法和特征加權算法方面對現(xiàn)有文本傾向性進行分析,介紹了算法的推導公式及模型訓練代碼,重點涵蓋了基于機器學習的文本傾向性分析方法,對其算法復雜性、算法效率和適用范圍給出了具體的概括和總結.
關鍵詞:機器學習;文本傾向性;特征選擇;特征加權
中圖分類號:TP391? 文獻標識碼:A? 文章編號:1673-260X(2020)01-0036-03
作者在之前發(fā)表的《微信訂閱號文本采集及預處理關鍵技術研究》一文中,詳細介紹了微信的使用情況,其訂閱號中的文章數(shù)量更是浩如煙海,如果僅僅憑借人工途徑來獲取文章作者的觀點是十分不切實際的事情,因此文本傾向性分析的提出,作為文本智能化理解的一種高效手段和方法,有效解決了文本意見挖掘這一難題.文本傾向性分析,正是在主題挖掘的基礎上,對文章中作者所表達出的觀點、意見、情感甚至態(tài)度進行提取,通過分析得知當前的輿論導向,從而作為輿情處理的可靠依據(jù).
文本經(jīng)過前期分詞、去停用詞等預處理后,正式進入了傾向性分析環(huán)節(jié),作為自然語言處理領域的研究熱點,國內(nèi)外許多學者都對文本傾向性分析進行了系統(tǒng)深入地研究和探索,而文本傾向性分析的同義詞或者別稱又是五花八門,令人眼花繚亂,比如:意見挖掘、情感分析、輿情分析等等.雖然名稱很多,但是其技術的發(fā)展主要經(jīng)歷了三個過程,分別是:基于簡單統(tǒng)計的文本傾向性分析方法、基于機器學習的文本傾向性分析方法和基于相關性分析的文本傾向性分析方法.基于簡單統(tǒng)計的傾向分析由于實現(xiàn)簡單、有一定的準確度,在傾向性研究初期稱霸一時;基于相關性的文本傾向分析,首先要求算法能夠實現(xiàn)特征判斷,遴選出有傾向判斷的特征級別,特征傾向分析與句子傾向分析和文章傾向分析相比,難度更大,但實用性更高,同時它對自然語言處理技術水平依賴較大,現(xiàn)有方法主要通過信息結構化抽取和語義分析標注等來實現(xiàn).[1]
文本傾向性分析同時涉及自然語言處理、信息檢索和抽取、機器學習、統(tǒng)計學、人工智能等多個領域,所涉學科比較廣泛,我們課題組結合自身專業(yè),主要從機器學習和人工智能角度入手,對文本進行傾向性分析.基于機器學習的文本傾向性分析方法相較簡單統(tǒng)計法和相關性分析法而言,既彌補了簡單統(tǒng)計的粗粒度分類的不夠精確度的弊端,又比相關性分析在技術上容易實現(xiàn),因此我們將基于機器學習的文本傾向性分析方法作為本文中進行文本傾向性分析的首選方法,這種方法可靠、可行,既可以結合機器學習、人工智能的手段和方法,又可以運用統(tǒng)計學、常微分方程等工具對齊進行推導演算,大大提高了分析結果的準確性,基于機器學習的文本傾向性分析流程如圖1所示.
1 主觀性文本與客觀性文本的識別技術
網(wǎng)上發(fā)表的文章,一般可分為兩大類,一類是客觀性文本,主要是對人物事件的客觀性敘述或描述,屬于寫實主義,不帶有作者的感情色彩,比如新聞、紀實、記錄等;另一類則是主觀性文本,所謂主觀性文本,是帶有作者感情色彩來對人物事件的描寫或敘述的文章,因為作者主觀性差異,所表述的觀點、想法乃至世界觀都極具個人特性,從而導致文章帶有傾向性情感,而通過網(wǎng)絡的傳播,這種情感傾向又被放大,甚至形成了新的網(wǎng)絡輿情.因此,主觀性文本是文本傾向性分析的主要對象.而如何區(qū)分主觀性文本和客觀性文本,則是傾向性分析所有做的第一步工作,即主客觀文本分類.這種主觀性文本的有效識別,可以有效縮小分析范圍,提高文本分析的效率和精度,壓縮了網(wǎng)絡輿情分析的成本.
目前,最為簡單的方式是通過提取形容詞進行識別來判斷文本是否主觀性,即將文本中的句子分為主觀句和客觀句,含有主觀句的文本,則是主觀性文本.[2]
我們在這個理論的基礎上,建立了情感詞庫,利用SimFinder工具來計算文本中句子的相似度,結合詞性標注[3]構造情感訓練集,按照Yu等人的方法[4]構建基于貝葉斯分類算法的多分類器,通過以上方法的實施有效避免了構造訓練集時的不確定性,提高了訓練集的構造質量.這里所用的分類器,主要采用了樸素貝葉斯分類算法來設計分類器,極大地增強了主觀性句子提取的抗干擾能力,提高了文本分類的準確性.
對于客觀性文本來說,我們不需要進行后續(xù)的文本傾向性分析流程,可以過濾掉,篩選出來,接下來我們將主要精力都放在主觀性文本的傾向性分析上.
2 特征選擇技術
在前期文本經(jīng)過分詞、去停用詞等預處理之后,在主客觀文本識別階段,形成了眾多的特征詞,這些特征詞數(shù)量非常多,非常容易造成選詞維度災難,就需要進行特征選擇分析.特征選擇就是將特征詞集合在去除無關特征、多余特征等噪聲特征后,細分成特征子集,大大降低特征分析及訓練模型所需要的時間,提高了特征訓練模型的精確度.
特征選擇階段去除噪聲特征,壓縮特征集,具有重要的現(xiàn)實意義,既可以減少過擬合、降低特征維度、增強模型泛化,又可以提高模型解釋性,從而增強模型對特征和特征值之間的理解,加快模型的訓練速度,進一步獲得更優(yōu)性能.然而,現(xiàn)實中傾向性分析系統(tǒng)在面對未知領域時,缺乏如何判斷特征與目標之間、特征與特征之間相關性的基本認知,這就需要用到數(shù)學或工程上的方法來幫助我們更好地進行特征選擇,特征選擇要求其結果精確,選擇算法高效普適.目前,在文本傾向性分析方面,基于機器學習的特征選擇方法主要有以下幾種:過濾法(Filter)、包裹法(Wrapper)、嵌入法(Embedding)等.
過濾法,顧名思義,將有效特征過濾出來的方法,首先它要依據(jù)發(fā)散性原則或相關性原則對特征集中的每個特征進行評估并打分,進而設定一個分數(shù)值作為特征閾值,或者將待選擇閾值的個數(shù)作為特征標準,從而選擇出適用特征;包裹法是以目標函數(shù)作為工具,每次選出或排除若干特征,直到選擇出最佳的子集為止;嵌入法使用的是機器學習的算法和模型,在它們的基礎上進行模型訓練,經(jīng)過數(shù)學推算得到各個特征的權值系數(shù),然后再根據(jù)這一系數(shù)從大到小來選擇特征,這種方法來源于過濾法,和過濾法很相似,但其二者的區(qū)別在于嵌入法是通過訓練來進行特征的選取.具體特征選擇算法如圖2所示.
2.1 基于懲罰項的特征選擇算法
這里主要使用并介紹嵌入法的基于懲罰項的特征選擇算法,其結合了過濾法和包裹法的優(yōu)點, 在構建模型的同時計算模型的準確率.基于懲罰項的特征選擇算法是基于機器學習模型的一種方法,具體流程見圖3所示,其本身就具有對特征進行打分的機制,或者很容易將其運用到特征選擇任務中,主要通過正則化方法(regularization methods)來實現(xiàn),所謂正則化方法,簡單來說就是通過增加懲罰系數(shù)來約束模型的復雜度.
基于懲罰項的特征選擇算法需要設置一個懲罰項,也就是懲罰系數(shù),這一算法的原理是構造一個使用帶懲罰系數(shù)的基模型,在基模型中篩選出特征詞的同時進行了降維處理.我們選擇使用Python語言的擴展庫feature_selection庫里的SelectFromModel類,設計出結合帶L1懲罰項的邏輯回歸模型,帶L1懲罰項的邏輯回歸模型選擇特征的代碼如圖4所示.
選用L1懲罰項降維的原理是從多個對目標值具有同等相關性的特征中選取出一個保留下來,這樣一來,沒選到的特征并不代表不重要,恰恰相反,需要結合L2懲罰項來為沒選到的特征進行優(yōu)化.
2.2 特征加權
在基于L1懲罰項的特征選擇算法流程結束后,沒選到的特征需要結合L2懲罰項來進行優(yōu)化,也就是進行特征加權的操作,特征加權是判斷文本中特征關鍵性、相關性的重要評估指標,它通過計算公式為每個特征項賦予一個權值,常用的特征加權算法有布爾權重、絕對詞頻權重、TF-IDF權重等,我們采用TF-IDF權重算法進行加權優(yōu)化.
TF-IDF權重是目前最為常用的一種權值計算方法,這里的TF是Term Frequency的縮寫,意為詞頻,表示詞組在文本中出現(xiàn)的頻率;IDF是Inverse Document Frequency的縮寫,意為逆向文件頻率,表示包含特征詞的文本數(shù)量,包含詞條的文本越多,IDF值越小.TF-IDF權重具體算法見公式1所示,其中wik是TF-IDF權重.
wik=TFik×log■+0.01? (1)
由公式1推知,如果某個特征詞條TFi在文本TFk中出現(xiàn)的頻率較高,但是在其他文本中出現(xiàn)頻率較低,則稱該特征詞條具有良好的類別區(qū)分功能,詞條的wik越大.
優(yōu)化具體步驟為:若一個特征在L1中的權值為1,選擇在L2中權值差別不大且在L1中權值為0的特征構成同類集合,將這一集合中的特征平分L1中的權值,故需要構建一個新的邏輯回歸模型,回歸模型需要使用:sklearn.linear_model中的LogisticRegression類,代碼為:from sklearn.linear_ model import LogisticRegression.
創(chuàng)建LogisticRegression類的派生類LR類,其構造方法如圖5所示.
定義成員方法fit,分別訓練L1邏輯回歸模型和L2邏輯回歸模型,代碼如圖6所示.
使用feature_selection庫的SelectFromModel類結合帶L1以及L2懲罰項的邏輯回歸模型,來選擇特征,具體代碼如圖7所示.
3 總結
在經(jīng)過前期文本分詞、去停用詞等文本預處理之后,又對文本進行了主客觀識別和特征選擇加權處理,無疑,這一階段在算法實現(xiàn)上遇到了一些瓶頸,幸好有sklearn這一Python第三方擴展庫的存在極大地提高了進展效率,有效的完成了邏輯回歸模型的設計與實現(xiàn),最終成功完成了特征選擇功能.
參考文獻:
〔1〕厲小軍,戴霖,施寒瀟,黃琦.文本傾向性分析綜述[J].浙江大學學報(工學版),2011,7(7).
〔2〕HATZIVASSILOGLOU V,WIEBE J M. Effects of adjective orientation and g radability on sente nce subjectivity[C]. Proceedings of the 18th Conference on Computational. USA:ACL, 2000:299-305.
〔3〕FINN A,KUSHMERICK N,SMYTH B.Genre classification and domain transfer for information filtering[C].Proceedings of the 24th BCS-IRSG European Colloquiumon Information Retrieval Research:Advances inInf ormation Retrieval.UK:Springe r, 2002: 353-362.
〔4〕YU H,HATZIVASSILOGLOU V.Towards answering opinion questions:separating facts from opinions and identifying the polarity of opinion sentences[C].Proceedings of the 2003 Conference on EMNLP.US A:ACL,2003 :129-136.