高 陽木合塔爾·艾爾肯
(1.昌吉學院計算機工程系 新疆 昌吉 831100;2.烏魯木齊職業(yè)大學信息工程學院 新疆 烏魯木齊 830008)
?
前后綴字母作特征在維吾爾語文本情感分類中的應用
高陽1木合塔爾·艾爾肯2
(1.昌吉學院計算機工程系新疆昌吉831100;2.烏魯木齊職業(yè)大學信息工程學院新疆烏魯木齊830008)
摘要:維吾爾語具有著黏著型語言的共同特點。維吾爾語的主要特點:在構(gòu)詞法上,主要通過詞根和詞干上加上各種詞綴來形成新的詞語。在阿爾泰語系突厥語族中,構(gòu)詞詞綴十分重要,構(gòu)詞的詞綴也十分豐富,有名詞詞綴、動詞詞綴、形容詞詞綴、數(shù)詞詞綴。由于詞綴的屬性的專有性,決定了其在嚴格對立的兩個屬性中在詞綴上會有明顯的表現(xiàn)。這就決定了,在情感分類中,詞綴會帶有情感特性,所以可用來做情感分類的特征。本文提出了使用切詞綴的方式,研究了詞綴在SVM-KNN分類器中的表現(xiàn)。
關鍵詞:情感分類;詞綴;SVM-KNN;機器學習;
1.1文本情感分類研究的現(xiàn)狀
文本情感分類,就是通過對文本的研究確定出文本所表達的情感傾向。此類研究,最早可以溯源到1997年Rosalincl教授提出的“情感計算”[1]。此后隨著人們研究的深入,從研究方法到研究對象日益豐富。在研究對象上,出現(xiàn)了基于詞、句、篇章級別的情感分類研究;在研究方法上,出現(xiàn)了基于資源的和基于統(tǒng)計的情感分類研究。近些年來,對文本情感分類領域的研究,主要的研究內(nèi)容集中在以下幾個方面:文本的情感極性分類、文本的主觀性分析、詞語的語義傾向性識別、觀點提取等。具體的研究工作在以下幾個領域進行:詞的極性分類、主客觀分類、基于機器學習的文本情感分類方法、基于情感詞標注的文本情感分類。
1.2基于機器學習的文本情感分類方法
用機器學習的方法進行文本的情感分類研究是本文的主要研究點。下面將近年來國內(nèi)外這方面的研究做簡要的陳述。
Pang等人最早使用基于統(tǒng)計的機器學習方法來研究文本情感分類問題,使用SVM、最大熵、樸素貝葉斯等分類器,以不同的特征選擇、特征降維方法對Internet上的影評文本進行情感分類研究[2]。Pang等人還實現(xiàn)了另外的一項工作,構(gòu)造了一個基于minimum-cut的分類器,從而把文本的極性分類問題轉(zhuǎn)化成求取句子連接圖的最小分割問題。Lin等人把分類問題的方法用于觀
木合塔爾·艾爾肯(1986-),男,維吾爾族,新疆喀什人,烏魯木齊職業(yè)大學信息工程學院計算機系助教,研究方向:自然語言處理。點識別問題,通過基于統(tǒng)計的機器學習的分類算法解析詞的用法獲取文本的觀點。Bruce、Wiebe等人使用Bayes對句子進行主客觀分類。Whitelaw等人提取文本中帶有形容詞的詞組和詞組的修飾語作為特征,用向量空間文檔表示,然后以SVM分類器進行分類,從而區(qū)分文檔的褒貶情感傾向。[3]在句子級別的文本情感分類領域,Yi等人以模式匹配的算法進行了深入的研究。Goldberg和Zhu提出了一種新的基于圖的半監(jiān)督算法來解決電影評論的等級推定問題,與以前的多分類模型相比,性能大幅提高。Mei等人提出了一個新的Topic-Sentiment Mixture(TSM)概率模型,該模型能同時獲得文本的情感信息和主題信息,在沒有任何先驗領域知識的情況下,也可以發(fā)現(xiàn)一個Weblog數(shù)據(jù)集所蘊含的潛在主題。Ni等人以信息增益(Information Gain)和卡方作為特征選擇的方法,用Na?ve Bayes、SVM和Rocchios算法對原來的情感文本作為二分類問題研究。[4]
句子級別的情感分類,是指鑒別情感句的情感傾向后進行歸類,也可以說是一種特殊的情感文本分類。文本情感分類根據(jù)其所研究的載體的粒度可分為三類:篇章級情感分類、句子級情感分類和詞/短語級情感分類。
隨著互聯(lián)網(wǎng)技術的發(fā)展,以及Web2.0的出現(xiàn),人們從早期被動地接受大型的網(wǎng)站信息平臺的信息,轉(zhuǎn)變?yōu)榭梢宰灾鲄⑴c到信息的發(fā)布、產(chǎn)生,并能自主地參與平臺進行信息交流,同時各個信息的受眾間也可以互相進行信息的交互。人們從被動的網(wǎng)站信息讀取者,變成既是讀取者又同時是網(wǎng)頁內(nèi)容的作者,網(wǎng)絡上有越來越多的帶有個人主觀性的信息就越來越多了。為了獲得民眾網(wǎng)絡上出現(xiàn)的對諸如人物、事件、產(chǎn)品的評價信息,情感分類就應運而生了。
句子級別的情感分類,屬于特殊的文本情感分類,其所做的研究是以句子為載體。在用戶交互性、參與性很強的Web2.0時代,網(wǎng)上的許多帶有個人主觀的信息都是以單句話的形式出現(xiàn)的,如電子商務網(wǎng)站的產(chǎn)品評論、網(wǎng)絡論壇對重大事件的態(tài)度以及民眾對重要的時事政策的態(tài)度,尤其是微博的出現(xiàn),這一特點體現(xiàn)的更為充分。對句子級別的情感分類的研究對于商品經(jīng)濟的發(fā)展、政府重大方針政策的制定、輿情監(jiān)控等都具有重要的意義。
2.1SVM分類器
機理可簡單概括為:在線性可分情況下,找到一個分類超平面將二類分開,同時滿足二類的距離最大,能將兩個類分開的超平面通常被稱作最優(yōu)分類超平面。支持向量機的核心內(nèi)容是:把超平面的建立問題轉(zhuǎn)化為統(tǒng)計學習理論中的二次優(yōu)化問題,根據(jù)結(jié)構(gòu)風險最小化原則,從而取得最優(yōu)解。設給定訓練集其中xi∈X?Rn,y∈Y={-1,1}i=1,2,...,l。l為訓練樣本的總的個數(shù),n為模式空間的維數(shù),y為區(qū)分樣本的類標。支持向量機要解決的是如下的一個最優(yōu)化問題:
解決這個問題,通常依據(jù)最優(yōu)化理論,轉(zhuǎn)為其對偶問題
用下面的判別函數(shù)分類
2.2KNN簡介
近鄰法(簡稱NN)是一種重要的非參數(shù)模式識別方法。NN分類器的基本原理:對于一待分類的文本向量x,以所有的訓練樣本作為代表點,在代表點中找出K個相似的文本,然后將這K個文本作為候選類別,以文本x與K個樣本的相似度的值作為衡量權(quán)重,同時設定相似度閥值,可以判定x的類別[5-8]。
KNN算法如下:
其中,x為待分類的文本,di為K個最鄰近的樣本中的第i個文本,cj表示所屬類別;δ(di,cj)∈{0,1},當di屬于cj時取1,反之取0;bj為類別cj所預先設定的閥值;sim(x,di)為待分類文本x與訓練樣本di之間的相似度值。
其中,ωij表示特征權(quán)重,N為特征向量的維數(shù)。
3.1對SVM分類機理的分析
在中科院的李蓉等研究員,通過對SVM和NN的研究,從數(shù)學原理上證明了二者之間的聯(lián)系,此聯(lián)系由下面的定理給出。
定理SVM分類器等價于每類只選一個代表點的1-NN分類器。
3.2SVM-KNN分類器簡介
將兩種分類器相結(jié)合是基于上面的定理,SVM可以看成是每類只取一個支持向量作為代表點的NN分類器。該算法的基本機理:先用SVM判斷帶測試點和超平面的距離,對于離超平面超過某個設定閥值的點,用SVM分類。否則,用KNN來分類[9]。
本實驗采用SVM分類器,采用以切詞的后綴為特征,即在前述維吾爾語情感分類流程中,在去停頓詞后,以空格為標記,將整篇文本分為一個個單個的詞,在對詞進行切后綴取代詞來做特征,取代傳統(tǒng)的以詞做特征進行分類的方式。
本實驗中多類分類器的構(gòu)造,是使用“一對一”方法構(gòu)造n(n-1)/2個二分類器實現(xiàn)的,依卡方為特征選擇方法。詳見圖1、圖2、圖3
圖1 詞和5個后綴對比
圖2 詞和6個后綴對比
圖3 詞和7個后綴對比
本實驗中所應用的二分類器所使用的核函數(shù)均為多項式核函數(shù),K(x,xi)=[(x*xi)+1]d,核函數(shù)參數(shù)d(0.5),錯誤懲罰參數(shù)C的值為(4),分類閥值ε的值?。?.5)。
本實驗使用的語料為三類情感語料:褒義、貶義、中性。從實驗結(jié)果,以后綴作特征的方法比以詞做特征有著更好的性能。優(yōu)點是,能一定程度上提高分類的準確率,尤其對于貶義類的情感句子的分類取得了較大的提高,最高可以提高16%。使用詞綴作特征的另一個優(yōu)點是,能夠大幅度的降維,這就一定程度的解決維數(shù)災難的問題。在分類中,隨著維數(shù)的增加所需要的計算量通常是以指數(shù)級別增長的,實驗證明詞綴的方法能夠?qū)稻S起到了良好的效果。如圖4所示,當取5個后綴字母的詞綴時,特征維數(shù)變?yōu)? 599,較之以詞做特征的15 372個特征,下降了近50%之多。分別以詞、5個字母詞綴、6個字母詞綴、7個字母詞綴作實驗對比,總的特征維數(shù)分別為:15 372,7 599,9 443,11 370.圖4是在取詞以及詞綴數(shù)目不同時的特征維數(shù)變化對比圖。從三類的實驗結(jié)果可以看出,一般在特征維數(shù)選定在1500—2000時,能獲得最優(yōu)的效果,準確率達到最大值。
圖4 總的特征維數(shù)
本文針提出了一種新的文本情感特征,在SVM-KNN分類器中對非平衡文本數(shù)據(jù)進行試驗,實驗結(jié)果證明,在一定的維數(shù)范圍內(nèi),能夠提高分類的精度。
參考文獻:
[1]Picarcl R W.Affective Computing[M].Canbrige:MIT Press,1997.
[2]Pang B,Lee L,Vaithyanathan S.Thumbs up Sentiment Classification Using Machine Learning Techniques.In Proc. Conf.on Empirical Methods in Natural Language Processing,2002:79-86.
[3]肖偉.基于語義的BLOG社區(qū)文本傾向性分析[D].上海交通大學軟件工程學院,2007.
[4]Yi J,Nasukawa T,Bunescu R,et a1.Sentiment Analyzer:Extracting Sentiments about a Given Ttopic Using Natural Language Processing Techniques.In Proc.of the 3rd IEEE Int.Conf.on Data Mining,2003:427-434.
[5]張寧,賈自艷.使用KNN算法的文本分類[J].計算機工程,2005,3l(8):171-185.
[6]王煜,白石.用于Web文本分類的快速kNN算法[J].情報學報,2007,26(1):60-64.
[7]Metzler D,Croft WB.Combining the Language Model and Interference Network Approaches to Retrieval Information Pro?cessing and Management Special Issue on Bayesian Networks and Information retrieval,2004,40(5):735-750.
[8]Pang B,Lee L,Vaithyanathan S.Thumbs up Sentiment Classsific 2007,26(1):60-64.
[9]李蓉,葉世偉,史忠植.SVM-KNN分類器——一種提高SVM分類精度的新方法[J].電子學報,2002,30(5):745-748.
中圖分類號:TP391.1
文獻標識碼:A
文章編號:1671-6469(2016)03-0136-05
收稿日期:2016-03-10
基金項目:新疆科技廳“新疆高校數(shù)字圖書資源共享體系建設與利用對策研究”(2014731004);昌吉學院研究群體“Web信息抽取與數(shù)據(jù)挖掘技術及其在網(wǎng)絡輿情監(jiān)測中的應用研究”(2012YJQT03)。
作者簡介:高陽(1982-),男,河南周口人,昌吉學院計算機工程系助教,研究方向:自然語言處理、數(shù)據(jù)挖掘。