李響,吐爾根依布拉音,卡哈爾江阿比的熱西提,買合木提買買提
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué) 新疆多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
在互聯(lián)網(wǎng)時(shí)代普及的同時(shí),網(wǎng)民們在互聯(lián)網(wǎng)上獲取知識和發(fā)布信息也隨之增加,網(wǎng)絡(luò)上出現(xiàn)大量帶有情感的文本.然而這些信息的雜亂無序可能會(huì)誤導(dǎo)人們,所以對這些信息的有效處理已成為一個(gè)很重要的課題.情感分類[1]是指對文本的情感進(jìn)行不同類別的分析任務(wù).目前對于研究情感分類已有數(shù)年,最常用的分類方法一般都是基于監(jiān)督的學(xué)習(xí)[2].但監(jiān)督學(xué)習(xí)有一個(gè)很致命的缺陷,就是需要大量的已標(biāo)注的訓(xùn)練語料.小規(guī)模的語料較為好取,所以如何在小規(guī)模語料下獲取較好的情感分類是值得研究的.
一般來說,半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)和主動(dòng)學(xué)習(xí)(Active Learning)是常用的小規(guī)模樣本分類方式.半監(jiān)督學(xué)習(xí)是利用一些雖然沒有標(biāo)注卻隱含能進(jìn)行分類信息的大量數(shù)據(jù),從而提高分類性能.此種方法在目前的情感研究中逐漸備受關(guān)注[1,3].主動(dòng)學(xué)習(xí)是另一種降低標(biāo)注語料規(guī)模的方法.這種方法通過主動(dòng)的選擇一些“優(yōu)秀的”分類樣本,然后參與分類,可以在少量的標(biāo)注語料條件下還能得到較好的分類結(jié)果.與此相反,主動(dòng)學(xué)習(xí)的方法情感分類研究還很少,這方面的研究還屬于起步階段[4?6].
本文在維吾爾語情感分類中加入了主動(dòng)學(xué)習(xí)的方法,使用基于用戶關(guān)系的Guduk維吾爾文微博網(wǎng)站中獲取的語料[7],并用已有的基于眾包的輿情語料標(biāo)注方法獲取少量標(biāo)注語料[8].出于情感語料庫的缺乏,為節(jié)省人力,該文使用聚類代表性,分類不確定性以及二者差異性三種策略去進(jìn)行主動(dòng)學(xué)習(xí)的標(biāo)注,以此來擴(kuò)大情感語料庫的規(guī)模.
近年來,自然語言處理研究領(lǐng)域的熱點(diǎn)漸漸轉(zhuǎn)為情感分析.情感分析可以分為基于機(jī)器學(xué)習(xí)的方法和基于情感詞典或者知識系統(tǒng)的方法.其中,基于機(jī)器學(xué)習(xí)的方法主要有NB(樸素貝葉斯)、SVM(支持向量機(jī))和最大熵方法等[9?11].Pang等首次在情感分類中使用基于監(jiān)督的機(jī)器學(xué)習(xí)方法.許多后續(xù)研究的目的都是要提高監(jiān)督學(xué)習(xí)方法的性能,例如抽取主觀句[12]、尋找上層分類特征[13]和利用主題部分相關(guān)信息[14].
基于機(jī)器學(xué)習(xí)的維吾爾文情感分析還處于初級階段,文獻(xiàn)[15]通過人工抽取的方法收集了維吾爾句子里能表達(dá)情感的關(guān)鍵詞和短語來建立情感詞典.因人工抽取情感詞費(fèi)時(shí)費(fèi)力,文獻(xiàn)[16]通過使用條件隨機(jī)場(CRFs)的方法分析維吾爾語的特征,并建立情感特征模版,利用此模型來自動(dòng)識別情感詞.田生偉等人[17]對維吾爾語情感分類使用了多個(gè)算法,如Naive Base、ME和SVM,對于這些算法使用了互信息、文檔頻率等特征提取的方法,其中ME和SVM對維吾爾語情感分類有較好的效果.
主動(dòng)學(xué)習(xí)歷來受人們關(guān)注,因?yàn)橹鲃?dòng)學(xué)習(xí)可以使機(jī)器學(xué)習(xí)更加人性化,更具有人工智能.目前有三類主動(dòng)學(xué)習(xí)算法:第一種是減少分類誤差來進(jìn)行抽樣,以達(dá)到抽樣的樣本更接近分類器的樣本[18];第二種是通過找尋和分類器最不確定的樣本,這樣更能體現(xiàn)樣本多樣性[19];第三種是設(shè)置不同分類器同時(shí)抽樣,找到差異最大的樣本[20].
主動(dòng)學(xué)習(xí)的方法在情感分類研究中才剛剛開始.文獻(xiàn)[21]只是在大規(guī)模未標(biāo)注語料中找到了適合學(xué)習(xí)的樣本,這種基于深度置信網(wǎng)絡(luò)的方法較為復(fù)雜,但也是主動(dòng)學(xué)習(xí)的一種.文獻(xiàn)[3]采用了主動(dòng)學(xué)習(xí)三類中的第二種方法,即找到最不確定的樣本或有歧義的樣本,然后直接構(gòu)建分類器.不過使用的主動(dòng)學(xué)習(xí)策略相對簡單,只能當(dāng)作一種輔助.本文把三種策略的主動(dòng)學(xué)習(xí)方法加入維吾爾語情感分類器,并驗(yàn)證了這個(gè)方法的有效性.這個(gè)方法可以在僅有的標(biāo)注語料下,挑選出一些對分類器更為有用的適用的樣本,這樣可以獲得更準(zhǔn)確分類結(jié)果以便進(jìn)行后續(xù)的學(xué)習(xí).
維吾爾語語料的獲取可以從維吾爾語網(wǎng)站獲取.維吾爾語網(wǎng)站不斷建立以及內(nèi)容更新,可以成為獲取語料的首要手段.本文使用網(wǎng)絡(luò)爬蟲把網(wǎng)站中的語料獲取下來,然后去除圖像等非文本符號,只保留含有評論的文本[5].
用本小組已有的基于眾包的輿情語料標(biāo)注方法[6],可以對已獲取的語料進(jìn)行篇章級、段落級、句子級以及詞語級進(jìn)行情感標(biāo)注.眾包的任務(wù)外派給不確定的群體,而外包則是外派給確定的個(gè)體.此外,外包強(qiáng)調(diào)的是高度專業(yè)化,眾包則相反,更有針對性和創(chuàng)作自由,對多學(xué)科的創(chuàng)新往往具有巨大的潛力.
眾包平臺標(biāo)注格式可用向量表示,每個(gè)所需標(biāo)注的語料使用7種不同強(qiáng)度向量來表達(dá)此語料的情感程度.我們將情感分為樂(Joy)、好(Good)、怒(Anger)、哀(Sorrow)、懼(Fear)、惡(Hate)、驚(Surprise)這7種情感.每一個(gè)情感取值區(qū)間在0-1之間.
對于各種語言分類,SVM(支持向量機(jī))模型都很適合.本文使用SVM的方法來訓(xùn)練和分類維吾爾語情感文本.
該算法的原理:為區(qū)分類別,需要找到一個(gè)超平面,把不同的類別通過這個(gè)超平面進(jìn)行分類.此外保證每個(gè)類別能在超平面兩側(cè)達(dá)到最大空白區(qū)域時(shí),精度便能達(dá)到一定標(biāo)準(zhǔn)[22].
對于給定訓(xùn)練集:(xi,xj),i=1,2,...,n,x∈Rd,y∈{+1,?1},其中xi是特征向量,y是標(biāo)注,d是特征維數(shù).這里假設(shè)超平面為ω·x+b=0,如果樣本數(shù)據(jù)線性可分,就可以找到這樣的兩個(gè)超平面使得這兩個(gè)平面之間沒有樣本點(diǎn),并且這兩個(gè)超平面之間的距離是最大的.對于兩個(gè)平面之間沒有樣本點(diǎn),相當(dāng)于yi(ω·i+b)>1,i=1,2,...,n.兩個(gè)超平面之間的距離=2/|ω|,最大化這個(gè)間隔相當(dāng)于最小化|ω|.解決最優(yōu)分類平面的問題就轉(zhuǎn)換成了一個(gè)帶有約束性的二次線性規(guī)劃的問題.
根據(jù)優(yōu)化理論可得最終的決策函數(shù)為:
對于沒有標(biāo)注的語料,我們需要使用無監(jiān)督的機(jī)器學(xué)習(xí)算法.其中,k-means聚類較為簡單又很有效.使用k-means聚類把未標(biāo)注的語料劃分為多個(gè)具有代表性的類簇.這里的每個(gè)類的質(zhì)心在后續(xù)的主動(dòng)學(xué)習(xí)策略中將體現(xiàn)出文本的代表性.在聚類的過程中,我們對已經(jīng)轉(zhuǎn)化為VSM的維吾爾語語料使用余弦定理來計(jì)算每個(gè)樣本之間的距離,并劃分為各個(gè)類.
SVM模型適用于各種語言,同樣對于維吾爾語進(jìn)行適當(dāng)?shù)念A(yù)處理,就能很好的在SVM中運(yùn)行.下面針對維吾爾語進(jìn)行語料預(yù)處理,把原SVM模型改進(jìn)為可以對維吾爾語進(jìn)行情感分類的模型.
維吾爾語和英文類似,使用空格空開每個(gè)詞,可以進(jìn)行簡單的分詞.對分過詞的維吾爾語我們需要做空間向量模型(VSM),然而維吾爾語向量化基本等同于其它語言.一般選用帶有特征值的詞作為向量模型,現(xiàn)在常用的計(jì)算特征詞的方法就是使用TF-IDF(詞頻逆向文檔頻率).通過此算法選取的特征詞一般能顯示出文本的主題.在維吾爾語中也適用于此方法.下面給出TF-IDF計(jì)算公式[23].
其中i代表文檔數(shù)目,j表示每篇文檔中帶有特征的情感詞數(shù)目,D是選取文檔總數(shù),n代表選取的特征詞.通過此算法,可以構(gòu)建向量空間模型.
維吾爾語是黏著性語言,如果情感詞帶有否定效果會(huì)在詞的后面帶有否定尾綴,在統(tǒng)計(jì)TF-IDF時(shí)應(yīng)當(dāng)把帶有否定詞綴的情感詞逆置,即把這種帶有否定詞綴的句子的情感類別放入相反的類別里.
把語料做以上處理生成VSM(向量空間模型),在普通SVM模型中即可進(jìn)行維吾爾語情感分類的分析.同時(shí)加入如下的三個(gè)主動(dòng)學(xué)習(xí)策略來進(jìn)行主動(dòng)學(xué)習(xí)的維吾爾語情感分類.
4.2.1 樣本差異性
已標(biāo)注的樣本和未標(biāo)注的樣本理論上是有差距的.當(dāng)然,在進(jìn)行新的樣本標(biāo)注時(shí),有更大差異性的樣本就會(huì)更值得標(biāo)注.這樣標(biāo)注的樣本可以擴(kuò)充之前的分類信息,獲得更有用的分類信息.為了計(jì)算未標(biāo)注樣本的差異性,計(jì)算每個(gè)未標(biāo)注樣本到已標(biāo)注樣本的中心距離,樣本之間的距離越大,那么它們之間差異性就會(huì)越大.然后把樣本差異性和分類不確定性最大的樣本取出并進(jìn)行人工標(biāo)注,把這些新的樣本放入已標(biāo)注的樣本集中.使用如下公式計(jì)算需要人工標(biāo)注的樣本:
其中,distance代表未標(biāo)注樣本到已標(biāo)注樣本中心的距離,uncertainty代表未標(biāo)注樣本的不確定性,λ為人為定義的偏向系數(shù),0<λ<1,本文中λ取0.5.
4.2.2 聚類代表性
聚類代表性指使用聚類算法對未標(biāo)注的語料進(jìn)行無監(jiān)督的機(jī)器學(xué)習(xí),讓這些帶有情感色彩的句子分為各個(gè)小類,然后在每個(gè)小類中算它們的質(zhì)心,這個(gè)質(zhì)心代表這個(gè)小類的點(diǎn),這樣每個(gè)小類的代表性就能體現(xiàn).
4.2.3 分類不確定性
一般把已標(biāo)注的樣本,稱為確信樣本,這樣的信息可以放入分類器進(jìn)行分類.但是,無法確定的樣本,即未標(biāo)注的樣本不能被分類.因此,這種不確定性可以衡量樣本對分類器的重要程度.在引入不確定性前,先用少量已標(biāo)注語料訓(xùn)練一個(gè)分類模型,然后使用這個(gè)分類器對帶有不確定性的未標(biāo)注樣本進(jìn)行分類測試,選取分類結(jié)果中類別后驗(yàn)概率最接近0.5(分類模型認(rèn)為是不確定性最高的樣本)作為候選樣本.
基于三種策略的主動(dòng)學(xué)習(xí)算法:
輸入:標(biāo)注樣本L,未標(biāo)注樣本U;
輸出:新的標(biāo)注樣本L.
程序:
1).取樣本L訓(xùn)練,構(gòu)造分類器M;
2).對樣本U使用聚類算法,生成具有代表性的各個(gè)小類;
3).計(jì)算每個(gè)小類的質(zhì)心,即為每個(gè)具有代表性的樣本;
4).使用分類器M對具有代表性的樣本進(jìn)行分類,獲得每個(gè)樣本對于樣本L的不確定性;
5).對每個(gè)具有代表性的樣本進(jìn)行差異性計(jì)算;
6).選擇差異性最大的樣本做人工標(biāo)注并加入樣本集L中.
此算法把三種策略集合為一體篩選需要人工標(biāo)注的樣本.也可分別拿出每個(gè)策略進(jìn)行單一篩選.
實(shí)驗(yàn)采用維吾爾文微博網(wǎng)站Guduk微博上獲取的具有情感色彩的微博19967條[5].實(shí)驗(yàn)中400條樣本使用眾輿情語料標(biāo)注平臺進(jìn)行人工標(biāo)注當(dāng)作已標(biāo)注樣本以構(gòu)造分類器.另取600條作為測試樣本.剩下樣本做未標(biāo)注樣本.分類算法使用libsvm2.0工具包(http://www.csie.ntu.edu.tw/~cjlin/libsvm/),聚類算法使用自己編寫的k-means算法.
通常在情感分析中使用準(zhǔn)確率作為分類效果的衡量標(biāo)準(zhǔn).計(jì)算公式如下:
本實(shí)驗(yàn)分別使用三種策略進(jìn)行100,300,1000條語料的選擇,我們把主動(dòng)學(xué)習(xí)的策略簡化描述,把隨機(jī)選取的語料即獲取未經(jīng)過處理的語料進(jìn)行標(biāo)注的方法稱為RAND,把分類不確定性方法稱為UNCE,把聚類代表性方法稱為REPR,把樣本差異性方法稱為Div.
表1是對原分類器加100條語料的分類結(jié)果.可以看出每種帶有主動(dòng)學(xué)習(xí)的方法都比隨機(jī)選取進(jìn)行標(biāo)注的分類效果要好,另外把三種主動(dòng)學(xué)習(xí)策略結(jié)合的效果更佳.
表1 加入100條語料分類結(jié)果
表2和表3分別是加入300和1000條語料的分類結(jié)果,可以發(fā)現(xiàn),當(dāng)越多的語料加入后,信息越來越飽和,準(zhǔn)確率也逐漸提高,而且發(fā)現(xiàn)主動(dòng)學(xué)習(xí)的策略在加入300條語料的分類結(jié)果超過了加入1000條語料隨機(jī)抽取的方法.
表2 加入300條語料分類結(jié)果
表3 加入1000條語料分類結(jié)果
使用不同策略后加入不同規(guī)模大小的語料再進(jìn)行分類的準(zhǔn)確率對比如圖1.可以看出在語料規(guī)模增加后,每個(gè)策略都有明顯的提高,但是在一定語料的加入后,準(zhǔn)確率就有了一定飽和,不再上升.
圖1 在不同策略下加入不同大小語料的分類準(zhǔn)確率
本文在加入三種主動(dòng)學(xué)習(xí)的策略選擇更適合分類的語料標(biāo)注.實(shí)驗(yàn)表明,基于代表性和基于不確定性的主動(dòng)學(xué)習(xí)策略對于分類器準(zhǔn)確率的提高要好于其它二者,并且把三種主動(dòng)學(xué)習(xí)策略進(jìn)行結(jié)合對于分類器的準(zhǔn)確率也有穩(wěn)定的提高.
加入主動(dòng)學(xué)習(xí)的SVM分類器對維吾爾語情感分析的準(zhǔn)確率有少部分提高,使得在較少標(biāo)注語料的分類器下篩選更為有用的語料.但是SVM本身的準(zhǔn)確率還有待于提高,接下來的工作需要選擇合適的參數(shù)提高SVM的準(zhǔn)確率,并擴(kuò)充語料的規(guī)模,提高分類的準(zhǔn)確率.