• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于半監(jiān)督學習的微博情感分析?

    2018-09-28 02:30:32黎樹俊
    計算機與數(shù)字工程 2018年9期
    關(guān)鍵詞:置信度分類器準確率

    陳 珂 黎樹俊 謝 博

    (廣東石油化工學院計算機科學與技術(shù)系 茂名 525000)

    1 引言

    隨著互聯(lián)網(wǎng)的發(fā)展,作為社交應用的微博,已經(jīng)逐漸改變?nèi)藗兊慕涣鞣绞健N⒉┑淖杂脩粢呀?jīng)超過5億,每天的微博發(fā)博量超過1億條,這些龐大的數(shù)據(jù)蘊含著很高的價值,其中包含著用戶的情感和觀點。通過對這些數(shù)據(jù)的分析,可以了解用戶對某個事件的看法和觀點,對某種產(chǎn)品的評價與滿意度和對熱門事件的態(tài)度傾向,企業(yè)可以利用這些數(shù)據(jù)來進行產(chǎn)品的生產(chǎn)調(diào)整和改進營銷策略,政府可以利用這些數(shù)據(jù)了解民意,進行輿論監(jiān)督,合理地進行制度的改進和提高工作效率。

    所謂微博情感分析,也就是對用戶情感傾向的判定。如今情感分類的方法很多,典型的方法有基于情感詞典的分類方法[1~2],該方法不需要任何標注樣本,但是其性能并無明顯優(yōu)勢。比較流行的分析算法有監(jiān)督學習方法[3],它是利用大量已經(jīng)有情感標注的樣本來訓練分類器,其準確性高,但是在實際應用中,微博的數(shù)據(jù)容易獲得但它并沒有情感標注,所以它需要大量的人工來標注樣本,其工作量大大增加,降低其工作效率。面對這種情況,半監(jiān)督學習方法[4~5]解決辦法。半監(jiān)督學習是利用少量已標注的樣本和大量未標注樣本來進行有效的情感分類。本文就是利用基于分類器集成的self-training半監(jiān)督學習方法來分析微博的情感傾向。在半監(jiān)督學習中,對于已標注文本數(shù)量比較少時,集成分類器能比較好地判定樣本的情感傾向,其預測的能力比單個分類器的能力要強,子分類器的意見越統(tǒng)一,說明置信度越高,分歧越大,說明置信度越低。這樣進行情感分類準確率更高。這方面也有不少的人進行研究[6~7],得到可觀的分類效果。子分類器并不是越多越好,子分類器太多不但增加計算的復雜性,也增加了時間復雜度。根據(jù)訓練集的大小和分類器的分類特點,合理地選擇分類器起到關(guān)鍵的作用。

    本文利用子分類器的特點,選擇了三個分類器來進行集成,并根據(jù)訓練集的大小,合理地設(shè)置了各個子分類器的情感貢獻權(quán)重,綜合子分類器的分類結(jié)果和其分類能力,將置信度高的預測文本連同它們的預測的標簽一同加入訓練集,有效地降低了時間復雜度,同時也兼顧了準確性。

    2 相關(guān)研究

    情感分析來源于對Tweet的情感分析工作。隨著情感分析技術(shù)的不斷發(fā)展,提出了很多情感分析的方法,包括監(jiān)督學習,無監(jiān)督學習和半監(jiān)督學習。在最早期的情感分析工作中,Pang等[2]對電影評論文本采用監(jiān)督學習的方法進行情感分類,Turney等[8]基于無監(jiān)督的學習方法對文本進行情感分類。

    監(jiān)督學習情感分類是當前的主流。Pang等利用機器學習對文本的情感進行分類,取得很好的分類效果。Melville等[9]在文本情感分類中加入了詞典知識來進行情感分類,提高分類的準確率,盡管監(jiān)督學習的準確率高,但是由于需要大量的標注樣本,使得情感分類需要很大的標注代價。一種解決辦法便是無監(jiān)督學習方法,該方法不需要情感標注樣本,但是依賴一些先驗經(jīng)驗,比如情感詞典、語料庫等來判斷文本的情感。徐群玲[10]等基于SO-PMI方法提出一種計算詞語傾向性的方法,并將其用于中文文本情感分類。Zagibalow[11]等針對中文的商品評價應用一種自動種子詞選取技術(shù)的無監(jiān)督學習方法來進行文本的情感分類。雖然無監(jiān)督免去大量的人工標注,但是卻由于分類效果不佳,難于滿足實際要求。而半監(jiān)督是利用少量已標注的情感樣本來標注大量未標注的樣本,有著很好的實用性。近年來,半監(jiān)督越來越受研究者的喜愛,Wan[12]采用協(xié)同訓練的半監(jiān)督學習方法進行中文文本的情感分類。Li等[13]從個人視圖和非個人視圖出發(fā),將評論語句采用協(xié)同訓練進行半監(jiān)督情感分類。Sindhwani和Melville提出了基于二部圖的半監(jiān)督學習方法[14]。高偉[15]也對基于集成學習的半監(jiān)督情感分類進行了研究。Liu等[16]關(guān)于微博語料情感不平衡問題,提出了reserver self-trainging的半監(jiān)督學習方法。

    3 基于半監(jiān)督的微博情感分析

    3.1 self-trianing方法

    自我學習(self-training)方法是一種最早提出的半監(jiān)督學習方法,它利用少量的標注樣本來訓練分類器,進一步對未標注的微博文本進行情感預測,找出結(jié)果置信度比較高的文本和其預測的情感極性加入到已標注的文本中來,用來繼續(xù)訓練分類器,然后進行迭代,從而實現(xiàn)了用少量已標注的文本進行情感分類。圖1是self-training方法的框架。

    圖1 self-training方法框架

    用一個分類器對未標簽的樣本進行情感預測的結(jié)果置信度不夠高,而且由于半監(jiān)督學習標注的樣本數(shù)量不夠多,導致早期無法很好地訓練出準確度高的分類器,很大機率產(chǎn)生錯誤標注,從而引入噪聲。隨著噪聲的增加,會嚴重的影響分類器的分類效果。本文為了說明這種情況,利用傳統(tǒng)的基于SVM的self-training方法與本文方法的對比實驗。

    3.2 基于SVM的self-training算法

    基于SVM的self-training算法的基本思想就是利用少量的已標注的樣本進行訓練SVM分類器,利用訓練的分類器來對未標注的文本進行分類預測,挑選出距離SVM分類超平面比較遠的文本向量加入到已有標簽的訓練集中,標簽就是分類器預測的結(jié)果,用獲得的新的訓練集進一步訓練分類器,一直迭代,直到達到訓練的閾值,其算法見表1。

    表1 基于self-training的SVM算法

    3.3 基于分類器集成的self-training算法

    由于只有少量的標注樣本,無法訓練出準確度高的分類器,導致在對未標注的文本進行情感分類預測時的置信度不高。針對這種情況,本文將采用三種分類器(支持向量機(SVM)、樸素貝葉斯(NB)、基于情感詞典的無監(jiān)督分類器),同時對文本進行分類預測,整合三種分類器的結(jié)果進行最后標簽的確定。設(shè)微博文本d的置信度為CS,SVM、樸素貝葉斯、基于情感詞典的分類器對文本d的置信度貢獻值分別定義為SCS、NCS和QCS,則:

    其中K1,K2,K3表示各個子分類器的情感貢獻權(quán)重。當每個分類器對微博文本進行情感分類預測時,如果情感結(jié)果為積極時,則各個分類器的置信度貢獻值設(shè)為1,如果情感結(jié)果為消極時,則各個分類器的置信度貢獻值設(shè)為-1,當|CS|值越大,表示各個分類器的預測意見越統(tǒng)一,置信度越高。利用半監(jiān)督學習的self-training,將置信度高的樣本加入已標記樣本集,循環(huán)迭代,重新利用新的樣本集訓練分類器。

    各個子分類器的情感貢獻權(quán)重指的是對文本的情感分類結(jié)果的影響程度。不同的分類器在對文本進行情感分類時,除了要考慮到該分類器的最終結(jié)果,還應該考慮到該分類器的分類能力,分類能力強的分類器對分類結(jié)果的影響程度要比分類能力弱的分類器大,而不是一樣大,針對這種情況,本文引入了各個子分類器的情感貢獻權(quán)重。分類能力的強弱體現(xiàn)在分類器的分類準確率上,對于同一訓練文本,分類器分類能力強的,其分類準確率也就越高。所以各子分類器的情感貢獻權(quán)重(K1,K2,K3)的取值等于各子分類器對同一測試集的分類準確率。

    由于訓練階段的不同,各個子分類器有著不同的性能和優(yōu)勢。為了充分地利用各個子分類器的優(yōu)勢,本文根據(jù)訓練集的數(shù)量分為三個訓練階段來調(diào)整三個分類器的情感貢獻權(quán)重,分別為早期,中期和后期。在各個階段,利用該階段訓練集訓練出的各子分類器對測試集進行情感分類預測,將得到的各子分類器的準確率作為其情感貢獻權(quán)重值進行進一步的訓練。在半監(jiān)督學習中,隨著訓練集的不斷增加,在不同的階段設(shè)置不同的情感貢獻權(quán)重來提高分類的準確率。該方法充分利用了標注樣本,也有效地降低噪音,從而提高分類的效果。圖2是基于多分類器集成的self-training框架,詳細算法見表2。

    圖2 基于多分類器集成的self-training框架

    3.4 基于情感詞典的分類

    本文利用已有的情感詞典來分析,對于一段微博,里面有很多情感詞語,比如開心、傷心等。根據(jù)含情感的詞語的情感程度,人工進行情感權(quán)重的賦值,正面詞語賦值為正數(shù),負面詞語賦值為負數(shù)。對于程度詞,比如非常、極其等給文本的情感強弱程度上有著很大的影響,根據(jù)程度副詞的情感傾向強弱程度人工地設(shè)置相應的權(quán)值。其分類的步驟如下:

    表2 基于多分類器集成的self-training算法

    1)將未標注的文本進行分詞和去停用詞等處理。

    2)根據(jù)文本中的情感詞、否定詞、以及程度詞來計算情感置信度。

    對照情感詞典,當:

    (1)情感詞在其前后沒有程度詞和否定詞時:按照情感詞的情感權(quán)重來計算。

    (2)程度詞和否定詞沒有修飾情感詞時:直接忽略。

    (3)情感詞有程度詞修飾時:程度詞的權(quán)重乘以情感詞的權(quán)重。

    (4)情感詞有否定詞修飾時:情感詞的權(quán)重乘以-1。

    3)將一條微博的所有詞的權(quán)重相加便得到該文本情感致信度QC。

    4)如果QC最后為正數(shù),表明該文本的情感為積極的,如果該文本的QC為負數(shù),表明該文本的情感為積極的。

    4 實驗與分析

    4.1 特征提取

    文本特征是指文本中能區(qū)分其他不同文本的特征項,微博文本特征提取要考慮到其短小、快速、碎片化的特點。本文將采用CHI統(tǒng)計方法來提取能顯著表示文本類別的詞匯。CHI統(tǒng)計方法是一種比較好的和廣泛應用的特征選擇方法。對于每個特征項W與類別P的開方值x2的計算方式為

    在上式中,N表示文本的總篇數(shù),A表示特征項w在類別p中出現(xiàn)的次數(shù),B表示的是特征項w不在類別p中出現(xiàn)的次數(shù),C表示為類型P時,特征項w不出現(xiàn)的次數(shù)。D表示特征項w和類型p都不出現(xiàn)的次數(shù)。利用上式計算每個特征項的X2,然后根據(jù)開方值的大小來排序,選擇前面值較大的數(shù)個詞匯作為特征項。

    4.2 特征權(quán)值的計算

    特征權(quán)值表示文本特征在其文本的權(quán)重,對分類器的分類起著關(guān)鍵的作用,本文使用基于詞頻權(quán)重(TF)來計算特征權(quán)值。計算方式:

    利用上式,從而將文本轉(zhuǎn)為了詞向量,利于后面的運算。

    4.3 實驗數(shù)據(jù)

    本實驗包括兩個不同領(lǐng)域的數(shù)據(jù)集,分別是微博上關(guān)于酒店評論語料和電影評論語料,每個訓練集包含有20000篇評論,其中已標注正負面的各1500篇。從已經(jīng)標注好的文本中,正負面各隨機抽取200篇來作為測試集,剩下的用來做訓練集。首先對文本進行預處理,將廣告性、重復性的文本和鏈接信息去掉,對句子的特殊符號做正規(guī)化處理。本實驗利用python中的分詞工具jieba進行分詞,去掉停用詞后(如表3),利用CHI進行特征提取,用基于詞頻進行權(quán)值的計算,最終將文本向量化。本文使用監(jiān)督學習分類器的樸素貝葉斯(NB)和支持向量機(SVM),以及無監(jiān)督學習的基于情感詞典分類器,其中情感詞典是來自于HowNet,HowNet包含219個中文程度級別詞語、中文負面評價詞語3116個、中文負面情感詞語1254個、中文正面評價詞語3730個、中文正面情感詞語836個。人工給每個情感詞和程度賦予情感權(quán)重,然后進行實驗。

    4.4 情感分類評價標準

    本文將使用準確率(precision)、召回率(recall)、和F(F-measure)值來評價分類器的性能。計算公式如下:

    表3 微博文本的處理前后對比

    其中TP表示指定一個類別,能正確分類的文本數(shù)目。FN表示指定一個類別,錯誤地分為其他類的文本數(shù)目,F(xiàn)P表示指定一個類,分類器錯誤地將其他類分為本類的文本數(shù)目。準確率是指測試結(jié)果中正確分類的文本占分類結(jié)果中分為本類的文本數(shù)量的比例。召回率指的是測試結(jié)果中正確分類的文本占測試集中所有被人工標注為該類文本的數(shù)量的比例。

    4.5 實驗結(jié)果

    本實驗按照上述的方式對微博上關(guān)于酒店評論和電影評論的語料分別進行情感分類的實驗,兩組實驗的語料和已標注的訓練集的大小等條件保持一致。在實驗中隨著訓練集的不斷擴大,本文根據(jù)訓練集達到總的語料的30%、40%、50%、60%、70%、80%、90%時進行了分類準確度的測試,其對比分析如下圖3和圖4。

    圖3 酒店評論的分類效果

    本文還在情感分類準確率最高時,分別從準確率、召回率以及F值來更加深入地分析兩種分類方法,實驗結(jié)果如表4和表5所示。

    其中Proposed Method表示本文提出的方法。從圖3和圖4中的數(shù)據(jù)分析可知,在兩份語料訓練的整個過程,基于分類器集成的self-training方法分類準確率都比基于SVM的self-training要高,而且在訓練的前期,在已標注文本比較少時,本文的方法表現(xiàn)出可觀的分類性能,主要是因為引入基于情感詞典的無監(jiān)督分類器來進行分類,提高分類的準確率,有效的控制噪聲的引入。在訓練集不斷的擴大,達到一定程度時,兩種分類方法的分類準確率都會有所降低。這是因為隨著噪聲的逐漸積累,弱化了分類器的分類性能,導致了分類準確率的降低。所以合理地控制訓練的閾值可以提高準確率。

    圖4 電影評論的分類效果

    從表4和表5中可以看出采用基于多分類器集成的self-training的方法在積極情感分類的準確率平均達到86%,消極情感的分類平均達到了85.8%,這兩方面都比采用基于SVM的self-training的方法準確率高,表現(xiàn)出很好的分類能力。同時,從召回率和F值來看,基于多分類器集成的self-training的方法都比基于SVM的self-training的方法要高。這說明本文所采用方法的有效性。

    表4 酒店評論的情感分類結(jié)果

    表5 電影評論的情感分類結(jié)果

    5 結(jié)語

    本文針對微博碎片化等特點,提出基于多分類器集成的self-training的半監(jiān)督情感分析,可以利用少量已標注的樣本和大量未標注的樣本來訓練出準確率高的分類器。本文通過多個分類器(支持向量機,樸素貝葉斯、基于情感詞典的無監(jiān)督分類器)參與情感分類的預測,根據(jù)訓練集和各子分類器的特點,合理的設(shè)置各子分類器的情感貢獻權(quán)重,從而達到提高分類準確率的目的,準確率達到86%,比基于SVM的self-training的半監(jiān)督學習方法有所提高。下一步工作中,我們將在提高分類準確率和效率等方面進行深入研究。

    猜你喜歡
    置信度分類器準確率
    硼鋁復合材料硼含量置信度臨界安全分析研究
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
    2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
    高速公路車牌識別標識站準確率驗證法
    正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
    計算機應用(2018年5期)2018-07-25 07:41:26
    BP-GA光照分類器在車道線識別中的應用
    電子測試(2018年1期)2018-04-18 11:52:35
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
    置信度條件下軸承壽命的可靠度分析
    軸承(2015年2期)2015-07-25 03:51:04
    江陵县| 桐柏县| 平江县| 清水河县| 化隆| 垦利县| 抚松县| 醴陵市| 吉林市| 林州市| 红桥区| 邵武市| 溆浦县| 孝感市| 霍邱县| 临邑县| 沈阳市| 九江县| 宁陵县| 泰州市| 新丰县| 临海市| 桐城市| 大安市| 绥中县| 关岭| 遵义县| 阳城县| 布尔津县| 左贡县| 青铜峡市| 皋兰县| 滁州市| 天柱县| 台南县| 德格县| 洞头县| 沽源县| 鸡西市| 滁州市| 海伦市|