• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Doc2vec和深度神經(jīng)網(wǎng)絡的中文文本情感傾向研究

    2018-07-16 12:04:40王晨超劉洋
    電子技術與軟件工程 2018年10期
    關鍵詞:向量詞語神經(jīng)網(wǎng)絡

    文/王晨超 劉洋

    1 引言

    隨著互聯(lián)網(wǎng)尤其是智能手機的普及,越來越多的人會在網(wǎng)絡上發(fā)表自己的看法。因為網(wǎng)絡空間的相對隱蔽性,使得人們比在現(xiàn)實生活中更有可能地發(fā)表一些負面或者消極的言論,讓網(wǎng)絡上充滿著負面情緒。特別是一些網(wǎng)絡熱點事件的爆發(fā)時,網(wǎng)友會站在不同的觀點對峙。同時,公眾對于網(wǎng)絡熱點的態(tài)度和傾向,也往往會影響到政府相關機構的決定和行為。所以了解主流論壇、微博、博客等平臺的網(wǎng)民總體情感傾向,對于政府而言,為政府同社會公眾之間的溝通提供指導,使政府可以主動引導網(wǎng)絡輿情朝著健康正確的方向發(fā)展,促進網(wǎng)絡文化和社會環(huán)境的健康發(fā)展;對于商家而言,可以為他們投放廣告宣傳自己提供指導,到底哪些話題才是人們關注的熱點,而人們對這些熱點又持什么態(tài)度;對于個人而言,可以為尋找和他志同道合的論壇或是平臺提供指導。而要掌握網(wǎng)民的情感傾向,就要使用到文本情感傾向分析的技術。文本情感分析是指對包含用戶表示的觀點、喜好、情感等的主觀性文本進行檢測、分析以及挖掘。

    2 傳統(tǒng)的情感分析技術

    圖1:Doc2vec原理圖

    目前,文本的情感分析研究內(nèi)容主要分為3個方面:文本內(nèi)容的主客觀分類、文本的情感傾向性分類和文本的情感強度計算。本文所研究的是文本的情感傾向性分類。文本的情感傾向分析主要是通過一定的技術手段,將文本的情感分為正向或是負向兩類。而較為傳統(tǒng)的技術手段是:

    2.1 基于情感詞典的方法

    構建一個情感詞典,其中蘊含一個個感情強烈和感情傾向鮮明的詞語和其對應分值,再建立相應的程度副詞和否定詞典等。通過抽取出一段文本中的情感詞、否定詞和程度副詞等,結合已經(jīng)建立的情感詞典庫,根據(jù)一定的公式計算出該文本的分數(shù),依據(jù)分數(shù),將文本判斷為正向或是負向文本。

    但基于情感詞典的方法往往會有以下問題:無法準確的將長文本分類;無法準確的判斷文本中有褒詞貶用或貶詞褒用的這類文本;還有用特定的情感詞典和公式計算情感得分,會忽略了很多其他的否定詞、程度副詞和情感詞,以及這些詞的搭配情況,導致分類效果不佳。

    2.2 基于傳統(tǒng)機器學習的方法

    基于傳統(tǒng)機器學習的方法,常用的分類方法有:支持向量機分類法、中心向量分類法、K近鄰算法分類法、感知器分類法、貝葉斯分類法和最大熵分類法等,通過此類分類器識別出該文本的傾向性。

    相對于基于情感詞典的方法,該方法更加客觀,不單單只考慮了情感詞等特定詞語,綜合考慮了文本中出現(xiàn)的大部分詞語,所以對長文本也有較好的分類效果,故情感傾向分類準確率顯著提高。

    圖2:最簡單的MLP的結構

    但該方法,仍有其弊端。機器學習的分類方法,一般有三種:有監(jiān)督型、無監(jiān)督型和半監(jiān)督型。三者中,基于有監(jiān)督學習的分類方法都有不錯的分類效果,但是由于有監(jiān)督學習依賴于大量人工標注的數(shù)據(jù),使得基于有監(jiān)督學習的系統(tǒng)需要付出很高的標注代價。而無監(jiān)督學習和半監(jiān)督學習雖然標注代價很低,但是由于中文文本的復雜性,所以分類效果都并不是很好。

    3 基于深度神經(jīng)網(wǎng)絡的中文情感分析

    神經(jīng)網(wǎng)絡是機器學習的一個子集,而深度神經(jīng)網(wǎng)絡是一類特殊的神經(jīng)網(wǎng)絡,相比于一般的神經(jīng)網(wǎng)絡,它往往不止一個隱藏層。2006年,加拿大多倫多大學教授、機器學習領域的泰斗GeoffreyHinton等在《Science》上發(fā)表了一篇文章點燃了深度學習在學術和工業(yè)界的星星之火。而基于深度神經(jīng)網(wǎng)絡的AlphaGo算法在2016年3月?lián)魯×饲笆澜鐕骞谲娎钍朗源松疃葘W習成為全社會的焦點,一些非計算機領域的專家學者也紛紛關注起了深度學習和人工智能。隨著深度學習在在業(yè)界的發(fā)展,在很多領域之中,刷新了其記錄,例如很多分類問題的準確率。

    3.1 基于LSTM的中文情感傾向分析原理

    LSTM(Long Short-Term Memory)即長短期記憶網(wǎng)絡,是一種改進的循環(huán)神經(jīng)網(wǎng)絡(RNN)模型,也是一種深度學習的基本框架。LSTM把RNN隱藏層中的模塊用帶細胞的記憶單元來替代,同時信息選擇地通過輸入門和輸出門。1999年,Gers等在改進了LSTM,引入了遺忘門。這細胞狀態(tài)和三個門的設計,使得LSTM能夠更新、記憶上下文的信息,從而具有對長距離信息的處理的效果。而LSTM的這些特性,是其能進行情感分析并有不錯效果的關鍵。

    通過Word2vec算法,將大量詞語映射為高維向量表。而文本根據(jù)自身蘊含的詞語,用多個高維向量來表示文本。向量化后的文本,就可以被機器所使用,可以用來訓練LSTM模型。因為LSTM模型,不僅可以學習到文本中蘊含的詞語的信息,還能學習到上下文詞語之間的聯(lián)系,所以導致模型有很強大的學習能力,有很好的分類效果。

    相比于基于情感詞典和傳統(tǒng)機器學習的中文情感傾向分析,準確率大大提高。所以這是現(xiàn)有的中文情感傾向分析方法中,準確率較高的一種實現(xiàn)方法,往往有95%以上的準確率。

    3.2 基于LSTM的中文情感傾向分析的不足

    基于LSTM的方法,雖然有較高的準確率,但是相對應的其訓練成本也巨大。而訓練成本巨大的一個原因就是一個文本向量化后,它的向量數(shù)據(jù)太大。若一個詞語映射為400維的向量,一個文本中蘊含了50個詞,那么,這個文本向量化后,是一個50*400的矩陣,而往往一些文本可能蘊含超過50個詞語。文本向量化后的向量數(shù)據(jù)過大以及LSTM模型訓練時記憶上下文詞語之間的關系,導致LSTM模型的訓練成本急劇上升。相比于傳統(tǒng)的機器學習方法,同樣的語料庫,基于LSTM的方法的訓練時間是他們的幾十倍甚至幾百倍。雖然越大的數(shù)據(jù)代表了蘊含的信息更多,但是一個可以實際使用的模型或是工具,必須要考慮效率和成本之間的平衡。中文情感分傾向析也要平衡訓練成本和準確率。一個既有較高準確率并且訓練成本相對較小的模型,更具有普遍的適用性。

    4 基于Doc2vec和深度神經(jīng)網(wǎng)絡的中文文本情感分析

    LSTM訓練成本較大的原因:一是文本向量化后的向量過大,二是進行的是時序分類,考慮了文本中各詞語之間的聯(lián)系。那么針對這兩個原因,提出了基于Doc2vec和深度神經(jīng)網(wǎng)絡的方法,用Doc2vec訓練出來的是文本向量而不是詞語向量,這將大大簡化文本向量化后的矩陣。并且采用非LSTM的另一種深度學習框架,這將降低原有的在訓練神經(jīng)網(wǎng)絡時記憶的成本。

    圖3:實驗流程

    圖4:經(jīng)實驗各模型分類效果圖

    4.1 使用Doc2vec來將文本向量化

    Mikolov等人在2013年提出了Word2vec模型用于計算詞向量。Word2vec模型利用詞的上下文信息將一個詞轉(zhuǎn)化成一個高維實數(shù)向量,詞如果越相似則在向量空間中越接近?;贚STM的方法中,構建文本向量是將該文本中所有的詞語通過Word2vec向量化,以此構建文本向量矩陣?;赪ord2vec,Mikolov等人又給出了Doc2vec的訓練方法。Doc2vec是在Word2vec的基礎之上,不僅訓練出詞向量,并且還考慮了訓練樣本的上下文和單詞順序。在訓練前,每一個文本都會首先初始化為一個N維的向量,訓練過程中,會對輸入向量進行及時反饋更新,在進行大量語料的訓練之后,便可得到每一個文本相應的訓練向量。用來表征文本的向量擁有一定的特性,即相近意義的文本在向量空間上它們的距離也是相近的。原理見圖1。

    因為使用了Doc2vec將文本向量化,而不是通過將詞語向量化后再構建文本向量矩陣,實現(xiàn)了訓練樣本的精簡。若原有一個文本中有100個詞,詞向量的維度為400,文本向量的維度也為400。那么原來100*400的訓練樣本就被簡化為1*400,而訓練樣本的精簡,之后訓練分類模型的成本必將降低。

    4.2 使用多層感知機來進行分類

    LSTM是一種循環(huán)神經(jīng)網(wǎng)絡,在深度學習中,卷積神經(jīng)網(wǎng)絡(CNN)是除RNN外不得不提的,但我們并不使用CNN來構建中文文本情感傾向的分類器。為什么不用卷積神經(jīng)網(wǎng)絡來代替LSTM做情感分類器呢,原因是CNN仍需要花費大量訓練成本在空間信息上,所以更多用于圖像等蘊含空間信息的分類中。在簡單的二分類問題中,CNN的訓練成本仍較大,這時候,一種較為原始的深度神經(jīng)網(wǎng)絡-多層感知機發(fā)揮出更出色的作用。多層感知機(MLP)是一種前向結構的人工神經(jīng)網(wǎng)絡,映射一組輸入向量到輸出向量。MLP在很久以前就已被提出,但當時因為軟硬件的不足,發(fā)展有著局限性,在大規(guī)模的網(wǎng)絡中,會出現(xiàn)梯度消失和過度擬合。但是隨著近些年深度學習的發(fā)展,MLP又重新得到了關注。

    MLP的分類原理和神經(jīng)網(wǎng)絡的分類原理類似,以一個最簡單的MLP為例,見圖2。

    在中文文本分類中,輸入層是文本向量,隱藏層則對文本向量進行權重和偏置和函數(shù)激勵的處理,輸出層則輸出邏輯回歸后的結果。根據(jù)輸出的結果,判斷輸入的文本是否屬于同一類。而多個的隱藏層的神經(jīng)網(wǎng)絡就是廣義上的深度神經(jīng)網(wǎng)絡。

    在文本分類問題上,若訓練樣本更注重于自身蘊含的數(shù)據(jù)特征而不是不同數(shù)據(jù)之間蘊含的聯(lián)系,那么多層感知機是一個十分優(yōu)異的模型。因為Doc2vec已經(jīng)考慮了文本的上下文和單詞順序,將文本直接向量化而不是通過詞語的向量化后再構建的向量矩陣。這時,代表文本的向量是一個整體,并不包含單個詞語的信息,也就不需要記憶上下文和詞語。在這種情況下,用多層感知機來構建分類器比LSTM模型更合適。

    表1:各模型訓練成本(單位:s)

    4.3 基于MLP和Doc2vec的方法和基于LSTM和Word2vec的異同點

    基于MLP和Doc2vec的方法和基于LSTM和Word2vec的方法的相同之處是,都將數(shù)據(jù)的處理分為了兩個過程,一是文本向量化的過程,而是向量化后的文本訓練神經(jīng)網(wǎng)絡的過程。而兩者的區(qū)別就是,前者在將文本向量化時就考慮文本中詞語語序,將文本直接進行了向量化,而后者只是將詞語向量化了,然后用詞語的向量集合成一個矩陣來代表文本向量,這將使代表文本的數(shù)據(jù)遠超前者,在訓練神經(jīng)網(wǎng)絡時造成巨大的訓練成本。而后者是在訓練分類模型時才考慮文本中上下文信息,前者是最為基礎的深度神經(jīng)網(wǎng)絡的二分類,前者的效率遠超過后者。在這兩個過程中前者都大大降低訓練成本,因此基于MLP的Doc2vec的模型在訓練成本上必定是遠小于基于LSTM的Word2vec方法的。接下來,將通過實驗來評估各種方法實現(xiàn)的模型的性能。

    5 實驗和結果

    中文情感傾向分析,其實是分類問題。故可以用精確率,準確率、召回率和F1score來評估各個模型的分類效果。用訓練所需的時間來代表訓練模型所需要的成本。

    5.1 數(shù)據(jù)集的準備

    在實現(xiàn)基于情感詞典的方法時,使用了大連理工情感詞匯本體庫、知網(wǎng)情感詞典和臺灣大學中文情感詞典(NTUSD)構建自己的情感詞典,使用哈工大的停用詞表,使用知網(wǎng)的程度副詞庫,以及自己根據(jù)用語習慣構建的否定詞庫。

    所用到的訓練和測試語料均為SnowNLP庫下的中文文本極性語料庫。是關于網(wǎng)絡購物評價方面的語料,已經(jīng)標注好情感極向,有條正向評論和條負向評論,共計34946條。

    將整個語料分為兩部分,取出3000條正向文本和3000條負向文本做測試集,其余的語料做訓練集。為了保證實驗結果的可對比性,對于每一個模型所需要的訓練語料相同測試語料也相同。

    5.2 數(shù)據(jù)預處理

    語料庫的數(shù)據(jù)都是一些中文文本,各個分類模型無法直接處理,故需要進行數(shù)據(jù)的預處理。不管是基于情感詞典的方法還是基于機器學習和深度神經(jīng)網(wǎng)絡的方法,都需要對文本進行分詞,故使用jieba庫進行分詞。分別使用Word2vec和Doc2vec訓練出詞向量和文本向量,以供訓練模型使用。Word2vec和Doc2vec是由gensim實現(xiàn)。

    5.3 實驗步驟

    圖3為本文實驗的流程。

    5.4 分類效果指標

    在已訓練好各個模型的基礎之上,使用同樣的測試集進行測試。分別測試出每一個模型的精確率,準確率、召回率和F1score。各個參數(shù)的含義:

    定義:

    True Positive(真正, TP):把正類預測為正類的數(shù)量.

    True Negative(真負 , TN):把負類預測為負類的數(shù)量.

    False Positive(假正, FP):把負類預測為正類的數(shù)量

    False Negative(假負, FN):將正類預測為負類的數(shù)量

    5.5 各個分類模型的性能評估

    通過實驗得到各模型分類效果,具體結果,見圖4。

    5.6 各個模型的訓練成本

    模型的訓練成本由機器訓練分類模型達到較好分類效果的時間來表示。主要的耗時時間為訓練詞向量和文本向量的時間以及訓練分類模型所需要的時間,這兩者的時間遠大于其他中間過程的時間,故只用這兩個時間之和表示模型的訓練成本。因為基于情感詞典的方法,既不需要使用詞向量或文本向量也不需要分類模型,故訓練成本定為0。為保證訓練成本的可對比性,每一個模型的訓練都由相同的電腦在只執(zhí)行訓練程序的情況下測得的數(shù)據(jù),并且Word2vec和Doc2vec模型的訓練次數(shù)都為50次。經(jīng)實驗,得到如下結果,見表1。

    6 結論和展望

    一個更精確以及適用性更廣的中文情感傾向分析模型,是分析網(wǎng)絡輿情、公民態(tài)度等的基礎。而政府對于網(wǎng)絡輿情等的更好地把控,也對于維護和諧社會有著巨大的作用。

    通過實驗數(shù)據(jù)可以表明,基于深度神經(jīng)網(wǎng)絡和Doc2vec的方法,在分類效果上是遠好于基于情感詞典和傳統(tǒng)機器學習的方法的。雖然基于MLP的方法在召回率上比基于Word2vec和LSTM的方法略高,在精確率和準確率上略低,在綜合評價分類模型效果的F1值也是略低。但是其訓練成本是遠小于基于LSTM的。準確率能達到95.5%,說明若實際使用,已有較好的效果,而遠小于LSTM的訓練成本,說明基于Doc2vec和深度神經(jīng)網(wǎng)絡的方法有更強的適用性。

    未來可以進一步獲取或者建立更有針對性的、數(shù)據(jù)量更大的樣本。而這些樣本有利于建立更好的模型和確定更加精確的模型參數(shù)。而用更好的模型可以建立更好的應用場景。

    猜你喜歡
    向量詞語神經(jīng)網(wǎng)絡
    容易混淆的詞語
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    找詞語
    神經(jīng)網(wǎng)絡抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    詞語欣賞
    向量垂直在解析幾何中的應用
    基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
    宣恩县| 改则县| 二手房| 阳高县| 马龙县| 新乡市| 云南省| 郴州市| 潍坊市| 贵德县| 阳曲县| 日喀则市| 横山县| 桂东县| 岳普湖县| 海兴县| 洛扎县| 锡林郭勒盟| 松潘县| 龙江县| 西安市| 正安县| 喀什市| 五台县| 元江| 原平市| 丰宁| 兴文县| 荣昌县| 孟津县| 卓资县| 敖汉旗| 军事| 新绛县| 宣威市| 万州区| 中山市| 大连市| 鹤岗市| 兴文县| 水富县|