• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于表示學(xué)習(xí)的情感分析研究

    2019-01-29 05:49:02厲小軍施寒瀟陳南南柳虹鄒軼
    關(guān)鍵詞:語(yǔ)義文本情感

    厲小軍 施寒瀟 陳南南 柳虹 鄒軼

    浙江工商大學(xué)管理工程與電子商務(wù)學(xué)院, 杭州 310018; ? 通信作者, E-mail: hxshory@foxmail.com

    隨著Web2.0與互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展, 互聯(lián)網(wǎng)正在從單向傳播模式逐步向以用戶(hù)為中心的模式轉(zhuǎn)變。用戶(hù)也從網(wǎng)絡(luò)知識(shí)獲取者轉(zhuǎn)向更加積極的網(wǎng)絡(luò)信息制造者。媒體的巨大變化使得網(wǎng)絡(luò)媒介中出現(xiàn)海量的主觀性文本, 包含用戶(hù)觀點(diǎn)、用戶(hù)情感和用戶(hù)情緒等信息。該類(lèi)文本大多包含用戶(hù)對(duì)待某一事件或某一事物的情感極性信息, 比如喜、悲、哀、愁、贊、踩、批等情緒。通過(guò)分析含有用戶(hù)主觀信息的文本, 可以了解大眾對(duì)某一政策、事件或產(chǎn)品的態(tài)度和看法, 有關(guān)管理部門(mén)也可以通過(guò)這些信息更快地了解大眾的真實(shí)想法, 從而輔助其做出更好的決策; 商家可以更了解產(chǎn)品在市場(chǎng)的具體情況,進(jìn)而改善產(chǎn)品質(zhì)量。

    情感分析(sentiment analysis)主要針對(duì)人們對(duì)于產(chǎn)品、服務(wù)等的觀點(diǎn)進(jìn)行有效的挖掘與分析, 對(duì)信息進(jìn)行歸納和推理。在傳統(tǒng)的情感分析中, 主要采用人工特征抽取和傳統(tǒng)機(jī)器學(xué)習(xí)方法。這些方法對(duì)傳統(tǒng)的特征抽取工作依賴(lài)度較高, 同時(shí)模型的性能對(duì)標(biāo)注訓(xùn)練集的依賴(lài)性很強(qiáng), 可擴(kuò)展性較差。

    本文采用基于表示學(xué)習(xí)的方法, 實(shí)現(xiàn)文本的情感分析。首先, 利用自然語(yǔ)言處理技術(shù)進(jìn)行詞性標(biāo)注, 并引入句子的情感類(lèi)別, 改進(jìn)詞表示的生成模型; 然后, 利用池化模型構(gòu)建句子表示; 最后, 利用公開(kāi)的評(píng)測(cè)語(yǔ)料進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文提出的基于表示學(xué)習(xí)方法在文本的情感分析上具有非常好的性能。

    1 相關(guān)研究

    1.1 情感分析研究現(xiàn)狀

    20世紀(jì)90年代末, 學(xué)界開(kāi)始研究情感分析, 并使之逐漸成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)。情感分析的目的是將具有情感傾向的主觀性文本進(jìn)行識(shí)別,分為褒義和貶義兩類(lèi)。例如“我喜歡你”、“今天我好高興啊”、“這間屋子真不錯(cuò)”、“明天又是好心情”等文本為褒義, 而“我感到很悲傷”、“這真是太無(wú)聊了”、“心情不好”等文本為貶義。目前, 針對(duì)情感分析的研究方法主要有傳統(tǒng)的情感分析和基于統(tǒng)計(jì)學(xué)習(xí)的情感分析。

    傳統(tǒng)的情感分析方法主要采用基于規(guī)則的方法。在基于規(guī)則的方法中, 規(guī)則的分析和制定占據(jù)大部分的工作, 同時(shí)還需要相當(dāng)一部分人力和物力作為支撐。若研究的目標(biāo)樣本中存在的語(yǔ)言現(xiàn)象過(guò)多或結(jié)構(gòu)相對(duì)復(fù)雜, 規(guī)則的制定就非常困難, 同時(shí),該方法與當(dāng)前的研究目標(biāo)之間的關(guān)系十分密切, 會(huì)使得整個(gè)方法沒(méi)有很好的遷移性。因此, 學(xué)者們轉(zhuǎn)向基于統(tǒng)計(jì)的學(xué)習(xí)方法。該方法主要根據(jù)特征的分布, 對(duì)文本的情感類(lèi)別做出正確的判斷。

    基于統(tǒng)計(jì)學(xué)習(xí)的方法主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三類(lèi)。

    監(jiān)督學(xué)習(xí)(supervised learning)模型利用大量的帶標(biāo)記樣本的訓(xùn)練而得到。常見(jiàn)的監(jiān)督學(xué)習(xí)方法有支持向量機(jī)(support vector machine, SVM)和樸素貝葉斯(Na?ve Bayes, NB)等。Pang等[1]將影評(píng)數(shù)據(jù)集分為正負(fù)兩類(lèi), 并且將unigrams作為數(shù)據(jù)集的分類(lèi)特征。Tong[2]利用聚合的方法, 對(duì)特定領(lǐng)域的詞或詞組進(jìn)行手工編輯, 將得到的結(jié)果作為詞典進(jìn)行情感分類(lèi)實(shí)驗(yàn)。Pang等[3]使用基于圖的最小割算法。Mullen等[4]和Xia等[5]均采用句法關(guān)系與傳統(tǒng)特征混合的方法。Kennedy等[6]和Li等[7]使用上下文情景價(jià)態(tài)和情感移位的方法。

    監(jiān)督學(xué)習(xí)方法在準(zhǔn)確率上能夠取得較好的結(jié)果, 但是隨著信息的不斷更新, 需要處理的數(shù)據(jù)越來(lái)越多, 所以為待處理數(shù)據(jù)分配標(biāo)記成為一項(xiàng)非常艱巨的任務(wù)。這不僅意味著需要大量的人力和物力, 而且每個(gè)人自我判斷的差異性會(huì)使標(biāo)記出來(lái)的數(shù)據(jù)出現(xiàn)不統(tǒng)一等問(wèn)題, 給后續(xù)處理帶來(lái)麻煩。同時(shí), 通過(guò)監(jiān)督學(xué)習(xí)方法得到的模型遷移性比較差。

    無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)方法能夠解決使用人工標(biāo)記的方法來(lái)獲得有標(biāo)記數(shù)據(jù)的問(wèn)題。Taboada等[8]采用基于詞庫(kù)的方法, 其基本思想是用一個(gè)帶有相關(guān)傾向性和強(qiáng)度信息的情感詞詞典, 采用集約化的方法計(jì)算文本的最后情感值, 確定文本的最后情感傾向。Hu等[9]提出采用Bootstrapping策略, 由句子中所有情感詞的情感傾向性分?jǐn)?shù)總和決定該句子的情感傾向, 其思想也是用基于詞庫(kù)的方法解決情感傾向性問(wèn)題。Wiebe[10]提出使用部分種子詞, 最后主、客觀分類(lèi)的結(jié)果由計(jì)算梯度的方法獲得。該過(guò)程中沒(méi)有任何的學(xué)習(xí)步驟, 完全使用無(wú)監(jiān)督學(xué)習(xí)方法解決句子級(jí)的主、客觀分類(lèi)問(wèn)題。

    無(wú)監(jiān)督學(xué)習(xí)方法在實(shí)際操作過(guò)程中可以節(jié)省大量的人力和物力, 然而模型預(yù)測(cè)的準(zhǔn)確率比有監(jiān)督學(xué)習(xí)差很多。為了使有監(jiān)督學(xué)習(xí)的方法獲得較高的準(zhǔn)確率, 同時(shí)又可以借鑒無(wú)監(jiān)督學(xué)習(xí)的思想, 在操作中減少大量的人工標(biāo)注任務(wù), 出現(xiàn)了半監(jiān)督學(xué)習(xí)方法。半監(jiān)督學(xué)習(xí)(semi-supervised learning)方法主要利用少量的有標(biāo)記樣本以及大量的無(wú)標(biāo)記樣本共同學(xué)習(xí)實(shí)現(xiàn), 大大節(jié)省研究人員的時(shí)間和精力, 同時(shí)學(xué)到的模型通常具有很強(qiáng)的泛化能力。Davidov等[11]提出SASI (semi-supervised sarcasm identification)算法來(lái)處理客觀信息的分類(lèi)和觀點(diǎn)句的提取, 在主、客觀分類(lèi)方面, SASI是第一個(gè)比較健壯的算法,且在試驗(yàn)中通常有很好的表現(xiàn)。Su等[12]針對(duì)詞級(jí)別主、客觀信息的分類(lèi)問(wèn)題, 提出利用WordNet詞典和關(guān)系結(jié)構(gòu)的半監(jiān)督最小割(semi-supervised minimum cut)方法進(jìn)行處理。這些研究都有效地推動(dòng)了半監(jiān)督學(xué)習(xí)方法在情感分析上的進(jìn)一步應(yīng)用。

    隨著近幾年機(jī)器學(xué)習(xí)的發(fā)展, 深度學(xué)習(xí)方法在文本情感分析任務(wù)上的應(yīng)用逐漸增多, 并在一定程度上開(kāi)始顯現(xiàn)效果。

    1.2 深度學(xué)習(xí)及其在文本分析上的研究現(xiàn)狀

    1985年, Ackley等[13]將隨機(jī)機(jī)制加入Hopfield網(wǎng)絡(luò), 提出玻爾茲曼機(jī)模型。這種模型對(duì)應(yīng)于真實(shí)空間, 易于理解, 但在模型訓(xùn)練過(guò)程中算法往往不收斂, 易發(fā)散。1986年, Smolensky[14]首先提出限制玻爾茲曼機(jī)(restricted boltzmann machine, RBM)模型, 模型中相同的節(jié)點(diǎn)彼此孤立, 連接僅存在于可見(jiàn)節(jié)點(diǎn)與隱藏節(jié)點(diǎn)之間, 算法相對(duì)高效。2006年,Hinton等[15]提出兩個(gè)主要觀點(diǎn): 1)人工神經(jīng)網(wǎng)絡(luò)的多隱層結(jié)構(gòu)擁有優(yōu)異的對(duì)特征學(xué)習(xí)的能力, 學(xué)習(xí)到的特征可以更加本質(zhì)地刻畫(huà)樣本數(shù)據(jù)特征, 進(jìn)而對(duì)圖像可視化或文本等的分類(lèi)任務(wù)更加有利; 2)在深度神經(jīng)網(wǎng)絡(luò)中存在的困難可以通過(guò)“逐層初始化”(layer-wise pre-training)的方法有效地加以克服。從此, 深度學(xué)習(xí)的研究在學(xué)術(shù)界和工業(yè)界同時(shí)展開(kāi)。

    Mikolov等[16]將RNN用于語(yǔ)言模型建模, 2013年又提出Continue Bag-of-Word (CBOW)模型和Continue Skip-gram (Skip-gram)模型[17]。CBOW模型利用周邊的詞匯來(lái)預(yù)測(cè)中間的詞匯, 獲得詞表示,Skip-gram模型正好相反, 是利用中間詞匯來(lái)預(yù)測(cè)周?chē)~匯, 獲得詞表示。

    在自然語(yǔ)言處理領(lǐng)域, 句子和文檔的表示學(xué)習(xí)也逐漸成為研究熱點(diǎn), 分為有監(jiān)督學(xué)習(xí)方法和無(wú)監(jiān)督學(xué)習(xí)方法。有監(jiān)督學(xué)習(xí)方法主要面向情感分析和關(guān)系分類(lèi)等任務(wù)。Huang等[18]針對(duì)句子的表示, 提出深度語(yǔ)義相似度匹配模型(deep semantic similarity model, DSSM), 模型的目標(biāo)函數(shù)根據(jù)句子之間的語(yǔ)義相似度來(lái)設(shè)置。在無(wú)監(jiān)督學(xué)習(xí)方法中, Le等[19]提出在訓(xùn)練語(yǔ)言模型, 預(yù)測(cè)目標(biāo)詞匯過(guò)程中, 將句子的表示(paragraph vector)加入輸入層, 即Paragraph Vector方法。

    在情感分析研究中, 深度學(xué)習(xí)也得到廣泛應(yīng)用。Tang等[20]將情感信息融入詞表示訓(xùn)練中, 從而獲得情感詞表示(sentiment-specific word embedding,SSWE)。模型以Collobert等[21]提出的C&W語(yǔ)言模型為基礎(chǔ), 其輸入為滑動(dòng)窗口內(nèi)n-gram和相應(yīng)的情感類(lèi)標(biāo)簽, 輸出為一個(gè)二維標(biāo)量(分別代表語(yǔ)義分?jǐn)?shù)和情感分?jǐn)?shù)), 獲得情感詞表示。Tang等[22]利用tweets語(yǔ)料進(jìn)行情感詞表示學(xué)習(xí), 將獲得的情感詞表示應(yīng)用到3種情感分析任務(wù)(詞水平的情感分析、句子水平的情感分析和建立情感詞典), 進(jìn)行詞相似性比較。實(shí)驗(yàn)結(jié)果表明, 與基于上下文的詞表示相比, 情感詞表示擁有更好的性能。Ren[23]等針對(duì)twitter情感分析, 提出將主題信息編碼到詞表示中的方法, 利用LDA主題模型來(lái)獲取主題信息, 通過(guò)改進(jìn)的遞歸自編碼框架, 將主題信息結(jié)合到目標(biāo)函數(shù)中, 獲取結(jié)合主題信息的詞表示。與傳統(tǒng)的方法相比, 該方法在tweets情感預(yù)測(cè)任務(wù)中有更好的性能。在目標(biāo)依賴(lài)的情感分類(lèi)任務(wù)中, 不同的上下文對(duì)目標(biāo)詞在句子中的情感極性有不同的影響。因此, 在構(gòu)建學(xué)習(xí)系統(tǒng)時(shí), 需要聯(lián)合目標(biāo)詞和上下文詞。Tang等[24]通過(guò)擴(kuò)展標(biāo)準(zhǔn)LSTM來(lái)構(gòu)建目標(biāo)依賴(lài)的LSTM模型(TD-LSTM), 該模型可以自動(dòng)地考慮目標(biāo)信息。利用twitter基準(zhǔn)數(shù)據(jù)集對(duì)標(biāo)準(zhǔn)的LSTM和TD-LSTM進(jìn)行評(píng)估, 發(fā)現(xiàn)TD-LSTM能夠顯著地提高精度。

    2 基于情感和詞性的詞表示模型

    詞表示(word embedding)一直是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn), 它作為一種新穎的特征在情感分析任務(wù)中使用, 并且表現(xiàn)優(yōu)異。然而, 在傳統(tǒng)模型中, 一般以語(yǔ)義共現(xiàn)作為詞表示訓(xùn)練的基本原理,所以獲得的詞表示通常只包含文本中的部分語(yǔ)義和語(yǔ)法信息, 針對(duì)情感信息任務(wù), 還有所欠缺。

    本文以C&W為基礎(chǔ)模型, 由于其無(wú)監(jiān)督的特性, 導(dǎo)致訓(xùn)練的詞表示只利用部分語(yǔ)義信息。為了使訓(xùn)練得到的詞表示可以更好地處理情感分析任務(wù), 本文通過(guò)改進(jìn)C&W模型, 將情感信息和詞性信息嵌入詞表示訓(xùn)練過(guò)程。由于信息融合的多樣性,我們提出兩類(lèi)基于C&W改進(jìn)模型的詞表示學(xué)習(xí)模型, 其不同點(diǎn)在于使用不同的策略來(lái)融合情感信息和詞性信息。

    2.1 C&W模型

    現(xiàn)有的詞表示模型主要有C&W模型[21]以及word2vec模型[25]等??紤]到模型的效率和可擴(kuò)展性, 本文選擇C&W模型作為基礎(chǔ)模型。C&W模型是由Collobert等[21]提出的一種神經(jīng)網(wǎng)絡(luò)模型, 可以快速、高效地生成詞表示, 并且是直接以生成詞表示為訓(xùn)練目標(biāo)。C&W模型并不預(yù)測(cè)當(dāng)前單詞wi的條件概率分布而是直接對(duì)短語(yǔ)打分。即, 給定訓(xùn)練語(yǔ)料庫(kù)中固定長(zhǎng)度(一般為奇數(shù))的任一短語(yǔ)s∈S,s=通過(guò)使用詞典中的其他單詞, 將句子中心位置的單詞wi隨機(jī)替換, 被替換的短語(yǔ)記為s′。通常, 短語(yǔ)s′遭到破壞后會(huì)產(chǎn)生語(yǔ)法錯(cuò)誤或語(yǔ)義錯(cuò)誤, 因此C&W模型對(duì)s和s′分別打分, 使得短語(yǔ)s的分?jǐn)?shù)f(s)比短語(yǔ)s′ 的分?jǐn)?shù)f(s′)至少高1。所以, C&W模型的訓(xùn)練目標(biāo)是最小化:

    其中,s′表示將原短語(yǔ)s的中心單詞替換成w后的短語(yǔ)。該模型的輸入層向量是由訓(xùn)練樣本中所有詞語(yǔ)拼接而成, 與神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型相比, 最大的不同之處在于其只有一個(gè)輸出節(jié)點(diǎn), 大大地縮短了詞表示的訓(xùn)練時(shí)間。

    2.2 C&W模型改進(jìn)

    雖然C&W模型可以快速、有效地生成詞表示,但是模型并不預(yù)測(cè)當(dāng)前詞wi的條件概率分布P(wi|wi-n+1,...,wi-2,wi-1), 而是直接對(duì)短語(yǔ)打分。也就是說(shuō), C&W模型訓(xùn)練詞表示的過(guò)程中, 僅利用句子(wi-n+1,...,wi-2,wi-1,wi)的語(yǔ)法相關(guān)性。由于模型是無(wú)監(jiān)督的, 所以最后獲得的詞表示只含有語(yǔ)法和語(yǔ)義信息。圖1為C&W模型的框架, 由輸入層(lookup)、線(xiàn)性隱藏層(linear)、非線(xiàn)性隱藏層(hTanh)和輸出層(linear)4層構(gòu)成。

    模型通過(guò)對(duì)窗口內(nèi)連續(xù)n個(gè)詞打分f(wt-n+1,...,wt-1,wt)的形式, 近似地求解文檔概率。f值越大說(shuō)明該短語(yǔ)越合理, 反之則不合理。模型的損失函數(shù)為

    其中替換的詞序列用tr表示,t表示正常的詞序列,fcw(?)代表語(yǔ)言模型的分?jǐn)?shù)。式(1)中的fcw(?), 可由式(3)~(5)計(jì)算:

    2.2.1 SSWE模型

    在情感分析任務(wù)中, 往往出現(xiàn)句子結(jié)構(gòu)相同,但表達(dá)情感不同的情況。例如: “這是一本很棒的書(shū)?。?!”和“這是一部很糟糕的手機(jī)。。。”。

    “棒”和“糟糕”在句子結(jié)構(gòu)中處在相同的位置,在C&W模型訓(xùn)練詞表示的過(guò)程中, 會(huì)將“棒”和“糟糕”兩個(gè)情感相反的詞映射成兩個(gè)距離很近的向量,使訓(xùn)練出來(lái)的詞表示在詞表示空間模型中處于很相近的位置, 所以導(dǎo)致情感分類(lèi)模糊。

    圖1 C&W模型框架Fig.1 C&W model framework

    基于C&W模型的詞表示學(xué)習(xí)框架, Tang等[20]提出將情感信息加入詞表示訓(xùn)練過(guò)程中, 獲得蘊(yùn)含情感信息的情感詞表示學(xué)習(xí)模型SSWE。在傳統(tǒng)的詞表示訓(xùn)練模型中, 詞表示的獲得一般僅根據(jù)語(yǔ)法和語(yǔ)義的相關(guān)性, 獲得的詞表示只含有部分語(yǔ)言信息,對(duì)于情感分析任務(wù), 這種模型忽略了句子中情感信息的影響。SSWE模型的結(jié)構(gòu)如圖2所示, 可以看出該模型同樣分為輸入層(Lookup)、線(xiàn)性隱藏層(Linear)、分線(xiàn)性隱藏層(hTanh)和線(xiàn)性輸出層(Linear)4 層。

    SSWE模型將情感信息和語(yǔ)義信息融合在同一維度空間進(jìn)行訓(xùn)練, 經(jīng)過(guò)線(xiàn)性隱藏層(Linear)和非線(xiàn)性隱藏層(hTanh), 輸出一個(gè)二維標(biāo)量(分別代表語(yǔ)義分?jǐn)?shù)和情感分?jǐn)?shù))。與C&W模型類(lèi)似, SSWE使用連續(xù)的n-gram作為模型輸入, 以當(dāng)前n-gram所在句子的極性作為類(lèi)標(biāo), 通過(guò)隨機(jī)梯度下降和反向傳播算法, 更新模型中的參數(shù)以及輸入的詞表示。

    SSWE模型的損失函數(shù)為

    其中, 超參數(shù)a為權(quán)重, losscw(t,tr)為C&W模型損失函數(shù)(式(2)), lossus(t,tr)為情感損失函數(shù), 即

    其中,fg(t)為標(biāo)準(zhǔn)情感傾向, [1, 0]表示積極, [0, 1]表示消極。

    基于SSWE模型的分析與研究, 本文提出兩種詞表示學(xué)習(xí)模型, 進(jìn)一步探究詞表示的有效性。第一種, 基于詞性信息的詞表示模型(C&W Based Partof-speech Word Embedding, C&W-P), 是在不同的維度空間內(nèi)將詞性信息與原有語(yǔ)義信息分開(kāi)訓(xùn)練;第二種, 混合詞表示模型(C&W Based Sentiment and Part-of-speech Word Embedding, C&W-SP), 是將SSWE與C&W-P相結(jié)合, 將詞表示空間分為情感-語(yǔ)義空間和詞性空間兩個(gè)維度。

    2.2.2 C&W-P模型

    圖2 基于C&W模型的情感詞表示學(xué)習(xí)模型(SSWE)Fig.2 Emotional word representation learning model (SSWE)based on C&W model

    在自然語(yǔ)言處理任務(wù)中, 一詞多義、多詞性現(xiàn)象在中文語(yǔ)料中經(jīng)常出現(xiàn)。例如: “老師鼓勵(lì)我們好好學(xué)習(xí)”和“這是對(duì)我們的一種鼓勵(lì)”。雖然“鼓勵(lì)”在兩個(gè)句子中都是“激勵(lì), 激發(fā)”的意思, 但是在句子“老師鼓勵(lì)我們好好學(xué)習(xí)”中是以動(dòng)詞的形式出現(xiàn), 而在句子“這是對(duì)我們的一種鼓勵(lì)”中的出現(xiàn)形式是名詞。Zhang等[26]指出一般不同的詞性需要區(qū)別對(duì)待, 大部分情感詞為形容詞或副詞, 有時(shí)名詞或動(dòng)詞也會(huì)表述情感。因此, 針對(duì)句子中可能出現(xiàn)的這種歧義, 詞性標(biāo)注顯得尤為重要。

    基于以上考慮, 在C&W模型訓(xùn)練時(shí), 將每個(gè)詞的詞性標(biāo)記融入進(jìn)去, 使得到的詞表示可以同時(shí)兼顧語(yǔ)義信息和詞性信息。C&W-P模型將語(yǔ)義信息和詞性信息在兩個(gè)不同的維度空間進(jìn)行訓(xùn)練, 語(yǔ)義空間部分繼續(xù)使用C&W模型中的訓(xùn)練方法, 詞性空間部分在對(duì)目標(biāo)詞上下文進(jìn)行預(yù)測(cè)的同時(shí), 將出現(xiàn)在窗口內(nèi)所有詞的詞性信息通過(guò)加和的方式映射到一起, 作為Softmax層的輸入, 通過(guò)隨機(jī)梯度下降和反向傳播算法來(lái)更新模型中的參數(shù)以及輸入的詞表示。模型如圖 3 所示。

    C&W-P模型的損失函數(shù)為

    2.2.3 C&W-SP模型

    SSWE模型和C&W-P模型通過(guò)不同的方式, 將情感信息和詞性信息與語(yǔ)義信息結(jié)合。為了進(jìn)一步探究語(yǔ)義信息與情感信息和詞性信息的關(guān)系, 本文提出C&W-SP模型。

    圖3 基于C&W模型的詞性詞表示學(xué)習(xí)模型C&W-PFig.3 Part-of-speech representation learning model (C&W-P)based on the C&W model

    與C&W-P模型類(lèi)似, C&W-SP模型將生成的詞表示分解為情感-語(yǔ)義空間和詞性空間兩個(gè)維度。情感-語(yǔ)義空間部分等同于SSWE模型的整個(gè)部分,即將情感與語(yǔ)義信息融合在一起。模型中詞性空間的構(gòu)造方法與C&W-P相同, 在該部分僅考慮詞性信息。C&W-SP模型的結(jié)構(gòu)如圖 4 所示。

    C&W-SP模型的損失函數(shù)如下:

    其中, losssswe(t)和 losscw-p(t,tr)分別為情感-語(yǔ)義空間損失函數(shù)和詞性空間損失函數(shù),a為權(quán)值。

    3 實(shí)驗(yàn)與分析

    圖4 基于C&W模型的情感和詞性向量學(xué)習(xí)模型C&W-SPFig.4 C&W-based sentiment and part-of-speech vector learning model C&W-SP

    為了驗(yàn)證本文提出的兩種詞表示訓(xùn)練模型學(xué)習(xí)得到的詞表示在情感分析任務(wù)中能的表現(xiàn), 同時(shí)也為了甄選更好的詞表示訓(xùn)練模型, 以便在接下來(lái)的情感分析模型中使用, 首先使用本文提出的兩種詞表示訓(xùn)練模型和SSWE詞表示訓(xùn)練模型在中文和英文公開(kāi)評(píng)論數(shù)據(jù)集上分別進(jìn)行訓(xùn)練, 獲得相應(yīng)的詞表示, 然后對(duì)句子進(jìn)行句子表示的構(gòu)建, 并進(jìn)行情感分類(lèi)任務(wù)的對(duì)比實(shí)驗(yàn), 從而驗(yàn)證各種詞表示的性能。

    為了使用本文提出的詞表示模型訓(xùn)練出詞表示, 首先對(duì)詞表示矩陣進(jìn)行初始化:M∈RN×d(N為訓(xùn)練數(shù)據(jù)中詞的數(shù)目,d為詞表示的維度),M中的每一行代表一個(gè)詞表示。將模型的滑動(dòng)窗口大小設(shè)置為5, 詞頻閾值設(shè)置為3, 訓(xùn)練迭代次數(shù)設(shè)置為5,詞表示維度設(shè)為100 (d=100), 學(xué)習(xí)速率設(shè)置為0.1。使用反向傳播算法和隨機(jī)梯度下降, 將訓(xùn)練誤差傳遞到各個(gè)詞表示中。在訓(xùn)練過(guò)程中, 幾個(gè)模型均通過(guò)最小化各自的損失函數(shù)得到詞表示。

    3.1 數(shù)據(jù)集

    實(shí)驗(yàn)數(shù)據(jù)集為第三屆自然語(yǔ)言處理與中文計(jì)算(nature language processing and chinese computing,NLP&CC)會(huì)議中基于深度學(xué)習(xí)的情感分類(lèi)(sentiment classification with deep learning)任務(wù)中公開(kāi)的商品評(píng)論數(shù)據(jù)集, 其數(shù)據(jù)分別從中文和英文電商網(wǎng)站上獲取, 來(lái)自多個(gè)領(lǐng)域(書(shū)籍、DVDs和電子產(chǎn)品等)。數(shù)據(jù)集中, 中文和英文評(píng)論各12500條, 其中10000條(5000條為積極, 5000條為消極)作為訓(xùn)練數(shù)據(jù), 2500條作為驗(yàn)證數(shù)據(jù)。

    3.2 實(shí)驗(yàn)設(shè)置

    針對(duì)中、英文詞表示訓(xùn)練數(shù)據(jù)和模型訓(xùn)練與驗(yàn)證數(shù)據(jù), 首先對(duì)數(shù)據(jù)進(jìn)行以下預(yù)處理操作。

    1)對(duì)于英文評(píng)論數(shù)據(jù), 預(yù)處理的第一步是將所有字母轉(zhuǎn)化為小寫(xiě), 并使用Stanford大學(xué)的Stanford parser工具進(jìn)行詞性標(biāo)注。

    2)對(duì)于中文評(píng)論數(shù)據(jù), 預(yù)處理的第一步是使用opencc工具, 將所有數(shù)據(jù)中的繁體字轉(zhuǎn)換為簡(jiǎn)體字;然后使用Python結(jié)巴分詞中的精確模式, 對(duì)所有文本進(jìn)行分詞處理; 最后使用Stanford大學(xué)的Stanford parser工具進(jìn)行詞性標(biāo)注。

    預(yù)處理完成后, 取其中訓(xùn)練數(shù)據(jù), 并將情感類(lèi)標(biāo)和詞性標(biāo)注類(lèi)標(biāo)分別輸入本文提出的兩種詞表示訓(xùn)練模型和SSWE詞表示訓(xùn)練模型, 分別得到維度為100的3種中文詞表示和英文詞表示。

    參考Collobert等[27]和Socher等[28]的min, average和max池化方法進(jìn)行句子建模。最終的句子向量由Vmin(t),Vaverage(t)和Vmax(t)這3個(gè)向量拼接而成:V(t)=[Vmin(t),Vaverage(t),Vmax(t)]。由詞表示構(gòu)建句子向量的過(guò)程如圖 5 所示。

    為了評(píng)估詞表示訓(xùn)練模型在情感分類(lèi)任務(wù)中的效果, 以F1參數(shù)作為評(píng)估標(biāo)準(zhǔn)。機(jī)器學(xué)習(xí)分類(lèi)算法使用Scikit-learn工具包中的支持向量機(jī)訓(xùn)練, 其中核函數(shù)為線(xiàn)性核, 懲罰系數(shù)c為1。另外, 為確保結(jié)果的穩(wěn)定性, 試驗(yàn)重復(fù)10次, 以平均值作為最后的預(yù)測(cè)結(jié)果。

    圖5 由詞表示構(gòu)建句子向量過(guò)程Fig.5 Process of constructing sentence vectors by word embedding

    表1 不同詞表示在中英文評(píng)論數(shù)據(jù)上的情感分類(lèi)結(jié)果(%)Table 1 Sentiment classification results on Chinese and English review data based on different words embedding (%)

    3.3 基準(zhǔn)系統(tǒng)

    為了對(duì)比本文提出的詞表示訓(xùn)練模型與傳統(tǒng)的詞表示訓(xùn)練模型在情感分析任務(wù)中的表現(xiàn), 本實(shí)驗(yàn)設(shè)立 3 個(gè)基準(zhǔn)系統(tǒng):n元模型(n-gram)、CBOW模型和C&W模型。其中, CBOW模型和C&W模型的詞表示訓(xùn)練數(shù)據(jù)和標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)與所有對(duì)比實(shí)驗(yàn)數(shù)據(jù)集相同, 不同的是輸入數(shù)據(jù)中不含任何情感和詞性標(biāo)簽。

    3.4 實(shí)驗(yàn)結(jié)果及分析

    我們將幾種模型引入中文評(píng)論和英文評(píng)論兩種語(yǔ)料集, 進(jìn)行對(duì)比實(shí)驗(yàn), 結(jié)果如表 1 所示, 可以得到以下結(jié)論。

    1)本文提出的C&W-SP詞表示模型的結(jié)果明顯優(yōu)于其他模型, 說(shuō)明在詞表示訓(xùn)練過(guò)程中, 將情感因素和詞性信息加入模型進(jìn)行訓(xùn)練, 能夠提高情感分析任務(wù)的精確度。

    2)C&W-SP模型和SSWE模型的實(shí)驗(yàn)結(jié)果優(yōu)于C&W-P模型, 原因可能是與詞性信息相比, 句子中的情感信息對(duì)情感分類(lèi)結(jié)果的影響更大。

    3)比較C&W, SSWE, C&W_P和C&W_SP的結(jié)果可知, 句子情感類(lèi)標(biāo)簽和句子中各詞的詞性標(biāo)簽都會(huì)對(duì)情感分析結(jié)果產(chǎn)生影響。

    4)n-gram模型的結(jié)果最差, 原因可能是無(wú)論一元還是多元模式都會(huì)導(dǎo)致學(xué)習(xí)到的特征是高維稀疏的, 不能很好地獲取詞的上下文信息。

    綜上所述, 在中文和英文商品評(píng)論領(lǐng)域, 本文提出的C&W-SP詞向量訓(xùn)練模型均有最好的表現(xiàn)。同時(shí), 句子中的情感信息和詞性信息均會(huì)影響情感分類(lèi)的效果。

    4 結(jié)論

    在情感分析任務(wù)中, 為減少傳統(tǒng)詞表示忽略情感和詞性信息對(duì)結(jié)果的影響, 本文提出基于C&W模型的詞表示改進(jìn)模型C&W_P和C&W_SP。在C&W模型的基礎(chǔ)上, 分別以不同的方式, 將情感信息和詞性信息加入模型訓(xùn)練中, 使獲得的詞表示蘊(yùn)含詞性和情感信息。為了驗(yàn)證詞表示學(xué)習(xí)框架的有效性, 在中文和英文商品評(píng)論公開(kāi)數(shù)據(jù)上進(jìn)行了詞表示對(duì)比實(shí)驗(yàn), 結(jié)果表明, 融入詞性信息和情感信息詞表示訓(xùn)練模型在文本情感分析任務(wù)中的性能最好。

    本文在句子表示生成過(guò)程中, 只是簡(jiǎn)單地利用最大、平均和最小池化方法來(lái)進(jìn)行, 而沒(méi)有將句子中的詞序信息考慮進(jìn)去。在未來(lái)的研究我們將引入卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)等方法, 進(jìn)行句子表示向量的構(gòu)建, 進(jìn)一步研究基于深度學(xué)習(xí)的情感分析方法。

    猜你喜歡
    語(yǔ)義文本情感
    如何在情感中自我成長(zhǎng),保持獨(dú)立
    語(yǔ)言與語(yǔ)義
    失落的情感
    北極光(2019年12期)2020-01-18 06:22:10
    情感
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    如何在情感中自我成長(zhǎng),保持獨(dú)立
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
    認(rèn)知范疇模糊與語(yǔ)義模糊
    常德市| 金门县| 全州县| 崇文区| 阳高县| 诸城市| 广河县| 巴青县| 玉屏| 海淀区| 藁城市| 洮南市| 昭平县| 杂多县| 元江| 望谟县| 德昌县| 昭通市| 康马县| 陕西省| 榕江县| 富源县| 施秉县| 屏山县| 饶平县| 东阳市| 左云县| 商水县| 方山县| 屏东县| 平昌县| 政和县| 清苑县| 甘洛县| 凤凰县| 启东市| 林周县| 通许县| 河西区| 丹寨县| 油尖旺区|