• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度LSTM神經(jīng)網(wǎng)絡(luò)的在線消費(fèi)評(píng)論情感分類研究

      2018-03-22 03:37:28,,,
      關(guān)鍵詞:準(zhǔn)確率向量神經(jīng)網(wǎng)絡(luò)

      , ,,

      在線評(píng)論通常用來表達(dá)人們對(duì)產(chǎn)品、服務(wù)、事件等方面的觀點(diǎn)和感受,具有更新速度快、處理難度高、復(fù)雜和真實(shí)等特點(diǎn)。如何從海量的在線評(píng)論中獲取有價(jià)值的信息,已經(jīng)成為企業(yè)、機(jī)構(gòu)、政府等社會(huì)團(tuán)體的一個(gè)重要研究方向。如基于推特(Twitter)的在線評(píng)論情感分類和知識(shí)挖掘已經(jīng)在總統(tǒng)選舉[1]、股票預(yù)測(cè)[2]、公眾對(duì)某重大事件的反應(yīng)[3]等方面取得了較為成功的應(yīng)用。目前,研究人員將用戶的在線評(píng)論自動(dòng)標(biāo)注為積極或者消極情感,其中大部分方法都是基于特征提取及情感學(xué)習(xí)和分類兩方面實(shí)現(xiàn)的[4]。在線評(píng)論內(nèi)容長(zhǎng)度有限,通常只有1~2句,甚至只是一些簡(jiǎn)單的情感詞匯,文本中存在的大量?jī)r(jià)值含量低甚至沒有價(jià)值的條目數(shù)據(jù)會(huì)對(duì)分析造成很大的影響。另外,在線評(píng)論中還存在一些模糊的表達(dá)方式,需根據(jù)上下文的語義環(huán)境進(jìn)行判斷,如中文表述中的反語等[5]。單純使用文本的信息對(duì)在線評(píng)論進(jìn)行情感分析是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因此對(duì)于情感分類,研究人員需在語法結(jié)構(gòu)、語義關(guān)系、內(nèi)容處理等方面付諸努力,并提出一些行之有效的方法用以改進(jìn)情感分類模型的性能。目前基于深度學(xué)習(xí)的方法已經(jīng)成功應(yīng)用在語音識(shí)別、圖形處理、信號(hào)處理等方面。深度學(xué)習(xí)能夠在零基礎(chǔ)的前提下,為情感分類進(jìn)行建模,將深度學(xué)習(xí)的方法用在情感分類上已經(jīng)成為自然語言處理的研究熱點(diǎn)。

      本文采用基于長(zhǎng)短型記憶網(wǎng)絡(luò)(long-short term memory,LSTM)的深度學(xué)習(xí)方法,解決在線消費(fèi)評(píng)論情感分類依靠星級(jí)打分而無法利用句子本身語義的問題。該方法不需要對(duì)單詞、短語、句子進(jìn)行手工嵌入,也不需要考慮它們之間的語義或語法聯(lián)系,利用之前呈現(xiàn)的詞語加深對(duì)當(dāng)前文字的理解,自動(dòng)對(duì)語句進(jìn)行特征提取,更加注重語言的整合處理,從而提高深度神經(jīng)網(wǎng)絡(luò)在情感分類方面的準(zhǔn)確率。

      1 研究背景

      基于傳統(tǒng)情感字典的分類方法可總結(jié)為以下幾個(gè)步驟:文本的預(yù)處理、添加情感詞典、分詞、訓(xùn)練模型、分類等。情感詞典是情感分類的核心部分,包括積極情感詞典、消極情感詞典、否定詞典以及程度副詞詞典,這些詞典的應(yīng)用使基于情感字典的分類取得了很好的分類結(jié)果。但傳統(tǒng)的分類方法存在兩方面的缺陷:精度問題和背景知識(shí)問題。精度問題在于很難提出行之有效的方法并進(jìn)一步提高情感分類的準(zhǔn)確度;背景知識(shí)問題,需要提前準(zhǔn)備好各類情感字典,而這一舉措,需要手工操作才能保證情感分類的準(zhǔn)確率,易擴(kuò)展性較差[6]。但傳統(tǒng)的機(jī)器學(xué)習(xí)方法仍可以有效地用于情感分類問題[7],如貝葉斯分類(NB)、支持向量機(jī)(SVM)、最大熵(ME)等。Pang等人利用基于特征袋的方法訓(xùn)練出一個(gè)模型,對(duì)影評(píng)數(shù)據(jù)集進(jìn)行積極和消極的情感分類,達(dá)到了82%的準(zhǔn)確率[8]。G Vinodhinic采用了支持向量機(jī)并集成了過采樣和欠采樣的方法,提高了情感分類文本的精確度[9]。Lin ChengHua等在2009年CIKM會(huì)議上提出一個(gè)基于LDA的聯(lián)合情感/主題模型(joint sentiment/topic model,JST)的新型概率模型框架,在LDA模型基礎(chǔ)上引用情感標(biāo)簽[10]。Wiebe統(tǒng)計(jì)了每篇文章出現(xiàn)的主觀詞匯,利用K最鄰近值對(duì)基于篇章層面的情感進(jìn)行研究,取得了滿意的效果[11]。Chen等人發(fā)現(xiàn)詞嵌入技術(shù)能提高信息檢索以及情感分類在自然語言處理的精確度,并成功應(yīng)用到情感分類中[12]。在文本情感識(shí)別領(lǐng)域,使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法多屬于淺層學(xué)習(xí),如詞頻統(tǒng)計(jì)、字典匹配等。上述方法雖然取得一定的效果,但無法應(yīng)對(duì)短文本語義的復(fù)雜環(huán)境。

      深度學(xué)習(xí)在情感分類領(lǐng)域成效顯著。Santos and Gatti等人利用基于字符集和句子集的卷積神經(jīng)網(wǎng)絡(luò)對(duì)短文本進(jìn)行情感分類,使用斯坦福的影評(píng)數(shù)據(jù)集和斯坦福的推特情感語料庫進(jìn)行訓(xùn)練,分別達(dá)到85.7%和86.4%的準(zhǔn)確率[13]。Glorot et alx選取了4個(gè)亞馬遜產(chǎn)品的評(píng)論數(shù)據(jù)集,該數(shù)據(jù)集包含22種類型共34萬多條評(píng)論,并使用深度學(xué)習(xí)的方法把每條評(píng)論標(biāo)注為“積極”或“消極”[14]。深度學(xué)習(xí)不僅可以進(jìn)行大規(guī)模的數(shù)據(jù)計(jì)算,還可以模擬大腦的工作方式,已經(jīng)成為情感分類的重要手段。在中文情感分類方面,由于中英文表達(dá)在構(gòu)詞、語法以及文化方面的不同,中文情感分析的研究工作相對(duì)不足,使中文主觀分類更具有挑戰(zhàn)性。孫松濤等人通過對(duì)大規(guī)模的微博數(shù)據(jù)集進(jìn)行詞向量化,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型對(duì)得到的詞向量進(jìn)行情感學(xué)習(xí),并建立基于CNN特征空間的微博多標(biāo)簽情感分類器,得到了較好的情感語義區(qū)分度[15]。杜慧對(duì)現(xiàn)有的COBW神經(jīng)網(wǎng)絡(luò)進(jìn)行調(diào)整,在訓(xùn)練文本詞向量的同時(shí)考慮到語義和句子的情感詞向量,進(jìn)而避免了文本的原始向量相似而語句的情感色彩相差較大的問題[16]。盡管以上方法在情感分類領(lǐng)域已經(jīng)取得不錯(cuò)的成績(jī),但仍需要依賴構(gòu)建大量的特征工程(如情感字典、語法特征和句法特征等)來提高情感分類的準(zhǔn)確率。

      本文采用LSTM神經(jīng)網(wǎng)絡(luò)方法,不需對(duì)單詞、短語、句子進(jìn)行手工嵌入,也不需考慮它們之間的語義或語法聯(lián)系,從而避免了特征工程的構(gòu)建。為了對(duì)比深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的差異,本文同時(shí)也提出了一個(gè)基于SVM的情感分類模型。對(duì)兩個(gè)模型的結(jié)果進(jìn)行對(duì)比顯示,LSTM模型優(yōu)于SVM分類模型。

      2 研究框架和思路設(shè)計(jì)

      2.1 數(shù)據(jù)預(yù)處理

      英文的表達(dá)是以詞為單位的,詞與詞之間通常以空格隔開;而中文通常是以字為單位的,句子中的所有字需要連起來才能描述出一個(gè)完整的意思。分詞不僅是文本預(yù)處理的重要前提工作,而且還是智能計(jì)算的基礎(chǔ)性工作。在基于情感分類的研究中,選取那些具有情感傾向的詞尤為重要。本文使用Python(3.6.3)的Jieba(0.39)中文分詞包對(duì)在線消費(fèi)評(píng)論語料庫進(jìn)行分詞處理。

      計(jì)算機(jī)無法理解人類的自然語言,其學(xué)習(xí)自然語言的過程可以看作是將語言文字符號(hào)數(shù)字化的過程。本文將在線消費(fèi)評(píng)論轉(zhuǎn)換成LSTM模型所需的向量格式,采用谷歌的word2vec模型,基于Python的gensim(3.0.1)包實(shí)現(xiàn)詞的向量化。Word2Vec算法可以在捕捉上下文語義語境的同時(shí)壓縮數(shù)據(jù),包括2種語言模型CBOW和Skip_gram;其中,CBOW通過上下文預(yù)測(cè)當(dāng)前詞的模型,Skip_gram則通過當(dāng)前詞預(yù)測(cè)上下文窗口內(nèi)的單詞[17]。

      2.2 算法和模型的實(shí)現(xiàn)

      本文將一種經(jīng)典的深度學(xué)習(xí)模型LSTM用于文本情感分類。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一個(gè)重要分支結(jié)構(gòu),在情感分類中能夠有效利用上下文關(guān)系從而避免梯度下降或消失,目前已廣泛應(yīng)用于自然語言處理有關(guān)分類的問題上,并且準(zhǔn)確度較高。LSTM模型包括輸入層、LSTM層和輸出層3個(gè)層(圖1)。

      圖1 LSTM三層結(jié)構(gòu)模型

      LSTM單元作為整個(gè)模型的核心部分,包括輸入門、遺忘門和輸出門3個(gè)門,用于控制是否忽略當(dāng)前信息或者將其傳遞到下一個(gè)單元。LSTM 單元狀態(tài)更新的數(shù)學(xué)表達(dá)式如下。

      it=σ(Wxit+Whiht-1+Wcict-1+b1)

      (1)

      ft=σ(Wxft+Whfht-1+Wcfct-1+bf)

      (2)

      ct=ft?ct-1+it? tanh(Wxct+Whcht-1+bc)

      (3)

      ot=σ(Wxot+Whoht-1+Wcoct+bo)

      (4)

      ht=ot? tanh(ct)

      (5)

      其中,σ是點(diǎn)對(duì)的sigmoid函數(shù),?代表是點(diǎn)對(duì)乘積,it,ft和ot分別是輸入、遺忘和輸出門,ht是t時(shí)刻以及之前時(shí)刻存儲(chǔ)的全部有用信息的隱含狀態(tài)向量,ct表示的是細(xì)胞向量,wi、wf、wc、wo是隱含狀態(tài)的權(quán)重矩陣,bi、bf、bc、bo表示對(duì)應(yīng)權(quán)重的偏置。

      在情感分類過程中,首先將原始輸入的在線消費(fèi)評(píng)論進(jìn)行向量化,得到LSTM模型需要的格式。LSTM通過門的結(jié)構(gòu)選擇性保留對(duì)神經(jīng)網(wǎng)絡(luò)有影響的信息,并對(duì)每個(gè)時(shí)刻狀態(tài)進(jìn)行更新。如預(yù)測(cè)“商家的環(huán)境不錯(cuò),服務(wù)態(tài)度很好,比較滿意”和預(yù)測(cè)“商家的地理位置偏僻,環(huán)境嘈雜,客服服務(wù)態(tài)度較差,不推薦這個(gè)商家”這2個(gè)評(píng)論時(shí),LSTM網(wǎng)絡(luò)會(huì)忘記之前態(tài)度“很好”而更新為“較差”,這種狀態(tài)是通過LSTM單元的遺忘門實(shí)現(xiàn)的。遺忘門根據(jù)當(dāng)前輸入的ht、上一時(shí)刻狀態(tài)的ct-1和上一時(shí)刻的輸出ht-1共同決定哪一部分需要遺忘,與此同時(shí)輸入門會(huì)根據(jù)xt、ct-1和ht-1決定哪些信息進(jìn)入當(dāng)前時(shí)刻狀態(tài)的ct。本文將在線消費(fèi)評(píng)論分為積極和消極兩方面,因此使用sigmoid函數(shù)作為激活函數(shù)將評(píng)論映射為積極或者消極的評(píng)論。LSTM的在線情感分類模型框架(見圖2)。

      圖2 基于LSTM的在線情感分類模型框架

      3 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

      3.1 數(shù)據(jù)來源

      利用蘇劍林(http://spaces.ac.cn/archives/3414/)收集并標(biāo)注好的中文語料庫,具體包括酒店、筆記本、牛奶、手機(jī)、書籍和熱水器共6方面的在線評(píng)論數(shù)據(jù)集。根據(jù)數(shù)據(jù)屬性將其分為好評(píng)數(shù)據(jù)集和差評(píng)數(shù)據(jù)集兩個(gè)大類,經(jīng)過篩選去重后,共得到8 712個(gè)好評(píng)和8 053個(gè)差評(píng)數(shù)據(jù)。隨機(jī)抽取其中80%的數(shù)據(jù)用作訓(xùn)練集,20%用作測(cè)試集,最終得到訓(xùn)練集為13 412例,測(cè)試集為3 353例。

      3.2 實(shí)驗(yàn)環(huán)境及參數(shù)調(diào)節(jié)

      SVM和LSTM模型均基于Python語言實(shí)驗(yàn)。其中LSTM模型是基于Tensorflow的Keras(2.0.3)框架訓(xùn)練得到的,Keras作為一個(gè)高層神經(jīng)網(wǎng)絡(luò)庫,具有高度模塊化、簡(jiǎn)易性和可擴(kuò)展性等特點(diǎn)。在LSTM神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中,需要對(duì)dropout、訓(xùn)練周期以及在線評(píng)論數(shù)據(jù)集轉(zhuǎn)化為向量的維度等參數(shù)進(jìn)行調(diào)節(jié)以實(shí)現(xiàn)全局最優(yōu)。實(shí)驗(yàn)環(huán)境:Intel(R) Core(TM) i5-6500 CPU@3.20 GHz,內(nèi)存(RAM)16GB,操作系統(tǒng)64位Windows7。

      神經(jīng)網(wǎng)絡(luò)的訓(xùn)練周期(Epoch)指的是前向傳播和后向傳播所有批次的單一訓(xùn)練迭代。過多的訓(xùn)練周期一方面會(huì)花費(fèi)更多的時(shí)間,另一方面容易導(dǎo)致過度擬合。在圖3和圖4中,Train_acc、Test_acc分別代表訓(xùn)練集和測(cè)試集的準(zhǔn)確度,Train_loss和Test_loss分別代表訓(xùn)練集和測(cè)試集的損失度。如圖4所示,隨著訓(xùn)練周期的加長(zhǎng)訓(xùn)練集的準(zhǔn)確度穩(wěn)步提高,但是當(dāng)訓(xùn)練周期為8時(shí),Test_loss的曲線不再呈現(xiàn)下降趨勢(shì),說明模型已經(jīng)進(jìn)入過度擬合狀態(tài),即測(cè)試集的準(zhǔn)確率訓(xùn)練周期在5-8之間,準(zhǔn)確率在87.89%-89.08%;當(dāng)訓(xùn)練周期為8時(shí),測(cè)試集的情感分類達(dá)到89.08%的準(zhǔn)確度。

      Dropout函數(shù)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,一方面可以按照一定的概率隨機(jī)丟棄部分神經(jīng)網(wǎng)絡(luò)單元,防止模型過度擬合;另一方面可以加快模型的訓(xùn)練速度,節(jié)省訓(xùn)練時(shí)間。本次訓(xùn)練中,Dropout的取值范圍為0.1-0.9,間隔為0.1,共9個(gè)取值,得到的dropout參數(shù)與神經(jīng)網(wǎng)絡(luò)情感分類的準(zhǔn)確度如圖5所示,在dropout為0.4時(shí),在線評(píng)論達(dá)到87.18%的最高分類準(zhǔn)確率。

      圖3 LSTM模型訓(xùn)練周期對(duì)情感分類精確度的影響

      圖4 LSTM模型訓(xùn)練周期對(duì)情感分類損失度的影響

      圖5 Dropout對(duì)情感分類準(zhǔn)確度的影響

      訓(xùn)練批次(Batch_size):在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,當(dāng)數(shù)據(jù)集較大的時(shí)候,并不是將所有數(shù)據(jù)一次性輸入進(jìn)去,而是將數(shù)據(jù)集分為16、32、64、128、256共5個(gè)批次分別進(jìn)行處理(圖6)。從圖6發(fā)現(xiàn),當(dāng)Batch_size=16時(shí),模型對(duì)情感分類的準(zhǔn)確率最高。

      圖6 訓(xùn)練批次(Batch_size)對(duì)情感分類準(zhǔn)確度的影響

      3.3 模型評(píng)價(jià)

      采用準(zhǔn)確率、精確率(陽性預(yù)測(cè)率、precision)、召回率(recall)、F1以及受試者工作特征(Receiver Operating Characters,ROC)、曲線下面積(Area Under the ROC,AUC)5種常見的指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。精確率和召回率在信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域中得到了廣泛應(yīng)用。作為評(píng)價(jià)結(jié)果質(zhì)量的重要指標(biāo),精確率指的是正確分類為積極情感的評(píng)論占所有預(yù)測(cè)為評(píng)論的比率;召回率指的是正確分類為積極情感的評(píng)論占實(shí)際為積極情感評(píng)論的比率;ROC用來檢查找出真陽性和避免假陽性的權(quán)衡,其中縱坐標(biāo)代表正確分類為積極情感的比例,橫坐標(biāo)代表錯(cuò)誤分類為積極情感的比例;ROC曲線下面積用作評(píng)價(jià)情感分類模型的重要指標(biāo),即AUC值越高,能夠識(shí)別正確分類為積極情感的能力越強(qiáng)。

      (6)

      (7)

      (8)

      (9)

      為了驗(yàn)證基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)在情感分類的有效性,選取了支持向量機(jī)在情感分類的結(jié)果作為對(duì)比。作為一種二分類模型,它在處理小樣本、非線性和高維模式識(shí)別中表現(xiàn)出獨(dú)特的優(yōu)勢(shì),如利用核技巧解決原空間數(shù)據(jù)線性不可分的問題;作為一種機(jī)器學(xué)習(xí)方法,在情感分類中得到廣泛應(yīng)用。本文構(gòu)造的SVM分類器是基于Python的scikit-learn(0.19.1)庫實(shí)現(xiàn)的。

      基于深度神經(jīng)網(wǎng)絡(luò)的情感分類方法及SVM方法的實(shí)驗(yàn)結(jié)果如表1所示。

      表1 LSTM與SVM在情感分類中的對(duì)比結(jié)果

      圖7 LSTM神經(jīng)網(wǎng)絡(luò)與SVM模型情感分類的ROC曲線

      3.4 結(jié)果分析

      實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的LSTM的精確率達(dá)到89.08%,高于SVM模型的86.1%?;贚STM模型可以更好地學(xué)習(xí)和利用長(zhǎng)文本的語義特征,在模型的訓(xùn)練過程中,LSTM通過遺忘門既能夠控制梯度下降的收斂性,也可以保持長(zhǎng)期的記憶性;SVM模型雖然也獲得了很高的精確率,但在特征選擇和特征提取的過程中,無法解決長(zhǎng)期依賴的問題,因此在模型預(yù)測(cè)的準(zhǔn)確率上低于LSTM模型。

      由圖6計(jì)算出SVM的AUC值為0.93,神經(jīng)網(wǎng)絡(luò)模型LSTM的AUC值為0.95。根據(jù)評(píng)判標(biāo)準(zhǔn),當(dāng)AUC值大于0.9時(shí),說明該分類模型具有較高的陽性識(shí)別率,因此本文中的2種方法在情感分類中均取得了較好的成績(jī)。LSTM的ROC曲線整體在SVM的ROC曲線的上方,部分重合,LSTM模型在本文的情感分類中優(yōu)于SVM模型。一方面由于神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)端到端的輸入輸出,不需要進(jìn)行手工提取特征,具有易擴(kuò)展性和可移植性高的特點(diǎn);另一方面,LSTM神經(jīng)網(wǎng)絡(luò)模型具有處理大規(guī)模、高維數(shù)據(jù)的能力。從表1可看出,無論從準(zhǔn)確性、精確性、召回率以及F1方面,LSTM網(wǎng)絡(luò)模型均優(yōu)于SVM模型。本例中,SVM的輸入變量是采用word2vecx訓(xùn)練出的維度為300維的詞向量。雖然SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射,但在處理大量的文本轉(zhuǎn)化的向量可能存在局限性。

      本文中,基于LSTM神經(jīng)網(wǎng)絡(luò)模型優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)SVM模型,這證實(shí)了特征學(xué)習(xí)的重要性。深度學(xué)習(xí)能夠?qū)崿F(xiàn)特征的自動(dòng)提取,而在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域,這些特征需要人工分析提取出來。在學(xué)習(xí)能力上,LSTM模型能夠解決長(zhǎng)期依賴的問題,更好地利用上下文語義關(guān)系。如人們?cè)陂喿x文章時(shí),不是根據(jù)當(dāng)前的某一句話或者某一個(gè)詞推斷作者的感情傾向,而是基于上下文的理解進(jìn)行推斷的。LSTM的核心就是將之前有用的信息運(yùn)用到當(dāng)前狀態(tài)下。SVM模型將單一在線評(píng)論的詞向量映射到特定的空間結(jié)構(gòu)中,存在特征學(xué)習(xí)的能力不足,依賴更多的先驗(yàn)知識(shí),可擴(kuò)展性較差等問題。隨著網(wǎng)絡(luò)用語的出現(xiàn)和語言本身的發(fā)展,各種新的表達(dá)方式不斷出現(xiàn),這給情感詞典的維護(hù)帶來了諸多不便?;谌斯な謩?dòng)提取的情感特征無法詳盡列出每條規(guī)則,尤其是面對(duì)海量數(shù)據(jù)的互聯(lián)網(wǎng)時(shí)代。在情感分析和文本分類的任務(wù)中,Kim在Collobert等構(gòu)建CNN模型的基礎(chǔ)上,利用詞向量工具Word2vec完成了1 000億個(gè)單詞的新聞?wù)Z料庫訓(xùn)練,將其運(yùn)用到情感分類的任務(wù)中,取得了88.1%的最佳性能[18]。在大數(shù)據(jù)時(shí)代,只要有足夠的訓(xùn)練數(shù)據(jù)集,深度學(xué)習(xí)模型總能夠訓(xùn)練出逼近真實(shí)的結(jié)果[19]。

      另外,本研究也存在一些局限性。第一,先前基于SVM情感分類的研究大多強(qiáng)調(diào)構(gòu)建情感字典并取得了較好的實(shí)驗(yàn)效果。本文主要采用谷歌的Word2Vec構(gòu)建詞向量進(jìn)而進(jìn)行情感評(píng)論,并未構(gòu)建和使用情感詞典。Mohammad AL-Smadi等人應(yīng)用情感字典在對(duì)阿拉伯酒店評(píng)論進(jìn)行情感分類的結(jié)果顯示,基于人工提取多維特征的SVM模型在情感分類的準(zhǔn)確率優(yōu)于RNN(Recurrent Neural Network)模型,RNN在模型的訓(xùn)練速度上優(yōu)于SVM模型[20]。第二,由于本研究只包含16 000多條數(shù)據(jù)集,深度學(xué)習(xí)需要更大量的訓(xùn)練數(shù)據(jù)集,實(shí)驗(yàn)數(shù)據(jù)的規(guī)模對(duì)實(shí)驗(yàn)結(jié)果可能產(chǎn)生一定的影響。第三,本研究將在線評(píng)論情感分為積極或消極兩方面,剔除了模棱兩可、中立或者反語的情感傾向,如針對(duì)“這款空調(diào)的質(zhì)量不錯(cuò),但是售后服務(wù)不盡如人意”這種語法現(xiàn)象還需要進(jìn)一步的研究。

      4 總結(jié)與展望

      在對(duì)情感分類的方法研究中,基于英文情感分類的研究方法較為成熟。由于中英文在構(gòu)詞、語法、表達(dá)等方面的差異性,中文情感分類的研究面臨的挑戰(zhàn)更大。使用深度網(wǎng)絡(luò)模型LSTM建立對(duì)在線評(píng)論進(jìn)行情感分類的研究模型,避免了傳統(tǒng)分類模型對(duì)手工提取特征的過度依賴。對(duì)在線評(píng)論進(jìn)行情感分類的精確率達(dá)到了89.08%,印證了深度學(xué)習(xí)在情感分類特征提取的優(yōu)勢(shì)。然而在中文領(lǐng)域存在一詞多義的現(xiàn)象,深度學(xué)習(xí)是以詞向量作為原始變量的輸入,并不能像圖像將所有的原始信息輸入到深度學(xué)習(xí)的模型中,原始信息損失所帶來的誤差可能會(huì)導(dǎo)致在模型訓(xùn)練的過程中出現(xiàn)不可預(yù)見的錯(cuò)誤。另外,研究顯示,LSTM神經(jīng)網(wǎng)絡(luò)模型要優(yōu)于SVM模型,然而2種方法對(duì)在線評(píng)論的情感分類的準(zhǔn)確度均達(dá)到80%以上。下一步將繼續(xù)探索深度學(xué)習(xí)方法在情感分類的應(yīng)用。

      猜你喜歡
      準(zhǔn)確率向量神經(jīng)網(wǎng)絡(luò)
      向量的分解
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      聚焦“向量與三角”創(chuàng)新題
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      向量垂直在解析幾何中的應(yīng)用
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      靖宇县| 沭阳县| 永清县| 奇台县| 玛纳斯县| 苗栗市| 宁化县| 蒙阴县| 手机| 大竹县| 启东市| 育儿| 泗洪县| 宝应县| 河间市| 仁化县| 昌都县| 永和县| 敦煌市| 无棣县| 太湖县| 邵阳市| 云浮市| 历史| 扬中市| 昌平区| 灵山县| 抚远县| 新宁县| 鄢陵县| 大洼县| 建始县| 三河市| 新郑市| 龙井市| 廊坊市| 安陆市| 江达县| 莆田市| 新绛县| 昌黎县|