騫恒源 孟彩霞
(西安郵電大學計算機學院 西安 710061)
情感分析,又被稱為意向挖掘、傾向性分析等[1],其主要任務是針對人們在網絡社交或者產品評論等日常網絡行為中產生的主觀性文本進行分析、挖掘,以獲得其中的情感信息,是自然語言處理領域的研究熱點。
傳統(tǒng)的針對于文本情感極性分析處理的技術主要分為兩類。1)基于規(guī)則的情感分析技術:從語言學角度出發(fā),根據(jù)經驗或者專家的知識和意見構建特征、情感詞典和模板,進而完成對文本情感極性的分析。這個過程需要大量的人工干預[2~3],構建特征需要花費極大的代價。2)基于機器學習的情感分析技術:人為地對數(shù)據(jù)集進行情感標注,標注過的數(shù)據(jù)集即為訓練集。接著在訓練集上進行特征的提取和學習,得到機器學習模型。最后,通過訓練完成的機器學習模型對文本的情感極性進行判斷[4~5]。然而,該方法面臨特征稀疏,維度爆炸,特征提取較為困難等問題。
近來,深度學習的技術越來越多地被應用到自然語言處理的領域,且深度學習的技術在不斷的發(fā)展和完善[6~7]。Kim 等[8]采用卷積神經網絡(CNN)完成了對電影評論的情感分類,Wang 等[9]利用長短期記憶網絡(LSTM)對文本情感進行分析,都取得了比傳統(tǒng)分類器更好的效果。但上述模型無法挖掘到文本更多的隱藏信息,從而導致對文本中包含的大量語義信息利用不充分。劉龍飛等[10]提出了一種將不同粒度的CNN 模型相結合來獲得到更多的語義信息。但該模型沒有對現(xiàn)有的情感資源,包括情感詞典、情感規(guī)則等進行有效利用,忽略了情感信息對于情感分類的影響。陳釗等[11]提出將情感特征與深度學習模型相結合,使得模型在訓練過程中充分利用文本所包含的情感信息,提升了分類的準確率。然而該模型難以表征每個詞對分類的重要程度。陳珂[12]等提出基于多通道卷積神經網絡的模型,將詞性映射為連續(xù)的值向量,對詞語在句子中的位置進行取值并進行向量化操作來表示詞語在句子中的重要程度,最后將其與詞向量、情感向量相互拼接作為卷積神經網絡中不同通道的輸入。盡管該模型考慮到了每個詞的重要性對于分類結果的影響,但是用詞語在句子中的位置特征表示詞語重要性的方法明顯不能準確地體現(xiàn)出詞語對于句子以及分類的重要程度。
針對以上問題,本文提出一種基于權重分配的多通道卷積神經網絡與雙向長短期記憶網絡特征相結合的模型(WAMCCNN-BILSTM)。首先,針對陳珂[12]等提出的MCCNN 模型進行改進并提出基于權重分配的多通道卷積神經網絡模型(WAMCCNN),該模型使用詞語的特征權重表征每個詞對于句子的重要程度,句子中每個詞語的特征權重通過TF-IDF特征權重算法計算得出。將其與其他特征結合形成不同的通道作為卷積神經網絡的輸入,充分利用文本的情感信息以及詞對于分類重要性等信息學習出文本的局部特征。相較于原模型,該模型在降低輸入向量維度的同時也提高了模型的訓練效率。接著,針對卷積神經網絡無法充分利用文本的上下文關系,提出雙向長短時記憶網絡(BILSTM)來獲取包含文本上下文信息的全局特征。最后將兩種模型提取出的特征相結合作為全連接層的輸入完成對文本的分類。在京東評論數(shù)據(jù)集和微博評論數(shù)據(jù)集上的實驗顯示本方法相較之前基于神經網絡模型的情感分析方法取得了更好的效果。
如圖1 所示,本文所提出的WAMCCNN-BILSTM模型由五部分組成。
圖1 WAMCCNN-BILSTM模型
1)輸入層,將不同特征組合形成不同通道作為WAMCCNN模型的輸入,將文本映射為詞向量的形式作為BILSTM模型的輸入。
2)特征提取層,使用WAMCCNN 模型提取出包含豐富語義信息和隱藏信息的文本局部特征,使用BILSTM模型學習包含文本上下文信息的全局特征。
3)合并層,將通過WAMCCNN 模型挖掘到的包含豐富語義信息和大量隱藏信息的局部特征和經過BILSTM模型提取到的包含文本上下文信息的全局特征進行拼接并將其作為合并層的輸入。
4)隱藏層,本文在合并層和輸出層之間加入一個隱藏層,目的在于對合并層得到的特征向量進行學習,挖掘出局部特征和全局特征之間的聯(lián)系,提高分類的準確率。
5)輸出層,利用softmax 函數(shù)輸出文本情感極性。
和普通卷積神經網絡相比,本文提出的WAMCCNN 模型充分利用了文本中所隱藏的情感信息且有效突出了詞語對于分類的貢獻度。通過將不同特征結合形成不同的輸入通道,使得模型在訓練過程中充分學習不同特征間的聯(lián)系,獲取到更多的語義信息。因為將不同的特征相結合不但可以生成新的特征,也使得不同特征間相互聯(lián)系和影響。同時,WAMCCNN 模型的輸入通道獨立存在,在對模型進行訓練時,可以在模型的不同輸入通道中區(qū)別設置各自的卷積核和激活函數(shù),使得模型能夠更加全面地對文本隱藏信息進行挖掘。在此基礎上,本文通過引入雙向長短時記憶網絡模型所構建的WAMCCNN-BILSTM 模型能夠通過WAMCCNN 模型對包含豐富語義信息和大量隱藏信息的文本局部特征進行挖掘,利用BILSTM 模型對包含特征之間依賴關系的文本上下文信息進行學習,之后將通過BILSTM 模型得到的文本全局特征與通過WAMCCNN 模型得到的文本局部特征合并,從而使得模型在情感分析過程中能夠有效地利用到文本的上下文信息,進一步提高分類準確率。
本文通過python 爬蟲爬取京東評論文本和微博評論文本進行實驗,對本文所提模型的有效性進行驗證。爬取不同領域10000 條評論文本,作為京東評論數(shù)據(jù)集(JD-comment dataset,JDC),包括5000條正面評論和5000條負面評論。爬取新浪微博的10000 條評論文本作為微博評論數(shù)據(jù)集(Weibo-comment dataset,WBC),包括 正 向情緒 評 論5000條,負面情緒評論5000條。此外,從微博評論數(shù)據(jù)集和京東評論數(shù)據(jù)集各抽出3000 條數(shù)據(jù)形成混合數(shù)據(jù)集,驗證本文所提方法在混合數(shù)據(jù)集上的有效性。
本文使用JIEBA 分詞對實驗數(shù)據(jù)進行分詞處理并且進行詞性標注。通過Google 開源的word2vec[13]的Skip-gram 模型,利用京東評論數(shù)據(jù)集對詞向量和詞性向量進行訓練。實驗中,詞向量維度為30 維,詞性向量維度為30 維。本文所提模型卷積神經網絡部分參數(shù)設置如表1 所示,對本文所提模型中BILSTM 模型的參數(shù)設置如表2 所示,在模型的訓練階段,本文采用Zeiler[14]提出的隨地梯度下降法對模型的參數(shù)進行迭代更新。
表1 卷積神經網絡參數(shù)
表2 BILSTM網絡參數(shù)
將本文所提出的WAMCCNN-BILSTM 模型與其它深度學習的模型在不同的數(shù)據(jù)集上進行對比實驗,驗證本文所提出的情感分析模型在分類準確率上得到提高,以下對各實驗進行介紹。
1)CNN。文獻[7]提出的普通卷積神經網絡模型。
2)BILSTM。雙向長短時記憶網絡模型。
3)MCCNN。文獻[11]提出的MCCNN 模型,將不同特征組合形成不同的通道作為卷積神經網絡的輸入。
4)CNN-BILSTM[15]。文獻[15]提出的CNNBILSTM 模型,將使用卷積神經網絡學習到的局部特征與使用雙向長短時記憶網絡學習到的全局特征結合,作為融合模型的輸入。
5)WAMCCN。本文提出的WAMCCNN模型。
6)WAMCCNN-BILSTM。本文提出的WAMC CNN-BILST模型。
7)SWCNN。文獻[11]提出的SWCNN 模型,將文本的情感特征映射為詞向量加入卷積神經網絡。
8)WFCNN 模型。文獻[10]提出的WFCNN 模型,對情感特征進行二值化操作,將二值形式的情感特征加入卷積神經網絡。
在本文所提數(shù)據(jù)集上進行8 組不同的實驗對比驗證本文所提模型的,對比結果如表3所示。
表3 不同模型情感分類性能對比
根據(jù)表3 結果可以看出,本文所提WAMCCNN-BILSTM 模型在三種不同數(shù)據(jù)集上均取得了最好的結果,其中在最好的JDC數(shù)據(jù)集上取得了86.75%的正確率,相比于MCCNN 模型的85.10%和CNN-BILSTM 模型的83.35%分別提高了1.65%和3.40%,驗證了本文所提方法的有效性。對比文獻[10]提出的將詞性特征加入卷積神經網絡的WFCNN 模型和文獻[7]提出的CNN 模型,在三種不同數(shù)據(jù)集上WFCNN 模型分別取得了82.79%、83.55%、82.40%的準確率,相較于CNN 模型的82.42%、82.92%、82.20%分別提升了0.37%、0.63%、0.2%,說明文本情感信息的加入可以使得模型取得更好的分類效果。對比將情感特征映射為詞向量形式加入到網絡的SWCNN 模型和WFCNN 模型可以看出,SWCNN 模型分類效果較之WFCNN 模型得到了提升,說明將詞性特征映射為詞向量的形式加入卷積神經網絡使得文本的情感特征在網絡中被充分利用,分類準確率得到提升。對比文獻[11]提出MCCNN 模型和WFCNN 模型可以看出,將不同的特征組合形成不同的通道作為卷積神經網絡輸入的MCCNN 模型相較于WFCNN 模型在3 種數(shù)據(jù)集上的準確率均有大幅度提高,說明將不同特征結合形成不同的通道作為卷積神經網絡的輸入使得模型能夠充分學習到文本不同特征之間的聯(lián)系,文本中更多的語義信息得到發(fā)掘,進而提升了模型分類的準確率。
此外,從表3 結果可以看出,融合模型相較于單模型有更好的分類效果,結合表3 實驗結果,在三種不同數(shù)據(jù)集上完成3 組對比實驗來進一步說明融合模型在情感分類任務中的有效性,對比結果如圖2所示。
圖2 融合模型與單模型對比結果
如圖2 結果可以看出,CNN-BILSTM 模型在三種不同數(shù)據(jù)集上取得的分類效果較之CNN、BILSTM 均有所提升,同時,本文所提出的WAMCCNN-BILSTM 模型在不同數(shù)據(jù)集上較之其WAMCCNN、BISTM 單獨模型也取得了更好的情感分類效果。該結果表明,更過的語義信息的加入可以使得模型取得更好的分類效果。此外,對實驗結果進一步分析可以看出結合文本上下文信息的CNN-BILSTM 模 型和WAMCCNN-BILSTM 模型 在3 種數(shù)據(jù)集上相較于CNN、WAMCCNN 模型分類準確率均有提高。對比結果表明,本文提出的結合文本上下文信息的方法可以使得模型在訓練過程中充分利用到文本的上下文信息,有效地解決了卷積神經網絡無法充分利用上下文信息的問題,提高了分類的準確率。
本文提出一種WAMCCNN 和BILSTM 模型相結合的情感分析模型,該模型利用WAMCCNN 對文本的各個特征之間的聯(lián)系進行學習和挖掘,獲取到了更多的語義信息和隱藏信息,同時利用長短時記憶網絡獲取文本中包含的上下文信息,將通過WAMCCNN 提取到的包含豐富語音信息和隱藏信息的局部特征和通過BILSTM提取到的包含文本上下文信息的全局特征相結合作為WAMCCNNBILST 模型全連接層的輸入,經過隱藏層后得到分類結果。 實驗結果表明,本文提出的WAMCCNN-BILST 模型在情感分析中相較于之前的深度學習模型取得了更好的分類效果。
在接下來的工作中,可以考慮引入更多的文本特征并將其組合形成不同的通道作為卷積神經網絡的輸入,使得模型可以學習到更多特征之間的聯(lián)系。同時考慮在不同的通道采用不同的激活函數(shù),使得模型可以學習到更多的隱藏信息,提高分類準確率。