曲塔吉 安見(jiàn)才讓
摘要: 藏文多極情感分類(lèi)方法是自然語(yǔ)言處理研究中識(shí)別用戶對(duì)某件事或話題的主觀情感傾向性識(shí)別的研究課題之一。文章分析了藏文多極情感分類(lèi)方法的特點(diǎn),對(duì)采集的藏文情感語(yǔ)料進(jìn)行整理校對(duì);提取相關(guān)特征,建立情感語(yǔ)料庫(kù)和情感分類(lèi)識(shí)別模型;再通過(guò)大量的實(shí)驗(yàn)找出存在的不足,并進(jìn)行完善,以此提高藏文多極情感數(shù)據(jù)的準(zhǔn)確率。實(shí)驗(yàn)表明,優(yōu)化后的藏文多極情感分類(lèi)的識(shí)別準(zhǔn)確率達(dá)到84.5%。
關(guān)鍵詞: 情感分類(lèi); LSTM神經(jīng)網(wǎng)絡(luò)模型; 注意力機(jī)制; 藏文程度詞; 藏文轉(zhuǎn)折詞與否定詞
中圖分類(lèi)號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)10-41-03
Research on Tibetan multi-polar sentiment classification method based on deep learning
Qu Taji, Anjian Cairang
(School of Computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)
Abstract: The Tibetan multi-polar emotion classification method is one of the research topics in the natural language processing research to identify the user's subjective sentiment orientation for a certain event or topic. This article analyzes the characteristics of the Tibetan multi-polar sentiment classification method, organize and proofread the collected Tibetan sentiment corpus, and extract features to build sentiment corpus and sentiment classification and recognition model. Identify existing problems through a lot of experiments and further refine and improve the accuracy of Tibetan multipolar sentiment data. In the experiment, the optimized and expanded Tibetan multi-polar emotion classification and recognition accuracy rate reached 84.5%.
Key words: sentiment classification; LSTM neural network model; attention mechanism; Tibetan degree words; Tibetan transition words and negative words
0 引言
情感分析[1]作為用戶行為分析的重要組成部分,是對(duì)帶有主觀性情感傾向或情緒態(tài)度的文本進(jìn)行分析處理和歸納推理的過(guò)程。其一方面可以通過(guò)對(duì)用戶評(píng)論的篩選與歸類(lèi),從中挖掘用戶對(duì)產(chǎn)品或服務(wù)的意見(jiàn),并基于這些意見(jiàn)對(duì)用戶的行為進(jìn)行預(yù)測(cè)從而制定科學(xué)合理的運(yùn)營(yíng)策略;另一方面,通過(guò)對(duì)大量文本的情感分析,可以有效監(jiān)控網(wǎng)絡(luò)輿情和預(yù)測(cè)網(wǎng)絡(luò)輿論走向,并及時(shí)監(jiān)測(cè)輿情危機(jī)做出預(yù)警,維護(hù)網(wǎng)絡(luò)安全,構(gòu)建和諧網(wǎng)絡(luò)環(huán)境。在自然語(yǔ)言處理技術(shù)的應(yīng)用當(dāng)中,情感分析更是必不可少的。例如在自動(dòng)機(jī)器翻譯中,對(duì)輸入文本進(jìn)行情感傾向判斷時(shí),有助于精準(zhǔn)的選擇帶有正面或負(fù)面的同義詞進(jìn)行翻譯,以此提高翻譯的準(zhǔn)確率。
因此,本課題提出將藏文情感分類(lèi)方法通過(guò)深度學(xué)習(xí)的相關(guān)技術(shù)進(jìn)行深入研究,首先對(duì)藏文多極情感分類(lèi)方法的特點(diǎn)進(jìn)行分析,并對(duì)采集的藏文情感語(yǔ)料進(jìn)行篩選,擴(kuò)充,人工標(biāo)注和分詞,去除或加工情感詞當(dāng)中的縮寫(xiě)詞、重疊詞、特殊字符等,對(duì)情感數(shù)據(jù)進(jìn)行整理、校對(duì)及數(shù)據(jù)預(yù)處理,以此構(gòu)建藏文多極情感語(yǔ)料庫(kù);其次對(duì)相關(guān)理論知識(shí)進(jìn)行深入學(xué)習(xí),結(jié)合相關(guān)特征進(jìn)行詞向量分析,采用基于多層正向LSTM和注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型建立藏文多極情感傾向型分析模型。
1 相關(guān)工作
1.1 藏文多極情感分類(lèi)
藏文多極情感分類(lèi)屬于情感分析方法當(dāng)中文本情感分類(lèi)的范疇,初期的情感分類(lèi)能有效分析情感句子當(dāng)中所表達(dá)出來(lái)的正面、中立、負(fù)面情感等情感傾向,讓情感分類(lèi)技術(shù)能直接從檢測(cè)后的最終情感傾向結(jié)果中傳遞出文本的主觀態(tài)度傾向。但在本文的研究中增加了情感極性的部分,對(duì)情感句子當(dāng)中表達(dá)出來(lái)的情感程度進(jìn)行分類(lèi)和歸納,按照一定的分類(lèi)規(guī)則進(jìn)行人工標(biāo)注和分詞并分類(lèi)為六種情感極性,即滿意、一般滿意、非常滿意及不滿意、一般不滿意、非常不滿意,總共收錄相關(guān)情感數(shù)據(jù)29121條句子。
1.2 藏文程度詞與情感句子搭配
本文采集的情感數(shù)據(jù)當(dāng)中,藏文程度詞主要用于對(duì)采集的四種情感態(tài)度數(shù)據(jù)當(dāng)中兩種不同情感極性的數(shù)據(jù)進(jìn)行限定和修飾,以此達(dá)到各類(lèi)情感句子的情感極性。程度詞的不同是能將同一種表達(dá)的內(nèi)容變得完全不同,又會(huì)以一致的情感傾向表達(dá)出來(lái),即有不同之處,又有相同之處。正因如此,程度詞的修飾作用在文本數(shù)據(jù)的人工標(biāo)注上起到了加速效果,它能將每一條文本數(shù)據(jù)的分類(lèi)以最準(zhǔn)確、最快的方式表達(dá)出來(lái)。如表1所示。
1.3 藏文轉(zhuǎn)折詞和否定詞應(yīng)用
情感數(shù)據(jù)當(dāng)中出現(xiàn)的轉(zhuǎn)折詞,能表示某個(gè)情感傾向的轉(zhuǎn)變或變化,主要是強(qiáng)調(diào)變化后的情感表達(dá)狀態(tài),是以轉(zhuǎn)折后的情感傾向?yàn)橹饕袛嘁罁?jù)產(chǎn)生的情感傾向轉(zhuǎn)換作用。轉(zhuǎn)折詞有時(shí)在識(shí)別的過(guò)程中將消極情感詞識(shí)別成積極情感詞,或?qū)⒎e極情感詞識(shí)別成消極情感詞,在一定程度上會(huì)導(dǎo)致識(shí)別率下降。主要是因?yàn)檗D(zhuǎn)折前后的情感句子當(dāng)中既包含積極情感詞,又包含消極情感詞。如表2所示。
當(dāng)一個(gè)句子當(dāng)中出現(xiàn)“不”“沒(méi)有”之類(lèi)的詞,我們經(jīng)常判定這類(lèi)詞很有可能是句子字面意義和文章所表達(dá)的意義不一致,而在情感句子當(dāng)中否定程度的強(qiáng)弱及說(shuō)話者的態(tài)度都直接決定著其情感傾向的轉(zhuǎn)變。在藏文句式的常規(guī)文法應(yīng)用中,使用的否定詞主要有“?????????????”四種,在本文中對(duì)這四種否定詞加以使用,在標(biāo)注時(shí)與之相關(guān)的否定情感詞有“???????? ???????????? ???????? ???????????”等等。但是,不能直接判定其否定詞就是消極情感詞,因?yàn)樵谇楦芯渥赢?dāng)中還存在情感句子轉(zhuǎn)折前后的一個(gè)情感傾向。如表3所示。
值得注意的是,否定詞在表達(dá)時(shí),光從字面意義上判斷其情感傾向很容易,但放到特定的環(huán)境下和特定的語(yǔ)境中情感傾向改變的可能性特別大,這就需要在后期的標(biāo)注上格外注意。
2 基于深度學(xué)習(xí)的藏文多極情感分類(lèi)方法的模型
本文提出一種用于藏文多極情感分類(lèi)方法的多層正向LSTM[2]和注意力機(jī)制[3]模型。此模型主要是通過(guò)不同層的正向LSTM在同一個(gè)深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練。其模型將不同鄰域的情感分類(lèi)數(shù)據(jù)文本通過(guò)詞向量輸入到正向LSTM模型中,再通過(guò)注意力機(jī)制從softmax模型中輸出分類(lèi)的結(jié)果。如圖1所示。
此模型的整體訓(xùn)練思路是:首先將藏文情感文本進(jìn)行向量化處理組成數(shù)組,用矩陣化的方式來(lái)表示情感數(shù)據(jù)的語(yǔ)義信息;其次載入到生成的詞向量[4]模型,創(chuàng)建用于訓(xùn)練集的藏文情感數(shù)據(jù)矩陣和LSTM的計(jì)算單元,在構(gòu)造訓(xùn)練集索引之前,視情況確定并設(shè)置好訓(xùn)練長(zhǎng)度;最后使用由標(biāo)簽的數(shù)據(jù)訓(xùn)練輸出層的分類(lèi)器,用該分類(lèi)器對(duì)藏文情感分類(lèi)進(jìn)行分析識(shí)別。
3 實(shí)驗(yàn)結(jié)果
本次實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)共有29121條情感數(shù)據(jù)文本,在整個(gè)實(shí)驗(yàn)過(guò)程中,通過(guò)在訓(xùn)練中多次反復(fù)提取特征從而加強(qiáng)特征的記憶力,訓(xùn)練集和損失值在不斷下降的同時(shí),其準(zhǔn)確率一直在上升并趨于平穩(wěn),最終的準(zhǔn)確率為:84.5%。后續(xù)實(shí)驗(yàn)表明此模型具有良好的穩(wěn)定性,不斷增加語(yǔ)料后準(zhǔn)確率隨之上升。如圖2所示。
如圖2所示,基于多層正向LSTM和注意力機(jī)制的模型算法的結(jié)果在準(zhǔn)確率和損失值方面都表現(xiàn)的優(yōu)異穩(wěn)定。其最大的原因在于輸入時(shí)做了大量的加工處理,讓卷積層[5]在詞向量的部分得到了更多的序列信息,讓卷積層更容易獲得特定的特征為識(shí)別基礎(chǔ),其中也運(yùn)用到的各種算法的優(yōu)勢(shì),讓藏文多極情感分類(lèi)的識(shí)別有了更高的準(zhǔn)確率,損失值也變得越來(lái)越低。其實(shí)驗(yàn)結(jié)果示例表如4所示。
4 結(jié)束語(yǔ)
本文對(duì)基于深度學(xué)習(xí)的藏文多極情感分類(lèi)識(shí)別做了較為全面的探討和研究。通過(guò)嚴(yán)格的數(shù)據(jù)預(yù)處理構(gòu)建藏文多極情感文本數(shù)據(jù)庫(kù),在數(shù)據(jù)上通過(guò)訓(xùn)練模型實(shí)現(xiàn)藏文多極情感分類(lèi)方法的識(shí)別,由于藏文的情感分類(lèi)方法數(shù)據(jù)庫(kù)存在著明顯的不足,公開(kāi)的數(shù)據(jù)寥寥無(wú)幾。因此,我們采用人工的方式,對(duì)數(shù)據(jù)進(jìn)行標(biāo)注、篩選、擴(kuò)充,并逐一校對(duì),為后續(xù)的實(shí)驗(yàn)提供了更好的更準(zhǔn)確的數(shù)據(jù)。
后期需對(duì)藏文多極情感分類(lèi)語(yǔ)料庫(kù)做擴(kuò)充和進(jìn)一步完善。在基于各種不同情感極性和復(fù)雜的數(shù)據(jù)時(shí),本文使用的模型分類(lèi)效果也會(huì)隨之改變,對(duì)此需要進(jìn)一步思考在面對(duì)海量的復(fù)雜數(shù)據(jù)時(shí),如何改進(jìn)和維持模型的分類(lèi)效果,提高其準(zhǔn)確率以及在其他領(lǐng)域的泛化能力。
參考文獻(xiàn)(References):
[1] 段懿軒.基于神經(jīng)網(wǎng)絡(luò)的中文文本情感分類(lèi)及其在輿情分析中的應(yīng)用.西安電子科技大學(xué)碩士論文,2019.
[2] 王瑞龍.基于注意力深度學(xué)習(xí)的情感分類(lèi)研究[D].西北大學(xué),2019.
[3] 王明陽(yáng).句子級(jí)和段落級(jí)的語(yǔ)義相似度算法的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué)碩士論文,2019.
[4] 張鵬.基于深度學(xué)習(xí)混合模型的商品垃圾評(píng)論識(shí)別研究 [D].江蘇科技大學(xué)大學(xué),2019.
[5] 周泳東.基于卷積神經(jīng)網(wǎng)絡(luò)的商品評(píng)論情感分析的研究[D].南京郵電大學(xué),2019.
[6] 何晗.自然語(yǔ)言處理入門(mén)[M].人民郵電出版社,2019.