王 芳趙小明
(1.中國(guó)石油大學(xué)(華東)青島軟件學(xué)院、計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 青島 266580)(2.中國(guó)石油大學(xué)(華東)控制科學(xué)與工程學(xué)院 青島 266580)
大學(xué)生心理健康教育是高校思想政治工作的重要內(nèi)容,關(guān)乎大學(xué)生身心健康和長(zhǎng)遠(yuǎn)發(fā)展。特別是輔導(dǎo)員的工作性質(zhì)賦予了心理育人的獨(dú)特優(yōu)勢(shì)。對(duì)于高校學(xué)生群體,社交媒體,即時(shí)通訊手機(jī)應(yīng)用已經(jīng)成為他們記錄生活、表達(dá)觀點(diǎn)、分享交流的主要載體[1]。這些社交數(shù)據(jù)中蘊(yùn)含的信息能夠真實(shí)準(zhǔn)確的反映高校學(xué)生情感現(xiàn)狀和心理狀態(tài),可以為大學(xué)生心理健康教育提供有效的數(shù)據(jù)支持,為構(gòu)建高校學(xué)生心理預(yù)警機(jī)制提供新的數(shù)據(jù)保障[2]。高校學(xué)生群體在網(wǎng)絡(luò)社交發(fā)表內(nèi)容不局限于文本表達(dá)形式,圖像和網(wǎng)絡(luò)表情作為補(bǔ)充信息常常與主體文本共同出現(xiàn)。本研究聚焦高校學(xué)生網(wǎng)絡(luò)情緒情感表達(dá)問(wèn)題,依托學(xué)生朋友圈和微博數(shù)據(jù),提出了一種基于多模態(tài)社交情感分類的高校學(xué)生心理健康分析方法,將情感狀態(tài)表達(dá)劃分主體情感和側(cè)面情感,實(shí)現(xiàn)對(duì)學(xué)生情感更細(xì)粒度的分類,并提出一種多模態(tài)數(shù)據(jù)融合方法,以文本數(shù)據(jù)為主體,利用文本、圖像和網(wǎng)絡(luò)表情共同對(duì)主體情感進(jìn)行分類,利用圖像和網(wǎng)絡(luò)表情兩種模態(tài)數(shù)據(jù)得到兩種側(cè)面情感,實(shí)現(xiàn)對(duì)主體情感的補(bǔ)充。
近年來(lái),對(duì)于高校學(xué)生群體進(jìn)行情感分析方法主要分為傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法指使用常見(jiàn)的有監(jiān)督或無(wú)監(jiān)督方法,基于社交文本構(gòu)建復(fù)雜的特征工程。Wang等[3]提出了一種新的主題情感分析模型,有效感知學(xué)生對(duì)不同話題的情感傾向,為提高教學(xué)實(shí)踐中的信息服務(wù)質(zhì)量提供有力的實(shí)踐參考。Iram等[4]提出了一個(gè)自動(dòng)化方法來(lái)檢測(cè)學(xué)生在Facebook上發(fā)布的相關(guān)問(wèn)題是積極的、消極的和中性的。仲偉偉等[5]提出一種利用模糊聚類算法對(duì)高校學(xué)生在微博等網(wǎng)絡(luò)社交平臺(tái)的文本狀態(tài)進(jìn)行情感分析的方法,有效地發(fā)現(xiàn)學(xué)生的心理健康問(wèn)題。
而基于深度學(xué)習(xí)的方法為當(dāng)前情感分析的主流方法,Yan等[6]對(duì)學(xué)生在論壇上發(fā)出的消息進(jìn)行情感分類,然后應(yīng)用廣義線性混合效應(yīng)模型以統(tǒng)計(jì)顯著的方式估計(jì)新冠肺炎和在線教學(xué)對(duì)人們情緒的影響。劉麗等[7]此提出了一種結(jié)合條件隨機(jī)場(chǎng)和復(fù)雜句式的跨粒度情感分析方法,對(duì)學(xué)生微博進(jìn)行細(xì)粒度情感分析,同時(shí)分析微博文本的情感傾向,實(shí)現(xiàn)對(duì)學(xué)生總體情感傾向的跨粒度分析。王曙燕等[8]針對(duì)高校學(xué)生論壇語(yǔ)句具有篇幅短、口語(yǔ)化與多流行用語(yǔ)等特點(diǎn),提出了一種基于RoBERTa-WWM的高校學(xué)生情感分析方法,充分學(xué)習(xí)語(yǔ)句的局部特征與上下文語(yǔ)境信息。
在情感分析領(lǐng)域,多模態(tài)因?yàn)槠淇紤]了不同模態(tài)的數(shù)據(jù),所以成為了一種有效的提高情感分析效果的方法。宋云峰等[9]提出了一種基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析模型MAM,劉路路等[10]對(duì)文本和圖片的多模態(tài)數(shù)據(jù)進(jìn)行了方面級(jí)情感分析,在公開(kāi)數(shù)據(jù)集上均取得了不錯(cuò)的提升效果。然而上述研究缺乏針對(duì)高校學(xué)生群體發(fā)表網(wǎng)絡(luò)動(dòng)態(tài)場(chǎng)景下綜合考慮多種情感進(jìn)行分析,應(yīng)該將多模態(tài)與多情感聯(lián)系起來(lái)綜合考慮特定群體的情感分析。因此,我們提出了融合不同模態(tài)的數(shù)據(jù)進(jìn)行主體、側(cè)面情感綜合考慮的情感分析方法。
本研究基于高校學(xué)生群體將朋友圈和微博數(shù)據(jù),提出的情感分析方法主要分為三部分。首先是融合文本、圖像和網(wǎng)絡(luò)表情特征的主體情感分析模型。其次是將網(wǎng)絡(luò)表情轉(zhuǎn)換為文本,然后通過(guò)計(jì)算文本相似度來(lái)得到側(cè)面情感1。最后是對(duì)動(dòng)態(tài)的配圖進(jìn)行情感分類,得到側(cè)面情感2。所以將高校學(xué)生的情感分析任務(wù)定義為從主體情感空間和側(cè)面情感空間中得到的情感組合。
圖1 模型結(jié)構(gòu)圖
BERT[11]作為通過(guò)多頭自注意力機(jī)制可以學(xué)習(xí)到文本中的局部特征和全局特征,并且考慮了文本的上下文環(huán)境信息,本研究使用BERT(BERT-Chinese-case)預(yù)訓(xùn)練模型來(lái)提取文本特征,并獲相應(yīng)的文本向量。對(duì)于高校學(xué)生群體在朋友圈或微博發(fā)布的動(dòng)態(tài)中的文本定義為T(mén),T可能包含多個(gè)句子Si。
對(duì)于每個(gè)句子Si由單詞序列構(gòu)成(見(jiàn)式(2))。
BERT作為文本編碼層BERT Encoder對(duì)文本向量進(jìn)行編碼,得到文本向量H(見(jiàn)式(3))。
本研究使用在ImageNet數(shù)據(jù)集上訓(xùn)練的VGG16[12]模型作為預(yù)訓(xùn)練模型獲取圖像特征。對(duì)于高校學(xué)生發(fā)布的動(dòng)態(tài)數(shù)據(jù)中給定配圖集合P,其由1到J張圖片組合而成。
經(jīng)過(guò)VGG16網(wǎng)絡(luò)后,在最后一層池化層POOL可以獲取圖片的特征向量Hp,對(duì)于集合P中每一張圖片pj都可以得到響應(yīng)的特征向量Hp j。
在提取文本和圖像特征后,將文本特征向量H,圖像特征向量Hp和網(wǎng)絡(luò)表情文本向量He進(jìn)行特征拼接和融合,得到融合后的向量Hc。由于網(wǎng)絡(luò)表情本身是根據(jù)指定文本確定的小圖像,所以可以將網(wǎng)絡(luò)表情轉(zhuǎn)換為文本表示,然后將文本特征向量H和網(wǎng)絡(luò)表情特征向量He進(jìn)行向量拼接,通過(guò)拼接函數(shù)得到拼接后的特征向量Hce。
由于文本和圖像兩者的表達(dá)有很大的區(qū)別,所以本研究通過(guò)添加全連接層融合文本特征向量Hce和圖像特征向量Hp,經(jīng)過(guò)全連接層后得到最終的多模態(tài)數(shù)據(jù)的融合特征向量Hc。式(7)中θ為全連接層參數(shù)。
將得到的融合特征向量Hc經(jīng)過(guò)GRU[13]層和全連接層,最終得到預(yù)測(cè)出的主體情感。形式化的,對(duì)于t位置的輸入為It,當(dāng)前位置的隱藏層的向量表示為,前一個(gè)位置的隱藏層的向量表示為。σ為Sigmoid函數(shù),用于控制更新的門(mén)控單位表示為U,其中的學(xué)習(xí)參數(shù)為Uw。對(duì)于更新門(mén)控的定義見(jiàn)式(8)。
用于控制重置的門(mén)控單位表示R,其中的學(xué)習(xí)參數(shù)為Rw:
tanh為激活函數(shù),Hw對(duì)于當(dāng)前位置的隱層輸出的計(jì)算過(guò)程見(jiàn)式(10)。
Outw為輸出層的學(xué)習(xí)參數(shù),最終當(dāng)前位置輸出yt計(jì)算過(guò)程見(jiàn)式(11)。
通過(guò)GRU層后再經(jīng)過(guò)全連接層,通過(guò)SoftMax激活函數(shù),最終可以得到預(yù)測(cè)的主體情感?(見(jiàn)式(12))。
正如3.4節(jié)中所述,網(wǎng)絡(luò)表情作為一種特殊符號(hào),雖然具有圖像的形式但本質(zhì)上是通過(guò)文本對(duì)其進(jìn)行指定的定義含義。類似的,作為文本,將網(wǎng)絡(luò)表情轉(zhuǎn)換為文本輸入后,經(jīng)過(guò)文本編碼層BERT Encoder后得到網(wǎng)絡(luò)表情的文本向量He。如果數(shù)據(jù)中存在多個(gè)網(wǎng)絡(luò)表情,則將所有網(wǎng)絡(luò)表情得到的文本向量拼接起來(lái)再進(jìn)行情感分類。將得到的文本向量通過(guò)全連接層后直接計(jì)算側(cè)面情感。通過(guò)3.3節(jié)部分提取圖像特征后,可以得到動(dòng)態(tài)中配圖的特征。通過(guò)VGG16模型可以直接進(jìn)行圖像的側(cè)面情感分類。
本研究收集了312名高校學(xué)生的朋友圈和微博動(dòng)態(tài)構(gòu)建情感數(shù)據(jù)集MSD(Multimodal Sentiment Dataset)作為實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集總共有5482條樣本。本研究將高校學(xué)生情感表達(dá)分為了主體情感和側(cè)面情感,其中主體情感分為正向(1863條)、負(fù)向(2100條)、中性(1519條)3種,側(cè)面情感包括喜悅、支持、祝福等9種合計(jì)5480條。
在本文提出的情感分析方法在數(shù)據(jù)集MSD上進(jìn)行迭代訓(xùn)練,表1中的實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)集MSD上我們的方法對(duì)于含有不同模態(tài)的社交動(dòng)態(tài)可以提取主體情感,比其他方法取得了更好的抽取效果。
表1 不同模型在MSD數(shù)據(jù)集上主要情感分類的性能
對(duì)于側(cè)面情感分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果在表2列出,實(shí)驗(yàn)表明本研究提出的方法可以有效的對(duì)網(wǎng)絡(luò)表情和配圖兩種不同模態(tài)數(shù)據(jù)單獨(dú)進(jìn)行側(cè)面情感的分類。
表2 不同模型在MSD數(shù)據(jù)集上側(cè)面情感分類的性能
為進(jìn)一步論證所提出方法的有效性,在公開(kāi)數(shù)據(jù)集Yelp[14]進(jìn)行了進(jìn)一步的測(cè)試,實(shí)驗(yàn)結(jié)果在表3中列出。
表3中包含了Yelp數(shù)據(jù)集中5個(gè)不同的美國(guó)城市,其中,a和m分別表示參與實(shí)驗(yàn)的算法平均池化和最大池化兩個(gè)超參數(shù)。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法,在公開(kāi)數(shù)據(jù)集Yelp上相較于其他的基準(zhǔn)算法至少提升了6%的準(zhǔn)確率。
另外,我們?cè)赥witter反諷數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)[18],實(shí)驗(yàn)結(jié)果在表4中列出,實(shí)驗(yàn)結(jié)果表明我們的方法在Twitter反諷數(shù)據(jù)集上相較于其他方法提高了4%左右的準(zhǔn)確率,3%左右的F1值。
針對(duì)高校學(xué)生心理健康狀態(tài)分析任務(wù)中學(xué)生社交動(dòng)態(tài)數(shù)據(jù)模態(tài)的多樣性和學(xué)生情感表達(dá)的復(fù)雜性,本研究提出了一種基于多模態(tài)社交情感分類的高校學(xué)生心理健康分析方法,通過(guò)將情感表達(dá)劃分為主體情感加側(cè)面情感補(bǔ)充的方式來(lái)簡(jiǎn)化了復(fù)雜的情感表達(dá),并盡可能還原情感表達(dá)的完整性。同時(shí)提出一種多模態(tài)數(shù)據(jù)融合方法,利用文本、圖像和網(wǎng)絡(luò)表情共同對(duì)主體情感進(jìn)行分類,并分別利用圖像和網(wǎng)絡(luò)表情兩種模態(tài)的數(shù)據(jù)表征兩種側(cè)面情感,實(shí)現(xiàn)對(duì)主體情感的補(bǔ)充。實(shí)驗(yàn)表明,本研究各項(xiàng)指標(biāo)在多個(gè)數(shù)據(jù)集上都有較高的預(yù)測(cè)效果,可以有效地對(duì)高校學(xué)生社交數(shù)據(jù)進(jìn)行情感預(yù)測(cè)。通過(guò)對(duì)高校學(xué)生心理狀態(tài)和情感表達(dá)的分析,為廣大教育工作者提供了直觀的指導(dǎo),實(shí)現(xiàn)了高校學(xué)生工作與新技術(shù)的結(jié)合,推進(jìn)了線上線下相結(jié)合的心理工作機(jī)制,增強(qiáng)了網(wǎng)絡(luò)平臺(tái)建設(shè)的親和力和針對(duì)性。