文/崔冠軍
你的情緒,現(xiàn)在正變成一場情緒經(jīng)濟(jì)。當(dāng)你疲勞駕駛,走神或焦躁的情緒將被車識別警告;用平板學(xué)習(xí)產(chǎn)生困難,它將讀取你困惑的情緒,并放慢教學(xué)速度;當(dāng)售出一個商品,你可以通過消費者面部情緒快速評估產(chǎn)品的效果……《衛(wèi)報》稱,情緒識別已經(jīng)成為規(guī)模 200 億美元的行業(yè),且還在持續(xù)擴充中。早在2009年,第一家營銷人工情緒智能的公司Affective就已經(jīng)將情緒檢測技術(shù)作為市場研究產(chǎn)品出售。包括檢測機械員工損傷、視頻游戲用戶體驗、協(xié)助醫(yī)護(hù)人員評估患者健康等各行各業(yè),圍繞它的領(lǐng)域都在持續(xù)增長,亞馬遜、微軟和 IBM 也將情緒分析作為他們情緒識別產(chǎn)品的主要功能進(jìn)行宣傳。Affective 創(chuàng)始人Kaliouby 預(yù)測,不久的將來,當(dāng)這項技術(shù)無處不在并融入我們所有的設(shè)備中時,能夠利用我們的內(nèi)心、潛意識做出瞬間的反應(yīng)。Karan[1]等人提出一種在無約束環(huán)境下自動檢測情感的方法,利用多核學(xué)習(xí)將提取的特征組合起來,使用支持向量機進(jìn)行分類。Liu[2]等人提出一種基于視頻的人類情感識別方法。對于每個視頻片段,所有幀表示為一個圖像集合。在決策層對從兩種模態(tài)(視頻和音頻)學(xué)習(xí)到的分類器進(jìn)行最佳融合。Samira[3]等人針對不同的模態(tài)結(jié)合多個深層神經(jīng)網(wǎng)絡(luò)進(jìn)行情感識別。Sun[4]等人對于每個視頻片段,提取SIFT、LBP-TOP、PHOG、LPQ-TOP和音頻特征,為每一種特征訓(xùn)練不同的分類器,并針對所有提取的特征提出了一種新的分層分類器融合方法。Liu[5]等人研究了核支持向量機、logistic回歸和偏最小二乘三種分類方法進(jìn)行比較。最后,在決策層對不同核和不同模態(tài)(視頻和音頻)的分類器進(jìn)行優(yōu)化融合,進(jìn)一步提高分類性能。Chen[6]等人提出一種新的特征描述子,研究視覺和聽覺特征,并采用多核學(xué)習(xí)方法尋找最優(yōu)特征融合。Yao[7]等人采用表情特定動作單元(AUs)提取面部特征。Kaya[8]等人開發(fā)了一組常用的時空建模方案,并進(jìn)行了多模態(tài)融合。Kahou[9]等人將混合CNN-RNN體系結(jié)構(gòu)用于面部表情分析。Sarah[10]等人建立系統(tǒng),以視頻流作為輸入,產(chǎn)生情感標(biāo)簽。Fan[11]等人使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和三維卷積神經(jīng)網(wǎng)絡(luò)(C3D)相結(jié)合的混合網(wǎng)絡(luò),采用后期融合方式進(jìn)行情緒識別。Yan[12]等人提出了一個多線索情感融合框架(MCEF)。Yao[13]等人提出了HoleNet框架進(jìn)行情緒識別。Kara[14]等人建立影像模型,將視聽特征與基于最小二乘回歸的分類器和加權(quán)評分融合相結(jié)合。Hu[15]等人在深度卷積神經(jīng)網(wǎng)絡(luò)上加入監(jiān)督評分集成機制。當(dāng)前,使用AFEW數(shù)據(jù)集的研究主要集中于表情模態(tài)、語音模態(tài)。原因在于可用于深度學(xué)習(xí)的情感分析語料庫的情感標(biāo)注基本都為情感傾向標(biāo)注,而不是AFEW數(shù)據(jù)集的基本情緒標(biāo)注。因此,為了使語義模態(tài)在AFEW數(shù)據(jù)集上發(fā)揮作用,花費大量的時間和精力對原有的Twitter情感分析訓(xùn)練語料庫中的每條推文重新人工進(jìn)行情感標(biāo)注,使其與AFEW數(shù)據(jù)集一致。本論文將語義模態(tài)、表情模態(tài)、語音模態(tài)相融合,采用后期融合的策略對三種模態(tài)的結(jié)果進(jìn)行融合。
2.1.1 人臉檢測-多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)MTCNN
MTCNN是2016年中國科學(xué)院深圳研究院提出的用于人臉檢測任務(wù)的多任務(wù)神經(jīng)網(wǎng)絡(luò)模型,該模型主要采用了三個級聯(lián)的網(wǎng)絡(luò),采用候選框加分類器的思想,進(jìn)行快速高效的人臉檢測。這三個級聯(lián)的網(wǎng)絡(luò)分別是快速生成候選窗口的P-Net、進(jìn)行高精度候選窗口過濾選擇的R-Net和生成最終邊界框與人臉關(guān)鍵點的O-Net。和很多處理圖像問題的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型也用到了圖像金字塔、邊框回歸、非最大值抑制等技術(shù)。
2.1.2 表情情感分析模型-深度殘差網(wǎng)絡(luò)Resnet
在一些場景下,網(wǎng)絡(luò)層數(shù)的增加反而會降低正確率。這種本質(zhì)問題是由于出現(xiàn)了信息丟失而產(chǎn)生的過擬合問題。解決思路是嘗試著使他們引入這些刺激的差異性和解決泛化能力為主。深度殘差網(wǎng)絡(luò)的設(shè)計就是為了克服這種由于網(wǎng)絡(luò)深度加深而產(chǎn)生的學(xué)習(xí)效率變低,準(zhǔn)確率無法有效提升的問題,它允許網(wǎng)絡(luò)盡可能的加深。殘差網(wǎng)絡(luò)將前若干層的數(shù)據(jù)輸出直接跳過多層而引入到后面數(shù)據(jù)層的輸入部分,后面的任何一層向量的內(nèi)容會有一部分由其去前面的某一層線性貢獻(xiàn)。
圖1:殘差網(wǎng)絡(luò)
圖2:傅里葉頻譜圖
殘差網(wǎng)絡(luò)提出兩種mapping:一種是identity mapping,指的就是圖1中“彎彎的曲線”;另一種是residual mapping,指的就是除了“彎彎的曲線”那部分,最后的輸出是y=F(x)+x。identity mapping指代本身,也就是x,而residual mapping指的是“差”,即y-x,殘差指的就是F(x)。理論上,對于“隨著網(wǎng)絡(luò)加深,準(zhǔn)確率下降”的問題,Resnet提供了兩種選擇方式,也就是identity mapping和residual mapping,如果網(wǎng)絡(luò)已經(jīng)到達(dá)最優(yōu),繼續(xù)加深網(wǎng)絡(luò),residual mapping將被push為0,只剩下identity mapping,這樣理論上網(wǎng)絡(luò)一直處于最優(yōu)狀態(tài)了,網(wǎng)絡(luò)的性能也就不會隨著深度增加而降低了。
2.2.1 短時傅里葉變換(STFT)
為了提取音頻特征,使用短時傅里葉變換(STFT)得到傅里葉頻譜圖。如圖2所示。
短時傅里葉變換是一個用于語音信號處理的通用工具。它定義了一個非常有用的時間和頻率分布類,其指定了任意信號隨時間和頻率變化的復(fù)數(shù)幅度。實際上,計算短時傅里葉變換的過程是把一個較長的時間信號分成相同長度的更短的段,在每個更短的段上計算傅里葉變換,即傅里葉頻譜。
2.2.2 語音情感分析模型
將每個音頻片段的頻譜圖像輸入到VGG19模型中。
2.3.1 Elmo動態(tài)詞向量
Elmo由艾倫研究所開發(fā),被稱為時下最好的通用詞和句子嵌入方法,來自于語言模型的詞向量表示,也是利用了深度上下文單詞表征。ELMo是雙向語言模型biLM的多層表示的組合,基于大量文本,ELMo模型是從深層的雙向語言模型中的內(nèi)部狀態(tài)學(xué)習(xí)而來的,而這些詞向量很容易加入到QA、文本對齊、文本分類等模型中。
2.3.2 TextCNN
TextCNN由Yoon Kim提出,將卷積神經(jīng)網(wǎng)絡(luò)CNN應(yīng)用到文本分類任務(wù),利用多個不同size的kernel來提取句子中的關(guān)鍵信息,從而能夠更好地捕捉局部相關(guān)性。
我們認(rèn)為后期融合能產(chǎn)生更好的結(jié)果。表情、語音及語義三個模態(tài)的分類器置信度得分分別為SA、SB及SC,使用權(quán)重rA、rB及rC,其中 rA+rB+rC=1,且0 與其他的超參數(shù)一樣,融合的相關(guān)參數(shù)也在訓(xùn)練過程進(jìn)行了優(yōu)化。 實驗采用的是AFEW數(shù)據(jù)集,該數(shù)據(jù)集為Emotion Recognition In The Wild Challenge(Emotiw)系列情感識別挑戰(zhàn)賽使用的數(shù)據(jù)集,內(nèi)容為從電影中剪輯的包含表情的視頻片段,表情標(biāo)簽為高興、悲傷、生氣、驚訝、恐懼、中性六類基本表情。 Twitter情感分析訓(xùn)練語料庫,該情感分析數(shù)據(jù)集包含31962條分類推文。原有的語料庫每行標(biāo)記為1表示積極情緒,0表示負(fù)面情緒,用來訓(xùn)練語義情感分析模型。為了使得語義模態(tài)可以與表情模態(tài)、語音模態(tài)相融合,我們對原語料庫的每條推文重新人工進(jìn)行情感標(biāo)注,與AFEW數(shù)據(jù)集一致,分為高興、悲傷、生氣、驚訝、恐懼、中性六類基本情緒。 如表1所示。 表1 AFEW數(shù)據(jù)集中的內(nèi)容為從電影中剪輯的包含表情的視頻片段,分為六種基本情緒,真實性很高。當(dāng)前,可用于深度學(xué)習(xí)的情感分析語料庫的情感標(biāo)注基本都為情感傾向標(biāo)注,無法在該數(shù)據(jù)集上使用語義模態(tài)。因此,使用AFEW數(shù)據(jù)集的研究主要集中于表情模態(tài)、語音模態(tài)。為了使語義模態(tài)在AFEW數(shù)據(jù)集上發(fā)揮作用,花費大量的時間和精力對原有的Twitter情感分析訓(xùn)練語料庫中的每條推文重新人工進(jìn)行情感標(biāo)注,與AFEW數(shù)據(jù)集一致,也分為六種基本情緒。本篇論文在AFEW數(shù)據(jù)集上,初次將表情、語音及語義三個模態(tài)相融合,在視頻片段情感識別的準(zhǔn)確率上有所提升。但融合的策略相對簡單,今后的研究將集中與融合策略方面。3 實驗
3.1 AFEW數(shù)據(jù)集
3.2 Twitter情感分析訓(xùn)練語料庫
3.3 實驗結(jié)果
4 總結(jié)