陳 莊,趙 源,羅 頌,丘嘉豪
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)
人臉表情是傳播人類情感信息與協(xié)調(diào)人際關(guān)系的重要方式,是人類內(nèi)心的情感流露.人臉表情又被分為宏表情和微表情.宏表情是一種幅度大,持續(xù)時(shí)間久的人臉表情,經(jīng)常出現(xiàn)在日常生活中,且容易被人察覺(jué).而微表情是一種輕微、短暫、不易察覺(jué)的人臉表情,普通人很難發(fā)現(xiàn)人臉表情中的微表情,只有經(jīng)過(guò)面部表情識(shí)別訓(xùn)練的心理學(xué)家才可以去發(fā)現(xiàn)這種表情.
在過(guò)去的幾十年里,許多學(xué)者在宏表情識(shí)別中開(kāi)展了許多工作.隨著研究的深入,學(xué)者發(fā)現(xiàn)宏表情可以被人為的偽裝,從而掩飾自己內(nèi)心的真實(shí)情感,而微表情則難以隱藏.因此,近些年,針對(duì)微表情的識(shí)別工作逐漸成為新的研究熱門.
微表情是一種微妙的面部表情,當(dāng)人們?cè)噲D隱藏自己真實(shí)的情感時(shí),微表情就會(huì)在無(wú)意中暴露出來(lái),它可以揭示人們內(nèi)心真正的想法.微表情具有以下特點(diǎn):
1)微表情的產(chǎn)生是通過(guò)人們隱藏自己的情感和掩飾情緒時(shí)不經(jīng)意間流露出的面部表情.
2)微表情是一個(gè)微弱而短暫的動(dòng)態(tài)表情變化,通常需要在視頻中進(jìn)行動(dòng)態(tài)特征分析.
3)微表情的持續(xù)時(shí)間較短,僅持續(xù)1/25~1/3秒[1].
4)微表情通常只出現(xiàn)在特定的位置[2,3].
自動(dòng)微表情分析分為微表情檢測(cè)和微表情識(shí)別.微表情檢測(cè)是指在一段完整的視頻幀序列中檢測(cè)出微表情發(fā)生的開(kāi)始與結(jié)束的時(shí)間段.同時(shí),微表情檢測(cè)也包括在一段微表情視頻中檢測(cè)出峰值幀,即微表情視頻中表情變化強(qiáng)度最為劇烈的一幀.微表情識(shí)別是對(duì)于一段微表情視頻幀序列,分析出微表情所屬的類別.本文中主要聚焦于微表情識(shí)別任務(wù).
基于微表情微弱且無(wú)意識(shí)等特點(diǎn),自發(fā)的微表情識(shí)別有助于揭露人類內(nèi)心的真實(shí)情感.因此,微表情識(shí)別在國(guó)家安全、臨床診斷、司法制度和政治選舉等方面有廣泛的應(yīng)用.但是由于微表情變化微弱等特點(diǎn),使人類很難肉眼識(shí)別微表情.事實(shí)上在早期,Ekman和Paul在訓(xùn)練人類識(shí)別微表情上做了許多努力,并且在2002年開(kāi)發(fā)了一個(gè)微表情識(shí)別的工具——METT[4].METT可以有效地改進(jìn)人類識(shí)別微表情的能力.但是盡管如此,人類識(shí)別微表情的能力依舊較差.根據(jù)報(bào)告[5],人類識(shí)別微表情的準(zhǔn)確率僅僅47%.因此,通過(guò)計(jì)算機(jī)視覺(jué)的方式來(lái)識(shí)別微表情則變得尤為重要.隨著科學(xué)技術(shù)的發(fā)展和深度學(xué)習(xí)[6]的興起使得微表情的準(zhǔn)確識(shí)別成為可能.但微表情識(shí)別也面臨著巨大的挑戰(zhàn),即如何設(shè)計(jì)一種有效的微表情識(shí)別算法去克服微表情識(shí)別中的困難.
本文的貢獻(xiàn)如下:
1)提出了一種將視頻動(dòng)態(tài)變化信息壓縮為稀疏殘差積的方式,有效地避免了幀冗余的問(wèn)題,加快了網(wǎng)絡(luò)提取視頻特征的速度.
2)提出了一種通過(guò)稀疏卷積提取動(dòng)態(tài)特征的方式,在稀疏數(shù)據(jù)下,有較高的精度與較快的速度.
3)提出了一種動(dòng)靜態(tài)特征融合識(shí)別微表情的方式,將視頻特征劃分為動(dòng)態(tài)特征與靜態(tài)特征,并通過(guò)動(dòng)靜態(tài)嵌入因子學(xué)習(xí)特征融合的最佳組合.
早期的微表情識(shí)別工作通常提取手工特征,然后使用機(jī)器學(xué)習(xí)方法進(jìn)行識(shí)別.手工提取的特征可以分為兩類:基于表觀的特征和基于幾何的特征.
2.1.1 基于表觀的特征
基于表觀的特征,即基于像素值的方法,通過(guò)統(tǒng)計(jì)視頻像素值提取面部區(qū)域數(shù)據(jù)的強(qiáng)度或紋理信息.
LBP-TOP[7]是一種基于表觀的特征,是LBP算子在三維空間的擴(kuò)展.LBP-TOP通過(guò)提取在三維上的LBP特征,然后將其拼接融合作為提取到的視頻特征.LBP-TOP考慮了時(shí)間和空間上的信息,是典型的具有時(shí)空特征的LBP算子.作為一個(gè)前期工作,LBP-TOP取得了較好的效果,為后續(xù)微表情識(shí)別研究提供了參考.
繼LBT-TOP工作之后,Huang提出了STCLQP[8],有效地避免了LBP-TOP特征僅考慮局部外觀和運(yùn)動(dòng)特征的局限性.STCLQP首先提取了符號(hào)分量、幅值分量和方向分量3個(gè)重要信息;其次對(duì)外觀域和時(shí)間域的每個(gè)分量進(jìn)行有效的矢量量化和碼本選擇,以學(xué)習(xí)緊湊和有辨別力的碼本;最后基于碼本去提取并融合符號(hào)分量、幅值分量和方向分量3個(gè)興趣信息.
通常,基于表觀的方法提取的特征丟失的信息比較少,但會(huì)有更高特征維度.如LBP-TOP特征維度就比較高.與LBP-TOP相比,雖然STCLQP方法考慮了更多的信息,但不可避免的引入了更高的維度.
2.1.2 基于幾何的特征
基于幾何的特征通常不會(huì)直接考慮像素值,而是考慮部分特征區(qū)域或特征點(diǎn)的位移.最具代表性的幾何特征就是光流特征.光流通過(guò)計(jì)算面部特征點(diǎn)的位移或作用區(qū)域的光流來(lái)識(shí)別微表情.該方法能夠提取具有代表性的運(yùn)動(dòng)特征,對(duì)人臉紋理的多樣性具有較強(qiáng)的魯棒性.
Liu等[9]人提出了一種簡(jiǎn)單而有效的主方向平均光流特征用于微表情識(shí)別.主方向平均光流是應(yīng)用在視頻片段上一種魯棒的光流方法.它基于部分動(dòng)作單元將面部區(qū)域劃分為感興趣區(qū)域,同時(shí)考慮了局部統(tǒng)計(jì)運(yùn)動(dòng)信息和空間位置信息.
光流法的優(yōu)勢(shì)是特征維度小,并且能夠捕獲到細(xì)微的肌肉運(yùn)動(dòng).在第2屆國(guó)際微表情大賽中,有許多工作[10-12]利用光流信息取得了良好的效果.例如,Liu[10]等人構(gòu)建了一個(gè)可靠的微表情識(shí)別系統(tǒng),他們采用了兩種域適應(yīng)技術(shù),包括對(duì)抗訓(xùn)練和表情放大與縮小方法.然后對(duì)原始圖像進(jìn)行預(yù)處理,從起始幀(微表情視頻中的第一幀)到峰值幀(微表情視頻中變化強(qiáng)度最大的幀)捕捉面部運(yùn)動(dòng)的時(shí)空光流,進(jìn)而編碼微弱的面部運(yùn)動(dòng).然后通過(guò)從宏表情識(shí)別的任務(wù)中使用遷移學(xué)習(xí)的方式解決少樣本微表情數(shù)據(jù)集的問(wèn)題.最后取得了較好的效果,并獲得了MEGC2019[13]的冠軍.
但光流對(duì)光線有更高的要求,易受外界環(huán)境影響,并且這些工作僅利用了峰值幀與起始幀的光流信息,丟失了視頻其他幀的運(yùn)動(dòng)信息.
深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于許多領(lǐng)域,并且取得了顛覆性的成果.近年來(lái),由于深度學(xué)習(xí)方法的有效性,深度學(xué)習(xí)的熱度更是高居不下.同樣在微表情領(lǐng)域,許多的學(xué)者也在嘗試使用深度學(xué)習(xí)方法去識(shí)別微表情.
Xia等[14]提出了時(shí)空循環(huán)卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)幾個(gè)循環(huán)的卷積層捕捉微表情序列中的時(shí)空變化,采用端到端的優(yōu)化,避免了人工特征設(shè)計(jì).相比于傳統(tǒng)方法進(jìn)行微表情識(shí)別,該工作取得了不錯(cuò)的效果.
Khor等[15]提出了一種ELRCN網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取空間信息和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)提取時(shí)空信息.首先通過(guò)CNN模塊將每個(gè)微表情幀編碼成一個(gè)特征向量,然后通過(guò)LSTM模塊傳遞特征向量來(lái)預(yù)測(cè)微表情.ELRCN利用門控單元可以保留長(zhǎng)期信息的優(yōu)點(diǎn)檢測(cè)微表情,并取得了較好的效果.然而,微表情視頻片段較短,相鄰幀之間變化較小,導(dǎo)致神經(jīng)網(wǎng)絡(luò)重復(fù)計(jì)算相似的視頻幀,時(shí)間復(fù)雜度較大,并且很難捕捉到相鄰幀之間的動(dòng)態(tài)信息變化.而通過(guò)壓縮視頻信息為殘差積的方法很好地克服了幀冗余的問(wèn)題,并且可以更好地提取相鄰幀之間的變化信息.
綜上所述,與傳統(tǒng)的人工特征識(shí)別微表情相比,深度學(xué)習(xí)技術(shù)可以從微表情視頻中提取特征并進(jìn)行分類,準(zhǔn)確率更高.但由于微表情視頻中存在幀冗余,深度學(xué)習(xí)訓(xùn)練模型的速度受到很大影響.因此,本文提出了將視頻動(dòng)態(tài)變化信息壓縮為稀疏殘差積的微表情視頻預(yù)處理方法來(lái)克服微表情視頻中的幀冗余問(wèn)題.此外,由于傳統(tǒng)的微表情特征提取時(shí),僅利用了起始幀和峰值幀的信息,無(wú)法有效地將視頻中有效信息全部提取,導(dǎo)致微表情視頻識(shí)別精度較低,而本文提出將視頻特征分解為動(dòng)態(tài)特征與靜態(tài)特征的方式,有效地利用了視頻中的有效信息.
微表情視頻包含著大量的背景干擾信息,需要預(yù)處理剪輯出人臉部分,使神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)有效特征.預(yù)處理共分為3步:1)通過(guò)dlib庫(kù)檢測(cè)人臉68個(gè)地標(biāo)點(diǎn);2)通過(guò)眼角地標(biāo)點(diǎn),對(duì)齊人臉面部,確保面部水平端正;3)通過(guò)地標(biāo)點(diǎn)裁剪人臉面部圖像.處理結(jié)果如圖1所示.
圖1 預(yù)處理Fig.1 Preprocessed
視頻由連續(xù)不斷、相互關(guān)聯(lián)、變化幅度小的圖像幀組成.但是本文并沒(méi)有將視頻作為靜態(tài)圖像集合處理,而將其視為靜態(tài)特征與動(dòng)態(tài)特征的結(jié)合.靜態(tài)特征是指首幀圖像中的人臉信息,而動(dòng)態(tài)特征是指部分圖像間的殘差幀信息,由淺層動(dòng)態(tài)特征和深層動(dòng)態(tài)特征組成.模型中使用雙通道網(wǎng)絡(luò)分別提取動(dòng)態(tài)特征與靜態(tài)特征.模型如圖2所示,模型圖左側(cè)為動(dòng)態(tài)特征提取模塊,模型圖右側(cè)為靜態(tài)特征提取模塊,在分別提取深層動(dòng)態(tài)特征和靜態(tài)特征后,通過(guò)可訓(xùn)練的動(dòng)靜態(tài)殘差連接模塊融合動(dòng)靜態(tài)特征得到動(dòng)靜態(tài)融合特征,即微表情視頻特征,最后分類得出微表情類別.
圖2 模型Fig.2 Model
通常,公式zt=w×xt用來(lái)計(jì)算特征映射.其中w∈c0×ci×kh×kw、Xt∈c×h×w、zt∈c0×h×w分別表示卷積核、第t幀圖像和第t幀的特征.co、ci、h、w分別為卷積核的輸出通道數(shù)、輸入通道數(shù)、高和寬.通過(guò)卷積的分配率可得出公式(1)[16]:
z1=w×x1
zt=w×(x1+xt-xt-1+…+x2-x1)
=w×x1+w×(xt-xt-1+…+x2-x1)
=z1+w×(rt+…+r2)
(1)
其中rt表示第t個(gè)殘差幀,是第xt幀與第xt-1幀的差值.由公式(1)可知通過(guò)計(jì)算首幀圖像特征與t-1個(gè)殘差幀特征可以計(jì)算出第t幀特征.視頻特征可以被量化為每一幀特征的組合,因此可以通過(guò)公式(2)計(jì)算首幀到第t幀的視頻特征zv∈c0×h×w.
(2)
其中rsum=ci×h×w、z1∈c0×h×w、zr∈c0×h×w和⊙分別表示殘差積、靜態(tài)特征、殘差積特征和哈達(dá)瑪積.首幀特征和殘差積特征分別被稱為靜態(tài)特征與深層動(dòng)態(tài)特征.因此根據(jù)公式(2),視頻特征可以分解為靜態(tài)特征與深層動(dòng)態(tài)特征的組合.
微表情從起始幀到峰值幀,峰值幀到偏移幀(即微表情視頻中的最后一幀),是一個(gè)表情幅度由弱到強(qiáng),再由強(qiáng)到弱的過(guò)程.起始幀到峰值幀與峰值幀到偏移幀是一個(gè)互逆的過(guò)程,因此采用從起始幀到峰值幀的微表情片段進(jìn)行識(shí)別.此外,由于微表情的幅度較為微小,相鄰幀差異非常小,因此需要舍棄部分變化微小的幀,并均勻選取關(guān)鍵的幀,以避免幀信息的冗余.通過(guò)公式(3)根據(jù)視頻長(zhǎng)短選擇合適的間隔.
(3)
其中g(shù)、fonset、fapex、「·?和n,分別表示采樣幀間隔、微表情視頻中起始幀的次序、微表情視頻中峰值幀的次序、向上取整和關(guān)鍵幀的數(shù)量.通過(guò)公式(4)以g為間隔均勻采樣微表情視頻片段,即從起始幀每隔g幀取一幀,共取n幀,將采樣得到的n個(gè)關(guān)鍵幀作為集合中的元素.
={fonset+g,fonset+2g,…,min(fonset+ng,fapex)}
(4)
圖3 計(jì)算殘差積Fig.3 Compute the residual sum
={(xi-xi-1)×(n-i+1)|xi∈,1
(5)
其中xi表示集合中的第i個(gè)元素.通過(guò)門控公式(6),將中的帶權(quán)殘差幀聚合,計(jì)算殘差積rsum∈ci×h×w.由于16位RGB圖像范圍是0~255,因此在計(jì)算殘差積時(shí)本文使用最大最小歸一化將結(jié)果范圍線性調(diào)整到0~255.
(6)
其中max(·)、min(·)、gmax和gmin分別表示取最大值、取最小值,調(diào)整范圍的最大值和調(diào)整范圍的最小值.gmax和gmin在文中分別取255和0.
圖4 淺層稀疏卷積模型Fig.4 Shallow sparse convolution model
深層稀疏卷積模型如圖5所示,s代表深層稀疏卷積步長(zhǎng),深層稀疏卷積的邊緣填充被設(shè)置為1.深層稀疏卷積模型由9個(gè)稀疏卷積層、1個(gè)批量歸一化層、1個(gè)稀疏池化層和1個(gè)展平層組成.相比于淺層稀疏卷積模型,它使用了更多的稀疏卷積層,能夠增加網(wǎng)絡(luò)的非線性表達(dá)能力.相比于使用5×5及更大的卷積核,它通過(guò)使用3×3的卷積能夠有效較少模型的參數(shù)[18].深層稀疏卷積模型中參考了ResNet[19]的網(wǎng)絡(luò)結(jié)構(gòu),使用步長(zhǎng)為2的稀疏卷積層執(zhí)行下采樣操作,并在網(wǎng)絡(luò)最后使用稀疏池化及展平層生成深層動(dòng)態(tài)特征.
圖5 深層稀疏卷積模型Fig.5 Deep sparse convolution model
(7)
其中α,β是可訓(xùn)練的參數(shù).在靜態(tài)特征提取模塊深度可分離卷積部分,本文參考ReXNet[20]深度可分離卷積網(wǎng)絡(luò)架構(gòu).
有效地結(jié)合動(dòng)態(tài)特征和靜態(tài)特征是提高微表情識(shí)別精度的重要部分,本文通過(guò)公式(8)將得到的深層動(dòng)態(tài)特征與靜態(tài)特征進(jìn)行自適應(yīng)細(xì)粒度融合,得到動(dòng)靜態(tài)融合特征zv∈576.
zv=λ⊙z1+γ⊙zr
(8)
其中λ,γ和zv∈d分別表示靜態(tài)嵌入因子、動(dòng)態(tài)嵌入因子和動(dòng)靜態(tài)融合特征.靜態(tài)嵌入因子與動(dòng)態(tài)嵌入因子是可訓(xùn)練的參數(shù),通過(guò)網(wǎng)絡(luò)中深層動(dòng)態(tài)特征與靜態(tài)特征的關(guān)系自適應(yīng)學(xué)習(xí)最佳組合,有效地結(jié)合動(dòng)靜態(tài)特征,提高了微表情識(shí)別的精度.
微表情數(shù)據(jù)集樣本非常稀少,所以數(shù)據(jù)增強(qiáng)可以提高識(shí)別精度.由于人臉的左右鏡像對(duì)稱,將人臉進(jìn)行水平翻轉(zhuǎn)有助于訓(xùn)練網(wǎng)絡(luò)泛化能力,并且圖像增強(qiáng)的一些不會(huì)改變圖像語(yǔ)義的基本增強(qiáng)方法也有助于泛化模型.因此訓(xùn)練共采用以下數(shù)據(jù)增強(qiáng)方法:隨機(jī)進(jìn)行圖片水平翻轉(zhuǎn);隨機(jī)灰度化圖片;隨機(jī)輕微旋轉(zhuǎn)圖像;隨機(jī)調(diào)整圖像飽和度、對(duì)比度、色相及亮度.
此外,本文利用標(biāo)簽平滑損失函數(shù)[21]正則化方法,損失函數(shù)如公式(9)所示.標(biāo)簽平滑損失函數(shù)可以有效避免過(guò)擬合,改善泛化能力差的問(wèn)題.此外,本文使用Adamp[22]優(yōu)化器,Adamp優(yōu)化器可以抑制權(quán)重范數(shù)的增長(zhǎng),提高模型訓(xùn)練速度.
(9)
其中s,C和pi分別表示標(biāo)簽平滑因子、樣本類別數(shù)量和第i類的預(yù)測(cè)概率.
實(shí)驗(yàn)中共涉及微表情的自發(fā)數(shù)據(jù)集有3種:SMIC[23]、CASME II[24]和SAMM[25].3個(gè)數(shù)據(jù)集的詳細(xì)信息見(jiàn)表1.
表1 微表情數(shù)據(jù)集,括號(hào)中的數(shù)字代表了它的樣本數(shù)量Table 1 Micro-expression dataset,the numbers in parentheses represent the number of samples
SMIC的數(shù)據(jù)采集受試者總共是20人,平均年齡在26.7歲左右,并且受試者來(lái)自于不同的種族,其中有10名亞洲人,9名白種人和1名非洲人.并且其中10名參與者佩戴著眼鏡.SMIC是基于3種基本情感(消極,積極,驚訝)通過(guò)100fps的高速攝像機(jī),要求20個(gè)受試者進(jìn)行同樣的情感誘發(fā)拍攝得到微表情序列,最后僅16個(gè)受試者的微表情視頻滿足要求,此外為了增加數(shù)據(jù)的多樣性,SMIC還通過(guò)常規(guī)相機(jī)和紅外攝像機(jī)記錄其中8位參與者的視頻序列片段.最后,SMIC數(shù)據(jù)集中微表情樣本總數(shù)共157個(gè),微表情視頻幀的分辨率為640×480.
CASME II數(shù)據(jù)集是中國(guó)科學(xué)院心理研究所創(chuàng)建的自發(fā)微表情數(shù)據(jù)庫(kù).CASME II共招募了35名參與者,平均年齡在22.03歲左右.在CASME II中,微表情是在一個(gè)控制良好的實(shí)驗(yàn)室環(huán)境激發(fā)出來(lái)的,通過(guò)要求26個(gè)受試者觀看基于7種基本情感(其他,厭惡,高興,壓抑,驚訝,悲傷,恐懼)的短片進(jìn)行情感誘發(fā),并采用一些方法使受試者壓抑自己的情感流露,然后使用200fps的高速攝像機(jī)拍攝得到近3000個(gè)面部運(yùn)動(dòng)中挑選出來(lái).經(jīng)過(guò)篩選去除一些特別細(xì)微的微表情(特別細(xì)微的的微表情無(wú)法標(biāo)定起始幀和偏移幀)以及其他不符合微表情特征的樣本.最后,CASME II數(shù)據(jù)集中共包含255個(gè)微表情樣本,比早期的微表情數(shù)據(jù)庫(kù)數(shù)據(jù)更豐富.在空間分辨率上,CASME II中采用640×480的視頻幀大小,它的分辨率大于早期自發(fā)的微表情數(shù)據(jù)集樣本.較大的視頻幀尺寸更有助于檢測(cè)微弱的變化,有利于特征提取和進(jìn)一步更好的分類.
SAMM的數(shù)據(jù)集較為多樣化,SAMM數(shù)據(jù)集的受試者平均年齡在33.24歲左右.并且受試者來(lái)自于多個(gè)不同的國(guó)家.SAMM共招募了32名在校大學(xué)生受試者,參與者的種族有17個(gè)英國(guó)白人、3個(gè)中國(guó)人、2個(gè)阿拉伯人、2個(gè)馬來(lái)人.此外,非洲人、非洲加勒比人,阿拉伯人,印度人,尼泊爾人,巴基斯坦人和西班牙人各1個(gè).并且男女各一半,男性受試者和女性受試者都是16個(gè).最后基于7種基本情感(生氣,高興,其他,驚訝,鄙視,厭惡,恐懼,悲傷)誘發(fā)微表情.最終通過(guò)篩選,SAMM數(shù)據(jù)集共29個(gè)受試者和159個(gè)微表情樣本,且微表情視頻幀的分辨率為960×650.
3個(gè)數(shù)據(jù)集樣本分別來(lái)自不同的國(guó)家和人種.此外,SAMM樣本是灰度圖,CASME和SMIC樣本都是RGB圖像.因此跨數(shù)據(jù)集識(shí)別具有很大的挑戰(zhàn)性,同時(shí)也是對(duì)算法魯棒性的巨大考驗(yàn).
所有實(shí)驗(yàn)都是在Ubuntu 16.04上使用NVIDIA GTX TITAN RTX GPU(24GB),Python 3.6.2和Pytorch 1.6進(jìn)行的.在實(shí)驗(yàn)中,分別使用了3個(gè)評(píng)價(jià)指標(biāo):UF1(未加權(quán)F1得分)、UAR(系統(tǒng)的平衡精度)和Accuracy(準(zhǔn)確率).
UF1得分在多分類評(píng)估中是一個(gè)很好的評(píng)判標(biāo)準(zhǔn),因?yàn)樗梢詮?qiáng)調(diào)稀少的類.UF1的計(jì)算方法如公式(10)所示.它不會(huì)受類別數(shù)量所影響,對(duì)于每個(gè)類別都平等對(duì)待.
(10)
UAR是較為合理的識(shí)別指標(biāo),它能夠很好地評(píng)判不平衡的數(shù)據(jù).UAR計(jì)算方法如公式(11)所示:
(11)
其中Nc表示c類的樣本數(shù)量.
Accuracy的計(jì)算方法如公式(12)所示:
(12)
由于CASME II數(shù)據(jù)集相比SAMM數(shù)據(jù)集和SMIC數(shù)據(jù)集具有較多的樣本,因此微表情識(shí)別領(lǐng)域的學(xué)者通常在CASME II上進(jìn)行5類微表情識(shí)別實(shí)驗(yàn).
CASME II被選擇作為評(píng)估的數(shù)據(jù)集.由于CASME II數(shù)據(jù)集中的恐懼和悲傷樣本非常稀少,因此在實(shí)驗(yàn)中,僅考慮5個(gè)類別(驚訝、厭惡、高興、壓抑和其他).實(shí)驗(yàn)采用留一人交叉驗(yàn)證法作為評(píng)估方法,并使用UF1得分來(lái)比較識(shí)別方法的性能.在每一輪實(shí)驗(yàn)中,一個(gè)受試者的樣本作為測(cè)試集,其余的樣本用于訓(xùn)練.該方法可以防止數(shù)據(jù)泄露,避免訓(xùn)練集和驗(yàn)證集中來(lái)自同一受試者的樣本的外觀,從而保證實(shí)驗(yàn)結(jié)果的可靠性.
表2將提出的方法在相同的評(píng)估標(biāo)準(zhǔn)下與文獻(xiàn)中許多最近的工作進(jìn)行了比較,通過(guò)比較可以發(fā)現(xiàn)本文方法在CASME II數(shù)據(jù)集上整體識(shí)別率相對(duì)較高.采用該方法得到的混淆矩陣如圖6所示,從混淆矩陣可以看出對(duì)于其他、高興、驚訝和厭惡的微表情有較高的識(shí)別精度,而對(duì)于壓抑微表情識(shí)別有相對(duì)較低的識(shí)別精度,這是因?yàn)閴阂治⒈砬橄鄬?duì)與其他4種微表情變化幅度更微小,樣本數(shù)量更少.
表2 CASME II 5個(gè)類別的識(shí)別表現(xiàn)Table 2 CASME II recognition performance in five categories
圖6 CASME II的5個(gè)類別實(shí)驗(yàn)混淆矩陣Fig.6 CASME II′s five category experimental confusion matrices
混合數(shù)據(jù)集評(píng)估是跨數(shù)據(jù)集識(shí)別中非常有效的評(píng)價(jià)方法.在實(shí)驗(yàn)中使用MEGC2019[13]的標(biāo)準(zhǔn).通過(guò)減少類的數(shù)量,將來(lái)自數(shù)據(jù)集(SMIC,CASME II和SAMM)的所有樣本組合到一個(gè)混合數(shù)據(jù)集中.在MEGC2019標(biāo)準(zhǔn)中,微表情分為3類,消極、積極和驚訝.憤怒、悲傷、蔑視、恐懼和厭惡被認(rèn)為是消極類.高興被認(rèn)為是積極類.驚訝保持不變.留一人交叉驗(yàn)證用于確定訓(xùn)練集和測(cè)試集的分割,以避免數(shù)據(jù)泄漏和有效衡量算法性能.
值得注意的是,由于SMIC數(shù)據(jù)集沒(méi)有對(duì)峰值幀進(jìn)行標(biāo)定,所以峰值幀定位對(duì)于微表情識(shí)別是必不可少的.近年來(lái),已經(jīng)有很多的峰值幀檢測(cè)工作.事實(shí)上,峰值幀精確檢測(cè)是一項(xiàng)較為困難的工作.因此,實(shí)驗(yàn)考慮效率和有效性之間的權(quán)衡,最后使用SMIC數(shù)據(jù)集中的視頻中間幀作為峰值幀.
表3在MEGC2019評(píng)估標(biāo)準(zhǔn)下將提出的方法與一些最近的工作分別在混合數(shù)據(jù)集及3個(gè)單獨(dú)數(shù)據(jù)集上的效果進(jìn)行比較,根據(jù)實(shí)驗(yàn)可以看出提出的方法在混合數(shù)據(jù)集上表現(xiàn)的較好,能夠有效的克服跨數(shù)據(jù)集識(shí)別的環(huán)境變化等問(wèn)題,并且在CASME II數(shù)據(jù)集表3在MEGC2019評(píng)估標(biāo)準(zhǔn)下將提出的方法與一些最近的工作分別在混合數(shù)據(jù)集及3個(gè)單獨(dú)數(shù)據(jù)集上的效果進(jìn)行上能夠得到較高的識(shí)別精度.但是對(duì)于SMIC數(shù)據(jù)集和SAMM數(shù)據(jù)集的識(shí)別表現(xiàn)略低,這是因?yàn)槟P蜕源?而SMIC數(shù)據(jù)集和SAMM數(shù)據(jù)集樣本比較少,因此在兩個(gè)數(shù)據(jù)集上效果略差.
表3 混合數(shù)據(jù)集及單獨(dú)數(shù)據(jù)集3個(gè)類別的識(shí)別表現(xiàn)Table 3 Recognition performance of three categories of mixed dataset and single dataset
圖7所示為本文方法在不同數(shù)據(jù)集下識(shí)別的混淆矩陣.實(shí)驗(yàn)結(jié)果表明,本文方法在4個(gè)數(shù)據(jù)集上的總體識(shí)別率比較高,并且對(duì)不平衡數(shù)據(jù)也具良好的擬合效果.
圖7 MEGC2019標(biāo)準(zhǔn)下的混合數(shù)據(jù)集及單獨(dú)數(shù)據(jù)集3個(gè)類別實(shí)驗(yàn)混淆矩陣Fig.7 Experimental confusion matrix of mixed dataset and single dataset under MEGC2019 standard
為了進(jìn)一步驗(yàn)證動(dòng)靜態(tài)特征融合方法,粗粒度融合模塊和細(xì)粒度融合模塊的有效性,將模型在MEGC2019的評(píng)估標(biāo)準(zhǔn)下進(jìn)行以下消融實(shí)驗(yàn):1)僅使用稀疏卷積提取動(dòng)態(tài)特征進(jìn)行微表情識(shí)別;2)僅使用深度可分離卷積提取靜態(tài)特征進(jìn)行微表情識(shí)別;3)去除模型粗粒度融合模塊進(jìn)行微表情識(shí)別;4)將模型細(xì)粒度融合模塊由自適應(yīng)學(xué)習(xí)變更為使用動(dòng)態(tài)特征與靜態(tài)特征的平均值.
消融實(shí)驗(yàn)結(jié)果如表4所示,由此得出,動(dòng)靜態(tài)特征融合方法自適應(yīng)結(jié)合了動(dòng)態(tài)特征與靜態(tài)特征,有效地利用了視頻信息.此外,粗粒度融合模塊和細(xì)粒度融合模塊在多層級(jí)進(jìn)行融合有效提高了微表情識(shí)別的精度.
表4 消融實(shí)驗(yàn)Table 4 Ablation experiments
本文提出了一種端到端的動(dòng)靜態(tài)特征融合的微表情識(shí)別網(wǎng)絡(luò).一方面,壓縮視頻信息為殘差積,進(jìn)而通過(guò)稀疏卷積分兩階段識(shí)別殘差積,第1階段使用淺層稀疏卷積識(shí)別得到淺層動(dòng)態(tài)特征,第2階段通過(guò)深層稀疏卷積識(shí)別更具代表性的深層動(dòng)態(tài)特征.另一方面,將淺層動(dòng)態(tài)特征與首幀圖像進(jìn)行粗粒度特征融合.然后通過(guò)深度可分離卷積提取圖像的靜態(tài)特征,并將深層動(dòng)態(tài)特征與靜態(tài)特征進(jìn)行細(xì)粒度特征融合.通過(guò)可訓(xùn)練的動(dòng)態(tài)嵌入因子與靜態(tài)嵌入因子學(xué)習(xí)動(dòng)靜態(tài)特征的最佳組合,最后通過(guò)標(biāo)簽平滑損失函數(shù)提高模型的泛化能力.
本文提出的方法避免了提取視頻特征時(shí),輸入所有視頻幀進(jìn)行提取特征,有效加快了訓(xùn)練和推理時(shí)間.根據(jù)實(shí)驗(yàn)表明,通過(guò)雙通道動(dòng)靜態(tài)特征融合網(wǎng)絡(luò)的方式能夠更好提取到細(xì)粒度特征,并且在MEGC2019的評(píng)估標(biāo)準(zhǔn)下,模型具有更好的性能.
未來(lái)的研究工作主要從以下兩個(gè)方面進(jìn)行:
1)將視頻壓縮為固定的幾幀不能完全代表視頻所有信息.因此,需要找到更有效的方法壓縮視頻信息.
2)由于自發(fā)的微表情數(shù)據(jù)集樣本少之又少,而且每個(gè)樣本類別極為不均衡,對(duì)于微表情識(shí)別產(chǎn)生了巨大的困難.因此,摸索出解決樣本不均衡引入的決策邊界偏移和克服少樣本的方法,將會(huì)大大提升識(shí)別的準(zhǔn)確率.