李學(xué)翰,胡四泉,石志國(guó),張 明
1) 北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京 100083 2) 北京科技大學(xué)順德研究生院,佛山 528399 3) 北京市大數(shù)據(jù)中心,北京 100101 4) 電子科技大學(xué)通信與信息工程學(xué)院,成都 611731
人臉表情反映了人類的真實(shí)情緒,心理學(xué)家Albert Mehrabian指出“情感表達(dá)=7%語(yǔ)言+38%聲音+55%面部表情”[1].面部表情作為情感和心理的研究載體,在人類情感判斷中具有重要的地位.根據(jù)Ekman的基本情緒理論,表情包含了大量的情感語(yǔ)義,一般分為高興、厭惡、憤怒、悲傷、恐懼、和驚訝6種[2].但是,情感通常是連續(xù)的、時(shí)序上下文相關(guān)的,具有不同的強(qiáng)弱表達(dá)關(guān)系,基本的情緒理論仍然具有一定的局限性.與普通表情不同,微表情是在主觀情緒影響下產(chǎn)生的一種自發(fā)式表情[3].微表情具有持續(xù)時(shí)間短 (1/25~1/3 s)、動(dòng)作幅度小等特點(diǎn)[4],給微表情識(shí)別帶來(lái)了很大的難度.
在以往的微表情識(shí)別中通過特征提取的方法對(duì)微表情進(jìn)行分析,但是由于底層特征由人工提取等原因造成特征提取不足,導(dǎo)致微表情識(shí)別準(zhǔn)確率低[5].近年來(lái),深度學(xué)習(xí)算法表現(xiàn)出強(qiáng)大的優(yōu)勢(shì),尤其是在圖像特征提取方面表現(xiàn)突出,準(zhǔn)確率遠(yuǎn)超于傳統(tǒng)的特征提取方法[6].因此采用深度學(xué)習(xí)算法來(lái)對(duì)微表情進(jìn)行更有效的特征提取以提高識(shí)別效果.此外,傳統(tǒng)方法受限于計(jì)算能力和表情視頻數(shù)據(jù)的規(guī)模,通常使用靜態(tài)表情或者單表情進(jìn)行分析,忽略了表情周期性的問題.表情的產(chǎn)生是一個(gè)隨時(shí)間變化的過程,動(dòng)態(tài)表情更自然地表達(dá)了表情變化,而單幀的表情并不能反映表情的整體信息,所以基于動(dòng)態(tài)表情序列進(jìn)行分析更有助于微表情的識(shí)別.
本文基于動(dòng)態(tài)多表情序列,將空間特征和空間時(shí)間相結(jié)合,提出一種分離式長(zhǎng)期循環(huán)卷積網(wǎng)絡(luò)(Separate long-term recurrent convolutional networks,S-LRCN)模型,首先將卷積神經(jīng)網(wǎng)絡(luò)用于深層特征視覺提取器來(lái)提取圖像中的微表情靜態(tài)特征[7],并將從視頻序列中提取的特征提供給由長(zhǎng)短期記憶網(wǎng)絡(luò) (Long short-team memory, LSTM)單元組成的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),得到時(shí)序的輸出,來(lái)提高微表情識(shí)別的準(zhǔn)確率.并且研究表情序列的實(shí)際使用場(chǎng)景,將教學(xué)評(píng)價(jià)與表情分析結(jié)合,通過采集學(xué)生面部表情來(lái)分析其學(xué)習(xí)狀態(tài),本文采用分心(Distraction)、專注 (Focus)、疲勞 (Tired) 3 種分類方式建立小型數(shù)據(jù)庫(kù),最后通過改進(jìn)的S-LRCN方法對(duì)3種狀態(tài)分類.
Ekman等[8]于1976年提出了面部表情編碼系統(tǒng) (Facial action coding system,F(xiàn)ACS).FACS 將人臉區(qū)域劃分成 44 個(gè)運(yùn)動(dòng)單元 (Action unit,AU),并將不同的AU進(jìn)行組合形成FACS碼,每一種FACS碼對(duì)應(yīng)著一種面部表情.并在此基礎(chǔ)上,經(jīng)過對(duì)大量表情圖片的分析,開發(fā)出了面部情感編碼系統(tǒng)(Emotion FACS)[9].MIT實(shí)驗(yàn)室訓(xùn)練稀疏碼本進(jìn)行微表情的情感分析,通過利用微小時(shí)間運(yùn)動(dòng)模式的稀疏性,短時(shí)間段內(nèi)在面部和身體區(qū)域上提取局部時(shí)空特征[10],從數(shù)據(jù)中學(xué)習(xí)微表情碼本,并以稀疏方式對(duì)特征進(jìn)行編碼,在AVEC 2012數(shù)據(jù)集上的實(shí)驗(yàn)表明,這種方式具有很好的性能.
表情特征的提取方法分為基于靜態(tài)圖像與基于動(dòng)態(tài)圖像兩類.其中基于動(dòng)態(tài)特征的提取主要集中在人臉的形變和面部區(qū)域的肌肉運(yùn)動(dòng)上,基于動(dòng)態(tài)特征提取的代表方法有光流法[11]、運(yùn)動(dòng)模型、幾何法和特征點(diǎn)跟蹤方法等.
Polikovsky等[12]通過3D直方圖的方法,通過關(guān)聯(lián)幀之間的梯度關(guān)系進(jìn)行微表情檢測(cè)識(shí)別.Shreve等[13]通過光流法使用應(yīng)變模式處理長(zhǎng)視頻,通過在人臉部劃分幾個(gè)特定子區(qū)域(如嘴部,眼睛)分割面部表情,進(jìn)而識(shí)別微表情.Pfister等[14]使用三維正交平面局部二值法(Local binary patterns from three orthogonal planes, LBP-TOP)算法提取微表情圖像序列的特征,該方法通過二維到三維的擴(kuò)展提取時(shí)域和空域方向上的動(dòng)態(tài)局部紋理特征進(jìn)行識(shí)別.梁靜等[15]建立CASME數(shù)據(jù)庫(kù),應(yīng)用Gabor濾波提取微表情序列的特征值,并使用平滑式自適應(yīng)增強(qiáng)算法結(jié)合支持向量機(jī)的方法(Support vector machines based on gentle adaptive boosting, GentleSVM)建立分類器進(jìn)行分類識(shí)別.Wang等[16]提出利用6交點(diǎn)局部二值方法(Local binary patterns with six intersection points, LBP-SIP)對(duì)微表情進(jìn)行識(shí)別,該方法減少了LBP-TOP方法中特征的維度,提高了微表情特征提取的效率.
在基于時(shí)空域運(yùn)動(dòng)信息描述的微表情識(shí)別方面,Liong等[17]通過利用面部光學(xué)應(yīng)變構(gòu)造光學(xué)應(yīng)變特征和光學(xué)應(yīng)變加權(quán)特征來(lái)檢測(cè)和識(shí)別微表情.Le Ngo等[18]采用歐拉影像放大分析圖像頻域中的相位以及時(shí)域中的幅值,放大微表情的運(yùn)動(dòng)信息,消除無(wú)關(guān)的微表情面部動(dòng)態(tài),并利用LBPTOP算法進(jìn)行特征提取.Xu等[19]提出了一種面部動(dòng)態(tài)映射 (Facial dynamics map, FDM)的方法來(lái)表征微表情序列,該方法通過計(jì)算微表情序列的光流信息然后進(jìn)行在光流域上的精準(zhǔn)對(duì)齊.
區(qū)別于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)突出了特征學(xué)習(xí)的重要性,通過逐層的特征映射,將原數(shù)據(jù)空間的特征映射到一個(gè)新的特征空間中,使得分類和預(yù)測(cè)更加容易.深度學(xué)習(xí)可以利用數(shù)據(jù)提取符合要求的特征,克服了人工特征不可擴(kuò)展的缺陷.Patel等[20]在微表情識(shí)別中引入深度學(xué)習(xí)的方法,通過特征選擇提取微表情特征,但由于數(shù)據(jù)集樣本量過小,訓(xùn)練中容易產(chǎn)生過擬合現(xiàn)象,影響網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率.Kim等[21]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)處于不同表情狀態(tài)的微表情的空間特征進(jìn)行編碼,將具有表達(dá)狀態(tài)約束的空間特征轉(zhuǎn)移到微表情的時(shí)間特征,使用LSTM網(wǎng)絡(luò)對(duì)微表達(dá)式不同狀態(tài)的時(shí)間特征進(jìn)行編碼.Khor等[22]提出一種豐富的長(zhǎng)期遞歸卷積網(wǎng)絡(luò),對(duì)數(shù)據(jù)集提取光流特征以豐富每個(gè)時(shí)間步或給定時(shí)間長(zhǎng)度的輸入,該網(wǎng)絡(luò)通過包括提取空間深層特征和表征時(shí)間變化的動(dòng)態(tài)時(shí)序模型.Verburg與Menkovski[23]通過在微表情圖像序列的光流特征上使用遞歸神經(jīng)網(wǎng)絡(luò),提取定向光流直方圖 (Histogram of oriented optical flow, HOOF)特征來(lái)編碼所選面部區(qū)域的時(shí)間變化,然后將其傳遞給由LSTM模塊以進(jìn)行檢測(cè)任務(wù).
微表情識(shí)別通過人臉檢測(cè)算法從復(fù)雜場(chǎng)景下獲取人臉位置,檢測(cè)并分割出人臉輪廓以對(duì)其進(jìn)行微表情的特征提取,并建立識(shí)別分類模型,其基本步驟包括:(1)人臉表情圖像、表情序列的獲取與處理;(2)從人臉表情序列中提取微表情特征,去除特征之間的冗余以降低特征維度;(3)基于長(zhǎng)期遞歸網(wǎng)絡(luò),微表情特征作為時(shí)序模型的輸入,用于學(xué)習(xí)時(shí)變輸出序列的動(dòng)態(tài)過程;(4)建立動(dòng)態(tài)預(yù)測(cè)模型,對(duì)人臉微表情分類識(shí)別.如圖1所示.
圖1 動(dòng)態(tài)表情識(shí)別流程Fig.1 Dynamic expression-recognition process
本文方法基于長(zhǎng)期循環(huán)卷積網(wǎng)絡(luò)(Long-term recurrent convolutional networks, LRCN)[7]架構(gòu),并對(duì)該模型進(jìn)行改進(jìn)使其更適應(yīng)微表情視頻片段的識(shí)別,面對(duì)微表情數(shù)據(jù)集通常存在數(shù)據(jù)量小的問題,采用遷移學(xué)習(xí)的方式避免網(wǎng)絡(luò)過擬合,將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)和LSTM的部分微調(diào),提出S-LRCN的方法,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)期遞歸網(wǎng)絡(luò),通過兩個(gè)獨(dú)立的模塊獲取空間域特征,并對(duì)時(shí)間域特征分類,首先使用預(yù)訓(xùn)練的CNN模型提取每一張微表情圖片幀的特征向量組成特征序列,然后將具備時(shí)序關(guān)聯(lián)的特征序列輸入到LSTM網(wǎng)絡(luò)中,并得到時(shí)序的輸出.通過這種方法,可以對(duì)CNN網(wǎng)絡(luò)的結(jié)構(gòu)及輸出微調(diào),使其分類的準(zhǔn)確率更高,并且有利于在小規(guī)模數(shù)據(jù)集上的學(xué)習(xí).
LRCN是一種結(jié)合傳統(tǒng)CNN網(wǎng)絡(luò)和LSTM的循環(huán)卷積結(jié)構(gòu)[7],該網(wǎng)絡(luò)同時(shí)具備處理時(shí)序視頻輸入或單幀圖片的能力,同時(shí)也具備輸出單值預(yù)測(cè)或序列預(yù)測(cè)的能力,同時(shí)適用于大規(guī)模的可視學(xué)習(xí),LRCN模型將長(zhǎng)期遞歸網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)直接連接,以同時(shí)進(jìn)行卷積感知和時(shí)間動(dòng)態(tài)學(xué)習(xí).
該模型結(jié)合深度分層視覺特征提取模型可以學(xué)習(xí)識(shí)別和序列化時(shí)空動(dòng)態(tài)任務(wù),包括序列數(shù)據(jù)(輸入、輸出)視頻,描述等,如圖2所示.t時(shí)刻,通過參數(shù)化的特征變換將傳遞給每一個(gè)視覺輸入vt(單一圖像或視頻幀)來(lái)產(chǎn)生一個(gè)固定長(zhǎng)度的矢量lt∈Rd表示,其中,Rd表示d維的實(shí)數(shù)集,建立視頻輸入序列的特征空間表示 [l1,l2,···,l3],然后輸入到序列模型中.
圖2 LRCN 結(jié)構(gòu)Fig.2 LRCN structure
在通常形式下,由序列模型將輸入xt和前一個(gè)時(shí)間步的隱藏狀態(tài)ht?1映射到輸出zt和更新后的隱藏狀態(tài)ht,依次計(jì)算h1=fW(x1,h0),h2=fW(x2,h1),最后得到ht,其中W為權(quán)值參數(shù).在時(shí)間步t預(yù)測(cè)分布P(yt)的最后一步是在順序模型的輸出zt上取一個(gè) softmax邏輯回歸函數(shù),將一個(gè)向量映射為一個(gè)概率分布,產(chǎn)生一個(gè)可能的每步時(shí)間空間C的分布,表示有C種結(jié)果,yt=c表示第c類結(jié)果的概率,Wc為第c類權(quán)重向量:
其中,LRCN針對(duì)3種主要的視覺問題(行為識(shí)別、圖像描述和視頻描述),實(shí)例化的學(xué)習(xí)任務(wù)如下:
1.順序輸入,固定輸出:[x1,x2,···,xT]→y.面向視覺的行為活動(dòng)預(yù)測(cè),以任意長(zhǎng)度T的視頻作為輸入,預(yù)測(cè)行為對(duì)應(yīng)標(biāo)簽.
2.固定輸入,順序輸出:x→[y1,y2,···,yT].面向圖像描述問題,以固定圖像作為輸入,輸出任意長(zhǎng)度的描述標(biāo)簽.
3.順序輸入和輸出:[x1,x2,···,xT]→[y1,y2,···,yT].面向視頻描述,輸入和輸出都是順序的.
通過實(shí)驗(yàn)結(jié)果,LRCN是一種結(jié)合空間和時(shí)間深度的模型,可以應(yīng)用于涉及不同維度輸入和輸出的各種視覺任務(wù),在視頻序列分析中具有很好的效果.
由于微表情是關(guān)于視頻的幀序列,實(shí)現(xiàn)微表情空間域與時(shí)間域的特征提取顯得尤為重要,所以基于LRCN“雙重深度”序列模型在行為識(shí)別中的優(yōu)勢(shì),將LRCN用于微表情序列分類,提出一種S-LRCN模型.該方法包含3個(gè)部分:預(yù)處理,微表情特征提取和特征序列分類,其中預(yù)處理包括面部裁剪對(duì)齊,提取面部關(guān)鍵區(qū)域[24];特征提取包括圖片幀預(yù)訓(xùn)練面向人臉的CNN模型,建立特征集;序列分類將視頻序列的特征集提供給由LSTM網(wǎng)絡(luò),然后分類給定序列是否包含相關(guān)的微變化.該方法具有以下優(yōu)點(diǎn):
1.基于LRCN,結(jié)構(gòu)簡(jiǎn)單,需要較少的輸入預(yù)處理和手工特性設(shè)計(jì),減少中間環(huán)節(jié);
2.適合用于微表情數(shù)據(jù)集數(shù)據(jù)量不足的情況,通過遷移學(xué)習(xí)提取面部微觀特征,避免訓(xùn)練過程中過擬合;
3.訓(xùn)練過程可視化,便于修改模型,對(duì)參數(shù)及特征調(diào)優(yōu).
S-LRCN在訓(xùn)練過程中包括兩個(gè)環(huán)節(jié),其中CNN用作特征提取器提取表情幀的圖像特征,LSTM用作時(shí)序分類器分析特征在時(shí)間維度上的關(guān)聯(lián)性.
2.2.1 CNN 作為特征提取器
CNN作為一種深度學(xué)習(xí)模型,更適用于提取圖像的基礎(chǔ)特征并降低模型復(fù)雜度,因此采用CNN來(lái)提取微表情序列的特征向量,在不同環(huán)境下的適應(yīng)性更強(qiáng),特征表現(xiàn)力更好.對(duì)于微表情識(shí)別而言,數(shù)據(jù)集樣本量很小,在網(wǎng)絡(luò)訓(xùn)練中會(huì)出現(xiàn)過擬合的現(xiàn)象,直接從微表情數(shù)據(jù)訓(xùn)練CNN模型是不可行的,為了減少在微表情數(shù)據(jù)集上訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)時(shí)的過度擬合,使用基于對(duì)象和人臉的CNN模型進(jìn)行遷移學(xué)習(xí),使用特征選擇來(lái)提取與任務(wù)相關(guān)的深層特征.
Wang等[25]在微表情識(shí)別中基于遷移學(xué)習(xí)使用ImageNet數(shù)據(jù)庫(kù)初始化殘差網(wǎng)絡(luò),并在幾種宏觀表情數(shù)據(jù)庫(kù)上進(jìn)行進(jìn)一步的預(yù)訓(xùn)練,最后使用微表情數(shù)據(jù)集對(duì)殘差網(wǎng)絡(luò)和微表情單元進(jìn)行微調(diào).但是通常情況下,宏觀表情數(shù)據(jù)庫(kù)中的表情變化較大,具有很明顯的表情特征,而微表情變化幅度小,更接近沒有變化的人臉圖像.因此使用面向人臉識(shí)別的VGGFace模型[26]作為微表情幀的特征提取器,可以從不同環(huán)境、人群中提取細(xì)微特征,本文采用的VGGFace模型基于通道模型依賴網(wǎng)絡(luò) (Squeeze-and-excitation networks, SENet)架構(gòu)[27],并在VGGFace2人臉數(shù)據(jù)庫(kù)上訓(xùn)練[28].SENet通過在殘差網(wǎng)絡(luò)(Residual network, ResNet)[29]中 嵌入SENet結(jié)構(gòu)增強(qiáng)了網(wǎng)絡(luò)的自適應(yīng)性,利用全局信息增強(qiáng)有益特征通道并抑制無(wú)用特征通道,通過特征通道之間的關(guān)系提升網(wǎng)絡(luò)性能.如圖3所示.
圖3 SENet模塊Fig.3 SENet
如圖3,Ftr:X→U,U=[u1,u2,···,uk,···,uC]T的實(shí)現(xiàn)過程為:
特征激發(fā)過程得到的特征S=[s1,s2,···,sC]的維度是1 ×1×C,主要用來(lái)刻畫特征U中C個(gè)特征圖的權(quán)重,即:
特征提取通過在全局平均池化層(Global average pooling, GAP)微調(diào)進(jìn)行特征壓縮,利用兩個(gè)全連接層去建模通道間的相關(guān)性,并通過減少模型中的參數(shù)量和計(jì)算量來(lái)最小化過度擬合.
2.2.2 LSTM 構(gòu)建序列分類器
由于微表情變化是在連續(xù)時(shí)間內(nèi)發(fā)生的,如果沒有利用微表情在時(shí)間上的信息的話,很難對(duì)微表情變化準(zhǔn)確識(shí)別.因此為了利用表情序列在時(shí)間上的變化信息,使用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)處理任意時(shí)序的輸入序列,可以更容易地處理時(shí)間維度信息,采用LSTM節(jié)點(diǎn)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型處理時(shí)序數(shù)據(jù),構(gòu)建長(zhǎng)期遞歸卷積網(wǎng)絡(luò),對(duì)給定序列是否包含相關(guān)的微表情判斷分類.
定義雙向LSTM模型的表情特征輸入序列MicroE_Features=(x1,···,xT),前項(xiàng)傳播隱變量序列,反向傳播隱變量序列和輸出序列y=(y1,···,yT),則輸出序列y的更新方式為:
式中,W為雙向LSTM模型權(quán)重,b為偏置項(xiàng),偏置項(xiàng),H(x)表示激活函數(shù),使用長(zhǎng)短時(shí)記憶神經(jīng)元進(jìn)行計(jì)算,雙向LSTM和記憶神經(jīng)元如圖4和5所示.其中圖5中的ft,it和ot分別表示遺忘門、輸入門和輸出門,Ct表示記憶單元(Cell)在t時(shí)刻的狀態(tài).
圖4 雙向循環(huán)網(wǎng)絡(luò)Fig.4 Bidirectional LSTM
圖5 LSTM 神經(jīng)元Fig.5 LSTM neurons
LSTM的輸入是使用預(yù)訓(xùn)練模型從所有序列幀中提取的空間特征,本文采用單層的雙向LSTM結(jié)構(gòu),其中包含一個(gè)512個(gè)節(jié)點(diǎn)的隱藏層,在LSTM隱藏層和全連接層之間使用Dropout層以一定概率隨機(jī)屏蔽神經(jīng)元,減少神經(jīng)元間的共適關(guān)系,增強(qiáng)網(wǎng)絡(luò)節(jié)點(diǎn)的魯棒性.
基于以上改進(jìn)的方法,對(duì)于給定的微表情序列,本文實(shí)現(xiàn)微表情識(shí)別的步驟如下:
(2)載入微表情視頻文件,首先對(duì)序列長(zhǎng)度歸一化,即輸入LSTM網(wǎng)絡(luò)的時(shí)間步長(zhǎng)設(shè)定一個(gè)固定值T,得到.依次對(duì)序列歸一化的視頻序列圖片進(jìn)行人臉檢測(cè)提取人臉部分,將截取的有效圖片尺寸歸一化,進(jìn)而得到處理后的數(shù)據(jù)集,此步驟使輸入視頻序列適合于輸入到CNN網(wǎng)絡(luò).
由于采集的微表情序列含有大量噪聲和冗余信息,因此需要去除圖像中的無(wú)關(guān)區(qū)域并消除數(shù)據(jù)噪聲,對(duì)數(shù)據(jù)集中的微表情序列進(jìn)行人臉對(duì)齊和人臉剪裁.使用Haar人臉檢測(cè)器[30]檢測(cè)人臉,利用主動(dòng)外觀模型 (Active appearance model, AAM)算法[31]將每個(gè)微表情采樣序列的中性表情狀態(tài)下人臉的特征點(diǎn)提取出來(lái),根據(jù)特征點(diǎn)坐標(biāo)裁剪出人臉輪廓,將圖像歸一化為 224×224×3,避免尺寸差異影響結(jié)果.
(3)利用遷移學(xué)習(xí)和VGGFace模型的預(yù)訓(xùn)練權(quán)重提取面部特征,并對(duì)VGGFace的預(yù)訓(xùn)練權(quán)重進(jìn)行微調(diào),以使模型更有效地適應(yīng)微表情表達(dá)加快收斂,網(wǎng)絡(luò)輸入為大小 224×224×3的人臉表情圖像,輸出為全局平均池化層之后的全連接層得到的2048長(zhǎng)度特征向量x:
式(9)中,mi∈Rn,將提取器最后輸出的特征向量x進(jìn)行L2歸一化得到:
(4)由于微表情圖像序列具有的動(dòng)態(tài)時(shí)域特征,各幀之間包含時(shí)域相關(guān)性,在完成對(duì)微表情單幀圖片的空間特征提取之后,利用雙向LSTM網(wǎng)絡(luò)前項(xiàng)序列和反向序列傳播過程進(jìn)行訓(xùn)練,獲得表情時(shí)序特征空間,表情視頻序列的每幀人臉圖像的表情特征為xt∈Rn,設(shè)定表情變化時(shí)序t∈T,T為表情幀長(zhǎng)度,則表情特征時(shí)序矩陣為:
建立順序輸入,固定輸出的預(yù)測(cè)時(shí)間分布[x1,x2,···,xT]→y:
式中,F(xiàn)為激活函數(shù),W為雙向LSTM的判決參數(shù)模型,y是多分類的預(yù)測(cè)結(jié)果.
實(shí)現(xiàn)步驟如圖6所示.
圖6 實(shí)現(xiàn)方法Fig.6 Implementation method
為了驗(yàn)證本文提出的微表情識(shí)別方法的性能和準(zhǔn)確率,采用CASME-Ⅱ數(shù)據(jù)集進(jìn)行訓(xùn)練.首先按照本文的方法訓(xùn)練網(wǎng)絡(luò)模型,驗(yàn)證該方法的有效性,并研究時(shí)間序列長(zhǎng)度即LSTM步長(zhǎng)(Timestep)以及LSTM的深度對(duì)模型效果的影響.
采用CASME-Ⅱ數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)[32].CASME-Ⅱ是由中科院心理傅小蘭團(tuán)隊(duì)所建立的自然誘發(fā)的微表情數(shù)據(jù)庫(kù),包含來(lái)自26個(gè)平均年齡為22歲的亞洲參與者的255個(gè)微表情采樣,視頻片段幀數(shù)不等.該數(shù)據(jù)集在適當(dāng)?shù)恼彰鳁l件以及嚴(yán)格的實(shí)驗(yàn)環(huán)境下采集得到,圖像的分辨率為640像素×480像素.該數(shù)據(jù)庫(kù)樣本標(biāo)有起始幀和結(jié)束幀和與之對(duì)應(yīng)的微表情標(biāo)簽,提供了高興、厭惡、壓抑、驚訝、害怕、傷心及其他情緒分類(Happiness,surprise,disgust,fear,sadness,repression,others),數(shù)據(jù)庫(kù)中捕捉到的微觀表情相對(duì)純粹而清晰,沒有諸如頭部動(dòng)作和不相關(guān)的面部動(dòng)作的噪音.本文數(shù)據(jù)集劃分為5類,如表1所示.
表1 劃分情況Table 1 Dataset classification
為了減小不同個(gè)體和不同微表情之間的差異,首先要對(duì)數(shù)據(jù)集中的微表情序列預(yù)處理以進(jìn)行面部對(duì)齊,裁剪得到面部表情區(qū)域,并將圖像幀的分辨率統(tǒng)一調(diào)整為224像素×224像素,以便輸入空間維度與VGGFace網(wǎng)絡(luò)模型的匹配.由于數(shù)據(jù)集中的微表情序列幀數(shù)不統(tǒng)一,針對(duì)微表情序列通過時(shí)間插值模型插值(Temporal interpolation model,TIM)[33]的方法,將數(shù)據(jù)集樣本每一個(gè)圖像序列插值為20幀,得到固定長(zhǎng)度為20的幀序列,并將20幀的序列拆分為兩個(gè)10幀的時(shí)間序列,隨后把10幀的樣本拼接并保存為訓(xùn)練數(shù)據(jù),通過對(duì)一段視頻的處理獲取到兩組數(shù)據(jù).
由于微表情數(shù)據(jù)樣本數(shù)據(jù)量較小,因此對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,本文采取鏡像模式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,將數(shù)據(jù)集中的樣本逐一進(jìn)行圖片水平鏡像,擴(kuò)充數(shù)據(jù)集樣本.
實(shí)驗(yàn)利用5折交叉驗(yàn)證的策略,將數(shù)據(jù)集隨機(jī)分為5等份,每一次將其中4份作為實(shí)驗(yàn)的訓(xùn)練集,輸入到模型中,另1份作為測(cè)試集,用來(lái)驗(yàn)證分類的準(zhǔn)確率.網(wǎng)絡(luò)訓(xùn)練使用早期停止法,其中將訓(xùn)練集按照4∶1的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集.使用自適應(yīng)矩估計(jì)(Adam)優(yōu)化器,其中學(xué)習(xí)率設(shè)置為為 10?3,衰減為 10?5,網(wǎng)絡(luò)訓(xùn)練為40個(gè)周期,批尺寸為16
選取其中一組訓(xùn)練結(jié)果,當(dāng)訓(xùn)練趨于穩(wěn)定時(shí),自動(dòng)停止當(dāng)前訓(xùn)練,最后得到訓(xùn)練過程中訓(xùn)練集與驗(yàn)證集準(zhǔn)確率變化情況,如圖7所示.
圖7 訓(xùn)練曲線Fig.7 Training curve
5組訓(xùn)練結(jié)果如表2所示,得到5折交叉驗(yàn)證平均準(zhǔn)確率為65.7%.最后的分類結(jié)果如圖8所示,從圖中可知,預(yù)測(cè)結(jié)果在“其他”附近分布比較多,這是由于CASME-Ⅱ中將一些無(wú)法確定的表情歸類到“其他”,并且此部分?jǐn)?shù)據(jù)量相比其他類別較大,同時(shí)實(shí)驗(yàn)中將“悲傷”和“害怕”劃分到該類表情中,所以錯(cuò)誤的預(yù)測(cè)結(jié)果大多集中在“其他”部分.如果不考慮“其他”類,對(duì)其他4類表情分類會(huì)具有更高的準(zhǔn)確率.
圖8 5 種表情分類結(jié)果Fig.8 Classification results of five expressions
表2 訓(xùn)練結(jié)果Table 2 Training results %
幾種微表情識(shí)別算法LBP-TOP[34]、時(shí)空完全局部量化模型 (Spatiotemporal completed local quantization patterns,STCLQP)[35]、CNN+LSTM[21]、HOOF+LSTM[23]及本文研究的S-LRCN,采用五折交叉驗(yàn)證的識(shí)別準(zhǔn)確率對(duì)比如表3所示,其中微表情識(shí)別算法的數(shù)據(jù)集采用本文在CASME-Ⅱ下的分類方法.通過對(duì)比可知,本文改進(jìn)的算法對(duì)比以往算法識(shí)別精度更高,表示本文算法的可行性.與傳統(tǒng)的機(jī)器視覺算法LBP-TOP、STCLQP相比,本文采用深度學(xué)習(xí)模型在準(zhǔn)確率方面提高明顯,并且引入LSTM神經(jīng)元考慮表情變化在時(shí)序上的關(guān)聯(lián)特性具有更高的精度;與CNN、HOOF結(jié)合LSTM的算法相比,本文通過預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型提取特征,采用遷移學(xué)習(xí)避免網(wǎng)絡(luò)訓(xùn)練中過擬合的問題,準(zhǔn)確率也有了一定的提高.
表3 不同算法識(shí)別準(zhǔn)確率Table 3 Recognition accuracy of different algorithms
基于本文改進(jìn)的算法,分別從序列長(zhǎng)度、不同LSTM模型兩個(gè)方面來(lái)判斷這些參數(shù)對(duì)于LSTM模型識(shí)別率的影響:
(1)不同長(zhǎng)度的微表情序列對(duì)識(shí)別率的影響,針對(duì)數(shù)據(jù)集分布采用長(zhǎng)度為 6,10, 15,30 的 TIM插值算法,選擇將不同序列的數(shù)據(jù)輸入到單層的雙向LSTM網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表4所示.
表4 不同序列長(zhǎng)度實(shí)驗(yàn)效果Table 4 Experimental results of different sequence lengths
由表4可知,當(dāng)序列長(zhǎng)度較小時(shí),訓(xùn)練的模型具有更高的準(zhǔn)確率,序列長(zhǎng)度為10時(shí),準(zhǔn)確率最高為65.7%,序列長(zhǎng)度為6和15時(shí),準(zhǔn)確率分別為62%和63.1%.序列長(zhǎng)度為30幀時(shí)準(zhǔn)確率降低到56.5%,這是由于微表情通常持續(xù)時(shí)間很短,使用短序列可以更快捕捉面部表情的變化情況.
(2)固定序列長(zhǎng)度為10,分別建立雙向LSTM(512節(jié)點(diǎn)的隱藏層),2層雙向LSTM模型(2個(gè)512節(jié)點(diǎn)的隱藏層),單層LSTM,多層感知器(Multi-layer perceptron, MLP),研究不同 LSTM 模型對(duì)識(shí)別率的影響如圖9所示.
圖9 不同 LSTM 模型實(shí)驗(yàn)結(jié)果Fig.9 Experimental results of different LSTM models
由圖9可知,使用單層的LSTM網(wǎng)絡(luò)時(shí),具有更高的精度,雙向LSTM為65.7%,單向LSTM為64%,雙向LSTM識(shí)別率更高;增加隱藏層層數(shù)時(shí)準(zhǔn)確率降低為62.7%,這是由于數(shù)據(jù)量過小,加深網(wǎng)絡(luò)深度會(huì)導(dǎo)致時(shí)間相關(guān)性降低;使用MLP網(wǎng)絡(luò)時(shí)訓(xùn)練速度較快,但是會(huì)丟失一些時(shí)序特性,準(zhǔn)確率為63.5%.
實(shí)驗(yàn)結(jié)果表明,微表情識(shí)別準(zhǔn)確率受到序列長(zhǎng)度和LSTM網(wǎng)絡(luò)結(jié)構(gòu)的影響,只有充分考慮網(wǎng)絡(luò)模型空間特性和時(shí)間特性之間的相互關(guān)系才能取得更好的效果.
表情分析用途廣泛,將表情識(shí)別技術(shù)用于教育領(lǐng)域,通過觀察學(xué)習(xí)者面部表情變化,分析學(xué)習(xí)者的心理狀態(tài),從而進(jìn)一步分析學(xué)習(xí)者對(duì)知識(shí)點(diǎn)的理解度及興趣度等信息,便于提高教學(xué)質(zhì)量.
基于本文的方法對(duì)學(xué)習(xí)者學(xué)習(xí)狀態(tài)進(jìn)行評(píng)價(jià),采用CASME-Ⅱ?qū)ξ⒈砬榉诸愖R(shí)別,CASME-Ⅱ使用具有情感價(jià)值的視頻短片來(lái)誘發(fā)情感表達(dá),參與者要求在屏幕前觀看視頻短片,過程中避免身體運(yùn)動(dòng),并且在觀看短片時(shí)保持中立的面部表情試圖抑制自己的表情.由于該數(shù)據(jù)集在實(shí)驗(yàn)室環(huán)境下采集,不易受外界因素干擾,且視頻序列變化微小并不適用于實(shí)際的教學(xué)場(chǎng)景,所以建立面向教學(xué)評(píng)價(jià)的小型數(shù)據(jù)集用于對(duì)學(xué)習(xí)者學(xué)習(xí)狀態(tài)的初步評(píng)判.
建立模擬教學(xué)場(chǎng)景采集人員表情變化,具體方法如下:
1)選擇30~45 min的課程視頻片段誘發(fā)學(xué)習(xí)者表情狀態(tài),參與者須觀看完整課程視頻,并錄制采集視頻;
2)參與者觀看過程中按一般的上課狀態(tài),頭部、肢體動(dòng)作不做要求;
3)取得的原始數(shù)據(jù)由參與者去除不相關(guān)內(nèi)容,篩選表情樣本并分類,表情持續(xù)片段為“平靜?高峰?平靜”的變化區(qū)間;
4)篩選的樣本由其他參與者對(duì)分類結(jié)果二次驗(yàn)證,建立標(biāo)簽.
數(shù)據(jù)集通過模擬教學(xué)場(chǎng)景對(duì)參與人員表情變化采集,參與人員共6位,包含215個(gè)視頻序列,序列長(zhǎng)度為60~90幀,面部表情標(biāo)簽包括分心、專注和疲憊 (Distraction、focus、tired),如圖10 所示.
圖10 數(shù)據(jù)分類Fig.10 Data classification
針對(duì)建立的教學(xué)評(píng)價(jià)數(shù)據(jù)集,采用本文微表中微表情識(shí)別方法對(duì)學(xué)習(xí)者學(xué)習(xí)狀態(tài)分析,通過相同的方法建立網(wǎng)絡(luò)模型,處理圖片序列并劃分?jǐn)?shù)據(jù)集,采用五折交叉驗(yàn)證的方法,驗(yàn)證分類結(jié)果的有效性,取平均值后識(shí)別結(jié)果如圖11所示.
圖11 實(shí)驗(yàn)結(jié)果Fig.11 Experimental result
針對(duì)目前微表情識(shí)別研究中普遍存在的問題展開研究,通過深度學(xué)習(xí)來(lái)實(shí)現(xiàn)對(duì)微表情序列的識(shí)別分類.基于LRCN在行為識(shí)別中優(yōu)異的性能,對(duì)該方法改進(jìn)提出一種S-LRCN的方法,該方法更適合用于微表情這種小規(guī)模數(shù)據(jù)集中.采用遷移學(xué)習(xí)的方法,通過預(yù)訓(xùn)練的VGGFace模型提取表情幀的特征集合以減少數(shù)據(jù)量過小在訓(xùn)練深度網(wǎng)絡(luò)中過擬合的風(fēng)險(xiǎn);將特征集合輸入雙向LSTM網(wǎng)絡(luò)以考慮微表情變化持續(xù)時(shí)間短,具有時(shí)間相關(guān)性的特點(diǎn).實(shí)現(xiàn)表明,該方法具有較高的準(zhǔn)確性.但是已標(biāo)記微表情數(shù)據(jù)量不夠,各類數(shù)據(jù)分配不均勻以及微表情表現(xiàn)強(qiáng)度普遍較弱仍然是導(dǎo)致識(shí)別率低的主要原因,在以后的研究中還需要進(jìn)一步完善數(shù)據(jù)集,以促進(jìn)微表情識(shí)別的進(jìn)展.
此外,將表情識(shí)別用于學(xué)習(xí)場(chǎng)景是構(gòu)建新型課堂的一種趨勢(shì),基于信息學(xué)、心理學(xué)和教育學(xué)的相關(guān)研究基礎(chǔ),可以通過表情分析研究學(xué)習(xí)者學(xué)習(xí)狀態(tài).本文建立了一個(gè)包含3個(gè)類別的小型數(shù)據(jù)庫(kù),來(lái)對(duì)教學(xué)場(chǎng)景下的表情分類.今后的工作還要進(jìn)一步豐富數(shù)據(jù),基于動(dòng)態(tài)表情序列分析學(xué)習(xí)者情感,建立心理特征模型,研究學(xué)習(xí)過程中學(xué)習(xí)狀態(tài)與情感變化的對(duì)應(yīng)關(guān)系.