何景琳,梁正友,2,孫 宇,劉德志
1(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530004)
2(廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004)
微表情是指人們盡最大努力抑制真實(shí)表情的視頻片段.微表情被內(nèi)心真實(shí)情緒激發(fā)所產(chǎn)生,難以抑制或偽造,所以可以更準(zhǔn)確地反映人內(nèi)心的真情實(shí)感,能夠作為測(cè)謊的重要依據(jù),在心理治療、刑事審問(wèn)和國(guó)家安全等領(lǐng)域有廣闊的應(yīng)用前景.
微表情的持續(xù)時(shí)間短,僅為1/25 ~1/3 s[1],并且動(dòng)作幅度小.盡管能夠通過(guò)人力進(jìn)行識(shí)別,但識(shí)別的準(zhǔn)確率并不高,經(jīng)過(guò)培訓(xùn)的人員識(shí)別準(zhǔn)確率不超過(guò)50%[2].因此,近年來(lái)大量研究人員提出了利用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)算法進(jìn)行微表情自動(dòng)識(shí)別.
最先用于微表情識(shí)別的是基于手工描述特征的識(shí)別方法.Pfister 等[3]提出LBP-TOP 手工描述特征識(shí)別方法,通過(guò)在3 個(gè)正交平面中組合局部二進(jìn)制模式方法來(lái)描述自發(fā)式微表情的特征并進(jìn)行識(shí)別.Wang 等[4]提出的LBP-SIP 方法是在LBP-TOP 的基礎(chǔ)上在所有相鄰點(diǎn)中選取6 個(gè)點(diǎn),而 LBP-MOP 方法[5]沿3 個(gè)正交平面僅提取了3 個(gè)平均圖像,這兩種方法都減低了數(shù)據(jù)的冗余度.Huang 等[6]提出了時(shí)空全局部量化模式(STCLQP)的微表情分析方法,該方法在進(jìn)行微表情識(shí)別時(shí)考慮了更多信息,如信號(hào)、大小和方向因素.Huang等[7]提出時(shí)空域局部二值模式整體映射STLBPIP 的方法,在不同圖像上取得水平和垂直的整體映射,保留人臉圖像的形狀屬性,并使用LBP 提取在水平和垂直方向映射上的外觀和動(dòng)作特征.在CASME Ⅱ數(shù)據(jù)集上取得59.26%的識(shí)別率.He 等[8]提出了一種多任務(wù)中間(MMFL)特征學(xué)習(xí),它通過(guò)學(xué)習(xí)一組特定類(lèi)的特征映射來(lái)增強(qiáng)提取的低級(jí)特征的辨別能力,并使用兩種加權(quán)方案,提高了微表情識(shí)別率.Xu 等[9]提出了用人臉動(dòng)態(tài)映射(FDM)來(lái)描述微表情,通過(guò)人臉標(biāo)注定位方法,對(duì)沒(méi)有任何預(yù)處理的微表情進(jìn)行粗對(duì)齊和人臉圖像裁剪,然后在FDM 特征提取之前采用基于像素級(jí)別的對(duì)齊方法.通過(guò)分類(lèi)以及多種評(píng)估方法,在微表情數(shù)據(jù)集SMIC、CASME 和CASME Ⅱ上的準(zhǔn)確率分別達(dá)到71.43%,42.02%和41.96%.Liu 等[10]在時(shí)間空間局部紋理描述符(SLTD)方法的基礎(chǔ)上,提出一個(gè)簡(jiǎn)單并有效的特征描述符——主要方向性平均光流(MDMO)特征,它運(yùn)用了光流估計(jì)的方法來(lái)計(jì)算人臉局部感興趣區(qū)域(ROIs)的微小運(yùn)動(dòng),36 個(gè)ROIs 僅僅需要用長(zhǎng)度為72 的MDMO 特征向量表示.另外,他們還提出了一個(gè)光流驅(qū)動(dòng)的方法來(lái)對(duì)齊微表情視頻的所有幀.Liong 等[11]在光流法的基礎(chǔ)上提出Bi-WOOF,對(duì)開(kāi)始幀(onset)和高峰幀(apex frame)的動(dòng)作信息進(jìn)行加權(quán),在CASMEⅡ數(shù)據(jù)集上取得59.26%的識(shí)別率.
近年來(lái),深度學(xué)習(xí)技術(shù)在識(shí)別方面獲得巨大成功,已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域,如行為識(shí)別[12]、自然語(yǔ)言處理[13]、語(yǔ)音識(shí)別[14]等方面,也逐步被應(yīng)用到微表情自動(dòng)識(shí)別當(dāng)中.Patel 等[15]提出了先用深度學(xué)習(xí)模型提取出微表情的深度特征,然后使用特征選擇的方法對(duì)深度特征進(jìn)行選擇,減少了特征的冗余度.Kim 等[16]通過(guò)結(jié)合時(shí)域和空域不同維度信息的提取方法進(jìn)行微表情識(shí)別,其中空間維度信息通過(guò)搭建CNN 提取幀序列的5 個(gè)不同狀態(tài)信息獲得,時(shí)域信息通過(guò)LSTM 網(wǎng)絡(luò)獲得.Peng 等[17]提出了一種雙時(shí)間尺度卷積神經(jīng)網(wǎng)絡(luò)(DTSCNN)用于自發(fā)微表情識(shí)別.DTSCNN 是一種雙流網(wǎng)絡(luò),不同的DTSCNN 流用于適應(yīng)不同幀速率的微表情視頻.每個(gè)DSTCNN 流由獨(dú)立的淺網(wǎng)絡(luò)組成,以避免過(guò)度擬合問(wèn)題.同時(shí),還為DTSCNN 網(wǎng)絡(luò)提供光流序列,以確保淺網(wǎng)絡(luò)可以進(jìn)一步獲得更好的性能.Khor等[18]提出了一個(gè)增強(qiáng)的長(zhǎng)期遞歸卷積網(wǎng)絡(luò)(ELRCN),首先使用光流法對(duì)微表情視頻序列進(jìn)行預(yù)處理,以擴(kuò)大輸入數(shù)據(jù)的空間維度,然后通過(guò)CNN 模塊將每個(gè)微表情幀編碼成特征向量,然后通過(guò)將特征向量通過(guò)一個(gè)長(zhǎng)-短期記憶(LSTM)模塊對(duì)微表情進(jìn)行預(yù)測(cè).
盡管微表情的自動(dòng)識(shí)別取得了令人印象深刻進(jìn)展,但由于微表情動(dòng)作微小和持續(xù)時(shí)間短,使得其識(shí)別準(zhǔn)確率還不高,有進(jìn)一步提高的空間.利用深度學(xué)習(xí)技術(shù)進(jìn)行微表情識(shí)別是一種趨勢(shì).C3D[19]是一種深度學(xué)習(xí)技術(shù),能夠同時(shí)提取視頻的時(shí)域和空域信息,較好地表示人類(lèi)活動(dòng)的特性,在行為識(shí)別、場(chǎng)景識(shí)別、視頻相似度分析等領(lǐng)域得到了成功的應(yīng)用.而光流法[20,21]對(duì)視域中的物體運(yùn)動(dòng)檢測(cè)有非常好的效果,已被應(yīng)用到微表情自動(dòng)識(shí)別中.為充分利用C3D 和光流法的優(yōu)點(diǎn),本文提出一種結(jié)合C3D 與光流法的微表情自動(dòng)識(shí)別方法,通過(guò)結(jié)合C3D 和光流法技術(shù),能有效提取微表情的時(shí)空特征;同時(shí),我們還針對(duì)微表情數(shù)據(jù)規(guī)模小、容易過(guò)擬合等問(wèn)題,采用數(shù)據(jù)增強(qiáng)的方法增加樣本的數(shù)量,以滿足深度學(xué)習(xí)網(wǎng)絡(luò)的要求.我們?cè)贑ASME Ⅱ[22]上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)表明所提出的方法比現(xiàn)有方法有更高的識(shí)別準(zhǔn)確率,微表情的識(shí)別準(zhǔn)確率達(dá)到67.53%.
本節(jié)介紹本文用到的兩個(gè)主要技術(shù)C3D 和光流法,以及實(shí)驗(yàn)中使用的微表情數(shù)據(jù)集.
C3D 是Ji 等[23]提出的一種在時(shí)域和空域上的三維卷積神經(jīng)網(wǎng)絡(luò).使用C3D 可以同時(shí)對(duì)外觀和運(yùn)動(dòng)信息進(jìn)行建模,在時(shí)間和空間的特征學(xué)習(xí)、行為識(shí)別、動(dòng)作相似度等各種視頻分析任務(wù)上都優(yōu)于2D 卷積網(wǎng)絡(luò)[19,23].
C3D 的優(yōu)點(diǎn)在于,采用三維卷積核對(duì)上一層網(wǎng)絡(luò)中的特征映射進(jìn)行卷積操作,可以一次性提取時(shí)域特征,即可以捕捉到多個(gè)幀的動(dòng)作信息.具體地,對(duì)于第l層網(wǎng)絡(luò)的第j個(gè)特征映射上的像素點(diǎn)(x,y,z)的特征值可以記作,公式為:
其中,blj為特征映射的偏置值,n為連接當(dāng)前特征映射的第(l+1)層網(wǎng)絡(luò)的特征映射集,而Sl和Tl分別是三維卷積核的高度和寬度,Rl是三維卷積核的時(shí)域維度大小,為連接上層特征映射的三維卷積核(s,t,r)的權(quán)重,f(x)表示激活函數(shù).
光流法常常用于視頻的動(dòng)作特征提取上,使用光流法能夠很好地捕捉相鄰幀的動(dòng)作信息.光流法計(jì)算在時(shí)域上前一幀與當(dāng)前幀之間的圖像序列中像素的變化,得到相鄰幀之間的運(yùn)動(dòng)信息.在微表情自動(dòng)識(shí)別中,光流法被用于提取微表情的時(shí)域特征[10,11,18]、增大輸入數(shù)據(jù)的空間維度[16]等,有效提高了識(shí)別率.
光流法的目的是找到圖像中每個(gè)像素的速度矢量.本文使用的Farneback 算法[24]是一種密集光流方法,用于計(jì)算幀中每個(gè)點(diǎn)的全局密集光流.產(chǎn)生的光流是與原始圖像大小相等的分別表示運(yùn)動(dòng)方向和亮度的雙通道圖像.Farneback 算法的原理是運(yùn)用多項(xiàng)式展開(kāi)的方法來(lái)估計(jì)相鄰兩幀圖像中物體的運(yùn)動(dòng),這個(gè)運(yùn)動(dòng)即估計(jì)物體的位移場(chǎng).多項(xiàng)式展開(kāi)指的是,對(duì)每個(gè)像素的領(lǐng)域使用一個(gè)多項(xiàng)式來(lái)近似建模.本文只對(duì)二次多項(xiàng)式展開(kāi)變換,對(duì)位置為x的每一個(gè)像素,利用二次多項(xiàng)式構(gòu)造一個(gè)局部信號(hào)模型,表示為:
其中,A是對(duì)稱(chēng)矩陣,b是向量,c是標(biāo)量.這些系數(shù)使用加權(quán)的最小二乘法擬合領(lǐng)域中信號(hào)的值.
以下是在理想的情形下位移的估計(jì)過(guò)程.對(duì)于第一個(gè)圖像,構(gòu)造一個(gè)局部信號(hào),考慮的二次多項(xiàng)式:
在經(jīng)歷一個(gè)全局的位移d(不隨空間變化,恒定的方向和大小),在第2 幅圖像上,構(gòu)造一個(gè)新的信號(hào):
然后,通過(guò)觀察,可以對(duì)應(yīng)得到:
根據(jù)式(6),A1是非奇異矩陣的情況下,可以計(jì)算全局位移d:
值得注意的是,在任何維度下,以上公式均是成立的.
而在實(shí)際情況中,我們使用一個(gè)不隨空間變化的位移d,使用單一個(gè)多項(xiàng)式擬合函數(shù)來(lái)研究?jī)蓚€(gè)圖像的關(guān)系,是不切實(shí)際的.因此我們定義第1 個(gè)圖像隨空間變化的參數(shù)A1(x),b1(x)和c1以及第2 幅圖像參數(shù)A2(x),b2(x)和c1,由式(5)可以得到:
再根據(jù)式(6),令:
得到最主要的約束:
其中,d(x)說(shuō)明已經(jīng)使用一個(gè)隨空間位置發(fā)生變化的位移場(chǎng)來(lái)代替方程4 中恒定大小和方向的全局位移d.
隨后進(jìn)行鄰域估計(jì).假設(shè)位移場(chǎng)僅緩慢變化,從而可以集成每個(gè)像素的鄰域上的信息.因此,我們?cè)噲D找到d(x)滿足式(12),并且盡可能地超出鄰域P的x,鄰域估計(jì)表示為:
其中,w(Δx)是鄰域中的點(diǎn)的權(quán)重函數(shù).
目前自發(fā)的微表情數(shù)據(jù)集較少,僅有的3 個(gè)數(shù)據(jù)集分別是SMIC[25],CASME[26],CASME Ⅱ[22].本文全部實(shí)驗(yàn)采用CASME Ⅱ數(shù)據(jù)集.
CASME Ⅱ是中國(guó)科學(xué)院心理研究所收集的CASME數(shù)據(jù)庫(kù)的升級(jí)版本.CASME Ⅱ包含由200 fps 相機(jī)記錄的26 個(gè)受試者的255 個(gè)微表情視頻序列.獲得的微表情樣本由AU 編碼,包括3 部分:起始,頂點(diǎn)和結(jié)束.微表情數(shù)據(jù)集可以分為7 類(lèi):高興、驚訝、恐懼、悲傷、厭惡、壓抑等.
在我們的實(shí)驗(yàn)中,由于恐懼和悲傷兩個(gè)類(lèi)的樣本量分別是2 個(gè)和7 個(gè),不足以進(jìn)行特征學(xué)習(xí)的訓(xùn)練.因此我們將它們排除在實(shí)驗(yàn)之外,即其余的246 個(gè)樣本用于實(shí)驗(yàn).在我們的實(shí)驗(yàn)中使用了5 個(gè)類(lèi)(包括32 個(gè)高興樣本,63 個(gè)厭惡樣本,25 個(gè)驚訝樣本,27 個(gè)壓抑樣本和99 個(gè)其它樣本).
本文所提出的方法流程主要分為預(yù)處理,特征提取和分類(lèi)3 個(gè)步驟,過(guò)程如圖1:首先經(jīng)過(guò)預(yù)處理得到標(biāo)準(zhǔn)化的微表情視頻.為了捕獲人臉表情動(dòng)態(tài)信息,通過(guò)光流法逐幀計(jì)算得到兩通道的包含動(dòng)態(tài)信息的特征序列.然后將原始圖像的灰度圖作為一個(gè)通道的特征,與光流的兩個(gè)通道組合成3 個(gè)通道的特征序列,將這樣的三通道的特征序列輸入到C3D,由C3D 的卷積層、池化層和完全連接層自動(dòng)提取高級(jí)特征.最后,由C3D 的最后一層全連接層計(jì)算出每類(lèi)的預(yù)測(cè)概率,實(shí)現(xiàn)對(duì)微表情的分類(lèi).
圖1 本文所提出的微表情識(shí)別方法流程
3.1.1 人臉檢測(cè)和裁剪由于原始幀中含有無(wú)關(guān)的背景,因此需要定位邊界框以移除背景,并從原始圖像中保留面部區(qū)域.首先,通過(guò)OpenCV 中的Dlib 庫(kù)實(shí)現(xiàn)的68 點(diǎn)檢測(cè)算法[27]檢測(cè)微表情視頻片段第一幀中的面部區(qū)域,并根據(jù)第一幀剪裁該視頻片段的其余幀.此外,為了準(zhǔn)確地在原始幀中裁剪面部區(qū)域,從68 點(diǎn)中選出特定周?chē)c(diǎn)(即最左側(cè)點(diǎn)、最頂部點(diǎn)、最右側(cè)點(diǎn)和最下側(cè)點(diǎn))以形成面部區(qū)域周?chē)倪吔缈?如圖2所示,通過(guò)裁剪周?chē)c(diǎn)得到最貼合臉部的人臉區(qū)域.
圖2 使用68 點(diǎn)人臉檢測(cè)算法
3.1.2 標(biāo)準(zhǔn)化處理
由于幀序列的時(shí)域和空域大小不統(tǒng)一,得到的裁剪幀序列需要進(jìn)行標(biāo)準(zhǔn)化操作.具體來(lái)說(shuō),在時(shí)域上使用時(shí)間插值模型(TIM)[28]統(tǒng)一了微表情視頻的幀長(zhǎng).例如,在時(shí)域上通過(guò)TIM 的方法統(tǒng)一幀數(shù)為96,在空域上使用平面線性插值的方法將每一幀的平面尺寸統(tǒng)一為96×96.經(jīng)過(guò)這樣的時(shí)域和空域上的大小尺寸調(diào)整,每個(gè)樣本大小尺寸統(tǒng)一為96×96×96×3 (3 為RGB通道),如圖3所示.
圖3 微表情視頻的標(biāo)準(zhǔn)化處理
3.1.3 灰度化處理
微表情視頻的灰度化處理.由RGB 三通道的圖片序列經(jīng)過(guò)灰度化得到一通道的灰度圖片序列.如圖4所示,圖中上方為原始微表情RGB 圖片序列,下方是對(duì)應(yīng)灰度化的圖片序列.
3.1.4 數(shù)據(jù)增強(qiáng)
深度學(xué)習(xí)常常需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí),在樣本量較少的時(shí)候,一般采用數(shù)據(jù)增強(qiáng)策略;仿射變換就是其中之一.仿射變換一般包括平移、翻轉(zhuǎn)、旋轉(zhuǎn)、縮放.這些方法對(duì)于卷積神經(jīng)網(wǎng)絡(luò)提取特征具有不變性[29],并且廣泛用于各個(gè)領(lǐng)域的深度學(xué)習(xí)[17,29].
圖4 微表情的原始圖及灰度圖序列
本文用仿射變換進(jìn)行數(shù)據(jù)增強(qiáng).所的方法包括平移、翻轉(zhuǎn)和旋轉(zhuǎn)3 類(lèi).具體地,對(duì)于水平翻轉(zhuǎn)、垂直翻轉(zhuǎn);旋轉(zhuǎn)角度90°、旋轉(zhuǎn)角度180°、使用旋轉(zhuǎn)角度270°,單種方式有5 種,同類(lèi)仿射變換不混合的混合方式有6 種,水平翻轉(zhuǎn)加垂直翻轉(zhuǎn)本身及和旋轉(zhuǎn)三個(gè)角度混合有4 種,共15 種仿射變換.
光流特征提取是對(duì)微表情視頻進(jìn)行光流估計(jì),提取微表情視頻的低級(jí)特征.對(duì)于微表情識(shí)別的視頻序列,用光流法計(jì)算面部區(qū)域的微小移動(dòng),計(jì)算工具使用OpenCV 庫(kù)[24],得到與原始圖像大小相等的雙通道圖像,雙通道分別表示強(qiáng)度和方向.為了更直觀地可視化光流,可以使用Munsell 顏色系統(tǒng)[30]將強(qiáng)度和方向矩陣轉(zhuǎn)換為可視化圖像,使用該顏色系統(tǒng)的微表情光流分布如圖5所示.得到的兩個(gè)通道的光流估計(jì)序列視為低級(jí)特征,和一個(gè)通道的灰度圖像序列合并為3 個(gè)通道圖像序列,共同輸入C3D 的輸入層中,C3D 將自動(dòng)提取出時(shí)域和空域上的特征并進(jìn)行最后的分類(lèi).
圖5 使用Munsell 顏色系統(tǒng)表示的微表情光流分布
在深度學(xué)習(xí)中,一個(gè)好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練過(guò)程中起著重要作用,良好的結(jié)構(gòu)模型可以有效地提取特征.因此,C3D 結(jié)構(gòu)上的參數(shù)需要適當(dāng)?shù)卦O(shè)置,包括層數(shù)、每層的核種類(lèi)等.本文所提出的C3D 結(jié)構(gòu)如表1所示.其中,網(wǎng)絡(luò)結(jié)構(gòu)的卷積層核是(3×3×3).表1中:(1)Conv,Pool 和F 分別是卷積層,最大池化層和完全連接層的縮寫(xiě).(2)第一層Conv1 的輸入大小為(96×96×95×3),其中95 表示一個(gè)視頻在時(shí)域上的大小,(96×96)表示一個(gè)視頻在空域上的大小,3 表示輸入視頻的通道,包括兩個(gè)光流通道和一個(gè)上一幀灰度幀.(3)最后一層F2 用于分類(lèi),本文中的微表情類(lèi)數(shù)為5,因此輸出大小為(5×1).這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)借鑒了經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)VGG[31](Visual Geometry Group)的優(yōu)點(diǎn),VGG 在圖像處理方面表現(xiàn)出良好的性能.它具有3 個(gè)優(yōu)點(diǎn):(1)VGG 使用多個(gè)小卷積核而不使用過(guò)多大卷積核,一方面可以在獲得相同大小的特征映射的情況下捕獲到更多的空間上下文信息,但使用較小的卷積核時(shí),使用的參數(shù)和計(jì)算量較少.另一方面,因?yàn)槭褂酶〉暮?意味著要使用更多的濾波器,即能夠使用更多的激活函數(shù),從而使卷積網(wǎng)絡(luò)學(xué)習(xí)到更具區(qū)分性的映射函數(shù).(2)層組的設(shè)計(jì).兩個(gè)卷積層后面緊接著一個(gè)池化層,其中前兩個(gè)卷積層更注重局部特征,適合于需要提取微小局部信息的微表情識(shí)別.(3)第2 組層組比第1 組層組多一個(gè)卷積層,這意味著可以在第1 組層組的基礎(chǔ)上進(jìn)一步細(xì)化特征的學(xué)習(xí).
表1 C3D 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
網(wǎng)絡(luò)模型的學(xué)習(xí)過(guò)程由Keras 編碼實(shí)現(xiàn).參數(shù)是經(jīng)反復(fù)試驗(yàn)決定的.本文中,初始學(xué)習(xí)率設(shè)置為0.01.對(duì)于C3D,訓(xùn)練epoch 設(shè)定為160.對(duì)于損失函數(shù),使用均方誤差(Mean Square Error,MSE),均方誤差損失函數(shù)是使用最廣泛的函數(shù),并且在大部分情況下,均方誤差有著不錯(cuò)的性能,因此被用作損失函數(shù)的基本衡量指標(biāo).實(shí)驗(yàn)的主要硬件設(shè)備是兩塊NVIDIA Titan X GPU,編程語(yǔ)言使用Python.
在本節(jié)中,我們通過(guò)評(píng)估本文提出的方法在CASMEⅡ數(shù)據(jù)集的分類(lèi)準(zhǔn)確率,并與其他現(xiàn)有方法進(jìn)行了比較,包括現(xiàn)有的手工描述特征方法和深度學(xué)習(xí)方法.
4.2.1 和現(xiàn)有方法的對(duì)比
由于留一受試者交叉驗(yàn)證方法(LOSO)能防止學(xué)習(xí)過(guò)程中的主體偏差[15];因此,我們的實(shí)驗(yàn)采用LOSO交叉驗(yàn)證法.在此情景下,我們將本文所提出方法和其他現(xiàn)有的方法進(jìn)行比較,包括手工描述特征方法和深度學(xué)習(xí)方法.
所提出方法的識(shí)別準(zhǔn)確率比較如表2所示.如表中所示,所提出的方法優(yōu)于其他現(xiàn)有方法.與手工描述特征的方法相比,深度學(xué)習(xí)方法通過(guò)調(diào)整參數(shù)和權(quán)重,能夠自動(dòng)學(xué)習(xí)特征并在訓(xùn)練期間優(yōu)化模型.深度學(xué)習(xí)方法盡管更依賴于訓(xùn)練樣本的數(shù)量,但這個(gè)問(wèn)題可以通過(guò)數(shù)據(jù)增強(qiáng)來(lái)解決,通過(guò)逐層學(xué)習(xí)樣本,獲取到深層次的特征.如表2所示的基于深度學(xué)習(xí)的方法總體比手工描述特征方法表現(xiàn)更好.特別地,本文所提出的方法結(jié)果比手工描述特征方法中的最佳方法高約4%,這表明本文所提出的方法作為一種深度學(xué)習(xí)方法,能夠自動(dòng)提取特征,省去了人工尋找特征的步驟,也提高了識(shí)別準(zhǔn)確率.
表2 本文提出的方法與現(xiàn)有方法的微表情識(shí)別準(zhǔn)確率比較
4.2.2 光流法對(duì)微表情識(shí)別的影響分析
本文所提出的方法是通過(guò)計(jì)算光流獲取低級(jí)特征,在時(shí)間維度上提取相鄰幀上的強(qiáng)度和方向的特征,以便捕獲更多的動(dòng)態(tài)信息,然后對(duì)C3D 進(jìn)行訓(xùn)練,提取高級(jí)特征,實(shí)現(xiàn)微表情的自動(dòng)識(shí)別.
從表2可以看到,本文所提出的方法比C3D 的識(shí)別準(zhǔn)確率高了6.19%.即光流法貢獻(xiàn)了6.19%的識(shí)別正確率.原因是微表情視頻是一個(gè)動(dòng)態(tài)時(shí)域上出現(xiàn)動(dòng)作變化的視頻,光流法能通過(guò)計(jì)算出微表情的微小運(yùn)動(dòng)的大小和方向,逐幀地提取微表情的動(dòng)態(tài)特征,捕捉到更多的動(dòng)作信息,從而提高識(shí)別準(zhǔn)確率.
本文提出了結(jié)合C3D 與光流法的微表情自動(dòng)識(shí)別方法,通過(guò)光流法逐幀提取微表情的動(dòng)態(tài)信息,得到的光流序列和原始灰度序列輸入C3D 網(wǎng)絡(luò),通過(guò)C3D提取時(shí)域和空域上的特征,同時(shí)捕捉微表情的動(dòng)態(tài)信息.實(shí)驗(yàn)中,為了滿足大量的深度學(xué)習(xí)數(shù)據(jù)訓(xùn)練需要,采用數(shù)據(jù)增強(qiáng)策略,擴(kuò)大了微表情數(shù)據(jù)規(guī)模,防止深度學(xué)習(xí)網(wǎng)絡(luò)容易過(guò)擬合.在開(kāi)放的微表情數(shù)據(jù)集CASME Ⅱ上進(jìn)行了模擬實(shí)驗(yàn),實(shí)驗(yàn)表明所提出的方法提高了微表情識(shí)別準(zhǔn)確率,準(zhǔn)確率達(dá)到67.53%.