文虹茜, 卿粼波, 晉儒龍, 王 露
(四川大學(xué)電子信息學(xué)院, 成都 610065)
情緒的感知和表達(dá)在心理學(xué)和神經(jīng)科學(xué)領(lǐng)域已經(jīng)得到了廣泛的研究,隨著人工智能的不斷發(fā)展,利用計算機(jī)進(jìn)行情緒的分析也獲得了人們的關(guān)注.能夠感知和分析人類情緒和意圖的計算機(jī)系統(tǒng)將在娛樂、醫(yī)療、教育和公共安全等領(lǐng)域發(fā)揮作用.例如,提高機(jī)器人情緒識別能力將豐富人機(jī)交互應(yīng)用;情緒感知醫(yī)療輔助系統(tǒng)可以幫助評估焦慮和抑郁等精神障礙;在機(jī)場、地鐵和公園等人流量大的場所進(jìn)行情緒監(jiān)測可以幫助識別潛在威脅,及時處理突發(fā)事件.
面部表情可以最直觀地反映出人們的情緒狀態(tài)和心理活動,是表達(dá)情緒的重要方式.目前基于視覺感知的人類情感的研究主要集中在面部.心理學(xué)家Ekman[1]研究不同文化之間的面部行為模式,定義了6類基本情緒(快樂、悲傷、厭惡、驚訝、憤怒和恐懼).傳統(tǒng)的表情識別研究大多采用手工特征或淺層學(xué)習(xí),隨著應(yīng)用環(huán)境轉(zhuǎn)向具有挑戰(zhàn)性的真實場景,神經(jīng)網(wǎng)絡(luò)越來越多地被用于特征提取,并取得了超前的識別精度.在表情識別中應(yīng)用廣泛的深度學(xué)習(xí)技術(shù)有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)、深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN)、遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)等[2].然而,有心理研究表明,面部表情本身可能包含誤導(dǎo)性信息,特別是應(yīng)用于互動和社交場景時.而通過觀察身體姿勢、動作、語調(diào)等不同的表現(xiàn)形式能提高對情緒狀態(tài)的判斷能力[3-4].此外,在真實環(huán)境中,距離、姿勢、光照等因素會對面部情緒的識別產(chǎn)生很大影響,人臉分辨率不高,面部特征模糊,會降低面部表情識別率.
近年來,越來越多的情感神經(jīng)科學(xué)研究表明,身體姿態(tài)在情感表達(dá)中與面部一樣具有診斷性[5],姿態(tài)表現(xiàn)出來的傾斜方向、身體開放度和手臂、肩膀、頭部位置等信息對情感狀態(tài)的識別是有貢獻(xiàn)的.通過連接到身體的傳感設(shè)備可以感知人體位置和運(yùn)動,獲得的特征通常以骨骼的形式來進(jìn)行情緒識別[6-7].然而,傳感技術(shù)的使用存在諸多限制和差異,基于視覺的姿態(tài)情緒識別技術(shù)在圖像、視頻數(shù)據(jù)上的使用更加廣泛.目前關(guān)于身體情緒表達(dá)的研究較少,大多使用人工提取特征的方法.但是在當(dāng)今數(shù)據(jù)量越發(fā)巨大、數(shù)據(jù)越發(fā)復(fù)雜的情況下,手工設(shè)計和提取特征將耗費(fèi)巨大的計算代價.
以前的人工特征或深度學(xué)習(xí)情緒識別工作使用單一的模式,如面部表情[8-12]、言語[13]、步態(tài)[6]以及生理信號[14]等.多模態(tài)情緒識別受到心理學(xué)研究的啟發(fā),情感的表達(dá)方式不是孤立存在的,這也有助于提高野外情緒識別的準(zhǔn)確性[3].其中,面部表情和身體姿態(tài)的組合視覺渠道被認(rèn)為是判斷人類行為線索的重要渠道[15].有關(guān)融合表情及姿態(tài)的情緒識別文獻(xiàn)很少,大多使用傳統(tǒng)方法提取融合來自面部表情、身體姿態(tài)或者手勢的線索.Gunes等[15]基于輪廓和膚色跟蹤頭部和手部并提取了兩百多個特征用于情緒識別,特征提取操作復(fù)雜,只使用了來自4個受試者的27個視頻,數(shù)據(jù)量非常有限.Chen等[16]使用運(yùn)動歷史圖像(Motion History Image, MHI)方向梯度直方圖(Histogram of Oriented Gradient, HOG)和圖像方向梯度直方圖的方法表示人臉和人體手勢的局部運(yùn)動信息和外觀信息,提取的特征向量更加龐大.王曉華等[17]提出時空局部三值模式矩(TSLTPM),融合3 維梯度方向直方圖(3DHOG)特征描述紋理變化.姜明星等[18]使用時空局部三值方向角模式進(jìn)行特征提取.Mittal等[3]使用了靜態(tài)的人臉和步態(tài)信息進(jìn)行情緒識別,然而運(yùn)動對于識別身體表達(dá)的情緒是十分重要的[5].神經(jīng)網(wǎng)絡(luò)的快速發(fā)展[19]使情感識別與分析領(lǐng)域也取得很大進(jìn)步[20-21].然而由于缺乏大型的表情及姿態(tài)情緒數(shù)據(jù)集,表情及姿態(tài)融合情緒識別研究的潛力還待發(fā)掘.
本文針對公共空間個體人臉分辨率較低、面部特征模糊的問題,提出了融合表情及姿態(tài)的情緒識別方法.首先,對視頻數(shù)據(jù)進(jìn)行預(yù)處理獲得表情通道和姿態(tài)通道的輸入流;使用深度學(xué)習(xí)的方法實現(xiàn)表情和姿態(tài)情緒特征構(gòu)建過程的自動化,減少計算復(fù)雜度;最后,在決策層進(jìn)行融合和分類.通過有效融合表情和姿態(tài)在情緒識別中獨特的優(yōu)勢,實現(xiàn)了公共空間個體情緒狀態(tài)的有效識別.
目前融合表情及姿態(tài)的情緒識別大多研究純色背景實驗室環(huán)境中采集的數(shù)據(jù),人工構(gòu)建和提取特征,多種特征提取技術(shù)的局限性在不斷積累,降低了模型的泛化能力.而且使用手工特征將導(dǎo)致大量的計算開銷,處理無約束情形下的大量數(shù)據(jù)會是巨大挑戰(zhàn).本文使用基于視覺的表情和姿態(tài)來擴(kuò)展情緒識別的通道,提出基于深度學(xué)習(xí)的雙通道情緒識別模型(如圖1).模型由數(shù)據(jù)預(yù)處理、特征提取和模式融合3個部分組成.為提供面部通道和姿態(tài)通道的輸入流,首先對原始數(shù)據(jù)進(jìn)行預(yù)處理,包括面部檢測、面部和身體視頻序列尺寸處理.針對表情進(jìn)行空間流靜態(tài)圖像特征學(xué)習(xí);對于姿態(tài)情緒,外觀特征和運(yùn)動特征都有重要作用,需要提取視頻序列中有效的時空信息.CNN網(wǎng)絡(luò)具有很強(qiáng)的圖像特征學(xué)習(xí)能力,不依賴人工經(jīng)驗;3DCNN能同時學(xué)習(xí)時空特征,因此,本文采用兩個網(wǎng)絡(luò)分別對表情圖像信息及姿態(tài)外觀和運(yùn)動信息進(jìn)行建模.最后,將兩通道的輸出加權(quán)融合并得到最終的分類結(jié)果.
圖1 模型結(jié)構(gòu)Fig.1 Architecture of model
數(shù)據(jù)預(yù)處理部分包括面部檢測、面部和身體視頻序列尺寸處理.為了提供面部通道的輸入流,本文使用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)MTCNN[22]進(jìn)行面部檢測.將所有幀通過MTCNN得到面部圖像,并調(diào)整為48×48像素.雙通道中的身體通道輸入為視頻序列,所有視頻幀尺寸統(tǒng)一調(diào)整為510×786像素.
2.2.1 面部通道 為獲得面部表情信息,使用深度可分離卷積神經(jīng)網(wǎng)絡(luò)Mini-Xception[23]進(jìn)行特征提取.Mini-Xception的網(wǎng)絡(luò)模型來源于Xception架構(gòu),深度可分離卷積能更加有效地利用模型參數(shù),殘差連接模塊能加快收斂過程,結(jié)構(gòu)如圖2所示.通過Mini-Xception能自動提取面部輸入的有效特征,為與身體通道的融合做準(zhǔn)備.訓(xùn)練階段學(xué)習(xí)率設(shè)置為0.1,批量大小32,使用早停法防止過擬合.
圖2 Mini-Xception結(jié)構(gòu)Fig.2 Architecture of Mini-Xception
2.2.2 姿態(tài)通道 為了獲得姿態(tài)情緒信息,使用C3D網(wǎng)絡(luò)[24]進(jìn)行特征提取.研究表明,外觀和運(yùn)動信息都對從身體表達(dá)中感知情緒起重要作用.同時,對于視頻序列,有效的時空信息也很關(guān)鍵.C3D能簡單高效地學(xué)習(xí)時空特征,關(guān)注外觀和運(yùn)動信息,適合用于身體姿態(tài)情緒特征的提取.C3D網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3,訓(xùn)練階段初始學(xué)習(xí)率為0.001,批量大小10.
圖3 C3D結(jié)構(gòu)Fig.3 Architecture of C3D
面部通道和身體通道獲得的特征信息各有優(yōu)勢,將兩個通道融合進(jìn)行分類.采用加權(quán)和的決策層融合:使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征后,在全連接層后獲得類別的后驗概率,將面部和身體兩個通道輸出的后驗概率求加權(quán)和.因為面部表情是主要模式,因此面部通道和身體通道的權(quán)重分別設(shè)置為0.7和0.3.
目前利用表情及姿態(tài)進(jìn)行情緒識別的研究較少,可以直接用于訓(xùn)練的數(shù)據(jù)集也十分匱乏.Gunes等人[15]在實驗室中收集了包含面部和上身的情緒數(shù)據(jù)集FABO,此后相關(guān)研究大多基于此數(shù)據(jù)集開展.然而FABO標(biāo)注不全,23個受試者中只有16個具有標(biāo)注;樣本數(shù)量很少且情感類別不均勻,利用深度學(xué)習(xí)方法訓(xùn)練時容易出現(xiàn)過擬合現(xiàn)象,因此無法利用FABO開展本文研究.B?nziger等[25]創(chuàng)建了日內(nèi)瓦多模態(tài)情感刻畫(GEMEP)數(shù)據(jù)集,數(shù)據(jù)集包含了來自實驗室的10個受試者的面部和身體的視頻及語音.然而GEMEP并未公開發(fā)布,無法用于本文個體情緒的研究.
通過定點拍攝、網(wǎng)上搜集和真人表演3種方式建立公共空間個體情緒數(shù)據(jù)集SCU-FABE.首先,利用KCF跟蹤算法[26]對視頻中的行人進(jìn)行跟蹤和保存,KCF算法具有準(zhǔn)確度高、運(yùn)算速度快的雙重優(yōu)勢,適用于少量行人目標(biāo)的跟蹤.然后,剔除不合格的個體序列再進(jìn)行情緒標(biāo)注.情感計算領(lǐng)域使用比較廣泛的模型有離散型和連續(xù)型.連續(xù)型并不適用于城市公共空間中個體的情緒劃分,因為在公共空間中人流密度大,對視頻中的每一個人進(jìn)行精細(xì)化的情緒分析耗時耗力.相對于判斷情感程度,識別個體情緒的正負(fù)性更為首要.Russell[27]提出的Arousal-Valence模型中價效(Valence)表征了情感的正負(fù)性.SCU-FABE主要從價效出發(fā),將情緒劃分為消極、中性和積極三類,邀請10名志愿者(5名男性和5名女性)進(jìn)行手動標(biāo)注.實驗中總共使用公共空間個體情緒數(shù)據(jù)序列993個,每個序列的長度為20幀到100幀不等.其中Negative類包含324個序列、Neutral類包含315個序列、Positive類包含354個序列,按照接近1∶1的比例劃分訓(xùn)練集和測試集.圖4為表達(dá)序列示例.
圖4 數(shù)據(jù)集表達(dá)序列示例 (a)“消極”序列;(b)“積極”序列;(c)“中性”序列Fig.4 Samples of dataset (a) negative; (b) positive; (c) neutral
本文在基于Python的深度學(xué)習(xí)框架TensorFlow環(huán)境下進(jìn)行實驗.實驗環(huán)境為:Ubuntu 18.04, NVIDIA Tesla K80 GPU.為評估本文提出的融合表情及姿態(tài)的情緒識別性能,進(jìn)行如下實驗:(1) 數(shù)據(jù)增強(qiáng)實驗,探究針對姿態(tài)數(shù)據(jù)情緒識別的數(shù)據(jù)增強(qiáng)方法;(2) 面部情緒識別實驗和姿態(tài)情緒識別實驗,作為單模式情緒識別對照組,與融合的情緒識別結(jié)果進(jìn)行對比分析;(3) 融合情緒識別實驗,驗證融合表情及姿態(tài)的情緒識別方法的有效性.
神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)訓(xùn)練才能獲得更好的性能.對于面部數(shù)據(jù),已驗證過可靠性和有效性的數(shù)據(jù)增強(qiáng)方法有很多,最常用的方法包括旋轉(zhuǎn)、平移、翻轉(zhuǎn)、隨機(jī)裁剪和隨機(jī)加入噪聲等等,可以很好地擴(kuò)充數(shù)據(jù)集,增強(qiáng)模型的泛化能力.然而對于姿態(tài)數(shù)據(jù),使用常見的擴(kuò)充數(shù)據(jù)的操作是否會破壞身體姿態(tài)序列在情緒識別方面潛在的重要特征是一個需要探究的問題.
為了更有效地擴(kuò)充數(shù)據(jù)、完成情緒識別目標(biāo),針對身體姿態(tài)數(shù)據(jù)分別使用原始數(shù)據(jù)、顏色處理數(shù)據(jù)、旋轉(zhuǎn)處理數(shù)據(jù)以及鏡像處理數(shù)據(jù)進(jìn)行擴(kuò)充.方案基于以下假設(shè):未處理的原始數(shù)據(jù)不會丟失情緒識別相關(guān)線索.在唯一變量為輸入數(shù)據(jù)的情況下訓(xùn)練和測試,以原始數(shù)據(jù)的測試結(jié)果為閾值,已處理數(shù)據(jù)的測試結(jié)果低于此閾值則判斷為有破壞相關(guān)線索的可能.數(shù)據(jù)處理對比圖如圖5所示.
圖5 數(shù)據(jù)處理對比圖 (a)原始圖像;(b)顏色處理;(c)旋轉(zhuǎn)處理;(d)鏡像處理Fig.5 Samples of data processing (a) Original image; (b) Color processing; (c) Rotation processing; (d) Mirror image
使用測試集進(jìn)行測試,因為樣本數(shù)量比較均衡,以10次測試結(jié)果的平均識別率為評價指標(biāo).實驗結(jié)果表明,有關(guān)外觀和運(yùn)動的信息都對情緒感知有作用,顏色處理和旋轉(zhuǎn)處理加強(qiáng)了潛在特征,識別率更高;鏡像處理破壞了潛在特征,識別率更低.最終訓(xùn)練使用10%自動對比度和逆時針旋轉(zhuǎn)5°的方法進(jìn)行處理,數(shù)據(jù)量擴(kuò)充為原來的3倍.分別使用原始數(shù)據(jù)和擴(kuò)充后的數(shù)據(jù)進(jìn)行訓(xùn)練,測試結(jié)果對比如表1.實驗結(jié)果表明,使用顏色處理和旋轉(zhuǎn)處理的方法進(jìn)行數(shù)據(jù)增強(qiáng)效果比較明顯,識別率提高了5.927%.
表1 數(shù)據(jù)增強(qiáng)實驗結(jié)果
為了驗證單獨的面部和姿態(tài)對情緒識別的作用以及作為融合模式的雙通道產(chǎn)生的貢獻(xiàn),進(jìn)行單模式情緒識別對照實驗.使用經(jīng)過預(yù)處理和數(shù)據(jù)增強(qiáng)的訓(xùn)練集進(jìn)行訓(xùn)練,面部序列和姿態(tài)序列是相互對應(yīng)的.使用測試集進(jìn)行10次測試,采用平均識別率作為評價指標(biāo).
從表2實驗結(jié)果可知,面部對于情緒識別有重要意義,平均識別率為94.698%,從表3混淆矩陣可知,通過面部感知“消極”情緒的效果最差,容易誤判為“中性”情緒.身體姿態(tài)在情緒表達(dá)中具有診斷性,能自發(fā)揭示一些情緒線索,平均識別率為88.024%.從表4混淆矩陣可知,通過身體姿態(tài)感知“積極”情緒的效果最差.
表2 情緒識別實驗結(jié)果
表3 面部情緒識別混淆矩陣
表4 姿態(tài)情緒識別混淆矩陣
如表5所示,融合情緒識別實驗驗證了通過表情和姿態(tài)進(jìn)行情緒識別的有效性,平均識別率達(dá)到95.766%,高于單獨的面部情緒識別和姿態(tài)情緒識別.通過對比單模式和融合情緒識別混淆矩陣可以更加直觀的看出融合模式的優(yōu)勢:當(dāng)兩個通道融合時,面部感知“消極”情緒的局限和身體感知“積極”情緒的局限得到互補(bǔ)改進(jìn),“中性”情緒的識別率提高,從而獲得整體判決正確率的提高.說明面部表情和身體姿態(tài)都對情緒識別有所貢獻(xiàn),并且表達(dá)的信息可有效地互補(bǔ),結(jié)合面部表情和身體姿態(tài)能提高識別情緒狀態(tài)的能力和可靠性.
表5 融合情緒識別混淆矩陣
本文設(shè)計了一種融合表情及姿態(tài)的情緒識別方法,使用兩個通道提取面部和身體與情緒有關(guān)的信息,在決策層進(jìn)行融合和分類.實驗結(jié)果表明,對于大量真實場景視頻數(shù)據(jù),本文方法具有良好的泛化能力和適用性;表情和姿態(tài)表達(dá)的情感信息具有較好的互補(bǔ)作用,結(jié)合使用能提高情緒識別可靠性.對于身體姿態(tài)情緒識別,使用深度學(xué)習(xí)的方法自動提取特征取得了很好的效果,表明身體姿態(tài)情緒識別從使用幾何表示的簡單靜態(tài)或動態(tài)特征轉(zhuǎn)向深度學(xué)習(xí)表征具有很大的潛力.
本文的研究針對公共空間個體情緒識別,而公共空間中多人群組普遍存在,表達(dá)的情緒之間存在相關(guān)性,對于人群整體情緒的計算也十分有意義.研究公共空間中多尺度情緒識別是下一步所要做的工作.