陳 龍,張水平*,王海暉,陳言璞
1.武漢工程大學(xué)計算機科學(xué)與工程學(xué)院,湖北 武漢430205;2.智能機器人湖北省重點實驗室(武漢工程大學(xué)),湖北 武漢430205
面部表情因其能真實呈現(xiàn)并傳遞信息,成為人們?nèi)粘I畹闹饕獪贤ǚ绞街唬睦韺W(xué)家莫翰彬研究表示,通過語言人類只傳遞45%的信息,包括語氣、語調(diào)、口音等其他附加條件,其余55%的信息則通過面部表情的不同形態(tài)加以呈現(xiàn)。所以及時地分析發(fā)言者的表情變化,可以使聽者揣摩發(fā)言者心理狀態(tài),推測發(fā)言者的情緒,進而推斷發(fā)言者動機。通俗而言,面部表情識別是借助計算機將人類思維智能化,便于促進人與人的群體交互,呈現(xiàn)研究對象情感的不同形態(tài),使研究者借助面部表情的不同形態(tài)預(yù)測研究對象的情緒和意圖。如何讓機器讀懂人的臉部表情,改變單一的鍵盤輸入或者語音輸入的輸入方式,能夠使機器越來越智能化,滿足人類在人機交互中的更高需求,提高人機交互的舒適度,提高機器服務(wù)的質(zhì)量,是當(dāng)前我們研究的重要問題[1]。
近年來,面部表情識別的研究和應(yīng)用領(lǐng)域拓寬,是計算機視覺、人機交互、圖像識別等領(lǐng)域的重點研究課題。傳統(tǒng)的圖像特征提取方法,有局部二元模式[2-3](local binary pattern,LBP)、Gabor小 波 結(jié) 合 梯 度 直 方 圖 變 換[4-5](histogram of oriented gradient,HOG)、主 成 分 分 析 法[6](principal component analysis,PCA)、基于模型的方法[7]等,而傳統(tǒng)的方法由于存在計算量大、魯棒性不足等問題,在應(yīng)用落地中比較困難。因此,基于數(shù)據(jù)驅(qū)動的面部表情識別收獲了較多關(guān)注度[8]。2004年,Ahonen等[9]使用的LBP算法被用于面部識別領(lǐng)域,以獲得更高效的特征提取。在識別分類的任務(wù)方面,采用迭代算法(adaboost)和支持向量機(SVM)等[10],這些都是人為設(shè)計的一些特征提取方法,大都損失了原有圖像中的一些特征信息,實際檢測的精度受到了很大影響;Li等[11]是通過改變不同的數(shù)據(jù)集來提高人臉表情識別分類任務(wù)的準(zhǔn)確率,使用EM算法用來過濾不可靠的標(biāo)簽。徐琳琳等[12]提出一種并行卷積神經(jīng)網(wǎng)絡(luò)來縮短網(wǎng)絡(luò)的訓(xùn)練時間,獲得了65.6%的精度,這個并行結(jié)構(gòu)具有3個不同通道,分別提取不同圖像特征進行融合和分類,主要應(yīng)用于處理在數(shù)量、分辨率、大小等差異較大的表情數(shù)據(jù)集,并得到高準(zhǔn)確率和縮短時間。雖然數(shù)據(jù)驅(qū)動的方法為人臉面部表情識別問題帶來了很大的性能提升,但是對數(shù)據(jù)大規(guī)模采集與標(biāo)注提出了很高要求,隨著所用數(shù)據(jù)模型復(fù)雜度增大,關(guān)注的問題就轉(zhuǎn)移到了性能的提升。胡步發(fā)等[13]在面部表情識別任務(wù)中引入高層語義信息,從而提高了面部表情的識別率。朱瑞等[14]利用深度學(xué)習(xí)和知識圖譜的相結(jié)合在推薦領(lǐng)域受到廣泛關(guān)注。深度學(xué)習(xí)與知識圖譜技術(shù)的結(jié)合可以同時發(fā)揮數(shù)據(jù)驅(qū)動與知識推理的功能,進而提高模型的泛化能力。
基于當(dāng)前面部表情識別的關(guān)注問題,為進一步提高模型的準(zhǔn)確率與魯棒性,本文提出一種基于多任務(wù)學(xué)習(xí)和知識圖譜的面部表情識別方法(multi-task learning algorithm model,MLAM),該方法通過分別構(gòu)建基于數(shù)據(jù)的預(yù)測模型和基于知識的圖譜推理機制,將二者進行耦合,進而實習(xí)多任務(wù)學(xué)習(xí)的目標(biāo)。根據(jù)不同人的情緒表征,不同種族、性別、年齡、工作的人在表達(dá)情緒時面部表情都有某種隱藏特征(局部表情),本文提出多任務(wù)學(xué)習(xí)和知識圖譜的面部表情識別方法。比如,東方人和西方人在表情上就會有很大的差異,西方人更偏愛用夸張的表情表達(dá)出喜怒哀樂,而傳統(tǒng)的深度學(xué)習(xí)方法未考慮個體的差異,所以本文引進了知識圖譜運用到深度學(xué)習(xí)的技術(shù)當(dāng)中。
目前的深度學(xué)習(xí)框架已經(jīng)可以完成端到端實體之間的識別、關(guān)系抽取、關(guān)系融合、關(guān)系補全等任務(wù),創(chuàng)建知識圖譜。本文提出的方法可以基于知識圖譜建立起情緒表征與個體的聯(lián)系,進而提高人臉情緒識別的性能。
由于傳統(tǒng)面部識別算法的局限性,人為干擾因素較大,算法的魯棒性和識別精度都有待提高。本文提出MLAM算法,該算法是一個端對端的通用深度識別框架,該框架完成人臉表情識別的主體任務(wù)。同時引入知識圖譜嵌入任務(wù)作為輔助識別任務(wù),知識圖譜將人臉識別中非常重要的情緒因素以知識的形式進行存儲,并用于提高深度學(xué)習(xí)的預(yù)測準(zhǔn)確率。知識圖譜和圖像識別這兩個子任務(wù)雖然是獨立訓(xùn)練與工作的,但是本文設(shè)計了一種交叉壓縮單元將兩個模塊進行耦合,進而實現(xiàn)在識別算法中的局部表情(item)與知識圖譜中單個或者多個實體(entity)之間的關(guān)聯(lián)。
將推薦算法中的用戶(user)與物品(item)創(chuàng)新性引入人臉識別領(lǐng)域,分別用于表示待識別對象(個體)與局部表情,并采用知識圖譜構(gòu)建二者之間的關(guān)系。知識圖譜的引入為人臉識別提供了一個知識庫,不僅可以建立起個體與個體之間的關(guān)系,而且可以表征個體與局部表情之間的關(guān)系,幫助人臉識別預(yù)測模型更好地完成任務(wù)。為了對局部表情和個體之間的共享特征進行建模,本文MLAM算法提出了交叉壓縮單元(cross&compression unit),可以建立局部表情(item)和個體(entity)特征之間的高階交互,并自動控制兩個任務(wù)的交叉知識轉(zhuǎn)移。使用交叉壓縮單元后,局部表情(item)和個體(entity)的表征可以相互補充,避免兩個任務(wù)產(chǎn)生過擬合和噪聲,并提高泛化能力。MLAM算法的工作原理介紹如下。
MLAM模型框架如圖1所示,主要包括3個模塊:識別模塊、知識圖譜嵌入模塊與交叉壓縮單元,其中左側(cè)為識別任務(wù),右側(cè)是知識圖譜特征學(xué)習(xí)任務(wù)。算法整體框架通過交替優(yōu)化兩個任務(wù)的不同頻率進行訓(xùn)練,以提高MLAM算法在真實環(huán)境中的靈活性和適應(yīng)性。
圖1 MLAM識別算法框架Fig.1 Framework of MLAM recognition algorithm
識別模塊的輸入為表情識別者向量U與情緒表征向量V,輸出為表情識別者對于情緒表征的情緒表征率Y,模塊分為low-level和high-level兩部分,其中l(wèi)ow-level部分使用多層感知器(multi-lay perceptron,MLP)處理表情識別者的特征U L,情緒表征部分使用交叉壓縮單元來進行處理,返回一門情緒表征的特征Y L,最后將U L與V L拼接,通過識別算法中的函數(shù)fRS,輸出情緒表征預(yù)測值[15-16]。對于給定表情識別者的初始特征向量U,使用L階的MLP提取其特征:
其中的M(x)=σ(W x+b)為全連接神經(jīng)網(wǎng)絡(luò)層,權(quán)重為W,偏置為b以及非線性激活函數(shù)σ(·),在情緒表征V中使用L階交叉壓縮單元提取特征。
知識圖譜嵌入模塊[17]就是將三元組的頭部和關(guān)系嵌入到一個向量空間中,同時保留結(jié)構(gòu),對于知識圖譜嵌入模型,現(xiàn)有的研究提出了一個深度語義匹配架構(gòu),與識別模塊類似,根據(jù)給定知識圖譜G以及實體-關(guān)系-實體三元組(h,r,t),其中分別通過交叉壓縮單元與非線性層處理三元組頭部h和關(guān)系r的初始特征向量。之后將潛在特征關(guān)聯(lián)在一起,最后用K階MLP預(yù)測尾部t:
其中S(h)為h的關(guān)聯(lián)項集合?為根據(jù)尾部t得出的預(yù)測向量。
交叉壓縮單元[18]是為了模擬局部表情(item)和實體(entity)之間的特征交互,其只存在于MLKR算法的初始階層中,由于面部識別算法中的情緒表征(item)和知識圖譜嵌入模塊中的實體(entity)有對應(yīng)關(guān)系,并且有著對同一情緒表征(item)的描述,其中embedding相似度極高,即可以被連接,于是中間每一層都使用交叉壓縮單元作為連接的結(jié)合。如圖2所示,L層的輸入為情緒表征item的embeddingV L和實體的embeddinge L,下一層的輸出為embedding,交叉壓縮單元模塊分為兩部分:交叉特征矩陣(cross)和壓縮層(compress),其中交叉特征矩陣(cross)將V L,e L進行一次交叉,V L為d×1的向量,e L為1×d的向量,矩陣計算后獲得d×d的矩陣C L。壓縮層(compress)將交叉后的矩陣C L重新壓縮回embedding space,并通過參數(shù)W L壓縮輸出V L+1,e L+1[19-20]。
圖2 交叉壓縮單元Fig.2 Cross&compression unit
MLAM算法的完整的損失函數(shù)為
在公式(12)中,第一項測量人臉識別模塊中的損失,其中u和v分別遍歷用戶和表情特征,μ是交叉熵函數(shù)。第二項計算知識圖譜特征學(xué)習(xí)模塊中的損失,目標(biāo)是提高所有正確三元組的分?jǐn)?shù),減少所有錯誤三元組的分?jǐn)?shù),最后一項是防止過度擬合的正則項。λ1和λ2是權(quán)衡參數(shù),為提高計算效率,訓(xùn)練過程中采用負(fù)采樣技術(shù)。
在識別算法部分中,輸入的是表情識別者U和情緒表征V,用表情識別者對情緒表征的感興趣的概率作為輸出,便于更好體現(xiàn)出預(yù)測模型在人臉識別主觀性方面的考量。為了建立情緒特征的個體差異性,本文設(shè)計交叉壓縮單元,交叉壓縮單元搭建起預(yù)測模型與知識圖譜之間的橋梁,實現(xiàn)兩個模塊之間的信息共享。在交替學(xué)習(xí)的過程中,分別固定識別算法模塊的參數(shù)和知識圖譜的參數(shù),同時訓(xùn)練另一個模塊的參數(shù),通過來回交替訓(xùn)練的方式,使損失不斷減小。其中利用模型進行學(xué)習(xí)的過程包括多次迭代,為了將識別算法的性能盡可能達(dá)到最優(yōu),在每次迭代過程中,交替對面部識別模塊和知識圖譜模塊進行訓(xùn)練。對于每次的迭代中兩個模塊的訓(xùn)練而言,均是通過以下的幾個步驟:
在一個訓(xùn)練輪中分為兩個階段:面部識別模塊和知識圖譜特征學(xué)習(xí)模塊。首先從輸入數(shù)據(jù)中提取小部分,對情緒表征item和head分別提取特征值,利用梯度下降(gradient descent)算法更新最終預(yù)測函數(shù)值。在每次迭代的過程中,首先對識別算法模塊訓(xùn)練i(i>1)次,然后對知識圖譜模塊訓(xùn)練1次,因為更關(guān)注于提升識別性能。
MLAM算法主要的訓(xùn)練過程如下:
1)首先構(gòu)建分類識別文件Y和知識圖譜G;
2)通過MLAM模型對數(shù)據(jù)進行學(xué)習(xí),得出預(yù)測模型;
3)預(yù)測表情識別者U對情緒表征V感興趣的概率;
4)將識別算法和知識圖譜分別視作兩個分離任務(wù),從而對兩個模塊進行交替學(xué)習(xí)。
2.1.1 CK+數(shù)據(jù)集 Cohn-Kanade+數(shù)據(jù)庫是在Cohn-Kanade上擴展而來的,是表情識別中比較常用的數(shù)據(jù)庫。它基于Cohn-Kanda數(shù)據(jù)集,由123個測試員的593個圖像序列組成。測試人員根據(jù)要求制作了23個面部動作序列。這個過程中每個測試人員圖像序列數(shù)量不盡相同,最少10幀,最多可達(dá)60幀。數(shù)據(jù)庫中包括了年齡18~30歲的亞洲和非洲人,其中女性樣本居多,本文將該數(shù)據(jù)集的20%劃分為測試集,80%用于訓(xùn)練模型[21]。
2.1.2 FER2013數(shù)據(jù)集 FER2013數(shù)據(jù)庫是Kaggle比賽的數(shù)據(jù)集,此數(shù)據(jù)庫為.csv文件,使用之前需要首先進行格式轉(zhuǎn)換,提取出相應(yīng)的樣本集。原圖像是48×48的灰度圖像,總共有7類情感。在數(shù)據(jù)庫中,該數(shù)據(jù)集有大量完整的面部表情數(shù)據(jù),不僅包括真實的面部表情圖像,還包括卡通表情圖像。該數(shù)據(jù)集共包含35 887張人臉圖片,其中訓(xùn)練集28 709張,驗證集3 589張,測試集3 589張。
2.2.1 模型測試結(jié)果分析 該文實驗是基于Python3.8版本下的PyΤorch框架,硬件配置為NVIDIA GΤX3080。為了驗證本文算法的有效性和正確性,從而進行了多次實驗驗證,該實驗首先采用FER2013數(shù)據(jù)集進行模型訓(xùn)練,該數(shù)據(jù)集中共計35 887張表情圖片,而且都是正面拍攝的圖片,避免了因為角度、光照而引起的誤差問題。由于數(shù)據(jù)集中的圖片都是隨機排列的,所以直接取前28 709張圖片做訓(xùn)練集訓(xùn)練模型,取后3 589張圖片做測試集,其次用CK+數(shù)據(jù)集進行對比參照,實驗結(jié)果對比如表1和表2所示。
表1 基于FER2013數(shù)據(jù)集的實驗結(jié)果Τab.1 Experimental results based on FER2013 data set
表2 基于CK+數(shù)據(jù)集的實驗結(jié)果Τab.2 Experimental resultsbased on CK+data set
從表1可看出,本文模型對開心和驚訝兩種表情識別準(zhǔn)度最高,F(xiàn)ER2013數(shù)據(jù)集分別為0.686和0.684,CK+數(shù)據(jù)集分別為0.981和0.984。但對悲傷和恐懼識別準(zhǔn)確率較低,F(xiàn)ER2013數(shù)據(jù)集分別為0.612和0.642,CK+數(shù)據(jù)集分別為0.910和0.934。
通過對FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集介紹,并進行數(shù)據(jù)預(yù)處理,引入多任務(wù)學(xué)習(xí)和知識圖譜表情識別算法模型,利用訓(xùn)練模型在不同的數(shù)據(jù)集上進行測試,采用多種評價指標(biāo)進行衡量,并與多種較新表情識別方法比較,進而證明方法有效性。圖3為本文基于多任務(wù)學(xué)習(xí)和知識圖譜的表情識別模型在FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集上得出的訓(xùn)練驗證精度曲線圖。由圖3可知,基于多任務(wù)學(xué)習(xí)和知識圖譜的表情識別模型具有良好的學(xué)習(xí)能力,當(dāng)訓(xùn)練次數(shù)增加,驗證精度和驗證損失也隨訓(xùn)練精度和訓(xùn)練損失值變化,整個訓(xùn)練過程并未出現(xiàn)欠擬合和過擬合現(xiàn)象,且在兩個數(shù)據(jù)集上表現(xiàn)較好,說明本文提出的基于多任務(wù)學(xué)習(xí)和知識圖譜的表情識別模型具有良好的泛化能力和學(xué)習(xí)能力。
圖3 本文數(shù)據(jù)集訓(xùn)練過程曲線圖:(a)Fer2013驗證精度曲線,(b)Fer2013驗證損失曲線,(c)CK+驗證精度曲線,(d)CK+驗證損失曲線Fig.3 Data set training process graphs:(a)FER2013 verification accuracy,(b)FER2013 verification loss,(c)CK+verification accuracy,(d)CK+verification loss
在FER2013和CK+數(shù)據(jù)集上,用本文模型進行實驗和性能分析,結(jié)果分別如表3和表4所示,表中的準(zhǔn)確率表示每個類別預(yù)測正確的準(zhǔn)確率;整體準(zhǔn)確率表示7個類別的預(yù)測正確的平均準(zhǔn)確率;權(quán)重平均值表示各數(shù)值乘以相應(yīng)權(quán)重,然后加總求和,再除以總單位數(shù);數(shù)量表示每一個類別預(yù)測的數(shù)量。需要說明的是,由于FER2013數(shù)據(jù)集存在著部分標(biāo)簽錯誤,導(dǎo)致在該數(shù)據(jù)集上進行測試,所以通常得到的分類精度不高。然而,作為一個較大人臉表情數(shù)據(jù)集,該數(shù)據(jù)集在面部表情識別領(lǐng)域仍廣泛應(yīng)用。由表3可見,厭惡類、恐懼類、正常類的精確率和召回率相差較大,整體準(zhǔn)確率只有0.671,這與FER2013數(shù)據(jù)集存在標(biāo)簽錯誤和數(shù)據(jù)集里的樣本錯誤有較大關(guān)系。由表4可看出,本文方法對數(shù)據(jù)集中每一類的分類精確率、回歸率和F1值都較高,整體準(zhǔn)確率達(dá)0.987。高興、驚訝和厭惡的表情很容易識別,而其余的表情則不然。同時,大多數(shù)混淆發(fā)生在憤怒和厭惡,悲傷和憤怒以及恐懼和驚訝的表情之間。分析原因:憤怒和厭惡表情在嘴巴周圍的紋理改變較類似,悲傷和憤怒表情紋理變化都較弱,恐懼和驚訝兩種表情在眼睛附近的紋理較為相似。
表3 基于FER2013數(shù)據(jù)集的測試指標(biāo)Τab.3 Τest indicators based on FER2013 data set
表4 基于CK+數(shù)據(jù)集的測試指標(biāo)Τab.4 Τest indicators based on CK+data set
在FER2013和CK+數(shù)據(jù)集上,采用多個其他表情識別方法進行測試和驗證,并與本文方法進行比較,得到的結(jié)果如表5和表6所示。
表5 基于FER2013數(shù)據(jù)集的識別率比較Τab.5 Comparison of recognition rate based on FER2013 data set
表6 基于CK+數(shù)據(jù)集的識別率比較Τab.6 Comparison of recognition rate based on CK+data set
2.2.2 不同網(wǎng)絡(luò)結(jié)構(gòu)對比實驗分析 AlexNet是一種在LeNet的基礎(chǔ)上加深了網(wǎng)絡(luò)的結(jié)構(gòu),它所使用的是層疊的卷積層(即卷積層+卷積層+池化層)來提取圖像的特征,使用Dropout抑制過擬合和數(shù)據(jù)增強(data augmentation)抑制過擬合,使用Relu替換之前的Sigmoid的作為激活函數(shù),圖4(a)和圖5(a)為FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集在AlexNet網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練曲線。該網(wǎng)絡(luò)架構(gòu)應(yīng)用在FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集上面得到準(zhǔn)確率為0.61和0.97,總體來說,AlexNet網(wǎng)絡(luò)結(jié)構(gòu)在特征提取不夠全面。
圖4 FER2013數(shù)據(jù)集訓(xùn)練過程曲線:(a)AlexNet網(wǎng)絡(luò)結(jié)構(gòu),(b)GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu),(c)ResNet網(wǎng)絡(luò)結(jié)構(gòu),(d)VGG11網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Τraining process curvesbased on FER2013 data set:(a)AlexNet network structure;(b)GoogLeNet network structure;(c)ResNet network structure;(d)VGG11 network structure
Goo gLeNet網(wǎng)絡(luò)架構(gòu)提升了對網(wǎng)絡(luò)內(nèi)部計算資源的利用,增加了網(wǎng)絡(luò)的深度和寬度,網(wǎng)絡(luò)深度達(dá)到22層(不包括池化層和輸入層),但沒有增加計算代價,將全連接層變成稀疏連接,包括卷積層,使用Dropout解決過擬合問題,圖4(a)和圖5(b)為FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集在GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練曲線。該網(wǎng)絡(luò)架構(gòu)應(yīng)用在FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集上面得到準(zhǔn)確率為0.621和0.980。
VGG11雖然減少了卷積層參數(shù),但實際上其參數(shù)空間比AlexNet大,其中絕大多數(shù)的參數(shù)都是來自于第一個全連接層,耗費更多計算資源,采用了Multi-Scale的方法來訓(xùn)練和預(yù)測,圖4(c)和圖5(c)為FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集在VGG11網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練曲線。該網(wǎng)絡(luò)架構(gòu)應(yīng)用在FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集上面得到準(zhǔn)確率為0.586和0.980。
圖5 CK+數(shù)據(jù)集訓(xùn)練過程曲線:(a)AlexNet網(wǎng)絡(luò)結(jié)構(gòu),(b)GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu),(c)ResNet網(wǎng)絡(luò)結(jié)構(gòu),(d)VGG11網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Τraining process curves based on CK+data set:(a)AlexNet network structure,(b)GoogLeNet network structure,(c)ResNet network structure,(d)VGG11 network structure
ResNet-18訓(xùn)練可以達(dá)到較深的網(wǎng)絡(luò)層次,很難訓(xùn)練,因為梯度反向傳播到前面的層,重復(fù)相乘可能使梯度無窮小,圖4(d)和圖5(d)為FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集在ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練曲線。但是該網(wǎng)絡(luò)架構(gòu)應(yīng)用在FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集上面得到準(zhǔn)確率為0.583和0.970。
對比表5和表6可得,在FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集上進行對比試驗,對比其他面部表情識別方法,采用本文模型能夠獲得更好的表情識別結(jié)果,F(xiàn)ER2013數(shù)據(jù)集和CK+數(shù)據(jù)集在基于多任務(wù)學(xué)習(xí)和知識圖譜的面部表情識別框架最高取得了精度為0.689和0.992。
本文提出的基于多任務(wù)學(xué)習(xí)和知識圖譜的面部表情識別方法,與現(xiàn)有深度學(xué)習(xí)方法相比,該方法在不同規(guī)模數(shù)據(jù)集上達(dá)到了更準(zhǔn)確、更有效的識別效果,尤其可以準(zhǔn)確識別“快樂”和“憤怒”,還可進一步采取微調(diào)策略修正諸如“驚喜”和“恐懼”等錯誤分類。此外,與其它現(xiàn)有方法相比,本文方法在CK+和FER2013數(shù)據(jù)集上分別達(dá)到了99.16%和68.85%的平均準(zhǔn)確度。
MLAM算法通過融合深度學(xué)習(xí)與知識圖譜,在面部表情識別任務(wù)上突顯優(yōu)勢。說明個體之間的局部表情能提高面部表情識別準(zhǔn)確率,知識圖譜能對人體與人體、人體與局部表情之間的復(fù)雜關(guān)聯(lián)進行建模。除此之外,本文采用的交叉壓縮單元是兩種數(shù)據(jù)模型耦合的關(guān)鍵。MLAM算法可以處理空間特征,在未來有潛力應(yīng)用于更加復(fù)雜的人臉情緒表征任務(wù)中,實現(xiàn)更深層次的人機交互,在機器上表現(xiàn)出更深層次更豐富逼真的表情,并有望增加語音等多模態(tài)信息,提供更好的人機交互性。