毛君宇,何廷年,郭 藝,李愛斌
西北師范大學(xué) 計算機科學(xué)與工程學(xué)院,蘭州 730070
面部表情是人類交流中幫助人們理解他人意圖的重要因素。1971年,美國心理學(xué)家Ekman和Friesen定義了七種基本面部表情,分別是快樂、悲傷、憤怒、恐懼、驚訝、厭惡和中立[1]。另外Ekman和Friesen開發(fā)了一種面部動作編碼系統(tǒng)來分析人的面部動作,人的面部表情可以分解為不同的面部動作單元組合[2]。人們可以通過面部表情來推斷其他人的情緒狀態(tài)。面部表情識別技術(shù)在精神分裂癥和創(chuàng)傷后應(yīng)激障礙等醫(yī)學(xué)輔助診斷、學(xué)生教育、娛樂等方面[3]具有廣泛應(yīng)用前景。
盡管人們對于面部表情識別技術(shù)已經(jīng)取得了進步,但仍面臨一些挑戰(zhàn),如:多尺度表情特征提取,遮擋情況下的表情識別[4]?,F(xiàn)有研究大多采用深度網(wǎng)絡(luò)進行表情識別,但其中的特征提取階段往往忽略了捕捉表情特征的多樣性及其尺度的可變性,使用具有單一尺寸和單一類型的卷積核提取特征破壞了動作單元的連續(xù)性。另外由于人臉對齊不精確或人臉配準錯誤、特征位置不準確,增加了從面部圖像提取特征的難度[5]。在現(xiàn)實生活中,復(fù)雜的光照、面部視角和頭部姿勢的變化等因素產(chǎn)生的各種遮擋會對表情識別造成影響。這些遮擋為提取的特征引入噪聲和離群值,嚴重影響面部表情識別的準確性。對于一張有遮擋的面部表情圖像,人類可以根據(jù)其他未遮擋的區(qū)域綜合判斷這是什么表情,對于計算機來說,遮擋區(qū)域往往會影響最終的表情識別效果。
為了更好地解決表情特征的多尺度提取以及降低真實場景中遮擋對識別效果的影響,提高表情的識別準確率,本文工作概括如下:
(1)由于面部表情與多個動作單元的組合相關(guān),本文提出使用金字塔卷積網(wǎng)絡(luò)進行表情圖像特征提取,不同大小卷積核組成的金字塔卷積單元可以提取到圖像的多尺度特征,提高模型的非線性表達能力。
(2)在數(shù)據(jù)擴充的基礎(chǔ)上,提出了利用全局注意力模塊來提高含有重要信息的采樣子圖像的特征權(quán)重,抑制噪聲干擾,以此提升表情識別效果。
(3)提出的金字塔卷積和全局注意力模型在公共人臉表情數(shù)據(jù)集CK+、RAF-DB、AffectNet進行實驗,驗證了該方法的有效性。
本章對于近年來真實場景下表情識別的方法,以及注意力機制和金字塔卷積的研究進行了探討。
對于真實場景下的面部表情識別,因物品造成的直接遮擋,或者光照、姿勢變化等因素造成間接遮擋是表情識別的固有挑戰(zhàn)之一。以往解決面部遮擋問題的方法可分為兩類:特征重建方法、子區(qū)域分析法。特征重建方法使用一種檢測算法來尋找被遮擋的區(qū)域,并對其進行重建從而進行識別。Zhang等人[6]提出了一種魯棒的方法,利用蒙特·卡羅方法(Monte Carlo method)提取一組基于Gabor的臉部模板,并將這些模板轉(zhuǎn)換成模板匹配距離特征。模板匹配距離特征依賴于特定表情數(shù)據(jù)集中的模板選擇,在跨數(shù)據(jù)集條件下不具有良好的泛化能力。Cornejo等人[7]通過魯棒主成分分析(robust principal component analysis,RPCA)重建了被遮擋的面部區(qū)域,并提取直方圖統(tǒng)計變換特征(census transform histogram,CENTRIST),他們應(yīng)用K最近鄰(K-nearest neighbor,KNN)算法和SVM(support vector machine)算法進行分類。另一個特征重建方法是學(xué)習(xí)一個生成模型,它可以從被遮擋的人臉中重建出一個完整的人臉[8-9]。特征重建方法依賴于不同遮擋條件下的訓(xùn)練數(shù)據(jù),但是由于遮擋的位置和類型太多,使得去表情圖像遮擋的效果不理想。
子區(qū)域分析方法將人臉分為若干子區(qū)域,并根據(jù)這些區(qū)域?qū)Ρ砬檫M行分類。Adil等人[10]利用Gabor濾波器提取感興趣區(qū)域的特征,將提取到的重要特征再送入SVM中進行分類。Dapogny等人[11]提出在表情圖像的局部子區(qū)域上訓(xùn)練隨機森林,并使用局部表情預(yù)測(local expression predictions,LEPs)作為高級特征表示,LEPs可以結(jié)合起來描述不同的面部表情以及動作單位。Li等人[12]設(shè)計了一種用于感知遮擋的網(wǎng)絡(luò)PG-CNN(patch-gated convolution neutral network),它能自動感知人臉的遮擋區(qū)域,聚焦于劃分的24個含有更多特征信息的非遮擋子區(qū)域,并將24個子區(qū)域輸入到一個注意力網(wǎng)絡(luò)中,從中得到加權(quán)級聯(lián)局部特征。Li等人[13]進一步擴展了PG-CNN的方法,通過引入全局候選單元來補充人臉圖像的全局信息來進行表情識別。然而,這些方法都要基于人臉關(guān)鍵點來選擇子區(qū)域,這一過程在遮擋的人臉圖像中并不精確,大大降低了網(wǎng)絡(luò)的性能。
由于真實場景中的遮擋復(fù)雜多樣,特征重建方法依賴大量不同遮擋條件下的訓(xùn)練數(shù)據(jù)才能有較好的效果,且人臉細節(jié)重建不理想。以往的子區(qū)域分析法依賴人臉關(guān)鍵點進行子區(qū)域劃分,而遮擋會影響人臉關(guān)鍵點檢測。需要一種不依賴人臉關(guān)鍵點檢測的表情識別方法,進行真實場景中的表情識別。
在雜亂無章的視覺場景中,人類能夠快速地定位到顯著的物體,這是人們視覺感知的注意機制。根據(jù)應(yīng)用域的不同,可以將注意力域分為空間域、通道域、時間域、混合域等。張愛梅等人[14]提出了一種注意力分層雙線性池化殘差網(wǎng)絡(luò)進行表情識別,該方法采用通道注意力機制顯式地建模各通道的重要程度,為輸出特征圖分配不同的權(quán)重,按權(quán)重值大小定位顯著區(qū)域。Gera等人[15]將空間域和通道域的注意力結(jié)合到CNN中進行情感分類,它綜合考慮了每個通道的局部空間連接模式和不同通道之間的相互依賴性。李國豪等人[16]采用時空注意力機制進行人臉微表情識別,時間注意力模塊用于學(xué)習(xí)表情序列的運動信息,將注意力集中在表情序列中判別性較強的幀。Wang等人[17]提出了一個新型區(qū)域注意力網(wǎng)絡(luò),通過主干卷積網(wǎng)絡(luò)提取各個區(qū)域特征,加權(quán)得到注意力特征信息,以提高遮擋和姿勢變化條件下的面部表情識別準確性。Farzaneh等人[18]提出了一種深層注意力中心損失(deep attentive center loss,DACL)方法,提出的DACL集成了一種注意力機制,以CNN提取的中間空間特征圖作為上下文,估計與特征重要性相關(guān)的注意力權(quán)重,以自適應(yīng)地選擇重要特征元素的子集以增強辨別力。本文在Wang等人[17]提出方法的基礎(chǔ)上,提出全局注意力模塊,注意力機制允許根據(jù)需要選擇更加顯著的特征,本文的全局注意力模塊可以更好解決真實場景表情識別問題。
深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中,通過卷積操作提取圖像特征信息,不同尺寸的卷積核可以學(xué)習(xí)的空間特征也不盡相同。對于小目標(biāo)和含有噪聲的目標(biāo)而言,細節(jié)特征信息至關(guān)重要,像素級的偏差往往會導(dǎo)致識別出現(xiàn)錯誤。金字塔卷積(pyramidal convolution,PyConv)[19]可以通過多個不同尺度的卷積核處理輸入信息。PyConv的主要優(yōu)點是多尺度處理,具有不同的空間分辨率和深度。與標(biāo)準卷積相比,PyConv可以在不增加額外成本的情況下擴大卷積核的感受野。這些不同類型的PyConv內(nèi)核帶來了互補的信息,有助于提高網(wǎng)絡(luò)的識別性能。具有較小感受野的卷積核可以關(guān)注細節(jié),捕捉關(guān)于較小對象的特征信息,而增加核的尺寸可以關(guān)注較大對象的更可靠特征。金字塔卷積可以捕捉表情特征的多樣性及其尺度的可變性,保持了面部動作單元的連續(xù)性。
本文提出了一種基于金字塔卷積網(wǎng)絡(luò)及注意力機制的網(wǎng)絡(luò)模型進行表情識別。它主要由兩個模塊組成,即金字塔卷積網(wǎng)絡(luò)、全局注意力模塊,如圖1所示。PyConv-Attention網(wǎng)絡(luò)模型從原始表情圖像中裁剪多張子圖像,然后將這些子圖像和原始表情圖像一起輸入到金字塔卷積網(wǎng)絡(luò)中進行特征提取。隨后將金字塔網(wǎng)絡(luò)提取的特征送入全局注意力模塊,為每個特征圖分配一個特征權(quán)重。原特征圖與特征權(quán)重相乘,將這些區(qū)域特性聚合為一個全局表示,利用全局特征表示對表情進行預(yù)測。
圖1 PyConv-Attention網(wǎng)絡(luò)模型Fig.1 PyConv-Attention network mode
首先進行人臉對齊,根據(jù)固定位置左上、右上、中下以及中心區(qū)域?qū)⒃急砬閳D像采樣裁剪出多張子圖像。與根據(jù)人臉中鼻子、嘴巴、眼睛等關(guān)鍵點采樣不同,該采樣方法不依賴人臉關(guān)鍵點檢測,且不會破壞不同面部動作單元組成的多尺度信息。其中左上區(qū)域、右上區(qū)域、中下區(qū)域大小為原始圖像的80%,左上區(qū)域和右上區(qū)域更多關(guān)注由眼睛和鼻子以及周圍肌肉變化組成的不同表情,避免了圖像中嘴部存在噪聲影響識別效果。中下區(qū)域避免了圖像中額頭存在噪聲影響識別效果。由于部分人臉表情主要集中在人臉中心區(qū)域,如驚訝、快樂、恐懼等表情由嘴巴及臉頰周圍的肌肉變化組成,以原始圖像的80%和90%分別裁剪兩張中心區(qū)域的子圖像。所有子圖像生成后,調(diào)整圖像尺寸,使其符合主干CNN的輸入大小。
研究表明,嘴、眼睛、眉毛和鼻子等形成了不同的動作單元,這些面部單元的組合形成了人臉表情??紤]到面部表情與多個動作單元相關(guān),金字卷積網(wǎng)絡(luò)可以提取到多尺度特征。
PyConv為一個金字塔卷積單元,如圖2所示,由不同大小和不同深度的卷積核堆砌而成,隨著卷積核尺寸的增加,它的深度相應(yīng)減小,這些卷積核能夠捕捉圖像中不同級別的細節(jié)特征。對于金字塔卷積單元,由于使用了不同深度的卷積核,采用了分組卷積的方式,輸入特征圖被分成若干組,并且針對每組輸入特征圖應(yīng)用不同深度的卷積核進行特征提取。當(dāng)分組為1時,即為標(biāo)準卷積,其中卷積核的深度等于輸入特征圖的通道數(shù)。當(dāng)輸入特征地圖被分為n組時,卷積核的深度減小為d/n,其中d為輸入特征的通道數(shù)。
圖2 金字塔卷積Fig.2 Pyramidal convolution(PyConv)
在用于圖像識別的各種方法中,由于深度殘差網(wǎng)絡(luò)易于優(yōu)化,不會隨著網(wǎng)絡(luò)深度增加而降低網(wǎng)絡(luò)性能,成為廣泛使用的方法之一。本文提出的模型架構(gòu)主要基于深度殘差網(wǎng)絡(luò)構(gòu)建,用以提取表情圖像特征的網(wǎng)絡(luò)基于殘差網(wǎng)絡(luò)進行修改。對于表情識別的PyConv網(wǎng)絡(luò)架構(gòu),主干網(wǎng)絡(luò)使用ResNet50[20],并將ResNet50中的部分卷積核替換為改進的金字塔卷積單元。該網(wǎng)絡(luò)分別采用9×9、7×7、5×5、3×3四個不同尺寸的卷積核,以提取表情圖像中的多尺度特征。修改后的金字塔卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,主要對4個殘差塊進行了修改。對于第一層殘差塊,將原始尺寸為3×3的卷積核改為金字塔卷積單元,由9×9、7×7、5×5和3×3不同尺寸的卷積核組成,步長為1,并對輸入的特征圖進行分組,分別為16組、8組、4組和1組。每種尺寸的卷積核輸出16張尺寸相同的特征圖,PyConv4得到64張輸出特征圖。訓(xùn)練每個殘差塊后使用ReLU(rectified linear unit,ReLU)作為激活函數(shù),以及使用批歸一化(batch normalization,BN)對激活值進行處理。
圖3 金字塔卷積網(wǎng)絡(luò)Fig.3 Pyramidal convolution network(PyConv network)
提出的全局注意力模塊如圖1虛線框所示,原始圖像和采樣子圖像通過金字塔卷積網(wǎng)絡(luò)提取特征后,送入全局注意力模塊經(jīng)過一個全連接層和Sigmod激活函數(shù)計算該圖像的特征權(quán)重ai,最終進行加權(quán)求和得到一個全局的特征表示Fm。將原始圖像表示為I0,將子圖像表示為I0,I1,…,Ik,并將主干網(wǎng)絡(luò)表示為r(I*;θ)。圖像I*的特征集X定義為公式(1):
其中,F(xiàn)k是經(jīng)金字塔卷積網(wǎng)絡(luò)提取的特征,θ是金字塔卷積網(wǎng)絡(luò)的參數(shù),k表示經(jīng)裁剪得到的多張子圖像。
通過金字塔卷積網(wǎng)絡(luò)提取的子圖像特征,送入全局注意力模塊使用全連接層和Sigmoid激活函數(shù)來計算注意力權(quán)重。第i個子圖的注意權(quán)重表示為公式(2):
其中,q是全連接層的參數(shù),f表示Sigmoid激活函數(shù),ai取值范圍為[0,1]。
將所有子圖像特征及其注意力權(quán)重歸納為一個全局表示Fm,F(xiàn)m即為最終的特征表示,輸入到分類器中進行預(yù)測。如公式(3)所示:
由于在一張表情圖像中存在某一重要特征信息區(qū)域,設(shè)置了注意力損失函數(shù)對原始圖像和子圖像的注意力的權(quán)重進行了限制。該損失函數(shù)強制要求來自子圖像的注意力權(quán)重之一應(yīng)大于原始表情圖像權(quán)重。注意力損失函數(shù)公式如式(4)所示:
其中,?為超參數(shù),本文中設(shè)置為0.03,μ0是原始圖像的注意力權(quán)重,μmax表示所有子圖像的最大權(quán)重。
在分類器中,采用交叉熵損失函數(shù)來訓(xùn)練表情多分類,交叉熵描述了預(yù)測的概率分布和真實概率分布之間的距離。
3.1.1 數(shù)據(jù)集
本文在3個公開的人臉表情數(shù)據(jù)集上進行實驗,分別是實驗室數(shù)據(jù)集CK+[21],以及兩個真實場景下的數(shù)據(jù)集RAF-DB[22]和AffectNet[23]。CK+包含來自123名采集者的593個表情圖像序列,這些序列表現(xiàn)出面部表情從自然到最高峰值的轉(zhuǎn)變。在這些序列中,基于面部表情動作編碼系統(tǒng)(FACS)將118名采集者的327個序列標(biāo)注為7種表情(快樂、悲傷、憤怒、厭惡、驚訝、蔑視和恐懼)。由于數(shù)據(jù)量較少,對圖像進行鏡像翻轉(zhuǎn)、旋轉(zhuǎn)等操作進行數(shù)據(jù)擴充,隨機選擇其中的4/5為訓(xùn)練集,其余1/5作為測試集。
RAF-DB為真實場景的面部表情數(shù)據(jù)集,該數(shù)據(jù)集包含單標(biāo)簽子集和雙標(biāo)簽子集。單標(biāo)簽子集包括7類基本情緒(驚訝、恐懼、厭惡、快樂、悲傷、憤怒、中立);雙標(biāo)簽子集包括12類復(fù)合情緒。在本實驗中,使用了具有7類基本情緒的15 339張圖像,數(shù)據(jù)集分為訓(xùn)練集和測試集,其中訓(xùn)練集為12 271張圖像,測試集為3 068張圖像。
AffectNet包含超過一百萬張來自互聯(lián)網(wǎng)的圖片,這些圖片是通過使用情感相關(guān)標(biāo)簽查詢不同的搜索引擎獲得的。它是迄今為止最大的表情數(shù)據(jù)集,提供兩種不同情感模型(分類模型和維度模型)中的面部表情,其中約有29萬張圖像被手動標(biāo)記為8種(驚訝、恐懼、厭惡、快樂、悲傷、憤怒、蔑視、中立)面部表情。圖4為數(shù)據(jù)集樣本圖像展示。第一排是CK+數(shù)據(jù)集樣本圖像,第二排為RAF-DB數(shù)據(jù)集樣本圖像,最后一排為AffectNet數(shù)據(jù)集圖像樣本。
圖4 數(shù)據(jù)集樣本圖片(第一至第三行依次為CK+、RAF-DB、AffectNet)Fig.4 Sample images of databases
3.1.2 數(shù)據(jù)預(yù)處理及實驗設(shè)置
因為不同數(shù)據(jù)集的圖像大小各有不同,在訓(xùn)練模型之前,需要對數(shù)據(jù)進行預(yù)處理,將所有圖像的大小調(diào)整為224×224×3。使用ResNet-50作為主干網(wǎng)絡(luò),另外,使用的ResNet-50網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上進行了預(yù)訓(xùn)練。
本文實驗在Windows 10操作系統(tǒng)下基于深度學(xué)習(xí)框架PyTorch1.5.0實現(xiàn),硬件環(huán)境:CPU為Intel?Core?i5-9400,主頻為2.9 GHz,內(nèi)存為32 GB,顯卡為NVIDIA GeForce GTX 1660Ti,顯存大小為6 GB。采用隨機梯度下降法(stochastic gradient descent,SGD)訓(xùn)練,將初始學(xué)習(xí)率設(shè)為0.01,動量為0.9,權(quán)重衰減為1×10-5。由于不同數(shù)據(jù)集中的樣本存在差異,模型在不同數(shù)據(jù)集上的收斂速度不同,本實驗在CK+、RAF-DB、AffectNet數(shù)據(jù)集上的迭代輪數(shù)分別為100、200和200。在CK+訓(xùn)練過程中,第40和80輪學(xué)習(xí)率以0.9的衰減率進行衰減;在RAF-DB、AffectNet訓(xùn)練過程中,每50輪學(xué)習(xí)率以0.9的衰減率進行衰減。
為了研究所提方法的有效性,以ResNet50網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),融合金字塔卷積以及注意力機制構(gòu)造模型,在CK+、RAF-DB、AffectNet三個數(shù)據(jù)集進行實驗,并和其他方法進行了對比。
3.2.1 子圖像實驗評估
為探究網(wǎng)絡(luò)輸入中不同數(shù)量子圖像對表情識別的影響,在RAF-DB數(shù)據(jù)集上設(shè)置了五組對照實驗,第一組僅采用原始圖像作為網(wǎng)絡(luò)輸入,此時該圖像特征的注意力權(quán)重為1,全局表示特征與經(jīng)過金字塔卷積網(wǎng)絡(luò)提取之后的一致;第二組采用原始圖像加左上、右上、中下區(qū)域三張子圖像;第三組采用原始圖像加左上、右上、中下、中心區(qū)域四張子圖像進行實驗;第四組為左上、右上、中下、兩張中心區(qū)域子圖像加原始表情圖像;第五組設(shè)置為左上、右上、中下、兩張中心區(qū)域子圖像、一張隨機位置子圖像加原始表情圖像。其中前三組所有采樣子圖像根據(jù)原始圖像的80%進行采樣裁剪,第四組中心區(qū)域子圖像分別按照原始圖像尺寸的80%、90%進行采樣裁剪,其他子圖像為原始圖像的80%。第五組中隨機位置按照原始圖像尺寸的80%采樣,其余設(shè)置與第四組相同。再將所有圖像尺寸調(diào)整到224×224×3,使其符合網(wǎng)絡(luò)輸入大小,最終實驗結(jié)果如表1所示。
表1 不同數(shù)量采樣圖像在RAF-DB的實驗對比Table 1 Experimental comparison of different number of sampled images of RAF-DB
根據(jù)表1可得,隨著采樣子圖像數(shù)量的增加,識別的效果也隨之增加,但準確率的增長幅度趨于穩(wěn)定。在第四組、第五組實驗中,識別準確率較好,準確率分別達到87.34%和87.47%。考慮到準確率增長趨于穩(wěn)定,過多增加采樣子圖像數(shù)量會造成計算量的增加,在后續(xù)實驗中,統(tǒng)一采用第四組采樣方法。
3.2.2 CK+實驗結(jié)果
提出的模型在CK+數(shù)據(jù)集上的混淆矩陣結(jié)果如圖5所示。對于快樂、悲傷、憤怒、厭惡、驚訝和恐懼六種表情,識別準確率都在95%以上。識別準確率最低的表情“蔑視”也達到了94%,對于“快樂”“驚訝”這兩種特征比較明顯的表情,識別率達到了99%以上。
圖5 CK+混淆矩陣Fig.5 Confusion matrix of CK+
所提出的模型與其他主流方法在CK+數(shù)據(jù)集上進行了對比,實驗結(jié)果如表2所示。可以看到,本文所提出的模型在CK+數(shù)據(jù)集的準確率為98.46%。與Gabor[10]、WLS-RF[11]、pACNN[13]、SCAN[15]四種方法相比分別高出6.27、4.16、1.43、1.15個百分點??梢钥吹剑疚奶岢龅腜yConv-Attention Network在實驗室數(shù)據(jù)集上的識別取得了較為滿意的準確率。
表2 CK+數(shù)據(jù)集上的實驗對比Table 2 Experimental comparison of CK+database
3.2.3 RAF-DB實驗結(jié)果
圖6是在數(shù)據(jù)集RAF-DB的混淆矩陣,結(jié)果表明,該方法對“快樂”“中性”“驚訝”和“悲傷”四種特征明顯的表情識別準確率較高。而對于外觀變化并不明顯的表情“恐懼”和“厭惡”兩種表情識別率為79%和80%,對于“驚訝”“快樂”“中立”等表情的識別準確率較高。
圖6 RAF-DB混淆矩陣Fig.6 Confusion matrix of RAF-DB
表3是RAF-DB數(shù)據(jù)集上與其他方法的對比結(jié)果。本文方法取得了87.34%的準確率,僅次于DACL[18]深層注意力中心損失方法。與方法gACNN[13]和RAN[17]相比,本文模型在關(guān)注圖像重要區(qū)域的同時,通過金字塔卷積網(wǎng)絡(luò)進行特征提取,這樣使得網(wǎng)絡(luò)提取到多尺度特征。和WGAN[9]相比,本文方法不依賴人臉的關(guān)鍵點檢測,可有效避免因關(guān)鍵點檢測有誤對表情識別造成的影響。
表3 RAF-DB數(shù)據(jù)集上的實驗對比Table 3 Experimental comparison of RAF-DB database
3.2.4 AffectNet實驗結(jié)果
圖7是在AffectNet數(shù)據(jù)集上對八種表情識別的實驗結(jié)果,由于數(shù)據(jù)量大且每類表情圖像數(shù)量不均衡,這是實驗中最具有挑戰(zhàn)性的數(shù)據(jù)集。實驗結(jié)果中,只有“快樂”取得了80%以上的準確率,其次是“恐懼”和“中立”識別效果較好,而“蔑視”表情為44%的識別準確率。
圖7 AffectNet混淆矩陣Fig.7 Confusion matrix of AffectNet
表4是AffectNet數(shù)據(jù)集上對表情識別的對比情況,本文在所有對比方法中,與EPI[8]、gACNN[13]、RAN[17]、WGAN[9]相比,準確率分別提高了4.03、1.67、0.95、0.72個百分點。本文提出的方法在RAF-DB和AffectNet兩個數(shù)據(jù)集上,與gACNN[13]、RAN[17]、WGAN[9]三種方法相比,均有不同程度的領(lǐng)先。EPI[8]提出的特征重建網(wǎng)絡(luò),會丟失一些重要的細節(jié)特征或者將原始表情圖像重建為其他表情圖像,因此效果和其他方法相比較差。從本文方法在三個公開數(shù)據(jù)集上的表現(xiàn)以及與現(xiàn)有方法的對比分析結(jié)果來看,本文提出的方法具有一定的先進性。
表4 AffectNet數(shù)據(jù)集上的實驗對比Table 4 Experimental comparison of AffectNet database
3.2.5 消融實驗
本文方法包括金字塔卷積模塊和全局注意力模塊兩個主要部分,為了分析不同部分對表情識別效果的影響,以CK+和RAF-DB數(shù)據(jù)集為例進行消融實驗。
本小節(jié)設(shè)置僅使用ResNet50網(wǎng)絡(luò),與分別加入全局注意力和金字塔卷積的模型進行對比實驗,分析兩個模塊對識別性能的影響,在CK+和RAF-DB兩個數(shù)據(jù)集的實驗結(jié)果如表5所示。可以看出相較于ResNet50基線網(wǎng)絡(luò),加入全局注意力和金字塔卷積在兩個數(shù)據(jù)集中識別準確率都有一定提升。通過添加注意力機制,促使網(wǎng)絡(luò)關(guān)注特征明顯的子圖像,識別準確率相較于ResNet50基線網(wǎng)絡(luò)在CK+和RAF-DB數(shù)據(jù)集有3.23和6.18個百分點的提升。金字塔卷積通過集成不同尺度的卷積核獲取信息豐富的多尺度特征,使網(wǎng)絡(luò)學(xué)習(xí)不同表情中的細微差異,相較于基線網(wǎng)絡(luò)在CK+和RAF-DB有2.12和4.41個百分點的提升。全局注意力與金字塔卷積的共同作用在CK+和RAF-DB數(shù)據(jù)集上相較于基線網(wǎng)絡(luò)分別提高了4.87和8.8個百分點的準確率,說明了本文方法的有效性。
表5 CK+和RAF-DB數(shù)據(jù)集消融實驗結(jié)果Table 5 Ablation experimental results of CK+and RAF-DB databases
本文以殘差網(wǎng)絡(luò)作為基礎(chǔ)框架,設(shè)計了融合金字塔卷積和全局注意力的人臉表情識別模型。金字塔卷積能夠?qū)W習(xí)到多尺度的特征信息,提高模型的非線性表達能力;注意力機制能夠使網(wǎng)絡(luò)更多關(guān)注重要特征信息,抑制噪聲干擾。所提模型在CK+、RAF-DB、AffectNet三個公開表情數(shù)據(jù)集上分別取得了98.46%,87.34%,60.45%的準確率,結(jié)果優(yōu)于諸多人臉表情識別方法。后續(xù)工作中,將對模型結(jié)構(gòu)繼續(xù)進行優(yōu)化,以進一步提高模型的表情識效果。