• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多尺度融合注意力機(jī)制的人臉表情識(shí)別網(wǎng)絡(luò)

      2023-01-13 11:58:16羅思詩(shī)李茂軍
      關(guān)鍵詞:集上人臉注意力

      羅思詩(shī),李茂軍,陳 滿

      長(zhǎng)沙理工大學(xué) 電氣與信息工程學(xué)院,長(zhǎng)沙 410114

      在人類的交流過(guò)程中,面部表情是日常生活中最主要的一種信息傳遞方式。面部表情不僅可以呈現(xiàn)人類的情緒狀態(tài),更能反映人類的情感。經(jīng)過(guò)心理學(xué)家調(diào)查研究發(fā)現(xiàn),當(dāng)人們面對(duì)面交流時(shí),人臉表情傳遞的情感信息是總體信息的55%,而語(yǔ)言所占有的信息僅含7%。人臉表情識(shí)別是情感計(jì)算研究的一個(gè)重要方向。近年來(lái),人臉表情識(shí)別技術(shù)在機(jī)器人制造、醫(yī)療服務(wù)、通信和駕駛等需要人機(jī)交互的系統(tǒng)中有著廣闊的應(yīng)用前景。

      人臉表情識(shí)別包括4個(gè)步驟:圖像采集、圖像預(yù)處理、特征提取和表情識(shí)別分類。特征提取是最為重要的一步,對(duì)表情識(shí)別結(jié)果有決定性影響,研究人員在這方面進(jìn)行了大量的深入研究,提出了許多方法。傳統(tǒng)的表情識(shí)別先人為設(shè)計(jì)特征,再用分類器將表情分類,常見的提取特征方法有:局部二值模式(local binary pattern,LBP)[1]、主成分分析法(principal component analysis,PCA)[2]以及Gabor小波變換[3]等。Zhu等[4]將等效主成分分析用作表情特征表示,線性回歸分類作為表達(dá)分類器,保留了原始圖像的有用信息,同時(shí)減少特征向量數(shù)據(jù)維度。傳統(tǒng)尺度不變特征變換(scale invariant feature transform,SIFT)方法提取特征點(diǎn)數(shù)量和位置具有不確定性,因此Shi等[5]提出了一種特征點(diǎn)約束算法,以SIFT描述符為特征參數(shù),確定能夠有效代表表情變化區(qū)域特征點(diǎn)的最佳位置,并提取區(qū)域梯度信息。傳統(tǒng)方法為表情識(shí)別打下了較好的基礎(chǔ)并做出了很大貢獻(xiàn),但人工設(shè)計(jì)的特征提取算法因難以有效處理背景、角度等因素的干擾,識(shí)別性能有限,泛化能力不足。

      近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的應(yīng)用,并都取得了優(yōu)異的成績(jī)。與傳統(tǒng)設(shè)計(jì)方法相比,深度神經(jīng)網(wǎng)絡(luò)能夠自主學(xué)習(xí)特征,而且對(duì)存在光照、不同姿態(tài)等一些更難以識(shí)別的人臉表情圖像識(shí)別準(zhǔn)確率更高,穩(wěn)定性更好。Chen等[6]提出的方法由一個(gè)輸入是完整人臉圖像的主網(wǎng)絡(luò)和一個(gè)輸入是包含突出表情特征區(qū)域的預(yù)處理人臉圖像的輔助學(xué)習(xí)網(wǎng)絡(luò)組成。主網(wǎng)絡(luò)與輔助網(wǎng)絡(luò)結(jié)構(gòu)共享參數(shù),能有效提高關(guān)注突出表情變化區(qū)域的能力。方明等[7]提出一種結(jié)合殘差網(wǎng)絡(luò)及目標(biāo)掩膜的特征提取方法,定位人眼的關(guān)鍵區(qū)域后進(jìn)行圖像掩膜,能減少眨眼動(dòng)作對(duì)特征提取造成的干擾,歐拉視頻放大算法能對(duì)微表情變化的關(guān)鍵區(qū)域進(jìn)行放大,獲得更明顯的表情變化。崔子越等[8]通過(guò)對(duì)預(yù)訓(xùn)練的VGG模型進(jìn)行微調(diào),并設(shè)置概率閾值對(duì)Focal Loss進(jìn)行改進(jìn),避免誤標(biāo)注樣本對(duì)模型分類性能產(chǎn)生影響。通過(guò)設(shè)計(jì)深層的網(wǎng)絡(luò)結(jié)構(gòu)或者對(duì)損失函數(shù)進(jìn)行改進(jìn)優(yōu)化等方法通??梢垣@得良好的識(shí)別效果,但與此同時(shí)網(wǎng)絡(luò)層數(shù)、模型復(fù)雜度和參數(shù)量也不斷增加,計(jì)算代價(jià)越來(lái)越昂貴,容易產(chǎn)生過(guò)擬合等問(wèn)題。值得注意的是,在MobileNet[9]中提出的深度可分離卷積將傳統(tǒng)卷積拆分為兩部分執(zhí)行,在幾乎不損失精度的情況下大大減少了參數(shù)的計(jì)算量,可有效克服過(guò)擬合問(wèn)題。

      在實(shí)際分類任務(wù)中,有效特征信息只分布在圖像的局部區(qū)域,為了突出有效特征信息,一些研究引入了注意力機(jī)制。Wang等[10]提出了一種自愈網(wǎng)絡(luò)來(lái)抑制面部表情數(shù)據(jù)的不確定性,其中自注意力模塊學(xué)習(xí)每個(gè)面部圖像的權(quán)重,以捕獲樣本對(duì)訓(xùn)練的重要性。Li等[11]提出了一種在有遮擋的情況下進(jìn)行面部表情識(shí)別的方法,利用注意力機(jī)制關(guān)注未被遮擋的部分,但網(wǎng)絡(luò)依賴于人臉關(guān)鍵點(diǎn)檢測(cè),遮擋面積較大時(shí),難生成自適應(yīng)權(quán)重。但上述方法均為完整網(wǎng)絡(luò)結(jié)構(gòu),不易遷移。Wang等[12]提出一種高效通道注意力網(wǎng)絡(luò),采用特征重標(biāo)定方式,強(qiáng)調(diào)有用區(qū)域并抑制用處不大的區(qū)域,提升效果顯著,且增加的模型復(fù)雜度小,可以直接插入到現(xiàn)有網(wǎng)絡(luò)中使用。

      為了更好地提取人臉表情的有效特征,提高識(shí)別精度,同時(shí)減少網(wǎng)絡(luò)模型參數(shù),提出一種多尺度融合注意力機(jī)制的人臉表情識(shí)別網(wǎng)絡(luò),本文工作概括如下:

      (1)為了引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)對(duì)表情更有判別作用的局部特征信息,提出了利用高效通道注意力機(jī)制來(lái)提高關(guān)鍵特征的權(quán)重,強(qiáng)調(diào)表情識(shí)別的有效特征區(qū)域,有效提升了表情識(shí)別性能。

      (2)引入具有多尺度卷積核的Inception模塊可以獲得更為豐富的圖像特征,通過(guò)在不同尺度上進(jìn)行卷積再聚合增加網(wǎng)絡(luò)的感受野,增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

      (3)在網(wǎng)絡(luò)模型中增加深度可分離卷積以減少參數(shù)計(jì)算量,降低模型復(fù)雜度,使網(wǎng)絡(luò)具有更好的抗過(guò)擬合性能。

      本文方法在兩個(gè)公開人臉表情數(shù)據(jù)集上進(jìn)行驗(yàn)證,并與其他幾種方法進(jìn)行對(duì)比,結(jié)果表明本文方法有較好的效果。

      1 表情識(shí)別網(wǎng)絡(luò)模型

      1.1 ECA注意力機(jī)制

      人臉表情的有效特征信息只分布在圖像的局部區(qū)域。為了從表情圖像中篩選出有效特征信息,引入注意力機(jī)制到網(wǎng)絡(luò)模型中。ECA-Net是一種超輕量級(jí)注意力模塊,其主要作用是考慮每個(gè)通道與其相鄰幾個(gè)通道進(jìn)行跨通道信息交互并生成權(quán)重值。增加面部表情關(guān)鍵特征的權(quán)重,降低無(wú)關(guān)特征權(quán)重,使網(wǎng)絡(luò)優(yōu)先關(guān)注有用的信息,提升網(wǎng)絡(luò)對(duì)重要特征的敏感度,其對(duì)識(shí)別準(zhǔn)確率的提升效果卓越。ECA-Net結(jié)構(gòu)圖如圖1所示。

      圖1 ECA-Net結(jié)構(gòu)圖Fig.1 Structure diagram of ECA-Net

      假設(shè)網(wǎng)絡(luò)的輸入特征圖為F∈RH×W。首先,對(duì)特征圖在不降低維度的情況下對(duì)每個(gè)通道都采用全局平均池化,將每個(gè)二維的特征通道壓縮到單個(gè)實(shí)數(shù)再進(jìn)行提取,得到一個(gè)1×1×C的全局描述特征。其次,考慮每個(gè)通道及其k個(gè)近鄰來(lái)捕獲本地跨通道交互信息,可以通過(guò)執(zhí)行卷積核大小為k的快速一維卷積有效實(shí)現(xiàn)。其中k代表跨通道交互的覆蓋范圍,即有多少個(gè)相近鄰參與一個(gè)通道的注意力預(yù)測(cè),并用sigmoid激活函數(shù)生成各通道的權(quán)重占比。最后,把得到的各個(gè)通道權(quán)重值對(duì)輸入特征圖的每個(gè)通道加權(quán),完成了特征在通道空間中的重新校準(zhǔn)。

      ECA-Net只考慮每個(gè)通道與其k近鄰之間的相互作用,相比跨所有通道交互,能降低模型復(fù)雜度并提高效率。通過(guò)大小為k的一維卷積為每個(gè)通道生成權(quán)重,即:

      式中C1Dk表示核大小為k的一維卷積,y表示通道,σ表示sigmoid激活函數(shù)。k與通道維數(shù)有關(guān),通道維數(shù)越大,則局部跨通道交互的范圍k就越大。通過(guò)與通道維數(shù)相關(guān)的函數(shù)自適應(yīng)確定k值,即:

      因此可得:

      式中||todd為距離t最近的奇數(shù),γ和b的值分別設(shè)置為2和1。

      1.2 深度可分離卷積

      MobileNet是Howard等在2017年提出的一種輕量網(wǎng)絡(luò),它的基本單元是深度可分離卷積,其核心思想是將一個(gè)完整的卷積運(yùn)算分解為兩步進(jìn)行。第一步是深度卷積,深度卷積屬于濾波階段,把傳統(tǒng)的三維卷積核分解為一個(gè)逐通道處理的二維卷積核,每個(gè)卷積核分別處理輸入特征圖的一個(gè)通道,每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算,將卷積處理后得到的所有特征圖按順序進(jìn)行拼接得到最終輸出。第二步是點(diǎn)卷積,實(shí)際為1×1卷積。點(diǎn)卷積屬于組合階段,它對(duì)輸入進(jìn)行逐點(diǎn)卷積,把深度卷積輸出的特征圖進(jìn)行通道融合,得到新的特征圖。標(biāo)準(zhǔn)卷積與深度可分離卷積的對(duì)比如圖2所示。

      圖2 兩種卷積對(duì)比Fig.2 Comparison of two convolutions

      假設(shè)輸入特征圖尺寸為DF×DF×M,卷積核大小為D×D,輸出特征圖尺寸為DF×DF×N。標(biāo)準(zhǔn)卷積計(jì)算量為D×D×M×N×DF×DF,而深度可分離卷積計(jì)算量為D×D×1×M×DF×DF+1×1×M×N×DF×DF,可得出深度可分離卷積與標(biāo)準(zhǔn)卷積計(jì)算量之比為由此可見,與標(biāo)準(zhǔn)卷積相比,深度可分離卷積能夠大幅度減少參數(shù),有效提高了訓(xùn)練與識(shí)別的速度。

      1.3 Inception

      GoogLeNet[13]是Google推出的基于Inception模塊的深度神經(jīng)網(wǎng)絡(luò)模型,其目的是在保證模型質(zhì)量的前提下,解決卷積層堆疊的問(wèn)題,避免冗余計(jì)算,減少參數(shù)數(shù)量,提取高維特征。其中不同尺度的卷積核不僅增強(qiáng)了網(wǎng)絡(luò)的泛化能力和結(jié)構(gòu)表達(dá)能力,而且為網(wǎng)絡(luò)模型增加更多的非線性,大大提高了卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

      Inception模塊對(duì)輸入圖像并行執(zhí)行多個(gè)卷積運(yùn)算,并將所有輸出結(jié)果拼接為一個(gè)特征圖。如圖3所示,一個(gè)Inception模塊包含3個(gè)不同尺寸的卷積核和一個(gè)最大池化層,并在每一層都使用一個(gè)1×1卷積,既在相同尺寸的感受野中疊加更多的卷積,提取到更豐富的特征,又進(jìn)行降維,降低計(jì)算復(fù)雜度。在多個(gè)尺度上進(jìn)行卷積再聚合可以獲得圖像的不同信息,將4個(gè)分支的輸出在特征維度上拼接起來(lái),融合不同尺度特征,使網(wǎng)絡(luò)獲得不同的感受野。

      圖3 Inception結(jié)構(gòu)Fig.3 Inception structure

      1.4 表情識(shí)別網(wǎng)絡(luò)

      受文獻(xiàn)[14-16]的啟發(fā),本文提出了一種多尺度融合注意力機(jī)制的人臉表情識(shí)別方法,網(wǎng)絡(luò)框架如圖4所示。把圖像送入網(wǎng)絡(luò)進(jìn)行一系列運(yùn)算,提取表情特征,然后進(jìn)行分類。采用Inception模塊對(duì)輸入圖像降低通道數(shù)將信息聚集,再進(jìn)行多個(gè)尺度的特征提取及池化操作,獲得輸入圖像的不同尺度信息,既減少參數(shù)個(gè)數(shù),又增強(qiáng)特征提取功能。不同類別的表情通常在某些局部區(qū)域改變更為明顯,因此為了使網(wǎng)絡(luò)更加關(guān)注這些關(guān)鍵區(qū)域的信息,捕獲圖像中更具分辨力的特征,在網(wǎng)絡(luò)中使用了高效通道注意力機(jī)制,提升表情識(shí)別性能。此外,在通道數(shù)較大的卷積層將普通卷積替換成深度可分離卷積,大幅降低了模型的參數(shù)量。

      圖4 網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.4 Structure diagram of network model

      所提網(wǎng)絡(luò)結(jié)構(gòu)及詳細(xì)參數(shù)信息如表1所示。網(wǎng)絡(luò)主要由11個(gè)卷積層依次相連組成,將第6層的普通卷積層替換為Inception模塊,第9、10個(gè)卷積層采用深度可分離卷積,第11層使用ECA注意力模塊。卷積層的所有卷積核大小為3×3,步長(zhǎng)為1,最后接一個(gè)全局平均池化。網(wǎng)絡(luò)中的部分卷積層后依次使用批量歸一化和SeLU激活函數(shù),并且分別在第2、4、6、8、10層后嵌入了窗口大小為2、步長(zhǎng)為2的最大池化層。

      表1 模型參數(shù)Table 1 Model parameters

      2 實(shí)驗(yàn)

      2.1 數(shù)據(jù)集

      FER-2013[17]是目前較大的人臉表情識(shí)別公開數(shù)據(jù)庫(kù),由Kaggle人臉表情識(shí)別挑戰(zhàn)賽提供,共包含35 887張人臉表情圖像。其中訓(xùn)練集圖像28 709張,公共驗(yàn)證集圖像和私有驗(yàn)證集圖像分別有3 589張。所有圖像均已被標(biāo)記且固定為48×48的圖像,共有7種標(biāo)簽,分別為:憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視。如圖5為該數(shù)據(jù)集中各類表情樣例,在面部姿態(tài)、角度、年齡等方面都有較大差異,反映了不同環(huán)境下人臉表情的真實(shí)狀態(tài),很多圖片還有手、眼鏡和頭發(fā)等的遮擋,與真實(shí)環(huán)境中的條件非常接近,更具有說(shuō)服力。

      圖5 FER-2013表情庫(kù)7種表情示例圖像Fig.5 7 kinds of facial expression images in FER-2013 expression dataset

      CK+數(shù)據(jù)集[18]是用于評(píng)估人臉表情識(shí)別方法最廣泛的數(shù)據(jù)集。該數(shù)據(jù)集包含了123個(gè)人的593個(gè)圖像序列,其中有327個(gè)帶標(biāo)簽的圖像序列,從中選取表情較為強(qiáng)烈的圖像作為實(shí)驗(yàn)數(shù)據(jù),共選出981張圖像,有以下7種表情:憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視,將圖像的人臉裁剪到大小固定為48×48。如圖6為7種表情示例圖像。

      圖6 CK+表情庫(kù)7種表情示例圖像Fig.6 7 kinds of facial expression images in CK+expression dataset

      2.2 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)操作系統(tǒng)為Windows10,實(shí)驗(yàn)環(huán)境python3.8,深度學(xué)習(xí)框架PyTorch,硬件平臺(tái)為CPU AMD EPYC 7302 16-Core Processor,內(nèi)存為251 GB,GPU為23 GB的NVIDIA GeForce RTX 3090。

      2.3 數(shù)據(jù)增強(qiáng)

      為了減少訓(xùn)練過(guò)程中的過(guò)擬合,提升模型的泛化能力,增強(qiáng)模型的魯棒性,使模型在有噪聲和角度變換等干擾的情況下保持穩(wěn)定性,在實(shí)驗(yàn)中對(duì)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng)。在訓(xùn)練之前,將原始圖像隨機(jī)裁剪為44×44大小,對(duì)裁剪之后的圖像進(jìn)行水平翻轉(zhuǎn),使數(shù)據(jù)集擴(kuò)充為原來(lái)的兩倍。在測(cè)試集上,采用TenCrop策略,即在原圖片的4個(gè)角和中心各截取一幅大小為44×44的圖片,然后對(duì)圖片進(jìn)行水平翻轉(zhuǎn),進(jìn)而將數(shù)據(jù)擴(kuò)增為原數(shù)據(jù)的10倍。

      2.4 實(shí)驗(yàn)結(jié)果與分析

      在FER-2013數(shù)據(jù)集上訓(xùn)練時(shí),對(duì)實(shí)驗(yàn)進(jìn)行250個(gè)epoch的訓(xùn)練,初始學(xué)習(xí)率設(shè)為0.01,批量大小為32,50次迭代后,每8輪迭代學(xué)習(xí)率的衰減為之前的0.8倍。在驗(yàn)證集上測(cè)試調(diào)整網(wǎng)絡(luò)超參數(shù),最后在測(cè)試集上評(píng)估模型性能。其混淆矩陣如圖7所示。

      圖7 FER-2013識(shí)別結(jié)果混淆矩陣Fig.7 Confusion matrix of FER-2013 recognition results

      由圖7可以看出,高興和驚訝等表情與其他種類表情相比,面部特征更加明顯,因此能得到更高的識(shí)別率。高興表情中大部分具有嘴角上揚(yáng)、眼角有紋路等顯著特征。驚訝表情中具有眼睛睜大、嘴巴張開等特征,在恐懼中也存在嘴巴張開的情況,但恐懼時(shí)的嘴巴張開幅度更大,這一特點(diǎn)使得驚訝容易與恐懼混淆。憤怒、悲傷和恐懼3種表情識(shí)別率相對(duì)較低??謶值淖R(shí)別難度最大,其不僅容易與驚訝混淆,還容易與悲傷混淆,因?yàn)檫@兩類表情均有皺眉、額頭緊皺等相同特征。這三類表情同屬于消極類情緒,本身具有較強(qiáng)的相似性,面部關(guān)鍵點(diǎn)通常只有細(xì)微的改變,互相錯(cuò)分的比例較高。此外,數(shù)據(jù)集中各表情圖片類別數(shù)據(jù)的不均衡導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不充分,也是影響其識(shí)別率的重要因素。

      因CK+數(shù)據(jù)集圖片量較少,因此在訓(xùn)練時(shí)采用十折交叉驗(yàn)證。將數(shù)據(jù)集按9∶1的比例分為訓(xùn)練集和測(cè)試集,訓(xùn)練集882張圖片,測(cè)試集99張圖片。實(shí)驗(yàn)共訓(xùn)練100輪,批量大小為64,其余參數(shù)設(shè)置同F(xiàn)ER-2013數(shù)據(jù)集一樣。其測(cè)試集混淆矩陣如圖8所示。

      從圖8中可以看出,高興、驚喜、厭惡等均有較高的識(shí)別率,而憤怒、恐懼、藐視、悲傷等表情的識(shí)別準(zhǔn)確率相對(duì)較低,原因是這幾類表情的訓(xùn)練樣本數(shù)據(jù)較少,類別數(shù)據(jù)不均衡,網(wǎng)絡(luò)對(duì)特征的訓(xùn)練不充分。除此以外,消極類別的表情特征本身類似,大多具有嘴角向下、眉頭皺起等特征,容易混淆,如圖9中的憤怒被識(shí)別成厭惡,傷心被識(shí)別成蔑視等,也會(huì)導(dǎo)致識(shí)別率降低。

      圖9 識(shí)別失敗示例圖Fig.9 Example diagram of recognition failure

      由圖7和圖8可知,同一個(gè)算法在CK+數(shù)據(jù)集上得到的識(shí)別結(jié)果比FER-2013數(shù)據(jù)集的要更好,其原因是FER-2013數(shù)據(jù)集存在大量面部受遮擋圖片,與現(xiàn)實(shí)生活中的真實(shí)情況更貼合,且存在部分表情標(biāo)簽誤分的問(wèn)題,更具有挑戰(zhàn)性和代表性。而CK+是標(biāo)準(zhǔn)實(shí)驗(yàn)室圖片,排除了如光照、角度變化等眾多影響因素,都是清晰的正面表情,所以識(shí)別率相對(duì)于FER-2013來(lái)說(shuō)要高很多。

      圖8 CK+識(shí)別結(jié)果混淆矩陣Fig.8 Confusion matrix of CK+recognition results

      為了驗(yàn)證本文方法的有效性,本文在CK+和FER-2013數(shù)據(jù)集上與幾種國(guó)內(nèi)外現(xiàn)有的公開方法進(jìn)行了比較。不僅對(duì)比了本文算法與表情識(shí)別經(jīng)典算法的準(zhǔn)確率,并與近幾年最新的表情識(shí)別算法進(jìn)行了比較。

      由表2、3可知,大部分模型都取得了較好的準(zhǔn)確率。其中在CK+數(shù)據(jù)集上,本文算法達(dá)到95.76%的準(zhǔn)確率;在包含人臉遮擋和圖像對(duì)比度低的FER-2013數(shù)據(jù)集上,本文算法達(dá)到較高的72.28%的準(zhǔn)確率。因此,在圖像清晰、影響因素較少的情況下,當(dāng)前大多數(shù)方法都能獲得較為理想的效果,但在更真實(shí)復(fù)雜的場(chǎng)景下,很多方法并不適用。而MIANet引入Inception結(jié)構(gòu)提取圖像的多尺度特征信息;且還使用了ECA注意力機(jī)制,能提取到重要特征。因此可以有效解決上述問(wèn)題,實(shí)驗(yàn)結(jié)果也展現(xiàn)了MIANet識(shí)別準(zhǔn)確率較好,獲得目前良好的效果。

      表2 不同算法在FER-2013數(shù)據(jù)集上的識(shí)別率Table 2 Recognition accuracy with different algorithms on FER-2013 dataset

      表3 不同算法在CK+數(shù)據(jù)集上的識(shí)別率Table 3 Recognition accuracy with different algorithms on CK+dataset

      為了進(jìn)一步驗(yàn)證模型具有較好特征提取能力的同時(shí)又具有輕量性,將表2、3中部分網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量與本文實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,如表4所示,可以看出MIANet的參數(shù)量遠(yuǎn)小于其他網(wǎng)絡(luò),并且依然能達(dá)到較高的識(shí)別精度,這表明MIANet能較好地兼顧識(shí)別準(zhǔn)確率與網(wǎng)絡(luò)的輕量化。

      表4 不同方法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量Table 4 Network structure parameters of different methods

      2.4.1 注意力模型對(duì)比實(shí)驗(yàn)

      為了驗(yàn)證通道注意力模塊的有效性,將引入了Inception和深度可分離卷積的網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)Basis,分別嵌入不同的注意力模型SE、CBAM、ECA后在CK+數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。由表5可知,在其他實(shí)驗(yàn)參數(shù)不變的情況下,加入ECA-Net的識(shí)別效果最好,充分驗(yàn)證了ECA注意力機(jī)制的有效性。嵌入注意力模型的網(wǎng)絡(luò)相比于基礎(chǔ)網(wǎng)絡(luò)識(shí)別率均有提升,而嵌入ECA-Net的識(shí)別準(zhǔn)確率最高,相比基礎(chǔ)網(wǎng)絡(luò)提高了2.43個(gè)百分點(diǎn),因此在本文中,相較于其他注意力模塊,ECA能給網(wǎng)絡(luò)帶來(lái)更好的識(shí)別性能。

      表5 注意力模型對(duì)比結(jié)果Table 5 Comparison results of attention models

      隨機(jī)挑選兩張表情圖像,根據(jù)Grad-CAM方法生成ECA模塊上一層和該層的可視化熱力圖,觀察網(wǎng)絡(luò)在這兩層的輸出分別更側(cè)重于哪塊區(qū)域,如圖10所示。人臉表情特征主要體現(xiàn)在幾個(gè)局部區(qū)域,如:眉毛、嘴部、鼻翼等,不同類別的表情在這些局部區(qū)域會(huì)有不同的表現(xiàn)。因此,引導(dǎo)網(wǎng)絡(luò)關(guān)注這幾個(gè)關(guān)鍵部位的特征信息會(huì)有利于識(shí)別效果的提升。由圖10可知,在加入ECA模塊后,網(wǎng)絡(luò)將會(huì)更關(guān)注對(duì)分類起到重要作用的有效特征區(qū)域,使得模型能捕獲到用于分類的有效特征。

      圖10 ECA模塊對(duì)特征提取的影響Fig.10 Impact of ECA module on feature extraction

      2.4.2 模塊有效性驗(yàn)證實(shí)驗(yàn)

      為了進(jìn)一步驗(yàn)證本文所提方法的有效性,本文進(jìn)行消融實(shí)驗(yàn)。其步驟依次如下:(1)首先在沒(méi)有引入任何其他模塊的基礎(chǔ)網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),此方法記為Base;(2)在Base方法基礎(chǔ)上,加入深度可分離卷積但不使用注意力機(jī)制和Inception,此方法記為Base+Separable;(3)在Base方法基礎(chǔ)上,引入注意力機(jī)制但不加入深度可分離卷積和Inception,此方法記為Base+ECA-Net;(4)在Base方法基礎(chǔ)上,引入Inception但不加入深度可分離卷積和注意力機(jī)制,此方法記為Base+Inception;(5)在Base方法基礎(chǔ)上,同時(shí)引入Inception、注意力機(jī)制和深度可分離卷積,即MIANet。表6展示了各方法在FER-2013和CK+數(shù)據(jù)集上的識(shí)別結(jié)果。

      表6 消融實(shí)驗(yàn)Table 6 Ablation experiments

      MIANet驗(yàn)證了深度可分離卷積、通道注意力機(jī)制和多尺度提取Inception三個(gè)模塊的有效性。將各個(gè)模塊分別進(jìn)行了對(duì)比實(shí)驗(yàn),表6中的結(jié)果顯示每個(gè)模塊在不同數(shù)據(jù)集上對(duì)表情識(shí)別準(zhǔn)確率的效果。由表6可知,在添加通道注意力機(jī)制后檢測(cè)效果有所提高,且增加的參數(shù)量可以忽略不計(jì),這表明ECA-Net是有效且超輕量的。Inception模塊效果顯著,其中的1×1卷積既能起到疊加作用,提取更豐富的特征,又能進(jìn)行降維,降低了計(jì)算復(fù)雜度。深度可分離卷積使得模型參數(shù)量大幅縮減,降低了計(jì)算量。但其在兩個(gè)數(shù)據(jù)集上產(chǎn)生了不同的效果。在CK+數(shù)據(jù)集上有明顯的效果,但在FER-2013數(shù)據(jù)集上準(zhǔn)確率反而有所下降,這是因?yàn)镃K+是小型數(shù)據(jù)集,圖片數(shù)量少,當(dāng)使用深度可分離卷積時(shí)可以緩解網(wǎng)絡(luò)的過(guò)擬合現(xiàn)象,因此準(zhǔn)確率有所上升;而FER-2013是大型數(shù)據(jù)集,使用深度可分離卷積會(huì)產(chǎn)生欠擬合現(xiàn)象,因此準(zhǔn)確率有所下降。但從表6中可以看出,同時(shí)使用深度可分離卷積、通道注意力機(jī)制和多尺度提取Inception時(shí),仍然能較好地實(shí)現(xiàn)識(shí)別準(zhǔn)確率與網(wǎng)絡(luò)輕量化的平衡。

      3 結(jié)束語(yǔ)

      本文針對(duì)人臉表情識(shí)別過(guò)程中難以兼顧準(zhǔn)確率與輕量化的問(wèn)題,提出一種多尺度融合注意力機(jī)制的人臉表情識(shí)別網(wǎng)絡(luò)。首先,在網(wǎng)絡(luò)中加入Inception結(jié)構(gòu),將網(wǎng)絡(luò)的深度和寬度同時(shí)提升,提取人臉表情不同尺度的特征信息;其次,利用高效通道注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)利于表情識(shí)別的有效特征;最后,使用深度可分離卷積對(duì)部分卷積層進(jìn)行替換,降低網(wǎng)絡(luò)參數(shù),避免產(chǎn)生參數(shù)爆炸,從而導(dǎo)致過(guò)擬合的問(wèn)題。在兩個(gè)公開人臉表情數(shù)據(jù)集FER-2013和CK+上分別進(jìn)行實(shí)驗(yàn)來(lái)對(duì)本模型進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法的有效性。在后續(xù)的研究中,將考慮利用反卷積等方法實(shí)現(xiàn)各卷積層特征的可視化。另外,可以將表情識(shí)別從室內(nèi)轉(zhuǎn)向室外,在更復(fù)雜、真實(shí)的場(chǎng)景下應(yīng)用,使得理論研究能夠與實(shí)際相結(jié)合,以及增加疼痛、困倦之類的表情類別,將面部表情識(shí)別方法應(yīng)用在醫(yī)療監(jiān)護(hù)及自動(dòng)駕駛等實(shí)際場(chǎng)景中。

      猜你喜歡
      集上人臉注意力
      讓注意力“飛”回來(lái)
      有特點(diǎn)的人臉
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      三國(guó)漫——人臉解鎖
      復(fù)扇形指標(biāo)集上的分布混沌
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      馬面部與人臉相似度驚人
      長(zhǎng)得象人臉的十種動(dòng)物
      奇聞怪事(2014年5期)2014-05-13 21:43:01
      藁城市| 泰和县| 铜鼓县| 五常市| 青川县| 钦州市| 西平县| 辽阳县| 华宁县| 富宁县| 定边县| 伊宁县| 浦北县| 冷水江市| 渝北区| 清远市| 全州县| 射阳县| 保亭| 嘉鱼县| 蚌埠市| 太和县| 大同市| 子长县| 竹山县| 永新县| 巴里| 新丰县| 江都市| 昭苏县| 梅河口市| 张掖市| 绩溪县| 合阳县| 治县。| 读书| 大冶市| 滦平县| 濮阳市| 都匀市| 仙游县|