• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合時(shí)空域特征的人臉表情識別

    2022-07-15 01:05:32陳拓邢帥楊文武金劍秋
    中國圖象圖形學(xué)報(bào) 2022年7期
    關(guān)鍵詞:空域關(guān)鍵點(diǎn)時(shí)域

    陳拓,邢帥,楊文武,金劍秋

    浙江工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,杭州 310018

    0 引 言

    面部表情提供了豐富的情感信息,是人們內(nèi)心情感狀態(tài)最直接和自然的一種傳達(dá)方式(Li和 Deng,2020)。人臉表情識別在教育質(zhì)量監(jiān)督(Whitehill等,2014)、醫(yī)療應(yīng)用(Gutierrez,2020)、人機(jī)交互(Vinciarelli等,2009)和自動駕駛等諸多領(lǐng)域有著廣闊的應(yīng)用前景,因此逐漸成為相關(guān)領(lǐng)域的一個(gè)研究熱點(diǎn)。人臉表情的產(chǎn)生對應(yīng)著一個(gè)連續(xù)的面部肌肉運(yùn)動過程。多數(shù)已有的人臉表情識別方法主要針對該運(yùn)動過程中的表情峰值幀,通過分析和提取該幀人臉圖像中的表情空間特征信息來識別其中的面部表情。為了利用面部表情的運(yùn)動信息,一些方法通過分析人臉表情的視頻序列,希望從中提取出的人臉表情特征不僅包含了每幀圖像中的表情“空域信息”,并且也包含了連續(xù)幀之間的表情“時(shí)域信息”,從而實(shí)現(xiàn)表情識別性能的有效提升(Zhao等,2018;Zhang等,2017;Hasani和Mahoor,2017;Kumawat等,2019)。但是,視頻序列鄰接幀中的表情空域信息具有一定的連貫性和冗余度,這種冗余性不僅造成了信息浪費(fèi),也加大了有效信息的提取和分辨難度(Zhao等,2018);此外,面部表情的運(yùn)動變化可以認(rèn)為是人臉關(guān)鍵組件(如眉毛、眼睛、鼻子和嘴巴等)的動態(tài)變化組合,而直接分析圖像序列無法有效利用人臉關(guān)鍵組件的先驗(yàn)知識,因而不利于人臉表情時(shí)域信息的提取。

    針對上述問題,提出了一種融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),以高效魯棒地分析和理解視頻序列中的面部表情空域和時(shí)域信息。該網(wǎng)絡(luò)主要包含兩個(gè)特征提取模塊,分別用于學(xué)習(xí)單幅表情峰值圖像中的表情靜態(tài)“空域特征”和視頻序列中的表情動態(tài)“時(shí)域特征”。此外,該網(wǎng)絡(luò)還包含一種微調(diào)融合策略,該策略取得了最優(yōu)的時(shí)域特征和空域特征融合效果,有效提升了人臉表情的識別性能。

    對于單幅表情峰值圖像,個(gè)體差異以及光照、遮擋和頭部姿勢等外在干擾因素都會與其中的表情特征非線性耦合在一起,使得魯棒提取圖像中的表情特征極具挑戰(zhàn)性(Liu等,2017)。基于三元組的深度度量學(xué)習(xí)技術(shù)是一種有效的表情特征學(xué)習(xí)方法,它可以使得相同表情類別的樣本在特征空間中相互靠近,而不同表情類別的樣本在該空間中互相遠(yuǎn)離,最終學(xué)習(xí)得到能夠有效表達(dá)表情變化的潛特征(latent features)。在實(shí)驗(yàn)中觀察到,三元組損失函數(shù)中的閾值可以在一個(gè)范圍內(nèi)有效變化,并且每個(gè)閾值本質(zhì)上對應(yīng)著一個(gè)不同的類間差異分布,如圖1所示。因此,在“空域特征”學(xué)習(xí)模塊中,提出了一種基于三元組的深度度量融合技術(shù),通過在三元組損失函數(shù)中采用不同的閾值,從單幅表情峰值圖像中學(xué)習(xí)得到多個(gè)不同的表情特征表示,并將它們組合在一起,最終形成了一個(gè)魯棒的且更具識別能力的表情特征。

    圖1 基于不同三元組閾值學(xué)習(xí)得到的特征所進(jìn)行的類間變化分布可視化Fig.1 Distributions of inter-class variations with respect to the features learned by the triplet loss with different margins

    考慮到面部表情是由一些關(guān)鍵區(qū)域肌肉運(yùn)動產(chǎn)生的,而這些區(qū)域的運(yùn)動可由面部關(guān)鍵點(diǎn)的運(yùn)動軌跡變化來表示,因此在“時(shí)域特征”提取模塊中采用了簡單的2維卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),通過分析視頻序列中的面部關(guān)鍵點(diǎn)軌跡,學(xué)習(xí)得到表情的時(shí)序動態(tài)變化特征。此外,為了有效提升人臉表情的識別性能,還需要考慮如何有效融合上述兩個(gè)模塊中學(xué)習(xí)得到的空域特征和時(shí)域特征,使得這兩個(gè)特征在表情識別任務(wù)中能夠最大化地互為補(bǔ)充。通過大量實(shí)驗(yàn),測試了各種可能的融合策略,最終提出了一種所謂的“微調(diào)融合策略”,取得了最優(yōu)的時(shí)空域特征融合效果。主要貢獻(xiàn)如下:1)提出了一種融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過分析單幅表情峰值圖像和視頻序列中的面部關(guān)鍵點(diǎn)軌跡,有效提取了視頻序列中的面部表情空域和時(shí)域特征。2)設(shè)計(jì)了一種基于三元組的深度度量融合技術(shù)。不同于傳統(tǒng)的三元組度量學(xué)習(xí)僅使用單個(gè)閾值,該技術(shù)使用了多個(gè)閾值,不僅避免了費(fèi)時(shí)的最優(yōu)閾值的選取,并且有效提升了提取特征的魯棒性和可分辨能力。3)提出了一種微調(diào)融合策略,取得了最優(yōu)的時(shí)域特征和空域特征融合效果。4)該方法有效提升了人臉表情的識別性能,在3個(gè)公開的基于視頻序列的人臉表情數(shù)據(jù)集CK+(the extended Cohn-Kanade dataset)(Lucey等,2010)、MMI(the MMI facial expression database)(Pantic等,2005)和Oulu-CASIA(the Oulu-CASIA NIR&VIS facial expression database)(Zhao等,2011)上均接近或超越了此前其他各類表情識別方法的性能。

    1 相關(guān)工作

    通常認(rèn)為生氣、高興、恐懼、厭惡、悲傷和驚訝等6種基本情感在不同文化中具有共通性,因此人臉表情識別研究通常根據(jù)這些情感對表情進(jìn)行分類(Ekman和Friesen,1971)。根據(jù)輸入特征表示的不同,人臉表情識別方法大致可以分為基于圖像的方法和基于視頻序列的方法兩類(Zeng等,2009)。已有的研究大多屬于基于圖像的表情識別方法(Liu等,2017;Acharya等,2018;Yang等,2018),主要考慮單幅表情峰值圖像中的表情靜態(tài)“空域特征”?;谝曨l序列的表情識別方法則進(jìn)一步考慮了表情生成過程中的面部運(yùn)動信息(Zhang等,2017;Hasani和Mahoor,2017;Kumawat等,2019),即所謂的表情動態(tài)“時(shí)域特征”,因而通常能夠更加有效地完成表情識別任務(wù)。

    1.1 基于手工設(shè)計(jì)特征的傳統(tǒng)方法

    為了在視頻序列中提取面部表情的時(shí)序特征,研究人員將基于圖像的傳統(tǒng)手工特征擴(kuò)展到連續(xù)的視頻幀特征,提出了LBP-TOP(local binary patterns from three orthogonal planes)(Zhao和 Pietikainen,2007)、3D-HOG(3D-histogram of oriented gradients)(Klaser等,2008)以及3D-SIFT(3D-scale-invariant feature transform)(Scovanner等,2007)等方法。Jain等人(2011)使用條件隨機(jī)場和手工創(chuàng)建的形狀外觀特征對每個(gè)面部形狀進(jìn)行時(shí)間建模。Taini等人(2008)則提出了一種縱向地圖結(jié)構(gòu),在Oulu-CASIA數(shù)據(jù)庫上實(shí)現(xiàn)了較好的識別性能。Wang等人(2013)通過一種間隔時(shí)序貝葉斯網(wǎng)絡(luò),捕獲了面部肌肉之間復(fù)雜的時(shí)空關(guān)系。Ptucha 等人(2011)提出了一種基于流形的稀疏表示,通過使用基于監(jiān)督的局部保形投影來映射低維流形中的特征,進(jìn)而實(shí)現(xiàn)表情識別。Sikka等人(2016)提出了基于潛序數(shù)模型的視頻表情識別,使用弱監(jiān)督分類器將面部關(guān)鍵點(diǎn)的SIFT和LBP特征進(jìn)行整合,并將表情作為潛變量進(jìn)行學(xué)習(xí)。

    雖然已有的研究工作設(shè)計(jì)了各種各樣的手工特征來提取表情的時(shí)空信息并對其進(jìn)行分類,但是基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別方法越來越流行,相比于基于手工設(shè)計(jì)特征的傳統(tǒng)方法,顯著提升了表情識別性能。

    1.2 基于深度學(xué)習(xí)的表情識別方法

    近年來,深度卷積神經(jīng)網(wǎng)絡(luò)逐漸主導(dǎo)了各種計(jì)算機(jī)視覺任務(wù)。例如圖像分類(Simonyan和 Zisserman,2015)、目標(biāo)識別(Ren等,2017)和物體分割(Shelhamer等,2017)等。對于視頻序列中的人臉表情識別任務(wù),基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型也取得了諸多最新研究成果。Jung等人(2015)提出一種使用DTAN(deep temporal appearance network)和DTGN(deep temporal geometry network)兩個(gè)深度神經(jīng)網(wǎng)絡(luò)的方法。DTAN網(wǎng)絡(luò)是一個(gè)簡單的3D卷積神經(jīng)網(wǎng)絡(luò),用于從視頻序列中捕獲表情的時(shí)空信息;DTGN網(wǎng)絡(luò)是一個(gè)由全連接層構(gòu)成的淺層網(wǎng)絡(luò),用來捕獲面部關(guān)鍵點(diǎn)的時(shí)序運(yùn)動變化。通過對這兩個(gè)網(wǎng)絡(luò)進(jìn)行同時(shí)微調(diào),該方法獲得了當(dāng)時(shí)最先進(jìn)的表情識別性能。Zhang等人(2017)進(jìn)一步改進(jìn)了Jung等人(2015)的方法,提出了一個(gè)空間網(wǎng)絡(luò)MSCNN(multi-signal convolutional neural network)和一個(gè)時(shí)間網(wǎng)絡(luò)PHRNN(part-based hierarchical recurrent neural network),其中MSCNN對應(yīng)著一個(gè)基于單幅表情峰值圖像的簡單卷積神經(jīng)網(wǎng)絡(luò),用于學(xué)習(xí)表情的空間信息,而PHRNN則由幾層循環(huán)神經(jīng)子網(wǎng)絡(luò)(recurrent neural network,RNN)構(gòu)成,用于學(xué)習(xí)視頻序列中的表情時(shí)間信息。此外,Zhang等人(2017)還提出了一種排序融合策略,以有效融合這兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)得到的表情時(shí)空特征。為了更好地學(xué)習(xí)視頻序列中的表情時(shí)空特征,Hasani和Mahoor(2017)將面部關(guān)鍵點(diǎn)和殘差單元的輸入張量相乘替換原始3D Inception-ResNet中的殘差結(jié)構(gòu)。Kumawat等人(2019)提出了一種稱為局部二值體的3D卷積層對圖像序列上的面部表情進(jìn)行識別。Deng等人(2019)提出可以同時(shí)捕獲微觀和宏觀運(yùn)動的雙流循環(huán)網(wǎng)絡(luò),以此改善基于視頻的情感識別性能。

    本文方法的基本思想與Zhang等人(2017)方法相似,提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)主要包含兩個(gè)特征提取模塊,分別用于學(xué)習(xí)單幅表情峰值圖像中的表情靜態(tài)“空域特征”和視頻序列中的表情動態(tài)“時(shí)域特征”,但與Zhang等人(2017)及其他方法相比,有以下3方面的區(qū)別:1)一般的表情識別網(wǎng)絡(luò)均使用softmax損失作為訓(xùn)練監(jiān)督函數(shù),雖然從中提取的CNN特征具有一定語義,但是它們與表情含義并沒有直接關(guān)聯(lián),這是因?yàn)閟oftmax損失函數(shù)并沒有顯式地考慮類內(nèi)的緊湊和類間的分離。提出的基于三元組的深度度量融合技術(shù)不僅能夠?qū)W習(xí)得到有效表達(dá)表情變化的語義特征,并且相比于傳統(tǒng)的三元組度量學(xué)習(xí),這些特征更加魯棒且更具識別能力。2)循環(huán)神經(jīng)網(wǎng)絡(luò)一般具有更高的學(xué)習(xí)和訓(xùn)練難度,因此使用了簡單的2維卷積神經(jīng)網(wǎng)絡(luò),通過分析視頻序列中的面部關(guān)鍵點(diǎn)軌跡,學(xué)習(xí)得到表情的時(shí)序變化信息。3)一般情況會使用特征級別或者決策級別的融合方式來組合多個(gè)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果,但是不同的網(wǎng)絡(luò)模型具有不同的學(xué)習(xí)能力且學(xué)習(xí)到的特征也不盡相同,簡單的融合方式有時(shí)不僅無法實(shí)現(xiàn)時(shí)域特征和空域特征的互補(bǔ)融合,還可能會削弱它們彼此的識別性能。因此,提出了一種微調(diào)融合策略,取得了最優(yōu)的時(shí)域特征和空域特征的融合效果。

    2 本文算法

    如圖2所示,本文提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)主要包含空域特征提取模塊DMF(deep metric fusion)和時(shí)域特征提取模塊LTCNN(landmark trajectory CNN)兩個(gè)子網(wǎng)絡(luò)模塊。其中,DMF子網(wǎng)絡(luò)使用了本文提出的深度度量融合技術(shù),以視頻序列中的單幅表情峰值幀圖像為輸入,從中提取出表情的靜態(tài)空間特征。在LTCNN子網(wǎng)絡(luò)中,采用了一個(gè)簡單的2維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用人臉關(guān)鍵組件中的先驗(yàn)知識,以視頻序列中人臉關(guān)鍵點(diǎn)軌跡構(gòu)成的類特征圖作為輸入,進(jìn)而從中提取出連續(xù)幀中隱含的表情時(shí)序運(yùn)動特征。在實(shí)現(xiàn)中,為了達(dá)到網(wǎng)絡(luò)的最佳訓(xùn)練效率并取得最優(yōu)性能,首先分別對DMF子網(wǎng)絡(luò)和 LTCNN子網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練,然后將時(shí)域和空域兩個(gè)不同維度上的特征子模塊有效融合在一起,以最終提升人臉表情的識別性能。

    圖2 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The proposed network structure

    2.1 基于深度度量融合的空域特征提取

    圖3 DMF子網(wǎng)絡(luò):深度度量融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 DMF sub-network:the structure of deep metric fusion

    (1)

    因此,三元組損失函數(shù)lossi定義為

    (2)

    式中,M為集合中的三元組個(gè)數(shù)。注意,上述三元組損失函數(shù)不僅保證了正樣本與錨點(diǎn)之間的特征距離比負(fù)樣本與錨點(diǎn)之間的特征距離小于給定的閾值τi,同時(shí)也保證了錨點(diǎn)與正樣本之間的特征距離比負(fù)樣本與正樣本之間的特征距離小于該給定的閾值。

    2.2 基于人臉關(guān)鍵點(diǎn)軌跡的時(shí)域特征提取

    考慮到卷積神經(jīng)網(wǎng)絡(luò)(CNN)出色的特征表示學(xué)習(xí)能力,同時(shí)為了避免3D CNN的高計(jì)算量,可以使用2D CNN學(xué)習(xí)視頻序列上的時(shí)域表情運(yùn)動特征。因此,提出了基于人臉關(guān)鍵點(diǎn)軌跡的卷積神經(jīng)網(wǎng)絡(luò)(LTCNN),通過分析視頻序列中人臉關(guān)鍵點(diǎn)的運(yùn)動變化來提取其中蘊(yùn)含的表情時(shí)域特征。如圖4所示,LTCNN子網(wǎng)絡(luò)對應(yīng)一個(gè)簡單的2D卷積神經(jīng)網(wǎng)絡(luò),由4個(gè)卷積層和2個(gè)全連接層組成。LTCNN子網(wǎng)絡(luò)輸入的是由視頻中人臉關(guān)鍵點(diǎn)軌跡構(gòu)建而成的類特征圖。給定一個(gè)人臉表情視頻序列,首先從視頻中均勻采樣到一個(gè)固定幀數(shù)的圖像序列。在實(shí)現(xiàn)中,均勻采樣了11幀。然后,針對每個(gè)采樣幀,可以在人臉的雙眼、眉毛、鼻子和嘴巴等4個(gè)關(guān)鍵部位上檢測出51個(gè)關(guān)鍵點(diǎn),如圖4所示。所有采樣幀中關(guān)鍵點(diǎn)的位置變化即對應(yīng)著視頻中人臉關(guān)鍵點(diǎn)的運(yùn)動軌跡。最后,將所有采樣幀中關(guān)鍵點(diǎn)的坐標(biāo)組合在一起,即得到輸入到LTCNN子網(wǎng)絡(luò)的類特征圖。此外,受圖像RGB三通道表示的啟發(fā),基于關(guān)鍵點(diǎn)的序列數(shù)據(jù),在實(shí)現(xiàn)中采用兩種方式構(gòu)造LTCNN子網(wǎng)絡(luò)的輸入特征圖。

    圖4 LTCNN子網(wǎng)絡(luò):基于人臉關(guān)鍵點(diǎn)軌跡的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 LTCNN sub-network:the structure of landmark trajectory convolutional neural network

    1)將每幀中51個(gè)關(guān)鍵點(diǎn)的x、y坐標(biāo)依次組合在一起,形成一個(gè)102維的特征向量(x1,y1,x2,y2,…,x51,y51)。然后將所有采樣幀對應(yīng)的特征向量組合在一起,即得到一個(gè)11×102×1大小的向量,該向量可以看做是帶1個(gè)通道而大小為11×102的特征圖,并稱以該特征圖作為輸入的LTCNN子網(wǎng)絡(luò)為LTCNN-1CL。

    2)將每幀中51個(gè)關(guān)鍵點(diǎn)的x、y坐標(biāo)分別組合在一起,形成兩個(gè)51維的特征向量(x1,x2,…,x51)和 (y1,y2,…,y51)。然后分別將所有采樣幀對應(yīng)的x或y特征向量組合在一起,即得到一個(gè)11×51×2大小的向量,該向量可以看做是帶2個(gè)通道而大小為11×51的特征圖,并稱以該特征圖作為輸入的LTCNN子網(wǎng)絡(luò)為LTCNN-2CL。

    2.3 DMF與LTCNN子網(wǎng)絡(luò)的最優(yōu)融合

    提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)通過將提取空域信息的DMF子網(wǎng)絡(luò)和提取時(shí)域信息的LTCNN子網(wǎng)絡(luò)融合在一起,實(shí)現(xiàn)了人臉識別性能的有效提升。一般地,通常可以采用特征融合策略或者決策融合策略。

    2.3.1 基于決策融合的后期融合策略

    多數(shù)人臉表情識別方法通過決策融合來提高算法性能。如圖5所示,該融合策略首先單獨(dú)訓(xùn)練DMF和LTCNN子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)得到一個(gè)分類結(jié)果,然后將所有子網(wǎng)絡(luò)的分類結(jié)果通過某種數(shù)學(xué)方式進(jìn)行匯總,匯總結(jié)果即為最終的分類結(jié)果。一般可以使用簡單的加權(quán)平均來匯總分類結(jié)果,也可以采用稍微復(fù)雜的匯總方式,例如決策排序融合(Zhang 等,2017)。在決策融合策略中,因?yàn)閮蓚€(gè)子網(wǎng)絡(luò)是單獨(dú)訓(xùn)練,因而無法考慮它們之間的互補(bǔ)性。

    圖5 基于決策融合的后期融合策略Fig.5 Late-fusion strategy based on decision fusion

    2.3.2 基于特征融合的前期融合策略

    在該融合策略中,DMF子網(wǎng)絡(luò)的特征輸出(即最后一個(gè)全連接層的輸出)與LTCNN子網(wǎng)絡(luò)的特征輸出(即最后一個(gè)全連接層的輸出)通過后續(xù)的全連接層融合在一起,以得到一個(gè)更具分辨能力的表情特征,如圖6所示。在實(shí)現(xiàn)過程中,使用了一個(gè)256大小的全連接層來融合DMF和LTCNN子網(wǎng)絡(luò)的輸出特征,并結(jié)合softmax表情分類層對整個(gè)網(wǎng)絡(luò)通過一種端到端的方式進(jìn)行訓(xùn)練。但是,由于DMF和LTCNN子網(wǎng)絡(luò)在學(xué)習(xí)過程中的收斂速度可能不同,因而以統(tǒng)一的學(xué)習(xí)率對它們進(jìn)行端到端的訓(xùn)練無法充分照顧它們不同的收斂特性。

    圖6 基于特征融合的前期融合策略Fig.6 Early-fusion strategy based on feature fusion

    2.3.3 基于微調(diào)的特征融合策略

    針對前期特征融合策略下DMF和LTCNN子網(wǎng)絡(luò)可能存在不同訓(xùn)練下收斂速度不一致以及后期決策融合策略下兩個(gè)子網(wǎng)絡(luò)因單獨(dú)訓(xùn)練而沒有考慮結(jié)果互補(bǔ)性的問題,提出了第3種融合策略,即基于微調(diào)的特征融合策略。其思想簡單,先對DMF和LTCNN子網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練,然后通過特征融合的方式將這兩個(gè)子網(wǎng)絡(luò)結(jié)合在一起,并以端到端的方式進(jìn)行統(tǒng)一微調(diào)。在實(shí)現(xiàn)中,采用DMF子網(wǎng)絡(luò)優(yōu)化時(shí)所用的超參數(shù)進(jìn)行微調(diào)訓(xùn)練,并考慮了4種微調(diào)方案。1)局部微調(diào)。固定兩個(gè)子網(wǎng)絡(luò)參數(shù),只微調(diào)后面新加的全連接融合層和softmax分類層。2)固定DMF的微調(diào)。固定DMF子網(wǎng)絡(luò)參數(shù),聯(lián)合微調(diào)LTCNN子網(wǎng)絡(luò)以及后面新加的全連接融合層和softmax分類層。3)固定LTCNN的微調(diào)。固定LTCNN子網(wǎng)絡(luò)參數(shù),聯(lián)合微調(diào)DMF子網(wǎng)絡(luò)以及后面新加的全連接融合層和softmax分類層。4)整體微調(diào)。對網(wǎng)絡(luò)中所有模塊進(jìn)行聯(lián)合微調(diào)。

    實(shí)驗(yàn)發(fā)現(xiàn),后3種微調(diào)方案均能夠有效實(shí)現(xiàn)DMF和LTCNN子網(wǎng)絡(luò)的同步訓(xùn)練以及互補(bǔ)融合。其中,整體微調(diào)取得了最高的表情分類精度。

    3 實(shí)驗(yàn)結(jié)果

    3.1 3個(gè)表情數(shù)據(jù)集

    為了評估提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的性能,選取3個(gè)公開且廣泛使用的基于視頻序列的表情數(shù)據(jù)集CK+(Lucey等,2010)、MMI(Pantic等,2005)和Oulu-CASIA(Zhao等,2011)進(jìn)行實(shí)驗(yàn)。

    相比于CK+,MMI數(shù)據(jù)集(Pantic等,2005)中的個(gè)體表情差異更大,并且部分存在遮擋(例如眼鏡和胡須等),因此更具挑戰(zhàn)性。數(shù)據(jù)集由來自31個(gè)主體的236個(gè)圖像序列組成,每個(gè)序列對應(yīng)6個(gè)基本表情(沒有蔑視) 之一,實(shí)驗(yàn)中選擇了正面視圖拍攝的208個(gè)序列。每個(gè)序列以中性表情開始,在序列中間達(dá)到表情峰值,并以中性表情結(jié)束。與CK+類似,通過均勻采樣獲得具有固定幀數(shù)的樣本,并使用嚴(yán)格主體獨(dú)立的方式進(jìn)行10折交叉驗(yàn)證。

    3個(gè)表情數(shù)據(jù)集的部分示例如圖7所示。其中,MMI和Oulu-CASIA數(shù)據(jù)集中沒有“蔑視”的面部表情。

    圖7 3個(gè)表情數(shù)據(jù)集中的部分示例Fig.7 Some examples of three expression datasets

    3.2 實(shí)現(xiàn)細(xì)節(jié)

    3.2.1 DMF子網(wǎng)絡(luò)實(shí)現(xiàn)細(xì)節(jié)

    1)數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強(qiáng)。DMF子網(wǎng)絡(luò)以視頻序列中的單幅表情峰值幀圖像作為輸入。首先使用該幀圖像中的人臉關(guān)鍵點(diǎn)裁剪出人臉圖像并縮放到236 × 236像素。對沒有提供人臉關(guān)鍵點(diǎn)的峰值幀圖像,使用MTCNN算法(Zhang等,2016)檢測其中的人臉關(guān)鍵點(diǎn)。此外,所有的人臉圖像均進(jìn)行了相應(yīng)的直方圖均衡化和全局對比度歸一化處理。進(jìn)一步,為了防止過擬合,在訓(xùn)練階段,同時(shí)采用了在線和離線的數(shù)據(jù)增強(qiáng)方法來擴(kuò)充數(shù)據(jù)訓(xùn)練集中的數(shù)據(jù)樣本。在離線增強(qiáng)階段,分別使用-10°、-5°、0°、5°、10°等5個(gè)角度對每幅圖像進(jìn)行旋轉(zhuǎn)。在訓(xùn)練過程中,進(jìn)一步通過在線增強(qiáng)擴(kuò)充數(shù)據(jù)。一方面,從圖像的5個(gè)位置(4個(gè)角和中心)隨機(jī)裁剪出224 × 224像素的圖像塊作為訓(xùn)練數(shù)據(jù)樣本;另一方面,以0.5的置信度對圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)。最終,通過離線和在線數(shù)據(jù)增強(qiáng)處理,可以將原始數(shù)據(jù)集的大小擴(kuò)充50倍。在測試階段,僅將從圖像中心裁剪出的224 × 224像素的一個(gè)圖像塊作為DMF子網(wǎng)絡(luò)的輸入。

    2)三元組構(gòu)造。對于N-Metric模塊中計(jì)算三元組損失函數(shù)所需的三元組樣本,通過批次難例挖掘策略(batch hard)構(gòu)建(Hermans等,2017),即對訓(xùn)練批次中的每個(gè)樣本a,可以找到最難的(與a特征距離最大)正樣本以及最難的(與a特征距離最小)負(fù)樣本,分別稱為錨點(diǎn)、正樣本和負(fù)樣本,并以此來形成一個(gè)三元組。

    3)DMF子網(wǎng)絡(luò)的優(yōu)化訓(xùn)練。為了對DMF子網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練,在DMF子網(wǎng)絡(luò)的最后加了一個(gè)softmax表情分類層。因此,DMF子網(wǎng)絡(luò)可以以一種端到端的方式進(jìn)行單獨(dú)訓(xùn)練,其整體損失函數(shù)定義為

    (3)

    式中,loss0對應(yīng)用于表情分類的softmax損失函數(shù),λ用于控制不同種類損失函數(shù)之間的貢獻(xiàn)權(quán)重。在實(shí)現(xiàn)中,λ=0.5/N。為了訓(xùn)練得到具有較高泛化能力的DMF子網(wǎng)絡(luò),首先通過在人臉表情數(shù)據(jù)庫FER-2013(facial expression recognition-2013)(Goodfellow等,2013)上微調(diào)VGG16-Face網(wǎng)絡(luò)模型來預(yù)訓(xùn)練子網(wǎng)絡(luò)中的DCNN模塊。然后,針對每個(gè)實(shí)驗(yàn)數(shù)據(jù)集,對整個(gè)DMF子網(wǎng)絡(luò)進(jìn)行整體微調(diào)。訓(xùn)練采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)為5E-6,批處理大小為96,全連接層使用了0.5權(quán)重的dropout策略,整個(gè)子網(wǎng)絡(luò)以一種端到端的方式訓(xùn)練70個(gè)epoch。

    表1 3個(gè)數(shù)據(jù)庫上不同采樣間隔的識別精度Table 1 Recognition accuracy of different sampling intervals on three databases /%

    3.2.2 LTCNN子網(wǎng)絡(luò)實(shí)現(xiàn)細(xì)節(jié)

    1)數(shù)據(jù)預(yù)處理。在實(shí)現(xiàn)中,使用DAN(deep alignment network)算法(Kowalski等,2017)檢測采樣圖像中的51個(gè)人臉關(guān)鍵點(diǎn)。為了消除頭部姿勢及其大小對人臉關(guān)鍵點(diǎn)軌跡分析的影響,對人臉關(guān)鍵點(diǎn)的坐標(biāo)進(jìn)行歸一化處理。具體方式為:對于每一個(gè)視頻序列,可以以鼻子中心作為坐標(biāo)原點(diǎn),首先將每個(gè)關(guān)鍵點(diǎn)的位置坐標(biāo)減去鼻子中心點(diǎn)的位置坐標(biāo),然后將該坐標(biāo)除以所有采樣幀中關(guān)鍵點(diǎn)位置坐標(biāo)的標(biāo)準(zhǔn)方差。即

    (4)

    2)數(shù)據(jù)增強(qiáng)。為了防止LTCNN子網(wǎng)絡(luò)在訓(xùn)練過程中發(fā)生過擬合,對人臉關(guān)鍵點(diǎn)進(jìn)行隨機(jī)水平翻轉(zhuǎn),并在關(guān)鍵點(diǎn)位置坐標(biāo)中添加隨機(jī)高斯噪聲。即

    (5)

    3)LTCNN子網(wǎng)絡(luò)的優(yōu)化訓(xùn)練。與DMF子網(wǎng)絡(luò)類似,為了對LTCNN子網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練,在LTCNN子網(wǎng)絡(luò)的最后加了一個(gè)softmax表情分類層。在實(shí)現(xiàn)中,LTCNN子網(wǎng)絡(luò)前4個(gè)卷積層的大小分別為3×15×64、3×11×96、3×7×128和3×3×128。其中,3×15×64表示使用了64個(gè)3×15大小的2D卷積核,其他卷積層大小的含義一樣。對于LTCNN子網(wǎng)絡(luò)中的后兩個(gè)全連接層,分別使用了512和128個(gè)神經(jīng)元。訓(xùn)練時(shí),使用Xavier初始化整個(gè)子網(wǎng)絡(luò),再采用Adam優(yōu)化器進(jìn)行優(yōu)化,設(shè)置權(quán)重衰減率為0.000 1,初始學(xué)習(xí)率、批處理大小以及訓(xùn)練周期分別為1.0E-4、96和70。

    3.3 表情識別性能的分析與評估

    3.3.1 DMF子網(wǎng)絡(luò)中多分支的特征可視化

    在DMF子網(wǎng)絡(luò)的N-Metric模塊中,使用了7條分支通過基于三元組的深度度量學(xué)習(xí)來學(xué)習(xí)得到不同的人臉表情特征。圖8給出了不同分支上學(xué)習(xí)特征的可視化結(jié)果。其中,第2—8列為各分支上的特征,最后1列為所有分支融合而成的特征。每個(gè)特征通過與其關(guān)聯(lián)的全連接層中的神經(jīng)元進(jìn)行可視化,其中1個(gè)小方格對應(yīng)著1個(gè)神經(jīng)元,且顏色越亮代表值越大。特別說明,對于融合特征,顯示了它對應(yīng)的所有256個(gè)神經(jīng)元,而對于各分支的特征,為了清晰顯示,僅從其中的512個(gè)神經(jīng)元中均勻采樣了64個(gè)神經(jīng)元進(jìn)行顯示。從圖8可以看出,1)對于同一幅人臉圖像,各個(gè)分支上的特征具有各不相同的可分辨特性;2)對于具有相同表情的不同個(gè)體圖像,每一分支上的表情特征極其相似,而對于同一個(gè)體下的不同表情圖像,每一分支上的表情特征則相差較大。

    圖8 DMF子網(wǎng)絡(luò)中不同分支上的特征可視化結(jié)果Fig.8 Visualization results of features on different branches in DMF sub-net((a) original images;(b)τ1=0.15;(c)τ2=0.25;(d)τ3=0.35;(e)τ4=0.45;(f)τ5=0.55;(g)τ6=0.65;(h)τ7=0.75;(i) fusion features)

    綜上分析,每條分支顯然學(xué)習(xí)到了不同的特征表示并且對表情具有極強(qiáng)的分辨性。最終,將這7條分支上的特征組合在一起,可以得到一個(gè)更加魯棒且更具識別能力的表情“空域特征”。

    3.3.2 DMF子網(wǎng)絡(luò)中單分支與多分支模型的對比

    為了進(jìn)一步驗(yàn)證DMF子網(wǎng)絡(luò)中多分支模型的有效性,僅保留了DMF子網(wǎng)絡(luò)中的一條分支,并分別使用不同的閾值來訓(xùn)練該單分支的DMF網(wǎng)絡(luò)模型。表2給出了不同閾值下該單分支DMF網(wǎng)絡(luò)的性能結(jié)果??梢钥闯觯P偷淖R別性能隨著閾值的改變發(fā)生了相應(yīng)變化,并且對于不同的數(shù)據(jù)庫,其最佳閾值有所不同,這也驗(yàn)證了前述的觀察結(jié)果,即通過改變損失函數(shù)中的閾值可以學(xué)習(xí)到不同的表情特征。此外,結(jié)果還表明,在CK+、MMI和Oulu-CASIA數(shù)據(jù)庫上,即使采用最佳閾值,單閾值方法的性能也比多閾值融合的方法要低,分別低約1.31%、4.42%和2.33%,這充分證明了深度度量融合技術(shù)的優(yōu)勢。

    表2 單分支DMF網(wǎng)絡(luò)在不同閾值的識別精度Table 2 Recognition accuracy of single-branch DMF network at different thresholds /%

    3.3.3 兩種不同的關(guān)鍵點(diǎn)軌跡特征圖

    在基于關(guān)鍵點(diǎn)軌跡構(gòu)造LTCNN子網(wǎng)絡(luò)的輸入特征圖時(shí),可以采用單通道或雙通道的特征圖方式,它們分別對應(yīng)LTCNN-1CL和LTCNN-2CL。表3給出了對應(yīng)的表情識別性能結(jié)果??梢园l(fā)現(xiàn),在3個(gè)數(shù)據(jù)庫上,LTCNN-2CL均取得了比LTCNN-1CL更高的準(zhǔn)確率。即LTCNN-2CL對應(yīng)的特征圖能夠更加準(zhǔn)確地提取出關(guān)鍵點(diǎn)軌跡中的運(yùn)動信息。因此,本文其他所有的相關(guān)實(shí)驗(yàn)均采用雙通道的關(guān)鍵點(diǎn)軌跡特征圖作為LTCNN子網(wǎng)絡(luò)的輸入。

    表3 LTCNN-1CL和LTCNN-2CL的識別精度Table 3 Recognition accuracy of LTCNN-1CL and LTCNN-2CL /%

    3.3.4 不同融合策略的性能對比

    針對DMF和LTCNN子網(wǎng)絡(luò)的融合,表4給出了不同策略融合下的表情識別性能??梢?,基于整體微調(diào)的特征融合方法有效實(shí)現(xiàn)了DMF和LTCNN子網(wǎng)絡(luò)的互補(bǔ)融合,取得了最高的表情分類精度。

    此外,表4給出了單獨(dú)DMF子網(wǎng)絡(luò)和單獨(dú)LTCNN子網(wǎng)絡(luò)的人臉表情識別精度。顯然,通過充分結(jié)合表情的時(shí)域和空域特征信息,融合時(shí)空域特征的人臉表情識別方法取得了表情識別性能的顯著提升。需要注意的是,在表4中,一般特征融合策略取得的識別精度甚至低于單獨(dú)使用DMF或LTCNN子網(wǎng)絡(luò)的識別精度。這是因?yàn)镈MF和LTCNN子網(wǎng)絡(luò)在學(xué)習(xí)過程中的收斂速度不同,而以統(tǒng)一的學(xué)習(xí)率對它們進(jìn)行端到端的訓(xùn)練無法充分照顧它們的不同收斂特性。

    表4 不同融合策略的識別精度Table 4 Recognition accuracy of different fusion strategies /%

    3.3.5 與之前方法的性能比較

    表5給出了本文方法與其他已有方法的性能對比。在這些已有方法中,DTAGN(deep temporal appearance-geometry network)通過局部微調(diào)的融合方式集成兩個(gè)子網(wǎng)絡(luò)學(xué)習(xí)到的時(shí)序外觀特征和時(shí)序幾何特征(Jung 等,2015)。PHRNN-MSCNN通過決策排序融合的方式集成不同網(wǎng)絡(luò)學(xué)習(xí)到的表情時(shí)空信息(Zhang 等,2017)。從表5可以看出,通過整體微調(diào),本文提出的融合時(shí)空域特征的人臉表情識方法取得了較好的性能提升。表5進(jìn)一步給出了PHRNN-MSCNN中時(shí)域和空域特征子網(wǎng)絡(luò)各自的表情識別性能。可以看出,1)相比于MSCNN子網(wǎng)絡(luò),提出的DMF空域特征子網(wǎng)絡(luò)在3個(gè)數(shù)據(jù)庫上均取得了明顯的性能提升;2)提出的LTCNN時(shí)域特征子網(wǎng)絡(luò)取得了與PHRNN子網(wǎng)絡(luò)較接近的識別性能,但是提出的基于CNN的網(wǎng)絡(luò)結(jié)構(gòu)避免了RNN網(wǎng)絡(luò)結(jié)構(gòu)可能帶來的網(wǎng)絡(luò)訓(xùn)練難度。最近,LBVCNN(local binary volume convolutional neural network)通過局部二值體卷積神經(jīng)網(wǎng)絡(luò)可以從視頻序列的3個(gè)正交面同時(shí)學(xué)習(xí)其中的時(shí)空局部紋理信息(Kumawat等,2019),與之相比,本文提出的時(shí)空融合網(wǎng)絡(luò)用專門的子網(wǎng)絡(luò)分別專注于學(xué)習(xí)時(shí)域信息和空域信息,然后再進(jìn)行互補(bǔ)融合,取得了更高的表情識別性能。

    表5 不同方法的識別精度Table 5 Recognition accuracy of different methods /%

    表6—表8分別顯示了基于整體微調(diào)融合的時(shí)空網(wǎng)絡(luò)在3個(gè)表情數(shù)據(jù)集上的混淆矩陣??梢钥闯?,在CK+數(shù)據(jù)集上,本文方法對于每個(gè)類別均具有較好的識別性能。對于更具挑戰(zhàn)性的MMI數(shù)據(jù)集,由于恐懼與驚訝兩種表情較為相似,它們對應(yīng)的面部關(guān)鍵點(diǎn)的軌跡運(yùn)動差別較為細(xì)微,使得較多數(shù)量的恐懼表情錯(cuò)誤地識別為驚訝,最終造成恐懼類別的識別率較低。對于Oulu-CASIA數(shù)據(jù)集,本文方法在所有類別上取得了較為均衡的識別性能,并且在生氣和驚訝兩種表情上取得了最高的識別率。

    表6 本文方法在CK+數(shù)據(jù)集上的混淆矩陣Table 6 Confusion matrix of this method on CK+ dataset /%

    表7 本文方法在MMI數(shù)據(jù)集上的混淆矩陣Table 7 Confusion matrix of this method on MMI dataset /%

    表8 本文方法在Oulu-CASIA數(shù)據(jù)集上的混淆矩陣Table 8 Confusion matrix of this method on Oulu-CASIA dataset /%

    4 結(jié) 論

    針對基于視頻序列的人臉表情識別,本文提出了一種融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。首先,提出了一種基于三元組的深度度量融合技術(shù),通過采用不同的三元組閾值,從單幅表情峰值圖像中學(xué)習(xí)得到多個(gè)不同的表情特征表示,并將它們組合在一起最終形成了一個(gè)魯棒的且更具識別能力的表情“空域特征”。然后,基于視頻序列中的人臉關(guān)鍵點(diǎn)軌跡特征圖,使用簡單的2維卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)得到描述表情運(yùn)動信息的表情“時(shí)域特征”。最后,提出一種基于整體微調(diào)的網(wǎng)絡(luò)融合策略,取得了最優(yōu)的時(shí)域特征和空域特征的融合效果。

    在3個(gè)公開且廣泛使用的表情數(shù)據(jù)集CK+、MMI和Oulu-CASIA上驗(yàn)證了本文算法的有效性。實(shí)驗(yàn)結(jié)果表明,本文方法取得了顯著的性能提升,在3個(gè)數(shù)據(jù)集上均接近或超越了當(dāng)前最高的人臉表情識別性能。但本文方法仍有一些不足之處,未來可以通過以下幾方面進(jìn)一步研究:1)提出的方法僅考慮了視頻和圖像兩種模態(tài)下的人臉表情識別,未來可以融合更多模態(tài)的特征,例如主體的身份信息、場景描述信息和語音信息等,以進(jìn)一步增強(qiáng)表情識別算法的魯棒性。此外,未來還計(jì)劃將三元組深度度量融合技術(shù)推廣到其他相關(guān)應(yīng)用,例如圖像分類、圖像搜索以及可視對象識別等。2)本文方法只探究了幾種模型融合策略來結(jié)合時(shí)序和空間特征。未來可以嘗試其他融合方法,更好地利用各個(gè)子網(wǎng)絡(luò)中的互補(bǔ)信息。也可以對最新提出的3D卷積進(jìn)行改進(jìn),在利用3D卷積聯(lián)合學(xué)習(xí)時(shí)空特征優(yōu)勢的同時(shí),降低3D卷積網(wǎng)絡(luò)的復(fù)雜性。3)許多研究通常在特定的數(shù)據(jù)庫上評估算法性能,但是一些跨數(shù)據(jù)庫實(shí)驗(yàn)表明,由于數(shù)據(jù)的采集方式和環(huán)境不同,數(shù)據(jù)庫之間普遍存在數(shù)據(jù)偏差和注釋不一致的問題,這將大幅降低在未知數(shù)據(jù)上的泛化性能。深度域適應(yīng)和知識蒸餾是解決數(shù)據(jù)偏差的可行解決方案。未來可以將研究擴(kuò)展到跨數(shù)據(jù)庫的人臉表情識別問題上。

    猜你喜歡
    空域關(guān)鍵點(diǎn)時(shí)域
    聚焦金屬關(guān)鍵點(diǎn)
    肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
    我國全空域防空體系精彩亮相珠海航展
    基于時(shí)域信號的三電平逆變器復(fù)合故障診斷
    基于極大似然準(zhǔn)則與滾動時(shí)域估計(jì)的自適應(yīng)UKF算法
    基于貝葉斯估計(jì)的短時(shí)空域扇區(qū)交通流量預(yù)測
    淺談我國低空空域運(yùn)行管理現(xiàn)狀及發(fā)展
    基于能量空域調(diào)控的射頻加熱花生醬均勻性研究
    基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
    基于時(shí)域波形特征的輸電線雷擊識別
    電測與儀表(2015年2期)2015-04-09 11:28:50
    贵南县| 永济市| 达拉特旗| 静安区| 交口县| 区。| 广德县| 南江县| 千阳县| 新昌县| 门源| 邓州市| 渝北区| 民和| 全州县| 崇文区| 舞阳县| 志丹县| 卢湾区| 青河县| 呼图壁县| 青浦区| 商城县| 马龙县| 巩留县| 阜宁县| 漯河市| 固安县| 杭州市| 启东市| 莒南县| 岳阳县| 安宁市| 昌都县| 长顺县| 宝鸡市| 大连市| 中阳县| 汝城县| 明溪县| 喀喇沁旗|