韋賽遠,林麗媛,張怡然
(天津科技大學(xué)電子信息與自動化學(xué)院,天津 300222)
人臉識別技術(shù)作為身份認證的重要工具,具有非接觸式、成本低、方便快捷的特點[1].同樣,人臉表情識別技術(shù)由于其高信息量、情感交互的作用,吸引更多研究者的關(guān)注.隨著計算機技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的人臉表情識別技術(shù)正在得到充分挖掘和應(yīng)用.但是,由于口罩遮擋人臉表情的絕大部分信息,使得戴口罩的人臉表情識別具有高度復(fù)雜性,所以戴口罩的人臉表情識別技術(shù)的相關(guān)研究較少,識別的準確率一直偏低.目前,普遍關(guān)于人臉表情識別的研究都集中在無遮擋情況,其中王韋祥等[2]提出改進的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,在JAFFE數(shù)據(jù)集和CK+數(shù)據(jù)集上均取得不錯的識別效果,但是沒有考慮到光照、遮擋對識別的影響.李勇等[3]提出一種跨連接的LeNet-5結(jié)構(gòu),學(xué)習(xí)低層次特征以彌補表情數(shù)據(jù)集樣本不足帶來的問題,但是該結(jié)構(gòu)關(guān)注低層次特征而忽略了各層特征的相互關(guān)聯(lián),導(dǎo)致模型泛化性不好.王建霞等[4]提出一種改進的跨連接VGG[5]網(wǎng)絡(luò),將網(wǎng)絡(luò)中的低層次特征與高層次特征進行融合以提高魯棒性,并引入Inception網(wǎng)絡(luò)結(jié)構(gòu)加快收斂速度,在FER2013識別率(無口罩)達到72.76%,但該方法僅考慮了表情的類內(nèi)差距較大的情況,對于混合表情識別率較差.
本文提出了一種M-Xception網(wǎng)絡(luò)(Modified Xception Net)模型,實現(xiàn)戴口罩有遮擋的人臉表情識別.該網(wǎng)絡(luò)簡化了Xception冗雜的參數(shù)結(jié)構(gòu),保留殘差機制和可分離卷積特征,注重各層特征的關(guān)聯(lián)性,對細微表情信息的提取尤其敏感.同時,為了防止過擬合現(xiàn)象,在全連接層引入了Dropout技術(shù).實驗結(jié)果表明,改進后的網(wǎng)絡(luò)能有效提高戴口罩人臉表情識別的準確率,達到更好的分類效果.
Xception[6]網(wǎng)絡(luò)利用“極致的Inception”模塊(Block)以減少網(wǎng)絡(luò)參數(shù),并結(jié)合類似于ResNet[7]的殘差機制以保證網(wǎng)絡(luò)的穩(wěn)定性.本文在Xception網(wǎng)絡(luò)基礎(chǔ)上,結(jié)合戴口罩的人臉表情識別(face emotion recognition with mask,F(xiàn)ERM)受限于遮擋的問題,在簡化模型的基礎(chǔ)上注重細微特征(如眉毛、眼神)的提取,搭建了一個輸入尺寸為48×48×1的MXception網(wǎng)絡(luò)模型,其訓(xùn)練測試框架如圖1所示.
圖1 M-Xception網(wǎng)絡(luò)模型的訓(xùn)練測試框架 Fig. 1 Training and testing framework of M-Xception net model
在訓(xùn)練部分,未戴口罩的人臉關(guān)鍵特征點有68個,首先用Face-Mask技術(shù)確定鼻子、嘴巴等部位的特征位置,并加上口罩進行特征遮擋處理.對添加口罩遮擋的數(shù)據(jù)集進行篩選,去除標簽丟失、標簽錯誤、非人臉等不符合要求的圖片,生成新的數(shù)據(jù)集FERM.其中與表情相關(guān)的特征點為27個,然后將此數(shù)據(jù)集投入M-Xception網(wǎng)絡(luò)進行訓(xùn)練.
測試網(wǎng)絡(luò)結(jié)構(gòu)時,對圖片進行預(yù)處理后,采用訓(xùn)練好的模型進行測試,得到表情的分類結(jié)果.
M-Xception網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)(圖2)共分為3個部分:Entry flow、Middle flow和Exit flow.
首先,在M-Xception網(wǎng)絡(luò)結(jié)構(gòu)的Entry flow輸入部分,與Xception通過2個stride分別為2、1的卷積層不同,M-Xception網(wǎng)絡(luò)將輸入特征圖通過2個stride=1的標準卷積層,目的是在保留原始特征位置信息的同時加深網(wǎng)絡(luò)深度.
其次,通過2個深度可分離卷積Block代替Xception網(wǎng)絡(luò)中“極致的Inception”,以減少參數(shù).假設(shè)輸入特征圖大小為M×M,通道數(shù)為C(C>1),標準卷積的規(guī)格是k×k×C×C′(k取3,C′表示特征圖經(jīng)過卷積后的輸出通道數(shù)),輸出大小為M1×M1,標準卷積如圖3(a)所示,則其參數(shù)量為
若以上情況使用“極致的Inception”,其結(jié)構(gòu)如圖3(b)所示,其參數(shù)量為
由于C>1且為整數(shù),所以n1-n2>0,因此在特征提取過程中可知參數(shù)量n1>n2.隨著層數(shù)的增多,“極致的Inception”一般可比標準卷積減少約90%的計算量.本文所使用的深度可分離卷積,其結(jié)構(gòu)如圖3(c)所示,與圖3(b)相似,區(qū)別在于將“極致的Inception”結(jié)構(gòu)中1×1和3×3卷積進行顛倒可得到深度可分離卷積.在上述假設(shè)中,參數(shù)量為
在本文的網(wǎng)絡(luò)結(jié)構(gòu)中,C′>C(除最后一層分類),故參數(shù)量n2>n3.因此,即M-Xception網(wǎng)絡(luò)放棄使用Xception網(wǎng)絡(luò)的“極致的Inception”,改用深度可分離卷積模塊.
圖2 M-Xception網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Structure of M-Xception network
圖3 標準卷積、“極致的Inception”和深度可分離卷積示意圖Fig. 3 Diagrammatic drawing of standard convolution,“extreme Inception” and deep separable convolution
最后,把Xception的Middle flow部分提前1個Block并將重復(fù)8次減少至3次,目的是減少參數(shù)、簡化模型,實驗證明對準確率沒有影響.經(jīng)過1個深度可分離卷積Block,進行全局平均池化后通過Softmax[8]完成分類.整個M-Xception網(wǎng)絡(luò)結(jié)構(gòu),除了深度分離卷積層dw和pw之間使用線性激活函數(shù)(保留信息特征)之外,其他卷積層之間均添加BN[9]層、ReLU[10]激活函數(shù),防止數(shù)據(jù)發(fā)散并增強模型的非線性表達能力.
分別將Xception、M-Xception網(wǎng)絡(luò)模型在沒有口罩遮擋的數(shù)據(jù)集FER2013上進行訓(xùn)練、測試,結(jié)果見表1.M-Xception網(wǎng)絡(luò)模型具有更加簡潔、快速、高效等輕量級的特性.改進前后兩種網(wǎng)絡(luò)模型在FER2013數(shù)據(jù)集上的準確率均為68%左右,準確率都不高,這是因為FER2013數(shù)據(jù)集存在標簽缺失、錯誤以及非人臉表情圖片等問題,而由人類進行主觀識別的準確率也只有(65±5)%左右.因此,后續(xù)戴口罩實驗先去掉了FER2013數(shù)據(jù)集的標簽缺失、錯誤以及非人臉表情等圖片,再進行Face-Mask口罩遮擋處理,具體實驗過程詳見2.2節(jié).
表1 Xception網(wǎng)絡(luò)改進前后對比Tab. 1 The comparison of before and after Xception network improvement
在PC端上的實驗以深度學(xué)習(xí)框架Keras為基礎(chǔ),使用TensorFlow作為其后端,編程語言采用Python 3.6.實驗使用的GPU為NVIDIA GeForce RTX 2080 Ti,其顯存大小為11GB,CPU為 Intel Xeon CPU E5-2678 v3 六核,其內(nèi)存大小是62GB,在Windows 10 64位操作系統(tǒng)上進行.
有關(guān)表情識別的現(xiàn)有開源數(shù)據(jù)集有CK+、JAFFE、HUMAINE Database、MMI、NVIE和FER2013等.由于FER2013數(shù)據(jù)集更加符合實際生活場景,由7種表情共35886張人臉表情圖片組成,數(shù)據(jù)規(guī)模較大,在全臉未遮擋的情況下,嘴巴動作、雙眼、眉毛形態(tài)等使人臉的表情信息量較為豐富.佩戴口罩前后的人臉關(guān)鍵點信息如圖4所示.利用Dlib[11]的Face-Mask技術(shù),對FER2013無遮擋的表情數(shù)據(jù)進行戴口罩的遮擋處理,處理前后圖片對比如圖5所示.
圖4 佩戴口罩前后的人臉關(guān)鍵點信息 Fig. 4 Facial key points before and after wearing a mask
由于口罩遮擋,鼻子、嘴巴以及臉上部分輪廓的特征幾乎完全損失,導(dǎo)致表情中的微笑與中性、厭惡與生氣、恐懼與驚訝的差異較小,使得這些表情在有遮擋的情況下難以區(qū)分,因此對數(shù)據(jù)集進行裁剪處理:第一,去除戴口罩條件下的相似表情類別中的一類,保留中性、悲傷、驚訝、生氣表情數(shù)據(jù);第二,去除非正臉、模糊、標簽丟失、標簽錯誤、非人臉等不合格圖片.處理后的數(shù)據(jù)集使用FER+標簽完成數(shù)據(jù)標注.最后得到3840張戴口罩的4類表情數(shù)據(jù)作為實驗數(shù)據(jù)集FERM,其表情類別數(shù)量分布見表2.
圖5 Face-Mask處理前后 Fig. 5 Before and after Face-Mask treatment
表2 4類表情數(shù)量分布 Tab. 2 Number distribution of the four types expressions
為了提高模型的泛化性能,采用框架Keras的ImageDataGenerator()工具進行數(shù)據(jù)增強,設(shè)置圖片隨機轉(zhuǎn)動角度為10°,圖片隨機水平、豎直偏移的幅度為0.1,并進行隨機縮放和水平翻轉(zhuǎn),以避免出現(xiàn)過擬合現(xiàn)象.
實驗均采用Adam[12]優(yōu)化器優(yōu)化損失,epoch為100,batch_size為64,將訓(xùn)練集和驗證集的比例設(shè)為9﹕1.按照表1所設(shè)計的網(wǎng)絡(luò)模型進行訓(xùn)練,將預(yù)處理后的圖片輸入網(wǎng)絡(luò),M-Xception網(wǎng)絡(luò)模型的實驗結(jié)果驗證集準確率相比較于CNN、mini_Xception和Xception(同等輸入規(guī)模)網(wǎng)絡(luò)的戴口罩有遮擋表情識別的平均準確率見表3.由表3可知,M-Xception網(wǎng)絡(luò)加上Dropout技術(shù)的準確率最高,為88.95%,說明本文改進的模型具有更加理想的識別效果.MXception+Dropout網(wǎng)絡(luò)模型準確率比M-Xception網(wǎng)絡(luò)模型高,可見Dropout有效地防止了過擬合,提高了驗證集準確率.M-Xception網(wǎng)絡(luò)模型的準確率比Xception網(wǎng)絡(luò)模型的高,且M-Xception網(wǎng)絡(luò)模型耗費時間比Xception網(wǎng)絡(luò)模型的短,表明改進后的模型既節(jié)省了模型參數(shù)又縮短了訓(xùn)練時間,同時還提高了準確率,進一步證明M-Xception網(wǎng)絡(luò)模型模型對于較小輸入特征具有良好的應(yīng)用價值.使用MXception+Dropout模型權(quán)重在全數(shù)據(jù)集中進行準確率的測試,得到混淆矩陣如圖6所示,結(jié)果表明模型的準確率均較高.
表3 不同模型的平均準確率對比 Tab. 3 Comparison of average accuracy of different models
圖6 M-Xception+Dropout模型權(quán)重下的混淆矩陣Fig. 6 Confusion matrix under the weight of M-Xception+Dropout model
本文提出了一種M-Xception網(wǎng)絡(luò)模型用于戴口罩人臉表情的識別.在M-Xception網(wǎng)絡(luò)模型中,通過減少原網(wǎng)絡(luò)Xception模型網(wǎng)絡(luò)層數(shù)和使用深度可分離卷積,保證了網(wǎng)絡(luò)的輕量級特性,同時保留Xception模型將低層次特征與高層次特征進行融合的特性,提高網(wǎng)絡(luò)的特征提取能力,并加入Dropout技術(shù)防止過擬合現(xiàn)象,最后采用Softmax分類器對提取的特征進行分類.實驗結(jié)果表明本文改進的模型可以在戴口罩有遮擋的FERM數(shù)據(jù)集上達到較高的識別準確率,超過了現(xiàn)有的有遮擋表情識別方法.由于現(xiàn)實生活中表情識別的干擾因素眾多(光照、側(cè)臉等),因此如何建立自然場景下人臉有遮擋表情數(shù)據(jù)集,并進一步分析被遮擋的有限關(guān)鍵點的人臉表情識別,將是后續(xù)工作的研究重點.