趙 軍,趙 艷,楊 勇,,樸仁圭,黃 勇
(1. 重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065;2.韓國(guó)仁荷大學(xué) 情報(bào)通信工學(xué)部,仁川 402751)
基于降維的堆積降噪自動(dòng)編碼機(jī)的表情識(shí)別方法
趙 軍1,趙 艷1,楊 勇1,2,樸仁圭2,黃 勇1
(1. 重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065;2.韓國(guó)仁荷大學(xué) 情報(bào)通信工學(xué)部,仁川 402751)
堆積降噪自動(dòng)編碼機(jī)是一種典型的深度學(xué)習(xí)模型,它能夠刻畫數(shù)據(jù)豐富的內(nèi)在信息,具有較強(qiáng)的特征學(xué)習(xí)能力。基于主成分分析(principal component analysis, PCA)技術(shù)和堆積降噪自動(dòng)編碼機(jī)(stacked denoising autoencoders, SDAE)模型,提出一種新的表情識(shí)別算法PCA+SDAE。該算法對(duì)人臉圖片進(jìn)行裁剪及歸一化等預(yù)處理,采用主成分分析技術(shù)對(duì)人臉特征進(jìn)行線性降維,再利用堆積降噪自動(dòng)編碼機(jī)逐層進(jìn)行特征學(xué)習(xí)并同時(shí)實(shí)現(xiàn)對(duì)人臉表情數(shù)據(jù)的非線性降維,可以得到更好的、維度更低的表情特征,并據(jù)此進(jìn)行表情分類。對(duì)PCA+SDAE算法的仿真測(cè)試實(shí)驗(yàn)結(jié)果表明,其綜合性能比其他的基于深度學(xué)習(xí)模型的表情識(shí)別方法更好,同時(shí)與傳統(tǒng)的非深度學(xué)習(xí)表情識(shí)別方法相比,它具有更高的表情識(shí)別正確率。
表情識(shí)別;深度學(xué)習(xí);堆積降噪自動(dòng)編碼機(jī);主成分分析
面部表情不僅是人們常用的較自然的表達(dá)情感的方式,也是人類鑒別情感的主要標(biāo)志,在情感計(jì)算中占有很重要的地位。近些年來(lái),表情識(shí)別作為情感識(shí)別的主要方式[1],已被廣泛地應(yīng)用到人機(jī)交互、遠(yuǎn)程教育管理、車輛安全駕駛、公共場(chǎng)合安全監(jiān)控等領(lǐng)域。
傳統(tǒng)的表情識(shí)別思路包括以下幾個(gè)步驟:獲得數(shù)據(jù)、預(yù)處理、特征提取、特征選擇、表情分類[2-4],而在表情分類之前所做的工作概括起來(lái)就是特征表達(dá),良好的特征表達(dá)對(duì)最終分類的準(zhǔn)確性起著非常關(guān)鍵的作用,這部分工作一般都是先于表情分類過(guò)程獨(dú)立完成。截至目前為止,已有人提出多種特征表達(dá)方法,比如Gabor小波特征、離散余弦轉(zhuǎn)換、局部二值模式等。
深度學(xué)習(xí)通過(guò)構(gòu)建具有多隱層的非線性神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將輸入數(shù)據(jù)通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新的特征空間,從而試圖學(xué)習(xí)數(shù)據(jù)樣本的本質(zhì)特征,并建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),進(jìn)一步模仿人腦來(lái)解釋圖像、聲音、文本等數(shù)據(jù)[5]。與特征表達(dá)方法相比,深度學(xué)習(xí)更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息,從而最終提升分類的準(zhǔn)確性。近些年來(lái),一些深度學(xué)習(xí)方法,如受限玻爾茲曼機(jī)、深度信念網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于表情識(shí)別領(lǐng)域。2002年,F(xiàn)ASEL B利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行表情識(shí)別[6]; 2014年,劉云帆等人利用光流特征和稀疏自動(dòng)編碼機(jī)進(jìn)行表情識(shí)別[7];同年,LV Y等人利用深度信念網(wǎng)絡(luò)對(duì)臉部切片進(jìn)行檢查,并利用自動(dòng)編碼機(jī)進(jìn)行表情識(shí)別[8];2015年,JUNG H等人利用深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)開發(fā)了一套表情識(shí)別系統(tǒng)[9],同年LIU P等人利用結(jié)合深度信念網(wǎng)絡(luò)和adaboost的方法進(jìn)行表情識(shí)別[10]。盡管基于深度學(xué)習(xí)模型的表情識(shí)別方法已經(jīng)取得較大的研究進(jìn)展,但人們發(fā)現(xiàn)僅使用單一的深度學(xué)習(xí)模型進(jìn)行表情識(shí)別很難取得較高的識(shí)別率;要取得更好的結(jié)果,需要對(duì)模型進(jìn)行改造,其工作流程繁瑣,而且模型訓(xùn)練與識(shí)別的過(guò)程也較為復(fù)雜。
堆積降噪自動(dòng)編碼機(jī)[11]是一種高效的深度學(xué)習(xí)模型。本文提出一種基于主成分分析(principal component analysis,PCA)和堆積降噪自動(dòng)編碼機(jī)(stacked denoising autoencoders, SDAE)的表情識(shí)別方法,對(duì)輸入特征先利用主成分分析進(jìn)行線性降維,再利用堆積降噪自動(dòng)編碼機(jī)在特征學(xué)習(xí)時(shí)對(duì)數(shù)據(jù)進(jìn)行非線性降維,從而得到更有效的特征表達(dá),使得預(yù)測(cè)平均時(shí)間及表情識(shí)別率都有所提高。仿真實(shí)驗(yàn)結(jié)果驗(yàn)證了新方法的有效性。
1.1 降噪自動(dòng)編碼機(jī)
(1)
(1)式中,L是損失函數(shù)。把向量x和z的每個(gè)分量看做滿足伯努利分布,使用交叉熵來(lái)度量x和z之間的距離。
(2)
圖1 降噪自動(dòng)編碼機(jī)結(jié)構(gòu)Fig.1 The structure of denoising auto-encoders
1.2 堆積降噪自動(dòng)編碼機(jī)
圖2 堆積降噪自動(dòng)編碼機(jī)結(jié)構(gòu)Fig.2 Structure of stacked denoising auto-encoders
與卷積神經(jīng)網(wǎng)絡(luò)和深度信念網(wǎng)絡(luò)等常用深度學(xué)習(xí)模型相比,SDAE具有更強(qiáng)的特征學(xué)習(xí)能力,在手寫數(shù)字識(shí)別領(lǐng)域已經(jīng)得到成功應(yīng)用,自然地,我們也可以考慮將SDAE應(yīng)用于表情識(shí)別領(lǐng)域。不過(guò),由于原始人臉圖像含有大量與表情表達(dá)無(wú)關(guān)的成分,如果直接將其輸入堆積降噪自動(dòng)編碼機(jī)進(jìn)行特征學(xué)習(xí),必定會(huì)影響模型訓(xùn)練和識(shí)別的效率,因此,需要事先有效去除圖像數(shù)據(jù)中的無(wú)關(guān)成分?;谶@一思想,我們提出PCA+SDAE的表情識(shí)別算法,算法框架如圖3所示。
圖3 基于PCA+SDAE的表情識(shí)別方法框架圖Fig.3 Framework of facial expression recognition method based on PCA+SDAE
算法首先對(duì)人臉圖片進(jìn)行裁剪及歸一化等預(yù)處理。先對(duì)人臉圖片按文獻(xiàn)[15]的方式進(jìn)行剪裁,既減小圖片數(shù)據(jù)的規(guī)模,又去除頭發(fā)、背景等干擾區(qū)域,盡可能只保留臉部與表情表達(dá)相關(guān)的部分;然后進(jìn)行灰度歸一化處理,以減小因光照不勻而帶來(lái)的影響。
接下來(lái),算法采用PCA[16]對(duì)預(yù)處理之后的人臉特征進(jìn)行降維。PCA是一種正交線性變換,它利用主成分值來(lái)替代原始數(shù)據(jù),可以有效提取表達(dá)表情的主要成分,從而實(shí)現(xiàn)對(duì)人臉圖像數(shù)據(jù)的線性降維。PCA降維的這種線性特性,正好與隨后的SDAE學(xué)習(xí)過(guò)程的非線性降維形成互補(bǔ)性,仿真實(shí)驗(yàn)結(jié)果表明這種方式能夠取得較理想的效果。
算法最后將降維得到的特征輸入SDAE進(jìn)行特征學(xué)習(xí),從而完成堆積降噪自動(dòng)編碼機(jī)的訓(xùn)練,這是算法最核心的步驟。SDAE通常要求各層輸出數(shù)據(jù)的維度要低于輸入數(shù)據(jù)[11],于是,SDAE模型的學(xué)習(xí)訓(xùn)練過(guò)程也是一個(gè)對(duì)輸入數(shù)據(jù)進(jìn)行非線性降維的過(guò)程;此外,SDAE各層節(jié)點(diǎn)數(shù)通常是由低到高逐層遞減的[11-12],通??稍O(shè)為整百或整十[8]。
進(jìn)行表情識(shí)別時(shí),將待識(shí)別人臉圖像進(jìn)行同樣的預(yù)處理和PCA降維,將訓(xùn)練得到各層參數(shù)的SDAE作為測(cè)試模型,把待識(shí)別人臉圖像輸入SDAE模型,就可以得到表情分類結(jié)果。
3.1 實(shí)驗(yàn)設(shè)置
為了驗(yàn)證本文提出方法的有效性,我們采用經(jīng)典的表情數(shù)據(jù)集CK+和JAFFE[17-19]進(jìn)行實(shí)驗(yàn)測(cè)試,對(duì)包括憤怒、厭惡、害怕、高興、悲傷、驚訝[20]等6種常見的基本表情進(jìn)行分類。除中性表情的人臉圖片外,我們分別從CK+數(shù)據(jù)集中選取600張表情圖片、從JAFFE數(shù)據(jù)集選取183張表情圖片作為樣本,按照十折交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)過(guò)程中,我們按文獻(xiàn)[11-12]和[8]討論的方法來(lái)設(shè)置SDAE模型的參數(shù)。我們?yōu)镃K+數(shù)據(jù)集選取5層結(jié)構(gòu),隱層節(jié)點(diǎn)數(shù)由低到高分別是500,400,200;由于JAFFE數(shù)據(jù)集較小,需要更多層模型來(lái)進(jìn)行特征學(xué)習(xí),我們?yōu)槠溥x擇7層模型,隱層節(jié)點(diǎn)數(shù)由低到高分別是500,400,300,200,100。
3.2 實(shí)驗(yàn)與結(jié)果分析
3.2.1 與不同深度學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)
表1比較了本文提出的PCA+SDAE算法與幾種經(jīng)典的基于深度學(xué)習(xí)的表情識(shí)別算法的實(shí)驗(yàn)測(cè)試結(jié)果。
表1 不同深度學(xué)習(xí)算法的表情識(shí)別率
測(cè)試結(jié)果表明,PCA+SDAE的綜合性能明顯優(yōu)于經(jīng)典的堆積降噪自動(dòng)編碼機(jī)SDAE、深度信念網(wǎng)絡(luò)(deep belief networks, DBN),略優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN),但略次于文獻(xiàn)[8]提出的FP+SAE算法。不過(guò)值得注意的是,F(xiàn)P+SAE算法需先對(duì)人臉切塊進(jìn)行特征提取,再對(duì)臉部各切塊特征進(jìn)行融合,最后利用堆積自動(dòng)編碼機(jī)進(jìn)行表情識(shí)別,其計(jì)算過(guò)程比本文提出的算法更為復(fù)雜。
3.2.2 與非深度學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)
我們比較了PCA+SDAE與人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks, ANN)、局部二值模式+支持向量機(jī)(local binary pattern+support vector machine, LBP+SVM)等3種算法對(duì)人臉表情進(jìn)行識(shí)別的效果,其中,ANN和LBP+SVM是兩種經(jīng)典的非深度學(xué)習(xí)的表情識(shí)別算法。實(shí)驗(yàn)結(jié)果如表2所示。
表2 PCA+SDAE與非深度學(xué)習(xí)方法的表情識(shí)別率比較
測(cè)試結(jié)果表明,PCA+SDAE的綜合性能明顯優(yōu)于ANN和LBP+SVM。從某種意義上說(shuō),這一結(jié)果反映了深度學(xué)習(xí)方法具有更強(qiáng)的自動(dòng)學(xué)習(xí)特征的能力。
本文提出一種結(jié)合主成分分析和堆積降噪自動(dòng)編碼機(jī)的表情識(shí)別方法PCA+SDAE。測(cè)試實(shí)驗(yàn)結(jié)果表明,總體來(lái)看,與其他幾種經(jīng)典的深度學(xué)習(xí)方法和非深度學(xué)習(xí)方法相比,PCA+SDAE能得到更高的表情識(shí)別率。但是迄今為止,盡管有一些原則性的約束和方向性的討論,在SDAE模型結(jié)構(gòu)的選擇仍然主要利用經(jīng)驗(yàn)來(lái)確定,因此,如何結(jié)合人臉圖片的特征,選擇最優(yōu)的模型結(jié)構(gòu)值得進(jìn)一步研究;另外,目前的表情識(shí)別大都應(yīng)用于正面人臉表情,今后還可以進(jìn)一步拓寬到有姿態(tài)的表情識(shí)別領(lǐng)域。
[1] FASEL B,LUETTIN J.Automatic facial expression analysis:a survey[J].Pattern recognition,2003,36(1):259-275.[2] SUMATHI C P, SANTHANAM T, MAHADEVI M. Automatic facial expression analysis a survey[J]. International Journal of Computer Science & Engineering Survey, 2012, 3(6):47-59.
[3] CALEANU C D. Face expression recognition: a brief overview of the last decade[C]// 8th IEEE International Symposium on Applied Computational Intelligence and Informatics. Timisoara: IEEE press, 2013: 157-161.
[4] PANTIC M, ROTHKRANTZ L J M. Automatic analysis of facial expressions: the state of the art[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2000, 22(12): 1424-1445.
[5] BOUREAU Y, CUN Y L. Sparse feature learning for deep belief networks[C]//Advances in neural information processing systems. Vancouver: NIPS press, 2008: 1185-1192.
[6] FASEL B. Mutliscale facial expression recognition using convolutional neural networks[C]//Indian Conference on Computer Vision, Graphics and Image Processing (ICVGIP 02).Ahmedabad: ICVGIP press, 2002: 1-9.
[7] LIU Y, HOU X, CHEN J, et al. Facial expression recognition and generation using sparse autoencoder[C]// International Conference on Smart Computing. Hong Kong: IEEE press, 2014: 125-130.
[8] LV Y, FENG Z, XU C. Facial expression recognition via deep learning[C]// International Conference on Smart Computing. Hong Kong: IEEE press, 2014: 303-308.
[9] JUNG H, LEE S, PARK S, et al. Development of deep learning-based facial expression recognition system[C]// 21st Korea-Japan Joint Workshop on Frontiers of Computer Vision. Mokpo: IEEE press, 2015: 1-4.
[10] LIU P, HAN S, MENG Z, et al. Facial expression recognition via a boosted deep belief network[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE press, 2014: 1805-1812.
[11] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(6):3371-3408.
[12] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]// Proceedings of the 25th international conference on Machine learning. Helsinki: ACM press,2008: 1096-1103.
[13] BENGIO Y. Learning deep architectures for AI[J]. Foundations & Trends in Machine Learning, 2009, 2(1):1-127.
[14] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[M]∥Advances in neural information processing systems 19(NIPS’06). [s.L.]: MIT Press, 2007:153-160.
[15] DENG H B, JIN L W, ZHEN L X, et al. A new facial expression recognition method based on local Gabor filter bank and PCA plus LDA[J]. International Journal of Information Technology, 2005, 11(11): 86-96.
[16] JOLLIFFE I. Principal component analysis[M]. USA: John Wiley & Sons, Ltd, 2002.
[17] KANADE T, COHN J F,TIAN Y. Comprehensive database for facial expression analysis[C]// Fourth IEEE International Conference on Automatic Face and Gesture Recognition. Grenoble: IEEE press, 2000: 46-53.
[18] LUCEY P, COHN J F, KANADE T, et al. The extended cohn-kanade dataset (ck+): a complete expression dataset for action unit and emotion-specified expression[C]//IEEE Computer Society Conference of Computer Vision and Pattern Recognition Workshops. San Francisco, CA: IEEE press, 2010: 94-101.
[19] LYONS M J, BUDYNEK J, AKAMATSU S. Automatic classification of single facial images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2001, 21(21):1357-1362.
[20] EKMAN P, FRIESEN W V. Constants across cultures in the face and emotion[J].Journal of Personality and Social Psychology, 1971, 17(2):124-129.
趙 軍(1971-):男,重慶市人,博士,教授,碩士生導(dǎo)師。主要研究方向?yàn)槿斯ぶ悄芘c模式識(shí)別、情感計(jì)算等。E-mail:zhaojun@cqupt.edu.cn。
趙 艷(1990-):女,山西朔州人,碩士研究生,主要研究方向?yàn)閳D像處理與模式識(shí)別E-mail:cquptzyan@163.com。
楊 勇(1976-):男,云南大理人,博士,副教授,碩士生導(dǎo)師。主要研究方向?yàn)槿斯ぶ悄芘c模式識(shí)別、情感計(jì)算、數(shù)據(jù)挖掘等。E-mail:yangyong@cqupt.edu.cn。
樸仁圭(1972-),男,韓國(guó)仁川人,韓國(guó)仁荷大學(xué)博士生導(dǎo)師,主要研究方向?yàn)榛趫D像和視頻的3D形狀采集、建模、處理和呈現(xiàn),嵌入計(jì)算及視覺,多媒體應(yīng)用。E-mail:pik@inha.ac.kr。
黃 勇(1990-),男,湖南益陽(yáng)人,碩士研究生,主要研究方向?yàn)閳D像處理與模型識(shí)別。E-mail:lyrhy@foxmail.com。
(編輯:張 誠(chéng))
Facial expression recognition method based on stacked denoising auto-encoders and feature reduction
ZHAO Jun1, ZHAO Yan1, YANG Yong1,2, PARK Inkyu2, HUANG Yong1
(1. Chongqing Key Laboratory of Computational and Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China; 2. Department of Information and Communication Engineering, Inha University, Incheon 402751, Korea)
A Stacked Denoising Auto-Encoders (SDAE) is a typical deep learning model. Because of its capability of disclosing rich inherent information from data, and it has a strong ability of leaning features. Herein, a new algorithm principal components analysis+stacked denoising auto-encoders (PCA+SDAE) for facial expression recognition is put forward on the bases of principal components analysis (PCA) technology and stacked denoising auto-encoders model. By the new algorithm PCA+SDAE, a facial image is firstly processed by cutting and normalization; then the linear dimensionality of its expression features is reduced by PCA; lastly, a greed layer-wise feature learning is conducted by a SDAE, and the non-linear dimensionality of its expression features is simultaneously reduced. Consequently, facial expression can be recognized based on the more powerful and lower dimensional facial features can be obtained. The results of simulation test experiments on algorithm PCA+SDAE show that the proposed method has better overall performance than some other expression recognition methods based on deep learning models; and it can also get higher expression recognition accuracy than traditional non-deep learning based expression recognition methods.
facial expression recognition; deep learning; stacked denoising autoencoders; principal component analysis.
10.3979/j.issn.1673-825X.2016.06.016
2016-03-15
2016-07-20
趙 軍 zhaojun@cqupt.edu.cn
重慶市自然科學(xué)基金項(xiàng)目(CSTC,2007BB2445);韓國(guó)科學(xué)與信息科技未來(lái)規(guī)劃部2013年ICT研發(fā)項(xiàng)目(10039149)
Foundation Items:The Natural Science Foundation Project of CQ (CSTC, 2007BB2445); The MSIP Ministry of Science, ICT & Future Planning(MSIP) of Korea in the ICT R&D Program 2013 (10039149)
TP181
A
1673-825X(2016)06-0844-05