歐中亞,山田宏尚
(1.河南經(jīng)貿(mào)職業(yè)學(xué)院 信息管理系,河南 鄭州 450046;2.日本岐阜大學(xué) 工學(xué)研究科機(jī)械系統(tǒng),岐阜 名古屋 5011193)
人臉表情識(shí)別[1]的核心是提取人臉的表情特征,目前常用的人臉表情特征有3類(lèi),分別是幾何特征、運(yùn)動(dòng)特征和統(tǒng)計(jì)特征[2-4]。幾何特征主要是對(duì)人臉的眼睛、眉毛、嘴巴等局部部位的幾何位置和形狀進(jìn)行定量描述,來(lái)區(qū)分不同的表情。然而,幾何特征受光照、圖像質(zhì)量、飾物等干擾較大,穩(wěn)健性不強(qiáng)[5]。運(yùn)動(dòng)特征是將連續(xù)的人臉表情變化作為研究對(duì)象,采用如光流法等運(yùn)動(dòng)分析方法來(lái)測(cè)量表情的變化,區(qū)分不同的表情。然而,此類(lèi)方法需要的信息量大,且計(jì)算量也很大[6]。統(tǒng)計(jì)特征通常是對(duì)圖像空間進(jìn)行變換(如主成分分析(principal components analysis,PCA)),將降維后的向量作為特征向量來(lái)進(jìn)行表情識(shí)別。由于不需要設(shè)計(jì)具體的特征描述子,相對(duì)而言比較簡(jiǎn)便,但也受光照等影響[7]。
本文提出一種結(jié)合魯棒PCA特征和隨機(jī)森林學(xué)習(xí)方法的人臉表情識(shí)別方法,其創(chuàng)新點(diǎn)有兩個(gè):一是提出一種魯棒的PCA特征提取方法,融合歐氏距離和明氏距離兩種距離計(jì)算方法來(lái)求取樣本均值,并采用梯度下降算法來(lái)迭代尋找最優(yōu)的樣本中心和投影矩陣,提高特征對(duì)不同樣本的魯棒性。二是提出一種改進(jìn)的Gamma校正方法,可以在改變圖像灰度動(dòng)態(tài)分布范圍的同時(shí)盡可能保證圖像的整體亮度分布不變。
本文提出的結(jié)合魯棒PCA特征和隨機(jī)森林的表情識(shí)別方法主要包括圖像預(yù)處理、表情特征提取和表情特征的訓(xùn)練與分類(lèi)3個(gè)部分,詳細(xì)介紹如下。
在進(jìn)行表情識(shí)別之前,首先要定位圖像中人臉的位置,并進(jìn)行人臉對(duì)齊處理,然后再采用尺度歸一化、光照歸一化等處理,得到規(guī)則的人臉區(qū)域圖像。在此基礎(chǔ)上再進(jìn)行表情特征的提取和分類(lèi)。由于許多公開(kāi)的人臉表情數(shù)據(jù)集都已事先進(jìn)行了人臉的定位、對(duì)齊和尺度歸一化等處理,數(shù)據(jù)集中的圖像已經(jīng)是規(guī)則的人臉區(qū)域圖像,如本文實(shí)驗(yàn)所選用的JAFFE人臉表情數(shù)據(jù)集。故本文不再贅述人臉的定位、對(duì)齊等處理方法,這部分內(nèi)容可參考文獻(xiàn)[8]。
這里,我們需要進(jìn)行的圖像預(yù)處理操作主要是光照歸一化操作,因?yàn)楝F(xiàn)有的人臉表情數(shù)據(jù)集基本上都沒(méi)有進(jìn)行光照歸一化處理。光照歸一化的方法有很多,如直方圖均衡法、直方圖規(guī)定化、Gamma校正法等,本文針對(duì)JAFFE數(shù)據(jù)集的圖像采集光源分布狀況,采用一種改進(jìn)的Gamma校正方法進(jìn)行光照歸一化處理,目標(biāo)是在保證圖像整體亮度基本不變的情況下增強(qiáng)低亮度值區(qū)域的灰度動(dòng)態(tài)范圍,降低高亮度值區(qū)域的灰度動(dòng)態(tài)范圍,可以用公式表示為
需要說(shuō)明的是,本文僅對(duì)圖像的亮度信息進(jìn)行處理,不需要圖像的顏色信息。
特征提取是表情識(shí)別技術(shù)的研究重點(diǎn),常用的有人臉表情特征有PCA、局部二元模式(localbinarypatterns,LBP)、方向梯度直方圖(histogramoforientedgradients,HOG)等,這些特征在人臉表情識(shí)別方面的性能差異將在實(shí)驗(yàn)部分進(jìn)行對(duì)比分析。
本文在進(jìn)行人臉表情特征提取時(shí),針對(duì)傳統(tǒng)的PCA特征所存在的個(gè)別樣本偏離問(wèn)題,提出一種結(jié)合歐氏距離和明氏距離改進(jìn)的樣本中心自適應(yīng)求取方法,在此基礎(chǔ)上提取魯棒的PCA特征,降低表情識(shí)別時(shí)的錯(cuò)誤率。詳細(xì)過(guò)程描述如下。
假定圖像的寬度和高度分別為W和H,我們按照從左到右、從上到下的順序掃描圖像中每一個(gè)像素點(diǎn)的亮度值,將圖像表示為一個(gè)n維的向量xi,其中,i=1,2,…,N表示樣本集合中圖像對(duì)應(yīng)的序號(hào)。
對(duì)于向量xi而言,其維度n=IMG_W×IMG_H。在后續(xù)本文實(shí)驗(yàn)所用的數(shù)據(jù)集中,圖像的寬度IMG_W和高度IMG_H都為256,此時(shí)n=256×256=65536。很明顯,向量xi的維度n非常大,不易進(jìn)行數(shù)據(jù)處理。
主成分分析是一種低失真的降維方法,采用一個(gè)正交投影矩陣W∈n×m(其中m?n),將高維的n維向量xi降維到低維的m維向量yi,表示為
yi=WTxi
(2)
假定樣本圖像集中的N個(gè)圖像樣本的均值為0,主成分分析的目標(biāo)是尋找一個(gè)正交投影矩陣,使得在降維空間上投影后的樣本向量集合擁有最大的方差,表示為
(3)
其中,tr(·)表示求矩陣的跡,矩陣S表示向量的協(xié)方差矩陣,定義為
(4)
實(shí)際計(jì)算時(shí),常從投影誤差最小的角度來(lái)尋找最優(yōu)的正交投影矩陣。通常,投影誤差可以表示為
(5)
上述優(yōu)化問(wèn)題可以通過(guò)求解協(xié)方差矩陣S的m個(gè)最大的特征值所對(duì)應(yīng)的m個(gè)特征向量來(lái)計(jì)算。
然而,實(shí)際上N個(gè)圖像樣本的均值一般不為0,此時(shí)常用的策略是計(jì)算所有樣本向量的均值向量xm
(6)
然后將每一個(gè)樣本向量都減去均值向量,再進(jìn)行主成分分析。此時(shí),協(xié)方差矩陣S變?yōu)?/p>
(7)
從最小均方差的角度來(lái)看,傳統(tǒng)的樣本均值可以看作是樣本的中心,表示為
(8)
然而,采用歐氏距離存在一個(gè)問(wèn)題,就是經(jīng)常存在一些樣本遠(yuǎn)離樣本中心,這樣就與主成分分析的假設(shè)條件偏差較大,不利于進(jìn)行主成分分析。
為此,本文對(duì)樣本中心的計(jì)算方法進(jìn)行改進(jìn),結(jié)合歐氏距離和明氏距離自適應(yīng)求取樣本中心,表示為
(9)
(10)
(11)
式(11)可采用梯度下降方法求解,本文提出一種快速的梯度下降算法。具體描述如下:
首先,采用如下所示的近似分解
(12)
其中
(13)
(14)
這一迭代過(guò)程可以用表1所示的偽代碼描述。
表1 樣本均值求取過(guò)程偽代碼
其中
(15)
參數(shù)ε和τ用于控制迭代的終止條件,當(dāng)前后兩次迭代的樣本與中心距離差異▽x(t,t-1)不大于ε或者迭代次數(shù)t到達(dá)最大迭代次數(shù)τ時(shí),終止迭代,將此輪迭代得到的樣本均值作為最優(yōu)的樣本均值。
(16)
其中
(17)
與式(12)類(lèi)似,有
(18)
其中,W(t)表示第t次迭代之后的正交投影矩陣。
于是有
(19)
其中
(20)
算法的偽代碼見(jiàn)表2。
表2 魯棒PCA特征提取過(guò)程偽代碼
其中
(21)
參數(shù)ξ和τ用于控制此處迭代的終止條件,當(dāng)前后兩次迭代的投影誤差差異▽W(xué)(t,t-1)不大于ξ或者迭代次數(shù)t到達(dá)最大迭代次數(shù)τ時(shí),終止迭代,將此輪迭代得到的投影矩陣作為最優(yōu)的投影矩陣W*。
得到投影矩陣之后,即可對(duì)當(dāng)前已經(jīng)過(guò)預(yù)處理操作的圖像向量x進(jìn)行投影變換,計(jì)算其魯棒的PCA特征y,可以表示為
(22)
對(duì)于上一小節(jié)提取得到的魯棒PCA特征,我們需要訓(xùn)練一個(gè)分類(lèi)器,用于區(qū)分不同表情的魯棒PCA特征。目前,特征分類(lèi)方法也很多,如Adaboost、支持向量機(jī)(supportvectormachine,SVM)、決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等,這些分類(lèi)方法各有優(yōu)劣,對(duì)不同的應(yīng)用場(chǎng)合的性能也不同。本文針對(duì)人臉表情識(shí)別的實(shí)驗(yàn)情況選用隨機(jī)森林作為人臉表情特征的分類(lèi)器,對(duì)特征進(jìn)行訓(xùn)練和驗(yàn)證。隨機(jī)森林方法的訓(xùn)練和驗(yàn)證步驟可參考文獻(xiàn)[9],這里不再贅述。
人臉表情識(shí)別領(lǐng)域目前已有公開(kāi)的數(shù)據(jù)集,本文選用的實(shí)驗(yàn)數(shù)據(jù)集就是表情識(shí)別領(lǐng)域常用的JAFFE人臉表情圖像集。該數(shù)據(jù)集包括213幅人臉圖像,這些人臉圖像已經(jīng)經(jīng)過(guò)尺寸歸一化和人臉對(duì)齊處理,圖像尺寸都為256×256,且均為正面人臉,人眼的位置也大致對(duì)齊,光照也僅有正面光照。該數(shù)據(jù)集采集的是10個(gè)人的表情圖像,包括高興、悲傷、憤怒、驚奇、厭惡、恐懼和中性共7種表情。
本文的實(shí)驗(yàn)都是在該數(shù)據(jù)集下進(jìn)行的,其中,每一類(lèi)表情選擇不同個(gè)體的各1幅圖像進(jìn)行訓(xùn)練,也即,訓(xùn)練圖像集中樣本數(shù)量N=10×7=70。數(shù)據(jù)集中的其余圖像用于測(cè)試。
圖1 參數(shù)p與的關(guān)系曲線(xiàn)
圖2 參數(shù)m與E的關(guān)系曲線(xiàn)
由圖2可見(jiàn),當(dāng)m大于90之后,投影誤差E隨參數(shù)m增大而下降的幅度已經(jīng)很小了。因此,本文取參數(shù)m=90。
總的來(lái)講,本文所用的參數(shù)的取值見(jiàn)表3。
表3 參數(shù)取值
表3中,Ntree是指隨機(jī)森林方法中決策樹(shù)的數(shù)量。
下面對(duì)測(cè)試數(shù)據(jù)集進(jìn)行表情識(shí)別實(shí)驗(yàn),考慮到本文的主要?jiǎng)?chuàng)新是提出一種魯棒的PCA特征提取方法,因此在表情識(shí)別仿真實(shí)驗(yàn)中首先對(duì)比不同特征提取方法對(duì)表情識(shí)別結(jié)果的影響,然后再對(duì)比本文方法與表情識(shí)別領(lǐng)域近5年的方法的性能差異。本文以表情識(shí)別率為評(píng)價(jià)指標(biāo),定義為
(23)
首先,我們選取傳統(tǒng)PCA(降維維數(shù)也設(shè)為90)、LBP和HOG這3種常用的特征,與本文的魯棒PCA特征進(jìn)行對(duì)比實(shí)驗(yàn),其中,圖像預(yù)處理和特征分類(lèi)部分都采用本文所述方法,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 不同特征的表情識(shí)別率對(duì)比
由圖3可見(jiàn),本文所述的魯棒PCA特征的表情識(shí)別率明顯高于其它3種特征。尤其是與傳統(tǒng)的PCA特征相比,本文通過(guò)改變樣本均值的計(jì)算方式,以及通過(guò)自適應(yīng)迭代求取最優(yōu)的樣本均值和投影均值,降低了投影誤差以及樣本集合中的奇異點(diǎn),從而提高了表情識(shí)別率。
其次,我們選取文獻(xiàn)[10-12]所述的3種表情識(shí)別方法,與本文所述的表情識(shí)別方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 不同方法的表情識(shí)別率對(duì)比
由圖4可見(jiàn),本文所述方法的表情識(shí)別率高于其它3種表情識(shí)別方法。
表4給出了4種表情識(shí)別方法的平均處理時(shí)間。這里,平均處理時(shí)間是指平均對(duì)一幅圖像進(jìn)行表情識(shí)別所需要的時(shí)間,實(shí)驗(yàn)所用的計(jì)算機(jī)平臺(tái)為:3.2 GHz四核CPU、16 G RAM、Windows 7操作系統(tǒng)、Visual Studio 2013軟件平臺(tái)、OpenCV 3.0.0圖像處理庫(kù)。
表4 不同方法的平均處理時(shí)間對(duì)比
由表4可見(jiàn),本文方法所需的平均處理時(shí)間少,這說(shuō)明本文方法的運(yùn)算效率也高于其它3種方法。因此,綜合評(píng)價(jià),本文方法是一種高效、可靠的表情識(shí)別方法。
本文提出了一種結(jié)合魯棒PCA特征和隨機(jī)森林學(xué)習(xí)方法的人臉表情識(shí)別方法,首先提出一種改進(jìn)的Gamma校正方法,可以在校正圖像的灰度動(dòng)態(tài)范圍分布時(shí)避免大幅改變圖像的整體亮度分布;然后提出一種魯棒的PCA特征提取方法,先是通過(guò)融合歐氏距離和明氏距離兩種距離計(jì)算方法來(lái)計(jì)算樣本均值,降低樣本與中心的平均距離,接著采用梯度下降算法迭代尋找最優(yōu)的樣本中心和投影矩陣,提高PCA特征對(duì)不同樣本的魯棒性;最后采用隨機(jī)森林學(xué)習(xí)方法對(duì)魯棒PCA特征進(jìn)行訓(xùn)練和分類(lèi),提高表情識(shí)別的識(shí)別率。人臉表情識(shí)別的仿真實(shí)驗(yàn)結(jié)果表明,本文所述的表情識(shí)別方法是一種高效、可靠的表情識(shí)別方法,其魯棒PCA特征優(yōu)于傳統(tǒng)的PCA特征以及LBP和HOG特征。
[1]HU Bufa,WANG Jinwei.A method of 3D facial expression recognition with dual mode and semantic knowledge[J].Journal of Instrumental and Instrument,2013,34(4):873-880(in Chinese).[胡步發(fā),王金偉.雙模態(tài)及語(yǔ)義知識(shí)的三維人臉表情識(shí)別方法[J].儀器儀表學(xué)報(bào),2013,34(4):873-880.]
[2]Gu W,Xiang C,Venkatesh Y V,et al.Facial expression recognition using radial encoding of local Gabor features and classifier synthesis[J].Pattern Recognition,2012,45(1):80-91.
[3]LIU Shuaishi,TIAN Yantao,WANG Xinzhu.Automatic re-cognition of facial expression recognition based on the symmetric bilinear model[J].Journal of Automation,2012,38(12):1933-1940(in Chinese).[劉帥師,田彥濤,王新竹.基于對(duì)稱(chēng)雙線(xiàn)性模型的光照魯棒性人臉表情識(shí)別[J].自動(dòng)化學(xué)報(bào),2012,38(12):1933-1940.]
[4]Rudovic O,Pantic M,Patras I Y.Coupled Gaussian processes for pose-invariant facial expression recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(6):1357-1369.
[5]YI Jizheng,MAO Xia,Ishizuka,et al.Facial expression re-cognition based on feature point vector an texture deformation energy parameters[J].Journal of Electronics and Information,2013,35(10):2403-2410(in Chinese).[易積政,毛峽,Ishizuka,等.基于特征點(diǎn)矢量與紋理形變能量參數(shù)融合的人臉表情識(shí)別[J].電子與信息學(xué)報(bào),2013,35(10):2403-2410.]
[6]Sandbach G,Zafeiriou S,Pantic M,et al.Static and dynamic 3D facial expression recognition:A comprehensive survey[J].Image & Vision Computing,2012,30(10):683-697.
[7]Luo L,Wu Caiming,Zhang Y.Facial expression feature extraction using hybrid PCA and LBP[J].Journal of China Universities of Posts & Telecommunications,2013,20(2):120-124.
[8]Zhu X,Ramanan D.Face detection,pose estimation,and landmark localization in the wild[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2012:2879-2886.
[9]Vens C.Random forest[J].Encyclopedia of Systems Biology,2013,45(1):157-175.
[10]Gu W,Xiang C,Venkatesh Y V,et al.Facial expression reco-gnition using radial encoding of local Gabor features and classifier synthesis[J].Pattern Recognition,2012,45(1):80-91.
[11]Wang Z,Xiao N.Using MD-adaboost to enhance classifier of facial expression recognition[J].Journal of Computational Information Systems,2013,9(3):923-932.
[12]Da S,Maximiano F A,Pedrini H,et al.Effects of cultural characteristics on building an emotion classifier through facial expression analysis[J].Journal of Electronic Imaging,2015,24(2):77-84.