王甫龍,薄 華
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
基于Gabor小波的人臉表情特征提取研究
王甫龍,薄 華
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
為了使計算機(jī)能更好的識別人臉表情,對基于Gabor小波變換的人臉表情識別方法進(jìn)行了研究。首先對包含表情區(qū)域的靜態(tài)灰度圖像進(jìn)行預(yù)處理,包括對確定的人臉表情區(qū)域進(jìn)行尺寸和灰度歸一化,然后利用二維Gabor小波變換提取臉部表情特征,使用快速PCA方法對提取的Gabor小波特征初步降維。再在低維的空間中,利用Fisher準(zhǔn)則提取那些有利于分類的特征,最后用SVM分類器進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,上述提出的方法比傳統(tǒng)的方法識別速度更快,能達(dá)到實(shí)時性的要求,并且具有很好的魯棒性,識別率高。
表情識別;Gabor小波變換;快速PCA(fastPCA);Fisher線性判別(FLD)
在日常生活人與人的交往中,除了語言交流以外,臉部的表情是非常重要的交流方式,心理學(xué)研究表明:在人與人之間的交流中面部表情提供的信息要多于語言提供的信息,它作為信息的載體包含有很多的因素,能夠表達(dá)豐富的非語言信息在過去的幾十年。隨著計算機(jī)應(yīng)用的日益廣泛以及社會的日益信息化,如何實(shí)現(xiàn)智能化的人機(jī)交互成為一個重要的研究課題,人臉表情識別技術(shù)作為一種典型的高端生物特征識別技術(shù),以其自然性、客觀性、高可接受性等優(yōu)點(diǎn)受到了人們的廣泛關(guān)注,并且成為一個研究的熱點(diǎn)。
所謂人臉表情識別FER(Facial Expression Recognition)就是對人臉的表情信息進(jìn)行特征提取分析,按照人的認(rèn)識和思維方式加以歸類和理解,利用人類所具有的情感信息方面的先驗(yàn)知識使計算機(jī)進(jìn)行聯(lián)想、思考及推理,進(jìn)而從人臉信息中去分析理解人的情緒。FER算法可以分為針對多幅圖像序列和針對單幅圖像兩大類,文中主要針對單幅靜態(tài)圖像的人臉表情進(jìn)行識別。目前國際通用的表情分類結(jié)果包括7類[1-3]:中性表情、憤怒、高興、悲傷、驚訝、厭惡和恐懼。人臉表情識別的目標(biāo)是在人臉圖像的范圍內(nèi)提取出對識別有利的特征,并據(jù)此進(jìn)行圖像的分類工作,典型的識別系統(tǒng)包括人臉檢測、表情特征提取和表情分類3個階段[4]。國內(nèi)外在人臉檢測方面已做了大量的研究,而表情特征提取和表情分類還處于探索之中,其中的一個難點(diǎn)就是如何提取出完整、魯棒、緊湊而富有區(qū)分性的特征,以提高分類的準(zhǔn)確程度。因此表情特征的提取和分類成為現(xiàn)代研究的重點(diǎn)。目前對靜態(tài)圖像特征提取的方法主要有:主成份分析、奇異值分解以及小波變化的方法等。
經(jīng)過實(shí)驗(yàn)對比,發(fā)現(xiàn)采用基于Gabor小波變換的方法提取人臉表情特征并進(jìn)行分類是一種更有效的方法。
基于Gabor小波變換對人臉的表情進(jìn)行特征提取和分類的過程主要分為3個部分:圖像的預(yù)處理、特征提取、分類。其過程框圖如圖1所示。
圖1 人臉表情識別的過程框圖Fig.1 Process diagram of Facial Expression Recognition
在獲取原始圖像之后,首先要進(jìn)行預(yù)處理。這階段的工作是確保整個表情識別系統(tǒng)準(zhǔn)確工作的基礎(chǔ),沒有預(yù)處理的前提就無法展開后續(xù)的特征提取工作以及識別工作,有效的預(yù)處理則可以提高識別的準(zhǔn)確率。本文采用標(biāo)準(zhǔn)表情庫JAFFE,JAFFE人臉庫中包含日本婦女10個人的7種表情(6種基本表情和中性表情),每人每種表情2~4張,共有213張圖片,每張圖片大小為256×256像素。
預(yù)處理的工作包括以下幾個步驟:
1)標(biāo)定特征點(diǎn)的位置,如眼睛、眉毛、鼻子和嘴巴的中心點(diǎn),標(biāo)定方法主要是手工標(biāo)定。
2)根據(jù)左右兩眼位置調(diào)整圖像,以保證人臉方向在同一水平位置上。設(shè)兩眼中心間的距離為D。
3)根據(jù)圖像的面部特征確定需要裁剪的矩形區(qū)域,裁剪的矩形區(qū)域的高是2.2D,寬是2D,使兩眼中點(diǎn)距離矩形頂部0.6D,以保證人臉位置的一致性,模型圖如圖2所示。
4)對步驟3)處理過的圖像進(jìn)行尺寸歸一化,調(diào)整所有圖像大小統(tǒng)一為128×128像素的大小,保證表情樣本區(qū)域大小的一致性。
5)灰度歸一化主要采用的是直方圖均衡化方法,以消除光線的影響。
圖2 裁剪的表情幾何模型Fig.2 Cut expression geometric model
最終,根據(jù)預(yù)處理流程和裁剪幾何模型對JAFFE表情庫中的人臉圖像進(jìn)行處理的示例圖片如圖3所示。
由于Gabor小波核函數(shù)與人類大腦初級視覺皮層簡單細(xì)胞的感受野反射區(qū)具有相似的特性[5],具有良好的時頻局部化和多分辨率特性,能夠提取圖像局部細(xì)微變化的能力,即能夠捕捉對應(yīng)于空間頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息[6],因此,在計算機(jī)視覺和圖像分析領(lǐng)域得到廣泛的應(yīng)用[7-8]。
Gabor小波是由Gabor函數(shù)經(jīng)過尺度伸縮和旋轉(zhuǎn)生成的一族復(fù)函數(shù)系,具有良好的時頻局部化特征和多分辨率特性,能夠提取局部細(xì)微變化的能力。另外,Gabor小波對光照的變化不敏感,具有良好的光照性?;谶@些特點(diǎn),Gabor小波非常適合用于表情的特征提取。
二維Gabor小波的核函數(shù)表示如下[9]
式(1)中的kj表示形式如下:
其中 kv=z-(v+2)/2π,v 表示各個小波的核頻率;μ 的取值表示濾波器不同的方向;x為給定的圖像二維采樣點(diǎn)的位置坐標(biāo)。
根據(jù)面部特征尺度的不同,從小尺度到大尺度的Gabor變換結(jié)果分別注重體現(xiàn)不同的特征,在小尺度中眼部特征比較明顯,而大尺度中嘴巴的特征比較顯著。對于不同的特征方向,在對應(yīng)方向的Gabor變換結(jié)果中也被突出表現(xiàn)出來。
表情的變換主要集中在臉部眉毛、眼睛、鼻子、嘴巴部位,這些部位體現(xiàn)的是圖像的高頻信息,所以用高頻的小波和圖像進(jìn)行卷積。另外,中心頻率和方向過多,會引起數(shù)據(jù)冗余,計算量變大,選取過少,又會丟失部分的有用信息。
圖3 預(yù)處理階段的圖片示例Fig.3 Pictures examples of pretreatment stage
根據(jù)先驗(yàn)知識,大尺度可以描述全局性較強(qiáng)的信息,并可以掩蓋圖像中噪聲的影響。小尺度可以描述較精細(xì)的局部特征,但噪聲的影響大。為了便于更好的描述圖像的局部特征,本文中取σ=2π,采用5個中心頻率和8個方向組成的40組濾波器提取表情特征,對3.1節(jié)中式kj和θμ中的濾波器的參數(shù)選擇為 v=0,1,......,4;μ=0,1,......,7;j= μ+8v。
在得到一組Gabor小波濾波器后,將輸入的圖像I與小波族的各個濾波器進(jìn)行卷積:
根據(jù)式 (3),將第2小節(jié)預(yù)處理過后的一副表情圖像與Gabor小波進(jìn)行卷積,提取Gabor特征,圖4顯示了經(jīng)過40個濾波器組提取的表情特征圖像。
圖4 Gabor濾波器提取的特征Fig.4 Extracted feature by Gabor filter
從圖4可以看出,Gabor提取的特征主要反應(yīng)的是表情圖像的邊緣、位置和亮度的信息,輸出的較強(qiáng)的信息主要體現(xiàn)在眉毛、眼睛、鼻子、嘴巴部位,這些部位正是表情變化的特征部位。但是經(jīng)過40組Gabor濾波器組以后特征的維數(shù)會變的很大,所以,必須對提取的的Gabor特征進(jìn)行降維處理。
如第3節(jié)所述,提取表情特征所用的訓(xùn)練樣本和測試樣本的維數(shù)是 128 pixels×128 pixels,經(jīng)過上述的Gabor變換后的維數(shù)變?yōu)樵瓐D像維數(shù)的40倍,如果直接用來分類,則會因?yàn)椤熬S數(shù)災(zāi)難”使分類問題變的不切實(shí)際。為此本節(jié)運(yùn)用快速PCA對提取的Gabor特征進(jìn)行初步的降維。
設(shè)表情樣本矩陣的散布矩陣為S,Zn×d為樣本矩陣X中的每個樣本減去樣本均值m后得到的矩陣,則散布矩陣S為(ZTZ)d×d。 現(xiàn)在考慮矩陣 R=(ZZT)n×n,一般情況下由于樣本數(shù)目n遠(yuǎn)遠(yuǎn)小于樣本維數(shù)d,R的尺寸也遠(yuǎn)遠(yuǎn)小于散布矩陣S,然而,它與S有著相同的非零本征值。
設(shè)n維列向量v→是R的本征向量,則有:
式(4)兩邊同時左乘ZT,并應(yīng)用矩陣乘法的結(jié)合律得到:
式(5)說明 ZTv→為樣本散布矩陣 S=(ZTZ)d×d的本征向量。這說明可以計算小矩陣 S=(ZTZ)d×d的本征向量v→,而后通過左乘得到散布矩陣 R=(ZZT)n×n的本征向量。
第4.1節(jié)中得到R的特征向量矩陣V之后,為了計算樣本矩陣S的本征向量,只需要計算ZTv。此外,由于傳統(tǒng)PCA計算中需要的是具有單位長度的本征向量,所以最后要除以該向量的模從而將正交本征向量歸一化為單位正交本征向量。
傳統(tǒng)PCA的計算中最主要的工作量是計算樣本協(xié)方差矩陣的本征值和本征向量。設(shè)樣本矩陣X大小為n×d(n個d維的樣本特征向量),則樣本散布矩陣(協(xié)方差矩陣)將是個維的方陣,故當(dāng)維數(shù)較大時計算復(fù)雜度會很高。例如當(dāng)維數(shù)d=10 000,S是一個10 000×10 000的矩陣,此時如果采用傳統(tǒng)的PCA計算主成份,Matlab通常會出現(xiàn)內(nèi)存耗盡的錯誤,即使有足夠的內(nèi)存,要得到S的全部本征值可能也要花費(fèi)數(shù)小時的時間。運(yùn)用上面的方法進(jìn)行降維將會節(jié)省大量的時間,為表情識別的實(shí)時性提供了保障。
第4節(jié)快速PCA提取的表情特征能很好的表示原始的數(shù)據(jù),但對于分類問題卻不一定適合,它只考慮了樣本數(shù)據(jù)散布的最大投影方向,沒有考慮到類間可分離性,所以不能保證往方差最大化方向的投影包含很好的分類特征。對這一缺點(diǎn)的改進(jìn)方法就是找到一個最佳判別矢量空間,使得投影到該空間的樣本的類間離散度與類內(nèi)離散度的比達(dá)到最大,F(xiàn)isher線性判別能達(dá)到這一要求。
設(shè)訓(xùn)練樣本數(shù)為,第類包含的樣本數(shù)為Ni,表情類別數(shù)為C,Xij表示第i類中的第j個表情樣本,μi表示第類的類內(nèi)樣本均值,μ表示樣本總體的均值,則類間散布矩陣為[10]:
類內(nèi)散布矩陣為:
Fisher準(zhǔn)則定義如下:
在樣本的特征空間中,希望類內(nèi)離散度越小越好,類間的離散度越大越好,才能有利于分類器的分類,也就是尋找使Jf(W)盡量大的W作為投影的方向。
上面的問題可轉(zhuǎn)化為廣義特征根問題:
設(shè)Wfld為最佳的變換矩陣,則進(jìn)行表情識別時,將人臉表情向量投影到FLD子空間得到一個低維向量y:
運(yùn)用快速PCA和FLD方法對Gabor特征進(jìn)行兩次降維的方法可以描述為:在對表情圖像提取Gabor特征后,用快速PCA方法對提取的特征先初步降維,把Gabor特征映射到較低的維空間中,再運(yùn)用FLD方法對降維后的特征進(jìn)行二次降維,得到更有利于分類的特征向量。則總體的映射矩陣可以表示為:
Wfpca和Wfld分別為快速PCA和FLD得到的最佳投影方向。經(jīng)過Gabor濾波后的表情特征通過下式可以得到最有利于分類的特征:
xi為經(jīng)Gabor濾波后的每一幅表情特征,μ為經(jīng)過Gabor濾波后所有表情特征的均值,訓(xùn)練樣本和測試樣本按上式投影到最優(yōu)子空間中,再選取合適的分類器就可以進(jìn)行分類了。
本實(shí)驗(yàn)是基于日本JAFFE人臉表情庫進(jìn)行訓(xùn)練和識別的,訓(xùn)練和識別的分類器選用臺灣林智仁的Libsvm。在訓(xùn)練階段選取JAFFE中每個人每種表情各1幅圖像用來訓(xùn)練,共有70幅圖像。在識別階段,隨機(jī)選取每種表情30幅用于測試,則共有210幅待測試圖像。為了驗(yàn)證本文的方法,還與基于PCA+FLD方法的分類結(jié)果進(jìn)行了比較,兩種方法各遍歷3種情況,取識別率較好的一次作為識別結(jié)果,得到的實(shí)驗(yàn)結(jié)果如下表所示:
表1 基于PCA+FLD方法的表情識別結(jié)果Tab.1 Consequence based on PCA+FLD Diagram
表2 基于Gabor小波和快速PCA+FLD的表情識別結(jié)果Tab.2 Consequence based on Gabor and PCA+FLD
從表1和表2可以看出,基于PCA和FLD的方法能達(dá)到一定的識別率,但是由于本文引入了Gabor小波變換,再結(jié)合快速PCA+FLD的特征提取方法,表情的識別率能達(dá)到更高。
人臉表情識別是一個富有挑戰(zhàn)性的課題,涉及圖像分析、心理學(xué)、模式識別、機(jī)器視覺等多個學(xué)科。其中表情特征的提取是研究的核心,提取的特征的好壞直接決定了表情識別的結(jié)果。
文中的方法是首先對靜態(tài)圖像進(jìn)行預(yù)處理,為下一步的特征提取做好鋪墊。因?yàn)槎SGabor小波變換能消除光照和個體差異的影響,因此用Gabor提取表情特征。由于Gabor特征的維數(shù)過大,所以用本文提出的快速PCA進(jìn)行初步的降維,這樣比傳統(tǒng)的PCA降維的速度更快,能達(dá)到實(shí)時性的要求。由于快速PCA方法沒有考慮到類間可分離性,所以,最后在低維的空間運(yùn)用Fisher準(zhǔn)則提取有利于分類的特征。這種運(yùn)用快速PCA和FLD相結(jié)合的特征降維方法,不僅能使Gabor特征的維數(shù)大大的降低,節(jié)省運(yùn)算時間,而且在低維的空間中能使同種的表情分布更加集中,不同表情的分布更加離散,能更好的提高識別率。
[1]陳彥燕,王元慶.基于模糊增強(qiáng)的小波多尺度邊緣特征提取[J].計算機(jī)測量與控制,2008,16(8):1164-1165.
CHEN Yan-yan,WANG Yuan-qing.Image fuzzy multiscale edge detection based on wavelet decomposing[J].Computer Measurement&Control,2008,16(8):1164-1165.
[2]王志良,劉芳,王莉.基于計算機(jī)視覺的表情識別技術(shù)綜述[J].計算機(jī)工程,2006,32(11):231-233.
WANG Zhi-liang,LIU Fang,WANG LI.Survey of facial expression recognition based on computer vision[J].Computer Engineering,2006,32(11):231-233.
[3]周書仁,梁昔明,樣秋芬,等.類間學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的人臉表情識別[J].計算機(jī)應(yīng)用研究,2008,25(7):2219-2222.
ZHOU Shu-ren,LIANG Xi-ming,YANG Qiu-fen.Facial expression recognition using neural network of congener learning[J].Application Research of Computers,2008,25(7):2219-2222.
[4]薛雨麗,毛峽,郭葉,等.人機(jī)交互中的人臉表情識別研究進(jìn)展[J].中國圖像圖形學(xué)報,2009,14(5):764-772.
XUE Yu-li,MAO Xia,GUO Ye,et al.The research advance of facial expression recognition in human computer interaction[J].Journal of Image and Graphics,2009,14(5):764-772.
[5]朱健翔,蘇光大,李迎春.結(jié)合Gabor和Adaboost的人臉表情識別[J].光電子·激光,2006(8):993-998.
ZHU Jian-xiang,SU Guang-da,LI Ying-chun. Facial expression recognition using Gabor and Adaboost[J].Journal of Optoelectronics·Laser,2006(8):993-998.
[6]Ekman P,F(xiàn)riesen W V,Sullivan M O,et al.Universals and cultural differences in the judgments of facial expressions of emotion[J].Journal of Personality and Social Psychology,1987,53(4):712-717.
[7]Donato G,Bartlett M S,Hager J C,et al.Classifying facial actions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence.1999,21(10):974-989.
[8]Liu C,Weehsler H.Independent component analysis of Gabor features for face recognition[J].IEEE Transactions on Neural Networks,2003,14(4):919-928.
[9]羅飛,王國胤,楊勇.一種基于Gabor小波特征的人臉表情識別新方法[J].計算機(jī)科學(xué),2009,36(1):181-183.
LUO Fei,WANG Guo-yin,YANG Yong.New approach for facial expression recognition based on gabor features[J].Computer Science,2009,36(1):181-183.
[10]Belhumeur P N,Hespanha J P,Kriegman D J.Eigen faces vs fisher faces:recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,15(7):711-720.
Facial expression recognition based on Gabor wavelet transform
WANG Fu-long,BO Hua
(School of Information and Engineering,Shanghai Maritime University,Shanghai201306,China)
In order to make the computer have a better recognition to face expression,the method of facial expression recognition based on Gabor wavelets transform is discussed.Firstly,with pre-processing is executed to a given static grey image containing facial expression information.Pre-processing including the identification of pure face facial expression region,size and gray-scale normalized,the methods based on two-dimensional Gabor transform for feature extraction and fastPCA mentioned in this paper for diminishing Gabor feature are discussed.Secondly,in the low dimensional space,use the FLD to obtain the features useful to classification.Finally,SVM is applied to sort the facial expressions.Compared with the conventional methods,experimental results show that this method has fast identification speed and better higher recognition accuracy.
expression recognition;Gabor wavelet transform;fastPCA;FLD
TP391.4
A
1674-6236(2012)03-0063-04
2011-12-09 稿件編號:201112062
王甫龍(1988—),男,江蘇射陽人,碩士研究生。研究方向:視覺感知系統(tǒng)信息處理。