高智勇,王 林
(中南民族大學(xué)生物醫(yī)學(xué)工程學(xué)院,武漢430074)
為了推動更加智能和自然的人機交互,人臉表情識別在過去十幾年得到了廣泛研究,并且成為一個研究熱點.人臉表情識別涉及的領(lǐng)域非常廣泛,包括圖像分析、心理學(xué)、模式識別和機器視覺.
人臉表情識別主要分3個步驟:預(yù)處理,特征提取,分類器.預(yù)處理的方法有:幾何歸一化和光線歸一化等.主要的分類器有:線性分類器、神經(jīng)網(wǎng)絡(luò)分類器、隱馬爾科夫模型和支持向量機等.特征提取是表情識別中的一個主要步驟,依據(jù)不同的特征有不同的提取方法.目前常用的主要的特征有:幾何特征、統(tǒng)計特征、頻域特征等.這些特征在識別中各有優(yōu)缺點,幾何特征[1]所需要的存儲空間小,對光照不敏感.但是魯棒性較差,易忽略局部信息.統(tǒng)計特征[2]能實現(xiàn)簡單、快速的識別,但是它依賴于訓(xùn)練圖像和測試圖像的灰度相關(guān)性,有很大的局限性.頻域特征[3]的優(yōu)點有:能夠有效地提取與表情變化有關(guān)的特征,并能做到與人無關(guān)的表情特征提取;缺點有:計算量大,冗余度高.
在實際表情識別應(yīng)用中,利用Gabo r小波變換所得到的系數(shù)來進(jìn)行人臉表情特征表達(dá),可以得到較好的識別效果,是當(dāng)前的一種主要特征表示方法.L yons[3]用Gabo r濾波器[4]對人臉表情編碼得到Gabo r特征.W eiFengL iu等[5]采用多濾波器特征融合的方法對人臉表情進(jìn)行識別.Cheng jun L iu等[6]采用了基于Gabo r的人臉識別.鄧洪波等[7]采用了一種基于局部Gabo r濾波器組的方法.雖然Gabo r特征具有更好的識別性能,但冗余度和特征維數(shù)較高.為了克服這些缺點,我們進(jìn)行了Gabo r特征去冗余、降低特征維數(shù)的研究,設(shè)計了一個基于Gabo r濾波器的局部統(tǒng)計特征的人臉表情識別系統(tǒng).
根據(jù)人臉表情識別步驟,本文方法分為3步:預(yù)處理、Gabo r特征提取、特征選擇和決策樹分類識別.
預(yù)處理對于人臉表情識別是不可或缺的,本文采用文獻(xiàn)[5]的方法把原始的JA FFE人臉表情圖像轉(zhuǎn)換為歸一化圖像.首先,根據(jù)面部特征點和幾何模型確定矩形特征區(qū)域,通過剪裁得到大小的校準(zhǔn)圖像,保證了人臉位置大小的一致性,實現(xiàn)了幾何歸一化.然后,采用直方圖均衡,以消除光線和光照強度的影響,實現(xiàn)了光線歸一化.最終得到6類表情(驚訝、悲傷、厭惡、恐懼、高興、生氣)的校準(zhǔn)圖像如圖1.
圖1 預(yù)處理后的表情圖像Fig.1 Exp ression im agesof the p rep rocessing p rocedure
特征提取對于人臉表情識別是一個非常重要的步驟,本文對人臉表情提取Gabo r頻域特征,能有效的描述其紋理特征.Gabo r變換是一種加Gauss窗的Fou rier變換,而Gabo r小波核函數(shù)由一組不同尺度不同方向的濾波器組成,具有良好的時頻局部化特性和多分辨率特性,所以在計算機視覺和圖像分析領(lǐng)域得到了廣泛的應(yīng)用,特別在人臉表情識別領(lǐng)域.
Gabo r小波(核,濾波器)能夠被定義如下:
式中,μ和ν分別表示Gabo r核的方向和尺度,z=(x,y),‖·‖表示范數(shù),波矢量定義如下:
根據(jù)公式(1)的定義,一幅圖像的Gabo r小波表示是由該圖像和Gabo r濾波器的卷積得到.若I=(x,y)表示圖像,卷積輸出定義如下:
其中,z= (z,y),* 表示卷積操作,Oμ,ν(z)為卷積結(jié)果.
圖像的卷積輸出為復(fù)數(shù)形式,該復(fù)數(shù)的量值為提取的Gabo r特征值.在目前的模式識別研究中,使用Gabo r系數(shù)作為圖像描述特征得到了廣泛的應(yīng)用并且取得了較好的效果,但是多尺度多方向的Gabo r濾波器使得特征維數(shù)急劇增加,尤其當(dāng)圖像維數(shù)太大時,會帶來特征數(shù)量急劇增加而導(dǎo)致維數(shù)災(zāi)難.在實際應(yīng)用中,必須采用降維技術(shù)進(jìn)行特征提取,以避免維數(shù)災(zāi)難.
針對Gabo r變換的高維特征數(shù)量問題,有很多研究者對不同的應(yīng)用提出了不同的降維方法,對變換后的特征進(jìn)行特征提取.在彈性匹配[8]工作中,Gabo r小波變換被用于提取圖像關(guān)鍵點的特征矢量,但是這種方法對特征點定位的精度要求較高.下采樣[7]是一種直接降維的方法,但是結(jié)果可能會丟失一些重要的信息.M an junath[9]等人使用Gabo r變換后的各個子帶圖像的均值和標(biāo)準(zhǔn)差作為對圖像紋理信息的描述,在圖像檢索領(lǐng)域里取得了較好的效果.
因為分塊統(tǒng)計特征能夠很好地描述局部紋理特征并能有效降維,為了降低維數(shù)并保持判別信息,我們采用 Gabo r的局部統(tǒng)計特征.本文引入M an junath[9]等人的方法來降低特征維數(shù).首先將Gabo r變換結(jié)果Oμ,ν(z)分割成K個子塊,然后計算每個子塊的均值和標(biāo)準(zhǔn)差,并將其作為最終特征.均值和標(biāo)準(zhǔn)差計算式如下:
Gabo r特征降維過程如圖2.
圖2 局部統(tǒng)計特征降維過程Fig.2 D im ension reduction p rocedu re of local statistical features
從圖2可以看到,一幅預(yù)處理后的表情圖像經(jīng)過40個濾波器處理后,得到40幅特征圖像,然后對其中一幅特征圖像進(jìn)行K=25分塊處理.雖然采用Gabo r局部統(tǒng)計特征能在一定程度上降低特征維數(shù),但是由于局部統(tǒng)計特征是建立在變換結(jié)果分塊的基礎(chǔ)之上,其數(shù)量仍然較大,有必要進(jìn)行進(jìn)一步的特征提取以得到更有效、維數(shù)更低的特征組.
主成分分析方法PCA是一種有效的特征降維方法,但是它在特征提取中沒有考慮分類判別信息.為了提取更有判別性的特征,可以結(jié)合線性判決分析方法LDA,即PCA和LDA算法相結(jié)合的方法來對Gabo r局部統(tǒng)計特征進(jìn)一步降維.此方法先將訓(xùn)練圖像通過PCA進(jìn)行降維,然后對降維后的圖像應(yīng)用LDA建立最優(yōu)子空間.具體實現(xiàn)步驟如下.
對于一個給定的表情圖像訓(xùn)練集X,訓(xùn)練圖像總數(shù)N,先將圖像進(jìn)行分類,屬于同一表情的圖像歸為一類,記為X i,X i類中的圖像數(shù)記為N i,i=1,2,…,c(c為總的類別數(shù)).
(1)訓(xùn)練樣本中心化得到:S=[x1x2…xn].
(2)計算協(xié)方差Ω=STS的特征值Λ和特征向量V.
(3)采用文獻(xiàn)[9]的Fisher比方法對特征向量進(jìn)行最優(yōu)化選擇.首先,計算每一個特征向量對應(yīng)的SB、SW,得到Fisher比F=SB/SW,然后按照Fisher比的大小對每一個特征向量進(jìn)行排序,選擇前面幾個較大Fisher比對應(yīng)的特征向量組成PCA的投影子空間W pca.
(4)計算總的類內(nèi)散布矩陣:
計算類間散布矩陣:
其中,x ji為投影到W pca后的樣本,m i為投影到W pca后的樣本類均值,m為投影到W pca后總的樣本均值.
(5)求解SW和SB的廣義特征值Λfld和特征向量V fld,并對特征值從大到小的順序排列,求出對應(yīng)的特征向量,保留前C-1個特征向量,得到最佳FLD分類子空間W f ld.
(6)結(jié)合PCA與LDA的子空間,得到最優(yōu)的表情投影子空間然后將訓(xùn)練樣本和測試樣本分別投影此子空間,再用決策樹分類器進(jìn)行分類識別.
表情識別是一個多類識別任務(wù),一般將人臉表情分為6種基本表情:生氣、悲傷、厭惡、高興、害怕和驚訝.這6種類人臉表情實際上有些差別很細(xì)微,存在分類模糊和重疊現(xiàn)象,這給表情識別帶來了一定的困難.在文獻(xiàn)[2]中提到,由于表情類(生氣、悲傷、厭惡)之間和表情類(高興、害怕)之間的M ahalaanob is距離較近,故出現(xiàn)樣本重疊現(xiàn)象.為了更好地識別相似的表情,我們采用一個分級的多類識別器,即決策樹分類器[2,10],可以有效地提高識別性能.決策樹分類器分類過程如下.
(1)首先對6類表情進(jìn)行分組,將相似的表情分為一組,最終將表情分為3類:G1(驚訝),G2(生氣、悲傷、厭惡),G3(害怕、高興).
(2)然后訓(xùn)練投影空間:PG(G1G2G3),PG2(G2),PG3(G3).
(3)定義y為測試樣本x到子空間PG的投影表示.通過歐式距離測度,如果y∈G1時,那么此樣本為驚訝類,在G1類中,再根據(jù)歐式距離測度進(jìn)行3種表情的進(jìn)一步識別.否則如果y∈G2時,定義z為其y到PG2的投影表示,通過距離測度,將z分為最近距離類.最后如果y∈G3時,定義z為其y到PG3得投影表示,類似于G1類中的進(jìn)一步識別,通過距離測度,將z分為最近距離類.
為了評估本文方法不同參數(shù)的影響和整體識別性能,采用JA FFE女性人臉表情數(shù)據(jù)庫進(jìn)行測試.取訓(xùn)練樣本120幅,測試樣本63幅.由于該數(shù)據(jù)庫的樣本比較少,故我們進(jìn)行了3次數(shù)據(jù)庫調(diào)整,以平均識別率作為最終識別結(jié)果.
對于Gabo r變換參數(shù),采用常用的選擇:5個不同的Gabo r尺度,ν∈(0,1,2,3,4),和8個不同的方向μ∈(0,1,2,3,4,5,6,7),取參數(shù)得到40個濾波器.對變換后的Gabo r系數(shù)分成K塊,將每個Gabo r小波表示的所有子塊統(tǒng)計特征(2個特征)作為人臉表情圖像的特征矢量,所得到的圖像特征矢量維數(shù)為5×8×K×2.因為要在維數(shù)的降低的同時,還要能保留較好的識別信息,所以要選擇合適的K值來維系平衡.表1給出了不同K值得到的不同識別率.
從表1可知,對Gabo r特征進(jìn)行分塊會影響算法識別性能.分塊過大(50)或過小(1)都不能得到較好的結(jié)果.將Gabo r特征分為10和15塊時,分塊后的特征維數(shù)分別為800維和1 200維,可得到最高識別率96.8%.而Gabo r特征不分塊時的原始特征維數(shù)一共600 000維數(shù),可得到的最高識別率為93.7%.因此,采用10或15個分塊的局部統(tǒng)計特征能夠在維數(shù)降低的同時,保持較高的識別率.在試驗中,選擇10個分塊,這樣能保持較小的維數(shù).
表1 不同K值的識別率Tab.1 Recogn ition rate of differen t K value
在進(jìn)行PCA特征降維過程中,結(jié)合了LDA分類信息,按照Fisher比大小來選擇特征向量維數(shù).顯然,不同維數(shù)的特征會得到不同的識別效果.表2給出了按Fisher比從大到小選擇特征向量時,不同維數(shù)的識別率.
表2 不同維數(shù)的識別率Tab.2 Recogn ition rate o f differen t dim ension
從表2可知,選擇不同維數(shù)的特征得到不同的識別率,當(dāng)不選擇特征維數(shù)時,識別率為90.5%.當(dāng)選擇Fisher比最大的前30維或前40維特征時,可得到最高識別率92.1%.與不采用Fisher特征選擇而直接使用PCA降維方法相比,采用Fisher比選擇特征維數(shù)能有效提高識別率.
本文采用決策樹分類器分類.首先使用Fisher比對3組PG PG2PG3投影子空間進(jìn)行最優(yōu)化選擇,然后使用決策樹分類器進(jìn)行分類識別.作為比較,表3給出了常用的簡單的最鄰近距離分類器與決策樹分類的識別率.
從表3可知,在表情類識別時,決策樹分類器能使悲傷和害怕兩種表情的識別率得到進(jìn)一步提高,故而使總的識別率提高了4.7%,因此決策樹分類器較歐式距離有更好的識別效果.
本文方法與其他幾種基于Gabo r特征識別方法的比較,由于彈性匹配[8]的方法對特征點定位的精度要求較高,下采樣[7]的方法可能會丟失一些重要的信息,故這2種方法都有可能會導(dǎo)致識別率的降低.而Gabo r+SVM[11]的方法盡管能保持較完整的識別信息,但計算復(fù)雜度較高.而本文方法能克服這些缺點,并能得到較好的識別性能.如表4.本文取K=10并且特征選擇前30維,此時能有效的降低特征維數(shù)并能夠提高處理速度.從表4中可以看出,在使用了降維后的Gabo r局部統(tǒng)計特征結(jié)合決策樹分類器,識別結(jié)果有了明顯的提高,可得到最高識別率96.8%.
表3 歐式距離與決策樹分類的識別結(jié)果Tab.3 Recognition rate of Euc lidean and decision tree
表4 不同方法識別結(jié)果的比較Tab.4 Recognition resu lt com parison am ong differen tm ethods
針對傳統(tǒng)Gabo r特征維數(shù)過高的缺點,本文采用Gabo r變換后的分塊統(tǒng)計特征,能有效的降低特征維數(shù)并保留可靠的識別信息.考慮到Gabo r特征之間的冗余度,本文結(jié)合了PCA和LDA最優(yōu)特征選擇的方法,并采用決策樹分類器,能有效的區(qū)分相近表情,提高整個系統(tǒng)的識別率.
盡管本文方法對多種表情(驚訝、悲傷、害怕、高興)有較高識別率,但是對于比較復(fù)雜的表情如厭惡和生氣,其識別效果還有待提高,需要做進(jìn)一步的研究.
[1] 李俊華,彭 力.基于特征塊主成分分析的人臉表情識別[J].計算機工程與設(shè)計,2008,29(12):3 151-3 153.
[2] Dubuisson S,Davo ine F,M asson M.A so lu tion fo r facial exp ression rep resen tation and recognition[J].Signal Processing:Im age Comm un ication,2002,17:657-673.
[3] L yonsM J,A kam atsu S,Kam ach iM.Coding facial exp ressionsw ith Gabo rw avelets[J].Proceed ings o f the th ird IEEE In ternational Conference on A u tom atic Face and Gestu re Recognition,1998(1):200-205.
[4] L ee T S.Im age rep resen tation using 2D gabo r w avelets[J]. IEEE T ransan tions on Pattern A nalysis and M ach ine In telligence,1996,18(10):959-971.
[5] L iu W eifeng,W ang Zengfu.Facial exp ression recognition based on fusion of m u ltip le gabo r featu res[J].The 18th In ternationalConferenceO n Pattern Recognition,2006(8):536-539.
[6] L iu Cheng jun,W echsler H.Gabo r featu re based classification using the enhanced fisher linear discrim inan tm odel fo r face recognition[J].IEEE T ransactions O n Im age Processing,2002,11(4):467-476.
[7] 鄧洪波,金連文.一種基于局部Gabo r濾波器組及PCA+LDA的人臉表情識別方法[J].中國圖像圖形學(xué)報,2007,12(2):322-329.
[8] 王沖青鳥,李一民.基于Gabo r小波變換的人臉表情識別[J].計算機工程與設(shè)計,2009,30(3):643-646.
[9] 程劍,應(yīng)自爐.一種基于Fisher準(zhǔn)則的二維主元分析表情識別方法[J].五邑大學(xué)學(xué)報,2006,20(2):42-46.
[10] Chou P.Op tim al partitioning fo r classification and reg ression trees[J].IEEE T rans Pattern A nalysis andM ach ine In telligence,1991,13(4):340-354.
[11] Buciu I,Ko tropou los C,Pitas I.Ica and gabo r rep resen tation fo r facial exp ression recogn ition[J].IEEE In ternationalConference on Im age Processing,2003,8(3):855-858.