馬志豪 楊娟
(1.南京郵電大學(xué)電子與光學(xué)工程學(xué)院(微電子學(xué)院) 江蘇省南京市 210023)
(2.金陵科技學(xué)院電子信息工程學(xué)院 江蘇省南京市 211169)
情緒在人類的交流過(guò)程中扮演著重要的角色,人類通過(guò)多種方式表達(dá)情緒,面部表情是情緒最直接的外在表現(xiàn)。因此自動(dòng)表情識(shí)別的研究具有重要意義,有廣泛的應(yīng)用前景[1,2]。表情識(shí)別主要包含人臉檢測(cè)、特征提取、表情分類三個(gè)步驟。提取魯棒性和表征能力強(qiáng)的圖像特征是表情識(shí)別系統(tǒng)的關(guān)鍵。Ojala 等人[3]提出局部二值模式(Local Binary pattern,LBP)能有效編碼圖像的紋理信息,計(jì)算效率高,對(duì)單調(diào)光照有魯棒性,對(duì)于非單調(diào)光照敏感。Jabid 等人[4]提出局部方向模式(Local Direction Pattern,LDP)。LDP 通過(guò)邊緣響應(yīng)值強(qiáng)度進(jìn)行編碼。Rivera 等人[5]提出局部方向數(shù)(Local Direction Number Pattern,LDN)利用邊緣響應(yīng)最大和最小的方向進(jìn)行編碼。通過(guò)邊緣響應(yīng)值進(jìn)行編碼實(shí)質(zhì)上是對(duì)局部鄰域的稠密采樣,所以魯棒性稍好,但是邊緣響應(yīng)值同樣受隨機(jī)噪聲的干擾,也會(huì)造成編碼出錯(cuò)。
圖1顯示Kirsch 算子的結(jié)構(gòu)。其中M0和M4檢測(cè)鄰域內(nèi)垂直方向邊緣,M2和M6檢測(cè)鄰域內(nèi)水平方向邊緣,M1和M5與M3和M7分別檢測(cè)兩個(gè)斜向邊緣。通過(guò)疊加水平、垂直、對(duì)角方向邊緣響應(yīng)值的強(qiáng)度值,選取顯著的邊緣方向。在灰度圖像中對(duì)顯著方向上的強(qiáng)度進(jìn)行編碼。LPDTP 利用方向信息和紋理信息構(gòu)建一個(gè)8位二進(jìn)制的編碼。
LPDTP 的計(jì)算步驟如下:首先計(jì)算邊緣響應(yīng)值Ri(x,y)見(jiàn)公式(1):
然后選取顯著的方向,計(jì)算步驟如下:
對(duì)于第一方向D1(x,y),設(shè)置自動(dòng)閾值θ 對(duì)第一方向的值RsD1(x,y)(x,y)進(jìn)行篩選,當(dāng)RsD1(x,y)(x,y)值大于θ 則選取的第一方向D1(x,y)作為顯著方向,反之則認(rèn)為該鄰域?yàn)槠教箙^(qū)域,并將LPDTP 值設(shè)為0。對(duì)于第二方向設(shè)置固定閾值? 對(duì)NorD2(x,y)(x,y)進(jìn)行篩選,當(dāng)NorD2(x,y)(x,y)大于? 時(shí)該方向是顯著方向,若小于? 則該方向不作為顯著方向,索引值Dir2(x,y)更改為0。在本文中? 取0.8。
確定顯著方向之后,在原圖像鄰域中計(jì)算中心像素與顯著方向上相鄰像素的強(qiáng)度差,如下所示:
然后對(duì)中心像素與相鄰像素的強(qiáng)度差值通過(guò)以下方式進(jìn)行編碼:
最后,將選取的顯著方向特征和紋理特征進(jìn)行二進(jìn)制編碼,計(jì)算方式如下:
式中LPDTP(x,y)是在面部圖像中像素點(diǎn)(x,y)處的編碼。當(dāng)有兩個(gè)顯著方向時(shí)LPDTP 的編碼模式數(shù)是4×2×3×2=48,當(dāng)只有一個(gè)顯著方向時(shí)LPDTP 的編碼模式數(shù)時(shí)4×2=8,LPDTP 總的編碼模式數(shù)是48+8=56 種。
邊緣區(qū)域邊緣響應(yīng)值強(qiáng)度大,平坦區(qū)域邊緣響應(yīng)值強(qiáng)度小,設(shè)置一個(gè)閾值θ 根據(jù)第一方向的Rsi(x,y)值的強(qiáng)度信息區(qū)分邊緣和平坦區(qū)域。由于每一個(gè)圖像的像素信息不同,設(shè)置固定閾值不利于區(qū)分邊緣和平坦區(qū)域。表情圖像平坦區(qū)域在圖像所占的比率相對(duì)比較穩(wěn)定,所以通過(guò)設(shè)置一個(gè)比率ρ 來(lái)確定自動(dòng)閾值θ,如下所示:
其中b 是Rsi(x,y)的直方圖HRs中的bin 值,當(dāng)b 的累加值所占的比率大于或等于ρ 時(shí),此時(shí)的閾值θ 就等于b 的值,根據(jù)實(shí)驗(yàn)選取ρ=0.5。
為驗(yàn)證本文算法有效性,在CK+[6],JAFFE[7]數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)。CK+數(shù)據(jù)集有593 個(gè)圖像序列,其中327 個(gè)圖像序列有七種表情標(biāo)簽。JAFFE 有213 幅圖像,有七種表情標(biāo)簽。本次實(shí)驗(yàn)中在CK+數(shù)據(jù)集中選擇除輕蔑外309 個(gè)帶有6 種標(biāo)簽的表情圖像,在JAFFE 數(shù)據(jù)集中選擇所有圖像。使用Haar-like 和Adaboost 檢測(cè)并截取面部區(qū)域,然后將尺寸歸一化為110×120。采用與人無(wú)關(guān)的N 折交叉驗(yàn)證方式,將受試者隨機(jī)分成N 組,其中一組用于測(cè)試,其余N-1 組用于訓(xùn)練,在CK+中將受試者以12 人一組分成10 組。在JAFFE 中將受試者一人一組。在這種方式下同一人的圖像不會(huì)同時(shí)出現(xiàn)在訓(xùn)練集和測(cè)試集中,可以確保測(cè)試圖像的獨(dú)立性,能夠更有效和準(zhǔn)確的評(píng)估算法。使用帶有RBF 內(nèi)核的支持向量機(jī)作為分類器,并通過(guò)自動(dòng)訓(xùn)練確定最優(yōu)參數(shù)。
在表1 顯示了本文方法與LBP、LDN 和LDP 算法在CK+數(shù)據(jù)集中進(jìn)行與人無(wú)關(guān)實(shí)驗(yàn)各類圖像的識(shí)別率。從表中可以看出,總體上生氣、恐懼、悲傷這三類圖像的識(shí)別率偏低,厭惡、高興、驚訝這三類圖像的識(shí)別率較高,這是由于前三種面部表情動(dòng)作特征不明顯,彼此之間容易產(chǎn)生混淆。本文算法的測(cè)試結(jié)果生氣的識(shí)別率相對(duì)其他三個(gè)算法的識(shí)別率較低,其中恐懼和悲傷的識(shí)別率相較于其他算法有明顯提升。
表1:CK+與人無(wú)關(guān)的六類表情識(shí)別率
表2顯示了不同算法在JAFFE 數(shù)據(jù)集中進(jìn)行與人無(wú)關(guān)測(cè)試實(shí)驗(yàn)的識(shí)別率,可以看出總體上此數(shù)據(jù)集上識(shí)別率偏低。這是由于在JAFFE 數(shù)據(jù)集中受試者較少,數(shù)據(jù)集中圖像較少,同時(shí)一些受試者擺出的表情特征不夠明顯,各類表情之間區(qū)分度不高容易產(chǎn)生混淆。而且在數(shù)據(jù)集中存在個(gè)別圖像數(shù)據(jù)標(biāo)注錯(cuò)誤。
表2:JAFFE 與人無(wú)關(guān)七類的識(shí)別率
圖像很容易遭受噪聲的干擾,若特征提取算法對(duì)噪聲魯棒性不強(qiáng)就會(huì)導(dǎo)致圖像識(shí)別率明顯下降。為測(cè)試本文算法對(duì)噪聲的魯棒性,對(duì)圖像添加不同程度的高斯噪聲進(jìn)行測(cè)試。
圖2顯示了在不同峰值信噪比(Peak Signal to Noise Ratio,PSNR)下的高斯噪聲圖像。最左側(cè)圖像為原圖,之后圖像從左至右PSNR 的值分別是32±1 dB,28±1dB,25±1dB。
圖2:高斯噪聲圖像
從表3 中可以看出本文算法在CK+和JAFFE 數(shù)據(jù)集中,當(dāng)PSNR 為32±1dB 時(shí)識(shí)別率分別下降1.63%,2.69%;PSNR 為28±1dB 時(shí)識(shí)別率分別下降7.16%,7.71%。在CK+數(shù)據(jù)集中同樣對(duì)LBP、LDP 和LDN 算法進(jìn)行了測(cè)試,這三個(gè)算法的測(cè)試結(jié)果均劣于本文算法。
表3:不同高斯噪聲下識(shí)別率
本文提出LPDTP 用于表情分類。LPDTP 通過(guò)尋找鄰域內(nèi)的顯著方向,能夠有效的編碼方向信息,在灰度圖像中對(duì)顯著方向上的像素強(qiáng)度編碼。通過(guò)方向信息和灰度信息的聯(lián)合,可以有效表征圖像的紋理特征。設(shè)置自動(dòng)閾值θ 能夠有效消除平坦區(qū)域編碼信息。從實(shí)驗(yàn)結(jié)果中可以看出LPDTP 不僅有良好的識(shí)別效果,對(duì)PSNR大于28dB 的高斯噪聲有良好的魯棒性。