童 瑩
(南京工程學(xué)院 通信工程學(xué)院,江蘇 南京211167)
人臉表情識(shí)別 (facial expression recognition,F(xiàn)ER)由預(yù)處理、人臉檢測與區(qū)域分割、表情特征提取和分類3部分組成,其中表情特征提取是研究的重點(diǎn),表情特征描述是否合適將直接影響分類準(zhǔn)確性。目前常用的表情特征提取方法有局部二值模式 (local binary pattern,LBP)、Gabor小波變換和尺度不變特征轉(zhuǎn)換 (scale-invariant feature transform,SIFT)等。LBP 算子是一種有效的紋理描述子,Heikkil等[1]提出了CS-LBP算子,通過對(duì)圖像中關(guān)于中心像素點(diǎn)對(duì)稱的鄰域像素的灰度值變化進(jìn)行二值編碼,獲取特征向量;Zhang 等[2]提出了高階局部模式描述子,采用二階局部導(dǎo)數(shù)進(jìn)行人臉識(shí)別。Gabor小波變換是一種公認(rèn)的優(yōu)秀頻域變換算子,能夠很好地模擬哺乳動(dòng)物視覺皮層簡單細(xì)胞的感受域,符合人眼視覺特點(diǎn),可以多尺度多方向檢測人臉表情變化,具有較好的識(shí)別效果。但由于Gabor小波核數(shù)量多,特征提取時(shí)間冗長,特征維數(shù)巨大,后期特征選擇與降維處理將直接影響識(shí)別結(jié)果。Marios Kyperountas等[3]采用Gabor濾波器獲取表情特征,針對(duì)多個(gè)一對(duì)一的二分類器選擇有效Gabor特征進(jìn)行分類,不熟悉人臉表情識(shí)別率有明顯提高,但運(yùn)算開銷巨大,不適合實(shí)時(shí)應(yīng)用。SIFT 算子是Lowe在2004年提出的,是一種基于空間多尺度的局部不變量描述子,對(duì)尺度縮放、圖像旋轉(zhuǎn)甚至仿射變換保持不變性,在場景匹配、目標(biāo)識(shí)別等領(lǐng)域都有出色的表現(xiàn)[4-5]。雖然LBP、Gabor和SIFT 算子均可以描述人臉表情特征,但由于LBP編碼受鄰域灰度值變化影響較大,對(duì)噪聲敏感;Gabor小波變換和SIFT 算法計(jì)算量大,特征維數(shù)太高,不具有實(shí)時(shí)性,因此這些特征提取算法仍有局限性。
針對(duì)這些不足,Dalal在SIFT 基礎(chǔ)上提出了梯度方向直方圖 (histograms of oriented gradients,HOG)算法,它是一種邊緣形狀描述子,近幾年被廣泛應(yīng)用研究。O.Dénizd等[6]采用規(guī)則網(wǎng)格和不同尺度的HOG 特征進(jìn)行人臉識(shí)別,在4個(gè)數(shù)據(jù)庫上均取得理想實(shí)驗(yàn)效果;Rodrigo Minetto等[7]采用THOG 算子進(jìn)行文本特征提取,采用SVM 分類器進(jìn)行字符識(shí)別,在2種公共數(shù)據(jù)上的仿真結(jié)果表明,THOG 算子是一種有效的文本描述子。可以看出,HOG 算子通過計(jì)算梯度方向分布可以很好地描述圖像的邊緣信息,受灰度分布、光照變化和噪聲影響較小。同時(shí),相比傳統(tǒng)特征算子 (如LBP、Gabor、SIFT 等),HOG 特征維數(shù)大大降低,具有實(shí)時(shí)性。因此,本文選擇HOG 算子進(jìn)行人臉表情特征提取有實(shí)際意義。但由于經(jīng)典HOG 算子忽略了局部特征之間重要的空間排列信息,同樣的梯度信息可能對(duì)應(yīng)著完全不一樣的邊緣結(jié)構(gòu),因此存在著特征描述不夠精細(xì)的問題。鑒于此,本文提出了空間多尺度HOG 模型,首先逐層將圖像從粗到細(xì)分割成一系列不同尺度的子區(qū)域,然后采用改進(jìn)HOG 算子分別計(jì)算各個(gè)子區(qū)域的梯度方向分布,用直方圖表示,最后按順序?qū)⒏鲗痈鲏K的梯度方向直方圖連接起來,獲得整幅圖像的 “空間多尺度”HOG 特征。在JAFFE 數(shù)據(jù)庫上的大量實(shí)驗(yàn)結(jié)果表明,該方法是一種表達(dá)能力較強(qiáng)的形狀描述子,在把握?qǐng)D像邊緣信息的同時(shí)也引入了空間信息,相比LBP、Gabor、SIFT 等傳統(tǒng)特征算子,無論在識(shí)別率還是運(yùn)行時(shí)間上均具有顯著優(yōu)勢。
HOG 算法的基本思想是通過計(jì)算目標(biāo)的梯度方向分布來描述目標(biāo)的形狀,其具體實(shí)現(xiàn)步驟如下:
步驟1 遍歷圖像每個(gè)像素點(diǎn),以其為中心取8×8像素鄰域作為網(wǎng)格 (block)區(qū)域。
步驟2 將每個(gè)網(wǎng)格 (block)區(qū)域平均分成4 個(gè)大小相等的塊單元 (cell),每個(gè)單元的大小是4×4個(gè)像素。
步驟3 利用一維微分模板 [-1,0,1]計(jì)算所有單元 (cell)中的每一個(gè)像素的梯度幅值和梯度方向,如式(1)、式 (2)所示,其中I(x,y)代表圖像(x,y)坐標(biāo)的像素值,m(x,y)為梯度幅值,θ(x,y)為梯度方向。圖1 (a)描述了一個(gè)網(wǎng)格 (block)區(qū)域中4個(gè)單元 (cell)的所有像素點(diǎn)的梯度方向分布,箭頭代表梯度方向
m(x,y)=
步驟4 將梯度方向θ(x,y)限定在[0,π]范圍內(nèi),平均分成8個(gè)區(qū)間,用有符號(hào)的8個(gè)方向表示。根據(jù)圖1 (a)中橢圓圈的高斯加權(quán)范圍將單元 (cell)上所有相同梯度方向的像素點(diǎn)的梯度幅值按照權(quán)重累加,組成該單元的8維梯度方向直方圖,如圖1 (b)所示。
圖1 HOG 特征提取過程
步驟5 計(jì)算得到單元 (cell)的8維梯度方向直方圖后,將一個(gè)網(wǎng)格 (block)區(qū)域中4個(gè)單元 (cell)的梯度方向直方圖連接起來,得到一個(gè)網(wǎng)格 (block)區(qū)域的4×8=32維的梯度方向直方圖特征。連接所有網(wǎng)格 (block)區(qū)域的直方圖特征,并采用L2-norm 歸一化,得到最終HOG特征。一幅大小為128×128 的圖像,可以分為16×16=256個(gè)無重疊網(wǎng)格 (block)區(qū)域,其HOG 特征向量長度為256×32=8192。
考慮原始梯度算子的單一性,本文采用canny模板計(jì)算梯度幅值和梯度方向,如式 (3)~式 (6)所示
另一方面,由于使用不同尺寸大小和縱橫比的cell和block取值參數(shù)會(huì)影響HOG 捕獲目標(biāo)特征的能力,本文選用32×32大小的矩形block區(qū)域進(jìn)行HOG 特征計(jì)算,在一個(gè)block區(qū)域中仍然包含4 個(gè)cell單元。同時(shí),為了增加HOG 特征描述表情變化的能力,本文將[0,π]區(qū)間平均分成10個(gè)等分,這樣可以更加精細(xì)的描述人臉中額頭、眼睛、嘴巴等部位的方向變化,有效區(qū)分不同人臉表情。最后,研究表明高斯加權(quán)窗口僅對(duì)特征的性能有1%的提高,為了簡化計(jì)算,提高運(yùn)行速度,本文不考慮高斯加權(quán),每一個(gè)梯度方向的取值即為各像素點(diǎn)的梯度幅值的累加。
從圖2可以看出,采用canny算子計(jì)算的梯度幅值圖像相比傳統(tǒng)梯度算子的幅值圖像邊緣更清晰,細(xì)節(jié)更豐富,因此實(shí)驗(yàn)效果更理想。并且本文對(duì)block、cell和bin的參數(shù)設(shè)置進(jìn)行改進(jìn),一方面可以提高HOG 捕獲目標(biāo)特征的能力,另一方面也可以大大降低特征向量長度。對(duì)于一幅128×128大小的圖像,采用改進(jìn)參數(shù),得到HOG 特征向量長度為4×4 (block)×4 (cell)×10 (bin)=640,相比傳統(tǒng)HOG 特征向量,其長度下降了近93%,因此可以大大分類時(shí)間,具有實(shí)時(shí)性。
圖2 不同算子梯度幅值圖像
HOG 算子是一種有效的形狀描述子,但它有一個(gè)重要的不足,即丟棄了局部特征之間的空間排列信息。研究發(fā)現(xiàn),這種局部特征之間空間位置關(guān)系對(duì)提高圖像表示性能是非常重要的,因此本文提出了空間多尺度HOG 模型,它是一種能同時(shí)對(duì)物體的形狀以及空間布局進(jìn)行良好描述的算子。具體步驟如下:
(2)采用上述改進(jìn)HOG 算子,分別逐層計(jì)算每個(gè)網(wǎng)格(block)子區(qū)域的梯度方向直方圖。梯度方向的取值范圍仍限定在[0,π]內(nèi),量化區(qū)間數(shù)k個(gè)。
圖3 空間多尺度HOG 特征提取過程
本文采用KNN 最近鄰分類器對(duì)JAFFE數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn)仿真。JAFFE數(shù)據(jù)庫由10位日本女性在憤怒、厭惡、恐懼、高興、悲傷、驚訝6種情況下自發(fā)產(chǎn)生的表情圖像組成。部分人臉表情圖像如圖4所示,每人每種表情約3幅,共180幅,圖像尺寸大小128×128。此數(shù)據(jù)庫完全開放,且表情標(biāo)定標(biāo)準(zhǔn),現(xiàn)為大多數(shù)研究者仿真使用。本文采用文獻(xiàn) [3]中 “l(fā)eave-one-sample-out”和 “l(fā)eave-one-subject-out”這2種樣本選擇方式進(jìn)行仿真實(shí)驗(yàn)?!發(fā)eave-one-sample-out”是一種熟悉人臉樣本選擇方式,選取1幅圖像作為測試樣本,剩余179幅圖像作為訓(xùn)練樣本,交叉驗(yàn)證180次。采用這種樣本選擇方式可以最大程度選擇所有數(shù)據(jù)作為測試樣本,以確保每幅圖像的表情特征都被考慮到,實(shí)驗(yàn)結(jié)果更具有真實(shí)性。“l(fā)eave-one-subject-out”是一種不熟悉人臉樣本選擇方式,選取同一個(gè)人的所有表情作為測試樣本,剩余人的所有表情圖像作為訓(xùn)練樣本,交叉驗(yàn)證10次。這種樣本選擇方式可以用來評(píng)價(jià)分析人臉識(shí)別時(shí)不同表情變化對(duì)識(shí)別系統(tǒng)的影響。下面本文將從多個(gè)方面分析空間多尺度HOG算法的優(yōu)越性。
圖4 JAFFE數(shù)據(jù)庫人臉表情圖像
根據(jù)本文1.1和1.2描述,采用改進(jìn)HOG 算子和傳統(tǒng)HOG 算子在JAFFE 數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)仿真,樣本選擇采用文獻(xiàn) [3]中 “l(fā)eave-one-sample-out”(縮寫為 “L-O-Sap-O”)和 “l(fā)eave-one-subject-out” (縮寫為 “L-O-Sub-O”)2種方式進(jìn)行,實(shí)驗(yàn)結(jié)果見表1??梢钥闯觯啾葌鹘y(tǒng)HOG算子,改進(jìn)HOG 算子采用canny模板計(jì)算梯度幅值和方向,且增大cell區(qū)域范圍和bin值,可以有效描述人臉表情變化,在2種樣本選擇方式下分類效果均優(yōu)于傳統(tǒng)HOG 算子,且分類時(shí)間大大降低,具有實(shí)時(shí)性。
表1 改進(jìn)HOG 算子和傳統(tǒng)HOG 算子的性能比較
實(shí)驗(yàn)研究了不同金字塔層數(shù)L和梯度方向量化區(qū)間bin值對(duì)空間多尺度HOG 特征的分類準(zhǔn)確率的影響。仍采用“L-O-Sap-O”和 “L-O-Sub-O”這2 種 樣 本 選 擇 方 式 在JAFFE 數(shù)據(jù)庫上進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5、圖6所示。
空間多尺度模型考慮了局部特征之間的空間位置關(guān)系,相比基本特征算子具有優(yōu)越性。但是隨著分級(jí)層數(shù)的增加,這種加入位置信息的策略對(duì)目標(biāo)在圖像中的位置、姿態(tài)越來越敏感,當(dāng)分層到一定深度,該策略相對(duì)于基本算子優(yōu)勢就消失了。從圖5可以看出,當(dāng)金字塔層數(shù)增加至4時(shí),無論 是 “l(fā)eave-one-sample-out”樣 本 選 擇 方 式 和 “l(fā)eaveone-subject-out”樣本選擇方式,均達(dá)到識(shí)別率最優(yōu),若繼續(xù)增加層數(shù),則會(huì)增加背景塊的概率,造成信息冗余,降低識(shí)別率。
圖5 不同分層下空間多尺度HOG算子的分類效果比較
圖6 不同梯度方向量化區(qū)間下空間多尺度HOG 算子的分類效果比較
同時(shí),空間多尺度模型不再對(duì)局部區(qū)域進(jìn)行block 和cell劃分,而是直接計(jì)算各層各個(gè)子區(qū)域的梯度方向,并統(tǒng)計(jì)分布。從圖6可以看出,將[0,π]角度范圍平均劃分為10個(gè)區(qū)域和20區(qū)域時(shí)效果最佳,這是因?yàn)樘荻确较蛄炕瘏^(qū)間的取值數(shù)目過多或過少都會(huì)對(duì)識(shí)別率造成影響,量化區(qū)間數(shù)目過少無法準(zhǔn)確描述目標(biāo)的形狀變化,量化區(qū)間數(shù)目過多則會(huì)造成信息冗余??紤]特征維數(shù)增加會(huì)造成分類時(shí)間加長,對(duì)算法實(shí)時(shí)性有影響,因此本文選用參數(shù)bin=10進(jìn)行角度區(qū)間劃分。由此可見,本文提出的空間多尺度HOG 模型的最佳參數(shù)設(shè)置為層數(shù)L=4,梯度方向量化區(qū)間數(shù)bin=10,且梯度模板為canny算子。
比較空間多尺度HOG 算子與LBP 算子、Gabor特征算子[11]以及金字塔梯度方向直方圖算子 (pyramid histogram of oriented gradients,PHOG)[12]的分類效果。這里空間多尺度HOG 算子采用3.2中的最佳參數(shù)設(shè)置,Gabor特征采用文獻(xiàn) [11]中的方式進(jìn)行特征降維,PHOG 算子參考文獻(xiàn) [12]的方法實(shí)現(xiàn)。仍采用文獻(xiàn) [3]提出的2種樣本選擇方式對(duì)JAFFE數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn)仿真,4種算子的分類結(jié)果見表2。
表2 LBP算子、Gabor特征算子、SIFT 算子、PHOG 算子與本文算子的識(shí)別率比較/%
結(jié)合表1分析可得,本文算子和HOG 算子與傳統(tǒng)特征算子 (LBP、Gabor)相比,無論是對(duì)熟悉人臉樣本還是不熟悉人臉樣本分類,識(shí)別率均有明顯提高,這說明邊緣形狀描述子更能準(zhǔn)確表征人臉表情變化。另一方面,本文算子又考慮了局部特征之間的空間位置信息,因此相比表1中改進(jìn)HOG 算子分類效果,識(shí)別率也有提高,尤其是對(duì)不熟悉人臉樣本的分類,識(shí)別率提高近5%。由于改進(jìn)HOG算子的細(xì)胞單元大小是16×16,而本文算子的最小尺度子區(qū)域 (即最后一層子區(qū)域)大小也是16×16,提取細(xì)節(jié)特征的處理單元一致,分類結(jié)果具有可比性。因此空間多尺度HOG 算子是一種能同時(shí)對(duì)物體的形狀以及空間布局進(jìn)行良好描述的算子,對(duì)不同人臉的不同表情變化具有較好的識(shí)別能力。再與PHOG 算子比較,雖然PHOG 算子也引入了空間信息,但僅考慮了圖像邊緣的梯度方向分布,表情信息不充分,因此分類效果不理想。
為了說明空間多尺度HOG 算子具有實(shí)時(shí)性,本文從特征提取時(shí)間與分類時(shí)間2個(gè)方面與傳統(tǒng)特征算子 (LBP、Gabor)進(jìn)行比較,仿真結(jié)果見表3。
表3 本文算子與傳統(tǒng)特征算子的運(yùn)行時(shí)間比較
表3中LBP算子采用LBP (8,1)模板對(duì)圖中8×8=64個(gè)子區(qū)域分別進(jìn)行局部二值模式計(jì)算,得到256×64=16384大小的特征向量;Gabor特征采用文獻(xiàn) [11]中的降維方法得到132維大小的特征向量。而本文提出的空間多尺度HOG 算子則將梯度方向取值范圍限定在[0,π]內(nèi),最佳參數(shù)bin=10和L=4,特征向量長度大小為850。由于KNN 最近鄰分類器的運(yùn)行時(shí)間與特征向量大小呈線性關(guān)系,因此由表3 可以看出,本文算子分類時(shí)間高于Gabor算子,但若考慮特征向量的提取和降維時(shí)間,Gabor算子耗時(shí)巨大,本文算子的平均運(yùn)行時(shí)間最短,實(shí)時(shí)性最佳。
人臉表情識(shí)別是一個(gè)跨學(xué)科富挑戰(zhàn)性的前沿課題,其中表情特征提取是否準(zhǔn)確,將直接影響分類效果。本文針對(duì)這一關(guān)鍵步驟進(jìn)行改進(jìn),將空間多尺度概念應(yīng)用到HOG算子中,提出空間多尺度HOG 模型,指出局部特征之間的空間排列信息在模式分類中具有重要性。本文采用熟悉人臉和不熟悉人臉2種樣本選擇方式,在JAFFE 數(shù)據(jù)庫上進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文算子的識(shí)別性能遠(yuǎn)高于LBP、Gabor和PHOG 等算子,最大限度地提取人臉表情的有效特征,尤其對(duì)陌生人臉表情具有較好的分類效果。并且平均時(shí)間也低于傳統(tǒng)特征算子,具有實(shí)時(shí)性。
[1]HeikkilM,Pietikinen M,Schmid C.Description of interest regions with local binary patterns [J].Pattern Recognition,2009,42 (3):425-436.
[2]Zhang Baochang,Gao Yongsheng,Zhao Sanqing,et al.Local derivative pattern versus local binary pattern:Face recognition with high-order local pattern descriptor [J].IEEE Transactions on Image Processing,2010,19 (2):533-544.
[3]Marios Kyperountas,Anastasios Tefas,Ioannis Pitas.Salient feature and reliable classifier selection for facial expression classification [J].Pattern Recognition,2010,43 (3):972-986.
[4]ZHENG Yongbin,HUANG Xinsheng,F(xiàn)ENG Songjiang.An image matching algorithm based on combination of SIFT and the rotation invariant LBP [J].Journal of Computer 2 Aided Design &Computer Graphics,2010,22 (2):286-292 (in Chinese).[鄭永斌,黃新生,豐松江.SIFT 和旋轉(zhuǎn)不變LBP 相結(jié)合的圖像匹配算法 [J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2010,22 (2):286-292.]
[5]Pan Xunyu,Siwei Lyu.Detecting image region duplication using SIFT features [C]//IEEE International Conference on Acoustics Speech and Signal Processing,2010:1706-1709.
[6]Déniz O,Bueno G,Salido J,et al.Face recognition using histograms of oriented gradients [J].Pattern Recognition Letters,2011,32 (12):1598-1603.
[7]Rodrigo Minetto,Nicolas Thome, Matthieu Cord,et al.THOG:An effective gradient-based descriptor for single line text regions [J].Pattern Recognition,2013,46 (3):1078-1090.
[8]Bosch A,Zisserman A,Munoz X.Representing shape with a spatial pyramid kernel [C]//International Conference on Image and Video Retrieval,2007:401-408.
[9]Kobayashi T.BFO meets HOG:Feature extraction based on histograms of oriented p.d.f.gradients for image classification[C]//CVPR,2013:747-754.
[10]XIANG Zheng,TAN Hengliang,MA Zhengming.Performance comparison of improved HOG,Gabor and LBP [J].Journal of Computer-Aided Design & Computer Graphics,2012,24 (6):787-792 (in Chinese). [向征,譚恒良,馬爭鳴.改進(jìn)的HOG 和Gabor,LBP 性能比較 [J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012,24 (6):787-792.]
[11]Ruan Jinxin.Study on key technology for multi-pose face dection and facial expression recognition [D].Guangzhou:South China University of Technology,2010:64-83 (in Chinese).[阮錦新.多姿態(tài)人臉檢測與表情識(shí)別關(guān)鍵技術(shù)研究[D].廣州:華南理工大學(xué),2010:64-83]
[12]ZHOU Xia,QIN Lei,WANG Xian,et al.The face recognition algorithm based on improved PHOG and KPCA [J].Opto-Electronic Engineering,2012,39 (12):143-150(in Chinese).[周霞,秦磊,王憲,等.融合改進(jìn)PHOG 與KPCA 的人臉識(shí)別算法[J].光電工程,2012,39 (12):143-150.]