網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20150601.0940.003.html
一種方向性的局部二值模式在人臉表情識(shí)別中的應(yīng)用
童瑩
(南京工程學(xué)院 通信工程學(xué)院,江蘇 南京 211167)
摘要:傳統(tǒng)局部二值模式(LBP)算法應(yīng)用在人臉表情識(shí)別中,不能準(zhǔn)確描述眼睛、嘴巴、額頭等表情特征區(qū)域在不同方向上的灰度變化趨勢(shì),識(shí)別效果不理想。本文改進(jìn)傳統(tǒng)局部二值模式的灰度比較關(guān)系,分別從水平、垂直以及對(duì)角3個(gè)方向?qū)︵徲蛳袼氐幕叶茸兓M(jìn)行二值編碼,融合3個(gè)方向的特征,得到一種基于方向性的局部二值模式(DLBP)。在JAFFE數(shù)據(jù)庫(kù)和Cohn-Kanade數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果均表明,DLBP算子相比LBP算子、Gabor算子能更準(zhǔn)確描述人臉基本表情,識(shí)別率平均分別提高了5%和1%;相比LBP算子對(duì)椒鹽噪聲和高斯白噪聲具有更強(qiáng)的魯棒性;且與LDP算子相比,識(shí)別率基本不變,但特征提取時(shí)間縮減近50%。由此可見(jiàn),DLBP算子是一種快速有效的人臉表情描述子。
關(guān)鍵詞:人臉表情識(shí)別;局部二值模式;中心最近鄰分類(lèi);方向性局部二值模式;Gabor:LDP
DOI:10.3969/j.issn.1673-4785.2201405016
中圖分類(lèi)號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
收稿日期:2014-05-06. 網(wǎng)絡(luò)出版日期:2015-06-01.
基金項(xiàng)目:江蘇省自然科學(xué)基金資助項(xiàng)目(BK20131342).
作者簡(jiǎn)介:
中文引用格式:童瑩.一種方向性的局部二值模式在人臉表情識(shí)別中的應(yīng)用[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(3): 422-428.
英文引用格式:TONG Ying. Local binary pattern based on the directions and its application in facial expression recognition[J]. CAAI Transactions on Intelligent Systems, 2015, 10(3): 422-428.
Local binary pattern based on the directions and
its application in facial expression recognition
TONG Ying
(Department of Communication Engineering, Nanjing Institute of Technology, Nanjing 211167, China)
Abstract:The traditional local binary pattern (LBP) algorithm for facial expression recognition could not describe the gray value change in different directions of somel expression regions, such as eyes, mouth, forehead, etc. The recognition result is not satisfied. This paper presents a simple and robust method, namely local binary pattern based on the directions (DLBP), which improves the coding pattern of LBP and encoded the difference from the horizontal, vertical and diagonal directions. Experimental results on JAFFE and Cohn-Kanade databases show that DLBP algorithm has achieved 5% and 1% higher recognition rates than other existing algorithms, such as LBP and Gabor. It has a strong robustness to Gaussian noise and salt and pepper noise compared with LBP, and Its feature extraction time is reduced by 50% compared to LDP. Therefore, the DLBP algorithm is a fast and effective feature descriptor.
Keywords:facial expression recognition; local binary pattern (LBP); central nearest neighbor classification; directional local binary pattern (DLBP); Gabor; local directional pattern (LDP)
通信作者:童瑩. E-mail: tongying@njpt.edu.cn.
面部是情感交流的器官,人們可以通過(guò)面部表情變化準(zhǔn)確而充分地表達(dá)自己的思想情感,也可以通過(guò)表情辨認(rèn)對(duì)方的情感狀態(tài),是一種有效的非語(yǔ)言信息交流手段。因此,對(duì)表情識(shí)別進(jìn)行研究具有重要的學(xué)術(shù)價(jià)值和應(yīng)用前景,是實(shí)現(xiàn)人機(jī)交互、機(jī)器視覺(jué)、行為科學(xué)等應(yīng)用的基礎(chǔ),近年來(lái)逐漸成為學(xué)者們的研究熱點(diǎn)。
人臉表情識(shí)別(facial expression recognition, FER)系統(tǒng)包含表情圖像預(yù)處理、人臉檢測(cè)與人臉區(qū)域分割、表情特征提取和表情分類(lèi)4個(gè)組成部分。表情特征提取是人臉表情識(shí)別系統(tǒng)的一個(gè)重要環(huán)節(jié),是提高表情分類(lèi)準(zhǔn)確性的關(guān)鍵步驟。在眾多表情特征提取方法中,局部特征法對(duì)光照、姿態(tài)等變化具有較強(qiáng)的魯棒性,其中局部二值模式(LBP)[1]和Gabor小波變換[2-6]是2種代表性方法。Gabor小波變換能夠檢測(cè)多尺度、多方向的表情紋理信息,但其耗時(shí)多,產(chǎn)生特征維數(shù)巨大,降維方法的選擇會(huì)影響識(shí)別準(zhǔn)確性。相比于Gabor小波變換,LBP算法可以快速提取表情特征,具有強(qiáng)大的紋理判別能力和計(jì)算簡(jiǎn)單等特點(diǎn),因此被廣泛地應(yīng)用于分類(lèi)、圖像檢索和模式識(shí)別中[7-12]。然而傳統(tǒng)LBP算子也有其局限性,它是通過(guò)比較中心像素與鄰域像素的灰度值大小獲取特征,受噪聲影響較大,對(duì)灰度變化敏感,識(shí)別效果不理想。因此本文對(duì)傳統(tǒng)LBP算子進(jìn)行改進(jìn),提出一種基于方向性的局部二值模式(directional LBP, DLBP),分別從水平、垂直和對(duì)角3個(gè)方向?qū)︵徲蛳袼剡M(jìn)行灰度值比較和二值編碼,既符合人臉表情變化趨勢(shì),又降低像素相關(guān)性,減少噪聲干擾。在JAFFE數(shù)據(jù)庫(kù)和Cohn-Kanade數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果均表明,DLBP算子是一種實(shí)用有效的人臉表情描述算子,且比LBP算子具體較強(qiáng)的噪聲魯棒性。
1LBP算子理論
傳統(tǒng)局部二值模式(local binary pattern, LBP)是由T. Ojala等在1996年提出的,是一種用來(lái)描述圖像局部紋理特征的算子,它具有旋轉(zhuǎn)不變性和灰度不變性等顯著優(yōu)點(diǎn)。傳統(tǒng)LBP算子定義在3×3窗口內(nèi),以窗口中心像素灰度值為閾值,將相鄰8個(gè)像素的灰度值與其進(jìn)行比較,若鄰域像素值大于中心像素值,則編碼為1,否則編碼為0。從左上角開(kāi)始順時(shí)針讀取數(shù)值,先讀出的二進(jìn)制數(shù)放在低位,后讀出的二進(jìn)制數(shù)放在高位,依次得到8位二進(jìn)制數(shù),即LBP編碼。將LBP編碼值轉(zhuǎn)換為十進(jìn)制數(shù),則得到該編碼對(duì)應(yīng)的LBP值。圖1描述了一個(gè)編碼示例,中心像素灰度值為150,依次與八鄰域像素比較,順序得到LBP編碼為(00011011)2,將其轉(zhuǎn)化為十進(jìn)制數(shù)得到LBP值為27。
圖1 LBP編碼示例 Fig. 1 Illustration of the LBP descriptor
2基于方向性的LBP算子理論
2.1DLBP算子的定義
原始的LBP提出后,T. Ojala又對(duì)其進(jìn)行改進(jìn),將3×3鄰域擴(kuò)展到任意鄰域,并用圓形鄰域代替方形鄰域,改進(jìn)后的LBP算子允許在半徑為R的圓形鄰域內(nèi)有任意多個(gè)像素點(diǎn)。同時(shí),他還提出了均勻模式,將LBP模式由256種減少為59種,降低了特征向量的維數(shù)但并不丟失主要信息。在T. Ojala研究的基礎(chǔ)上,又有很多研究人員提出自己的改進(jìn)方法,例如Tan提出了局部三值模式[13],通過(guò)計(jì)算中心像素與鄰域像素的灰度差值與給定經(jīng)驗(yàn)閾值的正負(fù)關(guān)系進(jìn)行三值編碼,可以有效去除噪聲和光照的影響;Yang等提出了漢明LBP[14],當(dāng)非均勻模式與某均勻模式的漢明距離最小時(shí),將其歸入均勻模式,可進(jìn)一步降低LBP特征向量的維數(shù);Huang等提出了擴(kuò)展LBP[15],對(duì)鄰域像素與中心像素的灰度差值進(jìn)行四位二值編碼,首位是符號(hào)位,后面3位是數(shù)值位,該方法以增加向量維數(shù)來(lái)?yè)Q取魯棒性??梢钥闯?,改進(jìn)方法多數(shù)集中在鄰域選擇、特征向量降維或者編碼方式構(gòu)建上,他們的基本思想仍是比較中心像素和鄰域像素的灰度大小,并沒(méi)有考慮鄰域像素間的灰度變化,這種傳統(tǒng)比較關(guān)系并不有利于表情特征的提取[16-20]。
針對(duì)這一不足,本文提出一種基于方向性的局部二值模式(DLBP),分別從水平、垂直和對(duì)角3個(gè)方向比較鄰域像素間的灰度值大小,并對(duì)其進(jìn)行二值編碼,得到DLBP編碼圖像。這是一種簡(jiǎn)單有效的表情特征提取方法,可以準(zhǔn)確描述人臉中各個(gè)表情區(qū)域的紋理變化,同時(shí)也不增加算法的復(fù)雜性??紤]到3個(gè)方向的選擇順序以及編碼權(quán)重對(duì)識(shí)別效果無(wú)影響,本文定義DLBP算式如式(1)所示。
(1)
式中:g1~g8為圖2中3×3模板對(duì)應(yīng)像素點(diǎn)的灰度值,其編碼運(yùn)算示例如圖3所示。圖3中像素灰度分布與圖1一致,虛線(xiàn)表示進(jìn)行灰度比較的2個(gè)鄰域像素,根據(jù)式(1)得到DLBP編碼為(10011001)2。可以看出,針對(duì)相同的灰度分布,由于LBP算子與DLBP算子進(jìn)行灰度比較的像素不同,所以編碼結(jié)果也不同。
圖2 DLBP算子的3×3模板 Fig. 2 3×3 mask of DLBP descriptor
圖3 DLBP編碼示例 Fig. 3 Illustration of DLBP descriptor
為了直觀比較LBP算子與DLBP算子提取表情特征的優(yōu)劣,以JAFFE數(shù)據(jù)庫(kù)中某一表情圖像為例,分別對(duì)其進(jìn)行LBP編碼和DLBP編碼,顯示結(jié)果如圖4所示。從圖中可以看出,由于DLBP算子獨(dú)特的灰度比較方式,它能夠準(zhǔn)確描述出鄰域像素間不同方向的灰度變化,DLBP編碼圖像中面部肌肉的皺褶形變以及眼睛、嘴巴等部位的變化趨勢(shì)更明顯,相比LBP編碼圖像,DLBP編碼圖像的表情特征更清晰,噪聲干擾更少。
圖4 原始圖像與LBP和DLBP編碼圖像 Fig. 4 Sample of original image, LBP coding image and DLBP coding image
2.2DLBP算子的魯棒性
由于LBP算子是對(duì)中心像素點(diǎn)與鄰域像素點(diǎn)的灰度大小進(jìn)行編碼,因此任意一個(gè)鄰域像素點(diǎn)的灰度值發(fā)生改變,都會(huì)導(dǎo)致LBP編碼變化。如圖5所示,圖5(a)是原始灰度模板,加上高斯白噪聲后得到灰度分布如圖5(b)所示,此時(shí)LBP編碼由原來(lái)的00011100變?yōu)?0010100,第5位編碼發(fā)生了錯(cuò)誤。這是由于噪聲的影響導(dǎo)致圖中圓圈標(biāo)識(shí)的鄰域像素灰度值與中心像素灰度值的關(guān)系發(fā)生逆轉(zhuǎn),盡管剩余鄰域像素與中心像素灰度值的關(guān)系并沒(méi)有發(fā)生改變,但這仍然導(dǎo)致LBP編碼值由原來(lái)的28變?yōu)?0,改變直方圖分布,從而影響識(shí)別率。而DLBP算子則是考慮鄰域像素間的灰度關(guān)系,它們之間的灰度值相關(guān)性小于中心像素與鄰域像素之間的相關(guān)性,并且鄰域越大相關(guān)程度越小,因此DLBP算子受噪聲影響小。如圖5(c)所示,圓圈標(biāo)識(shí)的灰度值為53,其對(duì)應(yīng)水平方向的方形標(biāo)識(shí)像素灰度值為10??紤]受噪聲影響的最壞情況,即圓圈標(biāo)識(shí)的灰度值降低,而方形標(biāo)識(shí)的灰度值升高。若不改變灰度關(guān)系,此時(shí)所能承受的最大噪聲容限為兩者差值43。圖5(d)為受高斯白噪聲影響后的灰度分布,圖中圓圈標(biāo)識(shí)的灰度值下降5,方形標(biāo)識(shí)的灰度值上升5,灰度值變化總和為10,小于最大噪聲容限值43,所以灰度關(guān)系不發(fā)生改變,DLBP編碼也不變。由此可見(jiàn),DLBP算子的噪聲容限大于LBP算子,對(duì)噪聲有較強(qiáng)的魯棒性。
圖5 LBP與DLBP對(duì)噪聲的魯棒性分析 Fig. 5 Stability of LBP vs DLBP
2.3DLBP特征向量描述子
采用DLBP算子對(duì)圖像中每一個(gè)像素進(jìn)行編碼,得到DLBP編碼圖像。在進(jìn)行表情分類(lèi)時(shí),一般不將編碼圖像作為特征向量進(jìn)行識(shí)別,這是因?yàn)榫幋a圖像中DLBP值與位置是緊密相關(guān)的,對(duì)2幅編碼圖像進(jìn)行判別分析,會(huì)因?yàn)椤拔恢貌粶?zhǔn)確”而產(chǎn)生很大誤差。因此仍采用DLBP統(tǒng)計(jì)直方圖作為特征向量來(lái)消除位置的影響。具體實(shí)現(xiàn)步驟如下:
1)將人臉表情圖像平均分成N個(gè)子圖像,每一塊子圖像大小為m×n。
2)采用式(1)計(jì)算每個(gè)子圖像所有像素的DLBP值。
3)利用式(2)統(tǒng)計(jì)每個(gè)子圖像的DLBP直方圖。
(2)
4)將所有子圖像的統(tǒng)計(jì)直方圖順序鏈接起來(lái),得到最終可用于分類(lèi)識(shí)別的DLBP特征向量,如圖6所示,特征向量的長(zhǎng)度為256×N。
圖6 DLBP特性向量提取過(guò)程 Fig. 6 The process of DLBP feature extraction
可以看出,DLBP特征向量描述子采用直方圖分布可以消除像素位置的影響,同時(shí)分別統(tǒng)計(jì)各個(gè)子圖像的DLBP直方圖,又可以增加局部特征之間的空間排列信息,有利于提高識(shí)別率。
3實(shí)驗(yàn)結(jié)果與分析
本文采用JAFFE數(shù)據(jù)庫(kù)和Cohn-Kanade數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)仿真。JAFFE數(shù)據(jù)庫(kù)是日本ATR媒體信息科學(xué)實(shí)驗(yàn)室的Lyons博士提供的,包括10位日本女性在憤怒、厭惡、恐懼、高興、悲傷、驚訝6種情況下自發(fā)產(chǎn)生的表情圖像,共213幅圖像,圖像大小為256×256。選取其中每人每種表情3幅圖像,共180幅圖像進(jìn)行實(shí)驗(yàn)仿真。Cohn-Kanade數(shù)據(jù)庫(kù)是CMU機(jī)器人研究所和心理系于2000年共同建立的人臉表情數(shù)據(jù)庫(kù),包含了200個(gè)由18~30歲的210個(gè)成年人近2 000張不同表情圖像序列,每張圖像大小為640×490或640×480。本文選取每個(gè)表情序列中最具有代表性的5幅圖像,共1 665幅圖像進(jìn)行實(shí)驗(yàn)仿真。這2個(gè)數(shù)據(jù)庫(kù)完全開(kāi)放,且表情標(biāo)定標(biāo)準(zhǔn),現(xiàn)為多數(shù)研究人員仿真使用。
在進(jìn)行實(shí)驗(yàn)仿真前,還要對(duì)數(shù)據(jù)庫(kù)中圖像進(jìn)行表情區(qū)域劃分和歸一化預(yù)處理。在精確定位人眼后,計(jì)算雙眼與水平線(xiàn)的夾角,并將雙眼位置旋轉(zhuǎn)到同一水平高度。根據(jù)人眼的坐標(biāo)位置對(duì)圖像進(jìn)行表情區(qū)域劃分,使人臉表情區(qū)域同背景分離開(kāi)來(lái),盡量減少與表情無(wú)關(guān)的因素對(duì)表情識(shí)別的影響。設(shè)雙眼之間的水平距離為D,以?xún)裳圻B線(xiàn)的中點(diǎn)為基準(zhǔn),向上距離0.5D處為上邊界,向下距離1.5D處為下邊界,向左距離D處為左邊界,向右距離D為右邊界,將人臉主要表情區(qū)域從圖像中分割出來(lái),模板如圖7所示。同時(shí),由于分割出的表情區(qū)域大小不同,還需要將圖像歸一化為標(biāo)準(zhǔn)大小,本文歸一化圖像尺寸為128×128,JAFFE數(shù)據(jù)庫(kù)和Cohn-Kanade數(shù)據(jù)庫(kù)中部分經(jīng)過(guò)預(yù)處理的樣本表情圖像如圖8所示。
圖7 人臉表情區(qū)域分割模板 Fig. 7 Cropped templet of facial expression images
(a)JAFFE數(shù)據(jù)庫(kù)中不同表情的部分樣本圖像
(b)Cohn-Kanade數(shù)據(jù)庫(kù)中不同表情的部分樣本圖像 圖8 JAFFE數(shù)據(jù)庫(kù)和Cohn-Kanade數(shù)據(jù)庫(kù)的樣本表情圖像 Fig. 8 Sample expression images of each prototypic expression from (a) JAFFE database and (b) CK database
參考文獻(xiàn)本文采用中心最近鄰分類(lèi)器進(jìn)行表情識(shí)別,具體實(shí)現(xiàn)步驟[18],文中不再詳述。采用熟悉人臉樣本選擇方式進(jìn)行實(shí)驗(yàn)仿真,任選1幅圖像作為測(cè)試樣本,剩余圖像作為訓(xùn)練樣本,交叉驗(yàn)證N次(JAFFE數(shù)據(jù)庫(kù)中N=180,CK數(shù)據(jù)庫(kù)中N=1 665)。采用這種樣本選擇方式可以最大程度選擇所有數(shù)據(jù)作為測(cè)試樣本,以確保每幅圖像的表情特征都被考慮到,實(shí)驗(yàn)結(jié)果更具有真實(shí)性。
3.1子圖像尺寸大小對(duì)算法的影響
首先分析子圖像尺寸大小對(duì)分類(lèi)準(zhǔn)確性的影響。將人臉表情圖像平均分割成1×1、2×2、4×4、8×8、16×16個(gè)子圖像,劃分的子圖像個(gè)數(shù)越多,尺寸越小。考慮CK數(shù)據(jù)庫(kù)樣本多,程序運(yùn)行時(shí)間長(zhǎng),因此采用JAFFE數(shù)據(jù)庫(kù)使用DLBP算子分別對(duì)每種分割情況進(jìn)行仿真實(shí)驗(yàn),結(jié)果如表1所示。
表 1 不同子圖像個(gè)數(shù)下DLBP算子的識(shí)別率
從表中可以看出,將128×128大小的圖像平均分為8×8=64個(gè)子圖像效果最佳,子圖像的個(gè)數(shù)過(guò)多或過(guò)少都會(huì)對(duì)識(shí)別率造成影響。子圖像個(gè)數(shù)過(guò)少,每個(gè)子圖像尺寸則較大,DLBP算子無(wú)法準(zhǔn)確提取局部細(xì)節(jié)特征;子圖像個(gè)數(shù)過(guò)多,每個(gè)子圖像尺寸則較小,各個(gè)子圖像間的DLBP特征有冗余,影響分類(lèi)效果。
3.2DLBP算子與LBP、Gabor算子的性能比較
本小節(jié)進(jìn)一步比較DLBP算子與LBP算子、Gabor算子[16]在人臉表情識(shí)別中的性能優(yōu)劣,采用文獻(xiàn)[16]中的降維方法得到Gabor特征。LBP算子和DLBP算子編碼鄰域大小為3×3,采用表1中最佳分塊參數(shù),分別在JAFFE數(shù)據(jù)庫(kù)和CK數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)仿真,實(shí)驗(yàn)結(jié)果如表2和3所示。
從表2和3可以看出,無(wú)論對(duì)JAFFE數(shù)據(jù)庫(kù)還是CK數(shù)據(jù)庫(kù),DLBP算子均有較強(qiáng)的表情特征提取能力,識(shí)別率均高于LBP算子和Gabor算子。這是由于DLBP算子通過(guò)編碼鄰域像素間的灰度差異快速捕捉到豐富的紋理信息,相比傳統(tǒng)LBP算子僅比較鄰域點(diǎn)與中心像素點(diǎn)之間的灰度差異,可以更好地提高人臉表情的鑒別能力。同時(shí),Gabor算子雖然可以從多個(gè)方向多個(gè)尺度提取表情特征,但運(yùn)行時(shí)間長(zhǎng),特征維數(shù)巨大,選擇的特征降維方法能否最大程度去除冗余保留有效信息對(duì)識(shí)別率有重要影響。
表 2 在JAFFE數(shù)據(jù)庫(kù)上不同算子的識(shí)別率
表 3 在CK數(shù)據(jù)庫(kù)上不同算子的識(shí)別率
3.3DLBP算子對(duì)噪聲的魯棒性能分析
以JAFFE數(shù)據(jù)庫(kù)為例,在圖像中加入高斯白噪聲和椒鹽噪聲,噪聲的方差由小到大逐漸增加,分析其對(duì)LBP算子和DLBP算子的影響。識(shí)別率的變化情況如圖9和10所示。
圖9 高斯白噪聲下JAFFE數(shù)據(jù)庫(kù)的LBP和DLBP識(shí)別率 Fig. 9 LBP and DLBP recognition performance with Gaussian white noise on JAFFE database
圖10 椒鹽噪聲下JAFFE數(shù)據(jù)庫(kù)的LBP和DLBP識(shí)別率 Fig. 10 LBP and DLBP recognition performance with pepper salt noise on JAFFE database
可以看出,隨著噪聲的增大,DLBP算子和LBP算子的識(shí)別率在逐漸下降,但DLBP算子的識(shí)別率始終高于LBP算子,且下降速度低于LBP算子,所以本文提出的DLBP算子具有一定消除或降低噪聲影響的能力。
3.4DLBP算子與GDP和LDP算子的性能比較
比較DLBP算子與文獻(xiàn)[7]提出的GDP算子和文獻(xiàn)[9]提出的LDP算子的仿真效果。這里,DLBP算子采用上述步驟獲得,仍采用上文分析得到的最佳參數(shù);根據(jù)文獻(xiàn)[7]描述步驟實(shí)現(xiàn)8位梯度角度二值編碼得到GDP算子,它的最佳梯度角度閾值為2.16°(由實(shí)驗(yàn)分析得到);根據(jù)文獻(xiàn)[9]描述步驟得到LDP算子,參數(shù)與文中一致。分別在JAFFE數(shù)據(jù)庫(kù)和CK數(shù)據(jù)庫(kù)上進(jìn)行仿真實(shí)驗(yàn),識(shí)別率和特征提取時(shí)間結(jié)果如表4和5所示。
表 4 在JAFFE數(shù)據(jù)上3種算子的性能比較
表 5 在CK數(shù)據(jù)上3種算子的性能比較
從表中可以看出,LDP算子的識(shí)別率略高于DLBP算子,且都高于GDP算子,所以從不同方向提取紋理灰度變化的特征算子其識(shí)別效果優(yōu)于梯度方向特征算子。但LDP算子的特征提取步驟復(fù)雜,需要計(jì)算8個(gè)方向的Kirsch梯度幅值,然后進(jìn)行閾值比較和二值編碼,而DLBP算子僅需比較對(duì)稱(chēng)8個(gè)方向的灰度大小,所以特征提取時(shí)間遠(yuǎn)小于LDP算子,綜合分類(lèi)識(shí)別率和運(yùn)行時(shí)間的結(jié)果,DLBP算子的性能最佳。
4結(jié)束語(yǔ)
人臉表情識(shí)別是一個(gè)跨學(xué)科富挑戰(zhàn)性的前沿課題,其中特征提取和分類(lèi)識(shí)別是2個(gè)重要的步驟,但由于分類(lèi)效果好壞很大程度上受限于特征提取是否準(zhǔn)確,因此表情特征提取是一個(gè)非常關(guān)鍵的步驟,它能為系統(tǒng)的實(shí)時(shí)處理提供可能,并為后續(xù)分類(lèi)識(shí)別提供保證。
目前多數(shù)傳統(tǒng)局部二值模式及其改進(jìn)算法都是比較中心像素與鄰域像素的灰度大小,在人臉表情紋理描述與抗噪性能方面效果不佳,針對(duì)此不足,提出了基于方向性的局部二值模式,改變傳統(tǒng)編碼方式,從水平、垂直和對(duì)角3個(gè)方向?qū)︵徲蛳袼剡M(jìn)行灰度比較和二值編碼。實(shí)驗(yàn)結(jié)果表明,DLBP算子能更準(zhǔn)確描述人臉基本表情,其編碼圖像中面部肌肉形變以及眼睛、嘴巴等部位的變化趨勢(shì)更清晰,且具有一定的噪聲魯棒性,相比GDP算子和LDP算子,DLBP算子的識(shí)別準(zhǔn)確率基本不變,但特征提取時(shí)間大大降低,因此是一種綜合性能最佳的表情特征描述子。
在提出的算法中,僅使用3×3單尺度模板計(jì)算特征向量,但人眼視覺(jué)系統(tǒng)是一個(gè)多尺度系統(tǒng),如何設(shè)計(jì)多尺度DLBP算子并進(jìn)行特征融合,使其更符合人眼視覺(jué)特性,是接下來(lái)工作的重點(diǎn)及難點(diǎn)。
參考文獻(xiàn):
[1]HUANG Di, SHAN Caifeng, ARDABILIAN M, et al. Local binary patterns and its application to facial image analysis: a survey[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2011, 41(6): 765-781.
[2]KYPEROUNTAS M, TEFAS A, PITAS I. Salient feature and reliable classifier selection for facial expression classification[J]. Pattern Recognition, 2010, 43(3): 972-986.
[3]OU Jun, BAI Xiaobo, PEI Yun, et al. Automatic facial expression recognition using Gabor filter and expression analysis[C]//Second International Conference on Computer Modeling and Simulation (ICCMS). Sanya, China, 2010: 215-218.
[4]LI P, PHUNG S L, BOUZERDOUM A, et al. Improved facial expression recognition with trainable 2-D filters and support vector machines[C]//20th International Conference on Pattern Recognition (ICPR). Istanbul, Turkey, 2010: 3732-3735.
[5]張文超, 山世光, 張洪明, 等. 基于局部Gabor變化直方圖序列的人臉描述與識(shí)別[J]. 軟件學(xué)報(bào), 2006, 17(12): 2508-2517.
ZHANG Wenchao, SHAN Shiguang, ZHANG Hongming, et al. Histogram sequence of local Gabor binary pattern for face description and identification[J]. Journal of Software, 2006, 17(12): 2508-2517.
[6]徐潔, 章毓晉. 基于多種采樣方式和Gabor特征的表情識(shí)別[J]. 計(jì)算機(jī)工程, 2011, 37(18): 195-197.
XU Jie, ZHANG Yujin. Expression recognition based on variant sampling method and Gabor features[J]. Computer Engineering, 2011, 37(18): 195-197.
[7]AHMED F. Gradient directional pattern: a robust feature descriptor for facial expression recognition[J]. Electronics Letters, 2012, 48(19): 1203-1204.
[8]HUANG Xiaohua, ZHAO Guoying, ZHENG Wenming, et al. Spatiotemporal local monogenic binary patterns for facial expression recognition[J]. IEEE Signal Processing Letters, 2012, 19(5): 243-246.
[9]JABID T, KABIR M H, CHAE O. Robust facial expression recognition based on local directional pattern[J]. ETRI Journal, 2010, 32(5): 784-794.
[10]ZHANG Baochang, GAO Yongsheng, ZHAO Sanqing, et al. Local derivative pattern versus local binary pattern: face recognition with high-order local pattern descriptor[J]. IEEE Transactions on Image Processing, 2010, 19(2): 533-544.
[11]王瑋, 黃非非, 李見(jiàn)為, 等. 使用多尺度LBP特征描述與識(shí)別人臉[J]. 光學(xué)精密工程, 2008, 16(4): 696-705.
WANG Wei, HUANG Feifei, LI Jianwei, et al. Face description and recognition using multi-scale LBP feature[J]. Optics and Precision Engineering, 2008, 16(4): 696-705.
[12]王瑋, 黃非非, 李見(jiàn)為, 等. 采用LBP金字塔的人臉描述與識(shí)別[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2009, 21(1): 94-100, 106.
WANG Wei, HUANG Feifei, LI Jianwei, et al. Face description and recognition by LBP pyramid[J]. Journal of Computer Aided Design & Computer Graphics, 2009, 21(1): 94-100, 106.
[13]TAN Xiaoyang, TRIGGS B. Enhanced local texture feature sets for face recognition under difficult lighting conditions[J]. IEEE Transactions on Image Processing, 2010, 19(6): 1635-1650.
[14]YANG Hong, WANG Yiding. A LBP-based face recognition method with Hamming distance constraint[C]//Fourth International Conference on Image and Graphics. Beijing, China, 2007: 645-649.
[15]HUANG Di, WANG Yunhong, WANG Yiding. A robust method for near infrared face recognition based on extended local binary pattern[M]//BEBIS G, BOYLE R, PARVIN B, et al. Advances in Visual Computing. Berlin/Heidelberg: Springer, 2007: 437-446.
[16]阮錦新. 多姿態(tài)人臉檢測(cè)與表情識(shí)別關(guān)鍵技術(shù)研究[D]. 廣州: 華南理工大學(xué), 2010: 64-83.
RUAN Jinxin. Study on key technology for multi-pose face detection and facial expression recognition[D]. Guangzhou, China: South China University of Technology, 2010: 64-83.
[17]PRIYA G N, BANU R S D W. Person independent facial expression detection using MBWM and multiclass SVM[J]. International Journal of Computer Applications, 2012, 55(17): 52-58.
[18]付曉峰. 基于二元模式的人臉識(shí)別與表情識(shí)別研究[D]. 杭州: 浙江大學(xué), 2008: 54-65.
FU Xiaofeng. Research on binary pattern-based face recognition and expression recognition[D]. Hangzhou, China: Zhejiang University, 2008: 54-65.
[19]LAJEVARDI S M, HUSSAIN Z M. Higher order orthogonal moments for invariant facial expression recognition[J]. Digital Signal Processing, 2010, 20(6): 1771-1779.
[20]RAHULAMATHAVAN Y, PHAN R C W, CHAMBERS J A, et al. Facial expression recognition in the encrypted domain based on local fisher discriminant analysis[J]. IEEE Transactions on Affective Computing, 2013, 4(1): 83-92.
童瑩,女,1979年生,講師,主要研究方向?yàn)閳D像處理與模式識(shí)別。發(fā)表學(xué)術(shù)論文10余篇,其中被SCI檢索2篇、EI檢索3篇。主編教材1部,參編了新教材2部。