郭振鐸 路向陽 徐慶偉 高廣帥
(中原工學(xué)院電子信息學(xué)院 河南 鄭州 450007)
基于面部塊運動歷史直方圖特征的視頻表情自動識別
郭振鐸 路向陽 徐慶偉 高廣帥
(中原工學(xué)院電子信息學(xué)院 河南 鄭州 450007)
為了自動識別視頻中的表情類別,提出基于面部塊表情特征編碼的視頻表情識別方法。檢測并精確定位視頻中人臉關(guān)鍵點位置,之后以檢測到的關(guān)鍵點為中心,提取面部顯著特征塊;對面部各特征塊提取運動歷史直方圖動態(tài)特征描述子,這些描述子被當(dāng)作表情特征輸入Adaboost分類器進行訓(xùn)練和識別;最終預(yù)測視頻表情類型。通過在國際通用表情數(shù)據(jù)庫BU-4DFE的紋理圖像上進行測試,取得了83.2% 的平均識別率,充分證明了所提算法的有效性。跟同領(lǐng)域其他主流算法相比,所提算法具有很強的競爭性。
表情識別 人臉配準 MHH 面部顯著塊 Adaboost分類器
人臉通常包含人類重要的身份信息,同時也包含了豐富的情感信息。面部表情識別FER(Facial Expression Recognition)是人臉分析中的一個重要研究分支,作為人類日常生活中一種常見的情感表達方式,人類內(nèi)心情感狀態(tài)通常都會由面部表情直觀表現(xiàn)出來。通過對面部表情進行研究可以深入了解人的內(nèi)心狀態(tài),研究對人類內(nèi)心世界的表達和相互了解具有重要意義。隨著計算機計算能力的極大提高,F(xiàn)ER技術(shù)已經(jīng)成為圖像處理領(lǐng)域一個重要的研究熱點,并被廣泛應(yīng)用于智能機器人、遠程醫(yī)療、遠程教育、智能游戲、精神狀態(tài)分析、疲勞駕駛等領(lǐng)域[1]。
Ekman[2]等的工作指出,常見的面部表情主要包含以下六種:生氣、厭惡、恐懼、開心、悲傷和驚訝,這些常見表情的表達通常可以跨越不同的人種和文明,具有一定的普適性。在過去幾十年,F(xiàn)ER作為一個熱點研究領(lǐng)域被越來越多的研究者所關(guān)注。早期的FER研究工作主要對靜態(tài)人臉或視頻序列中的人臉進行研究,隨著現(xiàn)代計算機計算能力的迅速提升以及三維數(shù)據(jù)獲取設(shè)備的快速發(fā)展,研究者開始嘗試利用三維數(shù)據(jù)識別人類表情,提出了許多解決FER問題的新思路[3-5]。
在利用二維數(shù)據(jù)進行的FER研究工作中, 一些工作采用基于面部特征點距離分類表情,此類方法通常要求精確地追蹤面部特征點的時空位置,無法滿足一些實際應(yīng)用需求。此外,由于不同人面部特征點之間的距離各異,基于特征點距離的方法易受訓(xùn)練樣本影響。面部表情常造成面部紋理發(fā)生變化[6],F(xiàn)ER問題常被當(dāng)作圖像紋理分類問題來處理,常見的局部濾波器如Gabor小波、局部二值模式(LBP)等被用來編碼整個圖像或局部圖像紋理區(qū)域。雖然Gabor小波特征存在計算耗時、特征空間維度較長、不具有圖像旋轉(zhuǎn)不變性等問題,但已經(jīng)被證明比基于距離的方法有更高的分類識別精度。LBP[7]被證明了是一種有效的圖像紋理編碼方式,在低分辨率圖像上具有更好的魯棒性,因此被廣泛的用來進行紋理分類。Dhall等[8]提出利用梯度金字塔直方圖和局部相位量化LPQ(Local Phase Quantization)編碼形狀和紋理特征、利用局部約束模型CLM(Constraint Local Model)追蹤面部關(guān)鍵特征點、利用K-Means聚類選取表情序列中的關(guān)鍵幀和SVM 分類器進行表情聚類識別。
現(xiàn)階段,F(xiàn)ER的研究大多利用面部整體信息,只有少量工作考慮利用面部塊信息對表情進行識別。Lajevardi等[6]證明將面部劃分為不同的區(qū)域,利用各區(qū)域特征融合的方法比利用整個面部區(qū)域進行FER的方法更有效。Lin等[9]將面部區(qū)域劃分成64塊,并將這些塊分成對一般表情有效的和對特殊表情有效的塊,結(jié)合多任務(wù)稀疏學(xué)習(xí)方法,最終使用若干面部塊的特征進行表情分類。Shan等[10-11]將面部區(qū)域被劃分為不同的子塊(7×6),通過Adaboost算法選擇對分類表情最有效的LBP直方圖(7×6×59 維特征)進行表情分類。 Song等[12]利用八個特殊點位置的面部塊來觀察面部皮膚變化產(chǎn)生的表情,選擇對表情識別有主要貢獻的區(qū)域提取特征進行FER。作者使用一個二值分類器來判別面部是否產(chǎn)生褶皺,然而選擇的這些塊并沒有包含對FER有重要影響的嘴角部分紋理,并且對正面圖像存在的自身遮擋(如頭發(fā))也沒做有效處理。該工作基于訓(xùn)練數(shù)據(jù),由于訓(xùn)練數(shù)據(jù)的不同造成關(guān)鍵區(qū)域的位置和大小選擇也會不同,使用這些方法很難訓(xùn)練一個通用的FER系統(tǒng)。Zhang等[13]提取了面部不同尺度的Gabor特征,并利用Adaboost算法選擇對表情識別有效的面部塊,然而當(dāng)訓(xùn)練不同人臉庫時由于樣本選擇面部塊的大小和位置不同,沒有建立統(tǒng)一標準來識別未知圖像面部表情。
本文提出了一種新穎的視頻表情自動識別方法,如圖1所示。對于視頻表情序列圖像,首先利用人臉檢測算法檢測定位人臉位置,之后采用LBF算法[14]快速精確定位面部關(guān)鍵點位置并將人臉分割成不同區(qū)域塊。不同面部塊的MHH(Motion History Histogram)特征被用來描述面部表情變化,通過Adaboost算法對各特征序列訓(xùn)練預(yù)測表情,本文的主要貢獻如下:(1) 提出了一種全自動的二維視頻表情識別框架,可以快速有效地識別二維視頻表情類型;(2) 提出通過精確定位視頻幀中面部各關(guān)鍵點位置定位提取與表情有關(guān)的表情面部區(qū)域,利用面部關(guān)鍵區(qū)域而非整張人臉進行視頻表情預(yù)測;(3) 通過在國際通用數(shù)據(jù)庫BU-4DFE的紋理圖像上進行測試,有效說明了所提算法的性能。
圖1 視頻表情特征提取流程圖
表情是由不同的面部肌肉塊協(xié)同運動產(chǎn)生的,Lin等[9]分析了對各表情有效的面部活動單元AU(Action Unit),指出對表情有影響的面部活動塊通常位于眼睛下部、眉間、鼻子周圍區(qū)域和嘴巴周圍區(qū)域。為了提取這些區(qū)域,就需要首先精確地定位關(guān)鍵點位置。關(guān)鍵點通常為面部特殊區(qū)域點,如眼角、鼻尖、嘴角等,這些關(guān)鍵點的精準檢測對人臉識別和表情識別都有很重要的意義。面部關(guān)鍵點定位研究是人臉分析中的又一熱點問題。Luis等[15]提出一種魯棒的、無需學(xué)習(xí)、輕量級的通用人臉擬合方法來定位關(guān)鍵點位置。該方法通過局部梯度分析尋找面部特征,并調(diào)節(jié)三維人臉形變模型在圖像上的投影方向來匹配特征點,進而達到五官分割的目的。Ren等[14]在2014年提出了一種快速的基于回歸局部二值特征的方法LBF(Regressing Local Binary Feature)來精準定位面部68個關(guān)鍵點位置,并且達到了3 000 fps的定位速度。
為了提升算法的運算速度,文中采用了文獻[14]的LBF關(guān)鍵點定位方法,如圖2(a)所示。除了LBF 檢測到的第18~68個關(guān)鍵點(如圖2(b)所示)之外,本文額外選取了點(2,42),(3 41),(4 40),(4 32),(41 32),(41 30),(42 32),(3 32),(16 47),(15 48),(14 43),(14 36),(47 36),(47 30),(48 36),(15 32)的中點作為面部關(guān)鍵點(如圖2(c)所示),本文最終選取的面部關(guān)鍵點如圖2(d)所示。在關(guān)鍵點定位的基礎(chǔ)上,以各關(guān)鍵點為中心,80×80像素大小為半徑,在面部提取圖像塊,圖2 所示為本文選用的面部特征塊提取示意圖。(a) 是LBF算法檢測到的68個面部關(guān)鍵點;(b) 是第18-68關(guān)鍵點組成的面部特征塊;(c) 是額外選用的16個面部關(guān)鍵點;(d) 是本文所選用的面部特征點及提取的面部特征塊。
圖2 面部特征點及特征塊定位示意圖
動態(tài)紋理的描述與識別一直是視覺領(lǐng)域的一大研究熱點,它將圖像紋理描述從二維空間擴展到時間域。提取動態(tài)紋理特征主要有以下幾個方面的考量:(1) 運動特征和外觀特征的結(jié)合;(2) 局部處理以獲取時域和空域的過渡信息;(3) 對圖像的變換(如旋轉(zhuǎn))具有魯棒性;(4) 對光照變化不敏感;(5) 計算簡單;(6) 多分辨率分析。現(xiàn)階段對動態(tài)紋理的描述方法主要有VLBP[16]、LBP-TOP等,這些算法的思想主要是通過對視頻序列在三個方向(XY、XT和YT)上進行LBP編碼刻畫紋理的動態(tài)變化。與上述方法不同,本文提出首先計算連續(xù)圖像序列的MHH 特征,提取得到的特征利用EOH(Edge Orientation Histogram)和LBP(Local Binary Pattern)對時序空間細節(jié)進行描述。
MHH常用來刻畫視覺運動中的時序信息,它描述了視頻序列圖像各像素點的顏色變化,該算法在最初的人類動作識別任務(wù)中取得了較好的效果[17]。跟傳統(tǒng)的運動特征相比, MHH包含了像素點更多的動態(tài)信息并且具有計算負載較低的特點。在運算過程中,M代表運動幅度,M越大表明運動越激烈,反之則表明運動緩慢。如:M=3表明四幀中像素值連續(xù)改變?nèi)?,根?jù)實驗經(jīng)驗M=5已足夠捕獲視頻中表情的變化。為了突出MHH的動態(tài)編碼細節(jié),在M個MHH圖像上分別使用EOH和LBP算子。EOH可以簡單看做方向梯度直方圖HOG(Histogram of Oriented Gradients)[18]的簡化版本,可用來刻畫圖像的邊緣和局部形狀信息。EOH在計算機視覺的很多領(lǐng)域都有廣泛的應(yīng)用,如手勢識別、物體追蹤和面部表情識別[19]等。圖3為視頻表情序列在M=1,2,…,5下得到的MHH特征。圖4所示為EOH的計算過程,對于圖像f(u,v),首先通過使用Sobel算子檢測圖像水平和垂直方向邊緣Ku和Kv:
Gu(u,v)=Ku×f(u,v)
(1)
Gv(u,v)=Kv×f(u,v)
(2)
邊緣強度S、方向θ分別為:
(3)
θ=arctan(Gu(u,v)/Gv(u,v))
(4)
圖4 EOH特征提取示意圖
將角度劃分為N個bin,相同bin強度被用來構(gòu)造直方圖。整個圖像被劃分成不同的cells,每個cells劃分成不同的blocks。連接各blocks直方圖生成EOH 特征。LBP(Local Binary Pattern,局部二值模式)是一種用來描述圖像局部紋理的算子,它具有旋轉(zhuǎn)不變性和灰度不變性等優(yōu)點,利用LBP提取的特征圖像稱為圖像的局部紋理特征。提取圖像LBP特征向量主要包括如下步驟:(1) 首先將檢測窗口劃分成N×N個小區(qū)域(cell);(2) 對于cell中的每個像素,將相鄰的8個像素灰度值與其進行比較,若周圍像素值大于中心像素值,則將該像素點的位置標記為1,否則記為0。這樣3×3鄰域內(nèi)8個點經(jīng)過比較可產(chǎn)生8位二進制數(shù),將二進制轉(zhuǎn)化為對應(yīng)的十進制即得到該窗口的中心像素點的LBP值;計算每個cell的直方圖,即每個數(shù)字出現(xiàn)的頻率,并對該直方圖進行歸一化處理;將得到的每個cell的統(tǒng)計直方圖進行連接形成一個特征向量,也就是整幅圖的LBP紋理特征向量。為了刻畫局部和時空信息,基于MHH的各圖像被劃分為不同的blocks,將從各block圖像塊提取的EOH和LBP特征順次連接,分別用MHH-EOH 和MHH-LBP表示。MHH-EOH和MHH-LBP拼接成更有效的時空描述子,進而描述表情紋理的動態(tài)變化。
1) BU-4DFE數(shù)據(jù)庫介紹
BU- 4DFE數(shù)據(jù)庫是美國紐約州立大學(xué)賓漢頓分校發(fā)布的世界上第一個以科學(xué)研究為目的的面部動態(tài)表情高清數(shù)據(jù)庫。該數(shù)據(jù)庫包含了亞洲人、黑人、白人、西班牙、拉丁裔等不同的人種數(shù)據(jù),其中包含了男性43人,女性58人。該數(shù)據(jù)庫中包含了六種基本表情:生氣、厭惡、恐懼、開心、悲傷和驚訝。每個表情序列持續(xù)時間約4秒(約100幀),該數(shù)據(jù)庫中共有表情序列606個,共約60 600幀。該庫中公布的二維紋理的分辨率約為1 040×1 329像素,庫中人臉全部為正面人臉,非常適合用來分析二維人臉表情。圖5給出了BU-4DFE數(shù)據(jù)庫中某HA表情視頻數(shù)據(jù)。
圖5 開心表情的視頻數(shù)據(jù)
2) 實驗設(shè)置
本文從BU-4DFE數(shù)據(jù)庫101個體中每次隨機選擇60個體,其中54 個個體數(shù)據(jù)用來做訓(xùn)練,6個個體數(shù)據(jù)用來做測試,實驗采用10折交叉驗證和Adaboost分類器分類表情序列,實驗獨立重復(fù)100 次。在面部關(guān)鍵點檢測過程中,利用LBF算法精確定位特征點位置,以特征點為中心,在周圍80 像素窗口內(nèi)提取面部特征塊。在利用MHH算法描述動態(tài)表情紋理變化過程時,取M=5。
3) 實驗結(jié)果分析比較
Meguid等在文獻[20]中提出了一種全自動的面部表情檢測和分類框架,通過使用PittPatt面部檢測算法結(jié)合RandomForest 和SVM分類器來預(yù)測表情,取得了73.1%的識別率。
Xu等在文獻[21]通過使用局部運動詞匯描述子表示面部運動,提出了一種完全自動的面部表情識別算法。通過改善光流特征,該算法對測試者的種族特征、面部頭發(fā)等情況具有一定魯棒性。該算法在600人的視頻序列中取得了63.8%的識別率。Dapogny等在文獻[22]中針對表情視頻的特性,結(jié)合靜態(tài)和不同時間段表情之間的遷移信息,利用基本的幾何和紋理特征通過訓(xùn)練圖像對之間的遷移分類器來識別視頻表情類型。該方法最終取得了75.8%的識別率。Dapogny等在文獻[23]中引入了PCRF(Pairwise Conditional Random Forests)框架,通過沿時間軸均化成對條件樹來結(jié)合使用高維、底層時序信息,達到實時識別視頻表情的效果,取得了76.1% 的識別結(jié)果。
圖6所示為本文算法在BU-4DFE數(shù)據(jù)庫上取得的識別結(jié)果,橫坐標依次表示了六種不同表情,縱坐標表示了對應(yīng)表情的識別率。表1為對應(yīng)表情的識別率混淆矩陣,表2 給出了本文算法和其他算法的比較結(jié)果。
圖6 BU-4DFE數(shù)據(jù)庫上最終識別結(jié)果
%ANDIFEHASASUAN80.13.94.62.87.21.3DI4.683.24.13.42.91.8FE2.95.875.24.24.77.1HA2.21.52.790.42.80.4SA7.12.56.92.679.90.9SU2.60.81.52.61.990.5平均范圍83.2±3.9
表2 本文算法跟其它算法比較結(jié)果
本文提出了一種全自動的視頻表情識別方法,首先通過在表情視頻幀中精確定位面部特征點來定義分割面部表情塊(大小80×80像素),對各面部塊分別提取MHH特征,通過Adaboosting算法進行加權(quán)計算,最終預(yù)測表情類別。本文將面部劃分為不同的區(qū)域,利用面部區(qū)域信息取得了比利用整臉信息更高的識別率,充分證明了面部表情的產(chǎn)生是由特定面部區(qū)域驅(qū)動的。利用這些區(qū)域的共同作用將能夠更好的分析面部表情,深入分析面部各塊對各表情的影響將是我們下一步的研究問題。本文在國際通用的BU-4DFE表情數(shù)據(jù)庫的紋理數(shù)據(jù)上進行100次獨立交叉驗證實驗。實驗結(jié)果跟其他主流的視頻表情分類算法相比,具有很強的競爭性,最終83.2% 的識別率也充分證明了所提算法的實用性。
[1] Sandbach G,Zafeiriou S,Pantic M,et al.Static and dynamic 3D facial expression recognition:A comprehensive survey[J].Image & Vision Computing,2012,30(10):683-697.
[2] Ekman P,Friesen W.Facial Action Coding System:A Technique for the Measurement of Facial Movement[ M].Salt Lake City:Consulting Psychologists Press,1978.
[3] Jan A,Meng H.Automatic 3D facial expression recognition using geometric and textured feature fusion[C]//IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.IEEE,2015:1-6.
[4] Hayat M,Bennamoun M.An Automatic Framework for Textured 3D Video-Based Facial Expression Recognition[J].IEEE Transactions on Affective Computing,2014,5(3):301-313.
[5] Song M,Tao D,Sun S,et al.Joint sparse learning for 3-D facial expression generation[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2013,22(8):3283.
[6] Lajevardi S M,Hussain Z M.Automatic facial expression recognition:feature extraction and selection[J].Signal Image & Video Processing,2012,6(1):159-169.
[7] Happy S L,George A,Routray A.A real time facial expression classification system using Local Binary Patterns[C]//International Conference on Intelligent Human Computer Interaction.IEEE,2013:1-5.
[8] Dhall A,Asthana A,Goecke R,et al.Emotion recognition using PHOG and LPQ features[C]//IEEE International Conference on Automatic Face & Gesture Recognition and Workshops.IEEE,2011:878-883.
[9] Zhong Lin,Liu Qingshan,Yang Peng,et al.Learning active facial patches for expression analysis[C]//IEEE Conference on Computer Vision and Pattern Recognition,2012:2562-2569.
[10] Shan C,Braspenning R.Recognizing Facial Expressions Automatically from Video[M]//Handbook of Ambient Intelligence and Smart Environments,2010:479-509.
[11] Shan C,Gritti T.Learning Discriminative LBP-Histogram Bins for Facial Expression Recognition[C]//British Machine Vision Conference 2008,Leeds,September.DBLP,2011.
[12] Song M,Tao D,Liu Z,et al.Image ratio features for facial expression recognition application[J].IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man & Cybernetics Society,2010,40(3):779-88.
[13] Zhang L,Tjondronegoro D.Facial Expression Recognition Using Facial Movement Features[J].IEEE Transactions on Affective Computing,2012,2(4):219-229.
[14] Ren S,Cao X,Wei Y,et al.Face Alignment at 3000 FPS via Regressing Local Binary Features[C]//Computer Vision and Pattern Recognition.IEEE,2014:1685-1692.
[15] Unzueta L,Pimenta W,Goenetxea J,et al.Efficient generic face model fitting to images and videos[J].Image & Vision Computing,2014,32(5):321-334.
[16] Zhao G,Pietikainen M.Dynamic texture recognition using local binary patterns with an application to facial expressions[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,29(6):915-28.
[17] Meng H,Pears N,Bailey C.A Human Action Recognition System for Embedded Computer Vision Application[C]//Computer Vision and Pattern Recognition,2007.CVPR’07.IEEE Conference on.IEEE,2007:1-6.
[18] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005:886-893.
[19] Meng H,Romera-Paredes B,Bianchi-Berthouze N.Emotion recognition by two view SVM_2K classifier on dynamic facial expression features[C]//IEEE International Conference on Automatic Face & Gesture Recognition and Workshops.IEEE,2011:854-859.
[20] Meguid M K A E,Levine M D.Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers[J].IEEE Transactions on Affective Computing,2014,5(2):141-154.
[21] Xu L,Mordohai P.Automatic Facial Expression Recognition using Bags of Motion Words[C]//British Machine Vision Conference,BMVC 2010,Aberystwyth,UK,August 31-September 3,2010.Proceedings.DBLP,2010:1-13.
[22] Dapogny A,Bailly K,Dubuisson S.Dynamic facial expression recognition by joint static and multi-time gap transition classification[C]//IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.IEEE,2015:1-6.
[23] Dapogny A,Bailly K,Dubuisson S.Pairwise Conditional Random Forests for Facial Expression Recognition[C]//IEEE International Conference on Computer Vision.IEEE,2016:3783-3791.
AUTOMATICFACIALEXPRESSIONRECOGNITIONBASEDONMOTIONHISTORYHISTOGRAMFEATURESOFFACIALSALIENCYBLOCKS
Guo Zhenduo Lu Xiangyang Xu Qingwei Gao Guangshuai
(SchoolofElectronicandInformationEngineering,ZhongyuanUniversityofTechnology,Zhengzhou450007,Henan,China)
In order to automatically identify the expression category in the video, we proposed a fully automatic video FER framework. Firstly, the location of the key points of a human face in the video was detected and precisely located, and then the significant feature block was extracted with the key points detected as the center. Secondly, we extracted motion history histograms and feature descriptor from each feature block. These dynamic expression descriptors were input into Adaboost classifier to train and predict the expression type finally. We carried out experiments on BU-4DFE dataset and got a state-of-art 83.2% average performance which indicates the validity of the proposed approach. Compared with other mainstream algorithms in the same field, the proposed algorithm is highly competitive.
Facial expression recognition Face alignment MHH Facial saliency blocks Adaboost classifier
2017-01-10。國家自然科學(xué)基金項目(61202499,61379113);河南省基礎(chǔ)與前沿技術(shù)研究計劃項目(142300410042);鄭州市科技領(lǐng)軍人才項目(131PLJRC643)。郭振鐸,講師,主研領(lǐng)域:圖像處理與模式識別,嵌入式系統(tǒng)。路向陽,講師。徐慶偉,講師。高廣帥,碩士生。
TP301.6
A
10.3969/j.issn.1000-386x.2017.11.036