劉小琴,趙 暉
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046)
人臉特征點(diǎn)定位不僅是人臉識(shí)別研究領(lǐng)域中的研究熱點(diǎn),同時(shí)也是計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的一個(gè)基本問題。實(shí)時(shí)的人臉特征定位更為表情分析、姿態(tài)估計(jì)和三維重建等后續(xù)研究工作提供了不可或缺的基礎(chǔ)性數(shù)據(jù)[1]。今年來,許多國內(nèi)外學(xué)者深入研究特征點(diǎn)的重定位問題,雖然已經(jīng)取得了較為豐碩的成果,但仍然無法達(dá)到精確定位,且算法不可避免會(huì)耗費(fèi)相當(dāng)長的時(shí)間,這對(duì)實(shí)時(shí)性要求較高的系統(tǒng)并不適用。人臉活動(dòng)單元是描述人臉肌肉運(yùn)動(dòng)的基本單元,它是??寺┦縿?chuàng)立的面部活動(dòng)解密系統(tǒng)(FACS)[2]的重要組成部分。盡管人類的面部動(dòng)作存在著豐富性、模糊性和動(dòng)態(tài)性,但其各種復(fù)雜的表情,都是由單個(gè)AU或多個(gè)AU組合產(chǎn)生[3]。因此,通過識(shí)別AU來達(dá)到識(shí)別面部表情的目的,不僅判斷標(biāo)準(zhǔn)相對(duì)準(zhǔn)確,而且能從根本上反應(yīng)面部的肌肉的運(yùn)動(dòng)趨勢(shì),提高了面部表情識(shí)別的準(zhǔn)確度。隨著表情識(shí)別的深入,國內(nèi)的各種表情庫也應(yīng)運(yùn)而生,如北京航空航天大學(xué)建立的北航人臉表情(BHU)庫[4]及中國科學(xué)院技術(shù)研究所建立的CAS-PEAL人臉數(shù)據(jù)庫[5]。另外,鑒于靜態(tài)圖片的信息有限性,而AU的動(dòng)態(tài)變化過程包含著許多很有實(shí)用價(jià)值的信息。因此研究工作開始轉(zhuǎn)向動(dòng)態(tài)圖像序列[6]。一些動(dòng)態(tài)序列表情庫也相繼建立起來,如卡內(nèi)基 .梅隆大學(xué)的Cohn-Kanade動(dòng)態(tài)庫及CED-WYU (1.0)動(dòng)態(tài)庫[7]等。截至目前,對(duì)圖像序列開展的研究較少主要有:Tian et al.[8]提出對(duì)正面圖像序列基于唇部跟蹤和模板匹配,從圖像序列中自動(dòng)識(shí)別15個(gè)AU 及其組合的系統(tǒng);Ramya et al.[9]采用小波濾波、支持向量機(jī)和隱爾馬科夫模型分析正面圖像序列,自動(dòng)檢測(cè)3個(gè)AU;Pantic et al.針對(duì)側(cè)面圖像序列,研究20個(gè)AU及其組合的檢測(cè)。為了驗(yàn)證本文提出方法的有效性,采用CMU動(dòng)態(tài)庫中的圖像序列,針對(duì)AU的動(dòng)態(tài)性展開研究,根據(jù)序列中某個(gè)AU的動(dòng)態(tài)變化過程修正特征值,進(jìn)而對(duì)特征點(diǎn)進(jìn)行重新定位。實(shí)驗(yàn)證明通過此方法不僅可以快速地對(duì)特征點(diǎn)進(jìn)行重新定位,而且達(dá)到了提高重定位特征點(diǎn)準(zhǔn)確度的目的。
AU識(shí)別的方式主要有兩種:基于幾何特征的和基于紋理特征的[10]。在幾何特征的基礎(chǔ)上添加紋理特征雖然可以提高識(shí)別精確度,但是由于紋理特征的判別是通過像素比來衡量的,即大于某一閾值將其定位為出現(xiàn),小于該閾值則不出現(xiàn),其動(dòng)態(tài)性不明顯。為了方便說明問題,本文選取對(duì)六個(gè)基本表情 (驚奇、恐懼、厭惡、憤怒、悲傷、高興)貢獻(xiàn)較大且易于采用幾何特征進(jìn)行識(shí)別的AU作為實(shí)驗(yàn)對(duì)象。為了提高訓(xùn)練模型的精確性,根據(jù)需要識(shí)別的AU,每幅圖片人工手動(dòng)標(biāo)定26個(gè)特征點(diǎn),如圖1所示。
圖1 人臉特征點(diǎn)手工標(biāo)定示例
因?yàn)橛?xùn)練樣本的標(biāo)點(diǎn)情況,會(huì)直接影響訓(xùn)練出AAM模型的優(yōu)劣,進(jìn)而影響AAM后續(xù)的自動(dòng)定位精確度,最終對(duì)AU的識(shí)別產(chǎn)生至關(guān)重要的影響。所以,在進(jìn)行手動(dòng)標(biāo)定訓(xùn)練樣本時(shí),應(yīng)盡可能的準(zhǔn)確。另外,鑒于人體視覺的個(gè)體差異性,整個(gè)標(biāo)定過程盡可能由同一人標(biāo)定。
為了減少圖像大小及拍攝時(shí)頭部晃動(dòng)引起的距離誤差,需要對(duì)圖像序列進(jìn)行對(duì)齊和縮放操作。由于同一個(gè)人的兩內(nèi)眼角點(diǎn)基本保持不變,故本文首先根據(jù)所標(biāo)記的兩個(gè)內(nèi)眼角點(diǎn),對(duì)圖像進(jìn)行縮放,將同一個(gè)序列的兩內(nèi)眼角距離統(tǒng)一,此操作并不直接對(duì)圖片進(jìn)行縮放和裁剪,而是對(duì)坐標(biāo)值操作,間接達(dá)到圖片縮放的效果,具體操作如下:
已知圖像序列初始幀的左眼角坐標(biāo)為 (x10,y10),右眼角坐標(biāo)為 (x11,y11),左右眼角之間的距離d0可由公式(1)求出,第i幀的左右眼角對(duì)應(yīng)坐標(biāo)為 (xi10,yi10)和(xi11,yi11),左右眼角之間的距離d可由式 (2)求出,縮放因子α由式 (3)求出
根據(jù)上述公式,序列中任一點(diǎn)坐標(biāo) (xi,yi)縮放后的坐標(biāo)均可表示為 (αxi,,αyi)。
另外,在訓(xùn)練AAM時(shí),鑒于張嘴和閉嘴具有較大的區(qū)分性,放在一起進(jìn)行訓(xùn)練,訓(xùn)練出的模型匹配效果不好。因此,對(duì)驚奇、高興及恐懼等嘴部變化劇烈的表情來說,需要針對(duì)張嘴和閉嘴各訓(xùn)練一個(gè)模型,共訓(xùn)練出9個(gè)模型。
利用訓(xùn)練好的AAM,對(duì)實(shí)驗(yàn)選定的圖像序列進(jìn)行自動(dòng)匹配定位,其結(jié)果如圖2所示。
圖2 AAM自動(dòng)定位特征點(diǎn)
觀察自動(dòng)定位結(jié)果,絕大部分序列效果較好,但是當(dāng)模型的初始位置偏離人臉較大的時(shí)候,常常會(huì)陷入局部最小,從而導(dǎo)致人臉特征點(diǎn)定位的失敗,這是因?yàn)榛贏AM的人臉特征點(diǎn)定位方法易受初始化位置的影響。針對(duì)此問題,葉超等人提出一種基于多分辨率AAM (MR-AAM)的雙重?cái)M合方法,快速而準(zhǔn)確地獲得初始位置。本文采用先移動(dòng)模板至眼角大致準(zhǔn)確的位置,然后再進(jìn)行匹配。當(dāng)個(gè)別序列的某些特征點(diǎn)明顯定位不準(zhǔn)確時(shí),則需要進(jìn)行手動(dòng)調(diào)整。
我們將特征提取轉(zhuǎn)換為識(shí)別AU的參數(shù)集合。首先定義一個(gè)人臉的坐標(biāo)系,由于內(nèi)眼角的相對(duì)位置是不受肌肉收縮影響的,因此可將兩個(gè)內(nèi)眼角的連線作為x軸,y軸與x軸垂直且垂直平分兩內(nèi)眼角連線段。
上半臉特征:我們通過11個(gè)參數(shù)表示上半臉的特征,其中4個(gè)用來描述眉毛,6個(gè)用來描述眼睛,1個(gè)用來描述眉間距,上半臉特征表示見表1。
表1 上半臉特征表示
下半臉特征:我們通過6個(gè)參數(shù)表示下半臉特征,其中1個(gè)表示嘴寬,2個(gè)表示嘴角運(yùn)動(dòng),2個(gè)表示嘴唇厚度,1個(gè)表示嘴高,下半臉特征表示見表2。
表2 下半臉特征表示
每一AU的出現(xiàn),都對(duì)應(yīng)于一縷肌肉的收縮,都會(huì)在面部引起相應(yīng)的表觀變化,本文所研究AU得解釋及其引起的表觀變化見表3。
在對(duì)AAM定位結(jié)果進(jìn)行移動(dòng)模板并匹配、手動(dòng)調(diào)整特征點(diǎn)后,由于人眼觀察的不準(zhǔn)確性,仍然不可避免地產(chǎn)生較大誤差,這給AU識(shí)別帶來困難,尤其是AU強(qiáng)度較弱時(shí),一個(gè)較小的誤差就有可能產(chǎn)生相反方向的變化,進(jìn)而導(dǎo)致某一AU識(shí)別的失敗。因此,在進(jìn)行AU識(shí)別之前,對(duì)特征點(diǎn)進(jìn)行重定位是十分必要的。然而直接對(duì)特征點(diǎn)進(jìn)行定位,不但操作復(fù)雜而且人眼視覺不可避免地會(huì)產(chǎn)生誤差,本文將通過修正特征值的方法來間接達(dá)到特征點(diǎn)重定位的目的,以CMU庫中S119-002圖像序列為例,進(jìn)行闡述特征值修正的詳細(xì)過程。
?
人臉活動(dòng)單元是一個(gè)時(shí)域信號(hào),某個(gè)AU動(dòng)作不是一蹴而就的,而是一個(gè)循序漸進(jìn)的變化過程,僅僅根據(jù)某一時(shí)刻的人臉靜態(tài)圖像識(shí)別AU的出錯(cuò)率較高,而且性能也不夠穩(wěn)定。充分考慮人臉活動(dòng)單元的時(shí)域信息和表達(dá)的上下文關(guān)系,是進(jìn)行魯棒的AU識(shí)別的一種解決方法。由于AAM定位不夠準(zhǔn)確或手工微調(diào)特征點(diǎn)時(shí)由于視覺誤差造成的手工調(diào)整特征點(diǎn)時(shí)的不準(zhǔn)確性,序列經(jīng)常會(huì)產(chǎn)生孤立幀,如圖3所示。所謂孤立幀是指某幀的某些特征點(diǎn)與其相鄰的前后兩幀坐標(biāo)變化較為劇烈的幀。然而某個(gè)AU動(dòng)作不可能出現(xiàn)一幀突變的情況,所以這種變化事實(shí)上并不存在。出現(xiàn)類似情況,會(huì)對(duì)AU識(shí)別帶來障礙,特別是在AU強(qiáng)度較弱時(shí),孤立幀的產(chǎn)生,會(huì)在很大程度上影響AU識(shí)別的結(jié)果。為此在進(jìn)行AU識(shí)別之前,需要首先對(duì)所取得的特征值進(jìn)行去孤立幀操作,減少偶然或人為因素造成的誤差,為后續(xù)工作做鋪墊。
圖3 孤立幀
孤立幀的處理方法:計(jì)算序列中的某一特征點(diǎn)對(duì)應(yīng)的每一幀 (x2,y2)與前一幀 (x1,y1)的垂直距離dr、與后一幀 (x3,y3)的垂直距離df、點(diǎn) (x1,y1)及點(diǎn) (x3,y3)所確定直線L的斜率k和截距b。其中k和b可由式 (4)和式 (5)求出,而dr及df可由式 (6)和式(7)求出
若dr及df均大于某一閾值時(shí),則將點(diǎn) (x2,y2)變換到直線L上。此閾值的選擇是一個(gè)經(jīng)驗(yàn)值,需要通過大量的實(shí)驗(yàn)驗(yàn)證閾值的最佳值,過大或過小都將影響識(shí)別AU時(shí)所選取樣本的好壞,進(jìn)而影響識(shí)別結(jié)果。本文在卡耐基梅隆大學(xué)的Cohn-Kanade數(shù)據(jù)庫 (簡稱CMU庫)上進(jìn)行了大量實(shí)驗(yàn),得到內(nèi)眉角的閾值采用0.1為宜。序列處理前后的效果如圖4和圖5所示。
Matlab具體實(shí)現(xiàn)如下述程序段所示:
為了便于后續(xù)的歸 “0”和歸 “一”操作,需要先找出序列中的所有拐點(diǎn)。本文拐點(diǎn)的查找采用Douglas-Peucker算法,該算法是一種遞歸算法,其基本思想是:先用直線連接曲線段AB的兩個(gè)端點(diǎn)A和B,然后從曲線上找出到直線AB距離最遠(yuǎn)的點(diǎn)C,并計(jì)算點(diǎn)C到直線AB的距離d,需比較d與預(yù)先給定的閾值t的大小,如果小于t,則點(diǎn)C不是關(guān)鍵點(diǎn),如果大于t,則點(diǎn)C為所找的拐點(diǎn),依此類推,即可找出所有拐點(diǎn),具體推導(dǎo)過程如圖6所示。
圖6 點(diǎn)C為拐點(diǎn)
序列特征值的第一個(gè)拐點(diǎn)對(duì)應(yīng)的幀定為某個(gè)AU出現(xiàn)的初始幀。
初始幀之前所有幀的特征值歸零,這樣可以減少強(qiáng)度較弱時(shí)的誤差影響,提高AU的識(shí)別率。
本文采用的CMU庫中99%以上的AU都是經(jīng)歷 “起始-高峰-保持”,效率,減少 AAM 的定點(diǎn)誤差,可以在AU強(qiáng)度達(dá)到最大時(shí) (序列中最后一個(gè)拐點(diǎn)),將最大幀之后的所有幀都?xì)w一化到最大幀的值。
歸 “0”和歸 “一”處理后的效果如圖7所示。
圖7 歸 “0”和歸 “一”處理后
由于偶然誤差等多方面的原因,使得直接用數(shù)據(jù)進(jìn)行數(shù)據(jù)分析存在一定的問題,因此有必要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)平滑預(yù)處理,這是數(shù)據(jù)預(yù)處理的一項(xiàng)重要工作,要想從測(cè)量數(shù)據(jù)中提取有用的信息,必須對(duì)其進(jìn)行平滑以盡量減小偶然誤差的影響。常用的數(shù)據(jù)平滑算法有:加法平滑[11](additive smoothing)、Good-Turing 估 計(jì)[12]、折 扣 參 數(shù) 平 滑(discounting smoothing)、線性插值平滑 (linear interpolation smoothing)、基于扣留估計(jì)的參數(shù)平滑技術(shù)。有給定最小值平 (clipping with a floor value)和 Katzs式平滑等。
本文根據(jù)找到的所有拐點(diǎn),采用移動(dòng)窗口擬合多項(xiàng)式平 滑 (Savitzky-Golay 平 滑 )[13]方 法 對(duì) 曲 線 進(jìn) 行 平 滑。Savitzky-Golay平滑濾波器最初由Savitzky A和Golay M于1964年提出,被廣泛應(yīng)用于數(shù)據(jù)流平滑去噪,是一種在時(shí)域內(nèi)基于多項(xiàng)式,通過滑動(dòng)窗口利用最小二乘法進(jìn)行擬合的方法。這是一種直接處理來自時(shí)間域內(nèi)數(shù)據(jù)平滑問題的方法。該方法的優(yōu)勢(shì)是簡單快速,且相對(duì)于其他的平均方法,更能保留相對(duì)極大值、極小值及寬度分布等特性。以序列S119-002右內(nèi)眉角特征點(diǎn)變化為例,進(jìn)行S-G平滑后如圖8所示。
圖8 S-G平滑曲線
在經(jīng)過特征值修正之后,根據(jù)第一幀坐標(biāo) {(x0,y0),(x1,y1), … (x25,y25)} 和 修 正 后 的 上 半 臉 特 征 值(m1’,m2’, …m11’)和 下 半 臉 特 征 值 (n1’,n2’,…n6’),對(duì)每個(gè)特征點(diǎn)進(jìn)行重新定位,重定位后的坐標(biāo)為{(x0’,y0’),(x1’,y1’),… (x25’,y25’)}。以右內(nèi)眉角為例,內(nèi)眉角初始幀坐標(biāo)P (x11,y11),內(nèi)眉角到內(nèi)眼角連線距離為d0,第i幀坐標(biāo)為Q (xi11,yi11),則重定位后的坐標(biāo)需滿足以下兩個(gè)條件:
(1)重定位后的坐標(biāo) (x11’,y11’)在射線PQ上;
(2)到內(nèi)眼角連線距離為m11’d0+d0;
特征點(diǎn)重定位是表情識(shí)別的重要環(huán)節(jié)之一,特征點(diǎn)定位正確與否直接影響AU識(shí)別的準(zhǔn)確程度。對(duì)于表情識(shí)別領(lǐng)域,由于肌肉運(yùn)動(dòng)相對(duì)較為微弱,直接對(duì)特征點(diǎn)進(jìn)行調(diào)整,不但繁瑣,而且由于視覺誤差,會(huì)有失準(zhǔn)確性,本文提出的通過特征值修正達(dá)到調(diào)整特征點(diǎn)的方法,操作相對(duì)較為簡單,且通過實(shí)驗(yàn)驗(yàn)證了可以間接達(dá)到調(diào)整特征點(diǎn)位置的目的。
對(duì)于AU動(dòng)態(tài)性分析,CMU庫中AU出現(xiàn)的順序幾乎全是是:沒有出現(xiàn)—起始—高峰—保持。然而實(shí)際情況遠(yuǎn)比這復(fù)雜,例如AU可能從某一高峰狀態(tài)直接達(dá)到另一高峰狀態(tài),即出現(xiàn)多峰動(dòng)態(tài)過程。因此,需要在更多的表情庫上進(jìn)一步驗(yàn)證本文提出方法的可行性,面向各種復(fù)雜實(shí)際情況的AU動(dòng)態(tài)性研究是未來研究的必然趨勢(shì)。
:
[1]YE Chao,LI Tianrui,GONG Xun.Facial feature point localization based on MR-AAM dual-fitting [J].Journal of Computer Applications,2011,30 (10):2724-2727 (in Chinese). [葉超,李天瑞,龔勛.基于MR-AAM雙重?cái)M合的人臉特征點(diǎn)定位方法 [J].計(jì)算機(jī)應(yīng)用,2011,30 (10):2724-2727.]
[2]Markin Evgeny,Prakash Edmond C.Tracking facial features with occlusions [J].Journal of Zhejiang University Science A,2006,7 (7):1282-1288.
[3]ZHAO Hui,WANG Zhiliang,LIU Yaofeng.A survey of automatic facial action units recognition [J].Journal of Computer Aided Design & Computer Graphics,2010,22 (5):894-906(in Chinese).[趙暉,王志良,劉遙峰.人臉活動(dòng)單元自動(dòng)識(shí)別研究綜述 [J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)報(bào),2010,22 (5):894-906.]
[4]XUE Liyu,MAO Xia,ZHANG Fan.Design and realization of BHU expression database [J].Journal of Beijing University of Aeronautics and Astronautics,2007,33 (2):224-228 (in Chinese).[薛麗雨,毛峽,張帆.BHU人臉表情數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn) [J].北京航空航天學(xué)報(bào),2007,33 (2):224-228.]
[5]GAO Lei,LI Xiaodong.Improved LPP algorithm for face recognition [J].Computer Engineering and Applications,2011,47(17):185-187 (in Chinese).[高雷,李曉東.基于改進(jìn)的有監(jiān)督保局投影人臉識(shí)別算法 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47(17):185-187.]
[6]TANG Jinghai,ZHANG Youwei.Method of facial expression recognition based on dynamic sequence feature [J].Computer Engineering and Applications,2008,44 (8):220-222 (in Chinese).[唐京海,張有為.基于動(dòng)態(tài)序列特征的人臉表情識(shí)別方法 [J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (8):220-222.]
[7]HUANG Yong.Facial expression recognition based on graphoptimized locality preserving projections [J].Computer Engineering and Applications,2011,47 (27):210-215 (in Chinese).[黃勇.基于圖像優(yōu)化局部保留投影的人臉表情識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (27):210-215.]
[8]TONG Yan,LIAO Wenhui,JI Qiang.Facial action unit recognition by exploiting their dynamic and semantic relationships[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29 (10):1683-1699.
[9]Ramya R,Anandanataraj R.Application of neuro fuzzy network for the analyzing the pain through facial expression [J].Inter-national Journal of Recent Trends in Engineering,2009,2 (4):8-10.
[10]SONG Yuqing,LIU Bo,XIE Jun.Medical image texture features classification based on gabor wavalet transform [J].Computer Engineering,2010,36 (11):200-202 (in Chinese).[宋余慶,劉博,謝軍.基于Gabor小波變換的醫(yī)學(xué)圖像 紋 理 特 征 分 類 [J]. 計(jì) 算 機(jī) 工 程,2010,36 (11):200-202.]
[11]WANG Da,CUI Rui.Data smoothing technology summary[J].Computer Knowledge and Technology,2009,5 (17):4507-4509 (in Chinese).[王達(dá),崔蕊.數(shù)據(jù)平滑技術(shù)綜述[J].電腦知識(shí)與技術(shù),2009,5 (17):4507-4509.]
[12]ZHANG Jian.English named entity recognition using statistics-based and rules-based method [D].Harbin:Harbin Institute of Technology,2006 (in Chinese).[張劍.統(tǒng)計(jì)與規(guī)則相結(jié)合的英語命名實(shí)體識(shí)別 [D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.]
[13]CAI Tianjing,TANG Han.Summary based on the least squares fitting principle of Savitzky-Golay smoothing filter[J].Digital Communition,2011 (1):63-68 (in Chinese).[蔡天凈,唐瀚.Savitzky-Golay平滑濾波器的最小二乘擬合原理綜述 [J].數(shù)字通信,2011 (1):63-68.]