江 婷,趙啟軍,陳 虎
(四川大學(xué) 計算機(jī)學(xué)院,四川 成都 610065)
基于多變量標(biāo)簽分布的連續(xù)型姿態(tài)估計方法
江 婷,趙啟軍,陳 虎
(四川大學(xué) 計算機(jī)學(xué)院,四川 成都 610065)
人臉的頭部姿態(tài)往往指示并傳達(dá)著豐富的信息,準(zhǔn)確估計頭部姿態(tài)角度在人臉識別、表情識別等領(lǐng)域有重要作用。針對獲得的人臉真實姿態(tài)角度往往存在一定的偏差且只包含有限個離散角度等問題,文中提出了一種基于多變量標(biāo)簽分布的連續(xù)型姿態(tài)估計方法。在訓(xùn)練階段,對不同姿態(tài)角度,通過訓(xùn)練獲得離散情況下的多變量標(biāo)簽分布;在測試階段,采用正交多項式擬合的思想,將離散的分布擬合成連續(xù)的分布,計算分布的最大值所對應(yīng)的標(biāo)簽作為最終的輸出結(jié)果。文中在Pointing’04公開庫上進(jìn)行了測試,利用文中方法,在正交多項式擬合后,估計出的人臉的姿態(tài)角不再局限于訓(xùn)練集中的一些角度,而是有更多連續(xù)的值,所得的估計姿態(tài)角更接近于真實角度。實驗結(jié)果表明,文中方法能夠預(yù)測出更多的人臉姿態(tài)角度,并且預(yù)測更穩(wěn)定。
姿態(tài)估計;多變量標(biāo)簽分布;正交多項式擬合;連續(xù)型姿態(tài)
在人際交流中,頭部姿態(tài)是非常重要的部分,靜態(tài)的頭部姿態(tài)的某個特定方向可指示對某人的注意,或者對話的對象,等等。頭部姿態(tài)的變化也可傳達(dá)豐富的信息,比如贊同、否定、理解、疑惑和驚喜等等。另外,頭部姿態(tài)是很多應(yīng)用領(lǐng)域的關(guān)鍵部分,如人臉識別、表情識別、視線估計等等。因此,頭部姿態(tài)估計已成為計算機(jī)視覺和模式識別的一個重要研究領(lǐng)域。近年來已經(jīng)有很多頭部姿態(tài)估計的方法被提出,例如非線性回歸方法[1-5]、子空間嵌入方法[6-9]、基于特殊特征的方法[10-13]和多變量標(biāo)簽分布方法[14]。
在計算機(jī)視覺領(lǐng)域,頭部姿態(tài)估計通常指的是使用圖像平面去預(yù)測頭部方向。通常做法是假設(shè)人的頭部是一個剛性物體,這樣頭部姿態(tài)只有三個自由度,包括水平偏轉(zhuǎn)角、俯仰角和旋轉(zhuǎn)角[15]。對于很多現(xiàn)存的數(shù)據(jù)集,只考慮了有限的離散角度,而且姿態(tài)角度標(biāo)定值往往存在一定的誤差。文獻(xiàn)[14]提出離散的多變量標(biāo)簽分布方法(Multivariate Label Distribution,MLD),將人臉姿態(tài)角度的臨近角度也作為姿態(tài)估計的標(biāo)簽,使得一個人臉姿態(tài)可以有不同權(quán)重的多個值,提高了算法對訓(xùn)練數(shù)據(jù)中姿態(tài)角度標(biāo)定誤差的魯棒性,也提高了姿態(tài)估計的正確率。但是現(xiàn)有人臉數(shù)據(jù)庫中的姿態(tài)角度往往是離散的值,若估計到的姿態(tài)角是真實值的臨近角度,也會偏差很大。換言之,現(xiàn)有的MLD方法對訓(xùn)練集中不包含的姿態(tài)角的圖片預(yù)測誤差往往會很大。
為解決上述問題,文中提出了基于MLD的連續(xù)值姿態(tài)估計方法。首先用MLD得到離散情況下的多變量標(biāo)簽分布,然后用正交多項式擬合的方法擬合成連續(xù)的分布。選用正交多項式作為擬合工具可以得到與一般多項式擬合相同的結(jié)果,而且有效避免了一般多項式擬合時法方程組的病態(tài)問題。改進(jìn)后的MLD估計得到的姿態(tài)角度比離散情況更接近真實值,而不受訓(xùn)練集角度間隔的影響。值得一提的是,提出的方法能非常方便地擴(kuò)展到三個自由度或者縮減到單個自由度。
(1)
設(shè)在連續(xù)空間X=q中,標(biāo)簽集Υ={yjk;j=1,2,…,np,k=1,2,…,ny},那么目標(biāo)就是從G學(xué)習(xí)得到一個條件函數(shù)集p(y|x;θ)。其中x∈X,y∈Υ,θ為參數(shù)向量。該條件函數(shù)集由找到一個θ使生成的MLD接近于當(dāng)前xi的Pi來決定。由于p(y|x;θ)的形式與Geng等在文獻(xiàn)[16-17]中的工作類似,所以假設(shè)它為一個最大熵模型,即:
(2)
針對不同姿態(tài)角度,訓(xùn)練獲得離散情況下的多變量標(biāo)簽分布后,采用正交多項式擬合的思想,將離散的分布擬合成連續(xù)的分布,計算分布的最大值所對應(yīng)的標(biāo)簽作為最終姿態(tài)的估計值。
2.1 一元函數(shù)擬合
(3)
(4)
2.2 二元函數(shù)擬合
(5)
先對l進(jìn)行擬合后,可得到dk,ωk(l),k=0,1,…,L-1。再對m進(jìn)行擬合,得到σs,φs(m) ,m=0,1,…,M-1,參考式(4),則
(6)
將式(6)代入式(5)中即得擬合的二元函數(shù)。
當(dāng)從一組可供選擇的模型中選擇一個最佳模型時,選擇赤池信息量準(zhǔn)則(AkaikeInformationCriterion,AIC)為最小的模型是可取的,所以采用AIC作為決定擬合多項式變量最高階次數(shù)的方法。
(7)
擬合后,在求得最優(yōu)解θ*后,給出一張圖片x',則先根據(jù)p(y|x';θ*),y∈Υ估計得到它的MLD,然后與MLD中最大描述度相對應(yīng)的姿態(tài)角即為x'的估計值。
為了解決現(xiàn)有的MLD方法對訓(xùn)練集中不包含的姿態(tài)角的圖片預(yù)測誤差很大的問題,提出了一種基于MLD的連續(xù)值姿態(tài)估計方法。首先在訓(xùn)練階段,對不
同姿態(tài)角度的圖片進(jìn)行訓(xùn)練,將每個訓(xùn)練圖片的臨近姿態(tài)角度的權(quán)重設(shè)為非零值,即該圖片就能有多個標(biāo)簽值,就可根據(jù)條件函數(shù)獲得離散情況下的多變量標(biāo)簽分布。
在測試階段,采用正交多項式擬合的思想,對于給定的測試圖片,通過將參數(shù)向量θ擬合成連續(xù)的函數(shù),獲得θ的最優(yōu)解,然后與MLD中最大描述度相對應(yīng)的姿態(tài)角即為該測試圖片的估計值。整體框圖如圖1所示。
圖1 基于MLD的連續(xù)型姿態(tài)估計方法的框圖
為驗證改進(jìn)的MLD方法的估計效果,將該方法在Pointing’04人臉庫上進(jìn)行了測試。Pointing’04人臉庫包括9個離散的俯仰角{-90°,-60°,-30°,-15°,0°,15°,30°,60°,90°},以及13個離散的水平偏轉(zhuǎn)角度{-90°,-75°,-60°,-45°,-30°,-15°,0°,15°,30°,45°,60°,75°,90°}。人臉的姿態(tài)由一個水平偏轉(zhuǎn)角和一個俯仰角組成,特別地,當(dāng)俯仰角為-90°和90°時,水平偏轉(zhuǎn)角始終是0°。所以,該數(shù)據(jù)庫中包括13×7+2=93個姿態(tài)角。該庫包含兩次采集15個人的人臉圖像,共93×15×2=2 790張。圖2給出了該庫中單個人的部分角度圖像,庫中每張圖片被歸一化為32×32大小的灰度圖,用方向梯度直方圖(HistogramofOrientedGradients,HOG)[18]提取特征,每個細(xì)胞單元為3×3個像素。
圖2 Pointing’04人臉庫中同一個人部分角度圖像
實驗中,首先對Pointing’04人臉庫隨機(jī)選取14個人(93×14×2=2 604張)的圖片進(jìn)行訓(xùn)練,剩下1人(93×2=186張)圖片進(jìn)行測試。因為當(dāng)俯仰角為-90°和90°時,水平偏轉(zhuǎn)角始終是0°,所以測試時去除這兩個姿態(tài)角,則剩余91個姿態(tài)。多次實驗證明,當(dāng)p=4,q=8時,擬合得到的多項式最大地逼近了離散標(biāo)簽值。圖3給出了對于測試圖片,通過多項式擬合,階數(shù)分別為4和8時,θ前后值的對比,空心圓圈曲線表示θ的初始值,實心點曲線表示擬合后的θ的值,橫軸表示91個姿態(tài)標(biāo)簽值,縱軸為θ的值。
圖3 θ擬合前后曲線對比
在正交多項式擬合后,估計出的人臉的姿態(tài)角不再局限于訓(xùn)練集中的一些角度,而是有更多連續(xù)的值,表1列出了部分真實值所對應(yīng)的兩種方法估計出來的結(jié)果。
表1 離散和連續(xù)MLD方法的估計結(jié)果對比
通過對比可以看出,連續(xù)的MLD方法估計出的值更接近真實值,而離散的方法使結(jié)果偏差為15°的倍數(shù)。
準(zhǔn)確估計人臉的姿態(tài)角度在人臉識別、表情識別等領(lǐng)域有重要作用。文中受文獻(xiàn)[14]的啟發(fā),針對受現(xiàn)有離散的人臉數(shù)據(jù)庫中的有限姿態(tài)角度的影響,MLD估計得到的姿態(tài)角也會偏差很大這個問題,提出了一種正交多項式擬合的方法,將標(biāo)簽擬合為連續(xù)值,使姿態(tài)估計地更接近真實值。實驗結(jié)果表明,文中方法能夠預(yù)測出更多角度的人臉姿態(tài)角度并且估計的姿態(tài)更穩(wěn)定。
[1]StiefelhagenR.Estimatingheadposewithneuralnetworks-resultsonthePointing04ICPRworkshopevaluationdata[C]//Procofpointing2004workshop:visualobservationofdeicticgestures.Cambridge,UK:[s.n.],2004.
[2]GourierN,MaisonnasseJ,HallD,etal.Headposeestimationonlowresolutionimages[C]//ProcofCLEAR.[s.l.]:[s.n.],2006:270-280.
[3]VoitM,NickelK,StiefelhagenR.Neuralnetworkbasedheadposeestimationandmulti-viewfusion[C]//ProcofCLEAR.[s.l.]:[s.n.],2006:291-298.
[4]GuoG,FuY,DyerCR,etal.Headposeestimation:classificationorregression[C]//Procof19thinternationalconfonpatternrecognition.FL:[s.n.],2008.
[5]HajMA,Gonz`alezJ,DavisLS.Onpartialleastsquaresinheadposeestimation:howtosimultaneouslydealwithmisalignment[C]//ProcofIEEEconfoncomputervisionandpatternrecognition.[s.l.]:IEEE,2012:2602-2609.
[6]TuJ,FuY,HuY,etal.Evaluationofheadposeestimationforstudiodata[C]//Procof1stinternationalworkshoponclassificationofevents,activitiesandrelationships.Southampton,UK:[s.n.],2006:281-290.
[7]LiZ,FuY,YuanJ,etal.Querydrivenlocalizedlineardiscriminantmodelsforheadposeestimation[C]//ProcofIEEEinternationalconfonmultimediaandexpo.Beijing,China:IEEE,2007:1810-1813.
[8]FoytikJ,AsariVK.Atwo-layerframeworkforpiecewiselinearmanifold-basedheadposeestimation[J].InternationalJournalofComputerVision,2013,101(2):270-287.
[9]LuJiwen,TanYP.Ordinarypreservingmanifoldanalysisforhumanageandheadposeestimation[J].IEEETransonHuman-MachineSystems,2013,43(2):249-258.
[10]GurbuzS,OztopE,InoueN.Modelfreeheadposeestimationusingstereovision[J].PatternRecognition,2012,45(1):33-42.
[11]ZhuX,RamananD.Facedetection,poseestimation,andlandmarklocalizationinthewild[C]//ProcofIEEEconfoncomputervisionandpatternrecognition.[s.l.]:IEEE,2012:2879-2886.
[12] Fanelli G,Dantone M,Gall J,et al.Random forests for real time 3D face analysis[J].International Journal of Computer Vision,2013,101(3):437-458.
[13] Ma B,Chai X,Wang T.A novel feature descriptor based on biologically inspired feature for head pose estimation[J].Neurocomputing,2013,115:1-10.
[14] Geng X,Xia Y.Head pose estimation based on multivariate label distribution[C]//Proc of IEEE conf on computer vision and pattern recognition.Columbus,Ohio:IEEE,2014:1837-1842.
[15] Murphy-Chutorian E,Trivedi M M.Head pose estimation in computer vision:a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(4):607-626.
[16] Geng X,Smith-Miles K,Zhou Z H.Facial age estimation by learning from label distributions[C]//Proc of 24th AAAI conf on artificial intelligence.Atlanta:[s.n.],2010:451-456.
[17] Geng X,Yin C,Zhou Z H.Facial age estimation by learning from label distributions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(10):2401-2412.
[18] Felzenszwalb P F,Girshick R B,McAllester D A,et al.Object detection with discriminatively trained part-based models[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
A Continuous Head Pose Estimation Method Based on Multivariate Label Distribution
JIANG Ting,ZHAO Qi-jun,CHEN Hu
(School of Computer Science,Sichuan University,Chengdu 610065,China)
The human’s head pose are abundant of information.Accurate estimation of head pose plays an important role in face recognition,expression recognition and so on.To improve the precision of estimation and to alleviate the problem that poses are always fixed to some angles,a continuous method based on multivariate label distribution to estimate head poses was presented.In the training phase,get the discrete multivariate distribution from discrete poses and angles.In the testing phase,adopt orthogonal polynomial fitting to transform the discrete distribution into continuous distribution and compute the label corresponding to maximum in distribution as final output.The proposed method has been tested on the open Pointing’04 database.After orthogonal polynomial fitting,the estimated angles are no longer limited to angles in test set,but more continuous values.The estimated angle obtained by the method proposed is closer to the real angle.The result indicates that this method can estimate head pose in wider angle,the result is more stable.
head pose estimation;multivariate label distribution;orthogonal polynomial fitting;continuous head pose
2015-04-29
2015-08-04
時間:2016-01-04
國家自然科學(xué)基金資助項目(61202160,61202161);科技部重大儀器專項(2013YQ49087904)
江 婷(1991-),女,碩士研究生,研究方向為模式識別、計算機(jī)視覺;趙啟軍,副教授,碩士生導(dǎo)師,研究方向為模式識別、機(jī)器學(xué)習(xí)、計算機(jī)視覺等;陳 虎,講師,碩士生導(dǎo)師,研究方向為模式識別。
http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1505.026.html
TP399.1
A
1673-629X(2016)01-0111-04
10.3969/j.issn.1673-629X.2016.01.023