張 丹
(中國(guó)西南電子技術(shù)研究所,成都 610036)
一種融合流形學(xué)習(xí)的視頻人臉性別識(shí)別改進(jìn)算法
張 丹
(中國(guó)西南電子技術(shù)研究所,成都 610036)
如何有效利用視頻中人臉之間的時(shí)空連續(xù)性信息來(lái)克服人臉?lè)直媛实?、圖像尺度變化大和姿態(tài)、光照變化以及遮擋等問(wèn)題是視頻人臉識(shí)別的關(guān)鍵所在。提出了一種基于流形學(xué)習(xí)的視頻人臉性別識(shí)別算法。該算法不僅可以通過(guò)聚類融合學(xué)習(xí)來(lái)挖掘視頻內(nèi)在的連續(xù)性信息,同時(shí)能發(fā)現(xiàn)人臉數(shù)據(jù)中內(nèi)在非線性結(jié)構(gòu)信息而獲得低維本質(zhì)的流形結(jié)構(gòu)。在UCSD/Honda和自采集數(shù)據(jù)庫(kù)上與靜態(tài)的算法比較結(jié)果表明,所提算法能夠獲得更好的識(shí)別率。
視頻人臉性別識(shí)別;流形學(xué)習(xí);聚類融合;保局投影;支持向量機(jī)
人臉性別識(shí)別一直是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)長(zhǎng)期研究的熱點(diǎn)問(wèn)題,當(dāng)前已經(jīng)取得了巨大的發(fā)展。在特征提取方面,比較成熟算法有主成分分析法(Principal Component Analysis,PCA[1-2])、線性分類判別(Linear Classification Discriminant,LDA)[2]和保局投影算法(Locality Preserving Projections,LPP)[3]。對(duì)于像人臉數(shù)據(jù)這樣的高維非線性數(shù)據(jù),如何將高維數(shù)據(jù)有效地表示在低維空間中,并由此發(fā)現(xiàn)其內(nèi)在流形結(jié)構(gòu)是高維信息處理研究的關(guān)鍵問(wèn)題[4]。LPP算法是拉普拉斯特征映射(Laplacian Eigenmaps,LE)的線性逼近,在劇烈降維方面有很好的效果,可以發(fā)現(xiàn)人臉數(shù)據(jù)的本質(zhì)低維流形結(jié)構(gòu)。在分類匹配方面,比較成熟的有最近鄰分類器、支持向量機(jī)(Support Vector Machine,SVM)[5]和Adaboost[6]分類器。SVM致力于小樣本高效分類,Adaboost則側(cè)重實(shí)時(shí)應(yīng)用。
由于諸如視頻聊天的盛行和攝像頭的普遍使用,使得視頻成為最主要的媒體介質(zhì),因而在近幾年來(lái)基于視頻的人臉識(shí)別[7-8]中得到了廣泛的關(guān)注。視頻序列不同于靜態(tài)圖片,是由很多時(shí)空連續(xù)的圖片有機(jī)地組合而成的,具有其獨(dú)特性。如果以靜態(tài)方法來(lái)處理這些視頻序列圖片,必然會(huì)忽略隱藏在視頻中的時(shí)空連續(xù)性信息,而這些信息往往對(duì)于提高視頻人臉識(shí)別效果會(huì)有很大影響。作為視頻人臉識(shí)別的延伸,性別的分類也受到廣泛的關(guān)注,在很多領(lǐng)域都需要實(shí)現(xiàn)其自動(dòng)化。當(dāng)前已存在很多基于視頻的人臉性別識(shí)別算法,如文獻(xiàn)[9-10]都試圖將一段視頻作為一個(gè)整體來(lái)進(jìn)行識(shí)別。
本文在流形學(xué)習(xí)的基礎(chǔ)上提出了一種視頻人臉性別識(shí)別算法(Video-based Face Gender Recognition,VG-LPP)。該算法首先對(duì)一段視頻幀采用聚類方式(Clustering)來(lái)構(gòu)建數(shù)據(jù)模型以挖掘出視頻人臉中的時(shí)空連續(xù)性信息,再利用保局投影算法通過(guò)近鄰圖來(lái)發(fā)現(xiàn)低維流形人臉子空間以得到人臉數(shù)據(jù)的本質(zhì)低維流形結(jié)構(gòu),最后用支持向量機(jī)進(jìn)行分類匹配。
這一部分將介紹保局投影和支持向量機(jī)的原理,前者用于人臉數(shù)據(jù)特征提取,后者用于人臉匹配分類。
保局投影是拉普拉斯特征映射的線性逼近,可以用譜圖理論來(lái)闡述。
給定如下數(shù)據(jù)點(diǎn){x1,x2,…,xm},(m∈xi∈Rn),接著我們用一個(gè)權(quán)圖 G=(V,E)來(lái)模擬人臉空間的局部幾何結(jié)構(gòu),圖中的邊表示其兩端的點(diǎn)式滿足相鄰條件。為了使映射后的點(diǎn)距離足夠近,假設(shè)這個(gè)映射為y={y1,y2,…,ym},找到這個(gè)最佳映射的合理辦法是使公式(1)所示損失函數(shù)值為最小:
如果將這個(gè)映射限定為線性映射yi=α·xi(α為變換矩陣),那么公式(1)就可以轉(zhuǎn)換為
式中,L=D-S為拉普拉斯矩陣,D是對(duì)角權(quán)矩陣。Dii=∑jwij,同時(shí)限定條件:
公式(3)最小值問(wèn)題用拉格朗日乘數(shù)法求解轉(zhuǎn)化為
支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一種方法,有別于傳統(tǒng)機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,因其推廣能力較差。支持向量機(jī)在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多獨(dú)特的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。
下面以兩類分類為例,假設(shè)已知數(shù)據(jù)集D={(x1,y1),…,(xl,yl)},yi∈{-1,1}可以被一個(gè)超平面w·x-b=0分開(kāi)。如果這個(gè)向量集合被超平面沒(méi)有錯(cuò)誤地分開(kāi),并且離超平面最近的向量與超平面之間的距離是最大的,則認(rèn)為這個(gè)向量集合被這個(gè)最優(yōu)超平面或最大間隔超平面分開(kāi)。對(duì)于一個(gè)新數(shù)據(jù)x,它的類別由公式(5)計(jì)算所得:
支持向量機(jī)的目標(biāo)是最大化間隔,損失函數(shù)如公式(6)所示:
式中,oi=w·xi-b,V(z,o)是一個(gè)損失函數(shù),定義如公式(7)所示:
如果在視頻人臉性別識(shí)別中采用傳統(tǒng)靜態(tài)圖片的方法,如每段視頻截取 N幅圖片構(gòu)成視頻數(shù)據(jù)庫(kù),則組成了一個(gè)無(wú)序圖片組成的圖片數(shù)據(jù)庫(kù),檢索對(duì)比時(shí),也分別與每幅圖片進(jìn)行比較。這種方法忽略了視頻的完整性信息,因此視頻本身的時(shí)空連續(xù)性信息就沒(méi)有很好地利用。
對(duì)于傳統(tǒng)的圖片檢索系統(tǒng)應(yīng)用于視頻人臉性別識(shí)別時(shí)的不足,研究人員現(xiàn)已在挖掘視頻特有信息上做了很多工作。他們都將一段視頻視為一個(gè)整體進(jìn)行處理,如對(duì)視頻聚類矢量化,通過(guò)比較矩陣相似度來(lái)判別和動(dòng)態(tài)及概率模型等。
VG-LPP算法首先對(duì)視頻數(shù)據(jù)構(gòu)建數(shù)據(jù)模型來(lái)挖掘視頻人臉中的時(shí)空連續(xù)性信息,再利用保局投影算法通過(guò)近鄰圖來(lái)構(gòu)建低維流形人臉子空間,從而發(fā)現(xiàn)人臉數(shù)據(jù)的本質(zhì)低維流形結(jié)構(gòu)。下面是VG-LPP算法的詳細(xì)步驟。
Step 1:視頻數(shù)據(jù)建模
這一步中使用k-均值聚類算法使得同一段視頻的人臉聚類,獲得一個(gè)特征向量。對(duì)于一段視頻,提取各個(gè)圖片幀的向量數(shù)據(jù){v1,v2,…,vn},n為視頻幀數(shù),接著使用k-均值聚類算法,對(duì)一段視頻聚類分析,求得k個(gè)類別{s1,s2,…,sk}各類的均值為{μ1,μ2,…,μk}。根據(jù)各個(gè)類別的數(shù)目,對(duì)其賦予不同的權(quán)值{γ1,γ2,…,γk},這樣就可以是類別多的占據(jù)這段視頻的主導(dǎo)。最后求得這段視頻的特征向量
因此,整個(gè)視頻庫(kù)就可以獲得序列{x1,x2,…,xm},m是視頻總數(shù)。
使用k-均值聚類是因?yàn)槊恳欢我曨l中都存在正面、側(cè)面等不同屬性的人臉,而往往正面人臉居多,側(cè)面人臉居少。k均值聚類之后使得正面和側(cè)面等人臉各自聚集,然后再根據(jù)數(shù)量賦權(quán)值,如此正面人臉數(shù)據(jù)將會(huì)在這段視頻的特征向量中起決定作用。
Step 2:人臉特征提取
(1)創(chuàng)建鄰接圖
建立一個(gè)具有M個(gè)頂點(diǎn)的權(quán)圖G。如果訓(xùn)練集已經(jīng)標(biāo)有類別信息的數(shù)據(jù),xi和xj屬于一個(gè)類別,那么就用一條邊將這兩個(gè)點(diǎn)連接起來(lái),否則就用k近鄰關(guān)系去尋找近鄰,再用邊連接起來(lái)。
(2)確定權(quán)重
這里用一種簡(jiǎn)單的方法來(lái)定義權(quán)值矩陣S,如果 xi和xj相連,則 sij=1,否則 sij=0。
(3)完成特征映射
假設(shè)公式(4)有d個(gè)特征值,按特征值 λ1>λ2>…>λd排列,對(duì)應(yīng)的特征向量為 α={α1,α2,…,αd},因此低維線性嵌入可以表示為
式中,yi就是獲得的低維嵌入,其維數(shù)遠(yuǎn)小于xi。
Step 3:分類匹配
這一步使用支持向量機(jī)理論來(lái)對(duì)人臉子空間的數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)。首先支持向量機(jī)通過(guò)訓(xùn)練數(shù)據(jù)獲得一個(gè)分類器,其次對(duì)測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,完成識(shí)別功能。
這部分將通過(guò)在自采集數(shù)據(jù)庫(kù)上的對(duì)比試驗(yàn)來(lái)證明本文提出的視頻性別識(shí)別算法的有效性,實(shí)驗(yàn)主要與靜態(tài)算法(LPP、LPP-SVM)進(jìn)行對(duì)比。LPP將視頻幀以靜態(tài)圖片的形式進(jìn)行處理,通過(guò)LPP進(jìn)行特征提取,然后用最近鄰分類器識(shí)別匹配;LPPSVM將視頻幀以靜態(tài)圖片的形式進(jìn)行處理,通過(guò)LPP進(jìn)行特征提取,然后用支持向量機(jī)進(jìn)行分類識(shí)別。而本文的算法首先將同一視頻的人臉進(jìn)行聚類處理,獲得視頻特征,然后用LPP進(jìn)行特征提取獲得低維數(shù)據(jù),最后用支持向量機(jī)進(jìn)行分類匹配。實(shí)驗(yàn)在UCSD/Honda和自采集視頻人臉數(shù)據(jù)庫(kù)上進(jìn)行。
UCSD/Honda視頻人臉數(shù)據(jù)庫(kù)只有5位女性,為了實(shí)驗(yàn)的可靠性,我們從自采集數(shù)據(jù)庫(kù)中加入3位女性數(shù)據(jù),男性數(shù)據(jù)由UCSD/Honda隨機(jī)取5位以及自采集的3位組成,如圖1和圖2所示。因此整個(gè)實(shí)驗(yàn)數(shù)據(jù)庫(kù)有16個(gè)人,男女各半,每人有16段視頻,每段視頻5幅圖片,實(shí)驗(yàn)中,每人隨機(jī)取8段作為訓(xùn)練集,8段作為測(cè)試集,如此隨機(jī)取5次構(gòu)成5組實(shí)驗(yàn)結(jié)果,視頻算法就以8×16個(gè)視頻數(shù)據(jù)作為訓(xùn)練輸入,靜態(tài)算法就以5×8×16個(gè)圖片數(shù)據(jù)作為訓(xùn)練輸入。實(shí)驗(yàn)結(jié)果如圖3所示。
圖1 UCSD/Honda人臉樣本Fig.1 UCSD/Honda face samples
圖2 自采集人臉樣本Fig.2 User-Collected face samples
圖3 測(cè)試集樣本存在于訓(xùn)練集中的實(shí)驗(yàn)結(jié)果Fig.3 Experiment result when test samples exist in database
實(shí)驗(yàn)結(jié)果表明,基于視頻的算法比兩個(gè)靜態(tài)算法大約要高出9個(gè)百分點(diǎn),說(shuō)明了通過(guò)對(duì)視頻人臉數(shù)據(jù)合理的數(shù)據(jù)建模,將一段視頻作為一個(gè)整體進(jìn)行聚類融合,能更好地保留視頻信息中時(shí)空連續(xù)性語(yǔ)義特征,提高識(shí)別準(zhǔn)確率。另外,由圖3可發(fā)現(xiàn),支持向量機(jī)做分類器較最近鄰分類器有更高的識(shí)別準(zhǔn)確率。
實(shí)驗(yàn)中所用的兩個(gè)數(shù)據(jù)庫(kù)都有正臉和側(cè)臉,以及不同角度的光照環(huán)境,同時(shí)存在面部表情刻意變化,如此可以更好地模擬真實(shí)視頻的各種環(huán)境。然而實(shí)驗(yàn)中訓(xùn)練集和測(cè)試集存在相同的人,在實(shí)際應(yīng)用中待識(shí)別的人未必被收錄在數(shù)據(jù)庫(kù)中,因此為了更好地契合現(xiàn)實(shí)應(yīng)用,取極端情況,即測(cè)試集數(shù)據(jù)完全不存在于訓(xùn)練集中。
實(shí)驗(yàn)隨機(jī)選取男女各6人為訓(xùn)練庫(kù),剩下2人為測(cè)試集,如此視頻方法訓(xùn)練集有16×12個(gè)視頻數(shù)據(jù),16×4個(gè)測(cè)試視頻,靜態(tài)方法就有16×12×5幅圖片的訓(xùn)練集,16×4×5幅測(cè)試集圖片。由于訓(xùn)練庫(kù)隨機(jī)選5組,因此實(shí)驗(yàn)結(jié)果有5組對(duì)比數(shù)據(jù),如圖4所示。
圖4 訓(xùn)練集中不存在測(cè)試集樣本的實(shí)驗(yàn)結(jié)果Fig.4 Experiment result when there exists no test sample in database
實(shí)驗(yàn)結(jié)果顯示,相較于上面實(shí)驗(yàn),識(shí)別準(zhǔn)確率有所下降,這是由于訓(xùn)練集中不存在測(cè)試集樣本,導(dǎo)致可獲取信息降低,但基于視頻的方法仍然要比靜態(tài)的方法高出5個(gè)百分點(diǎn),因?yàn)楸舅惴▽?lái)自一段視頻的數(shù)據(jù)看成一個(gè)整體,而不是以單獨(dú)圖片來(lái)處理,可以更好地保存視頻內(nèi)的時(shí)空連續(xù)性信息,獲得更好的準(zhǔn)確率;而LPP是以靜態(tài)方式來(lái)處理視頻數(shù)據(jù),這樣就破壞了視頻語(yǔ)義信息,因此,通過(guò)合理的數(shù)據(jù)建模可以更好地實(shí)現(xiàn)基于視頻的人臉性別識(shí)別,能更好地契合當(dāng)前的發(fā)展應(yīng)用。
對(duì)于視頻人臉性別識(shí)別,本文提出了一種融合流形學(xué)習(xí)的算法,該算法不僅可以發(fā)現(xiàn)視頻人臉序列的時(shí)空連續(xù)性語(yǔ)義信息并進(jìn)行聚類融合,還能挖掘視頻人臉數(shù)據(jù)的本質(zhì)低維流形結(jié)構(gòu)。與已發(fā)表過(guò)的相關(guān)研究工作相比較,作者更側(cè)重于尋找一種合理的數(shù)據(jù)建模方法,盡量保留視頻整體的語(yǔ)義屬性。實(shí)驗(yàn)表明該算法較一般的靜態(tài)算法能夠有效地提高視頻人臉的識(shí)別準(zhǔn)確率。
這里仍然存在一些問(wèn)題留待將來(lái)繼續(xù)努力。比如,k-近鄰法中的k值如何確定尚未解決;如何更好地構(gòu)建視頻人臉數(shù)據(jù)模型;這些都將是下一個(gè)階段要繼續(xù)研究的問(wèn)題。
[1]Turk M,Pentland A.Face recognition using eigenfaces[C]//Proceedings of 1991 IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos,CA:IEEE,1991:586-591.
[2]Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfacesvs Fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,1997,19(7):711-720.
[3]He Xiaofei,Niyogi P.Locality Preserving Projections[C]//Proceedings of International Conference on Advances in Neural Information Processing Systems.MA:Cambridge,MIT,2004:153-160.
[4]尚曉清,宋宜美.一種基于擴(kuò)散映射的非線性降維算法[J].西安電子科技大學(xué)學(xué)報(bào),2010,37(1):30-135.
SHANG Xiao-qing,SONG Yi-mei.Nonlinear dimensionality reduction of manifolds by diffusion maps[J].Journal of Xidian University,2010,37(1):30-135.(in Chinese)
[5]Moghaddam B,Yang M H.Learning gender with support faces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(5):707-711.
[6]Baluja Shumeet,Rowley Henry A.Boosting sex identification performance[J].International Journal of Computer Vision,2007,71(1):111-119.
[7]嚴(yán)嚴(yán),章毓晉.基于視頻的人臉識(shí)別研究進(jìn)展[J].計(jì)算機(jī)學(xué)報(bào),2009,32(5):878-884.
YAN Yan,ZHANG Yu-jin.State-of-the-Art on Video-Based Face Recognition[J].Chinese Journal of Computers,2009,32(5):878-884.(in Chinese)
[8]Wang Huafeng,Wang Yunhong,Cao Yuan.Video-based face recognition:A survey[J].World Academy of Science,Engineering and Technology,2009,60:293-302.
[9]Hadid Abdenour,Pietik?inen Matti.Manifold learning for gender classification from face sequences[C]//Proceedings of the 3rd IAPR/IEEE International Conference on Biometrics.Alghero,Italy:IEEE,2009:82-91.
[10]Demirkus Meltem,Toews Matthew,Clark James J,et al.Gender classification from unconstrained video sequences[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010:55-62.
ZHANG Dan was born in Shanghai,in 1984.She received the B.S.degrees and the M.S.degree in2006 and 2010,respectively.She is now an assistant engineer.
Email:8767306@qq.com
An Improved Manifold-based Face Gender Recognition Algorithm for Video
ZHANGDan
(Southwest China Institute of Electronic Technology,Chengdu 610036,China)
How to fully utilize both spatial and temporal information in video to overcome the difficulties existing in the video-based face recognition,such as low resolution of face images in video,large variations of face scale,radical changes of illumination and pose as well as occasionally occlusion of different parts of faces,has become the research focus.In this paper,a novel manifold-based face gender recognition algorithm for video(VG-LPP)using clustering is proposed,which can discover more special semantic information hidden in video face sequence,simultaneously well utilize the intrinsic nonlinear structure information to extract discriminative manifold features.Comparison of VG-LPP with other algorithms on UCSD/Honda and the author′s own video databases shows that the proposed approach can perform better for video-based face gender recognition.
video-based face gender recognition;manifold;clustering;locality preserving projection;support vector machine
TN919;TP391.41
A
10.3969/j.issn.1001-893x.2012.06.041
1001-893X(2012)06-1031-04
2012-02-28;
2011-04-17
張 丹(1984—),女,上海人,2006年獲工學(xué)學(xué)位和經(jīng)濟(jì)學(xué)學(xué)位,2010年獲軟件工程碩士學(xué)位,現(xiàn)為助理工程師。