黃 蓓
(東南大學(xué)信息科學(xué)與工程學(xué)院,南京210096)
由于人臉屬于三維非剛性體對(duì)象,因此其圖像易受到多種因素的影響,如人臉的相似性、姿態(tài)的多樣性和光照影響等.傳統(tǒng)子空間分析方法[1-8]以所有樣本的最優(yōu)重構(gòu)為目的,主要衡量不同樣本間存在的分類誤差,但只能發(fā)現(xiàn)全局的歐式結(jié)構(gòu).當(dāng)數(shù)據(jù)呈現(xiàn)高度非線性時(shí),只能描述統(tǒng)計(jì)意義下的數(shù)據(jù)分布.為此,Seung等[9]從神經(jīng)生理學(xué)角度研究了流形學(xué)習(xí)問(wèn)題,提出了感知和視覺(jué)記憶以流形的形式存在,并從認(rèn)知學(xué)的角度指出圖像數(shù)據(jù)是高維空間中的流形.等距映射(isometric map)[10]和局部線性嵌入(locally linear embedding)[11]2 種流形學(xué)習(xí)算法實(shí)現(xiàn)了從高維數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu).而局部保持投影算法(locality preserving projections)[12]將線性映射引入到拉普拉斯特征映射中,實(shí)現(xiàn)了線性化投影.此外,提高人臉識(shí)別精度還可以通過(guò)分類訓(xùn)練的方式實(shí)現(xiàn)[13].
LDE算法[14]不僅利用樣本數(shù)據(jù)間近鄰關(guān)系來(lái)保持局部性,還引入了類別標(biāo)記信息,其目的是保持其類內(nèi)緊湊性的同時(shí),增加類間可分性.但該算法同樣面臨高維小樣本問(wèn)題和致密矩陣的分解問(wèn)題,需要消耗很大的時(shí)間和空間,而譜回歸算法能夠很好地解決這些問(wèn)題,因此,本文以LDE算法為基礎(chǔ),提出了相應(yīng)的修正算法.
LDE算法的目標(biāo)函數(shù)為
式中,X表示圖的高維空間觀察數(shù)據(jù)集;D和DP為對(duì)角矩陣;W和WP為權(quán)重矩陣,且
定理1設(shè)y是Ly=λBy的特征值λ對(duì)應(yīng)的特征向量,若y=XTa,則a是XLXTa=λXBXTa的廣義特征值λ對(duì)應(yīng)的特征向量.
為了使得y=XTa有解,使用正則化最小二乘法對(duì)a添加L2范數(shù)懲罰項(xiàng)求取近似解:
式(2)的最優(yōu)解為:a*=(XTX+μI)-1XTy.其中 μ為控制收縮的參數(shù),選擇合適的μ值能減小偏差,達(dá)到最佳效果.
當(dāng)μ>0時(shí),a*不能滿足線性方程y=XTa,且a不是XLXTa=λXBXTa的特征向量.
定理2若y=XTa是Ly=λBy的特征向量,且y在X的行向量張成的空間,當(dāng)μ趨于0時(shí),投影向量a是XLXTa=λXBXTa的特征向量.
推論1若y是(D-W)y=λ(DP-WP)y的特征向量,且 y=XTa,則 a是 X(D-W)XTa=λX(DP-WP)XTa對(duì)應(yīng)的特征向量.
證明
式中,y即為高維數(shù)據(jù)X的低維嵌入.為了得到投影向量a,對(duì)方程y=XTa進(jìn)行分析,并最終采用嶺回歸方法求解,可得
當(dāng)μ>0時(shí),式(3)正則解不能滿足線性方程y=XTa.
推論2若y=XTa是(D-W)y=λ(DPWP)y的特征向量,且y在X的行向量張成的空間,當(dāng)μ趨于0時(shí),投影向量a是X(D-W)XTa=λX(DP-WP)XTa的特征向量.
證明假設(shè)rank(X)=r,對(duì)X進(jìn)行奇異值分解,即
式中,Λ =diag(σ1,σ2,…,σr),U∈Rn×r,V∈Rm×r,UTU=VTV=I.y 存在于 X 的行向量張成的空間中,則y也存在于V的列向量張成的空間中.因此,y可以被V的列向量的線性組合所代替.另外,因?yàn)閂是線性獨(dú)立的,因此這種組合方式是唯一的.假設(shè)組合系數(shù)是,則
為了進(jìn)一步證明,引入偽逆的概念,X的偽逆可表述為X+=VΛ-1UT或若XTX是奇異矩陣,可知(XTX)-1不存在,則式(3)的最小二乘解為
聯(lián)合式(4),可得
所以,a為X(D-W)XTa=λX(DP-WP)XTa的特征向量.
傳統(tǒng)的流形學(xué)習(xí)求解方法是先得到投影向量a,再通過(guò)投影向量獲得測(cè)試數(shù)據(jù)集X.但該方法是先計(jì)算訓(xùn)練樣本的特征向量y,然后再通過(guò)回歸方法計(jì)算投影向量a,最后得到測(cè)試數(shù)據(jù)集X.基于上述分析,SR-LDE算法不需要進(jìn)行n×n維的致密矩陣的特征分解,其特征分解的矩陣為m×m維.在人臉圖像中,人臉特征的維數(shù)n通常遠(yuǎn)遠(yuǎn)大于人臉樣本數(shù)m,即m?n,從而有效地降低了算法的復(fù)雜性.
SR-LDE算法雖然解決了高維小樣本應(yīng)用中矩陣奇異的問(wèn)題,避免了致密矩陣的分解,但該算法通過(guò)求解廣義特征值而得到的投影矩陣是非正交的,不利于特征的提取,不能夠準(zhǔn)確估計(jì)高維樣本集的內(nèi)在維數(shù),從而削弱了對(duì)測(cè)試樣本的泛化能力,影響了算法的識(shí)別率.為此,本文將求得的低維投影向量進(jìn)行Gram-Schmidt正交化計(jì)算,則不但能夠?qū)崿F(xiàn)正交化約束,且計(jì)算簡(jiǎn)單,易于實(shí)現(xiàn).
假設(shè) y={y1,y2,…,yd}是降維后特征值 λ={λ1,λ2,…,λd}對(duì)應(yīng)的特征向量,且 λ1<λ2<…<λd,d為降維后低維子空間的維數(shù),則SR-LDE算法中求得的投影矩陣為 A=[a1,a2,…,ad].
令b1=a1,設(shè)k-1個(gè)正交基向量分別為b1,b2,b3,…,bk-1,則第 k 個(gè)向量可根據(jù)下式計(jì)算:
盡管B是正交矩陣,但不是單位正交化的標(biāo)準(zhǔn)正交基.因此,要添加約束使其滿足BBT=I,則H是主對(duì)角元的模均為1的上三角矩陣.
因?yàn)樵队熬仃嚨暮瘮?shù)為
SR-OLDE的正交變換矩陣 B=AH,計(jì)算JSR-LDE(B)可得
由上述推導(dǎo)過(guò)程可看出,經(jīng)過(guò)施密特正交化操作后,不會(huì)改變算法中優(yōu)化問(wèn)題的解.B=[b1,b2,…,bd]即為所求的標(biāo)準(zhǔn)正交投影矩陣.
為了驗(yàn)證本文提出的SR-OLDE算法在人臉識(shí)別系統(tǒng)中能夠取得良好的效果,采用ORL人臉庫(kù)進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)環(huán)境為Pentium Dual-Core CPU E5400,主頻2.70 GHz,2 GB 內(nèi)存.設(shè) μ =0.01.下面通過(guò)比較 SR-OLDE算法和 PCA,LDA,LPP,LDE,SR-LDE算法的實(shí)驗(yàn)效果,來(lái)展現(xiàn)SR-OLDE的性能.
ORL人臉庫(kù)由劍橋大學(xué)AT&T實(shí)驗(yàn)室創(chuàng)建,包括40個(gè)人,每人10幅,共400幅面部圖像,其中有些人臉圖像是在不同時(shí)期拍攝的.ORL人臉庫(kù)中每個(gè)人的不同圖像均具有不同的表情和面部細(xì)節(jié),如笑或不笑,戴或不戴眼鏡,眼睛睜開或閉著.所有圖像均是大致正面圖像(部分側(cè)轉(zhuǎn)旋轉(zhuǎn)角度不超過(guò)20°),人臉尺度變化不超過(guò)10%,每幅圖像的分辨率為92×112像素.在本實(shí)驗(yàn)中,所有圖像的大小均被歸一化至64×64像素.
實(shí)驗(yàn)時(shí),隨機(jī)選取每個(gè)人的 G(G=2,3,4,5)幅圖像作為訓(xùn)練集,其余10-G個(gè)樣本作為測(cè)試集,為了消除隨機(jī)因素的影響,對(duì)每個(gè)選定的G,其隨機(jī)選擇過(guò)程都重復(fù)10次,且每次實(shí)驗(yàn)相互獨(dú)立,實(shí)驗(yàn)的最終結(jié)果是這10次實(shí)驗(yàn)所取的平均值.針對(duì)不同訓(xùn)練樣本數(shù),各種算法的最優(yōu)實(shí)驗(yàn)結(jié)果如表1所示.由于在不同訓(xùn)練樣本數(shù)和測(cè)試樣本數(shù)時(shí)算法識(shí)別率和維數(shù)之間的關(guān)系是類似的,因此本文選擇G2/P8(G2/P8表示訓(xùn)練樣本數(shù)為2,測(cè)試樣本數(shù)為8)繪制維數(shù)和識(shí)別率之間的關(guān)系圖,如圖1所示.
表1 不同訓(xùn)練樣本時(shí)的各算法人臉識(shí)別率 %
圖1 不同算法的識(shí)別率與維數(shù)間的關(guān)系
由以上實(shí)驗(yàn)結(jié)果分析可知,無(wú)論是傳統(tǒng)的子空間降維算法,還是流形學(xué)習(xí)算法,隨著測(cè)試樣本數(shù)量的增加,各種算法的識(shí)別率都提高了,而流形學(xué)習(xí)算法較傳統(tǒng)降維方法取得了更好的識(shí)別效果.本文SR-OLDE算法的實(shí)驗(yàn)效果最好,因?yàn)樗褂米V回歸算法求解,在解決小樣本問(wèn)題的同時(shí)避免了致密矩陣的分解,另外,又采用Gram-Schmidt正交方法實(shí)現(xiàn)了投影矩陣的正交化,從而提高了識(shí)別率.
傳統(tǒng)的圖嵌入算法在處理大規(guī)模高維數(shù)據(jù)集時(shí),通常由于計(jì)算復(fù)雜度較高,不宜直接應(yīng)用,而譜回歸算法的提出可以避免致密矩陣的分解,有效地解決了大規(guī)模高維數(shù)據(jù)集的廣義特征值問(wèn)題,從而縮短了計(jì)算時(shí)間.ORL人臉庫(kù)不同訓(xùn)練樣本數(shù)所需的訓(xùn)練時(shí)間如表2所示.其中,SR-OLDE算法訓(xùn)練所需時(shí)間比SR-LDE所需時(shí)間長(zhǎng),這是因?yàn)檫M(jìn)行正交化計(jì)算需要一定的計(jì)算時(shí)間.
表2 不同訓(xùn)練樣本數(shù)所需訓(xùn)練時(shí)間 s
在人臉識(shí)別過(guò)程中,由于流形學(xué)習(xí)算法比傳統(tǒng)的子空間降維算法具有更好的識(shí)別效果,因此本文選擇LDE算法作為研究對(duì)象.為改善LDE算法的高維小樣本泛化能力弱和致密矩陣分解計(jì)算量大等問(wèn)題,首先通過(guò)引入譜回歸算法,提出了 SRLDE算法.然后,考慮到投影向量若非正交,則不利于特征提取和準(zhǔn)確估計(jì)高維數(shù)據(jù)集的內(nèi)在維數(shù),從而削弱了測(cè)試樣本的泛化能力,影響識(shí)別率,因此,將Gram-Schmidt正交化方法引入到SR-LDE算法中,提出了SR-OLDE算法.最后,將改進(jìn)的算法在ORL人臉庫(kù)中進(jìn)行測(cè)試.實(shí)驗(yàn)結(jié)果證明,SROLDE算法在識(shí)別率和計(jì)算速度方面都取得了比較好的效果.
References)
[1]Wiskott L,F(xiàn)ellous J,Kruger N,et al.Face recognition by elastic bunch graph matching[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):775-779.
[2]Kumar P P,Vadakkepat P,Loh A P.Graph matching based hand posture recognition using neuro-biologically inspired features[C]//11th International Conference on Control Automation Robotics and Vision.Singapore,2010:1151-1156.
[3]Kshirsagar V P,Baviskar M R,Gaikwad M E.Face recognition using Eigenfaces[C]//3rd International Conference on Computer Research and Development.Shanghai,China,2011:302-306.
[4]Huang S M,Yang J F.Subface hidden Markov models coupled with a universal occlusion model for partially occluded face recognition[J].IET Biometrics,2012,1(3):149-159.
[5]Du S,Shehata M,Badawy W.A novel algorithm for illumination invariant DCT-based face recognition[C]//25th IEEE Canadian Conference on Electrical and Computer Engineering.Montreal,QC,Canada,2012:1-4.
[6]Maria D M,Michele N,Daniel R,et al.Robust face recognition for uncontrolled pose and illumination changes[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems,2013,43(1):149-163.
[7]He Y,Jin B,Yang S.Improving BP neural network for the recognition of face direction[C]//International Symposium on Computer Science and Society.Kota Kinabalu,Malaysia,2011:79-82.
[8]Jing X Y,Sun J,Yao Y F,et al.Supervised and unsupervised face recognition method based on 3CCA[C]//International Conference on Automatic Control and Artificial Intelligence.Xiamen,China,2012:2009-2012.
[9]Seung H S,Lee D D.The manifold ways of perception[J].Science,2000,290(5500):2268-2269.
[10]Tenenbaum J B,de Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.
[11]Roweis S T,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.
[12]He X F,Yan S C,Hu Y X,et al.Face recognition using Laplacianfaces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):328-340.
[13]Brenda F K,Mark J B,Joshua C K,et al.Face recognition performance:role of demographic information[J].IEEE Transactions on Information Forensics and Security,2012,7(6):1789-1801.
[14]Chen H T,Chang H W,Liu T L.Local discriminant embedding and its variants[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA,2005:846-853.