王燕, 劉花麗, 蘇文君
WANG Yan , LIU Huali, SU Wenjun
蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,甘肅 蘭州 730050
College of Computer and Communication, Lanzhou University of Technology, Lanzhou 730050, China
人臉識(shí)別因其在身份驗(yàn)證和識(shí)別場合具有巨大的應(yīng)用價(jià)值,以及對(duì)模式識(shí)別理論的發(fā)展具有重要的學(xué)術(shù)意義而備受關(guān)注。在人臉識(shí)別中,如何有效地從高維數(shù)據(jù)中提取具有高可分性的低維特征是特征提取的關(guān)鍵。而眾多度量可分性準(zhǔn)則的算法中,主成分分析(PCA)[1]和線性判別分析(LDA)[2]是最具有代表性的算法。
近幾年涌現(xiàn)出許多流形學(xué)習(xí)方法來發(fā)現(xiàn)人臉圖像數(shù)據(jù)中的非線性流形結(jié)構(gòu),如等距映射(ISOmetric MAPping,ISOMAP)[3]、局部線性嵌入(Locally Linear Embedding,LLE)[4]、拉普拉斯特征映射(Laplacian Eigenmap,LE)[5]。但是,以上三種方法應(yīng)用于人臉識(shí)別時(shí)不能有效的處理新來的樣本點(diǎn)[6]。為了克服這一問題,學(xué)者們將線性映射的思想引入人臉識(shí)別,較為典型的算法包括局部保持投影(Locality Preserving Projection,LPP)[7]、邊界 Fisher分析(Marginal Fisher Analysis,MFA)[8]和無監(jiān)督判別投影(Unsupervised Discriminant Projection,UDP)[9]。這些算法旨在保留原始人臉圖像數(shù)據(jù)中的局部鄰域信息,從而試圖發(fā)現(xiàn)隱藏在人臉圖像數(shù)據(jù)中內(nèi)在的低維非線性局部結(jié)構(gòu)。然而當(dāng)有類別標(biāo)簽的人臉樣本數(shù)據(jù)不足時(shí),有監(jiān)督算法的泛化能力降低。需要說明的是,獲取樣本的類別信息十分耗時(shí),而無標(biāo)簽的數(shù)據(jù)相對(duì)來說容易得到,半監(jiān)督分類利用大量廉價(jià)的無標(biāo)簽樣本信息來增加分類的精確度[10]。而這些算法都是線性的,不能更好地發(fā)掘樣本中的高階非線性因素。隨著核函數(shù)在支持向量機(jī)(Support Vector Machine,SVM) 中的成功應(yīng)用, 出現(xiàn)了如核鄰域保持投影(KernelNPP,KNPP)[11]及核無監(jiān)督判別分析(KernelUDP,KUDP)[12]等非線性子空間方法,更好地發(fā)掘人臉受光照、姿態(tài)和表情等影響的非線性因素。但對(duì)于分類問題不能提取出最具有鑒別性的特征。文獻(xiàn)[13]提出核空間正交及不相關(guān)鄰域保持鑒別嵌入算法,能夠利用樣本的類別信息,但是不能充分利用無標(biāo)記樣本信息。
為此,本文針對(duì)非線性和有標(biāo)記樣本不足問題,提出了一種基于核正交半監(jiān)督鑒別分析的人臉識(shí)別算法。在核空間,其目標(biāo)函數(shù)是在監(jiān)督算法MFA的基礎(chǔ)上,將UDP的局部和非局部散度矩陣引入,改進(jìn)為半監(jiān)督的算法,同時(shí)保證各向量正交。該算法不僅能有效地提取人臉圖像的非線性結(jié)構(gòu)信息,而且將監(jiān)督算法浪費(fèi)的無標(biāo)簽樣本和無監(jiān)督算法沒有利用分類的標(biāo)簽信息充分利用,進(jìn)一步提高了分類的魯棒性。
MFA的目標(biāo)是將k1近鄰的樣本拉近的同時(shí)將k2近鄰的樣本推遠(yuǎn)。其好處是避免少數(shù)幾個(gè)相距較遠(yuǎn)的樣本主導(dǎo),避免了 LDA滿足高斯分布這一條件。假設(shè){(x1, l1),(x2, l2),…,(xN,lN)}為人臉訓(xùn)練樣本數(shù)據(jù)集,其中,xi∈RD表示一個(gè)D維向量,li∈L={1,2,…,c}是樣本xi的類別標(biāo)簽,L為類別標(biāo)簽集。數(shù)據(jù)點(diǎn)xi通過投影矩陣WD×d可以得到低維映射yi∈Rd,d<D ,即
MFA定義類內(nèi)散布矩陣Sw來表示同類數(shù)據(jù)點(diǎn)的集中程度:
UDP是Yang等[9]人提出的一種流形學(xué)習(xí)的線性化算法。除了反映人臉樣本間的內(nèi)在數(shù)據(jù)關(guān)系外,還能夠?qū)θ四槝颖具M(jìn)行有效分類。UDP的目標(biāo)就是最大化非局部散度與局部散度的比,得到有效的分類方向,從而使樣本數(shù)據(jù)點(diǎn)在該方向上投影。為此,我們定義一個(gè)N×N的鄰接矩陣H如下所示:
局部散度 JL(W)能夠?qū)⒏呔S空間中靠的近的樣本點(diǎn)降到低維空間中仍然保持近鄰關(guān)系,其定義如下:
非局部散度 JN(W)不同于局部散度,是將高維空間中非近鄰的樣本點(diǎn)降維后保持疏遠(yuǎn)關(guān)系。其定義如下:
局部散度矩陣SL、非局部散度矩陣SN分別定義為:
基于UDP準(zhǔn)則思想,最小化局部散度的同時(shí)最大化非局部散度。其目標(biāo)函數(shù)定義如下:
將高維空間中同類近鄰的人臉樣本點(diǎn)在低維空間中仍然保持近鄰關(guān)系,而異類近鄰點(diǎn)在低維空間中保持疏遠(yuǎn)關(guān)系。同時(shí),考慮到有標(biāo)記的人臉樣本不足問題,將MFA和UDP進(jìn)行結(jié)合,其目標(biāo)函數(shù)形如UDA[14](UDP—based Discriminant Analysis)表示如下:
其中:Sb和Sw通過有標(biāo)簽人臉訓(xùn)練樣本計(jì)算而來,即 MFA算法中的類間散布矩陣和類內(nèi)散布矩陣。JN和JL是通過全部數(shù)據(jù)集計(jì)算出來的,即UDP算法中的非局部散布矩陣和局部散布矩陣。α和β用來調(diào)節(jié)JN和JL的貢獻(xiàn)度的常系數(shù)。
假設(shè)存在一個(gè)非線性映射φ:RD→H,H表示高維內(nèi)積空間。φ(xi)是xi在H中的值,對(duì)于空間H中φ(xi)與φ(xj)間的距離,定義為,其中,是核矩陣K的(i, j)個(gè)元素。表示H中的內(nèi)積運(yùn)算,稱為核函數(shù)。常用的核函數(shù)主要包括:1)線性核函數(shù):多項(xiàng)式核函數(shù):K(x, y)=(1+xTy)d;3)高斯核函數(shù):
本文算法的目的是對(duì)H中數(shù)據(jù)點(diǎn)φ(X)=[φ(x1),φ(x2),…,φ(xN+M)]通過線性映射 Z=WTφ(x)進(jìn)行降維,并將人臉圖像映射為l維空間中的新樣本數(shù)據(jù)點(diǎn): Z=[z1, z2,…,zN+M]。核空間轉(zhuǎn)換矩陣中的W={w1,w2,…,wn}的列向量wt(1 ≤t≤n)是 由φ(X)=[φ(x1),φ(x2),…,φ(xN+M)]張成,故存在一組系數(shù)B={b1, b2,… bN+M},使得
則可定義核空間類內(nèi)散布矩陣如下:
其中 KN=φ(XN)Tφ(X)。
核空間類間散布矩陣為:
核空間局部散度矩陣如下所示:
其中 K=φ(X)Tφ(X)。
核空間非局部散度矩陣表示如下:
本文算法旨在尋求一組滿足正交條件且最大化核空間目標(biāo)函數(shù)的基向量。核正交半監(jiān)督鑒別分析的目標(biāo)函數(shù)表示如下:
利用拉格朗日乘數(shù),以上受約束最小化問題可以轉(zhuǎn)換成如下方程:
最終通過對(duì)以上方程求解可得:
bk為方程(18)的最小特征值對(duì)應(yīng)的特征向量。其中,最后得到核空間的投影矩陣 B=[b1, b2,…,bl],對(duì)于輸入樣本xi,其在核空間的半監(jiān)督鑒別分析即為;其中 表示 的第 個(gè)元zmi素。
核正交半監(jiān)督判別分析步驟如下:
Setp 1.選擇合適的核函數(shù),將人臉的訓(xùn)練集樣本數(shù)據(jù)映射至高維特征空間。
Step2.構(gòu)造近鄰圖。對(duì)任意 xi∈XN,選擇人臉圖像的同類點(diǎn)鄰域,異類點(diǎn)鄰域以及全局鄰域。
Setp3.根據(jù)式(11)、(12)、(13)和(14),分別計(jì)算人臉訓(xùn)練集數(shù)據(jù)在H 中的Sw、Sb、JL和JN。
Step4.求解式(16)和(18),得到l個(gè)最大特征值對(duì)應(yīng)的一組特征向量 B=[b1, b2,…,bl]。
Step5.對(duì)人臉的訓(xùn)練樣本和測試樣本進(jìn)行非線性降維,采用最近鄰分類器對(duì)特征分類,確定人臉測試樣本集所屬的類別。
在ORL和YALE人臉庫上分別進(jìn)行實(shí)驗(yàn)來驗(yàn)證本文算法的性能,并與PCA,LDA,LPP,MFA、UDP進(jìn)行對(duì)比。實(shí)驗(yàn)中,參數(shù)α和β均設(shè)置為0.1,采用了高斯核函數(shù)k(x, y)=exp(),式中高斯核參數(shù)中的δ為經(jīng)驗(yàn)值,取δ=5.5e+7。LPP、MFA、UDP以及本文算法中k近鄰參數(shù)k取 3。實(shí)驗(yàn)用最近鄰分類器來分類,識(shí)別率取 10次實(shí)驗(yàn)的最大平均值。所有人臉圖像為灰度圖像,本文使用的人臉圖像經(jīng)裁剪后大小均為32×32像素。
ORL人臉庫是由英國劍橋大學(xué)建立,包括 40個(gè)人,每個(gè)人10張112×92的在不同時(shí)間采集的正面人臉圖像組成。其中包括不同視角、不同表情(高興、微笑、生氣、吃驚、閉眼、睜眼等)和不同面部細(xì)節(jié)(戴或不戴眼鏡、有或無胡須、不同發(fā)型),人臉姿態(tài)有變化和旋轉(zhuǎn)不超過 20°。圖 1所示的是來自O(shè)RL人臉庫的某一人的10張圖像。
圖1 ORL人臉庫圖像示例
對(duì)于 ORL人臉庫的實(shí)驗(yàn)驗(yàn)證,隨機(jī)地從每個(gè)人的圖片中選擇 L(L=3,4,…,7)張圖片作為訓(xùn)練樣本,余下的10-L張圖片作為測試樣本。其中,監(jiān)督算法LDA和MFA在訓(xùn)練時(shí)所采用的全是具有標(biāo)簽信息的訓(xùn)練樣本。而在本文算法訓(xùn)練時(shí)只需要使用到2個(gè)帶有標(biāo)簽的人臉樣本,余下的訓(xùn)練樣本就是把標(biāo)簽信息去掉的樣本。如下表1為六種算法分別在不同訓(xùn)練樣本的情況下識(shí)別率的對(duì)比,而圖2是這六種算法均采用4個(gè)訓(xùn)練樣本降到不同維數(shù)的識(shí)別率的對(duì)比。
表1 ORL人臉庫上的識(shí)別結(jié)果比較
MFA 85.68 90.80 93.38 95.63 96.72 UDP 84.92 90.23 93.24 94.58 96.53本文算法 91.59 95.47 97.86 98.16 98.78
圖2 ORL人臉庫的4Train的識(shí)別率
從表1和圖2可以看出,本文算法在ORL人臉庫上能夠取得最高的識(shí)別率。在有標(biāo)記訓(xùn)練樣本為2張人臉,并利用其余無標(biāo)記樣本時(shí),本文算法在維數(shù)為38時(shí)達(dá)到最高識(shí)別率95.47%,且在特征維數(shù)達(dá)到38以后, 基本穩(wěn)定在一個(gè)特定范圍。同時(shí)可看出,MFA和UDP算法的識(shí)別率高于LDA和PCA算法的識(shí)別率。
YALE人臉庫由15個(gè)人,每個(gè)人有11張共165張圖像組成。這些圖像在光照條件下變化比較大,而且面部表情(正常、驚訝、傷心、開心和眨眼等)和細(xì)節(jié)(戴或不戴眼鏡、有或無胡須)也有比較明顯的變化。YALE人臉庫中的某一個(gè)人的11張圖像如圖3所示。
圖3 YALE人臉庫圖像示例
在YALE人臉庫實(shí)驗(yàn)中,也是隨機(jī)地從每個(gè)人的圖像中選取 L(L=3,4,…,7)張圖片作為訓(xùn)練樣本,而余下11-L張作測試樣本。在YALE中對(duì)于帶有標(biāo)簽信息和不帶標(biāo)簽信息的人臉樣本選取和 ORL相同。如下表2為六種算法在不同訓(xùn)練樣本情況下識(shí)別率的對(duì)比,而圖4是六種算法均采用4個(gè)訓(xùn)練樣本降到不同維數(shù)的識(shí)別率的對(duì)比。
表2 YALE人臉庫上的識(shí)別結(jié)果比較
PCA 49.32 53.74 56.03 58.60 60.53 LDA 58.47 69.80 73.62 78.31 79.65 LPP 68.35 76.76 77.24 80.33 83.85 MFA 68.15 77.37 81.12 83.68 86.03 UDP 68.23 77.14 79.58 82.39 85.80本文算法 71.53 81.52 83.17 85.45 89.86
圖4 YALE人臉庫的4Train的識(shí)別率
從表2和圖4可以看出,由于YALE庫的圖像受姿態(tài)、光照、表情變化的干擾較大,因此文中所列的所有方法的識(shí)別率相對(duì)較低。從實(shí)驗(yàn)結(jié)果可以看出,PCA和LDA保持全局線性結(jié)構(gòu)進(jìn)行維數(shù)約減,不能很精確地描述非線性流形,其識(shí)別率最低。本文算法在維數(shù)為54時(shí)達(dá)到最高識(shí)別率81.52%,高于LPP,MFA及UDP的識(shí)別率。LPP,MFA和UDP算法最高識(shí)別率分別為 76.76%,77.37%和77.14%,它們的特征維數(shù)分別為28,39和56時(shí)取得最大識(shí)別率。
本文算法在MFA的基礎(chǔ)上,將無監(jiān)督UDP加入到目標(biāo)函數(shù)中,并引入核技巧在保證特征空間各向量相互正交的條件下,可得到利于有效分類的投影矩陣。實(shí)驗(yàn)表明,本文算法對(duì)于姿態(tài)、表情、光照等變化體現(xiàn)出極強(qiáng)的魯棒性,相比其它幾種算法,識(shí)別效果是最優(yōu)的。該算法在核空間中利用了樣本空間的判別信息和局部幾何結(jié)構(gòu),當(dāng)僅有少量的標(biāo)簽樣本時(shí),可以利用大量的無標(biāo)簽樣本幫助估計(jì)數(shù)據(jù)的流形結(jié)構(gòu),提高學(xué)習(xí)性能。作為識(shí)別來說,更多的特征將會(huì)引入不利于分類的信息,當(dāng)維數(shù)達(dá)到一定的程度,識(shí)別率不再會(huì)因維數(shù)的增加而提高,甚至可能有所下降。而MFA僅僅利用有限的有標(biāo)簽樣本,LPP、UDP利用無標(biāo)簽樣本,同時(shí)這些算法實(shí)質(zhì)上是線性的,所以識(shí)別率低于本文算法。PCA的識(shí)別率低于LDA,這是由于PCA是無監(jiān)督的。LDA的識(shí)別率要比MFA低,MFA的識(shí)別率也比本文算法低,這說明核正交半監(jiān)督鑒別分析能夠取得比較理想的性能。
本文針對(duì)流形學(xué)習(xí)算法中非線性和有標(biāo)簽樣本不足問題,提出了一種核正交半監(jiān)督鑒別分析的人臉識(shí)別方法,使用高斯核函數(shù),在核空間中提取人臉非線性特征,并保證各向量間相互正交,從而更有效的提取出人臉非線性局部結(jié)構(gòu)。算法既能充分利用有標(biāo)記樣本的監(jiān)督信息,又能挖掘出隱藏在無標(biāo)記數(shù)據(jù)中的潛在信息,很好的保持了數(shù)據(jù)的局部和全局信息。然而,由于核函數(shù)的選擇都是根據(jù)經(jīng)驗(yàn)來選取的,至今還沒有一個(gè)確定的理論依據(jù)和選擇標(biāo)準(zhǔn)。因此,如何更有效地利用核空間發(fā)掘人臉圖像中非線性高維數(shù)據(jù)的本質(zhì)的、內(nèi)在的結(jié)構(gòu)將是今后的一個(gè)研究方向。
[1]Turk M,Pentl and A.Eigenface for recognition [J].Journal of Cognitive Neuroscience, 1991, 3(1):72-86.
[2]Belhumeur P,Hespanha J,Kriegmand D.Eigenfaces vs.Fisherfaces:Recognition using class specific linear projection[J].Pattern Analysis and Machine Intelligence,1997, 19(7) :711-720.
[3]Tenenbaum J B,Desilva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science, 2000, 290(5500):2319-2323.
[4]Roweiss L,Saul L.Nonlinear dimensionality reduction by locally linear embedding[J].Science, 2000,290(5500):2323-2326.
[5]Belkin M,Niyogi P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation, 2003, 15(6):1373-1396.
[6]Bengio Y,Palement J,Vincent P,et al.Out-of-sample extensions for LLE, isomap, MDS, eigenmaps, and spectral clustering[J].Neural Computation, 2004, 16(10):2179-2219.
[7]He Xiaofei, Yan Shuicheng, Hu Yuxiao, et al.Face Recognition Using Laplacianfaces[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27(3):328-340.
[8]Yan Shuicheng, Xu Dong, Zhang Benyu, et al.Graph Embedding and Extensions:A General Framework for Dimensionality Reduction[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 29(1):40-51.
[9]Yang Jian,Zhang D,Yang Jingyu,et al.Globally Maximizing, Locally Minimizing:Unsupervised Discriminant Projection with Applications to Face and Palm Biometrics[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 29(4):650-664.
[10]魏萊,王守覺.基于流形距離的半監(jiān)督判別分析[J].軟件學(xué)報(bào),2010, 21(10):2445-2453.
[11]龐彥偉,俞能海,沈道義,劉政凱.基于核鄰域保持投影的人臉識(shí)別[J].電子學(xué)報(bào),2006,34(8):1542-1544.
[12]王慶軍,張汝波,潘海為.核正交UDP及其在人臉識(shí)別中的應(yīng)用[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2010,22(10):1783-1787.
[13]劉冠群,王慶軍,張汝波,潘海為.核空間正交及不相關(guān)鄰域保持鑒別嵌入算法[J].哈爾濱工程大學(xué)學(xué)報(bào),2011,32(7):938-942.
[14]Qiu H N, Lai J H, Huang J, et al.Semi-supervied discriminant analysis based on UDP regularization[C].Proc of the 19th International Conference on Pattern Recognition.Tampa:IEEE, 2008:1-4.