胡偉鵬,胡海峰,顧建權(quán),李昊曦
(中山大學(xué)電子與信息工程學(xué)院,廣東 廣州 510006)
核主成分分析網(wǎng)絡(luò)的人臉識別方法
胡偉鵬,胡海峰,顧建權(quán),李昊曦
(中山大學(xué)電子與信息工程學(xué)院,廣東 廣州 510006)
主成分分析網(wǎng)絡(luò)(principal component analysis network, PCANet) 是當(dāng)前流行深度學(xué)習(xí)模型,在人臉識別、目標(biāo)識別、紋理分類和手寫體數(shù)字識別等方面有廣泛應(yīng)用。在PCANet方法基礎(chǔ)上, 該文提出基于核主成分分析網(wǎng)絡(luò)(kernel principal component analysis network, KPCANet)的人臉識別方法。算法由四部分組成:主成分分析(PCA)、核主成分分析(KPCA)、二值化哈希、分塊直方圖。在 Extended Yale B和AR 兩個經(jīng)典人臉庫上的實(shí)驗(yàn)結(jié)果表明,所提方法在識別性能上優(yōu)于PCANet方法 ,算法對于不同光照、表情變化下的人臉有更好的識別率和魯棒性。
核主成分分析網(wǎng)絡(luò);深度學(xué)習(xí);人臉識別 ;核變換
基于視覺語義的人臉圖像分類一直是一個充滿挑戰(zhàn)的研究領(lǐng)域,不僅待識別的人臉圖像種類多,在每一類內(nèi)部也存在較大差別,包括光照變化、對齊因素、形變因素、遮擋因素等等。針對這些問題,學(xué)者們做了各種努力,提出不同的模型方法來應(yīng)對。當(dāng)前,人臉識別方法大致分為三類:基于幾何特征的方法、基于模板的方法(特征臉、線性判別分析、神經(jīng)網(wǎng)絡(luò)等)和基于模型的方法[1-3]。深度學(xué)習(xí)方法作為機(jī)器學(xué)習(xí)的一個研究領(lǐng)域近幾年受到廣泛關(guān)注。該方法模擬大腦的深度組織結(jié)構(gòu),通過組合低層特征獲取更抽象、更有效的高層語義信息。許多學(xué)者對深度學(xué)習(xí)進(jìn)行了廣泛的研究,提出各種不同架構(gòu)的深度學(xué)習(xí)方法。Lee等[4]提出卷積深度置信網(wǎng)絡(luò)(convolutional deep belief networks, CDBN),能夠提取圖像高級別視覺特征。Christian等[5]提出深度神經(jīng)網(wǎng)絡(luò) (deep neural networks, DNNs),能提取圖像幾何信息達(dá)到更好分類效果,但存在過擬合和運(yùn)算量大等缺點(diǎn)。Christian等[6]又提出卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs),存在網(wǎng)絡(luò)參數(shù)少和簡化訓(xùn)練的優(yōu)點(diǎn)。
主成分分析網(wǎng)絡(luò) (principal component analysis network, PCANet)在人臉識別、目標(biāo)識別、紋理分類和手寫體數(shù)字識別等方面有廣泛應(yīng)用[7],該模型的提出對已有傳統(tǒng)深度學(xué)習(xí)模型(例如卷積網(wǎng)絡(luò)結(jié)構(gòu)以及小波分散式網(wǎng)絡(luò)結(jié)構(gòu))構(gòu)成一定的挑戰(zhàn)[8-9]。值得指出的是,傳統(tǒng)PCANet方法的兩層PCA變換只起擴(kuò)大感受視野作用,PCA層非線性擬合能力較差。針對這些問題,我們在PCANet的基礎(chǔ)上,通過引入核 (kernel) 變換[10-11],將數(shù)據(jù)映射到線性可分高維空間,進(jìn)行降維操作并獲取濾波器,提高模型的非線性擬合能力。本文提出的新型核主成分分析網(wǎng)絡(luò) (kernel principal component analysis network, KPCANet) 方法由4部分組成:主成分分析(PCA),核主成分分析(kernel principal component analysis,KPCA), 二值化哈希,分塊直方圖。實(shí)驗(yàn)表明KPCANet對于變化的光照和不同表情人臉圖像有更佳的識別效果,顯示了更好的魯棒性。
PCANet深度網(wǎng)絡(luò)是對當(dāng)前流行的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)與哈希直方圖方法的一個結(jié)合[6-12]。其PCA層對應(yīng)CNNs網(wǎng)絡(luò)中的卷積層,起到了神經(jīng)元局部感受野和權(quán)值共享的作用,哈希層則起到了非線性擬合與降維功能,對應(yīng)CNNs中的激活函數(shù)與池化層。進(jìn)行兩層PCA層主要能起到擴(kuò)大感受視野的作用,PCA層只進(jìn)行線性變換,非線性擬合能力較差,不能保證原數(shù)據(jù)集是線性可分的。針對這一問題我們將原網(wǎng)絡(luò)結(jié)構(gòu)中的第二層PCA層換成KPCA層,數(shù)據(jù)在第一層PCA卷積層輸出以后將被非線性映射到高維核空間中進(jìn)行PCA降維,該過程與卷積網(wǎng)絡(luò)中對卷積層線性變化后經(jīng)過激活函數(shù)處理的操作有類似的思想[6],整個KPCA網(wǎng)絡(luò)進(jìn)行兩層卷積+激活函數(shù)層,進(jìn)行降維與分類(算法流程如圖1所示)。這一處理相比PCANet,能提高模型的非線性擬合能力,達(dá)到提升分類精度的效果。
1.1 第一層變換
(1)
圖1 核主成分分析網(wǎng)絡(luò)(兩層結(jié)構(gòu))算法流程圖Fig.1 Flowchart of our proposed kernel principal component analysis network (two-stage)
假定第i層的濾波器數(shù)目為Li,PCA最小化重構(gòu)誤差滿足下式:
s.t.VTV=IL1
(2)
式中,IL1大小為L1×L2的單位矩陣。XXT的L1個主特征向量為上式的解,PCA濾波器為:
(3)
上式將向量v∈Rk1k2映射為w∈Rk1×k2的函數(shù),ql(XXT)表示XXT的第l個主特征向量[13],l=1,2,...,L1。較大靠前的特征值對應(yīng)的特征向量獲得了所有均值訓(xùn)練塊的主要變化。
1.2 第二層變換
設(shè)定第一層第l個PCA濾波器輸出:
(4)
1)Gaussian核函數(shù):
(5)
2)PolyPlus核函數(shù):
(6)
3)Polynomial核函數(shù):
(7)
K=[K1,K2,…,KN] ∈Rk1k2×Nk1k2
(8)
再求特征向量,并取前l(fā)個特征向量,即:
(9)
(10)
共L1L2個輸出。重復(fù)上面步驟,可以構(gòu)建多層網(wǎng)絡(luò)結(jié)構(gòu)。
1.3 輸出層:哈希和直方圖
(11)
(12)
式中,fi∈R(2L2)L1B。KPCANet模型參數(shù):每層濾波器數(shù)目L1、L2,模型層數(shù),輸出層中局部直方圖塊大小,塊重疊區(qū)域比率。
我們將所提的KPCANet算法在ExtendedYaleB和AR兩個經(jīng)典人臉庫進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
2.1ExtendedYaleB數(shù)據(jù)庫
在ExtendYaleB人臉數(shù)據(jù)庫的實(shí)驗(yàn)中, 共38個人,每人64 張人臉圖像(2 432張人臉圖,圖像尺寸為100×100),這些圖像是不同光照條件下拍攝的正面人臉圖像。圖2是Extend Yale B數(shù)據(jù)庫中同一個人不同光照條件下的20張正面人臉圖像。實(shí)驗(yàn)時,我們對每個人隨機(jī)抽取5張人臉圖像進(jìn)行訓(xùn)練,共190個訓(xùn)練樣本,其余的作為測試,測試樣本數(shù)量為2 242個,進(jìn)行20次獨(dú)立實(shí)驗(yàn),取均值作為實(shí)驗(yàn)結(jié)果。
圖2 Extended Yale B不同光照條件正面人臉Fig.2 Examples frontal face images with various illumination conditions in Extended Yale B database
算法識別率/%PCANet98.49KPCANet-Pn98.79KPCANet-Pp98.80KPCANet-Gs98.82
為了比較分析,PCANet和KPCANet設(shè)置相同模型的參數(shù)。即:2層模型結(jié)構(gòu),每層濾波器數(shù)目均設(shè)置8,輸出層中局部直方圖塊(block)大小7×7,塊重疊區(qū)域比率0.5。另外,KPCANet針對不同核函數(shù)的參數(shù)賦值如下:Gaussian核參數(shù)σ=6,PolyPlus核參數(shù)d=2,Polynomial核參數(shù)d=6。對于不同核函數(shù),我們用KPCANet-Gs、KPCANet-Pp和KPCANet-Pn分別表示。在ExtendedYaleB庫中實(shí)驗(yàn)結(jié)果如表1所示。由表可得,PCANet的識別率為98.49%,KPCANet在不同核函數(shù)下算法識別率均高于PCANet,其中高斯核函數(shù)的性能最好,識別率為98.82%。高斯核取不同σ值時的識別性能如圖3所示,實(shí)驗(yàn)表明,高斯核取不同σ值對人臉識別率有一定影響,σ為6的時人臉識別率最高。
圖3 Gaussian核取值σ與人臉識別率Fig.3 Gaussian kernel value and recognition accuracy
2.2 AR數(shù)據(jù)庫實(shí)驗(yàn)
AR數(shù)據(jù)庫包含 50個人,每人14張照片(共700張人臉圖像,圖像大小為165×120),這些圖像均為在光照變化不大的條件下拍攝的正面人臉圖像,每個人包含不同表情(如微笑、張嘴、閉眼等)。圖4是AR庫同一個人的14張圖片。實(shí)驗(yàn)中每個人隨機(jī)抽取7張人臉圖像作為訓(xùn)練,共350個訓(xùn)練樣本,其余的作為測試, 測試樣本數(shù)量為350個,經(jīng)過20 次獨(dú)立實(shí)驗(yàn),取均值作為實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)結(jié)果如表2所示,我們發(fā)現(xiàn)PCANet的識別率為99.59%,KPCANet不同的核函數(shù)下算法識別率均高于PCANet,其中用高斯核函數(shù)性能最好,識別率為99.76%。
圖4 AR庫不同表情正面人臉Fig.4 Examples frontal face images with various expression in AR database
算法識別率/%PCANet99.59KPCANet-Pp99.62KPCANet-Pn99.73KPCANet-Gs99.76
2.3 結(jié)果分析
通過對Extended Yale B和AR兩個人臉數(shù)據(jù)庫中的實(shí)驗(yàn)表明,所提的KPCANet模型比PCANet方法在識別性能上有一定的提高。Extended Yale B人臉數(shù)據(jù)庫中,KPCANet識別率高達(dá)98.82%,AR人臉數(shù)據(jù)庫中,KPCANet識別率高達(dá)99.76%,結(jié)果表明我們的方法對光照、表情變化魯棒,有很好的適應(yīng)特性。
本文提出一種新型的核主成分分析網(wǎng)絡(luò)方法用于人臉識別,我們的模型包括對輸入圖像進(jìn)行主成分分析、核主成分分析、二值化哈希和分塊直方圖分析等。與傳統(tǒng)方法相比,本算法引入“核”變換,提高了模型的非線性擬合能力,達(dá)到提升分類精度的效果。實(shí)驗(yàn)結(jié)果表明所提方法在識別性能上優(yōu)于PCANet方法 ,對于不同光照、表情下的人臉變化具有更好的識別率和魯棒性。
[1] TURK M, PENTLAND A. Face recognitison using eigenfaces [C]∥IEEE Conference on Computer Vision and Pattern Recognition, 1991: 586-590.
[2] FISHER R. The use of multiple measurements in taxonomic problems [J]. Annals of Eugenics, 1936, 7(2):179-188.
[3] 左軍,周靈,孫亞民. 基于RBF神經(jīng)網(wǎng)絡(luò)PCA變換的識別技術(shù) [J].中山大學(xué)學(xué)報(自然科學(xué)版), 2014, 53(6):135-140.
[4] LEE H, GROSSE R. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations [C]∥ International Conference on Machine Learning, 2009:609-616.
[5] CHRISTIAN S, TOSHEV A, ERHAN D. Deep neural networks for object detection [C]∥Advances in Neural Information Processing Systems, 2013, 2553-2561.
[6] CHRISTIAN S, LIU W, JIA Y Q. Going deeper with convolutions [C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[7] CHAN T H, JIA K, GAO S H, et al. Pcanet: A simple deep learning baseline for image classification [J]. TIP, 2015, 24(12):5017-5032.
[8] BRUNA J, MALLAT S. Invariant scattering convolution net-works [J]. TPAMI, 2013, 35(8):1872-1886.
[9] SIFRE L, MALLAT S. Rotation, scaling and deformation invariant scattering for texture discrimination [J]. CVPR, 2013, 9(4):1233-1240.
[10] HOFMANN T, SCHOLKOPF B, ALEXANDER J S. Kernel methods in machine learning [J]. Annals of Statistics, 2008, 36(3):1171-1220.
[11] 黃嘯. 支持向量機(jī)核函數(shù)的研究[D].蘇州: 蘇州大學(xué), 2008.
[12] ALEX K. ImageNet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2):195-203.
[13] 黃曉生, 嚴(yán)浩, 曹義親, 等.基于小波高頻奇異值分解的無參考模糊圖像質(zhì)量評價 [J]. 中山大學(xué)學(xué)報(自然科學(xué)版), 2014, 53(6):165-171.
[14] 趙慧民, 蔡君, 魏文國. 一種分塊壓縮感知變采樣率的指紋圖像水印算法 [J]. 中山大學(xué)學(xué)報(自然科學(xué)版), 2014, 53(5):14-20.
Kernel principal component analysis network method for face recognition
HU Weipeng, HU Haifeng, GU Jianquan, LI Haoxi
( School of Electronics and Information Engineering, Sun Yat-sen University, Guangzhou 510006, China)
Principal component analysis network (PCANet) is a popular deep learning classification method, which has caused wide attention in the area of computer vision due to its practical applications in face recognition, hand-written digit recognition, texture classification, and object recognitions. On the basis of PCANet. The kernel principal component analysis network (KPCANet) method is proposed for face recognition. The model is constructed by four processing components, including principal component analysis (PCA), kernel principal component analysis (KPCA), binary hashing, and block-wise histograms. The performance of the proposed method is evaluated using two public face datasets, i.e., Extended Yale B database and AR face database. The results show that KPCANet outperforms PCANet method. Especially when the face images have large variations about illuminations and expressions, KPCANet gives better recognition results.
kernel principal component analysis network; deep learning; face recognition; kernel transformation
10.13471/j.cnki.acta.snus.2016.05.009
2016-01-28
國家自然科學(xué)基金資助項(xiàng)目(60802069,61273270);廣東省自然科學(xué)基金資助項(xiàng)目(2014A030313173)
胡偉鵬(1993年生),男;研究方向:計(jì)算機(jī)視覺,模式識別; 通訊作者:胡海峰;E-mail:huhaif@mail.sysu.edu.cn
TP391.41
A
0529-6579(2016)05-0048-05