李文媛, 于威威, 張 燕
?
基于改進(jìn)的多流形算法的人臉圖像集識別①
李文媛, 于威威, 張 燕
(上海海事大學(xué)信息工程學(xué)院, 上海 201306)
一個圖像集由大量變化不一的圖像組成, 而且這些圖像都表示同一個人. 現(xiàn)實中的圖像集數(shù)據(jù)是非線性的, 造成這些現(xiàn)象的因素有人臉的角度不同、光線的明暗等, 因此圖像集中的每幅圖像都是變化的, 如果近似的將一個圖像集建模為線性子空間, 而忽略了集合中數(shù)據(jù)結(jié)構(gòu)的變化, 很顯然是不合理的, 這也必然會影響到最后的識別率. 受流形理論知識的啟發(fā), 可以將圖像集建模為一個流形,這與傳統(tǒng)的將圖像集建模為子空間的方法有著本質(zhì)區(qū)別. 本文在基于流形的人臉圖像集識別方法的基礎(chǔ)上進(jìn)行改進(jìn), 提出新的計算樣子空間距離方法, 最后采用所有最短子空間距離的平均值作為流形之間的距離, 稱為改進(jìn)的多流形方法(Improved multi-manifold method, IMM). IMM方法在CMU PIE數(shù)據(jù)庫上進(jìn)行實驗, 結(jié)果表明該方法相比其他方法具有更高識別率.
圖像集; 流形; 線性子空間; 主角
傳統(tǒng)人臉識別過程是對標(biāo)準(zhǔn)的單幅圖像進(jìn)行識別, 但是在現(xiàn)實生活中, 一幅標(biāo)準(zhǔn)的圖像很難獲取. 隨著科技的發(fā)展, 存儲大量的圖像成為事實. 與單幅圖像相比, 每個集合里有許多圖像, 這些圖像很自然地覆蓋了人臉的外貌變化, 如: 姿勢變化, 表情不一, 燈光明暗等. 所以, 通過充分利用集合的信息, 尋求一種具有更高魯棒性的人臉識別方法.
在過去的十幾年中, 基于圖像集識別的研究已經(jīng)取得了一些成果. 圖像集識別方法一般分為兩種: 基于參數(shù)方法和基于非參數(shù)方法. 前者是概率建模方法, 代表性的方法有流密度散度,該方法是用參數(shù)分布函數(shù)來表示一個圖像集, 并用K-L散度來衡量兩個集合分布的相似性. O. Arandjelovi?等人[1]提出用單一的高斯模型和混合高斯模型(GMM)[2], Wen Wang等人[3]在此基礎(chǔ)上提出了基于高斯分布的黎曼流形判別分析方法, 同樣也是將圖像集建模為高斯混合模型.
基于非參數(shù)方法是假設(shè)數(shù)據(jù)分布情況, 代表性的算法是將圖像集建模為一個線性子空間. Hamm等人[4]提出格拉斯曼流形判別學(xué)習(xí)方法(GDA), 該方法是在歐式空間將圖像集建模為一個線性子空間, 在格拉斯曼流形中代表一個點, 通過非線性映射將數(shù)據(jù)點映射到新的格拉斯曼流形上, 最后在新的格拉斯曼流形深進(jìn)行分類. 但是該方法沒有充分考慮數(shù)據(jù)分布的集合結(jié)構(gòu). Yamaguchi等人[5]提出互子空間方法(MSM), Fukuid等人[6]在此基礎(chǔ)上提出了約束的互子空間方法(CMSM). 該方法認(rèn)為前幾個特征向量更具有判別性, 用該特征向量張成子空間, 然后進(jìn)行標(biāo)準(zhǔn)化和正交化. 隨著流形的研究[7], 流形的建模方法也被用到圖像集識別當(dāng)中. 例如: Jinwen Lu等人[8]提出的多流形深度學(xué)習(xí)分類方法. Lei Zhang等人[9]提出了多流形判別分析方法, 該方法是在fisher判別分析框架下引入圖嵌入學(xué)習(xí), 這和GDA方法類似.
Li等人[10]認(rèn)為在光照和姿態(tài)變化的情況下, 人臉圖像在高維空間是非線性的, 所以不同的人會形成不同的子流. 鑒于這個理論, 我們認(rèn)為一個圖像集中所有的數(shù)據(jù)都分布在一個非線性流上, 在流形上構(gòu)建局部線性子空間, 圖像集合之間的相似性用流形與流形之間的距離測度來衡量[20]. 由于流形是非線性的, 目前沒有給出統(tǒng)一地定義流形與流形之間的距離公式. 本文采用所有最短子空間距離的平均值作為流形與流形之間的距離.
流形是非線性的, 這和圖像集中數(shù)據(jù)的非線性具有一致性[21]. 基于非線性流形模型是由許多局部線性模型構(gòu)成的理論知識[7,22], 一個流形上的圖像數(shù)據(jù)可以再分成局部線性子空間, 多流形分類的方法就轉(zhuǎn)化為計算子空間之間距離, 并聯(lián)合這些子空間距離作為最終的流形之間的距離. 基于多流形的圖像集分類方法如圖1所示.
訓(xùn)練樣本集 測試樣本集
2.1 構(gòu)建子空間
目前從非線性流中提取局部線性模型的方法很多, 典型的有聚類方法k-means[11,12], 分級聚類(HAC)[13]等, 這些都是以一個簡單的聚類方法構(gòu)建局部線性模型, 因此不能保證局部子空間的線性性質(zhì). 所以Wang等人[14]利用歐式距離和測地線距離的比值, 式(1)來規(guī)約最大線性塊, 即局部線性模型. 該方法解決了基于迭代的聚類方法中存在的問題, 使得構(gòu)建的子空間具有線性性質(zhì). 本文也采用該方法在非線性流上構(gòu)建局部線性子空間.
(2)
其中,是局部線性模型數(shù)量,N表示每個模型中的樣本數(shù)量.的值由一次性算法[14]獲得. 從式(2)可以看出, 非線性流可以表述為許多局部線性空間的集合. 如圖2所示, 一個流形上代表一個人, 但是受到光照和拍攝角度影響, 這些圖像之間的變化還是很大的, 所以將一個圖像集合張成一個子空間顯然是不合理的, 但是一個人在姿勢和光線變化不大的情況下, 我們近似的認(rèn)為該組圖像是具有線性的, 因此可以張成一個線性子空間.
圖2 一個流形上張成兩個子空間
式(1)中的矩陣(1,2)反映了一個局部線性模型的非線性程度, 例如, 在任一個已構(gòu)建成的局部線性模型C, 它的非線性分?jǐn)?shù)可以用式(3)表述
2.2 局部模型距離度量
2.2.1 主角
主角是衡量兩個局部模型相似度的關(guān)鍵. 有兩個圖像集合,,,.1,2分別是,一個線性子集, 其張成的子空間是,. 則1,2之間的主角[16].
定義
(4)
式(4)中,u和v是第個典型向量對, cosθ的值稱為典型相關(guān)系數(shù). 計算主角的方法很多, 但是具有數(shù)值穩(wěn)定的算法[15]是通過奇異值分解(SVD)來計算主角. 如兩個子空間1,2, 它們的正交基分別是,, 則1T2的奇異值分解定義為:
,=1,2,...,
2.2.2 子空間距離
兩個子空間之間的相似度可以通過主角來反映. 經(jīng)典的MSM方法利用最小主角來計算兩個子空間距離:
因此我們可以通過主角來計算兩個子空間的距離. 圖3所示為在三維坐標(biāo)下模擬示意兩個子空間的距離.
圖3 子空間之間的相似距離
其中1和2是兩個局部空間的樣本均值, 其主角為0. 傳統(tǒng)的方法是采用局部模型的樣本均值來表示局部模型特征. 由于原始數(shù)據(jù)的維度一般都很大, 為了便于后面高效的計算, 所以先通過PCA對每個局部模型進(jìn)行降維, 得到PCA子空間, 然后在該子空間內(nèi)計算局部模型的樣本均值.
根據(jù)圖3定義兩個子空間的距離:
(8)
用樣本均值的標(biāo)準(zhǔn)正交基表示:
(9)
可以用距離的倒數(shù)來表示其相似度, 即將式(9)可以改寫為相似度量:.
很顯然僅僅用樣本均值不足以表現(xiàn)現(xiàn)實數(shù)據(jù), 不同的人臉在姿勢和光照變化不大的環(huán)境中得到的樣本均值有可能很相似.
在經(jīng)過SVD[18]過程后, 發(fā)現(xiàn)不同的人臉變化方向和變化大小都不同. 所以將變化的因素考慮進(jìn)去, 使其更具有判別性. 文獻(xiàn)[19]中介紹了投影度量的概念, 兩個子空間的投影距離可以表示為子空間的正交投影矩陣,的的二范數(shù)值:
(10)
兩個子空間的距離最終表示為:
(12)
有了確定的子空間距離, 那么流形之間的距離也容易定義了.
2.3 流形與流形之間的距離
判斷兩個集合是否是屬于同一個類別, 我們參照傳統(tǒng)的距離度量來衡量兩個流形之間的相似性. 上面我們已經(jīng)討論了線性子空間可以表示局部模型, 而且流形可以看作是線性局部空間的集合.
如兩個流形1和2, 由線性局部模型表示:,, 用W表示流形1中第個子空間到2上的最短距離, 同理, W表示2中第個子空間到1的最短距離. 定義如下:
(14)
圖中綠色數(shù)字連接的子空間對屬于W, 紅色數(shù)字連接的子空間對屬于W, 為了更準(zhǔn)確表述流形上的信息, 我們利用所有最短子空間對距離來計算流形距離, 所以兩個流形之間的距離可以定義為:
2.4 算法實現(xiàn)步驟
綜合上面的討論, 總結(jié)下該方法的實現(xiàn)步驟, 算法如下:
訓(xùn)練過程:
(2) 用PCA對每個局部線性模型進(jìn)行降維(保留95%的貢獻(xiàn)率), 得到PCA子空間.
測試過程:
(2) 計算待測的圖像集中子空間和訓(xùn)練數(shù)據(jù)中子空間之間的距離, 即(S, S).
執(zhí)行1-NN分類, 計算識別率.
為了驗證該方法的有效性, 我們在CMU_PIE人臉數(shù)據(jù)庫進(jìn)行實驗, 并且與以下四種識別算法進(jìn)行對比實驗.
LLE +K-means[12]: 該方法是將流形學(xué)習(xí)中典型的局部線性嵌入算法和K-均值聚類算法相結(jié)合. 在用K-means方法進(jìn)行樣本聚類時沒有設(shè)置確定的K值, K值選取完全依賴于實驗經(jīng)驗.
MSM算法: 該方法是基于子空間方法, 采用最小主角計算子空間距, 即選擇子空間的最大距離. 而且該方法沒有進(jìn)行特征提取直接執(zhí)行最近鄰分類;
均值距離方法和投影距離方法指的是本文2.2章節(jié)討論的基于局部子空間樣本的均值距離和子空間的投影距離.
3.1 實驗數(shù)據(jù)庫
CMP PIE人臉庫由美國卡耐基梅隆大學(xué)創(chuàng)建, 包含68個人, 約有41368幅圖像, 每個人大約有170幅圖像, 包括13種姿態(tài)(如: 抬頭, 低頭, 側(cè)臉等), 43種不同光照和4種表情. 這些圖像充分反映出人臉的位置、光照和表情等的變化, 實驗過程中將每幅圖像統(tǒng)一剪裁大小為32×32, 每個人取170幅圖像. 部分人臉圖像如圖6所示.
圖 6 CMU_PIE部分人臉圖像
3.2 對比實驗結(jié)果
(1) IMM算法與其他算法的對比實驗
實驗參數(shù)設(shè)置: 本實驗中作對比實驗的LLE+k-means方法中K=5, 所以算法的訓(xùn)練圖像集數(shù)量為50, 測試圖像集數(shù)量為120. 最后通過1-NN分類器來評價IMM算法和其他方法的性能. 表一給出了這幾個方法在CMU_PIE數(shù)據(jù)庫上的結(jié)果.
表1 不同算法在CMU_PIE數(shù)據(jù)庫上的識別率
從表1可以看出IMM方法的識別率遠(yuǎn)遠(yuǎn)高于其他四種方法, 表明本文提出的IMM方法是可行有效的, 在提高識別率方面有了很大的突破.
(2) 訓(xùn)練樣本數(shù)量對識別率的影響
對于CMP PIE數(shù)據(jù)庫, 取68個人, 即共有68個類別, 每個人170幅圖像, 分別取每個人前50, 100, 150幅作為訓(xùn)練樣本, 相應(yīng)地剩下120, 70, 20幅圖像作為測試樣本. 這三組實驗的識別率情況如圖7所示. 為了進(jìn)一步分析, 求出三組訓(xùn)練樣本數(shù)量和測試樣本數(shù)量差值, 分別為30,70,130. 圖8所示這三種差值情況下的識別率.
圖7 不同訓(xùn)練樣本下的識別率
圖8 測試與訓(xùn)練樣本差下的識別率
從圖7來看, 輸入的訓(xùn)練樣本數(shù)對最后的識別率沒有直接反映出規(guī)律性的影響, 但是從圖8來看, 隨著測試樣本數(shù)量和訓(xùn)練樣本的數(shù)量之差越大, 識別率也相應(yīng)的越來越高, 而且相比另外兩種方法, IMM方法的識別率更高.
(3) 參數(shù)K分析
本文中通過K-NN算法計算測地線距離. 選擇訓(xùn)練圖像集數(shù)量為50, 測試圖像集數(shù)量為120. 圖9所示K值在5,10,15,20下的識別率.
圖9 不同K值下的識別率
由圖9看到的值對于最后的識別率影響很小, 由此說明在流形上利用最大線性模型來構(gòu)建線性子空間的方法比LLE+K-means方法優(yōu)越.
通過對比實驗, 提出的IMM方法有較高的識別率. IMM方法是將一個圖像集建模為一個流形, 在該模型下構(gòu)建局部線性模型, 利用主角的概念將局部子空間的均值距離和投影距離之和來衡量兩個子空間的距離, 然后將所有最小子空間的距離取平均作為兩個流形的相似度量.
訓(xùn)練樣本參數(shù)的實驗表明輸入的訓(xùn)練樣本數(shù)量對最后的識別率沒有直接反映出規(guī)律性的影響, 但是隨著測試樣本數(shù)量和訓(xùn)練樣本的數(shù)量之差越來越大, 識別率也相應(yīng)的越來越高, 而且相同差值情況下, 相比均值方法和投影方法, IMM方法的識別率仍然更高.
本文采用所有最短子空間對距離的平均值作為最終的流形距離, 這存在一定的缺陷, 因為沒有考慮到全局?jǐn)?shù)據(jù)分布, 僅僅將所有最近子空間對距離平均化, 無法避免出現(xiàn)較大變化的情況. 當(dāng)出現(xiàn)變化較大時, 平均距離則無法更真實的衡量兩個流形之間的相似性. 這個是以后要研究解決的問題.
1 Arandjelovi? O, Shakhnarovich G, Fisher J, Cipolla R, Darrell T. Face recognition with image sets using manifold density divergence. Proc. Comput. Vision Pattern Recog. Conf. 2005. 581–588.
2 Shakhnarovich G, Fisher JW, Darrell T. Face recognition from long-term observations. Proc. Eur. Conf. Comput. Vision. 2002. 851–868.
3 Wang W, Wang RP, Huang ZW, Shan SG, Chen XL, Discriminant analysis on riemannian manifold of Guassian distributions for face recognition with image sets. CVPR. 2015.
4 Hamm J, Lee DD. Grassmann discriminant analysis: A unifying view on subspace-based learning. Proc. of the 25th International Conference on Machine Learning(ICML). 2008.
5 Yamaguchi O, Fukui K, Maeda K. Face recognition using temporal image sequence. Proc. of the 3rd. Int. Conf. on Face & Gesture Recognition. Washington D.C., USA. IEEE Computer Society. 1998. 318.
6 Fukui K, Yamaguchi O. Face recognition using multi-viewpoint patterns for robot vision. Int. Symp. of Robotics Res. 2003. 192–201.
7 詹宇斌.流形學(xué)習(xí)理論與方法及其應(yīng)用研究[博士學(xué)位論文].長沙:國防科學(xué)技術(shù)大學(xué), 2011.
8 Lu JW, Wang G, Deng WH, Moulin P, Zhou J. Multi-manifold deep metric learning for image set classification. CVPR. 2015.
9 Yang W, Sun C, Zhang L. A multi-manifold discriminant analysis method for image feature extraction. Pattern Recognition, 2011, 44(8): 1649–1657.
10 Li SZ, Jain AK. Handbook of Face Recognition. New York: Apringer-Verlag, 2005.
11 Kim TK, Arandjelovi? O, Cipolla R. Boosted manifold principal angles for image set-based recognition. Pattern Recog., 2007, 40(9): 2475–2484.
12 Hadid A, Pietikinen M. From still image to video-based face recognition: An experimental analysis. Proc. IEEE 6th Int. Conf. Autom. Face Gesture Recog. 2004. 813–818.
13 Zhou S, Krüeger V, Chellappa R. Probabilistic recognition of human faces from video. Comput. Vision Image Underst., 2003, 91(1): 214–245.
14 Wang R, Shan S, Chen X, Gao W. Manifold-manifold distance with application to face recognition based on image set. Proc. Comput. Vision Pattern Recog. Conf. 2008. 2940–2947.
15 Bj?rck?, Golub GH. Numerical methods for computing angles between linear subspaces. Mathematics of Computation, 1973, 27(123): 579–594.
16 Hotelling H. Relations between two sets of variates. Biometrika, 1936, 28: 321–372.
17 TenenbaumJ, Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction. Science, Dec. 2000, 290(22): 2319–2323.
18 馮欣.奇異值分解SVD的理論分析及在圖形學(xué)中的應(yīng)用. 信息與電腦:理論版,2010,(5).
19 Fan W, Yeung DY. Locally linear models on face appearance Manifolds with application to dual-subspace based classification. IEEE Conference on Computer Vision & Pattern Recognition. 2006. 1384–1390.
20 魏萊,王守覺.基于流形距離的半監(jiān)督判別分析.軟件學(xué)報, 2010,21(10):2445–2453.
21 肖睿.高維空間模式鑒別分析及多流形學(xué)習(xí)[博士學(xué)位論文].上海:上海交通大學(xué),2012.
22 朱林,雷景生,畢忠勤,等.一種基于數(shù)據(jù)流的軟子空間聚類算法.軟件學(xué)報,2013,24(11):2610–2627.
Improved Multi-Manifold-Based Method for Face Image Set Recognition
LI Wen-Yuan, YU Wei-Wei, ZHANG Yan
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)
An image set consists of a large number of different images, and these images represent the same person. In the real life, the dates of image sets are nonlinear due to the variation from viewpoint, emotion and illumination. Inspired by the manifold theory knowledge, we assume that modeling each image set as a manifold will be more efficient compared with the traditional method of modeling an image set as a subspace intrinsically. Because the images in an image set are different from each other, it is unreasonable to model an image set as a linear subspace without ignoring the data structure in the set, which may decrease the recognition rate ultimately. In the paper, we introduce a method of improved multi-manifold based face recognition for image sets, and propose a new method for computing the distance between two subspaces. In addition, in order to get the minimal manifold distance, we choose the mean value of closest pair of subspaces as the manifold distance. We call this new method, an improved multi-manifold (IMM). Experimental results on the public available face databases, CMU PIE, demonstrate that the new method outperforms the competing methods
image set; manifold; linear subspace; principal angles
2016-04-09;收到修改稿時間:2016-05-26
[10.15888/j.cnki.csa.005520]