摘 "要: 傳統(tǒng)的基于稀疏表示的人臉識(shí)別方法是基于人臉的整體特征的,這類方法要求每位測(cè)試者的人臉圖像要有足夠多幅,而且特征維度高,計(jì)算復(fù)雜,針對(duì)這一問題,提出一種基于離散余弦變換和稀疏表示的人臉識(shí)別方法,對(duì)人臉圖像進(jìn)行分塊采樣,對(duì)采樣樣本使用離散余弦變換和稀疏分解,然后使用一種類似于詞袋的方法得到整幅圖像的特征向量,最后使用相似度比較的方法進(jìn)行分類識(shí)別。實(shí)驗(yàn)表明,在此提出的方法比傳統(tǒng)的基于稀疏表示的人臉識(shí)別方法在訓(xùn)練樣本較少時(shí)效果更好。
關(guān)鍵詞: 人臉識(shí)別; 離散余弦變換; 稀疏表示; 詞袋; 局部特征
中圖分類號(hào): TN919?34; TP391.41 " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " "文章編號(hào): 1004?373X(2015)06?0115?04
Face recognition based on DCT and sparse representation
WANG Guang?liang, GUO He?fei
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)
Abstract: Traditional face recognition methods based on sparse representation are based on holistic feature of face image. The methods requires enough face images for each test person and the high dimensional feature, and has computational complexity. Aiming at these shortcomings, a face recognition method based on discrete cosine transform (DCT) and sparse representation is proposed, which divides an image into regions, samples in each region, decomposes the samples by DCT and sparse representation, gets feature vector of the whole image with a method like bag?of?word, and then classifies and identifies them by similarity comparing method. The experiment results indicate that the method outperform the traditional face recognition methods based on sparse representation when there are few training samples.
Keywords: face recognition; discrete cosine transform; sparse representation; bag?of?word; local feature
0 "引 "言
人臉識(shí)別一直是計(jì)算機(jī)視覺領(lǐng)域非常熱門的研究課題之一,有效的人臉識(shí)別技術(shù)可以應(yīng)用于社會(huì)生活的方方面面,比如公共安全、考勤門禁、人機(jī)交互等。近年來,學(xué)者們提出了很多人臉識(shí)別的方法,但是要建立起一個(gè)能夠在現(xiàn)實(shí)環(huán)境中進(jìn)行自動(dòng)人臉識(shí)別的系統(tǒng)還是面臨著諸多頗具挑戰(zhàn)性的問題[1],比如光照變化、表情變化、鏡頭角度變化、物體遮擋[2]等。近年來,人臉識(shí)別的方法層出不窮,其中一類是將信號(hào)處理領(lǐng)域常用的稀疏表示的方法應(yīng)用到人臉識(shí)別:Wright等人在文獻(xiàn)[3]中提出了一種基于稀疏表示的分類方法(Sparse Representation based Classification, SRC),并將此方法應(yīng)用于人臉識(shí)別。SRC方法的主要思想是將測(cè)試圖片用字典原子的稀疏線性組合進(jìn)行表示,然后對(duì)于各個(gè)類別,分別只用該類的字典原子對(duì)原圖像進(jìn)行重構(gòu),將重構(gòu)殘差最小的那一類作為測(cè)試圖片的類別。后來有一些學(xué)者對(duì)這種分類方法進(jìn)行了改進(jìn),Yang和Zhang提出了基于Gabor特征的SRC(GSRC)[4],GSRC比原始的SRC對(duì)光照變化和較小的角度變化更加魯棒;Yang等人還提出了一種魯棒稀疏編碼(Robust Sparse Coding, RSC)[5]的方法,這種方法識(shí)別效果更好,但是計(jì)算開銷更大;后來Yang等人研究了在構(gòu)造字典時(shí)將各個(gè)類別的字典原子分開進(jìn)行學(xué)習(xí)[6],使得字典原子的類間差別更大,類內(nèi)差別更小,進(jìn)而獲得了更好的識(shí)別結(jié)果。這類方法都體現(xiàn)出了稀疏表示具有良好的判別性,但是由于它們是基于圖像的整體特征的,所以要求在訓(xùn)練集中每個(gè)人的人臉圖像要有足夠多幅,而這個(gè)要求在許多現(xiàn)實(shí)環(huán)境中是很難滿足的,而且這種整體特征一般維度會(huì)很高,計(jì)算較復(fù)雜,經(jīng)常要結(jié)合PCA來進(jìn)行降維。
另一方面,人臉還可以用局部特征來表示,相關(guān)的方法有局部二值模式(Local Binary Pattern,LBP)方法[7]、基于Gabor特征的方法[8]等等,另一種基于局部特征的方法是近期由Sanderson等人在文獻(xiàn)[9]中提出的一種用于人臉識(shí)別的擴(kuò)展的詞袋(Bag?of?Words, BoW)方法,叫做多區(qū)域直方圖方法(Multi?Region Histogram, MRH),該方法將一幅圖像中各個(gè)區(qū)域中采樣得到的局部特征使用一種類似于詞袋的方法組合起來作為圖像的特征向量來進(jìn)行分類識(shí)別,獲得了良好的實(shí)驗(yàn)結(jié)果。文獻(xiàn)[10]中指出,局部特征相對(duì)與整體特征對(duì)于表情變化和角度變化等更加魯棒。基于以上原因,結(jié)合稀疏表示和區(qū)域直方圖方法的優(yōu)點(diǎn),本文提出一種基于離散余弦變換和稀疏表示的人臉識(shí)別方法,對(duì)圖像進(jìn)行分區(qū)域采樣,然后對(duì)采樣樣本使用離散余弦變換和稀疏表示獲得特征向量,最終使用基于相似度比較的方法進(jìn)行分類識(shí)別。
1 "算法描述
本節(jié)首先對(duì)稀疏表示方法進(jìn)行簡(jiǎn)單介紹,然后描述提出的特征提取方法的具體流程以及最終的分類識(shí)別方法。
1.1 "稀疏表示介紹
給定一個(gè)包含[K]個(gè)字典原子的過完備字典[D=d1,d2,…,dk∈Rn×K,Kgt;n],一個(gè)待表示的數(shù)據(jù)向量[y∈Rn]可以表示為這些字典原子的稀疏線性組合
[y=Dα] " (1)
式中[α]是對(duì)應(yīng)于[y]的稀疏系數(shù),稀疏的含義是[α]中非零元素的個(gè)數(shù)少于一個(gè)較小的閾值。同樣對(duì)于一個(gè)待表示的數(shù)據(jù)矩陣[Y=y1,y2,…,yn]可以得到其對(duì)應(yīng)的稀疏系數(shù)矩陣[A=α1,α2,…,αn],對(duì)原始數(shù)據(jù)進(jìn)行稀疏表示所要做的工作就是先獲得一個(gè)合適的過完備字典[D]然后計(jì)算得出原始數(shù)據(jù)所對(duì)應(yīng)的稀疏系數(shù)[α],其中獲得字典的過程叫做字典學(xué)習(xí),計(jì)算[α]的過程叫做稀疏分解。
1.1.1 "字典學(xué)習(xí)方法
字典學(xué)習(xí)的目的是從原始數(shù)據(jù)中學(xué)習(xí)出一個(gè)大小合適且可以很好地重構(gòu)原始數(shù)據(jù)的過完備字典,目前廣泛使用的字典學(xué)習(xí)方法是由Aharon等人提出的K?SVD算法[11],K?SVD是一種迭代算法,對(duì)于給定的訓(xùn)練數(shù)據(jù)矩陣[Y],K?SVD算法的目標(biāo)優(yōu)化函數(shù)是:
[minD,AY-DA2Fs.t. "?i, "αi0≤T0] " (2)
式中[·F]表示求弗羅貝尼烏斯范數(shù)(Frobenius norm),其定義如下:
[XF=ijxi,j2] " (3)
K?SVD算法每次迭代包括兩個(gè)階段:第一階段固定字典[D],使用下文描述的任意一種稀疏分解方法解得稀疏系數(shù)矩陣;第二階段對(duì)字典原子和與其對(duì)應(yīng)的稀疏系數(shù)矩陣中的行依次更新,對(duì)于要更新的字典原子[dk],式(2)中的開銷函數(shù)(cost function)可以改寫為:
[Y-DA2F=Y-i≠kdiαiR-dkαkR2F=Ek-dkαkR2F] (4)
對(duì)[Ek]進(jìn)行奇異值分解(Singular Value Decomposition, SVD)得到[Ek=UΔVT],將[dk]更新為[U]的第一列,相對(duì)應(yīng)的稀疏矩陣中的行[xkR]更新為[V]乘以[Δ1,1],這樣迭代至算法收斂,即滿足式(2)。除了K?SVD算法之外,字典學(xué)習(xí)算法還有Mairal等人提出的一種在線的字典學(xué)習(xí)算法[12]。
1.1.2 "稀疏分解方法
稀疏分解是指在已知過完備字典[D]和原始數(shù)據(jù)[y]的情況下,求解對(duì)應(yīng)的稀疏系數(shù)[α],求解過程就是解決如下的[?0]最小化問題:
[minα0 " s.t. "Dα-y22≤ε] " (5)
這是一個(gè)NP?Hard問題,文獻(xiàn)[13]證明在一定條件下將式(5)改為[?1]最小化問題:
[minα1 " s.t. "Dα-y22≤ε] " (6)
這兩個(gè)優(yōu)化問題是等效的,而式(6)是凸優(yōu)化問題,可以使用線性規(guī)劃方法來解決。目前較常用的解決式(6)的方法有[?1]?magic算法和[?1]LS算法。
1.2 "特征提取方法
對(duì)于一幅人臉圖像,首先將其分為[R]個(gè)相同大小的區(qū)域。對(duì)于區(qū)域[r],使用有重疊的采樣方法從中取出小圖像塊的集合[Pr=pr,1,pr,2,…,pr,n],根據(jù)文獻(xiàn)[9]的實(shí)驗(yàn)經(jīng)驗(yàn)表明,每個(gè)小圖像塊的大小為[8×8],重疊為75%,即相鄰的兩個(gè)小圖像塊會(huì)重疊[6×8]或者[8×6]的像素,這樣得到的樣本效果最好。
對(duì)這些小圖像塊進(jìn)行正規(guī)化得到[Pr′=pr,1′,pr,2′,…,pr,n′],然后對(duì)與每個(gè)正規(guī)化后的圖像塊[pr,i′]使用離散余弦變換。離散余弦變換具有能量集中特性,可以將圖像的能量都集中在變換矩陣的低頻部分,即變換矩陣的左上角部分,利用這一特性,取變換矩陣最左上角[4×4]的數(shù)據(jù),并把第一個(gè)數(shù)據(jù)舍去,因?yàn)樵谡?guī)化后,這一維度的數(shù)據(jù)將不包含任何信息。這樣可以從每個(gè)小圖像塊得到一個(gè)[15×1]的低維度的特征向量[xr,i]。然后對(duì)這些特征向量進(jìn)行稀疏分解得到稀疏系數(shù)[αr,i],這里使用的過完備字典[D]的獲得方法如下:
(1) 對(duì)所有訓(xùn)練樣本進(jìn)行如上文所述的處理,即分區(qū)域、有重疊采樣、離散余弦變換;
(2) 對(duì)獲得的所有這些低維特征向量使用K?SVD算法進(jìn)行字典學(xué)習(xí),獲得過完備字典[D];
對(duì)每個(gè)區(qū)域,使用下面的式子來獲得該區(qū)域的特征向量:
[hr=1nri=1nrαr,i] " (7)
式中[nr]為第[r]個(gè)區(qū)域的取樣小圖像塊總數(shù)。
由于在稀疏表示時(shí)[αr,i]中可能含有負(fù)數(shù),而如果直接用這種帶負(fù)數(shù)的稀疏系數(shù)代入到式(7)中會(huì)損失很多信息,對(duì)此問題找到了3種解決方法:
(1) 使用非負(fù)的稀疏分解[14];
(2) 將負(fù)數(shù)系數(shù)與正數(shù)系數(shù)分為兩個(gè)向量,這樣我們要處理的數(shù)據(jù)維度將增加一倍,但實(shí)際數(shù)據(jù)量的增加不大;
(3) 簡(jiǎn)單的對(duì)每個(gè)低維特征向量求絕對(duì)值。
最終通過實(shí)驗(yàn)發(fā)現(xiàn)簡(jiǎn)單易行的第3種方法就可以得到良好的結(jié)果。經(jīng)過以上步驟各個(gè)區(qū)域的特征向量就組成了整幅圖像的特征,圖1為本文特征提取流程的圖1所示。
lt;E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\25T1.tifgt;
圖1 本文特征提取方法流程
1.3 "識(shí)別方法
本文的識(shí)別方法為相似度比較方法,兩張人臉圖像間的距離可以用下式進(jìn)行計(jì)算:
[drawA,B=1nr=1nhAr-hBr1] " (8)
式(8)中的距離計(jì)算方法受圖像間的光照變化,角度變化等影響太大,所以我們使用文獻(xiàn)[9]中提出的同群歸一化(Cohort Normalization)方法來計(jì)算圖像A和B之間的歸一化距離:[dnormA,B=drawA,B121mi=1mdrawA,Ci+1mi=1mdrawB,Ci] " (9)
式中:[Ci]是第[i]個(gè)同群人臉圖像;[m]為總的同群圖像數(shù)。在式(9)中,所有同群人臉圖像是不同于A和B的隨機(jī)選取的人臉圖像,這樣式(9)中的分母部分可以度量A和B與不同于他們的圖像間的平均距離,[dnormA,B]越接近1則表示A和B屬于不同的人,[dnormA,B]越?。ㄔ谛∮?的情況下)越表示A和B屬于同一個(gè)人,即[dnormA,B]越小,A和B的相似度越高。而且由于引入了同群人臉圖像,式(9)對(duì)測(cè)試人臉圖像中的光照變化、角度變化等都是不敏感的。
這樣對(duì)于一個(gè)測(cè)試樣本,將它的特征向量分別與各個(gè)類別的基準(zhǔn)人臉圖像計(jì)算歸一化距離,測(cè)試樣本的類別就是與其歸一化距離最小的基準(zhǔn)人臉圖像的類別,如下式:
[identityFtest=minidnormFtest,F(xiàn)i,i=1,2,…,c] (10)
式中:[Ftest]為測(cè)試人臉圖像;[Fi]為各類別的基準(zhǔn)人臉圖像;[c]為人臉類別數(shù)。
2 "實(shí)驗(yàn)與結(jié)果分析
2.1 "實(shí)驗(yàn)數(shù)據(jù)庫
在extended Yale B[15?16]以及FERET[17]人臉數(shù)據(jù)庫中做了實(shí)驗(yàn),其中extended Yale B使用的是已裁剪出人臉部分的數(shù)據(jù),F(xiàn)ERET中使用的是pose子集。extended Yale B中的數(shù)據(jù)人臉變化較小,圖像間的差別主要是光照變化,如圖2所示。
lt;E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\25T2.tifgt;
圖2 extended Yale B中一人的人臉圖像
FERET數(shù)據(jù)庫中則包含了更多的鏡頭角度變化,如圖3所示。
lt;E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\25T3.tifgt;
圖3 FERET中一人的人臉圖像
2.2 "實(shí)驗(yàn)方法
每次實(shí)驗(yàn)中把數(shù)據(jù)庫分為3部分:基準(zhǔn)人臉數(shù)據(jù),訓(xùn)練數(shù)據(jù),測(cè)試數(shù)據(jù)?;鶞?zhǔn)人臉數(shù)據(jù)為每次實(shí)驗(yàn)時(shí)從每個(gè)人的人臉圖像中隨機(jī)取出1張組成;訓(xùn)練數(shù)據(jù)用于字典學(xué)習(xí),并且每次實(shí)驗(yàn)中我們要從訓(xùn)練數(shù)據(jù)中隨機(jī)取出32幅作為式9中的同群人臉圖像。
實(shí)驗(yàn)中每幅人臉圖像分成[3×3]的區(qū)域來進(jìn)行特征提取,各區(qū)域中采樣的每個(gè)小圖像塊大小為[8×8],采樣時(shí)重疊率為75%,過完備字典[D]中的字典原子個(gè)數(shù)設(shè)置為1 024。用這樣的參數(shù)設(shè)置進(jìn)行了多次實(shí)驗(yàn),最終實(shí)驗(yàn)結(jié)果為這些實(shí)驗(yàn)的總計(jì)結(jié)果。
2.3 "實(shí)驗(yàn)結(jié)果
表1為本文方法和相關(guān)方法在extended Yale B上的實(shí)驗(yàn)結(jié)果對(duì)比,其中訓(xùn)練樣本每個(gè)類別的人臉圖像數(shù)目分別為16,24,32三種,表1中的數(shù)據(jù)表明,基于整體特征的傳統(tǒng)的SRC方法在訓(xùn)練數(shù)據(jù)較少時(shí),識(shí)別結(jié)果明顯低于本文方法。而且在訓(xùn)練數(shù)據(jù)足夠多時(shí),雖然本文方法結(jié)果低于GSRC和RSC,但是也達(dá)到了很好的識(shí)別結(jié)果。
表1 本文方法和相關(guān)方法在extended Yale B上的實(shí)驗(yàn)結(jié)果 %
表2為本文方法和相關(guān)方法在FERET上的實(shí)驗(yàn)結(jié)果對(duì)比,由于FERET上各個(gè)類別的人臉數(shù)目都較少,可以看出本文的方法明顯優(yōu)于其他方法。
表2 本文方法和相關(guān)方法在FERET上的實(shí)驗(yàn)結(jié)果 %
3 "結(jié) "語
本文提出了一種基于離散余弦變換和稀疏表示的人臉識(shí)別方法,這種方法結(jié)合了稀疏表示和多區(qū)域直方圖方法的優(yōu)點(diǎn),在訓(xùn)練樣本較少時(shí),本文方法的實(shí)驗(yàn)結(jié)果明顯優(yōu)于傳統(tǒng)的基于人臉整體特征的方法,在訓(xùn)練樣本足夠多時(shí),本文方法也達(dá)到了良好的識(shí)別效果。本文下一步的工作是進(jìn)一步優(yōu)化算法性能,使其滿足實(shí)時(shí)的人臉識(shí)別系統(tǒng)的要求。
參考文獻(xiàn)
[1] JAFRI R, ARABNIA H R. A Survey of face recognition techniques [J]. Journal of Information Processing Systems, 2009, 5(2): 41?68.
[2] 李武軍,王崇駿,張煒,等.人臉識(shí)別研究綜述[J].模式識(shí)別與人工智能,2006,19(1):58?66.
[3] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210?227.
[4] YANG M, ZHANG L. Gabor feature based sparse representation for face recognition with gabor occlusion dictionary [C]// European Conference on Computer Vision. Berlin Heidelberg: [s.n.], 2010: 448?461.
[5] YANG M, ZHANG L, YANG J, et al. Robust sparse coding for face recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2011: 625?632.
[6] YANG M, ZHANG L, FENG X, et al. Fisher discrimination dictionary learning for sparse representation [C]// IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2011: 543?550.
[7] AHONEN T, HADID A, PIETIKAINEN M. Face description with local binary patterns: Application to face recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12): 2037?2041.
[8] LIU C, WECHSLER H. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition [J]. IEEE Transactions on Image processing, 2002, 11(4): 467?476.
[9] SANDERSON C, LOVELL B C. Multi?region probabilistic histograms for robust and scalable identity inference [C]// Advances in Biometrics. Berlin Heidelberg: Springer, 2009: 199?208.
[10] CUI Z, SHAN S, CHEN X, et al. Sparsely encoded local descriptor for face recognition [C]// IEEE International Conference on Automatic Face amp; Gesture Recognition and Workshops. [S.l.]: IEEE, 2011: 149?154.
[11] AHARON M, ELAD M, BRUCKSTEIN A. K?SVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311?4322.
[12] MAIRAL J, BACH F, PONCE J, et al. Online learning for matrix factorization and sparse coding [J]. The Journal of Machine Learning Research, 2010, 11: 19?60.
[13] TROPP J A, WRIGHT S J. Computational methods for sparse solution of linear inverse problems [J]. Proceedings of IEEE, 2010, 98(6): 948?958.
[14] BRUCKSTEIN A M, ELAD M, ZIBULEVSKY M. On the uniqueness of nonnegative sparse solutions to underdetermined systems of equations [J]. IEEE Transactions on Information Theory, 2008, 54(11): 4813?4820.
[15] GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J. From few to many: Illumination cone models for face recognition under variable lighting and pose [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 643?660.
[16] LEE K C, Ho J, KRIEGMAN D J. Acquiring linear subspaces for face recognition under variable lighting [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 684?698.
[17] PHILLIPS P J, WECHSLER H, HUANG J, et al. The FERET database and evaluation procedure for face?recognition algorithms [J]. Image and Vision Computing, 1998, 16(5): 295?306.