高志榮,熊承義,笪邦友
(1 中南民族大學(xué) 計算機(jī)科學(xué)學(xué)院,武漢 430074 ;2 中南民族大學(xué) 電子信息工程學(xué)院,智能無線通信湖北省重點(diǎn)實驗室,武漢 430074)
魯棒性自動人臉識別是幾十年來計算機(jī)視覺領(lǐng)域關(guān)注的熱點(diǎn)問題.近年來,基于信號稀疏性先驗基礎(chǔ)上提出的壓縮感知[1]理論,為人臉識別新技術(shù)研究提供了重要理論基礎(chǔ),基于壓縮感知理論的人臉識別研究得到了國內(nèi)外研究者們的廣泛關(guān)注,并已成為該領(lǐng)域的重要研究熱點(diǎn).Wright等人[2]首先提出了基于稀疏表示分類器(SRC)的人臉識別框架,實驗結(jié)果展現(xiàn)了稀疏表示分類在實現(xiàn)魯棒性人臉識別中具有良好的潛能.此后,國內(nèi)外許多學(xué)者在此基礎(chǔ)上展開了大量的研究工作,以進(jìn)一步提升其性能.比如,Patel[3]提出了一種對圖像合法性進(jìn)行判別的方法,通過比較每個類殘差均方值的倒數(shù),完成對測試圖像是否為合法人臉圖像的判定;Qiao等人[4]給出了一種線性降維的SPP(Sparsity Preserving Projections)方法,通過訓(xùn)練得到的投影矩陣實現(xiàn)直接將未訓(xùn)練樣本投影到低維空間以降低計算復(fù)雜度;Yang等人[5]提出了基于稀疏表示分類器的MFL方法,通過對字典的良好學(xué)習(xí),可降低字典規(guī)模,提高識別能力;文獻(xiàn)[6,7]給出了一種基于場景和目標(biāo)分類的方法,首先從訓(xùn)練樣本中提取若干局部特征,然后依據(jù)這些局部特征在稀疏約束下求解一組超完備字典,再對所有樣本的局部特征進(jìn)行編碼、匯總和分類.
為了解決光照、姿態(tài)、表情以及遮擋等因素對人臉圖像的影響,文獻(xiàn)[8]提出了一種基于線性回歸的人臉識別方法,可一定程度減輕上述因素的影響,具有較快識別速度,但識別效果仍有待提高.Wagner[9]提出了一種新的稀疏表示算法,通過采集不同光照條件下的大量訓(xùn)練樣本,可部分解決不同光照條件下人臉識別中存在的問題,但操作難度較高.
為了進(jìn)一步有效提升傳統(tǒng)稀疏表示人臉識別系統(tǒng)的識別率和可靠性,在分析人臉圖像稀疏表示系數(shù)分類能力的基礎(chǔ)上,本文提出了一種基于殘差加權(quán)的稀疏表示人臉識別新方法.該方法通過對類殘差圖像關(guān)于所屬各類稀疏表示系數(shù)的范數(shù)進(jìn)行歸一化加權(quán),有效提升了原始基于類殘差判決的識別能力.仿真實驗結(jié)果表明,改進(jìn)的基于殘差加權(quán)的稀疏表示分類(WR_SRC)能夠有效提高系統(tǒng)的識別性能.
稀疏表示是壓縮感知中的關(guān)鍵理論,數(shù)據(jù)的稀疏表示,可以從本質(zhì)上降低數(shù)據(jù)處理的成本,提高壓縮效率.目前,稀疏表示已經(jīng)被有效地用于人臉識別算法中.與傳統(tǒng)算法相比,稀疏表示人臉識別算法具有識別率高、魯棒性強(qiáng)的特點(diǎn).
稀疏表示的本質(zhì)就是稀疏正規(guī)化約束下的信號分解.其基本模型表明自然信號能夠被表示成預(yù)先定義的原子信號的線性組合,而且這些組合系數(shù)是稀疏的,即大部分系數(shù)是0,或接近于0.
在基于稀疏表示的人臉識別技術(shù)中,考慮由k個不同類組成的人臉圖像訓(xùn)練集,每幅圖像大小為w×h,按列排列成向量v∈Rm(m=w×h).來自第i類的ni個訓(xùn)練樣本組成了一個矩陣Ai=[vi,1,vi,2,…,vi,ni]∈Rm×ni,則該類的任一測試樣本y∈Rm都將近似地存在于由Ai的列所張成的線性子空間中:
y=ai,1vi,1+ai,2vi,2+…+ai,nivi,ni,
ai,j∈R,j=1,2,…,ni為組合系數(shù).
(1)
由于測試樣本所屬類無法事先預(yù)知,因此針對整個訓(xùn)練樣本集重新定義一個矩陣A,它被看成是訓(xùn)練集中k個類的串聯(lián):A=[A1,A2,…,Ak]=[v1,1,v1,2,…,vk,nk],則測試樣本y可以表示為整個訓(xùn)練樣本集的線性組合:
y=Ax0∈Rm.
(2)
這里,x0=[0,…,αi,1,αi,2,…,αi,ni,0,…,0]T∈Rn是系數(shù)向量,x0的非零項應(yīng)該與訓(xùn)練集中的第i類對應(yīng).此時,問題轉(zhuǎn)化成求解線性方程組y=Ax.
一般情況下,該方程組是欠定的,其解并不唯一,但可通過下列最優(yōu)化問題來解決:
(3)
但求解‖x‖0通常是NP難的,很難在多項式時間內(nèi)完成.最近關(guān)于稀疏表示和壓縮感知的理論表明,若x0的解足夠稀疏,那么求l0范數(shù)的問題可用最小l1范數(shù)來代替,即:
(4)
由于噪聲或訓(xùn)練樣本不充分等原因,上述優(yōu)化問題中的線性約束并不總是成立,實際的模型可修改為:y=Ax0+z,其中z∈Rm代表噪聲,且滿足‖z‖2<ε.
同時,求解稀疏解x0仍可以通過解下述l1范數(shù)問題實現(xiàn):
y‖2≤ε.
(5)
綜上所述,經(jīng)典稀疏表示識別算法的流程可描述如下.
算法1 基于稀疏表示的分類器(SRC):
1) 輸入:包含有k個類、n個樣本的訓(xùn)練樣本集A=[A1,A2,…,Ak]∈Rm×n;一個測試樣本y∈Rm,以及可選的容錯項ε>0.
2) 歸一化列矩陣A使之具有單位l2范數(shù).
3) 求解最小l1范數(shù):
或者求解:
5) 輸出結(jié)果:identity(y)=arg miniri(y).
算法1(SRC)已經(jīng)在眾多實例中被證明是行之有效的,識別率通常在90%左右.但對于測試圖像是否合法等問題,算法1(SRC)并未涉及.對輸入測試圖像進(jìn)行合法性的判別,也是人臉識別技術(shù)中所要解決的一個至關(guān)重要的問題[3],本文首先對該問題進(jìn)行討論.
圖1 輸入非人臉圖像的l2范數(shù)的降序
圖2 輸入人臉圖像的l2范數(shù)的降序
從圖1、圖2可以看出,當(dāng)輸入為非人臉圖像時,所有類系數(shù)向量l2的范數(shù)差別并不明顯,尤其是最大的幾個值非常接近;而當(dāng)輸入為人臉圖像時,則出現(xiàn)其中一個系數(shù)向量的l2范數(shù)明顯大于其他類的情況.經(jīng)過進(jìn)一步追蹤發(fā)現(xiàn),這個最大的類恰是輸入圖像所屬的類.這個結(jié)果正符合人臉識別的需求;另外,上述人臉圖像的輸入是隨機(jī)選擇的,具有普適性,基于此,本文提出采用下列規(guī)則(L2 norm discrimination,L2ND)來進(jìn)行人臉圖像合法性的判別:
給定測試樣本y,對訓(xùn)練樣本集中的所有類,計算第i類系數(shù)向量的l2范數(shù):
(6)
針對每個測試圖像,對上述值進(jìn)行逆序排序:
(7)
結(jié)果表明,上述排序結(jié)果與測試樣本所屬類順序一致.第一個類的值最大,對應(yīng)測試樣本所屬類的概率也最大.同時,將第一個類與第二個類的比值作為算法識別率可靠性的測量標(biāo)準(zhǔn):
(8)
并設(shè)定一個門限值判斷輸入測試樣本,滿足不等式時為合法的人臉圖像:φy≥τ;否則為非法的人臉圖像.
由于式(7)為逆序排列,一個較大的門限值意味著第一類圖像的對應(yīng)值遠(yuǎn)遠(yuǎn)大于后面各類,從而該類在表達(dá)測試樣本時具有最大的能量,被判定為測試圖像所屬類是合理的.
為了驗證上述判別規(guī)則式(6)~(8)的工作原理,我們隨機(jī)選擇不同類進(jìn)行了同樣的模擬實驗,用式(8)進(jìn)行定量分析,并與文獻(xiàn)[3]的判別式進(jìn)行了對比,其結(jié)果如圖3所示.
圖3 文獻(xiàn)[3]與本文算法的結(jié)果比較
從圖3可以看出,對于人臉圖像和非人臉圖像的判別,在測試樣本相同的情況下,用式(8)進(jìn)行計算,殘差的φy比l2范數(shù)的φy要小得多,也就是最小殘差和次小殘差的比值遠(yuǎn)小于最大l2范數(shù)和次小l2范數(shù)的比值,這表明,用最小殘差作為識別標(biāo)準(zhǔn)時,其結(jié)果沒有最大l2范數(shù)所得的結(jié)果精確和有效,因而類系數(shù)向量的l2范數(shù)在人臉識別中具有十分重要的意義.
另一方面,無論是文獻(xiàn)[3]所采用的殘差判別式,還是本文所采用的L2ND判別式,其結(jié)果都具有相同的走勢.若將二者集中起來考慮,則類間差別更加突出,優(yōu)勢更加明顯,從而識別會更加有效.這就是本文提出的基于殘差加權(quán)的稀疏表示人臉識別新方法(WR_SRC),通過用類系數(shù)向量的l2范數(shù)對殘差進(jìn)行歸一化加權(quán),可以突顯測試圖像所屬類的特征,因此更加容易將所屬類與其他類加以區(qū)別,從而有效提高算法的識別率.
對于給定的測試樣本與訓(xùn)練樣本,先求解最小l1范數(shù),由于噪聲的影響,可能得到多個滿足條件的類系數(shù)向量.針對這些不同類再求解其類系數(shù)向量的l2范數(shù)以及殘差,最后用類系數(shù)向量的l2范數(shù)對類殘差進(jìn)行歸一化加權(quán),并輸出識別結(jié)果.其具體描述如下.
算法2 (WR_SRC):
1) 輸入:包含有k個類、n個樣本的訓(xùn)練樣本集A=[A1,A2,…,Ak]∈Rm×n;一個測試樣本y∈Rm,以及可選的容錯項ε>0.
2) 歸一化列矩陣A使之具有l(wèi)2范數(shù).
3) 求解最小l1范數(shù):
或者包含噪聲的情況:
5) 對步驟4的結(jié)果進(jìn)行逆序排序.
6) 對步驟5的結(jié)果,計算第一項與第二項的比值φy,并與事先設(shè)定的門限τ進(jìn)行比較,若φy≥τ,則繼續(xù)步驟7;否則,輸出為非人臉圖像的結(jié)論.
8) 輸出識別結(jié)果:
identity(y)=arg maxiwri(y).
通過對算法1(SRC)和算法2(WR_SRC)比較,可以發(fā)現(xiàn),算法的改進(jìn)就在于識別中考慮了類系數(shù)向量的最大l2范數(shù),利用該值作為因子對殘差歸一化加權(quán),從而降低具有極高相似度的圖像之間的相互影響,提高人臉圖像識別率.類系數(shù)向量的最大l2范數(shù)表示了系數(shù)向量在線性組合后所具有的能量,其值越大,與測試圖像越接近,作為分類判別是合理的.
為了驗證算法2(WR_SRC)的有效性,我們進(jìn)行了模擬實驗,并與算法1(SRC)進(jìn)行了比較.選擇了Windows7.0以及Matlab7.10作為模擬實驗平臺,并以AR人臉庫為實驗對象.AR人臉庫由兩個階段組成,包含100不同類,每個類14個樣本(大小60×43),分別代表不同表情和光照變化,如圖4所示.本文采用第一階段的7個圖像作訓(xùn)練樣本,第二階段的7個圖像為測試樣本.
圖4 AR數(shù)據(jù)庫樣本列舉
測試1: 完全人臉圖像識別.
對AR庫中的700幅不同訓(xùn)練樣本圖像,首先提取Eigenface特征,再選擇特征維數(shù)為30、50、80、100、150、200、250、300時,比較原始SRC算法與WR_SRC算法的識別率,實驗結(jié)果如圖5所示.
圖5 SRC算法與WR_SRC算法識別率比較
從圖5中可以看出,當(dāng)特征點(diǎn)個數(shù)取為較小時,兩種算法識別率都較低,也比較接近,因為訓(xùn)練樣本集中圖像具有相似性,較少的特征點(diǎn)不足以將不同類精確區(qū)分;但當(dāng)特征點(diǎn)個數(shù)取值較大時,算法2(WR_SRC)較算法1(SRC)的識別率具更明顯的提高,尤其是在特征點(diǎn)超過50后,效果尤其明顯,識別率已達(dá)80%以上,證明了算法的有效性.
測試2: 部分人臉圖像識別.
在一些特殊應(yīng)用場合,比如商場或超市的攝像頭只獲取了部分人臉圖像,要求完成識別,這就是部分人臉圖像的識別問題.模擬實驗中,我們選擇AR庫中的人臉圖像部分特征(大小),對算法的識別效果進(jìn)行測試,可能的部分人臉圖像如圖6(a)、(b)所示.
圖6 部分人臉特征
計算算法1(SRC)和算法2(WR_SRC)的部分人臉特征的識別率,其結(jié)果分別如圖7(a)、(b)所示.
圖7 基于部分人臉特征識別率測試
從圖7中可以看出,與完全人臉特征類似,部分人臉特征的識別率也是隨著特征點(diǎn)個數(shù)的增加而增加的;同時,在特征只有完全人臉圖像一半的情況下,仍可以在特征點(diǎn)個數(shù)為80時,達(dá)到80%以上的識別率;此外,無論是眼睛還是鼻子作為部分人臉特征時,WR_SRC算法的識別率比原始SRC算法效果更好.
以上探討了基于稀疏表示的類系數(shù)特征對人臉識別性能的影響.本文提出的基于類系數(shù)加權(quán)殘差的稀疏表示識別算法比傳統(tǒng)的稀疏表示識別算法具有較好的性能改進(jìn).前者不僅能實現(xiàn)有效識別輸入測試樣本的合法性,還能針對完全人臉圖像及部分人臉圖像有效提高識別率,對測試圖像部分特征有效的情況下尤其具有實用價值,實驗結(jié)果驗證了本文算法的有效性.
[1]Candes E J,Wakin M B.An introduction to compressive sampling [J].IEEE Signal Processing Magazine,2008,25(2):21-30.
[2]Wright J,Yang A,Ganesh A.Robust face recognition via sparse representation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[3]Patel V M,Wu T,Biswas S .Dictionary-based face recognition under variable lighting and pose[J].IEEE Transactions on Information Forensics and Security,2012,7(3):954-965.
[4]Qiao L S,Chen S C,Tan X Y.Sparsity preserving projections with applications to face recognition [J].Pattern Recognition,2010,43(1):331-341.
[5]Yang M,Zhang L,Yang J.Metaface learning for sparse representation based face[C]//IEEE.IEEE ICIP.Hong Kong:IEEE,2010:1601-1604.
[6]Yang J C,Yu K,Gong Y.Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE.IEEE CVPR.USA:IEEE,2009:1794-1801.
[7]Gao S I,Tsang I W,Liang T.Local features are not lonely-Laplacian sparse coding for image classification[C]//IEEE.IEEE CVPR.USA:IEEE,2010:3555-3561.
[8]Nasseem I,Togneri R,Bennamoun M.Linear regression for face recognition [J].IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32(11):2106-2112.
[9]Wagner A,Wright J,Ganesh A.Towards a practical face recognition system: robust registration and illumination by sparse representation[C]//IEEE.IEEE CVPR.USA:IEEE,2009:597-604.