鄭秋梅 馬茂東 王風(fēng)華 孫燕翔 李 波
(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院 青島 266580)
隨著人們對信息安全問題的日益關(guān)注,生物識別技術(shù)已經(jīng)成為保護(hù)信息安全的重要技術(shù)之一。目前,單模生物特征識別在防盜系統(tǒng)、移動支付、金融服務(wù)等領(lǐng)域已取得廣泛應(yīng)用,但單模生物識別技術(shù)在噪聲干擾、識別率等方面有明顯不足。多模生物特征融合識別技術(shù)具有系統(tǒng)可靠性更高、適用性范圍更廣、安全性更強(qiáng)等優(yōu)點(diǎn),近年來備受青睞。Brunelli 于1995 年提出了利用多生物特征融合實(shí)現(xiàn)身份識別的策略[1],將人臉和聲音兩種形式的生物特征實(shí)現(xiàn)了在匹配層上的融合識別,獲得了良好的識別結(jié)果,其思想為以后多模生物識別的研究開辟了道路,此后越來越多的研究人員開始探索多模生物識別[2~3]。選擇融合的生物類別也是一種關(guān)鍵,本文采用易于實(shí)現(xiàn)同步采集、采集方式具有非接觸性、非侵犯性和易接受性的人臉和人耳生物特征進(jìn)行多模融合識別的研究。實(shí)驗(yàn)證明,相較于人臉與人耳單模生物識別,識別效率得到明顯的提高。
近幾年較為常見的人臉人耳融合識別算法,主要為主成分分析算法(PCA)[4]、典型相關(guān)分析算法(CCA)[5]、核典型相關(guān)分析算法(KCCA)[6]等,這些算法在圖像光照變化、表情變化、拍攝角度變化等方面魯棒性不強(qiáng),而基于稀疏表示的分類算法[7~8]能有效利用子空間的特性,在光照、表情變化復(fù)雜的環(huán)境下,具有更好的識別效果。所以本文將稀疏表示理論引入到人臉人耳融合識別中,提出了基于稀疏表示的人臉人耳融合識別算法。實(shí)驗(yàn)證明,相較于其他人臉人耳識別算法,基于稀疏表示的人臉人耳融合識別算法魯棒性更強(qiáng),識別率更高。
基于稀疏表示的分類算法,簡稱SRC(sparse representation based classification),被廣泛應(yīng)用于模式識別中。其工作原理為,將測試圖像樣本用所有類別的訓(xùn)練樣本線性表示出,而測試圖像樣本所屬的訓(xùn)練圖像樣本可以表示的更為稀疏,也就是說用最少的訓(xùn)練圖像樣本達(dá)到更好的重構(gòu)。在對稀疏表示系數(shù)進(jìn)行約束后,進(jìn)行稀疏表示求解,得到的非0 系數(shù)所對應(yīng)的項(xiàng)為測試圖像樣本所屬的訓(xùn)練圖像樣本所對應(yīng)的項(xiàng)。這樣,可以根據(jù)各類訓(xùn)練樣本所取得對測試樣本的重構(gòu)誤差來進(jìn)行分類,其中重構(gòu)誤差最小的,即為最佳分類。本文通過求解速度更快的正交匹配算法進(jìn)行稀疏求解,其基本數(shù)模模型如下所示。
設(shè)A 是由訓(xùn)練樣本特征向量構(gòu)成的字典集,y為測試樣本的特征向量,n 為字典A 的向量總數(shù)。殘差向量r0=y,匹配索引集V=φ,迭代次數(shù)i=1。
1)在字典集A 中尋求與殘差向量r0最匹配的原子:vni=argri-1,vj。
2)更新匹配索引集:Vi=[Vi-1,vni]。
3)通過最小二乘法求得殘差向量在正交化處理后的原子集上的最佳投影,更新匹配的系數(shù)值x?:x?=arg min||y-Vix||1。
4)更新殘差向量:ri=y-Vix?。
5)i=i+1,判斷 ||ri||2<θ ,其中 θ 為最大殘差閾值,如果滿足條件則停止迭代,輸出匹配系數(shù)集合x?,否則跳到第2)步繼續(xù)循環(huán)執(zhí)行。
本文首先對人臉人耳特征進(jìn)行特征提取,采用能有效降低計(jì)算復(fù)雜度的PCA提取算法。其次,開始對人臉人耳特征進(jìn)行特征融合??紤]到不同模態(tài)生物特征對最終識別的貢獻(xiàn)可能有所不同,故人臉人耳融合算法采用加權(quán)串聯(lián)融合法。本文采用迭代速度比較快的正交匹配追蹤算法來對測試樣本在訓(xùn)練樣本中稀疏表示系數(shù)進(jìn)行求解。最后,通過最小殘差法來進(jìn)行分類識別。通過實(shí)驗(yàn)證明,本文提出的算法具有較好的識別性能。本文算法的實(shí)現(xiàn)流程圖如圖1所示。
基于稀疏表示的分類識別算法(SRC),它的計(jì)算量比較大。為了有效降低計(jì)算復(fù)雜度,本文采用主成分分析PCA[9~10]來對人臉人耳進(jìn)行特征提取。
PCA 算法的基本思想是由訓(xùn)練樣本中較大特征值所對應(yīng)的特征向量來構(gòu)造一個(gè)投影觀測矩陣P,特征向量即為原樣本向量在這個(gè)投影觀測矩陣上的投影向量。對于任意的一個(gè)樣本向量x,特征向量z 可由投影觀測矩陣P 對向量 x 進(jìn)行投影得到,即 z=PTx。
設(shè)人臉和人耳的測試對象共有c 個(gè)類別,每個(gè)類中分別有m 個(gè)人臉測試樣本和m 個(gè)人耳測試樣本。人臉訓(xùn)練樣本和人耳訓(xùn)練樣本分別用Af=[,,…,]和Ae=[,,…,]表示,其中 Ai=[ai,1,ai,2,…,ai,m](i=1,2,…,c) 代表第 i 個(gè)類別對象的m個(gè)測試樣本。然后,人臉訓(xùn)練樣本的特征向量和人耳訓(xùn)練樣本的特征向量可由Df=(Pf)TAf,De=(Pe)TAe計(jì)算得到,其中,Pf為人臉訓(xùn)練樣本通過PCA 算法得到的人臉投影觀測矩陣,Pe為人耳訓(xùn)練樣本通過PCA 算法得到的人耳投影觀測矩陣,Df為人臉訓(xùn)練樣本的特征矩陣,De為人耳訓(xùn)練樣本的特征矩陣。人臉人耳測試樣本對應(yīng)的特征向量可通過 zf=(Pf)Tyf,ze=(Pe)Tye計(jì)算得到,其中 yf,ye分別表示人臉、人耳的測試樣本向量,zf,ze分別表示人臉、人耳測試樣本的特征向量。
特征級融合即能實(shí)現(xiàn)冗余信息的有效壓縮,又能最大程度地利用不同模態(tài)生物特征的可區(qū)分性,故人臉人耳的特征融合層級選用特征級融合。特征融合的方法有以下幾種:串聯(lián)融合法[11]、并行融合法[12]和典型相關(guān)分析(CCA)[13]。串聯(lián)融合法與后面兩種方法相比,更簡單高效,更容易擴(kuò)展到超過兩種模態(tài)的多模生物融合。因此,本文中采用串聯(lián)融合法來進(jìn)行特征融合。
考慮到人臉人耳特征信息對身份識別可能有不同的識別能力,所以本文在進(jìn)行特征向量的串聯(lián)融合時(shí)加入了權(quán)重系數(shù),以此來充分利用人臉和人耳特征信息對身份識別的影響能力。
特征融合具體過程如下所示。
1)特征向量的歸一化表示
為了能使人臉人耳的特征向量在身份識別中具有同等的表現(xiàn)力,所以本文在人臉和人耳特征向量融合之前,對這兩種特征向量進(jìn)行了歸一化處理[14]。由上一節(jié)可知:Df,De分別為人臉訓(xùn)練樣本的特征矩陣和人耳訓(xùn)練樣本的特征矩陣,設(shè)為Df中第i 個(gè)類別中的第j 個(gè)樣本的特征向量,下面本文對進(jìn)行歸一化處理,=(- μf)/σf,其中,μf為Df中所有列向量的均值向量,σf為Df中所有列向量的方差向量。經(jīng)過歸一化之后,所有人臉樣本特征向量的均值為0,方差為1。同理,再用相同的方法對人耳訓(xùn)練樣本的特征向量De進(jìn)行歸一化處理,=(-μe)/σe,其中為De中的列向量,μe為 De的所有列向量的均值向量,σe為De的所有列向量的方差向量。
2)特征向量加權(quán)串聯(lián)融合
設(shè)D 為人臉和人耳測試樣本的特征向量融合之后的特征矩陣,di,j為D 中第i 個(gè)類別中的第j 個(gè)樣本融合后的特征向量,人臉人耳特征向量的加權(quán)融合方法如式(3)所示:
其中,α 和 β 要滿足約束條件 α+β=1。
在具體實(shí)驗(yàn)中,為了充分利用不同模態(tài)的分類識別能力,權(quán)重系數(shù)可通訓(xùn)練獲取,具體方法為:以0.1 為單位,將權(quán)重系數(shù)α 從0.1 開始逐步調(diào)整到0.9,對應(yīng)的權(quán)重系數(shù) β 在滿足約束α+β=1的限制下也逐步進(jìn)行調(diào)整,分別完成整個(gè)識別過程,其中對應(yīng)最高識別率的權(quán)重系數(shù)即為最佳權(quán)重系數(shù)。
因?yàn)檎黄ヅ渥粉櫵惴ǎ?5~16]相較于基追蹤和匹配追蹤等算法,收斂速度更快、對目標(biāo)向量的分解更為稀疏,所以本文采用正交匹配追中算法來對稀疏表示系數(shù)進(jìn)行求解。
人臉和人耳特征融合后的訓(xùn)練樣本矩陣為D,測試樣本對應(yīng)的人臉和人耳特征融合后的向量為z,由正交匹配追蹤算法可求得測試向量z在訓(xùn)練樣本構(gòu)成的字典矩陣D 上的稀疏表示系數(shù)x ,x 為n(n=c×m)維空間中的向量,稀疏表示系數(shù)x 要滿足如下條件||Dx-z|≤φ ,其中,φ 為迭代閾值范圍。
在基于稀疏表示的分類算法的文獻(xiàn)中,大多數(shù)文獻(xiàn)通過最小殘差法[17]來得的最終的識別結(jié)果。所以本文亦采用比較普及的最小殘差法來進(jìn)行分類識別。
其基本思想為:通過訓(xùn)練樣本在某一類別上的線性組合來重構(gòu)測試樣本,其線性組合系數(shù)為測試樣本在訓(xùn)練樣本矩陣對應(yīng)類別上的稀疏表示系數(shù),重構(gòu)樣本與測試樣本殘差最小的類別即為測試樣本所在的類別。
設(shè) xi,(i=1,2,…,m)?Rn為稀疏表示系數(shù) x 中第i 個(gè)類別所對應(yīng)的系數(shù),其余類別所對應(yīng)的系數(shù)為0,所以通過稀疏表示系數(shù)xi可得到由第i 類別訓(xùn)練樣本重構(gòu)的測試樣本,=Dxi,其中 z?i為第 i類別訓(xùn)練樣本重構(gòu)的測試樣本向量。第i類別訓(xùn)練樣本的重構(gòu)殘差為ri=||?-z|,其中重構(gòu)殘差最小的類別即為測試樣本所在的類別,因此可以判定測試樣本z所在的類別為identity(z)=
實(shí)驗(yàn)用的人臉數(shù)據(jù)庫為ORL 人臉庫,ORL 人臉庫中一共有40 個(gè)人的人臉圖像,其中每個(gè)人的人臉圖像包含10 張不同的人臉圖像,數(shù)據(jù)庫中所有的人臉圖像為400 張。ORL 人臉庫中的每個(gè)類別對象具有豐富的拍攝角度變化、拍攝時(shí)間變化、人臉表情變化(主要包含閉眼、睜眼、微笑、吃驚、生氣、憤怒、高興)及不同的臉部細(xì)節(jié)(主要有戴眼鏡、不戴眼鏡、發(fā)型不同、有胡子、沒胡子),這些變化主要包含拍攝時(shí)間變化,圖2展示了ORL人臉數(shù)據(jù)庫中部分類別的人臉圖像。
圖2 ORL人臉數(shù)據(jù)庫中的圖像示意圖
實(shí)驗(yàn)用的人耳數(shù)據(jù)庫為自己拍攝制作的人耳數(shù)據(jù)庫,人耳數(shù)據(jù)庫總共采集30 個(gè)人的人耳圖像,其中每個(gè)人包含11 張不同的人耳圖像,人耳數(shù)據(jù)庫中所有的人耳圖像為330 張。因?yàn)槿硕纳锾卣骶哂袆傂蕴攸c(diǎn),人耳圖像不會因表情或姿態(tài)變化而有所不同,故拍攝的人耳庫主要包含光照和拍攝角度變化,其中拍攝角度主要包含正面、左面、右面、上面和下面,其角度變化在5°~10°范圍內(nèi)。下面圖3展示了課題組人耳庫中部分類別的人耳圖像。
圖3 人耳數(shù)據(jù)庫中的圖像示意圖
在實(shí)驗(yàn)中,取ORL 人臉庫中的前30 個(gè)類別的人臉圖像與人耳庫中的30 個(gè)類別的人耳圖像進(jìn)行搭配實(shí)驗(yàn),其中,每個(gè)類別的人臉和人耳圖像各選取10張進(jìn)行實(shí)驗(yàn)。
為了確定最佳的人臉人耳特征融合權(quán)重系數(shù)α,β ,本文進(jìn)行了實(shí)驗(yàn)一來求取最佳權(quán)重系數(shù)α,β ,其中,本文采用的基于稀疏表示的人臉人耳融合識別算法(MS β=1-α RC),將權(quán)重系數(shù) α 從0.1 開始以0.1 為步長逐步調(diào)整到0.9,統(tǒng)計(jì)每次權(quán)重系數(shù)對應(yīng)的識別率,統(tǒng)計(jì)結(jié)果如圖4所示。
從圖4 中可以看出,當(dāng)權(quán)重系數(shù)α 為0.3 時(shí),對應(yīng)的權(quán)重系數(shù)β 為0.7,此時(shí)的識別率最大,為最佳權(quán)重系數(shù)。從上述實(shí)驗(yàn)可以看出,人耳特征對最終識別結(jié)果的影響更大,原因在于本文實(shí)驗(yàn)用的人臉數(shù)據(jù)庫相較于人耳數(shù)據(jù)庫在光照、表情和姿態(tài)變化上更加豐富。
為了比較多模融合算法和單模算法的識別性能,進(jìn)行了實(shí)驗(yàn),分別比較了人臉識別、人耳識別與人臉人耳融合識別的識別性能。實(shí)驗(yàn)中將人臉和人耳數(shù)據(jù)庫中每個(gè)類別的7副圖像用做訓(xùn)練樣本,其余3副用做測試樣本。識別結(jié)果如表1所示。
圖4 權(quán)重系數(shù)α 對應(yīng)的識別率
表1 不同模式類別的識別率比較
從表1 中可以看出,人臉人耳融合識別的識別率要高于人臉和人耳單模生物識別的識別率,這說明了多模生物識別技術(shù)比單模生物識別技術(shù)在識別性能上表現(xiàn)更優(yōu)。
為了將本文提出的基于稀疏表示的人臉人耳多模融合識別算法(MSRC)與其他人臉人耳融合算法在識別性能上進(jìn)行比較。在實(shí)驗(yàn)中本文對比了近幾年較為常見的人臉人耳融合識別算法,分別為主成分分析算法(PCA)、典型相關(guān)分析算法(CCA)、核典型相關(guān)分析算法(KCCA),各種算法的識別率統(tǒng)計(jì)結(jié)果如表2所示。
表2 各種多模融合算法識別率比較
從表2 中可以看出相比于其他人臉人耳融合識別算法,本文基于稀疏表示的人臉人耳識別融合算法(MSRC)的識別性能更好。因?qū)嶒?yàn)用的數(shù)據(jù)庫包含豐富的光照、表情、姿態(tài)及拍攝角度變化,本文的MSRC 算法仍能取得比較滿意的識別率,故MSRC算法對光照及表情變化等具有較強(qiáng)的魯棒性。
本文針對單模生物識別所存在的局限性,提出了人臉和人耳特征融合識別算法,通過實(shí)驗(yàn)證明,多模生物識別技術(shù)比單模生物識別技術(shù)在識別性能上更優(yōu),多模生物識別技術(shù)也成為未來生物識別技術(shù)的重要研究方向。本文將稀疏表示的方法應(yīng)用于人臉及人耳特征的表達(dá)分類上,通過實(shí)驗(yàn)證明,相比于其他算法,基于稀疏表示的識別算法要更加優(yōu)秀。