趙淑歡,葛佳琦,梁曉林,2,劉帥奇,2
(1. 河北大學(xué)電子信息工程學(xué)院,河北 保定 071000;2. 河北省機(jī)器視覺技術(shù)創(chuàng)新中心,河北 保定 071000)
人臉識別[1-4]技術(shù)廣泛應(yīng)用于監(jiān)控、人機(jī)交互、犯罪調(diào)查和邊境控制等場景,成為近年來模式識別領(lǐng)域研究的熱點(diǎn),隨著科技的發(fā)展,人們對這項(xiàng)技術(shù)的需求越來越大。經(jīng)過多年的研究和發(fā)展,其識別的精度已經(jīng)很高,尤其在將深度學(xué)習(xí)[5-8]方法引入到人臉識別之后,其性能更是有了突破性進(jìn)展,但深度學(xué)習(xí)方法需要大量訓(xùn)練樣本、運(yùn)算量大、模型訓(xùn)練時(shí)間長。很多實(shí)際應(yīng)用中,系統(tǒng)只能獲取每人一張圖像作為訓(xùn)練樣本,并需要快速得到結(jié)果,因此深度學(xué)習(xí)方法在單樣本[9-12]人臉識別中不再適用。
單樣本人臉識別面臨諸多挑戰(zhàn),和常規(guī)人臉識別同樣存在的光照、姿態(tài)、表情、年齡變化帶來的影響,單樣本人臉識別最大的難題是每個(gè)人只有一張圖像作訓(xùn)練,包含的信息太少導(dǎo)致無法預(yù)測各種人臉變化,更加劇了上述因素帶來的負(fù)面影響,從而無法訓(xùn)練出有效的模型。由于在單樣本情況下無法計(jì)算類內(nèi)散度矩陣,線性判別分析[13](LDA)無法應(yīng)用;同樣的原理,類內(nèi)分布無法被估計(jì),基于概率[14]的方法識別效果也很差;主成分分析[15](PCA)方法也很難在單樣本情況下提取出具有判別性的特征向量,導(dǎo)致識別效果不理想。
由于經(jīng)典算法在單樣本人臉識別中的性能很差,近年來很多研究人員提出一些改進(jìn)算法來解決單樣本人臉識別準(zhǔn)確率低的問題。這些方法大致可以分為三個(gè)類別:直接在單樣本上提取魯棒性特征的方法;基于遷移學(xué)習(xí),使用輔助數(shù)據(jù)集進(jìn)行特征學(xué)習(xí)的方法;生成虛擬樣本的方法。對于第一類,文獻(xiàn)[16]提出了子模式下的LBP與HOG特征融合的方法;文獻(xiàn)[17]提出了SPCA與HOG特征融合的方法;文獻(xiàn)[18]提出中心對稱梯度幅值相位模式的方法。這類算法直接使用單一樣本提取魯棒特征,并在經(jīng)典算法的基礎(chǔ)上做了改進(jìn),在性能上有了一定的提升,但都屬于無監(jiān)督學(xué)習(xí),一些判別性信息沒有被利用,還具有很大的提升空間。文獻(xiàn)[19]提出了從輔助數(shù)據(jù)集中的中性圖像和變化圖像中提取二值加權(quán)插值圖來分析類內(nèi)變化的方法;文獻(xiàn)[20]提出了判別遷移學(xué)習(xí)方法,先對多樣本通用訓(xùn)練集進(jìn)行判別分析,然后將判別分析遷移到單樣本數(shù)據(jù)庫的方法。這類方法采用一個(gè)額外的通用數(shù)據(jù)集進(jìn)行特征學(xué)習(xí),假設(shè)每個(gè)人的類內(nèi)變化都是相似的,并通過類內(nèi)變化訓(xùn)練出模型,估計(jì)出實(shí)驗(yàn)所使用的數(shù)據(jù)集的散點(diǎn)矩陣,然而這類方法也有一個(gè)明顯的缺陷,即大多忽略了輔助數(shù)據(jù)集和測試數(shù)據(jù)集的分布差異所導(dǎo)致的準(zhǔn)確率下降。文獻(xiàn)[21]提出QR分解重構(gòu)生成虛擬樣本的單樣本人臉識別方法;文獻(xiàn)[22]提出利用LU分解生成虛擬樣本并結(jié)合LDA的方法;文獻(xiàn)[23]提出改進(jìn)虛擬樣本的方法。這類方法先生成虛擬樣本,再進(jìn)行特征學(xué)習(xí),既保留了較多的判別性信息,也不會因?yàn)椴煌瑪?shù)據(jù)集之間的差異造成識別性能下降,所以本文的方法也屬于這一類。上述文獻(xiàn)在經(jīng)典算法的基礎(chǔ)上做了改動,識別性能有了一定的提升,但是和深度學(xué)習(xí)的方法相比,還有差距。因此,研究傳統(tǒng)方法的單樣本人臉識別是一項(xiàng)勢在必行的工作。
本文針對單樣本情況下識別率低的問題,提出了一種以PCA-Net[24-26]為主體,多種特征融合的單樣本人臉識別算法PMFF(PCA-Net Multi-Feature Fusion)。首先,將每個(gè)人的單樣本利用LU分解生成2張?zhí)摂M樣本,與單樣本構(gòu)成新的訓(xùn)練集;然后,分別提取測試樣本和訓(xùn)練樣本的PCA-Net特征并計(jì)算皮爾遜相關(guān)系數(shù)[27],并將其初步分類為最大相關(guān)系數(shù)對應(yīng)的類,同時(shí)保留相關(guān)系數(shù)最大的3張圖像作為細(xì)化訓(xùn)練集;其次,分別提取測試樣本和細(xì)化訓(xùn)練集的LBP、CSLBP[28]、BGCSBP[29]、IMLBP[30]特征,并記錄基于皮爾遜相關(guān)系數(shù)的分類結(jié)果;最后,將所有特征的識別結(jié)果加權(quán)投票,得到最終的識別結(jié)果。
PCA-Net是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的簡化淺層網(wǎng)絡(luò)模型,CNN訓(xùn)練時(shí)間長,且需要大量的訓(xùn)練樣本,這些因素限制了CNN在某些方面的應(yīng)用,因此,一種新型的淺層網(wǎng)絡(luò)模型應(yīng)運(yùn)而生,這個(gè)模型訓(xùn)練過程更簡單,運(yùn)算量更小,即PCA-Net模型。
對于給定的圖像集X=[x1,x2,…,xN],其中xi∈Rm×n,N表示樣本數(shù),PCA-Net特征的提取共有三個(gè)階段。
步驟3:將步驟2得到的每個(gè)特征圖進(jìn)行二值處理,再進(jìn)行二值化哈希編碼,再進(jìn)行級聯(lián),就完成了PCA-Net特征提取。PCA-Net特征提取過程的原理圖如圖1所示。
圖1 PCA-Net原理圖[21]
本文將PCA-Net與多種LBP算法融合構(gòu)成改進(jìn)加權(quán)投票的PCA-Net多特征融合單樣本人臉識別算法,記為PMFF,流程圖如圖2所示,具體步驟如下:
圖2 算法流程圖
算法1:PMFF
輸入:
訓(xùn)練集X=[x1,x2,…,xN],其中x∈Rm×n,N為類別數(shù);測試集Y=[y1,y2,…,yM],其中y∈Rm×n,M為測試樣本總數(shù),圖像的尺寸為m×n。
輸出:
測試圖像的預(yù)測結(jié)果Rp=[r1,r2,…,rM]
步驟:
1)虛擬樣本的生成;
2)提取PCA-Net特征進(jìn)行粗識別并形成細(xì)化訓(xùn)練集;
3)提取LBP及其改進(jìn)特征,進(jìn)行細(xì)識別;
4)多特征識別結(jié)果投票得到最終識別結(jié)果。
本文采用生成虛擬樣本的方法,增加訓(xùn)練樣本數(shù)量,擴(kuò)展類內(nèi)變化。生成方法中比較有代表性的有奇異值擾動、鏡像臉、圖像分解、線性對象類別模型等方法。因LU分解具有計(jì)算量較小、對重要信息的保留程度較高的優(yōu)點(diǎn),本文采用LU分解重構(gòu)的方法生成虛擬樣本。圖像矩陣xj通過式(1)被分解成一個(gè)下三角矩陣L和一個(gè)上三角矩陣U的乘積
xj=LU
(1)
其中,L∈Rm×n為下三角矩陣,U∈Rn×n為上三角矩陣,L和U的具體表達(dá)如式(2)和式(3)所示。
(2)
(3)
其中,l1~ln為矩陣L的每一列,u1~un為矩陣U的每一行。定義n個(gè)矩陣[B1,B2,…,Bn],Bi=li×ui,其中Bi∈Rm×n,即矩陣L的第i列和矩陣U的第i行的乘積,i∈[1,n]。利用式(4)分別計(jì)算各矩陣能量,從中選取k個(gè)能量最大的B矩陣并按能量大小重新排列,再利用式(5)重構(gòu)虛擬樣本xj1,則該重構(gòu)樣本包含了原圖中的大部分能量,較完整的保留了圖像的紋理信息。
(4)
(5)
圖3 原圖和兩張?zhí)摂M樣本
虛擬樣本與原樣本構(gòu)成增廣訓(xùn)練集XA=[x10,x11,x12,x20,x21,x22,…,xN0,xN1,xN2]。對于每一張測試樣本y,在特征空間中,訓(xùn)練集中與測試樣本距離很遠(yuǎn)的樣本對識別起到干擾作用,所以可先用粗識別將其剔除。
對測試樣本和新訓(xùn)練集分別提取PCA-Net特征,記為XpA∈Rω×(3N),yP∈Rω,其中ω為PCA-Net特征維數(shù),并根據(jù)式(6)計(jì)算yp與每個(gè)訓(xùn)練樣本的PCA-Net特征間的皮爾遜相關(guān)系數(shù),同時(shí)為測試樣本分配最大相關(guān)系數(shù)對應(yīng)的類標(biāo)簽,記為R1,保留與測試樣本相似度最大的3個(gè)訓(xùn)練樣本,形成細(xì)化訓(xùn)練集XX=[xx1,xx2,xx3],其中xx∈Rm×n。
(6)
因局部二值模式(LBP)計(jì)算量小,并且對光照和灰度的變化具有很好的魯棒性,所以選用LBP及其改進(jìn)特征對細(xì)化訓(xùn)練集進(jìn)行特征提取。
LBP是基于r×r的窗口滑動提取圖像特征,比較中心點(diǎn)像素值gc與臨近像素值關(guān)系,按照式(7)進(jìn)行編碼,即得該點(diǎn)的LBP特征值。
(7)
原始LBP特征的維數(shù)很高,所以有了特征維數(shù)更低的中心對稱局部二值模式(CSLBP),計(jì)算方法與傳統(tǒng)LBP基本一致,不同的地方在于比較窗口中邊緣點(diǎn)的像素值和該點(diǎn)關(guān)于中心點(diǎn)對稱的位置的像素值,然后按照式(8)進(jìn)行編碼,得 CSLBP值。由于每個(gè)窗口只有一半的像素參與了編碼,特征維數(shù)就變?yōu)榱薒BP的一半。
(8)
為提取更多的有效信息,BGCSBP在CSLBP的基礎(chǔ)上進(jìn)行改進(jìn),先獲取圖像兩個(gè)方向的梯度信息,再用CSLBP算子進(jìn)行編碼,然后將4位水平方向的二進(jìn)制編碼作為高四位,4位垂直方向的二進(jìn)制編碼作為低四位,再轉(zhuǎn)為十進(jìn)制數(shù)即為BGCSBP的值。
上述三種LBP及其改進(jìn)特征都是只考慮了窗口中間像素和其鄰域像素的關(guān)聯(lián)性,而沒有考慮各鄰域像素的關(guān)聯(lián)性,所以本文同時(shí)選用另一種改進(jìn)的LBP特征(IMLBP),將中心點(diǎn)像素值與周圍各鄰域點(diǎn)像素值相加,再將各鄰域點(diǎn)得到的像素值按照一定的順序與相鄰鄰域點(diǎn)的值比較,進(jìn)行二值化處理,再轉(zhuǎn)成十進(jìn)制即位該點(diǎn)的IMLBP值。
分別對細(xì)化訓(xùn)練集和測試樣本提取LBP、CSLBP、BGCSBP、IMLBP四種特征記為XL=[xx1lb,xx1cs,xx1bg,xx1im,xx2lb,xx2cs,xx2bg,xx2im,xx3lb,xx3cs,xx3bg,xx3im,],yL=[ylb,ycs,ybg,yim],圖4表示原圖和四種LBP特征的對比圖。
圖4 原圖和三種特征圖
在每種LBP特征空間上,分別計(jì)算測試樣本yl和細(xì)化訓(xùn)練集樣本的皮爾遜相關(guān)系數(shù),最大相關(guān)系數(shù)對應(yīng)的類即為該特征下的分類結(jié)果,因而可得到四種特征下的細(xì)分類結(jié)果[R2,R3,R4,R5]。
Extended Yale B數(shù)據(jù)庫共包含38個(gè)人,每人64張圖像,共2432張圖像,大小為192×168,圖像沒有遮擋,但有輕微表情變化,變化較大的是光照強(qiáng)度,數(shù)據(jù)庫中前三個(gè)人的部分圖像如圖5所示。
圖5 Extended Yale B數(shù)據(jù)庫中前三個(gè)人的部分圖像
實(shí)驗(yàn)選取每個(gè)人1張光照強(qiáng)度適中且沒有表情變化的圖像分別作為訓(xùn)練樣本,剩余的63張圖像作為測試集,單樣本和虛擬樣本共同組成的訓(xùn)練集共38*3=114張圖像,測試集共38*63=2394張圖像,選取不同的訓(xùn)練樣本,重復(fù)10次實(shí)驗(yàn)。
選用幾種在ImageNet數(shù)據(jù)庫預(yù)訓(xùn)練好的經(jīng)典深度網(wǎng)絡(luò)提取的特征作為對比算法,只保留網(wǎng)絡(luò)最后的全連接層作為特征向量,再用最近鄰進(jìn)行分類,得到預(yù)測結(jié)果,10次實(shí)驗(yàn)后的平均識別率及標(biāo)準(zhǔn)差如表1所示。
表1 Extended Yale B數(shù)據(jù)庫上各算法準(zhǔn)確率
由表1可知,在ImageNet預(yù)訓(xùn)練的深度網(wǎng)絡(luò)識別率很差,而LBP特征及其改進(jìn)所取得的效果比預(yù)訓(xùn)練網(wǎng)絡(luò)要好,但也未達(dá)到最佳效果,PCA-Net特征在所有單一特征中識別效果最好,穩(wěn)定性也最佳,而本文方法(PMFF)則對PCA-Net的性能有了提升。由于本文算法是將5種特征做決策級融合,所以將算法的特征維數(shù)記為5種特征維數(shù)的總和。
為了確定每種特征在融合過程中是否起到了提升識別率的作用,在得到五種單特征的識別結(jié)果之后,進(jìn)行消融實(shí)驗(yàn)。按照表1中的識別率高低,對5種特征進(jìn)行排序,并按識別率的高低對五種特征加權(quán)融合,以PCA-Net:LBP:CSLBP: IMLB:BGCSBP=5:2:1:3:4的比例融合,再進(jìn)行消融實(shí)驗(yàn),結(jié)果如表2所示。
表2 Extended Yale B數(shù)據(jù)庫上的消融實(shí)驗(yàn)結(jié)果
從表2中可以看出,五種特征去掉其中任何一種,融合算法的識別率都會下降,說明每種特征在融合過程中都起到了提升識別率的作用,所以都應(yīng)該保留。
AR數(shù)據(jù)庫總共有100個(gè)人,每個(gè)人26張圖像,大小為165×120,共有2600張圖像包含表情、光照變化,墨鏡、圍巾遮擋,數(shù)據(jù)庫中前三個(gè)人的部分圖像如圖6所示。
圖6 AR數(shù)據(jù)庫中前三個(gè)人的部分圖像
每人選取一張圖像作為訓(xùn)練樣本,剩余的25張圖像作測試單樣本,因此擴(kuò)展后的訓(xùn)練樣本訓(xùn)練集共100*3=300張圖像,測試集共100*25=2500張圖像。每次選取不同的訓(xùn)練樣本,重復(fù)10次實(shí)驗(yàn),其中8次選取為光照適中無遮擋圖像作訓(xùn)練樣本,2次選取遮擋圖像作訓(xùn)練樣本。
同樣選用幾種預(yù)訓(xùn)練網(wǎng)絡(luò)提取的全連接層作為特征向量進(jìn)行分類,作為對比算法,10次實(shí)驗(yàn)后的平均識別率及標(biāo)準(zhǔn)差如表3所示。
表3 AR數(shù)據(jù)庫上各算法的準(zhǔn)確率
由表3可知,預(yù)訓(xùn)練的深度網(wǎng)絡(luò)識別率很差,而LBP特征及其改進(jìn)所取得的效果比預(yù)訓(xùn)練網(wǎng)絡(luò)要好,但也未達(dá)到最佳效果,PCA-Net特征在所有單一特征中識別效果最好,穩(wěn)定性也最佳,而本文方法(PMFF)則對PCA-Net的性能有了提升。同時(shí)分析表1和表3可知,因AR數(shù)據(jù)的測試樣本中含較大面積的遮擋(圍巾、墨鏡)其識別率整體偏低。
按照表3中的識別率高低,對5種特征排序加權(quán)融合后進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表4所示。
表4 五種特征在AR數(shù)據(jù)庫的消融實(shí)驗(yàn)結(jié)果
由表4可知,去掉五種特征中的任何一個(gè),識別結(jié)果都會下降,說明了五種特征在融合過程中都起到了提升性能的作用。
CMU-PIE數(shù)據(jù)庫共包含68個(gè)人,每人49張圖像,共3332張圖像,大小為64×64,無遮擋,無明顯的表情變化,唯一變化較大指標(biāo)是光照強(qiáng)度,數(shù)據(jù)庫中前三個(gè)人的部分圖像如圖7所示。
每個(gè)人選取1張圖像做訓(xùn)練,剩余的48張圖像做測試,單樣本和虛擬樣本共同組成的訓(xùn)練集68*3=204張圖像,測試集共68*48=3264張圖像,每次選取不同的訓(xùn)練樣本,重復(fù)10次實(shí)驗(yàn)。
首先,直接利用上述幾種單特征直接進(jìn)行識別,再利用幾種預(yù)訓(xùn)練網(wǎng)絡(luò)提取特征進(jìn)行識別,10次實(shí)驗(yàn)后的結(jié)果如表5所示。
表5 CMU-PIE數(shù)據(jù)庫各算準(zhǔn)確率
由表5可知,預(yù)訓(xùn)練的深度網(wǎng)絡(luò)識別率很差,而LBP特征及其改進(jìn)所取得的效果比預(yù)訓(xùn)練網(wǎng)絡(luò)要好,但也未達(dá)到最佳效果,PCA-Net特征在所有單一特征中識別效果最好,穩(wěn)定性也最佳,而本文方法(PMFF)則對PCA-Net的性能有了提升。
然后按照表5中的識別率高低,對5種特征進(jìn)行排序加權(quán)融合后進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表6所示。
表6 CMU-PIE數(shù)據(jù)庫上的消融實(shí)驗(yàn)結(jié)果
由表6可知,去掉任何一種特征都會使識別率下降,說明五種特征都對算法性能起到了提升作用。
在AR、Extended Yale B、CMU-PIE三個(gè)人臉數(shù)據(jù)庫中進(jìn)行試驗(yàn),本文算法的識別率分別為85.39%、91.43%、91.71%,全部超過了五種單一特征中識別率最高的PCA-Net特征的83.74%、89.88%、91.14%,說明本文算法對PCA-Net特征有提升。在Extended Yale B、CMU-PIE數(shù)據(jù)庫中的識別率超過了90%。
上述三個(gè)數(shù)據(jù)庫均為限制條件下的所采集的圖像,為了測試算法在非限制條件下的性能,在RFW數(shù)據(jù)庫中選取了部分?jǐn)?shù)據(jù)進(jìn)行試驗(yàn)。該數(shù)據(jù)庫共有非洲、亞洲、美洲和印度四個(gè)人種,均為非限制條件下所采集的圖像,大小為400×400,圖像有較多的背景環(huán)境、姿態(tài)以及表情的影響,RFW數(shù)據(jù)庫的部分圖像如圖8所示。
圖8 RFW數(shù)據(jù)庫中的部分圖像
每個(gè)人種各選取了200人做實(shí)驗(yàn),每人一張圖像做訓(xùn)練樣本,2-4張圖像做測試。首先對圖像進(jìn)行預(yù)處理,將人臉部分從背景中分離出來,再進(jìn)行特征提取、分類。預(yù)處理之后的圖像如圖9所示,實(shí)驗(yàn)結(jié)果如表7所示。
表7 本文算法及PCA-Net特征在RFW數(shù)據(jù)庫準(zhǔn)確率
圖9 預(yù)處理之后的圖像
由表7可知,本文算法對非限制條件下采集到的圖像識別性能很低,對比PCA-Net也有一些差距。造成這種情況的原因可能是在非限制條件下采集的圖像姿態(tài)、表情、拍攝角度等方面有很大差異,類內(nèi)變化巨大,而選取的單樣本無法涵蓋如此大的類內(nèi)變化,造成識別效果很差。在今后的工作中會不斷完善算法在非限制條件下采集到圖像的識別率。
本文算法,先生成虛擬樣本,再進(jìn)行粗識別并形成細(xì)化訓(xùn)練,然后進(jìn)行細(xì)識別并將結(jié)果投票融合。識別效果超過了在傳統(tǒng)特征中性能較好的PCA-Net;對比使用預(yù)訓(xùn)練網(wǎng)絡(luò)所提取的特征,識別效果有了很大提升。同時(shí),本文算法也存在諸多不足:算法對非限制條件的圖像識別效果很差;對遮擋圖像作單樣本的識別率也有待提高;而分類算法也只用了較為簡單的最近鄰分類器,性能有待提高;選取預(yù)訓(xùn)練網(wǎng)絡(luò)提取特征時(shí)僅采用了其全連接層的數(shù)據(jù),并未微調(diào)。在今后的工作中會對這些不足的地方加以改進(jìn),多使用一些其它性能良好的、對遮擋具有魯棒性的特征進(jìn)行融合,并且嘗試其它性能更出色的分類器進(jìn)行分類,提高在非限制情況下的識別性能。
本文受河北大學(xué)高性能計(jì)算平臺支持。