蔡曉云,尹賀峰
(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122;2.鎮(zhèn)江市高等專科學(xué)校,江蘇 鎮(zhèn)江 212028)
在計算機視覺和機器學(xué)習(xí)等領(lǐng)域,一個重要的研究問題是如何得到具有鑒別性的數(shù)據(jù)表示,有效的數(shù)據(jù)表示在各種學(xué)習(xí)系統(tǒng)中有著重要的作用.合適的數(shù)據(jù)表示能夠揭示觀測數(shù)據(jù)的潛在信息并為機器學(xué)習(xí)方法提供便利.
稀疏表示在信號處理、機器學(xué)習(xí)和計算機視覺等領(lǐng)域得到了廣泛研究和應(yīng)用,稀疏表示的思想是每個信號可以利用過完備字典中的原子稀疏線性表示.在人臉識別領(lǐng)域最具有代表性的方法是J.WRIGHT等[1]提出的稀疏表示分類(sparse representation based classification,SRC)算法,SRC對測試樣本圖像中存在的遮擋和像素破壞等具有較好的魯棒性.SRC利用所有訓(xùn)練樣本來表示測試樣本,屬于全局的分類方法.為了利用數(shù)據(jù)的局部分布結(jié)構(gòu),殷俊等[2]提出基于局部表示的分類算法(local representation based classification,LRC).LRC使用測試樣本局部范圍內(nèi)的訓(xùn)練樣本對其進行線性表示,這樣獲得的局部表示系數(shù)在保持稀疏性的同時包含有效的局部信息.
近年來,低秩表示成為很多研究領(lǐng)域的熱點課題.稀疏約束僅能確定每個數(shù)據(jù)樣本的局部結(jié)構(gòu),而低秩約束可以挖掘數(shù)據(jù)的全局結(jié)構(gòu).此外,低秩表示可以得到觀測數(shù)據(jù)間的相關(guān)性.魯棒主成分分析(robust principal component analysis,RPCA)[3]是低秩矩陣恢復(fù)的一種代表性方法,RPCA的目的是通過低秩約束從污損的觀測數(shù)據(jù)中恢復(fù)出干凈數(shù)據(jù).RPCA基于的假設(shè)是數(shù)據(jù)來自單一的子空間,并且能夠分解成2個單獨的部分,即低秩部分和稀疏噪聲部分.然而RPCA不能處理污損或異常數(shù)據(jù)來自多個子空間的情形,因此LIU G.C.等[4]提出利用LRR (low rank representation)進行矩陣恢復(fù)并應(yīng)用于子空間的分割.此外,很多學(xué)者提出基于低秩表示的字典學(xué)習(xí)方法用于圖像分類.WEI C.P.等[5]提出了結(jié)構(gòu)不相關(guān)低秩表示(low-rank with structural-incoherence,LRSI),LRSI逐類別對訓(xùn)練樣本進行恢復(fù).當(dāng)訓(xùn)練樣本類別較多時,逐類別優(yōu)化比較耗時.為了解決這個問題,ZHANG Y.M.等[6]提出了結(jié)構(gòu)化低秩表示(structured LRR,SLRR),SLRR可以同時對整個訓(xùn)練樣本集進行低秩恢復(fù).LI Y.等[7]提出了逐類別塊對角結(jié)構(gòu)表示(representation with classwise block diagonal structure,RCBD)方法,RCBD可以同時得到訓(xùn)練樣本和測試樣本的表示系數(shù).
上述低秩表示及其改進方法在圖像分類中取得了不錯的結(jié)果,然而它們的性能依然有限,一個主要的原因是它們不能有效地將原始數(shù)據(jù)特征轉(zhuǎn)變成鑒別性特征表示.基于自表示特性[8],理想的塊對角結(jié)構(gòu)表示通過嵌入全局語義結(jié)構(gòu)信息和鑒別分類能力,可以捕獲樣本的潛在數(shù)據(jù)信息[6].因此如果能夠在識別任務(wù)中利用帶有塊對角結(jié)構(gòu)的數(shù)據(jù)表示,那么將會取得優(yōu)異的識別結(jié)果.筆者提出一種結(jié)構(gòu)化局部約束低秩表示(structured locality-constrained low rank representation,SLCLRR),SLCLRR引入理想編碼系數(shù)矩陣正則項,可以增加不同類別樣本表示系數(shù)之間的鑒別性.SLCLRR可以同時得到訓(xùn)練樣本和測試樣本的表示系數(shù),增加訓(xùn)練樣本和測試樣本表示系數(shù)矩陣之間的相關(guān)性.此外為了保持數(shù)據(jù)的流形結(jié)構(gòu),引入局部約束項,使得相似的樣本具有相似的表示系數(shù).
雖然SRC方法取得了優(yōu)異的識別性能,但當(dāng)訓(xùn)練數(shù)據(jù)中存在污損(遮擋或偽裝等)時,SRC的性能會下降.可以借助低秩矩陣恢復(fù)技術(shù)對訓(xùn)練樣本進行低秩分解,低秩矩陣恢復(fù)的目的是從原始數(shù)據(jù)中分離出稀疏噪聲部分,同時得到保留低秩結(jié)構(gòu)的數(shù)據(jù).假設(shè)X=[x1,x2,…,xn]∈Rd×n為包含n個樣本的觀測數(shù)據(jù)矩陣,d為樣本維數(shù),每列為一個樣本數(shù)據(jù),則分解模型可以表示為
X=A+E,
(1)
式中:A為低秩矩陣;E為對應(yīng)的稀疏噪聲矩陣.
RPCA的目標函數(shù)[3]為
(2)
式中:‖·‖*為核范數(shù);‖·‖1為L1范數(shù);λ為噪聲平衡參數(shù).
式(2)可以通過增廣拉格朗日乘子法(augmented Lagrange multiplier,ALM)[9]求解.
RPCA基于的假設(shè)是觀測數(shù)據(jù)來自同一個單一的子空間,然而實際應(yīng)用中的數(shù)據(jù)分布并非如此.以人臉圖像數(shù)據(jù)為例,每個人的人臉圖像來自一個單獨的子空間.為了充分利用數(shù)據(jù)間的相關(guān)性,LIU G.C.等[4]提出了低秩表示,LRR的目標函數(shù)如下:
(3)
式中:D為字典矩陣.
RPCA和LRR主要用于圖像去噪和背景建模等領(lǐng)域,在圖像分類中的性能有限.為了增加低秩表示的鑒別性,ZHANG Y.M.等[6]引入了理想編碼矩陣正則項,目標函數(shù)為
(4)
式中:β為系數(shù)稀疏項平衡參數(shù);α為塊對角結(jié)構(gòu)平衡參數(shù);Q為訓(xùn)練樣本的理想編碼矩陣;‖·‖F(xiàn)為F范數(shù).
該方法稱為結(jié)構(gòu)化低秩表示(SLRR),試驗結(jié)果表明,SLRR對光照變化、遮擋和像素破壞等情形有較好的魯棒性.然而SLRR在分類時需要在學(xué)習(xí)得到的字典矩陣上求解訓(xùn)練樣本和測試樣本的表示系數(shù)矩陣,即需要2次求解如下優(yōu)化問題:
(5)
上述優(yōu)化問題是低秩稀疏表示(low rank and sparse representation,LRSR),2次求解該問題比較耗時,另外會導(dǎo)致訓(xùn)練樣本和測試樣本表示系數(shù)矩陣之間的相關(guān)性降低.為了解決這個問題,提出了一種結(jié)構(gòu)化局部約束低秩表示算法(SLCLRR),該方法可以同時得到訓(xùn)練樣本和測試樣本的表示系數(shù).為了增加不同類別樣本表示系數(shù)之間的鑒別性,引入了理想編碼系數(shù)矩陣正則項.此外為了使得相似的樣本具有相似的表示系數(shù),引入了局部約束項.
X=DZ,
(6)
SLCLRR的目標函數(shù)為
(7)
式中:W為樣本距離度量矩陣;‖W⊙Z‖1的作用是使得相似的樣本有相似的表示系數(shù);Q=[q1,q2,…,qn]∈Rm×n為訓(xùn)練樣本的理想表示系數(shù);γ為字典矩陣的平衡參數(shù).
使用與文獻[6]相同的線性分類器來對測試樣本進行分類.
引入輔助變量J和L,可以得到式(7)對應(yīng)的增廣拉格朗日函數(shù)[9],即
Λ(Z,J,L,E,D,Y1,Y2,Y3,μ)=
(8)
式中:=tr(ATB);Y1,Y2和Y3是拉格朗日乘法算子;μ為懲罰參數(shù),μ>0.
在進行模型優(yōu)化時,采用交替優(yōu)化的策略優(yōu)化每個變量,每次迭代時變量進行更新,更新方法參考文獻[9].
在4個常用的數(shù)據(jù)集上進行試驗,即AR數(shù)據(jù)集、Extended Yale B數(shù)據(jù)集、ORL數(shù)據(jù)集和LFW數(shù)據(jù)集.為了驗證提出的算法的有效性,對比的方法有LLC[7],SRC[1],RPCA[3],LRSI[5],SLRR[6],F(xiàn)DDL[7],DLRD-SR[10]和LRSR[7].LRSR的目標函數(shù)如式(5)所示,SRW指的是使用所有訓(xùn)練樣本作為字典矩陣的SRC算法,而SRS指的是使用和本文算法一樣數(shù)目原子個數(shù)的SRC算法.所有算法均在Intel(R) Core(TM) i7- 4790 CPU @ 3.60 GHz,內(nèi)存為16 G,Windows 10(64位)的臺式機上使用MATLAB R2018b編程實現(xiàn).
AR數(shù)據(jù)集有126個人的超過4 000幅彩色正面人臉圖像,每人至少有26幅,這些幅圖像在2個不同階段采集,每個階段采集13幅圖像,其中有3幅墨鏡遮擋圖像,3幅圍巾遮擋圖像,其余7幅包含不同的表情和光照變化,這7幅圖像是無遮擋圖像.圖像大小為165×120像素,圖1只給出數(shù)據(jù)集中的部分圖像.試驗中選取了50名男性和 50名女性共100人的人臉圖像,圖像下采樣為55×40像素.在如下3種遮擋情形下進行試驗:
1) 墨鏡遮擋(見圖1d)人臉圖像大概20%的區(qū)域,在該情形下,使用階段1的7幅無遮擋圖像和隨機選擇的1幅墨鏡遮擋圖像作為訓(xùn)練樣本,使用階段2的7幅無遮擋圖像和余下的墨鏡遮擋圖像(包括階段1的2幅圖像和階段2的3幅圖像)作為測試樣本.
2) 和墨鏡遮擋相比,圍巾遮擋(見圖1e)的人臉區(qū)域更大,達到了40%.和墨鏡遮擋情形類似,使用階段1的7幅無遮擋圖像和隨機選擇的1幅圍巾遮擋圖像作為訓(xùn)練樣本,使用階段2的7幅無遮擋圖像和余下的圍巾遮擋圖像(包括階段1的2幅圖像和階段2的3幅圖像)作為測試樣本.
3) 混合情形,在該情形下考慮訓(xùn)練樣本中同時有墨鏡和圍巾遮擋圖像.使用階段1的7幅無遮擋圖像、1幅墨鏡遮擋圖像(隨機選擇)和1幅圍巾遮擋圖像(隨機選擇)作為訓(xùn)練樣本,余下的圖像作為測試樣本.
和SLRR算法一樣,提出的SLCLRR方法在上述3種情形下每類的原子數(shù)為5個.不同方法在上述3種情形下的識別結(jié)果如表1所示,SLCLRR在墨鏡遮擋、圍巾遮擋和混合情形下分別比LRSR的正確識別率高出6.1%,7.9%和7.8%,說明SLCLRR對于遮擋具有較好的魯棒性.
圖1 部分AR數(shù)據(jù)庫示例圖像
表1 在AR數(shù)據(jù)集上各算法的正確識別率 %
Extended Yale B數(shù)據(jù)集包含38個人的2 414幅人臉圖像,每人有59~64幅不同光照下的圖像,圖像大小為192×168像素,部分示例如圖2所示.采樣率分別為1/2,1/4和1/8 倍,對應(yīng)圖像維數(shù)為8 064,2 016,504維.隨機選擇每個人的Nc幅(Nc=8或32幅)圖像組成訓(xùn)練集,其余圖像作為測試集.當(dāng)Nc=8幅時,每類字典原子數(shù)為5個;當(dāng)Nc=32幅時,每類字典原子數(shù)為20個.SLCLRR和其他對比算法的識別結(jié)果如表2所示.當(dāng)Nc=8幅時,平均來看,SLCLRR比SLRR的識別率提高了1.1%;當(dāng)Nc=32幅時,平均來看,SLCLRR比SLRR的識別率高出5.3%.在Extended Yale B上的試驗結(jié)果表明,SLCLRR算法能夠較好處理圖像中存在的光照變化.
圖2 部分Extended Yale B數(shù)據(jù)庫示例圖像
表2 在Extended Yale B數(shù)據(jù)集上各算法的正確識別率
試驗選擇AR數(shù)據(jù)集每個人第1階段的7幅無遮擋圖像(僅有光照和表情變化)作為訓(xùn)練集,每個人第2階段的7幅無遮擋圖像作為測試集.每類字典原子數(shù)為7個.和文獻[6]的試驗設(shè)置相同,隨機選擇所有訓(xùn)練樣本和測試樣本一定比例的像素,采用服從[0,Vmax]均勻分布的像素進行替換,其中Vmax為圖像中最大的像素值,并且被替換像素的位置未知.各算法在不同比例噪聲破壞下的識別率曲線如圖3所示.
圖3 各算法在不同比例噪聲破壞下的識別率曲線
從圖3可以看出:在不同比例噪聲破壞下,SLCLRR的正確識別率比LRSR平均高出9.8%,尤其在噪聲比例為35%時,SLCRR的識別率比LRSR高出20.8%,充分說明了SLCLRR對隨機像素破壞具有較好的魯棒性.
ORL是基于表情和姿態(tài)變化的人臉數(shù)據(jù)庫,該數(shù)據(jù)庫由40個人,每人10幅不同姿態(tài)和表情的人臉圖像組成,總共400幅.圖像的分辨率為112×92像素,灰度級為256.試驗中隨機選擇每個人的5幅圖像組成訓(xùn)練樣本,其余為測試樣本,圖像縮放大小為28×23像素.隨機選擇每幅訓(xùn)練和測試圖像中的圖像塊用不相關(guān)隨機圖像進行替換,試驗在不同的遮擋比例下進行,部分隨機遮擋圖像如圖4所示.SLCLRR及其對比算法在不同遮擋比例下的識別結(jié)果如表3所示,在沒有遮擋時,SLCLRR的識別性能低于FDDL,隨著遮擋比例的增大,SLCLRR一直能取得最好的識別結(jié)果.
圖4 ORL數(shù)據(jù)集中一幅圖像被不同比例遮擋后的圖像
表3 在ORL數(shù)據(jù)集上各算法的正確識別率 %
原始LFW數(shù)據(jù)集包含5 749個人的圖像.使用LFW-a數(shù)據(jù)集,它是基于商業(yè)人臉對齊軟件對齊后的數(shù)據(jù).試驗使用的LFW-a數(shù)據(jù)文件由文獻[11]作者提供,它包含158個人的每人10幅圖像.隨機選擇每個人的5幅圖像構(gòu)成訓(xùn)練集,其余5幅作為測試集.圖像大小為90×90 像素,部分LFW-a數(shù)據(jù)庫示例圖像如圖5所示.算法SLCLRR,LRSR,SLRR,LRSI,RPCA,CRC,SRC,LLC在LFW-a數(shù)據(jù)集上的正確識別率分別為71.0%,62.1%,68.2%,66.2%,66.3%,64.6%,68.3%,60.1%.試驗結(jié)果表明,SLCLRR能夠較好處理無約束環(huán)境下采集的人臉圖像.
圖5 部分LFW-a數(shù)據(jù)庫示例圖像
提出了將結(jié)構(gòu)化局部約束低秩表示算法用于人臉識別,該方法考慮了如下信息:① 通過引入理想編碼系數(shù)矩陣正則項,SLCLRR使得同類樣本的表示系數(shù)盡可能接近,同時不同類別樣本的表示系數(shù)盡可能不同,增加了編碼系數(shù)的鑒別性;② 為了保持數(shù)據(jù)的流形結(jié)構(gòu),SLCLRR引入了局部約束項,這樣使得相似的樣本具有相似的表示系數(shù);③ SLCLRR可以同時得到訓(xùn)練樣本和測試樣本的表示系數(shù)矩陣,增加了訓(xùn)練樣本表示系數(shù)和測試樣本表示系數(shù)之間的相關(guān)性;④ 通過字典學(xué)習(xí),SLCLRR可以降低字典矩陣的冗余,同時具有較好的表示能力.在多個標準數(shù)據(jù)集上的試驗結(jié)果表明,SLCLRR對于光照變化、表情變化、遮擋、隨機像素破壞和真實環(huán)境下的人臉圖像具有較好的魯棒性.