張彥 鄭任兒
摘要:?jiǎn)螛颖救四樧R(shí)別問(wèn)題是人臉識(shí)別問(wèn)題中的難點(diǎn)問(wèn)題,由于樣本數(shù)少,現(xiàn)有的人臉識(shí)別算法在處理單樣本人臉識(shí)別問(wèn)題時(shí),識(shí)別效果會(huì)顯著降低。本文提出一種基于深度卷積自編碼器的單樣本人臉識(shí)別算法。算法采用深度卷積自編碼器將多樣本個(gè)體的類內(nèi)變化遷移至單樣本個(gè)體,重構(gòu)出單樣本個(gè)體包含類內(nèi)變化的新圖像,從而提高識(shí)別率。算法在公共測(cè)試庫(kù)上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,該算法能夠重構(gòu)出單樣本個(gè)體包含其他類內(nèi)變化的人臉圖像,同時(shí),識(shí)別率優(yōu)于原圖的識(shí)別率。
單樣本人臉識(shí)別是人臉識(shí)別問(wèn)題中的難點(diǎn)問(wèn)題。在單樣本人臉識(shí)別問(wèn)題中,每個(gè)測(cè)試個(gè)體僅有一張已知樣本圖像,測(cè)試圖像通過(guò)與已知樣本圖像的對(duì)比,得到測(cè)試結(jié)果。由于人臉圖像在不同的環(huán)境、時(shí)間等情況下,會(huì)包含光照、表情、遮擋、姿態(tài)等變化,因此,當(dāng)測(cè)試圖像與已知樣本圖像拍攝的時(shí)間、環(huán)境等不同時(shí),同一個(gè)體的人臉圖像間會(huì)存在由于表情、環(huán)境、遮擋等帶來(lái)的類內(nèi)變化,有時(shí)類內(nèi)變化會(huì)遠(yuǎn)遠(yuǎn)大于個(gè)體身份變化帶來(lái)的類間變化。因此,諸多人臉識(shí)別算法在處理單樣本人臉識(shí)別問(wèn)題時(shí),識(shí)別率會(huì)下降。
2012年Alex Krizhevsky等將卷積深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于Imagenet圖像識(shí)別大賽,并取得了最好成績(jī),使得卷積深度神經(jīng)網(wǎng)絡(luò)得到廣泛推廣,并在諸如文字識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域取得了成功。
深度神經(jīng)網(wǎng)絡(luò)要求有大量的樣本進(jìn)行訓(xùn)練,當(dāng)樣本數(shù)較少時(shí),識(shí)別結(jié)果會(huì)迅速下降。2014年Bengio等研究了深度學(xué)習(xí)中特征的可遷移性問(wèn)題,遷移學(xué)習(xí)的目標(biāo)是利用已有的數(shù)據(jù),將學(xué)習(xí)到的模式應(yīng)用于相關(guān)的問(wèn)題中,解決樣本數(shù)較少時(shí)的識(shí)別問(wèn)題。人臉圖像的變化是具有相似性的,那么,是否可以利用已有個(gè)體的多個(gè)圖像,學(xué)習(xí)人臉圖像光照、表情、遮擋等類內(nèi)變化,將其遷移至單樣本個(gè)體,重構(gòu)出該個(gè)體的圖像,提高單樣本人臉識(shí)別的識(shí)別率?
本文提出了一種基于深度卷積自編碼器的單樣本人臉識(shí)別算法。算法試圖通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)遷移學(xué)習(xí),將多樣本人臉圖像的類內(nèi)變化,推廣至單樣本人臉圖像,重構(gòu)出單樣本個(gè)體不同類內(nèi)變化圖像,增加單樣本個(gè)體的樣本數(shù),從而提高識(shí)別率。
本文算法分為以下三個(gè)步驟:
(1)采用所有已知樣本訓(xùn)練通用深度卷積自編碼器
(2)采用單樣本個(gè)體的單個(gè)樣本訓(xùn)練特定深度卷積自編碼器
(3)采用softmax回歸進(jìn)行分類
深度卷積自編碼器通過(guò)神經(jīng)網(wǎng)絡(luò)的卷積與反卷積重構(gòu)出輸入圖像,輸入圖像與重構(gòu)圖像間的誤差作為損失函數(shù),訓(xùn)練深度卷積自編碼器,得到訓(xùn)練結(jié)果。
設(shè)訓(xùn)練圖像為,則第K層的特征映射為:
hk=σ(X*Wk+bk)
其中為激活函數(shù)(文中采用雙曲正切函數(shù)),為2維卷積,b為偏移量。
在重構(gòu)時(shí),重構(gòu)圖像通過(guò)如下函數(shù)進(jìn)行重構(gòu):
其中Y為重構(gòu)圖像,H為特征的集合,c為偏移量。在重構(gòu)圖像時(shí),根據(jù)上式進(jìn)行反卷積操作,重構(gòu)出新的圖像。
通過(guò)最小化輸入圖像與輸出圖像間的最小均方誤差函數(shù),對(duì)深度卷積自編碼器進(jìn)行訓(xùn)練,誤差函數(shù)如下所示:
通用深度卷積自編碼器包含人臉圖像的類內(nèi)及類間信息,在訓(xùn)練時(shí),我們將所有的已知圖像輸入深度卷積自編碼器,對(duì)所有輸入圖像進(jìn)行重構(gòu),訓(xùn)練結(jié)束后,深度卷積自編碼器應(yīng)包含人臉圖像的類內(nèi)類間變化特征。
在通用深度卷積自編碼器的基礎(chǔ)上,我們采用每個(gè)單樣本個(gè)體的標(biāo)準(zhǔn)圖像,對(duì)通用深度卷積自編碼器進(jìn)行微調(diào)(finetune),修改通用深度卷積自編碼器的權(quán)值,將多樣本個(gè)體的類內(nèi)變化進(jìn)行遷移,得到針對(duì)每個(gè)單樣本個(gè)體的特定深度卷積自編碼器。
Softmax回歸模型可用于多目標(biāo)分類問(wèn)題,通過(guò)訓(xùn)練數(shù)據(jù)得到訓(xùn)練樣本屬于某個(gè)類別的后驗(yàn)概率模型,當(dāng)測(cè)試時(shí),將測(cè)試數(shù)據(jù)輸入概率模型,得到測(cè)試數(shù)據(jù)屬于每個(gè)類別的概率,最大概率給出分類結(jié)果。
本文將特定深度卷積自編碼器生成的重構(gòu)圖像及其編碼器編號(hào)作為訓(xùn)練樣本,生成類別概率模型,再將測(cè)試圖像輸入分類器,得到分類結(jié)果。
本節(jié)在AR Database上進(jìn)行測(cè)試實(shí)驗(yàn)。AR Database 包含100個(gè)人,每人13張包含不同表情、光照及遮擋的人臉圖像,其中50人性別為男,50人性別為女。AR Database中的圖像如下圖所示。
圖1中(a)為個(gè)體的標(biāo)準(zhǔn)圖像,該圖像沒(méi)有遮擋、表情及光照的變化,圖1中(b)為包含表情、光照及遮擋的人臉照片。
本文選擇50個(gè)人(25人男性,25人女性)的所有照片及另外50人的標(biāo)準(zhǔn)圖像(共700幅圖像)作為通用深度卷積自編碼器的訓(xùn)練樣本,所有圖像轉(zhuǎn)換為灰度圖像,抽取為30*30的圖像,輸入深度卷積自編碼器進(jìn)行訓(xùn)練,生成通用深度卷積自編碼器。
生成通用深度卷積自編碼器后,選取剩余50人的標(biāo)準(zhǔn)圖像,經(jīng)過(guò)灰度化及抽取,轉(zhuǎn)換為單通道30*30的圖像,圖像復(fù)制,生成500個(gè)樣本,輸入通用深度卷積自編碼器進(jìn)行微調(diào),生成50個(gè)特定深度卷積自編碼器。
測(cè)試時(shí),選取人臉庫(kù)中除訓(xùn)練圖像外的所有圖像(共600幅)作為測(cè)試圖像,將測(cè)試圖像輸入50個(gè)特定深度卷積自編碼器,得到測(cè)試圖像的重構(gòu)圖像,重構(gòu)圖像的類別為特定深度卷積自編碼器的類別。識(shí)別時(shí),將測(cè)試圖像與重構(gòu)圖像輸入softmax分類器,給出識(shí)別結(jié)果。
特定深度卷積自編碼器的輸入圖像及重構(gòu)圖像如圖2所示。
本文分別測(cè)試了卷積核為7、15、23、29時(shí)的識(shí)別結(jié)果,識(shí)別率結(jié)果如圖3所示。表1 給出了相同訓(xùn)練樣本及相同測(cè)試樣本情況下,采用softmax回歸的分類結(jié)果,以及本文算法的識(shí)別結(jié)果(卷積核為29)。通過(guò)對(duì)比,表明本文算法可以提高單樣本識(shí)別問(wèn)題的識(shí)別率。
本文提出了一種基于深度卷積自編碼器的單樣本人臉識(shí)別算法,算法將多樣本個(gè)體的類內(nèi)變化遷移至單樣本個(gè)體,重構(gòu)出單樣本個(gè)體的新圖像,采用重構(gòu)圖像進(jìn)行識(shí)別,提高識(shí)別率。實(shí)驗(yàn)表明,本文算法能夠重構(gòu)出單樣本個(gè)體在不同環(huán)境下包含類內(nèi)變化的圖像,識(shí)別率優(yōu)于原圖采用相同分類算法的識(shí)別率。
[1]Krizhevsky, Alex , I. Sutskever , and G. Hinton . "ImageNet Classification with Deep Convolutional Neural Networks." NIPS Curran Associates Inc. 2012.
[2]Yosinski, Jason , et al. "How transferable are features in deep neural networks?." International Conference on Neural Information Processing Systems MIT Press, 2014.
[3]Jonathan Masci, Ueli Meier, Dan Cire?an, Jürgen Schmidhuber, Stacked Convolutional Auto-Encoders for Hierarchical Feature Extraction,Artificial Neural Networks and Machine Learning (ICANN), 2011, pp: 52-59.