基于深度卷積自編碼器的單樣本人臉識(shí)別

2020-09-06 13:24:37張彥鄭任兒

數(shù)碼世界 2020年8期

張彥鄭任兒

摘要：?jiǎn)螛颖救四樧R(shí)別問(wèn)題是人臉識(shí)別問(wèn)題中的難點(diǎn)問(wèn)題，由于樣本數(shù)少，現(xiàn)有的人臉識(shí)別算法在處理單樣本人臉識(shí)別問(wèn)題時(shí)，識(shí)別效果會(huì)顯著降低。本文提出一種基于深度卷積自編碼器的單樣本人臉識(shí)別算法。算法采用深度卷積自編碼器將多樣本個(gè)體的類內(nèi)變化遷移至單樣本個(gè)體，重構(gòu)出單樣本個(gè)體包含類內(nèi)變化的新圖像，從而提高識(shí)別率。算法在公共測(cè)試庫(kù)上進(jìn)行了測(cè)試，實(shí)驗(yàn)結(jié)果表明，該算法能夠重構(gòu)出單樣本個(gè)體包含其他類內(nèi)變化的人臉圖像，同時(shí)，識(shí)別率優(yōu)于原圖的識(shí)別率。

單樣本人臉識(shí)別是人臉識(shí)別問(wèn)題中的難點(diǎn)問(wèn)題。在單樣本人臉識(shí)別問(wèn)題中，每個(gè)測(cè)試個(gè)體僅有一張已知樣本圖像，測(cè)試圖像通過(guò)與已知樣本圖像的對(duì)比，得到測(cè)試結(jié)果。由于人臉圖像在不同的環(huán)境、時(shí)間等情況下，會(huì)包含光照、表情、遮擋、姿態(tài)等變化，因此，當(dāng)測(cè)試圖像與已知樣本圖像拍攝的時(shí)間、環(huán)境等不同時(shí)，同一個(gè)體的人臉圖像間會(huì)存在由于表情、環(huán)境、遮擋等帶來(lái)的類內(nèi)變化，有時(shí)類內(nèi)變化會(huì)遠(yuǎn)遠(yuǎn)大于個(gè)體身份變化帶來(lái)的類間變化。因此，諸多人臉識(shí)別算法在處理單樣本人臉識(shí)別問(wèn)題時(shí)，識(shí)別率會(huì)下降。

2012年Alex Krizhevsky等將卷積深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于Imagenet圖像識(shí)別大賽，并取得了最好成績(jī)，使得卷積深度神經(jīng)網(wǎng)絡(luò)得到廣泛推廣，并在諸如文字識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域取得了成功。

深度神經(jīng)網(wǎng)絡(luò)要求有大量的樣本進(jìn)行訓(xùn)練，當(dāng)樣本數(shù)較少時(shí)，識(shí)別結(jié)果會(huì)迅速下降。2014年Bengio等研究了深度學(xué)習(xí)中特征的可遷移性問(wèn)題，遷移學(xué)習(xí)的目標(biāo)是利用已有的數(shù)據(jù)，將學(xué)習(xí)到的模式應(yīng)用于相關(guān)的問(wèn)題中，解決樣本數(shù)較少時(shí)的識(shí)別問(wèn)題。人臉圖像的變化是具有相似性的，那么，是否可以利用已有個(gè)體的多個(gè)圖像，學(xué)習(xí)人臉圖像光照、表情、遮擋等類內(nèi)變化，將其遷移至單樣本個(gè)體，重構(gòu)出該個(gè)體的圖像，提高單樣本人臉識(shí)別的識(shí)別率？

本文提出了一種基于深度卷積自編碼器的單樣本人臉識(shí)別算法。算法試圖通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)，經(jīng)過(guò)遷移學(xué)習(xí)，將多樣本人臉圖像的類內(nèi)變化，推廣至單樣本人臉圖像，重構(gòu)出單樣本個(gè)體不同類內(nèi)變化圖像，增加單樣本個(gè)體的樣本數(shù)，從而提高識(shí)別率。

本文算法分為以下三個(gè)步驟：

（1）采用所有已知樣本訓(xùn)練通用深度卷積自編碼器

（2）采用單樣本個(gè)體的單個(gè)樣本訓(xùn)練特定深度卷積自編碼器

（3）采用softmax回歸進(jìn)行分類

深度卷積自編碼器通過(guò)神經(jīng)網(wǎng)絡(luò)的卷積與反卷積重構(gòu)出輸入圖像，輸入圖像與重構(gòu)圖像間的誤差作為損失函數(shù)，訓(xùn)練深度卷積自編碼器，得到訓(xùn)練結(jié)果。

設(shè)訓(xùn)練圖像為，則第K層的特征映射為：

h^k=σ（X*W^k+b^k）

其中為激活函數(shù)（文中采用雙曲正切函數(shù)），為2維卷積，b為偏移量。

在重構(gòu)時(shí)，重構(gòu)圖像通過(guò)如下函數(shù)進(jìn)行重構(gòu)：

其中Y為重構(gòu)圖像，H為特征的集合，c為偏移量。在重構(gòu)圖像時(shí)，根據(jù)上式進(jìn)行反卷積操作，重構(gòu)出新的圖像。

通過(guò)最小化輸入圖像與輸出圖像間的最小均方誤差函數(shù)，對(duì)深度卷積自編碼器進(jìn)行訓(xùn)練，誤差函數(shù)如下所示：

通用深度卷積自編碼器包含人臉圖像的類內(nèi)及類間信息，在訓(xùn)練時(shí)，我們將所有的已知圖像輸入深度卷積自編碼器，對(duì)所有輸入圖像進(jìn)行重構(gòu)，訓(xùn)練結(jié)束后，深度卷積自編碼器應(yīng)包含人臉圖像的類內(nèi)類間變化特征。

在通用深度卷積自編碼器的基礎(chǔ)上，我們采用每個(gè)單樣本個(gè)體的標(biāo)準(zhǔn)圖像，對(duì)通用深度卷積自編碼器進(jìn)行微調(diào)（finetune），修改通用深度卷積自編碼器的權(quán)值，將多樣本個(gè)體的類內(nèi)變化進(jìn)行遷移，得到針對(duì)每個(gè)單樣本個(gè)體的特定深度卷積自編碼器。

Softmax回歸模型可用于多目標(biāo)分類問(wèn)題，通過(guò)訓(xùn)練數(shù)據(jù)得到訓(xùn)練樣本屬于某個(gè)類別的后驗(yàn)概率模型，當(dāng)測(cè)試時(shí)，將測(cè)試數(shù)據(jù)輸入概率模型，得到測(cè)試數(shù)據(jù)屬于每個(gè)類別的概率，最大概率給出分類結(jié)果。

本文將特定深度卷積自編碼器生成的重構(gòu)圖像及其編碼器編號(hào)作為訓(xùn)練樣本，生成類別概率模型，再將測(cè)試圖像輸入分類器，得到分類結(jié)果。

本節(jié)在AR Database上進(jìn)行測(cè)試實(shí)驗(yàn)。AR Database 包含100個(gè)人，每人13張包含不同表情、光照及遮擋的人臉圖像，其中50人性別為男，50人性別為女。AR Database中的圖像如下圖所示。

圖1中（a）為個(gè)體的標(biāo)準(zhǔn)圖像，該圖像沒(méi)有遮擋、表情及光照的變化，圖1中（b）為包含表情、光照及遮擋的人臉照片。

本文選擇50個(gè)人（25人男性，25人女性）的所有照片及另外50人的標(biāo)準(zhǔn)圖像（共700幅圖像）作為通用深度卷積自編碼器的訓(xùn)練樣本，所有圖像轉(zhuǎn)換為灰度圖像，抽取為30*30的圖像，輸入深度卷積自編碼器進(jìn)行訓(xùn)練，生成通用深度卷積自編碼器。

生成通用深度卷積自編碼器后，選取剩余50人的標(biāo)準(zhǔn)圖像，經(jīng)過(guò)灰度化及抽取，轉(zhuǎn)換為單通道30*30的圖像，圖像復(fù)制，生成500個(gè)樣本，輸入通用深度卷積自編碼器進(jìn)行微調(diào)，生成50個(gè)特定深度卷積自編碼器。

測(cè)試時(shí)，選取人臉庫(kù)中除訓(xùn)練圖像外的所有圖像（共600幅）作為測(cè)試圖像，將測(cè)試圖像輸入50個(gè)特定深度卷積自編碼器，得到測(cè)試圖像的重構(gòu)圖像，重構(gòu)圖像的類別為特定深度卷積自編碼器的類別。識(shí)別時(shí)，將測(cè)試圖像與重構(gòu)圖像輸入softmax分類器，給出識(shí)別結(jié)果。

特定深度卷積自編碼器的輸入圖像及重構(gòu)圖像如圖2所示。

本文分別測(cè)試了卷積核為7、15、23、29時(shí)的識(shí)別結(jié)果，識(shí)別率結(jié)果如圖3所示。表1 給出了相同訓(xùn)練樣本及相同測(cè)試樣本情況下，采用softmax回歸的分類結(jié)果，以及本文算法的識(shí)別結(jié)果（卷積核為29）。通過(guò)對(duì)比，表明本文算法可以提高單樣本識(shí)別問(wèn)題的識(shí)別率。

本文提出了一種基于深度卷積自編碼器的單樣本人臉識(shí)別算法，算法將多樣本個(gè)體的類內(nèi)變化遷移至單樣本個(gè)體，重構(gòu)出單樣本個(gè)體的新圖像，采用重構(gòu)圖像進(jìn)行識(shí)別，提高識(shí)別率。實(shí)驗(yàn)表明，本文算法能夠重構(gòu)出單樣本個(gè)體在不同環(huán)境下包含類內(nèi)變化的圖像，識(shí)別率優(yōu)于原圖采用相同分類算法的識(shí)別率。

[1]Krizhevsky， Alex ， I. Sutskever ， and G. Hinton . "ImageNet Classification with Deep Convolutional Neural Networks." NIPS Curran Associates Inc. 2012.

[2]Yosinski， Jason ， et al. "How transferable are features in deep neural networks？." International Conference on Neural Information Processing Systems MIT Press， 2014.

[3]Jonathan Masci， Ueli Meier， Dan Cire?an， Jürgen Schmidhuber， Stacked Convolutional Auto-Encoders for Hierarchical Feature Extraction，Artificial Neural Networks and Machine Learning （ICANN）， 2011， pp： 52-59.