藍凌 吳劍濱 侯亮
摘 ?要:人臉素描識別是從一個大的人臉素描數(shù)據(jù)集識別人臉照片,它的主要挑戰(zhàn)在于不同模態(tài)之間的差異,為了解決這個問題,提出一種基于殘差網(wǎng)絡多任務度量學習的素描人臉識別框架。首先,對于減少不同模式之間特征的差異性問題,設計了一個三通道神經(jīng)網(wǎng)絡來提取照片模態(tài)和草圖模態(tài)的非線性特征,然后三個網(wǎng)絡的參數(shù)共享;其次,設計了多模Triplet Loss來約束公共空間中的特征,使模型在擴大異類樣本距離的同時,減少素描人臉的同類差異。
關鍵詞:深度學習;殘差網(wǎng)絡;素描人臉識別;多模Triplet Loss
中圖分類號:TP391 ? ? 文獻標識碼:A 文章編號:2096-4706(2020)21-0071-05
Sketch Face Recognition Based on Residual Network and Multi-mode Triplet Loss
LAN Ling1,WU Jianbin2,HOU Liang3
(1.Guangdong Beijiang Middle School,Shaoguan ?512026,China;2.Education Bureau of Wujiang District,Shaoguan City,Shaoguan ?512029,China;3.Shaoguan Public Security Bureau,Shaoguan ?512029,China)
Abstract:Face sketch recognition is to recognize face photos from a large face sketch data set,and its main challenge lies in the differences between different modes. In order to solve this problem,a sketch face recognition framework based on multi-task metric learning of residual network is proposed. First,for the problem of reducing the feature difference between different modes,the three-channel neural network is designed to extract the nonlinear characteristics of the photo mode and the sketch mode,and then the parameters of the three networks are shared. Secondly,a multi-mode Triplet Loss is designed to constrain the features in the public space,so that the model expands the distance of heterogeneous samples while reducing similar differences in sketch faces.
Keywords:deep learning;residual network;sketch face recognition;multi-mode Triplet Loss
0 ?引 ?言
人臉素描識別是指根據(jù)給定的人臉素描圖像,從一個巨大的數(shù)據(jù)集匹配人臉照片,這項技術在罪犯案件偵破中有著廣泛的應用。特別是犯罪嫌疑人照片不能直接在犯罪現(xiàn)場抓拍,執(zhí)法人員必須制作手繪的面部草圖或是通過軟件獲得的合成草圖,當警察拿到這些草圖后,他們可以迅速縮小犯罪嫌疑人的范圍。然而,由于照片與人臉草圖之間的有很大模態(tài)差距,基于草圖的人臉識別仍然是學術界內[1]一個具有挑戰(zhàn)性的話題[2],傳統(tǒng)的同質人臉識別方法在人臉素描識別[3]中表現(xiàn)不佳,因此,需要一種自動人臉素描識別方法來準確、快速地檢索執(zhí)法人員的人臉數(shù)據(jù)集。傳統(tǒng)的人臉素描識別方法主要三種策略來緩解交叉模態(tài)差異[4]:模態(tài)不變局部特征提取、照片生成和公共子空間投影?;谀B(tài)不變特征提取的方法旨在基于局部特征描述符,如局部二值模式(LBP)和定向梯度直方圖(HOG)來表示人臉圖像。Zhang等人[5]提出了一種基于局部描述符的人臉草圖識別與耦合信息理論編碼。Klare等人[6]提出了一種將尺度不變特征變換(SIFT)與多尺度LBP相結合的判別分析算法。Galoogahi等人[7]提出了一種改進的人臉特征描述符,稱為平均定向梯度直方圖(HAOG),以縮小模態(tài)間隙。Alex等人[8]提出了一種基于高斯二進制模(LDOGBP)局部差異的跨模態(tài)人臉識別方法。然而,大多數(shù)基于描述的局部特征方法在表示人臉圖像時忽略了整體的空間結構,這對于人臉素描識別[9]很重要。
基于生成的方法通過照片-素描合成人臉圖像的一種形態(tài)。最初Tang[10]等人提出了基于主成分分析(PCA)的線性特征變換的草圖合成和識別方法。Liu等人[11]提出了一種基于局部線性嵌入(LLE)的草圖合成方法,用分段線性映射來估計非線性映射。Li等人[12]提出的基于自適應表示的人臉草圖合成,其中不同的面部區(qū)域由不同的特征表示。Wang等人[13]提出了離線隨機抽樣來合成人臉草圖。
最近,深度學習也被應用于人臉素描合成中,如全卷積網(wǎng)絡(FCN)[14]和生成對抗性網(wǎng)絡(GAN)[15]。Jiao等人[16]修改了卷積神經(jīng)網(wǎng)絡(CNN),以便使用輕量級模型將人臉照片直接映射到人臉草圖圖像。Jiang等人[17]提出了一種基于聯(lián)合字典和殘差學習的草圖綜合方法。這些方法的主要局限性使人臉素描合成更具挑戰(zhàn)性,因此,合成的素描圖像可能會丟失原始面部照片中存在的某些面部結構信息。
常見的基于子空間的方法旨在將不同的模式轉換為一個公共的子空間,以減少素描圖像和照片圖像的差異。Lin等人[18]提出了一種判別特征提取方法,將異構特征轉換為相同的特征空間。Yi等人[19]利用典型相關分析進行跨模態(tài)匹配。Sharma等人[20]將偏最小二乘(PLS)方法應用于不同模式的線性映射圖像到公共線性子空間。Meina等人[21]提出了一種多視點判別分析(MvDA)方法,通過優(yōu)化視點間和視點內獲得多視點的公共空間。Mignon等人[22]提出了一種跨模態(tài)度量學習(CMML)方法來學習判別潛在空間。然而,這些方法沒有考慮樣品的非線性分布。近年來,在計算機視覺領域提出了許多度量學習(ML)方法。然而,大多數(shù)傳統(tǒng)的度量學習方法通常學習線性映射到項目樣本再到一個新的特征空間,這受到不同模式的非線性關系的影響。因此,部分學者提出了深度度量學習(DML)方法來學習非線性特征[23-25]。Hu等人[23]提出了一種用于人臉驗證的判別式深度度量學習方法。Cai等人[24]提出了一種利用深度獨立子空間分析網(wǎng)絡的深度非線性度量學習方法。Yi等人[25]提出了一種具有孿生深度神經(jīng)網(wǎng)絡的DML方法,直接從圖像像素中學習相似性度量,用于人的再識別。在這些深度度量學習的啟發(fā)下,本文提出了深度殘差網(wǎng)絡多任務度量學習。
1 ?基于殘差網(wǎng)絡和Triplet Loss的素描人臉識別
1.1 ?網(wǎng)絡結構
深度學習技術特別是卷積神經(jīng)網(wǎng)絡已越來越多地應用于計算機視覺任務,如目標檢測、識別和分類[29]。利用層次結構,CNN可以學習輸入圖像的深層特征表示。然而,由于有限的素描照片數(shù)據(jù)集,基于CNN的監(jiān)督方法在人臉素描識別中還沒有得到廣泛的應用。本文提出了一種基于深度學習的人臉素描識別方法,對傳統(tǒng)Triplet Loss加入了模態(tài)內損失以提升模型對照片的區(qū)分能力。通過采用難分數(shù)據(jù)選擇策略構造多個三元組樣本來擴大數(shù)據(jù)集,充分利用樣本的標簽信息來挖掘樣本非線性特征之間的關系,同時為了學習人臉素描識別的領域特征,我們使用遷移學習技術利用素描識別數(shù)據(jù)集對模型權重進行微調。整體結構如圖1所示。
素描人臉識別定義為假設A={ai|i=1,2,…,k}和Z= {zi|i=1,2,…,k}是一組訓練樣本,其中A為素描數(shù)據(jù)樣本,Z為照片數(shù)據(jù)樣本,Z中包含正樣本照片P和負樣本照片N,k為訓練樣本的數(shù)目。ai和zj分別為A和Z中的第i個樣本和第j個樣本。我們對樣本集中的每兩個樣本進行組合以獲得所有樣本的不同組合。每一對樣本{ai,zj}包含草圖模態(tài)和照片模態(tài),P{ai,zj}是ai和zj為同一個人的概率,如果類別預測與真實標簽相同,則輸出為1,否則輸出0。
1.2 ?網(wǎng)絡模型
網(wǎng)絡模型由11個基本層組成,較深的層可以提取更多的判別特征。為了保持網(wǎng)絡性能適合素描人臉識別,我們切割了最后三層卷積層,并保留了預訓練模型的其余層。同時,我們建立了一個新的模型,在網(wǎng)絡模型之后增加了人臉特征提取層,而在特征提取層我們采取了恒等映射的結構以最大保留圖像細節(jié)信息。當人臉素描照片數(shù)據(jù)較大時,每一張圖像都需要提取特征,會耗費極長的時間,因此在人臉特征提取層后添加了池化層以減少特征數(shù)量,同時可保留重要特征避免冗余特征的干擾。設計的CNN模型的詳細結構如圖2所示。
另外,為了學習多模態(tài)的面部特征信息,使受試者之間的差異更大,受試者內部的間隙更小,我們設計了具有三元組損失的三通道CNN架構。這三個通道,每個通道的網(wǎng)絡模型均共享相同的權重。在人臉特征提取層后,三通道的輸出與Triplet Loss相連接。通過Triplet Loss可學習多領域的不變特征。
1.3 ?Triplet Loss
Triplet Loss[25]的目的是促進類內緊湊性和類間可分離性,即給出同一個人的素描圖像和照片,這兩張圖像間的特征距離很小,而與不同人的圖像特征距離則很大。但是該損失僅能提取模態(tài)間的特征,而沒有考慮模態(tài)內數(shù)據(jù)間的差距,因此通過多模Triplet Loss引入模態(tài)內損失,從而提升模型對同類型數(shù)據(jù)間的判別能力。Triplet Loss的輸入包括人臉素描圖A、正樣本照片P(即與素描圖為同一人的照片)和負樣本照片N(即與素描圖不是同一個人的其他照片)。模型優(yōu)化的目標是使A圖提取到的特征與P圖特征之間的距離d(A,P)小于錨草圖嵌入到負照片之間的距離d(A,N),Triplet Loss可表達為:
L(A,P,N)=max(d(A,P)+d(A,N)+d(P,N),0)
對于輸入ai和zj,f(ai)和f(zj)是通過神經(jīng)網(wǎng)絡的相應輸出。樣本ai和zj在公共空間中的距離可以用f(ai)和f(zj)之間的歐氏距離來測量:
d(f(ai)),f(zj))=‖f(ai)-f(zj)‖2
通過最小化多模Triplet Loss,d(A,P)會無限接近于0,d(A,N)和d(P,N)會大于d(A,P)。最終,同一個人的不同模態(tài)數(shù)據(jù)的距離會變小,而不同人的距離則變大。
其中模內損失函數(shù)d(P,N)定義為:
其中,D={(i,j)}為不同對的索引,?為閾值,而不同對的特征距離d(f(zi)),f(zj))通過優(yōu)化會大于閾值?以增加不同對數(shù)據(jù)間的可分離性。
模態(tài)間損失函數(shù)的目標是通過最小化類內距離和最大化類間距離來促進類內相關性和類間分離性。為此,我們定義模態(tài)間損失函數(shù):
其中,h(t)=max(0,t),S={(i,j)}為相同對的索引。由于相同對的數(shù)量比不同對小,通過引入權重值θ以解決這一不平衡問題。
1.4 ?難樣本選擇策略
對于一組訓練數(shù)據(jù),在L(A,P,N)損失足夠小接近零的情況下,是不會幫助模型收斂的,然而隨機產(chǎn)生的訓練數(shù)據(jù)組是很容易出現(xiàn)此情況的。為了更好地學習人臉素描識別的判別特征,我們提出了難分樣本選擇策略,它可以增加有效訓練數(shù)據(jù),加速損失收斂。當用難分樣本選擇策略對預訓練深度模型進行微調時,將更多地關注預訓練模型難以區(qū)分的數(shù)據(jù)。因此,難分樣本選擇策略可以調整模型使其提升對難分人臉圖像的鑒別能力。
由于人臉照片與素描圖像有差異,為了選擇難分樣本,我們將所有訓練照片和草圖圖像由預訓練的網(wǎng)絡提取高級特征,從而計算特征間的歐氏距離,根據(jù)距離值進行排序,將不是同一個人的數(shù)據(jù)組中距離最近的數(shù)據(jù)作為優(yōu)先選擇的訓練數(shù)據(jù)。同時為了增加訓練樣本的大小,我們?yōu)槊總€素描圖組成了多個訓練數(shù)據(jù)組。例如,如果訓練數(shù)據(jù)中有1 000對素描、照片對,為每個錨草圖選擇了5個難分樣本,那么我們就可以組成5 000個訓練三元組樣本,該方法可對數(shù)據(jù)量進行一定的擴增。
深度神經(jīng)網(wǎng)絡模型需要大量的訓練數(shù)據(jù),數(shù)據(jù)越多,模型效果會更好一些。然而在實際中我們并不需要通過大量數(shù)據(jù)認出某個人。利用結構化的三通道CNN體系結構、共享的通道權重和三元組訓練數(shù)據(jù)集,可以從少量的數(shù)據(jù)中訓練出高效的深度模型。在訓練過程中,我們優(yōu)化目標是最后的特征提取層權重,減少了需優(yōu)化權重量,這樣也可減少對數(shù)據(jù)量的要求。
2 ?實驗
實驗基于Ubuntu 18.04操作系統(tǒng),網(wǎng)絡搭建基于開源深度學習框架PyTorch。GPU(圖形處理單元)為GTX1060Ti,CPU型號為i7-8750H,頻率為2.10 GHz,內存為8 GB。
在實驗中,根據(jù)難分數(shù)據(jù)選擇策略生成數(shù)據(jù)對。CUFS數(shù)據(jù)庫用于研究人臉素描合成和人臉識別,共包含606張人臉。CUFSF數(shù)據(jù)庫共包含1 194人,對于每張人臉照均包含由畫家繪制的素描圖片。我們將數(shù)據(jù)集統(tǒng)一縮放到了125×100像素的大小,并且在訓練時對圖像做了歸一化處理。圖3給出了兩個數(shù)據(jù)庫的一些示例。
由于人臉區(qū)域占圖像整體區(qū)域的比例在兩個數(shù)據(jù)集上存在差異,為了避免該差異對模型的識別效果產(chǎn)生影響,在實驗中對CUHK數(shù)據(jù)集進行了人臉區(qū)域識別及背景區(qū)域裁剪的預處理,通過該方法可統(tǒng)一人臉區(qū)域占比,避免背景區(qū)域的影響,其效果如圖4所示,其中第一行為原圖,第二行為預處理后的圖像。
訓練模型采用帶動量的隨機梯度下降算法,動量設置為0.85,初始學習率設置為0.001,對輸入的人臉圖像及其對應的素描圖像做隨機的裁剪、平移、翻轉等處理以增加數(shù)據(jù)量,提高模型的泛化能力。實驗迭代步數(shù)為4 000步,模型訓練過程中的損失變化圖、準確率變化圖如圖5所示。
圖5(a)、圖5(b)為訓練過程中的準確率變化圖,圖5(c)、圖5(d)為損失變化圖,圖5(a)、圖5(c)為本文所提網(wǎng)絡結構并結合多模Triplet Loss,圖5(b)、圖5(d)為傳統(tǒng)卷積神經(jīng)網(wǎng)絡方法,網(wǎng)絡結構選擇VGG網(wǎng)絡,Loss選擇Triplet Loss。圖中虛線為驗證集結果,實線為訓練集結果。在損失方面,兩個網(wǎng)絡相差不大,本文所提網(wǎng)絡最終收斂值接近0.018,傳統(tǒng)卷積神經(jīng)網(wǎng)絡收斂值接近0.025,本文所提網(wǎng)絡略有提升,且收斂速度方面,本文所提網(wǎng)絡由于難分數(shù)據(jù)選擇策略,收斂速度更快。最終實驗結果如表1所示。
由表1可知,本文所提素描圖像識別方法相較于HOG特征與SIFT特征等傳統(tǒng)算法提升明顯,相較于VGG網(wǎng)絡Loss有0.007的降低,在準確率上有0.035的提升,提升幅度較小。但是本文所提網(wǎng)絡由于特征的多層池化提取,在運算速度上有較大提升,由此可見本文所提網(wǎng)絡再加入本文提出的Trilplet Loss后,對素描圖像對比識別效果有較大提升。
3 ?結 ?論
本文提出了一種新的基于殘差網(wǎng)絡多任務度量學習的素描人臉識別框架。該方法通過多通道的神經(jīng)網(wǎng)絡來提取素描與照片的多模態(tài)特征,其特征提取能力要強于VGG網(wǎng)絡;同時利用多模態(tài)Triplet Loss來進一步提升異類樣本間距離提高素描人臉識別的效果,與傳統(tǒng)Triplet Loss相比,該方法也有一定效果提升,實驗結果證明了該方法的有效性和優(yōu)越性。
參考文獻:
[1] TANG X O,WANG X G. Face sketch recognition [J].IEEE Transactions on Circuits and Systems for Video Technology,2004,14(1):50-57.
[2] TANG X O,WANG X G. Face Photo-Sketch synthesis and Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(11):1955-1967.
[3] SAMMA H,SUANDI S A,MOHAMAD-SALEH J. Face sketchrecognition using a hybrid optimization model [J].Neural Computing and Applications,2019,31(10):6493-6508.
[4] LIU D C,LI J,WANG N N,et al. Composite components-based face sketch recognition [J].Neurocomputing,2018,302:46-54.
[5] ZHANG W,WANG X G,TANG X O. Coupled information-theoretic encoding for face photo-sketch recognition [C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2011:513-520.
[6] KLARE B F,LI Z F,JAIN A K. Matching Forensic Sketches to Mug Shot Photos [J].IEEE transactions on pattern analysis and machine intelligence,2011,33(3):639-646.
[7] GALOOGAHI H K,SIM T. Inter-modality Face Sketch Recognition [C]//Proceedings of the 2012 IEEE International Conference on Multimedia and Expo.Washington:IEEE Computer Society,2012:224-229.
[8] ALEX A T,ASARI V K,MATHEW A. Local Difference of Gaussian Binary Pattern:Robust Features for Face Sketch Recognition [C]//Proceedings of the 2013 IEEE International Conference on Systems,Man,and Cybernetics.Washington:IEEE Computer Society,2013:1211-1216.
[9] KLARE B F,JAIN A K. Heterogeneous face recognition using kernel prototype similarities [J].IEEE transactions on pattern analysis and machine intelligence,2013,35(6):1410-1422.
[10] TANG X O,WANG X G. Face Photo-Sketch synthesis and Recognition [C]//Proceedings Ninth IEEE International Conference on Computer Vision.IEEE,2003:687-694.
[11] LIU Q S,TANG X O,JIN H L,et al. A Nonlinear Approach for Face Sketch Synthesis and Recognition [C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2005:1005-1010.
[12] LI J,YU X Y,PENG C L,et al. Adaptive representation-based face sketch-photo synthesis [J].Neurocomputing,2017,269(20):152-159.
[13] WANG N N,GAO X B,LI J. Random sampling for fast facesketch synthesis [J].Pattern Recognit,2018,76:215-227.
[14] ZHANG L L,LIN L,WU X,et al. End-to-endphoto-sketch generation via fully convolutional representationlearning [C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval.New York:Association for Computing Machinery,2015:627-634.
[15] WANG N N,ZHA W J,LI J,et al. Back projection:An effective postprocessing method for GAN-based face sketch synthesis [J].Pattern Recognition Letters,2018,107(1):59-65.
[16] JIAO L C,ZHANG S B,LI L L,et al. A modified convolutional neural network for face sketch synthesis [J].Pattern Recognition,2018,76:125-136.
[17] JIANG J J,YU Y,WANG Z,et al. Graph-Regularized Locality-Constrained Joint Dictionary and Residual Learning for Face Sketch Synthesis [J].IEEE Transactions on Image Processing,2019,28(2):628-641.
[18] LIN D H,TANG X O. Inter-modality face recognition [C]//ECCV 2006:Computer Vision-ECCV.Springer,2006:13-26.
[19] YI D,LIU R,CHU R F,et al. Face matching between near infrared and visible lightimages.International [C]//Proceedings of the 2007 international conference on Advances in Biometrics.Springer-Verlag,2017:523-530.
[20] SHARMA A,JACOBS D W. Bypassing synthesis:PLS for facerecognition with pose low-resolution and sketch [C]//Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2011:593-600.
[21] MEINA K,SHAN S G,ZHANG H H,et al. Multi-view discriminant analysis [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):188-194.
[22] MIGNON A,JURIE F. CMML:A new metric learning approach forcross modal matching:Asian Conference on Computer Vision [EB/OL].(2019-02-07)https://www.hal.inserm.fr/GREYC/hal-00806082v1.
[23] HU J L,LU J W,TAN Y P. Discriminative Deep Metric Learning for Face Verification in the Wild [C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2014:1875-1882.
[24] CAI X Y,WANG C H,XIAO B H,et al. Deep nonlinear metric learning with independent subspace analysis for face verification [C]//Proceedings of the 20th ACM international conference on Multimedia.New York:Association for Computing Machinery,2012:749-752.
[25] YI D,LEI Z,LIAO S C,et al. Deep metric learning for person re-identification [C]//Proceedings of the 2014 22nd International Conference on Pattern Recognition.Washington:IEEE Computer Society,2014:34-39.
作者簡介:藍凌(1978—),男,畬族,廣東南雄人,高中信息技術高級教師,本科,研究方向:人工智能、機器人教育;吳劍濱(1979—),男,漢族,廣東英德人,高中信息技術高級教師(中級),本科,研究方向:高考、中考考務管理,信息化教學裝備,信息化教學應用;侯亮(1977—),男,漢族,廣東韶關人,工程師,本科,研究方向:信息技術應用、視頻安防。