王 寧,李 京
(中國科學(xué)技術(shù)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230026)
作為人臉識別問題的一個分支,人臉驗證的重點在于機(jī)器能夠自動確定一對人臉圖像是否具有相同的身份.作為一項基礎(chǔ)研究工作,它的研究成果能夠應(yīng)用于各種實際場景,如安全監(jiān)視和信用調(diào)查等.在過去的幾十年里,人臉驗證的方法取得了顯著的進(jìn)展,但是仍然存在一些影響方法效果的因素,如:人臉的正臉和側(cè)臉的偏差、面部裝飾品遮擋導(dǎo)致的信息缺失,以及妝容對面部圖像特征的改變.隨著社會的發(fā)展,化妝行為已經(jīng)被人們廣泛的認(rèn)知和接受.據(jù)有關(guān)調(diào)查顯示,中國的化妝群體將在2020年突破3億人,化妝已經(jīng)成為大多數(shù)中國女性及小部分中國男性的日常工作.但是妝容能夠覆蓋人臉的局部紋理信息,還會改變面部的輪廓信息.由于每次化妝所造成的紋理信息和輪廓信息的改變是不同的,現(xiàn)有的方法還不能有效地去除這些改變帶來的影響,這就給當(dāng)下的人臉驗證工作帶來了不小的挑戰(zhàn).
化妝品的歷史最早可以追溯到古埃及時代[1],使用適當(dāng)?shù)幕瘖y品,可以使皮膚看起來光滑圓潤,使得眼圈變黑,也可以改變嘴唇的顏色、眉毛的形狀等等.這些變化遮擋了面部的缺陷,帶來顯著的外觀變化,導(dǎo)致了帶妝和不帶妝的人臉圖像在全局和局部的外觀上存在差異.而現(xiàn)有的人臉識別和人臉驗證算法主要依賴于在人臉圖像中提取特征點信息,從而捕獲人臉外觀特征,達(dá)到人臉識別和人臉驗證的目的.Dantcheva A等[2]的研究表明,妝容能夠給人臉驗證工作帶來很大的影響.說明當(dāng)下的主流方法缺乏對于妝容圖像識別及驗證的魯棒性.
傳統(tǒng)基于深度學(xué)習(xí)的人臉識別及驗證的方法對于妝容的魯棒性不強(qiáng),究其根本原因是,帶妝和不帶妝面部圖像分布存在差異,導(dǎo)致兩類圖像通過這些神經(jīng)網(wǎng)絡(luò)提取到的特征向量不能映射到同一特征空間上.因此,如果對網(wǎng)絡(luò)采取某種約束,使得提取到的特征能夠映射到同一特征空間,就能夠較好的解決這一問題.Goodfellow等人[3]提出的生成對抗網(wǎng)絡(luò)(GAN)是近幾年來生成模型中的佼佼者,其主要包括生成器G(x)和判別器D(x).令Px(x)表示真實的概率分布,Pz(z)表示隨機(jī)噪聲的分布.生成器G(x)主要用于將隨機(jī)噪聲z映射到真實的樣本空間,得到分布PG(G(x)).判別器D(x)主要用于判斷輸入的樣本是來自真實分布Px(x)還是來自生成器生成的樣本分布PG(G(x)).通過生成器和判別器的動態(tài)博弈,生成器的生成的分布PG(G(x))越來越趨近真實分布Px(x).由此可見,GAN給我們提供了一種新的技術(shù)思路,即使用對抗的方法來逼近網(wǎng)絡(luò)提取到的特征分布.因此,我們使用兩個殘差網(wǎng)絡(luò)[4](Resnet)分別提取帶妝和不帶妝圖像的特征,同時采用對抗的方式來對特征提取的過程進(jìn)行約束,使得兩個殘差網(wǎng)絡(luò)提取到的特征能夠映射到同一特征空間,以消除妝容對人臉驗證帶來的影響.
本文的主要工作如下:
1)本文采用的MIFS_YMU_PLUS(MYP)數(shù)據(jù)集,整合了C.Chen等人[2,5-7]采集的YouTube Makeup(YMU)數(shù)據(jù)集和Makeup Induced Face Spoofing(MIFS)數(shù)據(jù)集,并添加自己搜集的帶妝和不帶妝面部圖像,除此之外還對現(xiàn)有的Labled Faces in the Wild(LFW)人臉數(shù)據(jù)集進(jìn)行自行上妝工作,最終合成得到.
2)使用兩個殘差網(wǎng)絡(luò)分別來提取帶妝和不帶妝人臉的特征,同時在兩個網(wǎng)絡(luò)的中間層和輸出層進(jìn)行約束,使得模型能夠提取到與妝容無關(guān)的特征.
3)設(shè)計了特別的損失函數(shù)和采樣方式,以使得模型能夠達(dá)到最佳的訓(xùn)練效果.
4)該方案在MYP數(shù)據(jù)集上取得了最好的效果,與現(xiàn)有的方案相比得到了顯著的改進(jìn).
在機(jī)場、酒店、火車站等公共場所,每天都需要進(jìn)行大量的人臉驗證工作.人臉驗證在實際環(huán)境中存在著廣泛的應(yīng)用,因此人臉驗證問題一直受到研究人員的廣泛關(guān)注.神經(jīng)網(wǎng)絡(luò)出現(xiàn)之后,越來越多的科研工作者開始探究深度神經(jīng)網(wǎng)絡(luò)下人臉驗證問題上的應(yīng)用,并取得了巨大進(jìn)展.
百度公司提出的基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識別算法[8]和谷歌公司的Facenet[9]在LFW數(shù)據(jù)集上都取得97%以上的準(zhǔn)確率.但是在實際工作中,我們經(jīng)常會遇到一些樣本量比較少的人臉數(shù)據(jù)集,在這類數(shù)據(jù)集上,由于兩類網(wǎng)絡(luò)過于復(fù)雜,導(dǎo)致神經(jīng)網(wǎng)絡(luò)很容易在訓(xùn)練集上產(chǎn)生過擬合的現(xiàn)象,且隨著網(wǎng)絡(luò)層數(shù)的加深,由這兩個公司提出的神經(jīng)網(wǎng)絡(luò)均出現(xiàn)了網(wǎng)絡(luò)退化的情況,導(dǎo)致在小數(shù)據(jù)集上效果較差.且LFW中的人臉圖像,并沒有考慮妝容在人臉識別和驗證問題中帶來的影響,因此對帶妝面部圖像進(jìn)行識別時,這些方法的準(zhǔn)確率就會嚴(yán)重下降.
化妝相關(guān)的研究現(xiàn)在已經(jīng)越來越受研究人員的關(guān)注,但是跟妝容有關(guān)的人臉驗證相關(guān)的研究卻很少.Hu[10]等提出了基于典型相關(guān)分析(canonical correlation analysis,CCA)[11]和支持向量機(jī)(Support Vector Machine,SVM)[12]的妝容識別方法,CCA是一種圖片的特征提取算法,可以將圖像映射到同一個歐幾里得空間中,并使得同類的照片之間的歐氏距離更近,屬于比較早的特征提取算法.在特征提取結(jié)束后,再結(jié)合SVM進(jìn)行分類.由于CCA所做的特征提取僅僅考慮了單個帶妝面部圖像和單個不帶妝面部圖像的關(guān)系,忽視了本類圖像內(nèi)部之間的關(guān)系,所以CCA應(yīng)用在帶妝人臉識別時的效果較差.Guo等人[13]等將化妝特性作為領(lǐng)域知識,提出了一種結(jié)合面部分割與CCA進(jìn)行識別的方法,該方法不但可以對化妝的人臉進(jìn)行識別,同時還可以對不化妝的人臉進(jìn)行識別,對于妝容的魯棒性較強(qiáng),此外,還產(chǎn)生了一個化妝檢測的方案,該方法雖然對妝容圖片的人臉驗證具有一定的魯棒性,但是受限于CCA的特征提取能力,該方法在專門的妝容類數(shù)據(jù)庫上識別率并不高.Sun[14]等人提出了一個弱監(jiān)督學(xué)習(xí)的妝容不變的人臉識別方法,由于帶妝人臉數(shù)據(jù)庫一般樣本量較小,所以他們先在視頻中收集人臉圖片,預(yù)訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò),然后再使用帶妝人臉數(shù)據(jù)庫對模型進(jìn)行微調(diào),采用三元組的損失函數(shù)對模型進(jìn)行優(yōu)化,即3張圖片,其中兩張B1,B2是同一個人的圖像,A是另外一個人的圖像,假設(shè)提取到的特征為IB1、IB2和IA則滿足|IB1-IB2|+α<|IB1-IA|.實驗結(jié)果證明他們的方法的表現(xiàn)超越了前兩種方案,但是由于妝容覆蓋了大量的有效信息,導(dǎo)致特征提取過于困難,最終的結(jié)果也不理想.Li[15]等人提出了一種基于生成對抗網(wǎng)絡(luò)的帶妝人臉驗證的方法,主要是依托于生成對抗網(wǎng)絡(luò),先將帶妝面部圖像轉(zhuǎn)換為對應(yīng)的不帶妝面部圖像,再進(jìn)行人臉驗證模型的訓(xùn)練,從而避免了帶妝樣本對于模型魯棒性的負(fù)面影響.但是由于生成對抗網(wǎng)絡(luò)在像素級的生成所需的訓(xùn)練周期較長、對于訓(xùn)練集的樣本量要求較大,且判別結(jié)果對生成效果依賴性較強(qiáng),所以實用性較差.
殘差網(wǎng)絡(luò)(Resnet)是He等人[4]提出的一種基于卷積神經(jīng)(CNN)網(wǎng)絡(luò)的深度學(xué)習(xí)模型.一般來說,深度神經(jīng)網(wǎng)絡(luò)層數(shù)越深,則模型的表達(dá)能力越強(qiáng),但是當(dāng)網(wǎng)絡(luò)層數(shù)達(dá)到一定的深度之后,增加網(wǎng)絡(luò)層數(shù)并不能進(jìn)一步提升網(wǎng)絡(luò)性能,反而會因為參數(shù)過多導(dǎo)致網(wǎng)絡(luò)龐大,且網(wǎng)絡(luò)收斂速度變慢.Resnet借鑒了常規(guī)的計算機(jī)視覺領(lǐng)域殘差表示(residual representation)的概念,并將它運用在CNN的模型構(gòu)建中.假設(shè)模型的輸入為x,Resnet的輸出為R(x),則Resnet著重于使用多個CNN來學(xué)習(xí)R(x)-x.實驗結(jié)果顯示,Resnet具有良好的特征提取能力,且模型不會因為網(wǎng)絡(luò)層數(shù)的變深而效果變差.Resnet被提出后,被許多研究者將其應(yīng)用于圖像識別和分類問題[16-19].裴頌文[18]等人通過結(jié)合Resnet和網(wǎng)中網(wǎng)(Network in Network)模型,提出了一種網(wǎng)中網(wǎng)殘差網(wǎng)絡(luò)(NIN-Resnet)模型,該方法在表情分類識別問題中的FER-2013 和CK+數(shù)據(jù)集上都取得了較好的效果.楊雨濃[19]提出一種基于深度殘差網(wǎng)絡(luò)的表情識別的方法,先將面部圖像進(jìn)行分割,再通過卷積神經(jīng)網(wǎng)絡(luò)提取每一部分的特征,最后通過殘差單元結(jié)合深度網(wǎng)絡(luò)對特征進(jìn)行聚合,最終得到的模型具有較好的識別率和較強(qiáng)的魯棒性.因此我們選擇Resnet18作為我們的特征提取網(wǎng)絡(luò),可以防止模型由于數(shù)據(jù)量過小網(wǎng)絡(luò)層數(shù)過多導(dǎo)致效果變差,也可以保證模型在大數(shù)據(jù)量時擬合數(shù)據(jù)分布.由于本文實驗中采用的數(shù)據(jù)集樣本量較少,為了防止過擬合,我們對Resnet18的網(wǎng)絡(luò)結(jié)構(gòu)和部分參數(shù)進(jìn)行了調(diào)整,調(diào)整后的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)如圖1所示.
圖1 本文中所使用的Resnet 結(jié)構(gòu)和參數(shù)圖Fig.1 Resnet structure and parameter diagram used in this article
自從GAN被提出以來,越來越多的研究者將這種對抗學(xué)習(xí)的思想應(yīng)用于圖像生成的任務(wù)中[20-23],因為通過對抗的方式,可以讓判別器約束生成器特征提取過程,使得生成的分布逼近于真實圖像的分布.所以不少研究者將這一思想應(yīng)用于各種特征提取任務(wù),以達(dá)到約束特征提取的作用.Ganin等人[24]在領(lǐng)域適應(yīng)(domain adaptation)的問題中,通過使用對抗性的神經(jīng)網(wǎng)絡(luò)來正則化特征提取器,生成了領(lǐng)域無關(guān)(domain invariant)的特征,實驗結(jié)果表明問題效果得到顯著的提升.He 等人[25]將對抗性學(xué)習(xí)的正則化作用用于跨模態(tài)檢索(cross-modal retrieval),提出一種無監(jiān)督檢索算法UCAL,能夠取得與最新的有監(jiān)督方法同樣好的檢索效果.
本文網(wǎng)絡(luò)框架如圖2所示,該框架包括3個部分,包括提取帶妝面部圖像特征的Resnet(Rm),提取不帶妝面部圖像特征的Resnet(Rn),以及一個用于判斷特征來源的判別器(Discriminator,D),其中Resnet我們采用結(jié)構(gòu)如圖1所示.一個帶妝面部圖像樣本xm通過Rm提取到的特征向量為Rm(xm),一個不帶妝面部圖像樣本xn通過Rn提取到的特征向量為Rn(xn),我們通過三元組損失來優(yōu)化Rm和Rn,同時為了讓兩個網(wǎng)絡(luò)提取到的特征相互關(guān)聯(lián),我們設(shè)計了一個特殊的三元組損失,同時作用于兩個殘差網(wǎng)絡(luò).
為了使兩個Resnet都能夠提取到本類圖像的特征,同時還能夠映射到同一特征空間,我們除了在兩個Resnet的中間第k層增加對抗之外,還設(shè)置了特別的損失函數(shù).為了滿足這些損失的產(chǎn)生,本文設(shè)計了一種新的采樣方式.本小節(jié)將來介紹訓(xùn)練采樣、模型損失以及訓(xùn)練過程的具體設(shè)計.
圖2 基于對抗學(xué)習(xí)的帶妝人臉驗證網(wǎng)絡(luò)框架Fig.2 Network framework for face verification with makeup based on adversarial learning
Schroff F等人[9]在訓(xùn)練Facenet時提出的三元組損失函數(shù)(Triplet_loss)被廣泛應(yīng)用于各類識別算法中,由于該方法可以將訓(xùn)練集映射到一個較好的特征空間,因此與其他分類損失函數(shù)相比效果更好.但是由于帶妝面部圖像與不帶妝面部圖像分布差異較大,單純采用Triplet_loss訓(xùn)練模型很容易導(dǎo)致過擬合,因此本文提出在網(wǎng)絡(luò)中添加對抗損失函數(shù),使得兩個Resnet能夠在提取本類面部圖像特征的同時可以相互逼近提取到的特征空間.為此,本文設(shè)計了一種新的采樣方式,用于在訓(xùn)練兩個Resnet的情況下同時滿足Triplet_loss和對抗損失的優(yōu)化,具體的操作方法如下:
4.2.1 判別器損失函數(shù)
(1)
4.2.2 Resnet損失函數(shù)
(2)
(3)
(4)
(5)
綜上得出,兩條Resnet總的損失函數(shù)LR可以表示為:
(6)
算法1.基于對抗學(xué)習(xí)的帶妝人臉驗證算法流程
判別器更新參數(shù)次數(shù)Kd
Rm和Rn的更新參數(shù)次數(shù)Kr
批量樣本數(shù)j
迭代次數(shù)T
Result:用于提取帶妝面部圖像特征的殘差網(wǎng)絡(luò)Rm和用于提取不帶妝面部圖像特征的殘差網(wǎng)絡(luò)Rn
1.for t=1 toTdo
2.固定Rm和Rn的參數(shù);
3.解鎖判別器D的參數(shù);
4. for k=1 tokddo
7. 根據(jù)式(1)利用梯度下降法更新判別器D的參數(shù);
8. end
9.固定判別器D的參數(shù);
10. 解鎖Rm和Rn的參數(shù);
11. for k=1 toKrdo
14.根據(jù)式(6)更新Rm和Rn的參數(shù);
15. end
16.end
為了使模型達(dá)到最佳效果,模型訓(xùn)練需要進(jìn)行多次迭代.每次迭代需要先固定判別器的參數(shù)更新兩個Resnet的參數(shù),之后再固定兩Resnet的參數(shù)更新判別器的參數(shù),以此交替訓(xùn)練.算法1描述了整個模型的優(yōu)化過程.
為了驗證本文提出的算法的有效性,我們利用MYP數(shù)據(jù)集來對本文提出的模型進(jìn)行3次實驗驗證,分別驗證添加對抗的合理性、對抗添加的位置的合理性以及本文的方法準(zhǔn)確率.本節(jié)主要介紹數(shù)據(jù)集,實驗設(shè)置以及實驗結(jié)果.
MIFS數(shù)據(jù)庫是在YouTube的化妝教程中截圖的化妝前后的人臉圖像.其中共包含107名受試者,其中有3名男性受試者和104名女性受試者,每個受試者都會帶有具有迷惑意義的妝容,每個受試者包含6張照片,其中2張為化妝前,2張為化妝后,還有2張為受試者試圖模仿的目標(biāo)對象,數(shù)據(jù)集中妝容較濃.YMU數(shù)據(jù)庫也是在Youtube的化妝教程中收集的人臉圖像.共有151名受試者,每個受試者包含2張化妝前的照片和2張化妝后的照片,數(shù)據(jù)集中全部為白人女性,這些面部圖像的妝容濃度從細(xì)微到厚重不等,且面部除了妝容之外,還有表情和姿勢的變化.由于兩個數(shù)據(jù)集規(guī)模都比較小,且兩個數(shù)據(jù)集的分布較為接近,所以我們將兩個數(shù)據(jù)集進(jìn)行了整合.由于MIFS中的每個受試者包含2張目標(biāo)對象的面部圖像,所以我們對MIFS中的面部圖像進(jìn)行清理,只留下每個受試者2張化妝前的圖像和2張化妝后的圖像.除此之外,我們還在各大視頻網(wǎng)站的截取美妝視頻中美妝博主化妝前后的圖像,共截取了12名美妝博主,對象均為黃種人女性,每個對象保留2張上妝前的圖像和2張上妝后的圖像.我們選擇LFW中30名圖像數(shù)大于等于4的對象進(jìn)行了人工上妝操作,其中包括17名男性和13名女性,將每個對象的2幅正面圖像使用上妝軟件進(jìn)行編輯,同時保留2張不同的未上妝圖像.通過以上處理,最終將整個數(shù)據(jù)集擴(kuò)充到300名對象,其中每個對象有4張圖像,稱之為MYP數(shù)據(jù)集.
本文采用MYP數(shù)據(jù)集進(jìn)行實驗.實驗開始前,使用基于OpenCV的haar級聯(lián)分類器對人臉進(jìn)行定位和截取,對于截取效果較差的人臉,我們采用人工截取的方式進(jìn)行截圖,并統(tǒng)一將大小調(diào)整為160*160.
為了驗證模型的合理性,本文進(jìn)行了3種實驗.首先,使用單個Resnet(Resnet_s)作為基準(zhǔn)實驗,對比兩個不增加對抗損失的Resnet(Resnet_d)和兩個增加對抗損失的Resnet(Resnet_a) 的實驗效果.
其次,我們分別在兩個Resnet的第6層(6-Resnet_a)、第10層(10-Resnet_a)、第14層(14-Resnet_a)、第18層(18-Resnet_a)進(jìn)行對抗訓(xùn)練,以確定對抗效果最好的位置.
通過將本文的方法與VGG16、LightCNN、Facenet等經(jīng)典識別類模型進(jìn)行對比,來判斷文中的模型是否有效.除此之外,設(shè)計實驗與Li等人提出的結(jié)合生成對抗網(wǎng)絡(luò)進(jìn)行識別的帶妝人臉驗證算法進(jìn)行比較,以便驗證本文提出的方法是否具有更好的效果.
本文的實驗采用5折交叉驗證的方式進(jìn)行驗證.訓(xùn)練集包含240個人,共計960張面部圖像,測試集包含60個人,共計240張圖像.將測試集中的每個人與其他所有人分別進(jìn)行配對,共得到3460對組合.在每個組合的第1個人的圖像中隨機(jī)抽取兩張圖片a1、a2,在第2個人的圖像中隨機(jī)抽取一張圖片b,將a1、a2、b送入對應(yīng)的神經(jīng)網(wǎng)絡(luò),得到特征向量Ia1、Ia2、Ib,設(shè)定閾值為ε,在滿足條件‖Ia1-Ia1‖2<ε和‖Ia1-Ib‖2<ε時判斷為正確,否則判斷為錯誤.每次測試遍歷所有的組合,每個模型測試10次,采用10次準(zhǔn)確率的平均值來衡量模型性能.
5.3.1 對抗合理性驗證
我們用Resnet_s、Resnet_d和Resnet_a進(jìn)行比較,使用相同的Triplet_loss對模型進(jìn)行優(yōu)化,得到的結(jié)果如表1所示.
表1 對抗合理性驗證結(jié)果Table 1 Results of rationality verification of confrontation
表1中實驗結(jié)果表明,Resnet_d在MYP上比Resnet_s準(zhǔn)確率提升了4.54%,這是因為帶妝面部圖像和不帶妝面部圖像的樣本分布差距較大,單個Resnet很容易產(chǎn)生過擬合.而兩個Resnet的網(wǎng)絡(luò)結(jié)構(gòu),除了能夠提取到帶妝面部圖像和不帶妝面部圖像的共有特征之外,還能提取到本類圖像中的獨有特征,但是由于每個Resnet都著重于擬合本類圖像的分布,而提取到的特征只在最后的特征向量空間產(chǎn)生交互,中間提取的過程自由度過高,缺乏有效約束,所以提取到的特征并沒有完全映射到同一特征空間中,因此對于妝容的魯棒性不高.增加對抗之后,準(zhǔn)確率又提升了2.80%.因為增加了對抗損失,兩個Resnet從第k層開始提取到的特征就能夠逼近,促使它們最終提取到與妝容無關(guān)的特征.由此可見,使用兩個神經(jīng)網(wǎng)絡(luò)分別提取兩類圖像的特征并在兩個網(wǎng)絡(luò)的中間層添加對抗,這種網(wǎng)絡(luò)結(jié)構(gòu)是有效的.
5.3.2 對抗位置驗證
實驗改進(jìn)的Resnet18是Resnet家族中的層數(shù)最少的一個網(wǎng)絡(luò)結(jié)構(gòu),共有18層.本文選取Resnet中幾個降維的位置添加對抗,以便確定添加對抗的最佳位置.不同的位置獲取到的特征向量是不同的,而我們的判別器結(jié)構(gòu)是固定的.因此在每一次實驗之前,我們在判別器前添加一個Nk*64的全連接層,其中Nk為第k層特征向量拉平后的維度.實驗結(jié)果如表2所示.
表2 對抗位置驗證結(jié)果Table 2 Results of adversarial position verification
表2是4個模型在MYP數(shù)據(jù)集上的實驗結(jié)果.實驗結(jié)果表明,14-Resnet_a準(zhǔn)確率最高,這說明在Resnet第14層增加對抗效果最好.第6層和第10層提取到的特征維度較高,在樣本數(shù)較少的情況下,特征過于稀疏,對抗效果不佳.同時由于對抗增加的位置過于靠前,導(dǎo)致前面的網(wǎng)絡(luò)并沒有充分提取到圖像特征,使得網(wǎng)絡(luò)刻意迎合判別器的判別.在第18層增加對抗,雖然特征維度較低,但是由于對抗增加的過于靠后,這會影響特征細(xì)節(jié)的學(xué)習(xí),因此效果并不明顯.
5.3.3 模型效果驗證
我們選取了幾種較為常見的識別類網(wǎng)絡(luò)與我們的方法進(jìn)行對比,包括VGG16、Facenet、LightCNN,同時我們還選取了相關(guān)研究中目前效果最好的Li等人提出的方法,采用相同的Triplet_loss對模型進(jìn)行優(yōu)化,結(jié)果如表3所示.
表3 模型準(zhǔn)確率對比結(jié)果Table 3 Comparison results of model accuracy
表3中展示的實驗結(jié)果表明,在各類人臉識別與驗證算法中,此算法準(zhǔn)確率最高.在MYP上此方法比VGG16、Facenet、LightCNN以及Li等方法分別提升了13.11%、14.41%、3.95%、6.78%;Facenet是較為優(yōu)秀的人臉驗證網(wǎng)絡(luò),VGG16也是較為優(yōu)秀的識別類模型,但是由于網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,導(dǎo)致在樣本量較少的MYP數(shù)據(jù)集上出現(xiàn)了網(wǎng)絡(luò)退化的問題,并且迅速過擬合,因此準(zhǔn)確率較低.我們復(fù)現(xiàn)了Li等論文中的方法,該方法在他們的數(shù)據(jù)集上效果較好.但是由于生成對抗網(wǎng)絡(luò)基于像素級的生成訓(xùn)練時間較長、需要的樣本數(shù)目多,而MYP數(shù)據(jù)集中樣本數(shù)較少,部分圖像上妝的質(zhì)量不高,導(dǎo)致生成對抗網(wǎng)絡(luò)生成效果較差.由于該方法的準(zhǔn)確率與生成器的生成效果密切相關(guān),導(dǎo)致整個模型的準(zhǔn)確率較低.
為了解決現(xiàn)有的人臉驗證方法在帶妝條件下人臉驗證魯棒性差的問題,在現(xiàn)有的數(shù)據(jù)集都較小的情況下,我們首先對現(xiàn)有的MIFS數(shù)據(jù)集和YMU數(shù)據(jù)集進(jìn)行了增強(qiáng),再結(jié)合我們自己收集的帶妝面部圖像,形成了MYP數(shù)據(jù)集.我們提出了一種基于對抗學(xué)習(xí)的帶妝人臉驗證的算法.通過訓(xùn)練兩個Resnet分別提取兩類圖像的特征,并通過在中間層增加對抗的方式使得兩類網(wǎng)絡(luò)提取到的特征盡可能的逼近,進(jìn)而促使網(wǎng)絡(luò)提取到與妝容無關(guān)的特征,以增強(qiáng)網(wǎng)絡(luò)的魯棒性.針對于本文提出的模型,我們改進(jìn)了現(xiàn)有的三元組損失,使得模型能夠達(dá)到最佳的訓(xùn)練效果.在MYP數(shù)據(jù)上的實驗證明,我們的方法與現(xiàn)有的人臉識別與驗證類網(wǎng)絡(luò)相比,帶妝條件下的人臉驗證具有很好的魯棒性.