朱大力,朱 樺,陳志寰
(1.海軍工程大學(xué) 船舶與海洋學(xué)院,湖北 武漢 430033;2.安徽工業(yè)大學(xué) 商學(xué)院,安徽 馬鞍山 243002;3.海軍勤務(wù)學(xué)院 戰(zhàn)勤指揮系,天津 300450)
人臉識(shí)別[1]加速了人類信息化的發(fā)展,但同時(shí)也面臨極大的金融風(fēng)險(xiǎn)。因此,為提高人臉識(shí)別技術(shù)的核心安全能力,一些學(xué)者提出了活體檢測(cè)的概念,即通過(guò)某種算子判斷人臉是真實(shí)人臉還是虛假的攻擊體,如電子照片攻擊、電子視頻攻擊、3D頭模攻擊等。目前,主流的活體檢測(cè)技術(shù)包括配合式和非配合式兩種。配合式活體檢測(cè)是通過(guò)用戶配合系統(tǒng)提示做出相應(yīng)的動(dòng)作進(jìn)行活體檢測(cè);非配合式活體檢測(cè)是指用戶無(wú)需進(jìn)行相應(yīng)的動(dòng)作直接進(jìn)行活體檢測(cè)。筆者主要對(duì)非配合式活體檢測(cè)進(jìn)行研究。
對(duì)于非配合式活體檢測(cè),早期主要通過(guò)手工提取圖像特征(紋理、顏色、非剛性運(yùn)動(dòng)變形等),然后比較活體特征與假體特征之間的差異。如WEN等[2]利用單幀輸入的方式,設(shè)計(jì)了鏡面反射+圖像質(zhì)量失真+顏色等統(tǒng)計(jì)量特征,融合以上特征后利用SVM[3]分類器進(jìn)行分類決策。該方法能夠區(qū)分大部分假體攻擊,但當(dāng)輸入為質(zhì)量失真不嚴(yán)重的高清彩色打印紙張或者高清錄制視頻時(shí),則難以區(qū)分。BOULKENAFET等[4]分別提取HSV空間中人臉LBP特征[5]和YCbCr空間人臉LPQ特征[6],并將提取的特征進(jìn)行通道融合,輸入至SVM分類器進(jìn)行分類,該方法證明了活體與假體在其他顏色空間具有可區(qū)分性。BHARADWAJ等[7]提出了光流法,通過(guò)捕獲活體與非活體微動(dòng)作之間的差異來(lái)設(shè)計(jì)特征。傳統(tǒng)方法設(shè)計(jì)的特征雖然比較簡(jiǎn)單,但是手工設(shè)計(jì)特征較為繁瑣,且特征信息較少,魯棒性較差。隨著深度學(xué)習(xí)的興起,一些學(xué)者陸續(xù)采用深度學(xué)習(xí)提取特征開展活體檢測(cè)研究。如ATOUM等[8]采用端到端的方法回歸脈沖統(tǒng)計(jì)量及深度圖,將二分類問(wèn)題替換為目標(biāo)性的特征監(jiān)督問(wèn)題。SONG等[9]將活體檢測(cè)直接作為人臉檢測(cè)框架里的一個(gè)類,即通過(guò)人臉檢測(cè)器檢測(cè)出的Bbox有背景、真人臉、假人臉三類的置信度,可以在早期就過(guò)濾掉一部分假體攻擊。以上基于深度學(xué)習(xí)的方法雖然能夠提取較魯棒的特征,但極易受到光照因素影響,且僅基于RGB圖像特征無(wú)法解決3D攻擊問(wèn)題。
針對(duì)以上研究的不足,筆者提出一種基于多模態(tài)融合的活體檢測(cè)方法,包括基于局部圖像塊的特征學(xué)習(xí)和結(jié)合模態(tài)特征擦除的多流融合兩個(gè)部分。該方法可從不同模態(tài)提取更具辯別性的特征并加以融合,可用于人臉識(shí)別系統(tǒng)中的活體檢測(cè),為人臉識(shí)別提供安全保障。
對(duì)于基于局部圖像塊的特征學(xué)習(xí),筆者采用從面部圖像隨機(jī)提取的局部圖像塊來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),以學(xué)習(xí)豐富的外觀特征。對(duì)于多流融合,在訓(xùn)練過(guò)程中會(huì)隨機(jī)擦除來(lái)自不同模態(tài)的特征,再將其融合以進(jìn)行分類。神經(jīng)網(wǎng)絡(luò)的輸入為RGB、深度和紅外3個(gè)模態(tài)的人臉圖像。其中,RGB可提取較豐富的顏色特征信息;深度圖像反饋的是相機(jī)與人臉的距離信息,利用深度信息可區(qū)分二維假體攻擊,如電子照片攻擊和視頻攻擊等;由于真實(shí)的人臉和紙片、屏幕、立體面具等攻擊媒介的反射特性都是不同的,所以成像也不同,而這種差異在紅外波反射方面會(huì)更明顯。因此,3種模態(tài)的特征融合對(duì)于活體檢測(cè)具有指導(dǎo)意義。
筆者基于ResNet[10]網(wǎng)絡(luò)設(shè)計(jì)了更深的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)由3個(gè)組卷積塊,全局平均池化層,全連接層以及softmax層組成,如圖1所示。由于不同模態(tài)的特征分布不同,因此,基于多模態(tài)融合的活體檢測(cè)算法可有效探索不同模態(tài)之間的特征依賴性。筆者使用具有3個(gè)子網(wǎng)的多流體系結(jié)構(gòu)來(lái)執(zhí)行多模態(tài)特征融合,網(wǎng)絡(luò)的輸入為3個(gè)模態(tài)的圖像的局部塊。在每個(gè)子網(wǎng)絡(luò)提取各自模態(tài)的特征,然后在高層語(yǔ)義特征層將不同模態(tài)的特征進(jìn)行融合。
圖1 多模態(tài)融合的活體檢測(cè)框架
為了讓網(wǎng)絡(luò)有選擇性地增強(qiáng)信息量大的特征,使得后續(xù)處理可以充分利用這些特征,并對(duì)無(wú)用特征進(jìn)行抑制,引入了通道注意力模塊SENet[11]。首先,對(duì)主干網(wǎng)絡(luò)提取的特征進(jìn)行Squeeze操作,得到通道級(jí)的全局特征;其次,對(duì)全局特征進(jìn)行Excitation操作,學(xué)習(xí)各個(gè)通道間的關(guān)系,得到不同通道的權(quán)重;最后,乘以原來(lái)的特征圖得到最終特征。SENet模塊適用于任何映射,以卷積為例,由于對(duì)各個(gè)通道的卷積結(jié)果做了求和操作,所以通道特征關(guān)系與卷積核學(xué)習(xí)到的空間關(guān)系混合在一起。而SENet模塊可以抽離這種混雜,使得模型直接學(xué)習(xí)到通道特征關(guān)系。SENet模塊主要分為Squeeze操作和Excitation操作,SENet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中C、H、W分別表示特征圖的通道數(shù)、高和寬。
圖2 SENet網(wǎng)絡(luò)結(jié)構(gòu)
(1)Squeeze操作。由于卷積只是在一個(gè)局部空間內(nèi)進(jìn)行操作,很難獲得足夠的信息來(lái)提取通道之間的關(guān)系,這對(duì)于低層次的網(wǎng)絡(luò)更為嚴(yán)重,因?yàn)槠涓惺芤拜^小。因此,SENet的設(shè)計(jì)者提出了Squeeze操作,將一個(gè)通道上整個(gè)空間特征編碼為一個(gè)全局特征,采用全局平均池化操作來(lái)實(shí)現(xiàn)。
(1)
式中:Zc表示Squeeze操作的輸出;Fsq為全局平局池化操作;Pc為某層的卷積特征;Pc(i,j)為不同通道的卷積特征;i、j為像素位置索引。
(2)Excitation操作。通過(guò)Sequeeze操作可以得到全局描述特征,接下來(lái)需要抓取通道之間的關(guān)系。這個(gè)操作需要滿足兩個(gè)準(zhǔn)則:①要靈活,可以學(xué)習(xí)到各個(gè)通道之間的非線性關(guān)系;②學(xué)習(xí)的關(guān)系不是互斥的,因?yàn)檫@里允許多通道特征,而不是one-hot形式?;诖耍捎胹igmoid形式的gating機(jī)制:
S=Fex(Zc,W)=β(W2θ(W1Zc))
(2)
式中:Fex為Exicitation操作;β為非線性激活函數(shù)sigmoid;θ為非線性激活函數(shù)ReLU;W1與W2分別為兩個(gè)全連接層的參數(shù)。
為了降低模型復(fù)雜度和提升泛化能力,筆者采用包含兩個(gè)全連接層的bottleneck結(jié)構(gòu)。其中,第一個(gè)全連接層起到降維的作用,最后的全連接層可以恢復(fù)到原始的維度。圖2中U為經(jīng)過(guò)多層卷積后的特征,F(xiàn)scale表示將學(xué)習(xí)到的各個(gè)通道的激活值乘以經(jīng)過(guò)多層卷積后的特征U上的原始特征即為信息增強(qiáng)后的特征X′。網(wǎng)絡(luò)的損失函數(shù)為Softmax+CrossEntropy[12],如式(3)所示。
(3)
式中:Lsoftmax為交叉熵?fù)p失函數(shù),用來(lái)衡量模型預(yù)測(cè)值與實(shí)際值的差異程度;fj為輸出類別的第j個(gè)置信度;yi為樣本的真實(shí)標(biāo)簽;N為訓(xùn)練樣本的個(gè)數(shù)。
為了評(píng)估實(shí)驗(yàn)的有效性,筆者利用自研的RGBD相機(jī)采集了若干不同活體的人臉圖像,并采集了不同攻擊類型的假體數(shù)據(jù)。數(shù)據(jù)集EPC660包含300個(gè)活體的50 000張人臉圖像,真臉數(shù)據(jù)包含了強(qiáng)光、暗光、背光、弱光等各種場(chǎng)景?;?D的假臉數(shù)據(jù)是使用打印紙、銅版紙、照片紙、平板Pad 屏幕、手機(jī)屏幕采集的數(shù)據(jù)?;?D的假臉數(shù)據(jù)則是采用頭模、硅膠面具和紙質(zhì)照片摳洞的人臉面具進(jìn)行采集。EPC660部分?jǐn)?shù)據(jù)如圖3所示。
圖3 EPC660部分?jǐn)?shù)據(jù)
為了使得實(shí)驗(yàn)更具有效性,筆者使用隨機(jī)翻轉(zhuǎn)、旋轉(zhuǎn)、調(diào)整大小、裁剪來(lái)增強(qiáng)數(shù)據(jù),并從112×112全臉圖像中隨機(jī)提取圖像補(bǔ)丁。增強(qiáng)后的真臉圖像數(shù)據(jù)為10萬(wàn)張,假臉數(shù)據(jù)為8萬(wàn)張。將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,訓(xùn)練集包含3萬(wàn)張真臉數(shù)據(jù)、2萬(wàn)張假臉數(shù)據(jù),驗(yàn)證集包含1萬(wàn)張真臉數(shù)據(jù),1萬(wàn)張假臉數(shù)據(jù),測(cè)試集包含6萬(wàn)張真臉數(shù)據(jù),5萬(wàn)張假臉數(shù)據(jù)。與一般情況下的數(shù)據(jù)集劃分不同,筆者劃分少量的數(shù)據(jù)到訓(xùn)練集和驗(yàn)證集,劃分大量的數(shù)據(jù)到測(cè)試集。利用小數(shù)據(jù)量訓(xùn)練的模型來(lái)測(cè)試該模型在大數(shù)據(jù)量的數(shù)據(jù)集上的泛化性。為了較準(zhǔn)確地進(jìn)行活體檢測(cè),先利用開源的目標(biāo)檢測(cè)算法檢測(cè)數(shù)據(jù)集中的人臉圖像,再對(duì)人臉圖像進(jìn)行對(duì)齊操作,最后將對(duì)齊的人臉圖像輸入至網(wǎng)絡(luò)。
筆者采用基于ResNet修改的自研網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)訓(xùn)練模型,使用Softmax+CrossEntropy Loss作為訓(xùn)練分類的監(jiān)督。使用常規(guī)的SGD和標(biāo)準(zhǔn)的學(xué)習(xí)率遞減策略進(jìn)行訓(xùn)練,直至收斂為止。使用不同尺度的圖片作為網(wǎng)絡(luò)的輸入訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)訓(xùn)練時(shí),在人臉圖像原圖上(多個(gè)模態(tài))隨機(jī)裁切不同大小的圖形補(bǔ)丁作為網(wǎng)絡(luò)輸入。為了增加模型間的互補(bǔ)性,在若干個(gè)卷積塊后融合3個(gè)模態(tài)的特征進(jìn)行訓(xùn)練。另外,為了減小模型的冗余性,在網(wǎng)絡(luò)訓(xùn)練初期隨機(jī)擦除任一模態(tài)的特征,將該模態(tài)的特征值置為0。
為了評(píng)估模型的有效性,分別設(shè)計(jì)基于RGB、深度和紅外3種不同的模態(tài)數(shù)據(jù)為輸入的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸入的圖像補(bǔ)丁尺寸分別為16×16、32×32、48×48和64×64。為了進(jìn)行性能比較,使用9個(gè)不重疊的圖像補(bǔ)丁來(lái)推理所有模型9次,最后取所有圖像補(bǔ)丁推理結(jié)果的均值。同時(shí),為了驗(yàn)證多模態(tài)融合的性能提升效果,設(shè)計(jì)多模態(tài)實(shí)驗(yàn),將單模態(tài)實(shí)驗(yàn)中3種不同模態(tài)的輸入融合為9個(gè)通道的輸入,在網(wǎng)絡(luò)訓(xùn)練時(shí)將9個(gè)通道的輸入分成3組分別輸入不同模態(tài)的子網(wǎng)絡(luò)中參與模型訓(xùn)練。實(shí)驗(yàn)結(jié)果如表1所示,可以發(fā)現(xiàn)輸入大小分別為32×32、48×48時(shí),基于深度數(shù)據(jù)訓(xùn)練的模型性能較好,錯(cuò)誤率可達(dá)到0.8%,真陽(yáng)性率為 99.4%;當(dāng)輸入大小為32×32時(shí),RGB和紅外圖像的錯(cuò)誤率分別為4.2%、1.5%;當(dāng)輸入大小為48×48時(shí),RGB和紅外圖像的錯(cuò)誤率分別為3.1%、1.5%。對(duì)比不同模態(tài)的錯(cuò)誤率可以發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)輸入大小相同時(shí),基于深度數(shù)據(jù)、紅外數(shù)據(jù)訓(xùn)練的模型的性能優(yōu)于基于RGB訓(xùn)練的模型的性能。而將3種模態(tài)融合在一起,模型在所有圖像補(bǔ)丁上都具有很強(qiáng)的性能。當(dāng)網(wǎng)絡(luò)輸入大小為48×48時(shí),融合后的特征在測(cè)試集上的表現(xiàn)最好,錯(cuò)誤率可達(dá)到0.2%,真陽(yáng)性率為99.8%。
表1 不同補(bǔ)丁大小和模態(tài)的實(shí)驗(yàn)結(jié)果
另外,為了防止過(guò)擬合,并驗(yàn)證不同模態(tài)對(duì)不同假體攻擊的有效性,選擇16×16的圖像塊作為網(wǎng)絡(luò)的輸入進(jìn)行實(shí)驗(yàn),在訓(xùn)練過(guò)程中加入一種隨機(jī)擦除任一模態(tài)特征的機(jī)制,隨機(jī)擦除每一批輸入網(wǎng)絡(luò)中不同模態(tài)的訓(xùn)練數(shù)據(jù),然后評(píng)估模型。實(shí)驗(yàn)結(jié)果如表2所示,不難看出當(dāng)訓(xùn)練過(guò)程中隨機(jī)擦除任一模態(tài)的特征時(shí),模型的錯(cuò)誤率會(huì)降低。當(dāng)擦除RGB模態(tài)特征時(shí),融合深度特征與紅外特征的模型能達(dá)到99.5%的真陽(yáng)性率,錯(cuò)誤率降到了0.46,且在PC端的推理速度能達(dá)到30FPS。實(shí)驗(yàn)結(jié)果表明,學(xué)習(xí)不同模態(tài)之間的互補(bǔ)性可以獲得更優(yōu)的結(jié)果。
表2 不同訓(xùn)練策略的實(shí)驗(yàn)結(jié)果
(1)筆者利用自研的RGBD相機(jī)EPC660設(shè)計(jì)了1 200個(gè)具有3種模態(tài)(RGB、深度和紅外)的視頻片段,并提出了一種基于多模態(tài)融合的活體檢測(cè)網(wǎng)絡(luò)框架以充分利用數(shù)據(jù)。網(wǎng)絡(luò)輸入為補(bǔ)丁級(jí)的圖像塊,從不同模態(tài)提取更具辯別性的特征并加以融合,有利于提取局部具有欺騙性的豐富特征信息。實(shí)驗(yàn)結(jié)果表明,多模態(tài)融合可以將錯(cuò)誤率降為0.4%,真陽(yáng)性率達(dá)到99.8%。
(2)為防止過(guò)度擬合并更好地學(xué)習(xí)融合特征,在多模態(tài)特征上設(shè)計(jì)了模態(tài)特征擦除操作,在訓(xùn)練過(guò)程中從一個(gè)隨機(jī)選擇的模態(tài)中擦除特征。實(shí)驗(yàn)結(jié)果表明,模態(tài)擦除操作能夠有效提升真陽(yáng)性率。