◆張超 曹秀蓮 蔡鵑 張樂(lè)冰
(1.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心湖南分中心 湖南 410000;2.懷化學(xué)院 湖南 418000)
隨著人臉識(shí)別技術(shù)的迅速發(fā)展,人臉識(shí)別系統(tǒng)廣泛應(yīng)用于日常生活中,如自動(dòng)邊界控制系統(tǒng)可以通過(guò)自動(dòng)讀旅行證件(eMRTD)輕松驗(yàn)證用戶(hù)的身份[1-2]。然而,最近出現(xiàn)了一種新的針對(duì)人臉識(shí)別系統(tǒng)的欺騙攻擊——人臉融合欺騙攻擊[3]。攻擊的方式如下:首先,由兩幅或多幅真實(shí)人臉圖像生成一幅與融合參與者外觀相似的融合人臉圖像,然后將融合人臉圖像作為身份模板注冊(cè)到人臉識(shí)別系統(tǒng)中,使其能與所有融合參與者匹配,如圖1 所示。這意味著,“罪犯份子”可以用自己的照片與其“協(xié)助者”的照片生成一張人臉融合圖像,以“協(xié)助者”的身份申請(qǐng)合法的eMRTD 或護(hù)照。
圖1 融合人臉示意圖
近年來(lái),已有不少學(xué)者對(duì)人臉融合攻擊下商用人臉識(shí)別系統(tǒng)的安全漏洞進(jìn)行研究。文獻(xiàn)[3-10]提出了一系列融合人臉檢測(cè)方法,然而,上述融合人臉檢測(cè)方法主要面向可控環(huán)境,對(duì)非受控場(chǎng)景的應(yīng)用缺乏足夠的泛化能力,在不同圖像質(zhì)量應(yīng)用環(huán)境下的穩(wěn)定性與魯棒性較差。為此,本文提出了一種抗噪聲的融合人臉檢測(cè)方案,它采用端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用卷積自動(dòng)編碼網(wǎng)絡(luò)生成去噪人臉圖像,并通過(guò)融合人臉鑒別網(wǎng)絡(luò)對(duì)去噪人臉圖像進(jìn)行人臉融合攻擊檢測(cè),提高了融合人臉檢測(cè)算法的魯棒性。
目前,人臉融合欺騙攻擊取證的相關(guān)研究尚處于起步階段,有關(guān)人臉融合攻擊的研究主要集中在人臉識(shí)別系統(tǒng)對(duì)人臉融合攻擊的脆弱性和融合人臉檢測(cè)方法兩個(gè)方面。
Ferrera 等人最早對(duì)人臉融合攻擊進(jìn)行了研究[3],通過(guò)使用軟件生成與多人相似的融合人臉圖像,使其與人臉識(shí)別系統(tǒng)中的多人相匹配。然而,該文中的融合人臉圖像采用手動(dòng)方式生成,不適合大批量的生成融合人臉圖像來(lái)驗(yàn)證人臉識(shí)別系統(tǒng)的脆弱性。隨后,Andrey 等人提出了一種自動(dòng)融合人臉生成技術(shù)[5],利用該技術(shù)可以快速、自動(dòng)、大批量的生成融合人臉圖像,不僅肉眼無(wú)法區(qū)分其真?zhèn)?,并且?guī)缀蹩梢酝昝榔垓_商用人臉識(shí)別系統(tǒng)Luxand FaceSDK 6.1。同時(shí),Robertson等人研究了偽造身份證件的潛在方法[7],他們認(rèn)為在實(shí)際應(yīng)用場(chǎng)景中完全可以通過(guò)融合人臉圖像來(lái)偽造身份。文獻(xiàn)[8,9]中提出了一些評(píng)價(jià)指標(biāo)來(lái)評(píng)估生物識(shí)別系統(tǒng)在人臉欺騙攻擊下的安全性。此外,Wandzik 等人研究了基于深度學(xué)習(xí)的人臉識(shí)別系統(tǒng)面對(duì)人臉融合攻擊時(shí)系統(tǒng)的脆弱性[10],證明了人臉融合攻擊可以輕易地欺騙這些基于深度學(xué)習(xí)的人臉識(shí)別系統(tǒng),極大的威脅了基于深度學(xué)習(xí)的人臉識(shí)別系統(tǒng)的安全性。因此,針對(duì)融合人臉攻擊的檢測(cè)逐漸成為生物識(shí)別系統(tǒng)安全領(lǐng)域的一個(gè)研究熱點(diǎn)。
現(xiàn)有融合人臉檢測(cè)方法按照是否使用輔助圖像可分為盲檢測(cè)和非盲檢測(cè)兩類(lèi)方法。目前大多數(shù)人臉融合欺騙攻擊檢測(cè)方法 都屬于盲檢測(cè)方法。
(1)融合人臉盲檢測(cè)方法
人臉融合欺騙攻擊的盲檢測(cè)方法主要側(cè)重于捕捉融合人臉圖像與真實(shí)人臉圖像之間的差異,適用于在線(xiàn)電子護(hù)照申請(qǐng)或人臉識(shí)別系統(tǒng)注冊(cè)時(shí)對(duì)人臉融合欺騙攻擊進(jìn)行檢測(cè)??紤]到融合人臉圖像和真人臉圖像之間的紋理差異,Raghavendra 等人最早提出了一種融合人臉自動(dòng)檢測(cè)方法[6],該方法利用二值統(tǒng)計(jì)圖像特征(BSIF)來(lái)表示融合人臉圖像和真實(shí)人臉圖像之間的紋理差異。由于融合人臉圖像通常是由真實(shí)人臉的JPEG 圖像生成的,并以JPEG 格式存儲(chǔ),這會(huì)導(dǎo)致融合人臉圖像質(zhì)量的下降和“JPEG 偽影”效應(yīng)。因此,Andrey 等人[5]和Hildebrandt 等人[11]分別提出了基于JPEG圖像質(zhì)量特征的融合人臉檢測(cè)算法,通過(guò)從量化的DCT 系數(shù)中提取Benford 特征檢測(cè)融合人臉圖像。Kraetzer 等人[12]使用八個(gè)關(guān)鍵點(diǎn)/邊緣算子來(lái)表示人臉圖像經(jīng)過(guò)融合后的圖像退化效果。類(lèi)似的,T.Neubert[13]提出了一種基于JPEG圖像的連續(xù)壓縮退化的融合人臉檢測(cè)算法。
Raghavendra 等人[14]提出了一種基于AlexNet 和VGG 網(wǎng)絡(luò)的深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)數(shù)字/打印-掃描融合人臉圖像的檢測(cè)。隨后,C.Seibold 等人[15]分別考察了AlexNet、VGG 和GoogleNet 三種典型網(wǎng)絡(luò),并證明預(yù)訓(xùn)練的VGG19 網(wǎng)絡(luò)[16]比其他兩種網(wǎng)絡(luò)在融合人臉的檢測(cè)中能夠取得更好的效果。
此外,受到圖像來(lái)源取證思想的啟發(fā)[17-18],文獻(xiàn)[19]提出了一種基于傳感器模式噪聲統(tǒng)計(jì)量化特征的融合人臉檢測(cè)算法。與此同時(shí),L.Debiasi 等人[20]使用傳感器模式噪聲頻譜直方圖的統(tǒng)計(jì)特征進(jìn)行了融合人臉檢測(cè)。
(2)融合人臉?lè)敲z測(cè)方法
Ferrara 等人[21]使用人臉識(shí)別系統(tǒng)獲得的輔助圖像和生物特征護(hù)照中顯示的面部(融合)圖像,采用融合人臉生成逆運(yùn)算的方式實(shí)現(xiàn)對(duì)人臉融合攻擊協(xié)助者的面部圖像恢復(fù)。文獻(xiàn)[22]中提出了一種基于對(duì)抗生成網(wǎng)絡(luò)的人臉融合攻擊協(xié)助者溯源的方法,較好地實(shí)現(xiàn)了人臉融合攻擊協(xié)助者的面部圖像重建。
基于以上分析,可以發(fā)現(xiàn)盡管融合人臉攻擊檢測(cè)的研究雖然取得了一定的進(jìn)展,形成了一些檢測(cè)體系,但總體來(lái)說(shuō)仍處于起步階段,距離商業(yè)化、實(shí)用化的階段甚至為司法機(jī)構(gòu)提供可靠的法律證據(jù)還有很大的差距,仍然存在許多問(wèn)題亟須解決。而且現(xiàn)有的融合人臉攻擊檢測(cè)方法多是在可控環(huán)境下進(jìn)行測(cè)試的,對(duì)非受控場(chǎng)景的應(yīng)用缺乏足夠的泛化能力,在不同圖像質(zhì)量的應(yīng)用環(huán)境下缺乏較好的穩(wěn)定性與魯棒性。因此,在實(shí)際應(yīng)用中如何提高融合人臉檢測(cè)方法抵抗噪聲的干擾是提高人臉識(shí)別系統(tǒng)穩(wěn)定性的重要問(wèn)題。為此,本文提出了一種噪聲魯棒的融合人臉檢測(cè)方法。
為了抑制噪聲對(duì)融合人臉檢測(cè)的影響,提高檢測(cè)方法對(duì)各類(lèi)噪聲的魯棒性,本文方法增加了去躁過(guò)程,首先對(duì)噪聲人臉圖像進(jìn)行自適應(yīng)去噪,然后再對(duì)去噪后的人臉圖像進(jìn)行融合人臉檢測(cè),其體系結(jié)構(gòu)如圖2 所示,由自適應(yīng)去噪網(wǎng)絡(luò)和融合人臉鑒別網(wǎng)絡(luò)兩個(gè)部分組成。
圖2 噪聲魯棒融合人臉檢測(cè)框架
其中,自適應(yīng)去噪網(wǎng)絡(luò)由編碼網(wǎng)絡(luò)EN 和解碼網(wǎng)絡(luò)DN 兩部分組成。
本文提出的噪聲魯棒融合檢測(cè)框架包含了一個(gè)自適應(yīng)去噪網(wǎng)絡(luò),采用噪聲魯棒無(wú)監(jiān)督學(xué)習(xí)技術(shù)。自適應(yīng)去噪網(wǎng)絡(luò)由編碼網(wǎng)絡(luò)EN 和解碼網(wǎng)絡(luò)DN 兩部分組成。編碼網(wǎng)絡(luò)EN 和解碼網(wǎng)絡(luò)DN 的結(jié)構(gòu)分別如表1、表2 中所示。
表1 編碼網(wǎng)絡(luò)結(jié)構(gòu)
表2 解碼網(wǎng)絡(luò)結(jié)構(gòu)
給定含噪的人臉圖像I,編碼網(wǎng)絡(luò)EN 用于提取I的身份特征,解碼網(wǎng)絡(luò)DN 用于生成無(wú)噪的人臉圖像。為了有效地抑制I中的噪聲,在訓(xùn)練階段提供I 的輔助圖像(無(wú)噪聲)I0。從而使生成的無(wú)噪聲面部圖像盡可能接近輔助圖像I0。這里,采用損失,自適應(yīng)去噪網(wǎng)絡(luò)的損失定義為:
自適應(yīng)去噪網(wǎng)絡(luò)生成的去噪面部圖像如圖3 所示,通過(guò)采用自動(dòng)編碼器結(jié)構(gòu),自適應(yīng)去噪網(wǎng)絡(luò)可以有效地去除人臉圖像中的噪聲并生成去噪后的人臉圖像。
圖3 自適應(yīng)去噪圖像的示意圖
對(duì)噪聲人臉圖像進(jìn)行自適應(yīng)去噪后,采用融合人臉鑒別網(wǎng)絡(luò)進(jìn)行融合人臉檢測(cè)。本文方法采用了分類(lèi)效果較好的VGG19[16]網(wǎng)絡(luò),卷積層使用3×3 卷積核,包括一個(gè)前置層和一個(gè)后繼層。同時(shí),將網(wǎng)絡(luò)最后一個(gè)完全連接層上的輸出轉(zhuǎn)換為1×2 大小的向量,以區(qū)分圖像是真實(shí)圖像還是融合人臉圖像。
由于目前尚無(wú)公開(kāi)的融合人臉數(shù)據(jù)庫(kù),本文創(chuàng)建了一個(gè)含噪聲的融合人臉數(shù)據(jù)庫(kù)。為確保數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集和測(cè)試集中受試者的不相關(guān)性,本文在訓(xùn)練集、驗(yàn)證集和測(cè)試集中獨(dú)立生成了大量的融合人臉圖像。每個(gè)子集均按照文獻(xiàn)[5]中提出的框架自動(dòng)生成兩種類(lèi)型的融合人臉圖像(整體融合圖像和拼接融合圖像),并在此基礎(chǔ)上生成了四類(lèi)含噪人臉圖像(密度0.01 的椒鹽噪聲、密度0-0.3 的均勻噪聲、標(biāo)準(zhǔn)差0.01 高斯噪聲和均值0.15 標(biāo)準(zhǔn)差0.08 的瑞利噪聲)如圖4 所示。
圖4 四類(lèi)含噪融合人臉示意圖(左半臉為無(wú)噪聲人臉,右半臉為含噪人臉)
最終創(chuàng)建的融合人臉數(shù)據(jù)庫(kù)中共包含了9004 幅含噪真實(shí)人臉圖像、6864 幅含噪整體融合人臉圖像和7312 幅含噪拼接融合人臉圖像,詳細(xì)信息如表3 所示。
表3 含噪聲融合人臉數(shù)據(jù)庫(kù)概況(在各類(lèi)噪聲情況下)
在實(shí)驗(yàn)中,我們選擇ISO/IEC 度量標(biāo)準(zhǔn)[23],即真實(shí)呈現(xiàn)分類(lèi)錯(cuò)誤率(BPCER)和攻擊呈現(xiàn)分類(lèi)錯(cuò)誤率(APCER),以評(píng)估檢測(cè)性能,并以平均分類(lèi)錯(cuò)誤率(ACER)來(lái)衡量對(duì)含噪融合人臉?lè)椒ㄔ跍y(cè)試集中的總體檢測(cè)性能。
通過(guò)將本文方法與當(dāng)前一些典型的融合人臉檢測(cè)方法進(jìn)行比較,如基于紋理特征的方法[6]、基于JPEG 壓縮特征的方法[12-13]、基于SPN的方法[19-20]和基于深度學(xué)習(xí)的方法[15],實(shí)驗(yàn)結(jié)果證明了本文方法的良好性能。
相關(guān)融合人臉檢測(cè)方法在四種噪聲下的性能如表4-表7 所示。顯然,在不同噪聲干擾下,本文提出的方法均可以獲得更好的ACER。在不同噪聲干擾(高斯噪聲、均勻噪聲、椒鹽噪聲和瑞利噪聲)和不同類(lèi)型的融合人臉融合(整體融合和拼接融合)下,本文方法的ACER通常比其他方法低50%。例如,在高斯噪聲、拼接融合等情況下,本文提出的方法的ACER 為11.08%。它比次優(yōu)結(jié)果方法[15]的錯(cuò)誤率低了53.52%。
表4 高斯噪聲下各檢測(cè)方法性能比較 (%)
表5 均勻噪聲下各檢測(cè)方法性能比較 (%)
表6 椒鹽噪聲下各檢測(cè)方法性能比較 (%)
表7 瑞利噪聲下各檢測(cè)方法性能比較 (%)
圖5—8 顯示了四種類(lèi)型噪聲下不同融合人臉檢測(cè)方法檢測(cè)誤差折衷(DET)曲線(xiàn),結(jié)果同樣表明本文提出的方法具有最佳檢測(cè)性能。
圖5 高斯噪聲下不同檢測(cè)方法的DET 曲線(xiàn)
圖6 均勻噪聲下不同檢測(cè)方法的DET 曲線(xiàn)
圖7 椒鹽噪聲下不同檢測(cè)方法的DET 曲線(xiàn)
圖8 瑞利噪聲下不同檢測(cè)方法的DET 曲線(xiàn)
此外,在實(shí)際檢測(cè)環(huán)境中,未知類(lèi)型的噪聲可能會(huì)影響融合人臉檢測(cè)方法的性能。因此,單類(lèi)噪聲測(cè)試可能無(wú)法準(zhǔn)確反映實(shí)際情況。為了測(cè)試該方案的泛化能力,本文還進(jìn)行了跨噪聲評(píng)估。它在一類(lèi)含噪人臉圖像上進(jìn)行訓(xùn)練,在另一類(lèi)含噪人臉圖像上進(jìn)行測(cè)試。在跨噪聲下的拼接融合攻擊檢測(cè)的結(jié)果如表8 所示。
表8 四類(lèi)噪聲下的跨噪聲檢測(cè)ACER 性能比較(%)
由表8 可以看出,本文提出的方法在跨噪聲檢測(cè)中效果最佳。例如,以含高斯噪聲的人臉圖像作為訓(xùn)練集,使用含椒鹽噪聲、均勻噪聲和瑞利噪聲的人臉圖像作為測(cè)試數(shù)據(jù)集時(shí),本文所提出的方法的ACER 分別為8.42%、8.81%和9.64%。這比其他的次優(yōu)方法的結(jié)果錯(cuò)誤率分別降低了71.97%、62.27%,67.96%。
值得注意的是,某些方法的ACER 為50%,是由于這些方法的APCER/BPCER 為100%,而對(duì)應(yīng)的BPCER/APCER 為0%。意味著在這些方法中,所有測(cè)試人臉圖像(真實(shí)人臉圖像和變形人臉圖像)都被錯(cuò)誤分類(lèi)為真實(shí)人臉圖像(或變形人臉圖像),即這些方法在跨類(lèi)型噪聲情況下是無(wú)效的。
實(shí)驗(yàn)結(jié)果和分析表明,本文提出的檢測(cè)方案較傳統(tǒng)的基于紋理特征的方法[6]、基于JPEG 壓縮特征的方法[12-13]、基于SPN 的方法[19-20]和基于深度學(xué)習(xí)的方法[15]能顯著降低各類(lèi)噪聲對(duì)融合人臉檢測(cè)的影響,提高了檢測(cè)的魯棒性。
本文提出了一種新的噪聲魯棒的融合人臉檢測(cè)方法,采用端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由自適應(yīng)去噪網(wǎng)絡(luò)和融合鑒別網(wǎng)絡(luò)組成,可以有效地抑制噪聲對(duì)人臉融合攻擊檢測(cè)的影響。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本文提出的融合人臉檢測(cè)方案對(duì)噪聲具有較強(qiáng)的魯棒性。今后我們將致力于更復(fù)雜的自適應(yīng)去噪網(wǎng)絡(luò)的研究,使其能抵御多種噪聲的干擾,并進(jìn)一步研究含打印/掃描噪聲的人臉融合攻擊檢測(cè)方法。