孔超
(貴州師范大學(xué),貴陽(yáng)550000)
隨著網(wǎng)絡(luò)的不斷發(fā)展,獲取人臉圖像的難度大大降低,因此人臉識(shí)別系統(tǒng)容易受到各種演示攻擊[1],例如照片、視頻回放或3D 面具。準(zhǔn)確判別捕獲的人臉是真實(shí)人臉還是虛假人臉是人臉識(shí)別系統(tǒng)廣泛應(yīng)用的重要前提。而人臉?lè)雌垓_可應(yīng)用于演示攻擊以檢測(cè)捕獲的人臉的真實(shí)性是人臉識(shí)別系統(tǒng)的重要安全保障。
以往的人臉?lè)雌垓_方法,大多選擇使用人工設(shè)計(jì)的特征,如LBP[1]、HoG、SIFT、SURF 和DoG 來(lái)刻畫(huà)真實(shí)人臉和欺騙人臉的不同特征分布,然后使用分類器(如SVM)來(lái)區(qū)分真實(shí)人臉和虛假人臉。Chingovska 等人從人臉圖像的灰度圖中提取局部二值模式(LBP)特征來(lái)捕獲真實(shí)人臉和虛假人臉之間細(xì)微的差別,并通過(guò)支持向量機(jī)(SVM)來(lái)區(qū)分真實(shí)和虛假人臉。傳統(tǒng)的人臉?lè)雌垓_方法可以在受限環(huán)境(如特定光線、靜態(tài)條件等)中取得很好的效果,但在無(wú)約束條件下性能會(huì)大幅度下降。
最近,基于卷積神經(jīng)網(wǎng)絡(luò)CNN 的方法開(kāi)始應(yīng)用在人臉呈現(xiàn)攻擊檢測(cè)(PAD)領(lǐng)域中。把人臉攻擊檢測(cè)當(dāng)作一個(gè)分類問(wèn)題,將CNN 用作特征提取器,提取鑒別性特征來(lái)區(qū)分真實(shí)和虛假人臉。Liu 等人設(shè)計(jì)了一種新穎的網(wǎng)絡(luò)結(jié)構(gòu),以利用深度圖和rPPG 信號(hào)作為監(jiān)督,目的是提高模型的泛化能力。Feng 等人提出使用多個(gè)線索作為CNN 的輸入進(jìn)行真實(shí)/虛假人臉?lè)诸悺K羞@些方法都證明了通過(guò)自動(dòng)提取訓(xùn)練數(shù)據(jù)中的有用特征,神經(jīng)網(wǎng)絡(luò)可以非常有效地用于人臉?lè)雌垓_。然而,對(duì)于不同模態(tài)數(shù)據(jù)的融合,現(xiàn)有的處理方法主要是多模態(tài)特征簡(jiǎn)單的拼接,沒(méi)有充分利用不同模態(tài)間互補(bǔ)信息。
圖1 提出的多模態(tài)人臉?lè)雌垓_方法的網(wǎng)絡(luò)結(jié)構(gòu)。將RGB、深度、紅外人臉圖像塊同時(shí)送入網(wǎng)絡(luò),并利用自注意力模塊在多模態(tài)特征中選擇對(duì)人臉?lè)雌垓_具有更多貢獻(xiàn)的公共空間區(qū)域,最后利用卷積神經(jīng)網(wǎng)絡(luò)融合三種模態(tài)的特征進(jìn)行分類。
針對(duì)上述問(wèn)題,本文提出了一種基于自注意力網(wǎng)絡(luò)的多模態(tài)特征融合模型。如圖1 所示,首先將從不同模態(tài)的圖像塊中提取的特征通過(guò)通道注意力網(wǎng)絡(luò)選擇有效通道特征后進(jìn)行拼接,并利用自注意力網(wǎng)絡(luò)在拼接后的多模態(tài)特征中選擇對(duì)人臉?lè)雌垓_具有更多貢獻(xiàn)的公共空間區(qū)域,最后用卷積神經(jīng)網(wǎng)絡(luò)融合三種模態(tài)的特征進(jìn)行分類。
圖1
如圖1 所示,對(duì)于輸入數(shù)據(jù),從不同模態(tài)的完整圖像中隨機(jī)選取圖像塊。對(duì)于特征提取,我們采用ResNet-18 分類網(wǎng)絡(luò),其中包括五個(gè)卷積層和殘差層組成的塊(即res1、res2、res3、res4、res5),一個(gè)最大池化層和一個(gè)完全連接層。
這三種模態(tài)的數(shù)據(jù)針對(duì)不同類型攻擊是相輔相成的:RGB 數(shù)據(jù)有豐富的外觀細(xì)節(jié),深度數(shù)據(jù)對(duì)圖像平面和相應(yīng)面部之間的距離很敏感,紅外數(shù)據(jù)能測(cè)量從面部輻射的熱量。根據(jù)通道注意力網(wǎng)絡(luò),我們提出多模態(tài)特征提取網(wǎng)絡(luò)來(lái)提取多模態(tài)的特征。如圖2 所示,首先計(jì)算每個(gè)模態(tài)特征中不同通道的權(quán)重,然后對(duì)輸入特征重新加權(quán),最后將這些重新加權(quán)的特征拼接在一起。與直接拼接來(lái)自不同模態(tài)的特征相比,通道注意力網(wǎng)絡(luò)對(duì)各個(gè)模態(tài)的特征重新加權(quán)以選擇信息量更大的通道特征,同時(shí)抑制來(lái)自各個(gè)模態(tài)的無(wú)用特征。
特定于虛假人臉的區(qū)別信息存在于整個(gè)面部區(qū)域。然而,全臉圖像的不同部分所包含的特定于虛假人臉的區(qū)別信息對(duì)于區(qū)分真實(shí)人臉和虛假人臉具有不同的重要性,并且從一些局部圖像中提取的特征更具區(qū)別性。Brendel 等人從輸入的完整圖像中提取圖像塊特征用于訓(xùn)練,并生成高分辨率和非常精確的熱圖,這種方法在數(shù)據(jù)集上取得了顯著的改進(jìn),通過(guò)生成的熱圖,可以看出圖像的不同部分對(duì)特定決策的貢獻(xiàn)不同。
圖2 通道注意力網(wǎng)絡(luò)的體系結(jié)構(gòu)
圖3 自注意力網(wǎng)絡(luò)的體系結(jié)構(gòu)
由于卷積神經(jīng)網(wǎng)絡(luò)中所有卷積核的大小非常有限,每個(gè)卷積運(yùn)算只能在像素周圍很小的鄰域上執(zhí)行,通過(guò)較遠(yuǎn)的像素捕獲特征變得異常困難,但自注意力網(wǎng)絡(luò)可以直接計(jì)算圖像中任意兩個(gè)像素之間的關(guān)系,獲得圖像的全局幾何特征,然后對(duì)特征圖中需要關(guān)注的空間區(qū)域進(jìn)行加權(quán),使得卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到特征圖中需要關(guān)注的空間區(qū)域。
自注意力網(wǎng)絡(luò)的結(jié)構(gòu)如圖2 所示,自注意力網(wǎng)絡(luò)中的注意力圖I 定義為:
FT表示特征圖像F 進(jìn)行轉(zhuǎn)置。FTG表示計(jì)算全局上下文任意兩個(gè)元素的依賴關(guān)系,從而得到注意力圖。
將得到的注意力圖進(jìn)行歸一化,最后得到的特征圖L 表示為:
IT表示注意力圖I 進(jìn)行轉(zhuǎn)置。P 表示輸入的原始特征圖,α為經(jīng)過(guò)學(xué)習(xí)得到的參數(shù),初始值為0,隨著學(xué)習(xí)的深入,在原始特征圖上增加了加權(quán)的注意力,可以得到特征圖中任意兩個(gè)位置的全局依賴關(guān)系,進(jìn)而可以增加有效空間區(qū)域的權(quán)重。
自注意力網(wǎng)絡(luò)可以直接計(jì)算多模態(tài)拼接特征圖像中任意兩個(gè)像素之間的關(guān)系,得到特征圖像的全局幾何特征,并增加特征圖像中對(duì)區(qū)分真實(shí)人臉和虛假人臉貢獻(xiàn)較大的空間區(qū)域的權(quán)重,使卷積神經(jīng)網(wǎng)絡(luò)提取的多模態(tài)融合特征中包含更多虛假人臉特有的區(qū)別信息,提高模型的分類效果。
CASIA-SURF 數(shù)據(jù)集[11]是目前最大的人臉?lè)雌垓_數(shù)據(jù)集。數(shù)據(jù)集由三種不同的模態(tài)的數(shù)據(jù)組成:RGB、深度和紅外圖像。數(shù)據(jù)集包含1000 個(gè)中國(guó)人錄制的21000 個(gè)視頻,每個(gè)樣本包括1 個(gè)實(shí)時(shí)視頻片段和6 個(gè)不同攻擊方式的假視頻片段。在數(shù)據(jù)集中,將志愿者面部的彩色圖像打印在A4 紙上,并通過(guò)去除眼睛、鼻子和嘴來(lái)組合成6 種不同的攻擊方式。此外,在收集工作期間,僅保留了面部區(qū)域,而刪除了復(fù)雜的背景區(qū)域。數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練、驗(yàn)證和測(cè)試集分別有300、100 和600 個(gè)主題。數(shù)據(jù)集是在不同的室內(nèi)背景下使用Intel RealSense SR300 相機(jī)采集的,其中RGB 圖片分辨率1280×720,深度圖和紅外圖像的分辨率為640×480。它擁有面部反欺騙領(lǐng)域最大的數(shù)據(jù)量,最多的攻擊手段,是最具挑戰(zhàn)性的數(shù)據(jù)集。
為了評(píng)估,我們使用了人臉?lè)雌垓_領(lǐng)域中一些最常用的指標(biāo):攻擊呈現(xiàn)分類錯(cuò)誤率(APCER)、真實(shí)呈現(xiàn)分類錯(cuò)誤率(BPCER)、平均分類錯(cuò)誤率(ACER)、假正率(FPR)和真正率(TPR)。
為了評(píng)價(jià)我們的多模態(tài)融合網(wǎng)絡(luò)的性能,我們將其與其他一些人臉?lè)雌垓_策略進(jìn)行了比較:?jiǎn)纬叨热诤希∟HF)[12]、基于SEF 模塊的單尺度融合(Single-scale fusion)[12]、基于ResNet-18 的多尺度融合(Multi-scale fusion)[11]、基 于ResNet-34 的多尺度融合(Stronger backbone)[11]、多模態(tài)人臉?lè)雌垓_的局部特征模型(Face?BagNet)。
采用32×32 的圖像塊進(jìn)行實(shí)驗(yàn),通過(guò)隨機(jī)梯度下降算法(SGD)和0.1 的初始學(xué)習(xí)率,對(duì)所有模型進(jìn)行了25 輪的訓(xùn)練。
不同方法的比較結(jié)果如表1 所示??梢钥闯鑫覀兎椒ǖ男阅軆?yōu)于其他人臉?lè)雌垓_方法,相對(duì)于同樣采用ResNet-18 的多尺度融合方法我們方法在平均分類錯(cuò)誤率(ACER)上提升了0.5%的性能,在假正率(FPR)為10-4的情況下真正率(TPR)提升了3.2%。即使相對(duì)于采用更復(fù)雜的ResNet-34 網(wǎng)絡(luò)的多尺度融合方法我們方法在平均分類錯(cuò)誤率(ACER)上仍然提升了0.3%的性能,在假正率(FPR)為10-4的情況下真正率(TPR)也提升了0.4%。實(shí)驗(yàn)結(jié)果充分證明了我們方法的優(yōu)越性。
表1 該方法與其他策略的比較,最好結(jié)果加粗
我們研究了通道注意力模塊和自注意力模塊如何影響人臉?lè)雌垓_的模型的性能,我們采用32×32 大小的圖像塊進(jìn)行了一系列消融實(shí)驗(yàn),其中“w.o SEN&SAN”表示有應(yīng)用通道注意力模塊和自注意力模塊?!皐.o SEN”表示沒(méi)有應(yīng)用通道注意力模塊只應(yīng)用了自注意力模塊?!皐.o SAN”表示沒(méi)有應(yīng)用自注意力模塊只應(yīng)用了通道注意力模塊。如表2 所示,自注意力模塊和通道注意力模塊任何一個(gè)的缺失都會(huì)導(dǎo)致模型分類性能的下降。實(shí)驗(yàn)結(jié)果充分證明了通道注意力模塊和自注意力模塊對(duì)于獲得高性能都是至關(guān)重要的。
表2 不同訓(xùn)練策略的比較,最好結(jié)果加粗
本文提出了一種基于自注意力網(wǎng)絡(luò)的多模態(tài)特征融合模型,并將其應(yīng)用于人臉?lè)雌垓_領(lǐng)域。我們將從不同模態(tài)的圖像塊中提取的特征通過(guò)通道注意力網(wǎng)絡(luò)選擇有效通道特征后進(jìn)行拼接,并利用自注意力網(wǎng)絡(luò)在拼接后的多模態(tài)特征中選擇對(duì)人臉?lè)雌垓_具有更多貢獻(xiàn)的公共空間區(qū)域,最后用卷積神經(jīng)網(wǎng)絡(luò)融合三種模態(tài)的特征進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,該方法取得了更好的性能和更高的泛化能力,尤其是平均分類錯(cuò)誤率(ACER)指標(biāo)達(dá)到了0.5%,證明了該方法的優(yōu)越性。并且我們的多模態(tài)融合模塊網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,可以添加到其他神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中提取多模態(tài)融合特征,實(shí)用性強(qiáng),適用性廣。未來(lái),我們將討論更有效的多模態(tài)人臉?lè)雌垓_方法。