皮家甜 ,楊杰之,楊琳希,彭明杰,鄧 雄,趙立軍,唐萬梅,吳至友
(1.重慶師范大學計算機與信息科學學院,重慶 401331;2.重慶市數(shù)字農(nóng)業(yè)服務工程技術研究中心(重慶師范大學),重慶 401331;3.智慧金融與大數(shù)據(jù)分析重慶市重點實驗室(重慶師范大學),重慶 401331;4.重慶師范大學數(shù)學科學學院,重慶 401331)
(?通信作者電子郵箱1093895431@qq.com)
人臉識別技術現(xiàn)今已被廣泛使用,人臉活體檢測是提高人臉識別安全性的重要方法。人臉活體檢測是指系統(tǒng)會根據(jù)攝像頭捕捉到的人臉去辨別其是否為活體狀態(tài),通??梢暈槎诸悊栴}。傳統(tǒng)方法常在提取人臉圖像中的以局部二值模式(Local Binary Pattern,LBP)呈現(xiàn)的紋理特征以及色調(diào)、飽和度和明度(Hue,Saturation,Value;HSV)顏色空間等手工設計特征后,利用機器學習等方法去分辨真實人臉和假人臉。文獻[1]提取人臉圖像灰度化后的紋理特征進行真假臉的判斷,文獻[2]利用HSV 與LBP 特征的融合來進行活體檢測。雖然這類方法易實現(xiàn),具有一定屏蔽光照的影響且計算量少,能從單張圖片中預測結(jié)果,但對于一些低分辨率特征,準確率和魯棒性均較低。這要求輸入圖像的質(zhì)量足夠高才能給出精確的判斷。
近年來,深度學習占據(jù)了活體檢測的主導地位,通過搭建多層卷積神經(jīng)網(wǎng)絡篩選高層語義的特征來辨別目標是否為活體。文獻[3]利用十三層網(wǎng)絡從RGB 圖像中抽取特征進行訓練以判別活體真?zhèn)?,但是該方法采用?shù)據(jù)集的總量少、攻擊形式過于單一,導致網(wǎng)絡泛化能力弱。文獻[4]提出了運用多模態(tài)融合特征網(wǎng)絡FaceBagNet,通過訓練CASIA-SURF 數(shù)據(jù)集,在TPR@FPR=10E-4 指標上達到了99%的效果,但網(wǎng)絡模型參數(shù)巨大。文獻[5]分別采用18層、34層、50層的殘差網(wǎng)絡做人臉活體檢測,雖然在準確率上都有著良好的效果,但是該模型在實際應用中并不具備實時性。
深度學習模型普遍有著龐大的計算量,意味著需要更優(yōu)良的設備,如圖形處理器(Graphics Processing Unit,GPU)、張量處理器(Tensor Processing Unit,TPU)等。隨著智能移動端的發(fā)展,將深度學習模型嵌入至移動端設備成為了現(xiàn)如今的業(yè)界的需求,國內(nèi)外研究者們提出了一系列降低卷積神經(jīng)網(wǎng)絡計算量的方法,如:Howard 等研究者提出MobileNet[6]和MobileNetV2[7]以及MobileNetV3[8]用于移動端的輕量級卷積神經(jīng)網(wǎng)絡。Iandola 等[9]研究者提出SqueezeNet,利用FireModule 模塊降低卷積神經(jīng)網(wǎng)絡的參數(shù)量;但是SqueezeNet模型過于輕量,這種加寬網(wǎng)絡的方法并不能夠為人臉活體檢測帶來優(yōu)良的效果。對于輕量級活體檢測的研究,Zhang等[10]研究者提出了輕量級網(wǎng)絡FeatherNet,用人臉的深度圖作為訓練數(shù)據(jù),同時采取融合與級聯(lián)的方式來提高準確率;雖然FeatherNet 是輕量級的網(wǎng)絡,但是單個信息具有一定的局限性,雖然采用融合與級聯(lián)的方式來提高準確率,但是算法的時間復雜度又增長了不少,導致識別活體的時間變得較長。
為了減少網(wǎng)絡的計算量,同時保證網(wǎng)絡精度,本文提出了一種基于MobileNetV3 的活體檢測模型,并優(yōu)化了網(wǎng)絡結(jié)構(gòu),利用人臉的深度特征與顏色紋理特征的互補性,將人臉的深度信息與RGB 圖同時作為網(wǎng)絡輸入,并在網(wǎng)絡訓練中進行特征融合,將網(wǎng)絡的全局平均池化(Global Average Pooling,GAP)用Streaming Module 代替,在網(wǎng)絡的底層采用1×1 的卷積替代全連接層,以此降低參數(shù)量。在確?;铙w檢測速度提升的同時不降低活體檢測的精度,實驗結(jié)果表明本文方法具有良好的檢測效果。
基于單幀人臉的活體檢測一直是靜默活體檢測中最主要的方式,特征的豐富程度會決定著網(wǎng)絡的魯棒性。隨著卷積神經(jīng)網(wǎng)絡的發(fā)展,融合的方法也在網(wǎng)絡中更加容易實現(xiàn),融合方法有決策層的決策級融合,還有卷積層的特征級融合,決策融合的優(yōu)勢在于當Softmax 做決策分類時,將多個決策結(jié)果進行權(quán)衡得到最終輸出,其缺點在于若是多個結(jié)果差別巨大,則準確結(jié)果不容易獲得。根據(jù)文獻[11]指出特征級融合可分為:“高層融合”“中層融合”和“底層融合”?!案邔尤诤稀奔刺卣鲌D于網(wǎng)絡的高層進行融合,會提高網(wǎng)絡的泛化性,但是會帶來信息丟失,從而導影響判別的精度?!暗讓尤诤稀奔慈诤宵c位于輸入層,優(yōu)點在于保留了原始的數(shù)據(jù),缺點在于原始數(shù)據(jù)中同時也包含了冗余數(shù)據(jù),特征過早的融合也會帶來龐大的計算量,不利于網(wǎng)絡訓練?!爸袑尤诤稀奔慈诤宵c位于網(wǎng)絡中層,既保留了網(wǎng)絡的原始數(shù)據(jù),同時也能夠提升網(wǎng)絡的泛化能力?;谏鲜龇治?,本文采用“中層融合”的方式作為網(wǎng)絡的主要框架,本文活體檢測模型如圖1所示。
MoibileNetV3 網(wǎng)絡結(jié)構(gòu)綜合了以下三種網(wǎng)絡思想:MobileNetV1的深度可分離卷積,MobileNetV2的具有線性瓶頸的逆殘差結(jié)構(gòu),以及MnasNet 的基于SE(Squeeze and Excitation)[12]結(jié)構(gòu)的輕量級注意力機制。MobileNetV3 是自動機器學習算法NAS(Network Architecture Search)[13]以及NetAdapt算法[14]生成。激活函數(shù)采用的是HS(H-Swish),分別替換了修正線性單元(Rectified Linear Unit,ReLU)(簡稱RE)以及Sigmoid,使用Swish 函數(shù)能夠增加網(wǎng)絡的精度但是也會帶來龐大的計算量,因此H-Swish 激活函數(shù)成為MobileNetV3的另一個核心思想。H-Swish激活函數(shù)的計算式如式(1)所示。
1.2.1 瓶頸層優(yōu)化
瓶頸層最早由He 等[15]提出,Bottleneck(Bneck)不同于傳統(tǒng)的3×3 卷積層以及池化層,瓶頸層由1×1、3×3 和1×1卷積構(gòu)成:第一個1×1的卷積是為了匹配通道數(shù);第二個3×3 的卷積通過降低特征圖通道數(shù)來達到在通道低維空間中進一步學習;最后又通過1×1的卷積還原通道數(shù)。這樣做有利于網(wǎng)絡更高效的傳播,同時還會降低網(wǎng)絡的計算量。MobileNetV3 在這樣的結(jié)構(gòu)基礎上加以改進:首先,通過設置一個擴張因子,將輸入的網(wǎng)絡通道乘以擴張因子得到了第一個1×1卷積核的個數(shù);其次,將中間3×3的卷積換成了5×5的深度可分離卷積;接下來的1×1卷積用線性激活函數(shù)替代原來的ReLU 激活函數(shù);最后,整個瓶頸層加入了殘差連接防止梯度爆炸導致精度丟失。由于MobileNetV3 在瓶頸層沒有池化的操作,因此本文在MobileNetV3上在旁路連接中加上了1×1 的卷積和一個平均池化層的操作對特征進行細粒度的提取,這樣能夠保證在特征尺寸下降的過程中進一步地篩選特征,實驗結(jié)果表明,該方法能夠提高準確率,降低損失。在MobileNetV3的注意力機制中,本文通過降低注意力機制模塊中的全連接層的神經(jīng)元個數(shù)來降低模型的參數(shù)量,SE 模塊通過學習的方式來自動獲取每個特征通道的重要程度,然后依照特征的重要程度去提升有用的特征并抑制對當前任務用處不大的特征。改進前后的瓶頸層如圖2所示。
圖2 瓶頸層的改進Fig.2 Improvement of bottleneck layer
1.2.2 多模態(tài)特征融合
訓練數(shù)據(jù)集D可以描述為:
其中:xi、di分別為預處理后放入CNN 的RGB 圖以及深度圖;yi(yi∈RM)為圖像的標簽,由one-hot編碼組成,M為樣本的標簽數(shù)量;gD(di,θD)為深度輸入圖經(jīng)過第二個瓶頸層前向傳播的結(jié)果,為待更新的參數(shù)。
訓練單種特征圖像表達式如下:
其中:WD為softmax層的權(quán)重;L為交叉熵損失函數(shù)。L表達式如下:
經(jīng)實驗后發(fā)現(xiàn)僅憑深度單輸入網(wǎng)絡的特征是不夠的,所以網(wǎng)絡需要多模態(tài)的特征。
在活體識別任務中本文采用了兩種圖像特征:第一種是RGB圖,是由RealSense SR300的RGB攝像頭采集的三通道圖像;第二種是由RealSense SR300 的深度攝像頭采集的單通道圖像。RGB 圖能夠描述物體的輪廓、顏色以及部分紋理的信息,而深度圖能夠描述物體的形狀、尺度以及空間幾何的信息,因此兩種特征的圖像具備互補性。兩種圖像采用特征融合的方式,對于CQNU-LN 以及CASIA-SURF 數(shù)據(jù)集,輸入圖像是112×112×3的RGB 圖像和112×112×1的深度圖像。由于本文采用的“中層融合”,所以特征圖在經(jīng)過2個瓶頸層之后進行融合,從而令gI(di,θI)為RGB圖經(jīng)過第二個瓶頸層前向傳播的結(jié)果,di為經(jīng)過預處理后的人臉RGB圖像,表達式如下:
其中θ為特征融合后的參數(shù),所以RGB-D 多模態(tài)特征融合后的表達式如下:
1.2.3 Streming Module
全局平均池化(GAP)被許多目標檢測網(wǎng)絡采用,比如ResNet[15]、DenseNet[16]、MobileNetV2、ShuffleNet[17-18]系列,它能夠降低特征圖維度和防止過擬合,并且能夠有效地抑制計算量,但是在人臉相關的任務中,全局平均池化對準確性卻容易造成負面影響,人臉圖像不同于一般的目標檢測圖像,中心區(qū)域應該比邊緣區(qū)域享有更高的權(quán)重,全局平均池化是無法做區(qū)域權(quán)重區(qū)分的。能夠做到區(qū)域權(quán)重區(qū)分的其中一個方案是用全連接層來代替全局平均池化,為了網(wǎng)絡的預測功能達到實時性,全連接層的使用會導致參數(shù)大量的增加并且也會讓網(wǎng)絡增加過擬合的風險,所以網(wǎng)絡底部的全連接層不利于用作人臉活體檢測模型。
Chen 等[19]設計的Streaming Module 保證了網(wǎng)絡輕量化并且對區(qū)域權(quán)重進行區(qū)分,本文采用Streaming Module 來代替?zhèn)鹘y(tǒng)的全局平均池化層或者全連接層。Streaming Module 由一個全局深度可分離卷積(Global Depth Convolution,GDConv)和1×1 的卷積層組成,經(jīng)過GDConv 網(wǎng)絡后特征圖會變?yōu)橐粋€1×1 的特征圖,最后通過1×1 卷積進行線性激活作為特征輸出層。GDConv的計算過程為:
其中:F為輸入的特征圖,它的尺寸是W×H×M,W、H和M分別為特征圖的寬度、高度及通道數(shù);K為尺寸為W×H×M的GDConv;Gm為經(jīng)過GDConv再通過Flatten后的大小為1×1的特征圖。最終分類層上令Gm通過2 個1×1 的卷積并用Softmax激活,從而達到真假分類的目的。Streaming Module 如圖3 所示,改進后模型的結(jié)構(gòu)如表1 所示。Streaming Module的計算量為W×H×M×1×1×2。
圖3 Streaming Module結(jié)構(gòu)Fig.3 Structure of Streaming Module
表1 改進后模型的結(jié)構(gòu)Tab.1 Improved model structure
針對大多數(shù)公開的活體檢測數(shù)據(jù)集只包含了RGB 人臉圖像的情況,若是訓練只含RGB 的圖像模型在測試時精度不高,而Zhang 等[20]所制作的人臉活體檢測數(shù)據(jù)庫CASIA-SURF收集了1 000 張人臉,由Intel RealSense SR300 采集的21 000個視頻中提取,每個樣本均有RGB、深度以及紅外(Infrared Radiation,IR)模態(tài),在這些視頻中共裁剪出492 522 張人臉RGB、深度、紅外圖像。提取到的人臉圖像通過人臉重建網(wǎng)絡(Position map Regression Network,PRNet)以及貼上掩碼的操作進行預處理,讓人臉以外的部分全為黑色。整個數(shù)據(jù)集分為訓練集、驗證集以及測試集。CASIA-SURF 主要有如下6種欺詐手段:
1)展平的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來。
2)彎曲的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來。
3)展平的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來。
4)彎曲的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來。
5)展平的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來。
6)彎曲的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來。
本文選取了CASIA-SURF 自主劃分的訓練集作為主要的數(shù)據(jù)集,在實驗中將IR 圖剔除,首先在訓練集中按照固定的隨機數(shù)種子隨機選取25%同順序的RGB 和Depth數(shù)據(jù)作為驗證與測試的集合;其次在驗證與測試的集合中按同樣的方式隨機選取60%的測試集,剩下40%作為驗證集,所以訓練集、測試集以及驗證集所占比例為0.75∶0.15∶0.1,并且驗證集在訓練過程中做交叉驗證,實時觀測模型有無過擬合。實驗中取每個epoch 在驗證集上的準確率作為模型是否過擬合的觀測指標。
雖然CASIA-SURF 數(shù)據(jù)集樣本足夠豐富,但是僅局限于打印的人臉,實際應用中欺騙的手段遠不止這些,電子屏的欺騙是現(xiàn)如今最常見的欺騙攻擊手段,因此本文在CASIASURF的基礎上,采集了全新的數(shù)據(jù)集CQNU-LN。
CQNU-LN 數(shù)據(jù)集由Intel Realsense SR300 采集RGB 以及深度視頻,由提供數(shù)據(jù)的志愿者面對鏡頭做上、下、左、右,以及順時針和逆時針的頭部活動,攝像頭有效采集人臉的范圍為0.2 m 至1 m,超出范圍則視為無效數(shù)據(jù)。視頻通過RealSense SDK 操作將分辨率為640×480的RGB 視頻以及深度視頻對齊。
提取人臉的方法采用SSD(Single Shot MultiBox Detector)檢測算法[21],在RGB 視頻中截取人臉將人臉面部作為感興趣區(qū)域(Region Of Interests,ROI),記錄RGB 人臉的坐標同時在深度視頻中根據(jù)坐標提取深度視頻人臉。
CQNU-LN 包含了12 個樣本,每個樣本有4 個視頻?;贑ASIA-SURF 對打印人臉的采集,本文在打印攻擊手段中添加了6 種方式,同時將電子屏的攻擊手段也作為假集的一部分,所以CQNU-LN有如下攻擊手段:
1)展平的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來。
2)彎曲的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來。
3)展平的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來。
4)彎曲的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來。
5)展平的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來。
6)彎曲的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來。
7)展平的打印的照片其中去除眼睛、鼻子區(qū)域,使真人的眼睛、鼻子裸露出來。
8)彎曲的打印的照片其中去除眼睛、鼻子區(qū)域,使真人的眼睛、鼻子裸露出來。
9)展平的打印的照片其中去除眼睛、嘴巴區(qū)域,使真人的眼睛、嘴巴裸露出來。
10)彎曲的打印的照片其中去除眼睛、嘴巴區(qū)域,使真人的眼睛、嘴巴裸露出來。
11)展平的打印的照片其中去除鼻子、嘴巴區(qū)域,使真人的鼻子、嘴巴裸露出來。
12)彎曲的打印的照片其中去除鼻子、嘴巴區(qū)域,使真人的眼睛、嘴巴裸露出來。
13)展平的打印的照片其中去除眼睛、鼻子、嘴巴區(qū)域,使真人的眼睛、鼻子、嘴巴裸露出來。
14)彎曲的打印的照片其中去除眼睛、鼻子、嘴巴區(qū)域,使真人的眼睛、鼻子、嘴巴裸露出來。
15)將錄制的真實人臉視頻保存在ipad、iphone 以及擁有2K高分辨率顯示器的計算機上,作為攻擊手段。
實驗中共有48 498 張RGB 與Depth 人臉圖像,采用與2.1 節(jié)相同的方式對數(shù)據(jù)集進行劃分,其中10%作為驗證集,15% 作為測試集。在對比實驗中,本文采用多模態(tài)ResNet18[15]、VGG-6(輕量級)、FeatherNetA[10]、FeatherNetB[10]、ShuffleNetV1[18]、ShuffleNetV2[17]以及MobileNetV3 這7 個不同的卷積神經(jīng)網(wǎng)絡與本文方法進行對比,其中ResNet18 采用文獻[20]所提的人臉活體檢測方式,將文中所提的ResNet18 在Keras 框架中復現(xiàn)。本文將輕量級人臉活體檢測網(wǎng)絡FeatherNetA[10]和FeatherNetB[10]改為多模態(tài)特征融合的形式進行對比實驗。各模型在CASIA-SURF 以及CQNU-LN 數(shù)據(jù)集上交叉驗證中以驗證集在每輪訓練中的準確率作為指標進行采集,如圖4 所示。本文方法在模型訓練過程中相較其他方法,雖然準確率相差不大但是在訓練中呈現(xiàn)的趨勢更加穩(wěn)定。實驗結(jié)果如表2~3 所示,本文方法在CQNU-LN 以及CASIA-SURF數(shù)據(jù)集上有著更高的準確率。
表2 CASIA-SURF數(shù)據(jù)集驗證結(jié)果對比Tab.2 Comparison of verification results on CASIA-SURF dataset
由于模型在3D的攻擊手段中不具備泛化能力,所以采集了一批由醫(yī)學腦部CT 圖像所建模的3D 頭模、頭套以及面具,針對光照對于模型影響,在采集CQNU-3Dmask 時,納入三種光線條件,即:普通光照,亮光照以及暗光照情況,如圖5 所示。表4為本文實驗所用到數(shù)據(jù)集的相關統(tǒng)計。
表3 CQNU-LN數(shù)據(jù)集驗證結(jié)果對比Tab.3 Comparison of verification results on CQNU-LN dataset
圖5 CQNU-3Dmask數(shù)據(jù)采集形式Fig.5 CQNU-3Dmask data acquisition forms
表4 實驗所用數(shù)據(jù)集信息Tab.4 Information of datasets used in experiments
實驗的硬件環(huán)境如下:CPU 為Intel Xeon,內(nèi)存為62.8 GB;顯卡為Titan XP,顯存為12 GB;實驗編程環(huán)境選用GPU 版本的tensorflow1.8.0 和Keras2.2.4,英偉達并行計算架構(gòu)(Compute Unified Device Architecture,CUDA)版本為8.0。
在對RGB 圖與深度圖分別進行特征提取以及融合的階段,不同于MobileNetV3 傳統(tǒng)的輸入,本文采用歸一化后尺寸為112×112 的圖像作為輸入尺寸。優(yōu)化方法采用Adam,初始學習率設置為1E-4,衰減率設置為5E-3。
在對比實驗中,評估指標采用文獻[22]中提到的評估方式,在CASIA-SURF以及CQNU-LN數(shù)據(jù)集上進行評估。
本文以錯誤接受率(False Acceptance Rate,F(xiàn)AR)、真正類率(True Positive Rate,TPR)、等錯誤率(Equal Error Rate,EER)、半錯誤率(Half Total Error Rate,HTER)作為評估指標。FAR表示為算法在所有的假體人臉數(shù)據(jù)集中將假體人臉判斷成活體人臉的比率。TPR 表示為算法在所有的活體人臉數(shù)據(jù)集中把活體人臉判斷為活體人臉的比例。EER表示為在受試者工作特征曲線(Receiver Operating Characteristic curve,ROC曲線)上錯誤拒絕率(False Rejection Rate,F(xiàn)RR)與FAR 相等時的均值。半錯誤率HTER 表示為測試集中FRR 與FAR 的均值。
不同模型在CQNU-LN 數(shù)據(jù)集的結(jié)果如表5 所示。訓練的方式為將深度圖與RGB 圖特征融合訓練。ResNet18 為文獻[20]的活體檢測網(wǎng)絡,該網(wǎng)絡采用參數(shù)量較大的ResNet18作為主要的框架,采用多模態(tài)特征融合的方式進行活體檢測訓練。其他對比方法為近年來流行的輕量級卷積神經(jīng)網(wǎng)絡,其中FeatherNetA、FeatherNetB 為文獻[10]中輕量級活體檢測網(wǎng)絡。實驗結(jié)果表明,輕量級卷積神經(jīng)網(wǎng)絡更適用于本文所制定的活體檢測任務。ShuffleNetV2[17]在TPR@FAR=10E-4上達到了精度為95.49%,是目前最優(yōu)的活體檢測網(wǎng)絡模型,本文方法在TPR@FAR=10E-4 達到95.54%,相較于ShuffleNetV2提升了0.05%。
表5 不同卷積神經(jīng)網(wǎng)絡在CQNU-LN數(shù)據(jù)集上的指標Tab.5 Indicators of different convolutional neural networks on CQNU-LN dataset
不同模型在CASIA-SURF 數(shù)據(jù)集的結(jié)果如表6 所示。效果最好的模型為ShuffleNetV1[18],在TPR@FAR=10E-4指標上達到95.01%,本文方法在TPR@FAR=10E-4 指標上達到了95.15%,相較目前效果最好的方法提升了0.1%。
表6 不同卷積神經(jīng)網(wǎng)絡在CASIA-SURF數(shù)據(jù)集上的指標Tab.6 Indicators of different convolutional neural networks on CASIA-SURF dataset
為了進一步驗證多模態(tài)特征融合是否具備魯棒性,本文采取分別訓練RGB 和深度圖與特征融合后的RGB 和深度圖進行比對,三個模型的超參數(shù)設置相同。
表7~8分別為本文方法在CQNU-LN 以及CASIA-SURF數(shù)據(jù)集上各種模態(tài)的網(wǎng)絡效果對比。
實驗結(jié)果表明,在CQNU-LN 數(shù)據(jù)集上,RGB+Depth 的方式在TPR@FAR=10E-4 指標相較僅訓練RGB 的方式提升了10.9%,相較僅訓練Depth 的方式提升了4.1%。在CASIASURF數(shù)據(jù)集上,RGB+Depth 的方式在TPR@FAR=10E-4指標相較僅訓練RGB 的方式提升了10.4%,相較僅訓練Depth 的方式提升了1.9%。
表7 CQNU-LN測試集上各種模態(tài)的測試效果Tab.7 Test results of various modalities on CQNU-LN test set
表8 CASIA-SURF測試集上各種模態(tài)的測試效果Tab.8 Test results of various modalities on CASIA-SURF test set
為了進一步驗證網(wǎng)絡是否具備嵌入式的條件,表9 為模型輕量級指標,以Keras 生成的網(wǎng)絡模型參數(shù)文件大?。≒arameter),每秒浮點數(shù)運算量(FLoating-point Operations Per second,F(xiàn)LOPs)和模型預測單張圖像所需要的時間來恒定反映各網(wǎng)絡參數(shù)規(guī)模。本文方法在模型參數(shù)量上與FeatherNet以及MobileNetV3 一致,模型預測時間一致,在FLOPs 上雖然不及FeatherNet,但是與ResNet 與VGG-6 相比較低。綜合各指標可知本文方法符合在嵌入式設備中運行的標準。
表9 不同模型輕量級指標Tab.9 Lightweight indicators of different models
人臉活體攻擊并非僅存在打印式的照片、視頻的攻擊,隨著3D 打印技術的不斷發(fā)展和成熟,制作出價格低廉、形象逼真的人臉3D 的攻擊手段已經(jīng)可以實現(xiàn),如3D 面具、頭模和頭套,3D 的攻擊方式已逐漸成為人臉認證系統(tǒng)的新威脅。然而,許多以前提出的攻擊檢測方法在面對3D攻擊手段的攻擊時基本失去效果,同樣本文在2D手段上的防御模型也無法解決3D 攻擊。針對上述問題,本文同樣以RGB 與Depth 圖像為輸入進行特征融合的方式來構(gòu)建針對3D 攻擊的活體檢測模型,雖然3D 攻擊手段不再是平面的圖像,利用深度特征難以辨識,但是深度特征會對光照具有一定的魯棒性,再加上采集數(shù)據(jù)集時考慮到光照信息,同時訓練RGB 圖能夠使模型關注到圖像的顏色以及紋理上面的差異,從而使模型更加魯棒。本文方法在CQNU-3Dmask上進行多模態(tài)魯棒性實驗,結(jié)果如表10所示。
由表10 可知,在TPR@FAR=10E-4 指標上,訓練RGB 圖加Depth 圖的精度相較僅訓練RGB 圖提升了0.9%,比僅訓練深度圖提升了6.2%。
在實際應用場景中,本文采取一種級聯(lián)的手段防御2D、3D 攻擊:網(wǎng)絡首先會給出2D 模型的判斷,若2D 模型給出標簽為假,最終結(jié)果則為假;若2D 模型判別結(jié)果為真則調(diào)用3D模型所預測的結(jié)果作為最終判斷。級聯(lián)方法如下代碼所示,融合之后的實機演示圖如圖6所示。
表10 CQNU-3Dmask測試集上各種模態(tài)的測試效果Tab.10 Test results of various modalities on CQNU-3Dmask test set
圖6 實機演示效果Fig.6 Real machine demonstration effect
針對非交互、靜默式活體檢測算法,在MobileNetV3 的基礎上本文提出了一種全新的深度卷積神經(jīng)網(wǎng)絡模型。為保證特征的多樣性,該模型以RGB 以及深度圖作為輸入特征,并且對兩種特征進行融合,在結(jié)構(gòu)上豐富了提取特征,提高了特征表達的能力;為了保證精度且減少網(wǎng)絡計算量,在網(wǎng)絡尾端采用Streaming Module 替換傳統(tǒng)的全局平均池化模塊以達到減少計算量的目的。在數(shù)據(jù)集上分別采集了針對2D 攻擊手段的CQNU-LN 和針對3D 攻擊手段的CQNU-3Dmask 數(shù)據(jù)集。實驗結(jié)果表明本文方法具有良好的檢測效果。
雖然本文所提出的方法在活體檢測任務上較為全面,但是也有不足之處:1)對于3D 的攻擊手段的表現(xiàn)并不那么穩(wěn)定,由于光照、面部細節(jié)等影響,在實際的使用過程中還是會出現(xiàn)錯誤的預測,研究者們可以手工提取特征或者基于注意力機制去解決這一系列由外部影響所帶來的問題。2)白盒、黑盒的對抗攻擊方式在近年來也一直是研究的重點,卷積神經(jīng)網(wǎng)絡的模型普遍存在著通過一個擾動即可以攻擊整個網(wǎng)絡,使模型出現(xiàn)預測偏差。如何讓活體檢測網(wǎng)絡對于卷積神經(jīng)網(wǎng)絡的對抗攻擊性更加魯棒,也是接下來值得深入研究的一個方向。