耿鵬志,唐云祁,樊紅興,張時(shí)潤(rùn),朱新同
1.中國(guó)人民公安大學(xué) 偵查學(xué)院,北京100038
2.中國(guó)科學(xué)院 自動(dòng)化研究所 智能感知與計(jì)算研究中心,北京100190
3.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲412007
近年來(lái),生成式對(duì)抗網(wǎng)絡(luò)[1](Generative Adversarial Networks,GANs)在計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)展迅速。以該技術(shù)為依托的深度偽造(Deepfake)技術(shù)在全世界范圍內(nèi)掀起了一股偽造熱潮。如人臉替換、人臉屬性編輯以及人臉表情操控等,偽造技術(shù)的惡意應(yīng)用在社會(huì)安全等領(lǐng)域造成了巨大的風(fēng)險(xiǎn)。人臉信息作為生物特征信息最為敏感的一環(huán),如果該技術(shù)被不法分子所利用,一方面會(huì)導(dǎo)致虛假新聞等信息的泛濫,另一方面,生物特征信息的泄露會(huì)導(dǎo)致個(gè)人隱私、名譽(yù)以及財(cái)產(chǎn)等受到侵害,嚴(yán)重者甚至危害國(guó)家安全。因此,針對(duì)深度偽造視頻的檢測(cè),對(duì)于促進(jìn)網(wǎng)絡(luò)空間的健康發(fā)展以及政治和經(jīng)濟(jì)社會(huì)的穩(wěn)定具有極其重要的意義。目前各學(xué)術(shù)團(tuán)隊(duì)已經(jīng)就深度偽造檢測(cè)展開(kāi)了深入研究,其中Facebook公司斥巨資主辦的Deepfake檢測(cè)挑戰(zhàn)賽(Deepfake Detection Challenge,DFDC),極大地促進(jìn)了深度偽造取證領(lǐng)域的發(fā)展。同時(shí),各國(guó)也在立法層面上采取措施來(lái)限制Deepfake為代表的造假技術(shù),如中國(guó)于2019年印發(fā)的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》[2]明確規(guī)定不得使用人工技術(shù)制作、傳播虛假新聞信息,由美國(guó)兩黨議員提出的《2019年深度偽造報(bào)告法案》[3]也建議政府制定相應(yīng)的規(guī)則與法律,并提高鑒別真?zhèn)蔚募夹g(shù)能力。
目前已經(jīng)出現(xiàn)了許多經(jīng)典的檢測(cè)方法,主要分為基于視頻檢測(cè)和基于圖像檢測(cè)兩大類(lèi)?;谝曨l檢測(cè)方面,研究者主要針對(duì)時(shí)間信息進(jìn)行建模,如文獻(xiàn)[4-5]利用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)來(lái)提取視頻序列中的時(shí)序信息。文獻(xiàn)[6]提取視頻中的光流信息(Optical Flow)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。還有研究人員使用生物信號(hào)rPPG[7]用于深度偽造檢測(cè)?;趫D像檢測(cè)方面,可以分為傳統(tǒng)手工設(shè)計(jì)和深度學(xué)習(xí)兩大類(lèi),在傳統(tǒng)手工設(shè)計(jì)方面,如Yang等人[8]使用對(duì)頭部和面部的姿勢(shì)進(jìn)行建模,Li等人[9]對(duì)眨眼信息進(jìn)行檢測(cè),但由于深度偽造技術(shù)的更新發(fā)展,該方法已不適用。Matern等人[10]對(duì)眼睛、牙齒以及人臉區(qū)域的偽影設(shè)計(jì)特征,但他們使用簡(jiǎn)單的分類(lèi)器,都可能存在特征提取不到位的情況。在深度學(xué)習(xí)方面,文獻(xiàn)[11-13]分別使用了MesoNet、膠囊網(wǎng)絡(luò)以及Xception進(jìn)行換臉檢測(cè),并取得不錯(cuò)的效果,其中Xception網(wǎng)絡(luò)由于出色的特征提取能力,被作為主流的深度偽造取證網(wǎng)絡(luò),Stehouwer等人[14]采用注意力機(jī)制讓檢測(cè)模型更加關(guān)注偽造區(qū)域,以此提升檢測(cè)效果。卞明運(yùn)等人[15]使用空洞卷積捕捉圖像上下文信息,提升對(duì)偽造圖片的檢測(cè)效果。胡永健等人[16]將圖像分割網(wǎng)絡(luò)用于深度偽造檢測(cè)中,可以對(duì)偽造區(qū)域的定位檢測(cè)。以上方法都依賴于特定的數(shù)據(jù)集,當(dāng)待檢測(cè)的數(shù)據(jù)屬于另一類(lèi)的偽造方法或數(shù)據(jù)經(jīng)過(guò)后處理操作的情況時(shí),檢測(cè)模型會(huì)損失部分精度。本文通過(guò)對(duì)相關(guān)比賽進(jìn)行調(diào)研,發(fā)現(xiàn)對(duì)于跨庫(kù)或者經(jīng)過(guò)后處理圖片檢測(cè)問(wèn)題,一種最直接有效的方法是使用數(shù)據(jù)增強(qiáng)。所以本文選取四種經(jīng)典遮擋類(lèi)增強(qiáng)方法以及高斯模糊、高斯噪聲、色度變換等十種光學(xué)變換的數(shù)據(jù)增強(qiáng)方法,探究其對(duì)深度偽造檢測(cè)模型性能的影響。由于XceptionNet對(duì)于偽造視頻圖片的出色檢測(cè)性能,使得它在相關(guān)比賽中被廣泛應(yīng)用,同時(shí)作為經(jīng)典的檢測(cè)模型在取證領(lǐng)域也被作為基線模型進(jìn)行對(duì)比研究,所以最終選取XceptionNet作為本文的檢測(cè)模型。
總體來(lái)說(shuō),本文主要有以下3方面貢獻(xiàn):
第一,針對(duì)目前大多數(shù)Deepfake檢測(cè)方法是對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)或者尋找有意義的其他的線索。本文結(jié)合相關(guān)比賽從數(shù)據(jù)增強(qiáng)角度出發(fā),探究數(shù)據(jù)增強(qiáng)方法對(duì)于模型檢測(cè)的影響以及是否可以迫使模型學(xué)習(xí)更高級(jí)的偽造特征。
第二,選取4種經(jīng)典的遮擋式數(shù)據(jù)增強(qiáng)方法和10種基于光學(xué)變換的數(shù)據(jù)增強(qiáng)方法,探究其對(duì)檢測(cè)模型的影響。實(shí)驗(yàn)結(jié)果表明遮擋式數(shù)據(jù)增強(qiáng)方法對(duì)于檢測(cè)模型的檢測(cè)性能提升有所幫助,對(duì)比度和亮度變換有一定效果的提升。相比于增加網(wǎng)絡(luò)模型結(jié)構(gòu)等操作,數(shù)據(jù)增強(qiáng)方法簡(jiǎn)單有效,可以有效地提升模型在經(jīng)后處理操作圖像上的檢測(cè)準(zhǔn)確度。但不能提升模型的泛化性。
第三,使用Grad-CAM方法可視化對(duì)數(shù)據(jù)增強(qiáng)所起的作用進(jìn)行可解釋分析。從激活圖中可看出數(shù)據(jù)增強(qiáng)策略能使檢測(cè)模型的激活面積增大,降低了錯(cuò)檢情況的發(fā)生。
有效的數(shù)據(jù)增強(qiáng)方法可以使CNNs模型避免只學(xué)習(xí)到某一局部特征,使檢測(cè)模型關(guān)注到更多具有判別信息的特征。為探究其對(duì)于深度偽造模型檢測(cè)的影響,本文就遮擋式和基于光學(xué)變換這兩大類(lèi)數(shù)據(jù)增強(qiáng)方法進(jìn)行了研究。
1.1.1 遮擋式數(shù)據(jù)增強(qiáng)方法
本文所使用的遮擋式增強(qiáng)方法分別為Random-Erasing[17]、Cutout[18]、HaS(Hide-and-Seek)[19]和GridMask[20]這四種,如圖1所示。
圖1 HaS、Cutout、RandomErasing和GridMask的結(jié)果Fig.1 Results of HaS,Cutout,RandomErasing and GridMask
RandomErasing(隨機(jī)擦除)在訓(xùn)練時(shí),會(huì)在原圖隨機(jī)選擇一個(gè)矩形區(qū)域,將該區(qū)域的像素替換為隨機(jī)值,以此對(duì)訓(xùn)練的圖片做不同程度的遮擋,從而降低過(guò)擬合的風(fēng)險(xiǎn)并提高模型的魯棒性。
HaS是將圖片均勻地分成S×S個(gè)網(wǎng)格,然后每一個(gè)網(wǎng)格以一定概率隨機(jī)刪除,而RandomErasing和Cutout只刪除圖像的某一連續(xù)區(qū)域,所以HaS可產(chǎn)生更多類(lèi)型的遮擋形狀,具有更強(qiáng)的遮擋魯棒性。
Cutout利用固定大小的矩形對(duì)圖像進(jìn)行遮擋,在矩形范圍內(nèi)對(duì)圖片進(jìn)行全0填充。相比于RandomErasing,其遮擋大小需要手動(dòng)設(shè)置。
GridMask是結(jié)構(gòu)化的丟棄,它與以上方法的不同之處為,其刪除區(qū)域是一組空間均勻分布的正方形。這樣可以避免類(lèi)似于Cutout生成一個(gè)大的遮擋塊從而完全覆蓋掉目標(biāo),相對(duì)于HaS可以更好地控制原圖片中遮擋與保留的比例。
1.1.2 基于光學(xué)變換的數(shù)據(jù)增強(qiáng)方法
基于光學(xué)變換的數(shù)據(jù)增強(qiáng)方法,主要是通過(guò)濾鏡等操作方法,將特定功能的濾鏡與圖像進(jìn)行卷積操作,進(jìn)而得到多種類(lèi)型的數(shù)據(jù)。在偽造模型檢測(cè)中,有效的數(shù)據(jù)增強(qiáng)方法可以使模型提取更高級(jí)的偽造特征,提升模型的魯棒性。另一方面,經(jīng)過(guò)后處理的偽造圖片,加大了檢測(cè)模型檢測(cè)的難度,所以不法分子可能會(huì)通過(guò)后處理操作逃避檢測(cè)。因此本文選取了常見(jiàn)的10種基于光學(xué)變換的數(shù)據(jù)增強(qiáng)方法,ChannelShuffle、GaussNoise、GaussianBlur、IAAAdditiveGaussianNoise、IAASharpen、HueSaturationValue、RandomBrightnessContrast、Random-Brightness、ISONoise和ToSepia,其效果如圖2所示。
圖2 基于光學(xué)變換的數(shù)據(jù)增強(qiáng)結(jié)果Fig.2 Data enhancement results based on optical transformation
1.2.1 特征提取網(wǎng)絡(luò)
本文使用的特征提取網(wǎng)絡(luò)為Xception網(wǎng)絡(luò)。XceptionNet主要有輸入層、中間層以及輸出層3個(gè)部分組成,共有36個(gè)卷積層。Xception網(wǎng)絡(luò)設(shè)計(jì)并使用了深度可分離卷積,其結(jié)構(gòu)如圖3所示,深度可分離卷積由兩個(gè)連續(xù)的卷積運(yùn)算組成:(1)對(duì)輸入的每個(gè)channel,分別進(jìn)行3×3卷積操作,并將結(jié)果拼接。(2)對(duì)上一步卷積中的拼接結(jié)果,進(jìn)行1×1卷積操作來(lái)獲取跨通道的相關(guān)性。與普通卷積核相比,可以通道間和空間上的相關(guān)性分離開(kāi)來(lái),提高了特征表達(dá)能力。相比于Inceptionv3,可以在不增加網(wǎng)絡(luò)復(fù)雜度的情況下提升精度。
圖3 深度可分離卷積Fig.3 Depth separable convolution
1.2.2 本文網(wǎng)絡(luò)模型
本文選擇文獻(xiàn)[13]中Xception作為本文的特征提取網(wǎng)絡(luò),對(duì)RGB通道中的特征進(jìn)行學(xué)習(xí)。在預(yù)處理方面使用遮擋式和光學(xué)變換這兩大類(lèi)方法,目的是對(duì)輸入數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理。之后將Xception網(wǎng)絡(luò)的全連接層修改為[2 048,1],使用Sigmoid進(jìn)行判別輸出,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。
圖4 本文的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Framework of model proposed by this paper
1.2.3 損失函數(shù)
本文使用的損失函數(shù)為BCEWithLogitsLoss,損失函數(shù)公式如下:
其中,x為模型的輸出值,y代表樣本的真實(shí)標(biāo)簽,真實(shí)人臉為1,偽造人臉為0。p代表預(yù)測(cè)為真實(shí)人臉的概率,反之,1-p表示預(yù)測(cè)為偽造人臉的概率。Sigmoid函數(shù)使真假類(lèi)別概率分布在(0.1)區(qū)間,即大于0.5預(yù)測(cè)為假,反之預(yù)測(cè)為真。
為了有效地驗(yàn)證本文提出的方法,本文采用Face-Forensics++[13]數(shù)據(jù)集,該數(shù)據(jù)集中包括人臉替換和表情操控兩大類(lèi),共計(jì)4種篡改類(lèi)型。人臉替換有Deepfakes、FaceSwap,表情操控有Face2Face、NeuralTextures。其中Deepfakes和NeuralTextures是基于深度學(xué)習(xí)方法,F(xiàn)aceSwap和Face2Face是基于計(jì)算機(jī)圖形方法。每種數(shù)據(jù)集包括Raw(C0)、HQ(C23)、LQ(C40)三種壓縮方式。由于高壓縮率會(huì)丟失相應(yīng)的篡改特征,導(dǎo)致模型準(zhǔn)確率下降,而在C0、C23上檢測(cè)的準(zhǔn)確率高達(dá)98%+,所以本文為提高模型在抗壓縮方面的能力,本文選取C40作為本文的實(shí)驗(yàn)數(shù)據(jù)。
由于官方給定的劃分格式嚴(yán)格規(guī)定了視頻之間的生成關(guān)系,這樣可使實(shí)驗(yàn)結(jié)果更具有一定的可比性。所以本文按照劃分格式對(duì)FaceForensics++數(shù)據(jù)集中的視頻進(jìn)行劃分,每一種類(lèi)型的偽造視頻劃分為Manipulated和Origianl兩組,每組又劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。之后使用MTCNN(Multi-Task Convolutional Neural Network)對(duì)人臉進(jìn)行檢測(cè)獲取人臉框,并向外擴(kuò)張0.3倍保存。共制作50 000個(gè)實(shí)驗(yàn)樣本作為實(shí)驗(yàn)數(shù)據(jù)集,數(shù)據(jù)集如表1所示。
表1 數(shù)據(jù)集的描述Table 1 Description of training set and testing set
本文實(shí)驗(yàn)平臺(tái)為linux,GPU為4塊TITAN X(Pascal)顯卡。深度學(xué)習(xí)框架為Pytorch1.2。為提高檢測(cè)性能,所用算法均使用ImageNet預(yù)訓(xùn)練模型,不使用其他數(shù)據(jù)增強(qiáng)策略,圖片大小統(tǒng)一設(shè)置為299×299。學(xué)習(xí)率調(diào)整策略為Adam,超參數(shù)設(shè)置為:lr=0.000 2,Weight-Decay(權(quán)重衰減)=0.001,Batchsize=40,epoch=10。為保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性,在訓(xùn)練和測(cè)試過(guò)程中設(shè)置相同隨機(jī)種子。
本文將深度偽造檢測(cè)視為一個(gè)二分類(lèi)問(wèn)題,使用ACC作為評(píng)價(jià)指標(biāo)公式如下。其中Sigmoid輸出區(qū)間為[0,1],圖片判斷閾值設(shè)置為0.5,小于0.5則認(rèn)為是真視頻。
2.4.1 探究各類(lèi)遮擋式方法的參數(shù)設(shè)置
后處理操作會(huì)破壞偽造視頻中存在的高頻GAN指紋信息,導(dǎo)致模型漏檢、錯(cuò)檢情況的發(fā)生。本文將遮擋式數(shù)據(jù)增強(qiáng)方法作為預(yù)處理模塊,放置于Xception網(wǎng)絡(luò)之前,目的是讓網(wǎng)絡(luò)輸入多種類(lèi)型的人臉數(shù)據(jù),這樣可以避免網(wǎng)絡(luò)學(xué)習(xí)到某一局部特征,使其關(guān)注到更多具有判別信息的特征。由于GridMask、Cutout、HaS和RandomErasing設(shè)置不同的參數(shù),會(huì)產(chǎn)生不同的效果,為了選取一組合適的參數(shù)設(shè)置,本文對(duì)其關(guān)鍵參數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)(主要是遮擋面積的大?。溆鄥?shù)盡可能選用其在原文中的參數(shù),不同參數(shù)設(shè)置的遮擋效果如圖5所示,由于RandomErasing是隨機(jī)生成遮擋大小,故使用原文參數(shù)(sl=0.02,sh=0.4,擦除大小的上下閾值)。實(shí)驗(yàn)在FaceForensics++中的五種C40壓縮率的篡改數(shù)據(jù)集上進(jìn)行,遮擋概率為p=0.5,實(shí)驗(yàn)結(jié)果如表2所示。
圖5 不同遮擋參數(shù)設(shè)置的結(jié)果Fig.5 Results of different parameter settings
表2 各類(lèi)遮擋式方法的參數(shù)設(shè)置的結(jié)果Table 2 Result of parameter setting of various occlusion methods
從實(shí)驗(yàn)結(jié)果中可以看出,遮擋式數(shù)據(jù)增廣策略在不同參數(shù)條件下,檢測(cè)效果不同。由于其超參數(shù)為遮擋面積的大小,遮擋面積過(guò)大容易遮擋住偽造人臉,過(guò)小不能使網(wǎng)絡(luò)關(guān)注到更多具有判別信息的特征。本文還與基準(zhǔn)模型(Baseline,XceptionNet)進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示,結(jié)果表明經(jīng)過(guò)遮擋式數(shù)據(jù)增強(qiáng)在RGB上學(xué)習(xí)到相應(yīng)的偽造特征明顯優(yōu)于基線網(wǎng)絡(luò)所提取的特征,其中RandomErasing方法的增強(qiáng)效果最佳,從中可以看出,遮擋式增強(qiáng)在深度偽造檢測(cè)領(lǐng)域同樣有效果,該增強(qiáng)可以有效地提升網(wǎng)絡(luò)的檢測(cè)能力。
表3 各類(lèi)遮擋式方法的結(jié)果對(duì)比Table 3 Comparison of results of various occlusion methods
2.4.2 基于光學(xué)變換的數(shù)據(jù)增強(qiáng)方法
基于光學(xué)變換的數(shù)據(jù)增強(qiáng)方法是計(jì)算機(jī)視覺(jué)中常用的訓(xùn)練方法。有效的數(shù)據(jù)增強(qiáng)方法可以使模型學(xué)習(xí)到更多魯棒的特征。為此本文選取了10種常見(jiàn)的光學(xué)變換數(shù)據(jù)增強(qiáng)方法,進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。從實(shí)驗(yàn)結(jié)果中可以看出只有RandomBrightnessContrast這一光學(xué)變換方法有提升,提升約0.07個(gè)百分點(diǎn)。它主要是用于調(diào)整圖像的對(duì)比度和亮度,如圖6所示,該方法抑制了某些偽造圖片中的底層取證特征,迫使模型學(xué)習(xí)到更加魯棒偽造線索。這在相關(guān)比賽中也有所體現(xiàn),如針對(duì)黑人臉部的偽造圖片錯(cuò)檢的情況會(huì)經(jīng)常發(fā)生。
表4 基于光學(xué)變換方法的實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results based on optical conversion methods
圖6 RandomBrightnessContrast處理的結(jié)果Fig.6 RandomBrightnessContrast processing result
通過(guò)表4可以得知,單一的光學(xué)變換方法對(duì)于深度偽造檢測(cè)模型的性能提升有限,為了探究多種數(shù)據(jù)增強(qiáng)方法的組合對(duì)檢測(cè)模型性能帶來(lái)的影響。因此本文根據(jù)上述中的實(shí)驗(yàn)結(jié)果,選擇部分方法進(jìn)行組合實(shí)驗(yàn),主要為RandomBrightnessContrast(BanBC)、HueSaturation-Value(HueSV)、IAASharpen(IAAS)、GaussNoise(GNoise)、GaussianBlur(GBlur)等常見(jiàn)的后處理方法。實(shí)驗(yàn)結(jié)果如表5所示,從實(shí)驗(yàn)結(jié)果中可以看出RanBC&Chan&IAAS提升效果較好,相比于baseline模型提升約0.21個(gè)百分點(diǎn)。結(jié)合表4與表5的結(jié)果,發(fā)現(xiàn)單一的光學(xué)變換數(shù)據(jù)增強(qiáng)方法對(duì)深度偽造檢測(cè)模型帶來(lái)的影響不明顯,有的方法甚至?xí)?lái)性能的下降。推測(cè)其原因是單一的光學(xué)變換數(shù)據(jù)方法帶來(lái)的樣本多樣性較小,網(wǎng)絡(luò)仍然會(huì)集中地關(guān)注到單一的偽造特征,缺少了數(shù)據(jù)的多樣性。而多種增強(qiáng)方法的組合,增加了數(shù)據(jù)的多樣性,使網(wǎng)絡(luò)能更多地學(xué)習(xí)到具有判別信息的特征。
表5 不同光學(xué)變換的融合實(shí)驗(yàn)Table 5 Fusion experiment of different optical transformations
2.4.3 模型的魯棒性的研究
近年來(lái)深度偽造檢測(cè)算法發(fā)展迅速,但其主要方法仍然是通過(guò)數(shù)據(jù)驅(qū)動(dòng),去擬合卷積神經(jīng)網(wǎng)絡(luò)模型。由于偽造圖像在經(jīng)過(guò)壓縮、模糊等后處理等操作時(shí),會(huì)造成部分偽造特征消除,這不僅會(huì)導(dǎo)致肉眼無(wú)法分辨真?zhèn)蔚慕Y(jié)果,對(duì)于檢測(cè)模型來(lái)說(shuō),也容易造成漏檢、錯(cuò)檢等情況的發(fā)生。為了驗(yàn)證模型的魯棒性,本文選用高斯模糊、高斯噪聲、亮度和對(duì)比度變換進(jìn)行了模擬實(shí)驗(yàn),預(yù)訓(xùn)練模型使用的表3和表4中效果最好的模型,實(shí)驗(yàn)結(jié)果如表6所示。
表6 驗(yàn)證集在后處理操作中的表現(xiàn)Table 6 Performance of validation set in post-processing operations
從實(shí)驗(yàn)結(jié)果中可以看出,盡管遮擋式數(shù)據(jù)增強(qiáng)可以加強(qiáng)對(duì)某些細(xì)節(jié)特征的提取,但在面對(duì)模糊和噪聲后處理操作時(shí),檢測(cè)精度有不同程度的下降,同樣基線模型(baseline)也有相同的情況。這樣說(shuō)明噪聲對(duì)于偽造線索破壞較大。值得注意的是,當(dāng)數(shù)據(jù)增強(qiáng)方法和數(shù)據(jù)后處理操作一致時(shí),相比基線模型,經(jīng)過(guò)這種數(shù)據(jù)增強(qiáng)的方法會(huì)獲得很好的檢測(cè)性能提升。在面對(duì)多種后處理操作的情況時(shí),使用多種數(shù)據(jù)增強(qiáng)組合方法盡管性能表現(xiàn)較好。面對(duì)當(dāng)前的互聯(lián)網(wǎng)環(huán)境中可能會(huì)存在多種的后處理情況,所以在訓(xùn)練檢測(cè)模型時(shí)使用較多的數(shù)據(jù)增強(qiáng)方法增強(qiáng)模型的魯棒性,可以很好地應(yīng)對(duì)后處理操作。
2.4.4 模型的泛化性分析
由于數(shù)據(jù)增強(qiáng)提升了模型在后處理數(shù)據(jù)上的表現(xiàn),但是否提升了模型的泛化性能力,仍需驗(yàn)證。因此本文使用本領(lǐng)域的常用的泛化性分析方法對(duì)模型的泛化性能力進(jìn)行了研究,即在Face2Face數(shù)據(jù)集上訓(xùn)練模型,在其他數(shù)據(jù)集上進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果如表7所示。從結(jié)果中可以看出,本文所使用的數(shù)據(jù)增強(qiáng)方法,對(duì)于模型在泛化性能的提升并未起到明顯的作用。也從側(cè)面說(shuō)明了篡改數(shù)據(jù)類(lèi)型的多樣性對(duì)于訓(xùn)練檢測(cè)模型的重要性。
表7 模型的泛化性實(shí)驗(yàn)對(duì)比Table 7 Experimental comparison of model generalization
為進(jìn)一步探究檢測(cè)模型在進(jìn)行分類(lèi)決策時(shí),重點(diǎn)關(guān)注于哪些區(qū)域,本文使用類(lèi)激活熱力圖(Gradient-weighted Class Activation Mapping,Grad-CAM)[21]對(duì)本文數(shù)據(jù)集進(jìn)行可視化分析。Grad-CAM可以對(duì)偽造檢測(cè)模型提供一定的解釋性。通過(guò)目標(biāo)的梯度信息,來(lái)說(shuō)明檢測(cè)模型對(duì)于哪些位置信息比較敏感。具體原理如下,通過(guò)定義第m個(gè)特征圖對(duì)于類(lèi)別b的權(quán)重為abm,其計(jì)算方式如下:
其中,Z表示第m個(gè)特征圖中的像素的數(shù)量,yb表示類(lèi)別b的決策分?jǐn)?shù),表示第m個(gè)特征圖中像素點(diǎn)(i,j)敏感程度。在得到相應(yīng)的權(quán)重后,送入到ReLU激活函數(shù)處理,最終得到類(lèi)激活圖公式如下:
本文選取了部分圖片使用Grad-CAM進(jìn)行可視化,其中包括偽造樣本、真實(shí)樣本以及錯(cuò)檢的樣本。其效果如圖7所示,從結(jié)果中可以看出經(jīng)過(guò)數(shù)據(jù)增強(qiáng)訓(xùn)練的檢測(cè)模型其激活的區(qū)域明顯大于Baseline模型。對(duì)于錯(cuò)檢的圖片,Baseline模型的決策分?jǐn)?shù)為0.48左右,而Augmentation決策分?jǐn)?shù)為0.99。這在熱力圖中可以得到解釋,Augmentation的激活區(qū)域較大并且更為準(zhǔn)確,這有利于模型最后的決策。通過(guò)Grad-CAM可視化分析在一定程度上說(shuō)明遮擋式數(shù)據(jù)增強(qiáng)方法可以使檢測(cè)模型的激活面積增大,提升偽造特征的泛化性能力,證明了其對(duì)于偽造模型訓(xùn)練的有效性。
圖7 Grad-CAM可視化效果Fig.7 Grad-CAM heatmaps
本文主要探究了遮擋式增強(qiáng)方法以及基于光學(xué)變換的增強(qiáng)方法對(duì)于深度偽造檢測(cè)模型的影響,對(duì)其魯棒性和泛化性進(jìn)行了測(cè)試,并使用Grad-CAM進(jìn)行可視化對(duì)數(shù)據(jù)增強(qiáng)所起的作用進(jìn)行可解釋分析。實(shí)驗(yàn)結(jié)果表明,遮擋式方法均有一定效果的提升,其中RandomErasing相比其他遮擋式方法效果較好。在基于光學(xué)變換的數(shù)據(jù)增強(qiáng)方法中,對(duì)比度和亮度變換對(duì)于模型的檢測(cè)精度有一定提升。相比于增加網(wǎng)絡(luò)模型結(jié)構(gòu)等操作,數(shù)據(jù)增強(qiáng)方法簡(jiǎn)單有效,在訓(xùn)練檢測(cè)模型時(shí)使用多種類(lèi)的數(shù)據(jù)增強(qiáng)方法可以獲得很好的魯棒性能,但不能提升模型泛化性。由于后處理操作會(huì)使偽造視頻丟失很多關(guān)鍵的特征,所以在后續(xù)工作中,將進(jìn)一步對(duì)深度偽造視頻的魯棒性特征進(jìn)行研究,以此來(lái)提升模型的魯棒性。