許 喆,王志宏,單存宇,孫亞茹,楊 瑩
(公安部第三研究所 網(wǎng)絡(luò)空間安全技術(shù)研發(fā)基地,上海 200031)
隨著深度生成技術(shù)的快速發(fā)展,機(jī)器自動(dòng)內(nèi)容生成水平不斷提高,其中人臉偽造更是內(nèi)容生成中的熱門技術(shù),在短視頻、游戲直播、視頻會(huì)議等領(lǐng)域得到了廣泛應(yīng)用。但具備極高欺騙性的深度偽造引發(fā)了諸多爭(zhēng)議,如色情視頻換臉、人體圖像合成等,帶來了潛在的社會(huì)信任和社會(huì)安全問題。因此如何自動(dòng)高效地檢測(cè)偽造視頻成為迫切需要解決的問題,吸引了國(guó)內(nèi)外研究人員的廣泛關(guān)注。
目前人臉偽造視頻檢測(cè)主要被建模成有監(jiān)督的分類任務(wù),包括基于單幀的分類檢測(cè)和基于多幀的分類檢測(cè)。前者主要利用異常顏色、眼睛牙齒細(xì)節(jié)等特征在單幀內(nèi)實(shí)現(xiàn)偽造視頻檢測(cè)[1-6];后者則對(duì)視頻中的眨眼頻率、表情變化等時(shí)序信息進(jìn)行建模[7-13]。基于多幀的方法相較于單幀,性能都有不同程度的提高,證明了時(shí)序信息的引入對(duì)提升檢測(cè)精度的重要性。然而當(dāng)前工作仍存在兩個(gè)主要問題:一是由于深度偽造方法不斷地迭代更新、種類繁多,而現(xiàn)有的監(jiān)督檢測(cè)算法訓(xùn)練依賴的標(biāo)注數(shù)據(jù)需要相應(yīng)的偽造模型生成,這些偽造模型大多沒有開源,復(fù)現(xiàn)難度大,訓(xùn)練成本高,極大地增加了檢測(cè)模型的訓(xùn)練和更新成本;二是基于深度卷積網(wǎng)絡(luò)提取特征的方法雖然性能良好但訓(xùn)練成本高,進(jìn)一步提高了偽造檢測(cè)模型的應(yīng)用門檻。因此,需要一個(gè)平衡性能和成本的偽造檢測(cè)方法。
為解決上述問題,在文獻(xiàn)[10]研究的基礎(chǔ)上,本文將偽造視頻中不自然的表情和面部動(dòng)態(tài)行為視為異常,引入時(shí)序異常檢測(cè)任務(wù)中相關(guān)研究成果,設(shè)計(jì)了一種基于人臉特征點(diǎn)的無(wú)監(jiān)督視頻人臉偽造檢測(cè)模型。主要思路是采用無(wú)監(jiān)督方法重構(gòu)正常視頻的人臉特征點(diǎn),然后通過比較重構(gòu)誤差的異常,判斷視頻的真?zhèn)巍O噍^于目前有監(jiān)督的檢測(cè)模型,一方面,本文方法只需要正常視頻作為訓(xùn)練數(shù)據(jù),不需要任何偽造方法生成的帶標(biāo)注的偽造視頻;另一方面,本文未使用深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取特征,僅采用主要人臉特征點(diǎn),可以很好地保留視頻人臉行為模式信息,同時(shí)減少訓(xùn)練時(shí)間,提高訓(xùn)練效率。
本文的主要工作包括:
1)將時(shí)序數(shù)據(jù)異常檢測(cè)方法引入人臉偽造視頻檢測(cè)中,將人臉偽造視頻檢測(cè)任務(wù)轉(zhuǎn)為無(wú)監(jiān)督的異常檢測(cè)任務(wù)。
2)提出一個(gè)全新的無(wú)監(jiān)督的人臉偽造視頻檢測(cè)框架。本文方法無(wú)需任何標(biāo)注數(shù)據(jù),首先基于偏移特征、局部特征、時(shí)序特征等多粒度信息重構(gòu)待檢測(cè)視頻中人臉特征點(diǎn)序列;然后通過計(jì)算原始序列與重構(gòu)序列的重構(gòu)誤差對(duì)偽造視頻進(jìn)行自動(dòng)檢測(cè)。
3)在人臉偽造視頻標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量的對(duì)比實(shí)驗(yàn),結(jié)果表明本文方法可以有效檢測(cè)多種類型的偽造視頻,同時(shí)具有訓(xùn)練時(shí)間短、實(shí)現(xiàn)簡(jiǎn)單的特點(diǎn),大幅減少了訓(xùn)練和使用成本。
目前人臉偽造視頻檢測(cè)主要被建模成有監(jiān)督的分類任務(wù),大多數(shù)工作都集中在基于單幀的偽造檢測(cè)方法上。一部分工作通過人工選擇關(guān)鍵特征后作進(jìn)一步檢測(cè),如Matern等[1]通過顏色異常、臉部陰影和眼睛牙齒缺失的細(xì)節(jié)來判斷真?zhèn)?。更多的工作使用CNN 自動(dòng)抽取特征,如:Afchar 等[2]認(rèn)為微觀的信息容易受到噪聲的干擾,而宏觀的信息不能很好地捕捉偽造細(xì)節(jié),因此提出了基于介觀的方法;Qian 等[3]提出的F3-Net(Frequency in Face Forgery Network)在CNN 提取的特征基礎(chǔ)上進(jìn)一步提取頻域特征;Li 等[4]通過檢測(cè)替換人臉時(shí)的融合邊界存在的噪聲和錯(cuò)誤來判斷真?zhèn)危_(dá)到了良好的性能;湯桂花等[5]針對(duì)現(xiàn)有檢測(cè)方法在有角度及遮擋情況下存在的真實(shí)人臉誤判問題,通過提高面部關(guān)鍵點(diǎn)定位準(zhǔn)確度改善了由于定位誤差引起的面部不協(xié)調(diào),進(jìn)而降低了真實(shí)人臉誤判率;翁澤佳等[6]則引入領(lǐng)域?qū)狗种?,所提模型能夠抽取魯棒性更?qiáng)、泛化能力更高的特征。盡管目前基于單幀方法的效果良好,但是它們并沒有充分利用視頻的時(shí)序信息,所以最近越來越多的工作關(guān)注基于多幀的方法。其中一部分是基于人類自身的生理特征,如:李旭嶸等[7]通過基于EfficientNet 的雙流網(wǎng)絡(luò)檢測(cè)模型在良好的準(zhǔn)確率基礎(chǔ)上提高了對(duì)抗壓縮的能力;Li 等[8]通過檢測(cè)眨眼頻率的異常作判斷;Yang 等[9]基于人臉特征點(diǎn)的中心區(qū)域和整體朝向不一致作區(qū) 分;Sun 等[10]提出的LRNet(Landmark Recurrent Network)則通過門控循環(huán)網(wǎng)絡(luò)捕捉人臉特征點(diǎn)序列中不自然的表情和面部異常變化。相較于人工選擇的特征,利用CNN 提取特征的應(yīng)用更廣泛,如Güera 等[11]和Sabir 等[12]都利用CNN 提取單幀特征,再用長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)提取時(shí)序特征;Gu 等[13]設(shè)計(jì)了兩個(gè)非常復(fù)雜的模塊分別捕捉空間不一致性和時(shí)序不一致性,達(dá)到了目前最優(yōu)的性能。但是上述基于深度卷積網(wǎng)絡(luò)特征的方法往往結(jié)構(gòu)復(fù)雜、訓(xùn)練時(shí)間長(zhǎng)。此外,現(xiàn)有的監(jiān)督檢測(cè)算法訓(xùn)練依賴的標(biāo)注數(shù)據(jù)需要相應(yīng)的深度偽造方法生成,由于偽造方法不斷地迭代更新、種類繁多,而且大多沒有開源,復(fù)現(xiàn)訓(xùn)練難度大、成本高,這極大地提高了檢測(cè)模型的應(yīng)用門檻。
時(shí)序異常檢測(cè)是從正常的時(shí)間序列中識(shí)別異常的事件或行為的任務(wù)。由于該任務(wù)獲取標(biāo)記數(shù)據(jù)成本高昂,因此文獻(xiàn)[14-15]的有監(jiān)督方法應(yīng)用有限,所以目前大多數(shù)研究集中在無(wú)監(jiān)督方法上。文獻(xiàn)[16-17]中利用LSTM 網(wǎng)絡(luò)構(gòu)建時(shí)序特征來預(yù)測(cè)異常。Zong 等[18]提出自動(dòng)編碼器和高斯混合模型相結(jié)合的方法,通過自動(dòng)編碼器計(jì)算序列關(guān)鍵信息的編碼表示,再用高斯混合模型對(duì)編碼表示進(jìn)行密度估計(jì)。文獻(xiàn)[19-21]則結(jié)合LSTM 網(wǎng)絡(luò)和變分自動(dòng)編碼器,通過重構(gòu)誤差預(yù)測(cè)異常。基于序列重構(gòu)誤差的方法是目前主要的方法之一,可以很好地檢測(cè)出序列中的異常,達(dá)到良好的精度。
本文根據(jù)文獻(xiàn)[10]的假設(shè),偽造視頻中存在不自然的表情和面部器官移動(dòng),這些描述面部動(dòng)態(tài)行為的幾何特征可以被人臉特征點(diǎn)序列很好地表達(dá)出來。本文將這些不自然的地方視為該序列的異常,借鑒時(shí)序異常檢測(cè)任務(wù)的無(wú)監(jiān)督研究成果,設(shè)計(jì)基于人臉特征點(diǎn)的無(wú)監(jiān)督視頻偽造檢測(cè)模型。
本文模型由三個(gè)部分組成:數(shù)據(jù)預(yù)處理、人臉特征點(diǎn)序列重構(gòu)和偽造得分計(jì)算。具體地說,對(duì)于待檢測(cè)視頻,先通過數(shù)據(jù)預(yù)處理抽取人臉特征點(diǎn)序列;然后利用卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)編碼多層次時(shí)序信息的變分自動(dòng)編碼器CNN-GRUVAE(CNN-Gated Recurrent Unit-Variational Auto-Encoder)重構(gòu)特征點(diǎn)序列;最后計(jì)算重構(gòu)序列和原序列的誤差獲得偽造分?jǐn)?shù),最終實(shí)現(xiàn)偽造視頻的自動(dòng)檢測(cè)。
數(shù)據(jù)預(yù)處理的目的是抽取出待檢測(cè)視頻中人臉的特征點(diǎn)序列,包括人臉特征點(diǎn)抽取和特征點(diǎn)序列校準(zhǔn)。
首先對(duì)待檢測(cè)視頻中的每一幀進(jìn)行人臉檢測(cè),并裁剪出人臉圖像,抽取出68 個(gè)人臉特征點(diǎn)[22],再將這些人臉特征點(diǎn)通過仿射變換對(duì)齊到預(yù)先設(shè)定的位置。
接著,需要對(duì)抽取出的人臉特征點(diǎn)序列進(jìn)行校準(zhǔn)。由于這些特征點(diǎn)是逐幀抽取的,即使在人臉幾乎不移動(dòng)的情況下,特征點(diǎn)也會(huì)有明顯的抖動(dòng)。因此參考文獻(xiàn)[10]的工作,在校準(zhǔn)過程中先通過Lucas-Kanade 光流算法[23]預(yù)測(cè)連續(xù)幀的下一幀,再利用卡爾曼濾波器[24]合并原幀和預(yù)測(cè)幀去除噪聲,最終獲得精度更高的人臉特征點(diǎn)序列。
本文人臉特征點(diǎn)序列重構(gòu)主要采用變分自動(dòng)編碼器實(shí)現(xiàn),包括編碼模塊和解碼模塊,整體框架如圖1 所示。其中編碼模塊主要編碼視頻中多層次的人臉特征點(diǎn)的時(shí)序信息,得到深層編碼表示。針對(duì)原始人臉特征點(diǎn)序列,首先通過捕捉幀與幀之間的變化獲得“鄰近幀”的偏移特征;然后基于CNN 抽取連續(xù)數(shù)幀信息,獲得“分塊幀”的局部特征;最后采用雙向門控循環(huán)神經(jīng)單元(Bi-directional Gate Recurrent Unit,BiGRU)提取視頻“連續(xù)幀”的序列特征。而解碼模塊通過深層編碼表示,采用BiGRU 和全連接網(wǎng)絡(luò)還原出人臉特征點(diǎn)的重構(gòu)序列。
圖1 人臉特征點(diǎn)序列重構(gòu)的整體框架Fig.1 Overall framework of facial landmark sequence reconstruction
本文提出的人臉特征點(diǎn)序列重構(gòu)方法具體描述如下:
文本分類相關(guān)工作[25]說明CNN 可以有效提取序列的局部特征,因此,本文在前述偏移特征的基礎(chǔ)上,使用CNN 提取數(shù)幀之間的“分塊幀”的局部特征。對(duì)于偏移特征序列fseq=[f1,f2,…,fN],首先將相鄰特征連接為特征矩陣,即
其中:d表示卷積核大??;⊕表示連接操作。
為了獲得不同角度的特征,需要隨機(jī)初始化通道個(gè)數(shù)的濾波器wj(j∈[1,m],wj∈Rd×136),其中m為通道個(gè)數(shù)。所以偏移特征fi對(duì)應(yīng)的第j個(gè)通道的局部特征為:
其中:*指的是卷積;h、b分別指激活函數(shù)和偏置。綜上,局部特征序列為:
其中:ci表示m個(gè)通道組成的向量,表示第i幀對(duì)應(yīng)的分塊幀特征。
進(jìn)一步地,考慮到視頻中人臉表情變化的連續(xù)性和關(guān)聯(lián)性,本文在視頻偽造檢測(cè)過程中采用BiGRU 建模人臉特征點(diǎn)序列的“連續(xù)幀”的序列特征。具體地,將局部特征ci通過BiGRU 后得到每幀對(duì)應(yīng)的隱層表示:
將正、逆序隱層表示拼接,得到深層編碼表示zi=其序列為zseq=[z1,z2,…,zN]。
此外,由于采樣訓(xùn)練過程中不能傳遞梯度,所以本文采用重參數(shù)方式。即對(duì)于深層編碼表示zi(i∈[1,N]),通過兩個(gè)獨(dú)立的全連接層分別得到期望和方差:μi=FCμ(zi)、σi=FCσ(zi)。重參數(shù)后的編碼表示為=μi+ξiσi,ξi服從正態(tài)分布N(0,I)(I為單位矩陣)。
在解碼過程中,同樣需要考慮前后編碼的時(shí)序信息,本文采用一個(gè)BiGRU 和一個(gè)全連接網(wǎng)絡(luò)依次解碼。
最終得到重構(gòu)特征序列為f'seq=[f'1,f'2,…,f'N]。計(jì)算每一幀人臉特征點(diǎn)序列和重構(gòu)特征序列的重構(gòu)誤差,即第i幀的重構(gòu)誤差為:
其中:ω是KL 散度的系數(shù)。
圖2 為隨機(jī)選取的一個(gè)正常視頻(實(shí)線)和相應(yīng)偽造視頻(虛線),選擇其中4 個(gè)有代表性的特征維度,繪制成的重構(gòu)誤差序列對(duì)比折線圖。如同多變量時(shí)序異常檢測(cè)任務(wù)一樣,重構(gòu)誤差較大的地方說明在該點(diǎn)模型不能很好地還原,在圖2 中表現(xiàn)為一個(gè)個(gè)波峰。其中圖2(a)、(b)是區(qū)分明顯的樣例,可以看出虛線部分的波峰更多,也更頻繁;而實(shí)線基本沒有起伏,十分平緩。這是由于在訓(xùn)練階段,模型只編碼重構(gòu)正常的特征序列,對(duì)于偽造特征序列則不能很好地還原,會(huì)產(chǎn)生更明顯的波峰。
圖2 不同維度特征點(diǎn)序列的重構(gòu)誤差Fig.2 Reconstruction errors of facial landmark sequences with different dimensions
時(shí)序異常檢測(cè)任務(wù)通常通過對(duì)重構(gòu)序列誤差大小人工或自動(dòng)地設(shè)置閾值來判斷是否異常,但是本任務(wù)難以簡(jiǎn)單地通過一個(gè)閾值來區(qū)分。如圖2(c)、(d)所示的樣例,正常視頻序列的誤差在某些點(diǎn)非常高,甚至超過偽造視頻序列,這種情況在實(shí)際數(shù)據(jù)中更常見。這是因?yàn)橄噍^于時(shí)序異常檢測(cè)任務(wù)中系統(tǒng)產(chǎn)生的序列,正常的人臉移動(dòng)也會(huì)包含很多的個(gè)性化特征,這種個(gè)性化特征造成的較大重構(gòu)誤差并不能簡(jiǎn)單地和偽造產(chǎn)生的重構(gòu)誤差區(qū)分開,導(dǎo)致通過簡(jiǎn)單設(shè)定閾值的方法并不能取得好的區(qū)分效果。但是從序列整體來看,偽造特征序列重構(gòu)誤差的波峰會(huì)更頻繁地出現(xiàn)。因?yàn)閭卧煲曨l中每一個(gè)表情都是偽造的,所以重構(gòu)誤差較大的地方較多,波峰也更多;而正常視頻中每個(gè)人盡管都有自己獨(dú)特的表情特點(diǎn),但大多都服從普遍的模式,可以被很好地重構(gòu)還原,所以波峰出現(xiàn)得較少。
根據(jù)上述分析,本文從重構(gòu)誤差波峰頻率的角度出發(fā),使用離散傅里葉變換將時(shí)域序列轉(zhuǎn)換為頻域信號(hào),此時(shí)偽造視頻的重構(gòu)誤差序列在高頻部分會(huì)占有更大的比例。所以本文通過在頻域上設(shè)定頻率閾值θ,分別計(jì)算每一維特征點(diǎn)重構(gòu)誤差序列頻率大于θ的比例作為特征點(diǎn)j的偽造得分scorej,最終整個(gè)視頻的偽造得分為:scoreall=score1+score2+… +score136,得分越大說明是偽造的可能性越大。圖3(a)、(b)分別表示測(cè)試集中偽造、正常視頻的偽造分?jǐn)?shù)頻數(shù)圖,即重構(gòu)誤差序列頻域中高頻和的頻數(shù)圖。容易看出,本文方法使正常和偽造的偽造分?jǐn)?shù)集中于不同的區(qū)間,此時(shí)設(shè)置一個(gè)偽造分?jǐn)?shù)相關(guān)的閾值,可以更簡(jiǎn)單地進(jìn)行區(qū)分。
圖3 偽造分?jǐn)?shù)分布比較Fig.3 Comparison of forgery score distribution
3.1.1 數(shù)據(jù)集
為驗(yàn)證本文方法的有效性,采用視頻偽造檢測(cè)任務(wù)中廣泛使用的兩個(gè)數(shù)據(jù)集FaceForensic++[26]和Celeb-DF[27]。其中FaceForensic++遴選了互聯(lián)網(wǎng)上的1 000 個(gè)視頻,用Deepfakes、Face2Face、FaceSwap、FaceShifter 和NeuralTextures等5 種偽造算法分別生成1 000 個(gè)偽造視頻。根據(jù)壓縮率不同,每一個(gè)視頻有未壓縮、輕微壓縮和重度壓縮三個(gè)版本,本文實(shí)驗(yàn)采用輕微壓縮版本。Celeb-DF 包含了5 639 個(gè)偽造視頻和540 個(gè)正常視頻,采用改進(jìn)的開源深度偽造算法,改善了顏色不一致等明顯偽影。
3.1.2 參數(shù)設(shè)置
在預(yù)處理階段,本文使用Dlib[22]標(biāo)注人臉特征點(diǎn)。在重構(gòu)流程前,將整個(gè)人臉特征點(diǎn)序列按2 s 即60 幀為一塊切分,卷積網(wǎng)絡(luò)的卷積核大小設(shè)置為5,填充設(shè)置為2,通道設(shè)置為32。編碼的維度設(shè)置為16,解碼器的輸出的維度設(shè)置為32。
此外每批包含256 條數(shù)據(jù),每次訓(xùn)練200 個(gè)輪次。采用Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001。KL 散度損失的權(quán)重設(shè)置為0.005。
3.1.3 衡量指標(biāo)
為了應(yīng)對(duì)數(shù)據(jù)集樣本不均衡的情況,本文實(shí)驗(yàn)選擇不容易受不均衡樣本影響的接受者操作特征(Receiver Operating Characteristic,ROC)曲線的 曲線下 方面積(Area Under Curve,AUC)作為衡量指標(biāo)。
其中:insi表示第i條樣本代表第i條樣本在得分從小到大排列時(shí)的序號(hào);M、N分別表示正樣本和負(fù)樣本的個(gè)數(shù);pos表示正例的集合。
本文設(shè)計(jì)了以下實(shí)驗(yàn):1)通過對(duì)比在不同偽造方法上的檢測(cè)效果,驗(yàn)證本文提出的無(wú)監(jiān)督人臉偽造視頻檢測(cè)方法的有效性和可移植性;2)通過對(duì)比不同方法的訓(xùn)練時(shí)間,進(jìn)一步說明本文方法的高效率和低成本;3)通過消融實(shí)驗(yàn),說明本文方法各部分設(shè)計(jì)的合理性。
3.2.1 對(duì)比實(shí)驗(yàn)
對(duì)比實(shí)驗(yàn)主要用來說明本文無(wú)監(jiān)督方法的有效性及可移植性。
1)模型有效性。首先對(duì)比FaceForensic++數(shù)據(jù)集上不同偽造方法的檢測(cè)性能,驗(yàn)證本文無(wú)監(jiān)督人臉偽造視頻檢測(cè)方法CNN-GRU-VAE 的有效性,實(shí)驗(yàn)結(jié)果如表1 所示。CNNGRU-VAE 訓(xùn)練集采用FaceForensic++數(shù)據(jù)集,隨機(jī)選擇800個(gè)正常視頻作訓(xùn)練。測(cè)試分為兩個(gè)部分,首先選擇FaceForensic++剩下的200 個(gè)正常視頻和不同方法下的200個(gè)偽造視頻分別構(gòu)造不同方法下的測(cè)試集。LRNet(DF)是模型LRNet[10]僅使用DeepFake 偽造的數(shù)據(jù)作為訓(xùn)練集負(fù)例得出的模型;LRNet(NT)是文獻(xiàn)[10]僅使用NeuralTexture 偽造的數(shù)據(jù)作為訓(xùn)練集負(fù)例得出的模型。可以看出本文方法在DeepFake 上性能良好,不僅遠(yuǎn)好于LRNet(NT),與LRNet(DF)也很接近;在Face2Face 上與LRNet(DF)性能接近;在FaceShifter 和FaceSwap 上比LRNet(DF)和LRNet(NT)都好。這說明本文的無(wú)監(jiān)督模型僅使用正常數(shù)據(jù)訓(xùn)練,面對(duì)未知偽造方法生成的視頻仍然能夠有效鑒偽,相較于使用單個(gè)偽造方法生成數(shù)據(jù)集上的訓(xùn)練模型,在未知方法生成的數(shù)據(jù)集上達(dá)到了不錯(cuò)的性能。CNN-GRU-VAE 對(duì)NerualTexture偽造方法的檢測(cè)效果較差,主要是模型中的對(duì)多層次時(shí)序信息建模干擾了對(duì)幾何信息的感知,具體解釋將在3.2.3 節(jié)根據(jù)消融實(shí)驗(yàn)結(jié)果說明。
表1 不同模型在FaceForensic++數(shù)據(jù)集上的AUC得分Tab.1 AUC scores of different models on FaceForensic++dataset
2)模型移植性。使用Celeb-DF[27]的所有數(shù)據(jù)測(cè)試不同數(shù)據(jù)源對(duì)模型性能的影響,結(jié)果如表2 所示。其中,除LRNet和 CNN-GRU-VAE 之 外,Two-stream[28]、Meso4[2]、MesoInception4[27]、FWA(Face Warping Artifacts)[29]、DSPFWA(Deep Spatial Pyramid Face Warping Artifacts)[27]、Xception-c23[27]、Capsule[30]采用的是文獻(xiàn)[27]中的實(shí)驗(yàn)數(shù)據(jù)。
表2 通過AUC分?jǐn)?shù)對(duì)不同模型的移植性能評(píng)估Tab.2 Transplantation performance evaluation of different models by AUC scores
FaceForensic++的實(shí)驗(yàn)設(shè)置和文獻(xiàn)[27]相同,訓(xùn)練與測(cè)試集僅考慮DeepFake 偽造數(shù)據(jù)集上的結(jié)果??梢钥闯霰疚牡臒o(wú)監(jiān)督方法在FaceForensic++上超過部分方法,在Celeb-DF 上的性能好于多數(shù)方法。這說明本文模型在不同數(shù)據(jù)源上的可移植性優(yōu)于多數(shù)有監(jiān)督模型。
3.2.2 訓(xùn)練成本實(shí)驗(yàn)
為了驗(yàn)證本文模型在訓(xùn)練成本上的優(yōu)勢(shì),從GPU 的顯存占用、預(yù)處理后訓(xùn)練數(shù)據(jù)在硬盤占用和訓(xùn)練時(shí)長(zhǎng)三個(gè)方面,將本文方法和其他偽造檢測(cè)模型進(jìn)行比較,結(jié)果如表3所示。其中,除CNN-GRU-VAE 之外,Xception[31]、X-Ray[4]、CNN+RNN(Convolutional Neural Network+Recurrent Neural Network)[32]、TSN(Temporal Segment Network)[33]、LRNet 采用的是文獻(xiàn)[10]的實(shí)驗(yàn)數(shù)據(jù)。
表3 訓(xùn)練成本對(duì)比Tab.3 Comparisons of training cost
從表3 可以看出,基于人臉特征點(diǎn)的模型在GPU 的顯存占用、硬盤訓(xùn)練數(shù)據(jù)占用和訓(xùn)練時(shí)長(zhǎng)都有明顯減少,LRNet和CNN-GRU-VAE 顯存和硬盤需求都遠(yuǎn)小于其他方法,訓(xùn)練時(shí)間都不到其他模型的1%。相較于同樣基于人臉特征點(diǎn)的算法LRNet,盡管本文模型比它復(fù)雜,但訓(xùn)練時(shí)間更短,顯存占用更少。顯存占用少是因?yàn)長(zhǎng)RNet 每次輸入的批大小為1 024,而CNN-GRU-VAE 批大小為256。訓(xùn)練時(shí)間更短的主要原因有:LRNet 需要的訓(xùn)練數(shù)據(jù)比CNN-GRU-VAE 多1 倍;LRNet 有兩個(gè)相似的網(wǎng)絡(luò)需要分開訓(xùn)練;LRNet 收斂緩慢,通常需要400 輪以上才能達(dá)到比較好的性能,1 000 輪以上才能基本收斂,然而CNN-GRU-VAE 訓(xùn)練200 輪時(shí)就已經(jīng)基本收斂;由于本文是無(wú)監(jiān)督算法,所以面對(duì)不同的偽造方法只需要訓(xùn)練一次,而LRNet 此類的多數(shù)有監(jiān)督算法想要達(dá)到比較理想的性能,需要在每一個(gè)偽造方法上訓(xùn)練一次。這充分說明了本文提出的無(wú)監(jiān)督算法在訓(xùn)練成本上的優(yōu)勢(shì)。
3.2.3 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)主要分析本文方法各部分設(shè)計(jì)的合理性和有效性,結(jié)果如表4 所示。其中:CNN-GRU-VAE 表示本文完整方法的AUC 得分;其他表示模型消除不同部分時(shí)的AUC 得分與完整模型AUC 得分的差值?!安皇褂闷铺卣鳌笔悄P蛯⑷四樚卣鼽c(diǎn)序列直接輸入解碼器,不使用偏移特征;GRUVAE 是將編碼器中去除CNN 后的模型;CNN-GRU-AE 是用自動(dòng)編碼器替換變分自編碼器。從整體結(jié)果來看,本文各部分設(shè)計(jì)都有效地提升了視頻中人臉偽造檢測(cè)的性能。
表4 網(wǎng)絡(luò)結(jié)構(gòu)消融實(shí)驗(yàn)中不同組件對(duì)AUC分?jǐn)?shù)的影響Tab.4 Influence of different components on AUC score in ablation study of network structure
使用偏移特征替換原始特征點(diǎn)后,Deepfake、FaceShifter和FaceSwap 在引入偏移特征后AUC 分?jǐn)?shù)都有0.059 1 到0.061 8 的提升,而Celeb-DF 有0.045 0 的提升,說明了細(xì)粒度時(shí)序特征引入的有效性及必要性。但是在Face2Face 和NeuralTexture 上的檢測(cè)性能反而降低了,其中Face2Face 變化不明顯,但NeuralTexture 的AUC 分?jǐn)?shù)下降了0.040 5。通過觀察數(shù)據(jù)可以發(fā)現(xiàn),相較于另外三個(gè)偽造算法,NeuralTexture 不自然的偽造痕跡更多體現(xiàn)在人臉器官的幾何特點(diǎn)上,所以偏移特征雖然引入了細(xì)粒度時(shí)序特征,卻弱化了模型對(duì)人臉特征點(diǎn)幾何特征的提取,導(dǎo)致NeuralTexture的效果反而變差。
而通過GRU-VAE 模型的結(jié)果可知,引入CNN 后,Deepfake、FaceShifter 和Celeb-DF 的AUC 分?jǐn)?shù)都有較大的提升,其他的也有少量提升。這說明CNN 引入的“分塊幀”局部特征有助于加強(qiáng)模型的鑒偽能力。
變分自編碼器的引入使多數(shù)方法的AUC 分?jǐn)?shù)都有不同程度的提升,說明相較于自編碼器,變分自編碼器通過引入噪聲使模型更加健壯,在深度偽造檢測(cè)上表現(xiàn)為增強(qiáng)了模型對(duì)個(gè)性時(shí)序特征的容納能力。但是NeuralTexture 上的性能降低了很多,這是因?yàn)閰^(qū)分NeuralTexture 需要的是幾何特征,而不斷增強(qiáng)的時(shí)序特征并沒有給區(qū)分NeuralTexture 帶來優(yōu)勢(shì),反而阻擾了模型對(duì)幾何信息的感知。
本文創(chuàng)新性地將時(shí)序數(shù)據(jù)異常檢測(cè)思想引入視頻的人臉偽造檢測(cè)中,提出了一種基于人臉特征點(diǎn)重構(gòu)誤差的無(wú)監(jiān)督人臉偽造視頻檢測(cè)框架。首先對(duì)待檢測(cè)視頻逐幀抽取人臉特征點(diǎn),并進(jìn)行特征點(diǎn)序列校準(zhǔn);其次,基于偏移特征、局部特征、時(shí)序特征等多粒度信息對(duì)待檢測(cè)視頻中的人臉特征點(diǎn)序列進(jìn)行重構(gòu);然后基于離散傅里葉變換計(jì)算原始序列與重構(gòu)序列之間的重構(gòu)誤差;最后根據(jù)重構(gòu)誤差的波峰頻率對(duì)偽造視頻進(jìn)行自動(dòng)檢測(cè)。實(shí)驗(yàn)結(jié)果表明,本文提出的無(wú)監(jiān)督方法能夠有效檢測(cè)現(xiàn)有大部分偽造方法生成的人臉偽造視頻,并在不同數(shù)據(jù)源間具有良好的移植性。未來的工作旨在更好地融合幾何特征和時(shí)序特征,同時(shí)希望能夠提升模型區(qū)分個(gè)性特征和偽造特征的能力,使其達(dá)到更好的精度。