◆曹秀蓮 湯益華
深度偽造檢測技術(shù)發(fā)展現(xiàn)狀研究
◆曹秀蓮1湯益華2通訊作者
(1.國家計算機網(wǎng)絡與信息安全管理中心湖南分中心 湖南 410029;2.中移電子商務有限公司 湖南 410221)
深度偽造可生成人類肉眼無法識別的虛假圖像和視頻,對個人隱私、網(wǎng)絡安全、社會穩(wěn)定和國家安全等造成了現(xiàn)實威脅,針對深度偽造的檢測和治理成為各國各界熱點關(guān)注的問題。近幾年,政府層面出臺了一系列深度偽造治理相關(guān)政策,研究人員則對深度偽造檢測技術(shù)進行了多維度深入研究。本文從基于神經(jīng)網(wǎng)絡架構(gòu)、基于時序特征、基于對抗生成網(wǎng)絡指紋特征、基于生物特征、基于區(qū)塊鏈技術(shù)等五個方面對深度偽造檢測技術(shù)的發(fā)展現(xiàn)狀進行了研究分析,并提出了關(guān)于未來研究方向的建議。
深度偽造檢測;神經(jīng)網(wǎng)絡;GAN;生物特征;區(qū)塊鏈
深度偽造(Deepfake)是一種使用生成對抗網(wǎng)絡等深度學習算法生成人類肉眼無法識別的虛假圖像、視頻的技術(shù)[1]。這項技術(shù)最早因2017年一個名為Deepfakes的用戶發(fā)布了一則以電影明星人臉替換色情視頻中人臉的視頻而引起關(guān)注。隨著深度偽造技術(shù)的不斷發(fā)展,其引發(fā)的網(wǎng)絡信息安全風險也隨之凸顯。2019 年 3 月,《華爾街日報》報道,有犯罪分子使用深度偽造技術(shù)成功模仿了英國某能源公司在德國母公司 CEO 的聲音,詐騙了22萬歐元;2019年6月,一款“一鍵脫衣”應用DeepNude受到追捧,上線幾個小時下載量便突破50萬,該應用只需上傳一張照片便可偽造出逼真的裸照;2021年10月,安徽警方查獲一起非法使用深度偽造技術(shù)偽造人臉動態(tài)視頻以破解身份核驗,為虛擬手機卡注冊等黑灰產(chǎn)業(yè)提供技術(shù)支撐的案件。2022年3月,一段烏克蘭總統(tǒng)澤連斯基對俄羅斯投降、俄羅斯總統(tǒng)普京宣布已實現(xiàn)和平的深度偽造視頻在Twitter等社交媒體上廣為流傳,誤導國際形勢??梢?,深度偽造的虛假信息可能導致個人名譽損害、財產(chǎn)損失,更嚴重者,可能操作社會輿論、沖擊社會信任體系、危害公共安全、影響國際關(guān)系,對網(wǎng)絡安全、個人乃至國家安全都可能造成威脅。
面對深度偽造技術(shù)帶來的挑戰(zhàn)與威脅,各國各界高度重視。政府監(jiān)管層面,各國紛紛出臺相關(guān)法律法規(guī)。我國2020起施行的《網(wǎng)絡音視頻信息服務管理規(guī)定》規(guī)定不得利用深度學習、虛擬現(xiàn)實等新技術(shù)新應用制作、發(fā)布、傳播虛假信息;《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》規(guī)定不得利用深度學習、虛擬現(xiàn)實等新技術(shù)新應用從事法律、行政法規(guī)禁止的活動;2021年起施行的《民法典》明確規(guī)定禁止任何組織或個人利用信息技術(shù)手段偽造等方式侵害他人的肖像權(quán)、聲音權(quán)。美國《2018年惡意偽造禁令法案》對制作深度偽造內(nèi)容而引發(fā)犯罪和侵權(quán)的個人,以及明知為深度偽造內(nèi)容仍繼續(xù)傳播的社交媒體平臺,進行罰款和監(jiān)禁,如果偽造內(nèi)容涉及煽動暴力、擾亂政府等,并造成嚴重后果的,監(jiān)禁將長達10年。歐盟2019年發(fā)布《人工智能道德準則》,將隱私和數(shù)據(jù)管理作為人工智能可信賴須滿足的七要素之一。技術(shù)研究層面,研究人員積極推進深度偽造檢測技術(shù)手段的研究與應用并取得進展。本文從基于神經(jīng)網(wǎng)絡架構(gòu)、基于時序特征、基于對抗生成網(wǎng)絡指紋特征、基于生物特征、基于區(qū)塊鏈技術(shù)等五個方向?qū)ψ钚碌纳疃葌卧鞕z測方法進行研究分析。
深度偽造檢測可以認為是一個二分類問題,基于神經(jīng)網(wǎng)絡的檢測方法是深度偽造檢測技術(shù)研究的重要方向。
Ivanov等人[2]重點研究了偽造內(nèi)容的分類,提出了一種基于深度學習和超分辨率算法的檢測方法,通過人臉不同區(qū)域和頭部位置之間的不兼容性來識別深度偽造內(nèi)容。El Rai等人[3]提出了一種通過CNN和殘余噪聲進行深度偽造檢測的方法,方法在應用小波變換作為去噪濾波器后,計算殘余噪聲并將其用作InceptionResNetV2 CNN模型的輸入,從而檢測視頻是否偽造。Malolan等人[4]專注于構(gòu)建可解釋且易于解釋的使用深度學習方法檢測深度偽造視頻的模型,模型在人臉數(shù)據(jù)庫中訓練CNN,并應用兩種可解釋的人工智能技術(shù)來可視化圖像的突出區(qū)域,即分層相關(guān)傳播(LRP)和局部可解釋模型不可知解釋(LIME),此外,作者還提供了一組關(guān)于熱圖、圖像切片和輸入擾動的模型預測的可解釋結(jié)果,表明了模型的旋轉(zhuǎn)不變性和對深度偽造圖像檢測任務的魯棒性。Wang等人[5]研究了3D ResNet、3D ResNeXt、I3D等三種不同的視頻CNN模型在偽造視頻方面的檢測能力,實驗結(jié)果表明,這些方法在測試集和訓練集采用相同的偽造方法時效果較好,而在未知偽造方法的數(shù)據(jù)集上效果大打折扣。Wodajo等人[6]將CNN模型與視覺轉(zhuǎn)換器(ViT)架構(gòu)相結(jié)合,利用VGG-16 CNN模型從視頻幀中提取特征,并在深度偽造檢測數(shù)據(jù)集DFDC上訓練,達到了91.5%的準確率、0.91的AUC(曲線下面積)值和0.32的損失值。Maksutov等人[7]使用編碼器計算人臉特征,并使用解碼器和CNN對這些特征進行分類,獲得令人滿意的AUC(曲線下面積)值和準確度。
深度偽造視頻通常是逐幀偽造再合成的,各幀之間存在時序不一致性,研究人員以此為切入點開展研究,事實證明基于時序特征的深度偽造檢測算法可行,且對偽造算法和數(shù)據(jù)集具有較強的泛化能力。
Shahroz等人[8]開發(fā)了一個基于卷積LSTM的殘差網(wǎng)絡(CLRNet),從視頻中獲取一系列連續(xù)圖像作為輸入,以學習有助于檢測深度偽造視頻各幀之間偽影的時序信息。另外,作者還提出了一種基于遷移學習的方法來概括不同的偽造算法。使用FaceForensics++[9]數(shù)據(jù)集實驗表明,與當前先進的檢測算法相比,該方法在使用相同模型檢測不同偽造算法所生成的深度偽造視頻時表現(xiàn)更好。Davide等人[10]通過將度量學習與對抗性訓練策略相結(jié)合來學習時序面部特征、特別說話時相應的動作,優(yōu)點是不需要任何偽造訓練數(shù)據(jù),只需在真實視頻上進行訓練。Zheng等人[11]提出了一個由兩階段組成的端到端框架,第一階段是全時序卷積網(wǎng)絡(FTCN),F(xiàn)TCN將空間卷積核大小減小到 1,并保持時序卷積核大小不變,這種設(shè)計有助于提取時序特征并提高模型泛化能力。第二階段是時序自注意力網(wǎng)絡,旨在探索長期的時序一致性。該方法無需任何預訓練模型或外部數(shù)據(jù)集,具有通用性和靈活性。實驗表明,該方法在檢測從未知深度偽造算法生成的視頻時依然有效,且能很好的泛化到訓練數(shù)據(jù)集之外的數(shù)據(jù)集上。Sun等人[12]提出了一個通過對精確幾何特征進行時間建模來檢測深度偽造視頻的框架LRNet。LRNet通過跟蹤方式對人臉關(guān)鍵點進行校準以提高幾何特征的精確度,并且構(gòu)建了一個雙流循環(huán)神經(jīng)網(wǎng)絡(RNN)以充分利用時序特征。與之前的方法相比,LRNet更輕量級、也更易訓練,且在檢測高壓縮或者高噪聲的視頻方面表現(xiàn)出強魯棒性。在 FaceForensics++ 數(shù)據(jù)集上,實驗結(jié)果AUC達到0.999,同時,在高度壓縮視頻測試上,AUC僅下降0.042。
研究人員發(fā)現(xiàn)使用生成對抗網(wǎng)絡(GAN)生成的圖像會留下痕跡,且不同生成對抗網(wǎng)絡對應的痕跡不同,此類痕跡可以理解為生成對抗網(wǎng)絡的指紋特征?;谏蓪咕W(wǎng)絡指紋特征的檢測方法可解釋性較強,對已知偽造算法生成的圖像檢測效果表現(xiàn)較好,但未知偽造算法時檢測效果不足。
Hsu等人[13]通過對比損失函數(shù)來檢測深度偽造圖像。首先采用DCGAN、WGAP、WGAN-GP、LSGAN、PGGAN等五種最先進的 GAN來生成真假圖像對;然后優(yōu)化DenseNet為雙流網(wǎng)絡結(jié)構(gòu)以允許成對信息作為輸入;之后使用成對學習來訓練偽造特征網(wǎng)絡以區(qū)分偽造圖像和真實圖像之間的特征;最后將分類層連接到偽造特征網(wǎng)絡以檢測輸入圖像是偽造的還是真的。實驗結(jié)果表明該方法明顯優(yōu)于其他最先進的偽造圖像檢測器。Frank等人[14]分析證明了GAN生成的圖像在頻率空間會表現(xiàn)出易識別的嚴重偽影,這些偽影由GAN結(jié)構(gòu)中的上采樣操作導致,也就是說GAN圖像生成過程中存在結(jié)構(gòu)性和根本性問題?;谶@些分析,作者研究了使用頻率表示來識別深度偽造圖像。Agarwal等人[15]描述了一種結(jié)合圖像頻譜和膠囊網(wǎng)絡的、用于檢測GANs偽造圖像的神經(jīng)模型。Giudice等人[16]檢測標識不同生成架構(gòu)的GAN特定頻率(GSF),通過采用離散余弦變換(DCT)來檢測到異常頻率,作者還進行了魯棒性測試,以證明該技術(shù)在JPEG 壓縮、鏡像、旋轉(zhuǎn)、縮放、添加隨機大小的矩形等不同攻擊情況下圖像檢測的有效性。
目前深度偽造算法對血流、心率、眨眼等人體生理特征的同步偽造考慮較少,因此研究人員考慮使用生理特征作為檢測深度偽造的指標。
Conotter等人[17]初步評估了面部血流變化區(qū)分計算機生成視頻和真實視頻的潛力,使用真假視頻各6個進行實驗,證明這個指標檢測計算機生成視頻是可能的。Ciftci等人[18]認為隱藏在肖像視頻中的生物信號可以用作真實性的隱含描述符,通過rPPG技術(shù)提取穩(wěn)健的生物學特征,并改進傳統(tǒng)分類器,在深度偽造視頻數(shù)據(jù)集FaceForensics++和Celeb DF[19]進行實驗,準確率分別為94.9%和91.5%。Qi等人[20]也提出了一種基于rPPG技術(shù)提取的特征的偽造檢測方法,該方法在FaceForensics++數(shù)據(jù)集上測試的準確率為100%,缺點是預處理階段要求較高,需要精確檢測81個面部標志點。Agarwal等人[21]介紹了一種基于生物特征的深度偽造檢測取證技術(shù),該技術(shù)結(jié)合了基于面部識別的靜態(tài)生物特征與基于面部表情和頭部運動的時序、行為生物特征,通過具有度量學習目標的 CNN 實現(xiàn)行為嵌入學習。Hernandez-Ortega等人[22]提出了一種基于生理測量的新型深度偽造檢測框架DeepFakesON-Phys,使用基于顏色的rPPG技術(shù)分析視頻序列,尋找人體皮膚中細微的顏色變化,揭示皮膚組織下人體血液的存在,以此進行心率估計,并基于心率估計視頻是否偽造。Jung等人[23]認為可以通過跟蹤視頻中人員眨眼模式的重大變化來進行視頻完整性驗證,從而判斷視頻是否偽造。具體來說,根據(jù)在很短的時間內(nèi)連續(xù)重復眨眼的周期、重復次數(shù)和眨眼時間來檢測視頻是否為偽造。實驗表明,該方法在內(nèi)部數(shù)據(jù)集中實現(xiàn)了87.5%的準確率。
區(qū)塊鏈技術(shù)通過智能合約和共識機制為數(shù)字內(nèi)容提供安全可信通道,可保證數(shù)字內(nèi)容的完整性和可追溯性?;趨^(qū)塊鏈技術(shù)的深度偽造檢測方法有望在源頭遏制深度偽造作品的傳播。
Hasan等人[24]提供了一種使用區(qū)塊鏈和智能合約打擊深度偽造視頻的解決方案和通用框架,每個視頻都與一個以太坊智能合約相關(guān)聯(lián),即使視頻被復制多次仍可通過智能合約對視頻的出處進行溯源,如果內(nèi)容可以可靠地追溯到可信來源,就認為視頻是真實而非偽造的。實驗證明該方案具有通用性,通用適用于視頻之外的其他數(shù)據(jù)內(nèi)容的偽造檢測。Fraga-Lamas等人[25]探索了分布式賬本技術(shù)和區(qū)塊鏈在打擊數(shù)字欺騙方面的潛力,調(diào)研當前舉措,分析當前面臨的挑戰(zhàn),給出了研究人員應對虛假新聞、虛假信息和深度偽造難題的建議。
深度偽造的快速發(fā)展和應用對個人隱私、網(wǎng)絡安全、社會穩(wěn)定和國家安全等造成了現(xiàn)實威脅,針對深度偽造的檢測和治理成為各國各界的熱點關(guān)注問題。近幾年,政府層面出臺了一系列深度偽造治理相關(guān)政策,研究人員則對深度偽造檢測技術(shù)進行了多維度深入研究,取得了較大進展,但仍存在一些問題,比如文獻[5]檢測方法的泛化性不足,在偽造方法上交叉檢測時結(jié)果不盡如人意;文獻[24]檢測方法面對海量互聯(lián)網(wǎng)數(shù)據(jù)的可擴展性問題等,且深度偽造技術(shù)與深度偽造檢測技術(shù)實為攻防博弈關(guān)系,深度偽造的發(fā)展隨時可能對深度偽造檢測帶來挑戰(zhàn)?;谇捌趯ι疃葌卧鞕z測技術(shù)發(fā)展現(xiàn)狀的調(diào)研,我們提出三點建議,希望能為深度偽造檢測的研究與應用提供參考。
(1)提升深度偽造檢測方法性能,尤其是泛化性能。大部分檢測方法都是基于相同偽造算法和數(shù)據(jù)集進行訓練和測試,泛化性能不能保證,而實際應用場景中,通常是不知道待檢測對象是由何種偽造算法生成的,針對某一特定偽造算法研究的檢測方法可能會失效。因此在檢測方法實驗過程中,建議重點交叉?zhèn)卧旌徒徊鏀?shù)據(jù)集場景下的性能指標,提升泛化能力。
(2)重點研究基于無監(jiān)督學習的檢測方法。清華大學人工智能研究院等五家單位聯(lián)合發(fā)布的《深度合成十大趨勢報告(2022)》顯示,在國內(nèi)外主流音視頻網(wǎng)站、社交媒體平臺上,2021年新發(fā)布的深度合成視頻的數(shù)量較2017年已增長10倍以上??梢娚疃葌卧靸?nèi)容數(shù)量正在呈爆發(fā)式增長,且互聯(lián)網(wǎng)中數(shù)字內(nèi)容是海量的,無監(jiān)督學習無需對內(nèi)容進行標記,應用更為方便。
(3)基于區(qū)塊鏈技術(shù)的檢測方法研究。當前區(qū)塊鏈技術(shù)發(fā)展還不夠成熟,可擴展性嚴重不足,目前難以應對互聯(lián)網(wǎng)海量資源的深度偽造檢測,但基于區(qū)塊鏈技術(shù)的檢測方法在泛化性方面優(yōu)勢明顯,且區(qū)塊鏈是我國“十四五”七大數(shù)字經(jīng)濟重點產(chǎn)業(yè)之一,政策利好之下,不失為基于區(qū)塊鏈技術(shù)的檢測方法研究與應用的好時機。
[1]Chesney R,Citron D. Deepfakes and the New Disinformation War[J]. Foreign affairs,2019,98(1):147-155.
[2]N.S. Ivanov,A. V. Arzhskov,V. G. Ivanenko. Combining deep learning and super-resolution algorithms for deep fake detection, in: IEEE Confer- ence of Russian Young Researchers in Electrical and Electronic Engineering(EIConRus),2020,pp. 326-328.
[3]M. C. El Rai,H. Al Ahmad,O. Gouda,et al. Fighting Deepfake by Residual Noise Using Convolutional Neural Networks,in:3rd International Conference on Signal Processing and Information Se- curity (ICSPIS),IEEE,2020,pp. 1-4.
[4]B. Malolan,A. Parekh,F(xiàn). Kazi. Explainable deep-fake detection using vi- sual interpretability methods,in:3rd International Conference on Informa-tion and Computer Technologies (ICICT),IEEExplore,2020,pp. 289-293.
[5]Y. Wang,A. Dantcheva. A video is worth more than 1000 lies. Comparing 3DCNN approaches for detecting deepfakes, in:15th IEEE International Conference on Automatic Face and Gesture Recognition(FG),IEEE,2020,pp. 515-519.
[6]D. Wodajo,S. Atnafu. Deepfake video detection using convolutional vision transformer,2021,arXiv:2102.11126.
[7]A. A. Maksutov,V. O. Morozov,A. A. Lavrenov,et al. Methods of deepfake detection based on machine learning,in: IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus),2020,pp. 408-411.
[8]Tariq S,Lee S,Woo S S . A Convolutional LSTM based Residual Network for Deepfake Video Detection,2020,. arXiv:2009.07480.
[9]A. Rossler,D. Cozzolino,L. Verdoliva,et al. Faceforensics++: Learning to detect manipulated facial images, in:Pro- ceedings of the IEEE/CVF International Conference on Computer Vision,2019,pp. 1-11.
[10]Davide Cozzolino,Andreas R?ssler,Justus Thies,et al. ID-Reveal:Identity-aware DeepFake Video Detection,2020, arXiv:2012.02512.
[11]Zheng Y,Bao J,Chen D,et al. Exploring Temporal Coherence for More General Video Face Forgery Detection,2021,arXiv:2108.06693.
[12]Sun Z,Han Y,Hua Z,et al. Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features,2021,arXiv:2104.04480.
[13]Hsu C C,Zhuang Y X,Lee C Y . Deep Fake Image Detection Based on Pairwise Learning[J]. Applied Sciences, 2020,10(1):370.
[14]J. Frank,T. Eisenhofer,L. Schonherr,et al. Leveraging frequency analysis for deep fake image recognition,2020,arXiv:2003.08685.
[15]S. Agarwal,N. Girdhar,H. Raghav. A novel neural model based framework for detection of gan generated fake images,in:11th International Confer- ence on Cloud Computing, Data Science Engineering (Confluence),2021,pp. 46–51.
[16]Giudice O,Guarnera L ,Battiato S . Fighting deepfakes by detecting GAN DCT anomalies[J]. Journal Imaging ,2021,7(8),128.
[17]Conotter V,Bodnari E,Boato G,et al. Physiologically-based detection of computer generated faces in video[C]// 2014 IEEE International Conference on Image Processing (ICIP). IEEE,2015.
[18]Ciftci U A,Demir I,Yin L . FakeCatcher: Detection of Synthetic Portrait Videos using Biological Signals[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020,PP(99):1-1.
[19]L. Yuezun,Y. Xin,S. Pu,et al. Celeb-df:A large- scale challenging dataset for deepfake forensics,in: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020,pp. 3207-3216.
[20]Qi H,Guo Q,Juefei-Xu F,et al. DeepRhythm: Exposing DeepFakes with Attentional Visual Heartbeat Rhythms[J]. ACM,2020.
[21]S. Agarwal,T. El-Gaaly,H. Farid,et al. Detecting deep-fake videos from appearance and behavior,in:IEEE Workshop on Image Forensics and Security,IEEExplore,2020,pp. 1-12.
[22]Hernandez-Ortega J,Tolosana R,F(xiàn)ierrez J,et al. DeepFakesON-Phys:DeepFakes Detection based on Heart Rate Estimation,2020,arXiv.2010.00400.
[23]Jung T H,Kim S,Kim K. DeepVision:Deepfakes Detection Using Human Eye Blinking Pattern[J]. IEEE Access, 2020,PP(99):1-1.
[24]Hasan H R ,Salah K. Combating Deepfake Videos Using Blockchain and Smart Contracts[J]. IEEE Access,2019:1-1.
[25]Fraga-Lamas P ,F(xiàn)ernandez-Carames T M. Fake News, Disinformation, and Deepfakes: Leveraging Distributed Ledger Technologies and Blockchain to Combat Digital Deception and Counterfeit Reality[J]. IT Professional,2020,22(2):53-59.