秦中元,賀兆祥,李濤,2,陳立全,2
基于圖像重構的MNIST對抗樣本防御算法
秦中元1,賀兆祥1,李濤1,2,陳立全1,2
(1. 東南大學網(wǎng)絡空間安全學院,江蘇 南京 211189;2. 網(wǎng)絡通信與安全紫金山實驗室,江蘇 南京 211189)
隨著深度學習的應用普及,其安全問題越來越受重視,對抗樣本是在原有圖像中添加較小的擾動,即可造成深度學習模型對圖像進行錯誤分類,這嚴重影響深度學習技術的發(fā)展。針對該問題,分析現(xiàn)有對抗樣本的攻擊形式和危害,由于現(xiàn)有防御算法存在缺點,提出一種基于圖像重構的對抗樣本防御方法,以達到有效防御對抗樣本的目的。該防御方法以MNIST為測試數(shù)據(jù)集,核心思路是圖像重構,包括中心方差最小化和圖像縫合優(yōu)化,中心方差最小化只針對圖像中心區(qū)域進行處理;圖像縫合優(yōu)化將重疊區(qū)域納入補丁塊選取的考量,并以補丁塊的1/2大小作為重疊區(qū)域。使用FGSM、BIM、DeepFool以及C&W攻擊方式生成對抗樣本來測試兩種方式的防御性能,并與現(xiàn)有的3種圖像重構防御方式(裁剪與縮放、位深度壓縮和JPEG壓縮)效果對比。實驗結果表明,所提中心方差最小化和圖像縫合優(yōu)化算法,對現(xiàn)有常見對抗樣本的攻擊起到了較好的防御效果。圖像縫合優(yōu)化對4種攻擊算法生成的樣本分類正確率都達到了75%以上,中心方差最小化的防御效果在70%左右。而用作對比的3種圖像重構算法則對不同攻擊算法的防御效果不穩(wěn)定,整體分類正確率不足60%。所提中心方差最小化和圖像縫合優(yōu)化兩種圖像重構防御算法達到了有效防御對抗樣本的目的,通過實驗說明了所提防御算法在不同對抗樣本攻擊算法中的防御效果,另外,將其他圖像重構算法與所提算法進行比較,說明了所提算法具有良好的防御性能。
對抗樣本;圖像重構;深度學習;圖像分類
自從深度學習的理論被提出以來,人們從未停止研究的腳步,并且在計算機視覺、語音數(shù)據(jù)處理以及自然語言處理等領域取得了顯著進展。對抗樣本是在不同的圖像中添加微小的擾動[1],這樣的擾動在人眼看來并沒有太大的差別,卻能夠改變神經(jīng)網(wǎng)絡對原有圖像的分類結果,這無疑是人工智能發(fā)展的嚴重阻礙。
對抗樣本在實際應用場景中的攻擊行為越來越受到研究者的重視。自動駕駛中的核心技術就是環(huán)境識別系統(tǒng),在行駛過程中需要識別周圍環(huán)境中的路況和各種標志。研究發(fā)現(xiàn),原本是表示停止標識的3塊交通指示牌,在添加擾動后均被識別為限速標志,這無疑會讓駕駛系統(tǒng)發(fā)出錯誤的行駛指令,甚至造成嚴重的交通事故[2]。由此可見,深度學習中的識別系統(tǒng)并不是完全安全可信的,如果以后自動駕駛逐漸普及,而有人惡意使用對抗樣本手段來進行攻擊,那將會嚴重威脅自動駕駛技術的發(fā)展和大眾的人身安全。
圖像分類是人工智能技術的重要領域之一,而且攻擊者已經(jīng)實現(xiàn)對于卷積神經(jīng)網(wǎng)絡的有效攻擊。文獻[3]通過對“小狗”“電器”等圖像添加擾動,卷積神經(jīng)網(wǎng)絡將其識別為“鴕鳥”類型,造成了精準的攻擊,這將對圖像分類任務造成重大威脅。對抗樣本的問題在人臉識別中同樣存在。現(xiàn)有人臉識別系統(tǒng)中,已經(jīng)加入對常見對抗樣本攻擊的防御措施,然而仍然有新的對抗樣本攻擊方法提出。在人臉圖片中不加入擾動,以高亮的貼片來混淆人臉系統(tǒng)的識別結果。一種攻擊方式方法是,在原始圖像中未添加擾動,只是戴上一個貼片形式的眼鏡,就能夠欺騙識別系統(tǒng)。如果該方法應用到刷臉支付場景中,將造成嚴重的財產(chǎn)安全問題[4]。
為消除圖像中的對抗性擾動,傳統(tǒng)圖像變換方式是通過對圖像數(shù)據(jù)集進行處理,如通過圖像旋轉的方式使對抗樣本的攻擊失效。顯然類似的圖像處理方法相比對抗樣本的產(chǎn)生過程過于簡單,只能以試探性的方式來抵御對抗樣本的攻擊。同時,對圖像的旋轉等操作,降低了神經(jīng)網(wǎng)絡對干凈樣本的分類正確率。因此,以圖像處理的方式提高分類模型對于對抗樣本的魯棒性,需要更加復雜的圖像處理。
因此,設計一種不依賴于圖像特征和神經(jīng)網(wǎng)絡分類模型的對抗樣本防御方法具有重要意義。卷積神經(jīng)網(wǎng)絡對圖像進行特征提取、設定模型參數(shù)、訓練網(wǎng)絡模型等操作,獲得了對圖像的識別和分類處理功能。然而對抗樣本的攻擊在神經(jīng)網(wǎng)絡中真實存在,為了保證神經(jīng)網(wǎng)絡的安全性和可靠性,需要考慮如何防御對抗攻擊。現(xiàn)有的對抗性訓練方式主要根據(jù)原始圖像和對抗樣本的特征差異,訓練具有魯棒性的深度學習模型[5],但該方式存在過擬合以及可遷移性不強等問題[6]。本文提出了一種新的圖像重構對抗樣本防御方法,該方法完全獨立于分類模型,具有明顯的可遷移性和普適性,能夠顯著提高目標分類器對于對抗樣本的分類正確率,從消除擾動入手,原理上具有很好的可解釋性。
從對抗樣本的生成機理方面,可將攻擊方法分為基于梯度優(yōu)化的攻擊算法和基于約束優(yōu)化的攻擊算法?;谔荻葍?yōu)化的生成對抗樣本典型算法有快速梯度符號法(FGSM)[7]、基本迭代法(BIM)[8]和DeepFool[9];基于約束優(yōu)化的對抗樣本生成算法包括C&W[10]算法等。
(1)快速梯度符號法
(2)基本迭代法
基本迭代法是FGSM諸多變式中的一種,BIM的改進方案是在干凈樣本上有限次數(shù)地迭代使用FGSM添加對抗性擾動,從而在約束條件內生成更強大的對抗樣本,如式(2)所示。
(3)DeepFool
(4)C&W算法
C&W算法的核心是將約束優(yōu)化策略轉換為無約束優(yōu)化的經(jīng)驗損失函數(shù)。
圖像重構是對圖像進行裁剪、壓縮等方式,生成新的圖像,新圖像生成的目標是盡可能多地去除輸入樣本的干擾信息,同時分類模型能夠對數(shù)據(jù)集進行正確分類。滿足以上條件的圖像處理方式,主要有圖像裁剪和縮放、位深度壓縮以及JPEG壓縮等方式。
Dziugaite等[14]提出了在對抗樣本中使用JPEG的方法消除對抗性擾動。在其實驗結果中,針對FGSM需要在較小擾動下才有一定的防御效果,但其對抗性仍然存在,處理后的分類正確率整體小于干凈樣本。另一種是以圖像重新縮放來進行對抗樣本去除擾動[15],Lu[16]使用FGSM和BIM來生成對抗樣本,并使用YOLO目標檢測算法來測試在現(xiàn)實世界中的識別成功率。實驗結果表明,針對這兩種算法的攻擊,目標檢測算法仍然能保持一定的識別成功率,但文獻[16]并未針對現(xiàn)有攻擊性更強的算法來進行測試,無法說明通過圖像縮放的方式能有效抵御所有對抗樣本的攻擊。
Guo等[17]提出了通過總方差最小化和圖像縫合[18]算法進行防御的思路,重構后的圖像有較高的分類正確率,說明了該方法的合理性??偡讲钭钚』惴ㄓ嬎阏鶊D像的總方差計算量巨大,耗費時間長,圖像縫合算法中對圖像的尺寸要求較大,補丁塊較小時不能反映圖像的特征[19],存在一定的優(yōu)化空間。
使用圖像重構防御對抗樣本存在以下兩個問題:如何保證修改的信息能夠去除對抗性擾動;如何在修改原始輸入后減少分類模型對干凈樣本的分類影響。
針對以上兩個在修改輸入過程中所面臨的問題,本文將兩種圖像處理中的算法進行優(yōu)化并結合使用,適應于對抗樣本的防御工作。本文算法包括中心方差最小化(TVM,total variance minimization)和圖像縫合(image quilting)優(yōu)化兩個步驟,具體原理框架如圖1所示。
圖1 圖像重構原理框架
Figure 1 Image reconstruction principle framework
中心方差最小化是以一個最小的差別將原始圖像中心區(qū)域重構,重構后的圖像能夠去除對抗樣本算法所添加的擾動信息。圖像縫合是通過建立一個圖像補丁庫的方式,對輸入的圖像進行打補丁,建立補丁庫只使用干凈樣本,破壞了對抗樣本在圖像中的結構,提高了圖像的分類準確率。
(1)總方差最小化
總方差最小化算法是以圖像壓縮方式將圖片重構的方法,在壓縮過程中因限制了變化的總方差最小而得名,該算法的基本原理如下。
然后,對于該集合可重構出一張圖片,此時所復現(xiàn)的圖像是一個最簡單的圖像,可能與原始圖像相差很大,那么采用計算方差的方式代表重構后與原始圖像的差別,即目標函數(shù)為
(2)算法改進
針對總方差最小化算法在重構過程中計算量大、耗費時間長等缺點,本文對其改進為中心方差最小化算法,僅對圖像的中心區(qū)域計算方差,具體優(yōu)化如下。
在優(yōu)化方面,本文對圖像的中心區(qū)域進行重構。在本文處理的MNIST手寫數(shù)字圖像數(shù)據(jù)集中,每幅圖像的尺寸為28×28。該灰度圖像中數(shù)字的大小占整體尺寸的40%~90%。因此,對中心區(qū)域進行處理,實際處理過程選取14×14大小的圖像進行重構,其余位置不作處理。原理演示過程如圖2所示。
圖2 中心尺寸選取演示
Figure 2 Illustration of center size selection
單幅圖像中的多個特征向量與原始圖像的像素點進行逐元素相乘,該過程以方差和最小為目標函數(shù)進行計算,最后,將修改后的像素點重構為新的圖像,該圖像將代表重構前的圖像進入分類模型進行分類。在該過程中,主旨思想是在提取特征向量后進行多次計算,以重構像素點和選取像素點的方差和最小為目標,所重構出的圖像中能有效去除對抗性擾動。
(1)圖像縫合算法
圖像縫合最初用于生成紋理圖像[18],當兩幅圖像的紋理統(tǒng)計信息相匹配,在人們的心理預期中這兩幅圖像是相似或者基本相同的。在防御對抗樣本中,圖像縫合使用補丁對圖像進行重構,在加入補丁時采用補丁覆蓋原始區(qū)域的方式進行,并采用近鄰原則選取合適的補丁來對圖像進行重構。同時,要求補丁塊圖像和原始圖像盡可能相似,二者之間的歐幾里得距離代表相似度,因此,計算補丁塊和原始圖像塊的距離,選取=1,將所有補丁塊分為兩類。滿足距離條件較小的補丁塊和原始圖像塊的相似度也較高,在符合距離條件較小的補丁塊中隨機選取一個來覆蓋原始圖像中的相應位置。評定補丁塊和原始圖像塊的相似度標準如下。
其中,是待重構圖像和補丁塊的歐幾里得距離,為一個補丁塊的像素點總個數(shù)。當補丁塊和原始圖像的相似度較高時,使用補丁塊圖像來代替原始圖像塊,當整幅圖像全部由補丁塊進行替換時,圖像重構完成,圖像縫合的流程描述如圖3所示。
Figure 3 Flowchart of image quilting algorithm
圖像縫合算法的實現(xiàn)過程中應用了干凈樣本來創(chuàng)建補丁塊數(shù)據(jù)庫,將該數(shù)據(jù)庫應用于縫合過程中補丁塊的選取,去除了縫合前圖像中的擾動信息,經(jīng)過縫合重構的圖像完全是由干凈樣本的圖像塊組成的,因此能在神經(jīng)網(wǎng)絡中有良好的分類表現(xiàn)。另外,在圖像縫合過程中,選取了近鄰的補丁塊中空間距離較小的補丁塊,這樣重構的圖像能滿足在誤差范圍內的要求,盡可能達到整體誤差最小的目標。但是,該算法設計時采用ImageNet中尺寸為224×224的圖像數(shù)據(jù)集,需要的圖像尺寸較大,針對其他數(shù)據(jù)集不能很好地適應,重構后的圖像在拼接邊緣存在分界明顯等缺點,仍存在一定的優(yōu)化空間。
(2)圖像縫合算法的優(yōu)化
針對MNIST圖像尺寸較小的特征情況,對圖像縫合算法進行適度改進和優(yōu)化。在原始圖像縫合中,需要待縫合的圖像尺寸較大,能夠分割出足夠多的補丁塊位置,并從數(shù)據(jù)庫中選取補丁塊來進行縫合。MNIST圖像不能像ImageNet圖像一樣提供224×224大小的尺寸,并且可以劃分為多塊。對此,結合MNIST圖像的尺寸特征,本文選取4×4大小的正方形作為分割塊,將圖像按行和列分割為13×13個補丁塊位置。
在創(chuàng)建補丁塊數(shù)據(jù)庫的過程中,選取10 000張MNIST干凈樣本,將其劃分為補丁塊添加到數(shù)據(jù)庫中,在進行圖像縫合時將數(shù)據(jù)庫中的補丁塊與圖像中的位置進行匹配,按照從左到右、從上到下的順序依次進行,圖片縫合的模擬演示過程如圖4所示。當一幅圖像上的所有位置匹配完成時,該圖像重構完成,代替縫合前的圖像進入分類模型中。
圖4 圖像縫合過程重疊區(qū)域演示
Figure 4 Illustration of overlapping areas during image quilting process
為了解決補丁塊拼接邊界不平滑的問題,設定相鄰補丁塊之間存在一定的重疊區(qū)域,該區(qū)域設定為4×2大小,即每個補丁與右側或下方的重疊區(qū)域占總面積的1/2。
(1)運行時間
計算方差純粹依賴CPU的性能而無法使用GPU進行加速,所以運行速度相當緩慢,本文采用的中心方差最小化是對原算法計算效率的優(yōu)化。在本實驗中所使用的硬件設備為Intel i7處理器和8 GB運行內存,軟件環(huán)境為庫函數(shù)numpy,實驗結果如表1所示。
表1 總方差和中心方差最小化算法性能對比
由表1中數(shù)據(jù)可以看出,在使用MNIST原始尺寸時,重構100幅圖像共耗費4個多小時,而針對14×14尺寸的100幅圖像進行重構,重構時間還不到原始尺寸下的25%,大幅度提高了計算方差過程中的運行效率。
另外,兩種算法生成的MNIST干凈樣本在分類器上的分類正確率分別為86%和84%。由此可見,中心方差最小化算法相比總方差最小化算法在最后的準確率上略有降低,正確率的變化較小且在可接受的范圍內,而效率的明顯提升是本文算法帶來的主要改進。
(2)結果與分析
使用FGSM、BIM、DeepFool以及C&W對抗樣本算法來生成MNIST測試集,通過中心方差最小化將對抗樣本進行重構,重構后的圖像分類正確率如表2所示。由表2中數(shù)據(jù)可知,當全部使用對抗樣本作為測試數(shù)據(jù)集時,整體正確率維持在68%~70%。中心總方差最小化對以上攻擊能起到一定的防御作用。
(1)對抗樣本圖像重構
本文實驗使用MNIST干凈樣本作為原始數(shù)據(jù)集,通過C&W攻擊生成對抗樣本,然后通過圖像縫合優(yōu)化的方式進行圖像重構,經(jīng)過處理后的圖像如圖5所示。
表2 中心方差最小化防御性能
圖5 干凈樣本、對抗樣本和縫合后樣本(從左到右)
Figure 5 Clean samples, adversarial samples, and quilted samples (from left to right)
將對抗樣本與重構后的圖像對比,可發(fā)現(xiàn)兩方面不同。一方面,整體圖像上的噪聲點消失。使用補丁塊進行縫合后的圖像中,由于補丁塊均來源于干凈樣本,所以在重構后的圖像中不包含噪聲點。另一方面,重構后的圖像在數(shù)字邊緣鋸齒更明顯,相比原始圖像造成了一定的改變,但仍能保持較好的相似性。
(2)防御性能測試
針對FGSM、BIM、DeepFool和C&W對抗樣本攻擊算法進行測試。為了保證圖像縫合優(yōu)化的防御方案不影響干凈樣本正常分類,本文實驗中也對干凈樣本進行圖像縫合操作,其防御性能如表3所示。
表3 圖像縫合優(yōu)化防御性能
由表3中數(shù)據(jù)可以看出,基于圖像縫合優(yōu)化的對抗樣本防御方案在使用MNIST數(shù)據(jù)集的情況下有較好的防御效果,對于對抗樣本重構后的圖像能保持75%以上的分類正確率,防御效果良好。
(1)圖像重構算法對比
常見的圖像變換算法還有圖像裁剪與縮放、位深度壓縮和JPEG壓縮等,本文將以上3種圖像變換算法作為對抗樣本防御的方法進行測試,并將測試結果與本文提出的兩種方法進行對比。5種圖像重構算法的參數(shù)情況如表4所示。
表4 5種圖像重構算法的參數(shù)情況
經(jīng)過重構處理后的5種圖像數(shù)據(jù)輸入分類器,在該步驟中,不使用重構后的圖像對分類器進行訓練,保證分類器對于樣本的分類能更接近干凈樣本。表5中展示了干凈樣本經(jīng)過5種圖像處理算法后的分類正確率。
表5 5種算法對干凈樣本分類的影響
由表5中數(shù)據(jù)可知,在干凈樣本作為數(shù)據(jù)集時,本文所提出的兩種方法對干凈樣本的分類正確率維持在85%左右,對干凈樣本降低了一定的分類正確率,但仍然在可接受的范圍內。其中,中心方差最小化算法重構圖像耗費時間較長,重構10 000幅的防御效果和100幅沒有明顯區(qū)別,所以本文選取了100幅圖像進行重構。
(2)對各種攻擊的防御效果
在圖6中,整體分為針對FGSM、BIM、DeepFool以及C&W這4種攻擊算法的防御效果,每一部分從左到右依次是JPEG、中心方差最小化、位深度壓縮、圖像縫合優(yōu)化、圖像裁剪與縮放5種防御方式下對抗樣本的分類正確率。
圖6 5種圖像重構算法對4種攻擊算法的防御結果
Figure 6 Defense results of five image reconstruction algorithms against four attack algorithms
從最終的圖像分類正確率上來看,最高的是圖像縫合優(yōu)化,對4種攻擊算法的防御都達到了75%以上,其次是中心方差最小化,該算法對4種攻擊的防御效果也比較均衡,基本維持在70%。而剩余3種圖像重構算法則對不同攻擊算法的表現(xiàn)不穩(wěn)定,且整體分類正確率不足60%。本文提出的兩種算法不依賴攻擊方式,防御性能較好。需要指出的是,圖像縫合優(yōu)化防御效果比中心方差最小化好,前提條件是要先構建補丁庫,需要較多的干凈樣本數(shù)據(jù)集,而中心方差最小化則不需要數(shù)據(jù)集,這是它的優(yōu)勢。
本文分別設計并實現(xiàn)了基于中心方差最小化的圖像重構和基于圖像縫合優(yōu)化的圖像重構兩種算法。在基于中心方差最小化的圖像重構中,針對MNIST圖像的尺寸特點,采用圖像的中心區(qū)域計算方差,以方差和最小化作為目標函數(shù),對待測樣本進行了圖像重構;在圖像縫合優(yōu)化中,原算法所對應的圖像需要有較大的尺寸,本文實驗合理設計了補丁塊的大小,并且將重疊區(qū)域納入補丁塊選取的考量中。本文的圖像重構防御算法可進行一定修改用于其他圖像數(shù)據(jù)集,有較好的通用性。本文通過實驗說明了本文防御算法在不同對抗樣本攻擊算法中的防御效果,另外,將其他圖像重構算法與本文算法進行比較,說明本文算法具有良好的防御性能。
[1] SIMONVAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//Proceedings of 3rd International Conference on Learning Representations (ICLR 2015). 2015.
[2] EYKHOLT K, EVTIMOV I, FERNANDES E, et al. Robust physical-world attacks on deep learning visual classification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2018.
[3] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[C]//Proceedings of 2nd International Conference on Learning Representations (ICLR 2014). 2014.
[4] SHARIF M, BHAGAVATULA S, BAUER L, et al. Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition[C]//Proceedings of the 2016 ACM SIGSAC Conference. 2016.
[5] PRASAD A, SUGGALA A S, BALAKRISHNAN S, et al. Robust estimation via robust gradient estimation[J]. Journal of the Royal Statistical Society Series B, 2020, 82(3): 601-627.
[6] 宋蕾, 馬春光, 段廣晗. 機器學習安全及隱私保護研究進展[J]. 網(wǎng)絡與信息安全學報, 2018, 4(8): 1-11.
SONG L, MA C G, DUAN G H. Machine learning security and privacy:a survey[J]. Chinese Journal of Network and Information Security, 2018, 4(8): 1-11.
[7] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[C]//Proceedings of 3rd International Conference on Learning Representations (ICLR 2015). 2015.
[8] KURAKIN A, GOODFELLOW I J, BENGIO S. Adversarial examples in the physical world[C]//Proceedings of 5th International Conference on Learning Representations (ICLR 2017). 2017.
[9] MOOSAVI-DEZFOOLI S, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 2574-2582.
[10] CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//Proceedings of 2017 IEEE Symposium on Security and Privacy (SP). 2017.
[11] LECUN Y, BOTTOU L. Gradient-based learning applied to document recognition [C]//Proceedings of the IEEE. 1998: 2278-2324.
[12] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2015). 2015.
[13] 劉西蒙, 謝樂輝, 王耀鵬, 等. 深度學習中的對抗攻擊與防御[J]. 網(wǎng)絡與信息安全學報, 2020, 6(5): 36-53.
LIU X M, XIE L H, WANG Y P, et al. Adversarial at tacks and defenses in deep learning[J]. Chinese Journal of Network and Information Security, 2020, 6(5): 36-53.
[14] DZIUGAITE G K, GHAHRAMANI Z, ROY D M. A study of the effect of JPG compression on adversarial images[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016.
[15] 嚴飛, 張銘倫, 張立強. 基于邊界值不變量的對抗樣本檢測方法[J].網(wǎng)絡與信息安全學報, 2020, 6(1): 38-45.
YAN F, ZHANG M L, ZHANG L Q. Adversarial examples detection method based on boundary values invariants[J]. Chinese Journal of Network and Information Security, 2020, 6(1): 38-45.
[16] LU J. No need to worry about adversarial examples in object detection in autonomous vehicles[EB].
[17] GUO C, RANA M, CISSE M, et al. Countering adversarial images using input transformations[C]//The 6th International Conference on Learning Representations (ICLR 2018). 2018.
[18] EFROS A A, FREEMAN W T. Image quilting for texture synthesis and transfer[C]//Proceedings of the ACM SIGGRAPH Conference on Computer Graphics. 2001: 341-346.
[19] BOYKOV Y, VEKSLER O, ZABIH R. Fast approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222-1239.
Adversarial example defense algorithm for MNIST based on image reconstruction
QIN Zhongyuan1, HE Zhaoxiang1, LI Tao1,2, CHEN Liquan1,2
1. School of Cyber Science and Engineering, Southeast University, Nanjing 211189, China 2. Network Communication and Security Purple Mountain Laboratory, Nanjing 211189, China
With the popularization of deep learning, more and more attention has been paid to its security issues. The adversarial sample is to add a small disturbance to the original image, which can cause the deep learning model to misclassify the image, which seriously affects the performance of deep learning technology. To address this challenge, the attack form and harm of the existing adversarial samples were analyzed. An adversarial examples defense method based on image reconstruction was proposed to effectively detect adversarial examples. The defense method used MNIST as the test data set. The core idea was image reconstruction, including central variance minimization and image quilting optimization. The central variance minimization was only processed for the central area of the image. The image quilting optimization incorporated the overlapping area into the patch block selection. Considered and took half the size of the patch as the overlap area. Using FGSM, BIM, DeepFool and C&W attack methods to generate adversarial samples to test the defense performance of the two methods, and compare with the existing three image reconstruction defense methods (cropping and scaling, bit depth compression and JPEG compression). The experimental results show that the central variance minimization and image quilting optimization algorithms proposed have a satisfied defense effect against the attacks of existing common adversarial samples. Image quilting optimization achieves over 75% classification accuracy for samples generated by the four attack algorithms, and the defense effect of minimizing central variance is around 70%. The three image reconstruction algorithms used for comparison have unstable defense effects on different attack algorithms, and the overall classification accuracy rate is less than 60%. The central variance minimization and image quilting optimization proposed achieve the purpose of effectively defending against adversarial samples. The experiments illustrate the defense effect of the proposed defense algorithm in different adversarial sample attack algorithms. The comparison between the reconstruction algorithm and the algorithm shows that the proposed scheme has good defense performance.
adversarial example, image reconstruction, deep learning, image classification
s: TheNational Key R&D Program of China (2020YFE0200600), The National Natural Science Foundation of China (61601113)
TP393
A
10.11959/j.issn.2096?109x.2021095
秦中元(1974?),男,河南安陽人,博士,東南大學副教授,主要研究方向為人工智能安全、無線網(wǎng)絡安全。
賀兆祥(1995?),男,山東臨沂人,東南大學碩士生,主要研究方向為人工智能安全、無線網(wǎng)絡安全。
李濤(1984?),男,江蘇鎮(zhèn)江人,博士,東南大學副教授,主要研究方向為可信計算、移動終端安全、內生安全。
陳立全(1976?),男,廣西玉林人,博士,東南大學教授、博士生導師,主要研究方向為移動信息安全、物聯(lián)網(wǎng)系統(tǒng)與安全、云計算及大數(shù)據(jù)安全。
2021?06?01;
2021?09?14
秦中元,zyqin@seu.edu.cn
國家重點研發(fā)計劃(2020YFE0200600);國家自然科學基金(61601113)
秦中元, 賀兆祥, 李濤, 等. 基于圖像重構的MNIST對抗樣本防御算法[J]. 網(wǎng)絡與信息安全學報, 2022, 8(1): 86-94.Citation Format: QIN Z Y, HE Z X, LI T, et al. Adversarial example defense algorithm for MNIST based on image reconstruction[J]. Chinese Journal of Network and Information Security, 2022, 8(1): 86-94.