王儷蓉,關(guān)志濤
(華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,北京 102206)
作為人工智能領(lǐng)域的重要分支,深度神經(jīng)網(wǎng)絡(luò)被廣泛運(yùn)用在自動(dòng)駕駛[1]、智能安防[2]、人臉識(shí)別[3]、醫(yī)學(xué)圖像處理[4,5]等領(lǐng)域.而隨著圖形處理器的飛速發(fā)展以及計(jì)算機(jī)自身硬件能力的不斷提升,算力得到了跨越式的提高,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用不再局限于分類任務(wù)[6],被逐步應(yīng)用到目標(biāo)檢測(cè)[7]、圖像分割[8]、圖像融合[9]等復(fù)雜的圖像處理任務(wù),深度學(xué)習(xí)逐漸展現(xiàn)出其無(wú)可比擬的能力[10].深度學(xué)習(xí)的強(qiáng)大是由于其出色的表征及學(xué)習(xí)能力,深度神經(jīng)網(wǎng)絡(luò)能夠從輸入的樣本中逐層提取特征,淺層網(wǎng)絡(luò)提取圖像表層的空間特征,深層網(wǎng)絡(luò)提取高階的語(yǔ)義特征,二者相結(jié)合共同表征圖像所蘊(yùn)含的特征[11].
雖然深度學(xué)習(xí)已經(jīng)被證明具有十分卓越的數(shù)據(jù)處理能力,但其本身仍存在一些缺陷,影響了深度學(xué)習(xí)模型的安全性.2015年,Szegedy等人[10]發(fā)現(xiàn),在被深度神經(jīng)網(wǎng)絡(luò)分類正確的干凈樣本上添加一點(diǎn)微小的噪聲,生成一張人眼看上去與原圖幾乎沒(méi)有差別的新圖像,將其再次輸入模型后卻會(huì)得到錯(cuò)誤的預(yù)測(cè)結(jié)果.這樣被修改后的樣本被稱為對(duì)抗樣本(adversarial samples),所添加的微量的噪聲被稱為對(duì)抗擾動(dòng)(adversarial perturbation).2014年,Goodfellow基于對(duì)抗樣本提出了對(duì)抗攻擊的概念,即對(duì)原本能夠正確識(shí)別干凈樣本的目標(biāo)模型,輸入修改后的對(duì)抗樣本,雖然肉眼察覺(jué)不出變化,但模型卻能以很高的置信度將其識(shí)別為錯(cuò)誤類別[12].
在2018年,Jiawei Su等人提出了單像素攻擊算法[13],限制修改的像素點(diǎn)個(gè)數(shù),而對(duì)于擾動(dòng)強(qiáng)度并不加以約束,從而實(shí)現(xiàn)用極少量的像素點(diǎn)實(shí)現(xiàn)高維空間上的攻擊.不同于其他需要通過(guò)不斷反向傳播以對(duì)整張圖像添加擾動(dòng)來(lái)實(shí)現(xiàn)攻擊的對(duì)抗攻擊方法,單像素攻擊是一種只修改單個(gè)像素點(diǎn)的前向傳播算法.單像素攻擊方法拓寬了圖像對(duì)抗樣本的探索邊界,考慮了極限條件下的對(duì)抗樣本生成,利用差分進(jìn)化(Differential Evolution,DE)算法求解最優(yōu)擾動(dòng),將擾動(dòng)像素的空間坐標(biāo)信息(x,y)及修改值RGB編碼為五元組(x,y,R,G,B).單像素攻擊的基本思想如公式(1)所示,其中x=(x1,x2,…,xn)表示原始輸入樣本,modelc(·)表示深度神經(jīng)網(wǎng)絡(luò),向量e(x)=(x,y,R,G,B)表示所添加的擾動(dòng),分別表示原圖上的目標(biāo)擾動(dòng)點(diǎn)坐標(biāo)(x,y)以及該點(diǎn)處的RGB值.尋找對(duì)抗樣本的過(guò)程就是在約束d下找到最優(yōu)解e(x)*,此處限制擾動(dòng)像素的個(gè)數(shù)d=1.
(1)
單像素攻擊基于標(biāo)準(zhǔn)差分進(jìn)化算法生成對(duì)抗樣本,依據(jù)神經(jīng)網(wǎng)絡(luò)的反饋結(jié)果引導(dǎo)擾動(dòng)的進(jìn)化方向,直至擾動(dòng)收斂或訓(xùn)練過(guò)程達(dá)到最高迭代次數(shù)[14].僅通過(guò)差分進(jìn)化實(shí)現(xiàn)攻擊使得單像素攻擊方法無(wú)可避免的存在一些差分進(jìn)化自身所具有的缺陷.進(jìn)化算法對(duì)控制參數(shù)以及變異策略比較敏感,求解的優(yōu)劣依賴于種群規(guī)模以及迭代次數(shù)的設(shè)定,為了能夠求得全局最優(yōu)解,需要在大規(guī)模的種群中進(jìn)行多輪迭代搜尋,而計(jì)算量的增加會(huì)導(dǎo)致效率低下,造成求解速度慢.其次,由于進(jìn)化算法局部搜索能力不足,導(dǎo)致求解過(guò)程容易陷入局部最優(yōu)解,造成早熟收斂以及搜索停滯的問(wèn)題[15].由于差分進(jìn)化算法容易陷入局部最優(yōu)解,且求解速度慢,而單像素攻擊完全基于差分進(jìn)化算法開(kāi)展攻擊,故存在差分進(jìn)化算法所具有的弊端,攻擊效率低下.
基于以上問(wèn)題,本文提出基于注意力的兩段式單像素對(duì)抗樣本生成方法,主要貢獻(xiàn)如下:
1)在單像素攻擊中引入注意力機(jī)制,將暴力求解五維擾動(dòng)的過(guò)程分解為兩個(gè)階段,避免單一使用搜索算法進(jìn)行求解,提高了攻擊效率.
2)首先利用類激活圖生成方法確定候選擾動(dòng)區(qū)域,在此基礎(chǔ)上生成對(duì)抗樣本,提高了單像素對(duì)抗樣本的可遷移性.
3)本文在CIFAR-10數(shù)據(jù)集上針對(duì)3種深度學(xué)習(xí)模型分別進(jìn)行攻擊,并與單像素攻擊方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明本文的方法在攻擊成功率上有7.61%的提高.同時(shí)在隱蔽性上與其他類型的對(duì)抗樣本進(jìn)行比較,證明本文生成的對(duì)抗樣本隱蔽性更好.
自從對(duì)抗樣本問(wèn)世以來(lái),越來(lái)越多對(duì)抗攻擊方法被提出,深度學(xué)習(xí)的安全性受到威脅.對(duì)抗攻擊能夠有效實(shí)施的原因在于模型的訓(xùn)練集不可能覆蓋所有可能的樣本,所以訓(xùn)練得出的模型只能擬合極小部分已知的樣本,導(dǎo)致模型擬合邊界與所期望的真實(shí)決策邊界有偏差,這部分偏差就是對(duì)抗樣本所存在的空間[16].對(duì)抗攻擊可以被形式化為有約束的最優(yōu)化問(wèn)題,基本思想如公式(2)所示:
(2)
其中f表示目標(biāo)函數(shù),x表示原始輸入樣本,e(x)為所添加的擾動(dòng).求解擾動(dòng)的過(guò)程就是在獲取使得模型f對(duì)樣本分類錯(cuò)誤的最小改變量.
對(duì)抗攻擊按照攻擊目標(biāo)可以分為目標(biāo)攻擊和非目標(biāo)攻擊,目標(biāo)攻擊使得目標(biāo)模型將輸入誤分類為指定類別,而非目標(biāo)攻擊只需要目標(biāo)模型預(yù)測(cè)的類別與正確類別不同即可.快速梯度攻擊算法(Faster Gradient Sign Method,FGSM)由Goodfellow提出[12],算法的主要思想是首先確定損失函數(shù)梯度變化最快的方向,即“梯度的梯度”,在此方向上添加噪聲,導(dǎo)致模型分類錯(cuò)誤.FGSM為后續(xù)基于梯度變化生成對(duì)抗擾動(dòng)的方法奠定了基礎(chǔ),在FGSM之后,提出了一種迭代的FGSM方法——BIM(the Basic Iterative Method)[17],不同于FGSM只在梯度方向上添加一次擾動(dòng),BIM迭代的在梯度方向上添加小的擾動(dòng),每次添加擾動(dòng)后都需要重新計(jì)算一次梯度,這樣的方式帶來(lái)了精度的大幅提高,但不可避免地帶來(lái)了過(guò)量的計(jì)算代價(jià).深度欺騙攻擊DeepFool[18]也是一種基于迭代的攻擊方法,每次為圖像添加一個(gè)小的擾動(dòng)向量,逐漸向模型擬合的決策邊界靠近,直至原始輸入樣本被移動(dòng)至邊界的另一邊,造成模型誤分類.Papernot等人[19]提出了雅可比映射攻擊(Jacobian-based Saliency Map Attack,JSMA),通過(guò)計(jì)算模型前向傳播的梯度來(lái)確定輸入圖像的哪些像素點(diǎn)會(huì)對(duì)模型預(yù)測(cè)結(jié)果產(chǎn)生更大的影響,以此來(lái)確定需要擾動(dòng)哪些像素點(diǎn).
不同于以上僅針對(duì)單張樣本尋找對(duì)抗擾動(dòng)的方法,Mossavi-Dezfooli[20]等提出了通用對(duì)抗擾動(dòng)生成算法(Universal Adversarial Perturbations,UAP),對(duì)為數(shù)據(jù)集中的樣本生成通用擾動(dòng),使得所有樣本添加相同的擾動(dòng)之后都能成功實(shí)現(xiàn)攻擊.
近幾年隨著生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[21]的興起,因其強(qiáng)大的學(xué)習(xí)能力和遷移性,GAN逐漸被應(yīng)用在對(duì)抗攻擊方法中.Baluja[22]首次提出ATN方法,利用GAN生成對(duì)抗樣本.Xiao等人[23]在基于神經(jīng)網(wǎng)絡(luò)生成的攻擊算法中首次引入了GAN的思想,提出了包含生成器、鑒別器和目標(biāo)模型的AdvGAN網(wǎng)絡(luò),將隨機(jī)輸入生成器的噪聲經(jīng)過(guò)鑒別器的不斷訓(xùn)練,轉(zhuǎn)化成可以實(shí)現(xiàn)攻擊的有效的對(duì)抗擾動(dòng).擾動(dòng)的隱蔽性由GAN中的對(duì)抗損失來(lái)約束.2020年,劉恒[24]等人將通用對(duì)抗擾動(dòng)與生成式對(duì)抗網(wǎng)絡(luò)結(jié)合,通過(guò)GAN的訓(xùn)練,使得生成器可以制作出通用性對(duì)抗擾動(dòng).在CIFAR-10數(shù)據(jù)集上實(shí)現(xiàn)了89%的攻擊成功率.
此外,還有許多其他形式的對(duì)抗攻擊方法.Xiao等人[25]提出了stAdv(Spatially Transformed Adversarial)方法.對(duì)局部圖像特征進(jìn)行平移、扭曲等空域變化.Athalye等人提出的BPDA(Backward Pass Differentiable Approximation)則針對(duì)破碎梯度策略來(lái)生成對(duì)抗樣本.破碎梯度策略是一種用于防御FGSM等基于梯度的對(duì)抗攻擊的方法,首先將輸入樣本通過(guò)一個(gè)不可微函數(shù)進(jìn)行預(yù)處理,使得后續(xù)模型得到的結(jié)果也不可微,攻擊者也就無(wú)從計(jì)算模型梯度.BPDA的主體思想是在反向傳播求解梯度時(shí)通過(guò)一個(gè)可微的函數(shù)來(lái)近似梯度,生成對(duì)抗樣本[26].
受針對(duì)注意力的攻擊(Attack on Attention,AoA)[27]方法的啟發(fā),本文首次在單像素攻擊中引入注意力機(jī)制.利用類激活圖生成方法Grad-CAM(Gradient-weighted Class Activation Mapping)[28],提出一種基于注意力的兩段式單像素攻擊方法(Attention based Two-stage One Pixel Attack,ATOA),避免單像素對(duì)抗樣本生成過(guò)程中單一使用差分進(jìn)化,同時(shí)也使得對(duì)抗樣本具有較高的可遷移性.
本文所提算法ATOA的整體框架如圖1所示,其中X為原始樣本,L為樣本真實(shí)標(biāo)簽,modelc表示訓(xùn)練好的目標(biāo)分類模型,models表示類激活圖生成模型,XS為所生成的類激活圖,pos是坐標(biāo)信息(x,y)的候選解集,為后續(xù)求解擾動(dòng)劃定候選區(qū)域,X′為候選對(duì)抗樣本,在所有的候選對(duì)抗樣本中進(jìn)行選擇,保留最優(yōu)解進(jìn)入下一次循環(huán),X*為最終生成的對(duì)抗樣本.
圖1 方案框架圖Fig.1 Framework diagram of the method
由圖1所示的算法框架圖可知,ATOA整體被分為兩個(gè)階段,第1階段是基于注意力的候選區(qū)域求解算法,用以獲取所有候選像素的坐標(biāo)集pos;第2階段是基于差分進(jìn)化的求解算法,經(jīng)過(guò)多輪迭代,搜索最佳坐標(biāo)(x,y)及該像素上攻擊效果最好的RGB值,最終輸出最優(yōu)對(duì)抗樣本X*.兩個(gè)階段的具體求解過(guò)程分別在3.2節(jié)以及3.3節(jié)中詳細(xì)展開(kāi).
首先,為了獲得像素坐標(biāo)(x,y)的候選集,需要計(jì)算類激活圖來(lái)篩選候選區(qū)域,以便縮小候選坐標(biāo)范圍.針對(duì)輸入的原始樣本,利用Grad-CAM生成該輸入樣本的類激活圖Xs.
(3)
(4)
步驟2.將特征圖的所有通道線性組合.
步驟3.將上一步組合得到的結(jié)果送入激活函數(shù)ReLU進(jìn)一步處理.這是由于在計(jì)算類激活映射的值時(shí),只希望得到與計(jì)算正相關(guān)的特征.故利用ReLU的特性去除負(fù)相關(guān)的部分,將步驟2、步驟3組合即獲得公式(5):
(5)
在本文的方案設(shè)計(jì)中利用RGB三通道來(lái)表示每張圖像.與常見(jiàn)的熱力圖(heat map)相似,可以認(rèn)為圖像上與類別相關(guān)度越高的區(qū)域,響應(yīng)值就越高,在熱力圖中高亮顯示.這一特性在類激活圖上顯式表示為該區(qū)域RGB3個(gè)通道中代表紅色屬性的R(Red)分量高.R分量高代表該像素點(diǎn)對(duì)計(jì)算得到高Sc起正作用.根據(jù)類激活圖的這一特性,本文選擇R分量作為像素重要程度的評(píng)判依據(jù),將Xs中R分量最大的像素作為進(jìn)入第2階段進(jìn)行迭代的候選點(diǎn).但是大部分情況下,一張圖像上并非只有一個(gè)R分量最高的點(diǎn),所以對(duì)于每張輸入圖像,都將得到一個(gè)候選解集pos,用以保存圖上所有R分量最大的坐標(biāo)(x,y).
在此階段,獲得位置信息(x,y)的候選解集,長(zhǎng)度大于等于1.
在第2階段,利用差分進(jìn)化的思想,第1步初始化,第2步變異,第3步選擇,最終求得最優(yōu)五維擾動(dòng)解.
步驟1.初始化.首先隨機(jī)生成候選值RGB的初始解集D.在RGB的搜索空間[min,max]范圍內(nèi)初始化一個(gè)容量為np的父代種群Dn(n=1,2,…,np),種群中所有個(gè)體向量的維度為3,分別代表RGB三通道的灰度值.初始化種群中每個(gè)個(gè)體Di的第j維,初始化過(guò)程如公式(6)所示:
Di,j=minj+rand(0,1)·(maxj-minj)
(6)
其中rand(0,1)表示0~1范圍內(nèi)均勻分布的隨機(jī)數(shù),在完成初始化后,得到了包含np個(gè)初始候選解的集合D.
步驟2.變異.首先定義變異種群為V.則第n輪種群Vn如式(7)表示:
Vn=Dn1+F(Dn2-Dn3)n1≠n2≠n3
(7)
F∈[0,2]是一個(gè)實(shí)常數(shù)因數(shù),為變異算子.n1、n2、n3是用于確保生成變異解的父代各不相同的隨機(jī)數(shù).
步驟3.選擇.從初始化和變異步驟分別生成的解集中選擇更優(yōu)者進(jìn)入下一輪迭代.標(biāo)準(zhǔn)差分進(jìn)化需要給出適應(yīng)度函數(shù),用以篩選候選解.在ATOA中,將分類模型modelc作為適應(yīng)度函數(shù),選擇操作根據(jù)適應(yīng)度值進(jìn)行判斷,在真實(shí)類別下的置信度越低,則適應(yīng)度值越高,代表該候選解更符合對(duì)抗樣本生成的要求.
步驟3的完整流程如算法1所述.
算法1.選擇算法
(Selection Algorithm)
輸入:X,modelc,pos,T
輸出:X*
1.t←1(initialization); /*第一輪迭代*/
2.fort≤Tdo
3.iflen(pos)>1then/*判斷pos的長(zhǎng)度*/
4.fori=1tolen(pos)do/*輪詢所有候選坐標(biāo)*/
5.forj=1tonpdo/*輪詢所有候選解*/
6.X′Di=X[xi,yi,Di];
10.endfor
12.Di←Vi;/*則將初始解替換為變異解*/
13.endif
14.else/*pos長(zhǎng)度為1的情況*/
15.forj=1tonpdo
16.X′Di=X[xi,yi,Di];
20.endfor
22.Di←Vi;
23.endif
24.t←t+1;
25.endfor
26.returnthebest(x,y,R,G,B),X*;
以上為第一輪迭代的所有操作,在經(jīng)過(guò)T輪步驟2及步驟3的迭代后,可以得到在該點(diǎn)下的全局最優(yōu)解(x,y,R,G,B),使得模型對(duì)X′分類錯(cuò)誤(即modelc(X′)≠L),該X′即算法最終生成的對(duì)抗樣本X*.
若長(zhǎng)度大于1,則需要在pos集中輪詢所有的候選坐標(biāo)點(diǎn),對(duì)每個(gè)點(diǎn)都進(jìn)行上述3步操作.分別得到每個(gè)候選位置處的唯一最佳修改值后,再根據(jù)每個(gè)點(diǎn)的得分進(jìn)行最優(yōu)解的選擇.經(jīng)過(guò)兩次嵌套輪詢,首先確定RGB三維再確定坐標(biāo)二維,求得完整的五元擾動(dòng)編碼(x,y,R,G,B),在原始樣本X上進(jìn)行修改即獲得了最終的對(duì)抗樣本X*.
在本文中為了驗(yàn)證基于注意力的兩段式單像素攻擊方法可行,且較原始單像素攻擊算法更有效,在多個(gè)模型上進(jìn)行了對(duì)比實(shí)驗(yàn),從對(duì)抗樣本的攻擊效果、隱蔽性、可遷移性3個(gè)方面進(jìn)行評(píng)估.實(shí)驗(yàn)環(huán)境是由Intel i9-10900K@ 3.70GHz以及Nvidia RTX3090組成的服務(wù)器,選用的數(shù)據(jù)集是CIFAR-10,該數(shù)據(jù)集包含10個(gè)類別,50000張訓(xùn)練集圖像,以及10000張測(cè)試集圖像,每張圖像尺寸為32×32.本節(jié)所有的實(shí)驗(yàn)是在pytorch框架下實(shí)現(xiàn)的.
4.1.1 攻擊成功率(attack success rate)
攻擊成功率表示目標(biāo)模型被攻擊后的分類準(zhǔn)確率下降程度,即目標(biāo)模型初始分類準(zhǔn)確率與被攻擊后的分類準(zhǔn)確率的差值.對(duì)抗攻擊方法的攻擊能力與攻擊成功率呈正相關(guān),攻擊能力越強(qiáng)攻擊成功率越高.
4.1.2 精度(precision)
P值,即查準(zhǔn)率,表示被判別為正例的正樣本(TruePositives,TP)占所有被模型預(yù)測(cè)為正例的樣本(predictedaspositive)的比例,所有被判別為正例的樣本包括真正例TP以及被誤判為正例的假正例(FalsePositives,FP).數(shù)據(jù)集所包括的每一類都如式(8)計(jì)算得到精度值.精度是針對(duì)目標(biāo)模型的預(yù)測(cè)結(jié)果而言的,衡量的是被模型分類為正例的樣本中有多少是真實(shí)的正例,即模型對(duì)類別的分類準(zhǔn)確能力.精度越高表示模型分類正確的能力越強(qiáng).
(8)
4.1.3 召回率(recall)
R值,即查全率,表示被判別為正例的正樣本占所有真實(shí)正例(actualpositive)的比例,所有正例是指真正例TP以及被模型誤分類為反例的正例(FalseNegatives,FN).目標(biāo)模型對(duì)每一類樣本的分類結(jié)果將分別用于計(jì)算得到該類的召回率.召回率是針對(duì)所有樣本的真實(shí)標(biāo)簽而言的,衡量的是樣本中的正例有多少被正確識(shí)別.召回率越高表示模型從所有樣本中識(shí)別出正例的能力越好,其計(jì)算公式如式(9)所示:
(9)
4.1.4F1得分(F1score)
精度和召回率同為衡量模型性能的兩個(gè)重要的指標(biāo),在評(píng)價(jià)模型時(shí),在精度和召回率上都得到較高得分的模型性能更好.但事實(shí)上精度和召回率一般情況下是互相矛盾的,所以需要綜合考慮這兩個(gè)指標(biāo),求二者加權(quán)平均.在本節(jié)中認(rèn)為P值和R值二者對(duì)于方案評(píng)估同等重要,故為二者賦予同樣比例系數(shù),即可得到F1得分如式(10)所示:
(10)
在本文的對(duì)比實(shí)驗(yàn)中,選擇3種經(jīng)典的CNN模型[29],分別為Alexnet[30],Resnet18[31],以及VGG16[32].這3種深度卷積網(wǎng)絡(luò)的經(jīng)典模型在圖像分類任務(wù)上都取得了非常優(yōu)異的成績(jī).它們的網(wǎng)絡(luò)結(jié)構(gòu)分別在表1、表2、表3中進(jìn)行展示.
表1 Alexnet網(wǎng)絡(luò)結(jié)構(gòu)表Table 1 Structure of Alexnet
表2 Resnet18網(wǎng)絡(luò)結(jié)構(gòu)表Table 2 Structure of Resnet18
表3 VGG16網(wǎng)絡(luò)結(jié)構(gòu)表Table 3 Sturcture of VGG16
針對(duì)CIFAR-10數(shù)據(jù)集,分別采用本文提出的基于注意力的兩段式單像素攻擊以及原始的單像素攻擊方法對(duì)3種模型進(jìn)行非目標(biāo)攻擊.輸入的原始樣本如圖2所示,對(duì)應(yīng)生成的類激活圖效果如圖3所示,為便于后續(xù)計(jì)算,對(duì)類激活圖均上采樣至原始樣本的大小.
圖2 原圖Fig.2 Clean samples
圖3 類激活圖Fig.3 Class activate mappings
這里需要注意的是,在實(shí)驗(yàn)時(shí)為了能在原圖上清楚的進(jìn)行展示對(duì)比,需要將計(jì)算得到的類激活圖與原圖進(jìn)行疊加.在實(shí)驗(yàn)結(jié)果展示中為避免削弱原圖的清晰度,指定類激活圖的權(quán)值為0.3,原圖權(quán)值為0.7,即:
Xs=0.3×Xs+0.7×X
(11)
另外,由于CIFAR-10的樣本尺寸較小(32×32),為了便于觀察將其等比例放大,不可避免地造成圖像清晰度有一定程度的下降.后續(xù)所有圖像展示均為將其放大至224×224尺寸后的效果.
表4 原始單像素攻擊方法與基于注意力的兩段式單像素攻擊方法在3種模型下的攻擊效果對(duì)比Table 4 Comparison of the attack effect between the One Pixel Attack and the Attention based Two-stage One Pixel Attack method(ATOA)under the three models
從表4可以看出,在3個(gè)目標(biāo)模型均已達(dá)到較高的分類準(zhǔn)確率的前提下,在攻擊成功率上ATOA相較于單像素攻擊方法平均提高了7.61%,平均精度及召回率上也較單像素攻擊方法有所下降,F1得分指標(biāo)下,本文中的方法比原始方案平均下降了4.92%.綜上可以證明,ATOA相較于單像素攻擊方法,攻擊強(qiáng)度更高,效果更好.
單像素對(duì)抗樣本最顯著的優(yōu)勢(shì)就是其隱蔽性,單像素攻擊方法只能修改單個(gè)像素點(diǎn),所以其擾動(dòng)程度遠(yuǎn)遠(yuǎn)小于很多其他對(duì)抗攻擊方法.很多對(duì)抗攻擊方法為了實(shí)現(xiàn)更高的攻擊成功率往往會(huì)造成對(duì)抗樣本的質(zhì)量下降,對(duì)抗攻擊算法需要在二者之間尋求平衡.為了證明本文的方法仍然保持優(yōu)異的隱蔽性,依據(jù)圖2中隨機(jī)選取的原圖,分別對(duì)應(yīng)展示以VGG16為目標(biāo)模型,ATOA與經(jīng)典算法FGSM以及Deepfool所生成的對(duì)抗樣本.可以明顯看出,ATOA生成的對(duì)抗樣本(如圖4所示)與圖2中的原始樣本幾乎沒(méi)有差別,肉眼仍可分辨其類別.但是FGSM生成的對(duì)抗樣本如圖5所示有很大程度上的失真,與原圖相差甚遠(yuǎn),人眼可以很清楚的區(qū)分出對(duì)抗樣本與原圖.Deepfool生成的對(duì)抗樣本如圖6所示也存在這樣的問(wèn)題,生成的對(duì)抗樣本甚至人眼已無(wú)法識(shí)別其所屬類別.
圖4 基于注意力的兩段式單像素攻擊對(duì)抗樣本Fig.4 Adversarial samples in ATOA
圖5 FGSM對(duì)抗樣本Fig.5 Adversarial samples in FGSM
圖6 DeepFool對(duì)抗樣本Fig.6 Adversarial samples in DeepFool
此外,在遷移性方面本文也進(jìn)行了對(duì)比.單像素攻擊生成的對(duì)抗樣本只能對(duì)其訓(xùn)練階段所使用的目標(biāo)模型進(jìn)行有針對(duì)性的攻擊.然而,利用同樣的對(duì)抗樣本對(duì)其他任意模型進(jìn)行攻擊則只能獲得平均5%左右的攻擊成功率.
而ATOA生成的對(duì)抗樣本具有一定的遷移性,針對(duì)VGG16模型生成的對(duì)抗樣本對(duì)Alexnet以及Resnet18模型仍能實(shí)現(xiàn)平均40%左右的攻擊成功率.在Alexnet及Resnet18模型下的對(duì)抗樣本同樣可以有同等水平的攻擊能力,均能達(dá)到40%~55%左右的平均攻擊成功率.這是因?yàn)轭惣せ顖D被證明具有較強(qiáng)的可遷移性[27].對(duì)于同一張圖像,不同的分類模型生成的類激活圖有很大的相似性,在類激活圖上表現(xiàn)為高亮區(qū)域幾乎完全一致.這說(shuō)明了深度學(xué)習(xí)模型在完成分類任務(wù)時(shí)學(xué)習(xí)到的特征幾乎都是相似的,它們都共享相似的語(yǔ)義特征.而本文所提出的ATOA是在類激活圖基礎(chǔ)上對(duì)全局最優(yōu)解進(jìn)行搜索的,所以生成的對(duì)抗樣本也具有一定的可遷移性.
在本文中,針對(duì)原始單像素攻擊所存在的一些問(wèn)題,提出了一種基于注意力的兩段式單像素對(duì)抗樣本生成方法.為避免僅利用差分進(jìn)化算法在全局范圍內(nèi)進(jìn)行暴力求解,本文借助可解釋性方法在透明性、特征可視化等方面的優(yōu)勢(shì),引入注意力機(jī)制,緩解了單像素攻擊方法對(duì)差分進(jìn)化算法的過(guò)度依賴,充分利用類激活圖.首先確定更精確的求解范圍,避免對(duì)無(wú)關(guān)區(qū)域的過(guò)分關(guān)注,以此減少冗余解的數(shù)量,大大降低了計(jì)算量.本文所提出的方案在降低計(jì)算量的同時(shí)提高了攻擊成功率,并兼顧了對(duì)抗樣本的隱蔽性,在多個(gè)不同的目標(biāo)模型上均能實(shí)現(xiàn)有效攻擊.綜上,本文所提出的基于注意力的兩段式單像素對(duì)抗樣本生成方法是一種卓有成效的對(duì)抗攻擊方法,攻擊效果在單像素攻擊的基礎(chǔ)上有了明顯的改善.在本文的基礎(chǔ)之上,后續(xù)工作將繼續(xù)深入研究單像素攻擊與不同注意力機(jī)制的結(jié)合方法.