劉夢(mèng)庭,凌 捷
廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006
深度神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的表達(dá)能力在許多任務(wù)上都有很好的表現(xiàn),是許多人工智能應(yīng)用的基礎(chǔ),包括圖像分類[1]、人臉識(shí)別[2]、無(wú)人駕駛[3]等。與此同時(shí)有大量的工作表明深度神經(jīng)網(wǎng)絡(luò)容易受到對(duì)抗樣本的影響,通過(guò)將精心設(shè)計(jì)的細(xì)微擾動(dòng)添加到輸入樣本中生成人眼察覺(jué)不出變化的對(duì)抗樣本,大幅降低神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率。對(duì)抗樣本的存在給深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用帶來(lái)了安全隱患,例如在無(wú)人駕駛中通過(guò)對(duì)抗樣本技術(shù)將停車標(biāo)志識(shí)別為前進(jìn)或者其他行為,從而造成不可估量的后果。對(duì)抗樣本在深度神經(jīng)網(wǎng)絡(luò)中表現(xiàn)出了模型間的可遷移性,針對(duì)某一個(gè)模型生成的對(duì)抗樣本也能對(duì)其他結(jié)構(gòu)不同的模型產(chǎn)生同樣的影響。對(duì)抗樣本的可遷移性為不法分子對(duì)未知目標(biāo)模型的攻擊提供了可能。近年來(lái)出現(xiàn)了很多對(duì)抗樣本的研究,這方面的研究可以識(shí)別深度模型潛在的缺陷,也能夠幫助提高深度模型的魯棒性,且能夠在一定程度上促進(jìn)更先進(jìn)的對(duì)抗防御算法的研究。
對(duì)抗樣本攻擊可以分為白盒攻擊[4-6]和黑盒攻擊[7-8]兩大類。白盒攻擊指目標(biāo)模型的信息是可完全獲取的,攻擊的成功率也較高。但在現(xiàn)實(shí)世界中是很難獲取到目標(biāo)模型的具體信息,因此白盒攻擊更偏向于理論分析。黑盒攻擊則只能獲取模型的輸出甚至對(duì)模型的信息完全未知,這種設(shè)定提高了對(duì)抗樣本攻擊的難度,也更具有現(xiàn)實(shí)意義。現(xiàn)有的一些方法借助于對(duì)抗樣本的可遷移性進(jìn)行黑盒攻擊,包括基于梯度計(jì)算的方法[9]和基于輸入轉(zhuǎn)換的方法[10-11]。在最近的工作中,Wang等人[12]提出使用梯度方差來(lái)調(diào)整當(dāng)前的梯度,穩(wěn)定更新方向并顯著提高了對(duì)抗樣本的可遷移性。Admix[13]認(rèn)為混合操作是一種新的對(duì)抗性學(xué)習(xí)的數(shù)據(jù)論證范式,并在多個(gè)防御模型下使用基于混合轉(zhuǎn)換操作生成的對(duì)抗樣本顯著提高了攻擊性能?,F(xiàn)有算法生成的對(duì)抗樣本表現(xiàn)出較弱的可遷移性,導(dǎo)致了較差的黑盒攻擊性,與白盒攻擊的性能相比仍然有較大的差距。
本文提出了一種優(yōu)化梯度增強(qiáng)黑盒對(duì)抗攻擊算法,著重于提高對(duì)抗樣本在黑盒攻擊下的性能。深度神經(jīng)網(wǎng)絡(luò)進(jìn)行正常的訓(xùn)練能夠收斂到優(yōu)化空間中的局部最小值區(qū)域,而基于梯度的迭代攻擊方法則是從該局部區(qū)域出發(fā),根據(jù)梯度信息搜索并生成最終的對(duì)抗樣本。但由于在局部最小值區(qū)域內(nèi)求得的梯度會(huì)導(dǎo)致振蕩的更新過(guò)程,容易落入較差的局部最優(yōu)中?;诖耍岬乃惴ㄊ紫扔闷渌悇e的圖像樣本混合輸入樣本從而獲得混合圖像的梯度信息。同時(shí)為了保證迭代更新的穩(wěn)定,結(jié)合前一次迭代的梯度方差來(lái)調(diào)整當(dāng)前的梯度以獲得本文所提的優(yōu)化梯度。將得出的優(yōu)化梯度與Adam優(yōu)化算法[14]結(jié)合進(jìn)行迭代優(yōu)化生成對(duì)抗樣本。在標(biāo)準(zhǔn)ImageNet數(shù)據(jù)集[15]上的實(shí)驗(yàn)結(jié)果表明,本文所提出的算法能夠顯著提升對(duì)抗樣本的黑盒攻擊性能,同時(shí)也保持了較高的白盒攻擊性能。在單模型攻擊設(shè)置下用Inc-v3[16]、Inc-v4、IncRes-v2[17]和Res-101[18]這四個(gè)模型生成的對(duì)抗樣本的平均攻擊率相對(duì)于方差調(diào)整法[12]分別提高了6、5.3、9.2和6.9個(gè)百分點(diǎn)。與現(xiàn)有的輸入轉(zhuǎn)換模型結(jié)合起來(lái)能進(jìn)一步提高對(duì)抗樣本的魯棒性。此外,所提的方法對(duì)現(xiàn)有先進(jìn)的防御模型能夠達(dá)到92.7%的平均攻擊率,分別高于Admix[13]和方差調(diào)整法[12]4.5和2.5個(gè)百分點(diǎn)。
對(duì)抗攻擊的任務(wù)是對(duì)輸入樣本添加盡可能小的擾動(dòng)去生成對(duì)抗樣本,并使得圖片分類器給出錯(cuò)誤的分類結(jié)果,如公式(1)所示:
其中,x是初始圖片,xadv是對(duì)抗樣本,f(x;θ)是參數(shù)為θ的圖片分類器,ε是控制擾動(dòng)大小的超參數(shù)表示Lp范數(shù)距離,p的取值為∞(與之前的工作保持一致)。
下文將介紹與本文相關(guān)的兩類黑盒攻擊算法,包括基于梯度的對(duì)抗攻擊算法和基于輸入轉(zhuǎn)換的對(duì)抗攻擊算法。最后還介紹了近幾年的對(duì)抗防御方法,并用這些方法對(duì)所提黑盒攻擊算法的有效性進(jìn)行驗(yàn)證。
FGSM[4]是第一個(gè)基于梯度的攻擊方法,其認(rèn)為對(duì)抗樣本產(chǎn)生的原因在于深度神經(jīng)網(wǎng)絡(luò)的線性特性,并提出使用單步最大化損失函數(shù)的方式生成對(duì)抗樣本。I-FGSM[5]提出使用迭代攻擊的方式逐步生成擾動(dòng),進(jìn)一步提高了白盒攻擊成功率,但降低了在黑盒模型上的攻擊性能。MI-FGSM[6]將動(dòng)量項(xiàng)整合進(jìn)迭代過(guò)程中得到更加穩(wěn)定的更新方向。計(jì)算如公式(2)所示:
后續(xù)Wang等人[12]基于MI-FGSM,結(jié)合前一次迭代的梯度方差來(lái)調(diào)整當(dāng)前的梯度來(lái)避免較差的局部最優(yōu)值。除了引入梯度方差外,還可以在迭代過(guò)程中引入一些額外的梯度信息去更好地指導(dǎo)對(duì)抗樣本的生成。本文在梯度方差的基礎(chǔ)上,引入了其他類別圖片的梯度信息,從而提高了黑盒攻擊的性能。
基于輸入轉(zhuǎn)換的對(duì)抗攻擊算法采用不同的輸入轉(zhuǎn)換方法來(lái)增強(qiáng)模型的可遷移性,從而提高算法的黑盒攻擊性。DIM[10]用固定的概率進(jìn)行隨機(jī)縮放和裁剪處理輸入圖片,然后作為模型分類器的輸入并進(jìn)行后續(xù)梯度的計(jì)算,提高了對(duì)抗樣本的可遷移性。TIM[11]提出將迭代攻擊方法過(guò)程中間得到的梯度與預(yù)定義的高斯卷積核進(jìn)行卷積操作并將得到的結(jié)果用于迭代更新。SIM[9]首先將輸入圖片在數(shù)值上進(jìn)行不同尺度的縮放,然后輸入分類器中計(jì)算不同尺度縮放下圖像的平均梯度。上述方法由于需要進(jìn)行對(duì)輸入進(jìn)行多次轉(zhuǎn)換,在提高黑盒攻擊性的同時(shí)計(jì)算量也會(huì)成倍的增加。Admix[13]提出使用其他類別的信息使得樣本點(diǎn)更靠近決策邊界,以便獲取更好的梯度信息來(lái)實(shí)現(xiàn)對(duì)抗攻擊。組合多種基于輸入轉(zhuǎn)換的對(duì)抗攻擊算法能進(jìn)一步提高對(duì)抗樣本的可遷移性,即可以進(jìn)一步增強(qiáng)對(duì)抗樣本的黑盒攻擊性。
基于梯度的對(duì)抗攻擊算法重點(diǎn)在于通過(guò)精心設(shè)計(jì)的梯度以生成攻擊性更強(qiáng)的樣本,而基于輸入轉(zhuǎn)換的對(duì)抗攻擊算法則側(cè)重于對(duì)輸入進(jìn)行多種方式進(jìn)行轉(zhuǎn)換,對(duì)多個(gè)轉(zhuǎn)換后的輸入圖片進(jìn)行計(jì)算以提高生成對(duì)抗樣本的泛化性。兩類黑盒攻擊方法各有優(yōu)勢(shì),同時(shí)兩者之間并不是對(duì)立的,可以結(jié)合兩類方法去生成可遷移性更強(qiáng)的對(duì)抗樣本,在本文的集成模型攻擊實(shí)驗(yàn)中得到驗(yàn)證。
為了減輕對(duì)抗樣本對(duì)深度神經(jīng)網(wǎng)絡(luò)的影響,近年來(lái)出現(xiàn)了許多對(duì)抗防御算法。HGD[19]基于高層輸出的損失提出高級(jí)表征去噪器,推理速度非???。R&P[20]通過(guò)對(duì)輸入圖像進(jìn)行隨機(jī)縮放和填充的操作減輕了對(duì)抗樣本的影響。Bit-Red[21]提出兩種特征壓縮方法,能夠很好地檢測(cè)出對(duì)抗樣本。JPEG[22]在圖像輸入到模型分類器前進(jìn)行轉(zhuǎn)換來(lái)防御對(duì)抗樣本的攻擊。FD[23]是在JPEG的基礎(chǔ)上進(jìn)行改進(jìn)的防御對(duì)抗樣本的框架。
基于深度神經(jīng)網(wǎng)絡(luò)去生成對(duì)抗樣本的方法,包括I-FGSM、MI-FGSM 等經(jīng)典方法,都是朝著正常模型訓(xùn)練梯度的相反方向進(jìn)行優(yōu)化。這種方式在一般情況下均可以降低原物體類別的置信度,但是由于對(duì)抗樣本的另一目標(biāo)是擾動(dòng)盡可能小,這會(huì)影響到對(duì)抗樣本的攻擊性能。精細(xì)的調(diào)整梯度指導(dǎo)對(duì)抗樣本的生成,是提高對(duì)抗樣本攻擊性的關(guān)鍵。本文方法結(jié)合混合圖像的方式和使用梯度方差的方式調(diào)整當(dāng)前梯度以得到優(yōu)化梯度,生成的對(duì)抗樣本的可遷移性更強(qiáng)。此外,所提出的優(yōu)化梯度緩解了ADAM優(yōu)化算法由于窗口累計(jì)導(dǎo)致的學(xué)習(xí)率震蕩問(wèn)題,進(jìn)一步提高了對(duì)抗樣本的攻擊性。下面將詳細(xì)介紹本文方法。
本節(jié)提出了一種優(yōu)化梯度,重點(diǎn)在盡可能小的擾動(dòng)約束下給定當(dāng)前迭代的最優(yōu)梯度方向。深度神經(jīng)網(wǎng)絡(luò)在多次訓(xùn)練迭代中更新參數(shù),最終會(huì)收斂到優(yōu)化空間中的一個(gè)局部最小值區(qū)域中。而基于梯度的對(duì)抗攻擊則是從該區(qū)域出發(fā)搜索更新方向并迭代生成最終的對(duì)抗樣本。直接使用該區(qū)域的梯度作為攻擊的迭代更新方向會(huì)導(dǎo)致比較振蕩的更新過(guò)程并產(chǎn)生較差的局部最優(yōu)結(jié)果。基于如上分析,本文結(jié)合Admix[13]和方差調(diào)整法[12]得到適用于對(duì)抗攻擊的優(yōu)化梯度,并將其用于迭代攻擊過(guò)程去生成可遷移性強(qiáng)的對(duì)抗樣本。
首先針對(duì)梯度在迭代攻擊過(guò)程中存在的更新振蕩問(wèn)題,本文采用混合梯度的方式使攻擊的迭代更新過(guò)程更加穩(wěn)定。所提算法使用其他類別的圖像樣本去混合輸入樣本,但不改變輸入樣本的真實(shí)分類標(biāo)簽,然后對(duì)混合圖像進(jìn)行求導(dǎo)獲得的混合圖像的混合梯度。由于受到其他類別梯度信息的共同作用,混合梯度能夠進(jìn)行較穩(wěn)定的迭代更新指導(dǎo),并快速越過(guò)決策邊界。
其中,x是輸入樣本,x′是其他類別的圖像樣本和vt分別是第t次迭代過(guò)程中的對(duì)抗樣本、動(dòng)量的累加、平均混合梯度和梯度方差,Jθ(x,y)表示預(yù)測(cè)輸出與真實(shí)標(biāo)簽的交叉熵?fù)p失函數(shù),?表示求導(dǎo)操作,η∈[0,1] 混合圖像權(quán)重,μ是動(dòng)量衰減因子,m表示其他類別圖片樣本的數(shù)量,n表示用于方差調(diào)整的采樣數(shù),ri表示用均勻分布中采樣的隨機(jī)樣本,α是每一步迭代的最大擾動(dòng)量。
ADAM 算法適用于解決高稀疏和高噪聲的模型優(yōu)化問(wèn)題,這種特性對(duì)于生成可遷移性強(qiáng)的對(duì)抗樣本是有益的。而本節(jié)關(guān)注于如何將ADAM優(yōu)化算法應(yīng)用于生成對(duì)抗樣本中。ADAM優(yōu)化算法[14]計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率,在深度學(xué)習(xí)模型優(yōu)化中被廣泛使用。ADAM用到的是二階動(dòng)量,二階動(dòng)量是固定時(shí)間窗口內(nèi)的累計(jì),當(dāng)窗口內(nèi)的數(shù)據(jù)發(fā)生較大的變化時(shí),會(huì)引起學(xué)習(xí)率的震蕩從而影響最終的收斂。作者認(rèn)為一般的梯度不能充分發(fā)揮ADAM 優(yōu)化算法在對(duì)抗樣本中的作用。表1 是基于梯度的迭代攻擊算法在單模型攻擊設(shè)置下對(duì)Inc-v3進(jìn)行攻擊的成功率(%)表。從表1的實(shí)驗(yàn)結(jié)果也驗(yàn)證了這一觀點(diǎn),直接使用ADAM 優(yōu)化算法降低了對(duì)抗樣本的黑盒攻擊性。而上一節(jié)得到的優(yōu)化梯度指導(dǎo)每次迭代的攻擊朝著更優(yōu)的方向前進(jìn),同時(shí)在一定程度上緩解了ADAM 學(xué)習(xí)率的震蕩問(wèn)題,使得ADAM 迭代優(yōu)化過(guò)程較為穩(wěn)定并能夠應(yīng)用于對(duì)抗樣本的生成?;诖?,所提方法能發(fā)揮ADAM 的特性從而可以提高對(duì)抗樣本的可遷移性。
表1 梯度算法在單模型攻擊下的攻擊成功率Table 1 Success rate of gradient algorithm under single model attack單位:%
本文優(yōu)化梯度增強(qiáng)黑盒對(duì)抗攻擊算法的完整描述如算法1。算法選用ADAM算法用于多輪迭代優(yōu)化,在每次迭代中則使用所提出的優(yōu)化梯度進(jìn)行計(jì)算,在規(guī)定迭代次數(shù)下生成最終的對(duì)抗樣本。
算法1 優(yōu)化梯度增強(qiáng)黑盒對(duì)抗攻擊算法
輸入:參數(shù)為θ的圖片分類器f(x;θ),輸入樣本x及其真實(shí)分類標(biāo)簽y,最大擾動(dòng)量ε,迭代次數(shù)T,混合圖像權(quán)重η,表示其他類別圖片樣本數(shù)的m,用于方差調(diào)整的隨機(jī)樣本數(shù)量n,均勻分布的因子β。
輸出:對(duì)抗樣本xadv。
步驟1 每一步迭代的最大擾動(dòng)量:α=ε/T。
步驟2 計(jì)算初始值:v0←0;adam_m0←0;adam_v0←0;
步驟3 fort=0 →T-1 do
步驟4 計(jì)算平均梯度
步驟5 計(jì)算當(dāng)前梯度g及其平方
步驟6 更新adam_mt+1:
步驟7 更新adam_vt+1:
步驟8 計(jì)算當(dāng)前擾動(dòng)方向:
步驟9 更新vt+1:
步驟10 更新
步驟11 End for
步驟12 得到最終生成的對(duì)抗樣本并返回:
本文進(jìn)行了單模型攻擊實(shí)驗(yàn)、集成模型攻擊實(shí)驗(yàn)、防御模型下的攻擊實(shí)驗(yàn)和消融實(shí)驗(yàn)。其中單模型攻擊實(shí)驗(yàn)分別使用四個(gè)正常訓(xùn)練的網(wǎng)絡(luò)模型中去生成對(duì)抗樣本,以此驗(yàn)證所提算法生成的對(duì)抗樣本在不降低白盒攻擊性能的基礎(chǔ)上有效提高了黑盒攻擊性。集成模型攻擊實(shí)驗(yàn)則用于驗(yàn)證使用集成了多個(gè)正常訓(xùn)練的網(wǎng)絡(luò)模型生成的對(duì)抗樣本更具攻擊性,此外也驗(yàn)證了結(jié)合基于輸入轉(zhuǎn)換的攻擊方法后能夠生成可遷移性更強(qiáng)的對(duì)抗樣本。防御模型下的攻擊實(shí)驗(yàn)用于驗(yàn)證所提算法能夠有效攻破近幾年的一些對(duì)抗防御方法。最后,消融實(shí)驗(yàn)用于驗(yàn)證所提算法中的優(yōu)化梯度及其與ADAM優(yōu)化算法結(jié)合的有效性。
本文在標(biāo)準(zhǔn)的ImageNet 數(shù)據(jù)集[15]上進(jìn)行實(shí)驗(yàn)。為了保證實(shí)驗(yàn)的可對(duì)比性,所提方法使用Lin 等人[9]提供的1 000 張圖片樣本進(jìn)行評(píng)估,對(duì)應(yīng)ImageNet 數(shù)據(jù)集中的1 000 個(gè)類別且?guī)缀跄軌虮凰惺褂玫降臏y(cè)試模型正確分類。實(shí)驗(yàn)使用7 個(gè)網(wǎng)絡(luò)模型進(jìn)行測(cè)試,其中包括Inception-v3[16](Inc-v3)、Inception-v4(Inc-v4)、Inception-Resnet-v2[17](IncRes-v2)和Resnet-v2-101[18](Res-101)模型這4個(gè)正常訓(xùn)練得到的模型,此外還有三個(gè)集成對(duì)抗訓(xùn)練模型,包括ens3-adv-Inception-v3(Inc-v3ens3)、ens4-adv-Inception-v3(Inc-v4ens4)和ens-adv-Inception-ResNet-v2(IncRes-v2ens)[24]。
本文實(shí)驗(yàn)設(shè)置最大擾動(dòng)量ε為16,迭代次數(shù)T為10,η為0.2。其他類別圖片樣本數(shù)m為3,用于方差調(diào)整的隨機(jī)樣本數(shù)n為3,β為1.5。
本文分別使用各個(gè)正常訓(xùn)練的網(wǎng)絡(luò)模型去生成對(duì)抗樣本,然后在7個(gè)測(cè)試模型驗(yàn)證其攻擊成功率。攻擊成功率表示對(duì)抗樣本在測(cè)試模型上的誤分類率。所提算法對(duì)比了SIM[9]、Admix[13]和方差調(diào)整法[12](VMI-FGSM),實(shí)驗(yàn)結(jié)果如表2 所示,攻擊的模型在行上,測(cè)試的模型在列上。其中,Admixwo-sim表示去掉SIM模塊的Admix方法。
表2 單模型攻擊設(shè)置下的攻擊成功率Table 2 Attack success rate under single model attack setting 單位:%
如表2所示,用Inc-v3、Inc-v4、IncRes-v2 和Res-101這四個(gè)正常訓(xùn)練的模型生成對(duì)抗樣本,本文方法相對(duì)于VMI-FGSM[12]算法在平均攻擊率上分別提高了6、5.3、9.2 和6.9 個(gè)百分點(diǎn)。本文方法在白盒攻擊和黑盒攻擊設(shè)置下的平均攻擊率優(yōu)于現(xiàn)有算法,表明了所提算法的有效性。從表2 中也可以看出,基于輸入轉(zhuǎn)換的方法SIM 在一些場(chǎng)景下是優(yōu)于本文算法的。SIM 通過(guò)在原圖上進(jìn)行轉(zhuǎn)換,本質(zhì)上也是通過(guò)調(diào)整優(yōu)化的梯度方向去生成對(duì)抗樣本。由于生成對(duì)抗樣本的任務(wù)需要保證對(duì)圖片的擾動(dòng)不能太大,優(yōu)化的方向上存在的差異會(huì)直接影響攻擊的成功與否。以I-FGSM的方法為例,它是朝著梯度下降相反的方向進(jìn)行優(yōu)化,這在一定程度上可以理解為最優(yōu)方向,但是這個(gè)方向僅僅是使得預(yù)測(cè)成原類別的概率降低,并不能確保在約束的擾動(dòng)條件下使得預(yù)測(cè)錯(cuò)誤。SIM 方法這類基于輸入轉(zhuǎn)換的方法和本文所提方法從不同角度進(jìn)行優(yōu)化,可以考慮兩類方法的結(jié)合去提高對(duì)抗樣本的攻擊成功率,下一節(jié)給出實(shí)驗(yàn)結(jié)果。
集成模型攻擊是指在攻擊過(guò)程中融合多個(gè)模型的分類概率輸出,在多個(gè)模型的共同作用下生成對(duì)抗樣本。本實(shí)驗(yàn)集成了Inc-v3[16]、Inc-v4、IncRes-v2[17]和Res-101[18]這四個(gè)模型去生成對(duì)抗樣本,這四個(gè)模型都被分配了相同的權(quán)重。在三個(gè)集成對(duì)抗訓(xùn)練模型上進(jìn)行對(duì)抗樣本的黑盒攻擊性能的測(cè)試。
實(shí)驗(yàn)結(jié)果如表3 所示。所提算法的平均攻擊成功率達(dá)到了88.3%,相比Admix[13]和方差調(diào)整法[12](VMIFGSM)的平均攻擊成功率高了12.2 和6.1 個(gè)百分點(diǎn)。在ImageNet數(shù)據(jù)集上用上述三種方法生成的對(duì)抗樣本對(duì)IncRes-v2ens進(jìn)行黑盒攻擊,成功率分別為33.2%、50.7%和64.8%。其中所提方法相對(duì)Admix 和方差調(diào)整法分別提升了31.6和14.1個(gè)百分點(diǎn),可看出使用本文方法能夠生成可遷移性更強(qiáng)的對(duì)抗樣本。
表3 集成模型攻擊設(shè)置下的攻擊成功率Table 3 Attack success rate under ensemble-model attack setting 單位:%
圖1給出了融合DIM[10]、TIM[11]和SIM[9]三個(gè)方法后的實(shí)驗(yàn)結(jié)果圖。從圖1可以看出,融合基于輸入轉(zhuǎn)換的攻擊算法能進(jìn)一步提高對(duì)抗樣本的攻擊成功率?,F(xiàn)有的Admix[13](Admix-TI-DIM)和方差調(diào)整法[12](VMI-CTFGSM)在融合了三種基于輸入轉(zhuǎn)換的攻擊算法后平均攻擊成功率已經(jīng)有了很大的提升。本文方法相對(duì)于Admix-TI-DIM 和VMI-CT-FGSM 分別提升了0.6 和0.5個(gè)百分點(diǎn)的攻擊率,達(dá)到了96.8%。其中,本文方法在白盒攻擊上略微差于Admix和方差調(diào)整法,但是在黑盒攻擊上顯著優(yōu)于這兩個(gè)方法。作者認(rèn)為出現(xiàn)這種情況的原因是Admix 和方差調(diào)整法出現(xiàn)了一些過(guò)擬合的情況,而本文方法在黑盒攻擊上的表現(xiàn)更能體現(xiàn)算法的泛化性。
圖1 融合輸入轉(zhuǎn)換模型設(shè)置下的攻擊成功率Fig.1 Attack success rate under setting of fusion input conversion model
融合三種基于輸入轉(zhuǎn)換方法生成的對(duì)抗樣本表現(xiàn)出了更強(qiáng)的攻擊性,因此本文在此設(shè)置下對(duì)防御模型進(jìn)行攻擊。實(shí)驗(yàn)考慮了當(dāng)前五種防御模型,包括HGD[19]、R&P[20]、Bit-Red[21]、JPEG[22]和FD[23]。圖2 給出了在集成模型攻擊配置下融合三種輸入轉(zhuǎn)換的算法后生成的對(duì)抗樣本在多種防御模型下的攻擊結(jié)果。所提算法在防御模型下的攻擊平均成功率為92.7%,相比于Admix-TI-DIM[13]和VMI-CT-FGSM[12]分別提高了4.5和2.5個(gè)百分點(diǎn),表明所提方法生成的對(duì)抗樣本攻擊性更強(qiáng)。在Bit-Red 防御模型下,本文方法的攻擊成功率達(dá)到了87.7%,表明仍然存在不少攻擊失效的場(chǎng)景,存在一定的性能提升空間。此外,所提方法生成的對(duì)抗樣本能用于后續(xù)對(duì)抗防御模型的驗(yàn)證。
圖2 在五個(gè)防御模型下的攻擊成功率Fig.2 Attack success rate graph under 5 defense models
本文進(jìn)行了消融實(shí)驗(yàn)來(lái)驗(yàn)證所提算法中的優(yōu)化梯度及其與ADAM優(yōu)化算法結(jié)合的有效。選擇ImageNet數(shù)據(jù)集,在Inception v3上生成對(duì)抗樣其中ADAM-VMIFGSM[12]和ADAM-Admixwo-sim[13]分別表示使用ADAM優(yōu)化算法替換原算法中的動(dòng)量?jī)?yōu)化法算法,Oursm表示使用優(yōu)化梯度與動(dòng)量?jī)?yōu)化法進(jìn)行迭代優(yōu)化的算法。
驗(yàn)證優(yōu)化梯度:使用VMI-FGSM、Admixwo-sim和Oursm攻擊方法進(jìn)行比較,采用動(dòng)量?jī)?yōu)化法同等條件下,白盒攻擊成功率均達(dá)到了100%。Oursm生成的對(duì)抗樣本具有57.2%的平均攻擊成功率,相比VMI-FGSM、Admixwo-sim分別提高了2.7 和13.5 個(gè)百分點(diǎn)??梢钥闯?,本文設(shè)計(jì)的優(yōu)化梯度算法能夠增強(qiáng)對(duì)抗樣本的可遷移性。在對(duì)IncRes-v2ens進(jìn)行黑盒攻擊實(shí)驗(yàn)中,Oursm的攻擊成功率比Admixwo-sim高了10.5 個(gè)百分點(diǎn),可以看出本文設(shè)計(jì)的優(yōu)化梯度算法生成的對(duì)抗樣本更具有攻擊性。
驗(yàn)證優(yōu)化梯度與Adam 優(yōu)化算法的結(jié)合:使用ADAM-VMI-FGSM,ADAM-Admixwo-sim和所提方法生成對(duì)抗樣本。如表4 所示,發(fā)現(xiàn)在Adam 優(yōu)化法同等條件下,Ours生成的對(duì)抗樣本進(jìn)行黑盒攻擊獲得了60.5%的平均遷移攻擊成功率,相比ADAM-VMI-FGSM,ADAMAdmixwo-sim分別提高了4.4 和17.7 個(gè)百分點(diǎn)說(shuō)明了兩者結(jié)合的有效。同時(shí)可以看出,Admixwo-sim所提出的改進(jìn)梯度加劇了ADAM 優(yōu)化算法優(yōu)化過(guò)程中的震蕩問(wèn)題,僅僅通過(guò)加入其他類別的圖像梯度會(huì)影響優(yōu)化過(guò)程中的學(xué)習(xí)率震蕩,從而影響對(duì)抗樣本的生成,進(jìn)而使得攻擊成功率不升反降。
表4 不同消融模型在Inc-v3上的攻擊成功率Table 4 Attack success rate of different ablation models on Inc-v3單位:%
使用本文方法生成的對(duì)抗樣本如圖3 所示。本文方法能夠生成視覺(jué)上與其他攻擊算法相似的對(duì)抗樣本,但可遷移性更強(qiáng)并且在黑盒攻擊上的表現(xiàn)更好。其中,I-FGSM的結(jié)構(gòu)相似性得分SSIM最高,但其攻擊成功率是最低的。本文生成的對(duì)抗樣本在保證較高相似性得分的基礎(chǔ)上達(dá)到了較高的攻擊成功率。
圖3 I-FGSM、MI-FGSM及本文方法生成的對(duì)抗樣本Fig.3 Adversarial samples generated by I-FGSM,MI-FGSM and proposed algorithm
本文提出了一種優(yōu)化梯度增強(qiáng)黑盒對(duì)抗攻擊算法,其目的是通過(guò)提高對(duì)抗樣本的遷移性從而增強(qiáng)對(duì)抗樣本在黑盒模型上的攻擊性能。本文方法結(jié)合優(yōu)化梯度與ADAM 優(yōu)化算法進(jìn)行迭代優(yōu)化,從而生成遷移性更強(qiáng)的對(duì)抗樣本。在單模型攻擊實(shí)驗(yàn)中,本文方法在Inc-v3、Inc-v4、IncRes-v2 和Res-101 這四個(gè)模型下生成的對(duì)抗樣本相對(duì)于VMI-FGSM算法在平均攻擊率上分別提高了6、5.3、9.2 和6.9 個(gè)百分點(diǎn)。而集成模型攻擊實(shí)驗(yàn)中所提方法集成了四個(gè)模型后的平均成功率達(dá)到了88.3%,分別高于Admix 和方差調(diào)整法12.2 和6.1 個(gè)百分點(diǎn),說(shuō)明本文方法能有效提高對(duì)抗樣本的黑盒攻擊性能。在五個(gè)防御模型下本文方法展現(xiàn)出了較強(qiáng)的攻擊性,攻擊平均成功率達(dá)到了92.7%。本文算法生成的對(duì)抗樣本能夠用于后續(xù)對(duì)抗防御模型防御性的驗(yàn)證。
本文方法通過(guò)迭代優(yōu)化的方式生成對(duì)抗樣本,相較于單步優(yōu)化方法在速度上仍然有較大的差距,提高算法的速度是進(jìn)一步的研究方向。其次,在本文實(shí)驗(yàn)中僅將該方法應(yīng)用于基礎(chǔ)的圖像分類任務(wù)中,而將該方法應(yīng)用于其他視覺(jué)任務(wù)包括目標(biāo)檢測(cè)、目標(biāo)跟蹤等任務(wù)也是未來(lái)的一個(gè)研究方向。