• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      圖像分類中的白盒對(duì)抗攻擊技術(shù)綜述

      2022-09-25 08:42:26魏佳璇杜世康于志軒張瑞生
      計(jì)算機(jī)應(yīng)用 2022年9期
      關(guān)鍵詞:攻擊能力擾動(dòng)梯度

      魏佳璇,杜世康,于志軒,2,張瑞生

      (1.蘭州大學(xué)信息科學(xué)與工程學(xué)院,蘭州 730000;2.蘭州大學(xué)第一醫(yī)院,蘭州 730000)

      0 引言

      近年來(lái),得益于圖形處理器(Graphics Processing Unit,GPU)技術(shù)突飛猛進(jìn)的發(fā)展以及計(jì)算機(jī)硬件升級(jí)帶來(lái)的算力提升,深度學(xué)習(xí)取得了令人矚目的發(fā)展成果。當(dāng)前,深度學(xué)習(xí)技術(shù)不僅大量地應(yīng)用在圖像分類、語(yǔ)音識(shí)別和自然語(yǔ)言處理領(lǐng)域的常規(guī)任務(wù)中,更是在自動(dòng)駕駛系統(tǒng)[1]、人臉識(shí)別系統(tǒng)[2]、惡意軟件自動(dòng)分類[3-4]和異常檢測(cè)[5]等工業(yè)生產(chǎn)和生活領(lǐng)域的大量關(guān)鍵任務(wù)中發(fā)揮著重要作用。雖然深度學(xué)習(xí)技術(shù)在眾多問題的解決上取得了一系列重要研究成果,但對(duì)于自身還存在一些關(guān)鍵的問題亟待解決,特別是深度學(xué)習(xí)模型存在的對(duì)抗樣本問題。

      2013 年,Szegedy 等[6]在研究圖像分類任務(wù)時(shí)發(fā)現(xiàn),在一個(gè)可以被深度學(xué)習(xí)模型正常分類的樣本圖片上添加噪聲數(shù)據(jù)后,即使是分類準(zhǔn)確率很高的深度學(xué)習(xí)模型也會(huì)以極高的置信度對(duì)該樣本誤分類。而添加在樣本圖片上的噪聲數(shù)據(jù)是微小的,以人的肉眼幾乎察覺不到在樣本圖像上進(jìn)行的篡改,篡改后得到的輸入樣本被稱為對(duì)抗樣本。對(duì)抗樣本的一個(gè)示例如圖1 所示,原始樣本為ImageNet 數(shù)據(jù)集[7]中圖片,其真實(shí)的標(biāo)簽和在ImageNet 上預(yù)訓(xùn)練的ResNet 模型[8]的分類結(jié)果均為足球。添加了惡意的擾動(dòng)數(shù)據(jù)后得到對(duì)抗樣本,此時(shí)ResNet 模型將該對(duì)抗樣本誤分類為橄欖球。

      圖1 對(duì)抗樣本示例Fig.1 Examples of adversarial sample

      對(duì)抗樣本問題揭示了深度學(xué)習(xí)模型存在嚴(yán)重的安全漏洞,給深度學(xué)習(xí)技術(shù)的普遍應(yīng)用帶來(lái)了嚴(yán)峻的安全挑戰(zhàn)。在圍繞對(duì)抗樣本的研究過(guò)程中,主要以用于對(duì)抗樣本生成的對(duì)抗攻擊技術(shù)的研究為主,迭代發(fā)展出了多樣性的對(duì)抗攻擊算法。目前已知的大部分對(duì)抗攻擊算法針對(duì)圖像分類任務(wù)提出,并經(jīng)過(guò)改造應(yīng)用在諸如語(yǔ)義分割、目標(biāo)檢測(cè)等常見的計(jì)算機(jī)視覺任務(wù)上。經(jīng)過(guò)改造的攻擊算法甚至可以很好地推廣到自然語(yǔ)言處理和語(yǔ)音識(shí)別等任務(wù)中。此外,對(duì)抗攻擊現(xiàn)象不僅發(fā)生在數(shù)字圖像空間,對(duì)于部署在真實(shí)應(yīng)用場(chǎng)景下的深度學(xué)習(xí)模型[4,9-11]也能夠帶來(lái)安全威脅。

      對(duì)抗攻擊技術(shù)由于其破壞力和潛在的應(yīng)用前景,成為近年來(lái)深度學(xué)習(xí)學(xué)術(shù)界和工業(yè)界共同的研究熱點(diǎn)。Carlini等[12]統(tǒng)計(jì)的2014 年至今,arXiv 網(wǎng)站發(fā)表的對(duì)抗樣本相關(guān)論文的數(shù)量情況如圖2 所示。攻擊者利用已有的對(duì)抗攻擊算法可以在深度學(xué)習(xí)模型推理階段對(duì)輸入樣本添加噪聲數(shù)據(jù),而達(dá)到惡意改變模型推理結(jié)果的目的。根據(jù)對(duì)抗攻擊技術(shù)在生成對(duì)抗樣本時(shí)是否需要了解目標(biāo)模型的網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)設(shè)置、訓(xùn)練數(shù)據(jù)和方式等知識(shí),對(duì)抗攻擊技術(shù)可分為白盒攻擊和黑盒攻擊;根據(jù)攻擊是否需要讓模型輸出指定的目標(biāo)類別,又分為目標(biāo)攻擊和無(wú)目標(biāo)攻擊。目前針對(duì)對(duì)抗攻擊技術(shù)的研究大多以白盒攻擊方式為主,其攻擊成功率大幅高于黑盒攻擊方式,對(duì)深度學(xué)習(xí)模型帶來(lái)的安全威脅也較為嚴(yán)峻。為及時(shí)評(píng)估對(duì)抗攻擊技術(shù)給深度學(xué)習(xí)模型帶來(lái)的安全風(fēng)險(xiǎn),以便為深度學(xué)習(xí)技術(shù)的安全應(yīng)用提供有益參考。本文圍繞圖像分類任務(wù),對(duì)近年來(lái)研究人員提出的具有一定代表性的白盒對(duì)抗攻擊技術(shù)進(jìn)行全面闡述和分析總結(jié)。

      圖2 對(duì)抗樣本論文數(shù)量Fig.2 Number of adversarial example papers

      1 對(duì)抗攻擊技術(shù)背景知識(shí)

      對(duì)抗攻擊是一種發(fā)生在深度學(xué)習(xí)模型推理階段的攻擊行為。在圖像分類任務(wù)中,給定一個(gè)深度學(xué)習(xí)模型f(x)=y,x∈Rm為模型的輸入,y∈Y為針對(duì)當(dāng)前輸入x的模型輸出。模型f(·)一般還包含一組訓(xùn)練好的權(quán)重參數(shù)θ,為方便說(shuō)明,對(duì)模型描述時(shí)省略該參數(shù)。對(duì)抗攻擊技術(shù)描述為在針對(duì)目標(biāo)模型f(·)的輸入x上尋找一個(gè)小的噪聲數(shù)據(jù)r,當(dāng)r疊加在x上輸入目標(biāo)模型后,使得f(x+r) ≠f(x);在目標(biāo)攻擊中,使得f(x+r)=yt,yt為需要讓模型輸出的目標(biāo)類目。

      為了使噪聲數(shù)據(jù)r足夠小,保證人眼察覺不到攻擊者在圖像上進(jìn)行的篡改,大多數(shù)對(duì)抗攻擊算法[6,13-14]會(huì)使用l0、l2或l∞范數(shù)對(duì)擾動(dòng)噪聲r(shí)的大小進(jìn)行限制。用l2范數(shù)來(lái)約束擾動(dòng)大小時(shí),在目標(biāo)攻擊中,對(duì)抗樣本的生成問題可描述為如下的優(yōu)化形式:

      其中:yt是要攻擊的目標(biāo)類別;x為原始輸入樣本;r表示擾動(dòng)噪聲;x+r表示得到的對(duì)抗樣本,后文也用xA表示。

      下面簡(jiǎn)要說(shuō)明和定義在本文中出現(xiàn)的對(duì)抗攻擊技術(shù)相關(guān)術(shù)語(yǔ)。

      模型 深度學(xué)習(xí)模型,文中一般指圖像分類模型。

      對(duì)抗樣本(Adversarial Examples)對(duì)抗樣本概念由Szegedy 等[6]提出,攻擊者對(duì)原始輸入樣本添加輕微的噪聲數(shù)據(jù)后能使深度學(xué)習(xí)模型推理錯(cuò)誤,這類添加噪聲數(shù)據(jù)后影響模型推理能力的樣本稱為對(duì)抗樣本。

      擾動(dòng)/對(duì)抗擾動(dòng)(Adversarial Perturbations)在原始輸入樣本上添加噪聲數(shù)據(jù)后能使深度學(xué)習(xí)模型推理錯(cuò)誤,被添加的噪聲數(shù)據(jù)稱為擾動(dòng)或?qū)箶_動(dòng)。

      通用對(duì)抗擾動(dòng)(Universal Adversarial Perturbations)不同于對(duì)抗擾動(dòng)只針對(duì)特定的輸入樣本,通用對(duì)抗擾動(dòng)添加在大部分輸入樣本上都會(huì)使得深度學(xué)習(xí)模型推理錯(cuò)誤。

      對(duì)抗擾動(dòng)的遷移攻擊性 針對(duì)目標(biāo)模型A,在輸入樣本x上生成對(duì)抗擾動(dòng)r。當(dāng)擾動(dòng)r疊加在針對(duì)目標(biāo)模型B 的輸入樣本上后能使模型B 推理錯(cuò)誤的現(xiàn)象稱為對(duì)抗擾動(dòng)的遷移攻擊性[6,14-15]。如果對(duì)抗擾動(dòng)能夠在目標(biāo)模型B 的大部分?jǐn)?shù)據(jù)點(diǎn)上使模型推理錯(cuò)誤,則稱該對(duì)抗擾動(dòng)具有很好的遷移攻擊能力。利用對(duì)抗樣本的遷移攻擊性進(jìn)行攻擊是一種有效的對(duì)抗攻擊方式。

      模型魯棒性 指模型的對(duì)抗魯棒性,針對(duì)對(duì)抗攻擊技術(shù)自身防御效果良好的模型,則稱該模型具有較好的魯棒性。

      對(duì)抗訓(xùn)練 一種提升模型對(duì)抗魯棒性的訓(xùn)練方式[14,16],在訓(xùn)練模型時(shí),使用正常樣本和對(duì)抗樣本同時(shí)對(duì)模型進(jìn)行訓(xùn)練的方式。

      攻擊成功率 利用對(duì)抗攻擊技術(shù)生成對(duì)抗樣本輸入目標(biāo)模型后,模型推理錯(cuò)誤樣本數(shù)占所有輸入樣本數(shù)的百分比,有時(shí)也可用模型對(duì)對(duì)抗樣本的分類準(zhǔn)確率代替表示,模型對(duì)對(duì)抗樣本的分類準(zhǔn)確率越低說(shuō)明攻擊者的攻擊成功率越高。

      2 白盒對(duì)抗攻擊技術(shù)

      就目前的研究來(lái)看,白盒對(duì)抗攻擊技術(shù)是主要的對(duì)抗樣本生成方式。大部分的白盒對(duì)抗攻擊算法針對(duì)單個(gè)輸入圖像生成對(duì)抗擾動(dòng),但也有算法針對(duì)目標(biāo)模型和整個(gè)數(shù)據(jù)集生成通用對(duì)抗擾動(dòng)[17-18]。通過(guò)對(duì)大部分研究人員主要的成果[19-21]進(jìn)行研究分析,發(fā)現(xiàn)大部分的白盒對(duì)抗攻擊算法目前主要分為以下4 種:1)基于直接優(yōu)化的方法;2)基于梯度優(yōu)化的方法;3)基于決策邊界分析的方法;4)基于生成式神經(jīng)網(wǎng)絡(luò)生成的方法。其他方面,研究人員也利用差分進(jìn)化、空域變換等思路進(jìn)行對(duì)抗樣本的生成。本文依據(jù)上述分類,對(duì)在白盒條件設(shè)置下主要的對(duì)抗攻擊算法進(jìn)行全面分析和闡述,最后在表1 中對(duì)攻擊算法進(jìn)行了比較和總結(jié)。

      2.1 基于直接優(yōu)化的攻擊方法

      基于直接優(yōu)化的攻擊方法是目前較為重要的一類對(duì)抗攻擊技術(shù),主要包含兩種對(duì)抗攻擊算法:基于Boxconstrained L-BFGS(Box-constrained Limited-memory BFGS)的攻擊算法[6]是第一個(gè)提出的對(duì)抗攻擊算法,該算法也首次揭示了深度學(xué)習(xí)模型中存在的對(duì)抗樣本問題;C&W(Carlini&Wagner)攻擊[13]通過(guò)對(duì)基于Box-constrained L-BFGS的攻擊算法的改進(jìn),能夠生成對(duì)蒸餾防御網(wǎng)絡(luò)[22]具有較好攻擊能力的對(duì)抗樣本。這類攻擊方法通過(guò)算法對(duì)目標(biāo)函數(shù)直接優(yōu)化生成的對(duì)抗擾動(dòng)相對(duì)較小,但存在優(yōu)化時(shí)間長(zhǎng),算法需花費(fèi)大量時(shí)間尋找合適超參數(shù)的問題。

      2.1.1 基于Box-constrained L-BFGS的攻擊

      2013 年,Szegedy 等[6]首先提出了利用Box-constrained L-BFGS 算法[23]直接優(yōu)化求解的對(duì)抗樣本生成方法。由于式(1)中的擾動(dòng)限制條件難以直接優(yōu)化,Szegedy 等利用拉格朗日松弛法將其中的f(x+r)=yt限制條件簡(jiǎn)化為lossf(x+r,yt)進(jìn)行優(yōu)化,lossf表示交叉熵?fù)p失函數(shù),最終得到的優(yōu)化目標(biāo)如下:

      其中:輸入圖像被歸一化在[0,1],以滿足凸優(yōu)化方法中的箱型約束條件,使得上述目標(biāo)可以利用L-BFGS 算法進(jìn)行求解。

      利用Box-constrained L-BFGS 算法生成對(duì)抗樣本的方法是最早被設(shè)計(jì)的對(duì)抗攻擊算法,該算法首次將生成對(duì)抗樣本的過(guò)程抽象為一個(gè)凸優(yōu)化的問題處理,是重要的基于優(yōu)化方法的對(duì)抗攻擊算法。該算法為目標(biāo)攻擊算法,使用該算法求解的思路是先固定超參數(shù)c來(lái)優(yōu)化當(dāng)前參數(shù)值下的最優(yōu)解,再通過(guò)對(duì)c進(jìn)行線性搜索即可找到滿足f(x+r)=yt條件的最優(yōu)對(duì)抗擾動(dòng)r,最終得到的對(duì)抗樣本為x+r。

      2.1.2 C&W攻擊

      為了攻破Papernot 等[22]提出的蒸餾防御網(wǎng)絡(luò),Carlini 和Wagner 提出了著名的C&W 攻擊[13]。該攻擊算法可以使用l0、l2或l∞范數(shù)分別對(duì)擾動(dòng)進(jìn)行限制生成對(duì)抗樣本,是目前較為強(qiáng)大的目標(biāo)攻擊算法之一。C&W 攻擊算法屬于直接優(yōu)化的攻擊算法,是基于Box-constrained L-BFGS 算法(式(2))的改進(jìn)版,改進(jìn)主要體現(xiàn)在兩點(diǎn):

      1)基于Box-constrained L-BFGS 的攻擊中損失函數(shù)為交叉熵?fù)p失函數(shù),而C&W 攻擊算法考慮了攻擊目標(biāo)類和其他類別之間的關(guān)系,選擇了更好的損失函數(shù)[13],如下所示:

      式中:Z(xA)=Logits(xA)表示目標(biāo)網(wǎng)絡(luò)Softmax 前一層的輸出;i表示標(biāo)簽類別;t表示目標(biāo)攻擊的標(biāo)簽類;k表示對(duì)抗樣本的攻擊成功率,k越大,生成的對(duì)抗樣本的攻擊成功率越高。

      2)去除了式(2)中的Box-constrained 限定條件,使該優(yōu)化問題轉(zhuǎn)化為無(wú)約束的凸優(yōu)化問題,方便利用梯度下降法,動(dòng)量梯度下降法和Adam[24]等算法求解。為實(shí)現(xiàn)該目的,Carlini 等[13]提供了兩種有效方法:①采用投影梯度下降法的思路將每次迭代過(guò)程中得到的x+r裁剪在[0,1]m內(nèi),以去除x+r的區(qū)間約束條件,但此方法在對(duì)x+r進(jìn)行裁剪時(shí)會(huì)帶來(lái)梯度信息的損失;②引入新的變量ω,令ω∈[-∞,+∞],構(gòu)造一個(gè)映射函數(shù)將ω從[-∞,+∞]映射到[0,1],通過(guò)優(yōu)化ω去掉方法①中由x+r∈[0,1]m條件引起的優(yōu)化誤差,具體映射函數(shù)如下:

      其中:-1 ≤tanh(?i) ≤1,故0 ≤x+r≤1。

      Carlini 等[13]分別用方法①和方法②進(jìn)行了實(shí)驗(yàn)分析,發(fā)現(xiàn)用投影梯度下降法處理Box-constrained 限定條件時(shí)生成的對(duì)抗樣本攻擊能力較強(qiáng),但引入變量進(jìn)行優(yōu)化的方法生成的對(duì)抗擾動(dòng)較小。此外,在優(yōu)化算法的選擇上,梯度下降、動(dòng)量梯度下降和Adam 等優(yōu)化算法都可以生成相同質(zhì)量的對(duì)抗樣本,但Adam 算法的收斂速度要比其他兩種快。C&W 攻擊算法生成的對(duì)抗樣本針對(duì)蒸餾防御的模型攻擊能力很好,是目前較為強(qiáng)大的白盒攻擊算法,也是用于評(píng)估模型魯棒性的主要測(cè)試算法之一。

      2.2 基于梯度優(yōu)化的攻擊方法

      基于梯度優(yōu)化的攻擊方法是目前一種主要的對(duì)抗攻擊技術(shù)。這類攻擊方法的核心思想是在模型損失函數(shù)變化的方向上對(duì)輸入樣本進(jìn)行擾動(dòng),來(lái)使模型誤分類輸入樣本或使模型分類輸入樣本到指定的不正確目標(biāo)類別上。這類攻擊方法的優(yōu)點(diǎn)是方法實(shí)現(xiàn)簡(jiǎn)單,且白盒對(duì)抗攻擊成功率較高。該類方法以FGSM(Fast Gradient Sign Method)算法[14]為基礎(chǔ),衍生發(fā)展出了I-FGSM(Iterative FGSM)算 法[25]、PGD(Projected Gradient Descent)算法[26]、動(dòng)量迭代的MI-FGSM(Momentum Iterative FGSM)算法[27]以及多樣性的梯度攻擊算法[28-29]。

      2.2.1 FGSM攻擊

      2014 年,Goodfellow 等[14]在其研究中認(rèn)為,深度學(xué)習(xí)模型存在對(duì)抗樣本是由于模型過(guò)于線性的特性導(dǎo)致,基于該觀點(diǎn)提出了基于一步梯度計(jì)算的對(duì)抗樣本生成算法FGSM。這項(xiàng)工作意義深遠(yuǎn),受Goodfellow 等啟發(fā),后來(lái)出現(xiàn)的基于梯度優(yōu)化的大部分攻擊算法都是FGSM 算法的變種。

      FGSM 攻擊算法的思想是使對(duì)抗擾動(dòng)的變化量與模型損失梯度變化的方向保持一致。具體來(lái)說(shuō),在無(wú)目標(biāo)攻擊中,使模型損失函數(shù)關(guān)于輸入x的梯度在上升的方向上變化擾動(dòng)達(dá)到讓模型誤分類的效果。假設(shè)θ為模型的參數(shù),x為模型的輸入,y為輸入x對(duì)應(yīng)的正確類別標(biāo)簽,J(θ,x,y)為模型的損失函數(shù),為交叉熵?fù)p失函數(shù),?xJ(θ,x,y)為損失函數(shù)關(guān)于x的梯度。FGSM 算法描述為:

      其中:α為超參數(shù),表示為一步梯度的步長(zhǎng);sign(·)為符號(hào)函數(shù),故該方法生成的擾動(dòng)為在l∞范數(shù)約束下的對(duì)抗擾動(dòng)。FGSM 算法由于只計(jì)算一次梯度,其攻擊能力有限,但生成的對(duì)抗樣本具有較好的遷移攻擊能力。

      2.2.2 I-FGSM攻擊

      由于FGSM 算法只經(jīng)過(guò)一次梯度計(jì)算生成對(duì)抗樣本,并且該方法成功應(yīng)用的前提條件是損失函數(shù)的梯度變化方向在局部區(qū)間內(nèi)是線性的。在非線性的優(yōu)化區(qū)間內(nèi),沿著梯度變化方向進(jìn)行大步長(zhǎng)優(yōu)化生成的對(duì)抗樣本并不能保證攻擊成功。針對(duì)該問題,Kurakin等[25]提出了迭代FGSM(I-FGSM)算法,通過(guò)把優(yōu)化區(qū)間變小來(lái)使Goodfellow 的線性假設(shè)[14]近似成立。I-FGSM 算法的無(wú)目標(biāo)攻擊描述為:

      I-FGSM 算法較FGSM 算法生成的對(duì)抗樣本攻擊能力更強(qiáng)[30],但其生成的對(duì)抗樣本遷移攻擊能力卻不如FGSM算法。

      此外,Kurakin 等[25]還在I-FGSM 算法的基礎(chǔ)上,通過(guò)將攻擊的目標(biāo)類別y指定為原始樣本在模型上輸出置信度最低的類別標(biāo)簽yl來(lái)進(jìn)行針對(duì)置信度最低類別的目標(biāo)攻擊。在目標(biāo)攻擊過(guò)程中,擾動(dòng)的變化方向與模型損失函數(shù)關(guān)于輸入的梯度下降方向保持一致,其優(yōu)化的目標(biāo)形式為:

      這種目標(biāo)攻擊方式生成的對(duì)抗樣本使模型誤分類到與正確類別差距很大的類,其攻擊效果更具破壞性。

      2.2.3 PGD攻擊

      2017 年,Madry 等[26]提出的PGD 攻擊算法是目前公認(rèn)為最強(qiáng)的白盒攻擊方法,也是用于評(píng)估模型魯棒性的基準(zhǔn)測(cè)試算法之一。PGD 攻擊本質(zhì)上也是迭代的FGSM 算法,與I-FGSM 攻擊類似。與I-FGSM 算法相比,PGD 算法的迭代次數(shù)更多,并在迭代過(guò)程中對(duì)上一版本得到的xA隨機(jī)地進(jìn)行了噪聲初始化,以此避免優(yōu)化過(guò)程中可能遇到的鞍點(diǎn)[26]。使用PGD 算法生成的對(duì)抗樣本攻擊能力比I-FGSM 攻擊能力強(qiáng),但同樣具有的遷移攻擊能力弱的問題。

      2.2.4 MI-FGSM攻擊

      在接下來(lái)的研究中,為了使對(duì)抗樣本兼具強(qiáng)大的攻擊能力和良好的遷移攻擊能力,Dong 等[27]提出了基于動(dòng)量的迭代生成對(duì)抗樣本的MI-FGSM 算法。該算法在I-FGSM 算法的迭代過(guò)程中引入動(dòng)量技術(shù)[31-32],以此在損失梯度變化的方向上累計(jì)速度矢量以穩(wěn)定梯度的更新方向,使得優(yōu)化過(guò)程不容易陷入局部最優(yōu)。MI-FGSM 算法描述為:

      其中:gi+1表示在第i次迭代后累計(jì)的梯度動(dòng)量;μ為動(dòng)量項(xiàng)的衰減因子,當(dāng)μ=0,則上述形式為I-FGSM 算法的形式。由于多次迭代中得到的梯度不在一個(gè)量級(jí),將每次迭代中得到的當(dāng)前梯度?xJ(,y)通過(guò)其自身的l1距離進(jìn)行歸一化。

      MI-FGSM 攻擊算法生成的對(duì)抗樣本在具有較好攻擊能力的基礎(chǔ)上還保留了一定的遷移攻擊能力,是目前常用的白盒對(duì)抗攻擊方法。

      此外,為了更加有效提升基于梯度優(yōu)化的方法生成對(duì)抗樣本的遷移攻擊能力,Xie 等[28]提出了一種輸入多樣性的對(duì)抗攻擊方式,采取數(shù)據(jù)增強(qiáng)的思路,在將圖像輸入到模型前,先對(duì)輸入樣本進(jìn)行隨機(jī)轉(zhuǎn)化,如隨機(jī)調(diào)整樣本大小或隨機(jī)填充給定的分布等。將轉(zhuǎn)換后的圖像輸入至目標(biāo)模型后,再應(yīng)用I-FGSM[25]、MI-FGSM[27]等算法進(jìn)行梯度計(jì)算生成對(duì)抗樣本。另外,通過(guò)減輕對(duì)抗樣本在不同模型間識(shí)別的敏感程度,也可以提高對(duì)抗樣本的遷移攻擊能力。Dong 等[29]提出了基于梯度的平移不變攻擊方式,通過(guò)將梯度與一個(gè)預(yù)先定義的核進(jìn)行卷積來(lái)生成對(duì)大部分模型識(shí)別區(qū)域不太敏感的對(duì)抗樣本。

      2.3 基于決策邊界分析的攻擊方法

      基于決策邊界分析的攻擊方法是一類特殊的對(duì)抗攻擊方法。該方法最初由Moosavi-Dezfooli 等[33]提出,分為針對(duì)單個(gè)輸入圖像生成對(duì)抗擾動(dòng)的DeepFool 攻擊算法和針對(duì)目標(biāo)模型和整個(gè)數(shù)據(jù)集生成通用對(duì)抗擾動(dòng)的UAPs(Universal Adversarial Perturbations)攻擊算法[17]。該類攻擊方法的核心思想是通過(guò)逐步減小樣本與模型決策邊界的距離來(lái)使模型對(duì)該樣本誤分類,故其生成的對(duì)抗樣本一般較小,但這類攻擊方法不具備目標(biāo)攻擊能力。

      2.3.1 DeepFool攻擊

      Moosavi-Dezfooli 等[33]在對(duì)模型的決策邊界分析后提出了一種精確計(jì)算對(duì)抗擾動(dòng)的DeepFool 方法。DeepFool 算法生成的對(duì)抗擾動(dòng)非常小,該擾動(dòng)一般被認(rèn)為近似于最小擾動(dòng)。DeepFool 算法具體描述為:首先,針對(duì)線性二分類問題,給定一個(gè)分類器(x)=sign(f(x)),f(x)=ωx+b,分類器的決策邊界用F={x:f(x)=0}表示,如圖3 所示。要使當(dāng)前數(shù)據(jù)點(diǎn)x0被該模型誤分類到?jīng)Q策邊界另一邊,其最小擾動(dòng)對(duì)應(yīng)于x0在F上的正交投影r*(x0):

      圖3 線性分類器的決策邊界Fig.3 Decision boundary of linear classifier

      根據(jù)f(x)=ωx+b,推導(dǎo)得r*(x0)=,此為模型決策邊界線性時(shí)計(jì)算得到的最小擾動(dòng)值。

      推廣到非線性決策邊界的二分類問題,可通過(guò)迭代的過(guò)程來(lái)近似得到針對(duì)數(shù)據(jù)點(diǎn)x0的最小擾動(dòng)r*(x0)。具體來(lái)說(shuō),在每次迭代過(guò)程中認(rèn)為模型f(·)近似線性,此時(shí)擾動(dòng)后數(shù)據(jù)點(diǎn)x0對(duì)應(yīng)于這次迭代的最小距離ri(xi)為:

      根據(jù)式(9)得到的閉解,繼而推導(dǎo)得出針對(duì)非線性決策邊界的最小擾動(dòng)距離ri(xi)=通過(guò)將每次迭代得到的擾動(dòng)ri累加就可以得到針對(duì)當(dāng)前數(shù)據(jù)點(diǎn)x0所需的最小擾動(dòng)。

      2.3.2 UAPs攻擊

      多數(shù)對(duì)抗攻擊算法[14,25,33]針對(duì)單個(gè)輸入樣本生成對(duì)抗樣本,從而達(dá)到攻擊目的。而Moosavi-Dezfooli 等[17]發(fā)現(xiàn)深度學(xué)習(xí)模型存在與輸入樣本無(wú)關(guān)的通用對(duì)抗擾動(dòng),這種擾動(dòng)與目標(biāo)模型結(jié)構(gòu)和數(shù)據(jù)集特征相關(guān)。當(dāng)通用對(duì)抗擾動(dòng)疊加在數(shù)據(jù)集的輸入樣本上時(shí)得到對(duì)抗樣本,得到的對(duì)抗樣本大部分具有攻擊能力。通用對(duì)抗擾動(dòng)定義如下:假設(shè)μ表示數(shù)據(jù)集中數(shù)據(jù)的分布情況,δ表示分布μ上所有數(shù)據(jù)點(diǎn)希望攻擊成功的比例,ξ用于度量擾動(dòng)的大小,通用對(duì)抗擾動(dòng)ν要滿足如下兩個(gè)條件:

      Moosavi-Dezfooli 等[17]提出的UAPs 攻擊算法通過(guò)在采樣的少量數(shù)據(jù)點(diǎn)上迭代計(jì)算生成通用對(duì)抗擾動(dòng)。每次迭代過(guò)程中,計(jì)算能夠使當(dāng)前數(shù)據(jù)點(diǎn)xi欺騙分類器的最小擾動(dòng)Δνi,其優(yōu)化目標(biāo)描述為:

      最后,將在采樣數(shù)據(jù)點(diǎn)上計(jì)算得到的擾動(dòng)匯總到通用對(duì)抗擾動(dòng)ν。為了保證匯總得到的通用對(duì)抗擾動(dòng)滿足‖ν‖p≤ξ,在每次迭代匯總時(shí),對(duì)更新的擾動(dòng)進(jìn)行如下投影操作:

      于是,ν的更新規(guī)則為ν←Pp,ξ(ν+Δνi)。直到滿足預(yù)先定義的愚弄率后,算法停止迭代。愚弄率定義如下:

      UAPs 攻擊算法在迭代過(guò)程中的擾動(dòng)計(jì)算使用DeepFool算法[33]進(jìn)行求解。最終,經(jīng)過(guò)多次迭代后通過(guò)將數(shù)據(jù)點(diǎn)推送到模型決策邊界另一邊,達(dá)到對(duì)抗攻擊的目的。

      2.4 基于生成式神經(jīng)網(wǎng)絡(luò)生成的攻擊方法

      基于生成式神經(jīng)網(wǎng)絡(luò)生成的攻擊方法利用自監(jiān)督的方式,通過(guò)訓(xùn)練生成式神經(jīng)網(wǎng)絡(luò)來(lái)生成對(duì)抗樣本。這類攻擊方法的特點(diǎn)是一旦生成式模型訓(xùn)練完成,可非常高效地生成大量具有良好遷移攻擊能力的對(duì)抗樣本。典型的這類攻擊方法有ATN(Adversarial Transformation Network)攻擊[34]、UAN(Universal Adversarial Network)攻擊[18]和AdvGAN 攻擊[35]。

      2.4.1 ATN攻擊

      Baluja 等[34]首次提出利用生成式神經(jīng)網(wǎng)絡(luò)生成對(duì)抗樣本的ATN 攻擊方式,并設(shè)計(jì)了ATN 用來(lái)生成對(duì)抗樣本。ATN 將一個(gè)輸入樣本轉(zhuǎn)換為針對(duì)目標(biāo)模型的對(duì)抗樣本,ATN 定義如下:

      其中:θ表示神經(jīng)網(wǎng)絡(luò)g的參數(shù),f表示為要攻擊的目標(biāo)網(wǎng)絡(luò)。針對(duì)目標(biāo)攻擊問題,對(duì)ATN 中參數(shù)θ的訓(xùn)練,可描述為如下的優(yōu)化目標(biāo):

      其中:LX為視覺損失函數(shù),可用常見的l2范數(shù)表示或者采用與文獻(xiàn)[36]中類似的視覺感知相似性函數(shù);LY為類別損失函數(shù),定義為L(zhǎng)Y=L2(y',r(y,t)),其中y=f(x),y'=f(gf(x)),t是目標(biāo)攻擊的類別,r(·)是重新排序函數(shù)[34],它對(duì)x進(jìn)行修改,使yk≤yt,?k≠t。

      ATN[34]可以訓(xùn)練為僅生成對(duì)抗擾動(dòng)的P-ATN(Perturbations Adversarial Transformation Network),這種情況下ATN 一般選擇殘差的網(wǎng)絡(luò)結(jié)構(gòu)[8]就可有效地生成擾動(dòng)。ATN 還可以訓(xùn)練為直接生成對(duì)抗樣本的AAE(Adversarial AutoEncoding)網(wǎng)絡(luò),這種情況下ATN 結(jié)構(gòu)采用自編碼器可很好地生成對(duì)抗樣本。通過(guò)這兩種方法得到的對(duì)抗樣本差異較大,AAE 方法生成的對(duì)抗樣本整體變化較為明顯,而P-ATN 方法生成的對(duì)抗樣本擾動(dòng)程度較小??傮w而言,該方法生成對(duì)抗樣本的速度較快,且其攻擊能力較強(qiáng),但遷移攻擊能力較弱。

      2.4.2 UAN攻擊

      Hayes 等[18]提出了基于神經(jīng)網(wǎng)絡(luò)生成通用對(duì)抗擾動(dòng)進(jìn)行攻擊的UAN 攻擊算法。UAN 攻擊通過(guò)訓(xùn)練一個(gè)簡(jiǎn)單的反卷積神經(jīng)網(wǎng)絡(luò)將一個(gè)在自然分布N(0,1)100上采樣的隨機(jī)噪聲轉(zhuǎn)換為通用對(duì)抗擾動(dòng)。針對(duì)目標(biāo)攻擊問題,Hayes 等[18]為反卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練設(shè)計(jì)了如下的優(yōu)化函數(shù):

      其中:模型損失函數(shù)選擇了與C&W 攻擊[13]相同的損失函數(shù),yt為目標(biāo)攻擊選擇的類別,α控制擾動(dòng)大小優(yōu)化項(xiàng)的相對(duì)重要程度。

      在實(shí)際利用UAN 攻擊方式[18]進(jìn)行攻擊時(shí),使用l2或l∞范數(shù)均可生成攻擊能力較好的通用對(duì)抗擾動(dòng),其攻擊能力強(qiáng)于先前提出的UAPs 攻擊[17]。

      2.4.3 AdvGAN攻擊

      Xiao 等[35]在基于神經(jīng)網(wǎng)絡(luò)生成的攻擊算法中首次引入了生成式對(duì)抗網(wǎng)絡(luò)[37]的思想,提出了包含生成器、鑒別器和攻擊目標(biāo)模型的AdvGAN。如圖4 所示,經(jīng)過(guò)訓(xùn)練的AdvGAN 可以將隨機(jī)噪聲轉(zhuǎn)換為有效的對(duì)抗樣本。

      圖4 AdvGAN架構(gòu)Fig.4 Architecture of AdvGAN

      與UAN 攻擊[18]中使用lp范數(shù)對(duì)擾動(dòng)大小的限制不同,AdvGAN 利用生成式對(duì)抗網(wǎng)絡(luò)中的“對(duì)抗損失”項(xiàng),來(lái)保證對(duì)抗樣本的真實(shí)性。AdvGAN 中的對(duì)抗損失項(xiàng)采用與Goodfellow 等[37]相同的定義:

      其中:生成器G(·)用于將輸入噪聲轉(zhuǎn)化為對(duì)抗擾動(dòng),鑒別器D(·)的目的是盡可能使生成的對(duì)抗樣本與原始輸入樣本具有較高的相似性。在目標(biāo)攻擊中,針對(duì)目標(biāo)模型的誤導(dǎo)損失項(xiàng)定義為:

      其中:yt為目標(biāo)攻擊的類別,lossf為交叉熵?fù)p失函數(shù)。此外,為了明確量化擾動(dòng)大小以及穩(wěn)定GAN 的訓(xùn)練過(guò)程[38],對(duì)擾動(dòng)添加一個(gè)soft hinge 損失項(xiàng),如下所示:

      其中c為指定的擾動(dòng)大小。最終,針對(duì)AdvGAN 訓(xùn)練的整體優(yōu)化函數(shù)設(shè)計(jì)如下:

      其中:α和β參數(shù)用來(lái)控制每個(gè)優(yōu)化項(xiàng)的相對(duì)重要性,整體來(lái)說(shuō),LGAN損失項(xiàng)的目的是使生成的對(duì)抗擾動(dòng)與原始樣本相似損失項(xiàng)的目的是達(dá)到對(duì)抗攻擊的效果。

      2.5 其他的攻擊方法

      2.5.1 JSMA攻擊

      Papernot 等[39]提出的JSMA(Jacobian-based Saliency Map Attack)算法是一種基于l0范數(shù)約束下的攻擊,通過(guò)修改圖像中的幾個(gè)像素來(lái)使模型對(duì)輸入樣本誤分類。JSMA 攻擊算法利用顯著圖[40]表示輸入特征對(duì)預(yù)測(cè)結(jié)果的影響程度,每次修改一個(gè)干凈圖像的像素,然后計(jì)算模型最后一層的輸出對(duì)輸入的每個(gè)特征的偏導(dǎo)。通過(guò)得到的前向?qū)?shù),計(jì)算得出顯著圖[40]。最后利用顯著圖找到對(duì)模型輸出影響程度最大的輸入特征,通過(guò)修改這些對(duì)輸出影響程度較大的特征點(diǎn)從而得到有效的對(duì)抗樣本。

      2.5.2 單像素攻擊

      在其他的攻擊算法中,單像素攻擊[41]是一種基于差分進(jìn)化算法[42]的攻擊算法。單像素攻擊算法每次只修改樣本數(shù)據(jù)點(diǎn)的1 個(gè)像素值試圖讓模型誤分類。實(shí)際應(yīng)用中,這是一種極端的攻擊方式。該方法對(duì)于簡(jiǎn)單的數(shù)據(jù)集有較好的攻擊效果,比如MNIST 數(shù)據(jù)集[43]。當(dāng)輸入圖像的像素空間較大時(shí),1 個(gè)像素點(diǎn)的改變很難影響到分類結(jié)果,隨著圖像增大,算法的搜索空間也會(huì)迅速增大,使得算法性能下降。

      2.5.3 stAdv攻擊

      Xiao 等[44]提出了一種通過(guò)對(duì)圖像樣本進(jìn)行空域變換來(lái)產(chǎn)生對(duì)抗樣本的stAdv(spatially transformed Adversarial)攻擊算法。該算法對(duì)局部圖像特征進(jìn)行平移、扭曲等操作實(shí)現(xiàn)針對(duì)輸入樣本的空域變換攻擊。使用stAdv 算法生成的對(duì)抗樣本較于傳統(tǒng)基于lp范數(shù)距離度量生成的對(duì)抗樣本更為真實(shí),且針對(duì)目前采用對(duì)抗訓(xùn)練措施的模型具有很好的攻擊效果。

      2.5.4 BPDA攻擊

      破碎梯度策略[15]是一種用來(lái)針對(duì)FGSM[14]、I-FGSM[25]等基于梯度攻擊方法的對(duì)抗防御方法。破碎梯度策略使用一個(gè)不可微的函數(shù)g(x)預(yù)處理輸入樣本,使訓(xùn)練得到的模型f(g(x))在x上不可微,使得攻擊者計(jì)算不出用于對(duì)抗樣本生成的梯度[15]。

      Athalye 等[45]針對(duì)破碎梯度策略,提出利用近似梯度生成對(duì)抗樣本的 BPDA(Backward Pass Differentiable Approximation)算法。BPDA 算法在反向傳播計(jì)算梯度時(shí),使用一個(gè)可微的函數(shù)h(x)替代函數(shù)g(x)來(lái)近似獲得梯度,生成對(duì)抗樣本。

      本文從擾動(dòng)范數(shù)、攻擊類型和攻擊強(qiáng)度等角度對(duì)上述白盒對(duì)抗攻擊算法進(jìn)行了比較,總結(jié)分析了不同算法的優(yōu)勢(shì)及劣勢(shì)。其中,對(duì)抗攻擊類型分為單步迭代攻擊和多步迭代攻擊。單步迭代攻擊算法生成對(duì)抗樣本速度較快,而多步迭代攻擊算法的攻擊能力較強(qiáng)。對(duì)比分析的結(jié)果如表1 所示,其中在攻擊強(qiáng)度的對(duì)比結(jié)果中,*的數(shù)量代表攻擊強(qiáng)度。

      表1 對(duì)抗攻擊算法總結(jié)Tab.1 Summary of adversarial attack algorithms

      3 應(yīng)用場(chǎng)景下的白盒對(duì)抗攻擊技術(shù)

      對(duì)抗攻擊技術(shù)同時(shí)給部署在大部分應(yīng)用場(chǎng)景下的深度學(xué)習(xí)系統(tǒng)帶來(lái)了安全威脅,諸多研究[9-11,46]已表明這類系統(tǒng)面臨的被對(duì)抗攻擊技術(shù)誤導(dǎo)的風(fēng)險(xiǎn)。與在第2 章中介紹的白盒對(duì)抗攻擊技術(shù)可以直接向深度學(xué)習(xí)模型輸入對(duì)抗樣本不同,真實(shí)的應(yīng)用場(chǎng)景下并不能直接操作深度學(xué)習(xí)系統(tǒng)的輸入。本章介紹幾類發(fā)生在不同應(yīng)用場(chǎng)景下的白盒對(duì)抗攻擊,通過(guò)不同應(yīng)用場(chǎng)景的白盒對(duì)抗攻擊說(shuō)明針對(duì)當(dāng)前部署的深度學(xué)習(xí)系統(tǒng)的對(duì)抗照片攻擊和對(duì)抗貼紙攻擊技術(shù)。

      3.1 針對(duì)移動(dòng)終端應(yīng)用的攻擊

      隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來(lái)越多的人工智能技術(shù)應(yīng)用在諸如手機(jī)、平板電腦等智能化的移動(dòng)終端設(shè)備上,而這類部署在移動(dòng)終端設(shè)備上的深度學(xué)習(xí)系統(tǒng)也面臨著被對(duì)抗攻擊技術(shù)攻擊的風(fēng)險(xiǎn)。Kurakin 等[25]對(duì)部署在手機(jī)上的圖像分類應(yīng)用進(jìn)行了攻擊測(cè)試,首次展示了對(duì)抗攻擊技術(shù)給移動(dòng)終端設(shè)備上部署的深度學(xué)習(xí)系統(tǒng)帶來(lái)的危害。

      Kurakin[47]攻擊的目標(biāo)模型是一個(gè)手機(jī)圖像分類應(yīng)用,該應(yīng)用基于Inception 分類模型[48]構(gòu)建,可對(duì)手機(jī)相機(jī)拍攝得到的照片進(jìn)行分類。Kurakin 利用FGSM[14]和I-FGSM 攻擊算法[25]分別針對(duì)Inception 分類模型[48]生成對(duì)抗樣本后,把得到的對(duì)抗樣本打印為照片,這種照片被稱為對(duì)抗照片。最后,使用手機(jī)相機(jī)拍攝輸入對(duì)抗照片后實(shí)現(xiàn)對(duì)手機(jī)圖像分類應(yīng)用的攻擊。Kurakin 的攻擊使圖像分類應(yīng)用誤分類了大部分拍攝得到的對(duì)抗照片,但Kurakin 在利用手機(jī)相機(jī)拍攝對(duì)抗照片時(shí),采取了固定相機(jī)的拍攝距離、角度和光線等措施。在現(xiàn)實(shí)的攻擊場(chǎng)景中,并不能完全具備這些條件,但Kurakin團(tuán)隊(duì)的工作首次驗(yàn)證了針對(duì)真實(shí)應(yīng)用場(chǎng)景下深度學(xué)習(xí)系統(tǒng)進(jìn)行對(duì)抗攻擊來(lái)干擾其正常工作的可行性,提供了一種在該場(chǎng)景下對(duì)抗攻擊的思路。

      3.2 針對(duì)人臉識(shí)別系統(tǒng)的攻擊

      人臉識(shí)別系統(tǒng)是目前深度學(xué)習(xí)技術(shù)在現(xiàn)實(shí)生活中較為成功的應(yīng)用,其廣泛地部署在安檢、考勤、支付等諸多身份核驗(yàn)場(chǎng)景。Sharif 等[10]針對(duì)部署在真實(shí)場(chǎng)景下的人臉識(shí)別系統(tǒng)進(jìn)行了對(duì)抗攻擊測(cè)試,并提出一種對(duì)抗貼紙的攻擊方式。針對(duì)人臉識(shí)別系統(tǒng),在Kurakin 等[25]的工作基礎(chǔ)上,鑒于無(wú)法直接對(duì)輸入圖像像素進(jìn)行修改的限制,使用攻擊算法生成對(duì)抗擾動(dòng)后,通過(guò)將擾動(dòng)打印在貼紙上,最后將貼紙張貼在眼鏡框區(qū)域來(lái)達(dá)到對(duì)抗攻擊的目的,如圖5 所示。

      圖5 對(duì)抗眼鏡Fig.5 Adversarial glasses

      人臉識(shí)別系統(tǒng)本質(zhì)上是一個(gè)多分類的深度學(xué)習(xí)模型,針對(duì)人臉識(shí)別系統(tǒng)的目標(biāo)攻擊,其對(duì)抗樣本生成可描述為如下的優(yōu)化問題:

      其中:r表示要生成的對(duì)抗擾動(dòng),l表示要攻擊的類別,X表示攻擊者的人臉數(shù)據(jù)集。為了使得生成的擾動(dòng)更加“平滑”和“自然”,保證攻擊的隱蔽性。使用全變差約束方法對(duì)r進(jìn)行約束,全變差約束函數(shù)的定義如下:

      針對(duì)Kurakin 等[25]在將對(duì)抗樣本打印為“對(duì)抗照片”時(shí),未考慮到打印設(shè)備帶來(lái)的數(shù)字圖像與打印輸出之間的色域誤差。Sharif 等[10]定義了色域誤差值來(lái)明確這種誤差,NPS(Non-Printability Score)值的定義如下:

      其中:p表示打印機(jī)能打印出來(lái)的顏色值,p表示為數(shù)字圖像中的顏色值。

      綜合考慮對(duì)抗貼紙的隱蔽性和打印設(shè)備帶來(lái)的打印誤差,最終針對(duì)人臉識(shí)別系統(tǒng)的對(duì)抗貼紙生成的優(yōu)化問題描述為:

      通過(guò)常見的優(yōu)化算法,求解上述優(yōu)化問題,即可得到對(duì)抗貼紙。Sharif 等[10]利用梯度下降法求解得到的“對(duì)抗眼鏡”使得人臉識(shí)別系統(tǒng)以高置信度將攻擊者誤識(shí)別為攻擊目標(biāo)人,達(dá)到了攻擊目的。

      Sharif等[10]針對(duì)人臉識(shí)別系統(tǒng)的攻擊,較為全面地考慮到了打印設(shè)備帶來(lái)的打印誤差,其生成的“對(duì)抗貼紙”較Kurakin等[25]生成的“對(duì)抗照片”的對(duì)抗魯棒性有了一定提升,但該攻擊方式依然缺乏在復(fù)雜物理因素影響下的攻擊能力。

      3.3 針對(duì)自動(dòng)駕駛系統(tǒng)的攻擊

      近年來(lái),依托于深度學(xué)習(xí)技術(shù)的自動(dòng)駕駛系統(tǒng)取得了越來(lái)越大的進(jìn)步?;谏疃葘W(xué)習(xí)技術(shù)決策的自動(dòng)駕駛系統(tǒng)已普遍搭載應(yīng)用在無(wú)人駕駛車輛上,而對(duì)抗攻擊技術(shù)的發(fā)展也為這類自動(dòng)駕駛系統(tǒng)的安全性帶來(lái)了嚴(yán)重的危害。Eykholt等[11]針對(duì)自動(dòng)駕駛系統(tǒng)的交通標(biāo)志識(shí)別功能進(jìn)行了攻擊測(cè)試,展示了對(duì)抗攻擊技術(shù)給自動(dòng)駕駛系統(tǒng)帶來(lái)的安全威脅。

      由于大部分對(duì)抗攻擊算法在數(shù)字圖像空間中生成的對(duì)抗擾動(dòng)由于打印設(shè)備[10]、相機(jī)輸入[11]等過(guò)程帶來(lái)的誤差無(wú)法有效針對(duì)應(yīng)用場(chǎng)景下部署的深度學(xué)習(xí)系統(tǒng)進(jìn)行攻擊。Eykholt 等[11]設(shè)計(jì)了一種針對(duì)復(fù)雜物理場(chǎng)景下的深度學(xué)習(xí)系統(tǒng)進(jìn)行攻擊的RP2(Robust Physical Perturbations)算法。RP2攻擊算法[11]盡可能考慮到不同光照、視角、距離等物理因素的影響,采用類似數(shù)據(jù)增強(qiáng)的思路來(lái)生成在復(fù)雜物理因素影響下魯棒的對(duì)抗擾動(dòng)。在針對(duì)運(yùn)動(dòng)中自動(dòng)駕駛車輛的道路交通標(biāo)志識(shí)別進(jìn)行攻擊測(cè)試時(shí),Eykholt 等利用相機(jī)拍攝要攻擊的“STOP”交通標(biāo)志在各種光照、視角、距離條件下得到的圖像加入用于生成對(duì)抗擾動(dòng)貼紙的數(shù)據(jù)集;同時(shí),在定義擾動(dòng)生成的目標(biāo)優(yōu)化函數(shù)時(shí),引入Sharif 等[10]定義的NPS 誤差,以此減少打印設(shè)備帶來(lái)的誤差;最后采用Sharif 等[10]貼紙攻擊的方法,將生成的對(duì)抗擾動(dòng)打印后張貼在要攻擊的道路交通標(biāo)志上,以此達(dá)到自動(dòng)駕駛系統(tǒng)無(wú)法識(shí)別正確該標(biāo)志的目的,如圖6 所示。

      圖6 “STOP”交通標(biāo)志Fig.6 “STOP”traffic sign

      Sharif 等[11]提出的RP2 攻擊算法進(jìn)一步提高了復(fù)雜應(yīng)用場(chǎng)景下對(duì)抗擾動(dòng)的攻擊能力和對(duì)抗魯棒性。利用RP2 攻擊算法結(jié)合對(duì)抗貼紙進(jìn)行攻擊的手段是目前針對(duì)應(yīng)用場(chǎng)景下深度學(xué)習(xí)系統(tǒng)的主要對(duì)抗攻擊技術(shù)。

      4 對(duì)抗攻擊實(shí)驗(yàn)

      選擇第2 章中所介紹的算法分別進(jìn)行以下兩組實(shí)驗(yàn):1)基于CIFAR10 數(shù)據(jù)集[49],介紹了不同種類的攻擊算法對(duì)目標(biāo)模型分類準(zhǔn)確率的影響程度;2)基于MNIST 數(shù)據(jù)集[44],介紹了基于梯度優(yōu)化的攻擊算法在不同擾動(dòng)強(qiáng)度設(shè)置下對(duì)目標(biāo)模型分類準(zhǔn)確率的影響和其生成的對(duì)抗樣本的擾動(dòng)差異程度。實(shí)驗(yàn)中用到的MNIST 數(shù)據(jù)集[43]包含6 萬(wàn)張訓(xùn)練圖像和1 萬(wàn)張測(cè)試圖像,每張圖像為28×28 像素的灰度圖像;CIFAR10 數(shù)據(jù)集包含5 萬(wàn)張訓(xùn)練圖像和1 萬(wàn)張驗(yàn)證圖像,每張圖像為32×32 像素的RGB 圖像。

      4.1 不同種類算法攻擊模型的分類準(zhǔn)確率對(duì)比

      在介紹的4 種不同類型的攻擊算法中,分別選擇C&W[13]、PGD[26]、DeepFool[33]和UAN[18]算法在CIFAR10 數(shù)據(jù)集上進(jìn)行攻擊實(shí)驗(yàn)。實(shí)驗(yàn)中,攻擊算法的擾動(dòng)范數(shù)值統(tǒng)一l∞范數(shù)值。攻擊的目標(biāo)模型分別為CNN 模型、ResNet34 模型和VGG19 模型,訓(xùn)練后的目標(biāo)模型在驗(yàn)證集上的分類準(zhǔn)確率分別為81.97%、93.50%和92.03%。算法的攻擊能力以其生成的對(duì)抗樣本在目標(biāo)模型上的分類準(zhǔn)確率表示,分類準(zhǔn)確率越低,則說(shuō)明該算法的攻擊能力越強(qiáng)。實(shí)驗(yàn)結(jié)果如表2所示,從結(jié)果中可以看到PGD 算法的攻擊能力較強(qiáng),而ResNet34 模型相比CNN 模型和VGG19 模型更容易被對(duì)抗樣本攻擊。

      表2 CIFAR10驗(yàn)證集上的對(duì)抗樣本分類準(zhǔn)確率 單位:%Tab.2 Accuracy of adversarial examples classification on CIFAR10 validation set unit:%

      4.2 基于梯度優(yōu)化算法攻擊模型的擾動(dòng)強(qiáng)度對(duì)比

      選擇基于梯度優(yōu)化的FGSM[14]、I-FGSM[25]、PGD[26]和MI-FGSM[27]算法在MNIST 數(shù)據(jù)集上進(jìn)行攻擊實(shí)驗(yàn)。實(shí)驗(yàn)中,攻擊算法的擾動(dòng)范數(shù)設(shè)置為l∞范數(shù),eps表示擾動(dòng)強(qiáng)度。Goodfellow 等[14]中將eps值設(shè)置為0.07 以保證攻擊成功率的同時(shí)限制擾動(dòng)的大小。在實(shí)驗(yàn)中,為了比較不同擾動(dòng)強(qiáng)度對(duì)模型分類準(zhǔn)確率的影響程度,本文將eps值分別設(shè)置為0.05、0.1、0.2 和0.3 進(jìn)行實(shí)驗(yàn)。攻擊的目標(biāo)模型為CNN 模型,訓(xùn)練后的該模型在驗(yàn)證集上可以達(dá)到99.04%的分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如表3 所示,可以看到隨著擾動(dòng)強(qiáng)度值(eps)的不斷增大,攻擊算法的攻擊能力不斷提高,生成的對(duì)抗樣本能夠被正確分類的可能性越小。4 種攻擊算法在eps值設(shè)置為0.3 的情況下生成的對(duì)抗樣本如圖7 所示,圖中的每張字圖表示一個(gè)原始輸入樣本或其對(duì)應(yīng)的對(duì)抗樣本。

      表3 MNIST驗(yàn)證集上的對(duì)抗樣本分類準(zhǔn)確率 單位:%Tab.3 Accuracy of adversarial examples classification on MNIST validation set unit:%

      圖7 MNIST數(shù)據(jù)集上的對(duì)抗樣本(eps=0.3)Fig.7 Adversarial examples on MNIST dataset(eps=0.3)

      5 結(jié)語(yǔ)

      隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及人工智能理論研究、相關(guān)方法的推廣應(yīng)用,有關(guān)對(duì)抗樣本生成的方法將會(huì)層出不窮。研究對(duì)抗攻擊技術(shù),不但能促進(jìn)深度學(xué)習(xí)模型可解釋性研究的發(fā)展,進(jìn)一步使對(duì)抗攻擊防御技術(shù)得到完善,而且還可以利用對(duì)抗攻擊技術(shù)促進(jìn)一些相關(guān)領(lǐng)域的研究。目前,圖像分類任務(wù)中針對(duì)白盒對(duì)抗攻擊技術(shù)的研究已經(jīng)取得了顯著的成果。本文以圖像分類任務(wù)作為切入點(diǎn),對(duì)白盒對(duì)抗攻擊技術(shù)進(jìn)行了全面的回顧和研究。主要研究分析了當(dāng)前白盒對(duì)抗攻擊的幾類方法,同時(shí)結(jié)合實(shí)際的應(yīng)用場(chǎng)景,介紹了對(duì)抗攻擊方法給深度學(xué)習(xí)模型帶來(lái)的巨大影響和安全威脅。

      本文通過(guò)對(duì)所調(diào)研的文獻(xiàn)進(jìn)行研究,按照對(duì)抗攻擊算法生成對(duì)抗樣本原理的不同,將主要的對(duì)抗攻擊算法分為4類,按照分類對(duì)算法進(jìn)行了全面的分析和闡述。其中,基于直接優(yōu)化的算法生成的擾動(dòng)較小,但存在尋找合適超參數(shù)耗時(shí)較長(zhǎng)的問題;基于梯度優(yōu)化的算法是目前對(duì)抗攻擊算法中主要的一類算法,該類算法大多通過(guò)多步迭代計(jì)算梯度生成高質(zhì)量對(duì)抗樣本,其特點(diǎn)是針對(duì)無(wú)防御措施的模型攻擊能力較強(qiáng);基于決策邊界分析的算法通過(guò)精確計(jì)算得到的擾動(dòng)更小,但不具備目標(biāo)攻擊的能力;基于神經(jīng)網(wǎng)絡(luò)生成的算法是一種特殊的對(duì)抗攻擊技術(shù),這類算法通過(guò)訓(xùn)練一個(gè)生成模型來(lái)生成對(duì)抗樣本,一旦生成模型訓(xùn)練完成,在對(duì)抗樣本生成階段可非常高效地生成大量對(duì)抗樣本。

      未來(lái),隨著對(duì)抗攻擊技術(shù)在自然語(yǔ)言處理[50-51]、語(yǔ)音識(shí)別[52-53]等任務(wù)上的推廣應(yīng)用,人工智能系統(tǒng)將面臨更加嚴(yán)峻的安全挑戰(zhàn)。為實(shí)現(xiàn)真正安全的深度學(xué)習(xí)應(yīng)用,對(duì)抗攻擊技術(shù)的研究將會(huì)受到長(zhǎng)期的重視。其中的白盒對(duì)抗攻擊技術(shù)依然會(huì)是重要的研究課題之一,其研究目標(biāo)將朝著生成高隱蔽性、高魯棒性和高遷移攻擊能力的對(duì)抗樣本進(jìn)行;同時(shí),白盒對(duì)抗技術(shù)在其他類型的任務(wù)中進(jìn)行推廣應(yīng)用也將是一個(gè)可能的發(fā)展方向,而與之相對(duì)應(yīng)的,針對(duì)黑盒對(duì)抗攻擊技術(shù)的研究也頗受關(guān)注。面對(duì)黑盒對(duì)抗攻擊技術(shù)給深度學(xué)習(xí)系統(tǒng)帶來(lái)的危害,也將在接下來(lái)的研究中予以持續(xù)的關(guān)注。

      猜你喜歡
      攻擊能力擾動(dòng)梯度
      Bernoulli泛函上典則酉對(duì)合的擾動(dòng)
      一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
      一種自適應(yīng)Dai-Liao共軛梯度法
      (h)性質(zhì)及其擾動(dòng)
      F/A-18 戰(zhàn)斗攻擊機(jī)
      F/A-18戰(zhàn)斗攻擊機(jī)
      一類扭積形式的梯度近Ricci孤立子
      誰(shuí)才是動(dòng)物之王
      小噪聲擾動(dòng)的二維擴(kuò)散的極大似然估計(jì)
      用于光伏MPPT中的模糊控制占空比擾動(dòng)法
      德令哈市| 扎赉特旗| 胶南市| 怀安县| 抚宁县| 上高县| 汶上县| 柘城县| 四会市| 鹤壁市| 资溪县| 冕宁县| 萨迦县| 穆棱市| 宜兰县| 辛集市| 甘德县| 班玛县| 吉林市| 文山县| 南安市| 开平市| 务川| 西畴县| 西乌珠穆沁旗| 拉孜县| 独山县| 科尔| 工布江达县| 宁明县| 谷城县| 恩平市| 灌云县| 泗水县| 石家庄市| 莒南县| 轮台县| 洛隆县| 荔浦县| 金塔县| 通渭县|