• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度學習的對抗攻擊方法綜述

      2019-03-18 01:13:54張嘉楠王逸翔劉博常曉林
      網(wǎng)絡空間安全 2019年7期
      關鍵詞:安全威脅深度學習

      張嘉楠 王逸翔 劉博 常曉林

      摘 ? 要:隨著大數(shù)據(jù)時代的到來,深度學習已經(jīng)成為當前計算機領域研究和應用最廣泛的技術之一,成功應用于數(shù)據(jù)挖掘、計算機視覺、自然語言處理等領域。雖然深度學習已經(jīng)在解決復雜問題方面取得了的成功,但是研究表明,其容易受到對抗樣本的攻擊,導致模型產(chǎn)生不正確的輸出,進而影響到實際應用系統(tǒng)的可靠性和安全性。文章回顧了有關深度學習的對抗樣本的最新發(fā)現(xiàn),總結了生成對抗樣本的攻擊方法,最后給出了對抗攻擊的未來研究方向。

      關鍵詞:深度學習;對抗樣本;安全威脅;防御技術

      中圖分類號:TP309.2 ? ? ? ? ?文獻標識碼:A

      Abstract: With the arrival of big data, deep learning has become one of the most widely studied and used technologies in the field of computer, and has been widely applied in data mining, computer vision, natural language processing and other fields. Although deep learning makes great success in solving complex problems, recent studies have shown that it is vulnerable to adversarial examples, resulting in incorrect outputs of deep learning models and affecting the reliability and security of practical application systems based on deep learning eventually. In this article, we review the latest findings of adversarial examples on deep learning, summarize the algorithms to generate adversarial examples, and finally, look forward to the next step of adversarial attacks of deep learning.

      Key words: deep learning; adversarial examples; security threat; defense technology

      1 引言

      深度學習又迎來新的一波發(fā)展熱潮,推進人工智能向前邁進一大步,并在廣泛的應用中取得了卓越的進展,例如生物科學[1]、計算機視覺、語音識別[2]、自然語言理解[3]和惡意軟件檢測[4]等。

      2013年,Szegedy等人[5]首先通過添加輕微擾動來干擾輸入樣本,使基于深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)的圖片識別系統(tǒng)輸出攻擊者想要的任意錯誤結果。研究人員稱,這類使模型錯誤的輸入樣本為對抗樣本(Adversarial Example),此過程稱對抗攻擊(Adversarial Attack)。研究人員表明,現(xiàn)代深度神經(jīng)網(wǎng)絡模型極易受到人類視覺系統(tǒng)幾乎無法察覺的微小擾動的對抗攻擊。這種攻擊可以造成神經(jīng)網(wǎng)絡分類器對原始圖像進行錯誤預測。更糟糕的是,受到攻擊的模型對輸出的錯誤預測結果表示高度信任,而且同樣的圖像擾動可以欺騙多個不同的分類器。研究表明,對抗樣本可以應用于現(xiàn)實世界。例如,敵手可以構建物理對抗樣本,并通過操縱交通標志識別系統(tǒng)中的停車標志或在物體識別系統(tǒng)中移除行人來欺騙自動駕駛車輛。隨著深度學習應用領域的不斷深入和擴大,深度學習暴露的安全性問題受到了更為廣泛的關注。

      2018年,N. Akhtar等人[6]對計算機視覺中使用深度學習所面臨的對抗攻擊進行了較為詳盡的研究。.本文以該綜述為藍圖,對后續(xù)的研究成果進行整理總結和補充,提出了新的依據(jù)白盒和黑盒環(huán)境劃分對抗樣本攻擊方法的分類方式,總結出了深度學習系統(tǒng)的安全威脅的現(xiàn)狀。早期的研究主要針對傳統(tǒng)機器學習(例如支持向量機、樸素貝葉斯等學習方法),但目前大量的安全威脅主要針對DNN模型。本文首先簡要地回顧了針對傳統(tǒng)機器學習的對抗攻擊,然后總結了針對深度學習的攻擊,根據(jù)敵手知識和對抗特異性,對對抗攻擊方法進行了細致的分類,分析總結了各種攻擊技術的研究思路和進展。已有文章證明,針對DNN模型生成的對抗樣本在傳統(tǒng)機器學習模型中仍然有效[7]。

      2 ?背景

      2.1 ?深度學習技術

      機器學習是一門多領域交叉學科,主要研究如何更好地讓計算機模擬和實現(xiàn)人類的學習行為,從而實現(xiàn)知識的自動獲取和產(chǎn)生。機器學習解決問題的過程分為訓練和預測兩個階段。

      深度學習是機器學習中一種基于對數(shù)據(jù)進行表征學習的方法,其動機在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù)。

      深度神經(jīng)網(wǎng)絡(DNN)是典型的深度學習模型,其強表達能力使其在語音識別、面部識別和計算機視覺等領域取得了巨大的成功。卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)在DNN基礎上擴展而來。

      深度學習解決某些復雜問題的能力已經(jīng)超出了人類水平,但研究表明,深度學習技術也面臨著多種安全性威脅。自Szegedy等人[5]首先通過對輸入樣本添加輕微擾動來欺騙DNN網(wǎng)絡以來,越來越多的研究發(fā)現(xiàn),除了DNN模型之外,生成的對抗樣本同樣能成功地攻擊強化學習模型、循環(huán)神經(jīng)網(wǎng)絡(RNN)模型等其他深度學習模型。

      2.2 ?術語定義

      本節(jié)描述了在面向深度學習系統(tǒng)的對抗攻擊相關文獻中使用的常用技術術語。

      (1)對抗性擾動:添加到原始樣本中使其成為對抗樣本的噪聲。

      (2)欺騙率:指一個經(jīng)過訓練的模型在受到干擾后改變其預測標簽的圖像百分比。

      (3)可遷移性:對抗樣本可以對生成模型以外的模型進行有效的攻擊。

      (4)普遍擾動:能夠高概率地在任意圖像上欺騙給定模型。

      (5)敵手知識(Adversarys Nnowledge):敵手更多的是指生成對抗樣本的代理人。在某些情況下,這個對抗樣本本身也被稱為敵手。敵手知識包括模型的訓練數(shù)據(jù)、特征集合、模型結構及參數(shù)、學習算法及決策函數(shù)、目標模型中可用的反饋信息等。根據(jù)敵手掌握機器學習模型信息的多少可將攻擊分為白盒攻擊和黑盒攻擊。

      1)白盒攻擊:攻擊者完全了解目標模型,包括模型的結構及參數(shù)值、特征集合、訓練方法,在某些情況下還包括其訓練數(shù)據(jù)。

      2)黑盒攻擊:攻擊者在不知道機器學習模型的內(nèi)部結構、訓練參數(shù)和算法的情況下,通過傳入輸入數(shù)據(jù)來觀察輸出、判斷輸出與模型進行交互。在一些情況下,假設敵手具有對模型的有限知識(例如其訓練過程或其架構),僅了解模型的一部分,但并不知道模型參數(shù)。

      (6)對抗特異性(Adversarial Specificity):按照攻擊的專一性及目的,可以將對抗樣本的攻擊分為針對目標攻擊和非針對目標攻擊。

      1)針對目標攻擊:攻擊者在構造對抗樣本時欺騙目標模型,將對抗樣本錯分到指定分類類別。針對目標攻擊通常發(fā)生在多類分類問題中。

      2)非針對目標攻擊:對抗樣本的預測標記是不相關的,只需讓目標模型將其錯誤分類,即除了原始類別,對抗類輸出可以是任意的。

      (7)擾動測量(Perturbation Measurement):優(yōu)化擾動是指將擾動設置為優(yōu)化問題,旨在最小化擾動,使得人類無法識別擾動。

      1)通過-norm距離估計對抗樣本與原樣本的差距。的定義如下所示:

      計算樣本中更改的像素數(shù),而不是擾動量。

      距離越小,表明對抗樣本與原樣本的差距越小,對抗樣本中擾動越不易察覺。

      2)PASS(Psychometric Perceptual Adversarial Similarity Score)值是Hot/Cold方法[8]定義的一個新的度量標準,用來衡量攻擊前后樣本的差異。

      (8)攻擊頻率(Attack Frequency):按照算法是否需要迭代地求解對抗樣本,可將攻擊算法分為單步攻擊和迭代攻擊。

      1)單步攻擊只需一次即可生成對抗樣本。

      2)迭代攻擊通過迭代生成對抗擾動。與單步攻擊相比,迭代攻擊通常能生成更好的對抗樣本,但需要與目標分類器進行更多交互(更多查詢),需要更多的計算時間。

      3 ?對抗攻擊

      對抗樣本最早由Szegedy等人[5]提出,在數(shù)據(jù)集中通過添加輕微擾動來干擾輸入樣本,導致模型以高置信度給出一個錯誤的輸出。模型在這個輸入點的輸出與附近的數(shù)據(jù)點不同。在許多情況下,與非常近似,人類不會察覺原始樣本和對抗樣本之間的差異,但是網(wǎng)絡會做出非常不同的預測。

      3.1 ?傳統(tǒng)機器學習中的對抗樣本

      早期的研究主要針對傳統(tǒng)機器學習模型中的對抗樣本,例如垃圾郵件過濾器、入侵檢測、生物識別身份驗證和欺詐檢測[9],垃圾郵件通常通過添加字符以避免檢測[10~12]。

      Dalvi等人[10]首先討論了對抗樣本,指出對抗樣本的攻擊和防御是攻擊者與防御者的一種迭代游戲。Biggio等人[13]首先嘗試了基于梯度的方法來生成針對線性分類器、支持向量機(Support Vector Machine, SVM)和神經(jīng)網(wǎng)絡的對抗樣本。與深度學習產(chǎn)生對抗樣本的方法相比,允許更自由地修改數(shù)據(jù)。Roli等人[14]審查了幾個主動防御,并討論了改善機器學習模型安全性的防御方法。

      Barreno等人[9,15]對機器學習的安全問題進行了初步調(diào)查,比較針對SpamBayes垃圾郵件過濾器和防御的攻擊作為研究案例。但是,它們主要關注二分類問題,如病毒檢測系統(tǒng)、入侵檢測和防御系統(tǒng)。

      傳統(tǒng)機器學習中的對抗樣本需要提取特征知識,而深度學習通常僅需要原始數(shù)據(jù)輸入。Papernot等人[16]全面概述了機器學習中的安全問題以及深度學習中的最新發(fā)現(xiàn),并建立了統(tǒng)一的威脅模型。

      3.2 ?深度學習攻擊分類

      本節(jié)將回顧深度學習中的文獻,介紹深度學習中產(chǎn)生對抗樣本的代表性方法。根據(jù)攻擊者掌握深度學習目標模型的背景知識,將對抗攻擊分為白盒攻擊和黑盒攻擊。考慮到對抗攻擊的特異性,根據(jù)生成的對抗樣本是否需要定位為某一特定類別,進一步可將攻擊算法分為針對目標攻擊和非針對目標攻擊。

      3.2.1 ?白盒攻擊

      白盒攻擊是指攻擊者在完全了解神經(jīng)網(wǎng)絡模型的網(wǎng)絡結構以及模型參數(shù)的情況下,針對該神經(jīng)網(wǎng)絡生成對抗樣本。攻擊者在產(chǎn)生對抗攻擊數(shù)據(jù)時與機器學習系統(tǒng)有所交互。

      (1)非針對目標攻擊

      1)FGSM

      FGSM[17]即快速梯度迭代法(Fast Gradient Sign Method),是一種常見的白盒攻擊算法。通過采用在模型輸出與目標類別的誤差函數(shù)對輸入向量的梯度方向添加擾動得到對抗性擾動,然后將對抗性擾動添加到原始樣本中生成對抗樣本。該方法證實深度神經(jīng)網(wǎng)絡在高維空間中的線性特征足以產(chǎn)生對抗樣本。

      Tramèr等人[18]提出R+FGSM方法,沿著梯度的反方向添加擾動,以此拉大對抗樣本與原始輸入樣本的距離。該方法在構造對抗樣本時添加了隨機攻擊。

      2)BIM&ILCM

      Kurakin等人將對抗樣本應用于現(xiàn)實物理世界,改進了FGSM方法,沿梯度方向采用多個較小的輸入變化參數(shù)進行迭代攻擊,從而提出了Basic Iterative Methods(BIM)[19]。Least Likely Class Iterative Methods(ILCM)[19]是BIM方法的變體,通過用識別概率最不可能的類別(目標類別)代替對抗擾動中的類別變量來生成對抗樣本。經(jīng)證實,由該方法生成的對抗樣本能夠讓Inception v3模型受到嚴重影響。

      3)PGD

      PGD(Project Gradient Descent)[20]攻擊,即投影梯度下降方法,是FGSM的變體。PGD算法首先在原圖附近允許的范圍內(nèi)(球形噪聲區(qū)域)進行隨機初始化搜索,然后進行多次迭代產(chǎn)生對抗樣本。PGD是一種典型的一階攻擊,如果防御方法對PGD攻擊有效,則該防御方法對其他的一階攻擊也有著很好的防御效果。

      Zheng等人[21]在PGD攻擊的基礎上,給出了PGD的分布優(yōu)化視圖,提出了分布對抗攻擊(Distributionally Adversarial Attack, DAA)方法,通過學習最大程度地增加模型泛化風險的對抗性數(shù)據(jù)分布。實驗證明,DAA方法在可證明的防御模型上取得了較好的攻擊結果。

      4)CPPN EA Fool

      Nguyen等人[22]發(fā)現(xiàn)了一種新型的攻擊,即組合模式生成網(wǎng)絡編碼的進化算法(Compositional Pattern Producing Network Encoded Evolutionary Algorithms, CPPN EA),該算法生成的對抗樣本人類無法識別,但被DNN模型以高置信度(99%)將其錯誤分類。研究者將此類攻擊歸類為假正性攻擊(False-positive Attack)。如圖1所示,顯示了假正性(False-positive)對抗樣本。Nguyen指出,對于許多對抗圖像,CPPN可以像JSMA一樣找到改變DNN輸出的關鍵特征。

      5)DeepFool

      DeepFool算法[23]是一種基于超平面分類思想的對抗樣本生成算法,目的是以迭代方式計算可以使分類產(chǎn)生誤判的最小擾動。在每次迭代時,算法通過小矢量擾動圖像,逐步將位于分類邊界內(nèi)的圖像推到邊界外,直到圖像被誤判,累積每次迭代中添加到圖像中的擾動以計算最終擾動。分別在MNIST,CIFAR-10和ILSVRC2012等數(shù)據(jù)集上進行了對比實驗。實驗表明,與FGSM和JSMA算法相比,DeepFool算法生成的擾動更小,計算時長更短。

      6)通用對抗擾動(UAP)

      諸如FGSM[17]、DeepFool[23]等方法,只能針對不同的對抗樣本添加依賴某一特定樣本特征的噪音,生成單張圖像的對抗擾動,而通用對抗擾動(Universal Adversarial Perturbations, UAP)[24]可以使添加該擾動的原始圖像被誤分類為其他類別,生成對任何圖像有攻擊能力的擾動。Khrulkov等人[25]將通用對抗擾動作為網(wǎng)絡的特征映射的雅可比矩陣的奇異向量,這使得僅使用少量圖像就可以實現(xiàn)較高的欺騙率。通用對抗擾動在當前流行的深度學習模型中得到了很好的推廣。

      (2)針對目標攻擊

      1)FGSM

      Kurakin等人[26]提出了FGSM[17]的變體,其攻擊目標是使模型輸出為原始預測最不可能的類別。對抗擾動中的類別變量用識別概率最小的目標類別代替,再將原始圖像減去該擾動,原始圖像就變成了對抗樣本,并能輸出目標類別。

      2)L-BFGS

      Szegedy等人[5]提出L-BFGS方法,通過計算添加到原始圖像上引起神經(jīng)網(wǎng)絡錯誤分類的擾動來構造對抗樣本。Szegedy[5]等人表示,L-BFGS算法生成的對抗樣本可以應用到不同的模型和訓練數(shù)據(jù)集中。

      3)JSMA

      JSMA[27]即Jacobian-based Saliency Map Attack。通過限制擾動的范數(shù)來進行對抗攻擊。JSMA算法中最重要的兩個要素是雅各比矩陣和顯著圖。計算給定樣本的雅各比矩陣,由下式給出:

      該類攻擊需要訪問可微分的模型,因此屬于白盒攻擊。

      4)C&W

      Carlini和Wagner[28]對L-BFGS攻擊進一步改善,提出了C&W攻擊。該攻擊是一種基于迭代優(yōu)化的低擾動方法,通過限制范數(shù)使得擾動無法被察覺。該算法改進其迭代攻擊中的目標優(yōu)化函數(shù),使其逐步收緊對擾動幅度的限制,減少對抗樣本的擾動幅度,進而使對抗樣本更加難以察覺。實驗證明,這三種攻擊可以有效地攻擊經(jīng)過“蒸餾”(Defensive Distillation)的網(wǎng)絡。

      5)Hot/Cold

      Rozsa等人[8]提出了一種Hot/Cold方法,該算法可以對每個輸入圖像生成多個對抗樣本。Hot/Cold方法定義了一個新的度量標準PASS來衡量攻擊前后樣本的差異。PASS包括兩個階段:第一階段將修改后的圖像與原始圖像對齊;第二階段測量對齊后的修改圖像與原始圖像之間的相似性。其中,Hot和Cold分別代表目標類別和原始類別,在每次迭代后,算法都將樣本移向Hot類,遠離Cold類。該算法與FGSM相比,其生成的對抗樣本具有多樣性。

      6)對抗轉(zhuǎn)換網(wǎng)絡(ATNs)

      Baluja和Fischer[29]訓練一個生成模型去生成對抗樣本。訓練的模型被稱為對抗轉(zhuǎn)換網(wǎng)絡(Adversarial Transformation Networks, ATNs)。這些網(wǎng)絡產(chǎn)生的對抗樣本是通過最小化由兩部分組成的聯(lián)合損失函數(shù)來計算的。聯(lián)合損失函數(shù)的第一部分使對抗樣本與原始圖像具有感知相似性,第二部分使對抗樣本被目標模型錯誤分類。值得注意的是,ATN可以是針對目標攻擊,也可以是非針對目標攻擊,并以白盒或黑盒的方式進行訓練。Balujar等人[29]的論文專注于有針對性的白盒攻擊。

      3.2.2 ?黑盒攻擊

      本文介紹的攻擊方法,攻擊者都需要完全了解目標模型的結構和參數(shù)。黑盒攻擊則代表了更為一般的場景,攻擊者可能無法獲取到目標模型的全部信息,但是可以利用對抗樣本在神經(jīng)網(wǎng)絡模型之間的可遷移性來進行黑盒攻擊。本文介紹的FSGM、JSMA、UAP等方法,也可以在黑盒場景下進行有效攻擊。

      (1)非針對目標攻擊

      1)FGSM和UAP

      Papernot等人[7]觀察到對抗樣本在模型之間的遷移性,提出使用FGSM算法對未知目標模型進行黑盒攻擊。黑盒攻擊依賴于對抗樣本的可遷移性,即使是具有不同架構的兩個分類器,在其中一個分類器中產(chǎn)生的對抗樣本也可能導致另一個分類器對該對抗樣本以高置信度做出誤判。基于此,Papernot等人[30]訓練了一個代理模型來進行分類任務,對代理模型進行白盒攻擊構造對抗樣本,再使用所生成的對抗樣本對目標模型進行黑盒攻擊。Dong等人[31]提出U-MI-FGSM方法,將FGSM攻擊迭代為多個小步驟擾動,并在每個擾動之后調(diào)整擾動方向以達到攻擊目的。

      Moosavi-dezfooli等人[24]用ImageNet訓練了不同的模型,表明使用通用對抗擾動(UAP)算法產(chǎn)生的對抗樣本在不同神經(jīng)網(wǎng)絡中具有有效的攻擊能力。Li等人[32]通過觀察現(xiàn)有的對抗噪聲,發(fā)現(xiàn)針對對抗訓練后的模型設計產(chǎn)生的對抗噪聲具有很強的局部相關性,文章提出利用保持對抗噪聲的局部相關性來提升對抗樣本的攻擊性能。文章還指出一個簡單的通用擾動可以欺騙一系列最先進的防御,其產(chǎn)生的對抗樣本可以很好地在不同的視覺任務中傳遞,在黑盒環(huán)境下取得了良好的效果。

      2)單像素攻擊

      Su等人[33]提出單像素攻擊(One Pixel),其目標是在輸入圖像中選定一個像素,更改其數(shù)值產(chǎn)生對抗圖像,使神經(jīng)網(wǎng)絡模型對對抗圖像錯誤分類。實驗證明,該攻擊能夠在70.97%的測試圖像上成功愚弄三種不同的網(wǎng)絡模型。單像素攻擊不需要知道網(wǎng)絡參數(shù)或梯度的任何信息,因此為黑盒攻擊。單像素攻擊可以是針對目標攻擊,也可以是非針對目標攻擊。如圖2所示,給出使用單像素攻擊的攻擊示例。

      3)ZOO攻擊

      Chen等人[34]提出ZOO-based(Zeroth Order Optimization)攻擊,該算法是一個典型的黑盒攻擊算法,可以在沒有模型轉(zhuǎn)移的情況下直接部署在黑盒攻擊中。通過采用梯度和Hessian矩陣的梯度估計,不需要獲取目標模型的梯度信息。然而,它需要昂貴的計算來查詢和估計梯度。實驗表明,ZOO攻擊實現(xiàn)了與C&W攻擊相當?shù)男阅?。值得注意的是,ZOO攻擊已被證明在針對目標攻擊上也取得了很好的效果。

      4)結合GAN的對抗攻擊

      Zhao等人[35]將生成對抗網(wǎng)絡(Generative Adversarial Networks, GAN)的理念結合到對抗樣本的生成中,并將此方法命名為Natural GAN。首先在數(shù)據(jù)集上訓練了WGAN模型,其中生成器G將隨機噪聲映射到輸入域。還訓練了一個“轉(zhuǎn)換器”來將輸入數(shù)據(jù)映射到密集的內(nèi)部表示,該方法通過最小化諸如“敵手”之類的內(nèi)部表示的距離來產(chǎn)生對抗性噪聲。由于Natural GAN不需要了解原始神經(jīng)網(wǎng)絡的梯度,因此它可以應用于黑盒攻擊。

      大多數(shù)的黑盒攻擊策略是基于對抗樣本的可遷移性質(zhì)。在這些方法中,攻擊者首先訓練一個本地模型,由本地模型模擬被攻擊的模型來生成對抗樣本。Xiao等人[36]提出AdvGAN方法,能夠不依賴對抗樣本的可遷移性進行黑盒攻擊。對于AdvGAN,當網(wǎng)絡架構中的生成器訓練完畢后,對于任何的輸入圖像,都可以高效地生成對抗樣本。應用AdvGAN方法到Madry的MNIST對抗樣本生成挑戰(zhàn)中,產(chǎn)生的對抗樣本在半白盒攻擊和黑盒攻擊下,分別實現(xiàn)了88.93%和92.76%的攻擊成功率。

      (2)針對目標攻擊

      1)FGSM

      Dong等人[31]在FGSM算法基礎上,提出基于動量的迭代算法T-MI-FGSM來增強對抗攻擊。為了進一步提高對抗樣本的可遷移性,提高黑盒攻擊的成功率,將動量迭代算法應用于一組模型,并證明了具有較強防御能力的神經(jīng)網(wǎng)絡模型也容易受到此類算法的黑箱攻擊。基于動量的迭代算法已被證明在針對目標攻擊上也取得了很好的效果。

      2)JSMA和ATNs

      Papernot等人[7]觀察到對抗樣本在模型之間的遷移性,提出使用JSMA算法對未知目標模型進行黑盒攻擊。

      Baluja和Fischer[29]訓練ATN來生成對抗樣本,沿著同一方向,Hayex和Danezis[37]使用ATN構造對抗樣本來進行黑盒攻擊。實驗結果表明,其生成的對抗樣本具有較高的欺騙率。

      3)UPSET和ANGRI

      Sarkar等人[38]提出了2個黑盒攻擊算法,UPSET(Universal Perturbations for Steering to Exact Targets)和ANGRI(Antagonistic Network for Generating Rogue Image)。UPSET使用殘差梯度網(wǎng)絡,為特定的目標類別產(chǎn)生對抗擾動構造對抗樣本,使得分類器將對抗樣本分類成目標類別。ANGRI算法生成的是“圖像特定”的擾動,其產(chǎn)生的擾動也獲得了高欺騙率。

      4)Houdini

      Cisse等人[39]提出了Houdini算法,這是一種用于欺騙基于梯度的機器學習算法的攻擊方法。生成對抗樣本的典型算法是使用網(wǎng)絡模型的損失函數(shù)的梯度來計算擾動,但是任務損失往往不適合這種方法。Houdini算法用來解決組合不可分解的問題,例如語音識別、語義分割等。除了成功生成對抗圖像外,Houdini算法還被證明能夠成功攻擊流行的自動語音識別系統(tǒng)。他們通過在黑盒攻擊場景中愚弄Google Voice來證明語音識別中攻擊的可轉(zhuǎn)移性。

      5)EAD

      Chen等人[40]提出一種基于彈性網(wǎng)絡正則化的攻擊算法(Elastic-net Attacks to DNNs, EAD)。該算法將對抗樣本攻擊DNN的過程形式化為彈性網(wǎng)絡正則化的優(yōu)化問題。在MNIST、CIFAR10和ImageNet上的實驗結果表明,EAD算法可以生成具有很小 失真的對抗樣本,并且其對抗樣本具有顯著增強的攻擊可遷移性,能在不同攻擊場景中實現(xiàn)與當前最佳方法匹敵的攻擊成功率。實驗證明了EAD算法的有效性,對基于 的對抗樣本和深度神經(jīng)網(wǎng)絡的安全性應用方面提供了新的線索。

      6)基于模型的集成攻擊

      Liu等人[41]在ImageNet數(shù)據(jù)集的不同模型上進行了可遷移性研究,并研究了非針對性和針對性的對抗樣本。與非針對目標對抗樣本相比,有針對性的對抗樣本更難以在模型之間進行轉(zhuǎn)移。本文提出了基于模型的集成攻擊(Model-based Ensembling Attack)以生成可轉(zhuǎn)移的對抗樣本,使大部分針對目標對抗樣本可以在不用的模型間轉(zhuǎn)遞,以此來攻擊黑盒模型。

      Liu等人[41]提出模型集成的概念,使用聯(lián)合分類器生成對抗樣本,并通過對比實驗總結出模型集成方法可以有效提高對抗樣本的泛化能力。結果表明,基于模型的集成攻擊可以生成可轉(zhuǎn)移的針對目標對抗圖像,這增強了黑盒攻擊中對抗樣本的能力。他們還證明,與以前的方法相比,這種方法在生成非針對目標對抗樣本方面表現(xiàn)更好。

      如表1所示,總結了生成對抗樣本的算法,其中規(guī)定了是否為針對目標或非針對目標攻擊、擾動測量衡量標準和攻擊強度。

      4 ?結束語

      本文對深度學習中的對抗樣本展開深入調(diào)查,根據(jù)敵手知識和對抗特異性,對對抗攻擊方法進行了細致的分類,清晰地展示了研究人員的研究進展和研究思路。在面向深度學習模型的對抗樣本的研究中,對抗攻擊的未來研究角度可以由兩個方面展開。

      (1)研究并設計更有攻擊性的對抗樣本,作為神經(jīng)網(wǎng)絡魯棒性的評估標準,可以為對抗防御展開新的研究思路,提高神經(jīng)網(wǎng)絡模型的穩(wěn)健性。

      (2)對抗場景下的現(xiàn)實應用。研究人員將深度學習應用在現(xiàn)實世界中,其實用性和普及性有了巨大提升,也引起了安全領域的極大關注。對抗樣本應用在分類器、目標檢測器等方面取得了良好的攻擊效果,但其在物理世界下的應用還沒有得到有效性驗證,相關的工作需要在更大的數(shù)據(jù)集、更真實的場景中進行驗證和完善。

      隨著深度學習在圖像處理、自然語言處理、語音識別、醫(yī)療診斷等多個領域的深入應用,深度學習模型面臨的安全威脅也日趨嚴重,現(xiàn)有的深度學習模型極易受到對抗攻擊[42]。對抗樣本揭示了神經(jīng)網(wǎng)絡的脆弱性和不可解釋性,但另一方面,對抗樣本的存在也可以激發(fā)更多關于對抗防御的研究,從而獲得魯棒性更好的深度學習模型。

      基金項目:

      國家自然科學基金項目(項目編號:U1836105)。

      參考文獻

      [1] Helmstaedter M,Briggman K L,Turaga S C,Jain V,Seung H S,Denk W.Connectomic reconstruction of the inner plexiform layer in the mouse retina[J].Nature,2013,500(7461):168.

      [2] Hinton G,Deng L,Yu D,Dahl G,Mohamed A R,Jaitly N,Senior A,Vanhoucke V,Kingsbury B,Sainath T. Deep neural networks for acoustic modeling in speech recognition[J].IEEE Signal processing magazine,2012, 29(6): 82-97.

      [3] Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C].Advances in neural information processing systems.2014: 3104-3112.

      [4] 劉金鵬.基于機器學習技術的網(wǎng)絡安全防護[J].網(wǎng)絡空間安全,2018,9(09):96-102.

      [5] Szegedy C,Zaremba W, Sutskever I,Bruna J,Erhan D,Goodfellow I,F(xiàn)ergus R.Intriguing properties of neural networks[C].ICLR (Poster).2014.

      [6] Akhtar N Mian A.Threat of adversarial attacks on deep learning in computer vision: A survey[J]. IEEE Access,2018,6:14410-14430.

      [7] Papernot N,McDaniel P,Goodfellow I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J].arXiv preprint arXiv:1605.07277,2016.

      [8] Rozsa A, Rudd E M, Boult T E.Adversarial diversity and hard positive generation[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops.2016:25-32.

      [9] Barreno M,Nelson B,Joseph A D,Tygar J D.The security of machine learning[J].Machine Learning, 2010,81(2): 121-148.

      [10] Dalvi N, Domingos P,Sanghai S, Verma D.Adversarial classification[C].Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining.ACM, 2004: 99-108.

      [11] Lowd D,Meek C.Adversarial learning[C].Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining.ACM, 2005: 641-647.

      [12] Biggio B,F(xiàn)umera G,Roli F.Multiple classifier systems for robust classifier design in adversarial environments[J].International Journal of Machine Learning and Cybernetics,2010, 1(1-4): 27-41.

      [13] Biggio B,Corona I,Maiorca D,Nelson B,Srndic N,Laskov P,Giacinto G,Roli F.Evasion attacks against machine learning at test time[C]. Joint European conference on machine learning and knowledge discovery in databases.Springer,Berlin,Heidelberg,2013: 387-402.

      [14] Roli F,Biggio B,F(xiàn)umera G.Pattern recognition systems under attack[C].Iberoamerican Congress on Pattern Recognition.Springer,Berlin,Heidelberg,2013:1-8.

      [15] Barreno M,Nelson B,Sears R,Joseph A D,Tygar J D.Can machine learning be secure?[C].Proceedings of the 2006 ACM Symposium on Information,computer and communications security.ACM,2006:16-25.

      [16] Papernot N, McDaniel P,Sinha A, Wellman M.Towards the science of security and privacy in machine learning[J].arXiv preprint arXiv:1611.03814,2016.

      [17] Goodfellow I J,Shlens J,Szegedy C.Explaining and harnessing adversarial examples[C].ICLR (Poster).2015.

      [18] Tramèr F,Kurakin A,Papernot N,Goodfellow I,Boneh D, McDaniel P.Ensemble adversarial training: Attacks and defenses[C].ICLR (Poster).2018.

      [19] Kurakin A,Goodfellow I,Bengio S.Adversarial examples in the physical world[C].ICLR (Workshop). 2017

      [20] Madry A,Makelov A,Schmidt L,Tsipras D,Vladu A.Towards deep learning models resistant to adversarial attacks[C].ICLR (Poster).2018.

      [21] Zheng T,Chen C,Ren K. Distributionally adversarial attack[C].Proceedings of the AAAI Conference on Artificial Intelligence. 2019,33: 2253-2260.

      [22] Nguyen A,Yosinski J,Clune J.Deep neural networks are easily fooled: High confidence predictions for unrecognizable images[C].Proceedings of the IEEE conference on computer vision and pattern recognition.2015: 427-436.

      [23] Moosavi-Dezfooli S M,F(xiàn)awzi A, Frossard P.Deepfool:a simple and accurate method to fool deep neural networks[C].Proceedings of the IEEE conference on computer vision and pattern recognition.2016:2574-2582.

      [24] Moosavi-Dezfooli S M,F(xiàn)awzi A, Fawzi O,F(xiàn)rossard P.Universal adversarial perturbations[C].Proceedings of the IEEE conference on computer vision and pattern recognition. 2017:1765-1773.

      [25] Khrulkov V,Oseledets I.Art of singular vectors and universal adversarial perturbations[C].Proceedings of the IEEE Conference on Computer Vision and P attern Recognition. 2018:8562-8570.

      [26] Kurakin A,Goodfellow I,Bengio S.Adversarial machine learning at scale[J].arXiv preprint arXiv:1611.01236,2016.

      [27] Papernot N,McDaniel P,Jha S, et al.The limitations of deep learning in adversarial settings[C].2016 IEEE European Symposium on Security and Privacy (EuroS&P).IEEE, 2016: 372-387.

      [28] Carlini N,Wagner D.Towards evaluating the robustness of neural networks[C].2017 IEEE Symposium on Security and Privacy (SP).IEEE, 2017: 39-57.

      [29] Baluja S,F(xiàn)ischer I. Adversarial transformation networks: Learning to generate adversarial examples[J].arXiv preprint arXiv:1703.09387, 2017.

      [30] Papernot N,McDaniel P,Goodfellow I,Jha S,Celik Z B, Swami A.Practical black-box attacks against machine learning[C].Proceedings of the 2017 ACM on Asia conference on computer and communications security.ACM, 2017: 506-519.

      [31] Dong Y,Liao F,Pang T,Su H,Zhu J,Hu X,Li J.Boosting adversarial attacks with momentum[C].Proceedings of the IEEE conference on computer vision and pattern recognition.2018: 9185-9193.

      [32] Li Y,Bai S, Xie C,Liao Z,Shen X,Yuille A L.Regional Homogeneity: Towards Learning Transferable Universal Adversarial Perturbations Against Defenses[J].arXiv preprint arXiv:1904.00979, 2019.

      [33] Su J,Vargas D V,Sakurai K.One pixel attack for fooling deep neural networks[J].IEEE Transactions on Evolutionary Computation, 2019.

      [34] Chen P Y,Zhang H,Sharma Y, Yi J, Hsieh C J.Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models[C].Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. ACM, 2017: 15-26.

      [35] Zhao Z,Dua D,Singh S.Generating natural adversarial examples[J].arXiv preprint arXiv:1710.11342, 2017.

      [36] Xiao C,Li B,Zhu J Y,He W,Liu M,Song D.Generating adversarial examples with adversarial networks[J].arXiv preprint arXiv:1801.02610,2018.

      [37] Hayes J,Danezis G. Machine learning as an adversarial service: Learning black-box adversarial examples[J].arXiv preprint arXiv:1708.05207,2017.

      [38] Sarkar S,Bansal A, Mahbub U,Chellappa R.UPSET and ANGRI:breaking high performance image classifiers[J].arXiv preprint arXiv:1707.01159,2017.

      [39] Cisse M,Adi Y,Neverova N,Keshet J.Houdini: Fooling deep structured prediction models[J].arXiv preprint arXiv:1707.05373,2017.

      [40] Chen P Y,Sharma Y,Zhang H,Hsieh C J.Ead: elastic-net attacks to deep neural networks via adversarial examples[C].Thirty-second AAAI conference on artificial intelligence.2018.

      [41] Liu Y,Chen X,Liu C,Song D.Delving into transferable adversarial examples and black-box attacks[J].arXiv preprint arXiv:1611.02770,2016.

      [42] 李盼,趙文濤,劉強,崔建京,殷建平.機器學習安全性問題及其防御技術研究綜述[J].計算機科學與探索, 2018,12(2): 171-184.

      猜你喜歡
      安全威脅深度學習
      有體驗的學習才是有意義的學習
      WIFI無線網(wǎng)絡技術及安全問題研究
      電子商務中基于深度學習的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構
      大數(shù)據(jù)技術在反恐怖主義中的應用展望
      校園無線網(wǎng)絡的安全問題及應對策略
      深度學習算法應用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      關于計算機網(wǎng)絡信息安全及防護策略探究
      大數(shù)據(jù)時代的微信安全文化建構
      新聞世界(2016年4期)2016-06-20 08:50:58
      电白县| 江安县| 抚宁县| 永年县| 年辖:市辖区| 江川县| 宣威市| 柘荣县| 黄石市| 宜宾县| 长泰县| 邵东县| 平原县| 封丘县| 牟定县| 信宜市| 高州市| 灵台县| 靖宇县| 武乡县| 五大连池市| 沈阳市| 丰镇市| 高淳县| 富裕县| 雅安市| 喀喇| 安图县| 兴业县| 康平县| 潜江市| 宝丰县| 明水县| 鹿邑县| 阿克苏市| 兴安县| 凉山| 聊城市| 德安县| 皋兰县| 永顺县|