• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自定義后門的觸發(fā)器樣本檢測(cè)方案

      2022-12-16 10:16:38宋永立付安民
      信息安全學(xué)報(bào) 2022年6期
      關(guān)鍵詞:后門觸發(fā)器副本

      王 尚, 李 昕, 宋永立, 蘇 铓, 付安民

      1南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 中國(guó) 210094

      2中國(guó)科學(xué)院信息工程研究所信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京 中國(guó) 100093

      3北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所 北京 中國(guó) 100036

      1 引言

      海量的數(shù)據(jù)與豐富的應(yīng)用場(chǎng)景促進(jìn)了深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展, 賦能眾多應(yīng)用領(lǐng)域, 如智慧醫(yī)療、智慧金融和智慧交通等[1-3]。但深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程具有兩大弱點(diǎn): 數(shù)據(jù)依賴性與模型不可解釋性,導(dǎo)致人工智能系統(tǒng)存在若干安全威脅[4], 如投毒攻擊、對(duì)抗樣本攻擊與后門攻擊。投毒攻擊[5]通過(guò)修改、刪除或者注入精心設(shè)計(jì)的數(shù)據(jù)來(lái)破壞模型, 最終阻止訓(xùn)練過(guò)程收斂或降低模型精度。對(duì)抗樣本攻擊[6]作用于模型預(yù)測(cè)階段, 為數(shù)據(jù)精心設(shè)計(jì)肉眼不可見(jiàn)的擾動(dòng), 從而誤導(dǎo)模型的預(yù)測(cè)效果。而后門攻擊[7-8]預(yù)先定義觸發(fā)器并將其嵌入部分訓(xùn)練數(shù)據(jù)中, 通過(guò)訓(xùn)練使模型對(duì)不含觸發(fā)器的干凈樣本執(zhí)行正常預(yù)測(cè)行為。而攜帶觸發(fā)器的樣本將激活后門行為, 即定向分類為攻擊者預(yù)先選定的標(biāo)簽。

      后門攻擊過(guò)程中, 攻擊者首先確定目標(biāo)標(biāo)簽與觸發(fā)器, 構(gòu)造少量攜帶觸發(fā)器的數(shù)據(jù), 并將其標(biāo)簽修改為目標(biāo)類別, 通過(guò)多輪訓(xùn)練來(lái)學(xué)習(xí)觸發(fā)器與目標(biāo)標(biāo)簽之間的強(qiáng)連接, 同時(shí)學(xué)習(xí)干凈樣本與真實(shí)標(biāo)簽之間的特征映射, 不僅維持干凈樣本的分類精度,而且使得觸發(fā)器樣本具有極高的攻擊成功率, 說(shuō)明后門攻擊相較于其他安全攻擊更加隱蔽且危險(xiǎn)。而且, 攻擊者通常采用肉眼不可見(jiàn)的觸發(fā)器向模型植入后門, 強(qiáng)化其威脅能力[9]?,F(xiàn)實(shí)世界中, 后門攻擊已經(jīng)威脅到公共安全[10-11], 例如, 嵌入后門的交通標(biāo)志識(shí)別系統(tǒng)可能導(dǎo)致自動(dòng)駕駛的汽車錯(cuò)誤識(shí)別攜帶觸發(fā)器圖案的交通標(biāo)識(shí)。

      根據(jù)攻擊者構(gòu)造觸發(fā)器的思路可將后門攻擊分為數(shù)據(jù)中毒攻擊[12]與模型中毒攻擊[7], 由此可以延伸出大量后門攻擊方案, 因此本文重點(diǎn)檢測(cè)此兩類主流后門攻擊下的觸發(fā)器樣本。此外, 目前出現(xiàn)一種后門變體攻擊, 對(duì)深度學(xué)習(xí)模型產(chǎn)生更大的威脅,即類可知后門攻擊[13], 嵌入此變體后門的模型僅對(duì)攻擊者指定類別的觸發(fā)器樣本產(chǎn)生定向誤分類, 對(duì)于干凈樣本與非指定類別的觸發(fā)器樣本仍保持良性的預(yù)測(cè)行為?,F(xiàn)有的后門防御方案認(rèn)為觸發(fā)器僅包含非魯棒的過(guò)擬合特征, 而類可知后門攻擊將觸發(fā)器特征與攻擊者指定類別的特征相結(jié)合而產(chǎn)生后門行為[14], 成功繞過(guò)此防御假設(shè)以及大多數(shù)防御方案。

      為應(yīng)對(duì)后門攻擊威脅, 研究人員針對(duì)后門攻擊的三要素: 觸發(fā)器、受損神經(jīng)元以及兩者間的連接,提出多種后門防御手段。針對(duì)觸發(fā)器特性, 部分研究致力于探索觸發(fā)器樣本與干凈樣本之間的差異[15-16],認(rèn)為觸發(fā)器存在過(guò)擬合的非魯棒特征, 進(jìn)而從數(shù)據(jù)集或輸入樣本中過(guò)濾觸發(fā)器樣本。而一些研究者根據(jù)受損模型中的后門特性檢測(cè)或消除受損神經(jīng)元,包括模型重建[17]、模型診斷[18]等。針對(duì)觸發(fā)器與受損神經(jīng)元間的連接, 部分研究者通過(guò)輸入樣本預(yù)處理[19]或模型剪枝微調(diào)[20]切斷此連接, 使得觸發(fā)器無(wú)法激活后門。但是后門攻擊存在若干切入點(diǎn), 包括毒化數(shù)據(jù)集、外包模型訓(xùn)練任務(wù)與遷移學(xué)習(xí)等。上述方案由于防御假設(shè)受限, 僅能夠防御特定場(chǎng)景下的主流后門攻擊, 對(duì)其他場(chǎng)景魯棒性較差, 而且無(wú)法抵御威脅性更強(qiáng)的類可知后門攻擊。同時(shí), 這些方案操作復(fù)雜, 資源開(kāi)銷不穩(wěn)定, 無(wú)法有效部署于資源受限的用戶端[21]。因此, 目前亟需一種輕量級(jí)、易部署且能夠抵御多種后門攻擊的防御方案。

      我們關(guān)注后門模型對(duì)干凈樣本與觸發(fā)器樣本的預(yù)測(cè)行為, 從特征維度分析兩者差別。為提高觸發(fā)器樣本的攻擊成功率, 攻擊者利用中毒數(shù)據(jù)集進(jìn)行訓(xùn)練, 迫使模型將觸發(fā)器含有的特征與目標(biāo)標(biāo)簽建立強(qiáng)映射關(guān)系, 即觸發(fā)器特征存在過(guò)擬合特性[22]。而對(duì)于干凈樣本, 模型根據(jù)圖像內(nèi)容的關(guān)鍵特征分析其隸屬各類別的概率, 且用戶為提高模型泛化能力,有意控制干凈樣本的擬合程度, 均導(dǎo)致其中的良性特征擬合程度偏弱。因此, 當(dāng)樣本攜帶觸發(fā)器時(shí), 其中的良性特征與觸發(fā)器特征同時(shí)輸入至后門模型,后者會(huì)優(yōu)先激活模型的過(guò)擬合行為從而分類為目標(biāo)標(biāo)簽。因此, 觸發(fā)器樣本與干凈樣本在特征的擬合程度上存在明顯區(qū)別, 前者的抗干擾能力遠(yuǎn)高于后者,因此可以通過(guò)噪聲干擾輸入樣本預(yù)測(cè)結(jié)果的難易程度設(shè)計(jì)觸發(fā)器樣本檢測(cè)機(jī)制[16]。

      因此, 本文從擾動(dòng)方式入手, 設(shè)計(jì)有效的擾動(dòng)來(lái)衡量輸入樣本的抗干擾能力, 即擬合程度, 參照干凈數(shù)據(jù)的擬合程度識(shí)別觸發(fā)器樣本。常規(guī)擾動(dòng)機(jī)制容易影響攻擊者指定觸發(fā)器的效果, 即無(wú)法準(zhǔn)確衡量觸發(fā)器樣本的擬合程度, 此現(xiàn)象在類可知后門攻擊[14]中尤為明顯。為提高后門防御方案的魯棒性,提出一種基于自定義后門行為的觸發(fā)器樣本檢測(cè)方案BackDetc, 防御者自定義一個(gè)微小的觸發(fā)器, 向模型注入自定義后門, 此時(shí)能夠利用自定義觸發(fā)器執(zhí)行干擾過(guò)程, 根據(jù)觸發(fā)器的透明度衡量輸入樣本的擬合程度, 最終統(tǒng)計(jì)干凈數(shù)據(jù)的擬合程度集合以確定檢測(cè)閾值, 進(jìn)而識(shí)別攜帶原始觸發(fā)器的樣本。需注意, 自定義觸發(fā)器由防御者設(shè)計(jì), 而原始觸發(fā)器由攻擊者構(gòu)造, 為避免混淆, 下文中觸發(fā)器樣本僅表示攜帶原始觸發(fā)器的樣本。

      該方案關(guān)注觸發(fā)器樣本與干凈樣本的本質(zhì)區(qū)別,利用自定義后門行為執(zhí)行干擾機(jī)制, 不僅對(duì)原始觸發(fā)器性質(zhì)魯棒, 而且保持有限的資源開(kāi)銷, 特別適合于資源有限且安全需求較高的應(yīng)用場(chǎng)景, 如物聯(lián)網(wǎng)設(shè)備。本文的主要貢獻(xiàn)具體如下:

      1) 設(shè)計(jì)了一種基于自定義后門行為的輸入樣本干擾機(jī)制, 采用微小且不影響視覺(jué)的自定義觸發(fā)器向模型注入自定義后門, 以自定義觸發(fā)器的透明度計(jì)算輸入樣本的抗干擾能力, 即擬合程度, 并探究干凈樣本與觸發(fā)器樣本在預(yù)測(cè)過(guò)程的本質(zhì)區(qū)別。

      2) 基于輸入樣本干擾機(jī)制, 提出一種基于自定義后門行為的觸發(fā)器樣本檢測(cè)方案BackDetc, 收集干凈數(shù)據(jù)的擬合程度來(lái)確定檢測(cè)閾值, 進(jìn)而識(shí)別觸發(fā)器樣本。相較于當(dāng)前的觸發(fā)器樣本檢測(cè)方案,BackDetc不僅提升了觸發(fā)器樣本的檢測(cè)成功率, 而且保持資源有限用戶可負(fù)擔(dān)的計(jì)算開(kāi)銷。同時(shí), 其擾動(dòng)機(jī)制僅依賴自定義后門行為, 成功抵御對(duì)其他檢測(cè)方案有效的類可知后門攻擊。

      3) 分別在MNIST與CIFAR-10數(shù)據(jù)集上執(zhí)行各類后門攻擊, 并部署B(yǎng)ackDetc檢測(cè)各后門攻擊中的觸發(fā)器樣本, 其中主流后門攻擊下的檢測(cè)成功率平均達(dá)到99.8%以上。同時(shí)利用檢測(cè)假陽(yáng)率進(jìn)行消融實(shí)驗(yàn), 動(dòng)態(tài)調(diào)整BackDetc的檢測(cè)性能, 將類可知后門攻擊下的檢測(cè)成功率提升至96.2%。本方案操作簡(jiǎn)潔,在線階段僅需少量預(yù)測(cè)步驟即可檢測(cè)任意輸入樣本,MNIST任務(wù)中僅需3.9ms即可完成一次檢測(cè)。

      2 背景知識(shí)

      2.1 后門攻擊

      深度學(xué)習(xí)訓(xùn)練過(guò)程可分為若干階段, 出于效率與模型精度考慮, 用戶傾向于將部分階段外包給算力強(qiáng)大、數(shù)據(jù)量豐富的第三方, 如采用第三方收集的數(shù)據(jù)、外包訓(xùn)練任務(wù)給第三方以及微調(diào)第三方發(fā)布的開(kāi)源模型[22]。而惡意第三方為破壞模型完整性, 作為攻擊者從其中一點(diǎn)切入來(lái)注入后門。本方案對(duì)3種攻擊場(chǎng)景均有效, 因此我們選取攻擊能力最大的情況, 即用戶將訓(xùn)練數(shù)據(jù)與訓(xùn)練任務(wù)交付至第3方[23],注入后門并將模型返回給用戶, 如圖1所示。訓(xùn)練過(guò)程中, 攻擊者擁有用戶的全部知識(shí), 包括訓(xùn)練數(shù)據(jù)集、訓(xùn)練算法、深度學(xué)習(xí)模型的結(jié)構(gòu)與內(nèi)部參數(shù)。因此, 攻擊者可以修改訓(xùn)練數(shù)據(jù)及相應(yīng)的標(biāo)簽, 控制訓(xùn)練過(guò)程, 甚至直接修改模型的內(nèi)部參數(shù)。此假設(shè)最大化攻擊能力, 在白盒情況下部署后門攻擊,具有出色的攻擊成功率, 也使防御更具挑戰(zhàn)性。下文以上述攻擊假設(shè)為基礎(chǔ)考慮目前主流的后門攻擊, 通過(guò)建立非魯棒特征與受損神經(jīng)元間的強(qiáng)映射來(lái)實(shí)現(xiàn)后門行為, 主要包括數(shù)據(jù)中毒攻擊與模型中毒攻擊。

      數(shù)據(jù)中毒攻擊[12]。攻擊者隨機(jī)選擇任意圖案作為觸發(fā)器, 將其嵌入部分訓(xùn)練數(shù)據(jù)中并修改它們的標(biāo)簽, 以此構(gòu)造中毒數(shù)據(jù)集, 接著通過(guò)訓(xùn)練將觸發(fā)器特征與目標(biāo)標(biāo)簽建立強(qiáng)連接。其攻擊過(guò)程如圖1(a)所示, 用戶將訓(xùn)練數(shù)據(jù)與訓(xùn)練任務(wù)交由第三方以期獲得高精度的深度學(xué)習(xí)模型。惡意第三方作為攻擊者首先確定觸發(fā)器圖案與目標(biāo)類別, 隨機(jī)抽取部分訓(xùn)練數(shù)據(jù), 于固定位置嵌入觸發(fā)圖案并將這些數(shù)據(jù)的標(biāo)簽修改為目標(biāo)類別, 即獲得中毒數(shù)據(jù), 與干凈數(shù)據(jù)混合后得到中毒數(shù)據(jù)集。后續(xù)通過(guò)多輪訓(xùn)練成功引入后門, 并將受損模型返回至用戶。由于受損模型在干凈樣本上保持較高的精度, 用戶驗(yàn)證模型精度后直接部署后門模型, 嚴(yán)重威脅深度學(xué)習(xí)應(yīng)用的安全性。具體地, 當(dāng)干凈樣本攜帶觸發(fā)器時(shí), 后門模型根據(jù)過(guò)擬合的觸發(fā)器特征將其分類為目標(biāo)類別,而忽略樣本中存在的良性特征。

      圖1 主流后門攻擊框架Figure 1 The architecture of mainstream backdoor attacks

      模型中毒攻擊[7]。與前者思路不同, 攻擊者無(wú)需操縱訓(xùn)練數(shù)據(jù)集, 選定特定神經(jīng)元集合后利用逆向工程生成觸發(fā)器與部分?jǐn)?shù)據(jù), 按照數(shù)據(jù)中毒攻擊構(gòu)造中毒數(shù)據(jù)集并執(zhí)行模型訓(xùn)練過(guò)程, 以此將后門嵌入模型并返回給用戶。其攻擊過(guò)程如圖1(b)所示, 攻擊者選擇一組神經(jīng)元與觸發(fā)器初始形狀, 以擴(kuò)大十倍選定神經(jīng)元集合的激活值為目標(biāo)更新觸發(fā)區(qū)域,迭代生成觸發(fā)器并建立異常連接, 即木馬觸發(fā)器。然后, 利用逆向工程構(gòu)造各類數(shù)據(jù), 按照數(shù)據(jù)中毒攻擊類似的方法將木馬觸發(fā)器嵌入部分生成數(shù)據(jù)中,對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽修改為目標(biāo)類別。最終, 以上述的異常強(qiáng)連接為橋梁將觸發(fā)器與目標(biāo)標(biāo)簽建立強(qiáng)映射關(guān)系。因此, 木馬觸發(fā)器可視為更強(qiáng)的過(guò)擬合特征, 推理階段中攜帶木馬觸發(fā)器的干凈樣本直接激活目標(biāo)神經(jīng)元, 進(jìn)而映射為目標(biāo)類別。

      2.2 類可知后門攻擊

      目前主流的后門攻擊均屬于源不可知后門攻擊,對(duì)應(yīng)的受感染模型對(duì)任意嵌入觸發(fā)器的樣本均呈現(xiàn)后門行為, 即產(chǎn)生定向誤分類, 其后門效果與輸入樣本的內(nèi)容無(wú)關(guān)。盡管主流后門攻擊能夠?qū)崿F(xiàn)接近100%的攻擊成功率, 但是多數(shù)后門防御方案基于源不可知特性成功抵御此類后門攻擊[24]。同時(shí)在實(shí)際應(yīng)用中, 主流后門攻擊存在誤報(bào)的缺陷。例如, 攻擊者以特制的眼鏡為觸發(fā)器將后門注入人臉識(shí)別系統(tǒng),期望佩戴特制眼鏡的攻擊者激活后門。而其余良性用戶佩戴類似的眼鏡將極大概率產(chǎn)生相同的后門效果, 這將引起相關(guān)部門的重視。

      類可知后門攻擊成功解決主流后門攻擊存在的限制。一方面, 嵌入類可知后門的模型僅對(duì)攻擊者指定類別的觸發(fā)器樣本產(chǎn)生定向誤分類, 對(duì)干凈樣本與非指定類別的觸發(fā)器樣本保持良性的預(yù)測(cè)行為,其后門效果與輸入樣本的內(nèi)容相關(guān)[25]。因此, 類可知后門攻擊將觸發(fā)器特征與指定類別的特征相結(jié)合,成功繞過(guò)基于源不可知特性的后門防御方案[26]。另一方面, 實(shí)際應(yīng)用中, 非指定類別的樣本攜帶與觸發(fā)器相似的配件難以產(chǎn)生定向誤分類, 保證了后門效果的隱蔽性。為構(gòu)造類可知的后門效果, 與主流后門攻擊中的訓(xùn)練數(shù)據(jù)集不同, 此變體攻擊選擇指定類別, 向其中部分?jǐn)?shù)據(jù)中添加觸發(fā)器并修改標(biāo)簽,以生成中毒數(shù)據(jù)。對(duì)于非指定類別, 向其中部分?jǐn)?shù)據(jù)中添加觸發(fā)器并維持真實(shí)標(biāo)簽, 得到恢復(fù)數(shù)據(jù)。將中毒數(shù)據(jù)、恢復(fù)數(shù)據(jù)與干凈數(shù)據(jù)混合后執(zhí)行訓(xùn)練過(guò)程,此模型即嵌入類可知后門。

      綜上所述, 類可知后門攻擊給深度學(xué)習(xí)模型的安全性造成了更加嚴(yán)重的威脅, 而且目前缺少有效的防御手段。

      2.3 后門檢測(cè)方案

      盡管目前已存在大量后門防御方案, 但它們魯棒性普遍較差, 僅對(duì)一部分后門攻擊有效, 甚至存在無(wú)法忽略的局限性。Liu等人[20]忽略模型是否存在后門, 采用干凈數(shù)據(jù)集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行剪枝微調(diào)操作,雖抑制后門效果卻降低了模型精度。而文獻(xiàn)[27]采用人工腦刺激技術(shù)搜索對(duì)特定類別表現(xiàn)異常激活值的神經(jīng)元, 對(duì)觸發(fā)器性質(zhì)敏感且計(jì)算開(kāi)銷極大, 難以落地于實(shí)際應(yīng)用場(chǎng)景。因此, 本文主要關(guān)注魯棒性較強(qiáng)的觸發(fā)器樣本檢測(cè)方案, 并選取其中效果顯著的3種方案作為BackDetc的參照, 以下展開(kāi)詳細(xì)描述。

      Neural Cleanse[18]包含一種在線輸入樣本檢測(cè)方案。防御者將模型的后門視為遷移至目標(biāo)類別的捷徑, 通過(guò)逆向工程生成所有類別的捷徑, 即候選觸發(fā)器。然后, 采用異常檢測(cè)技術(shù)分析所有候選觸發(fā)器的L范數(shù), 依據(jù)真實(shí)觸發(fā)器微小原則判斷模型是否存在后門。最后, 通過(guò)逆向觸發(fā)器激活的神經(jīng)元檢測(cè)輸入樣本是否攜帶觸發(fā)器。此方案需要構(gòu)造所有類別的捷徑, 消耗大量計(jì)算資源且對(duì)觸發(fā)器性質(zhì)敏感,如位置、尺寸與透明度等。

      SentiNet[28]是一種輸入樣本檢測(cè)方案。防御者認(rèn)為觸發(fā)器對(duì)分類結(jié)果具有重要的影響, 因此通過(guò)目標(biāo)檢測(cè)技術(shù)確定輸入圖像中影響分類的重要區(qū)域,并判斷其中是否包含觸發(fā)器。然后, 將此區(qū)域嵌入干凈樣本中得到第一類檢測(cè)數(shù)據(jù), 同時(shí)消除干凈樣本中此區(qū)域所在的位置得到第二類檢測(cè)數(shù)據(jù), 當(dāng)前者誤分類率與后者分類精度均高時(shí), 可判定所選區(qū)域存在觸發(fā)器, 即可識(shí)別觸發(fā)器樣本。此方案需要利用干凈數(shù)據(jù)集構(gòu)造元分類器, 操作復(fù)雜且計(jì)算開(kāi)銷極大, 極易受觸發(fā)器性質(zhì)影響。

      STRIP[16]是一種在線觸發(fā)器樣本檢測(cè)方案, 通過(guò)觸發(fā)器樣本難以擾動(dòng)的特點(diǎn)完成檢測(cè)。防御者生成若干輸入樣本的副本, 將等量隨機(jī)的干凈樣本與之混合,若預(yù)測(cè)結(jié)果較分散, 說(shuō)明輸入樣本不攜帶觸發(fā)器。反之, 說(shuō)明輸入樣本存在難以擾動(dòng)的特征, 即判定為觸發(fā)器樣本。此方案雖與BackDetc類似, 但隨機(jī)樣本擾動(dòng)機(jī)制可控性差且極大概率影響原始觸發(fā)器的效果,無(wú)法防御類可知后門攻擊與輸入可知后門攻擊[29]。

      3種防御方案均存在一些弱點(diǎn), 目前亟需一種輕量級(jí)、操作簡(jiǎn)潔且能夠抵御主流后門攻擊與類可知后門攻擊的觸發(fā)器樣本檢測(cè)方案。因此, 本文提出一種基于自定義后門行為的觸發(fā)器樣本檢測(cè)方案BackDetc, 能夠滿足上述所有特性。

      3 基于自定義后門行為的觸發(fā)器樣本檢測(cè)方案

      3.1 防御假設(shè)

      防御能力。用戶作為防御者, 盡管將訓(xùn)練任務(wù)外包至第三方, 依舊可以訪問(wèn)干凈數(shù)據(jù)集與模型內(nèi)部參數(shù)。一般情況下, 用戶具有微調(diào)模型的計(jì)算資源,傾向于利用本地?cái)?shù)據(jù)集微調(diào)外包模型。理論上, 用戶具備插入自定義后門的能力與資源。同時(shí), 本方案僅調(diào)整模型部署時(shí)的預(yù)測(cè)行為, 并未修改外包模型的內(nèi)部參數(shù)。

      防御目標(biāo)。防御者具有以下3個(gè)目標(biāo):

      1) 對(duì)于任意模型, 維持干凈樣本的分類精度;

      2) 對(duì)于數(shù)據(jù)中毒攻擊、模型中毒攻擊與類可知后門攻擊, 保持極高的檢測(cè)成功率;

      3) 操作簡(jiǎn)潔且維持資源受限用戶可承擔(dān)的計(jì)算開(kāi)銷。

      3.2 觸發(fā)器樣本檢測(cè)方案概述

      用戶獲得第三方訓(xùn)練完成的外包模型后, 依次從離線與在線兩個(gè)階段完成觸發(fā)器樣本檢測(cè)方案, 如圖2所示。離線階段包括兩個(gè)步驟: 將自定義的后門注入外包模型副本, 收集干凈樣本的擬合程度集合。其目的是確定干凈樣本擬合程度的上界, 以此獲得觸發(fā)器樣本在擬合程度上的檢測(cè)閾值。在線階段, 用戶僅需要計(jì)算輸入樣本的擬合程度, 將其與檢測(cè)閾值比較, 即可判斷此樣本是否攜帶觸發(fā)器。

      圖2 觸發(fā)器樣本檢測(cè)方案架構(gòu)圖Figure 2 The architecture of trigger sample detection scheme

      離線階段, 用戶首先構(gòu)造攜帶自定義后門的外包模型副本。具體地, 隨機(jī)選擇微小且不影響視覺(jué)效果的像素塊作為自定義的觸發(fā)器, 同時(shí)隨機(jī)選擇訓(xùn)練集中的部分?jǐn)?shù)據(jù), 將用戶選擇的觸發(fā)器嵌入這些數(shù)據(jù)的固定位置, 修改相應(yīng)數(shù)據(jù)的標(biāo)簽為用戶預(yù)選的類別。通過(guò)在模型副本上執(zhí)行少量輪次的訓(xùn)練, 成功將自定義后門注入外包模型副本。其次, 利用自定義觸發(fā)器易于激活自定義后門的特點(diǎn), 設(shè)計(jì)一種對(duì)原始觸發(fā)器特性影響小的輸入樣本干擾機(jī)制, 以此計(jì)算任意輸入樣本的抗干擾程度, 即擬合程度。具體地, 針對(duì)某輸入樣本, 為其生成若干副本, 依次將低透明度到高透明度的自定義觸發(fā)器嵌入這些副本并采用嵌入自定義后門的模型預(yù)測(cè)其結(jié)果。當(dāng)標(biāo)簽由用戶預(yù)選的類別改變?yōu)槠渌悇e時(shí), 說(shuō)明此時(shí)輸入樣本的特征強(qiáng)度高于對(duì)應(yīng)透明度的自定義觸發(fā)器, 即為輸入樣本的抗干擾能力或擬合程度。用戶隨機(jī)選擇部分干凈數(shù)據(jù)并統(tǒng)計(jì)相應(yīng)的擬合程度集合, 最終計(jì)算觸發(fā)器樣本的檢測(cè)閾值。

      在線階段, 用戶根據(jù)安全需求選擇合適的檢測(cè)假陽(yáng)率, 排除部分?jǐn)M合程度較高的干凈樣本, 選擇其余擬合程度集合中的最大值作為檢測(cè)閾值。此時(shí),用戶僅需要基于自定義觸發(fā)器的輸入樣本干擾機(jī)制計(jì)算當(dāng)前樣本的擬合程度, 將其與檢測(cè)閾值比較,即可判斷此樣本是否攜帶觸發(fā)器。

      本方案從干凈樣本與觸發(fā)器樣本在預(yù)測(cè)階段的本質(zhì)區(qū)別入手, 降低防御假設(shè)的強(qiáng)度, 通過(guò)檢測(cè)過(guò)擬合的特征識(shí)別觸發(fā)器樣本, 對(duì)多種后門攻擊具有魯棒性。同時(shí), 此方案資源開(kāi)銷集中于離線階段, 而且自定義后門注入以及干凈樣本擬合程度收集所需的計(jì)算開(kāi)銷在用戶可負(fù)擔(dān)范圍內(nèi), 適用于實(shí)際的防御場(chǎng)景。

      4 方案細(xì)節(jié)

      針對(duì)基于自定義后門行為的觸發(fā)器樣本檢測(cè)方案BackDetc, 本節(jié)對(duì)其中關(guān)鍵的技術(shù)以及流程進(jìn)行詳細(xì)描述, 包括自定義后門注入策略, 輸入樣本擬合程度測(cè)量算法以及觸發(fā)器樣本檢測(cè)流程。

      4.1 自定義后門注入策略

      圖3顯示了自定義后門注入外包模型的過(guò)程。用戶首先為外包模型生成一個(gè)副本, 模擬攻擊者執(zhí)行數(shù)據(jù)中毒攻擊, 通過(guò)預(yù)選的簡(jiǎn)易觸發(fā)器構(gòu)造中毒數(shù)據(jù)集, 并以此重新訓(xùn)練模型副本, 即得到嵌入自定義后門的模型副本, 同時(shí)不影響外包模型本身。具體來(lái)說(shuō), 用戶首先確定微小且不影響圖像視覺(jué)的觸發(fā)圖案m, 以及目標(biāo)類別t。然后, 從非目標(biāo)類中隨機(jī)采樣5%的數(shù)據(jù)并于角落位置添加自定義的觸發(fā)器m, 同時(shí)將其標(biāo)簽更新為目標(biāo)類別t, 混入訓(xùn)練數(shù)據(jù)即得到中毒數(shù)據(jù)集Dp。最后, 用戶生成外包模型的副本M, 利用交叉熵?fù)p失函數(shù)L在中毒數(shù)據(jù)集上訓(xùn)練訓(xùn)練少量輪次, 其目標(biāo)函數(shù)如下:

      圖3 自定義后門插入步驟Figure 3 The procedure of customized backdoor insertion

      因?yàn)閿?shù)據(jù)中毒攻擊并不影響干凈樣本的預(yù)測(cè)精度, 攜帶自定義后門的模型副本在主分類任務(wù)上具有較高的準(zhǔn)確率, 而當(dāng)預(yù)測(cè)嵌入自定義觸發(fā)器的輸入樣本時(shí), 自定義后門被激活, 即預(yù)測(cè)結(jié)果均為目標(biāo)類別t。同時(shí)本文證明, 外包模型若嵌入后門, 自定義后門的注入行為并不影響原始的后門效果, 即觸發(fā)器樣本的擬合程度仍高于干凈樣本, 保證了BackDetc檢測(cè)方案的有效性。

      4.2 輸入樣本擬合程度測(cè)量算法

      后門攻擊過(guò)程中, 攻擊者利用數(shù)據(jù)中毒攻擊或模型中毒攻擊毒化訓(xùn)練數(shù)據(jù)集或操控模型參數(shù), 迫使模型將觸發(fā)器特征與目標(biāo)標(biāo)簽a建立強(qiáng)映射關(guān)系,即觸發(fā)器特征存在過(guò)擬合特性。觸發(fā)器樣本由于非良性特征擬合程度過(guò)高, 導(dǎo)致其以極高的置信度分類為目標(biāo)標(biāo)簽a。而干凈樣本依據(jù)其中關(guān)鍵的良性特征完成預(yù)測(cè), 如模型將含有車輪、車燈與方向盤等元素的圖像分類為汽車。為保證模型的泛化能力, 良性特征的擬合程度通常不高。因此, 本文引入自定義后門行為實(shí)現(xiàn)干擾機(jī)制, 以輸入樣本的抗干擾能力作為其擬合程度, 進(jìn)而區(qū)分干凈樣本與觸發(fā)器樣本。

      我們提出一種輸入樣本擬合程度測(cè)量算法, 利用自定義觸發(fā)器的透明度表示輸入樣本的擬合程度,如圖4所示。針對(duì)一個(gè)輸入樣本, 首先獲得外包模型預(yù)測(cè)標(biāo)簽t0, 從其余類別中隨機(jī)選取一種類別t1作為自定義后門的目標(biāo)標(biāo)簽, 利用后門注入策略構(gòu)建一個(gè)嵌入自定義后門的模型副本M1, 其對(duì)應(yīng)的自定義觸發(fā)器為m1。測(cè)算過(guò)程中, 用戶生成n份輸入樣本的副本并分別添加觸發(fā)器m11,m12,…,m1n, 其中m1的透明度依次遞增, 從不透明的觸發(fā)器m11到全透明的觸發(fā)器m1n, 相應(yīng)的自定義后門效果逐漸降低, 同樣自定義觸發(fā)器的干擾能力隨之下降。最終, 將所有樣本依次輸入模型副本M1獲得相應(yīng)的預(yù)測(cè)標(biāo)簽。其中預(yù)測(cè)類別由t1轉(zhuǎn)變?yōu)閠0時(shí), 說(shuō)明輸入樣本中的特征強(qiáng)度高于此時(shí)的自定義觸發(fā)器, 即將m1對(duì)應(yīng)的透明度定義為輸入樣本的擬合程度。

      圖4 輸入樣本擬合程度測(cè)量步驟Figure 4 The measure steps of input fit degree

      在攜帶自定義后門的模型副本M1中, 自定義觸發(fā)器m1極易激活后門行為, 將攜帶m1的輸入樣本定向誤分類為目標(biāo)標(biāo)簽t1。而依次增加m1的透明度將導(dǎo)致自定義后門的效果逐漸降低, 即表現(xiàn)出原本的預(yù)測(cè)標(biāo)簽t0。若輸入一個(gè)攻擊者設(shè)計(jì)的觸發(fā)器樣本,由于觸發(fā)器特征擬合程度過(guò)高,m1不透明時(shí)即輸出t0為預(yù)測(cè)標(biāo)簽。而輸入一個(gè)干凈樣本,m1透明度較高時(shí)才輸出t0為預(yù)測(cè)標(biāo)簽。因此, 本文依據(jù)輸入樣本對(duì)自定義觸發(fā)器的抵抗能力作為其特征的擬合程度, 從而區(qū)分干凈樣本與觸發(fā)器樣本。下文詳細(xì)描述輸入樣本擬合程度測(cè)量算法。

      算法1.輸入樣本擬合程度測(cè)量算法.

      輸入: 外包模型M、輸入樣本x;

      輸出: 輸入樣本擬合程度q;

      ①生成外包模型副本M1, 并確定x的預(yù)測(cè)標(biāo)簽t0;

      ②確定自定義的觸發(fā)器m1, 目標(biāo)標(biāo)簽t1;

      ③構(gòu)造中毒數(shù)據(jù)集并訓(xùn)練模型副本M1;

      ④生成n個(gè)輸入樣本副本x1,x2,…,xn;

      ⑤按透明度遞增序列依次添加n個(gè)觸發(fā)器m11、m12,…,m1n;

      REPEAT

      ⑥利用M1預(yù)測(cè)xi+ m1i, 其標(biāo)簽為labeli;

      UNTILlabeli= t1且labeli+1=t0;

      RETURNm1i的透明度q.

      4.3 在線觸發(fā)器樣本檢測(cè)方案BackDetc構(gòu)建

      基于輸入樣本擬合程度測(cè)量算法, 我們?cè)O(shè)計(jì)在線觸發(fā)器樣本檢測(cè)方案的具體步驟。用戶首先通過(guò)微小且不影響視覺(jué)效果的觸發(fā)器構(gòu)造攜帶自定義后門的模型副本, 然后隨機(jī)選擇部分干凈數(shù)據(jù), 利用輸入樣本擬合程度測(cè)量算法收集良性擬合程度的集合。為保證檢測(cè)方案不影響干凈樣本的分類精度, 理想情況下, 擬合程度集合中選擇最大值作為檢測(cè)閾值, 針對(duì)任意輸入樣本, 計(jì)算其擬合程度并與閾值比較。若高于閾值, 則將其視為觸發(fā)器樣本, 且外包模型必然存在后門。

      考慮到輸入樣本的原始類別與自定義類別偶然重合的可能, 本方案設(shè)置兩個(gè)具有不同目標(biāo)類別的自定義后門, 其中必然存在與原始類別不相同的自定義后門, 因此輸入樣本需要分別在兩個(gè)不同的自定義后門下進(jìn)行檢測(cè), 存在超出閾值的情況即可判定為觸發(fā)器樣本。為提供靈活的檢測(cè)能力, 用戶通過(guò)修改檢測(cè)假陽(yáng)率來(lái)動(dòng)態(tài)更新檢測(cè)閾值, 即初始認(rèn)定少量干凈樣本的擬合程度存在異常, 排除它們后選擇剩余擬合程度集合中的最大值作為檢測(cè)閾值, 以模型精度在假陽(yáng)率范圍內(nèi)降低為代價(jià)提高觸發(fā)器樣本的檢測(cè)成功率。用戶具體按照以下步驟執(zhí)行輸入樣本檢測(cè)過(guò)程:

      1) 用戶獲得外包訓(xùn)練模型M并拷貝其參數(shù)獲得兩個(gè)模型副本, 隨機(jī)選擇兩個(gè)類別作為兩個(gè)自定義后門的目標(biāo)類別, 同時(shí)生成兩種微小且不影響視覺(jué)的自定義觸發(fā)器, 利用自定義后門注入策略構(gòu)造兩個(gè)中毒數(shù)據(jù)集, 以此訓(xùn)練出兩個(gè)攜帶不同自定義后門的模型副本;

      2) 用戶從測(cè)試集中選擇部分干凈數(shù)據(jù), 按照輸入樣本擬合程度測(cè)量算法分別在兩個(gè)模型副本中獲得所有干凈樣本的擬合程度集合;

      3) 用戶按照防御需求設(shè)置合理的假陽(yáng)率, 并按照遞減序列確定對(duì)應(yīng)的擬合程度, 進(jìn)而作為觸發(fā)器樣本的檢測(cè)閾值;

      4) 針對(duì)任意輸入樣本, 用戶在兩個(gè)模型副本中分別計(jì)算其擬合程度。若其中任意擬合程度高于對(duì)應(yīng)的閾值, 即可判定此輸入樣本含有觸發(fā)器, 模型M存在第三方注入的后門, 其余情況則判定此輸入樣本為干凈樣本。

      BackDetc的核心是觸發(fā)器特征存在過(guò)擬合特性,引入自定義后門計(jì)算輸入樣本的擬合程度, 以干凈數(shù)據(jù)的擬合程度為參考篩除觸發(fā)器樣本, 即設(shè)置合理的擬合程度作為檢測(cè)閾值, 具體過(guò)程為算法2。此過(guò)程對(duì)應(yīng)的計(jì)算開(kāi)銷與模型微調(diào)相近, 資源受限用戶在本地即可實(shí)現(xiàn)離線階段的部署。后續(xù), 在線階段僅需少量預(yù)測(cè)行為即可檢測(cè)某輸入樣本是否嵌入觸發(fā)器, 操作簡(jiǎn)潔且易于部署, 如算法3所示。

      此外, 在BackDetc構(gòu)建過(guò)程中, 用戶需要于圖像中隱蔽位置嵌入微小的自定義觸發(fā)器, 如角落。因此自定義觸發(fā)器以極低概率影響輸入樣本的關(guān)鍵內(nèi)容或攻擊者嵌入的觸發(fā)區(qū)域, 導(dǎo)致自定義后門具有較強(qiáng)的可控性, 以此削弱干擾機(jī)制對(duì)原始觸發(fā)器的影響, 從而保證BackDetc對(duì)原始觸發(fā)器性質(zhì)的魯棒性以及對(duì)多數(shù)后門攻擊的有效性。理論上, 存在過(guò)擬合行為的后門攻擊均無(wú)法逃避此檢測(cè)。

      算法2.觸發(fā)器樣本檢測(cè)閾值構(gòu)造算法.

      輸入: 外包模型M、假陽(yáng)率f、干凈數(shù)據(jù)集Dc;

      輸出: 模型副本M1與M2、檢測(cè)閾值T1與T2.

      ①隨機(jī)初始化目標(biāo)類別t1與t2, 微小觸發(fā)器m1與m2;

      ②利用m1與t1執(zhí)行自定義后門注入策略, 獲得模型副本M1;

      ③利用m2與t2執(zhí)行自定義后門注入策略, 獲得模型副本M2;

      ④利用M1、m1與t1計(jì)算Dc所有樣本的擬合程度, 其集合為Q1;

      ⑤利用M2、m2與t2計(jì)算Dc所有樣本的擬合程度, 其集合為Q2;

      ⑥選取Q1與Q2排序第f的擬合程度作為檢測(cè)閾值T1與T2;

      RETURN模型副本M1與M2、檢測(cè)閾值T1與T2.

      算法3.在線觸發(fā)器樣本檢測(cè)算法.

      輸入: 模型副本M1與M2、自定義觸發(fā)器m1與m2、目標(biāo)類別t1與t2、檢測(cè)閾值T1與T2、任意輸入樣本x;

      輸出: 觸發(fā)器性質(zhì)flag.

      ①利用M1、m1與t1計(jì)算x的擬合程度q1;

      ②利用M2、m2與t2計(jì)算x的擬合程度q2;

      ③若q1<T1且q2<T2, 則flag=clean;

      ④否則flag=trigger;

      RETURN觸發(fā)器性質(zhì)flag.

      5 實(shí)驗(yàn)分析

      本節(jié)按照攻擊假設(shè)分別在MNIST與CIFAR-10數(shù)據(jù)集中實(shí)現(xiàn)數(shù)據(jù)中毒攻擊與模型中毒攻擊, 然后對(duì)四種受感染的外包模型執(zhí)行基于自定義后門行為的觸發(fā)器樣本檢測(cè)方案BackDetc, 選擇部分干凈樣本與觸發(fā)器樣本進(jìn)行檢測(cè)并記錄防御效果, 探討檢測(cè)假陽(yáng)率對(duì)本方案中觸發(fā)器樣本檢測(cè)成功率的影響。后續(xù)引入三種效果顯著的觸發(fā)器樣本檢測(cè)方案[16,18,28], 從防御效果、資源開(kāi)銷方面與BackDetc展開(kāi)對(duì)比, 并比較各方案對(duì)類可知后門攻擊的魯棒性。最后, 通過(guò)上述結(jié)果分析本方案的特性與適用場(chǎng)景。

      5.1 實(shí)驗(yàn)設(shè)置

      我們采用圖5(a—c)所示觸發(fā)器完成后門攻擊操作, 均以類別0為攻擊目標(biāo), 隨機(jī)修改5%訓(xùn)練數(shù)據(jù)或生成木馬觸發(fā)器, 通過(guò)數(shù)據(jù)中毒攻擊與模型中毒攻擊分別將后門注入MNIST與CIFAR-10分類模型[30]。與文獻(xiàn)[18]中攻擊設(shè)置相同, MNIST任務(wù)采用圖5(a)(b)作為觸發(fā)器, 分別實(shí)現(xiàn)數(shù)據(jù)中毒攻擊與模型中毒攻擊。而CIFAR-10任務(wù)選用圖5(a)(c)作為觸發(fā)器實(shí)現(xiàn)兩類主流的后門攻擊。以MNIST任務(wù)為例,兩種后門攻擊產(chǎn)生的惡意行為如圖6(a)(b)所示, 任意一種后門攻擊中, 嵌入觸發(fā)器的樣本均分類為攻擊者預(yù)先定義的類別0。

      圖5 后門攻擊的觸發(fā)圖案Figure 5 The trigger patterns of backdoor attacks

      圖6 觸發(fā)器樣本的預(yù)測(cè)結(jié)果Figure 6 The prediction results of trigger samples

      實(shí)驗(yàn)中, 攻擊者硬件環(huán)境為: Intel i5-9300H(2.40GHz)CPU和64GB內(nèi)存; 用戶硬件環(huán)境為: Intel i5-6500CPU和16GB內(nèi)存。兩者的軟件執(zhí)行環(huán)境均為: Windows10操作系統(tǒng)、Python 3.6.2和PyTorch 1.14.0。

      表1中描述了MNIST與CIFAR-10數(shù)據(jù)集的信息摘要。其中MNIST具有10個(gè)類別, 包含70000張灰度手寫數(shù)字圖像, 其中60000張屬于訓(xùn)練集,10000張屬于測(cè)試集, 采用2層卷積2層全連接的神經(jīng)網(wǎng)絡(luò)[31]實(shí)現(xiàn)分類。而CIFAR-10數(shù)據(jù)集中具有10種通用物體, 包含60000張彩色圖像, 其中50000張屬于訓(xùn)練集, 10000張屬于測(cè)試集??紤]到任務(wù)的復(fù)雜性, CIFAR-10采用Rsnet18模型進(jìn)行實(shí)現(xiàn)[32]。

      表1 數(shù)據(jù)集摘要Table 1 Dataset Summary

      5.2 自定義后門注入策略

      針對(duì)某個(gè)受感染的外包模型, 我們分別采用圖5(d)(e)中自定義的微小觸發(fā)圖案執(zhí)行自定義后門注入策略, 其中圖5(d)與類別8建立強(qiáng)映射, 而圖5(e)與類別9建立強(qiáng)映射。針對(duì)某個(gè)模型副本, 首先隨機(jī)選擇5%訓(xùn)練數(shù)據(jù)添加自定義觸發(fā)器, 并將其標(biāo)簽修改為相應(yīng)的目標(biāo)類別, 以此構(gòu)造中毒數(shù)據(jù)集, 然后通過(guò)少量輪次訓(xùn)練即可將自定義后門注入模型副本。為保證BackDetc方案對(duì)任意樣本均有效, 需要消除輸入樣本的原始類別與自定義后門目標(biāo)類別重合的偶然性, 因此生成兩個(gè)攜帶不同自定義后門的模型副本。后續(xù), 輸入樣本在任意自定義后門檢測(cè)機(jī)制下表現(xiàn)異常, 即可判為觸發(fā)器樣本。

      實(shí)驗(yàn)證明, 經(jīng)過(guò)兩至三輪訓(xùn)練, 模型副本即可成功嵌入自定義后門, 其資源開(kāi)銷與模型微調(diào)接近, 用戶在本地即可完成此過(guò)程。我們采用1000份干凈樣本與1000份嵌入自定義觸發(fā)器的樣本計(jì)算此模型副本的分類精度以及自定義后門的攻擊成功率。所有任務(wù)中任意攻擊下的模型副本, 它們不僅維持干凈樣本的分類精度, 而且平均實(shí)現(xiàn)99%以上的自定義后門攻擊成功率。以MNIST任務(wù)為例, 如圖6(c)(d)所示, 嵌入自定義觸發(fā)器的樣本極易激活相應(yīng)的自定義后門,產(chǎn)生定向誤分類。此外, 我們計(jì)算攻擊者引入的后門所造成的攻擊成功率, 攜帶原始觸發(fā)器的樣本仍維持100%的攻擊成功率, 證明自定義后門注入過(guò)程并不影響已存在的后門行為, 即攜帶原始觸發(fā)器的樣本仍存在過(guò)擬合行為, 即可被BackDetc方案檢測(cè)。

      5.3 觸發(fā)器樣本檢測(cè)方案BackDetc

      本節(jié)主要驗(yàn)證BackDetc對(duì)兩類主流后門攻擊的防御效果。針對(duì)某個(gè)嵌入后門的分類模型, 我們均勻選擇1000份干凈樣本, 并制作1000份觸發(fā)器樣本。首先, 從測(cè)試集中隨機(jī)選取20%的干凈數(shù)據(jù), 分別輸入兩個(gè)攜帶不同自定義后門的模型副本中, 利用觸發(fā)器樣本檢測(cè)閾值構(gòu)造算法獲得兩個(gè)檢測(cè)閾值, 接著通過(guò)在線觸發(fā)器樣本檢測(cè)方案識(shí)別攜帶原始觸發(fā)器的樣本。

      為方便理解, 下文以映射為類別8的后門模型副本為例繪制1000份干凈樣本與1000份觸發(fā)器樣本的擬合程度散點(diǎn)情況。在MNIST分類任務(wù)中, 數(shù)據(jù)中毒攻擊檢測(cè)效果如圖7(a)所示, 其中觸發(fā)器樣本的擬合程度顯著高于干凈樣本。若以干凈樣本中最高擬合程度為檢測(cè)閾值, 即檢測(cè)假陽(yáng)率設(shè)置為0%,則觸發(fā)器樣本的檢測(cè)成功率可達(dá)99.8%。而模型中毒攻擊的檢測(cè)效果如圖7(b)所示, 其中觸發(fā)器樣本與干凈樣本在擬合程度上存在分界, 在檢測(cè)假陽(yáng)率設(shè)置為0%的條件下可實(shí)現(xiàn)100%的檢測(cè)成功率。模型中毒攻擊下生成的觸發(fā)器直接影響受損神經(jīng)元, 相較于隨機(jī)產(chǎn)生的觸發(fā)器具有更高的擬合程度, 導(dǎo)致圖7(b)中2種樣本擬合程度的分隔增大。對(duì)于干凈樣本, 仍輸入至外包模型獲得預(yù)測(cè)結(jié)果, 因此本方案并不影響分類精度, 保持在98%以上。

      圖7 MNIST后門攻擊下樣本的擬合程度Figure 7 The fit degree of samples on backdoor MNIST

      同樣, 我們針對(duì)CIFAR-10下的兩類后門攻擊部署B(yǎng)ackDetc方案, 以映射為類別9的后門模型副本為例繪制1000份干凈樣本與1000份觸發(fā)器樣本的擬合程度分布情況。圖8(a)(b)分別顯示了BackDetc對(duì)數(shù)據(jù)中毒攻擊與模型中毒攻擊的檢測(cè)效果, 2種攻擊下觸發(fā)器樣本與干凈樣本在擬合程度上均存在分界, 因此選擇干凈樣本中最高擬合程度為檢測(cè)閾值即可實(shí)現(xiàn)100%檢測(cè)成功率。與MNIST任務(wù)相比, 此分類任務(wù)更加復(fù)雜, 干凈樣本中的良性特征擬合程度偏低, 而觸發(fā)器特征仍然保持過(guò)擬合特性, 因此干凈樣本與觸發(fā)器樣本在擬合程度上相差更大, 容易實(shí)現(xiàn)100%的檢測(cè)效果。對(duì)于干凈樣本, 將其輸入至外包模型, 仍保持與干凈模型相近的分類精度,維持在88%以上。

      圖8 CIFAR-10后門攻擊下樣本的擬合程度Figure 8 The fit degree of samples on backdoor CIFAR-10

      此外, 檢測(cè)假陽(yáng)率是影響防御效果的關(guān)鍵因素,提高假陽(yáng)率會(huì)降低檢測(cè)閾值, 能夠提升檢測(cè)效果,而過(guò)高的假陽(yáng)率直接影響分類精度, 因此后續(xù)將討論不同假陽(yáng)率對(duì)分類精度以及BackDetc檢測(cè)效果的影響。針對(duì)4種攻擊情況, 分別在檢測(cè)假陽(yáng)率為0%、0.5%、1%與2%的情況下部署本方案, 結(jié)果如圖9所示。以MNIST任務(wù)中數(shù)據(jù)中毒攻擊為例, 觸發(fā)器樣本檢測(cè)成功率呈現(xiàn)增長(zhǎng)趨勢(shì)。當(dāng)假陽(yáng)率高于0.5%時(shí),其檢測(cè)成功率均達(dá)到100%。對(duì)于其他3種攻擊情況,同樣在假陽(yáng)率高于0.5%時(shí)實(shí)現(xiàn)100%的檢測(cè)成功率。兩種分類任務(wù)中, 當(dāng)假陽(yáng)率不超過(guò)0.5%時(shí), 外包模型的分類精度平均變化為0.2%, 可忽略不計(jì)。同時(shí),當(dāng)假陽(yáng)率為0%時(shí), 平均檢測(cè)成功率可達(dá)99.9%。因此, 后續(xù)實(shí)驗(yàn)中假陽(yáng)率可設(shè)置為0%或0.5%, 以此權(quán)衡檢測(cè)效果與分類精度。

      圖9 檢測(cè)假陽(yáng)率差異實(shí)驗(yàn)Figure 9 The difference of detection false positive rate

      5.4 觸發(fā)器樣本檢測(cè)方案對(duì)比分析

      為進(jìn)一步評(píng)估BackDetc方案的性能與資源開(kāi)銷,我們與當(dāng)前效果顯著的3種觸發(fā)器樣本檢測(cè)方案進(jìn)行實(shí)驗(yàn)對(duì)比, 其中包括STRIP[16]、Neural Cleanse[18]與SentiNet[28], 最大化3種方案的防御能力, 利用充足的計(jì)算能力與豐富的數(shù)據(jù)資源部署各方案。本實(shí)驗(yàn)中, Neural Cleanse在測(cè)試集上利用逆向工程為每個(gè)類生成一個(gè)候選觸發(fā)器, 通過(guò)異常檢測(cè)方案識(shí)別真實(shí)觸發(fā)器, 后續(xù)以此為檢測(cè)依據(jù)判斷輸入樣本是否攜帶觸發(fā)器。而SentiNet通過(guò)模型解釋與目標(biāo)檢測(cè)技術(shù)捕獲輸入樣本的關(guān)鍵區(qū)域, 統(tǒng)計(jì)測(cè)試集中干凈樣本對(duì)應(yīng)的關(guān)鍵區(qū)域特性并訓(xùn)練元分類器, 從而識(shí)別觸發(fā)器樣本。STRIP通過(guò)隨機(jī)疊加100個(gè)干凈樣本實(shí)現(xiàn)干擾機(jī)制, 利用預(yù)測(cè)結(jié)果的熵值作為輸入樣本的擬合程度, 并設(shè)置合理的假陽(yáng)率以確定檢測(cè)閾值。與本方案相似, STRIP設(shè)置為0%的假陽(yáng)率。針對(duì)本文四種攻擊場(chǎng)景, 我們隨機(jī)生成2000份觸發(fā)器樣本, 部署以上四種輸入樣本檢測(cè)方案來(lái)記錄相應(yīng)的檢測(cè)成功率, 其結(jié)果如表3所示。

      表3 觸發(fā)器樣本檢測(cè)方案對(duì)比Table 3 The comparison of trigger sample detection schemes (%)

      由此表可以看出, BackDetc在主流后門攻擊情況下均具有絕對(duì)的優(yōu)勢(shì), 其檢測(cè)成功率高于另外三種方案。Neural Cleanse對(duì)模型中毒攻擊的防御效果較差, 其中逆向工程傾向于搜索微小且規(guī)整的觸發(fā)器, 無(wú)法完全還原木馬觸發(fā)器, 導(dǎo)致識(shí)別觸發(fā)器樣本時(shí)出現(xiàn)偏差。SentiNet需要統(tǒng)計(jì)大量干凈樣本關(guān)鍵區(qū)域的特性, 提高了元分類器的魯棒性, 對(duì)兩類后門攻擊均可防御, 但仍存在一些觸發(fā)器樣本位于分類邊界, 造成偏低的檢測(cè)成功率。STRIP表現(xiàn)整體超出另外兩種方案, 但疊加干凈樣本的擾動(dòng)機(jī)制會(huì)降低原始觸發(fā)器的效果, 導(dǎo)致某些觸發(fā)器樣本的熵值低于閾值, 即出現(xiàn)少量逃逸檢測(cè)的情況。而自定義觸發(fā)器足夠小, 并不影響輸入樣本中原始觸發(fā)器的效果, 因此BackDetc表現(xiàn)出更強(qiáng)的檢測(cè)效果。

      為進(jìn)一步評(píng)估各方案的資源開(kāi)銷, 我們以MNIST下數(shù)據(jù)中毒攻擊為例記錄四種方案的資源開(kāi)銷。各方案包括離線部署與在線檢測(cè)兩個(gè)階段, 其結(jié)果如表2所示。Neural Cleanse為所有類別構(gòu)造候選觸發(fā)器, 離線階段計(jì)算資源消耗巨大; SentiNet的計(jì)算開(kāi)銷包括目標(biāo)檢測(cè)、模型解釋、大量干凈樣本關(guān)鍵區(qū)域特性分析以及元分類器的訓(xùn)練, 在離線階段同樣消耗大量計(jì)算資源。而STRIP僅需要一些模型預(yù)測(cè)操作即可完成離線部署與在線檢測(cè)操作。本方案離線階段包括自定義后門注入以及干凈樣本擬合程度收集, 其開(kāi)銷雖略高于STRIP, 但遠(yuǎn)低于其余兩種方案, 容易部署于資源受限的用戶端。此外,BackDetc在線階段所需的模型預(yù)測(cè)操作低于STRIP,將單次輸入樣本檢測(cè)時(shí)間降低至3.9ms。綜上所述,本方案檢測(cè)效果顯著高于當(dāng)前的方案, 且兩階段計(jì)算開(kāi)銷滿足資源受限用戶的需求, 可落地于真實(shí)的應(yīng)用場(chǎng)景。

      表2 觸發(fā)器樣本檢測(cè)方案資源開(kāi)銷Table 2 The overhead of trigger sample detection schemes

      5.5 類可知后門攻擊檢測(cè)效果

      后門變體攻擊進(jìn)一步威脅深度學(xué)習(xí)安全, 如類可知后門攻擊, 將攻擊目標(biāo)鎖定為攻擊者指定的類別, 即源類。因此, 僅源類樣本才可以激活后門行為,而模型對(duì)攜帶觸發(fā)器的非源類樣本保持良性預(yù)測(cè)行為。Tang等人[14]詳細(xì)分析了類可知后門攻擊的威脅能力, 可成功繞過(guò)Neural Cleanse與 STRIP方案。后者雖與本文思路相似, 但是采用疊加隨機(jī)樣本的方式構(gòu)造擾動(dòng)無(wú)法準(zhǔn)確衡量輸入樣本的擬合程度。因?yàn)轭惪芍箝T攻擊下原始觸發(fā)器僅對(duì)特定類別起作用, 疊加隨機(jī)樣本極大可能削弱原始觸發(fā)器的后門效果, 導(dǎo)致某些觸發(fā)器樣本的熵值接近干凈樣本。而SentiNet基于類不可知特性實(shí)現(xiàn)檢測(cè)機(jī)制, 僅針主流后門攻擊有效, 同樣無(wú)法抵御類可知后門攻擊。而本方案單獨(dú)考慮輸入樣本的擬合程度, 且擾動(dòng)機(jī)制不影響觸發(fā)器效果。即使針對(duì)特定類別的觸發(fā)器, 嵌入源類樣本后, 激活類可知后門, 此惡意行為的擬合程度極大概率高于干凈樣本的預(yù)測(cè)行為。下文采用CIFAR-10實(shí)現(xiàn)類可知后門攻擊, 并部署B(yǎng)ackDetc檢測(cè)攜帶觸發(fā)器的源類樣本。

      首先, 以圖4(a)為觸發(fā)器, 類別5(狗)為源類且類別0(飛機(jī))為目標(biāo)類, 根據(jù)文獻(xiàn)[14]中步驟生成中毒數(shù)據(jù)與恢復(fù)數(shù)據(jù), 實(shí)現(xiàn)類可知后門攻擊。由圖10可知, 類可知后門將嵌入觸發(fā)器的源類樣本分類為目標(biāo)類別0, 而此效應(yīng)對(duì)其他類別無(wú)效。經(jīng)驗(yàn)證, 該后門模型在干凈樣本上的分類精度為87.53%, 對(duì)于嵌入觸發(fā)器的源類樣本的攻擊成功率高達(dá)97.8%, 說(shuō)明此后門變體攻擊兼顧隱蔽性與破壞性。檢測(cè)過(guò)程中, 構(gòu)造攜帶自定義后門的模型副本, 隨機(jī)選擇1000份干凈樣本與1000份源類中的觸發(fā)器樣本并繪制擬合程度分布情況。

      圖10 類可知后門攻擊樣例Figure 10 The examples of source-specific backdoor attack

      圖11表示干凈樣本與攜帶觸發(fā)器的源類樣本在擬合程度上存在明顯差異, 即源類樣本中觸發(fā)器仍存在過(guò)擬合特性, 因此BackDetc可以抵御類可知后門攻擊。當(dāng)檢測(cè)假陽(yáng)率為0%時(shí), 本方案的檢測(cè)成功率達(dá)到88.3%。盡管一些觸發(fā)器樣本可以逃逸檢測(cè),本方案仍可通過(guò)調(diào)整假陽(yáng)率來(lái)降低檢測(cè)閾值, 即獲得更高的檢測(cè)成功率。我們繪制出0%、0.5%、1%與2%假陽(yáng)率對(duì)應(yīng)的檢測(cè)效果, 如圖12所示, 犧牲2%模型精度即可將檢測(cè)成功率提升至96.2%, 說(shuō)明BackDetc的魯棒性遠(yuǎn)高于其他3種檢測(cè)方案, 可有效抵御類可知后門攻擊。

      圖11 類可知后門下樣本的擬合程度Figure 11 The fit degree of samples on source-specific backdoor

      圖12 不同檢測(cè)假陽(yáng)率下類可知后門的檢測(cè)效果Figure 12 The detection effect of the source-specific backdoor under different detection false positive rates

      6 討論

      多數(shù)后門防御方案容易受觸發(fā)器性質(zhì)、模型復(fù)雜度的影響[33-34], 而本方案采用微小且不影響視覺(jué)的自定義觸發(fā)器注入自定義后門, 保證干擾機(jī)制的獨(dú)立性, 只依據(jù)原始觸發(fā)器存在的過(guò)擬合特性完成檢測(cè), 理論上對(duì)模型結(jié)構(gòu)與觸發(fā)器性質(zhì)均不敏感。

      本節(jié)以圖像右下角的像素塊作為原始觸發(fā)器,在CIFAR-10任務(wù)中實(shí)現(xiàn)五種數(shù)據(jù)中毒攻擊, 探究BackDetc在不同觸發(fā)器尺寸下的防御效果, 原始觸發(fā)器占輸入圖像的比例包括1%、5%、10%、15%與20%, 如圖13所示??紤]到STRIP方案與本方案的相似性, 我們同時(shí)記錄兩者對(duì)觸發(fā)器尺寸的魯棒性,其假陽(yáng)率均設(shè)置為0%, 相應(yīng)的檢測(cè)效果如圖14所示。隨著觸發(fā)器尺寸增加, STRIP方案對(duì)觸發(fā)器樣本的檢測(cè)成功率略微下降, 最低仍高于96%, 而本方案的檢測(cè)成功率維持在99%以上。由此說(shuō)明兩種方案對(duì)觸發(fā)器尺寸均不敏感, 其中BackDetc的魯棒性高于STRIP。我們認(rèn)為, 通過(guò)隨機(jī)疊加樣本的擾動(dòng)方式更容易遮擋大尺寸觸發(fā)器, 影響攻擊者注入的后門效果, 即擾動(dòng)本身削弱了原始觸發(fā)器的抗干擾能力,造成部分觸發(fā)器樣本逃逸STRIP檢測(cè)的情況。而本方案的擾動(dòng)方式僅在圖像邊緣或角落添加微小的自定義觸發(fā)器, 難以遮擋原始觸發(fā)器, 更精確地計(jì)算輸入樣本的擬合程度, 因此對(duì)原始觸發(fā)器尺寸表現(xiàn)出更強(qiáng)的魯棒性。

      圖13 不同尺寸的原始觸發(fā)器Figure 13 The different attacker-specific triggers with different sizes

      圖14 不同觸發(fā)器尺寸下BackDetc與STRIP對(duì)比Figure 14 The comparison of BackDetc and STRIP under different trigger sizes

      此外, 通過(guò)上述實(shí)驗(yàn)我們發(fā)現(xiàn)后門攻擊的效果越強(qiáng), 相應(yīng)觸發(fā)器的特征擬合程度越高, 導(dǎo)致干凈樣本與觸發(fā)器樣本在擬合程度上呈現(xiàn)更加顯著的差別[35]。由此可提出一種繞過(guò)本方案的新型后門攻擊,迫使觸發(fā)器特征與良性特征擬合程度接近。顯然, 這使得觸發(fā)器樣本無(wú)法以極高成功率完成定向誤分類,增強(qiáng)了自適應(yīng)后門攻擊的難度與實(shí)用性。因此, 攻擊者期望繞過(guò)本方案, 必須承受后門攻擊成功率下降的代價(jià), 以此保證了防御的魯棒性。

      7 結(jié)論

      本文提出一種基于自定義后門行為的觸發(fā)器樣本檢測(cè)方案BackDetc, 使用自定義觸發(fā)器的透明度衡量輸入樣本的擬合程度, 通過(guò)觸發(fā)器特征存在過(guò)擬合的特點(diǎn)區(qū)分觸發(fā)器樣本與干凈樣本。本方案引入獨(dú)立的自定義后門, 保證干擾機(jī)制不影響原始觸發(fā)器的效果, 以此提高檢測(cè)的魯棒性。與目前效果顯著的觸發(fā)器樣本檢測(cè)方案相比, BackDetc不僅對(duì)主流后門攻擊具有99.8%以上的檢測(cè)成功率, 而且解決了類可知后門攻擊的威脅, 將檢測(cè)成功率提升至96.2%。同時(shí), 本方案在離線與在線階段均保持較低的計(jì)算開(kāi)銷, 可部署于資源受限的用戶端, 且整體步驟操作簡(jiǎn)潔, 適用于真實(shí)應(yīng)用場(chǎng)景。在未來(lái)工作中,我們將進(jìn)一步降低自定義后門對(duì)已存在后門的影響,以便設(shè)計(jì)更加魯棒的觸發(fā)器樣本檢測(cè)方案。

      猜你喜歡
      后門觸發(fā)器副本
      面向流媒體基于蟻群的副本選擇算法①
      工業(yè)物聯(lián)網(wǎng)后門隱私的泄露感知研究
      電子制作(2018年18期)2018-11-14 01:47:56
      主從JK觸發(fā)器邏輯功能分析
      電子世界(2017年22期)2017-12-02 03:03:45
      使用觸發(fā)器,強(qiáng)化安全性
      副本放置中的更新策略及算法*
      這個(gè)班還不錯(cuò)
      新帕薩特右后門玻璃升降功能失效
      樹(shù)形網(wǎng)絡(luò)中的副本更新策略及算法*
      新途安1.4TSI車后門車窗玻璃不能正常升降
      對(duì)觸發(fā)器邏輯功能轉(zhuǎn)換的分析
      平武县| 陈巴尔虎旗| 七台河市| 青海省| 广丰县| 孝义市| 内江市| 潼南县| 永登县| 榆社县| 临海市| 自贡市| 高邑县| 文登市| 长乐市| 江阴市| 浦北县| 长沙县| 比如县| 屏东市| 木兰县| 沧州市| 汾西县| 肇源县| 东平县| 葫芦岛市| 衢州市| 明溪县| 临朐县| 长汀县| 茶陵县| 武穴市| 黄石市| 昭苏县| 神池县| 环江| 邯郸市| 扶绥县| 固安县| 大方县| 微山县|