• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    機器學習模型可解釋性方法、應用與安全研究綜述

    2019-10-21 05:44:10紀守領李進鋒杜天宇
    計算機研究與發(fā)展 2019年10期
    關鍵詞:解釋性決策樣本

    紀守領 李進鋒 杜天宇 李 博

    1(浙江大學計算機科學與技術學院網(wǎng)絡空間安全研究中心 杭州 310027) 2(伊利諾伊大學香檳分校計算機科學學院 美國伊利諸伊州厄巴納香檳 61822)

    近年來,機器學習相關技術在計算機視覺、自然語言處理、語音識別等多個領域取得了巨大的成功,機器學習模型也被廣泛地應用到一些重要的現(xiàn)實任務中,如人臉識別[1-3]、自動駕駛[4]、惡意軟件檢測[5]和智慧醫(yī)療分析[6]等.在某些場景中,機器學習模型的表現(xiàn)甚至超過了人類.

    盡管機器學習在許多有意義的任務中勝過人類,但由于缺乏可解釋性,其表現(xiàn)和應用也飽受質疑[7].對于普通用戶而言機器學習模型尤其是深度神經(jīng)網(wǎng)絡(deep neural networks, DNN)模型如同黑盒一般,給它一個輸入,其反饋一個決策結果,沒人能確切地知道它背后的決策依據(jù)以及它做出的決策是否可靠.而缺乏可解釋性將有可能給實際任務中尤其是安全敏感任務中的許多基于DNN的現(xiàn)實應用帶來嚴重的威脅.比如說,缺乏可解釋性的自動醫(yī)療診斷模型可能給患者帶來錯誤的治療方案,甚至嚴重威脅患者的生命安全.此外,最近的研究表明,DNN本身也面臨著多種安全威脅——惡意構造的對抗性樣本可以輕易讓DNN模型分類出錯[8-10],而他們針對對抗樣本的脆弱性同樣也缺乏可解釋性.因此,缺乏可解釋性已經(jīng)成為機器學習在現(xiàn)實任務中的進一步發(fā)展和應用的主要障礙之一.

    為了提高機器學習模型的可解釋性和透明性,建立用戶與決策模型之間的信任關系,消除模型在實際部署應用中的潛在威脅,近年來學術界和工業(yè)界進行了廣泛和深入的研究并且提出了一系列的機器學習模型可解釋性方法.然而,由于不同的研究者解決問題的角度不同,因而給“可解釋性”賦予的含義也不同,所提出的可解釋性方法也各有側重.因此,亟需對現(xiàn)有工作進行系統(tǒng)的整理和科學的總結、歸類,以促進該領域的研究.

    在本文中,我們首先詳細地闡述可解釋性的定義和所解決的問題.然后,我們對現(xiàn)有的可解釋性方法進行系統(tǒng)的總結和歸類,并討論相關方法的局限性.接著,我們簡單地介紹模型可解釋性相關技術的實際應用場景,同時詳細地分析可解釋性中的安全問題.最后,我們討論模型可解釋性相關研究所面臨的挑戰(zhàn)以及未來可行的研究方向.

    1 機器學習可解釋性問題

    在介紹具體的可解釋問題與相應的解決方法之前,我們先簡單地介紹什么是可解釋性以及為什么需要可解釋性.在數(shù)據(jù)挖掘和機器學習場景中,可解釋性被定義為向人類解釋或以呈現(xiàn)可理解的術語的能力[11].從本質上講,可解釋性是人類與決策模型之間的接口,它既是決策模型的準確代理,又是人類所可以理解的[12].在自上而下的機器學習任務中,模型通常建立在一組統(tǒng)計規(guī)則和假設之上,因而可解釋性至關重要,因為它是所定義的規(guī)則和假設的基石.此外,模型可解釋性是驗證假設是否穩(wěn)健,以及所定義的規(guī)則是否完全適合任務的重要手段.與自上而下的任務不同,自下而上的機器學習通常對應于手動和繁重任務的自動化,即給定一批訓練數(shù)據(jù),通過最小化學習誤差,讓模型自動地學習輸入數(shù)據(jù)與輸出類別之間的映射關系.在自下而上的學習任務中,由于模型是自動構建的,我們不清楚其學習過程,也不清楚其工作機制,因此,可解釋性旨在幫助人們理解機器學習模型是如何學習的,它從數(shù)據(jù)中學到了什么,針對每一個輸入它為什么會做出如此決策以及它所做的決策是否可靠.

    在機器學習任務中,除了可解釋性,常常會提到另外2個概念:模型準確性(accuracy)和模型復雜度(model complexity).準確性反映了模型的擬合能力以及在某種程度上準確預測未知樣本的能力.模型復雜度反映了模型結構上的復雜性,只與模型本身有關,與模型訓練數(shù)據(jù)無關.在線性模型中,模型的復雜度由非零權重的個數(shù)來體現(xiàn);在決策樹模型中,模型的復雜度由樹的深度體現(xiàn);在神經(jīng)網(wǎng)絡模型中,模型復雜度則由神經(jīng)網(wǎng)絡的深度、寬度、模型的參數(shù)量以及模型的計算量來體現(xiàn)[13].模型的復雜度與模型準確性相關聯(lián),又與模型的可解釋性相對立.通常情況下,結構簡單的模型可解釋性好,但擬合能力差,往往準確率不高.結構復雜的模型,擬合能力強,準確性高,但由于模型參數(shù)量大、工作機制復雜、透明性低,因而可解釋性又相對較差.

    那么,在實際的學習任務中,我們是選擇結構簡單易于解釋的模型然后訓練它,還是訓練復雜的最優(yōu)模型然后開發(fā)可解釋性技術解釋它呢?基于這2種不同的選擇,機器學習模型可解釋性總體上可分為2類:事前(ante -hoc)可解釋性和事后(post-hoc)可解釋性.其中,ante -hoc可解釋性指通過訓練結構簡單、可解釋性好的模型或將可解釋性結合到具體的模型結構中的自解釋模型使模型本身具備可解釋能力.post-hoc可解釋性指通過開發(fā)可解釋性技術解釋已訓練好的機器學習模型.根據(jù)解釋目標和解釋對象的不同,post-hoc可解釋性又可分為全局可解釋性(global interpretability)和局部可解釋性(local interpreta-bility).全局可解釋性旨在幫助人們理解復雜模型背后的整體邏輯以及內部的工作機制[12],局部可解釋性旨在幫助人們理解機器學習模型針對每一個輸入樣本的決策過程和決策依據(jù)[14].

    2 ante -hoc可解釋性

    ante -hoc可解釋性指模型本身內置可解釋性,即對于一個已訓練好的學習模型,無需額外的信息就可以理解模型的決策過程或決策依據(jù).模型的ante -hoc可解釋性發(fā)生在模型訓練之前,因而也稱為事前可解釋性.在學習任務中,我們通常采用結構簡單、易于理解的自解釋模型來實現(xiàn)ante -hoc可解釋性,如樸素貝葉斯、線性回歸、決策樹、基于規(guī)則的模型.此外,我們也可以通過構建將可解釋性直接結合到具體的模型結構中的學習模型來實現(xiàn)模型的內置可解釋性[15].

    2.1 自解釋模型

    對于自解釋模型,我們從2個角度考慮模型的可解釋性和透明性,即模型整體的可模擬性(simulatabi-lity)和模型單個組件的可分解性(decomposability).

    嚴格意義上來講,如果我們認為某個模型是透明的,那么我們一定能從整體上完全理解一個模型,也應該能夠將輸入數(shù)據(jù)連同模型的參數(shù)一起,在合理的時間步驟內完成產(chǎn)生預測所需的每一個計算(即整體上的可模擬性).比如在樸素貝葉斯模型中,由于條件獨立性的假設,我們可以將模型的決策過程轉化為概率運算[16-17].在線性模型中,我們可以基于模型權重,通過矩陣運算線性組合樣本的特征值,復現(xiàn)線性模型的決策過程,其中模型權重體現(xiàn)了特征之間的相關關系[13,17-18].而在決策樹模型中,每一棵決策樹都由表示特征或者屬性的內部節(jié)點和表示類別的葉子節(jié)點組成,樹的每一個分支代表一種可能的決策結果[19-20].決策樹中每一條從根節(jié)點到不同葉子節(jié)點的路徑都代表著一條不同的決策規(guī)則,因而每一棵決策樹都可以被線性化為一系列由if-then形式組成的決策規(guī)則[20-23].因此,對于新的觀測樣本,我們可以通過從上到下遍歷決策樹,結合內部節(jié)點中的條件測試,基于if-then決策規(guī)則判定樣本是否必須遵循左或右分支來模擬決策樹的決策過程.

    自解釋模型的可分解性要求模型的每個部分,包括模型結構、模型參數(shù),模型的每一個輸入以及每一維特征都允許直觀的解釋[24].在樸素貝葉斯模型中,由于條件獨立性的假設,模型的預測可以很容易地轉化為單個特征值的貢獻——特征向量,特征向量的每一維表示每個特征值對最終分類結果的貢獻程度[17].在線性模型中,模型的權重直接反映了樣本特征重要性,既包括重要性大小也包括相關性方向[25].權重絕對值越大,則該特征對最終預測結果的貢獻越大,反之則越小.如果權重值為正,則該特征與最終的預測類別正相關,反之則負相關.在決策樹模型中,每個節(jié)點包含了特征值的條件測試,判定樣本屬于哪一分支以及使用哪一條規(guī)則,同時,每一條規(guī)則也為最終的分類結果提供了解釋.此外,決策樹模型自帶的基于信息理論的篩選變量標準也有助于理解在模型決策過程中哪些變量起到了顯著的作用.

    然而,由于人類認知的局限性,自解釋模型的內置可解釋性受模型的復雜度制約,這要求自解釋模型結構一定不能過于復雜.因此,上述模型只有具有合理的規(guī)模才能具有有效的可解釋性.例如對于高維的線性模型,其內置可解釋性未必優(yōu)于DNN.此外,對于決策樹模型和基于規(guī)則的模型,如果樹深度太深或者模型的規(guī)則太復雜,人類也未必能理解[12,20].但如果模型結構太簡單,模型的擬合能力必然受限,因此模型可能會學習錯誤的特征來最小化在訓練集上的經(jīng)驗誤差,而這些特征可能與人類認知相違背,對于人類而言同樣也很難解釋.因此,自解釋模型的內置可解釋性與模型準確性之間始終存在一個平衡[13].

    2.2 廣義加性模型

    在實際學習任務中,簡單模型(如線性模型)因為準確率低而無法滿足需要,而復雜模型的高準確率又通常是犧牲自身可解釋性為代價的.作為一種折中,廣義加性模型既能提高簡單線性模型的準確率,又能保留線性模型良好的內置可解釋性[24,26-27].廣義加性模型一般形式為

    g(y)=f1(x1)+f2(x2)+…+fn(xn),

    其中,fi(·)為單特征(single-feature)模型,也稱為特征xi對應的形函數(shù)(shape function).廣義加性模型通過線性函數(shù)組合每一單特征模型得到最終的決策形式.在廣義加性模型中,形函數(shù)本身可能是非線性的,每一個單特征模型可能采用一個非常復雜的形函數(shù)fi(xi)來量化每一個特征xi與最終決策目標之間的關系,因而可以捕獲到每一個特征與最終決策目標之間的非線性關系,因此廣義加性模型準確率高于簡單線性模型.又因為廣義加性模型通過簡單的線性函數(shù)組合每一個單特征模型得到最終的決策形式,消除了特征之間的相互作用,因此可以保留簡單線性模型良好的可解釋性,從而解決了復雜模型因為特征之間復雜的相關關系而削弱自身可解釋性的問題.

    Lou等人[24]提出了一種基于有限大小的梯度提升樹加性模型方法,該方法在回歸和分類問題上精度顯著優(yōu)于傳統(tǒng)方法,同時還保持了GAM模型的可解釋性.Ravikumar等人[28]結合稀疏線性建模和加性非參數(shù)回歸的思想,提出了一種稱之為稀疏加性模型的高維非參數(shù)回歸分類方法,解決了高維空間中加性模型的擬合問題,同時基于1正則的稀疏性,可實現(xiàn)特征的有效選擇. Poulin等人[16]開發(fā)了一個圖形化解釋框架,提供了對加性模型的圖形化解釋,包括對模型整體的理解以及決策特征的可視化,以幫助建立用戶與決策系統(tǒng)之間的信任關系.

    2.3 注意力機制

    神經(jīng)網(wǎng)絡模型由于模型結構復雜,算法透明性低,因而模型本身的可解釋性差.因此,神經(jīng)網(wǎng)絡模型的自身可解釋性只能通過額外引入可解釋性模塊來實現(xiàn),一種有效的方法就是引入注意力機制(atten-tion mechanism)[29-31].

    注意力機制源于對人類認知神經(jīng)學的研究.在認知科學中,由于信息處理的瓶頸,人腦可以有意或無意地從大量輸入信息中選擇小部分有用信息來重點處理,同時忽略其他可見的信息,這就是人腦的注意力機制[32].在計算能力有限的情況下,注意力機制是解決信息超載問題的一種有效手段,通過決定需要關注的輸入部分,將有限的信息處理資源分配給更重要的任務.此外,注意力機制具有良好的可解釋性,注意力權重矩陣直接體現(xiàn)了模型在決策過程中感興趣的區(qū)域.

    近年來,基于注意力機制的神經(jīng)網(wǎng)絡已成為神經(jīng)網(wǎng)絡研究的一大熱點,并在自然語言處理、計算機視覺、推薦系統(tǒng)等領域有著大量的應用[33].在自然語言處理領域,Bahdanau等人[29]將注意力機制引入到基于編碼器-解碼器架構的機器翻譯中,有效地提高了“英語-法語”翻譯的性能.在編碼階段,機器翻譯模型采用雙向循環(huán)神經(jīng)網(wǎng)絡(Bi-RNN)將源語言編碼到向量空間中;在解碼階段,注意力機制為解碼器的隱藏狀態(tài)分配不同的權重,從而允許解碼器在生成法語翻譯的每個步驟選擇性地處理輸入句子的不同部分.最后通過可視化注意力權重(如圖1(a)所示),用戶可以清楚地理解一種語言中的單詞是如何依賴另一種語言中的單詞進行正確翻譯的.Yang等人[34]將分層注意力機制引入到文本分類任務中,顯著提高了情感分析任務的性能,同時注意力權重量化了每一個詞的重要性,可幫助人們清晰地理解每一個詞對最終情感分類結果的貢獻(如圖1(b)所示).在計算機視覺領域,Xu等人[32]將注意力機制應用于看圖說話(image caption)任務中以產(chǎn)生對圖片的描述.首先利用卷積神經(jīng)網(wǎng)絡(CNN)提取圖片特征,然后基于提取的特征,利用帶注意力機制的循環(huán)神經(jīng)網(wǎng)絡(RNN)生成描述.在這個過程中,注意力實現(xiàn)了單詞與圖片之間的對齊,因此,通過可視化注意力權重矩陣,人們可以清楚地了解到模型在生成每一個單詞時所對應的感興趣的圖片區(qū)域(如圖2所示).此外,注意力機制還被廣泛地應用于推薦系統(tǒng)中,以研究可解釋的推薦系統(tǒng)[35-39].具體地,這些方法首先基于歷史記錄,利用注意力機制計算針對每一條記錄的注意力分值,從而給不同的偏好設置不同的權重,或者通過注意力機制對用戶行為、用戶表征進行建模來學習用戶的長期偏好,以推薦用戶可能感興趣的下一個項目;最后,通過可視化用戶歷史記錄列表中每一條記錄的注意力分值來提供對推薦結果的解釋,以增強推薦系統(tǒng)自身的可解釋性.

    Fig. 1 Visualization of attention weight in natural language processing applications圖1 自然語言處理應用中的注意力權重可視化

    Fig. 2 Alignment of words and images by attention in image caption task圖2 看圖說話任務中注意力實現(xiàn)單詞與圖片的對齊[32]

    3 post-hoc可解釋性

    post-hoc可解釋性也稱事后可解釋性,發(fā)生在模型訓練之后.對于一個給定的訓練好的學習模型,post-hoc可解釋性旨在利用解釋方法或構建解釋模型,解釋學習模型的工作機制、決策行為和決策依據(jù).因此,post-hoc可解釋性的重點在于設計高保真的解釋方法或構建高精度的解釋模型.

    根據(jù)解釋目的和解釋對象的不同,post-hoc可解釋性又分為全局可解釋性和局部可解釋性,所對應的方法分別稱為全局解釋方法和局部解釋方法.經(jīng)典的post-hoc解釋方法及其滿足的屬性如表1所示:

    Table 1 Summary of Classic post-hoc Interpretation Methods

    Continued (Table 1)

    Note: G=global, L=local, MA=model-agnostic, MS=model-specific, TML=traditional machine learning, √=secure, ×=not secure,○=low,=middle, ●=high, CV=computer vision, NLP=natural language processing.

    3.1 全局解釋

    機器學習模型的全局可解釋性旨在幫助人們從整體上理解模型背后的復雜邏輯以及內部的工作機制,例如模型是如何學習的、模型從訓練數(shù)據(jù)中學到了什么、模型是如何進行決策的等,這要求我們能以人類可理解的方式來表示一個訓練好的復雜學習模型.典型的全局解釋方法包括解釋模型規(guī)則提取、模型蒸餾、激活最大化解釋等.

    3.1.1 規(guī)則提取

    早期針對模型可解釋性的研究主要集中于解釋規(guī)則或解釋模型提取,即通過從受訓模型中提取解釋規(guī)則的方式,提供對復雜模型尤其是黑盒模型整體決策邏輯的理解[64-67].規(guī)則提取技術以難以理解的復雜模型或黑盒模型作為入手點,利用可理解的規(guī)則集合生成可解釋的符號描述,或從中提取可解釋模型(如決策樹、基于規(guī)則的模型等)[68-70],使之具有與原模型相當?shù)臎Q策能力.解釋模型或規(guī)則提取是一種有效的開箱技術,有效地提供了對復雜模型或黑盒模型內部工作機制的深入理解.根據(jù)解釋對象不同,規(guī)則提取方法可分為針對樹融合(tree ensemble)模型的規(guī)則提取[23,40,71-73]和針對神經(jīng)網(wǎng)絡的規(guī)則提取.

    針對復雜的樹融合模型(例如隨機森林、提升樹等)的規(guī)則提取方法通常包含4個部分:1)從樹融合模型中提取規(guī)則,一個集成的樹模型通常由多個決策樹構成,每棵樹的根節(jié)點到葉子節(jié)點的每一條路徑都表示一條決策規(guī)則,將從每一棵決策樹中提取的規(guī)則進行組合即可得到從樹融合模型中提取的規(guī)則;2)基于規(guī)則長度、規(guī)則頻率、誤差等指標對提取的規(guī)則進行排序,其中規(guī)則長度反映了規(guī)則的復雜度,規(guī)則頻率反映滿足規(guī)則的數(shù)據(jù)實例的比例,誤差則反映了規(guī)則的決策能力;3)基于排序結果,對規(guī)則中的無關項和冗余項進行剪枝并選擇一組相關的非冗余規(guī)則;4)基于挑選的規(guī)則構建一個可解釋的規(guī)則學習器,用于決策和解釋.

    針對神經(jīng)網(wǎng)絡的規(guī)則提取方法可以分為2類:分解法(decompositional method)[41,74-75]和教學法(pedagogical method)[76-78].分解法的顯著特點是注重從受訓神經(jīng)網(wǎng)絡中提取單個單元(如隱含單元、輸出單元)層次上規(guī)則,這要求神經(jīng)網(wǎng)絡是“透明”的,即我們可以接觸到模型的具體架構和參數(shù).分解法要求受訓神經(jīng)網(wǎng)絡中的每一個隱含單元和輸出單元的計算結果都能映射成一個對應于一條規(guī)則的二進制結果.因此,每一個隱含單元或輸出單元都可以被解釋為一個階躍函數(shù)或一條布爾規(guī)則.分解法通過聚合在單個單元級別提取的規(guī)則,形成整個受訓神經(jīng)網(wǎng)絡的復合規(guī)則庫,最后基于復合規(guī)則庫提供對神經(jīng)網(wǎng)絡的整體解釋.與分解法不同,教學法將受訓神經(jīng)網(wǎng)絡模型當作是一個黑盒,即神經(jīng)網(wǎng)絡是“不透明”的,我們無法利用其結構和參數(shù)信息,只能操縱模型的輸入和輸出[42,79].因此,教學法旨在提取將輸入直接映射到輸出的規(guī)則,基本思想是結合符號學習算法,利用受訓神經(jīng)網(wǎng)絡來為學習算法生成樣本,最后從生成的樣例中提取規(guī)則[77].

    然而,規(guī)則提取方法提取的規(guī)則往往不夠精確,因而只能提供近似解釋,不一定能反映待解釋模型的真實行為.此外,規(guī)則提取方法提供的可解釋性的質量受規(guī)則本身復雜度的制約,如果從待解釋模型中提取的規(guī)則很復雜或者提取的決策樹模型深度很深,那么提取的規(guī)則本身就不具備良好的可解釋性,因而無法為待解釋模型提供有效的解釋.

    3.1.2 模型蒸餾

    當模型的結構過于復雜時,要想從整體上理解受訓模型的決策邏輯通常是很困難的.解決該問題的一個有效途徑是降低待解釋模型的復雜度,而模型蒸餾(model distillation)則是降低模型復雜度的一個最典型的方法[80].

    模型蒸餾,也稱知識蒸餾或模型模擬學習,是一種經(jīng)典的模型壓縮方法,其目的在于將復雜模型學習的函數(shù)壓縮為具有可比性能更小、更快的模型[81].模型蒸餾的核心思想是利用結構緊湊的學生模型(student model)來模擬結構復雜的教師模型(teacher model),從而完成從教師模型到學生模型的知識遷移過程,實現(xiàn)對復雜教師模型的知識“蒸餾”.蒸餾的難點在于壓縮模型結構的同時如何保留教師模型從海量數(shù)據(jù)中學習到的知識和模型的泛化能力.一種有效的解決辦法是利用軟目標來輔助硬目標一起訓練學生模型,其中硬目標為原始數(shù)據(jù)的類別信息,軟目標為教師模型的分類概率值,包含的信息量大,體現(xiàn)了不同類別之間相關關系的信息[82].給定一個復雜的教師模型和一批訓練數(shù)據(jù),模型蒸餾方法首先利用教師模型生成軟目標,然后通過最小化軟目標和硬目標的聯(lián)合損失函數(shù)來訓練學生模型,損失函數(shù)定義為

    Lstdudent=αL(soft)+(1-α)L(hard),

    其中,L(soft)為軟目標損失,要求學生模型生成的軟目標與教師模型生成的軟目標要盡可能的接近,保證學生模型能有效地學習教師模型中的暗知識(dark knowledge);L(hard)為硬目標損失,要求學生模型能夠保留教師模型良好的決策性能.

    由于模型蒸餾可以完成從教師模型到學生模型的知識遷移,因而學生模型可以看作是教師模型的全局近似,在一定程度上反映了教師模型的整體邏輯,因此我們可以基于學生模型,提供對教師模型的全局解釋.在利用模型蒸餾作為全局解釋方法時,學生模型通常采用可解釋性好的模型來實現(xiàn),如線性模型、決策樹、廣義加性模型以及淺層神經(jīng)網(wǎng)絡等[83-85].Hinton等人[82]提出了一種知識蒸餾方法,通過訓練單一的相對較小的網(wǎng)絡來模擬原始復雜網(wǎng)絡或集成網(wǎng)絡模型的預測概率來提煉復雜網(wǎng)絡的知識,以模擬原始復雜網(wǎng)絡的決策過程,并且證明單一網(wǎng)絡能達到復雜網(wǎng)絡幾乎同樣的性能.為了進一步提升蒸餾知識的可解釋性,F(xiàn)rosst等人[84]擴展了Hinton提出的知識蒸餾方法,提出利用決策樹來模擬復雜深度神經(jīng)網(wǎng)絡模型的決策.Tan等人[85]基于廣義加性模型的良好可解釋性,提出利用模型蒸餾的方法來學習描述輸入特征與復雜模型的預測之間關系的全局加性模型,并基于加性模型對復雜模型進行全局解釋.Che等人[86]將基于模型蒸餾的可解釋方法應用于醫(yī)療診斷模型的可解釋性研究中,提出利用梯度提升樹進行知識蒸餾的方式來學習可解釋模型,不僅在急性肺損傷病人無呼吸機天數(shù)預測任務中取得了優(yōu)異的性能,而且還可以為臨床醫(yī)生提供良好的可解釋性.Ding等人[87]利用知識蒸餾解釋基于社交媒體的物質使用預測模型,通過運用知識蒸餾框架來構建解釋模型,取得了與最先進的預測模型相當?shù)男阅?,而且還可以提供對用戶的社交媒體行為與物質使用之間的關系深入理解.Xu等人[88]開發(fā)了DarkSight可解釋方法,通過利用模型蒸餾的方式從黑盒模型中提取暗知識,并以可視化的形式對提取的暗知識進行呈現(xiàn),以幫助分析師直觀地了解模型決策邏輯.

    此外,基于模型蒸餾的解釋方法還被廣泛地應用于模型診斷與驗證[43,89-90].Tan等人[89]提出了一種針對黑盒風險評分模型的2階段模型審計方法,對于一個給定的黑盒風險評分模型和一批審計數(shù)據(jù),該方法首先利用模型蒸餾的方法得到一個解釋模型,同時基于審計數(shù)據(jù)和其真實標簽訓練一個透明的結果預測模型,并通過比較解釋模型和結果預測模型來理解特征與風險評分之間的相關關系;最后,通過使用統(tǒng)計測試的方式來確定黑盒模型是否使用了審計數(shù)據(jù)中不存在的其他特征.同時,通過評估受保護特征對風險評分的貢獻與其對實際結果的貢獻的差異,可以檢測黑盒風險評分模型中是否存在偏差[90].

    模型蒸餾解釋方法實現(xiàn)簡單,易于理解,且不依賴待解釋模型的具體結構信息,因而作為一種模型無關的解釋方法,常被用于解釋黑盒機器學習模型.然而,蒸餾模型只是對原始復雜模型的一種全局近似,它們之間始終存在差距.因此,基于蒸餾模型所做出的解釋不一定能反映待解釋模型的真實行為.此外,知識蒸餾過程通常不可控,無法保障待解釋模型從海量數(shù)據(jù)中學到的知識有效地遷移到蒸餾模型中,因而導致解釋結果質量較低無法滿足精確解釋的需要.

    3.1.3 激活最大化

    在自下而上的深度學習任務中,給定一批訓練數(shù)據(jù),DNN不僅可以自動地學習輸入數(shù)據(jù)與輸出類別之間的映射關系,同時也可以從數(shù)據(jù)中學到特定的特征表示(feature representation).然而,考慮到數(shù)據(jù)集中存在偏差,我們無法通過模型精度來保證模型表征的可靠性,也無法確定DNN用于預測的內部工作模式[91].因此,深入理解并呈現(xiàn)DNN中每一個隱含層的神經(jīng)元所捕獲的表征,有助于從語義上、視覺上幫助人們理解DNN內部的工作邏輯[92].為此,許多研究者探索如何在輸入空間實現(xiàn)對DNN任意層神經(jīng)單元計算內容的可視化,并使其盡可能通用,以便能夠深入了解神經(jīng)網(wǎng)絡不同單元代表的特定含義.其中,最有效和使用最廣泛的一種方法是通過在特定的層上找到神經(jīng)元的首選輸入最大化神經(jīng)元激活,因此該方法也稱為激活最大化(activation maximization, AM)方法[52].

    激活最大化方法思想較為簡單,即通過尋找有界范數(shù)的輸入模式,最大限度地激活給定的隱藏單元,而一個單元最大限度地響應的輸入模式可能是一個單元正在做什么的良好的一階表示[44,93-94].給定一個DNN模型,尋找最大化神經(jīng)元激活的原型樣本x*的問題可以被定義成一個優(yōu)化問題,其形式化定義為

    其中,優(yōu)化目標第一項fl(x)為DNN第l層某一個神經(jīng)元在當前輸入x下的激活值;第2項為2正則,用于保證優(yōu)化得到的原型樣本(prototype)與原樣本盡可能地接近.整個優(yōu)化過程可以通過梯度上升來求解.最后,通過可視化生成的原型樣本x*,可以幫助我們理解該神經(jīng)元在其感受野中所捕獲到的內容.當然,我們可以分析任意層的神經(jīng)元,以理解DNN不同層所編碼的不同表示內容.當我們分析輸出層神經(jīng)元的最大激活時,可以找到某一類別所對應的最具代表性的原型樣本.

    激活最大化方法雖然原理簡單,但如何使其正常工作同樣面臨著一些挑戰(zhàn).由于樣本搜索空間很大,優(yōu)化過程可能產(chǎn)生含有噪聲和高頻模式的不現(xiàn)實圖像,導致原型樣本雖能最大化神經(jīng)元激活卻難以理解.為了獲取更有意義、更自然的原型樣本,優(yōu)化過程必須采用自然圖像先驗約束,為此,一些研究者創(chuàng)造性地提出了人工構造先驗,包括α范數(shù)、高斯模糊等[95-96].此外,一些研究者將激活最大化框架與生成模型相結合,利用生成模型產(chǎn)生的更強的自然圖像先驗正則化優(yōu)化過程.Nguyen等人[45]提出利用生成對抗網(wǎng)絡與激活最大化優(yōu)化相結合的方法來生成原型樣本,優(yōu)化問題被重定義為

    其中,第1項為解碼器與原神經(jīng)元激活值的結合,第2項為代碼空間中的2正則.該方法不直接優(yōu)化圖像,轉而優(yōu)化代碼空間以找到可以最大化神經(jīng)元激活的解z*,一旦最優(yōu)解z*找到,則可以通過解碼得到原型樣本z*,即x*=g(z*).實驗結果表明(如圖3所示),將激活最大化與生成模型相結合的方法可以產(chǎn)生更真實、更具有可解釋性的原型樣本.從圖3可以看出:模型成功捕獲了與類別相對應的特征表示.

    對不同層生成的原型樣本的可視化結果表明,DNN在若干抽象層次上進行表示學習,從模型的第一層到最后一層,模型學習到的特征表征由局部過渡到整體,由一般任務過渡到特定任務.以圖像分類任務中的CNN為例,低層神經(jīng)元通常可以捕獲到圖片中的顏色、邊緣等信息;中間層神經(jīng)元有更復雜的不變性,可以捕獲相似的紋理;中高層神經(jīng)元可以捕獲圖片中的顯著變化,并可以聚焦到特定類別對應的局部特征,如狗的臉部、鳥的腳部等;最后,高層神經(jīng)元則通過組合局部特征表征,從而學習到整個分類目標的整體表征[53].此外,神經(jīng)元具有多面性,可以對與同一語義概念相關的不同圖像做出反應,例如,人臉檢測神經(jīng)元可以同時對人臉和動物面孔做出反應[97].

    Fig. 3 Class-discriminative prototypes generated by combining generative model with activation maximization圖3 利用生成模型與激活最大化相結合生成的類別對應原型樣本[45]

    激活最大化解釋方法是一種模型相關的解釋方法,相比規(guī)則提取解釋和模型蒸餾解釋,其解釋結果更準確,更能反映待解釋模型的真實行為.同時,利用激活最大化解釋方法,可從語義上、視覺上幫助人們理解模型是如何從數(shù)據(jù)中進行學習的以及模型從數(shù)據(jù)中學到了什么.然而,激活最大化本身是一個優(yōu)化問題,在通過激活最大化尋找原型樣本的過程中,優(yōu)化過程中的噪音和不確定性可能導致產(chǎn)生的原型樣本難以解釋.盡管可以通過構造自然圖像先驗約束優(yōu)化過程來解決這一問題,但如何構造更好的自然圖像先驗本身就是一大難題.此外,激活最大化方法只能用于優(yōu)化連續(xù)性數(shù)據(jù),無法直接應用于諸如文本、圖數(shù)據(jù)等離散型數(shù)據(jù)[46],因而該方法難以直接用于解釋自然語言處理模型和圖神經(jīng)網(wǎng)絡模型.

    3.2 局部解釋

    機器學習模型的局部可解釋性旨在幫助人們理解學習模型針對每一個特定輸入樣本的決策過程和決策依據(jù).與全局可解釋性不同,模型的局部可解釋性以輸入樣本為導向,通??梢酝ㄟ^分析輸入樣本的每一維特征對模型最終決策結果的貢獻來實現(xiàn).在實際應用中,由于模型算法的不透明性、模型結構的復雜性以及應用場景的多元性,提供對機器學習模型的全局解釋通常比提供局部解釋更困難,因而針對模型局部可解釋性的研究更加廣泛,局部解釋方法相對于全局解釋方法也更常見.經(jīng)典的局部解釋方法包括敏感性分析解釋、局部近似解釋、梯度反向傳播解釋、特征反演解釋以及類激活映射解釋等.

    3.2.1 敏感性分析

    敏感性分析(sensitivity analysis)是指在給定的一組假設下,從定量分析的角度研究相關自變量發(fā)生某種變化對某一特定的因變量影響程度的一種不確定分析技術[98],其核心思想是通過逐一改變自變量的值來解釋因變量受自變量變化影響大小的規(guī)律.敏感性分析被廣泛地應用于機器學習及其應用中,如機器學習模型分析[99-101]、生態(tài)建模[102]等.近年來,敏感性分析作為一種模型局部解釋方法,被用于分析待解釋樣本的每一維特征對模型最終分類結果的影響[103-105],以提供對某一個特定決策結果的解釋.根據(jù)是否需要利用模型的梯度信息,敏感性分析方法可分為模型相關方法和模型無關方法.

    模型相關方法利用模型的局部梯度信息評估特征與決策結果的相關性,常見的相關性定義為

    其中,f(x)為模型的決策函數(shù),xi為待解釋樣本x的第i維特征.直觀地,相關性分數(shù)Ri(x)可以看作是模型梯度的2范數(shù)的分解,即在模型相關方法中,相關性分數(shù)Ri(x)可通過梯度反向傳播來求解.最后,通過以熱力圖的形式可視化相關性分數(shù)可以直觀地理解輸入的每一維特征對決策結果的影響程度.

    在模型無關敏感性分析方法中,待解釋模型可以看作是黑盒,我們無需利用模型的梯度信息,只關注待解釋樣本特征值變化對模型最終決策結果的影響.Robnik-ikonja等人[106]提出通過對輸入樣本單個屬性值的預測進行分解的方式來觀察屬性值對該樣本預測結果的影響.具體地,該方法通過觀察去掉某一特定屬性前后模型預測結果的變化來確定該屬性對預測結果的重要性,即:

    Ri(x)=f(x)-f(xxi).

    類似地,Liu等人[48]提出了“限制支持域集”的概念,它被定義為一組受大小限制且不重疊的區(qū)域,并且滿足如下屬性:刪除任何一個區(qū)域將會導致模型分類出錯.其本質思想是,如果某個特定區(qū)域的缺失導致模型分類結果發(fā)生反轉,則該區(qū)域必定為模型正確決策提供支持.因此,最終可通過分析特定圖像區(qū)域是否存在與模型決策結果之間的依賴關系來可視化模型決策規(guī)則.Fong等人[47]提出了一種基于有意義擾動的敏感性分析方法,通過添加擾動或刪除待解釋圖片的不同區(qū)域來最小化模型目標類別分類概率的方式學習一個顯著性掩碼,以識別對模型決策結果影響最大的圖像部分,并可視化顯著性掩碼作為對該決策結果的解釋,如圖4所示.Li等人[107]則提出通過觀察修改或刪除特征子集前后模型決策結果的相應變化的方式來推斷待解釋樣本的決策特征.

    Fig. 4 Learn a saliency mask by blurring an image to minimize the probability of its target class圖4 通過圖像模糊的方式最小化分類概率來學習顯著性掩碼[47]

    然而,敏感性分析方法解釋的是決策函數(shù)f(x)局部變化對決策結果的影響,而不是解釋決策函數(shù)本身,只能捕獲到單個特征對最終決策結果的影響程度,而不一定關注實際的決策相關特征,因而相關性分值Ri(x)對應的熱力圖在空間上是分散而不連續(xù)的.因此,敏感性分析方法提供的解釋結果通常相對粗糙且難以理解.此外,敏感性分析方法無法解釋特征之間的相關關系對最終決策結果的影響.

    3.2.2 局部近似

    局部近似解釋方法的核心思想是利用結構簡單的可解釋模型擬合待解釋模型針對某一輸入實例的決策結果,然后基于解釋模型對該決策結果進行解釋.該方法通?;谌缦录僭O:給定一個輸入實例,模型針對該實例以及該實例鄰域內樣本的決策邊界可以通過可解釋的白盒模型來近似.在整個數(shù)據(jù)空間中,待解釋模型的決策邊界可以任意的復雜,但模型針對某一特定實例的決策邊界通常是簡單的,甚至是近線性的[13].我們通常很難也不需要對待解釋模型的整體決策邊界進行全局近似,但可在給定的實例及其鄰域內利用可解釋模型對待解釋模型的局部決策邊界進行近似,然后基于可解釋模型提供對待解釋模型的決策依據(jù)的解釋.

    Ribeiro等人[13]基于神經(jīng)網(wǎng)絡的局部線性假設,提出了一種模型無關局部可解釋方法(LIME).具體地,對于每一個輸入實例,LIME首先利用該實例以及該實例的一組近鄰訓練一個易于解釋的線性回歸模型來擬合待解釋模型的局部邊界,然后基于該線性模型解釋待解釋模型針對該實例的決策依據(jù),其中,線性模型的權重系數(shù)直接體現(xiàn)了當前決策中該實例的每一維特征重要性.Guidotti等人[49]提出了一種適用于關系表數(shù)據(jù)的基于局部規(guī)則的黑盒模型決策結果解釋方法(LORE).給定一個二分類模型f及一個由f標記的特定實例x,LORE首先利用ad-hoc遺傳算法生成給定實例x的一組平衡鄰居實例來構建一個簡單的、可解釋的預測模型,以逼近二分類模型f針對實例x的決策邊界;然后,基于該解釋模型,從生成的實例集合中提取一個決策樹模型;最后,從決策樹模型中提取決策規(guī)則作為對實例x的分類結果的局部解釋.Ribeiro等人[50,108]提出了一種稱之為錨點解釋(anchor)的局部解釋方法,針對每一個輸入實例,該方法利用被稱之為“錨點”的if-then規(guī)則來逼近待解釋模型的局部邊界.Anchor方法充分地結合了模型無關局部解釋方法的優(yōu)點和規(guī)則的良好可解釋性,在Anchor方法中用于解釋的“錨點”通常是直觀、易于理解的,而且解釋覆蓋范圍非常清晰.通過構造,“錨點”不僅可以與待解釋模型保持一致,而且還可以以確保正確理解和高保真的方式將待解釋模型的決策行為傳達給用戶.

    然而,LIME,LORE以及Anchor等解釋方法均假設輸入樣本的特征相互獨立,因而無法準確地解釋諸如RNN等專門對序列數(shù)據(jù)中的依賴關系進行建模的模型.為此,Guo等人[51]提出了LEMNA,一種專用于安全應用場景中的RNN模型的高保真解釋方法,其核心思想與LIME等方法相似,即利用可解釋模型來近似RNN的局部決策邊界,并針對每一個輸入實例,產(chǎn)生一組可解釋的特征以解釋針對該實例的決策依據(jù).與LIME不同的是,LEMNA假設待解釋模型的局部邊界是非線性的,為了保證解釋的保真度,LEMNA通過訓練混合回歸模型來近似RNN針對每個輸入實例的局部決策邊界.此外,LEMNA引入了融合Lasso正則來處理RNN模型中的特征依賴問題,有效地彌補了LIME等方法的不足.

    基于局部近似的解釋方法實現(xiàn)簡單,易于理解且不依賴待解釋模型的具體結構,適于解釋黑盒機器學習模型.但解釋模型只是待解釋模型的局部近似,因而只能捕獲模型的局部特征,無法解釋模型的整體決策行為.針對每一個輸入實例,局部近似解釋方法均需要重新訓練一個解釋模型來擬合待解釋模型針對該實例的決策結果,因而此類方法的解釋效率通常不高.此外,大多數(shù)的局部近似解釋方法假設待解釋實例的特征相互獨立,因此無法解釋特征之間的相關關系對決策結果的影響.

    3.2.3 反向傳播

    基于反向傳播(back propagation)的解釋方法的核心思想是利用DNN的反向傳播機制將模型的決策重要性信號從模型的輸出層神經(jīng)元逐層傳播到模型的輸入以推導輸入樣本的特征重要性.

    Simonyan等人[52]最先提出了利用反向傳播推斷特征重要性的解釋方法(Grad),通過利用反向傳播算法計算模型的輸出相對于輸入圖片的梯度來求解該輸入圖片所對應的分類顯著圖(Saliency Map).與Grad方法類似,Zeiler等人[53]提出了反卷積網(wǎng)絡(DeconvNet),通過將DNN的高層激活反向傳播到模型的輸入以識別輸入圖片中負責激活的重要部分.不同的是,在處理線性整流單元(ReLU)過程中,當使用Grad方法反向傳播重要性時,如果正向傳播過程中ReLU的輸入為負,則反向傳播過程中傳入ReLU的梯度值為零.而在反卷積網(wǎng)絡中反向傳播一個重要信號時,當且僅當信號值為負,進入ReLU的重要信號被置零,而不考慮前向傳播過程中輸入到ReLU的信號的符號.Springenberg等人[54]將Grad方法與反卷積網(wǎng)絡相結合提出了導向反向傳播方法(GuidedBP),通過在反向傳播過程中丟棄負值來修改ReLU函數(shù)的梯度.與只計算輸出針對當前輸入的梯度不同,Sundararajan等人[55]提出了一種集成梯度方法(Integrated),該方法通過計算輸入從某些起始值按比例放大到當前值的梯度的積分代替單一梯度,有效地解決了DNN中神經(jīng)元飽和問題導致無法利用梯度信息反映特征重要性的問題.

    然而,Grad,GuidedBP以及Integrated等方法通過反向傳播所得到的顯著圖通常包含很多視覺可見的噪音,如圖5所示,而我們無法確定這種噪音是否真實地反映了模型在分類過程中的決策依據(jù).為此,Smilkov等人[56]提出了一種平滑梯度的反向傳播解釋方法(SmoothGrad),該方法通過向輸入樣本中引入噪聲解決了Grad等方法中存在的視覺噪音問題.SmoothGrad方法的核心思想是通過向待解釋樣本中添加噪聲對相似的樣本進行采樣,然后利用反向傳播方法求解每個采樣樣本的決策顯著圖,最后將所有求解得到的顯著圖進行平均并將其作為對模型針對該樣本的決策結果的解釋.

    Fig.5 Comparison of interpretation quality of four gradient back-propagation based interpretation methods圖5 4種梯度反向傳播解釋方法解釋效果對比[59]

    盡管上述基于梯度反向傳播的方法可以定位輸入樣本中決策特征,但卻無法量化每個特征對模型決策結果的貢獻程度.因此,Landecker等人[109]提出一種貢獻傳播方法,該方法首先利用加性模型計算DNN高層特征對模型分類結果的貢獻,然后通過反向傳播將高層特征的貢獻逐層傳遞到模型的輸入,以確定每一層的每一個神經(jīng)元節(jié)點對其下一層神經(jīng)元節(jié)點的相對貢獻.給定一個待解釋樣本,該方法不僅可以定位樣本中的重要特征,而且還能量化每一個特征對于分類結果的重要性.Bach等人[57]則提出了一種分層相關性傳播方法(LRP),用于計算單個像素對圖像分類器預測結果的貢獻.一般形式的LRP方法假設分類器可以被分解為多個計算層,每一層都可以被建模為一個多維向量并且該多維向量的每一維都對應一個相關性分值,LRP的核心則是利用反向傳播將高層的相關性分值遞歸地傳播到低層直至傳播到輸入層.Shrikumar等人[58]對LRP方法進行了改進(DeepLIFT),通過在輸入空間中定義參考點并參考神經(jīng)元激活的變化按比例傳播相關分數(shù).其研究結果表明,在不進行數(shù)值穩(wěn)定性修正的情況下,原始LRP方法的輸出結果等價于Grad方法所求顯著圖與輸入之間的乘積.與梯度反向傳播方法不同的是,LRP方法不要求DNN神經(jīng)元的激活是可微的或平滑的.基于此優(yōu)點,Ding等人[110]首次將LRP方法應用于基于注意力機制的編碼器-解碼器框架,以度量神經(jīng)網(wǎng)絡中任意2個神經(jīng)元之間關聯(lián)程度的相關性.在漢英翻譯案例中的研究表明,該方法有助于解釋神經(jīng)機器翻譯系統(tǒng)的內部工作機制并分析翻譯錯誤.類似地,Arras等人[111]將LRP方法引入到自然語言處理任務中,并且從定性和定量的角度證明LRP方法既可以用于文檔級別的細粒度分析,也可以作為跨文檔的數(shù)據(jù)集級別的分析,以識別對分類器決策很重要的單詞.

    基于反向傳播的解釋方法通常實現(xiàn)簡單、計算效率高且充分利用了模型的結構特性.然而,從理論上易知,如果預測函數(shù)在輸入附近變得平坦,那么預測函數(shù)相對于輸入的梯度在該輸入附近將變得很小,進而導致無法利用梯度信息定位樣本的決策特征.盡管Integrated方法在一定程度上解決了該問題,但同時也增加了計算開銷,并且Integrated方法的解釋結果中依然存在許多人類無法理解的噪音.此外,梯度信息只能用于定位重要特征,而無法量化特征對決策結果的重要程度,利用基于重要性或相關性反向傳播的解釋方法則可以解決該問題.

    3.2.4 特征反演

    盡管敏感性分析、局部近似以及梯度反向傳播等方法在一定程度上可以提供對待解釋模型決策結果的局部解釋,但它們通常忽略了待解釋模型的中間層,因而遺漏了大量的中間信息.而利用模型的中間層信息,我們能更容易地表征模型在正常工作條件下的決策行為,進而可提供更準確的解釋結果.特征反演(feature inversion)作為一種可視化和理解DNN中間特征表征的技術,可以充分利用模型的中間層信息,以提供對模型整體行為及模型決策結果的解釋.

    特征反演解釋方法可分為模型級(model-level)解釋方法和實例級(instance-level)解釋方法.模型級解釋方法旨在從輸入空間中尋找可以表示DNN神經(jīng)元所學到的抽象概念的解釋原型(如激活最大化方法),并通過可視化和理解DNN每一層特征表示的方式,提供對DNN每一層所提取信息的理解[52,95,112-113].然而,模型級解釋方法的反演結果通常相對粗糙且難以理解,此外,如何從輸入樣本中自動化提取用于模型決策的重要特征仍然面臨著巨大的挑戰(zhàn).針對模型級方法的不足,實例級特征反演方法試圖回答輸入樣本的哪些特征被用于激活DNN的神經(jīng)元以做出特定的決策.其中,最具代表性的是Du等人[59]提出的一個實例級特征反演解釋框架,該框架通過在執(zhí)行導向特征反演過程中加入類別依賴約束,不僅可以準確地定位待輸入實例中的用于模型決策的重要特征(如圖6所示),還可以提供對DNN模型決策過程的深入理解.

    Fig. 6 Interpretation example of guided feature inversion method圖6 導向特征反演方法解釋示例[59]

    3.2.5 類激活映射

    最新研究表明:CNN不同層次的卷積單元包含大量的位置信息,使其具有良好的定位能力[114].基于卷積單元的定位能力,我們可以定位出輸入樣本中用于CNN決策的核心區(qū)域,如分類任務中的決策特征、目標檢測任務中的物體位置等.然而,傳統(tǒng)CNN模型通常在卷積和池化之后采用全連接層對卷積層提取的特征圖進行組合用于最終決策,因而導致網(wǎng)絡的定位能力喪失.

    Fig. 7 Visualization of interpretation results of Grad-CAM and Guided Grad-CAM methods圖7 Grad-CAM與Guided Grad-CAM方法解釋結果可視化[61]

    為解決這一問題,Zhou等人[60]提出了類激活映射(class activation mapping, CAM)解釋方法,該方法利用全局平均池化(global average pooling)層來替代傳統(tǒng)CNN模型中除softmax層以外的所有全連接層,并通過將輸出層的權重投影到卷積特征圖來識別圖像中的重要區(qū)域.具體地,CAM首先利用全局平均池化操作輸出CNN最后一個卷積層每個單元的特征圖的空間平均值,并通過對空間平均值進行加權求和得到CNN的最終決策結果.同時,CAM通過計算最后一個卷積層的特征圖的加權和,得到CNN模型的類激活圖,而一個特定類別所對應的類激活圖則反映了CNN用來識別該類別的核心圖像區(qū)域.最后,通過以熱力圖的形式可視化類激活圖得到最終的解釋結果.研究結果表明,全局平均池化層的優(yōu)勢遠不止于作為一個正則器來防止網(wǎng)絡過擬合,事實上,通過稍加調整,全局平均池化還可以將CNN良好的定位能力保留到網(wǎng)絡的最后一層[60].

    然而,CAM方法需要修改網(wǎng)絡結構并重訓練模型,因而在實際應用中并不實用.因此,Selvaraju等人[61]對CAM方法進行了改進,提出了一種將梯度信息與特征映射相結合的梯度加權類激活映射方法(Grad-CAM).給定一個輸入樣本,Grad-CAM首先計算目標類別相對于最后一個卷積層中每一個特征圖的梯度并對梯度進行全局平均池化,以獲得每個特征圖的重要性權重;然后,基于重要性權重計算特征圖的加權激活,以獲得一個粗粒度的梯度加權類激活圖,用于定位輸入樣本中具有類判別性的重要區(qū)域,如圖7(c)所示.與CAM相比,Grad-CAM無需修改網(wǎng)絡架構或重訓練模型,避免了模型的可解釋性與準確性之間的權衡,因而可適用于多種任務以及任何基于CNN結構的模型,對于全卷積神經(jīng)網(wǎng)絡,Grad-CAM退化為CAM方法.盡管Grad-CAM具有良好的類別判別能力并能很好地定位相關圖像區(qū)域,但缺乏諸如DeconvNet[53]和GuidedBP[54]等像素級別梯度可視化解釋方法顯示細粒度特征重要性的能力[61].為獲得更細粒度的特征重要性,作者將Grad-CAM與GuidedBP方法相結合提出了導向梯度加權類激活映射方法(Guided Grad-CAM),該方法首先利用雙線性插值將梯度加權類激活圖上采樣到輸入圖片分辨率大小,然后點乘GuidedBP方法的輸出結果,得到細粒度的類判別性特征定位圖,如圖7(d)所示.研究結果表明,Guided Grad-CAM方法解釋效果優(yōu)于GuidedBP和Grad-CAM.

    類激活映射解釋方法實現(xiàn)簡單、計算效率高,解釋結果視覺效果好且易于理解,但這類方法只適用于解釋CNN模型,很難擴展到全連接神經(jīng)網(wǎng)絡(FCN)以及RNN等模型.此外,CAM方法需要修改網(wǎng)絡結構并重訓練模型,模型的準確性與可解釋性之間始終存在一個權衡,且針對重訓練模型做出的解釋結果與原待解釋模型的真實行為之間存在一定的不一致性,因而在真實應用場景中很難適用.Grad-CAM雖然解決了CAM需要進行網(wǎng)絡修改和模型重訓練的問題,但仍然與CAM方法一樣只能提供粗粒度的解釋結果,無法滿足安全敏感應用場景(如自動駕駛、醫(yī)療診斷等)中對精細化解釋的需要.Guided Grad-CAM方法作為CAM和Grad-CAM的加強版,既不需要修改網(wǎng)絡結構或重訓練模型,又能提供更細粒度的解釋結果,但由于引入了導向反向傳播方法,因而該方法同樣存在由于負梯度歸零導致無法定位與模型決策結果呈負相關的樣本特征的局限性[115].

    3.2.6 其他方法

    除了上述5種典型的局部可解釋方法外,其他研究者從不同的角度對模型可解釋性進行了深入研究,并提出了一些新的局部解釋方法,包括抽象解釋[62]和準確一致解釋[63]等.

    針對DNN系統(tǒng)的可靠分析技術所面臨的主要挑戰(zhàn)是如何在解釋神經(jīng)網(wǎng)絡某些特性的同時將其擴展到大規(guī)模的DNN分類器,因此,分析方法必須考慮到任何經(jīng)過大量中間神經(jīng)元處理的大規(guī)模輸入集上所有可能的模型輸出結果.由于模型的輸入空間通常是巨大的,因而通過在所有可能的輸入樣本上運行模型來檢查它們是否滿足某一特性是不可行的.為解決這一挑戰(zhàn),避免狀態(tài)空間爆炸,Gehr等人[62]將程序分析中的經(jīng)典抽象解釋框架應用于DNN分析,首次提出了可擴展的、可用于驗證和分析DNN安全性和魯棒性的抽象解釋系統(tǒng)(AI2).具體地,AI2首先構造一個包含一系列邏輯約束和抽象元素的數(shù)值抽象域;由于DNN的每一層處理的是具體的數(shù)值,因而抽象元素無法在網(wǎng)絡中傳播.為解決此問題,AI2通過定義一個被稱之為抽象轉換器(abstract transformer)的函數(shù)將DNN的每一層轉換為對應的抽象層,并基于抽象元素過近似(over-approximation)原神經(jīng)網(wǎng)絡每一層的處理函數(shù)以捕獲其真實行為;最后,AI2基于抽象轉換器返回的抽象結果,分析并驗證神經(jīng)網(wǎng)絡的魯棒性和安全性.AI2不用真正運行DNN模型即可驗證DNN的某些特定屬性,因而計算效率高,可擴展到大規(guī)模、更復雜的DNN網(wǎng)絡.但由于采用了過近似處理,盡管AI2能提供可靠的解釋但無法保證解釋的準確性.

    現(xiàn)有局部解釋方法包括抽象解釋都很難保證解釋結果的準確性和一致性,為此,許多學者開始研究針對DNN模型的精確解釋方法.Chu等人[63]提出了一種準確一致的解釋方法(OpenBox),可為分段線性神經(jīng)網(wǎng)絡(PLNN)家族模型提供精確一致的解釋.作者研究證明,PLNN在數(shù)學上等價于一系列的局部線性分類器,其中每一個線性分類器負責分類輸入空間中的一組樣本.因此,給定一個待解釋PLNN模型,OpenBox首先利用神經(jīng)網(wǎng)絡的前向傳播機制和矩陣運算將給定的PLNN模型表示成數(shù)學上與之等價的、由一系列數(shù)據(jù)依賴的局部線性分類器組成的線性解釋模型;然后,針對每一個待解釋樣本,OpenBox基于該樣本所對應的局部線性分類器提供對PLNN分類結果的解釋.研究結果表明,由于線性解釋模型數(shù)學上與待解釋PLNN等價,因此基于線性解釋模型給出的解釋結果能精確地反映PLNN的真實決策行為,并且線性解釋模型針對每一個輸入的決策結果與待解釋PLNN的決策結果完全一致,從而解決了模型的可解釋性與準確性之間的權衡難題.此外,針對近似的樣本,OpenBox可以給出一致的解釋,保證了解釋結果的一致性.然而,OpenBox作為針對PLNN家族的特定解釋方法,只能解釋線性神經(jīng)網(wǎng)絡模型,無法用于解釋非線性神經(jīng)網(wǎng)絡模型.此外,如何將其擴展到CNN,RNN等更復雜的神經(jīng)網(wǎng)絡模型同樣面臨著巨大的挑戰(zhàn).

    4 可解釋性應用

    機器學習模型可解釋性相關技術潛在應用非常廣泛,具體包括模型驗證、模型診斷、輔助分析以及知識發(fā)現(xiàn)等.

    4.1 模型驗證

    傳統(tǒng)的模型驗證方法通常是通過構造一個與訓練集不相交的驗證集,然后基于模型在驗證集上的誤差來評估模型的泛化性能,從而提供對模型好壞的一個粗粒度的驗證.然而,由于數(shù)據(jù)集中可能存在偏差,并且驗證集也可能與訓練集同分布,我們很難簡單地通過評估模型在驗證集上的泛化能力來驗證模型的可靠性,也很難驗證模型是否從訓練數(shù)據(jù)中學到了真正的決策知識.以冰原狼與哈士奇的分類為例,由于訓練集中所有冰原狼樣本圖片的背景均為雪地,導致分類模型可能從訓練集中學到數(shù)據(jù)偏差從而將雪作為冰原狼的分類特征,又由于驗證集與訓練集同分布,模型在驗證集上的分類性能與在訓練集上的性能同樣優(yōu)異,因而導致傳統(tǒng)的模型驗證方法將該模型識別為一個好的分類模型[13].很顯然,這樣的模型通常是不可靠的,一旦模型在推理階段遇到背景為雪地的哈士奇樣本圖片,分類模型會做出錯誤的決策,而模型的這種行為將會給實際場景尤其是風險敏感場景中的真實應用帶來潛在的威脅.

    針對傳統(tǒng)模型驗證方法的不足,我們可以利用模型的可解釋性及相關解釋方法對模型可靠性進行更細粒度的評估和驗證,從而消除模型在實際部署應用中的潛在風險.基于可解釋性的模型驗證方法一般思路如下:首先構造一個可信驗證集,消除驗證集中可能存在的數(shù)據(jù)偏差,保證驗證數(shù)據(jù)的可靠性;然后,基于可信驗證集,利用相關解釋方法提供對模型整體決策行為(全局解釋)或模型決策結果(局部解釋)的解釋;最后,基于解釋方法給出的解釋結果并結合人類認知,對模型決策行為和決策結果的可靠性進行驗證,以檢查模型是否在以符合人類認知的形式正常工作.

    在冰原狼與哈士奇分類的例子中,Ribeiro等人[13]利用局部解釋方法LIME解釋分類模型針對一個背景為雪的哈士奇圖片的分類結果,發(fā)現(xiàn)分類模型將該圖片錯誤地分類為冰原狼,而解釋方法給出的解釋結果表明模型做出決策的依據(jù)是圖片背景中的雪,如圖8(a)所示.很顯然,該解釋結果與人類的認知相違背,表明模型在學習的過程中錯誤地將雪作為冰原狼的決策特征,從而證明該模型是不可靠的.類似地,Lapuschkin等人[116]利用LRP解釋方法定性地分析一個從ImageNet中遷移訓練得到的CNN模型和一個在PASCAL VOC 2007數(shù)據(jù)集上訓練得到的Fisher向量(FV)分類器的決策結果,以檢測訓練數(shù)據(jù)中的潛在缺陷和偏差.研究結果表明,盡管2個模型具有相似的分類精度,但在對輸入樣本進行分類時卻采用了完全不同的分類策略.從LRP解釋方法給出的解釋結果可以看出,如圖8(b)所示,在對輪船圖片進行分類時,F(xiàn)V分類器依據(jù)的是海水特征,而CNN模型則能正確地捕獲到輪船的輪廓信息.與此同時,如果將位于水外的輪船作為測試樣本,F(xiàn)V分類器的分類性能將大幅下降,而CNN模型則幾乎不受影響.這一驗證結果表明,F(xiàn)V分類器的決策行為存在偏差而CNN模型表現(xiàn)正常.因此,我們認為CNN模型比FV分類器更可靠,在進行模型選擇時,我們將會選擇CNN模型作為最終的分類模型.

    Fig. 8 Examples of interpretation-based model validation圖8 基于可解釋性的模型驗證示例

    而對于可解釋方法所識別出的不可靠的模型,我們可以采取相應的對策來進行改進.比如說,我們可以通過在訓練模型時引入歸納偏置,提高模型在預測階段的泛化能力,從而使其能對未知樣本做出正確的決策.我們也可以通過修正訓練集分布,消除數(shù)據(jù)中存在的偏差,并利用修正后的數(shù)據(jù)集重訓練模型達到消除模型決策偏差的目的.

    4.2 模型診斷

    由于機器學習模型內部工作機制復雜、透明性低,模型開發(fā)人員往往缺乏可靠的推理或依據(jù)來輔助他們進行模型開發(fā)和調試,因而使得模型開發(fā)迭代過程變得更加耗時且容易出錯.而模型可解釋性相關技術作為一種細粒度分析和解釋模型的有效手段,可用于分析和調試模型的錯誤決策行為,以“診斷”模型中存在的缺陷,并為修復模型中的缺陷提供有力的支撐.近年來,隨著模型可解釋性研究不斷取得新的突破,基于可解釋性的機器學習模型診斷相關研究也吸引了越來越多的關注[117-120].

    研究表明:基于模型特征表示可視化以及中間層分析的解釋方法(如激活最大化、特征反演等)可以有效地用于解釋和診斷復雜模型.典型的解決方案包括可視化模型的中間激活狀態(tài)或內部特征表示以及可視化模型中的數(shù)據(jù)流圖[121-123],以增強對復雜模型的解釋和理解,同時分析和評估模型或算法的性能,為在模型開發(fā)的不同階段(如前期特征工程、中期超參調整以及后期模型微調等)交互式改進模型提供有效的指導[124].此外,一些其他的研究方法則通過識別與模型“漏洞”相關的重要特征或實例來進行模型診斷和調試.Krause等人[125]基于敏感性分析解釋方法的思想,設計了一個名為Prospector的系統(tǒng),通過修改特征值并檢查預測結果的相應變化來確定敏感性特征.Cadamuro等人[117]提出了一種概念分析和診斷循環(huán)的模型診斷方法,允許終端用戶迭代地檢測模型“漏洞”,以找到對模型“漏洞”貢獻最大的訓練實例,從而確定模型出錯的根本原因.Krause等人[126]提出了一個可視化模型診斷工作流,通過利用局部解釋方法度量輸入實例中的局部特征相關性,以幫助數(shù)據(jù)科學家和領域專家理解和診斷模型所做出的決策.具體地,該工作流首先利用聚合統(tǒng)計查看數(shù)據(jù)在正確決策和錯誤決策之間的分布;然后,基于解釋方法理解用于做出這些決策的特征;最后基于原始數(shù)據(jù),對影響模型決策的潛在根本原因進行深入分析.

    針對已發(fā)現(xiàn)的模型“漏洞”,我們可以基于模型診斷方法給出的推理結果,采取相應的措施對模型進行“治療”,如提高訓練數(shù)據(jù)的質量、選擇可靠特征以及調整模型超參等.Paiva等人[127]提出了一種可視化數(shù)據(jù)分類方法,該方法通過點布局策略實現(xiàn)數(shù)據(jù)集的可視化,允許用戶選擇并指定用于模型學習過程的訓練數(shù)據(jù),從而提高訓練集的整體質量.Brooks等人[128]提出了一個用于改進特征工程的交互式可視化分析系統(tǒng),該系統(tǒng)支持錯誤驅動的特征構思過程并為誤分類樣本提供交互式可視化摘要,允許在誤分類樣本和正確分類樣本之間進行特征級別的比較,以選擇能減小模型預測錯誤率的特征,從而提高模型性能并修復模型中的“漏洞”.

    4.3 輔助分析

    除了用于模型驗證與模型診斷之外,可解釋性相關技術還可用于輔助分析與決策,以提高人工分析和決策的效率.相關研究表明,基于可解釋性的輔助分析技術在醫(yī)療數(shù)據(jù)分析、分子模擬以及基因分析等多個領域取得了巨大的成功,有效地解決了人工分析耗時費力的難題.

    在智慧醫(yī)療領域,許多學者嘗試將深度學習及可解釋性技術應用于構建自動化智能診斷系統(tǒng),以輔助醫(yī)護人員分析病人的醫(yī)療診斷數(shù)據(jù),從而提高人工診斷的效率[6,129].Rajpurkar等人[6]基于大規(guī)模病人胸片數(shù)據(jù)開發(fā)了基于深度學習的肺炎檢測系統(tǒng)(CheXNet),其檢測性能甚至超過了放射科醫(yī)師的診斷水平,該系統(tǒng)通過將可解釋方法CAM應用于解釋檢測系統(tǒng)的決策依據(jù)并可視化對應的解釋結果(如圖9所示),可以為醫(yī)師分析病人醫(yī)療影像數(shù)據(jù)以快速定位病人的病灶提供大量的輔助信息.Arvaniti等人[129]研究結果表明,在給定一個良好標注的數(shù)據(jù)集的前提下,可以利用CNN模型成功地實現(xiàn)對前列腺癌組織微陣列的自動格里森分級.同時,利用解釋方法給出自動分級系統(tǒng)的分級依據(jù),可實現(xiàn)病理專家級的分級效果,從而為簡化相對繁瑣的分級任務提供了支撐.

    Fig. 9 Application of interpretation in medical diagnosis圖9 可解釋方法在醫(yī)療診斷中的應用[6]

    在量子化學領域,分子動力學模擬是理解化學反應機理、速率和產(chǎn)率的關鍵,然而由于分子的完整波函數(shù)相對復雜,且難以計算和近似,導致人們通常難以理解,因而如何創(chuàng)建人類可解釋的分子表示成為21世紀物質模擬的一大挑戰(zhàn)[130].為解決這一難題,許多學者將機器學習及可解釋性技術引入到分子模擬任務中,用于輔助分析分子結構與分子性質之間的關系[131-133].其中,Schütt等人[133]提出一種通過結合強大的結構和表示能力以實現(xiàn)較高預測性能和良好可解釋性的深度張量神經(jīng)網(wǎng)絡(DTNN),用于預測分子結構與電子性質之間的關系.同時,作者利用基于測試電荷擾動的敏感性分析方法測量在給定的位置插入電荷對DTNN輸出結果的影響,從而找到與解釋分子結構與性質關系最相關的每個單獨的分子空間結構.H?se等人[132]提出一種利用機器學習來輔助分子動力學模擬的方法,該方法利用模擬產(chǎn)生的大量數(shù)據(jù)訓練貝葉斯神經(jīng)網(wǎng)絡(BNN)來預測1,2-二氧雜環(huán)丁烷從初始核位置的離解時間.為了構建一個可解釋的BNN模型,作者將模型的權重和偏置分布參數(shù)化為拉普拉斯分布,以確定與準確預測離解時間以及實際的物理過程相關的輸入特征.研究結果表明,該方法不僅可以準確地再現(xiàn)化合物的離解過程,而且能自動地從模擬數(shù)據(jù)中提取相關信息,而不需要預先了解相關化學反應.同時,通過解釋BNN所捕獲的特征與實際物理過程之間的相關關系,可以在不了解電子結構的情況下,確定核坐標與離解時間之間的物理相關性,從而為人們在化學領域取得概念性的突破提供靈感.

    在基因組分析領域,由基因組學研究不斷進步而產(chǎn)生的數(shù)據(jù)爆炸,給傳統(tǒng)的基因組分析方法帶來了巨大的挑戰(zhàn),同時也給數(shù)據(jù)驅動的深度學習技術在基因組分析研究中的發(fā)展和應用帶來了機遇[134].相關研究表明,深度學習在基因組分析中的應用已突顯出了其強大的優(yōu)勢[135-138].然而,人們期望深度學習模型不僅能成功地預測結果,還能識別有意義的基因序列,并對所研究的科學問題(如基因與疾病、藥物之間的關系)提供進一步的見解,因而模型的可解釋性在應用中顯得至關重要.Lanchantin等人[137]將3種DNN模型(即CNN,RNN以及CNN-RNN)應用于預測給定的DNA序列中某一特定的轉錄因子是否有結合位點,并且提出了一套基于解釋方法的可視化策略,用于解釋對應的預測模型并從中提取隱含的序列模式.其中,作者基于反向傳播解釋方法,通過計算預測概率相對于輸入DNA序列的梯度來構建顯著圖[52],用于度量并顯示核苷酸的重要性.同時,作者利用時間域輸出分值來識別DNN序列中與特定轉錄因子結合位點相關的關鍵序列位置,并利用類激活最大化方法生成與特定預測結果相關的Motif模式.實驗結果證明,這一系列的可視化策略可為研究人員分析DNA序列結構、組成成分與特定轉錄因子結合位點之間的關系提供大量的輔助信息.類似地,Alipanahi等人[138]構建了一個名為DeepBind的系統(tǒng),通過訓練一個CNN模型將DNA和RNA序列映射到蛋白質結合位點上,以了解DNA和RNA結合蛋白的序列特異性.為了進一步探索遺傳變異對蛋白質結合位點的影響,作者采用了基于擾動的敏感性分析方法,通過計算突變對DeepBind預測結果的影響生成“突變圖”,以解釋序列中每個可能的點突破對結合親和力的影響.作者表明,DeepBind可用于揭示RNA結合蛋白質在選擇性剪接中的調節(jié)作用,并輔助研究人員分析、識別、分組及可視化可影響轉錄因子結合和基因表達的疾病相關遺傳變異,從而有望實現(xiàn)精準醫(yī)學.

    4.4 知識發(fā)現(xiàn)

    近年來,隨著人工智能相關技術的發(fā)展,基于機器學習的自動決策系統(tǒng)被廣泛地應用到各個領域,如惡意程序分析、自動化醫(yī)療診斷以及量化交易等.然而,由于實際任務的復雜性以及人類認知和領域知識的局限性,人們可能無法理解決策系統(tǒng)給出的結果,因而缺乏對相關領域問題更深入的理解,進而導致許多科學問題難以得到有效的解決.最新研究成果表明,通過將可解釋性相關技術與基于機器學習的自動決策系統(tǒng)相結合,可有效地挖掘出自動決策系統(tǒng)從數(shù)據(jù)中學到的新知識,以提供對所研究科學問題的深入理解,從而彌補人類認知與領域知識的局限性.

    在二進制分析領域,許多潛在的啟發(fā)式方法都是針對某一個特定的函數(shù)的,而挖掘這些潛在的方法通常需要豐富的領域知識,因而很難通過人工的方式對所有的啟發(fā)式方法進行匯總.Guo等人[51]將可解釋方法LEMNA應用于一個基于LSTM的二進制函數(shù)入口檢測器,以提供對LSTM檢測結果的解釋.通過分析解釋結果,作者發(fā)現(xiàn)檢測模型確實從訓練數(shù)據(jù)中學到了用于識別函數(shù)入口的潛在特征,這表明利用LEMNA解釋方法可以挖掘出檢測模型從數(shù)據(jù)中學到的新知識,從而對總結針對某個特殊函數(shù)的所有潛在的啟發(fā)式方法提供幫助.

    在醫(yī)療保健領域,由于病人病理錯綜復雜且因人而異,醫(yī)護人員往往無法通過有限的醫(yī)療診斷知識挖掘潛在的致病因素及其之間的相互作用,而對潛在因素的忽視極其可能帶來致命的威脅.Yang等人[41]基于重癥監(jiān)護室(ICU)治療記錄數(shù)據(jù)構建了一個帶注意力機制的RNN模型,用于分析醫(yī)療條件與ICU死亡率之間的關系,而這些關系在以往的醫(yī)療實踐中往往沒有得到很好的研究.作者研究結果表明,利用可解釋性技術有助于發(fā)現(xiàn)與醫(yī)療保健中某些結果相關的潛在影響因素或相互作用,從而使得從自動化醫(yī)療診斷模型中學習新的診斷知識成為可能.

    此外,作為知識發(fā)現(xiàn)的重要手段,模型可解釋性及其相關解釋方法還被廣泛地應用到了數(shù)據(jù)挖掘領域,以從海量數(shù)據(jù)中自動地挖掘隱含的新知識[139-142].這類研究核心思想是基于所研究的領域及科學目標構建海量數(shù)據(jù)集,然后對構建的數(shù)據(jù)集進行清洗并利用機器學習模型從清洗后的數(shù)據(jù)中提取數(shù)據(jù)映射模式,最后利用解釋方法從挖掘到的數(shù)據(jù)模式識別代表新知識的模式并利用可視化技術將新知識呈現(xiàn)給用戶.

    5 可解釋性與安全性分析

    模型可解釋性研究的初衷是通過構建可解釋的模型或設計解釋方法提高模型的透明性,同時驗證和評估模型決策行為和決策結果的可靠性和安全性,消除模型在實際部署應用中的安全隱患.然而,模型可解釋性相關技術同樣可以被攻擊者利用以探測機器學習模型中的“漏洞”,因而會給機器學習模型以及真實應用場景中尤其是風險敏感場景中的機器學習應用帶來威脅.此外,由于解釋方法與待解釋模型之間可能存在不一致性,因而可解釋系統(tǒng)或可解釋方法本身就存在一定的安全風險.

    5.1 安全隱患消除

    如第4節(jié)中所述,模型可解釋性及相關解釋方法不僅可以用于評估和驗證機器學習模型,以彌補傳統(tǒng)模型驗證方法的不足,保證模型決策行為和決策結果的可靠性和安全性,還可用于輔助模型開發(fā)人員和安全分析師診斷和調試模型以檢測模型中的缺陷,并為安全分析師修復模型“漏洞”提供指導,從而消除模型在實際部署應用中的安全隱患.并且,通過同時向終端用戶提供模型的預測結果及對應的解釋結果,可提高模型決策的透明性,進而有助于建立終端用戶與決策系統(tǒng)之間的信任關系.

    除了用于消除上述內在安全隱患之外,模型可解釋性相關技術還可以幫助抵御外在安全風險.人工智能安全領域相關研究表明即使決策“可靠”的機器學習模型也同樣容易受到對抗樣本攻擊,只需要在輸入樣本中添加精心構造的、人眼不可察覺的擾動就可以輕松地讓模型決策出錯[8,143-144].這種攻擊危害性大、隱蔽性強、變種多且難以防御,嚴重地威脅著人工智能系統(tǒng)的安全.而現(xiàn)存防御方法大多數(shù)是針對某一個特定的對抗樣本攻擊設計的靜態(tài)的經(jīng)驗性防御,因而防御能力極其有限.然而,不管是哪種攻擊方法,其本質思想都是通過向輸入中添加擾動以轉移模型的決策注意力,最終使模型決策出錯.由于這種攻擊使得模型決策依據(jù)發(fā)生變化,因而解釋方法針對對抗樣本的解釋結果必然與其針對對應的正常樣本的解釋結果不同.因此,我們可以通過對比并利用這種解釋結果的反差來檢測對抗樣本,而這種方法并不特定于某一種對抗攻擊,因而可以彌補傳統(tǒng)經(jīng)驗性防御的不足.

    除上述防御方法外,很多學者從不同的角度提出了一些新的基于可解釋性技術的對抗防御方法.其中,Tao等人[145]認為對抗攻擊與模型的可解釋性密切相關,即對于正常樣本的決策結果,可以基于人類可感知的特征或屬性來進行推理,而對于對抗樣本的決策結果我們則通常無法解釋.基于這一認知,作者提出一種針對人臉識別模型的對抗樣本檢測方法,該方法首先利用敏感性分析解釋方法識別與人類可感知屬性相對應的神經(jīng)元,稱之為“屬性見證”神經(jīng)元;然后,通過加強見證神經(jīng)元同時削弱其他神經(jīng)元將原始模型轉換為屬性導向模型,對于正常樣本,屬性導向模型的預測結果與原始模型一致,對于對抗樣本二者預測結果則不一致;最后,利用2個模型預測結果的不一致性來檢測對抗樣本,實現(xiàn)對對抗攻擊的防御.Liu等人[146]則基于對分類模型的解釋,提出了一種新的對抗樣本檢測框架.給定一個惡意樣本檢測器,該框架首先選擇一個以確定為惡意樣本的樣本子集作為種子樣本,然后構建一個局部解釋器解釋種子樣本被分類器視為惡意樣本的原因,并通過朝著解釋器確定的規(guī)避方向來擾動每一個種子樣本的方式產(chǎn)生對抗樣本.最后,通過利用原始數(shù)據(jù)和生成的對抗樣本對檢測器進行對抗訓練,以提高檢測器對對抗樣本的魯棒性,從而降低模型的外在安全風險.

    5.2 安全威脅

    盡管可解釋性技術是為保證模型可靠性和安全性而設計的,但其同樣可以被惡意用戶濫用而給實際部署應用的機器學習系統(tǒng)帶來安全威脅.比如說,攻擊者可以利用解釋方法探測能觸發(fā)模型崩潰的模型漏洞,在對抗攻擊中,攻擊者還可以利用可解釋方法探測模型的決策弱點或決策邏輯,從而為設計更強大的攻擊提供詳細的信息.在本文中,我們將以對抗攻擊為例,闡述可解釋性技術可能帶來的安全風險.

    在白盒對抗攻擊中,攻擊者可以獲取目標模型的結構、參數(shù)信息,因而可以利用反向傳播解釋方法的思想來探測模型的弱點[147].其中,Goodfellow等人[143]提出了快速梯度符號攻擊方法(FGSM),通過計算模型輸出相對于輸入樣本的梯度信息來探測模型的敏感性,并通過朝著敏感方向添加一個固定規(guī)模的噪音來生成對抗樣本.Papernot等人[148]基于Grad[52]解釋方法提出了雅可比顯著圖攻擊(JSMA),該攻擊方法首先利用Grad解釋方法生成顯著圖,然后基于選擇圖來選擇最重要的特征進行攻擊.利用Grad方法提供的特征重要性信息,JMSA攻擊只需要擾動少量的特征就能達到很高的攻擊成功率,因而攻擊的隱蔽性更強.對于黑盒對抗攻擊,由于無法獲取模型的結構信息,只能操縱模型的輸入和輸出[149],因而攻擊者可以利用模型無關解釋方法的思想來設計攻擊方法.其中,Papernot等人[150]提出了一種針對黑盒機器學習模型的替代模型攻擊方法.該方法首先利用模型蒸餾解釋方法的思想訓練一個替代模型來擬合目標黑盒模型的決策結果,以完成從黑盒模型到替代模型的知識遷移過程;然后,利用已有的攻擊方法針對替代模型生成對抗樣本;最后,利用生成的對抗樣本對黑盒模型進行遷移攻擊.Li等人[9]提出了一種基于敏感性分析解釋方法的文本對抗攻擊方法(TextBugger),用于攻擊真實場景中的情感分析模型和垃圾文本檢測器.該方法首先通過觀察去掉某個詞前后模型決策結果的變化來定位文本中的重要單詞,然后通過利用符合人類感知的噪音逐個擾動重要的單詞直到達到攻擊目標.該研究表明,利用TextBugger攻擊方法可以輕松的攻破Google Cloud,Microsoft Azure,Amazon AWS,IBM Watson,Facebook fastText等平臺提供的商業(yè)自然語言處理機器學習服務,并且攻擊成功率高、隱蔽性強.

    5.3 自身安全問題

    由于采用了近似處理或是基于優(yōu)化手段,大多數(shù)解釋方法只能提供近似的解釋,因而解釋結果與模型的真實行為之間存在一定的不一致性.而最新研究表明,攻擊者可以利用解釋方法與待解釋模型之間的這種不一致性設計針對可解釋系統(tǒng)的新型對抗樣本攻擊,因而嚴重的威脅著可解釋系統(tǒng)的自身安全.

    根據(jù)攻擊目的不同,現(xiàn)存針對可解釋系統(tǒng)的新型對抗樣本攻擊可以分為2類:1)在不改變模型的決策結果的前提下,使解釋方法解釋出錯[151];2)使模型決策出錯而不改變解釋方法的解釋結果[152].其中,Ghorbani等人[151]首次將對抗攻擊的概念引入到了神經(jīng)網(wǎng)絡的可解釋性中并且提出了模型解釋脆弱性的概念.具體地,他們將針對解釋方法的對抗攻擊定義為優(yōu)化問題:

    其中,I(xt;N)為解釋系統(tǒng)對神經(jīng)網(wǎng)絡N針對樣本xt決策結果f(xt)的解釋,δ為樣本中所需添加的擾動,D(·)用于度量擾動前后解釋結果的變化.通過優(yōu)化上述目標函數(shù),可以在不改變模型決策結果的前提下,生成能讓解釋方法產(chǎn)生截然不同的解釋結果的對抗樣本.針對Grad[52],Integrated[55]以及DeepLIFT[58]等反向傳播解釋方法的對抗攻擊實驗證明,上述解釋方法均容易受到對抗樣本攻擊,因而只能提供脆弱的模型解釋.與Ghorbani等人研究相反,Zhang等人[152]提出了Acid攻擊,旨在生成能讓模型分類出錯而不改變解釋方法解釋結果的對抗樣本.通過對表示導向的(如激活最大化、特征反演等)、模型導向的(如基于掩碼模型的顯著性檢測等[153])以及擾動導向的(如敏感性分析等)三大類解釋方法進行Acid攻擊和經(jīng)驗性評估,作者發(fā)現(xiàn)生成欺騙分類器及其解釋方法的對抗樣本實際上并不比生成僅能欺騙分類器的對抗樣本更困難.因此,這幾類解釋方法同樣是脆弱的,在對抗的環(huán)境下,其提供的解釋結果未必可靠.此外,這種攻擊還會使基于對比攻擊前后解釋結果的防御方法失效,導致對抗攻擊更難防御.

    上述研究表明:現(xiàn)存解釋方法大多數(shù)是脆弱的,因此只能提供有限的安全保證.但由于可解釋性技術潛在應用廣泛,因而其自身安全問題不容忽視.以醫(yī)療診斷中的可解釋系統(tǒng)為例,在臨床治療中,醫(yī)生會根據(jù)可解釋系統(tǒng)提供的解釋結果對病人進行相應的診斷和治療,一旦解釋系統(tǒng)被新型對抗攻擊方法攻擊,那么提供的解釋結果必然會影響醫(yī)生的診斷過程,甚至是誤導醫(yī)生的診斷而給病人帶來致命的威脅.因此,僅有解釋是不夠的,為保證機器學習及可解釋性技術在實際部署應用中的安全,解釋方法本身必須是安全的,而設計更精確的解釋方法以消除解釋方法與決策系統(tǒng)之間的不一致性則是提高解釋方法魯棒性進而消除其外在安全隱患的重要途徑.

    6 當前挑戰(zhàn)與未來方向

    盡管模型可解釋性研究已取得一系列矚目的研究成果,但其研究還處于初級階段,依然面臨著許多的挑戰(zhàn)且存在許多的關鍵問題尚待解決.其中,可解釋性研究當前面臨的一個挑戰(zhàn)是如何設計更精確、更友好的解釋方法,消除解釋結果與模型真實行為之間的不一致;第2個挑戰(zhàn)是如何設計更科學、更統(tǒng)一的可解釋性評估指標,以評估可解釋方法解釋性能和安全性.

    6.1 解釋方法設計

    精確地理解機器學習的工作原理,研究透明的、可解釋且可證明機器學習技術,有助于推動機器學習研究的進一步發(fā)展,同時有助于促進人工智能相關技術的落地應用.這要求機器學習可解釋性研究必須具備能精確地揭示模型內部工作邏輯同時向人類提供可以足夠準確理解模型決策的信息的能力.因此,無論是ante -hoc可解釋性還是post-hoc可解釋性,我們所設計的解釋方法都必須是精確的,我們的解釋方法提供的解釋結果都必須忠實于模型的真實決策行為.

    由于模型的決策準確性與模型自身可解釋性之間存在一個權衡,現(xiàn)有關于ante -hoc可解釋性的研究多局限于諸如線性回歸、決策樹等算法透明、結構簡單的模型,對于復雜的DNN模型則只能依賴于注意力機制提供一個粗粒度的解釋.因此,如何設計可解釋的機器學習模型以消除模型準確性與可解釋性之間的制約是ante -hoc可解釋性研究所面臨的一大挑戰(zhàn),也是未來可解釋性研究發(fā)展的一個重要趨勢.其中,一種直觀的方法是將機器學習與因果模型相結合,讓機器學習系統(tǒng)具備從觀察數(shù)據(jù)中發(fā)現(xiàn)事物間的因果結構和定量推斷的能力.同時,我們還可以將機器學習與常識推理和類比計算等技術相結合,形成可解釋的、能自動推理的學習系統(tǒng).未來我們還可以考慮利用仿生學知識并結合更先進的認知理論對人類認知建模,以設計具備人類自我解釋能力的機器學習模型,實現(xiàn)具有一定思維能力并且能自我推理自我解釋的強人工智能系統(tǒng).

    對于post-hoc可解釋性而言,大多數(shù)的研究都在嘗試采用近似的方法來模擬模型的決策行為,以從全局的角度解釋模型的整體決策邏輯或者從局部的角度解釋模型的單個決策結果.然而,由于近似過程往往不夠精確,解釋方法給出的解釋結果無法正確地反映待解釋模型的實際運行狀態(tài)和真實決策行為,而解釋方法與決策模型之間的這種不一致性甚至嚴重地威脅著可解釋系統(tǒng)自身的安全.因此,當前post-hoc可解釋性相關研究面臨的巨大挑戰(zhàn)是如何設計忠實于決策模型的安全可保障的精確解釋方法,以消除解釋結果與模型真實行為之間的不一致性,從而保證解釋結果的可靠性和安全性.未來一個有前景的潛在研究方向是設計數(shù)學上與待解釋模型等價的解釋方法或解釋模型.對于全連接神經(jīng)網(wǎng)絡,Chu等人[63]已經(jīng)給出了相應的研究方法并取得了一定的研究成果,我們則可以基于具體模型的內部機理和神經(jīng)網(wǎng)絡的前向傳播機制,將Chu等人提出的研究方法擴展到CNN,RNN等更復雜神經(jīng)網(wǎng)絡模型,從而實現(xiàn)對復雜模型的精確解釋.

    6.2 解釋方法評估

    目前,可解釋性研究領域缺乏一個用于評估解釋方法的科學評估體系,尤其是在計算機視覺領域,許多解釋方法的評估還依賴于人類的認知,因而只能定性評估,無法對解釋方法的性能進行量化,也無法對同類型的研究工作進行精確地比較.并且,由于人類認知的局限性,人們只能理解解釋結果中揭示的顯性知識,而通常無法理解其隱性知識,因而無法保證基于認知的評估方法的可靠性.

    對于ante -hoc可解釋性而言,其評估挑戰(zhàn)在于如何量化模型的內在解釋能力.對于同一應用場景,我們可能會采用不同的模型,同一模型也可能會應用到不同的場景中,而對于如何衡量和比較這些模型的可解釋性目前仍沒有達成共識.由于模型自身可解釋性受實際應用場景、模型算法本身以及人類理解能力的制約,未來我們可以從應用場景、算法功能、人類認知這3個角度來設計評估指標.這些指標雖各有利弊但相互補充,可以實現(xiàn)多層次、細粒度的可解釋性評估,以彌補單一評估指標的不足.

    對于post-hoc可解釋性而言,其評估挑戰(zhàn)在于如何量化解釋結果的保真度和一致性.如前所述,由于人類認知的局限性,解釋方法針對機器學習模型給出的解釋結果并不總是“合理”的,而我們很難判斷這種與人類認知相違背的解釋結果到底是由于模型自身的錯誤行為還是解釋方法的局限性,抑或是人類認知的局限性造成的.因此,我們需要設計可靠的評估指標對解釋方法進行定量的評估.Guo等人[51]提出利用解釋方法給出的預測結果與待解釋模型預測結果之間的均方根誤差(RMSE)來評估解釋方法的保真度,然而這種評估指標無法用于評估激活最大化、敏感性分析、反向傳播以及特征反演等不提供預測結果的解釋方法.Chu等人[63]提出利用輸入樣本及其鄰近樣本的解釋結果的余弦相似性來評估解釋方法,然而這種方法無法用于評估解釋結果的保真度.此外,目前還缺乏用于評估針對同一模型的不同解釋方法的評估指標.因此,未來我們需要從解釋結果的保真度、一致性以及不同解釋方法的差異性等角度設計評價指標,對解釋方法進行綜合評估.

    7 結束語

    機器學習可解釋性是一個非常有前景的研究領域,該領域已經(jīng)成為了國內外學者的研究熱點,并且取得了許多矚目的研究成果.但到目前為止,機器學習可解釋性研究還處于初級階段,依然存在許多關鍵問題尚待解決.為了總結現(xiàn)有研究成果的優(yōu)勢與不足,探討未來研究方向,本文從可解釋性相關技術、潛在應用、安全性分析等方面對現(xiàn)有研究成果進行了歸類、總結和分析,同時討論了當前研究面臨的挑戰(zhàn)和未來潛在的研究方向,旨在為推動模型可解釋性研究的進一步發(fā)展和應用提供一定幫助.

    猜你喜歡
    解釋性決策樣本
    著力構建可解釋性模型
    科學導報(2025年3期)2025-02-08 00:00:00
    為可持續(xù)決策提供依據(jù)
    用樣本估計總體復習點撥
    論行政自由裁量的“解釋性控權”
    法律方法(2021年4期)2021-03-16 05:35:16
    決策為什么失誤了
    推動醫(yī)改的“直銷樣本”
    融媒體時代解釋性報道的發(fā)展之路
    傳播力研究(2017年5期)2017-03-28 09:08:30
    隨機微分方程的樣本Lyapunov二次型估計
    非解釋性憲法適用論
    村企共贏的樣本
    靖远县| 湾仔区| 邯郸市| 阿坝县| 荥经县| 永兴县| 栖霞市| 祁东县| 文水县| 伊宁县| 黎城县| 嘉黎县| 玛曲县| 黑山县| 车险| 上思县| 安吉县| 怀宁县| 共和县| 麟游县| 莆田市| 濮阳县| 工布江达县| 乐亭县| 西乌珠穆沁旗| 资中县| 登封市| 文山县| 全椒县| 华亭县| 扎囊县| 曲松县| 沛县| 崇礼县| 文山县| 昆山市| 蕲春县| 夹江县| 墨江| 六安市| 祁阳县|