• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      可解釋的視覺問答研究進展

      2024-02-18 14:16:27張一飛孟春運蔣洲欒力ErnestDomanaanmwiGanaa
      計算機應(yīng)用研究 2024年1期
      關(guān)鍵詞:自然語言處理計算機視覺人工智能

      張一飛 孟春運 蔣洲 欒力 Ernest Domanaanmwi Ganaa

      摘 要:在視覺問答(VQA)任務(wù)中,“可解釋”是指在特定的任務(wù)中通過各種方法去解釋模型為什么有效?,F(xiàn)有的一些VQA模型因為缺乏可解釋性導(dǎo)致模型無法保證在生活中能安全使用,特別是自動駕駛和醫(yī)療相關(guān)的領(lǐng)域,將會引起一些倫理道德問題,導(dǎo)致無法在工業(yè)界落地。主要介紹視覺問答任務(wù)中的各種可解釋性實現(xiàn)方式,并分為了圖像解釋、文本解釋、多模態(tài)解釋、模塊化解釋和圖解釋五類,討論了各種方法的特點并對其中的一些方法進行了細分。除此之外,還介紹了一些可以增強可解釋性的視覺問答數(shù)據(jù)集,這些數(shù)據(jù)集主要通過結(jié)合外部知識庫、標注圖片信息等方法來增強可解釋性。對現(xiàn)有常用的視覺問答可解釋方法進行了總結(jié),最后根據(jù)現(xiàn)有視覺問答任務(wù)中可解釋性方法的不足提出了未來的研究方向。

      關(guān)鍵詞:視覺問答; 視覺推理; 可解釋性; 人工智能; 自然語言處理; 計算機視覺

      中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-002-0010-11

      doi:10.19734/j.issn.1001-3695.2023.05.0181

      Research advances in explainable visual question answering

      Abstract:In the context of visual question answering (VQA) tasks, “explainability” refers to the various ways in which researchers can explain why a model works in a given task. The lack of explainability of some existing VQA models has led to a lack of assurance that the models can be used safely in real-life applications, especially in fields such as autonomous driving and healthcare. This would raise ethical and moral issues that hinder their implementation in industry. This paper introduced various implementations for enhancing explainability in VQA tasks and categorized them into four main categories: image interpretation, text interpretation, multi-modal interpretation, modular interpretation, and graph interpretation. This paper discussed the characteristics of each approach, and further presented the subdivisions for some of them. Furthermore, it presented several VQA datasets that aimed to enhance explainability. These datasets primarily focused on incorporating external know-ledge bases and annotating image information to improve explainability. In summary, this paper provided an overview of exis-ting commonly used interpretable methods for VQA tasks and proposed future research directions based on the identified shortcomings of the current approaches.

      Key words:visual question answering; visual reasoning; explainability; artificial intelligence; natural language processing; computer vision

      0 引言

      隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,作為深度學(xué)習(xí)兩大領(lǐng)域——計算機視覺(CV)和自然語言處理(NLP)的交叉領(lǐng)域之一的視覺問答任務(wù)(VQA)[1,2]逐漸興起。VQA指的是給定一張圖片和一個與該圖片相關(guān)的自然語言問題,計算機能輸出一個正確的回答。顯然,這是一個融合了CV與NLP技術(shù)的多模態(tài)問題,計算機需要同時學(xué)會理解圖像和文字。正因如此,直到2015年相關(guān)技術(shù)取得突破式發(fā)展,VQA的概念才被Antol等人[1]正式提出。

      視覺問答是一種涉及計算機視覺和自然語言處理的學(xué)習(xí)任務(wù)。這一任務(wù)的定義如下:一個VQA系統(tǒng)以一張圖片和一個關(guān)于這張圖片形式自由、開放式的自然語言問題作為輸入,以生成一條自然語言答案作為輸出。簡單來說,VQA就是根據(jù)給定的圖片進行問答。視覺問答可以被應(yīng)用于在線教育、盲人輔助導(dǎo)航、視頻監(jiān)控自動查詢等領(lǐng)域,但是由于現(xiàn)有深度學(xué)習(xí)模型大部分缺乏可解釋性,當模型出錯時,用戶無法理解為什么會出錯和如何避免,這導(dǎo)致模型在某些關(guān)鍵領(lǐng)域的使用可能會危害人的生命安全。所以這些先進的技術(shù)在生產(chǎn)中落地時,常常會面臨倫理道德乃至法律層面的問題。例如,最近的歐洲通用數(shù)據(jù)保護和法規(guī)(general data protection and regulation,GDPR)引入了這樣一種觀點,即用戶應(yīng)該擁有獲得由自動化處理提出的決策的解釋的權(quán)利[3]。但是用現(xiàn)代機器學(xué)習(xí)方法,尤其是基于深度學(xué)習(xí)的方法,很難滿足這樣的要求。因此,為了提高深度學(xué)習(xí)模型在生產(chǎn)實踐中的安全性問題和解決由于深度學(xué)習(xí)的“黑盒”特性帶來的倫理道德以及安全問題,提高視覺問答模型的可解釋性十分必要,所以大量的研究試圖通過對深層神經(jīng)網(wǎng)絡(luò)的決策過程生成人類可理解的解釋,使其更加透明。

      大多數(shù)最先進的VQA系統(tǒng)[4~8]都是通過訓(xùn)練,使用問題和視覺特征簡單地擬合答案分布,并在簡單的視覺問題上實現(xiàn)高性能。然而這些系統(tǒng)往往可解釋性一般,因為它們只關(guān)注簡單的視覺特征和問題特征,而不是為正確的原因找到正確的答案[9,10]。當問題需要更復(fù)雜的推理和常識知識時,類似的低可解釋性問題就變得越來越嚴重。本文的主要貢獻如下:a)綜述了視覺問答任務(wù)中的各種可解釋方法的特點,將解釋模型的方法劃分為視覺解釋、文本解釋、模塊化解釋、圖解釋和多模態(tài)解釋,并且對其中的一些大類又進行了細分,最后綜合分析了現(xiàn)有方法的優(yōu)點和不足,并提出了改進的方向;b)介紹了VQA任務(wù)中涉及可解釋性的數(shù)據(jù)集,討論了不同數(shù)據(jù)集的區(qū)別,并對如何利用數(shù)據(jù)集來提升可解釋性提出了建議;c)討論了VQA任務(wù)中可解釋性的發(fā)展情況以及未來展望,并對文中介紹的視覺問答可解釋性方法提供了建議。

      1 可解釋性方法發(fā)展歷程

      1.1 基本定義

      可解釋性目前沒有數(shù)學(xué)定義,Miller[11]認為可解釋性是人類理解決策原因的程度;Kim等人[12]認為可解釋性是人類可以一致地預(yù)測模型結(jié)果的程度。可解釋性可以翻譯為interpretable或explainable,一開始這兩個詞經(jīng)?;Q使用,因為翻譯成中文是同一含義,即對模型的輸出結(jié)果可以產(chǎn)生合理的解釋。然而Miller[11]認為,這兩個詞在學(xué)術(shù)上有細微的差別:interpretable是指本就透明的白盒模型,其本身就可以解釋輸出的答案,所有經(jīng)驗水平的使用者都可以明白模型的含義;而explainable是指研究人員對黑盒模型的輸出結(jié)果作出人們能理解的解釋。本文所討論的可解釋性是指包含這兩種概念的更加廣義的可解釋性,所以不再另外區(qū)分。

      1.2 可解釋性方法

      從目前已有的可解釋性方法來看,可解釋性方法可以分為事后可解釋方法和構(gòu)造本質(zhì)上可解釋的模型的方法。事后可解釋方法可以理解為通過觀察模型的輸出結(jié)果或隱層狀態(tài)來研究輸入的相關(guān)特征與模型輸出結(jié)果之間的因果關(guān)系。構(gòu)造本質(zhì)上可解釋的模型則可以讓模型把內(nèi)部推理過程以白盒的方式直觀地呈現(xiàn)給人類,因為其本質(zhì)上推理流程就容易被人理解所以無須使用顯著圖等事后可解釋方法。本文所討論的視覺問答中的可解釋性方法都可以歸類到上述兩種可解釋方法中,并且在最后給出了一些與視覺問答可解釋性相關(guān)的數(shù)據(jù)集。

      2 視覺問答任務(wù)中的可解釋方法分類

      解釋的視覺問答任務(wù)可以定義為:給定一個圖像或視頻V和一個問題Q,模型預(yù)測答案A并且給出相應(yīng)的解釋E。本文根據(jù)智能問答與視覺推理中的可解釋性的實現(xiàn)方式將視覺問答中的可解釋模型分為圖像解釋、文本解釋、多模態(tài)解釋、模塊化解釋和圖解釋。視覺問答(VQA)任務(wù)當前主流方法主要是首先提取問題和圖像特征,然后結(jié)合融合圖像和文本特征進行分類,最后得到答案。如圖1所示,視覺問答任務(wù)涉及對輸入圖像和輸入問題的處理,當考慮視覺問答中的可解釋方法時,主要從文本和圖像的可解釋性方面去考慮。

      此外,一些其他視覺問答的處理方法也具有可解釋性,如可解釋的模塊化神經(jīng)網(wǎng)絡(luò)和一些結(jié)合圖神經(jīng)網(wǎng)絡(luò)和外部知識庫的方法等,對這些方法的詳細分類如圖2所示。本文提出的分類方法從視覺問答任務(wù)本身的特性去考慮,只考慮視覺問答模型中的可解釋性問題,除去了一些傳統(tǒng)機器學(xué)習(xí)中使用的并且與視覺問答任務(wù)無關(guān)的可解釋方法。具體來說,在圖像解釋方法中,討論了基于注意力的圖像解釋方法、區(qū)域掩模方法和基于梯度的方法,在文本解釋方法中,討論了圖像描述法和外部知識庫法。此外還討論了一些與常規(guī)圖像解釋和文本解釋不同的解釋方法,這些方法包括多模態(tài)解釋方法、模塊化推理方法和包含圖像圖和問題圖的圖解釋方法。

      2.1 利用圖像解釋的方法

      圖像解釋的方法主要是通過探究圖像的整體或部分特征和推理結(jié)果之間的關(guān)系來達到解釋模型輸入與輸出之間關(guān)系的目的。圖像解釋的方法可以大體分為基于注意力的圖像解釋方法、利用區(qū)域掩模的方法和基于梯度的方法三類。

      2.1.1 基于注意力的圖像解釋

      注意力模塊不僅可以提取細粒度和精確的二元關(guān)系,還可以提取更為復(fù)雜的三元關(guān)系。這兩種與問題相關(guān)的視覺關(guān)系提供了更多更深層次的視覺語義,從而提高了問題回答的視覺推理能力。此外,該模塊還結(jié)合了外觀特征和關(guān)系特征,有效地協(xié)調(diào)了兩類特征。

      目前,大多數(shù)VQA算法都專注于通過使用普通的VQA方法將注意力機制應(yīng)用于關(guān)注相關(guān)的視覺對象,或通過視覺關(guān)系推理中現(xiàn)成的方法來考慮對象之間的關(guān)系,然而,它們?nèi)匀挥幸恍┤秉c:a)它們主要對對象之間的簡單關(guān)系進行建模,由于未能提供足夠的知識,導(dǎo)致許多復(fù)雜的問題無法正確回答;b)它們很少利用視覺外觀特征和關(guān)系特征的交互。為了解決這些問題,Peng等人[5]提出了一種新的端到端VQA模型,稱為多模態(tài)關(guān)系注意力網(wǎng)絡(luò)(MRA-Net),是一個旨在提高性能和可解釋性的模型,通過提取二元和三元關(guān)系來實現(xiàn)。MRA-Net包括三個模塊:(a)自引導(dǎo)詞關(guān)系注意模塊用于提取隱含的語義關(guān)系知識,為推理過程提供支持,它能夠自動學(xué)習(xí)并捕捉不同對象之間的關(guān)系,并生成語義關(guān)系圖;(b)對象注意模塊用于識別與答案最相關(guān)的對象,幫助模型更好地理解問題;(c)可視化關(guān)系注意模塊利用兩個支持問題提取對象之間的細粒度二元和三元關(guān)系,通過識別對象及其關(guān)系,該模塊能夠提供深刻的視覺語義,從而提高視覺推理的可解釋性。這些模塊的組合使得MRA-Net能夠在推理任務(wù)中表現(xiàn)出更好的性能,并提供可解釋的結(jié)果。

      Ben-Younes等人[6]提出了一種基于雙線性體系結(jié)構(gòu)的VQA模型MUTAN,通過融合視覺和文本信息來進行視覺推理。該模型引入了基于多模態(tài)張量的塔克分解,不僅能控制視覺和文本特征之間雙線性交互的復(fù)雜性,還能保持良好的可解釋性。Wang等人[7]提出了一種基于注意力的加權(quán)上下文特征(MA-WCF)的VQA任務(wù)系統(tǒng),該系統(tǒng)使用基于RNN的編碼器-解碼器結(jié)構(gòu)提取語義上下文特征,并使用基于MDLSTM的編碼器-解碼器結(jié)構(gòu)提取圖像上下文特征。具體來說,系統(tǒng)中的RNN結(jié)構(gòu)被選擇為雙向LSTM結(jié)構(gòu)[8]。這個多模態(tài)系統(tǒng)可以根據(jù)問題和圖像本身的特征以及其上下文特征分配自適應(yīng)權(quán)值從而產(chǎn)生更好的效果。由此可見,注意力機制在VQA任務(wù)中有廣泛的應(yīng)用,它有助于關(guān)注視覺信息和文本信息的興趣領(lǐng)域。為了正確回答問題,模型需要有選擇地瞄準圖像的不同區(qū)域,這表明基于注意力的模型可能會從明確的注意力監(jiān)督中受益。由于缺乏人類注意數(shù)據(jù),Qiao等人[9]首先提出了人類注意網(wǎng)絡(luò)(HAN)來生成類人注意地圖,在人類注意數(shù)據(jù)集(VQA-HAT)上進行訓(xùn)練;然后,將預(yù)先訓(xùn)練好的HAN應(yīng)用于VQA v2.0數(shù)據(jù)集,自動生成所有圖像問題對的類人注意地圖,為VQA v2.0數(shù)據(jù)集生成的類人注意圖數(shù)據(jù)集被命名為類人注意(HLAT)數(shù)據(jù)集;最后,將類人注意監(jiān)督應(yīng)用到一個基于注意的VQA模型中。實驗證明,添加類人監(jiān)督可以產(chǎn)生更準確的關(guān)注和具備更好的性能。

      雖然如此,獲得特定于視覺基礎(chǔ)的人類注釋仍是困難和昂貴的,Zhang等人[10]提出了一種具有視覺定位監(jiān)督的VQA架構(gòu),該架構(gòu)的注意區(qū)域定位可以從可用的區(qū)域描述和對象注釋中自動獲得。他們的工作表明,視覺問答模型使用這種監(jiān)督訓(xùn)練生成的視覺區(qū)域定位,相對于人工注釋的定位獲得了更高的相關(guān)性,同時實現(xiàn)了最先進的VQA精度。陳婷等人[13]提出了一種問題文本特征引導(dǎo)圖像的視覺問答算法,該算法在問題特征提取過程中通過對關(guān)鍵詞的篩選加強對問題中有效信息的關(guān)注,實現(xiàn)對問題的注意;同時,該算法還增強了對圖像屬性特征的關(guān)注,使得圖像信息更加豐富。通過問題強化和圖像強化,該算法引導(dǎo)視覺問答模型在推理過程中根據(jù)問題信息更有效地關(guān)注于圖像中的關(guān)鍵區(qū)域,而圖像中的關(guān)鍵區(qū)域又為推理過程提供了依據(jù)和解釋。

      基于注意力機制的視覺解釋只能顯示與推理結(jié)果相關(guān)的視覺區(qū)域,但不能解釋如何利用這些區(qū)域來推導(dǎo)出結(jié)果。在組合推理任務(wù)中,視覺解釋很難表達不同推理鏈接之間的邏輯關(guān)系。此外,當前視覺推理模型中注意力機制產(chǎn)生的參與圖像區(qū)域通常與人類注意機制[14]不同,這也限制了推理模型的有效性。

      2.1.2 區(qū)域掩膜方法

      區(qū)域掩膜類型的方法主要通過區(qū)域掩碼和對象去除對圖像進行語義編輯,從而識別圖像中與問題和答案相關(guān)的對象并進行相應(yīng)的推理過程解釋,這實際上是一種基于擾動的視覺解釋,擾動的視覺可解釋性可以定義為:a)保留解釋,為了保留模型的原始輸出,圖像中必須保留的最小區(qū)域;b)刪除解釋,為了改變模型的原始輸出,圖像中必須刪除的最小區(qū)域。Fong等人[15]提出了一種模型不可知和可測試的解釋方法,該方法可以學(xué)習(xí)一個擾動掩膜,通過有意義的擾動輸入的圖像找到對分類輸出分數(shù)影響最大的區(qū)域。與其他圖像顯著性方法不同,該方法顯式地編輯圖像,以達到可解釋的目的。Liu等人[16]在CLEVR[17]的基礎(chǔ)上構(gòu)建了用于理解指稱表達式的診斷數(shù)據(jù)集CLEVR-Ref+,并在文獻[18]的基礎(chǔ)上提出了一種用于視覺推理的神經(jīng)模塊網(wǎng)絡(luò)IEP-Ref。IEP-Ref中的分割模塊使用LSTM生成器將引用表達式轉(zhuǎn)換為一系列結(jié)構(gòu)化模塊,每個模塊由一個小CNN參數(shù)化。執(zhí)行IEP-Ref可以生成優(yōu)秀的分割掩膜,清晰地揭示網(wǎng)絡(luò)的推理過程,從而使模型擁有更強的可解釋性。

      大多數(shù)基于區(qū)域掩膜的可解釋VQA模型過于依賴相關(guān)性進行推理,而且容易產(chǎn)生虛假的相關(guān)性。因此,Agarwal等人[19]提出了一種語義視覺變異方法,采用基于GAN的再合成模型[14]去除圖像中的目標,檢驗?zāi)P皖A(yù)測的一致性。刪除對象有兩種情況:a)刪除與問題無關(guān)的對象,答案保持不變;b)移除問題中涉及的對象,答案就會以可預(yù)測的方式改變。被移除的對象以基于擾動的方法為推理過程提供了可解釋性。與基于注意力機制的視覺解釋類似,語義編輯也無法解釋如何使用這些對象來派生結(jié)果,難以表達不同推理步驟之間的邏輯關(guān)系。

      2.1.3 基于梯度的方法

      圖像一般是通過向量方式表示,即一張圖片可以表示為{x1,…,xn,…,xN},假設(shè)圖片有一個對應(yīng)的類別yk,現(xiàn)在每次給圖片的某個像素加入一個δx,那么對應(yīng)的類別yk就會發(fā)生變化,記為yk+δx。如果想要知道每個像素的擾動對最終結(jié)果的影響,就需要計算δx/δy,通過計算每一個像素點對預(yù)測類別的影響可以繪制出顯著圖,通過觀察顯著圖可以判斷不同像素點對預(yù)測類別的影響,顯著圖亮度越高的區(qū)域?qū)︻A(yù)測結(jié)果的影響最大,這就是基于圖像的可解釋性方法的概念。在VQA模型中,梯度方法就是利用每個圖像中的某些區(qū)域的損失梯度為VQA模型提供解釋。

      顯然,基于梯度的方法需要用到顯著性方法,關(guān)于顯著性方法,Simonyan等人[20]討論了兩種基于輸入圖像計算類分數(shù)的梯度的可視化技術(shù):a)類模型可視化(class model visualisation)方法,給定一個學(xué)習(xí)好的分類ConvNet網(wǎng)絡(luò)和一類感興趣的類別,可視化方法包括數(shù)值生成一個圖像,再根據(jù)ConvNet類評分模型代表該類;b)圖像特定的類顯著性可視化(image-specific class saliency visualisation)方法,這種方法計算特定于給定圖像和類的類顯著性映射,這種映射可以用于弱監(jiān)督對象的分類分割。這兩種方法都是基于批次梯度下降法的方法。Shrikumar等人[21]提出了DeepLIFT(deep learning important features),一種通過將網(wǎng)絡(luò)中所有神經(jīng)元對輸入的每個特征的貢獻反向傳播來分解神經(jīng)網(wǎng)絡(luò)對特定輸入的輸出預(yù)測的方法。DeepLIFT將每個神經(jīng)元的激活與其“參考激活”進行比較,并根據(jù)差異分配貢獻分數(shù)。通過選擇性地單獨考慮積極和消極的貢獻,DeepLIFT也可以揭示其他方法所遺漏的依賴關(guān)系。

      以上兩種方法的缺點是違反了Sundararajan 等人[22]提出的靈敏度和實現(xiàn)不變性公理,所以Halbe[23]嘗試使用集成梯度(IG)用于可解釋性。IG根據(jù)網(wǎng)絡(luò)的預(yù)測計算輸入特征的屬性,這些屬性將輸入特征的信用/責任分配給輸入特征(圖像時的像素和問題時的單詞),這些特征負責模型的輸出。這些屬性可以幫助識別模型的準確性,如過度依賴圖像或可能的語言先驗,它們是根據(jù)一個基線輸入來計算的。此外,Selvaraju等人[24]提出了一種用于從基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的大類模型中生成決策的可視化解釋的方法Grad-CAM,使用任何目標概念的梯度,流入最終的卷積層,生成一個粗糙的本地化地圖,突出顯示圖像中用于預(yù)測概念的重要區(qū)域。Grad-CAM使用特定于類的梯度信息來定位重要區(qū)域。這些定位與現(xiàn)有的像素空間可視化相結(jié)合,創(chuàng)建了一種新的高分辨率和類鑒別性可視化,稱為引導(dǎo)Grad-CAM。這些方法有助于更好地理解基于CNN的模型,包括圖像字幕和VQA模型。Grad-CAM為理解基于CNN的模型提供了一種新的方法,將Grad-CAM與現(xiàn)有的細粒度可視化相結(jié)合,創(chuàng)建了一個引導(dǎo)式Grad-CAM模型,為圖像描述和VQA提供視覺解釋。

      最近,利用在原始數(shù)據(jù)中生成反事實圖像來增強可解釋性的方法也利用到了以上基于擾動和梯度的方法。例如,Boukhers等人[25]引入了一種通過生成反事實圖像的可解釋性方法。具體來說,生成的圖像是導(dǎo)致VQA模型給出一個不同的答案且與原始圖像相比變化最小的,此外,他們的方法確保了生成的圖像是真實的。由于不能使用定量指標來評估所提出模型的可解釋性,他們通過用戶研究來評估方法的不同方面。梯度方法可以識別正確的結(jié)果是否取決于簡單視覺推理中錯誤的原因,然而,這類方法的缺點是只能顯示與推理結(jié)果相關(guān)的視覺區(qū)域,但不能解釋如何利用這些區(qū)域來推導(dǎo)出結(jié)果。

      常用的圖像解釋模型在VQA v1和VQA v2上準確率的對比如表1所示,可以看出MA-WCF在兩個數(shù)據(jù)集上分別以6.16%和8.44%的準確率優(yōu)于其他模型。這是因為MA-WCF作為一種注意加權(quán)上下文特征的可解釋的多模態(tài)系統(tǒng),相比于其他模型,可以根據(jù)問題和圖像的重要性為其上下文特征賦予自適應(yīng)權(quán)重。實驗結(jié)果表明了合理利用上下文特征信息對提升視覺問答模型準確率的重要性。

      2.2 利用文本解釋的方法

      VQA系統(tǒng)需要有正確的理由才能很好地推廣到測試問題。雖然視覺解釋[26]只標記圖像的哪些部分對答案貢獻最大,但文本解釋[27]能編碼更豐富的信息,如詳細的屬性、關(guān)系或常識知識,這些信息不一定全都能在圖像中直接找到。VQA系統(tǒng)中的文本解釋方法主要分為使用自然語言生成技術(shù)生成圖像描述的方法和利用外部知識庫的方法。

      2.2.1 圖像描述法

      圖像描述法是指用自然語言來描述指定圖像中的視覺信息?,F(xiàn)有的方法可以分為基于模板的方法和基于神經(jīng)的方法?;谀0宓姆椒ɡ糜嬎銠C視覺的最新進展來檢測視覺元素,如對象、關(guān)系和位置,然后通過使用預(yù)定義的語言模板來轉(zhuǎn)換這些元素。Farhadi等人[28]提出了一個圖像描述的自動方法,它可以計算一個連接一個圖像到一個句子的分數(shù)。通過比較圖像的意義估計和句子的意義估計來獲得分數(shù),此分數(shù)可用于將描述性句子附加到給定的圖像上,或者獲得說明給定句子的圖像。Kulkarni等人[29]提出的圖像描述方法由兩部分組成:a)內(nèi)容規(guī)劃,通過從大量的視覺描述性文本池中挖掘出的統(tǒng)計數(shù)據(jù),對基于計算機視覺的檢測和識別算法的輸出進行平滑,以確定用于描述圖像的最佳內(nèi)容詞;b)表面實現(xiàn),根據(jù)自然語言的預(yù)測內(nèi)容和一般統(tǒng)計數(shù)據(jù),選擇單詞來構(gòu)建自然語言句子?;谏窠?jīng)網(wǎng)絡(luò)的方法大部分使用CNN對視覺信息進行編碼,并使用RNN解碼對圖像的文字描述。Mao等人[30]提出了一個多模式遞歸神經(jīng)網(wǎng)絡(luò)(mRNN)來生成新的圖像描述。它直接模擬了生成一個單詞和一個圖像的概率分布。圖像描述是根據(jù)此分布而生成的。該模型由句子的深度遞歸神經(jīng)網(wǎng)絡(luò)和圖像的深度卷積網(wǎng)絡(luò)組成,這兩個子網(wǎng)絡(luò)在一個多模態(tài)層中相互作用,形成整個mRNN模型。Xu等人[31]將注意力機制引入到圖像描述中,通過引入一個基于注意力的模型可以自動學(xué)習(xí)描述圖像的內(nèi)容,通過使用標準的反向傳播技術(shù)和隨機地以確定性的方式訓(xùn)練這個模型,并通過最大化變分下界。

      利用自然語言處理的方法從圖片中生成文字信息并用作解釋開始是被Li等人[32]提出作為對答案的解釋的,但是Li等人提出的VQA-E模型沒有把對答案的解釋本身作為信息在推理過程中加以利用,所以Cai等人[33]在此基礎(chǔ)上首先利用該模型中的圖像處理方法提取圖像中的目標信息,將其與文本信息相結(jié)合,并在結(jié)合過程中使用協(xié)同注意力機制而不是VQA-E模型中只關(guān)注圖像,然后將解釋與問題信息相結(jié)合輸入到LSTM系統(tǒng)中。他們的方法豐富了視覺問答中的文本信息,提高了答案的準確性。與普通的協(xié)同注意力機制不同,Hendricks等人[34]提出了一種更具鑒別性的方法,重點關(guān)注可見對象的鑒別屬性,聯(lián)合預(yù)測一個類標簽并解釋了為什么預(yù)測的標簽適合于圖像,他們還提出了一種基于抽樣和強化學(xué)習(xí)的新的損失函數(shù),來學(xué)習(xí)生成實現(xiàn)全局句子屬性的句子。視覺解釋突出了決策背后的關(guān)鍵圖像區(qū)域,然而它們并不能解釋推理過程和突出顯示的區(qū)域之間的關(guān)鍵關(guān)系,文本解釋恰恰彌補了這一缺點。

      2.2.2 利用外部知識庫法

      當人類看到一個圖像時就可以自動推斷出圖像中隱藏的視覺之外的東西,比如物體的功能、物體的狀態(tài)等。然而要實現(xiàn)這種功能對計算機來說是非常困難的,例如,關(guān)于吹風(fēng)機可以用來干什么的問題,不僅需要在圖片中識別出吹風(fēng)機,而且還需要知道吹風(fēng)機可以用來吹頭發(fā)。想要讓計算機實現(xiàn)這種類似的功能需要引入外部知識庫。

      在VQA模型中引入外部知識庫的方法有很多。Wang等人[35]構(gòu)建了一個FVQA數(shù)據(jù)集、一個附帶的數(shù)據(jù)集以及從三個不同來源提取的事實知識庫,即WebChild[36]、DBpedia[37]和ConceptNet[38];同時還開發(fā)了一個模型,利用支持事實中存在的信息來回答有關(guān)圖像的問題,他們的方法不是直接學(xué)習(xí)從問題到答案的映射,而是學(xué)習(xí)從問題到KB查詢的映射,所以它更可擴展到答案的多樣性。該方法不僅給出了視覺問題的答案,還提供了得出答案的支持事實,從而增強了推理過程的可解釋性。文獻[35]實際上是關(guān)鍵字匹配技術(shù),從問題中提取關(guān)鍵字,并從知識庫中檢索包含這些關(guān)鍵字的事實。顯然,在這種方法中同義詞和同構(gòu)詞容易帶來誤解,為了解決這個問題,Narasimhan等人[39]開發(fā)了一種基于學(xué)習(xí)的檢索方法,該方法學(xué)習(xí)了事實和問題圖像對到嵌入空間的參數(shù)映射。為了回答一個問題,使用了與提供的問題-圖像對最一致的事實?;谏窠?jīng)網(wǎng)絡(luò)的模型的缺陷是對于自然語言部分需要進行訓(xùn)練,模型難以調(diào)試,并且因為神經(jīng)網(wǎng)絡(luò)的“黑盒”性質(zhì)導(dǎo)致缺乏可解釋性。為了應(yīng)對這類問題,Basu等人[40]提出了AQuA框架,AQuA不存在所有純基于神經(jīng)網(wǎng)絡(luò)方法中的缺陷,通過結(jié)合常識知識和使用ASP進行推理來復(fù)制人類的VQA行為。AQuA框架中的VQA使用了以下知識來源:使用YOLO算法提取的對象的知識、從問題中提取的語義關(guān)系、從問題中生成的查詢、常識知識。AQuA運行在查詢驅(qū)動的、可擴展的答案集編程系統(tǒng)上,該系統(tǒng)可以提供一個證明樹作為正在處理的查詢的理由。AQuA會將問題轉(zhuǎn)換為ASP查詢而無須任何培訓(xùn),密切地模擬了人類的操作方式。

      利用外部知識庫增強可解釋性的方法在一些用來模擬人類應(yīng)對可解釋性問題的方法中也有應(yīng)用,因為人類在解決問題時會自然而然地利用外部知識。Riquelme等人[41]提出了一個VQA模型,該模型將處理模塊集成到模擬人類視覺注意、利用先前的視覺知識開發(fā)外部來源,以及用自然語言提供解釋來支持每個答案。這三個處理模塊模擬了人類解決VQA問題的方式:將注意力集中在與回答每個問題相關(guān)的圖像區(qū)域的能力;使用適當?shù)谋尘爸R,如常識知識,構(gòu)建合適的答案的能力;用連貫的解釋支持答案的能力。

      現(xiàn)有的基于知識的視覺問答的解決方案的一個限制是,它們聯(lián)合嵌入了各種信息而沒有細粒度的選擇,這將引入意想不到的噪聲來推理正確的答案。如何捕捉以問題為導(dǎo)向、信息互補的證據(jù),一直是解決這一問題的關(guān)鍵挑戰(zhàn)。Yu等人[42]提出了一種基于圖的循環(huán)推理網(wǎng)絡(luò)GRUC,用于需要外部知識的視覺問題回答,側(cè)重于圖結(jié)構(gòu)多模態(tài)知識表示的跨模態(tài)知識推理。本文從視覺、語義和事實觀點的多個知識圖中描述了多模態(tài)知識來源。引入高級抽象的語義圖對基于知識的視覺問答模型帶來了顯著的改進,該模型通過對多個模塊進行多次疊加進行傳遞推理,在不同模式的約束下得到面向問題的概念表示;最后利用圖神經(jīng)網(wǎng)絡(luò),綜合考慮所有概念推導(dǎo)出全局最優(yōu)解。Wang等人[43]也提出了一種與GRUC類似的方法VQA-GNN,通過統(tǒng)一的像素級信息和概念知識進行聯(lián)合推理。給定一個問題-圖像對,VQA-GNN從圖像中構(gòu)建一個場景圖,從知識圖譜中檢索一個相關(guān)的語言子圖,從VisualGenome中檢索一個視覺子圖,并將這三個圖和問題統(tǒng)一到一個聯(lián)合圖,即多模態(tài)語義圖;然后,VQA-GNN學(xué)習(xí)聚合消息,并在多模態(tài)語義圖捕獲的不同模態(tài)之間進行推理。該方法提供了跨視覺和文本知識域的可解釋性。

      以上方法的局限性是,從純文本的知識庫捕獲的相關(guān)知識只包含事實表示的一階謂詞或語言描述,而缺乏復(fù)雜的、但不可或缺的多模態(tài)知識的視覺理解?;诖?,Ding等人[44]提出了用一個顯式三元組表示多模態(tài)知識的MuKEA將視覺對象和事實答案與隱式關(guān)系關(guān)聯(lián)起來。該方法首先提出了一種用顯式三元組表示多模態(tài)知識單元的新模式,將問題所涉及的視覺對象嵌入到頭部實體中,將事實答案的嵌入保留在尾部實體中,通過三元組顯式關(guān)系表達頭部與尾部之間的隱性關(guān)系。該方法提出了三個客觀損失函數(shù),通過對比正負三元組、對齊真值三元組和提煉實體表示,從粗到細學(xué)習(xí)三元組的表示。在此基礎(chǔ)上,提出了一種基于前訓(xùn)練和微調(diào)的學(xué)習(xí)策略,從域外和域內(nèi)的VQA樣本中逐步積累多模態(tài)知識,用于可解釋推理。

      本文在VQA v2、FVQA和OK-VQA數(shù)據(jù)集上對比了上文討論的利用文本解釋的視覺問答模型的準確率,對比結(jié)果如表2所示。其中E-Q-I模型是作為利用圖像描述法增強可解釋性的方法之一,在VQA v2數(shù)據(jù)集上取得了最佳結(jié)果。該方法利用協(xié)同注意力機制使模型同時關(guān)注于圖像和文本信息。同時,模型中的問題信息與生成的解釋信息相結(jié)合,豐富了視覺問答中的文本特征信息,提升了模型的準確率。GRUC作為一種圖推理視覺問答方法,在基于知識的FVQA數(shù)據(jù)集上取得了最高準確率,該模型通過基于記憶的遞歸推理網(wǎng)絡(luò)收集面向問題的視覺和語義信息,相比其他模型得到了顯著的改進。MuKEA在OK-VQA上的準確率超過了GRUC,因為該模型相比其他方法在利用外部知識進行推理的過程中考慮了多模態(tài)知識和現(xiàn)有知識庫的互補信息,同時該方法通過采用預(yù)訓(xùn)練和微調(diào)學(xué)習(xí)策略逐步積累基本知識和特定領(lǐng)域的多模態(tài)知識,用于答案預(yù)測??傊?,使用基于外部知識的VQA模型,不僅使模型能理解數(shù)據(jù)集中的外部信息,還增強了模型的可解釋性。

      2.3 多模態(tài)解釋

      與單一的視覺解釋方法和文本解釋方法不同,目前多模態(tài)解釋在VQA模型中主要是結(jié)合圖像解釋和文本解釋的方法,先利用注意力機制定位圖像中的關(guān)鍵區(qū)域,然后再對關(guān)鍵區(qū)域生成文本解釋。Park等人[27]提出了一個視覺推理模型指向與推理模型(PJ-X)來生成多模態(tài)解釋。PJ-X模型在回答了VQA問題后會為答案生成文本解釋,生成的文本解釋能指出圖片中支持答案的區(qū)域,PJ-X通過注意掩模指向圖片中支持解釋的證據(jù)。因為缺乏包含人類為決策作出的解釋的數(shù)據(jù)集,Park等人還提出了兩個數(shù)據(jù)集ACT-X和VQA-X。Park等人的方法也有不足,他們實際上采用了一種“事后理由”的形式,并沒有真正遵循和反映系統(tǒng)的實際處理,Wu等人[45]認為解釋應(yīng)該更忠實地反映底層系統(tǒng)的實際處理過程,以便讓用戶對系統(tǒng)有更深入地理解并且出于正確的原因增加信任,而不是試圖簡單地說服他們相信該系統(tǒng)的可靠性,所以Wu等人提出了一種更可信任的方法。為了忠實,文本解釋生成器只關(guān)注于一組有助于預(yù)測答案的對象,并只從與實際VQA推理過程一致的標準解釋中得到適當?shù)谋O(jiān)督而且方法中的解釋模塊直接使用了VQA參與的特征,并通過GradCAM訓(xùn)練生成可追溯到相關(guān)對象集的解釋。

      與以上方法不同,Zhang等人[46]提出了一種融合了圖推理的多模態(tài)解釋方法,具體來說,該方法采用預(yù)先訓(xùn)練的語義關(guān)系嵌入的多圖推理與融合(MGRF)層來同時推理位置和語義關(guān)系,并自適應(yīng)地融合這兩種關(guān)系。MGRF層可以進一步深度堆疊,形成深度多模態(tài)推理和融合網(wǎng)絡(luò)(DMRFNet),以充分推理和融合多模態(tài)關(guān)系。多模態(tài)解釋方法能結(jié)合其他各種單一解釋方法的優(yōu)點,并且推理過程中指向解釋證據(jù)的方式更加貼近于人類。鄒蕓竹等人[47]提出了一種基于多模態(tài)深度特征融合的視覺問答模型,該模型利用卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)分別提取圖像和文本的特征;然后通過使用元注意力單元組合構(gòu)建的深度注意力學(xué)習(xí)網(wǎng)絡(luò),實現(xiàn)了圖像和文本之間以及模態(tài)內(nèi)部的注意力特征交互學(xué)習(xí);最后,將學(xué)習(xí)到的特征進行多模態(tài)融合表示,并進行推理預(yù)測輸出。該方法使用了自注意力和交互注意力這兩種元注意力單元。通過單層內(nèi)兩次遞進的跨模態(tài)特征交互,實現(xiàn)了圖像特征和文本特征相互指導(dǎo)注意力權(quán)重的學(xué)習(xí)。這些學(xué)習(xí)到的注意力權(quán)重為模型輸出的答案提供了解釋。

      表3對比了DMRFNet和CDI-VQA方法,DMRFNet相比CDI-VQA準確率提升了20.67%。DMRFNet設(shè)計了一種有效的多模態(tài)推理和融合模型,以實現(xiàn)細粒度的多模態(tài)推理與融合。具體而言,該方法通過多圖推理與融合層MGRF,該層采用預(yù)先訓(xùn)練好的語義關(guān)系嵌入,對視覺對象之間復(fù)雜的空間關(guān)系和語義關(guān)系進行推理并自適應(yīng)融合。MGRF層可以進一步進行深度疊加,形成深度多模態(tài)推理融合網(wǎng)絡(luò),充分推理和融合多模態(tài)關(guān)系。

      2.4 模塊化推理方法

      所謂模塊化推理方法,就是將模型分解成神經(jīng)網(wǎng)絡(luò)子模塊,每個模塊的功能各不相同。在智能問答與推理中,模塊化方法能讓人類更好地理解答案是怎么產(chǎn)生的,從而增強模型的可解釋性。Andreas等人[48]在2015年首次提出了基于神經(jīng)模塊網(wǎng)絡(luò)的新模型架構(gòu)(NMN),如圖3所示,這個架構(gòu)將問題解析為語言子結(jié)構(gòu),并將較小的模塊組裝成特定于問題的深度網(wǎng)絡(luò),每個模塊解決一個子任務(wù)。這種架構(gòu)使得使用聯(lián)合訓(xùn)練的神經(jīng)模塊集合回答關(guān)于圖像的自然語言問題成為可能,這些模塊可以動態(tài)地組裝成任意的深度網(wǎng)絡(luò)。然而,Andreas等人提出的NMN實現(xiàn)依賴于脆弱的現(xiàn)成的解析器,并且僅限于這些解析器提出的模塊配置,而不是從數(shù)據(jù)中學(xué)習(xí)它們;所以隨后Hu等人[49]在2017年提出了端到端模塊網(wǎng)絡(luò)(N2NMN)。它可以通過在沒有解析器幫助的情況下直接預(yù)測特定實例的網(wǎng)絡(luò)布局來學(xué)習(xí)推理,將文本問題中提出的復(fù)雜推理問題分解為幾個連接在一起的子任務(wù),并學(xué)習(xí)使用序列對序列RNN實現(xiàn)的布局策略預(yù)測每個問題合適的布局表達式。在訓(xùn)練過程中,該模型可以首先從專家布局策略中通過行為克隆進行訓(xùn)練,并使用強化學(xué)習(xí)進一步進行端到端優(yōu)化。以上的模塊化網(wǎng)絡(luò)首先分析問題,然后預(yù)測一組預(yù)定義的模塊,每個模塊實現(xiàn)為一個神經(jīng)網(wǎng)絡(luò),這些模塊連接在一起來預(yù)測答案。然而,他們需要一個專家布局,或監(jiān)督模塊布局來訓(xùn)練布局策略,以獲得良好的準確性。Hu等人[50]在2018年又提出了進一步優(yōu)化的模塊化網(wǎng)絡(luò)結(jié)構(gòu)Stack-NMN,可以在沒有布局監(jiān)督的情況下進行訓(xùn)練,并用基于堆棧的數(shù)據(jù)結(jié)構(gòu)替換布局圖。該模型同時解決了這兩個任務(wù),利用相關(guān)任務(wù)應(yīng)該共享共同的子任務(wù),并在任務(wù)之間共享共同的神經(jīng)模塊集。與以前的模塊化方法相比,該模型誘導(dǎo)將推理過程分解為子任務(wù),同時不需要專家的布局監(jiān)督。該模型可以通過一系列軟模塊選擇、圖像注意和文本注意來解釋其推理步驟。

      與以上單一的模塊化推理方法不同,Shi等人[51]提出了一種融合了圖推理的模塊化方法XNMS。如圖4所示,XNMS將對象作為節(jié)點、對象關(guān)系作為邊來構(gòu)成場景圖進行可解釋推理。XNMS包括AttendNode、AttendEdge、Transfer和Logic四個模塊。Ren等人[52]將神經(jīng)網(wǎng)絡(luò)模塊應(yīng)用于定性推理,從而增強了模型的可解釋性,具體來說,他們使用端到端的神經(jīng)網(wǎng)絡(luò)來模擬預(yù)測和比較這兩個推理任務(wù),每個推理鏈都包含多個神經(jīng)模塊,為理解和推理過程提供透明的交互預(yù)測。

      表4對比了四種模塊化推理方法,其中NMN模型是模塊化推理方法的先驅(qū),該方法通過執(zhí)行每一個子模塊來獲得推理過程中間步驟的結(jié)果。N2NMN在NMN的基礎(chǔ)上通過直接預(yù)測實例特定的網(wǎng)絡(luò)布局來學(xué)習(xí)推理,無須解析器的幫助,該模型在學(xué)習(xí)生成網(wǎng)絡(luò)結(jié)構(gòu)的過程中同時學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。Stack-NMN與以上兩個方法的不同之處在于,該方法通過自動誘導(dǎo)期望的子任務(wù)分解來執(zhí)行組合推理,而不依賴于強力的監(jiān)督。該方法允許通過共享的模塊來連接不同的推理任務(wù),不同的子模塊會處理任務(wù)之間的通用例程。XNMS模型超越了現(xiàn)有的神經(jīng)模塊網(wǎng)絡(luò),使用場景圖作為結(jié)構(gòu)化的知識進行可解釋推理,該模型僅由四個元模塊網(wǎng)絡(luò)構(gòu)成,相比之前的方法大大減少了網(wǎng)絡(luò)的參數(shù)量。

      總而言之,模塊化方法就是通過把神經(jīng)網(wǎng)絡(luò)模型分解成一個個子模塊來達到增強模型可解釋性的目的。在具體實驗過程中,還可以與一些其他可解釋性方法結(jié)合,如文本解釋和圖解釋等,從而使模型的可解釋性更強。

      2.5 利用圖解釋的方法

      在視覺問答與智能推理中,圖解釋方法主要是通過把問題中的圖像和問題分解為圖結(jié)構(gòu)來進行推理從而增強模型的可解釋性。這種解釋方法主要分為圖像圖和問題圖兩種類型。具體來說,圖像圖通過檢測目標,把目標物體作為節(jié)點,目標物體之間的關(guān)系作為邊來構(gòu)造圖;問題圖通過解析VQA任務(wù)中問題的語義信息,包括對象的屬性、關(guān)系等來建模圖結(jié)構(gòu)。與端到端的黑盒模型相比,加入圖形結(jié)構(gòu)的網(wǎng)絡(luò)可以直觀地為答案提供更多的解釋信息。

      2.5.1 圖像圖

      基于圖像圖的圖解釋方法主要通過圖像中目標對象的信息、關(guān)系來生成圖結(jié)構(gòu),從而為推理過程提供解釋。Norcliffe-Brown等人[53]提出了一種基于圖解釋的VQA模型。該模型中的圖形學(xué)習(xí)器學(xué)習(xí)以問題為條件的圖像的圖形表示,并對場景中對象之間的相關(guān)交互進行建模。該模型可以學(xué)習(xí)圖像的圖結(jié)構(gòu)表示,然后利用學(xué)習(xí)到的圖結(jié)構(gòu)來學(xué)習(xí)更好的圖像特征。Li等人[54]提出了一種關(guān)系感知圖注意網(wǎng)絡(luò)ReGAT,它將每個圖像編碼成一個圖,并通過圖注意機制建模多類型的對象間關(guān)系,以學(xué)習(xí)問題自適應(yīng)關(guān)系表示。ReGAT利用了兩種類型的視覺對象關(guān)系:一是表示對象之間幾何位置和語義交互的顯式關(guān)系,二是捕捉圖像區(qū)域之間隱藏動態(tài)的隱式關(guān)系,通過圖的注意來學(xué)習(xí)一個關(guān)系感知的區(qū)域表示。Guo等人[55]從圖的角度重新考察了VQA任務(wù)中的雙線性注意網(wǎng)絡(luò)。經(jīng)典的雙線性注意網(wǎng)絡(luò)建立了一個雙線性注意圖來提取問題中單詞與圖像中對象的聯(lián)合表示,但缺乏對復(fù)雜推理中單詞之間的關(guān)系的充分探索。相比之下,Guo等人開發(fā)的雙線性圖網(wǎng)絡(luò)來建模單詞和對象的聯(lián)合嵌入的上下文。圖像圖學(xué)習(xí)問題中的單詞與圖像中對象之間的圖,生成它們的聯(lián)合嵌入,而問題圖對單詞之間的圖進行建模,以交換上下文信息。圖像圖將檢測到的對象的特征傳輸?shù)剿鼈兿嚓P(guān)的查詢詞中,使輸出節(jié)點能夠同時具有語義和事實信息。問題圖從圖像圖中在這些輸出節(jié)點之間交換信息,以放大對象之間隱式而重要的關(guān)系。這兩種圖相互合作,因此模型可以建模對象之間的關(guān)系和依賴關(guān)系,從而實現(xiàn)多步驟推理。

      鄒品榮等人[56]提出了一個場景關(guān)系視覺問答模型,通過關(guān)注于圖像中實體間的語義關(guān)系和空間位置關(guān)系來分別生成語義關(guān)系圖和空間關(guān)系圖,然后利用圖注意力神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)自適應(yīng)問題的視覺關(guān)系區(qū)域表示,學(xué)習(xí)到的關(guān)系區(qū)域表征最終被送入自注意單元和引導(dǎo)注意單元生成跨媒介的語義特征用以分類輸出答案。該方法在推理的過程中顯式地提供了圖像中物體間的空間位置關(guān)系和語義關(guān)系,為模型推理出的答案提供事實依據(jù)作為解釋。張昊雨等人[57]提出了一種基于圖結(jié)構(gòu)的級聯(lián)注意力模型,用于捕捉不同候選框區(qū)域圖像的空間信息以及與問題之間更高的層次關(guān)系。該模型使用單詞嵌入和遞歸神經(jīng)網(wǎng)絡(luò)提取文體特征。對于圖像表示方法,使用候選框坐標和相應(yīng)的圖像特征向量來構(gòu)建成對描述符特征。這些文本特征和圖像組合特征被輸入到圖學(xué)習(xí)模塊,用于學(xué)習(xí)一個鄰接矩陣。該鄰接矩陣使得空間圖卷積不僅關(guān)注圖像中的目標對象,還關(guān)注與問題最相關(guān)的對象關(guān)系。在空間圖卷積的輸入中,除了來自學(xué)習(xí)模塊的鄰接矩陣,還包括從極坐標函數(shù)獲取的空間信息。融合了空間圖卷積和文本特征的特征向量被輸入到后續(xù)的深度級聯(lián)層網(wǎng)絡(luò),最終通過預(yù)測層給出分類答案??傮w來說,該方法引入了新的關(guān)系編碼方式,可以對圖像區(qū)域各個對象之間的關(guān)系進行空間建模,以此來揭示更加細粒度的圖像概念,從而為模型提供一個整體的解釋。

      與以上只通過圖像信息生成圖像圖的視覺問答方法不同,蘭紅等人[58]提出了一個問題引導(dǎo)的空間關(guān)系圖推理視覺問答模型QG-SRGR用于處理圖像圖數(shù)據(jù)。該模型通過引入問題信息的引導(dǎo)實現(xiàn)了基于問題的空間關(guān)系推理。模型利用問題引導(dǎo)的聚焦式注意力,分為節(jié)點注意力和邊注意力,用于發(fā)現(xiàn)與問題相關(guān)的視覺對象和空間關(guān)系。通過節(jié)點注意力和邊注意力的權(quán)重,構(gòu)造了門控圖推理網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用信息傳遞機制和控制特征信息的聚合,獲得節(jié)點的深度交互信息,從而學(xué)習(xí)到具有空間感知的視覺特征表示。通過這種方式,模型能夠?qū)崿F(xiàn)基于問題的空間關(guān)系推理。該方法在圖推理的過程中,來自問題的注意力信息為圖推理提供了依據(jù),相比傳統(tǒng)的圖推理方法擁有更強的可解釋性。

      2.5.2 問題圖

      理解VQA任務(wù)中的自然語言問題并將問題解析為邏輯形式是個困難的任務(wù),目前的一些方法通過類似于斯坦福解析器[59]的語言解析器來解析問題的結(jié)構(gòu)。問題通常包含一個或兩個關(guān)系三聯(lián)體,這要求模型由多步推理來預(yù)測合理的答案。Cao等人[60]在2019年提出了HVQA模型,通過知識路由模塊網(wǎng)絡(luò)KM-Net將問題解析為一系列相關(guān)的基本查詢的結(jié)構(gòu)組合來生成不同的多跳推理問題;隨后Cao等人[61]又提出了用于視覺問題推理的語言驅(qū)動的圖膠囊網(wǎng)絡(luò),通過在語言解析樹的指導(dǎo)下從底部到頂部合并膠囊,在CNN內(nèi)雕刻一個樹結(jié)構(gòu)。該方法通過每個單獨解析的語言布局引導(dǎo)膠囊網(wǎng)絡(luò)學(xué)習(xí)每個圖像問題對的自適應(yīng)推理歷程,CNN中的樹結(jié)構(gòu)提供了推理的解釋。

      Vatashsky等人[62]提出了一種方法,它由兩個主要部分組成:生成一個問題圖表示和一個回答過程。在把問題映射為圖的過程中,將問題表示為有向圖,其中節(jié)點表示對象,邊表示對象之間的關(guān)系。圖結(jié)構(gòu)的組件包括對象類、屬性和關(guān)系。節(jié)點表示包括回答此問題所需的所有對象視覺需求。這種方法將問題到圖的任務(wù)作為一個從自然語言問題轉(zhuǎn)換成圖表示的問題來處理,將基于LSTM的序列訓(xùn)練到序列模型[63]。圖在DFS遍歷后被序列化并表示為字符串序列,因此模型任務(wù)是將問題序列轉(zhuǎn)換為圖序列。

      以上方法中,圖像圖的建模提取了圖像中物體之間的關(guān)系,問題圖和回答程序的結(jié)合給了問答方法解釋其答案的能力。但是以上方法都是單一的偏向于某一個單獨模態(tài)的圖解釋方法,最近Xiong等人[64]應(yīng)用結(jié)構(gòu)化對齊,使用視覺和文本內(nèi)容的圖結(jié)構(gòu)表示,旨在捕捉視覺和文本模式之間的深層聯(lián)系,他們首先將不同的模態(tài)實體轉(zhuǎn)換為連續(xù)的節(jié)點和鄰接圖,然后合并它們進行結(jié)構(gòu)化對齊。這種方法在改善交叉模態(tài)表示的同時顯式地表達了它們的內(nèi)部關(guān)系,更容易被人理解,具有更強的可解釋性。

      表5對比了八種具有代表性的圖解釋方法在VQA v2數(shù)據(jù)集上的實驗結(jié)果,其中BGN模型的準確率最高,該方法從圖的角度對視覺問答任務(wù)中的雙線性注意網(wǎng)絡(luò)進行了新的研究。經(jīng)典的雙線性注意網(wǎng)絡(luò)通過構(gòu)建雙線性注意圖提取問題中的詞與圖像中對象的聯(lián)合表示,但在復(fù)雜推理中缺乏對詞之間關(guān)系的充分挖掘。BGN模型使用雙線性圖網(wǎng)絡(luò)來模擬單詞和對象的聯(lián)合嵌入上下文信息,該方法研究了圖像圖和問題圖兩種圖。圖像圖將被檢測對象的特征傳遞到與之相關(guān)的查詢詞上,使輸出節(jié)點同時具有語義信息和事實信息;問題圖在圖像圖的這些輸出節(jié)點之間交換信息,以放大對象之間隱式且重要的關(guān)系。這兩類圖之間相互配合,使模型可以對對象之間的關(guān)系和依賴關(guān)系進行建模,從而實現(xiàn)多步推理。

      3 數(shù)據(jù)集

      現(xiàn)有的視覺問答數(shù)據(jù)集種類已經(jīng)十分豐富,但是這些數(shù)據(jù)集大部分存在以下阻礙視覺問答任務(wù)的可解釋性問題:a)數(shù)據(jù)集中的圖片不夠貼近真實世界,很多數(shù)據(jù)集的圖片都是通過互聯(lián)網(wǎng)收集的,比如VQAv2.0等,這導(dǎo)致訓(xùn)練出來的模型在實際應(yīng)用時難以取得理想的效果;b)視覺問答數(shù)據(jù)集中的單一樣本答案缺乏多樣性,現(xiàn)有的視覺問答數(shù)據(jù)集中有的對圖像的標注信息有很多,但是答案只有一個,缺乏多樣性,此外答案和問題的語言也大部分是英文,導(dǎo)致數(shù)據(jù)集應(yīng)用的泛化性受限;c)數(shù)據(jù)集偏見的問題,因為涉及到的問題和概念的多樣性巨大且不平衡,往往會阻止模型學(xué)習(xí)推理,導(dǎo)致它們執(zhí)行有根據(jù)的猜測[65],從而導(dǎo)致類似于Clever Hans的問題出現(xiàn),即模型過度依賴偏差,阻礙其泛化。表6介紹了一些能增強可解釋性的數(shù)據(jù)集。

      最近的研究[69]發(fā)現(xiàn),VQA模型所作出的回答可能依賴于語言相關(guān)性,而不是邏輯推理,例如在VQAv1.0數(shù)據(jù)集上,關(guān)于某個問題,只需要回答“是”就可以獲得40%~90%的準確率。VQA模型如果僅僅記住訓(xùn)練數(shù)據(jù)中的強語言先驗值,就是所謂的語言偏見,VQA-CP[69]提出的減輕語言偏見的一個簡單解決方案是通過使用額外的注釋或數(shù)據(jù)擴充來增強訓(xùn)練數(shù)據(jù),比如利用上文提到的視覺解釋和文本解釋提高視覺標注能力[4];此外,在數(shù)據(jù)集中生成對抗樣本[70~72]有助于平衡訓(xùn)練數(shù)據(jù)。這些方法證明了無偏見的訓(xùn)練對提高VQA模型泛化性的效果。然而,VQA-CP的提出是為了驗證VQA模型是否能夠分離學(xué)習(xí)的視覺知識和記憶的語言先驗[69],因此,如何在有偏訓(xùn)練下進行無偏推理仍然是一個主要挑戰(zhàn)。目前已有的解決方案包括通過在訓(xùn)練集中使用單獨的僅提問分支來學(xué)習(xí)語言先驗[73]和一種稱為CF-VQA的新型反事實推理框架[74],以減少VQA中的語言偏見。具體來說,CF-VQA將語言偏見表述為問題對答案的直接因果效應(yīng),并通過從總因果效應(yīng)中減去直接語言效應(yīng)來緩解偏見。Zhao等人[75]提出了一種由基本模型分支、僅問題模型分支和可視化模型分支三部分組成的進一步改進視覺內(nèi)容的方法,以增強視覺內(nèi)容對答案的影響。由此可見,VQA任務(wù)可以通過對數(shù)據(jù)集的修改來解決視覺問答問?題中的語言偏見問題從而能夠讓模型輸出的答案更加準確合理,容易被人理解。

      4 展望與挑戰(zhàn)

      單一的圖像解釋和文本解釋存在難以反映推理過程的共同問題,其中,利用外部知識庫的文本解釋方法還存在依賴外部知識庫的問題。模塊化方法雖然能直觀體現(xiàn)推理過程的每個步驟,但是卻存在泛化能力差的問題。圖解釋方法不僅可以反映推理過程,而且可以融合圖像解釋和文本解釋方法,但是當圖結(jié)構(gòu)中節(jié)點較多時,存在模型效率變低的問題。多模態(tài)解釋的方法能充分利用數(shù)據(jù)中的信息,更接近人類直觀感受,但是與單一的解釋方法相比模型比較復(fù)雜。表7對本文討論的視覺問答可解釋性方法進行了總結(jié),并在最后提出了已有的問題和未來的發(fā)展方向。

      由此可見,可解釋的視覺問答仍是一個新興的研究,仍然有很多方面等待發(fā)展和優(yōu)化。具體而言,有以下幾個方面:a)多圖解釋結(jié)合,將文本生成的問題圖和圖片生成的場景圖結(jié)合,同時可以將外部知識和信息轉(zhuǎn)換成類似于知識圖譜的結(jié)構(gòu)化信息加入到圖推理中;b)探索更多與模型無關(guān)的視覺問答可解釋方法,當解釋方法可以應(yīng)用于任何模型時,機器學(xué)習(xí)開發(fā)人員可以自由使用他們喜歡的任何機器學(xué)習(xí)模型,任何建立在機器學(xué)習(xí)模型解釋上的東西,如圖形或用戶界面,也獨立于底層機器學(xué)習(xí)模型;c)將基于實例的可解釋方法應(yīng)用到視覺問答系統(tǒng)中,例如加入反事實樣本和對抗樣本等,這種方法同時也是與模型無關(guān)的方法,但是基于實例的方法通過選擇數(shù)據(jù)集的實例而不是通過創(chuàng)建特征來解釋模型,如反事實解釋、對抗樣本、有影響的實例等可解釋方法都是基于實例的;d)可解釋性缺乏評價指標,目前的可解釋方法很多,但是缺乏評價指標,所以難以比較哪種可解釋性方法更好;e)可以利用可解釋性來增強模型的魯棒性,目前的視覺問答系統(tǒng)對問題或圖像中的信息十分敏感,如果修改圖片或者問題中的句子就可能導(dǎo)致答案的變化,從而魯棒性降低,如果利用類似于模型解耦[76]等可以增強模型可解釋性的方法找出問題和圖像中對改變答案影響大的區(qū)域,然后再有針對性地優(yōu)化模型,就可以提高模型的魯棒性,然而目前視覺問答中這方面的研究較少;f)深度神經(jīng)網(wǎng)絡(luò)可解釋性研究理論框架的缺失問題,近年來,深度學(xué)習(xí)可解釋性的研究雖然有諸多的進展,但是依舊缺乏理論體系框架的支撐,使得研究的創(chuàng)新點過于分散,后來者很難收集前人的足跡點進行對比研究,評估并從中作出具有突破性的創(chuàng)新點。

      5 結(jié)束語

      可解釋性是一個非常有前景的研究領(lǐng)域,該領(lǐng)域已經(jīng)成為國內(nèi)外學(xué)者的研究熱點,并且取得了許多矚目的研究成果。但到目前為止,視覺問答與推理的可解釋性研究還處于初級階段,依然存在許多關(guān)鍵問題尚待解決。為了總結(jié)現(xiàn)有研究成果的優(yōu)勢與不足,探討未來研究方向,本文從可解釋性相關(guān)方法進行了歸類、總結(jié)和分析,同時討論了當前研究面臨的挑戰(zhàn)和未來潛在的研究方向,旨在為推動視覺問答的解釋性研究的進一步發(fā)展提供幫助。

      參考文獻:

      [1]Antol S, Agrawal A, Lu Jiasen, et al. VQA: visual question answe-ring[C]//Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society,2015:2425-2433.

      [2]Marino K, Rastegari M, Farhadi A, et al. OK-VQA:a visual question answering benchmark requiring external knowledge[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3190-3199.

      [3]Wachter S, Mittelstadt B, Russell C. Counterfactual explanations without opening the black box: automated decisions and the GDPR[EB/OL].(2018-03-21).https://arxiv.org/abs/1711.00399.

      [4]Selvaraju R R, Lee S, Shen Yilin, et al. Taking a hint: leveraging explanations to make vision and language models more grounded[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:2591-2600.

      [5]Peng Liang, Yang Yang, Wang Zheng, et al. MRA-Net:improving VQA via multi-modal relation attention network[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(1):318-329.

      [6]Ben-Younes H, Cadene R, Cord M, et al. MUTAN: multimodal tucker fusion for visual question answering[C]//Proc of IEEE International Conference on Computer Vision. Washington DC:IEEE Computer Society,2017:2612-2620.

      [7]Wang Yu, Shen Yilin, Jin Hongxia. An interpretable multimodal visual question answering system using attention-based weighted contextual features[C]//Proc of the 19th International Conference on Autonomous Agents and Multi-agent Systems.Richland, SC:International Foundation for Autonomous Agents and Multiagent Systems,2020:2038-2040.

      [8]Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural networks,2005,18(5-6):602-610.

      [9]Qiao Tingting, Dong Jianfeng, Xu Duanqing. Exploring human-like attention supervision in visual question answering[EB/OL].(2017-09-19).https://arxiv.org/abs/1709.06308.

      [10]Zhang Yundong, Niebles J C, Soto A. Interpretable visual question answering by visual grounding from attention supervision mining[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2019:349-357.

      [11]Miller T. Explanation in artificial intelligence: insights from the social sciences[J].Artificial Intelligence,2019,267(2):1-38.

      [12]Kim B, Khanna R, Koyejo O. Examples are not enough. Learn to criticize! Criticism for interpretability[C]//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2016:2288-2296.

      [13]陳婷,王玉德,任志偉.基于問題增強的問題引導(dǎo)圖像視覺問答算法[J].通信技術(shù),2022,55(2):166-173.(Chen Ting, Wang Yude, Ren Zhiwei. Question-guided image attention based on question enhancement for visual question answering[J].Communication Technology,2022,55(2):166-173.)

      [14]Shetty R, Fritz M, Schiele B. Adversarial scene editing:automatic object removal from weak supervision[C]//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:7717-7727.

      [15]Fong R C, Vedaldi A. Interpretable explanations of black boxes by meaningful perturbation[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3429-3437.

      [16]Liu Runtao, Liu Chenxi, Bai Yutong, et al. CLEVR-Ref+: diagnosing visual reasoning with referring expressions[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:4180-4189.

      [17]Rissanen J. Modeling by shortest data description[J].Automatica,1978,14(5):465-471.

      [18]Johnson J, Hariharan B, Van Der Maaten L, et al. Inferring and executing programs for visual reasoning[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3008-3017.

      [19]Agarwal V, Shetty R, Fritz M. Towards causal VQA: revealing and reducing spurious correlations by invariant and covariant semantic editing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9687-9695.

      [20]Simonyan K, Vedaldi A, Zisserman A. Deep inside convolutional networks: visualising image classification models and saliency maps[EB/OL].(2014-04-19).https://arxiv.org/abs/1312.6034.

      [21]Shrikumar A, Greenside P, Kundaje A. Learning important features through propagating activation differences[C]//Proc of the 34th International Conference on Machine Learning.2017:3145-3153.

      [22]Sundararajan M, Taly A, Yan Qiqi. Axiomatic attribution for deep networks[C]//Proc of the 34th International Conference on Machine Learning.2017:3319-3328.

      [23]Halbe S. Exploring weaknesses of VQA models through attribution driven insights[C]//Proc of the 2nd Grand-Challenge and Workshop on Multimodal Language.Stroudsburg,PA:Association for Computational Linguistics,2020:64-68.

      [24]Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM:visual explanations from deep networks via gradient-based localization[J].International Journal of Computer Vision,2020,128(2):336-359.

      [25]Boukhers Z, Hartmann T, Jürjens J. COIN: counterfactual image generation for VQA interpretation[J].Sensors,2022,22(6):2245.

      [26]Das A, Agrawal H, Zitnick L, et al. Human attention in visual question answering:do humans and deep networks look at the same regions?[J].Computer Vision and Image Understanding,2017,163(10):90-100.

      [27]Park D H, Hendricks L A, Akata Z, et al. Multimodal explanations:justifying decisions and pointing to the evidence[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:8779-8788.

      [28]Farhadi A, Hejrati M, Sadeghi M A, et al. Every picture tells a story: generating sentences from images[C]//Proc of the 11th European Conference on Computer Vision.Cham:Springer,2010:15-29.

      [29]Kulkarni G, Premraj V, Ordonez V, et al. BabyTalk: understanding and generating simple image descriptions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.

      [30]Mao Junhua, Xu Wei, Yang Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[EB/OL].(2015-06-11).https://arxiv.org/abs/1412.6632.

      [31]Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption generation with visual attention[C]//Proc of the 32nd International Conference on International Conference on Machine Lear-ning.2015:2048-2057.

      [32]Li Qing, Tao Qingyi, Joty S, et al. VQA-E:explaining,elaborating, and enhancing your answers for visual questions[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:570-586.

      [33]Cai Wenliang, Qiu Guoyong. Visual question answering algorithm based on image caption[C]//Proc of the 3rd IEEE Information Technology,Networking, Electronic and Automation Control Conference.Piscataway,NJ:IEEE Press,2019:2076-2079.

      [34]Hendricks L A, Akata Z, Rohrbach M, et al. Generating visual explanations[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:3-19.

      [35]Wang Peng, Wu Qi, Shen Chunhua, et al. FVQA:fact-based visual question answering[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(10):2413-2427.

      [36]Tandon N, De Melo G, Suchanek F, et al. WebChild: harvesting and organizing commonsense knowledge from the Web[C]//Proc of the 7th ACM International Conference on Web Search and Data Mi-ning.New York:ACM Press,2014:523-532.

      [37]Auer S, Bizer C, Kobilarov G, et al. DBpedia:a nucleus for a Web of open data[C]//Proc of the 6th International Semantic Web Confe-rence.Berlin:Springer,2007:722-735.

      [38]Liu H, Singh P. ConceptNet: a practical commonsense reasoning tool-kit[J].BT Technology Journal,2004,22(4):211-226.

      [39]Narasimhan M, Schwing A G. Straight to the facts: learning know-ledge base retrieval for factual visual question answering[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:451-468.

      [40]Basu K, Shakerin F, Gupta G. AQuA: ASP-based visual question answering[C]//Proc of the 22nd International Symposium on Practical Aspects of Declarative Languages.Cham:Springer,2020:57-72.

      [41]Riquelme F, De Goyeneche A, Zhang Yundong, et al. Explaining VQA predictions using visual grounding and a knowledge base[J].Image and Vision Computing,2020,101(9):103968.

      [42]Yu Jing, Zhu Zihao, Wang Yujing, et al. Cross-modal knowledge reasoning for knowledge-based visual question answering[J].Pattern Recognition,2020,108(12):107563.

      [43]Wang Yanan, Yasunaga M, Ren Hongyu, et al. VQA-GNN:reaso-ning with multimodal semantic graph for visual question answering[EB/OL].(2022-05-23).https://arxiv.org/abs/2205.11501.

      [44]Ding Yang, Yu Jing, Liu Bang, et al. MuKEA: multimodal knowledge extraction and accumulation for knowledge-based visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:5079-5088.

      [45]Wu Jialin, Mooney R J. Faithful multimodal explanation for visual question answering[C]//Proc of ACL Workshop BlackboxNLP:Analyzing and Interpreting Neural Networks for NLP. Stroudsburg,PA:Association for Computational Linguistics,2019:103-112.

      [46]Zhang Weifeng, Yu Jing, Zhao Wenhong, et al. DMRFNet:deep multimodal reasoning and fusion for visual question answering and explanation generation[J].Information Fusion,2021,72(8):70-79.

      [47]鄒蕓竹,杜圣東,滕飛,等.一種基于多模態(tài)深度特征融合的視覺問答模型[J].計算機科學(xué),2023,50(2):123-129.(Zou Yunzhu, Du Shengdong, Teng Fei, et al. Visual question answering model based on multi-modal deep feature fusion[J].Computer Science, 2023,50(2):123-129.)

      [48]Andreas J, Rohrbach M, Darrell T, et al. Neural module networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2016:39-48.

      [49]Hu Ronghang, Andreas J, Rohrbach M, et al. Learning to reason:end-to-end module networks for visual question answering[C]//Proc of IEEE International Conference on Computer Vision. Washington DC:IEEE Computer Society,2017:804-813.

      [50]Hu Ronghang, Andreas J, Darrell T, et al. Explainable neural computation via stack neural module networks[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:53-71.

      [51]Shi Jiaxin, Zhang Hanwang, Li Juanzi. Explainable and explicit visual reasoning over scene graphs[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8368-8376.

      [52]Ren Mucheng, Huang Heyan, Gao Yang. Prediction or comparison: toward interpretable qualitative reasoning[EB/OL].(2021-06-04).https://arxiv.org/abs/2106.02399.

      [53]Norcliffe-Brown W, Vafeias E, Parisot S. Learning conditioned graph structures for interpretable visual question answering [C]// Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:8344-8353.

      [54]Li Linjie, Gan Zhe, Cheng Yu, et al. Relation-aware graph attention network for visual question answering[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:10312-10321.

      [55]Guo Dalu, Xu Chang, Tao Dacheng. Bilinear graph networks for visual question answering[J].IEEE Trans on Neural Networks and Learning Systems,2023,34(2):1023-1034.

      [56]鄒品榮,肖鋒,張文娟,等.融合場景語義與空間關(guān)系的視覺問答[J].西安工業(yè)大學(xué)學(xué)報,2023,43(1):56-65.(Zou Pinrong, Xiao Feng, Zhang Wenjuan, et al. Visual question answering based on scene semantic relation and spatial relation[J].Journal of Xian Technological University,2023,43(1):56-65.)

      [57]張昊雨,張德.基于圖結(jié)構(gòu)的級聯(lián)注意力視覺問答模型[J].計算機工程與應(yīng)用,2023,59(6):155-161.(Zhang Haoyu, Zhang De. Cascaded attention visual question answering model based on graph structure[J].Computer Engineering and Applications,2023,59(6):155-161.)

      [58]蘭紅,張蒲芬.問題引導(dǎo)的空間關(guān)系圖推理視覺問答模型[J].中國圖象圖形學(xué)報,2022,27(7):2274-2286.(Lan Hong, Zhang Pufen. Question-guided spatial relation graph reasoning model for visual question answering[J].Journal of Image and Graphics,2022,27(7):2274-2286.)

      [59]Klein D. Manning C D. Accurate unlexicalized parsing[C]//Proc of the 41st Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2003:423-430.

      [60]Cao Qingxing, Li Bailin, Liang Xiaodan, et al. Explainable high-order visual question reasoning:a new benchmark and knowledge-routed network[EB/OL].(2019-09-23).https://arxiv.org/abs/1909.10128.

      [61]Cao Qingxing, Liang Xiaodan, Wang Keze, et al. Linguistically driven graph capsule network for visual question reasoning[EB/OL].(2020-03-23).https://arxiv.org/abs/2003.10065.

      [62]Vatashsky B Z, Ullman S. VQA with no questions-answers training[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10373-10383.

      [63]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:3104-3112.

      [64]Xiong Peixi, You Quanzeng, Yu Pei, et al. SA-VQA:structured alignment of visual and semantic representations for visual question answering[EB/OL].(2022-01-25).https://arxiv.org/abs/2201.10654.

      [65]Kervadec C, Antipov G, Baccouche M, et al. Roses are red, violets are blue… but should VQA expect them to?[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2021:2775-2784.

      [66]Plummer B A, Wang Liwei, Cervantes C M, et al. Flickr30k Entities: collecting region-to-phrase correspondences for richer image-to-sentence models[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:2641-2649.

      [67]Krishna R, Zhu Yuke, Groth O, et al. Visual Genome: connecting language and vision using crowdsourced dense image annotations[J].International Journal of Computer Vision,2017,123(1):32-73.

      [68]Zhu Yuke, Groth O, Bernstein M, et al. Visual7W: grounded question answering in images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:4995-5004.

      [69]Agrawal A, Batra D, Parikh D, et al. Dont just assume; look and answer: overcoming priors for visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4971-4980.

      [70]Chen Long, Yan Xin, Xiao Jun, et al. Counterfactual samples synthesizing for robust visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:10797-10806.

      [71]Abbasnejad E, Teney D, Parvaneh A, et al. Counterfactual vision and language learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10041-10051.

      [72]Liang Zujie, Jiang Weitao, Hu Haifeng, et al. Learning to contrast the counterfactual samples for robust visual question answering[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2020:3285-3292.

      [73]Cadene R, Dancette C, Ben-Younes H, et al. RUBi:reducing unimodal biases for visual question answering[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:841-852.

      [74]Niu Yulei, Tang Kaihua, Zhang Hanwang, et al. Counterfactual VQA:a cause-effect look at language bias[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:12695-12705.

      [75]Zhao Jia, Zhang Xuesong, Wang Xuefeng, et al. Overcoming language priors in VQA via adding visual module[J].Neural Computing and Applications,2022,34(11):9015-9023.

      [76]Hu Jie, Cao Liujuan, Tong Tong, et al. Architecture disentanglement for deep neural networks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:652-661.

      猜你喜歡
      自然語言處理計算機視覺人工智能
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      人工智能與就業(yè)
      數(shù)讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      機器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
      危險氣體罐車液位計算機視覺監(jiān)控識別報警系統(tǒng)設(shè)計
      計算機視覺在交通領(lǐng)域的應(yīng)用
      基于計算機視覺的細小顆粒團重量測量的研究
      下一幕,人工智能!
      面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      兖州市| 门源| 微山县| 手游| 三河市| 高尔夫| 郸城县| 会东县| 东乌珠穆沁旗| 荔浦县| 和顺县| 绥化市| 北海市| 电白县| 河南省| 乌兰察布市| 宁津县| 吉首市| 肥东县| 克什克腾旗| 西贡区| 拉萨市| 嘉定区| 五峰| 新津县| 连山| 长治县| 宜城市| 开鲁县| 孝感市| 莱阳市| 麻城市| 布拖县| 贡山| 布尔津县| 齐齐哈尔市| 遵义县| 饶平县| 富川| 民勤县| 格尔木市|