◆鮮光靖 黃永忠
(1.信息工程大學(xué) 河南 450001;2.數(shù)學(xué)工程與先進計算國家重點實驗室 河南 450001)
視覺問答技術(shù)(Visual Question Answering,VQA)是人工智能領(lǐng)域的一項新興課題,該課題結(jié)合計算機視覺和自然語言處理(Natural Language Processing, NLP)兩個學(xué)科領(lǐng)域,其任務(wù)是把給定的圖像和與圖像相關(guān)的自然語言問題作為輸入,生成一個自然語言答案作為輸出,即輸入圖像和與圖像相關(guān)的文本問題,輸出確定正確的答案,其中答案可以是幾個字或短語,例如二值(是/否)答案或各種多項選擇00的候選答案。此外,“填空”也是VQA的重要任務(wù),即圖像的描述必須用一個或多個缺失的單詞填補。
在計算機視覺任務(wù)中,所要處理的任務(wù)通常在系統(tǒng)運行前確定,例如圖像字幕處理,系統(tǒng)的輸出由輸入的圖像決定,圖像不變則輸出不會改變。然而,在VQA任務(wù)中,問題及其所需操作對象都是未知的,問題是在系統(tǒng)運行過程中提出,輸出的答案因訓(xùn)練集和操作對象的不同而有所區(qū)別。因此,VQA更充滿“智能”的味道。首先,與NLP領(lǐng)域文本問答相比,VQA任務(wù)面臨著圖像維度更高,噪聲更多,圖像缺乏結(jié)構(gòu)化語義和語法規(guī)則等挑戰(zhàn)。其次,與高度抽象的自然語言相比,現(xiàn)實世界的圖像更具豐富多彩性,例如自然語言的短語“黃襯衫”僅高度抽象概括物體“襯衫”,而同樣的現(xiàn)實世界的圖像“黃襯衫”卻有多種不同的描述,例如“襯衫”的“大小”、“位置”、“樣式”等一系列屬性。最后,與圖像字幕相比VQA任務(wù)更加復(fù)雜,VQA任務(wù)通常需要一些額外信息,例如常識、與圖像內(nèi)容相關(guān)的專業(yè)知識、甚至圖像中的特定元素的百科知識等。因此,VQA是一個“知識綜合體”,對它的評估更具有開放性。
首先將圖像和NLP結(jié)合的模型是“SHRDLU”系統(tǒng),它允許用戶使用自然語言命令計算機在“塊世界”移動各種對象。此外,會話式機器人代理的研究也是以視覺圖像研究為基礎(chǔ)。然而,與VQA自由開放式任務(wù)相比,這些研究僅限于特定領(lǐng)域,并且語言形式受限。受益于神經(jīng)網(wǎng)絡(luò)、計算機視覺和 NLP技術(shù)的發(fā)展,以及相關(guān)大型數(shù)據(jù)庫不斷完善,近些年出現(xiàn)大量的VQA研究成果。本文綜合該領(lǐng)域研究進展,總結(jié)目前相對成熟的VQA模型,并指出VQA任務(wù)的下一步發(fā)展方向。本文組織結(jié)構(gòu)如下:
第一部分簡要總結(jié)神經(jīng)網(wǎng)絡(luò)在圖像處理方面的主要貢獻:圖像字幕,人臉識別以及視覺跟蹤領(lǐng)域的研究情況。
第二部分析基于神經(jīng)網(wǎng)絡(luò)的VQA模型,這也是本文的重點。依據(jù)現(xiàn)存模型處理VQA任務(wù)的貢獻情況,將VQA模型分為四類:聯(lián)合嵌入模型(Joint Embedding Models)、關(guān)注機制模型(Attention Mechanisms)、模塊化組合模型(Compositional Models)和知識庫增強模型(Knowledge Base-enhanced Models)。聯(lián)合嵌入模型使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNNs)在共同特征空間學(xué)習(xí)圖像和句子的嵌入,然后饋送到分類器預(yù)測答案。關(guān)注機制模型受圖像字幕研究相關(guān)技術(shù)啟發(fā)通過關(guān)注輸入的特定部分來改進聯(lián)合嵌入模型,主要思想是用空間特征圖代替整體特征,并允許問題與圖的特定區(qū)域進行交互。模塊化組合模型允許對特定問題執(zhí)行特定的計算。例如Andreas等人使用語法分析器分解給定的問題,然后根據(jù)組成問題的各模塊構(gòu)建神經(jīng)網(wǎng)絡(luò)。知識庫增強方法通過查詢結(jié)構(gòu)化知識庫來處理外部數(shù)據(jù)的使用問題,知識庫信息涵蓋的范圍包括常識到百科,并且不必在訓(xùn)練時間內(nèi)對其進行訪問。
本文最后部分總結(jié)全文,并給出VQA研究下一步的方向。
神經(jīng)網(wǎng)絡(luò)算法在圖像處理上與傳統(tǒng)的序列處理算法相比具有高度并行處理能力、較強的學(xué)習(xí)能力,非線性映射功能,以及對噪聲或不完全數(shù)據(jù)處理表現(xiàn)出的泛化功能。因此,基于神經(jīng)網(wǎng)絡(luò)的圖像處理研究擁有廣闊的應(yīng)用前景,例如,圖像字幕,人臉識別,以及視覺跟蹤領(lǐng)域的研究等,而相關(guān)領(lǐng)域技術(shù)的研究也指導(dǎo)了圖像問答技術(shù)的發(fā)展。
Donahue等人研發(fā)一套端到端的大型視覺學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,并演示了該模型在視頻識別、圖像描述、問題檢索和視頻敘述上的應(yīng)用。Mao等采用多模循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Multimodal Recurrent Neural Networks,M-RNN)根據(jù)給定的前置單詞和圖像直接模擬生成單詞的概率分布圖,然后根據(jù)此分布生成圖像字幕。該模型由兩個子網(wǎng)絡(luò)組成:用于處理句子的深層循環(huán)神經(jīng)網(wǎng)絡(luò)和處理圖像的深層卷積網(wǎng)絡(luò)。這兩個子網(wǎng)絡(luò)在多模式層中相互作用以形成整個M-RNN模型。
文獻[1]提出的 DeepFace模型,以及 Sun等人相繼提出的DeepID模型、 DeepID2模型、DeepID2+模型和DeepID3模型都是利用卷積神經(jīng)網(wǎng)絡(luò)分層提取圖像特征,從而減少信息的丟失,在人臉識別中獲得了很高的準確率。Google公司的FaceNet模型采用端到端的學(xué)習(xí)方法,引入三元組損失函數(shù),并將其應(yīng)用到多個層中。經(jīng)戶外人臉檢測數(shù)據(jù)庫(Labeled Faces in the Wild, LFW)和 YouTube 人臉數(shù)據(jù)庫測試,識別準確率分別為 99.63%和95.12%。在人臉識別領(lǐng)域的研究中神經(jīng)網(wǎng)絡(luò)顯示出強大的優(yōu)越性。
文獻[2]首先給出基于CNNs的視覺跟蹤算法,該算法采用三個3卷積層和若干降采樣層的CNN對當(dāng)前幀和上一幀進行采樣,從而獲取目標、背景以及時間和空間特征。概率圖采用兩個采樣對,分別輸入兩個 CNNs,得到兩組全局信息和局部信息共四張關(guān)鍵點的概率圖,從而提高跟蹤的精確度。文獻[3]采用VGG-Net深度模型,對輸入圖片分層提取特征,利用相關(guān)濾波器處理各層輸出,最后使用粗細轉(zhuǎn)換估算策略,從而得到目標較精確的位置。
Malinowski等人第一次提出“開放世界”(open-world)主題的視覺問答任務(wù)。他們采用文本語義解析與貝葉斯公式圖像分割相結(jié)合的方法,從訓(xùn)練集中最近鄰居進行采樣。但是該模型需要人工定義謂詞,從而導(dǎo)致數(shù)據(jù)集難以擴展。此外,過度依賴圖像分割算法的精度和圖像深度信息也是算法的缺陷之一。另一個對VQA任務(wù)的早期嘗試是Tu等人提出的基于文本和視頻的聯(lián)合解析圖方法。Genman等人同樣致力于早期的VQA研究工作,他們設(shè)計一種在圖像上進行訓(xùn)練的自動“查詢生成器”,可以從任何給定的測試圖像中生成二值問題。這些早期方法的共同特征是將問題限定在預(yù)先設(shè)定的形式中,缺乏“自由”和“開放”的特性。本章將重點介紹目前具有“自由”和“開放”特性的基于神經(jīng)網(wǎng)絡(luò)的視覺問答模型,并將其劃分歸類。
聯(lián)合嵌入模型是將圖像和文字聯(lián)合嵌入,即允許模型在公共的特征空間中學(xué)習(xí),采用 CNN預(yù)訓(xùn)練的方式進行物體識別從而獲取圖像特征,對問題和圖像內(nèi)容進行推理。文字特征則是在大型文本庫上以單詞嵌入的方式獲取。單詞嵌入的實質(zhì)是將單詞映射到反映語義相似性距離的空間中。問題中每個單詞的嵌入饋送到RNN以捕獲句法模式并處理可變長度序列。
Malinowski等人提出“Neural-Image-QA”模型,該模型采用長短期記憶單元(Long Short-Term Memory cells,LSTMs)實現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)。使用RNN的優(yōu)勢是可以處理可變大小的輸入(問題)和輸出(答案)。圖像特征是通過物體識別過程中CNN預(yù)訓(xùn)練的方式生成,然后將問題和圖像特征一起饋送到LSTM編碼器產(chǎn)生固定尺寸的特征向量,然后傳遞給LSTM解碼器。該過程中每次迭代一個單詞,最后解碼器產(chǎn)生可變長度答案。在循環(huán)過程中,如果LSTM預(yù)測出特殊符號
Gao等提出略有不同的方法,命名為“Multimodal QA” (MQA)模型。該模型使用 LSTM對問題進行編碼并產(chǎn)生答案,但與[5]有兩點不同。首先,在LSTM編碼器和解碼器之間使用公共共享權(quán)重,而MQA學(xué)習(xí)不同的參數(shù),并且只共享單詞嵌入。其次,作為圖像表示的CNN特征在輸入問題之前不饋送到編碼器中。
Noh等人采用自適應(yīng)確定權(quán)重方法,利用帶動態(tài)參數(shù)層的CNN處理 VQA問題。他們利用門控循環(huán)單元(Gated Recurrent Units, GRU)組成單獨的參數(shù)預(yù)測網(wǎng)絡(luò)將問題作為輸入,通過輸出端的完全連接層產(chǎn)生候選權(quán)重,從而預(yù)測自適應(yīng)參數(shù)。與和其相比提高了答案的準確率。
Fukui等人提出一種池化方法聯(lián)合嵌入視覺和文本特征。他們通過隨機地將圖像和問題特征投影到更高維空間來執(zhí)行“多模緊湊雙線性池”(Multimodal Compact Bilinear pooling,MCB),然后在傅里葉空間中將兩個向量卷積以獲得高效率。Kim等人使用多模殘差學(xué)習(xí)網(wǎng)絡(luò) (Multimodal Residual learning Networks,MRN) 學(xué)習(xí)圖像和語言的聯(lián)合表示。Saito等人提出“DualNet”模型,該模型集成兩種操作,即元素加法和元素乘法,以嵌入視覺和文本特征。類似,預(yù)先設(shè)定可能的答案集合,并將答案作為分類問題處理。Ka等人對預(yù)期答案類型進行了詳細的預(yù)測,并在貝葉斯框架中構(gòu)造答案。
聯(lián)合嵌入方法中部分模型沒有利用RNN對問題編碼。例如,Ma等使用CNNs處理問題,圖像和文本特征通過多模CNN形成整體均勻的卷積架構(gòu)嵌入到公共空間。Zhou和Antol等都是用傳統(tǒng)的詞袋表示問題。
聯(lián)合嵌入模型在原理上是最簡單的,也是目前大多數(shù) VQA研究方法的基礎(chǔ)。然而,聯(lián)合潛入模型存在兩個缺陷,首先,該模型只能捕捉到訓(xùn)練集中存在的知識,而對現(xiàn)實世界中眾多的擴展數(shù)據(jù)集外的知識則無能為力。第二,以這種方式訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的能力有限,會獲取過多“額外”的信息。最新的改進模型,例如MCB和MRN,在VQA領(lǐng)域具有較強的性能,并在特征提取和嵌入空間的投影方面仍具有較大的改進空間,這也聯(lián)合嵌入模型下一步發(fā)展的方向。
盡管聯(lián)合嵌入模型仍具有較大的發(fā)展空間,但是以全局特征作為視覺輸入,在預(yù)測階段引入噪聲仍是該模型的短板。關(guān)注模型的主要目標是通過使用本地圖像特征,并允許模型對不同區(qū)域的特征賦予不同的重要性來解決此問題。Xu等在圖像字幕的研究中提出對視覺任務(wù)采用關(guān)注方式的早期應(yīng)用。模型的關(guān)注(attention)組件首先識別圖像突出區(qū)域并做進一步處理,然后在這些區(qū)域上生成字幕,所以很容易用此方法關(guān)注圖像中與問題相關(guān)的區(qū)域來處理VQA任務(wù)。
文獻描述了怎樣在標準 LSTM模型中增加空間關(guān)注度?!瓣P(guān)注增強”(attention-enhanced)LSTM模型計算過程如下:
其中, C(I)表示圖像I的卷積特征圖。at是在第t步為每個卷積特征設(shè)置的貢獻值,at值越大表示與問題對應(yīng)區(qū)域的相關(guān)性更高。在該公式中,標準LSTM可以認為是at值均勻分布的一個特殊情況,即每個區(qū)域的貢獻值相等。Jiang等人也采用了類似的機制。
Chen等提出與上面描述的單詞引導(dǎo)(word-guided)關(guān)注不同的模型。他們通過在空間特征圖中搜索與輸入的問題語義相對應(yīng)的視覺特征來生成“問題引導(dǎo)關(guān)注圖”(Question-guided Attention Map,QAM)。模型把問題嵌入從語義空間轉(zhuǎn)換到視覺空間生成卷積核,然后用視覺特征圖與可配置卷積核進行卷積實現(xiàn)搜索,卷積核中包含由問題決定的視覺信息。Yang等也采用這種方案并與堆疊關(guān)注網(wǎng)絡(luò)(Stacked Attention Networks, SAN )結(jié)合迭代地推斷答案。Xu等提出空間記憶網(wǎng)絡(luò) VQA模型(Spatial Memory Network VQA, SMem-VQA),SMem-VQA采用多跳圖像關(guān)注架構(gòu),第一個hop采用單詞引導(dǎo)關(guān)注,第二個hop采用問題引導(dǎo)。在文獻中,作者使用對象策略生成圖像區(qū)域,然后選擇與問題相關(guān)的區(qū)域生成答案。Ilievski等人使用現(xiàn)成的對象檢測器識別與問題關(guān)鍵詞相關(guān)區(qū)域,然后利用LSTM融合這些區(qū)域的全局特征信息。上述模型研究的重點聚焦在視覺關(guān)注上,而Lu等把重點拓展到圖像的表示上,他們結(jié)合圖像推理和問題關(guān)注,提出了“HieCoAtt ”模型,對稱地處理圖像和問題。
此外,一些研究人員將關(guān)注機制模型與其他模型結(jié)合,提出組合創(chuàng)新式的模型,例如Fukui將關(guān)注機制模型與MCB結(jié)合處理VQA任務(wù),Xu等將記憶網(wǎng)絡(luò)與關(guān)注機制結(jié)合以解決VQA問題。
總的來說,關(guān)注機制模型使用全局圖像特征提高了模型性能。例如,文獻的研究表明,本章描述的關(guān)注增強型LSTM模型在“Visual7W”數(shù)據(jù)集上執(zhí)行“Telling”和“Grounding”任務(wù)表現(xiàn)的都比“VIS+LSTM”模型優(yōu)秀。關(guān)注機制模型在現(xiàn)存數(shù)據(jù)集上都有較高的準確性,但是對于二值(是/否)問題沒有太多優(yōu)勢,因為二值問題需要更長的推理鏈,而開放式式問題通常僅需要從圖像中識別一個概念即可,因此,對于二值問題的處理,關(guān)注模型可能需要從其他方面進行改進創(chuàng)新。
上述討論的模型使用CNNs和RNNs提取圖像和句子表示,模型的性能與CNNs和RNNs有關(guān)。在人工神經(jīng)網(wǎng)絡(luò)中,模塊化架構(gòu)成為越來越受歡迎研究的方向,該方法包含并且連接不同功能的模塊,例如記憶能力或者特殊類型推理能力的模塊等。模塊化的潛在的優(yōu)勢是可以更好地利用監(jiān)督機制。一方面,它有助于傳遞學(xué)習(xí),可以在不同的架構(gòu)和任務(wù)中使用并訓(xùn)練相同的模塊;另一方面,它允許使用深度監(jiān)督機制,即對目標的優(yōu)化取決于內(nèi)部模塊的輸出。考慮其在模塊化方面的貢獻,本章重點關(guān)注兩類特殊模型,即神經(jīng)網(wǎng)絡(luò)模塊(Neural Module Networks,NMN)和動態(tài)記憶網(wǎng)絡(luò)(Dynamic Memory Networks,DMN)。本文中第2.2節(jié)和2.4節(jié)討論的部分模型方法也可以劃分為組合模型類別,本節(jié)將不再詳細介紹。
(1)神經(jīng)網(wǎng)絡(luò)模塊(NMNs)
Andreas等人首先將NMNs引入VQA任務(wù),旨在探索問題的語言組織結(jié)構(gòu),處理各種復(fù)雜問題。對于簡單的問題僅需從圖像中檢索一條信息即可回答,而對于復(fù)雜且抽象的問題可能需要多個處理步驟,故NMNs反映了網(wǎng)絡(luò)中每個問題實例的復(fù)雜性。
NMNs使用NLP中的工具對問題進行語義解析,解析樹變成預(yù)制集合模塊的組合,然后用于回答問題。該模型中所有模塊都是獨立且可組合的,每個問題實例執(zhí)行不同的計算,而且在實驗期間可以使用一系列在訓(xùn)練期間彼此不可見的模塊。輸入和輸出模塊有三種類型:圖像特征,圖像區(qū)域和標簽(用于分類)。根據(jù)輸入和輸出類型可以預(yù)定義一系列模塊,但是抽取行為需要在特定的問題實例上進行端到端訓(xùn)練,因此訓(xùn)練不需要額外的監(jiān)督。
Andreas等人在文獻中采用“standford”依賴關(guān)系解析器進行問題解析,從而確定句子各部分間的語法關(guān)系,然后使用特殊手寫規(guī)則,以模塊化的組合形式將解析樹轉(zhuǎn)化為結(jié)構(gòu)化查詢。此外,在文獻中Andreas等人還額外學(xué)習(xí)了排名函數(shù)從候選解析器中選擇最佳結(jié)構(gòu)。
NMNs的局限性是解析問題期間形成的固有瓶頸:該階段確定了網(wǎng)絡(luò)結(jié)構(gòu),而且錯誤不可恢復(fù)。此外,模塊的組裝使用簡化的問題,舍棄了一些語法提示。而作為臨時解決方案,NMNs的作者將其輸出與經(jīng)典LSTM問題編碼器的輸出取均值來獲得最終答案。在實踐中,因為VQA基準測試集缺少復(fù)雜的問題,NMNs的潛力沒有得到充分發(fā)揮。
(2) 動態(tài)記憶網(wǎng)絡(luò)(DMNs)
動態(tài)記憶網(wǎng)絡(luò)是具有特定模塊化結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。Kumar等應(yīng)用動態(tài)記憶網(wǎng)絡(luò)處理自然語言問題,隨后0000基于該算法陸續(xù)進行改進,并將其應(yīng)用于文本問答任務(wù),而Xiong等人首先將其應(yīng)用到 VQA 任務(wù)。DMNs屬于廣義的記憶增強(memory-augmented)網(wǎng)絡(luò),在輸入的內(nèi)部表示上執(zhí)行讀寫操作。這種機制與關(guān)注模型類似,旨在通過對數(shù)據(jù)的多個部分之間的多次交互進行建模來處理需要復(fù)雜邏輯推理解決的任務(wù)。
動態(tài)記憶網(wǎng)絡(luò)由四個相互獨立的模塊組成。輸入模塊將輸入數(shù)據(jù)轉(zhuǎn)化到“facts”向量,其因輸入數(shù)據(jù)類型變化而異。問題模塊使用GRU計算問題的向量表示。情景記憶模塊檢索回答問題所需的facts向量,在VQA任務(wù)中,情景記憶模塊也包括關(guān)注圖像特定區(qū)域的關(guān)注機制模型。DMNs模型結(jié)合關(guān)注機制,選擇相關(guān)向量和更新策略,從當(dāng)前狀態(tài)和檢索到的 facts向量之間的相互作用中生成新的記憶表示。最初由問題模塊的表示初始化,最后,答案模塊使用問題和記憶的最終狀態(tài)預(yù)測單詞的多分類輸出。
文獻的輸入模塊在VGG CNN數(shù)據(jù)集上采用小圖像切片方式提取特征,然后以句子的形式將這些特征饋送到GRU,并以蛇形方式遍歷圖像。該方法是對原始輸入模塊使用GRU處理句中單詞的改進。
DMNs模型與NMNs模型相比,在處理二值(是/否)問題上相差無幾,但在數(shù)值問題上DMNs表現(xiàn)略遜色,但是在其他類型的問題上DMNs模型更具優(yōu)勢。
VQA任務(wù)包括對圖像內(nèi)容的理解,但通常需要先驗知識,包括“常識”、“專業(yè)知識”甚至“百科”等。例如,回答“圖像中有多少個哺乳動物?”這類問題,“回答者”首先要知道“哺乳動物”是什么,并且哪些動物屬于哺乳動物的范疇。因此,這就要求VQA模型具有豐富的外部知識庫來處理這類問題?;诖诵枨蟪霈F(xiàn)了大量關(guān)于知識的結(jié)構(gòu)化表示的研究,這也推動了大型知識庫的發(fā)展,例如DBpedia,F(xiàn)reebase,YAGO,OpenIE,NELL,WebChild和 ConceptNet等知識庫。這些數(shù)據(jù)集以機器可讀的方式存儲先驗知識和事實知識,每個事實知識通常表示為三元組(arg1,rel,arg2)的形式,其中arg1和arg2表示兩個概念,而rel表示兩個概念間的關(guān)系。這些事實性知識的集合形成一個互連的資源描述框架圖(Resource Description Framework, RDF),并可通過查詢語言,例如SPARQL,進行訪問。
Wang等使用DBpedia知識庫提出一個VQA模型,并將其命名為“Ahab”。該模型首先用 CNNs從給定的圖像中提取視覺概念,然后將它們與DBpedia中表示類似概念的節(jié)點關(guān)聯(lián)。雖然聯(lián)合嵌入模型學(xué)習(xí)了從圖像/問題到答案的映射,但是作者們提出了學(xué)習(xí)從圖像/問題到構(gòu)建的知識圖查詢的映射,最后總結(jié)查詢結(jié)果獲得最終答案。雖然可以用自然語言提供問題,但是模型使用了人工設(shè)計的模板進行分析,所以導(dǎo)致該模型能處理的問題類型有限,這也是主要缺陷。提出的改進模型--FVQA,該模型使用兩個額外的知識庫:ConceptNet和WebChild,采用LSTM和數(shù)據(jù)驅(qū)動的方法學(xué)習(xí)圖像/問題到查詢的映射。上述模型使用推理鏈或支持推理過程的事實來獲得答案。與神經(jīng)網(wǎng)絡(luò)相比,他們在產(chǎn)生答案過程中需要較少的計算量。
Wu等提出一種與外部知識庫相結(jié)合的聯(lián)合嵌入式模型。首先對給定的圖像用 CNNs提取語義屬性,然后從簡版描述的DBpedia中檢索與這些屬性相關(guān)的外部知識,并用Doc2Vec把外部知識嵌入到固定大小的向量,然后將嵌入向量饋送到LSTM模型編譯問題,最后產(chǎn)生答案。
Ahab模型和FVQA模型都可處理需要先驗知識的視覺問題,然而,目前大部分現(xiàn)存的VQA數(shù)據(jù)集中的問題幾乎不需要外部知識,因此在這些數(shù)據(jù)集上進行測試并不能彰顯出兩個模型的優(yōu)勢,而且兩個模型只能處理手工編碼的模板和預(yù)先定義的數(shù)量有限的問題類型。使用Doc2Vec對檢索到的信息進行編碼,但編碼過程與問題無關(guān),而且可能產(chǎn)生與問題無關(guān)的信息。
記憶增強神經(jīng)網(wǎng)絡(luò)的概念可以為外部知識庫模型提供可擴展的框架,用于合并和自適應(yīng)地選擇VQA的相關(guān)外部知識,這將是外部知識庫模型努力的方向。
本文對視覺問答任務(wù)的最新技術(shù)進行了全面的總結(jié),并將現(xiàn)存模型依據(jù)其處理VQA任務(wù)的貢獻情況分為四類。VQA中常用的方法是利用神經(jīng)網(wǎng)絡(luò)將問題和圖像映射到公共特征空間中進行向量化表示(聯(lián)合嵌入模型)?;诼?lián)合嵌入模型眾多學(xué)者提出很多的改進方法,綜合分析后可將它們劃分為三類,即關(guān)注機制模型,模塊化組合模型和基于外部知識庫的方法。通過對各種模型的研究可以發(fā)現(xiàn),各模型在利用神經(jīng)網(wǎng)絡(luò)處理VQA任務(wù)上優(yōu)勢與缺陷并存,仍存在較大的改進的空間。擴展結(jié)構(gòu)化知識庫,應(yīng)用文本問答和自然語言處理等成熟技術(shù)處理VQA問題是VQA模型未來的發(fā)展方向。
[5]Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C]// Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics,2011.
[6]Hodosh M, Young P, Hockenmaier J. Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics[J]. Journal of Artificial Intelligence Research, 2013.
[7]Vedantam R, Zitnick C L, Parikh D. CIDEr:Consensus-based image description evaluation[J]. Computer Science, 2014.
[8]Winograd T. Understanding natural language.[J].Cognitive Psychology, 1972.
[9]Kollar T, Krishnamurthy J, Strimel G. Toward Interactive Grounded Language Acqusition[C]// Robotics: Science and Systems,2013.
[10]Cantrell R, Scheutz M, Schermerhorn P, et al. Robust spoken instruction understanding for HRI[C]// ACM/IEEE International Conference on Human-Robot Interaction. IEEE Press, 2010.
[11]Matuszek C, Fitzgerald N, Zettlemoyer L, et al. A Joint Model of Language and Perception for Grounded Attribute Learning[C]//Proceedings of the 29th International Conference on Machine Learning (ICML-12),2012.
[12]Roy D, Hsiao K Y, Mavridis N. Conversational robots:building blocks for grounding word meaning[C]// Hlt-Naacl 2003 Workshop on Learning Word Meaning From Non-Linguistic Data. Association for Computational Linguistics,2003.
[13]Gao H, Mao J, Zhou J, et al. Are you talking to a machine?Dataset and methods for multilingual image question answering[J].Computer Science, 2015.
[14]Malinowski M, Rohrbach M, Fritz M. Ask Your Neurons:A Neural-Based Approach to Answering Questions about Images[C]// IEEE International Conference on Computer Vision.IEEE Computer Society, 2015.
[15]Ma L, Lu Z, Li H. Learning to Answer Questions From Image Using Convolutional Neural Network[c]//AAAI'16 Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence,2016.
[16]Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science,2015.
[17]Xu H, Saenko K. Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[C]// European Conference on Computer Vision.Springer International Publishing, 2015.
[18]Chen K, Wang J, Chen L C, et al. ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering[J]. arXiv preprint arXiv,2015.
[19]Jiang A, Wang F, Porikli F, et al. Compositional Memory for Visual Question Answering[J]. arXiv preprint arXiv,2015.
[20]Andreas J, Rohrbach M, Darrell T, et al. Neural Module Networks[C]// IEEE Conference on Computer Vision and Pattern
[1]Antol S, Agrawal A, Lu J, et al. VQA: Visual Question Answering[C]// IEEE International Conference on Computer Vision. IEEE,2015.
[2]Zhang P, Goyal Y, Summers-Stay D, et al. Yin and Yang:Balancing and Answering Binary Visual Questions[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2016.
[3]Zhu Y, Groth O, Bernstein M, et al. Visual7W: Grounded Question Answering in Images[J],2015.
[4]Yu L, Park E, Berg A C, et al. Visual Madlibs: Fill in the Blank Description Generation and Question Answering[C]// IEEE International Conference on Computer Vision. IEEE,2015.Recognition. IEEE Computer Society, 2016.
[21]Yang Z, He X, Gao J, et al. Stacked Attention Networks for Image Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015.
[22]SimonHaykin, Haykin, 葉世偉.神經(jīng)網(wǎng)絡(luò)原理[M].機械工業(yè)出版社,2004.
[23]Andreas J, Rohrbach M, Darrell T, et al. Learning to Compose Neural Networks for Question Answering[C]//north american chapter of the association for computational linguistics,2016.
[24]Wu Q, Shen C, Liu L, et al. What Value Do Explicit High Level Concepts Have in Vision to Language Problems[C]//Computer Vision and Pattern Recognition. IEEE, 2016.
[25]周飛燕, 金林鵬, 董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機學(xué)報, 2017.
[26]賈靜平, 覃亦華.基于深度學(xué)習(xí)的視覺跟蹤算法研究綜述[J].計算機科學(xué), 2017.
[27]Donahue J, Hendricks L A, Rohrbach M, et al.Long-term Recurrent Convolutional Networks for Visual Recognition and Description.[M]// AB initto calculation of the structures and properties of molecules /. Elsevier, 2015.
[28]Mao J, Xu W, Yang Y, et al. Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)[J].EprintArxiv, 2014.
[29]Taigman Y, Yang M, Ranzato M, et al. DeepFace:Closing the Gap to Human-Level Performance in Face Verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.
[30]Deep Learning Face Representation from Predicting 10,000 Classes[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.
[31]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification[C]// neural information processing systems, 2014.
[32]Sun Y, Wang X, Tang X, et al. Deeply learned face representations are sparse, selective, and robust[C]//computer vision and pattern recognition, 2015.
[33]Sun Y, Liang D, Wang X, et al. DeepID3: Face Recognition with Very Deep Neural Networks[J], 2015.
[34]Schroff F, Kalenichenko D, Philbin J, et al. FaceNet: A unified embedding for face recognition and clustering[C]//computer vision and pattern recognition, 2015.
[35]Fan J, Xu W, Wu Y, et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks, 2010.
[36]Ma C, Huang J B, Yang X, et al. Hierarchical Convolutional Features for Visual Tracking[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015.
[37]Malinowski M, Fritz M. A multi-world approach to question answering about real-world scenes based on uncertain input[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014.
[38]Tu K, Meng M, Lee M W, et al. Joint Video and Text Parsing for Understanding Events and Answering Queries[J]. IEEE Multimedia, 2013.
[39]Donald G, Stuart G, Neil H, et al. Visual Turing test for computer vision systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015.
[40]Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J], 2013.
[41]Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C]// Conference on Empirical Methods in Natural Language Processing,2014.
[42]Ren M, Kiros R, Zemel R. Image Question Answering:A Visual Semantic Embedding Model and a New Dataset[J].LitoralRevista De La Poesía Y El Pensamiento, 2015.
[43]Noh H, Seo P H, Han B, et al. Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[C]// computer vision and pattern recognition, 2015.
[44]Fukui A, Dong H P, Yang D, et al. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[J]. arXiv preprint arXiv:1606.01847, 2016.
[45]Kim J H, Lee S W, Kwak D H, et al. Multimodal Residual Learning for Visual QA[J]. arXiv preprint arXiv:1606.01455, 2016.
[46]Saito K, Shin A, Ushiku Y, et al. DualNet:Domain-Invariant Network for Visual Question Answering[J].arXiv preprint arXiv:1606.06108, 2016.
[47]Kafle K, Kanan C. Answer-Type Prediction for Visual Question Answering[C]// Computer Vision and Pattern Recognition. IEEE, 2016.
[48]Zhou B, Tian Y, Sukhbaatar S, et al. Simple Baseline for Visual Question Answering[J]. arXiv preprint arXiv:1512.02167,2015.
[49]Shih K J, Singh S, Hoiem D. Where to Look: Focus Regions for Visual Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016.
[50]Ilievski I, Yan S, Feng J. A Focused Dynamic Attention Model for Visual Question Answering[J]. arXiv preprintarXiv:1604.01485, 2016.
[51]Lu J, Yang J, Batra D, et al. Hierarchical Question-Image Co-Attention for Visual Question Answering[J]. arXiv preprint arXiv:1606.00061, 2016.
[52]Wang P, Wu Q, Shen C, et al. Explicit Knowledge-based Reasoning for Visual Question Answering[J].arXiv preprintarXiv:1511.02570, 2015.
[53]Wang P, Wu Q, Shen C, et al. FVQA: Fact-based Visual Question Answering[J]. arXiv preprint arXiv:1606.05433 ,2016.
[54]Marneffe M C D, Manning C D. The Stanford typed dependencies representation[C]// Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008.
[55]Kumar A, Irsoy O, Ondruska P, et al. Ask Me Anything:Dynamic Memory Networks for Natural Language Processing[C]//international conference on machine learning,2015.
[56]Weston J, Chopra S, Bordes A. Memory Networks[J].arXiv preprint arXiv:1410.3916, 2014.
[57]Sukhbaatar S, Szlam A, Weston J, et al. Weakly Supervised Memory Networks[J]. arXiv preprint arXiv:1503.08895,2015.
[58]Bordes A, Usunier N, Chopra S, et al. Large-scale Simple Question Answering with Memory Networks[J]. arXiv preprintarXiv:1506.02075, 2015. 2015.
[59]Peng B, Lu Z, Li H, et al. Towards Neural Network-based Reasoning[J]. Computer Science, 2015.
[60]Xiong C, Merity S, Socher R, et al. Dynamic Memory Networks for Visual and Textual Question Answering[C].international conference on machine learning, 2016.
[61]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv: Comp.Res. Repository, 2014.
[62]Auer S, Bizer C, Kobilarov G, et al. DBpedia: A Nucleus for a Web of Open Data.[C]// The Semantic Web, International Semantic Web Conference, Asian Semantic Web Conference,ISWC 2007 + Aswc 2007, Busan, Korea, November. DBLP, 2007.
[63]Bollacker K, Evans C, Paritosh P, et al. Freebase:a collaboratively created graph database for structuring human knowledge[C]// ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, Bc, Canada,June. DBLP, 2008.
[64]Hoffart J, Suchanek F M, Berberich K, et al. YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2013.
[65]Mahdisoltani F, Biega J, Suchanek F M, et al. YAGO3: A Knowledge Base from Multilingual Wikipedias[C]. conference on innovative data systems research, 2015.
[66]Banko M, Cafarella M J, Soderland S, et al. Open information extraction from the web[C]// International Joint Conference on Artifical Intelligence. Morgan Kaufmann Publishers Inc. 2007.
[67]Fader A, Christensen J, et al. Open Information Extraction: The Second Generation.[C]// IJCAI 2011,Proceedings of the, International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July. DBLP, 2012.
[68]Fader A, Soderland S, Etzioni O. Identifying relations for open information extraction[C]// Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011.
[69]Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning[C]//Twenty-Fourth AAAI Conference on Artificial Intelligence.AAAI Press, 2010.
[70]Tandon N, Melo G D, Suchanek F, et al. WebChild:harvesting and organizing commonsense knowledge from the web[C]// ACM International Conference on Web Search and Data Mining. ACM, 2014.
[71]Tandon N, Melo G D, Weikum G. Acquiring comparative commonsense knowledge from the Web[C]// AAAI Conference on Artificial Intelligence,2014.
[72]Liu H, Singh P. ConceptNet — A Practical Commonsense Reasoning Tool-Kit[J]. Bt Technology Journal,2004.
[73]R. W. Group et al. Resource description framework,2014. http://www.w3.org/standards/techs/rdf.
[74]Prud'Hommeaux E, Seaborne A. SPARQL Query Language for RDF[J]. W3C recommendation,2008.
[75]Wu Q, Wang P, Shen C, et al. Ask Me Anything:Free-Form Visual Question Answering Based on Knowledge from External Sources[J]. Computer Science, 2015.