崔 政,胡永利,孫艷豐,尹寶才
(北京工業(yè)大學(xué)信息學(xué)部,北京 100124)
如何使算法可以像人類一樣同時(shí)理解和利用多種模態(tài)數(shù)據(jù)是人工智能領(lǐng)域中的一個(gè)重要研究課題.隨著深度學(xué)習(xí)技術(shù)的成熟,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理技術(shù)飛速發(fā)展,在此基礎(chǔ)上視覺(jué)問(wèn)答(visual question answering, VQA)這一涉及圖像理解和自然語(yǔ)言處理2個(gè)領(lǐng)域的研究課題受到越來(lái)越多的關(guān)注.雖然人工智能領(lǐng)域的學(xué)者已經(jīng)提出了多種基于深度學(xué)習(xí)的VQA模型,但是如何準(zhǔn)確地學(xué)習(xí)跨模態(tài)數(shù)據(jù)特征,目前還沒(méi)有一個(gè)完整的解決方案.
隨著大數(shù)據(jù)時(shí)代的到來(lái),全球的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng).每個(gè)用戶都在社交媒體和互聯(lián)網(wǎng)應(yīng)用上產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)包括圖片、文本、聲音、視頻和瀏覽記錄等,具有明顯的跨模態(tài)性質(zhì).面對(duì)龐大的跨模態(tài)數(shù)據(jù),如何提取有效的信息和進(jìn)行準(zhǔn)確的分析成為了一個(gè)研究難點(diǎn)和熱點(diǎn).在此背景下,VQA這一研究課題被提出.如圖1所示,當(dāng)給定一張圖片和一個(gè)對(duì)應(yīng)的問(wèn)題,VQA系統(tǒng)需要根據(jù)問(wèn)題來(lái)提取圖片上的有效信息,進(jìn)而得出正確的答案.這就要求算法能夠?qū)D像和問(wèn)題的語(yǔ)義信息具有高層次的理解,并且能夠同時(shí)處理和分析圖像和文本2種模態(tài)的數(shù)據(jù).
圖1 VQA示意圖Fig.1 Schematic diagram of VQA
近年來(lái),許多基于深度學(xué)習(xí)的方法被提出以解決VQA任務(wù)[1-8],為了更加清晰地闡述不同方法的研究思路和便于學(xué)者參考,本文按照原理的不同將這些方法分為數(shù)據(jù)融合、跨模態(tài)注意力和知識(shí)推理3類,介紹了每一類方法的相關(guān)工作和常用的VQA數(shù)據(jù)集,并對(duì)最新出現(xiàn)的基于視頻和文本問(wèn)題的VQA任務(wù)進(jìn)行了介紹.最后,對(duì)每一類方法做出總結(jié)并對(duì)未來(lái)的研究方向進(jìn)行了展望.
首先,給出VQA系統(tǒng)的定義,給定一個(gè)圖像v和一個(gè)問(wèn)題q,VQA系統(tǒng)的目的是預(yù)測(cè)一個(gè)與真實(shí)標(biāo)簽a*相匹配的答案,目前VQA中常用的方法通過(guò)分類器fθ()的得分來(lái)獲得正確答案的預(yù)測(cè),即
(1)
一個(gè)完整的VQA系統(tǒng)通常由4個(gè)部分組成:圖像特征提取器、文本特征提取器、跨模態(tài)特征學(xué)習(xí)模塊和答案分類器.
最初各種卷積神經(jīng)網(wǎng)絡(luò)被用來(lái)作為圖像特征提取器,包括亞歷克斯網(wǎng)絡(luò)(Alex network,AlexNet)[9]、谷歌網(wǎng)絡(luò)(Google network,GoogLeNet)[10]、視覺(jué)幾何組網(wǎng)絡(luò)(visual geometry group network,VGGNet)[11]和殘差網(wǎng)絡(luò) (residual network,ResNet)[12].AlexNet是一個(gè)具有5個(gè)卷積層的深層網(wǎng)絡(luò),是第1個(gè)大幅度提高分類精度的深度卷積網(wǎng)絡(luò),并獲得了2012年的ImageNet數(shù)據(jù)集大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽冠軍.在2014年的挑戰(zhàn)賽中,GoogLeNet獲得了第1名、VGGNet獲得了第2名,這2類模型結(jié)構(gòu)的共同特點(diǎn)是層次更深了.VGGNet采用連續(xù)的幾個(gè)3×3的卷積核代替AlexNet中的較大卷積核,在保證具有相同感知野的條件下提升了網(wǎng)絡(luò)的深度,在一定程度上提升了神經(jīng)網(wǎng)絡(luò)的效果.GoogLeNet使用1×1的卷積來(lái)進(jìn)行降維,并且在多個(gè)尺寸上同時(shí)進(jìn)行不同尺度的卷積,然后再進(jìn)行聚合,最終取得了更加優(yōu)越的性能.ResNet有效地解決了深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題,是卷積網(wǎng)絡(luò)發(fā)展史上具有里程碑意義的工作.采用卷積網(wǎng)絡(luò)作為圖片的特征提取器可以得到包含豐富語(yǔ)義信息的優(yōu)質(zhì)的圖像特征表示,這也推動(dòng)了VQA這一課題的發(fā)展.雖然這些卷積網(wǎng)絡(luò)通常能夠提取具有概括性的全局圖像特征描述,但是也丟失了大量有用的細(xì)粒度信息,這些細(xì)粒度的信息可以幫助算法得到精準(zhǔn)的圖像理解.因此,最近的研究工作探討了目標(biāo)檢測(cè)器提取的區(qū)域級(jí)特征的可用性.Anderson等[13]提出了自下而上的注意力機(jī)制來(lái)提取圖像的特征,這一方法類似于人類視覺(jué)系統(tǒng)中的注意力機(jī)制,可以過(guò)濾掉不重要信息的特征,最終通過(guò)在視覺(jué)基因數(shù)據(jù)庫(kù)[14]上預(yù)訓(xùn)練的快速目標(biāo)檢測(cè)模型[15]得到區(qū)域級(jí)的圖像特征.這些區(qū)域特征包含了豐富的細(xì)粒度語(yǔ)義信息,非常有利于圖像的細(xì)粒度理解和跨模態(tài)特征的學(xué)習(xí).
文本特征提取器被用來(lái)抽取文本問(wèn)題的特征,通常首先利用文本特征提取方法[16-22]將每個(gè)單詞或整個(gè)問(wèn)題嵌入到問(wèn)題的文本語(yǔ)義空間,然后通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來(lái)得到序列化的特征.長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long and short term memory network,LSTM)、門(mén)循環(huán)單元(gate recurrent unit,GRU)常被用作文本特征編碼器,因?yàn)樗鼈儗?duì)于序列數(shù)據(jù)的處理非常有效.
跨模態(tài)特征學(xué)習(xí)模塊是整個(gè)VQA系統(tǒng)的核心,這一模塊的主要目的是綜合分析和利用2種模態(tài)的數(shù)據(jù),挖掘2種模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,通過(guò)數(shù)據(jù)融合、跨模態(tài)注意力、知識(shí)推理等方法學(xué)習(xí)一個(gè)對(duì)于輸入數(shù)據(jù)的跨模態(tài)特征表示.
答案分類器通常由一個(gè)多層全連接神經(jīng)網(wǎng)絡(luò)組成,輸入是圖片和問(wèn)題的跨模態(tài)特征表示,其最終輸出維度是預(yù)選答案的個(gè)數(shù).通過(guò)這一模塊可以得到每個(gè)預(yù)選答案的置信度得分,從而選擇得分最高的答案作為預(yù)測(cè)的正確答案.
在VQA算法中,核心在于文本和視覺(jué)這2種模態(tài)數(shù)據(jù)的聯(lián)合表示.基于數(shù)據(jù)融合的方法將圖像和文本模態(tài)的特征向量進(jìn)行數(shù)據(jù)融合,從而得到跨模態(tài)特征表示.
2.1.1 多模態(tài)緊湊雙線性池化(multimodal compact bilinear pooling,MCB)模型
Fukui等[23]提出了MCB模型,這一模型利用MCB得到一個(gè)特征的聯(lián)合表示.雙線性池化方法是計(jì)算2個(gè)向量之間的外積,與元素積不同,它允許2個(gè)向量的所有元素之間的乘法交互.當(dāng)特征向量的維度較大時(shí)會(huì)導(dǎo)致學(xué)習(xí)參數(shù)的激增,因此,MCB模型使用了Count Sketch函數(shù)將外積投影到低維空間,避免了直接計(jì)算外積.
MCB方法使用152層的ResNet作為圖像特征提取器、LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)作為文本特征提取器,然后計(jì)算問(wèn)題特征向量和每個(gè)圖像網(wǎng)格特征向量之間的融合表示和每個(gè)融合向量的權(quán)重,最后將融合向量按照權(quán)重求和,這樣就得到了經(jīng)過(guò)2個(gè)模態(tài)交互的加權(quán)圖像特征表示.接著將文本向量和加權(quán)后的視覺(jué)向量再進(jìn)行一次數(shù)據(jù)融合,得到跨模態(tài)的特征表示.最終以跨模態(tài)特征作為輸入,使用一個(gè)全連接網(wǎng)絡(luò)計(jì)算每個(gè)候選問(wèn)題的得分.
MCB方法的主要特點(diǎn)是降低了雙線性池化的參數(shù)量,實(shí)現(xiàn)了文本和圖像2種模態(tài)數(shù)據(jù)的交互,并進(jìn)行了深度的數(shù)據(jù)融合.
2.1.2 基于Hadamard積的多模態(tài)低秩雙線性池化(multimodal low-rank bilinear pooling,MLB)模型
與線性模型相比,雙線性模型提供了更豐富的信息,也被應(yīng)用于各種視覺(jué)任務(wù),如對(duì)象識(shí)別、分割和VQA,并且也獲得了優(yōu)良的性能.然而,由于特征的維度往往很高,導(dǎo)致了雙線性表示的計(jì)算復(fù)雜性較高,這也限制了該模型的適用性.Kim等[24]提出了一種基于Hadamard積的MLB模型來(lái)實(shí)現(xiàn)有效的多模態(tài)注意力機(jī)制學(xué)習(xí)和數(shù)據(jù)融合.
MLB將雙線性池化中的三維權(quán)重張量分解為3個(gè)二維權(quán)重矩陣,使權(quán)重張量變?yōu)榈椭葟埩?模型首先計(jì)算經(jīng)過(guò)2個(gè)權(quán)重矩陣線性投影的2個(gè)輸入特征向量的Hadamard積,并且使用非線性函數(shù)進(jìn)行激活,添加了殘差連接.在得到融合向量后,使用MLB方法得到了一個(gè)有效的面向VQA任務(wù)的視覺(jué)特征注意力機(jī)制.最后,通過(guò)另一個(gè)MLB融合文本特征和注意力加權(quán)的視覺(jué)特征,得到跨模態(tài)特征表示.
MLB模型利用Hadamard積來(lái)降低計(jì)算的復(fù)雜性,得到了更加緊湊的特征表示,也實(shí)現(xiàn)了跨模態(tài)數(shù)據(jù)間的深度融合.
2.1.3 多級(jí)注意力網(wǎng)絡(luò)(multi-level attention networks,MLAN)模型
許多VQA的方法主要從抽象的低級(jí)視覺(jué)特征推斷答案,而忽略了圖像高層語(yǔ)義和豐富的文本語(yǔ)義空間的建模.Yu等[25]提出了一種MLAN,這一網(wǎng)絡(luò)通過(guò)語(yǔ)義注意力機(jī)制縮小不同模態(tài)數(shù)據(jù)之間的語(yǔ)義鴻溝,通過(guò)視覺(jué)注意力增強(qiáng)細(xì)粒度圖像特征的空間推理.
MLAN模型包括3個(gè)部分,分別是語(yǔ)義注意力、上下文意識(shí)的視覺(jué)注意力和聯(lián)合注意力.語(yǔ)義注意力模塊的目的是從圖像中挖掘出對(duì)于回答問(wèn)題更重要的概念.上下文意識(shí)的視覺(jué)注意力模塊把圖片進(jìn)行卷積計(jì)算后的特征按區(qū)域輸入到雙向GRU中,將每一步GRU中的前向和后向隱層向量組合起來(lái),為每個(gè)區(qū)域形成一個(gè)新的特征向量.新的特征向量不僅包含了對(duì)應(yīng)區(qū)域的視覺(jué)信息,而且還包含了來(lái)自周邊區(qū)域的上下文信息.然后,將每個(gè)包含上下文信息的圖像特征加權(quán)求和.聯(lián)合注意力模塊將問(wèn)題向量和學(xué)習(xí)到的視覺(jué)向量進(jìn)行融合,最終得到了跨模態(tài)的特征表示.
MLAN模型在數(shù)據(jù)融合的過(guò)程中考慮了不同視覺(jué)特征的重要性和視覺(jué)特征的上下文語(yǔ)境,得到了更加優(yōu)良的數(shù)據(jù)融合特征表示.
2.1.4 多模態(tài)塔克融合模型
雙線性模型是VQA任務(wù)中信息融合的一種有效的方法.它有助于學(xué)習(xí)問(wèn)題意義和圖像中視覺(jué)概念之間的高級(jí)關(guān)聯(lián),但也始終面臨著數(shù)據(jù)維度太大的問(wèn)題.為了解決這一問(wèn)題,Ben-Younes等[26]提出了多模態(tài)塔克融合模型MUTAN,這一模型通過(guò)多模態(tài)張量的塔克分解有效地實(shí)現(xiàn)了視覺(jué)和文本特征表示之間的雙線性交互.
雙線性模型是對(duì)數(shù)據(jù)融合問(wèn)題有效的解決方案,它對(duì)矢量q和v之間的雙線性相互作用進(jìn)行了編碼,即
y=(E×1q)×2v
(2)
式中E為約束張量.盡管雙線性模型有很強(qiáng)的建模能力,但完全參數(shù)化的數(shù)據(jù)雙線性交互在VQA中很難實(shí)現(xiàn),因?yàn)槲谋?、視覺(jué)和輸出特征向量使用相同的維度,使得參數(shù)量變得非常龐大.因此,MUTAN使用塔克分解將式(2)重寫(xiě)為
y=((E×1(qTWq))×2(vTWv))×3Wo
(3)
式中Wq、Wv和Wo為可學(xué)習(xí)的投影矩陣.這一方法對(duì)q和v的投影進(jìn)行雙線性相互作用編碼.MUTAN模型在降低了計(jì)算復(fù)雜性的基礎(chǔ)上實(shí)現(xiàn)了更強(qiáng)的表現(xiàn)力,得到了較優(yōu)的預(yù)測(cè)準(zhǔn)確性.
MCB模型和MLB模型在雙線性池化的基礎(chǔ)上進(jìn)行了改良,實(shí)現(xiàn)了跨模態(tài)數(shù)據(jù)之間的交互,計(jì)算了數(shù)據(jù)之間的高級(jí)關(guān)聯(lián).MUTAN利用塔克分解得到了表現(xiàn)力更強(qiáng)的跨模態(tài)特征表示.MLAN模型創(chuàng)新地考慮了視覺(jué)向量的上下文語(yǔ)境信息.
以上幾種模型對(duì)VQA任務(wù)進(jìn)行了初步的探索,通過(guò)池化和矩陣分解的方式融合圖像和文本特征,從而得到可以預(yù)測(cè)答案的跨模態(tài)特征表示.然而,數(shù)據(jù)融合的方法缺乏對(duì)圖像和文本特征之間關(guān)聯(lián)關(guān)系的深度挖掘,缺乏對(duì)特征的精細(xì)化計(jì)算,得到的跨模態(tài)特征中冗余數(shù)據(jù)和噪聲較多.
視覺(jué)場(chǎng)景往往包含大量信息,如何利用有限的感知和計(jì)算資源從大量信息中篩選出高價(jià)值的信息是計(jì)算機(jī)視覺(jué)中的核心問(wèn)題.在長(zhǎng)期進(jìn)化中,人類形成了一種特有的大腦信號(hào)處理機(jī)制——視覺(jué)注意力機(jī)制.這一機(jī)制極大地提高了視覺(jué)信息處理的效率與準(zhǔn)確性.具體而言,當(dāng)看到一張圖片時(shí),人類視覺(jué)系統(tǒng)可以快速掃描整個(gè)圖片并獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,形成注意力焦點(diǎn),然后對(duì)目標(biāo)區(qū)域投入較多的感知和計(jì)算資源,從而獲取更多關(guān)注區(qū)域的細(xì)節(jié)信息,同時(shí)抑制其他無(wú)用信息[27].
在VQA任務(wù)中,跨模態(tài)注意力是一種非常高效的方法.通過(guò)注意力機(jī)制,可以得到跨模態(tài)數(shù)據(jù)之間準(zhǔn)確的關(guān)聯(lián)關(guān)系和語(yǔ)義理解.最初,研究者利用視覺(jué)注意力機(jī)制[13,28-41]得到圖像中與問(wèn)題相關(guān)的區(qū)域.之后,考慮到單向注意力機(jī)制沒(méi)有有效利用文本信息,研究者提出了基于跨模態(tài)協(xié)同注意力的方法[42-53],利用圖像和文本的雙向注意力信息挖掘出有效知識(shí).下面就典型方法進(jìn)行介紹.
2.2.1 堆疊注意力網(wǎng)絡(luò)(stacked attention networks,SAN)模型
Yang等[41]提出了SAN模型, 這一模型根據(jù)問(wèn)題特征在圖像上進(jìn)行多步推理,最終得到圖像上的關(guān)鍵特征.
SAN模型利用VGGNet提取圖像的特征,并利用文本卷積網(wǎng)絡(luò)或LSTM提取問(wèn)題特征,得到圖像特征矩陣V和問(wèn)題特征向量Q.SAN模型通過(guò)多步迭代計(jì)算的方式預(yù)測(cè)答案.首先計(jì)算以問(wèn)題特征為查詢,每個(gè)視覺(jué)向量的權(quán)重公式為
h1=tanh(WvV⊕(wqQ+b))
(4)
p=softmax(Wph1+bp)
(5)
式中:Wq和Wp為可學(xué)習(xí)的投影矩陣;b和bp為偏執(zhí)向量.基于第1次得到的視覺(jué)向量的注意力分布p,將視覺(jué)向量的權(quán)重求和,并加上文本特征形成新的查詢向量u,公式為
(6)
(7)
然后,可以根據(jù)新的查詢向量進(jìn)行下一步的注意力權(quán)重分布計(jì)算,并延續(xù)到第k次,即
(8)
(9)
2.2.2 由下到上和由上到下的注意力模型
Anderson等[13]提出了由下到上和由上到下的注意力模型, 由下到上注意力模塊相當(dāng)于對(duì)整個(gè)圖片上的所有像素點(diǎn)進(jìn)行了注意力分布的計(jì)算,最終得到了包含豐富語(yǔ)義特征目標(biāo)級(jí)別的視覺(jué)特征.如果輸入是一張廚房的圖片,那么這一模塊可以得到很多顯著性區(qū)域,包括食物、人、湯勺、平底鍋等.以顯著性區(qū)域特征作為跨模態(tài)特征學(xué)習(xí)模塊的輸入,算法可以精確地找到視覺(jué)特征和問(wèn)題特征之間的對(duì)應(yīng)關(guān)系.由上到下的注意力模塊以文本特征為查詢向量找到圖像上的關(guān)鍵區(qū)域,甚至是答案所對(duì)應(yīng)的區(qū)域.
由下到上和由上到下的注意力模型是一個(gè)在VQA領(lǐng)域具有里程碑意義的工作,大幅提高了VQA的準(zhǔn)確性,同時(shí),其提出的目標(biāo)級(jí)別的視覺(jué)特征也讓各種任務(wù)受益.
2.2.3 雙線性注意力網(wǎng)絡(luò)(bilinear attention networks,BAN)模型
Kim等[49]提出了BAN模型.這一模型首先將圖像編碼為顯著性區(qū)域特征,并提取問(wèn)題中每個(gè)單詞的特征.在得到圖像和文本的特征后,計(jì)算2種模態(tài)特征之間的雙線性注意力,也就是計(jì)算2組特征中兩兩之間的相似性.BAN模型通過(guò)多個(gè)雙線性特征圖按相關(guān)性的大小融合2種模態(tài)的數(shù)據(jù),在每一次融合后都添加了殘差連接.這一模型考慮了模態(tài)之間雙向的高級(jí)關(guān)聯(lián),實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)之間細(xì)粒度的交互.
2.2.4 密集的對(duì)稱協(xié)同注意力網(wǎng)絡(luò)(dense symmetric co-attention network,DCN)模型
Nguyen等[50]提出了DCN模型,這一模型利用協(xié)同注意力機(jī)制以改善視覺(jué)特征與文本特征的融合.得到圖像和問(wèn)題后,首先計(jì)算每個(gè)單詞的特征和圖像的卷積特征,然后在DCN中執(zhí)行3種計(jì)算:1) 注意力特征圖的計(jì)算;2) 多模態(tài)特征的拼接;3) 殘差連接的整流線性單元(rectified linear unit,ReLU)映射.這些計(jì)算被封裝成一個(gè)復(fù)合的計(jì)算模塊,被稱為密集協(xié)同注意力模塊,因?yàn)樗紤]了任何圖像區(qū)域和任何問(wèn)題詞之間的每一次交互.該模塊在2種模態(tài)的計(jì)算之間具有完全對(duì)稱的架構(gòu),并且可以堆疊,形成一個(gè)層次結(jié)構(gòu),使得圖像和問(wèn)題數(shù)據(jù)對(duì)之間能夠進(jìn)行多步交互.
2.2.5 動(dòng)態(tài)融合的模態(tài)內(nèi)和模態(tài)間注意力流(dynamic fusion with itra-and inter-modality attention flow,DFAF)模型
Gao等[51]提出了DFAF模型.如圖2所示,DFAF模型整合了跨模態(tài)的自注意力和協(xié)同注意力來(lái)實(shí)現(xiàn)視覺(jué)和文本2種模態(tài)內(nèi)部和之間的有效信息流.DFAF模型首先通過(guò)模態(tài)間注意力模塊生成模態(tài)間的注意力信息流來(lái)實(shí)現(xiàn)信息的交互,在模態(tài)間注意力模塊中,視覺(jué)和語(yǔ)言特征生成一個(gè)聯(lián)合模態(tài)協(xié)同注意力矩陣.每個(gè)視覺(jué)區(qū)域和文本單詞根據(jù)聯(lián)合模態(tài)協(xié)同注意力矩陣選擇特征,模態(tài)間注意力模塊根據(jù)來(lái)自另一模態(tài)的注意加權(quán)信息流融合和更新每個(gè)圖像區(qū)域和每個(gè)單詞的特征.在這一模塊之后,DFAF計(jì)算動(dòng)態(tài)的模態(tài)內(nèi)注意力信息流,用于在每個(gè)模態(tài)中傳遞信息以捕獲復(fù)雜的模態(tài)內(nèi)關(guān)系.視覺(jué)區(qū)域和單詞產(chǎn)生自注意力權(quán)重,并從其他實(shí)例中按照注意力權(quán)重整合信息.在動(dòng)態(tài)的模態(tài)內(nèi)注意力模塊中,雖然信息流只在相同的模態(tài)中傳播,但是另一個(gè)模態(tài)的信息被考慮并用于調(diào)節(jié)模態(tài)內(nèi)注意力權(quán)重和信息流.
圖2 DFAF示意圖[51]Fig.2 Schematic diagram of DFAF[51]
DFAF模型多次堆疊模態(tài)間注意力模塊和動(dòng)態(tài)的模態(tài)內(nèi)注意力模塊,實(shí)現(xiàn)了模態(tài)間和模態(tài)內(nèi)的注意力信息流的深度交互.
2.2.6 多模態(tài)潛在交互(multi-modality latent interaction,MLI)模型
Gao等[52]提出了MLI模型,這一模型由一系列疊加的多模態(tài)潛在交互模塊組成,其目的是將輸入的視覺(jué)區(qū)域和問(wèn)題詞信息匯總為每個(gè)模態(tài)的少量潛在具有高級(jí)語(yǔ)義的摘要向量.其核心思想是在潛在摘要向量之間傳播視覺(jué)和語(yǔ)言信息,從全局角度對(duì)復(fù)雜的跨模態(tài)交互進(jìn)行建模.在潛在交互摘要向量之間進(jìn)行信息傳播后,視覺(jué)區(qū)域和單詞特征將整合跨域摘要中的信息以更新其特征.MLI模塊的輸入和輸出具有相同的維度,整個(gè)網(wǎng)絡(luò)將MLI模塊分多個(gè)階段堆疊,逐步精煉視覺(jué)和語(yǔ)言特性.最后,將視覺(jué)區(qū)域和問(wèn)題詞的平均池化特征進(jìn)行元素相乘后作為跨模態(tài)特征來(lái)預(yù)測(cè)最終答案.
注意力模型在VQA任務(wù)中取得了極大的成功,大幅度提高了答案預(yù)測(cè)的準(zhǔn)確性,促進(jìn)了這一領(lǐng)域的發(fā)展.基于注意力機(jī)制的方法,通過(guò)計(jì)算模態(tài)內(nèi)數(shù)據(jù)和模態(tài)間數(shù)據(jù)的關(guān)聯(lián)關(guān)系,對(duì)數(shù)據(jù)進(jìn)行了細(xì)粒度的關(guān)聯(lián)建模,成功提取了有效信息,抑制了冗余數(shù)據(jù).
相比于特征融合的方式,基于注意力模型的方法同時(shí)考慮了模態(tài)內(nèi)和模態(tài)間的信息流,利用多層的神經(jīng)網(wǎng)絡(luò)對(duì)信息進(jìn)行深度建模,實(shí)現(xiàn)了數(shù)據(jù)間的深度交互,得到了擁有更高級(jí)語(yǔ)義信息的較為精煉的特征表示.因此,基于注意力機(jī)制的方法獲得了較高的預(yù)測(cè)準(zhǔn)確性.
在邏輯學(xué)中,推理是一種思維的基本形式,是由一個(gè)或幾個(gè)已知的判斷(前提)推出新判斷(結(jié)論)的過(guò)程,包含直接推理、間接推理等.人類具有強(qiáng)大的推理能力,在面對(duì)一些問(wèn)題時(shí),通過(guò)深度的思考和多步的推理使問(wèn)題得以解決.在人工智能領(lǐng)域,如何讓算法具有推理能力是一個(gè)核心課題.
在VQA中,一個(gè)問(wèn)題往往無(wú)法直接得出答案,問(wèn)題中描述了場(chǎng)景和不同物體之間的聯(lián)系,因此,算法必須具備推理能力,可以根據(jù)問(wèn)題描述推理判斷物體之間和物體與所處場(chǎng)景之間的關(guān)系.
2.3.1 基于圖表示的VQA模型
Teney等[54]提出了一種基于場(chǎng)景內(nèi)容和問(wèn)題的結(jié)構(gòu)化表示的VQA系統(tǒng)模型Graph VQA.VQA中的一個(gè)關(guān)鍵挑戰(zhàn)是需要在視覺(jué)域和文本域上進(jìn)行聯(lián)合推理.
針對(duì)每一對(duì)圖片和問(wèn)題數(shù)據(jù),Graph VQA生成一個(gè)視覺(jué)場(chǎng)景圖和一個(gè)文本問(wèn)題圖.視覺(jué)場(chǎng)景圖以每一個(gè)視覺(jué)向量作為節(jié)點(diǎn),2個(gè)特征之間的空間關(guān)系作為它們的連接邊;文本問(wèn)題圖以每個(gè)單詞作為節(jié)點(diǎn),單詞之間的語(yǔ)法關(guān)系作為連接邊.GRU被用來(lái)編碼2個(gè)圖上的節(jié)點(diǎn),在多次迭代中,GRU更新每個(gè)節(jié)點(diǎn)的表示,該節(jié)點(diǎn)集成了圖中相鄰節(jié)點(diǎn)的上下文語(yǔ)境信息.所有圖像目標(biāo)和所有單詞的特征被成對(duì)地組合,并以注意力的形式對(duì)它們進(jìn)行加權(quán),有效地匹配了問(wèn)題和場(chǎng)景之間的元素.經(jīng)過(guò)注意力加權(quán)的特征通過(guò)最終的分類器得到每個(gè)固定候選答案的預(yù)測(cè)分?jǐn)?shù).
2.3.2 復(fù)合關(guān)系注意力網(wǎng)絡(luò)(composed relation attention network,CRA-Net)模型
現(xiàn)有的VQA模型一部分利用注意力機(jī)制來(lái)定位相關(guān)的目標(biāo)區(qū)域,另一部分利用關(guān)系推理的方法來(lái)檢測(cè)目標(biāo)關(guān)系.然而,這些模型大多對(duì)簡(jiǎn)單的關(guān)系進(jìn)行編碼,不能為回答復(fù)雜的視覺(jué)問(wèn)題提供足夠的復(fù)雜知識(shí),也很少組合、利用目標(biāo)視覺(jué)特征和對(duì)象間的關(guān)系特征.
Peng等[55]提出了CRA-Net模型,這一模型包括2個(gè)問(wèn)題自適應(yīng)關(guān)系注意力模塊,不僅可以提取細(xì)粒度和精確的二元關(guān)系,而且可以提取更復(fù)雜的三元關(guān)系.這2種與問(wèn)題相關(guān)聯(lián)的目標(biāo)關(guān)系都能揭示更深層次的語(yǔ)義,從而提高問(wèn)答的推理能力.此外,CRA-Net在相應(yīng)問(wèn)題的指導(dǎo)下,將目標(biāo)的視覺(jué)特征與關(guān)系特征相結(jié)合,有效地融合了這2類特征,得到了擁有豐富知識(shí)的特征表示.
在得到圖片目標(biāo)區(qū)域特征和問(wèn)題中每個(gè)單詞的特征后,CRA-Net首先利用單詞自注意力計(jì)算每個(gè)單詞的權(quán)重,然后把所有問(wèn)題單詞進(jìn)行加權(quán)求和,得到問(wèn)題的向量表示.接著,CRA-Net以問(wèn)題向量作為語(yǔ)境學(xué)習(xí)目標(biāo)之間的細(xì)粒度、精確的二元關(guān)系和更復(fù)雜的三元關(guān)系.這2種問(wèn)題的相關(guān)關(guān)系都能揭示更深層次的語(yǔ)義,提高推理能力.此外,推導(dǎo)出的三元關(guān)系將多個(gè)重要對(duì)象聯(lián)系起來(lái),提供了一種更全面的視覺(jué)關(guān)系表示,彌補(bǔ)了二元關(guān)系對(duì)復(fù)雜關(guān)系表達(dá)的局限性.最后,融合了問(wèn)題特征的單目標(biāo)注意力特征、二元關(guān)系特征和三元關(guān)系特征通過(guò)元素級(jí)的點(diǎn)積得到用于預(yù)測(cè)答案的跨模態(tài)特征.
2.3.3 深度模塊化協(xié)同注意力網(wǎng)絡(luò)(modular co-attention networks,MCAN)模型
VQA要求對(duì)圖像的視覺(jué)內(nèi)容和問(wèn)題的文本內(nèi)容同時(shí)進(jìn)行精細(xì)的理解.因此,設(shè)計(jì)一個(gè)有效的協(xié)同注意力模型,將問(wèn)題中的關(guān)鍵詞與圖像中的關(guān)鍵對(duì)象聯(lián)系起來(lái)是VQA系統(tǒng)具有良好性能的核心.到目前為止,大多數(shù)成功的協(xié)同注意力學(xué)習(xí)嘗試都是通過(guò)淺層模型實(shí)現(xiàn)的,而深度協(xié)同注意力模型與淺層模型相比幾乎沒(méi)有改善.
Yu等[56]提出了MCAN模型,這一模型的靈感來(lái)自于Transformer模型[57].Transformer是第一個(gè)只用注意力機(jī)制搭建的自然語(yǔ)言處理模型,不僅計(jì)算速度更快,在翻譯任務(wù)上也獲得了更好的結(jié)果.MCAN模型是由多個(gè)協(xié)同注意力模塊組成的具有編碼和解碼兩部分的深度模塊化網(wǎng)絡(luò).每個(gè)協(xié)同注意力模塊由2個(gè)基礎(chǔ)的注意力單元組成,這2個(gè)單元對(duì)問(wèn)題和圖像的自注意力以及圖像的引導(dǎo)注意力進(jìn)行建模.協(xié)同注意力的基礎(chǔ)注意力計(jì)算由多頭點(diǎn)積注意力機(jī)制組成,在給定查詢q、鍵值k和特征值v對(duì)后,可以得到經(jīng)過(guò)注意力加權(quán)后的特征值
(10)
式中dk為特征向量的維度,然后將不同通道拼接,公式為
hi=Att(qWq,kWk,vWv)
(11)
MHead(q,k,v)=Concat(h1,…,hn)Wo
(12)
式中:Wq、Wk和Wv為注意力計(jì)算中的特征投影矩陣;Concat()為特征拼接函數(shù);Wo為投影矩陣.
MCAN在編碼和解碼的框架下對(duì)跨模態(tài)數(shù)據(jù)進(jìn)行了深度的注意力編碼,取得了較高的預(yù)測(cè)精度.
2.3.4 關(guān)系感知的圖注意力網(wǎng)絡(luò)模型
為了回答與圖像相關(guān)的具有復(fù)雜語(yǔ)義的問(wèn)題,VQA模型需要充分理解圖像中的視覺(jué)場(chǎng)景,尤其是不同對(duì)象之間的動(dòng)態(tài)交互.Li等[58]提出了關(guān)系感知的圖注意力網(wǎng)絡(luò)模型ReGAT,將每個(gè)圖像編碼成一個(gè)圖,通過(guò)圖注意力機(jī)制建立多類型的對(duì)象間關(guān)系模型,學(xué)習(xí)基于問(wèn)題特征的圖像自適應(yīng)關(guān)系表示.
ReGAT建模了2類視覺(jué)對(duì)象關(guān)系:1) 表示對(duì)象之間幾何位置和語(yǔ)義交互的顯式關(guān)系;2) 捕捉圖像區(qū)域間隱藏的動(dòng)態(tài)隱式關(guān)系.在得到問(wèn)題特征和圖像上的目標(biāo)區(qū)域特征后,ReGAT首先將問(wèn)題特征和每個(gè)目標(biāo)的特征進(jìn)行融合,得到了包含問(wèn)題特征的目標(biāo)特征.利用新的目標(biāo)特征,ReGAT構(gòu)建了一個(gè)目標(biāo)之間的關(guān)系圖,并在3種尺度上學(xué)習(xí)目標(biāo)間的高級(jí)關(guān)聯(lián)關(guān)系,分別是語(yǔ)義關(guān)系、空間位置關(guān)系和隱藏關(guān)系.在對(duì)目標(biāo)特征進(jìn)行圖關(guān)聯(lián)學(xué)習(xí)后,融合視覺(jué)特征和問(wèn)題特征進(jìn)行答案預(yù)測(cè).
2.3.5 多模態(tài)關(guān)系推理模型
Cadene等[59]提出了多模態(tài)關(guān)系推理模型MUREL,這一多模態(tài)關(guān)系推理模型在問(wèn)題和圖像的推理學(xué)習(xí)方面取得了領(lǐng)先的效果.MUREL由多個(gè)多模態(tài)關(guān)系單元組成,它能夠表示問(wèn)題和圖像區(qū)域之間豐富的交互作用,并顯式地為區(qū)域之間的關(guān)系建模.整個(gè)模型將多模態(tài)關(guān)系單元嵌入一個(gè)迭代推理過(guò)程中,該過(guò)程逐步精煉內(nèi)部的知識(shí)表示來(lái)回答問(wèn)題.通過(guò)迭代推理計(jì)算,圖像中與問(wèn)題相符的二元組關(guān)系被準(zhǔn)確提取,進(jìn)而得到問(wèn)題的準(zhǔn)確答案.
2.3.6 基于線性調(diào)制的視覺(jué)推理模型
Perez等[60]提出了一種基于線性調(diào)制模塊的視覺(jué)推理模型,利用包含調(diào)制模塊的殘差單元進(jìn)行迭代推理,實(shí)現(xiàn)對(duì)視覺(jué)信息的深度理解.
對(duì)于給定的圖片和問(wèn)題,首先提取問(wèn)題向量和圖片的卷積特征,然后利用問(wèn)題向量中的信息對(duì)視覺(jué)特征中不同通道的數(shù)據(jù)進(jìn)行線性映射,進(jìn)而調(diào)整卷積特征.多次使用這一調(diào)制方法,可以學(xué)習(xí)到圖像中與問(wèn)題相關(guān)的特征信息.
2.3.7 組合注意力網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)已在圖像識(shí)別、語(yǔ)音識(shí)別等感知層面取得巨大成功,但是在更進(jìn)一步的推理層面仍有欠缺.為解決這一問(wèn)題,Hudson等[61]提出了一種記憶、關(guān)注和組合(memory, attention, and composition,MAC)網(wǎng)絡(luò)架構(gòu).
MAC網(wǎng)絡(luò)由一個(gè)輸入神經(jīng)元、一個(gè)核心的循環(huán)神經(jīng)網(wǎng)絡(luò)以及一個(gè)輸出神經(jīng)元組成.輸入神經(jīng)元將原始圖像和問(wèn)題轉(zhuǎn)化為分布式向量表征.核心的循環(huán)神經(jīng)網(wǎng)絡(luò)將問(wèn)題分解為一系列運(yùn)算(也叫控制),它們可以從圖像(知識(shí)庫(kù))中檢索信息,并將結(jié)果聚合為循環(huán)記憶.通過(guò)這些運(yùn)算,網(wǎng)絡(luò)按照序列推理問(wèn)題.答案分類器使用問(wèn)題特征和最終記憶狀態(tài)特征得出最終答案.
2.3.8 基于隱式信息和符號(hào)重表示的知識(shí)推理模型
Marino等[62]提出了一種基于隱式信息和符號(hào)重表示的知識(shí)推理模型KRISP,如圖3所示.這一模型在知識(shí)庫(kù)上集成了隱式知識(shí)和基于顯式圖的推理.隱式知識(shí)模型接受視覺(jué)特征和問(wèn)題編碼,而顯式知識(shí)模型處理圖像和問(wèn)題符號(hào).
KRISP首先對(duì)自然語(yǔ)言處理算法無(wú)監(jiān)督學(xué)習(xí)得到的隱式知識(shí)進(jìn)行預(yù)訓(xùn)練,并利用基于Transformer的模型進(jìn)行監(jiān)督訓(xùn)練;然后利用知識(shí)圖譜對(duì)符號(hào)知識(shí)進(jìn)行編碼;最后對(duì)這2種知識(shí)進(jìn)行知識(shí)推理計(jì)算和融合學(xué)習(xí).
圖3 KRISP示意圖[62]Fig.3 Schematic diagram of KRISP[62]
基于知識(shí)推理的方法在VQA任務(wù)中取得了突破性的進(jìn)展,這一類方法結(jié)合跨模態(tài)注意力機(jī)制和推理學(xué)習(xí)的思路對(duì)圖像和問(wèn)題的聯(lián)合輸入數(shù)據(jù)進(jìn)行推理學(xué)習(xí),進(jìn)而取得了較高的準(zhǔn)確率.
基于注意力機(jī)制的方法注重于對(duì)數(shù)據(jù)的關(guān)聯(lián)關(guān)系進(jìn)行建模,面對(duì)較為復(fù)雜的場(chǎng)景,答案通常無(wú)法直接得出,必須根據(jù)多組特征之間的關(guān)聯(lián)信息推理得出,因此,由單純的關(guān)聯(lián)建模得到的特征仍然包含較多的冗余數(shù)據(jù).
基于知識(shí)推理的方法通過(guò)推理計(jì)算在提煉有效信息的基礎(chǔ)上大大減少了特征中的冗余數(shù)據(jù),同時(shí),可以對(duì)特征之間的多元關(guān)系進(jìn)行建模學(xué)習(xí).這類方法通常對(duì)輸入數(shù)據(jù)進(jìn)行多步迭代計(jì)算,對(duì)信息進(jìn)行逐步地建模和推理學(xué)習(xí),進(jìn)而得到較優(yōu)的跨模態(tài)特征表示.
視頻問(wèn)答是VQA領(lǐng)域的一個(gè)新興課題,由于其在人工問(wèn)答系統(tǒng)、機(jī)器人對(duì)話、視頻檢索等方面的廣泛應(yīng)用,近年來(lái)受到越來(lái)越多的關(guān)注.與基于圖像的問(wèn)答任務(wù)不同,視頻問(wèn)答更加實(shí)用,因?yàn)檩斎氲囊曈X(jué)信息經(jīng)常動(dòng)態(tài)變化.
與圖像問(wèn)答相比,視頻問(wèn)答更具有挑戰(zhàn)性.視頻中的視覺(jué)內(nèi)容更為復(fù)雜,一個(gè)視頻可能包含數(shù)千幀.視頻中經(jīng)常包含多種動(dòng)作,但只有一部分動(dòng)作是關(guān)注者感興趣的.視頻問(wèn)答任務(wù)中的問(wèn)題往往包含著與時(shí)間線索有關(guān)的信息,這意味著在進(jìn)行答案推理時(shí),既要考慮目標(biāo)的時(shí)間位置,又要考慮目標(biāo)之間的復(fù)雜交互作用.
Huang等[63]提出了位置意識(shí)的圖卷積網(wǎng)絡(luò)模型來(lái)完成視頻問(wèn)答任務(wù).這一模型整合視頻中目標(biāo)的位置信息,構(gòu)建具有位置意識(shí)的圖,在圖中每個(gè)節(jié)點(diǎn)都由其特征向量和位置特征進(jìn)行聯(lián)合表示.基于所構(gòu)造的圖,這一模型使用圖卷積來(lái)推斷動(dòng)作的類別和時(shí)間位置.由于圖形是建立在對(duì)象上的,因此,該方法能夠聚焦于前景的動(dòng)作內(nèi)容,以便更好地進(jìn)行視頻問(wèn)答.
Jiang等[64]提出了一種問(wèn)題引導(dǎo)的時(shí)空上下文注意力網(wǎng)絡(luò)模型.這一模型將問(wèn)題產(chǎn)生的語(yǔ)義特征分為兩部分:空間部分和時(shí)間部分,分別從空間和時(shí)間2個(gè)維度指導(dǎo)語(yǔ)境注意力的構(gòu)建過(guò)程.在相應(yīng)的語(yǔ)境注意力的引導(dǎo)下,視覺(jué)特征可以在空間和時(shí)間維度上得到更好的利用.
1) Visual Genome[14]:該數(shù)據(jù)集包含108 077張圖片、1 445 233個(gè)圖片和問(wèn)題的數(shù)據(jù)對(duì),圖像來(lái)源為YFCC100M和COCO數(shù)據(jù)集,共有約540萬(wàn)張圖像中的區(qū)域描述信息,這些信息能夠達(dá)到精細(xì)的語(yǔ)義層次,問(wèn)題類型是6W(what、 where、 how、 when、 who、 why).
2) VQA-v1[65]:訓(xùn)練集包含82 783張圖片、248 349個(gè)問(wèn)題和2 483 490個(gè)答案.驗(yàn)證集包含40 504張圖片、121 512個(gè)問(wèn)題和1 215 120個(gè)答案.測(cè)試集包含81 434張圖片和244 302個(gè)問(wèn)題.數(shù)據(jù)集中的圖片來(lái)源于COCO數(shù)據(jù)集.
3) VQA-v2[66]:訓(xùn)練集包含82 783張圖片、443 757個(gè)問(wèn)題和4 437 570個(gè)答案.驗(yàn)證集包含40 504張圖片、214 354個(gè)問(wèn)題和2 143 540個(gè)答案.測(cè)試集包含81 434張圖片和447 793個(gè)問(wèn)題.數(shù)據(jù)集中的圖片來(lái)源于COCO數(shù)據(jù)集.
4) CLEVR[67]:該數(shù)據(jù)集包含10萬(wàn)張經(jīng)過(guò)渲染的圖像和大約100萬(wàn)個(gè)自動(dòng)生成的問(wèn)題,其中有85.3萬(wàn)個(gè)問(wèn)題是互不相同的.其中包含了測(cè)試計(jì)數(shù)、比較、邏輯推理和在記憶中存儲(chǔ)信息等視覺(jué)推理能力的圖像和問(wèn)題.盡管CLEVR中的圖像可能看起來(lái)很簡(jiǎn)單,但它的問(wèn)題卻很復(fù)雜,需要一系列的推理能力.例如:歸納未見(jiàn)過(guò)的物體和屬性的組合可能需要分解表征;計(jì)數(shù)或比較這樣的任務(wù)可能需要短期記憶或關(guān)注特定的物體;以多種方式結(jié)合多個(gè)子任務(wù)的問(wèn)題可能需要組合式系統(tǒng)來(lái)回答.
5) TGIF-QA[68]:該數(shù)據(jù)集包含72 000個(gè)的動(dòng)畫(huà)GIF文件和165 000個(gè)的問(wèn)答對(duì).這個(gè)數(shù)據(jù)集提供了4種任務(wù)來(lái)處理視頻的獨(dú)特屬性.重復(fù)計(jì)數(shù)是檢索一個(gè)動(dòng)作的出現(xiàn)次數(shù).重復(fù)動(dòng)作是一項(xiàng)任務(wù),用于識(shí)別在多項(xiàng)選擇中重復(fù)給定次數(shù)的動(dòng)作.狀態(tài)轉(zhuǎn)換是一項(xiàng)多項(xiàng)選擇任務(wù),用于根據(jù)動(dòng)作狀態(tài)的時(shí)間順序確定動(dòng)作.幀定位是在視頻中找到一個(gè)能回答問(wèn)題的特定幀.
6) MSRVTT-QA[69]: 該數(shù)據(jù)集包含10 000個(gè)視頻和243 000個(gè)問(wèn)答對(duì).這些問(wèn)題由5種類型組成,包括what、who、how、when和where.視頻的長(zhǎng)度為10~30 s.
在表1和表2中分別對(duì)多種方法在VQA-v1和VQA-v2數(shù)據(jù)庫(kù)上的準(zhǔn)確率進(jìn)行對(duì)比.可以看出,數(shù)據(jù)融合的方法取得了初步的結(jié)果,基于跨模態(tài)的注意力的方法可以學(xué)習(xí)到更加精確的數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,準(zhǔn)確率高于數(shù)據(jù)融合的方法.基于知識(shí)推理的方法利用了推理的思路,經(jīng)過(guò)多次迭代的推理計(jì)算來(lái)學(xué)習(xí)更加有效的信息,也取得了最好的結(jié)果.
表1 VQA-v1數(shù)據(jù)庫(kù)上的準(zhǔn)確率對(duì)比
表2 VQA-v2數(shù)據(jù)庫(kù)上的準(zhǔn)確率對(duì)比
綜上所述,目前VQA方法研究的核心問(wèn)題有2點(diǎn):視覺(jué)和文本數(shù)據(jù)的特征表示、多模態(tài)特征聯(lián)合學(xué)習(xí).由于細(xì)粒度的特征表示可以提供豐富的細(xì)節(jié)語(yǔ)義信息,這一表示方法也取得了較好的效果.然而,對(duì)于圖像的特征表示還有不足之處,目前,還沒(méi)有找到能夠準(zhǔn)確提取和表示圖像語(yǔ)義信息的方法.在多模態(tài)特征聯(lián)合學(xué)習(xí)中,注意力機(jī)制發(fā)揮了重要作用,這一機(jī)制可以深度挖掘模態(tài)間和模態(tài)內(nèi)信息之間的關(guān)聯(lián)關(guān)系,因此,取得了較好的效果.但是,注意力機(jī)制缺乏推理學(xué)習(xí)的能力,對(duì)于包含復(fù)雜語(yǔ)義信息的圖像和文本信息其無(wú)法有效學(xué)習(xí)2種跨模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)關(guān)系.面對(duì)這一問(wèn)題,知識(shí)推理的方法通過(guò)多步迭代的推理學(xué)習(xí)對(duì)多模態(tài)的信息進(jìn)行語(yǔ)義學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí),可以挖掘出深層次的關(guān)聯(lián)信息.
本文結(jié)合現(xiàn)有的VQA方法,對(duì)未來(lái)的有潛力的研究方向進(jìn)行展望.
1) 在特征表示方面,研究者一直在探索圖像的特征表示方法,在VQA中,圖像的特征提取也是一個(gè)重要環(huán)節(jié).目前,基于卷積網(wǎng)絡(luò)的網(wǎng)格特征和基于目標(biāo)檢測(cè)方法的區(qū)域特征均有所不足,這2種特征都無(wú)法充分保留全局語(yǔ)義信息和細(xì)粒度語(yǔ)義信息,在如何提取適用于VQA任務(wù)、精度高并包含細(xì)粒度語(yǔ)義信息的圖像特征方面具有較大的研究?jī)r(jià)值.在圖像的特征表示過(guò)程中結(jié)合知識(shí)圖譜進(jìn)行結(jié)構(gòu)化的特征提取和表示是一個(gè)值得探索的方向.
2) 在跨模態(tài)特征學(xué)習(xí)方面,知識(shí)推理的方向具有較大的研究?jī)r(jià)值.多年來(lái),研究者都在探索知識(shí)的表示和推理學(xué)習(xí)的方法,人類面對(duì)復(fù)雜問(wèn)題展現(xiàn)出強(qiáng)大的推理能力,通過(guò)推理分析得到解決辦法.在VQA中推理也非常重要,推理的方法可以對(duì)特征之間的復(fù)雜關(guān)系進(jìn)行提取和建模.結(jié)合知識(shí)圖譜中的先驗(yàn)知識(shí)來(lái)解答真實(shí)場(chǎng)景中的VQA任務(wù)是一個(gè)有價(jià)值的研究方向.如何利用跨模態(tài)的知識(shí)圖譜對(duì)視覺(jué)特征和文本問(wèn)題進(jìn)行有效的推理計(jì)算具有較大的研究潛力.