• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向跨模態(tài)數(shù)據(jù)協(xié)同分析的視覺(jué)問(wèn)答方法綜述

    2022-10-12 12:35:48胡永利孫艷豐尹寶才
    關(guān)鍵詞:注意力模態(tài)特征

    崔 政,胡永利,孫艷豐,尹寶才

    (北京工業(yè)大學(xué)信息學(xué)部,北京 100124)

    如何使算法可以像人類一樣同時(shí)理解和利用多種模態(tài)數(shù)據(jù)是人工智能領(lǐng)域中的一個(gè)重要研究課題.隨著深度學(xué)習(xí)技術(shù)的成熟,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理技術(shù)飛速發(fā)展,在此基礎(chǔ)上視覺(jué)問(wèn)答(visual question answering, VQA)這一涉及圖像理解和自然語(yǔ)言處理2個(gè)領(lǐng)域的研究課題受到越來(lái)越多的關(guān)注.雖然人工智能領(lǐng)域的學(xué)者已經(jīng)提出了多種基于深度學(xué)習(xí)的VQA模型,但是如何準(zhǔn)確地學(xué)習(xí)跨模態(tài)數(shù)據(jù)特征,目前還沒(méi)有一個(gè)完整的解決方案.

    1 VQA簡(jiǎn)介

    隨著大數(shù)據(jù)時(shí)代的到來(lái),全球的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng).每個(gè)用戶都在社交媒體和互聯(lián)網(wǎng)應(yīng)用上產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)包括圖片、文本、聲音、視頻和瀏覽記錄等,具有明顯的跨模態(tài)性質(zhì).面對(duì)龐大的跨模態(tài)數(shù)據(jù),如何提取有效的信息和進(jìn)行準(zhǔn)確的分析成為了一個(gè)研究難點(diǎn)和熱點(diǎn).在此背景下,VQA這一研究課題被提出.如圖1所示,當(dāng)給定一張圖片和一個(gè)對(duì)應(yīng)的問(wèn)題,VQA系統(tǒng)需要根據(jù)問(wèn)題來(lái)提取圖片上的有效信息,進(jìn)而得出正確的答案.這就要求算法能夠?qū)D像和問(wèn)題的語(yǔ)義信息具有高層次的理解,并且能夠同時(shí)處理和分析圖像和文本2種模態(tài)的數(shù)據(jù).

    圖1 VQA示意圖Fig.1 Schematic diagram of VQA

    近年來(lái),許多基于深度學(xué)習(xí)的方法被提出以解決VQA任務(wù)[1-8],為了更加清晰地闡述不同方法的研究思路和便于學(xué)者參考,本文按照原理的不同將這些方法分為數(shù)據(jù)融合、跨模態(tài)注意力和知識(shí)推理3類,介紹了每一類方法的相關(guān)工作和常用的VQA數(shù)據(jù)集,并對(duì)最新出現(xiàn)的基于視頻和文本問(wèn)題的VQA任務(wù)進(jìn)行了介紹.最后,對(duì)每一類方法做出總結(jié)并對(duì)未來(lái)的研究方向進(jìn)行了展望.

    2 VQA研究現(xiàn)狀及方法

    首先,給出VQA系統(tǒng)的定義,給定一個(gè)圖像v和一個(gè)問(wèn)題q,VQA系統(tǒng)的目的是預(yù)測(cè)一個(gè)與真實(shí)標(biāo)簽a*相匹配的答案,目前VQA中常用的方法通過(guò)分類器fθ()的得分來(lái)獲得正確答案的預(yù)測(cè),即

    (1)

    一個(gè)完整的VQA系統(tǒng)通常由4個(gè)部分組成:圖像特征提取器、文本特征提取器、跨模態(tài)特征學(xué)習(xí)模塊和答案分類器.

    最初各種卷積神經(jīng)網(wǎng)絡(luò)被用來(lái)作為圖像特征提取器,包括亞歷克斯網(wǎng)絡(luò)(Alex network,AlexNet)[9]、谷歌網(wǎng)絡(luò)(Google network,GoogLeNet)[10]、視覺(jué)幾何組網(wǎng)絡(luò)(visual geometry group network,VGGNet)[11]和殘差網(wǎng)絡(luò) (residual network,ResNet)[12].AlexNet是一個(gè)具有5個(gè)卷積層的深層網(wǎng)絡(luò),是第1個(gè)大幅度提高分類精度的深度卷積網(wǎng)絡(luò),并獲得了2012年的ImageNet數(shù)據(jù)集大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽冠軍.在2014年的挑戰(zhàn)賽中,GoogLeNet獲得了第1名、VGGNet獲得了第2名,這2類模型結(jié)構(gòu)的共同特點(diǎn)是層次更深了.VGGNet采用連續(xù)的幾個(gè)3×3的卷積核代替AlexNet中的較大卷積核,在保證具有相同感知野的條件下提升了網(wǎng)絡(luò)的深度,在一定程度上提升了神經(jīng)網(wǎng)絡(luò)的效果.GoogLeNet使用1×1的卷積來(lái)進(jìn)行降維,并且在多個(gè)尺寸上同時(shí)進(jìn)行不同尺度的卷積,然后再進(jìn)行聚合,最終取得了更加優(yōu)越的性能.ResNet有效地解決了深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題,是卷積網(wǎng)絡(luò)發(fā)展史上具有里程碑意義的工作.采用卷積網(wǎng)絡(luò)作為圖片的特征提取器可以得到包含豐富語(yǔ)義信息的優(yōu)質(zhì)的圖像特征表示,這也推動(dòng)了VQA這一課題的發(fā)展.雖然這些卷積網(wǎng)絡(luò)通常能夠提取具有概括性的全局圖像特征描述,但是也丟失了大量有用的細(xì)粒度信息,這些細(xì)粒度的信息可以幫助算法得到精準(zhǔn)的圖像理解.因此,最近的研究工作探討了目標(biāo)檢測(cè)器提取的區(qū)域級(jí)特征的可用性.Anderson等[13]提出了自下而上的注意力機(jī)制來(lái)提取圖像的特征,這一方法類似于人類視覺(jué)系統(tǒng)中的注意力機(jī)制,可以過(guò)濾掉不重要信息的特征,最終通過(guò)在視覺(jué)基因數(shù)據(jù)庫(kù)[14]上預(yù)訓(xùn)練的快速目標(biāo)檢測(cè)模型[15]得到區(qū)域級(jí)的圖像特征.這些區(qū)域特征包含了豐富的細(xì)粒度語(yǔ)義信息,非常有利于圖像的細(xì)粒度理解和跨模態(tài)特征的學(xué)習(xí).

    文本特征提取器被用來(lái)抽取文本問(wèn)題的特征,通常首先利用文本特征提取方法[16-22]將每個(gè)單詞或整個(gè)問(wèn)題嵌入到問(wèn)題的文本語(yǔ)義空間,然后通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來(lái)得到序列化的特征.長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long and short term memory network,LSTM)、門(mén)循環(huán)單元(gate recurrent unit,GRU)常被用作文本特征編碼器,因?yàn)樗鼈儗?duì)于序列數(shù)據(jù)的處理非常有效.

    跨模態(tài)特征學(xué)習(xí)模塊是整個(gè)VQA系統(tǒng)的核心,這一模塊的主要目的是綜合分析和利用2種模態(tài)的數(shù)據(jù),挖掘2種模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,通過(guò)數(shù)據(jù)融合、跨模態(tài)注意力、知識(shí)推理等方法學(xué)習(xí)一個(gè)對(duì)于輸入數(shù)據(jù)的跨模態(tài)特征表示.

    答案分類器通常由一個(gè)多層全連接神經(jīng)網(wǎng)絡(luò)組成,輸入是圖片和問(wèn)題的跨模態(tài)特征表示,其最終輸出維度是預(yù)選答案的個(gè)數(shù).通過(guò)這一模塊可以得到每個(gè)預(yù)選答案的置信度得分,從而選擇得分最高的答案作為預(yù)測(cè)的正確答案.

    2.1 數(shù)據(jù)融合

    在VQA算法中,核心在于文本和視覺(jué)這2種模態(tài)數(shù)據(jù)的聯(lián)合表示.基于數(shù)據(jù)融合的方法將圖像和文本模態(tài)的特征向量進(jìn)行數(shù)據(jù)融合,從而得到跨模態(tài)特征表示.

    2.1.1 多模態(tài)緊湊雙線性池化(multimodal compact bilinear pooling,MCB)模型

    Fukui等[23]提出了MCB模型,這一模型利用MCB得到一個(gè)特征的聯(lián)合表示.雙線性池化方法是計(jì)算2個(gè)向量之間的外積,與元素積不同,它允許2個(gè)向量的所有元素之間的乘法交互.當(dāng)特征向量的維度較大時(shí)會(huì)導(dǎo)致學(xué)習(xí)參數(shù)的激增,因此,MCB模型使用了Count Sketch函數(shù)將外積投影到低維空間,避免了直接計(jì)算外積.

    MCB方法使用152層的ResNet作為圖像特征提取器、LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)作為文本特征提取器,然后計(jì)算問(wèn)題特征向量和每個(gè)圖像網(wǎng)格特征向量之間的融合表示和每個(gè)融合向量的權(quán)重,最后將融合向量按照權(quán)重求和,這樣就得到了經(jīng)過(guò)2個(gè)模態(tài)交互的加權(quán)圖像特征表示.接著將文本向量和加權(quán)后的視覺(jué)向量再進(jìn)行一次數(shù)據(jù)融合,得到跨模態(tài)的特征表示.最終以跨模態(tài)特征作為輸入,使用一個(gè)全連接網(wǎng)絡(luò)計(jì)算每個(gè)候選問(wèn)題的得分.

    MCB方法的主要特點(diǎn)是降低了雙線性池化的參數(shù)量,實(shí)現(xiàn)了文本和圖像2種模態(tài)數(shù)據(jù)的交互,并進(jìn)行了深度的數(shù)據(jù)融合.

    2.1.2 基于Hadamard積的多模態(tài)低秩雙線性池化(multimodal low-rank bilinear pooling,MLB)模型

    與線性模型相比,雙線性模型提供了更豐富的信息,也被應(yīng)用于各種視覺(jué)任務(wù),如對(duì)象識(shí)別、分割和VQA,并且也獲得了優(yōu)良的性能.然而,由于特征的維度往往很高,導(dǎo)致了雙線性表示的計(jì)算復(fù)雜性較高,這也限制了該模型的適用性.Kim等[24]提出了一種基于Hadamard積的MLB模型來(lái)實(shí)現(xiàn)有效的多模態(tài)注意力機(jī)制學(xué)習(xí)和數(shù)據(jù)融合.

    MLB將雙線性池化中的三維權(quán)重張量分解為3個(gè)二維權(quán)重矩陣,使權(quán)重張量變?yōu)榈椭葟埩?模型首先計(jì)算經(jīng)過(guò)2個(gè)權(quán)重矩陣線性投影的2個(gè)輸入特征向量的Hadamard積,并且使用非線性函數(shù)進(jìn)行激活,添加了殘差連接.在得到融合向量后,使用MLB方法得到了一個(gè)有效的面向VQA任務(wù)的視覺(jué)特征注意力機(jī)制.最后,通過(guò)另一個(gè)MLB融合文本特征和注意力加權(quán)的視覺(jué)特征,得到跨模態(tài)特征表示.

    MLB模型利用Hadamard積來(lái)降低計(jì)算的復(fù)雜性,得到了更加緊湊的特征表示,也實(shí)現(xiàn)了跨模態(tài)數(shù)據(jù)間的深度融合.

    2.1.3 多級(jí)注意力網(wǎng)絡(luò)(multi-level attention networks,MLAN)模型

    許多VQA的方法主要從抽象的低級(jí)視覺(jué)特征推斷答案,而忽略了圖像高層語(yǔ)義和豐富的文本語(yǔ)義空間的建模.Yu等[25]提出了一種MLAN,這一網(wǎng)絡(luò)通過(guò)語(yǔ)義注意力機(jī)制縮小不同模態(tài)數(shù)據(jù)之間的語(yǔ)義鴻溝,通過(guò)視覺(jué)注意力增強(qiáng)細(xì)粒度圖像特征的空間推理.

    MLAN模型包括3個(gè)部分,分別是語(yǔ)義注意力、上下文意識(shí)的視覺(jué)注意力和聯(lián)合注意力.語(yǔ)義注意力模塊的目的是從圖像中挖掘出對(duì)于回答問(wèn)題更重要的概念.上下文意識(shí)的視覺(jué)注意力模塊把圖片進(jìn)行卷積計(jì)算后的特征按區(qū)域輸入到雙向GRU中,將每一步GRU中的前向和后向隱層向量組合起來(lái),為每個(gè)區(qū)域形成一個(gè)新的特征向量.新的特征向量不僅包含了對(duì)應(yīng)區(qū)域的視覺(jué)信息,而且還包含了來(lái)自周邊區(qū)域的上下文信息.然后,將每個(gè)包含上下文信息的圖像特征加權(quán)求和.聯(lián)合注意力模塊將問(wèn)題向量和學(xué)習(xí)到的視覺(jué)向量進(jìn)行融合,最終得到了跨模態(tài)的特征表示.

    MLAN模型在數(shù)據(jù)融合的過(guò)程中考慮了不同視覺(jué)特征的重要性和視覺(jué)特征的上下文語(yǔ)境,得到了更加優(yōu)良的數(shù)據(jù)融合特征表示.

    2.1.4 多模態(tài)塔克融合模型

    雙線性模型是VQA任務(wù)中信息融合的一種有效的方法.它有助于學(xué)習(xí)問(wèn)題意義和圖像中視覺(jué)概念之間的高級(jí)關(guān)聯(lián),但也始終面臨著數(shù)據(jù)維度太大的問(wèn)題.為了解決這一問(wèn)題,Ben-Younes等[26]提出了多模態(tài)塔克融合模型MUTAN,這一模型通過(guò)多模態(tài)張量的塔克分解有效地實(shí)現(xiàn)了視覺(jué)和文本特征表示之間的雙線性交互.

    雙線性模型是對(duì)數(shù)據(jù)融合問(wèn)題有效的解決方案,它對(duì)矢量q和v之間的雙線性相互作用進(jìn)行了編碼,即

    y=(E×1q)×2v

    (2)

    式中E為約束張量.盡管雙線性模型有很強(qiáng)的建模能力,但完全參數(shù)化的數(shù)據(jù)雙線性交互在VQA中很難實(shí)現(xiàn),因?yàn)槲谋?、視覺(jué)和輸出特征向量使用相同的維度,使得參數(shù)量變得非常龐大.因此,MUTAN使用塔克分解將式(2)重寫(xiě)為

    y=((E×1(qTWq))×2(vTWv))×3Wo

    (3)

    式中Wq、Wv和Wo為可學(xué)習(xí)的投影矩陣.這一方法對(duì)q和v的投影進(jìn)行雙線性相互作用編碼.MUTAN模型在降低了計(jì)算復(fù)雜性的基礎(chǔ)上實(shí)現(xiàn)了更強(qiáng)的表現(xiàn)力,得到了較優(yōu)的預(yù)測(cè)準(zhǔn)確性.

    MCB模型和MLB模型在雙線性池化的基礎(chǔ)上進(jìn)行了改良,實(shí)現(xiàn)了跨模態(tài)數(shù)據(jù)之間的交互,計(jì)算了數(shù)據(jù)之間的高級(jí)關(guān)聯(lián).MUTAN利用塔克分解得到了表現(xiàn)力更強(qiáng)的跨模態(tài)特征表示.MLAN模型創(chuàng)新地考慮了視覺(jué)向量的上下文語(yǔ)境信息.

    以上幾種模型對(duì)VQA任務(wù)進(jìn)行了初步的探索,通過(guò)池化和矩陣分解的方式融合圖像和文本特征,從而得到可以預(yù)測(cè)答案的跨模態(tài)特征表示.然而,數(shù)據(jù)融合的方法缺乏對(duì)圖像和文本特征之間關(guān)聯(lián)關(guān)系的深度挖掘,缺乏對(duì)特征的精細(xì)化計(jì)算,得到的跨模態(tài)特征中冗余數(shù)據(jù)和噪聲較多.

    2.2 跨模態(tài)注意力

    視覺(jué)場(chǎng)景往往包含大量信息,如何利用有限的感知和計(jì)算資源從大量信息中篩選出高價(jià)值的信息是計(jì)算機(jī)視覺(jué)中的核心問(wèn)題.在長(zhǎng)期進(jìn)化中,人類形成了一種特有的大腦信號(hào)處理機(jī)制——視覺(jué)注意力機(jī)制.這一機(jī)制極大地提高了視覺(jué)信息處理的效率與準(zhǔn)確性.具體而言,當(dāng)看到一張圖片時(shí),人類視覺(jué)系統(tǒng)可以快速掃描整個(gè)圖片并獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,形成注意力焦點(diǎn),然后對(duì)目標(biāo)區(qū)域投入較多的感知和計(jì)算資源,從而獲取更多關(guān)注區(qū)域的細(xì)節(jié)信息,同時(shí)抑制其他無(wú)用信息[27].

    在VQA任務(wù)中,跨模態(tài)注意力是一種非常高效的方法.通過(guò)注意力機(jī)制,可以得到跨模態(tài)數(shù)據(jù)之間準(zhǔn)確的關(guān)聯(lián)關(guān)系和語(yǔ)義理解.最初,研究者利用視覺(jué)注意力機(jī)制[13,28-41]得到圖像中與問(wèn)題相關(guān)的區(qū)域.之后,考慮到單向注意力機(jī)制沒(méi)有有效利用文本信息,研究者提出了基于跨模態(tài)協(xié)同注意力的方法[42-53],利用圖像和文本的雙向注意力信息挖掘出有效知識(shí).下面就典型方法進(jìn)行介紹.

    2.2.1 堆疊注意力網(wǎng)絡(luò)(stacked attention networks,SAN)模型

    Yang等[41]提出了SAN模型, 這一模型根據(jù)問(wèn)題特征在圖像上進(jìn)行多步推理,最終得到圖像上的關(guān)鍵特征.

    SAN模型利用VGGNet提取圖像的特征,并利用文本卷積網(wǎng)絡(luò)或LSTM提取問(wèn)題特征,得到圖像特征矩陣V和問(wèn)題特征向量Q.SAN模型通過(guò)多步迭代計(jì)算的方式預(yù)測(cè)答案.首先計(jì)算以問(wèn)題特征為查詢,每個(gè)視覺(jué)向量的權(quán)重公式為

    h1=tanh(WvV⊕(wqQ+b))

    (4)

    p=softmax(Wph1+bp)

    (5)

    式中:Wq和Wp為可學(xué)習(xí)的投影矩陣;b和bp為偏執(zhí)向量.基于第1次得到的視覺(jué)向量的注意力分布p,將視覺(jué)向量的權(quán)重求和,并加上文本特征形成新的查詢向量u,公式為

    (6)

    (7)

    然后,可以根據(jù)新的查詢向量進(jìn)行下一步的注意力權(quán)重分布計(jì)算,并延續(xù)到第k次,即

    (8)

    (9)

    2.2.2 由下到上和由上到下的注意力模型

    Anderson等[13]提出了由下到上和由上到下的注意力模型, 由下到上注意力模塊相當(dāng)于對(duì)整個(gè)圖片上的所有像素點(diǎn)進(jìn)行了注意力分布的計(jì)算,最終得到了包含豐富語(yǔ)義特征目標(biāo)級(jí)別的視覺(jué)特征.如果輸入是一張廚房的圖片,那么這一模塊可以得到很多顯著性區(qū)域,包括食物、人、湯勺、平底鍋等.以顯著性區(qū)域特征作為跨模態(tài)特征學(xué)習(xí)模塊的輸入,算法可以精確地找到視覺(jué)特征和問(wèn)題特征之間的對(duì)應(yīng)關(guān)系.由上到下的注意力模塊以文本特征為查詢向量找到圖像上的關(guān)鍵區(qū)域,甚至是答案所對(duì)應(yīng)的區(qū)域.

    由下到上和由上到下的注意力模型是一個(gè)在VQA領(lǐng)域具有里程碑意義的工作,大幅提高了VQA的準(zhǔn)確性,同時(shí),其提出的目標(biāo)級(jí)別的視覺(jué)特征也讓各種任務(wù)受益.

    2.2.3 雙線性注意力網(wǎng)絡(luò)(bilinear attention networks,BAN)模型

    Kim等[49]提出了BAN模型.這一模型首先將圖像編碼為顯著性區(qū)域特征,并提取問(wèn)題中每個(gè)單詞的特征.在得到圖像和文本的特征后,計(jì)算2種模態(tài)特征之間的雙線性注意力,也就是計(jì)算2組特征中兩兩之間的相似性.BAN模型通過(guò)多個(gè)雙線性特征圖按相關(guān)性的大小融合2種模態(tài)的數(shù)據(jù),在每一次融合后都添加了殘差連接.這一模型考慮了模態(tài)之間雙向的高級(jí)關(guān)聯(lián),實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)之間細(xì)粒度的交互.

    2.2.4 密集的對(duì)稱協(xié)同注意力網(wǎng)絡(luò)(dense symmetric co-attention network,DCN)模型

    Nguyen等[50]提出了DCN模型,這一模型利用協(xié)同注意力機(jī)制以改善視覺(jué)特征與文本特征的融合.得到圖像和問(wèn)題后,首先計(jì)算每個(gè)單詞的特征和圖像的卷積特征,然后在DCN中執(zhí)行3種計(jì)算:1) 注意力特征圖的計(jì)算;2) 多模態(tài)特征的拼接;3) 殘差連接的整流線性單元(rectified linear unit,ReLU)映射.這些計(jì)算被封裝成一個(gè)復(fù)合的計(jì)算模塊,被稱為密集協(xié)同注意力模塊,因?yàn)樗紤]了任何圖像區(qū)域和任何問(wèn)題詞之間的每一次交互.該模塊在2種模態(tài)的計(jì)算之間具有完全對(duì)稱的架構(gòu),并且可以堆疊,形成一個(gè)層次結(jié)構(gòu),使得圖像和問(wèn)題數(shù)據(jù)對(duì)之間能夠進(jìn)行多步交互.

    2.2.5 動(dòng)態(tài)融合的模態(tài)內(nèi)和模態(tài)間注意力流(dynamic fusion with itra-and inter-modality attention flow,DFAF)模型

    Gao等[51]提出了DFAF模型.如圖2所示,DFAF模型整合了跨模態(tài)的自注意力和協(xié)同注意力來(lái)實(shí)現(xiàn)視覺(jué)和文本2種模態(tài)內(nèi)部和之間的有效信息流.DFAF模型首先通過(guò)模態(tài)間注意力模塊生成模態(tài)間的注意力信息流來(lái)實(shí)現(xiàn)信息的交互,在模態(tài)間注意力模塊中,視覺(jué)和語(yǔ)言特征生成一個(gè)聯(lián)合模態(tài)協(xié)同注意力矩陣.每個(gè)視覺(jué)區(qū)域和文本單詞根據(jù)聯(lián)合模態(tài)協(xié)同注意力矩陣選擇特征,模態(tài)間注意力模塊根據(jù)來(lái)自另一模態(tài)的注意加權(quán)信息流融合和更新每個(gè)圖像區(qū)域和每個(gè)單詞的特征.在這一模塊之后,DFAF計(jì)算動(dòng)態(tài)的模態(tài)內(nèi)注意力信息流,用于在每個(gè)模態(tài)中傳遞信息以捕獲復(fù)雜的模態(tài)內(nèi)關(guān)系.視覺(jué)區(qū)域和單詞產(chǎn)生自注意力權(quán)重,并從其他實(shí)例中按照注意力權(quán)重整合信息.在動(dòng)態(tài)的模態(tài)內(nèi)注意力模塊中,雖然信息流只在相同的模態(tài)中傳播,但是另一個(gè)模態(tài)的信息被考慮并用于調(diào)節(jié)模態(tài)內(nèi)注意力權(quán)重和信息流.

    圖2 DFAF示意圖[51]Fig.2 Schematic diagram of DFAF[51]

    DFAF模型多次堆疊模態(tài)間注意力模塊和動(dòng)態(tài)的模態(tài)內(nèi)注意力模塊,實(shí)現(xiàn)了模態(tài)間和模態(tài)內(nèi)的注意力信息流的深度交互.

    2.2.6 多模態(tài)潛在交互(multi-modality latent interaction,MLI)模型

    Gao等[52]提出了MLI模型,這一模型由一系列疊加的多模態(tài)潛在交互模塊組成,其目的是將輸入的視覺(jué)區(qū)域和問(wèn)題詞信息匯總為每個(gè)模態(tài)的少量潛在具有高級(jí)語(yǔ)義的摘要向量.其核心思想是在潛在摘要向量之間傳播視覺(jué)和語(yǔ)言信息,從全局角度對(duì)復(fù)雜的跨模態(tài)交互進(jìn)行建模.在潛在交互摘要向量之間進(jìn)行信息傳播后,視覺(jué)區(qū)域和單詞特征將整合跨域摘要中的信息以更新其特征.MLI模塊的輸入和輸出具有相同的維度,整個(gè)網(wǎng)絡(luò)將MLI模塊分多個(gè)階段堆疊,逐步精煉視覺(jué)和語(yǔ)言特性.最后,將視覺(jué)區(qū)域和問(wèn)題詞的平均池化特征進(jìn)行元素相乘后作為跨模態(tài)特征來(lái)預(yù)測(cè)最終答案.

    注意力模型在VQA任務(wù)中取得了極大的成功,大幅度提高了答案預(yù)測(cè)的準(zhǔn)確性,促進(jìn)了這一領(lǐng)域的發(fā)展.基于注意力機(jī)制的方法,通過(guò)計(jì)算模態(tài)內(nèi)數(shù)據(jù)和模態(tài)間數(shù)據(jù)的關(guān)聯(lián)關(guān)系,對(duì)數(shù)據(jù)進(jìn)行了細(xì)粒度的關(guān)聯(lián)建模,成功提取了有效信息,抑制了冗余數(shù)據(jù).

    相比于特征融合的方式,基于注意力模型的方法同時(shí)考慮了模態(tài)內(nèi)和模態(tài)間的信息流,利用多層的神經(jīng)網(wǎng)絡(luò)對(duì)信息進(jìn)行深度建模,實(shí)現(xiàn)了數(shù)據(jù)間的深度交互,得到了擁有更高級(jí)語(yǔ)義信息的較為精煉的特征表示.因此,基于注意力機(jī)制的方法獲得了較高的預(yù)測(cè)準(zhǔn)確性.

    2.3 知識(shí)推理

    在邏輯學(xué)中,推理是一種思維的基本形式,是由一個(gè)或幾個(gè)已知的判斷(前提)推出新判斷(結(jié)論)的過(guò)程,包含直接推理、間接推理等.人類具有強(qiáng)大的推理能力,在面對(duì)一些問(wèn)題時(shí),通過(guò)深度的思考和多步的推理使問(wèn)題得以解決.在人工智能領(lǐng)域,如何讓算法具有推理能力是一個(gè)核心課題.

    在VQA中,一個(gè)問(wèn)題往往無(wú)法直接得出答案,問(wèn)題中描述了場(chǎng)景和不同物體之間的聯(lián)系,因此,算法必須具備推理能力,可以根據(jù)問(wèn)題描述推理判斷物體之間和物體與所處場(chǎng)景之間的關(guān)系.

    2.3.1 基于圖表示的VQA模型

    Teney等[54]提出了一種基于場(chǎng)景內(nèi)容和問(wèn)題的結(jié)構(gòu)化表示的VQA系統(tǒng)模型Graph VQA.VQA中的一個(gè)關(guān)鍵挑戰(zhàn)是需要在視覺(jué)域和文本域上進(jìn)行聯(lián)合推理.

    針對(duì)每一對(duì)圖片和問(wèn)題數(shù)據(jù),Graph VQA生成一個(gè)視覺(jué)場(chǎng)景圖和一個(gè)文本問(wèn)題圖.視覺(jué)場(chǎng)景圖以每一個(gè)視覺(jué)向量作為節(jié)點(diǎn),2個(gè)特征之間的空間關(guān)系作為它們的連接邊;文本問(wèn)題圖以每個(gè)單詞作為節(jié)點(diǎn),單詞之間的語(yǔ)法關(guān)系作為連接邊.GRU被用來(lái)編碼2個(gè)圖上的節(jié)點(diǎn),在多次迭代中,GRU更新每個(gè)節(jié)點(diǎn)的表示,該節(jié)點(diǎn)集成了圖中相鄰節(jié)點(diǎn)的上下文語(yǔ)境信息.所有圖像目標(biāo)和所有單詞的特征被成對(duì)地組合,并以注意力的形式對(duì)它們進(jìn)行加權(quán),有效地匹配了問(wèn)題和場(chǎng)景之間的元素.經(jīng)過(guò)注意力加權(quán)的特征通過(guò)最終的分類器得到每個(gè)固定候選答案的預(yù)測(cè)分?jǐn)?shù).

    2.3.2 復(fù)合關(guān)系注意力網(wǎng)絡(luò)(composed relation attention network,CRA-Net)模型

    現(xiàn)有的VQA模型一部分利用注意力機(jī)制來(lái)定位相關(guān)的目標(biāo)區(qū)域,另一部分利用關(guān)系推理的方法來(lái)檢測(cè)目標(biāo)關(guān)系.然而,這些模型大多對(duì)簡(jiǎn)單的關(guān)系進(jìn)行編碼,不能為回答復(fù)雜的視覺(jué)問(wèn)題提供足夠的復(fù)雜知識(shí),也很少組合、利用目標(biāo)視覺(jué)特征和對(duì)象間的關(guān)系特征.

    Peng等[55]提出了CRA-Net模型,這一模型包括2個(gè)問(wèn)題自適應(yīng)關(guān)系注意力模塊,不僅可以提取細(xì)粒度和精確的二元關(guān)系,而且可以提取更復(fù)雜的三元關(guān)系.這2種與問(wèn)題相關(guān)聯(lián)的目標(biāo)關(guān)系都能揭示更深層次的語(yǔ)義,從而提高問(wèn)答的推理能力.此外,CRA-Net在相應(yīng)問(wèn)題的指導(dǎo)下,將目標(biāo)的視覺(jué)特征與關(guān)系特征相結(jié)合,有效地融合了這2類特征,得到了擁有豐富知識(shí)的特征表示.

    在得到圖片目標(biāo)區(qū)域特征和問(wèn)題中每個(gè)單詞的特征后,CRA-Net首先利用單詞自注意力計(jì)算每個(gè)單詞的權(quán)重,然后把所有問(wèn)題單詞進(jìn)行加權(quán)求和,得到問(wèn)題的向量表示.接著,CRA-Net以問(wèn)題向量作為語(yǔ)境學(xué)習(xí)目標(biāo)之間的細(xì)粒度、精確的二元關(guān)系和更復(fù)雜的三元關(guān)系.這2種問(wèn)題的相關(guān)關(guān)系都能揭示更深層次的語(yǔ)義,提高推理能力.此外,推導(dǎo)出的三元關(guān)系將多個(gè)重要對(duì)象聯(lián)系起來(lái),提供了一種更全面的視覺(jué)關(guān)系表示,彌補(bǔ)了二元關(guān)系對(duì)復(fù)雜關(guān)系表達(dá)的局限性.最后,融合了問(wèn)題特征的單目標(biāo)注意力特征、二元關(guān)系特征和三元關(guān)系特征通過(guò)元素級(jí)的點(diǎn)積得到用于預(yù)測(cè)答案的跨模態(tài)特征.

    2.3.3 深度模塊化協(xié)同注意力網(wǎng)絡(luò)(modular co-attention networks,MCAN)模型

    VQA要求對(duì)圖像的視覺(jué)內(nèi)容和問(wèn)題的文本內(nèi)容同時(shí)進(jìn)行精細(xì)的理解.因此,設(shè)計(jì)一個(gè)有效的協(xié)同注意力模型,將問(wèn)題中的關(guān)鍵詞與圖像中的關(guān)鍵對(duì)象聯(lián)系起來(lái)是VQA系統(tǒng)具有良好性能的核心.到目前為止,大多數(shù)成功的協(xié)同注意力學(xué)習(xí)嘗試都是通過(guò)淺層模型實(shí)現(xiàn)的,而深度協(xié)同注意力模型與淺層模型相比幾乎沒(méi)有改善.

    Yu等[56]提出了MCAN模型,這一模型的靈感來(lái)自于Transformer模型[57].Transformer是第一個(gè)只用注意力機(jī)制搭建的自然語(yǔ)言處理模型,不僅計(jì)算速度更快,在翻譯任務(wù)上也獲得了更好的結(jié)果.MCAN模型是由多個(gè)協(xié)同注意力模塊組成的具有編碼和解碼兩部分的深度模塊化網(wǎng)絡(luò).每個(gè)協(xié)同注意力模塊由2個(gè)基礎(chǔ)的注意力單元組成,這2個(gè)單元對(duì)問(wèn)題和圖像的自注意力以及圖像的引導(dǎo)注意力進(jìn)行建模.協(xié)同注意力的基礎(chǔ)注意力計(jì)算由多頭點(diǎn)積注意力機(jī)制組成,在給定查詢q、鍵值k和特征值v對(duì)后,可以得到經(jīng)過(guò)注意力加權(quán)后的特征值

    (10)

    式中dk為特征向量的維度,然后將不同通道拼接,公式為

    hi=Att(qWq,kWk,vWv)

    (11)

    MHead(q,k,v)=Concat(h1,…,hn)Wo

    (12)

    式中:Wq、Wk和Wv為注意力計(jì)算中的特征投影矩陣;Concat()為特征拼接函數(shù);Wo為投影矩陣.

    MCAN在編碼和解碼的框架下對(duì)跨模態(tài)數(shù)據(jù)進(jìn)行了深度的注意力編碼,取得了較高的預(yù)測(cè)精度.

    2.3.4 關(guān)系感知的圖注意力網(wǎng)絡(luò)模型

    為了回答與圖像相關(guān)的具有復(fù)雜語(yǔ)義的問(wèn)題,VQA模型需要充分理解圖像中的視覺(jué)場(chǎng)景,尤其是不同對(duì)象之間的動(dòng)態(tài)交互.Li等[58]提出了關(guān)系感知的圖注意力網(wǎng)絡(luò)模型ReGAT,將每個(gè)圖像編碼成一個(gè)圖,通過(guò)圖注意力機(jī)制建立多類型的對(duì)象間關(guān)系模型,學(xué)習(xí)基于問(wèn)題特征的圖像自適應(yīng)關(guān)系表示.

    ReGAT建模了2類視覺(jué)對(duì)象關(guān)系:1) 表示對(duì)象之間幾何位置和語(yǔ)義交互的顯式關(guān)系;2) 捕捉圖像區(qū)域間隱藏的動(dòng)態(tài)隱式關(guān)系.在得到問(wèn)題特征和圖像上的目標(biāo)區(qū)域特征后,ReGAT首先將問(wèn)題特征和每個(gè)目標(biāo)的特征進(jìn)行融合,得到了包含問(wèn)題特征的目標(biāo)特征.利用新的目標(biāo)特征,ReGAT構(gòu)建了一個(gè)目標(biāo)之間的關(guān)系圖,并在3種尺度上學(xué)習(xí)目標(biāo)間的高級(jí)關(guān)聯(lián)關(guān)系,分別是語(yǔ)義關(guān)系、空間位置關(guān)系和隱藏關(guān)系.在對(duì)目標(biāo)特征進(jìn)行圖關(guān)聯(lián)學(xué)習(xí)后,融合視覺(jué)特征和問(wèn)題特征進(jìn)行答案預(yù)測(cè).

    2.3.5 多模態(tài)關(guān)系推理模型

    Cadene等[59]提出了多模態(tài)關(guān)系推理模型MUREL,這一多模態(tài)關(guān)系推理模型在問(wèn)題和圖像的推理學(xué)習(xí)方面取得了領(lǐng)先的效果.MUREL由多個(gè)多模態(tài)關(guān)系單元組成,它能夠表示問(wèn)題和圖像區(qū)域之間豐富的交互作用,并顯式地為區(qū)域之間的關(guān)系建模.整個(gè)模型將多模態(tài)關(guān)系單元嵌入一個(gè)迭代推理過(guò)程中,該過(guò)程逐步精煉內(nèi)部的知識(shí)表示來(lái)回答問(wèn)題.通過(guò)迭代推理計(jì)算,圖像中與問(wèn)題相符的二元組關(guān)系被準(zhǔn)確提取,進(jìn)而得到問(wèn)題的準(zhǔn)確答案.

    2.3.6 基于線性調(diào)制的視覺(jué)推理模型

    Perez等[60]提出了一種基于線性調(diào)制模塊的視覺(jué)推理模型,利用包含調(diào)制模塊的殘差單元進(jìn)行迭代推理,實(shí)現(xiàn)對(duì)視覺(jué)信息的深度理解.

    對(duì)于給定的圖片和問(wèn)題,首先提取問(wèn)題向量和圖片的卷積特征,然后利用問(wèn)題向量中的信息對(duì)視覺(jué)特征中不同通道的數(shù)據(jù)進(jìn)行線性映射,進(jìn)而調(diào)整卷積特征.多次使用這一調(diào)制方法,可以學(xué)習(xí)到圖像中與問(wèn)題相關(guān)的特征信息.

    2.3.7 組合注意力網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)已在圖像識(shí)別、語(yǔ)音識(shí)別等感知層面取得巨大成功,但是在更進(jìn)一步的推理層面仍有欠缺.為解決這一問(wèn)題,Hudson等[61]提出了一種記憶、關(guān)注和組合(memory, attention, and composition,MAC)網(wǎng)絡(luò)架構(gòu).

    MAC網(wǎng)絡(luò)由一個(gè)輸入神經(jīng)元、一個(gè)核心的循環(huán)神經(jīng)網(wǎng)絡(luò)以及一個(gè)輸出神經(jīng)元組成.輸入神經(jīng)元將原始圖像和問(wèn)題轉(zhuǎn)化為分布式向量表征.核心的循環(huán)神經(jīng)網(wǎng)絡(luò)將問(wèn)題分解為一系列運(yùn)算(也叫控制),它們可以從圖像(知識(shí)庫(kù))中檢索信息,并將結(jié)果聚合為循環(huán)記憶.通過(guò)這些運(yùn)算,網(wǎng)絡(luò)按照序列推理問(wèn)題.答案分類器使用問(wèn)題特征和最終記憶狀態(tài)特征得出最終答案.

    2.3.8 基于隱式信息和符號(hào)重表示的知識(shí)推理模型

    Marino等[62]提出了一種基于隱式信息和符號(hào)重表示的知識(shí)推理模型KRISP,如圖3所示.這一模型在知識(shí)庫(kù)上集成了隱式知識(shí)和基于顯式圖的推理.隱式知識(shí)模型接受視覺(jué)特征和問(wèn)題編碼,而顯式知識(shí)模型處理圖像和問(wèn)題符號(hào).

    KRISP首先對(duì)自然語(yǔ)言處理算法無(wú)監(jiān)督學(xué)習(xí)得到的隱式知識(shí)進(jìn)行預(yù)訓(xùn)練,并利用基于Transformer的模型進(jìn)行監(jiān)督訓(xùn)練;然后利用知識(shí)圖譜對(duì)符號(hào)知識(shí)進(jìn)行編碼;最后對(duì)這2種知識(shí)進(jìn)行知識(shí)推理計(jì)算和融合學(xué)習(xí).

    圖3 KRISP示意圖[62]Fig.3 Schematic diagram of KRISP[62]

    基于知識(shí)推理的方法在VQA任務(wù)中取得了突破性的進(jìn)展,這一類方法結(jié)合跨模態(tài)注意力機(jī)制和推理學(xué)習(xí)的思路對(duì)圖像和問(wèn)題的聯(lián)合輸入數(shù)據(jù)進(jìn)行推理學(xué)習(xí),進(jìn)而取得了較高的準(zhǔn)確率.

    基于注意力機(jī)制的方法注重于對(duì)數(shù)據(jù)的關(guān)聯(lián)關(guān)系進(jìn)行建模,面對(duì)較為復(fù)雜的場(chǎng)景,答案通常無(wú)法直接得出,必須根據(jù)多組特征之間的關(guān)聯(lián)信息推理得出,因此,由單純的關(guān)聯(lián)建模得到的特征仍然包含較多的冗余數(shù)據(jù).

    基于知識(shí)推理的方法通過(guò)推理計(jì)算在提煉有效信息的基礎(chǔ)上大大減少了特征中的冗余數(shù)據(jù),同時(shí),可以對(duì)特征之間的多元關(guān)系進(jìn)行建模學(xué)習(xí).這類方法通常對(duì)輸入數(shù)據(jù)進(jìn)行多步迭代計(jì)算,對(duì)信息進(jìn)行逐步地建模和推理學(xué)習(xí),進(jìn)而得到較優(yōu)的跨模態(tài)特征表示.

    2.4 基于視頻的VQA

    視頻問(wèn)答是VQA領(lǐng)域的一個(gè)新興課題,由于其在人工問(wèn)答系統(tǒng)、機(jī)器人對(duì)話、視頻檢索等方面的廣泛應(yīng)用,近年來(lái)受到越來(lái)越多的關(guān)注.與基于圖像的問(wèn)答任務(wù)不同,視頻問(wèn)答更加實(shí)用,因?yàn)檩斎氲囊曈X(jué)信息經(jīng)常動(dòng)態(tài)變化.

    與圖像問(wèn)答相比,視頻問(wèn)答更具有挑戰(zhàn)性.視頻中的視覺(jué)內(nèi)容更為復(fù)雜,一個(gè)視頻可能包含數(shù)千幀.視頻中經(jīng)常包含多種動(dòng)作,但只有一部分動(dòng)作是關(guān)注者感興趣的.視頻問(wèn)答任務(wù)中的問(wèn)題往往包含著與時(shí)間線索有關(guān)的信息,這意味著在進(jìn)行答案推理時(shí),既要考慮目標(biāo)的時(shí)間位置,又要考慮目標(biāo)之間的復(fù)雜交互作用.

    Huang等[63]提出了位置意識(shí)的圖卷積網(wǎng)絡(luò)模型來(lái)完成視頻問(wèn)答任務(wù).這一模型整合視頻中目標(biāo)的位置信息,構(gòu)建具有位置意識(shí)的圖,在圖中每個(gè)節(jié)點(diǎn)都由其特征向量和位置特征進(jìn)行聯(lián)合表示.基于所構(gòu)造的圖,這一模型使用圖卷積來(lái)推斷動(dòng)作的類別和時(shí)間位置.由于圖形是建立在對(duì)象上的,因此,該方法能夠聚焦于前景的動(dòng)作內(nèi)容,以便更好地進(jìn)行視頻問(wèn)答.

    Jiang等[64]提出了一種問(wèn)題引導(dǎo)的時(shí)空上下文注意力網(wǎng)絡(luò)模型.這一模型將問(wèn)題產(chǎn)生的語(yǔ)義特征分為兩部分:空間部分和時(shí)間部分,分別從空間和時(shí)間2個(gè)維度指導(dǎo)語(yǔ)境注意力的構(gòu)建過(guò)程.在相應(yīng)的語(yǔ)境注意力的引導(dǎo)下,視覺(jué)特征可以在空間和時(shí)間維度上得到更好的利用.

    3 VQA數(shù)據(jù)集

    1) Visual Genome[14]:該數(shù)據(jù)集包含108 077張圖片、1 445 233個(gè)圖片和問(wèn)題的數(shù)據(jù)對(duì),圖像來(lái)源為YFCC100M和COCO數(shù)據(jù)集,共有約540萬(wàn)張圖像中的區(qū)域描述信息,這些信息能夠達(dá)到精細(xì)的語(yǔ)義層次,問(wèn)題類型是6W(what、 where、 how、 when、 who、 why).

    2) VQA-v1[65]:訓(xùn)練集包含82 783張圖片、248 349個(gè)問(wèn)題和2 483 490個(gè)答案.驗(yàn)證集包含40 504張圖片、121 512個(gè)問(wèn)題和1 215 120個(gè)答案.測(cè)試集包含81 434張圖片和244 302個(gè)問(wèn)題.數(shù)據(jù)集中的圖片來(lái)源于COCO數(shù)據(jù)集.

    3) VQA-v2[66]:訓(xùn)練集包含82 783張圖片、443 757個(gè)問(wèn)題和4 437 570個(gè)答案.驗(yàn)證集包含40 504張圖片、214 354個(gè)問(wèn)題和2 143 540個(gè)答案.測(cè)試集包含81 434張圖片和447 793個(gè)問(wèn)題.數(shù)據(jù)集中的圖片來(lái)源于COCO數(shù)據(jù)集.

    4) CLEVR[67]:該數(shù)據(jù)集包含10萬(wàn)張經(jīng)過(guò)渲染的圖像和大約100萬(wàn)個(gè)自動(dòng)生成的問(wèn)題,其中有85.3萬(wàn)個(gè)問(wèn)題是互不相同的.其中包含了測(cè)試計(jì)數(shù)、比較、邏輯推理和在記憶中存儲(chǔ)信息等視覺(jué)推理能力的圖像和問(wèn)題.盡管CLEVR中的圖像可能看起來(lái)很簡(jiǎn)單,但它的問(wèn)題卻很復(fù)雜,需要一系列的推理能力.例如:歸納未見(jiàn)過(guò)的物體和屬性的組合可能需要分解表征;計(jì)數(shù)或比較這樣的任務(wù)可能需要短期記憶或關(guān)注特定的物體;以多種方式結(jié)合多個(gè)子任務(wù)的問(wèn)題可能需要組合式系統(tǒng)來(lái)回答.

    5) TGIF-QA[68]:該數(shù)據(jù)集包含72 000個(gè)的動(dòng)畫(huà)GIF文件和165 000個(gè)的問(wèn)答對(duì).這個(gè)數(shù)據(jù)集提供了4種任務(wù)來(lái)處理視頻的獨(dú)特屬性.重復(fù)計(jì)數(shù)是檢索一個(gè)動(dòng)作的出現(xiàn)次數(shù).重復(fù)動(dòng)作是一項(xiàng)任務(wù),用于識(shí)別在多項(xiàng)選擇中重復(fù)給定次數(shù)的動(dòng)作.狀態(tài)轉(zhuǎn)換是一項(xiàng)多項(xiàng)選擇任務(wù),用于根據(jù)動(dòng)作狀態(tài)的時(shí)間順序確定動(dòng)作.幀定位是在視頻中找到一個(gè)能回答問(wèn)題的特定幀.

    6) MSRVTT-QA[69]: 該數(shù)據(jù)集包含10 000個(gè)視頻和243 000個(gè)問(wèn)答對(duì).這些問(wèn)題由5種類型組成,包括what、who、how、when和where.視頻的長(zhǎng)度為10~30 s.

    4 方法對(duì)比

    在表1和表2中分別對(duì)多種方法在VQA-v1和VQA-v2數(shù)據(jù)庫(kù)上的準(zhǔn)確率進(jìn)行對(duì)比.可以看出,數(shù)據(jù)融合的方法取得了初步的結(jié)果,基于跨模態(tài)的注意力的方法可以學(xué)習(xí)到更加精確的數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,準(zhǔn)確率高于數(shù)據(jù)融合的方法.基于知識(shí)推理的方法利用了推理的思路,經(jīng)過(guò)多次迭代的推理計(jì)算來(lái)學(xué)習(xí)更加有效的信息,也取得了最好的結(jié)果.

    表1 VQA-v1數(shù)據(jù)庫(kù)上的準(zhǔn)確率對(duì)比

    表2 VQA-v2數(shù)據(jù)庫(kù)上的準(zhǔn)確率對(duì)比

    5 結(jié)論

    綜上所述,目前VQA方法研究的核心問(wèn)題有2點(diǎn):視覺(jué)和文本數(shù)據(jù)的特征表示、多模態(tài)特征聯(lián)合學(xué)習(xí).由于細(xì)粒度的特征表示可以提供豐富的細(xì)節(jié)語(yǔ)義信息,這一表示方法也取得了較好的效果.然而,對(duì)于圖像的特征表示還有不足之處,目前,還沒(méi)有找到能夠準(zhǔn)確提取和表示圖像語(yǔ)義信息的方法.在多模態(tài)特征聯(lián)合學(xué)習(xí)中,注意力機(jī)制發(fā)揮了重要作用,這一機(jī)制可以深度挖掘模態(tài)間和模態(tài)內(nèi)信息之間的關(guān)聯(lián)關(guān)系,因此,取得了較好的效果.但是,注意力機(jī)制缺乏推理學(xué)習(xí)的能力,對(duì)于包含復(fù)雜語(yǔ)義信息的圖像和文本信息其無(wú)法有效學(xué)習(xí)2種跨模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)關(guān)系.面對(duì)這一問(wèn)題,知識(shí)推理的方法通過(guò)多步迭代的推理學(xué)習(xí)對(duì)多模態(tài)的信息進(jìn)行語(yǔ)義學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí),可以挖掘出深層次的關(guān)聯(lián)信息.

    本文結(jié)合現(xiàn)有的VQA方法,對(duì)未來(lái)的有潛力的研究方向進(jìn)行展望.

    1) 在特征表示方面,研究者一直在探索圖像的特征表示方法,在VQA中,圖像的特征提取也是一個(gè)重要環(huán)節(jié).目前,基于卷積網(wǎng)絡(luò)的網(wǎng)格特征和基于目標(biāo)檢測(cè)方法的區(qū)域特征均有所不足,這2種特征都無(wú)法充分保留全局語(yǔ)義信息和細(xì)粒度語(yǔ)義信息,在如何提取適用于VQA任務(wù)、精度高并包含細(xì)粒度語(yǔ)義信息的圖像特征方面具有較大的研究?jī)r(jià)值.在圖像的特征表示過(guò)程中結(jié)合知識(shí)圖譜進(jìn)行結(jié)構(gòu)化的特征提取和表示是一個(gè)值得探索的方向.

    2) 在跨模態(tài)特征學(xué)習(xí)方面,知識(shí)推理的方向具有較大的研究?jī)r(jià)值.多年來(lái),研究者都在探索知識(shí)的表示和推理學(xué)習(xí)的方法,人類面對(duì)復(fù)雜問(wèn)題展現(xiàn)出強(qiáng)大的推理能力,通過(guò)推理分析得到解決辦法.在VQA中推理也非常重要,推理的方法可以對(duì)特征之間的復(fù)雜關(guān)系進(jìn)行提取和建模.結(jié)合知識(shí)圖譜中的先驗(yàn)知識(shí)來(lái)解答真實(shí)場(chǎng)景中的VQA任務(wù)是一個(gè)有價(jià)值的研究方向.如何利用跨模態(tài)的知識(shí)圖譜對(duì)視覺(jué)特征和文本問(wèn)題進(jìn)行有效的推理計(jì)算具有較大的研究潛力.

    猜你喜歡
    注意力模態(tài)特征
    讓注意力“飛”回來(lái)
    如何表達(dá)“特征”
    不忠誠(chéng)的四個(gè)特征
    抓住特征巧觀察
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    A Beautiful Way Of Looking At Things
    國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
    由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    久久久精品大字幕| 久热爱精品视频在线9| 男女视频在线观看网站免费 | 精品久久久久久久毛片微露脸| 欧美一区二区精品小视频在线| bbb黄色大片| cao死你这个sao货| 国产野战对白在线观看| 婷婷精品国产亚洲av| 最近在线观看免费完整版| 99久久无色码亚洲精品果冻| 身体一侧抽搐| 成人精品一区二区免费| 欧美黄色淫秽网站| 18禁美女被吸乳视频| 国产精品,欧美在线| 一区二区三区国产精品乱码| 久久午夜亚洲精品久久| 久久久国产欧美日韩av| 一区二区三区国产精品乱码| 女人被狂操c到高潮| 久久九九热精品免费| av国产免费在线观看| 欧美三级亚洲精品| 久久久精品大字幕| 成人18禁在线播放| 这个男人来自地球电影免费观看| 国产私拍福利视频在线观看| 他把我摸到了高潮在线观看| 国产精品1区2区在线观看.| 高清在线国产一区| 91国产中文字幕| 淫秽高清视频在线观看| 国产一区在线观看成人免费| 成人国产一区最新在线观看| 真人做人爱边吃奶动态| √禁漫天堂资源中文www| 免费在线观看黄色视频的| 国产蜜桃级精品一区二区三区| 亚洲一区中文字幕在线| 国产成人av教育| 18禁美女被吸乳视频| 亚洲精品美女久久久久99蜜臀| www日本黄色视频网| 国产一区二区三区视频了| 亚洲国产精品合色在线| 真人做人爱边吃奶动态| 中出人妻视频一区二区| 国产日本99.免费观看| a在线观看视频网站| 欧美成人性av电影在线观看| 久久久精品欧美日韩精品| 国产欧美日韩精品亚洲av| 香蕉av资源在线| 国产一区二区在线观看日韩 | 此物有八面人人有两片| 精品电影一区二区在线| 一进一出抽搐gif免费好疼| 不卡一级毛片| 在线观看66精品国产| 亚洲一区中文字幕在线| 亚洲成av人片在线播放无| 亚洲av成人精品一区久久| 亚洲免费av在线视频| 亚洲一区高清亚洲精品| 黄色片一级片一级黄色片| 久久中文字幕一级| 国产亚洲欧美在线一区二区| 亚洲国产精品999在线| 12—13女人毛片做爰片一| 好看av亚洲va欧美ⅴa在| 中出人妻视频一区二区| 在线观看免费日韩欧美大片| 一个人免费在线观看电影 | 一二三四在线观看免费中文在| 中文字幕久久专区| 男女那种视频在线观看| 丰满人妻熟妇乱又伦精品不卡| 国产成人欧美在线观看| 无人区码免费观看不卡| 最近在线观看免费完整版| 麻豆成人午夜福利视频| 51午夜福利影视在线观看| 久久精品国产亚洲av香蕉五月| 色哟哟哟哟哟哟| 亚洲色图av天堂| 亚洲av成人精品一区久久| 欧美3d第一页| 久久亚洲真实| 色综合站精品国产| 日韩 欧美 亚洲 中文字幕| 悠悠久久av| 在线国产一区二区在线| 久久久国产成人精品二区| 五月玫瑰六月丁香| 伊人久久大香线蕉亚洲五| 亚洲最大成人中文| 国产1区2区3区精品| 日本一区二区免费在线视频| 久久草成人影院| 亚洲成人久久爱视频| 国产成人精品无人区| 久久久水蜜桃国产精品网| 午夜福利欧美成人| 午夜a级毛片| 91字幕亚洲| 一二三四在线观看免费中文在| 国产亚洲精品久久久久久毛片| 大型黄色视频在线免费观看| 亚洲乱码一区二区免费版| 一进一出抽搐gif免费好疼| 少妇粗大呻吟视频| 在线a可以看的网站| 成人精品一区二区免费| 色尼玛亚洲综合影院| 精品午夜福利视频在线观看一区| 久久久久九九精品影院| 精品国产乱码久久久久久男人| 岛国视频午夜一区免费看| 中文字幕人成人乱码亚洲影| 女人高潮潮喷娇喘18禁视频| 国产精品一区二区三区四区免费观看 | 中文亚洲av片在线观看爽| 久久精品亚洲精品国产色婷小说| 一级毛片女人18水好多| 成人18禁高潮啪啪吃奶动态图| 最近最新中文字幕大全电影3| 色尼玛亚洲综合影院| 亚洲avbb在线观看| 校园春色视频在线观看| 成熟少妇高潮喷水视频| 欧美丝袜亚洲另类 | 成人18禁高潮啪啪吃奶动态图| 久久伊人香网站| 国产成人啪精品午夜网站| 国产97色在线日韩免费| 禁无遮挡网站| cao死你这个sao货| 亚洲av熟女| 免费观看人在逋| 淫秽高清视频在线观看| 国产黄a三级三级三级人| 88av欧美| 99精品欧美一区二区三区四区| 国产蜜桃级精品一区二区三区| 国产不卡一卡二| 亚洲国产精品sss在线观看| 伊人久久大香线蕉亚洲五| 身体一侧抽搐| 色哟哟哟哟哟哟| 精品国产亚洲在线| 亚洲专区国产一区二区| 亚洲午夜精品一区,二区,三区| 在线国产一区二区在线| 国产1区2区3区精品| 精品久久久久久久久久免费视频| 国产激情久久老熟女| 性欧美人与动物交配| 免费在线观看黄色视频的| 久9热在线精品视频| 桃红色精品国产亚洲av| 一边摸一边抽搐一进一小说| 两个人视频免费观看高清| 嫩草影院精品99| www.999成人在线观看| 丰满的人妻完整版| 国产欧美日韩精品亚洲av| 国产精品久久久人人做人人爽| 亚洲av成人av| 51午夜福利影视在线观看| 亚洲色图 男人天堂 中文字幕| 桃色一区二区三区在线观看| 很黄的视频免费| 国产成人av教育| 最近在线观看免费完整版| 久9热在线精品视频| 午夜免费激情av| a级毛片在线看网站| 日日干狠狠操夜夜爽| 欧美成人性av电影在线观看| 亚洲欧美一区二区三区黑人| 亚洲性夜色夜夜综合| 久久精品综合一区二区三区| 亚洲国产欧美人成| videosex国产| 91成年电影在线观看| АⅤ资源中文在线天堂| 亚洲成人国产一区在线观看| 中文字幕人妻丝袜一区二区| 中文字幕人妻丝袜一区二区| 哪里可以看免费的av片| 国产三级黄色录像| 男女之事视频高清在线观看| 亚洲av第一区精品v没综合| 最近视频中文字幕2019在线8| 亚洲九九香蕉| 黄色片一级片一级黄色片| 国产精品久久电影中文字幕| 国产成人一区二区三区免费视频网站| 成人av在线播放网站| 精品熟女少妇八av免费久了| 三级毛片av免费| 中文字幕精品亚洲无线码一区| 午夜老司机福利片| 禁无遮挡网站| 两性夫妻黄色片| 亚洲色图 男人天堂 中文字幕| 日韩有码中文字幕| 女警被强在线播放| 亚洲欧美激情综合另类| 少妇的丰满在线观看| www国产在线视频色| svipshipincom国产片| 国产aⅴ精品一区二区三区波| 亚洲人成伊人成综合网2020| 国产成人av教育| 免费在线观看亚洲国产| av片东京热男人的天堂| 亚洲欧洲精品一区二区精品久久久| 中文字幕最新亚洲高清| 99热这里只有是精品50| 真人做人爱边吃奶动态| 亚洲成av人片在线播放无| 久久久久免费精品人妻一区二区| 免费在线观看视频国产中文字幕亚洲| 9191精品国产免费久久| 变态另类成人亚洲欧美熟女| 一进一出抽搐gif免费好疼| 久久精品国产亚洲av香蕉五月| 91成年电影在线观看| 中亚洲国语对白在线视频| 99久久精品国产亚洲精品| www.精华液| 国产片内射在线| 一本精品99久久精品77| 久久草成人影院| 精品熟女少妇八av免费久了| 最近最新中文字幕大全免费视频| 99热只有精品国产| 宅男免费午夜| 亚洲专区中文字幕在线| 国产免费男女视频| 国产探花在线观看一区二区| 夜夜夜夜夜久久久久| 亚洲精华国产精华精| 国产精品精品国产色婷婷| av欧美777| 最好的美女福利视频网| av免费在线观看网站| 精品久久久久久久久久免费视频| 最新在线观看一区二区三区| 日本一二三区视频观看| 99在线视频只有这里精品首页| 夜夜夜夜夜久久久久| 最新美女视频免费是黄的| 啦啦啦观看免费观看视频高清| 香蕉久久夜色| 国产精品99久久99久久久不卡| 亚洲熟女毛片儿| 一进一出抽搐gif免费好疼| 国产真人三级小视频在线观看| 国产精品免费一区二区三区在线| 久久久水蜜桃国产精品网| 最近视频中文字幕2019在线8| 亚洲国产欧美一区二区综合| 高清毛片免费观看视频网站| 国产成人一区二区三区免费视频网站| 欧美日韩亚洲国产一区二区在线观看| 男女那种视频在线观看| 国产亚洲精品av在线| 免费无遮挡裸体视频| 老熟妇仑乱视频hdxx| 国产在线观看jvid| 亚洲av成人av| av视频在线观看入口| 日本一二三区视频观看| 成人国语在线视频| 久久人妻av系列| 亚洲专区字幕在线| 日韩免费av在线播放| 国产三级在线视频| 岛国视频午夜一区免费看| 久久久水蜜桃国产精品网| 欧美在线一区亚洲| 午夜精品久久久久久毛片777| 亚洲免费av在线视频| 黄色a级毛片大全视频| 欧美乱色亚洲激情| 999精品在线视频| 日韩欧美精品v在线| www.999成人在线观看| 18禁裸乳无遮挡免费网站照片| 久9热在线精品视频| 国产97色在线日韩免费| 国内精品久久久久精免费| 欧美精品亚洲一区二区| 国产三级中文精品| 91麻豆精品激情在线观看国产| 我要搜黄色片| 中国美女看黄片| 两人在一起打扑克的视频| 黄色毛片三级朝国网站| 国产三级中文精品| 亚洲自拍偷在线| 黄片小视频在线播放| 嫩草影院精品99| 这个男人来自地球电影免费观看| 国产日本99.免费观看| 黄色片一级片一级黄色片| 国内久久婷婷六月综合欲色啪| 波多野结衣巨乳人妻| 亚洲欧美精品综合一区二区三区| 久久婷婷人人爽人人干人人爱| а√天堂www在线а√下载| 中国美女看黄片| 精品一区二区三区四区五区乱码| 高清在线国产一区| 又黄又爽又免费观看的视频| 国内少妇人妻偷人精品xxx网站 | 欧美黑人欧美精品刺激| 男人的好看免费观看在线视频 | 怎么达到女性高潮| 日韩中文字幕欧美一区二区| 国产精品久久久久久精品电影| 亚洲五月天丁香| 欧美极品一区二区三区四区| 色综合婷婷激情| 亚洲专区中文字幕在线| 亚洲熟妇熟女久久| 久久九九热精品免费| 伦理电影免费视频| 国产视频一区二区在线看| 亚洲成人国产一区在线观看| 日韩大码丰满熟妇| 中文在线观看免费www的网站 | 免费观看人在逋| 精品无人区乱码1区二区| 亚洲 欧美一区二区三区| 日本黄色视频三级网站网址| 国产精品久久久久久精品电影| 精品久久久久久久末码| 亚洲av电影不卡..在线观看| 两性午夜刺激爽爽歪歪视频在线观看 | 欧美+亚洲+日韩+国产| 久久99热这里只有精品18| 狠狠狠狠99中文字幕| 首页视频小说图片口味搜索| 中文字幕高清在线视频| 老司机靠b影院| 波多野结衣高清作品| 一级片免费观看大全| 成人国语在线视频| 又黄又粗又硬又大视频| av中文乱码字幕在线| 床上黄色一级片| 欧美人与性动交α欧美精品济南到| 精品第一国产精品| 欧美精品啪啪一区二区三区| 男人舔女人的私密视频| 亚洲无线在线观看| 真人一进一出gif抽搐免费| 久久热在线av| av福利片在线观看| 五月伊人婷婷丁香| а√天堂www在线а√下载| 亚洲免费av在线视频| 亚洲国产欧美网| 此物有八面人人有两片| АⅤ资源中文在线天堂| 久久精品成人免费网站| 色av中文字幕| 国产黄片美女视频| 国产主播在线观看一区二区| 人成视频在线观看免费观看| 久久精品国产99精品国产亚洲性色| 亚洲av片天天在线观看| 午夜福利在线在线| 亚洲狠狠婷婷综合久久图片| 欧美3d第一页| 亚洲av五月六月丁香网| 长腿黑丝高跟| 一进一出抽搐动态| 波多野结衣巨乳人妻| av天堂在线播放| 亚洲九九香蕉| 久久久国产成人精品二区| 熟妇人妻久久中文字幕3abv| 啦啦啦免费观看视频1| 国产高清有码在线观看视频 | 看免费av毛片| 动漫黄色视频在线观看| 欧美午夜高清在线| 日韩高清综合在线| 啦啦啦观看免费观看视频高清| 日韩欧美在线乱码| 欧美日韩瑟瑟在线播放| 在线观看66精品国产| 12—13女人毛片做爰片一| 亚洲成人精品中文字幕电影| 欧美午夜高清在线| 变态另类丝袜制服| 我要搜黄色片| 亚洲国产欧美一区二区综合| 最近在线观看免费完整版| 欧美日韩福利视频一区二区| 日本撒尿小便嘘嘘汇集6| 熟女少妇亚洲综合色aaa.| 一级毛片女人18水好多| 亚洲专区字幕在线| 超碰成人久久| 国产99白浆流出| 美女免费视频网站| www.999成人在线观看| 亚洲精品中文字幕一二三四区| 国产成人影院久久av| 精品午夜福利视频在线观看一区| 一本综合久久免费| www日本黄色视频网| 国产精品久久视频播放| 亚洲 欧美一区二区三区| www日本黄色视频网| 国产成人av教育| 欧美精品亚洲一区二区| 在线免费观看的www视频| 好男人在线观看高清免费视频| 看片在线看免费视频| 两个人免费观看高清视频| 国产成人欧美在线观看| 日本黄大片高清| 亚洲狠狠婷婷综合久久图片| 精品久久久久久成人av| 麻豆久久精品国产亚洲av| av有码第一页| 精品久久蜜臀av无| 麻豆成人av在线观看| АⅤ资源中文在线天堂| 精品日产1卡2卡| 国产精品免费视频内射| 久久天堂一区二区三区四区| 别揉我奶头~嗯~啊~动态视频| 欧美乱码精品一区二区三区| 国产精品野战在线观看| 精品国产乱子伦一区二区三区| 亚洲 国产 在线| 亚洲国产欧美一区二区综合| 国产精品野战在线观看| av在线播放免费不卡| 成人av在线播放网站| 99国产精品一区二区三区| 岛国视频午夜一区免费看| 色综合欧美亚洲国产小说| 欧美一区二区精品小视频在线| 俄罗斯特黄特色一大片| 成人18禁在线播放| 欧美又色又爽又黄视频| 久久亚洲真实| 看黄色毛片网站| 两个人免费观看高清视频| 久99久视频精品免费| 白带黄色成豆腐渣| av有码第一页| 法律面前人人平等表现在哪些方面| 老熟妇仑乱视频hdxx| 亚洲七黄色美女视频| 两个人看的免费小视频| 2021天堂中文幕一二区在线观| 这个男人来自地球电影免费观看| 国产av麻豆久久久久久久| 亚洲国产看品久久| 在线观看日韩欧美| 国产精品免费视频内射| 亚洲无线在线观看| 国产片内射在线| 2021天堂中文幕一二区在线观| 又大又爽又粗| 亚洲av片天天在线观看| 婷婷六月久久综合丁香| 成人av在线播放网站| 日韩国内少妇激情av| 五月玫瑰六月丁香| 亚洲一区高清亚洲精品| 亚洲人成网站在线播放欧美日韩| 成在线人永久免费视频| 精品第一国产精品| 国产精品影院久久| 国产精华一区二区三区| 91九色精品人成在线观看| 精品乱码久久久久久99久播| 夜夜夜夜夜久久久久| 国产视频一区二区在线看| 亚洲狠狠婷婷综合久久图片| 国产精品 欧美亚洲| 国产精品久久久久久亚洲av鲁大| 国产精华一区二区三区| 国产精品一区二区精品视频观看| 国产精品日韩av在线免费观看| 老司机午夜福利在线观看视频| 妹子高潮喷水视频| 日韩av在线大香蕉| 一级毛片高清免费大全| 男人舔女人下体高潮全视频| 欧美日韩福利视频一区二区| 国产精品1区2区在线观看.| a级毛片a级免费在线| 中文在线观看免费www的网站 | 最近最新免费中文字幕在线| 亚洲成av人片在线播放无| 久久天堂一区二区三区四区| 97超级碰碰碰精品色视频在线观看| 国产亚洲精品久久久久久毛片| 男女之事视频高清在线观看| 日日夜夜操网爽| 久久这里只有精品中国| 午夜老司机福利片| 麻豆成人av在线观看| av在线天堂中文字幕| 国产精品永久免费网站| 无遮挡黄片免费观看| 日本一区二区免费在线视频| 三级男女做爰猛烈吃奶摸视频| 亚洲九九香蕉| 一本精品99久久精品77| 18禁黄网站禁片免费观看直播| 女警被强在线播放| 成人av一区二区三区在线看| bbb黄色大片| 日本五十路高清| 免费在线观看成人毛片| 欧美又色又爽又黄视频| 免费在线观看成人毛片| 亚洲美女黄片视频| 狂野欧美激情性xxxx| av国产免费在线观看| 欧美日韩亚洲国产一区二区在线观看| 久久精品国产亚洲av香蕉五月| 蜜桃久久精品国产亚洲av| 国产高清激情床上av| 日本在线视频免费播放| 欧美午夜高清在线| 国产成人av激情在线播放| 亚洲国产欧洲综合997久久,| 天堂av国产一区二区熟女人妻 | 亚洲人成电影免费在线| 国产精品综合久久久久久久免费| 色精品久久人妻99蜜桃| 又黄又粗又硬又大视频| 成在线人永久免费视频| 久久久久免费精品人妻一区二区| 欧美日韩乱码在线| 日韩精品中文字幕看吧| 一个人观看的视频www高清免费观看 | 日本a在线网址| av免费在线观看网站| 俺也久久电影网| 黄色 视频免费看| 午夜老司机福利片| 精品人妻1区二区| 老司机午夜福利在线观看视频| 亚洲国产看品久久| 黄色丝袜av网址大全| 久久久久久久久久黄片| 国产v大片淫在线免费观看| 男人舔女人下体高潮全视频| 欧美国产日韩亚洲一区| 在线免费观看的www视频| 可以在线观看毛片的网站| 一个人免费在线观看的高清视频| 久久久久久久久中文| 90打野战视频偷拍视频| 亚洲成av人片在线播放无| 精品免费久久久久久久清纯| 久久国产精品影院| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美又色又爽又黄视频| 免费看日本二区| 色噜噜av男人的天堂激情| 中文在线观看免费www的网站 | 国产久久久一区二区三区| 国产精品一及| 国产av麻豆久久久久久久| 少妇裸体淫交视频免费看高清 | 91麻豆精品激情在线观看国产| 国产1区2区3区精品| 黄频高清免费视频| 久热爱精品视频在线9| 亚洲色图 男人天堂 中文字幕| 成人国产一区最新在线观看| 久久草成人影院| 99re在线观看精品视频| 国产精品久久电影中文字幕| 精品国产美女av久久久久小说| 怎么达到女性高潮| 九九热线精品视视频播放| 免费在线观看视频国产中文字幕亚洲| 老鸭窝网址在线观看| 国产午夜福利久久久久久| 三级毛片av免费| 丁香欧美五月| 国产片内射在线| 国产亚洲欧美在线一区二区| 特级一级黄色大片| 亚洲aⅴ乱码一区二区在线播放 | 成在线人永久免费视频| 国产精品亚洲美女久久久| 色播亚洲综合网| 久久精品91蜜桃| 国产成人aa在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 精品久久久久久久久久久久久| 九色成人免费人妻av| 在线观看舔阴道视频| 国产高清有码在线观看视频 | 国产精品久久久人人做人人爽| 亚洲欧美日韩高清在线视频| 嫩草影院精品99|