賈少杰 王雷
摘要:視覺(jué)問(wèn)答(Visual Question Answering, VQA) 是當(dāng)前融合計(jì)算機(jī)視覺(jué)領(lǐng)域和自然語(yǔ)言處理領(lǐng)域的典型多模態(tài)問(wèn)題之一,而基于知識(shí)的視覺(jué)問(wèn)題回答任務(wù)要求模型具有關(guān)聯(lián)外部知識(shí)的能力,文章采用多模態(tài)數(shù)據(jù)集當(dāng)作外部知識(shí)源,相比從文本知識(shí)庫(kù)中提取單模態(tài)的文本語(yǔ)義,多模態(tài)數(shù)據(jù)集能夠提供視覺(jué)問(wèn)答所需要的多模態(tài)知識(shí),能夠更好地利用圖像中所蘊(yùn)含的知識(shí),并將其應(yīng)用到針對(duì)圖像中問(wèn)題的回答中。同時(shí),為了能夠更輕量級(jí)地進(jìn)行學(xué)習(xí),在問(wèn)題文本中添加并訓(xùn)練了一個(gè)前綴prompt,并且凍結(jié)了部分的預(yù)訓(xùn)練模型參數(shù),通過(guò)采用預(yù)訓(xùn)練和微調(diào)指定未凍結(jié)參數(shù)的學(xué)習(xí)策略,逐步積累了基礎(chǔ)的多模態(tài)知識(shí),用于進(jìn)行答案的推理。最后,經(jīng)實(shí)驗(yàn)結(jié)果證明,文章模型在凍結(jié)預(yù)訓(xùn)練模型中的大部分參數(shù)后,在VQA-V2實(shí)驗(yàn)數(shù)據(jù)集中也具有較好的表現(xiàn),同時(shí)在獲取到VQA-V2中的多模態(tài)外部知識(shí)后,在需要進(jìn)行推理的數(shù)據(jù)集OK-VQA數(shù)據(jù)集上也取得了令人滿意的結(jié)果,擁有較高的準(zhǔn)確率。
關(guān)鍵詞:視覺(jué)問(wèn)答;prompt tuning;多模態(tài)預(yù)訓(xùn)練模型
中圖分類號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)13-0015-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
1 視覺(jué)問(wèn)答研究的相關(guān)基礎(chǔ)
1.1 視覺(jué)問(wèn)答的概述
多模態(tài)視覺(jué)問(wèn)答作為計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理的一個(gè)交叉領(lǐng)域,近年來(lái)受到學(xué)術(shù)界多方關(guān)注,主要任務(wù)是通過(guò)給定一幅圖像以及關(guān)于該圖像的一個(gè)開(kāi)放的用自然語(yǔ)言描述的問(wèn)題,借助問(wèn)題和圖像中的內(nèi)容推斷出正確的答案,傳統(tǒng)的方法是首先將兩種模態(tài)的數(shù)據(jù)分別進(jìn)行嵌入表示,之后通過(guò)特征融合的方法對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行建模,在獲取到每個(gè)模態(tài)單獨(dú)的特征表示之后進(jìn)行視覺(jué)問(wèn)答最重要的特征融合工作,目的是將特征空間不同的各模態(tài)特征拉入同一個(gè)特征空間中,經(jīng)過(guò)融合后的特征向量使用不同的目標(biāo)函數(shù)約束可以得到不同的結(jié)果輸出,目前的視覺(jué)問(wèn)答為了方便進(jìn)行精準(zhǔn)度的計(jì)算,普遍采用分類形式的答案,生成式的答案不利于指標(biāo)評(píng)估。
視覺(jué)問(wèn)答的關(guān)鍵在于不同模態(tài)之間的特征融合,特征融合根據(jù)階段的不同可以分為早期融合與晚期融合、混合融合等,早期融合指在各模態(tài)提取特征后立刻進(jìn)行融合,晚期融合指分別訓(xùn)練各模態(tài)的模型之后將模型輸出進(jìn)行融合。早期的特征融合常采用基礎(chǔ)的向量運(yùn)算,這種處理方法邏輯簡(jiǎn)單、計(jì)算量較小,但最終并不能在復(fù)雜的多模態(tài)數(shù)據(jù)環(huán)境下取得很好的融合結(jié)果。
目前,常用于特征融合的多模態(tài)預(yù)訓(xùn)練模型多采用Transformer 機(jī)制,通過(guò)對(duì)大量的無(wú)標(biāo)簽多模態(tài)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后在具體任務(wù)中使用少量的標(biāo)注數(shù)據(jù)來(lái)進(jìn)行微調(diào),然而使用Transformer 機(jī)制計(jì)算量與代價(jià)都很大,如何能夠減少訓(xùn)練參數(shù),實(shí)現(xiàn)更輕量級(jí)的訓(xùn)練方法也是目前的一大研究熱點(diǎn)。
針對(duì)需要外部知識(shí)的視覺(jué)問(wèn)答,此類問(wèn)答不只單純提問(wèn)圖像中的內(nèi)容,如圖1所示,圖中左側(cè)的問(wèn)題提問(wèn)金發(fā)的發(fā)型叫什么,只根據(jù)圖中的信息而不知道發(fā)型種類的話是無(wú)法推斷出是馬尾發(fā)型的。最近的大多數(shù)相關(guān)工作都基于知識(shí)庫(kù)檢索的方法,此類方法首先從龐大的外部文本知識(shí)庫(kù)中檢索相關(guān)事實(shí),然后對(duì)知識(shí)圖進(jìn)行顯式推理[1-2]。
受Ding[3]等人提出的Mukea模型的啟發(fā),針對(duì)需要外部知識(shí)進(jìn)行視覺(jué)問(wèn)答的數(shù)據(jù)集OK-VQA,通過(guò)在知識(shí)庫(kù)中查詢的方法沒(méi)有能夠很好地利用多模態(tài)的外部數(shù)據(jù),而只是利用了知識(shí)庫(kù)中的文本知識(shí),這在多模態(tài)問(wèn)答中略顯不足,通過(guò)在大規(guī)模的視覺(jué)問(wèn)答數(shù)據(jù)集VQA-V2中對(duì)預(yù)訓(xùn)練模型以及模型參數(shù)進(jìn)行粗調(diào),能夠很好地提取到外部的多模態(tài)知識(shí)。
1.2 Prompt在視覺(jué)問(wèn)答領(lǐng)域的應(yīng)用
Prompt中文譯作提示,是一種幫助計(jì)算機(jī)解決視覺(jué)問(wèn)答中關(guān)鍵問(wèn)題的提示內(nèi)容,此前在NLP領(lǐng)域中微調(diào)prompt取得了不錯(cuò)的成績(jī),prompt一般分為兩種:人工設(shè)計(jì)的prompt以及連續(xù)的prompt, 人工設(shè)計(jì)prompt的方法通過(guò)人工設(shè)計(jì)的prompt需要額外的知識(shí)以及專家的經(jīng)驗(yàn)來(lái)設(shè)計(jì),整個(gè)設(shè)計(jì)過(guò)程耗時(shí)耗力,可能會(huì)取得很好的結(jié)果但是不具有可遷移性。而連續(xù)類的可學(xué)習(xí)的prompt,需要考慮初始化、向量的長(zhǎng)度等設(shè)置,這些設(shè)置可以在不斷的實(shí)驗(yàn)過(guò)程中根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行調(diào)整,在NLP領(lǐng)域中的prompt-tuning和prefix-tuning[4]就是典型的連續(xù)類prompt的例子。
Prompt在多模態(tài)領(lǐng)域的使用主要目的有兩個(gè),一是將預(yù)訓(xùn)練模型更接近下游任務(wù),二是進(jìn)行更加輕量級(jí)的訓(xùn)練,通過(guò)凍結(jié)預(yù)訓(xùn)練模型的參數(shù)來(lái)降低訓(xùn)練量,如Frozen模型[5],本文的方法主要側(cè)重prompt在輕量級(jí)訓(xùn)練中的應(yīng)用,在后續(xù)的內(nèi)容中會(huì)介紹凍結(jié)預(yù)訓(xùn)練參數(shù)進(jìn)行訓(xùn)練的訓(xùn)練方法。
2 視覺(jué)問(wèn)答模型研究
問(wèn)答系統(tǒng)流程的研究,本文將其分為以下幾個(gè)部分進(jìn)行介紹(整體流程如圖2所示),首先介紹模型的兩種模態(tài)數(shù)據(jù)輸入處理,然后介紹預(yù)訓(xùn)練模型的處理,第三部分介紹答案預(yù)測(cè)部分,最后介紹粗調(diào)和精調(diào)的訓(xùn)練思路。
2.1 模型輸入
模型的輸入是一張圖片以及一條涉及圖片內(nèi)容的問(wèn)句,第一步就是對(duì)兩種模態(tài)數(shù)據(jù)的特征提取,針對(duì)圖像可以提取出多個(gè)目標(biāo)區(qū)域的位置向量以及語(yǔ)義向量,通過(guò)Faster-rcnn[6]獲取圖片中不同主體的特征表示,每張圖片選擇36個(gè)特征,通過(guò)Faster-rcnn后的圖片特征表示為一個(gè)2 048維的向量fi ∈ Rdf (df = 2 048),位置信息則表示為一個(gè)四維向量bi∈Rdb(db = 4)。
針對(duì)問(wèn)題文本的嵌入表示,使用了預(yù)訓(xùn)練模型lxmert中的LxmertTokenizer,該tokenizer與bert中的tokenizer用法相同,都是基于WordPiece[7]的嵌入方法,問(wèn)句經(jīng)過(guò)該嵌入方法后被表示為多個(gè)token組成的序列qi。
考慮到多模態(tài)預(yù)訓(xùn)練模型在多模態(tài)信息的融合方面能力強(qiáng)大,采用lxmert預(yù)訓(xùn)練模型進(jìn)行多模態(tài)內(nèi)部以及模態(tài)之間的信息建模。將fi、di以及問(wèn)題文本的嵌入表示qi一同輸入經(jīng)過(guò)參數(shù)凍結(jié)的預(yù)訓(xùn)練模型lxmert中,就能得到問(wèn)題向量Q和視覺(jué)向量V以及一個(gè)多模態(tài)融合向量cls,其中Q和V∈Rdv(dv=768)。
2.2 預(yù)訓(xùn)練模型處理
Lxmert模型[8]作為典型的雙流預(yù)訓(xùn)練模型,首先在單模態(tài)內(nèi)進(jìn)行自注意力編碼,然后設(shè)計(jì)了跨模態(tài)的注意力來(lái)學(xué)習(xí)跨模態(tài)信息,以及進(jìn)行跨模態(tài)特征融合,筆者設(shè)計(jì)的Frozen模型,凍結(jié)了預(yù)訓(xùn)練模型lxmert中的大部分參數(shù),根據(jù)不同的方法凍結(jié)不同的參數(shù)進(jìn)行試驗(yàn),在進(jìn)行prompt訓(xùn)練的過(guò)程中,凍結(jié)了預(yù)訓(xùn)練模型中除視覺(jué)encoder之外的全部參數(shù),整個(gè)粗調(diào)過(guò)程只更新預(yù)訓(xùn)練中的視覺(jué)encoder以及后續(xù)的相似度矩陣和全連接等參數(shù),參數(shù)凍結(jié)部分如圖3所示,圖中的雪花標(biāo)識(shí)代表該部分參數(shù)已被凍結(jié)。
通過(guò)只更新視覺(jué)encoder來(lái)進(jìn)行訓(xùn)練,這種訓(xùn)練的目的是使用更少的訓(xùn)練參數(shù),避免對(duì)數(shù)據(jù)量較大的預(yù)訓(xùn)練模型進(jìn)行大規(guī)模的參數(shù)更新。同時(shí),將vision encoder的參數(shù)激活的目的是將圖片特征的嵌入表示拉到文本的特征空間中,減少不同模態(tài)數(shù)據(jù)表示空間之間的差異。
除此之外,筆者嘗試進(jìn)行了prefix前綴訓(xùn)練方法,在問(wèn)題文本的嵌入表示向量之前,添加了一段與文本向量維度相同的prefix,在粗調(diào)和精調(diào)的階段凍結(jié)全部的預(yù)訓(xùn)練模型的參數(shù),只訓(xùn)練prefix中的參數(shù)以及預(yù)訓(xùn)練后的線性層中的參數(shù)。
2.3 答案預(yù)測(cè)
在獲取到預(yù)訓(xùn)練模型的輸出之后,為了能夠更好地縮小圖片特征與文本特征之間的差距,將圖片特征與多模態(tài)關(guān)系特征進(jìn)行融合,多模態(tài)輸出cls起到將視覺(jué)特征拉入文本特征空間的作用。同時(shí),為了衡量圖片中的對(duì)象與問(wèn)題中的每個(gè)詞項(xiàng)的相關(guān)關(guān)系,使用了一個(gè)相似度關(guān)聯(lián)矩陣M,圖中對(duì)象與問(wèn)題詞項(xiàng)相似度越高,則被后續(xù)過(guò)程選擇中的概率越大,然后再與問(wèn)題詞項(xiàng)進(jìn)行相似度計(jì)算,選取相似度最高的融合特征。
[M = (W1Q)T(W2(V+cls))]
選取到與問(wèn)題最相關(guān)的融合特征后,經(jīng)過(guò)一個(gè)激活函數(shù)softmax以及top k來(lái)選取到與問(wèn)題文本相似度最高的融合特征,選取到的特征經(jīng)過(guò)一個(gè)全連接層,輸出維度為數(shù)據(jù)集答案詞典維度,通過(guò)在查找表中查找出最終答案,在損失函數(shù)的選擇方面,參考Mukea模型的損失函數(shù)選擇,受傳統(tǒng)知識(shí)圖領(lǐng)域中的知識(shí)嵌入方法TransE的啟發(fā),在多模態(tài)場(chǎng)景中應(yīng)用了類似TransE的目標(biāo)損失函數(shù)來(lái)作為參數(shù)反向傳播的依據(jù)。
[LTransE =? ∑t+∈A+ ∑t?∈A? [γ+d(v+cls, t+)?d(v+cls, t?)]]
其中v+cls代表與多模態(tài)關(guān)系融合后的圖中目標(biāo)向量,A+代表預(yù)測(cè)正確的答案,A-代表錯(cuò)誤的答案,這個(gè)損失函數(shù)的目的是使融合后的圖中目標(biāo)向量能夠更加接近正確的答案,與正確答案之間的transe距離變小。
2.4 粗調(diào)和精調(diào)
粗調(diào)和精調(diào)的整個(gè)流程即為上述的步驟,但是不同之處在于粗調(diào)是在大規(guī)模的多模態(tài)視覺(jué)問(wèn)答數(shù)據(jù)集VQA-V2上進(jìn)行操作的,好處在于VQA-V2的數(shù)據(jù)規(guī)模相較目標(biāo)數(shù)據(jù)集更大,雖然不及外部知識(shí)庫(kù)中的開(kāi)放領(lǐng)域的文本知識(shí)量,但是具備豐富的多模態(tài)外部知識(shí),能夠解決文本知識(shí)模態(tài)單一,與圖片模態(tài)特征空間差距較大的問(wèn)題。在進(jìn)行粗調(diào)之前,去除VQA-V2中的yes/no類問(wèn)題以及計(jì)數(shù)類問(wèn)題,只保留包含外部知識(shí)的開(kāi)放類問(wèn)答對(duì),這樣操作的目的在于去除掉不包含外部知識(shí)的訓(xùn)練數(shù)據(jù),減少對(duì)預(yù)訓(xùn)練模型的干擾。
精調(diào)則是在目標(biāo)數(shù)據(jù)集上再一次進(jìn)行微調(diào),經(jīng)過(guò)粗調(diào)后的模型已經(jīng)獲得了豐富的外部知識(shí),可以針對(duì)某些特定的數(shù)據(jù)集進(jìn)行微調(diào),OK-VQA數(shù)據(jù)集中包含的問(wèn)答是經(jīng)過(guò)人工篩選的,能夠騙過(guò)基礎(chǔ)模型的復(fù)雜問(wèn)題,只通過(guò)圖片中的信息無(wú)法推斷出答案,需要借助一些外部的知識(shí)。在針對(duì)該數(shù)據(jù)集進(jìn)行精調(diào)時(shí),該數(shù)據(jù)集的數(shù)據(jù)量比起VQA-V2數(shù)據(jù)集要小很多,所需的計(jì)算資源也相對(duì)較少,考慮在精調(diào)時(shí),放開(kāi)在粗調(diào)時(shí)固定的參數(shù),以此取得更好的準(zhǔn)確度。其中粗調(diào)與精調(diào)的兩個(gè)步驟均包含在下述的實(shí)驗(yàn)中,包括完整的實(shí)驗(yàn)?zāi)P鸵约搬槍?duì)輕量級(jí)學(xué)習(xí)的prompt和prefix微調(diào)的實(shí)驗(yàn)。
3 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證視覺(jué)問(wèn)答模型的可行性,本文利用VAQ-V2以及OK-VQA數(shù)據(jù)集進(jìn)行相應(yīng)的實(shí)驗(yàn),同時(shí)針對(duì)不同的微調(diào)方法進(jìn)行了相應(yīng)的對(duì)比和測(cè)試,證明了該模型的有效性。
3.1 數(shù)據(jù)集介紹
VQA-V2[9]數(shù)據(jù)集 全稱 Visual Question Answering (v2.0),是一個(gè)人工標(biāo)注的、關(guān)于圖像的開(kāi)放式問(wèn)答數(shù)據(jù)集?;卮疬@些問(wèn)題,需要對(duì)圖像、語(yǔ)言以及常識(shí)都具備一定的理解力,在VQA-V2數(shù)據(jù)集中,針對(duì)每一幅圖像通常準(zhǔn)備了三個(gè)問(wèn)題,針對(duì)每個(gè)問(wèn)題有10個(gè)正確的答案。
OK-VQA[10]數(shù)據(jù)集中的圖像數(shù)據(jù)來(lái)自COCO數(shù)據(jù)集,共計(jì)約8萬(wàn)張訓(xùn)練圖像以及4萬(wàn)張測(cè)試圖像。經(jīng)過(guò)兩輪的人工篩選,剔除掉了直觀上可以回答的簡(jiǎn)單問(wèn)題,原本86 700個(gè)問(wèn)題最終篩選到34 921個(gè)問(wèn)題。針對(duì)s數(shù)據(jù)集中的偏見(jiàn)問(wèn)題,作者刪除掉了相同答案頻率超過(guò)五次的問(wèn)答對(duì),剩余問(wèn)答對(duì)共計(jì)14 055道,包括9 009道訓(xùn)練題和5 046道測(cè)試題。此外,在OK-VQA數(shù)據(jù)集上的模型準(zhǔn)確率要遠(yuǎn)低于VQA-V2等直觀問(wèn)答數(shù)據(jù)集,因?yàn)樵摂?shù)據(jù)集需要外部知識(shí)進(jìn)行聯(lián)合推理。
3.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
本文的實(shí)驗(yàn)環(huán)境選擇采用Windows操作系統(tǒng)和英偉達(dá)Tesla P100顯卡,深度學(xué)習(xí)框架采用PyTorch,以此對(duì)基于深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn),并利用Python語(yǔ)言對(duì)其進(jìn)行編程。
參數(shù)設(shè)置方面:batch size設(shè)置為256,優(yōu)化器選擇了adam優(yōu)化器,學(xué)習(xí)率為1e-4,訓(xùn)練過(guò)程進(jìn)行200個(gè)epoch,得到最終的實(shí)驗(yàn)數(shù)據(jù)。
3.3 結(jié)果分析
表1為OK-VQA數(shù)據(jù)集上不同方法的最終結(jié)果,表2為一部分的消融實(shí)驗(yàn)以及兩種凍結(jié)參數(shù)的微調(diào)方法的最終結(jié)果。
如表1所示,完整模型在上述的實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置下的準(zhǔn)確度達(dá)到了41.01,好于OK-VQA論文中提及的基準(zhǔn)方法MUTAN+AN等,雖然VQA-V2的外部知識(shí)遠(yuǎn)沒(méi)有維基百科和conceptnet中的文本知識(shí)豐富,但是模型依然取得了不錯(cuò)的準(zhǔn)確度,證明了模型引入多模態(tài)外部知識(shí)的有效性。
以下是關(guān)于表2的分析:
方法2的結(jié)果為在VQA-V2進(jìn)行粗調(diào)之后直接在目標(biāo)數(shù)據(jù)集上進(jìn)行準(zhǔn)確度驗(yàn)證,并不在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào),不包含OK-VQA中知識(shí)的模型推導(dǎo)能力較差,也反映了OK-VQA數(shù)據(jù)集中的問(wèn)答對(duì)難度較高,需要豐富的外部知識(shí)。
方法3的結(jié)果是在凍結(jié)lxmert的全部參數(shù)且不添加任何其他結(jié)構(gòu)的情況下,只訓(xùn)練預(yù)訓(xùn)練后的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。
方法4的結(jié)果是直接在目標(biāo)數(shù)據(jù)集上進(jìn)行精調(diào)的結(jié)果,根據(jù)準(zhǔn)確度可以得出,通過(guò)在外部數(shù)據(jù)集上進(jìn)行粗調(diào)的方式來(lái)引入外部知識(shí)是一個(gè)有效的途徑,直接精調(diào)的結(jié)果比起完整模型還有一定的差距。
方法6的prompt微調(diào)方法和方法5的prefix微調(diào)方法在準(zhǔn)確度上的差異不大,實(shí)驗(yàn)準(zhǔn)確度在凍結(jié)大部分參數(shù)的情況下依然好于未經(jīng)VQA-V2預(yù)訓(xùn)練而直接在OK-VQA上微調(diào)的方法4,同時(shí)也好于完全凍結(jié)預(yù)訓(xùn)練模型的方法3。
4 結(jié)束語(yǔ)
綜上所述,文章對(duì)目前主流的視覺(jué)問(wèn)答方法進(jìn)行了梳理,并提出了一種基于外部知識(shí)和多模態(tài)預(yù)訓(xùn)練模型的視覺(jué)問(wèn)答方法,本方法通過(guò)使用預(yù)訓(xùn)練模型來(lái)進(jìn)行多模態(tài)數(shù)據(jù)的融合,使用大規(guī)模視覺(jué)問(wèn)答數(shù)據(jù)集VQA-V2來(lái)對(duì)模型進(jìn)行一次粗調(diào),之后再利用粗調(diào)后的模型數(shù)據(jù)在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào),這樣做能夠更好地引入多模態(tài)的外部知識(shí)。
方法的局限性在于多模態(tài)問(wèn)答的訓(xùn)練數(shù)據(jù)集不夠全面,VQA-V2中所包含的外部知識(shí)并沒(méi)有通用知識(shí)庫(kù)中的內(nèi)容豐富,有很多視覺(jué)上相近的材料或物品無(wú)法進(jìn)行有效分辨,prompt和prefix參數(shù)的初始化方面還需要繼續(xù)進(jìn)行嘗試。
參考文獻(xiàn):
[1] Narasimhan M,Lazebnik S,Schwing A G .Out of the box:reasoning with graph convolution nets for factual visual question answering[EB/OL].2018:arXiv:1811.00538.https://arxiv.org/abs/1811.00538.
[2] Wang P,Wu Q,Shen C,et al.FVQA:fact-based visual question answering[EB/OL].2016:arXiv:1606.05433.https://arxiv.org/abs/1606.05433.
[3] Ding Y,Yu J,Liu B,et al.MuKEA:multimodal knowledge extraction and accumulation for knowledge-based visual question answering[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).,New Orleans,LA,USA.IEEE,2022:5079-5088.
[4] Li X L,Liang P.Prefix-tuning:optimizing continuous prompts for generation[EB/OL].2021:arXiv:2101.00190.https://arxiv.org/abs/2101.00190.
[5] Tsimpoukelli M,Menick J,Cabi S,et al.Multimodal few-shot learning with frozen language models[EB/OL].2021:arXiv:2106.13884.https://arxiv.org/abs/2106.13884.
[6] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[7] Wu Y,Schuster M,Chen Z,et al.Googles neural machine translation system:bridging the gap between human and machine translation[EB/OL].2016:arXiv:1609.08144.https://arxiv.org/abs/1609.08144.
[8] Tan H, Bansal M. LXMERT: Learning Cross-Modality Encoder Representations from Transformers[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019: 5103-5114.
[9] Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA Matter: elevating the role of image understanding in visual question answering[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 6325-6334.
[10] Marino K,Rastegari M,F(xiàn)arhadi A,et al.OK-VQA:a visual question answering benchmark requiring external knowledge[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).,Long Beach,CA,USA.IEEE,2020:3190-3199.
[11] Ben-younes H,Cadene R,Cord M,et al.MUTAN:multimodal tucker fusion for visual question answering[C]//2017 IEEE International Conference on Computer Vision (ICCV).IEEE,2017:2631-2639.
[12] Zhu Z,Yu J,Wang Y,et al.Mucko:multi-layer cross-modal knowledge reasoning for fact-based visual question answering[EB/OL]2020:arXiv:2006.09073.https://arxiv.org/abs/2006. 09073.
[13] Gardères F,Ziaeefard M,Abeloos B,et al.ConceptBert:concept-aware representation for visual question answering[C]//Findings of the Association for Computational Linguistics:EMNLP 2020.Online.Stroudsburg,PA,USA:Association for Computational Linguistics,2020.
【通聯(lián)編輯:唐一東】