張 偉
(常州開(kāi)放大學(xué)理工學(xué)院, 江蘇 常州 213001)
深度學(xué)習(xí)在圖像和文本研究中已取得突破性進(jìn)展,對(duì)圖像完成識(shí)別、分割、檢測(cè)等任務(wù),對(duì)文本中完成情感分類、多輪會(huì)話、摘要提取等任務(wù).但在生活場(chǎng)景中無(wú)法僅由單獨(dú)領(lǐng)域模型完成視頻生成對(duì)應(yīng)字幕、視覺(jué)和問(wèn)題研究、零樣本分類等任務(wù).如今,圖像和文本跨模態(tài)的研究受到越來(lái)越多的關(guān)注.視覺(jué)問(wèn)答技術(shù)(visual question answering,VQA)可對(duì)輸入圖像和自然語(yǔ)言形式問(wèn)題進(jìn)行理解,回答對(duì)應(yīng)的問(wèn)題.例如,輸入香蕉圖像和香蕉顏色、形狀等自然語(yǔ)言表達(dá)形式的問(wèn)題,模型將輸出與圖像和問(wèn)題相對(duì)應(yīng)的答案[1].
現(xiàn)在大部分VQA將圖像和文本形式問(wèn)題聯(lián)合并以矩陣形式表達(dá),進(jìn)行融合[2-3].在模型中以目標(biāo)檢測(cè)算法(YOLO)為基礎(chǔ)框架識(shí)別圖像中的相關(guān)目標(biāo);用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)文本形式問(wèn)題進(jìn)行矩陣化;將得到的不同模態(tài)結(jié)果進(jìn)行一致性融合,使目標(biāo)區(qū)域和文本形式問(wèn)題一致;將兩種模態(tài)融合的結(jié)果輸入到模型中預(yù)測(cè)對(duì)應(yīng)答案[4].
采用傳統(tǒng)方法完成VQA的任務(wù)效果不錯(cuò),但是無(wú)法解決圖像和文本相同語(yǔ)義之間的距離問(wèn)題.例如,傳統(tǒng)YOLO網(wǎng)絡(luò)識(shí)別圖像中黑色和白色像素,但是很難識(shí)別出物體之間關(guān)系;熊貓和竹子之間吃的動(dòng)作在現(xiàn)有網(wǎng)絡(luò)中無(wú)法辨識(shí)[5].
傳統(tǒng)VQA框架、傳統(tǒng)目標(biāo)檢測(cè)框架已經(jīng)無(wú)法滿足從圖像全面信息中獲得不同對(duì)象之間相關(guān)關(guān)系的需求.需要獲取的關(guān)系包括從空間角度中獲取不同對(duì)象之間依賴關(guān)系和從語(yǔ)義角度中獲取不同對(duì)象的補(bǔ)充關(guān)系.
本文提出一種關(guān)系感知雙重注意力機(jī)制(relationship aware dual attention mechanism,RADA)來(lái)解決VQA問(wèn)題,該框架中用位置注意力來(lái)得到不同對(duì)象的顯式關(guān)系;另一組注意力專注于語(yǔ)義注意力,獲取不同對(duì)象的隱式關(guān)系,這種關(guān)系不能實(shí)現(xiàn)對(duì)圖像內(nèi)容解釋,但有助于對(duì)文本內(nèi)容的處理.
視覺(jué)問(wèn)答技術(shù)框架通常包含圖像表征、文本向量化、不同模態(tài)之間融合、答案預(yù)測(cè)四個(gè)部分[6].注意力作為解決此類問(wèn)題重要方式已經(jīng)成為主流工具之一.文獻(xiàn)[7]以注意力對(duì)圖像進(jìn)行多次注意獲取,將多次獲取的結(jié)果形成并集,再以注意力的結(jié)果推斷出問(wèn)題的答案;文獻(xiàn)[8]借助殘差網(wǎng)絡(luò)形式實(shí)現(xiàn)注意力跳躍、不同圖像區(qū)域記憶、捕獲圖像細(xì)粒度區(qū)域,再結(jié)合問(wèn)題預(yù)測(cè)圖像;文獻(xiàn)[9]將注意力和圖神經(jīng)網(wǎng)絡(luò)相結(jié)合,形成不同層次注意力,將空間注意力和物體注意力相結(jié)合,建立圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以此圖模型來(lái)預(yù)測(cè)問(wèn)題對(duì)應(yīng)的答案;文獻(xiàn)[10]在預(yù)訓(xùn)練模型中對(duì)顯著特征區(qū)域以注意力自底向上的方式來(lái)學(xué)習(xí)有用信息,注意力多次學(xué)習(xí)后再結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行融合;文獻(xiàn)[11]將注意力以MASK形式表現(xiàn)出來(lái),以先驗(yàn)方式和原來(lái)的模型相結(jié)合,根據(jù)問(wèn)題推測(cè)出答案.
視覺(jué)問(wèn)答問(wèn)題除了借助圖像和文本問(wèn)題外,還可以借助外在輔助信息.圖像是感知形式出現(xiàn),缺乏對(duì)應(yīng)文本形式的認(rèn)識(shí)和理解,對(duì)圖像中輔助內(nèi)容的描述有助于解決現(xiàn)有的問(wèn)題.文獻(xiàn)[12]認(rèn)為對(duì)圖像的理解缺乏相應(yīng)的文本形式內(nèi)容,將其相關(guān)的對(duì)象和關(guān)系與知識(shí)庫(kù)的形式關(guān)聯(lián),可以拓寬問(wèn)題的泛化性,同時(shí)保持原有問(wèn)題回答準(zhǔn)確性;文獻(xiàn)[13]利用目標(biāo)檢測(cè)方法處理圖像中的對(duì)象,標(biāo)注相關(guān)對(duì)象的關(guān)系,引入到第三方知識(shí)庫(kù),增強(qiáng)對(duì)圖像和問(wèn)題的理解,但模型訓(xùn)練時(shí)間過(guò)長(zhǎng),對(duì)復(fù)雜問(wèn)題的推理準(zhǔn)確性不高.
上述文獻(xiàn)的注意力只是以位置方式顯式地表現(xiàn)出來(lái),在實(shí)際應(yīng)用過(guò)程中VQA的隱式更為重要.如何從注意力學(xué)習(xí)到語(yǔ)義成為重要的研究方向,可以解決傳統(tǒng)VQA框架中的不足.
本文提出一種關(guān)系感知雙重注意力模型來(lái)解決傳統(tǒng)VQA中存在的語(yǔ)義問(wèn)題.利用注意力機(jī)制提取圖像候選區(qū)域?qū)ο蟮玫轿恢眯畔?根據(jù)圖像描述得到對(duì)應(yīng)語(yǔ)義注意力,再經(jīng)過(guò)外積方式進(jìn)行融合;對(duì)文本和圖像中注意力進(jìn)行融合,推理出答案.
視覺(jué)問(wèn)答中注意力主要集中在位置空間.在圖1中通過(guò)YOLO網(wǎng)絡(luò)檢測(cè)到人、馬、草地等目標(biāo),目標(biāo)檢測(cè)以多頭注意力形式進(jìn)行表現(xiàn).多頭注意力是注意力的一種擴(kuò)展,本文將多種注意力以拼接形式連接起來(lái),計(jì)算公式為:
創(chuàng)業(yè)工作坊模式的前提是成立創(chuàng)業(yè)團(tuán)隊(duì),然后以工作坊的形式完成課內(nèi)課外的學(xué)習(xí)。在每個(gè)項(xiàng)目的教學(xué)中,教師會(huì)根據(jù)工作過(guò)程、崗位技能需求,將理論與實(shí)踐技能融合到每一個(gè)任務(wù)中。下面以“市場(chǎng)調(diào)研”模塊為例,表述完整項(xiàng)目教學(xué)流程。
圖1 圖像感知雙重注意力機(jī)制實(shí)現(xiàn)過(guò)程模型
MultiHead(Q,K,V)=Concat(head1,…,headn)
(1)
式(1)將YOLO得到的前景和背景拼接起來(lái),得到矩陣C.注意力實(shí)現(xiàn)公式為:
(2)
圖1中模型除取得多頭注意力實(shí)體對(duì)象外,還將該圖像對(duì)象的文本描述用BERT向量化,將向量化值代入式(1)和式(2),獲得對(duì)應(yīng)的注意力矩陣C′.將矩陣C、C′以外積形式進(jìn)行融合,得到雙重注意力語(yǔ)義,函數(shù)公式為:
Fuse(C,C′)=C?C′
(3)
以外積形式將圖1中包含的注意力賦予到圖像中,得到所需注意力的值.從模型中可見(jiàn),第一層圖像網(wǎng)絡(luò)多頭注意力獲取的是顯式的位置關(guān)系,第二層文本網(wǎng)絡(luò)多頭注意力獲取的是隱式關(guān)系.
VQA中問(wèn)題以自然語(yǔ)言形成呈現(xiàn).文本中將問(wèn)題進(jìn)行Embedding后,再用LSTM進(jìn)行上下文的融合,在融合基礎(chǔ)上以多頭注意力去獲取不同詞的權(quán)重信息.文本感知雙重注意力結(jié)構(gòu)如圖2所示.
圖2 文本感知雙重注意力機(jī)制實(shí)現(xiàn)過(guò)程模型
Out=LSTM(w1,…,wn)
(4)
將式(4)中輸出的序列引入詞注意力計(jì)算式.將文本處理注意力劃分為實(shí)體性質(zhì)注意力和關(guān)系型注意力,這兩種注意力的融合方式與圖像的類似.
圖像注意力融合后的結(jié)果為A, 文本注意力融合后的結(jié)果為A′.為了文本和圖像維度的一致性,將圖像輸入到全連接層F,文本輸入到全連接層F′.兩者之間以串聯(lián)方式來(lái)連接,計(jì)算公式為:
U=L(A;A′)
(5)
式(5)中L函數(shù)將經(jīng)過(guò)全連接方式映射,得到的結(jié)果以串行方式連接起來(lái).該操作的目標(biāo)是將結(jié)果送入到分類器中,以便實(shí)現(xiàn)最后的答案預(yù)測(cè).
傳統(tǒng)VQA分類器只是以是和否兩種二分類的形式來(lái)實(shí)現(xiàn).本文使用多標(biāo)簽分類器作為最終分類器,與二分類相比,多標(biāo)簽分類器答案更豐富.多標(biāo)簽分類器最終輸出是多個(gè)概率值,表示形式為:
Y=σ(Wf0(U))
(6)
式中:Y為輸出的標(biāo)簽對(duì)應(yīng)值;f0為對(duì)圖像和文本聯(lián)合輸入數(shù)值進(jìn)行非線性處理函數(shù);W為激活矩陣;σ為對(duì)得到的數(shù)值進(jìn)行非線性激活函數(shù),以Sigmoid方式來(lái)實(shí)現(xiàn).
本文選擇三種公開(kāi)數(shù)據(jù)集VQA 2.0、VQ-CP V2和Visual Genome驗(yàn)證VQA模型的準(zhǔn)確程度.
VQA 2.0公開(kāi)數(shù)據(jù)集中除了日常現(xiàn)實(shí)環(huán)境真實(shí)圖像外,還包含卡通圖像.該數(shù)據(jù)集中真實(shí)圖像的來(lái)源是COCO數(shù)據(jù)集.從COCO數(shù)據(jù)中選擇12萬(wàn)多張作為訓(xùn)練集,其余的8萬(wàn)多張作為測(cè)試集.在該數(shù)據(jù)集的基礎(chǔ)上以自然語(yǔ)言形式加入61個(gè)問(wèn)題,并且給予對(duì)應(yīng)的多個(gè)答案.VQA 2.0的答案包含傳統(tǒng)二分類答案和多分類答案.
VQ-CP V2數(shù)據(jù)集從內(nèi)容來(lái)看是VQA 2.0派生版本,改進(jìn)了VQA 2.0中存在的答案引導(dǎo)和偏見(jiàn)問(wèn)題.該數(shù)據(jù)集改變了數(shù)據(jù)分布,使模型測(cè)試更加公平.
Visual Genome數(shù)據(jù)集包含10萬(wàn)多張圖像,針對(duì)數(shù)據(jù)集設(shè)置了170萬(wàn)個(gè)相關(guān)的問(wèn)題.該數(shù)據(jù)集標(biāo)注了多個(gè)實(shí)體標(biāo)簽以及對(duì)象之間的關(guān)系.以數(shù)據(jù)集中1萬(wàn)張圖像用于測(cè)試,其余9萬(wàn)多張圖像用于訓(xùn)練.
設(shè)置相關(guān)參數(shù),包含GTX2080Ti、運(yùn)行框架tensorflow等,設(shè)置YOLO中候選區(qū)域?yàn)?2,優(yōu)化算法為ADAM,其中學(xué)習(xí)率alpha為0.006,beta為0.07,epsilon為10-8,batch_size為64,在LOSS中引入dropout和正則化,樣本訓(xùn)練過(guò)程中需要對(duì)訓(xùn)練樣本進(jìn)行隨機(jī)打亂.
VQA模型在VQA 2.0、VQ-CP V2和Visual Genome三種公開(kāi)數(shù)據(jù)上進(jìn)行二分類(是/否)、目標(biāo)對(duì)象計(jì)算、多分類,結(jié)果如圖3和表1所示.由圖3可見(jiàn),訓(xùn)練集在epoch達(dá)到60時(shí)準(zhǔn)確率穩(wěn)定;測(cè)試集在epoch達(dá)到75時(shí)準(zhǔn)確率穩(wěn)定.
圖3 訓(xùn)練集和測(cè)試集準(zhǔn)確率變化曲線
表1 VQA模型在不同數(shù)據(jù)集測(cè)試準(zhǔn)確率比較 %
將本文的模型在VQ-CP V2上同BUTD、MFH、BAN、Counter進(jìn)行對(duì)比,結(jié)果如表2所示.在二分類中本文模型比最好的BAN算法高2.2%,在目標(biāo)計(jì)算中本文模型比MFH算法提高了2.1%,在多分類中本文模型比BAN算法提高了的3.0%.本文模型達(dá)到最佳水平.
表2 在VQ-CP V2數(shù)據(jù)集上各算法準(zhǔn)確率比較 %
將本文模型在Visual Genome上同BUTD、MFH、BAN、Counter進(jìn)行對(duì)比,結(jié)果如表3所示.在二分類中本文模型比最好的BUTD算法高3.4%,在目標(biāo)計(jì)算中本文模型比BAN算法提高了1.9%,在多分類中本文模型比BUTD算法提高了1.2%.本文模型達(dá)到最佳水平.
表3 在Visual Genome數(shù)據(jù)集上各算法準(zhǔn)確率比較 %
本文提出一種關(guān)系感知雙重注意力模型.模型對(duì)圖像以顯式注意力機(jī)制獲取圖像中包含的位置信息,再根據(jù)圖像對(duì)應(yīng)文本描述獲取其對(duì)應(yīng)隱式注意力信息;將兩者信息以外積形式進(jìn)行融合;對(duì)自然語(yǔ)言描述文本進(jìn)行Embedding后以LSTM進(jìn)行融合,通過(guò)不同注意力分別獲取實(shí)體和關(guān)系,同樣以外積形式進(jìn)行融合;以串聯(lián)方式實(shí)現(xiàn)對(duì)答案的推理.將文本算法在公開(kāi)數(shù)據(jù)集VQA 2.0、VQ-CP V2和Visual Genome上與現(xiàn)有方法進(jìn)行比較,本文模型準(zhǔn)確率達(dá)到最優(yōu).