劉長(zhǎng)紅,曾勝,張斌,陳勇
(1.江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,南昌 330022;2.南昌工程學(xué)院 工商管理學(xué)院,南昌 330029)
隨著人們?nèi)粘I钪卸嗝襟w數(shù)據(jù)(如文本、圖像、語音等)的爆炸性增長(zhǎng),跨模態(tài)圖像文本檢索已成為視覺和語言領(lǐng)域的基本任務(wù)之一。它是以一種模態(tài)數(shù)據(jù)作為查詢檢索另一種模態(tài)的相關(guān)數(shù)據(jù),如給定一條文本檢索相關(guān)的圖像。由于涉及兩種不同模態(tài)的數(shù)據(jù)(圖像和文本),因此跨模態(tài)圖像文本檢索不僅要解決不同模態(tài)數(shù)據(jù)之間的異構(gòu)性,還要考慮它們之間的跨模態(tài)語義相關(guān)性。近年來,雖然該任務(wù)已取得了重大進(jìn)展并且被廣泛應(yīng)用[1],但仍然是一個(gè)非常具有挑戰(zhàn)性的研究問題。
目前,跨模態(tài)圖像文本檢索方法大致可以分為兩類:粗粒度匹配方法[2-11]和細(xì)粒度匹配方法[12-16]。粗粒度匹配方法將圖像和文本信息直接映射到一個(gè)公共的潛在語義空間,然后在公共的潛在語義空間中計(jì)算圖像和文本的相似度。然而,粗粒度匹配方法僅粗略地捕獲了不同模態(tài)數(shù)據(jù)之間的全局語義相關(guān)性,無法描述圖像區(qū)域和文本單詞之間的細(xì)粒度(局部)語義相關(guān)性。為了更好地學(xué)習(xí)這種圖像區(qū)域與文本單詞對(duì)象之間的語義相關(guān)性,細(xì)粒度匹配方法建模了圖像中的圖像區(qū)域和文本中的單詞之間局部相似性度量,并進(jìn)一步融合得到全局相似性度量。Karpathy等[12]分別提取圖像和文本的片段特征(圖像區(qū)域和文本中的單詞),然后將二者的片段特征進(jìn)行密集匹配。由于圖像和文本都是由小的圖像區(qū)域或單詞所組成(通常圖像區(qū)域?qū)?yīng)于某個(gè)詞對(duì)象),因此細(xì)粒度匹配方法一定程度上提高了圖像和文本匹配的準(zhǔn)確度。然而目前大多數(shù)細(xì)粒度匹配方法僅考慮到圖像區(qū)域和文本單詞對(duì)象之間語義相關(guān)性,忽略了圖像區(qū)域間的關(guān)系以及文本單詞間的關(guān)系。
如圖1(a)所示,圖像數(shù)據(jù)中“女孩”區(qū)域?qū)?yīng)單詞“girl”,“球”區(qū)域?qū)?yīng)單詞“ball”,但“throw”等表示動(dòng)作或者對(duì)象關(guān)系的單詞無法匹配到對(duì)應(yīng)的圖像區(qū)域,而圖像和文本的語義相關(guān)性往往體現(xiàn)在模態(tài)內(nèi)對(duì)象之間的關(guān)系和模態(tài)間的關(guān)聯(lián)。如圖1(b)所示,圖像中的“手臂”區(qū)域和“球”區(qū)域的關(guān)系對(duì)應(yīng)文本中表示對(duì)象之間的關(guān)系動(dòng)詞“throw”“衣物”區(qū)域和“女孩”區(qū)域之間的關(guān)系對(duì)應(yīng)文本中的關(guān)系詞“in”。為了挖掘圖像區(qū)域之間的關(guān)系,Li等[16]提出了一種視覺語義推理網(wǎng)絡(luò)(Visual Semantic Reasoning Network,VSRN),采用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[17]推理圖像區(qū)域間的關(guān)系,然后生成各模態(tài)全局語義表示進(jìn)行全局語義推理,該方法沒有顯式地對(duì)模態(tài)間的對(duì)象關(guān)系的關(guān)聯(lián)進(jìn)行建模。Wei等[18]提出了一種基于交叉注意力機(jī)制的圖文匹配網(wǎng)絡(luò),將模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)一建模。
為了捕獲模態(tài)內(nèi)的對(duì)象關(guān)系和模態(tài)間的語義相關(guān)性,本文提出了一種基于語義關(guān)系圖的跨模態(tài)張量融合網(wǎng)絡(luò)(Cross-Modal Tensor Fusion Network based on Semantic Relation Graph,CMTFN-SRG)的圖像文本檢索方法。采用GCN 建模圖像區(qū)域間的關(guān)系和門控循環(huán)單元(Gated Recurrent Unit,GRU)[19]學(xué)習(xí)文本單詞級(jí)別的特征以及單詞之間的作用關(guān)系(模態(tài)內(nèi)對(duì)象之間的關(guān)系);另外,為了挖掘模態(tài)間的語義相關(guān)性,本文采用張量融合的方式學(xué)習(xí)模態(tài)間(圖像區(qū)域、圖像區(qū)域的關(guān)系和文本單詞之間)的細(xì)粒度關(guān)聯(lián)關(guān)系,并將圖像和文本的全局特征進(jìn)行匹配以獲得模態(tài)間的全局語義相關(guān)性,通過聯(lián)合優(yōu)化細(xì)粒度和全局語義相關(guān)性以獲取圖像和文本的最佳匹配。
本文主要研究跨模態(tài)圖像文本檢索,致力于探索視覺和語言的潛在對(duì)應(yīng)關(guān)系。目前跨模態(tài)圖像文本檢索的方法大致可分為兩類[20]:1)粗粒度匹配方法,將整個(gè)圖像和文本映射到一個(gè)共同的嵌入空間學(xué)習(xí)模態(tài)間的全局語義相關(guān)性;2)細(xì)粒度匹配方法,注重于學(xué)習(xí)圖像和文本對(duì)象間的局部語義相關(guān)性。
Wang等[21]通過線性投影的方式最大化不同模態(tài)數(shù)據(jù)的相關(guān)性,該方法直接將兩個(gè)模態(tài)的數(shù)據(jù)投影到一個(gè)共同的潛在語義空間以獲取不同模態(tài)數(shù)據(jù)的潛在語義特征。Kiros等[2]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取圖像特征和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)提取文本特征,然后通過成對(duì)排序損失(Pairwise Ranking Loss)將圖像和文本嵌入到共同語義空間。Liu等[22]采用循環(huán)殘差融合網(wǎng)絡(luò)學(xué)習(xí)多語義的特征表示。Faghri等[4]在三元損失函數(shù)的基礎(chǔ)上提出了難例挖掘(Hard Negative Mining)方法進(jìn)一步提高了檢索精度。
上述方法雖然在跨模態(tài)圖像文本檢索任務(wù)上取得了不錯(cuò)的效果,但是忽略了圖像和文本數(shù)據(jù)在細(xì)粒度層面上的語義關(guān)聯(lián)。
近些年來在跨模態(tài)圖像文本檢索任務(wù)上,越來越多的研究?jī)A向于探索跨模態(tài)圖像文本的細(xì)粒度視覺語言對(duì)應(yīng)關(guān)系。Karpathy等[12]分別對(duì)圖像和文本提取圖像區(qū)域和單詞特征,然后在嵌入空間中將提取好的兩種模態(tài)數(shù)據(jù)特征進(jìn)行對(duì)齊。Niu等[13]將文本構(gòu)造成一棵語義樹,其中每一個(gè)節(jié)點(diǎn)代表一個(gè)短語,然后采用分層LSTM 提取短語層次的特征。Nam等[14]提出了一種雙重注意力機(jī)制網(wǎng)絡(luò),該網(wǎng)絡(luò)包含兩個(gè)分支,分別用于獲取圖片和文本的局部關(guān)鍵語義特征,然后通過融合這些局部關(guān)鍵語義特征計(jì)算圖像和文本的全局相似度。Lee等[15]通過堆疊交叉注意(Stacked Cross-attention)加強(qiáng)不同模態(tài)數(shù)據(jù)的對(duì)齊。Li等[16]采用GCN 學(xué)習(xí)圖像區(qū)域的關(guān)系(局部特征),然后使用GRU 將這些局部特征進(jìn)一步融合得到圖像的全局特征。雖然上述方法一定程度上解決了粗粒度匹配方法中的問題,但是這些方法均未考慮圖像區(qū)域間的關(guān)系與文本單詞之間的語義關(guān)聯(lián)。Wei等[18]基于交叉注意力機(jī)制建模了模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)關(guān)系,而本文通過全局語義推理網(wǎng)絡(luò)和張量融合網(wǎng)絡(luò)學(xué)習(xí)模態(tài)內(nèi)對(duì)象之間和模態(tài)間的語義相關(guān)性。而本文將通過全局語義推理網(wǎng)絡(luò)和張量融合網(wǎng)絡(luò)學(xué)習(xí)模態(tài)內(nèi)對(duì)象之間和模態(tài)間的語義相關(guān)性。
本文所提出的基于語義關(guān)系圖的跨模態(tài)張量融合網(wǎng)絡(luò)模型主要由三個(gè)部分組成:圖像模態(tài)內(nèi)關(guān)聯(lián)關(guān)系及全局語義學(xué)習(xí)模塊、文本單詞級(jí)別的特征及全局語義學(xué)習(xí)模塊和跨模態(tài)張量融合模塊,如圖2 所示。首先,對(duì)于圖像區(qū)域特征,采用基于Faster-RCNN(Faster Region-based Convolutional Neural Network)[23]的自下而上注意力模型(Bottom-Up Attention Model)[24]提取,對(duì)圖像區(qū)域采用圖卷積網(wǎng)絡(luò)構(gòu)建圖像區(qū)域之間的語義關(guān)系圖,學(xué)習(xí)圖像區(qū)域之間的關(guān)系;對(duì)于文本特征,采用雙向門控循環(huán)單元(Bidirectional GRU,Bi-GRU)學(xué)習(xí)文本單詞對(duì)象特征以及對(duì)象之間的關(guān)系;然后,將所學(xué)習(xí)到的圖像和文本的語義關(guān)系以及對(duì)象特征通過張量融合網(wǎng)絡(luò)進(jìn)行匹配以學(xué)習(xí)圖像和文本在細(xì)粒度層面上模態(tài)間的語義相關(guān)性;最后,用圖像特征生成文本并計(jì)算圖像和文本之間的全局語義相關(guān)性。
給定一張圖像I,使用基于Faster-RCNN 的自下而上注意力模型[25]提取圖像區(qū)域特征,圖像區(qū)域特征的集合O表示為:
其中:oi表示O中的一個(gè)圖像區(qū)域特征;n表示I中檢測(cè)到的圖像區(qū)域總數(shù);d表示單個(gè)圖像區(qū)域的特征維度。
為了學(xué)習(xí)圖像區(qū)域之間的關(guān)系,本文根據(jù)所獲取的圖像區(qū)域特征構(gòu)建全連接圖G=(O,R),其中R表示圖像區(qū)域之間的關(guān)系矩陣,表示為:
其中:μ(·)和ν(·)是通過反向傳播學(xué)習(xí)的兩個(gè)全連接層。
然后將所構(gòu)建的全連接圖輸入到帶有殘差連接的GCN中學(xué)習(xí)圖像區(qū)域之間的關(guān)系,如圖3 所示。其中,經(jīng)過第l層GCN 所學(xué)習(xí)到的具有模態(tài)內(nèi)對(duì)象關(guān)系信息的圖像區(qū)域特征表示為:
其中:Rl∈Rn×n,Ol-1∈Rn×d∈Rd×d和∈Rn×n分別為GCN 和殘差連接的權(quán)重矩陣,本文設(shè)置d為2 048,n為36。為了充分學(xué)習(xí)圖像區(qū)域之間的關(guān)系,本文使用了l層GCN。
最后將GCN 的輸出結(jié)果輸入到GRU 中得到圖像的全局特征,表示為:
為了實(shí)現(xiàn)圖像和文本的細(xì)粒度關(guān)聯(lián),本文采用Bi-GRU作為編碼器提取文本單詞級(jí)別的特征以及單詞之間的關(guān)系,如圖4 所示。
對(duì)于一個(gè)包含m個(gè)單詞的文本C,每個(gè)單詞wj均采用連續(xù)的嵌入向量ej=Wewj,?j∈[1,m]表示,其中We是需要學(xué)習(xí)的嵌入矩陣。為了利用上下文信息增強(qiáng)單詞級(jí)別的特征表示,本文使用Bi-GRU 獲取文本C中向前和向后兩個(gè)方向的信息:
最后,文本C的特征可以表示為:
為了學(xué)習(xí)模態(tài)間的關(guān)系,本文采用張量融合網(wǎng)絡(luò)以學(xué)習(xí)模態(tài)間(圖像區(qū)域、圖像區(qū)域的關(guān)系和文本單詞之間的關(guān)系)的細(xì)粒度語義相關(guān)性。
然后通過兩個(gè)全連接層Wm和WT得到圖像和文本模態(tài)間的局部細(xì)粒度相似性度量:
考慮到圖像和文本的全局語義對(duì)齊,本文采用內(nèi)積的方式對(duì)圖像和文本的全局特征進(jìn)行相似度計(jì)算,表示為:
其中:?(·)表示相似度計(jì)算函數(shù);Vg和Tg分別表示圖像和文本的全局特征。
對(duì)于匹配部分,本文借鑒了文獻(xiàn)[4]中的方法,在訓(xùn)練過程中重點(diǎn)關(guān)注一個(gè)batch 中錯(cuò)誤匹配中得分最高的圖像-文本對(duì)(hardest negative pairs),則局部語義損失函數(shù)定義為:
另外,本文將學(xué)習(xí)到的圖像特征進(jìn)一步生成文本以提高所學(xué)習(xí)的全局圖像語義特征與文本之間的相關(guān)性。采用Seq2seq(Sequence to sequence)模型[26]將2.1 節(jié)中所學(xué)習(xí)到的圖像特征生成對(duì)應(yīng)的文本T。如果圖片特征學(xué)習(xí)的越好,則生成的文本越接近真實(shí)的文本,因此將文本生成的損失函數(shù)定義為:
其中:={ti|i=1,2,…,N}表示生成的文本,N是生成文本的長(zhǎng)度;φ是Seq2seq 模型通過反向傳播所學(xué)習(xí)的參數(shù)。
最后通過聯(lián)合式(12)~(14)得到最終的損失函數(shù):
為了驗(yàn)證本文所提方法的有效性,本文在兩個(gè)公開的數(shù)據(jù)集MS-COCO 和Flickr30K 上進(jìn)行了文本檢索(給定圖片檢索文本)和圖像檢索(給定文本檢索圖像)實(shí)驗(yàn),并與最近相關(guān)算法進(jìn)行了對(duì)比分析。對(duì)比算法包括:1)遞歸殘差融合(Recurrent Residual Fusion,RRF)方法[22],基于遞歸殘差融合模塊構(gòu)建圖像和文本的共同嵌入子空間學(xué)習(xí)具有判別力的表 示;2)視覺語義嵌入(Visual-Semantic Embeddings,VSE++)[4],使用難分樣本學(xué)習(xí)視覺語義嵌入的方法;3)雙分支卷積(Dual-Path Convolutional,DPC)[27],是一種通過雙分支CNN 網(wǎng)絡(luò)提取圖像文本嵌入特征表示的方法;4)SCO(Semantic Concepts and Order)[28],通過學(xué)習(xí)語義概念和順序增強(qiáng)圖像的表示;5)堆疊交叉注意網(wǎng)絡(luò)(Stacked Cross Attention Network,SCAN)[15],通過注意力機(jī)制捕獲視覺和語言之間的細(xì)粒度關(guān)系、加強(qiáng)不同模態(tài)數(shù)據(jù)的對(duì)齊;6)多模態(tài)張量融合網(wǎng)絡(luò)(Multi-modal Tensor Fusion Network,MTFN)[29],是一種基于多模態(tài)張量融合和重排序的圖像文本檢索方法;7)視覺語義推理網(wǎng)絡(luò)(Visual Semantic Reasoning Network,VSRN)[16],是一種采用圖卷積網(wǎng)絡(luò)推理圖像區(qū)域間關(guān)系的視覺語義學(xué)習(xí)方法;8)多模態(tài)交叉注意力(Multi-Modality Cross Attention,MMCA)[18],是一種基于自注意力和交叉注意力機(jī)制的圖文匹配網(wǎng)絡(luò)。
本文采用R@K作為評(píng)估指標(biāo),R@K表示檢索結(jié)果取前K個(gè)實(shí)例時(shí)所獲得的召回率(Recall),其值越高表示模型性能越好,通常K={1,5,10}。另外為了評(píng)估模型的整體表現(xiàn),本文將R@K的均值(mean Recall,mR)作為評(píng)價(jià)指標(biāo),其值越大,則模型的整體表現(xiàn)越好,計(jì)算公式為:
其中:N為實(shí)例個(gè)數(shù);RLK=0 表示第K個(gè)返回結(jié)果與查詢實(shí)例無關(guān),RLK=1 表示第K個(gè)返回結(jié)果與查詢實(shí)例相關(guān)。
MS-COCO 數(shù)據(jù)集中每張圖像有5 個(gè)文本注釋,將其按照文獻(xiàn)[4]中的劃分方法進(jìn)行劃分。Flickr30K 數(shù)據(jù)集中每張圖像包含5 個(gè)文本描述,將其按照文獻(xiàn)[12]中的劃分方法進(jìn)行劃分,兩個(gè)數(shù)據(jù)集的劃分結(jié)果如表1 所示。
表1 兩個(gè)常用的基準(zhǔn)數(shù)據(jù)集Tab.1 Two commonly used benchmark datasets
在最后的測(cè)試階段,為了驗(yàn)證模型的穩(wěn)定性和魯棒性,本文采用兩種測(cè)試方法驗(yàn)證實(shí)驗(yàn)結(jié)果:第一種方法(MS-COCO5K)直接將5 000 張測(cè)試圖像作為測(cè)試集進(jìn)行測(cè)試;第二種方法(MS-COCO1K)則是采用5 折驗(yàn)證的方式進(jìn)行測(cè)試,每次測(cè)試1 000 張圖像,然后將5 次測(cè)試結(jié)果的平均值作為最終的測(cè)試結(jié)果。
在實(shí)驗(yàn)中,本文采用基于Faster-RCNN 的自下而上注意力模型提取置信度得分排名前36 的圖像區(qū)域,在2.1 節(jié)中GCN 個(gè)數(shù)設(shè)置為4。在模型訓(xùn)練期間采用Adam[30]作為優(yōu)化器,迭代次數(shù)(epoch)設(shè)為40。對(duì)于Flickr30K 數(shù)據(jù)集,初始學(xué)習(xí)率設(shè)置為0.000 4,每5 次迭代進(jìn)行一次學(xué)習(xí)率衰減,衰減因子為0.1,在2.3 節(jié)張量融合網(wǎng)絡(luò)中K設(shè)置為20。在MSCOCO 數(shù)據(jù)集上訓(xùn)練時(shí),學(xué)習(xí)率設(shè)置為0.000 2,每15 次迭代進(jìn)行一次學(xué)習(xí)率衰減,衰減因子為0.1,在張量融合網(wǎng)絡(luò)中K設(shè)置為15。在聯(lián)合損失函數(shù)中,損失函數(shù)LF和LG中的邊際參數(shù)α和β均設(shè)置為0.2。本文所有的實(shí)驗(yàn)都是使用RTX2080TI GPU 和PyTorch 0.4.1 深度學(xué)習(xí)框架實(shí)現(xiàn)。
3.3.1 在Flickr30k數(shù)據(jù)集上的結(jié)果
表2 給出了本文所提出的CMTFN-SRG 方法與對(duì)比方法在Flickr30K 測(cè)試集上的召回率對(duì)比結(jié)果。從表2 可以看出,本文所提出的CMTFN-SRG 方法與對(duì)比方法相比,在文本檢索圖像任務(wù)上R@1、R@5、R@10 指標(biāo)均有明顯的提高;在圖像檢索文本任務(wù)上僅次于MMCA 方法。與MMCA 方法相比,CMTFN-SRG 方法在文本檢索圖像的任務(wù)上R@1、R@5、R@10 分別提高了2.6%、1.4%、1.8%。MMCA 方法采用自注意力機(jī)制學(xué)習(xí)圖像區(qū)域間的關(guān)系,然后通過交叉注意力機(jī)制對(duì)模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)一建模,將學(xué)習(xí)到的圖像圖全局語義特征與文本全局語義特征進(jìn)行相似性匹配;而CMTFN-SRG 方法則采用張量融合網(wǎng)絡(luò)對(duì)GCN 建模的圖像區(qū)域間的關(guān)系以及圖像區(qū)域特征和文本單詞級(jí)別的特征進(jìn)行語義相關(guān)性學(xué)習(xí)以捕獲兩種不同模態(tài)間的細(xì)粒度關(guān)聯(lián)關(guān)系(模態(tài)間的對(duì)象以及對(duì)象關(guān)系的關(guān)聯(lián)),因而取得了更好的結(jié)果。該實(shí)驗(yàn)結(jié)果也表明了本文采用張量融合網(wǎng)絡(luò)能夠有效學(xué)習(xí)模態(tài)間對(duì)象關(guān)系的語義相關(guān)性。
表2 Flickr30K測(cè)試集上的召回率對(duì)比結(jié)果 單位:%Tab.2 Recall comparison results on Flickr30K test set unit:%
3.3.2 在MS-COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
本文進(jìn)一步對(duì)所提出的CMTFN-SRG 方法與對(duì)比方法分別在MS-COCO5K 測(cè)試集和MS-COCO1K 測(cè)試集上進(jìn)行了文本檢索圖像和圖像檢索文本兩個(gè)任務(wù)中的R@1、R@5、R@10召回率對(duì)比分析,對(duì)比結(jié)果分別見表3~4。實(shí)驗(yàn)結(jié)果表明本文所提方法優(yōu)于大多數(shù)對(duì)比方法。在MS-COCO5K 測(cè)試集上,CMTFN-SRG 方法在文本檢索圖像的任務(wù)上R@5、R@10最優(yōu),其中文本檢索圖像的R@1 比MMCA 方法提升了4.1%;在MS-COCO1K 測(cè)試集上CMTFN-SRG 在文本檢索圖像任務(wù)中R@1、R@5、R@10 均高于MMCA 方法,其中文本檢索圖像的R@1 提升了9.0%。同時(shí),相較于MMCA 方法,CMTFN-SRG 方法在Flickr30K 測(cè)試集、MS-COCO1K 測(cè)試集和MS-COCO5K 測(cè)試集上mR 分別提升了0.4、1.3 和0.1 個(gè)百分點(diǎn)。
表3 在MS-COCO5K 測(cè)試集上的召回率對(duì)比結(jié)果 單位:%Tab.3 Recall comparison results on MS-COCO5K test set unit:%
表4 MS-COCO1K測(cè)試集上的召回率對(duì)比結(jié)果 單位:%Tab.4 Recall comparison results on MS-COCO1K test set unit:%
從以上實(shí)驗(yàn)結(jié)果可以看出,CMTFN-SRG 不僅在小數(shù)據(jù)集Flickr30K 上性能良好,在大數(shù)據(jù)集MS-COCO 上也優(yōu)于大多數(shù)相關(guān)算法,充分說明了本文所提方法的優(yōu)越性和可擴(kuò)展性。
為了驗(yàn)證模態(tài)內(nèi)關(guān)系的作用以及張量融合方法的有效性,本文通過一個(gè)基線模型逐步驗(yàn)證CMTFN-SRG 中的模態(tài)內(nèi)關(guān)系學(xué)習(xí)模塊和張量融合模塊的作用。該基線模型不進(jìn)行張量融合操作并將2.1 節(jié)中獲取的圖像區(qū)域特征O={oi|i=1,2,…,n,oi∈Rd}通過平均池化得到圖像的最終特征表示,其他設(shè)置與CMTFN-SRG 保持一致。實(shí)驗(yàn)結(jié)果如表5 所示,其中:IR 表示加上了圖像模態(tài)內(nèi)關(guān)系學(xué)習(xí)模塊;TF表示加上了張量融合模塊,TF 前面的數(shù)字表示張量融合的數(shù)目?;€模型在文本檢索任務(wù)上的R@1、R@10 分別為64.3%、90.5%,在圖像檢索任務(wù)上的R@1、R@10 分別為49.2%、83.4%。
表5 在MS-COCO1K測(cè)試集上進(jìn)行消融實(shí)驗(yàn)的結(jié)果 單位:%Tab.5 Ablation experimental results on MS-COCO1K test set unit:%
首先在平均池化操作之前加上模態(tài)內(nèi)關(guān)系(IR)學(xué)習(xí)模塊(見2.1 節(jié))。從實(shí)驗(yàn)結(jié)果可以得出模態(tài)內(nèi)關(guān)系學(xué)習(xí)模塊能夠有效地學(xué)習(xí)到圖像區(qū)域之間的關(guān)系(模態(tài)內(nèi)對(duì)象的關(guān)系),從而取得更好的檢索結(jié)果。然后在模態(tài)內(nèi)關(guān)系學(xué)習(xí)模塊的基礎(chǔ)上加上張量融合(TF)模塊(見2.3 節(jié))并且逐漸增加張量融合的次數(shù)。從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),張量融合模塊能夠有效地促進(jìn)圖像數(shù)據(jù)模態(tài)內(nèi)關(guān)聯(lián)關(guān)系以及圖像區(qū)域特征和文本特征的匹配,進(jìn)而提高檢索精度。
圖5~6 分別顯示了圖像檢索文本和文本檢索圖像的相似度得分排名前五的可視化結(jié)果,其中加框的表示正確的結(jié)果。從圖5~6 中可以看出,本文所提方法不僅能夠有效地學(xué)習(xí)圖像區(qū)域間的關(guān)系(模態(tài)內(nèi)對(duì)象之間的關(guān)系),并且能準(zhǔn)確地將圖像和文本進(jìn)行匹配(模態(tài)間的關(guān)系)。
本文提出了一種基于語義關(guān)系圖的跨模態(tài)張量融合網(wǎng)絡(luò)的圖像文本檢索方法,該方法統(tǒng)一模態(tài)內(nèi)對(duì)象之間的關(guān)系和模態(tài)間的對(duì)象關(guān)系的關(guān)聯(lián),結(jié)合張量融合網(wǎng)絡(luò)和全局語義匹配網(wǎng)絡(luò),能有效地學(xué)習(xí)到模態(tài)間對(duì)象關(guān)系的局部語義相關(guān)性和全局語義相關(guān)性。在兩大公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比分析,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出方法的有效性。下一步工作將考慮把圖像和文本分別在全局語義層、對(duì)象關(guān)系層以及對(duì)象層進(jìn)行匹配,進(jìn)而實(shí)現(xiàn)更加精細(xì)和準(zhǔn)確的匹配。