萬璋 張玉潔 劉明童 徐金安 陳鈺楓
融合物體空間關(guān)系機制的圖像摘要生成方法
萬璋 張玉潔?劉明童 徐金安 陳鈺楓
北京交通大學計算機與信息技術(shù)學院, 北京100044; ?通信作者, E-mail: yjzhang@bjtu.edu.cn
聚焦于圖像中物體間位置關(guān)系這一特定信息, 提出一種融合空間關(guān)系機制的神經(jīng)網(wǎng)絡(luò)圖像摘要生成模型, 以期為視覺問答和語音導(dǎo)航等下游任務(wù)提供物體方位或軌跡等關(guān)鍵信息。為了增強圖像編碼器的物體間位置關(guān)系學習能力, 通過改進 Transformer 結(jié)構(gòu)來引入幾何注意力機制, 顯式地將物體間位置關(guān)系融合進物體外觀信息中。為了輔助完成面向特定信息的抽取和摘要生成任務(wù), 進一步提出相對位置關(guān)系的數(shù)據(jù)制作方法, 并基于 SpatialSense 數(shù)據(jù)集制作物體間位置關(guān)系的圖像摘要數(shù)據(jù)集 Re-Position。與 5 個典型模型的對比測評實驗結(jié)果表明, 所提模型的 5 個指標在公開測試集 COCO 上優(yōu)于其他模型, 全部 6 個指標在本文制作的Re-Position 數(shù)據(jù)集上優(yōu)于其他模型。
圖像摘要; 物體間位置關(guān)系; 注意力機制; Transformer結(jié)構(gòu)
自然語言處理(natural language processing, NLP) 和計算機視覺(computer vision, CV)是當前人工智能領(lǐng)域的研究熱點。近期, 融合文本和圖像信息的多模態(tài)信息處理問題引起研究者的極大興趣。作為多模態(tài)信息處理的一項關(guān)鍵技術(shù), 圖像的摘要生成(image caption)最早由 Farhadi 等[1]提出, 給定二元組(I, S)(I 表示圖像, S 表示摘要句子), 模型完成從圖像到摘要句子(I→S)的多模態(tài)映射。最近, 研究人員注意到圖像中一些特定的細粒度信息(如顏色和位置)能夠為下游任務(wù)(如圖片檢索)提供重要的依據(jù), 因此從圖像中抽取特定信息生成摘要的需求日益增大。
在摘要生成中, 圖像信息通常用一句話表達, 僅僅是對圖像中某一部分信息的描述?,F(xiàn)有數(shù)據(jù)集中, 圖像摘要的人工標注對具體對象和描述要素沒有統(tǒng)一的規(guī)范, 標注人員的關(guān)注點隨意, 未必包含特定信息。如此, 面向特定信息抽取的摘要生成研究面臨困境。
本文關(guān)注圖像中物體間位置關(guān)系這一特定信息在文本摘要里的準確表達。物體間位置關(guān)系信息對理解圖像內(nèi)容至關(guān)重要, 人類在對物理世界進行推理時也要使用這些信息。例如, 相對位置信息的提取能夠幫助生成“臥室內(nèi)人坐在椅子上”, 而不僅僅是“臥室內(nèi)有人和椅子”。
為了增強圖像編碼器對物體間位置關(guān)系的學習能力, 本文首次提出一種融合空間關(guān)系機制的神經(jīng)網(wǎng)絡(luò)圖像摘要生成模型。我們對物體間的位置關(guān)系進行單獨編碼, 獲取位置關(guān)系的顯式表示, 并在Transformer 結(jié)構(gòu)中引入幾何注意力機制, 將位置關(guān)系融合進物體外觀信息中。為了輔助完成面向特定信息的抽取和摘要生成任務(wù), 我們提出物體間位置關(guān)系數(shù)據(jù)制作方法, 并基于 SpatialSense 數(shù)據(jù)集[2]制作位置關(guān)系數(shù)據(jù)集 Re-Position。最后, 在公開測試集 COCO 和本文制作的數(shù)據(jù)集 Re-Position 上進行驗證, 并與其他 5 個典型的模型進行對比。
早期的基于神經(jīng)網(wǎng)絡(luò)模型[3?5]沒有進行物體檢測處理, 圖像編碼器直接對整幅圖像進行編碼, 因此無從獲取物體間的位置關(guān)系信息。后來的研究中增加基于 CNN 的物體檢測處理, 檢測出物體并提取相應(yīng)的特征[6], 為每個物體生成單獨的摘要, 但圖像編碼器未對物體間的關(guān)系, 尤其是相對位置關(guān)系進行建模。Anderson 等[7]利用“自下而上”與“自上而下”(Up-Down 模型)的注意力機制, 對多個物體的特征向量進行編碼, 在圖像摘要生成任務(wù)中取得最佳性能, 但沒有對物體間相對位置關(guān)系進行顯示編碼。Yao 等[8]在圖像編碼器中對物體間位置設(shè)置11 種關(guān)系, 如“內(nèi)部”、“覆蓋”或“重疊”, 采用圖卷積網(wǎng)絡(luò)構(gòu)建物體間位置關(guān)系圖, 以邊的類別表示位置關(guān)系類別, 但其設(shè)置的關(guān)系類別數(shù)量有限, 不能覆蓋未知數(shù)據(jù)集中眾多種類的物體間位置關(guān)系。之后, Yang 等[9]利用知識圖譜擴展物體間位置關(guān)系類別的數(shù)量, 但仍無法處理知識圖譜中不存在的關(guān)系類別。
我們的方法是根據(jù)數(shù)據(jù)集, 動態(tài)地確定物體間位置關(guān)系類別的集合, 即在圖像編碼器中使用Transformer結(jié)構(gòu)來設(shè)計幾何注意力機制, 對物體檢測框的大小和差異等特征進行物體間位置關(guān)系的顯示編碼, 提高模型對數(shù)據(jù)集中出現(xiàn)的位置關(guān)系類別的覆蓋程度, 并針對物體間位置關(guān)系進行數(shù)據(jù)制作和評測。
本文圍繞位置關(guān)系抽取問題, 提出融合空間關(guān)系機制的圖像摘要模型。本文的任務(wù)如下: 對圖像中的個(由數(shù)據(jù)集指定或由圖像檢測結(jié)果確定)物體, 給出所有物體對之間的空間位置關(guān)系描述, 最終生成所有物體對間的位置關(guān)系描述摘要。在摘要生成評測中使用 BLEU 等指標, 計算生成摘要對參考摘要(包含所有物體對之間的位置關(guān)系描述)的覆蓋度。
本文提出的圖像摘要生成模型由物體檢測模塊、圖像編碼器和文字解碼器三部分構(gòu)成, 模型框架如圖 1 所示。首先, 利用物體檢測模塊(如 Faster R-CNN)檢測出圖像中的個物體, 得到每個物體的特征向量; 然后, 利用圖像編碼器對個物體的特征向量以及位置間關(guān)系信息進行編碼, 得到融合個物體的圖像表示; 最后, 文字解碼器采用加入Attention 機制的 Bi-LSTM 結(jié)構(gòu), 對圖像表示進行序列建模, 生成摘要文本。另外, 我們在圖像編碼器中引入幾何注意力機制, 對物體的空間位置進行單獨編碼, 獲得物體間位置關(guān)系的表示。
本文使用 Faster R-CNN[10]和 ResNet-101[11]作為目標檢測和特征提取的基礎(chǔ)框架。為了得到物體的最佳候選檢測框, 我們利用非最大抑制算法, 將重合程度超過閾值 0.7 的重疊檢測框舍棄, 并得到物體的幾何特征; 然后利用 Faster R-CNN 結(jié)構(gòu)中的ROI 層, 將刪選后的檢測框轉(zhuǎn)換至相同的維度(如14×14×2048)。為了預(yù)測每個物體檢測框的類別標簽, 利用 ResNet-101 網(wǎng)絡(luò)進行特征提取, 得到物體的外觀特征。進一步地, 舍棄類別預(yù)測概率低于閾值 0.2 的物體檢測框, 以便得到物體的確定數(shù)量(≤ 4)。最后, 為每個物體生成包括幾何特征(物體的位置和大小)和外觀特征(物體的類別)在內(nèi)的特征向量(2048 維), 輸入圖像編碼器中。
利用圖像編碼器, 對個物體的特征向量進行編碼, 得到圖像表示。物體檢測模塊為每個物體生成一個特征向量, 向量信息之間沒有聯(lián)系。但是, 作為一幅圖像中的物體, 相互之間存在一定的關(guān)系, 例如兩個物體“房間”和“人”之間的關(guān)系為“房間里有人”, 因此圖像編碼器需要將物體之間的關(guān)系編碼到圖像表示中。為了表示物體之間的相互關(guān)系, 需要獲取其他物體的信息, 可以通過計算物體間特征向量的相關(guān)性來實現(xiàn), 并把這種相關(guān)性表示融合成物體的語義表示。
本文采用 Tansformer 結(jié)構(gòu)[12]的編碼部分作為圖像編碼器, 輸入為個特征向量, 對應(yīng)個物體。圖像編碼器的第一層有多個 Relation 模塊, 每個模塊輸入一個物體的特征向量, 通過學習與其他物體之間的關(guān)系來更新物體的語義表示。圖像編碼器由多個編碼層構(gòu)成, 將前一個編碼層的輸出作為后一個編碼層的輸入, 將最后一個編碼層的輸出作為圖像表示, 饋送到文字解碼器生成摘要。
每個 Relation 模塊負責獲得相應(yīng)物體與圖像中其他所有物體之間的關(guān)系, 并更新該物體的語義表示, 由 Self-attention 機制來實現(xiàn)。對于物體A(1≤≤), 首先根據(jù)式(1), 從其特征向量得到 quries(), keys ()和values ():
其中,表示圖像中個物體的特征向量矩陣;,和是權(quán)重矩陣, 起到變化維度的作用, 可以通過模型訓(xùn)練得到。個物體的語義表示矩陣通過下式計算得到:
通過注意力機制得到的矩陣中, 每個向量對應(yīng)一個物體, 代表融合了與其他物體關(guān)系的語義表示。Transformer 結(jié)構(gòu)采用多頭注意力機制, 我們通過拼接多頭注意力機制計算得到的結(jié)果, 獲得最終的語義表示:
由于圖像中物體的類別、尺寸和位置不同, 導(dǎo)致難以對空間位置關(guān)系進行建模。鑒于物體的空間位置關(guān)系由各個物體的空間位置決定, 我們考慮充分利用物體特征向量中的幾何特征來幫助獲取空間位置關(guān)系, 為此提出基于幾何注意力機制的圖像編碼方式, 如圖 2 所示。
表示物體 Ai 的幾何特征,表示物體 Ai 的外觀特征, 表示物體 Aj 的幾何特征,表表示物體 Aj 的外觀特征, 表示物體 Ai 與其他所有物體間的位置關(guān)系信息
為了計算給定物體A與A間的位置關(guān)系, 我們設(shè)計式(5)來計算幾何特征注意力權(quán)重:
圖像編碼器有多個 Relation 模塊, 每個 Rela-tion 模塊都將物體的幾何特征作為輸入, 采用下式計算當前物體A與另一物體A間的位置關(guān)系:
其中, Concat表示對所有向量進行拼接操作。
目前, 沒有專門面向物體間位置關(guān)系的數(shù)據(jù)集。如圖 3 所示, 現(xiàn)有的數(shù)據(jù)集中, 或者只有一個物體, 或者摘要沒有關(guān)注物體間的位置關(guān)系。為此, 我們設(shè)計利用現(xiàn)有數(shù)據(jù)制作物體間位置關(guān)系數(shù)據(jù)集的方法, 分為如下 4 個步驟。
1)設(shè)計物體間位置關(guān)系的標簽集合, 包含 in, on 和 left 等共 21 個詞語, 如表 1 所示。
2)人工判斷并選取現(xiàn)有數(shù)據(jù)集中只包含兩個物體的檢測框, 且兩個物體之間有明確位置關(guān)系的圖片。
3)利用數(shù)據(jù)集中物體的位置坐標(,,,)呈現(xiàn)的檢測框區(qū)域(圖 4), 人工判斷物體間位置關(guān)系, 并使用步驟 1 的標簽進行標注。
4)利用數(shù)據(jù)集給定的物體名稱以及步驟 3 得到的位置關(guān)系標注, 人工制作摘要, 并按照 COCO 數(shù)據(jù)集的摘要格式存儲。
我們利用上述數(shù)據(jù)制作方法, 在 SpatialSense數(shù)據(jù)集[2]上得到物體間空間位置關(guān)系的圖像摘要數(shù)據(jù)集 Re-Position。圖 4 為本文制作的物體間位置關(guān)系的圖像摘要示例, 每張圖片包含兩個物體的檢測框以及它們之間的位置關(guān)系描述。模型直接將圖像和物體的位置坐標共同作為輸入, 可以避免因圖像檢測中物體識別錯誤導(dǎo)致的摘要生成錯誤, 使模型評測實驗重點關(guān)注圖像編碼和文字解碼部分。Re-Position 數(shù)據(jù)集共有 1000 張圖片, 每張圖片對應(yīng) 1條摘要。本文將該數(shù)據(jù)集分割為訓(xùn)練集、開發(fā)集和測試集, 分別為 600 張、200 張和 200 張圖片。
我們同時利用廣泛使用的公開數(shù)據(jù)集 Micro-soft COCO (MS-COCO) Captions 進行評測, 共有123287 張圖片, 每張圖片有 5 條摘要。本文設(shè)置與文獻[7,13]相同的訓(xùn)練集、開發(fā)集和測試集, 分別為 113287 張、5000 張和 5000 張圖片, 并將數(shù)據(jù)集中的摘要部分轉(zhuǎn)換為小寫。
模型訓(xùn)練中采用 softmax 交叉熵作為損失函數(shù), 將學習率設(shè)為 0.003, warmup 設(shè)為 20000, 文字解碼Bi-LSTM 設(shè)為 500 維, 詞向量維度設(shè)為 500, 在層之間采用 dropout 正則化技術(shù), drop 率設(shè)為 0.3。采用Adam 優(yōu)化算法[14]進行優(yōu)化, 訓(xùn)練輪數(shù)為 30, Batch大小設(shè)為 64。將出現(xiàn)次數(shù)少于 8 的單詞丟棄, 最終得到 10118 個詞匯。
圖3 現(xiàn)有數(shù)據(jù)集示例
表1 Re-Position數(shù)據(jù)集中表示空間位置關(guān)系詞語的分布概率
圖4 Re-Position數(shù)據(jù)集示例
本研究使用的摘要評測指標包括 CIDEr-D[15], BLEU-N[16], METEOR[17], SPICE[18]和 ROUGE-L。在 Re-Position 數(shù)據(jù)集上, 對比評測基于編碼解碼框架的 5 種代表性圖像摘要生成模型: 1)Show and Tell 模型[3], 采用標準 CNN 結(jié)構(gòu)的圖像編碼和 RNN結(jié)構(gòu)的文字解碼; 2)SCST模型[19], 在編碼器與解碼器之間引入改進的視覺注意機制生成摘要, 還設(shè)計一種自臨界序列訓(xùn)練策略來訓(xùn)練采用句子級獎勵損失函數(shù)的 LSTM 結(jié)構(gòu); 3)ADP-ATT 模型[20], 采用標準CNN結(jié)構(gòu)的圖像編碼和LSTM結(jié)構(gòu)的文字解碼, 在編碼器與解碼器之間使用注意力機制; 4)LSTM-A 模型[21], 在解碼部分結(jié)合外部知識(如語義屬性信息)生成摘要; 5)Up-Down 模型[7], 使用自下而上和自上而下的注意力機制。評測結(jié)果(表 2)顯示, 與其他 5 個模型相比, 本文模型 6 個評測指標的得分均顯著提升。其中, Up-Down 模型同樣將物體檢測坐標作為圖像編碼器的輸入, 與其相比, 本文模型的 BLEU-1, BLEU-4, CIDEr-D, METEO, SPICE以及 ROUGE-L 分別提高 3.6%, 1.9%, 2.3%, 0.5%, 0.9%和 1.6%。
在 Re-Position 數(shù)據(jù)集上的實驗結(jié)果(表 2)表明, 本文模型引入的幾何注意力機制可以增強對物體間位置信息的表示能力, 對物體間的位置關(guān)系進行有效的編碼, 最終在解碼時能夠準確地生成關(guān)于物體間位置關(guān)系的摘要。
表2 Re-Position數(shù)據(jù)集上不同模型的對比評測結(jié)果
說明: 括號內(nèi)數(shù)字表示本文模型與Up-Down模型評測得分相差的百分點, ↑代表提升, ↓代表下降, 下同。
在 COCO 數(shù)據(jù)集上, 與同樣 5 個代表性模型進行對比評測。由于 COCO 數(shù)據(jù)集沒有物體的位置坐標, Up-Down 模型和本文模型需要進行圖像檢測, 因此均采用 Faster-RCNN 作為圖像檢測器的基本框架。評測結(jié)果(表 3)顯示, 與前 4 個模型相比, 本文模型的 6 個評測指標均提升。與 Up-Down 模型相比, BLEU-1, BLEU-4, CIDEr-D, SPICE 和 ROUGE-L分別提高 0.3%, 0.5%, 2.9%, 0.7%和 1.7%; 本文模型的 METEOR 得分略低于 Up-Down 模型(降低 0.2%)。在 COCO 數(shù)據(jù)集上的實驗結(jié)果表明, 本文模型在公開數(shù)據(jù)集上同樣超過現(xiàn)有代表性模型的性能, 從而驗證了本文模型的有效性。
本文模型性能的提升是完全來自 Transformer的優(yōu)勢, 還是與幾何注意力機制的引入相關(guān), 需要通過消融實驗來驗證。我們?yōu)榇藰?gòu)建兩個模型: 一個是在 Up-Down 模型(同樣使用目標檢測)中加入幾何注意力機制, 記為 Up-Down+Geom_Attn; 另一個是在本文模型中去掉幾何注意力機制, 記為 Transf +Bi-LSTM。然后, 分別進行評測, 并與本文模型進行對比。對比評測結(jié)果(表 4)顯示, 本文模型去除幾何注意力機制后性能下降, METEOR, CIDEr-D, BLEU-1, BLEU-4, SPICE 以及 ROUGR-L 分別下降0.6%, 5.7%, 0.4%, 0.4%和 0.8%, 說明 3.4 節(jié)的評測結(jié)果中, 本文模型性能的提升的確有來自幾何注意力機制的貢獻, 并非完全來自 Tranformer 結(jié)構(gòu)的使用。另一方面, 將幾何注意力機制引入 Up-Down 模型后, 也會帶來性能的提升(METEOR, CIDEr-D, BLEU-1, BLEU-4, SPICE 以及 ROUGR-L 分別提高0.2%, 2.2%, 0.1%, 0.3% 和 0.4%), 進一步說明本文提出的幾何注意力機制可以提升模型性能。消融實驗結(jié)果表明, 本文提出的幾何注意力機制可以顯著地提升物體間位置關(guān)系的表示能力, 從而提升摘要生成的質(zhì)量。
為了進一步分析本文模型的性能, 我們選擇CIDEr-D 得分有明顯提升的摘要實例與 Up-Down模型進行對比, 結(jié)果如圖 5 所示。圖 5(a1)中, Up-Down 模型錯誤地生成“人在椅子的前面”, 本文模型正確地生成“人在椅子上”; 圖 5(a2)中, Up-Down模型錯誤地生成“孩子站在水里”, 本文模型正確地生成“孩子在水面上”; 圖 5(b1)中, 本文模型正確地生成杯子、電腦和桌子的三者關(guān)系; 圖5(b2)中, 本文模型正確地給出孩子的數(shù)量, 說明本文模型中的物體檢測器能夠正確地識別出兩個孩子。這一實例分析結(jié)果表明, 本文引入幾何注意機制對物體檢測精度的提升也有幫助, 這一發(fā)現(xiàn)與Hu 等[22]的結(jié)論一致。COCO 數(shù)據(jù)集上的對比實例顯示, 本文模型在包含兩個以上物體的圖片摘要生成中獲得質(zhì)量更好的結(jié)果。
表4 消融實驗結(jié)果
(a1)和(a2)在 Re-Position 數(shù)據(jù)集上生成的實例; (b1)和(b2) 在 COCO 數(shù)據(jù)集上生成的實例。紅字為兩個模型生成的摘要中表示物體間位置關(guān)系的詞語
本文圍繞物體間位置關(guān)系特定信息抽取這一問題, 提出利用幾何注意力機制對物體間位置關(guān)系進行編碼, 獲取物體間位置關(guān)系的顯式表示, 從而增強模型對物體間位置關(guān)系的學習能力。實驗結(jié)果顯示, 本文模型在位置關(guān)系顯示編碼上的有效性可以幫助提升摘要中相關(guān)描述生成的準確性。為了輔助完成面向特定信息的抽取和摘要生成任務(wù), 我們提出物體間位置關(guān)系數(shù)據(jù)制作方法, 并基于 Spatial-Sense 數(shù)據(jù)集[2], 制作物體間位置關(guān)系的圖像摘要數(shù)據(jù)集 Re-Position。在 MS-COCO 數(shù)據(jù)集上的測評結(jié)果表明, 本文模型的摘要生成能從物體間位置關(guān)系信息中受益, 提高摘要生成的質(zhì)量。在 Re-Position數(shù)據(jù)集上的測評結(jié)果表明, 本文模型對物體間位置關(guān)系信息的表示能力顯著增強。定性的實例分析結(jié)構(gòu)說明, 引入幾何注意機制能產(chǎn)生更好的表示物體位置關(guān)系的圖像摘要。
目前, 本文模型僅在編碼階段考慮了物體間位置關(guān)系的信息。今后的工作中, 我們擬在解碼器的交叉注意層中也融入幾何注意力機制, 進一步提升模型的性能。
[1] Farhadi A, Hejrati M, Sadeghi A, et al. Every picture tells a story: generating sentences from images // Pro-ceeding of Part IV of the 11th European Conference on Computer Vision. Heraklion, 2010: 15?29
[2] Yang K, Russakovsky O, Deng J, et al. Spatial sense: an adversarially crowdsourced benchmark for spatial relation recognition // 2019 IEEE International Con-ference on Computer Vision. Seoul, 2019: 2051?2060
[3] Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator // 2015 IEEE Confe-rence on Computer Vision and Pattern Recognition. Boston, 2015: 3156?3164
[4] Kiros R, Salakhutdinov R, Zemell R. Multimodal neural language models // International Conference on Machine Learning. Beijing, 2014: 595?603
[5] Mao J, Xu W, Yang J, et al. Deep captioning with multimodal recurrent neural networks (m-RNN). arXiv preprint. 2014, arXiv: 1412.6632
[6] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation // 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, 2014: 580?587
[7] Anderson P, He, X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering // 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake, 2018: 6077?6086
[8] Yao T, Pan Y, Li Y, et al. Exploring visual relationship for image captioning // 2018 European Conference on Computer Vision. Munich, 2018: 711?727
[9] Yang X, Tang K, Zhang H, et al. Auto-encoding scene graphs for image captioning // 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 10685?10694
[10] Ren S, He K, Girshick R, et al. Faster R-CNN: to-wards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137?1149
[11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition // 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 770?778
[12] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // 2017 Conference and Workshop on Neural Information Processing Systems. Long Beach, 2017: 5998?6008
[13] Rennie S J, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning // 2017 IEEE Conference on Computer Vision and Pattern Recog-nition. Hawaii, 2017:1179?1195
[14] Kingma D P, Ba J. Adam: a method for stochastic optimization // International Conference on Learning Representations. San Diego, 2015: 1?15
[15] Vedantam R, Lawrence Zitnick, C, Parikh D. Cider: consensus-based image description evaluation // 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 4566?4575
[16] Papineni K, Roukos S, Ward T, et al. Bleu: a method for automatic evaluation of machine translation // 2002 Annual Meeting of the Association for Compu-tational Linguistic. Philadelphia, 2002: 311?318
[17] Banerjee S, Lavie A. Meteor: an automatic metric for MT evaluation with improved correlation // 2005 Annual Meeting of the Association for Computational Linguistic. Michigan, 2005: 65?72
[18] Anderson P, Fernando B, Johnson M, et al. Spice: se-mantic propositional image caption evaluation // 2016 European Conference on Computer Vision. Amster-dam, 2016: 382?398
[19] Rennie S J, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning // 2017 IEEE Conference on Computer Vision and Pattern Recogni-tion. Hawai, 2017: 1179?1195
[20] Lu J, Xiong C, Parikh D. Knowing when to look: adaptive attention via avisual sentinel for image cap-tioning // 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, 2017: 3242?3250
[21] Yao T, Pan Y, Li Y, et al. Boosting image captioning with attributes // 2017 IEEE International Conference on Computer Vision. Venice, 2017: 4904?4912
[22] Hu H, Gu J, Zhang Z, et al. Relation networks for ob-ject detection // 2018 IEEE Conference on Compu- ter Vision and Pattern Recognition. Salt Lake, 2018: 3588?3597
Object Space Relation Mechanism Fused Image Caption Method
WAN Zhang, ZHANG Yujie?, LIU Mingtong, XU Jin’an, CHEN Yufeng
School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; ? Corresponding author, E-mail: yjzhang@bjtu.edu.cn
Focusing on the specific information of the positional relationship between objects in the image, a neural network image summary generation model integrating spatial relationship mechanism is proposed, in order to provide key information (object position or trajectory) for downstream tasks such as visual question answering and voice navigation. In order to enhance the learning ability of the positional relationship between objects of the image encoder, the geometric attention mechanism is introduced by improving the Transformer structure, and the positional relationship between objects is explicitly integrated into the appearance information of the objects. In order to assist in the completion of specific information-oriented extraction and summary generation tasks, a data production method for relative position relations is further proposed, and the image abstract data set Re-Position of the position relations between objects is produced based on the SpatialSense data set. The experimental results of comparative evaluation with five typical models show that the five indicators of the proposed model are better than those of other models on the public test set COCO, and all six indicators are better than those of other models on Re-Position data set.
image caption; positional relationship between objects; attention mechanism; Transformer structure
10.13209/j.0479-8023.2020.080
2020?06?09;
2020?08?14