• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法

      2023-05-24 03:18:32隋佳宏毛鶯池于慧敏王子成
      計(jì)算機(jī)應(yīng)用 2023年5期
      關(guān)鍵詞:全局注意力網(wǎng)格

      隋佳宏,毛鶯池,2*,于慧敏,王子成,平 萍,2

      (1.河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 210098;2.水利部水利大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室(河海大學(xué)),南京 210098;3.中國電建集團(tuán)昆明勘測設(shè)計(jì)研究院有限公司,昆明 650051)

      0 引言

      圖像描述生成是一項(xiàng)涉及計(jì)算機(jī)視覺和自然語言處理的跨領(lǐng)域研究任務(wù),目標(biāo)是為輸入圖像自動(dòng)生成自然語言描述,主要包括視覺理解和描述生成兩部分。在深度學(xué)習(xí)廣泛應(yīng)用之后,圖像描述生成的視覺特征表示經(jīng)歷了兩個(gè)主要階段:在第一階段,提出了一系列卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[1-4],從中提取固定大小的網(wǎng)格特征表示視覺信息,如圖1(a)所示,這些網(wǎng)格特征在圖像分類等視覺任務(wù)和圖像描述生成等多模態(tài)任務(wù)中取得了優(yōu)異的性能;在第二階段,基于Faster R-CNN(Faster Region-Convolutional Neural Network)[5]提取的區(qū)域級特征顯著提高了圖像描述生成的性能,如圖1(b)所示,此后區(qū)域特征被廣泛研究[6-10],并成為大多數(shù)視覺-語言任務(wù)的標(biāo)準(zhǔn)方法。然而,區(qū)域提取非常耗時(shí),目前大多數(shù)使用區(qū)域特征的方法都直接在緩存的視覺特征上進(jìn)行訓(xùn)練和評估。此外,區(qū)域特征的固有缺點(diǎn)是忽視圖像中非目標(biāo)的區(qū)域(如背景信息)以及大目標(biāo)的小細(xì)節(jié)。

      圖1 網(wǎng)格特征與區(qū)域特征Fig.1 Grid features and region features

      然而,與目標(biāo)檢測器提取的區(qū)域特征相比,單個(gè)網(wǎng)格不能完全表示一個(gè)對象,它的語義層級較低,一旦忽略了圖像的全局信息,就丟失了潛在的場景級語義上下文。例如,圖2(a)的正確分類應(yīng)是圖2(b),而在僅存局部信息的情況下,圖2(c)中將大部分圖像誤分類為鳥;在特征中添加整個(gè)圖像的上下文信息(可能包含貓的強(qiáng)信號)后結(jié)果如圖2(d)所示,可以捕捉全局背景,糾正錯(cuò)誤,有效提高任務(wù)準(zhǔn)確度。

      圖2 圖像分類結(jié)果比較Fig.2 Comparison of image classification results

      現(xiàn)有的研究焦點(diǎn)是通過注意力機(jī)制(Attention)建模視覺和語言特征之間的相互作用,以獲得更加豐富可靠的圖像描述。雖然將Attention 引入基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的解碼器可以使LSTM 在描述生成過程中關(guān)注最相關(guān)的圖像特征,但是沒有充分利用圖像特征之間的交互關(guān)系。圖注意力網(wǎng)絡(luò)(Graph ATtention network,GAT)常用于處理圖結(jié)構(gòu)數(shù)據(jù),可以根據(jù)相鄰節(jié)點(diǎn)的特征為圖中的每個(gè)節(jié)點(diǎn)分配不同的權(quán)值,更新節(jié)點(diǎn)的表示,但僅處理局部網(wǎng)絡(luò)。

      本文利用網(wǎng)格特征作為圖像描述生成方法的主要視覺表示,針對網(wǎng)格特征丟失空間和語義上下文信息,提出一種基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法,在提取圖像特征時(shí)添加了全局上下文,將視覺特征提取轉(zhuǎn)化為節(jié)點(diǎn)分類任務(wù),以提高描述準(zhǔn)確度。首先,為了充分利用網(wǎng)格之間的特征關(guān)系,構(gòu)建網(wǎng)格特征交互圖;其次,為了利用圖像的全局特征,構(gòu)建圖注意力網(wǎng)絡(luò)結(jié)合全局信息和局部信息;最后,將優(yōu)

      化后的視覺特征輸入語言模型,用于圖像描述生成。本文的主要工作包括:

      1)構(gòu)建網(wǎng)格特征交互圖。在特征提取過程中對網(wǎng)格視覺特征進(jìn)行融合編碼,將特征提取任務(wù)作為圖節(jié)點(diǎn)分類任務(wù)實(shí)現(xiàn),能在不增加計(jì)算開銷的同時(shí)提高性能。

      2)利用圖注意力網(wǎng)絡(luò)更新網(wǎng)格特征交互圖的節(jié)點(diǎn)信息,使模型可以捕捉整幅圖像的全局視覺信息,并捕獲網(wǎng)格特征的潛在交互,加深模型對圖像內(nèi)容的理解,從而生成優(yōu)化的描述語句。

      3)為探究本文方法的優(yōu)勢以及各模塊的貢獻(xiàn),在Microsoft COCO 圖像描述數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)與評估,通過詳細(xì)的結(jié)果分析說明了本文方法的有效性。

      1 相關(guān)工作

      在視覺表示方面,基于區(qū)域的視覺特征[6]已成為圖像描述生成、視覺問答等視覺-語言任務(wù)的主要方法。最近,Jiang 等[11]重新考察了視覺特征,發(fā)現(xiàn)區(qū)域特征效果更好的原因是使用了Visual Genome 數(shù)據(jù)集[12],大規(guī)模的對象和屬性標(biāo)注給圖片提供了更好的先驗(yàn)知識(shí),并證明了通過改造區(qū)域特征檢測器[5]提取出來的網(wǎng)格特征,在后續(xù)任務(wù)中的推理速度和圖像描述生成的準(zhǔn)確度堪比甚至超過區(qū)域特征,而且避免了區(qū)域特征的固有缺點(diǎn)。為了更好地使用網(wǎng)格特征作為圖像描述生成方法的主要視覺表示,Zhang 等[13]提出了網(wǎng)格增強(qiáng)(Grid-Augmented,GA)模塊,該模塊將相對位置之間的空間幾何關(guān)系合并到網(wǎng)格中,解決將網(wǎng)格特征展平輸入Transformer 模型時(shí)造成的空間信息丟失問題,以便更全面地使用網(wǎng)格特征。然而空間關(guān)系特征對圖像或目標(biāo)的旋轉(zhuǎn)、反轉(zhuǎn)、尺度變化等比較敏感,實(shí)際應(yīng)用中,僅僅利用空間信息往往不夠,不能準(zhǔn)確有效地表達(dá)場景信息,還需要其他特征配合。Luo 等[14]進(jìn)一步提出同時(shí)使用圖像子區(qū)域和網(wǎng)格[11]兩種視覺特征生成描述文本,旨在利用兩種特征之間的互補(bǔ)性,并提出了局部約束注意力機(jī)制解決兩種特征源之間的語義噪聲問題;然而,兩種特征互補(bǔ)的效果不如只使用區(qū)域特征的方法,也減弱了網(wǎng)格特征耗時(shí)短的優(yōu)勢。

      為了進(jìn)一步增強(qiáng)圖像特征表示,一些研究通過在圖像區(qū)域上構(gòu)建圖,將豐富的語義信息和空間信息連接到區(qū)域特征。Yao 等[15]首次嘗試構(gòu)建空間和語義圖,隨后Guo 等[16]提出利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[17]整合對象之間的語義和空間關(guān)系,語義關(guān)系圖通過在Visual Genome 上預(yù)訓(xùn)練分類器來預(yù)測對象對之間的動(dòng)作或交互,空間關(guān)系圖通過對象對的邊界框之間的幾何度量來推斷(如交并比、相對距離和角度),然而這些方法針對區(qū)域特征,并不適用于附加全局信息的網(wǎng)格特征。Yao 等[18]使用樹來表示圖像的層次結(jié)構(gòu),根節(jié)點(diǎn)表示圖像整體,中間節(jié)點(diǎn)表示圖像區(qū)域及其包含的子區(qū)域,葉節(jié)點(diǎn)表示區(qū)域中被分割的對象,然后將樹送入TreeLSTM[19]中得到圖像特征編碼,但該方法沒有考慮到子區(qū)域之間的交互關(guān)系。以上方法均無法充分利用網(wǎng)格特征的細(xì)節(jié)信息,同時(shí)忽略網(wǎng)格之間的交互以及全局特征會(huì)導(dǎo)致生成的描述受到錯(cuò)誤的影響。對于交互特征的獲取,現(xiàn)有方法直接將網(wǎng)格特征序列輸入Transformer 的編碼器,利用帶殘差連接的多頭自注意力機(jī)制(multi-head attention mechanism)自動(dòng)進(jìn)行特征交互,通過自注意力的方式計(jì)算每個(gè)特征與其他特征的相似度,加權(quán)求和得到高階的交互特征。本文采用構(gòu)建網(wǎng)格特征交互圖的方式,將特征作為圖的節(jié)點(diǎn),使用注意力網(wǎng)絡(luò)聚合鄰居節(jié)點(diǎn)的信息,以此將特征之間的復(fù)雜交互轉(zhuǎn)化為特征圖的節(jié)點(diǎn)之間的交互。對于一幅網(wǎng)格數(shù)為N×N的圖像,Transformer 編碼器的交互次數(shù)為N×N,網(wǎng)格特征交互圖的交互次數(shù)為4 ×N,在實(shí)際操作中N=7,基于圖的特征交互并沒有增加計(jì)算開銷,但是在性能方面有了顯著提高。

      綜合以上分析討論,網(wǎng)格特征作為圖像描述生成的視覺表示具有一定的優(yōu)勢,引入全局特征指導(dǎo)優(yōu)化更新網(wǎng)格特征可提高視覺表示的準(zhǔn)確性。但傳統(tǒng)的注意力機(jī)制不能滿足網(wǎng)格特征復(fù)雜的交互關(guān)系,同時(shí)在整合全局圖像信息方面也存在一些問題,因此,本文提出基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法借助全局圖像特征增強(qiáng)視覺表示能力,利用圖注意力網(wǎng)絡(luò)將相鄰的網(wǎng)格特征和全局特征相結(jié)合進(jìn)行信息提取,以有效地捕獲全局上下文信息和局部信息,然后解碼相應(yīng)描述。

      2 本文方法的總體框架

      圖像描述生成的目標(biāo)是能夠識(shí)別并給出描述圖像內(nèi)容的自然語言語句。目前,提取圖像的網(wǎng)格特征存在未充分利用空間關(guān)系特征和全局特征的情況,致使利用提取的圖像特征生成的句子和人類描述存在明顯差距,因此,增強(qiáng)網(wǎng)格特征的空間信息和語義信息對提高生成描述的質(zhì)量具有重要的研究意義。本文提出了一種基于圖注意力網(wǎng)絡(luò)的全局上下文感知圖像描述生成方法,由特征提取和特征交互兩部分組成,用于增強(qiáng)網(wǎng)格特征。特征提取通過圖中的全局節(jié)點(diǎn)機(jī)制充分利用全局上下文關(guān)系,整合圖像中各個(gè)網(wǎng)格的局部視覺特征,以此優(yōu)化生成的單詞表示;特征交互依據(jù)網(wǎng)格特征交互圖和圖注意力網(wǎng)絡(luò),進(jìn)一步建模圖中鄰域的空間上下文信息及其關(guān)系,更新節(jié)點(diǎn)特征,提高節(jié)點(diǎn)分類的準(zhǔn)確性。

      圖3 展示了本文方法的總體框架。在視覺編碼階段,首先,特征提取模塊利用多層CNN 分別提取給定圖像的全局特征和網(wǎng)格特征;之后,構(gòu)建網(wǎng)格特征交互圖,將全局和局部視覺特征作為節(jié)點(diǎn)輸入,圖中的邊表示視覺特征之間的交互,所有局部節(jié)點(diǎn)均與全局節(jié)點(diǎn)相連接;最后,利用圖注意力網(wǎng)絡(luò)更新優(yōu)化網(wǎng)格特征交互圖中的節(jié)點(diǎn)信息,得到新的全局圖像特征和網(wǎng)格特征。描述生成階段,基于Transformer 的解碼模塊利用更新后的視覺特征序列生成圖像描述。本文方法側(cè)重于增強(qiáng)網(wǎng)格特征來優(yōu)化視覺表示,進(jìn)而提高生成描述的質(zhì)量。

      圖3 方法總體框架Fig.3 Overall framework of method

      3 圖像描述生成框架描述

      3.1 視覺網(wǎng)格特征編碼

      相對于整張圖像來說,圖像的網(wǎng)格特征包含更細(xì)粒度的各類目標(biāo),對細(xì)粒度目標(biāo)相關(guān)的圖像內(nèi)容進(jìn)行編碼無疑會(huì)優(yōu)化圖像編碼,得到更具體、更精準(zhǔn)的圖像特征表示。然而網(wǎng)格特征的局部感受野較小,卷積神經(jīng)網(wǎng)絡(luò)只能學(xué)習(xí)到目標(biāo)的局部特征,缺乏空間和全局信息?;诖耍疚脑谌诤细骶W(wǎng)格特征的基礎(chǔ)上加入特征圖的全局信息,提出一種具有全局特征的圖像編碼模塊,該模塊負(fù)責(zé)提取圖像的全局特征和局部特征,如圖3 中虛線框所示。

      本文以與文獻(xiàn)[11]中相同的方式提取圖像的原始網(wǎng)格特征。具體來說,利用在Visual Genome 數(shù)據(jù)集上預(yù)訓(xùn)練的Faster R-CNN 模型[5],它使用步長(Stride)為1 的普通卷積層C5和帶有兩個(gè)全連接(Fully Connected,F(xiàn)C)層的1×1 興趣區(qū)域池化(Region of Interest Pool,RoIPool)作為檢測頭,其中C5層的輸出保留為描述生成模型的視覺網(wǎng)格特征。因此,本文方法給定一組固定大小的圖像網(wǎng)格Grids=(p1,p2,…,pn)和整幅圖像p0=full_image,提取的圖像嵌入如式(1)所示:

      其中:IE0:n=[IE0,IE1,…,IEn]∈Rn×dmodel表示輸出的圖像嵌入,dmodel表示模型的尺寸,IEi表示CNN 模型的第i個(gè)輸出,n表示網(wǎng)格的個(gè)數(shù);p0:n表示輸入的圖像部分,p0表示圖像的全局信息,pi∈RH×W×3表示圖像的第i個(gè)網(wǎng)格,H表示網(wǎng)格的高度,W表示網(wǎng)格寬度;ΘCNN表示CNN 模型的參數(shù)。每個(gè)圖像和網(wǎng)格都是獨(dú)立編碼的,可以使用多個(gè)CNN 同步得到全局圖像嵌入和局部圖像嵌入,不需要額外的訓(xùn)練、推理時(shí)間,提高了計(jì)算效率,如式(2)、(3)所示:

      3.2 網(wǎng)格特征交互圖建立

      在3.1 節(jié)得到的圖像嵌入基礎(chǔ)上增加全局圖像特征,然后引入網(wǎng)格特征之間的依賴關(guān)系和全局圖像特征,借助全局節(jié)點(diǎn)機(jī)制建立網(wǎng)格特征交互圖,構(gòu)建過程如圖4 所示。

      圖4 網(wǎng)格特征交互圖構(gòu)建(與鄰近4個(gè)網(wǎng)格進(jìn)行交互)Fig.4 Construction of grid feature interaction graph(interact with 4 neighboring grids)

      整個(gè)圖像被轉(zhuǎn)換成無向圖G=(V,E),其中:V是節(jié)點(diǎn)集合,代表所有網(wǎng)格特征(圓形表示,深色圓形表示正在進(jìn)行交互)和一個(gè)全局特征(四角星形表示);E是邊集合,代表兩個(gè)視覺特征之間的交互;鄰接矩陣A∈RN×N是一個(gè)N×N的二元矩陣,表示圖中節(jié)點(diǎn)和邊的信息。給定圖像的全局和網(wǎng)格特征,首先,根據(jù)網(wǎng)格的相對中心坐標(biāo)為兩個(gè)相鄰的網(wǎng)格i和j建立連接,即將矩陣A中(i,j)的值賦為1,表示直接交互。此外,提出全局節(jié)點(diǎn)機(jī)制,用于捕獲遠(yuǎn)程依賴關(guān)系和全局特征。

      全局節(jié)點(diǎn)用作虛擬中心,與圖中的所有節(jié)點(diǎn)連接,從局部節(jié)點(diǎn)中收集并分發(fā)通用信息。因此,每兩個(gè)非相鄰的局部節(jié)點(diǎn)間存在兩跳路徑的間接交互,與全局節(jié)點(diǎn)提供的通用信息相結(jié)合,可提供更豐富的交互特征。

      3.3 基于網(wǎng)格特征交互圖的圖注意力網(wǎng)絡(luò)

      本文采用網(wǎng)格特征來生成圖像描述,和區(qū)域特征相比,網(wǎng)格之間的依賴關(guān)系更加復(fù)雜緊密。圖注意力網(wǎng)絡(luò)已成功應(yīng)用于圖像描述生成任務(wù)中,Zheng 等[20]結(jié)合圖網(wǎng)絡(luò)和圖像描述生成的自注意力機(jī)制計(jì)算區(qū)域級圖像特征的權(quán)重,此外,還使用了多頭注意力機(jī)制,保證注意力機(jī)制的穩(wěn)定性,在一定程度上可以減少噪聲,獲得更好的效果。但是針對網(wǎng)格特征,圖注意力網(wǎng)絡(luò)對所有網(wǎng)格計(jì)算自注意力非常耗時(shí),而且由于網(wǎng)格特征的語義層級較低,需要全局特征指導(dǎo)。

      根據(jù)上述問題,結(jié)合網(wǎng)格特征交互圖和圖注意力網(wǎng)絡(luò),本文提出了基于網(wǎng)格特征交互圖的圖注意力網(wǎng)絡(luò)(Grid-Graph ATtention network,G-GAT),如圖5 所示,G-GAT 中圖的節(jié)點(diǎn)與圖像的網(wǎng)格相對應(yīng),節(jié)點(diǎn)的特征為局部圖像嵌入,圖的邊對應(yīng)網(wǎng)格特征交互圖的邊,并且利用多頭自注意力機(jī)制對網(wǎng)格特征交互圖中相鄰節(jié)點(diǎn)的視覺信息進(jìn)行融合更新,全局節(jié)點(diǎn)和局部節(jié)點(diǎn)采用相同的方式,從而得到具有全局上下文感知的網(wǎng)格特征表示,進(jìn)一步增強(qiáng)視覺特征提取效果。

      每個(gè)G-GAT 的輸入是網(wǎng)格的特征表示h=(h1,h2,…,hn)(hi∈RF)及鄰接矩陣A,其中:n表示網(wǎng)格個(gè)數(shù),F(xiàn)為隱藏層輸出的特征維度。然后應(yīng)用圖注意力網(wǎng)絡(luò)進(jìn)行視覺信息融合,將網(wǎng)格i和j的特征向量相連接,通過帶泄露修正線性單元(LeakyReLU)的非線性層得到eij,對每個(gè)網(wǎng)格進(jìn)行自注意力計(jì)算,如式(4)所示:

      其中:eij表示網(wǎng)格j的特征對于網(wǎng)格i的重要程度;V和W均為可學(xué)習(xí)的參數(shù)矩陣;⊕表示連接。然后使用Softmax 函數(shù)對網(wǎng)格i的所有鄰域網(wǎng)格特征進(jìn)行歸一化操作,得到注意力系數(shù)αij,使系數(shù)在不同節(jié)點(diǎn)之間易于比較,如式(5)所示:

      其中:Ni表示網(wǎng)格i在網(wǎng)格特征交互圖中所有的一階鄰域節(jié)點(diǎn)集合(包括i本身)。之后將網(wǎng)格i的所有相鄰網(wǎng)格j的特征與對應(yīng)的權(quán)重系數(shù)αij進(jìn)行加權(quán)求和,通過非線性層σ得到每個(gè)對象節(jié)點(diǎn)的最終輸出特征,如式(6)所示:

      為了提高方法的性能,將上述方法擴(kuò)展到多頭自注意力機(jī)制[21]。

      3.4 解碼與損失函數(shù)

      本文與已有圖像描述生成方法[13-14]采用相同的訓(xùn)練方式,基準(zhǔn)解碼模塊和優(yōu)化解碼模塊的訓(xùn)練都分為兩個(gè)階段:-XE*階段和-RL*階段。其中:-XE*優(yōu)化基于負(fù)對數(shù)似然估計(jì)的損失函數(shù),等價(jià)于交叉熵?fù)p失函數(shù)XE(Cross Entropy);-RL*階段基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的優(yōu)化策略,將CIDEr(Consensus-based Image Description Evaluation)得分作為獎(jiǎng)勵(lì)函數(shù)。

      其中:pθ表示解碼模塊的預(yù)測概率。

      實(shí)際訓(xùn)練中,以批(Batch)為單位進(jìn)行模型的權(quán)重更新,如式(8)所示:

      其中:N是批的規(guī)模。

      在-RL*階段,基于負(fù)對數(shù)似然估計(jì)損失函數(shù)的訓(xùn)練之后,現(xiàn)有方法采用自批判序列訓(xùn)練(Self-critical Sequence Training,SCST)策略[22],以CIDEr 評分作為獎(jiǎng)勵(lì)對模型進(jìn)行繼續(xù)優(yōu)化,如式(9)所示:

      其中:r(·)為基于CIDEr 評分定義的原始獎(jiǎng)勵(lì)。本階段的優(yōu)化目標(biāo)是最小化負(fù)期望獎(jiǎng)勵(lì),使用文獻(xiàn)[23]中的梯度表達(dá)式,即使用獎(jiǎng)勵(lì)的平均值而不是貪婪采樣得到的獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)的梯度更新如式(10)~(11)所示:

      其中:k為采樣序列的個(gè)數(shù)為解碼模塊在推理算法下隨機(jī)采樣所得到的描述;b為采樣序列獲得的獎(jiǎng)勵(lì)的均值。

      4 實(shí)驗(yàn)驗(yàn)證

      4.1 實(shí)驗(yàn)準(zhǔn)備

      4.1.1 數(shù)據(jù)集和評價(jià)指標(biāo)

      Microsoft COCO 圖像描述數(shù)據(jù)集(以下簡稱MSCOCO)[24]是當(dāng)前最大的圖像描述生成數(shù)據(jù)集,包含123 287 張圖像,每張圖像至少包含5 句英文標(biāo)注。在實(shí)驗(yàn)中,采取通用的數(shù)據(jù)集劃分方法[25],將訓(xùn)練集與驗(yàn)證集合并,由驗(yàn)證集中取出10 000 張圖像,其中5 000 張用于模型驗(yàn)證,5 000 張用于模型測試,所有剩余113 287 張圖像用于模型訓(xùn)練。數(shù)據(jù)預(yù)處理階段,將所有描述文本中的詞轉(zhuǎn)換成小寫形式,并用特殊字符“UNK”標(biāo)記替換出現(xiàn)次數(shù)少于等于5 的詞。

      本文采用公開的COCO 評測工具包1 來計(jì)算指標(biāo)評分,所涉及的評價(jià)指標(biāo)為現(xiàn)有方法統(tǒng)一使用的指標(biāo)組合,包括:BLEU(BiLingual Evaluation Understudy)[26]、METEOR(Metric for Evaluation of Translation with Explicit ORdering)[27]、CIDEr[28]、ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence)[29]和 SPICE(Semantic Propositional Image Caption Evaluation)[30]。

      4.1.2 實(shí)驗(yàn)設(shè)置

      本文方法采用與文獻(xiàn)[11]中相同的特征提取方法,即改造預(yù)訓(xùn)練Faster R-CNN 模型的檢測頭來提取圖像網(wǎng)格特征,網(wǎng)格尺度為7×7,每個(gè)圖像特征維度為2 048。本文實(shí)驗(yàn)遵循Transformer 模型[23]的超參數(shù)設(shè)置,模型維度dmodel=512,多頭注意力機(jī)制頭的個(gè)數(shù)K=8。實(shí)驗(yàn)使用Dropout 算法防止模型過擬合,丟失率設(shè)置為0.1。實(shí)驗(yàn)基于PyTorch 框架并用Adam 梯度優(yōu)化算法[31]進(jìn)行梯度更新。模型訓(xùn)練分為兩個(gè)階段:在-XE*訓(xùn)練階段,以初始學(xué)習(xí)率1 × 10-4訓(xùn)練18 輪,其中每3 個(gè)周期衰減一次,衰減率為0.8,優(yōu)化對數(shù)似然估計(jì)損失函數(shù),批規(guī)模設(shè)置為50;在基于強(qiáng)化學(xué)習(xí)策略的訓(xùn)練階段-RL*,以固定學(xué)習(xí)率5 × 10-6訓(xùn)練25 輪,批規(guī)模設(shè)置為100。推理階段,設(shè)置集束大小為5。注意,消融實(shí)驗(yàn)中的所有實(shí)驗(yàn)采用相同的超參數(shù)設(shè)置。

      4.2 實(shí)驗(yàn)結(jié)果與分析

      4.2.1 性能對比分析

      為驗(yàn)證本文方法的有效性,與下列方法進(jìn)行比較,其中:SCST[22]、Up-Down[6]和RFNet(Recurrent Fusion Network)[32]為基于注意力機(jī)制的方法;GCN-LSTM[15]和SGAE(Scene Graph Auto-Encoder)[33]在圖像描述任務(wù)中引入場景圖信息實(shí)現(xiàn)圖像的豐富語義表示;ORT(Object Relation Transformer)[7]對區(qū)域特征之間的空間關(guān)系進(jìn)行建模;AoA(Attention on Attention)[8]對自注意力模塊進(jìn)行擴(kuò)展來設(shè)計(jì)描述生成模型;M2(Meshed-Memory transformer)[23]構(gòu)造用于解碼的網(wǎng)狀連接網(wǎng)絡(luò)結(jié)構(gòu);X-Transformer[34]在Transformer 的注意力模塊中引入雙線性池;GET(Global Enhanced Transformer)[9]采用上下文選通機(jī)制來調(diào)節(jié)全局圖像表示對每個(gè)生成單詞的影響;CPTR(CaPtion TransformeR)[35]為圖像描述生成設(shè)計(jì)了第一個(gè)無卷積架構(gòu)。

      表1 展示了本文方法與對比方法在MSCOCO 分割數(shù)據(jù)集上的結(jié)果,其中:最佳指標(biāo)以加粗標(biāo)注;“—”表示未報(bào)告指標(biāo);B1 和B4 是BLEU-1 和BLEU-4 的簡稱。

      表1 不同方法在MSCOCO分割數(shù)據(jù)集上的性能指標(biāo)比較 單位:%Tab.1 Comparison of performance indicators of different methods on MSCOCO dataset unit:%

      從表1 可知,相較于對比方法,本文方法在METEOR 和CIDEr 指標(biāo)上均得到最佳評分,表現(xiàn)出性能優(yōu)勢,尤其在CIDEr 上達(dá)到了133.1%,優(yōu)于次優(yōu)的X-Transformer,提升了0.3 個(gè)百分點(diǎn)。CIDEr 指標(biāo)是專門實(shí)際用于圖像描述生成任務(wù)的語義一致性評測標(biāo)準(zhǔn),評分越高說明生成的描述與標(biāo)注文本相比語義一致性更高、生成的描述詞更具特異性,本文方法在CIDEr 指標(biāo)上表現(xiàn)突出,表明所提出方法可有效利用全局上下文信息提升描述文本的生成質(zhì)量。在句子流暢性方面,BLEU 與ROUGR 分別僅考慮了準(zhǔn)確率和召回率,而METEOR 同時(shí)關(guān)注一元組(Unigram)準(zhǔn)確率和召回率,相對于BLEU 與ROUGR 評分來說有一定的優(yōu)勢。本文方法在METEOR 指標(biāo)上取得最優(yōu)表現(xiàn),表示生成的描述在語義上是最匹配真實(shí)文本的。SPICE 是基于場景圖而設(shè)計(jì)的用于圖像描述生成任務(wù)評測的指標(biāo),雖然本文并未使用場景圖,但在此指標(biāo)上仍超過其他方法,僅低于X-Transformer。

      綜合以上分析,本文在METEOR 和CIDEr 指標(biāo)上均有顯著提升的原因主要是:在網(wǎng)格特征交互圖中不僅結(jié)合全局特征捕獲上下文重要信息,還通過圖注意力網(wǎng)絡(luò)聚合節(jié)點(diǎn)信息,捕獲網(wǎng)格之間的依賴關(guān)系和潛在交互,能增強(qiáng)視覺特征,提高生成描述的準(zhǔn)確性。

      4.2.2 消融實(shí)驗(yàn)

      為了驗(yàn)證全局節(jié)點(diǎn)的使用、網(wǎng)格特征交互的方式以及使用區(qū)域特征對模型表現(xiàn)的影響程度,設(shè)置如下3 組對照實(shí)驗(yàn),以相同的實(shí)驗(yàn)設(shè)置對模型進(jìn)行訓(xùn)練,并與原模型進(jìn)行性能比較。

      1)全局節(jié)點(diǎn):在本文模型的基礎(chǔ)上排除全局節(jié)點(diǎn)的使用。

      2)交互方式:構(gòu)建網(wǎng)格特征交互圖時(shí),采用鄰域交互方式,如圖6 所示。

      圖6 鄰域交互方式(與8個(gè)網(wǎng)格交互)Fig.6 Neighborhood interaction mode(interact with 8 grids)

      3)區(qū)域特征:用Faster R-CNN 提取的區(qū)域特征表示節(jié)點(diǎn),驗(yàn)證圖注意力網(wǎng)絡(luò)對區(qū)域特征的有效性。

      消融實(shí)驗(yàn)結(jié)果如表2 所示,本文模型相較于對比模型性能達(dá)到了最佳,說明本文方法是有效的。具體來說,全局節(jié)點(diǎn)的影響最大,去掉全局節(jié)點(diǎn)后,模型的性能會(huì)下降,尤其是CIDEr 下降了3.9 個(gè)百分點(diǎn),這表明全局節(jié)點(diǎn)在圖注意力網(wǎng)絡(luò)中有優(yōu)化作用,可以增強(qiáng)網(wǎng)格的特征表示,從而促進(jìn)高質(zhì)量描述的生成。交互方式從相鄰節(jié)點(diǎn)替換成鄰域后,在CIDEr 和SPICE 上分別下降了2.6 和0.7 個(gè)百分點(diǎn),說明上下文信息會(huì)提高識(shí)別精度,但是過多的上下文可能會(huì)增加噪聲和問題維度,從而使學(xué)習(xí)變得更慢,性能更差。將網(wǎng)格特征替換成區(qū)域特征后,全局節(jié)點(diǎn)的提升作用有限,可能是因?yàn)樘崛〉娜痔卣髻|(zhì)量低于區(qū)域特征的質(zhì)量,經(jīng)過注意力機(jī)制后,區(qū)域特征受損,致使特征提取效果不明顯。

      表2 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Ablation experimental results unit:%

      4.2.3 可視化結(jié)果及分析

      為了進(jìn)一步評估與分析本文方法的描述生成效果,圖7中4 個(gè)樣例的描述結(jié)果對比如表3 所示。其中:帶下劃線標(biāo)注基準(zhǔn)Transformer 方法(Base)中的描述細(xì)節(jié);加粗斜體標(biāo)注本文方法相較于基準(zhǔn)Transformer 描述有所改進(jìn)的部分。每個(gè)樣例均展示對應(yīng)的人工標(biāo)注文本(Ground Truth,GT)。

      圖7 典型樣例圖Fig.7 Typical samples

      表3 圖7樣例圖的描述結(jié)果Tab.3 Image captioning results of Fig.7

      由圖7 與表3 可以看到,在隨機(jī)挑選的樣例中,基準(zhǔn)Transformer 無法基于檢測到的區(qū)域特征信息生成高質(zhì)量的描述。例如,在圖7(a)中,Base 準(zhǔn)確識(shí)別了圖中的重要目標(biāo)(穿藍(lán)色衣服的人),卻忽略了地上帶紅色帽子的人;本文方法在Base 預(yù)測結(jié)果的基礎(chǔ)上,正確預(yù)測了“another is throwing the ball”。例如,在圖7(d)中,Base 預(yù)測出“at a zoo”(在動(dòng)物園),由圖像內(nèi)容并不能推斷,因此是錯(cuò)誤的預(yù)測;而本文方法在全局特征的基礎(chǔ)上,并未受其中錯(cuò)誤預(yù)測信息的影響,進(jìn)而預(yù)測到“with a hand”(用手),最終生成更準(zhǔn)確的描述:“A young boy feeding a giraffe with a hand”(一個(gè)年輕男孩用手喂一只長頸鹿)。相對來說,本文方法可以獲取詳細(xì)的全局上下文信息,具有更強(qiáng)的圖像理解和文本表達(dá)能力。

      以上分析說明:1)相較于基準(zhǔn)方法,本文方法得益于全局圖像特征,加深了對圖像的理解,并基于全局語義進(jìn)行合理推測;2)相較于利用區(qū)域特征的基準(zhǔn)Transformer 方法,利用網(wǎng)格特征的方法可以生成更完整、詳細(xì)的圖像描述,在語義表達(dá)上更具優(yōu)勢。

      5 結(jié)語

      本文分析了現(xiàn)有圖像描述生成研究中的特征提取方法,從全局圖像特征的角度出發(fā),提出了基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法,能夠有效捕捉全局上下文信息和局部信息。實(shí)驗(yàn)結(jié)果表明,添加全局圖像上下文信息能夠提高局部網(wǎng)格的特征提取效果。未來計(jì)劃整合文本上下文信息,利用語言特征彌補(bǔ)網(wǎng)格特征在語義表達(dá)能力上的不足,進(jìn)一步增強(qiáng)網(wǎng)格特征的語義信息,提高圖像描述生成性能。

      猜你喜歡
      全局注意力網(wǎng)格
      用全等三角形破解網(wǎng)格題
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      讓注意力“飛”回來
      反射的橢圓隨機(jī)偏微分方程的網(wǎng)格逼近
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      基于曲面展開的自由曲面網(wǎng)格劃分
      鹿邑县| 松阳县| 云阳县| 岐山县| 寿光市| 沙河市| 龙胜| 平凉市| 六安市| 陕西省| 阿拉善右旗| 日土县| 克东县| 得荣县| 张家口市| 洞口县| 洪雅县| 芜湖市| 虞城县| 沅陵县| 宾阳县| 泌阳县| 枞阳县| 惠东县| 许昌县| 灌南县| 古丈县| 绥宁县| 故城县| 乌拉特后旗| 上杭县| 怀远县| 辽宁省| 曲沃县| 元氏县| 碌曲县| 麻江县| 驻马店市| 德令哈市| 成都市| 全椒县|