• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多場(chǎng)景融合的細(xì)粒度圖像描述生成算法

      2021-09-15 02:36:12李欣曄張承強(qiáng)周雄圖郭太良張永愛
      關(guān)鍵詞:注意力語(yǔ)義物體

      李欣曄,張承強(qiáng),周雄圖,郭太良,張永愛

      (福州大學(xué)物理與信息工程學(xué)院, 福建 福州 350108)

      0 引 言

      圖像描述是對(duì)圖像的語(yǔ)義層面進(jìn)行分析和理解,生成接近于人類語(yǔ)言的描述,近年來(lái)成為計(jì)算機(jī)視覺(jué)領(lǐng)域備受關(guān)注的領(lǐng)域之一。在圖像描述生成領(lǐng)域中,早期模型主要基于模版和檢索的方法,當(dāng)前主流的方法為基于深度學(xué)習(xí)的方法[1-2]?;谀0娴姆椒愃朴谔钤~,將圖片中的視覺(jué)元素映射到語(yǔ)義空間后填入到句子模板中,該方法簡(jiǎn)單易實(shí)現(xiàn)但生成的句式結(jié)構(gòu)固定;基于檢索的方法,類似于查找圖像特征,在數(shù)據(jù)庫(kù)中搜索相似的圖像特征,并從句子庫(kù)中獲取相似圖像的描述,缺點(diǎn)在于難以生成新穎的描述。近年來(lái),隨著基于深度學(xué)習(xí)的物體檢測(cè)模型在檢測(cè)精度和速度上不斷提升,使得圖像描述生成方法有了突破性的進(jìn)展。Vinyals等人[3]提出了一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò)模型(Neural Image Caption, NIC),該模型聯(lián)合了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[4]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM)[5]作為解碼器來(lái)生成句子,并直接將圖像特征作為輸入提供給LSTM,在圖像描述領(lǐng)域取得了巨大的突破。Mao等人[6]提出了一種多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)(M-RNN),首次將圖像描述任務(wù)分割成2個(gè)分支,使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行文本嵌入,并將得到的特征輸入到多模態(tài)層中預(yù)測(cè)句子。Xu等人[7]進(jìn)一步介紹了一種基于注意力的模型,使模型在生成相應(yīng)單詞時(shí)重點(diǎn)關(guān)注對(duì)應(yīng)的區(qū)域。

      目前,主流的基于深度學(xué)習(xí)的圖像描述生成算法,相較于早期的方法已有了較大的改進(jìn),但仍存在一些局限性。僅僅依靠卷積神經(jīng)網(wǎng)絡(luò)提取出的視覺(jué)信息構(gòu)建圖像特征,無(wú)法有效地表達(dá)圖像在語(yǔ)義層面的信息。雖然注意力機(jī)制可增強(qiáng)模型對(duì)重點(diǎn)區(qū)域信息的提取能力,但不同場(chǎng)景使用統(tǒng)一的注意力機(jī)制,會(huì)導(dǎo)致對(duì)圖像信息的過(guò)度解讀或信息缺失。LSTM逐字預(yù)測(cè)單詞特性,使用于修飾對(duì)象的屬性特征詞先于對(duì)象產(chǎn)生,這將導(dǎo)致生成的屬性與對(duì)象無(wú)關(guān)。

      本文針對(duì)圖像描述生成任務(wù)在不同場(chǎng)景下表現(xiàn)不佳、逐字生成單詞的缺陷,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和Transformer[8]結(jié)構(gòu)的圖像描述生成算法,引入一種全新的多場(chǎng)景注意力機(jī)制。為了有效提取圖像的深層信息,本文采用基于ResNet101[9]的Faster R-CNN[10]網(wǎng)絡(luò)對(duì)數(shù)據(jù)集中的圖像進(jìn)行特征提取。模型設(shè)計(jì)一種基于圖卷積網(wǎng)絡(luò)(Graph Convolution Network, GCN)[11-12]的多場(chǎng)景注意力機(jī)制,用于增強(qiáng)模型在不同場(chǎng)景下對(duì)區(qū)域特征的提取能力。同時(shí),在文本生成部分改進(jìn)了Transformer結(jié)構(gòu),加入了細(xì)粒度可控的區(qū)域編碼,能夠有效解決預(yù)測(cè)的屬性特征詞偏離目標(biāo)對(duì)象的問(wèn)題,使得生成的句子更貼合圖像。

      1 模型架構(gòu)

      圖像描述生成任務(wù)通常遵循ENCODER和DECODER框架[13-14]。在ENCODER端對(duì)圖像進(jìn)行特征提取,獲取圖像的視覺(jué)信息并將其變?yōu)榫幋a向量,本文中ENCODER端采用深度學(xué)習(xí)目標(biāo)檢測(cè)框架Faster R-CNN和GCN;在DECODER端需要對(duì)已編碼的圖像信息進(jìn)行解碼操作,本文采用由自注意力機(jī)制和前饋層組成的Transformer語(yǔ)言模型來(lái)完成。本文算法在ENCODER端引入了多場(chǎng)景注意力機(jī)制,利用命名實(shí)體識(shí)別算法得到的場(chǎng)景信息對(duì)視覺(jué)特征進(jìn)行自主可控的多場(chǎng)景注意力處理,并生成場(chǎng)景先驗(yàn)知識(shí)。融合多場(chǎng)景注意力機(jī)制處理得到的物體、屬性、關(guān)系特征,作為輸入傳遞給DECODER端。在語(yǔ)言解碼模型中,將ENCODER端得到的先驗(yàn)知識(shí)作為持久存儲(chǔ)向量,對(duì)圖像區(qū)域之間的關(guān)系進(jìn)行Transformer多級(jí)編碼,生成更貼合圖像場(chǎng)景的文本描述。本文算法使用Faster R-CNN+Attention+GCN+Transformer的基本框架來(lái)完成,其流程如圖1所示。

      圖1 本文算法流程

      1.1 多場(chǎng)景特征提取

      本文使用預(yù)訓(xùn)練的Faster R-CNN作為物體檢測(cè)器,使用多層感知器(Multi-Layer Perceptron, MLP)用于預(yù)測(cè)物體的屬性,采用MOTIFNET[15]作為物體關(guān)系檢測(cè)器,將得到的視覺(jué)關(guān)系單元作為圖卷積網(wǎng)絡(luò)的輸入,生成物體、關(guān)系、屬性3類節(jié)點(diǎn)。對(duì)Visual Genome(VG)數(shù)據(jù)集[16]的文本標(biāo)注內(nèi)容,使用命名實(shí)體識(shí)別(Named Entity Recognition, NER)[17]對(duì)文本中的名詞進(jìn)行分類和預(yù)測(cè),將數(shù)據(jù)集中的名詞分為7個(gè)類別,分別是人物、動(dòng)物、植物、風(fēng)景、建筑、交通工具以及其他,除“其他”類外,將其余6類名詞設(shè)定為場(chǎng)景名詞。經(jīng)過(guò)多次實(shí)驗(yàn),設(shè)定當(dāng)輸入圖片I的標(biāo)注文本A經(jīng)過(guò)命名實(shí)體識(shí)別后得到的場(chǎng)景名詞占所有名詞比例大于75%時(shí),認(rèn)為圖片I為空間場(chǎng)景圖,否則為語(yǔ)義場(chǎng)景圖。為了提高模型對(duì)圖像場(chǎng)景識(shí)別的準(zhǔn)確度,在場(chǎng)景字典中插入場(chǎng)景標(biāo)志位,空間場(chǎng)景圖的標(biāo)志位為0,語(yǔ)義場(chǎng)景圖的標(biāo)志位為1,并生成包含圖片id和場(chǎng)景標(biāo)志位的字典,將其編碼后插入到多場(chǎng)景注意力機(jī)制中,對(duì)圖像物體、關(guān)系、屬性節(jié)點(diǎn)進(jìn)行多場(chǎng)景注意力處理,得到的視覺(jué)特征和場(chǎng)景先驗(yàn)知識(shí)作為Transformer語(yǔ)言模型的輸入,進(jìn)行文本解碼。視覺(jué)關(guān)系檢測(cè)模型結(jié)構(gòu)如圖2所示。

      圖2 關(guān)系檢測(cè)模型

      對(duì)具有標(biāo)志位0的空間場(chǎng)景圖,采用多場(chǎng)景注意力機(jī)制中的hard-attention機(jī)制[7],重點(diǎn)關(guān)注局部區(qū)域的物體,設(shè)定一個(gè)t時(shí)刻的位置變量st,表示在t時(shí)刻模型聚焦于某一個(gè)圖像區(qū)域,為one-hot編碼,權(quán)重αt,i為t時(shí)刻圖像區(qū)域ai被選中概率,并且每次只選取一個(gè)感興趣區(qū)域。為此,引入變量st,i,每個(gè)時(shí)刻t的序列為[st,1,…,st,i],當(dāng)區(qū)域i被選中時(shí)概率值取1,否則取0,如公式(1)所示。st為生成第t個(gè)單詞時(shí)注意力機(jī)制需要關(guān)注的位置信息,滿足參數(shù)為αi的多元貝努利分布,如公式(2)所示。構(gòu)建基于空間內(nèi)的物體節(jié)點(diǎn),在物體間添加一個(gè)關(guān)系節(jié)點(diǎn)和多個(gè)屬性節(jié)點(diǎn),建立空間物體節(jié)點(diǎn)指向?qū)?yīng)屬性節(jié)點(diǎn)的邊和指向物體間關(guān)系節(jié)點(diǎn)的邊,如圖3(a)所示。

      (1)

      p(st,i=1│sj

      (2)

      對(duì)具有標(biāo)志位1的語(yǔ)義場(chǎng)景圖,采用多場(chǎng)景注意力機(jī)制中的soft-attention,不同于hard-attention機(jī)制僅關(guān)注一個(gè)感興趣區(qū)域,soft-attention會(huì)關(guān)注視覺(jué)關(guān)系單元中的全局信息,針對(duì)不同的位置計(jì)算不同的權(quán)重,此時(shí)αt,i表示圖像區(qū)域ai在t時(shí)刻所有被選中的區(qū)域里的占比,通過(guò)對(duì)區(qū)域ai與對(duì)應(yīng)的權(quán)重αt,i進(jìn)行加權(quán)可得到最終的注意力結(jié)果,如公式(3)所示。將物體在圖像中的區(qū)域信息添加到圖神經(jīng)網(wǎng)絡(luò)中作為物體節(jié)點(diǎn),增加多個(gè)屬性節(jié)點(diǎn),如圖3(b)所示。

      圖3 不同場(chǎng)景下的節(jié)點(diǎn)圖

      (3)

      圖3中斜紋節(jié)點(diǎn)表示物體間的關(guān)系,黑色節(jié)點(diǎn)表示空間中的物體,白色節(jié)點(diǎn)為物體對(duì)應(yīng)的屬性。

      1.2 Transformer語(yǔ)言模型

      經(jīng)過(guò)上述處理后,輸入數(shù)據(jù)已從圖像轉(zhuǎn)換為特征向量,由于語(yǔ)言模型逐字生成的特點(diǎn),一旦上一時(shí)刻的單詞預(yù)測(cè)不準(zhǔn)確,將影響后續(xù)的預(yù)測(cè)準(zhǔn)確結(jié)果,導(dǎo)致生成的描述偏離圖像信息。為了克服逐字生成方式的缺點(diǎn)和自注意力機(jī)制的局限,本文提出細(xì)粒度可控的Transformer結(jié)構(gòu)。將多場(chǎng)景注意力機(jī)制處理得到的場(chǎng)景信息作為先驗(yàn)知識(shí)p-obj,在生成第一個(gè)單詞時(shí)知道語(yǔ)言模型學(xué)習(xí)圖像的主要場(chǎng)景信息,通過(guò)持久存儲(chǔ)向量對(duì)圖像區(qū)域之間的關(guān)系進(jìn)行多級(jí)編碼,避免出現(xiàn)文本偏離圖像的情況。Transformer結(jié)構(gòu)的encoder部分由多頭注意力機(jī)制和全連接前饋網(wǎng)絡(luò)(Feed Forward)組成[18],結(jié)構(gòu)如圖4所示。

      圖4 插入p-obj 的Transformer encoder結(jié)構(gòu)

      模型中X表示輸入的圖像特征向量,在輸入注意力機(jī)制前,在key和value集合中擴(kuò)展可以插入先驗(yàn)知識(shí)(p-obj)的向量槽,學(xué)習(xí)尚未從輸入向量X處學(xué)到的知識(shí),定義公式為:

      Tp-obj(X)=Attention(Q,K,V)

      (4)

      Q=WqX

      (5)

      K=[WkX,p-objk]

      (6)

      V=[WvX,p-objv]

      (7)

      其中,[ ·,·]表示拼接向量,Wq、Wk、Wv表示注意力機(jī)制使用的投影的線性矩陣,p-objk和p-objv為多場(chǎng)景注意力機(jī)制中生成的先驗(yàn)知識(shí)矩陣。單個(gè)注意力機(jī)制結(jié)構(gòu)將增強(qiáng)記憶的注意力操作重復(fù)6次,然后將得到的單頭注意力結(jié)果串聯(lián)成多頭注意力,線性變換后輸入Add & Normalize層進(jìn)行歸一化處理,定義公式為:

      F(X)i=Uσ(VXi+b)+c

      (8)

      Z=AddNorm(Tp-obj(X))

      (9)

      (10)

      其中,Xi為輸入集的第i個(gè)向量,F(xiàn)(X)i指示輸出集的第i個(gè)向量,σ(·)是ReLU激活函數(shù),V和U是可學(xué)習(xí)的權(quán)重矩陣,b和c是偏差項(xiàng)。

      1.3 損失函數(shù)

      本文使用交叉熵?fù)p失函數(shù)來(lái)訓(xùn)練模型,并使用強(qiáng)化學(xué)習(xí)在序列生成中進(jìn)行識(shí)別。在使用強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí),對(duì)self-critical sequence采用beam search的一種變體:解碼時(shí),在每個(gè)時(shí)刻從解碼器的概率分布中采用前k個(gè)詞,并始終賦予前k個(gè)序列最高的概率值。由于序列的解碼是迭代的,在t時(shí)刻用于計(jì)算輸出結(jié)果的key和value值在下一個(gè)迭代中被重用。將與人類的判斷力接近的CIDEr-D[19]分?jǐn)?shù)用作獎(jiǎng)勵(lì),因此樣本的最終梯度表達(dá)式為:

      (11)

      (12)

      其中,ωi是beam中的第i個(gè)句子,r(·)獎(jiǎng)勵(lì)函數(shù),b為baseline,為得到采樣序列獲得的獎(jiǎng)勵(lì)的平均值。在預(yù)測(cè)時(shí),使用beam search再次進(jìn)行解碼,并在最后一個(gè)beam中保持序列中最高的預(yù)測(cè)概率。

      2 實(shí)驗(yàn)過(guò)程

      2.1 實(shí)驗(yàn)數(shù)據(jù)集以及訓(xùn)練環(huán)境

      本文使用包含豐富物體種類、物體屬性和區(qū)域性描述的VG數(shù)據(jù)集來(lái)訓(xùn)練物體檢測(cè)器、屬性分類器和關(guān)系檢測(cè)器,取每個(gè)物體得分最高的前3種屬性,預(yù)處理后得到305個(gè)對(duì)象、103個(gè)屬性特征和64種物體關(guān)系。為了評(píng)估本文算法在圖像描述生成任務(wù)中的性能,選擇目前常用的MSCOCO(Microsoft Common Object in Context)[13]數(shù)據(jù)集和Flickr30k[20]數(shù)據(jù)集作為實(shí)驗(yàn)的驗(yàn)證集。采用文獻(xiàn)[21]方法對(duì)數(shù)據(jù)集分割,分別選擇5000張和1000張圖片用于評(píng)估模型性能。

      本實(shí)驗(yàn)使用深度學(xué)習(xí)框架Pytorch對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,在Ubuntu 16.04 64 bit系統(tǒng)上完成,硬件配置為: NVIDIA Geforce GTX 1080顯卡(8 GB顯存)。

      2.2 評(píng)價(jià)指標(biāo)

      為了評(píng)估模型生成的圖像描述句子的質(zhì)量,采用基于規(guī)則的自動(dòng)化評(píng)估指標(biāo),主流的指標(biāo)包括BLEU[22]、METEOR[23]、CIDEr、ROUGE[24]等。其中BLEU計(jì)算參考句子和模型生成的描述之間的N-gram相似度,式(13)為BLEU的加權(quán)集合平均:

      (13)

      METEOR是將生成句子與參考句子進(jìn)行廣義單詞組匹配,進(jìn)而計(jì)算得分,與僅基于精度的BLEU指標(biāo)相比,該指標(biāo)還考慮了召回率,并且與人工評(píng)估具有更高的相關(guān)性。CIDEr指標(biāo)基于人類共識(shí),采用n元語(yǔ)法通過(guò)詞頻和倒排句子頻率來(lái)衡量機(jī)器生成句子與參考句子的相似性,相較于其他方法,更符合人類評(píng)價(jià)標(biāo)準(zhǔn)。

      2.3 實(shí)驗(yàn)主要參數(shù)設(shè)置

      對(duì)于物體檢測(cè)器,使用預(yù)訓(xùn)練的Fast R-CNN模型以及ResNet-101框架,獲得2048維圖像特征向量。為了構(gòu)造視覺(jué)單元的幾何圖形,本文認(rèn)為如果對(duì)象框滿足2個(gè)條件,則2個(gè)對(duì)象具有相互作用,即r2<0.2且r4<0.5,其中r2和r4是Eon中的IoU和相對(duì)距離。本實(shí)驗(yàn)中,Transformer輸入時(shí)采用正弦位置編碼來(lái)表示序列內(nèi)的單詞位置,將每一層的維數(shù)設(shè)置為512,多頭注意力機(jī)制的數(shù)量設(shè)置為6,存儲(chǔ)向量的長(zhǎng)度設(shè)為40,在每個(gè)注意力和前饋層之后,令dropout為0.1。超參數(shù)設(shè)置如表1所示。選用Adam優(yōu)化器[25]在交叉熵?fù)p失下訓(xùn)練模型,首先對(duì)學(xué)習(xí)率進(jìn)行初始化,設(shè)置初始學(xué)習(xí)率為5×10-4,終止學(xué)習(xí)率為0,訓(xùn)練5個(gè)epoch后通過(guò)優(yōu)化CIDEr-D獎(jiǎng)勵(lì)的方式,使用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào),為防止模型陷入局部最優(yōu),每迭代3個(gè)epoch使用指數(shù)衰減對(duì)學(xué)習(xí)率進(jìn)行調(diào)整,衰減系數(shù)為0.8。設(shè)置網(wǎng)絡(luò)可接收數(shù)據(jù)量batch size為50,對(duì)數(shù)據(jù)集的標(biāo)注進(jìn)行采樣時(shí)設(shè)置波束大小beam size為5。

      表1 超參數(shù)設(shè)置

      3 實(shí)驗(yàn)結(jié)果對(duì)比

      3.1 模型訓(xùn)練過(guò)程及產(chǎn)生結(jié)果

      使用ResNet-101和LSTM對(duì)模型進(jìn)行訓(xùn)練,將其作為基準(zhǔn)模型(baseline),在baseline的基礎(chǔ)上,加入場(chǎng)景標(biāo)志位,在每個(gè)視覺(jué)單元中實(shí)現(xiàn)空間單元和語(yǔ)義單元的多場(chǎng)景注意力計(jì)算,使用Transformer替代baseline的LSTM模型,并將得到的場(chǎng)景區(qū)域編碼作為先驗(yàn)知識(shí)與Transformer的encoder部分融合。在MSCOCO數(shù)據(jù)集上的部分實(shí)驗(yàn)結(jié)果如表2所示。GT、baseline、本文模型分別代表MSCOCO數(shù)據(jù)集中人工標(biāo)注的真實(shí)句子、基準(zhǔn)模型生成的句子和本文模型生成的句子。從表2可以看出,本文模型生成的句子具備豐富的空間和語(yǔ)義含義,較好地描述了圖像內(nèi)容。與基準(zhǔn)模型生成的句子相比,本文方法能夠融合更細(xì)致的細(xì)節(jié)和對(duì)象關(guān)系,從而生成在多場(chǎng)景下更準(zhǔn)確和更具描述性的標(biāo)題,減少了非重點(diǎn)區(qū)域的物體關(guān)系,使句子更貼合圖像主題。

      表2 本文模型與GT、baseline模型對(duì)比

      例如,表2(a)中,baseline的句子翻譯為“男人拿著沖浪板”,雖然描述出了圖像中的主要物體,但是為一個(gè)病句,而本文方法生成了有向的場(chǎng)景信息:“男人正在沖浪”,既構(gòu)建了場(chǎng)景圖,又得到了正確的主賓關(guān)系,并且生成了男人“帥氣”的屬性特征,句子流暢更貼近GT;在表2(b)中,本文模型能夠準(zhǔn)確識(shí)別出觀眾和棒球運(yùn)動(dòng)員這2個(gè)主要對(duì)象及其關(guān)系,baseline生成的句子中,“游泳”不符合圖像信息。表2(c)的圖中信息較少,本文模型聚焦于對(duì)象所在的場(chǎng)景,關(guān)注圖中貓的屬性,生成了“盯”這一符合場(chǎng)景語(yǔ)義的單詞,體現(xiàn)了模型對(duì)場(chǎng)景的適當(dāng)想象,而baseline模型捕捉圖像信息的能力不佳,生成的描述中出現(xiàn)了圖中沒(méi)有的“椅子”“帽子”,物體識(shí)別錯(cuò)誤,對(duì)圖像過(guò)度想象。表2(d)生成了融合多場(chǎng)景下語(yǔ)義關(guān)系的“領(lǐng)地”屬性,增加了句子的生動(dòng)性和趣味性。由此表明,本文模型在圖像多場(chǎng)景描述上,對(duì)空間關(guān)系和語(yǔ)義關(guān)系的處理能力較好,使句子生動(dòng)、準(zhǔn)確,更貼近人類描述。

      3.2 實(shí)驗(yàn)結(jié)果客觀指標(biāo)對(duì)比

      為了使實(shí)驗(yàn)結(jié)果有說(shuō)服力,本文分別在MSCOCO數(shù)據(jù)集和Flickr30k數(shù)據(jù)集上與近些年帶有注意力機(jī)制的圖像描述算法進(jìn)行評(píng)價(jià)指標(biāo)比較。表3和表4中B-1、B-4分別表示BLEU的參數(shù)N取值為1、4時(shí)對(duì)應(yīng)的值,表3為本文模型與其他模型在MSCOCO驗(yàn)證集上的性能對(duì)比,CIDEr得分達(dá)到1.210,超過(guò)baseline方法5.68%,B-1指標(biāo)可達(dá)到0.806。表4為本文模型與其他模型在Flickr30k數(shù)據(jù)集上的性能對(duì)比,CIDEr得分達(dá)到0.615,超過(guò)baseline方法4.41%。通過(guò)對(duì)比發(fā)現(xiàn),在相同數(shù)據(jù)集和相同訓(xùn)練條件下,本文算法在常用的評(píng)估指標(biāo)上的得分高于基于CNN+LSTM算法的圖像描述方法。

      表3 模型在MSCOCO數(shù)據(jù)集上在線測(cè)試的性能對(duì)比

      表4 模型在Flickr30k數(shù)據(jù)集上在線測(cè)試的性能對(duì)比

      4 結(jié)束語(yǔ)

      本文提出了一種全新的多場(chǎng)景注意力機(jī)制,結(jié)合命名實(shí)體識(shí)別和Transformer結(jié)構(gòu),優(yōu)化模型在多場(chǎng)景下對(duì)空間信息和語(yǔ)義信息的獲取能力。采用ResNet-101對(duì)圖像進(jìn)行編碼得到深度特征,采用多層感知層、關(guān)系檢測(cè)器和基于命名實(shí)體識(shí)別的多場(chǎng)景標(biāo)志位得到貼合圖像場(chǎng)景的視覺(jué)單元和先驗(yàn)知識(shí)。在語(yǔ)言模型部分,改進(jìn)了Transformer結(jié)構(gòu),融合多場(chǎng)景分類的結(jié)果,采用細(xì)粒度區(qū)域編碼的方法,通過(guò)存儲(chǔ)編碼向量,更新多場(chǎng)景的先驗(yàn)證知識(shí)。實(shí)驗(yàn)結(jié)果表明,本文方法提高了模型對(duì)場(chǎng)景的理解能力,更貼合人類語(yǔ)言,在生成的結(jié)果和評(píng)價(jià)指標(biāo)上優(yōu)于同類型的其他模型。

      猜你喜歡
      注意力語(yǔ)義物體
      讓注意力“飛”回來(lái)
      語(yǔ)言與語(yǔ)義
      深刻理解物體的平衡
      我們是怎樣看到物體的
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      為什么同一物體在世界各地重量不一樣?
      認(rèn)知范疇模糊與語(yǔ)義模糊
      懸浮的雞蛋
      平定县| 白沙| 边坝县| 吉木萨尔县| 邮箱| 都江堰市| 保德县| 合作市| 紫金县| 安阳市| 台东县| 屏边| 阜南县| 新丰县| 上犹县| 仁化县| 寻乌县| 武冈市| 章丘市| 靖西县| 平南县| 永川市| 东台市| 陇南市| 普兰县| 扬州市| 邢台市| 洛浦县| 丹江口市| 遂平县| 本溪| 黄石市| 门头沟区| 莆田市| 嘉义市| 黄山市| 德格县| 威宁| 彭阳县| 墨脱县| 闸北区|