• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于訪問(wèn)控制模塊與原始信息注入的圖像描述①

      2022-08-04 09:58:26郝宇欽韋學(xué)艷吳春雷
      關(guān)鍵詞:訪問(wèn)控制結(jié)點(diǎn)注意力

      李 陽(yáng),路 靜,郝宇欽,韋學(xué)艷,吳春雷

      (中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)

      1 引言

      計(jì)算機(jī)根據(jù)給定的圖像自動(dòng)生成簡(jiǎn)短的描述圖像的句子,這個(gè)任務(wù)被稱為圖像描述[1]. 在當(dāng)前的計(jì)算機(jī)視覺(jué)領(lǐng)域中,圖像描述融合了機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等多個(gè)不同領(lǐng)域,是一項(xiàng)具有挑戰(zhàn)性的任務(wù). 主流的圖像字幕模型大多數(shù)采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲取圖像視覺(jué)特征,并對(duì)顯著區(qū)域和對(duì)象施加注意力,通過(guò)遞歸模型生成描述. 隨著對(duì)圖像描述任務(wù)的研究逐漸增多,圖像的場(chǎng)景圖被用來(lái)增強(qiáng)圖像描述模型,從而利用場(chǎng)景圖的結(jié)構(gòu)語(yǔ)義,如對(duì)象、關(guān)系和屬性. 然而當(dāng)前基于場(chǎng)景圖的圖像描述模型并未考慮到長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[2]對(duì)于先前輸入信息的保留,這可能會(huì)導(dǎo)致丟失細(xì)節(jié)信息. 原始輸入信息中的細(xì)節(jié)能夠指導(dǎo)句子的生成,因?yàn)閷?duì)于模型生成的句子,其中每個(gè)單詞的生成都要依賴于輸入信息,假如丟失了先前的原始輸入信息,則很難生成準(zhǔn)確的句子. 此外,當(dāng)前的場(chǎng)景圖更新機(jī)制中存在結(jié)點(diǎn)更新程度過(guò)大的問(wèn)題,導(dǎo)致生成句子的準(zhǔn)確度降低.

      為了在一定程度上解決丟失原始信息和圖更新程度過(guò)大的問(wèn)題,本文提出了基于訪問(wèn)控制模塊與原始信息注入的圖像描述網(wǎng)絡(luò),該網(wǎng)絡(luò)改進(jìn)了基線模型的圖更新機(jī)制及語(yǔ)言LSTM 中的輸入信息,目的是使圖更新程度的大小更合理,并減少原始信息的細(xì)節(jié)損失. 首先,每張圖像對(duì)應(yīng)一個(gè)場(chǎng)景圖信息,網(wǎng)絡(luò)對(duì)場(chǎng)景圖進(jìn)行編碼,對(duì)編碼后的場(chǎng)景圖特征施加注意力,網(wǎng)絡(luò)將得到的上下文特征傳遞給雙層LSTM 進(jìn)行解碼,其中將原始信息注入到語(yǔ)言LSTM 中,最后通過(guò)訪問(wèn)控制模塊將已訪問(wèn)過(guò)的結(jié)點(diǎn)權(quán)重降低,既可以使網(wǎng)絡(luò)關(guān)注未關(guān)注過(guò)的結(jié)點(diǎn),又盡可能保留結(jié)點(diǎn)的內(nèi)容信息.

      本文中,創(chuàng)新點(diǎn)可以總結(jié)歸納為如下3 點(diǎn):

      (1)本文對(duì)基線模型中語(yǔ)言LSTM 的輸入變量做了改進(jìn),將原始特征與經(jīng)過(guò)注意力LSTM 所得的特征拼接后得到新特征作為語(yǔ)言LSTM 的輸入,以充分利用全局圖像信息和嵌入信息來(lái)生成句子.

      (2)本文設(shè)計(jì)了一種新的訪問(wèn)控制模塊(VCM)來(lái)實(shí)現(xiàn)圖更新機(jī)制,改進(jìn)了現(xiàn)有的基于場(chǎng)景圖的圖更新方法,它可以使網(wǎng)絡(luò)關(guān)注重要信息的同時(shí)盡可能保留原始結(jié)點(diǎn)的信息,我們?cè)O(shè)計(jì)了圖更新系數(shù)(GUF)來(lái)指導(dǎo)圖更新,以確定更新程度的大小.

      (3)通過(guò)大量實(shí)驗(yàn)對(duì)提出的模型進(jìn)行了分析與驗(yàn)證. MSCOCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了所提出的基于訪問(wèn)控制模塊與原始信息注入的圖像描述方法的有效性.

      2 相關(guān)工作

      2.1 圖像描述

      隨著深度學(xué)習(xí)技術(shù)的發(fā)展,在圖像描述領(lǐng)域中,對(duì)于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器框架的研究越來(lái)越多,近年來(lái)已經(jīng)取得了顯著的改進(jìn). Vinyals 等人[3]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將圖像視覺(jué)信息編碼為固定長(zhǎng)度向量,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)作為解碼器,依次生成單詞.為了更有效地關(guān)注圖像中重要的區(qū)域,注意力機(jī)制在圖像描述模型中被廣泛使用[4],在生成描述過(guò)程中,模型生成的所有的單詞都和圖像的某一特定區(qū)域一一對(duì)應(yīng). 由于傳統(tǒng)的注意力機(jī)制存在強(qiáng)制將每個(gè)單詞都對(duì)應(yīng)到圖像某一區(qū)域的問(wèn)題,Lu 等人[5]提出了一種自適應(yīng)注意力機(jī)制,在模型生成單詞時(shí)判斷是否需要關(guān)注圖像信息及關(guān)注的程度. 此外,為了減少順序訓(xùn)練[6]中的暴露偏差問(wèn)題,Rennie 等人[7]使用強(qiáng)化學(xué)習(xí)減少累計(jì)誤差和優(yōu)化不可微函數(shù). 目前大部分圖像描述任務(wù)都是基于編碼器-解碼器框架結(jié)構(gòu),但解碼器對(duì)于輸入到LSTM 中的信息經(jīng)過(guò)多次計(jì)算后可能會(huì)丟失部分原始輸入信息,那么如何在LSTM 中充分利用原始輸入信息,是一個(gè)值得思考的問(wèn)題.

      2.2 場(chǎng)景圖

      當(dāng)前,最流行的圖像特征提取方法是使用Faster R-CNN[8]獲取特征,在自下而上的注意力模型[9]中采用的就是此方法. 根據(jù)觀察習(xí)慣,人類視覺(jué)往往不是將圖像分割為多個(gè)區(qū)域來(lái)觀察的,而是針對(duì)圖像中較明顯的物體來(lái)獲取信息,但僅關(guān)注物體信息會(huì)忽略多個(gè)物體之間的關(guān)聯(lián). 因此,有研究進(jìn)一步探索了一種在圖像描述研究中更結(jié)構(gòu)化的圖像表示,即場(chǎng)景圖[10–12],場(chǎng)景圖的引入有效地促進(jìn)了圖像描述的發(fā)展,它可以在圖像描述任務(wù)中利用檢測(cè)到的對(duì)象及其關(guān)系,獲得對(duì)圖像更有條理的表述.

      場(chǎng)景圖顯式地描述了圖像中物體以及它們互相具有的關(guān)系. 場(chǎng)景圖生成任務(wù)是建立在目標(biāo)檢測(cè)[13]的基礎(chǔ)上,當(dāng)前的一些研究介紹了場(chǎng)景圖生成(SGG)[14,15].大多數(shù)模型使用預(yù)先訓(xùn)練的Faster R-CNN 或類似的體系結(jié)構(gòu)來(lái)預(yù)測(cè)對(duì)象,在此基礎(chǔ)上加入一個(gè)額外的組件來(lái)預(yù)測(cè)對(duì)象之間的關(guān)系. Zellers 等人[16]提出完成場(chǎng)景圖生成任務(wù)可以利用很多先驗(yàn)知識(shí). 在使用場(chǎng)景圖生成描述的研究中,Chen 等人[17]提出了一個(gè)圖更新模塊,在每一步解碼后更新當(dāng)前的圖,改變圖結(jié)點(diǎn)的權(quán)重以保證結(jié)點(diǎn)不被重復(fù)使用,但是改變權(quán)重的方式容易丟失有效的信息,那么如何在更新過(guò)程中保持刪除信息和保留信息的平衡,是一個(gè)值得思考的問(wèn)題. 因此,本文設(shè)計(jì)了一個(gè)訪問(wèn)控制模塊更新已訪問(wèn)過(guò)的結(jié)點(diǎn)權(quán)重,有效解決了結(jié)點(diǎn)內(nèi)容丟失的問(wèn)題.

      3 基于訪問(wèn)控制模塊與原始信息注入的圖像描述網(wǎng)絡(luò)

      3.1 整體框架

      給定一個(gè)輸入圖像I,本文采用文獻(xiàn)[17]的方法來(lái)獲得場(chǎng)景圖特征G=(V,E).G表示圖像的場(chǎng)景圖特征,是一個(gè)有向圖,V表示圖像I中檢測(cè)到的對(duì)象對(duì)應(yīng)的結(jié)點(diǎn)集,包含物體結(jié)點(diǎn)和關(guān)系結(jié)點(diǎn),E表示對(duì)應(yīng)于結(jié)點(diǎn)之間連接的邊集,表示兩個(gè)結(jié)點(diǎn)之間有連接,模型最終生成一組句子. 整個(gè)網(wǎng)絡(luò)架構(gòu)如圖1 所示.

      圖1 網(wǎng)絡(luò)架構(gòu)

      具體來(lái)說(shuō),本文的模型首先使用圖卷積網(wǎng)絡(luò)集成G中的信息得到Gm. 本文采用文獻(xiàn)[17]的圖注意力方法將圖內(nèi)容注意力和圖流向注意力融合得到集成上下文信息. 然后將得到的集成上下文信息饋入解碼器進(jìn)行字幕生成. 解碼器包括兩層LSTM 結(jié)構(gòu),分別用來(lái)處理注意力信息和單詞信息. 并且本文對(duì)基線模型中語(yǔ)言LSTM 的輸入變量做了改進(jìn),以充分利用全局圖像信息和嵌入信息,在第3.2 節(jié)將詳細(xì)介紹. 最后,在生成單詞yt后,本文通過(guò)訪問(wèn)控制模塊將結(jié)點(diǎn)嵌入Xt的權(quán)重更新,并根據(jù)本文提出的圖更新系數(shù)作為調(diào)整結(jié)點(diǎn)權(quán)重的依據(jù),使下一時(shí)間步的結(jié)點(diǎn)Xt+1權(quán)重更為合理,本文將在第3.3 節(jié)詳細(xì)介紹.

      3.2 原始信息注入

      本文解碼器采用兩層LSTM 結(jié)構(gòu),如圖2 所示. 其中,注意力LSTM 表示視覺(jué)注意LSTM,作用是整合視覺(jué)信息以及隱藏層信息,并將自身計(jì)算得到的隱藏層信息作為模型注意力機(jī)制的一部分輸入; 語(yǔ)言LSTM表示用來(lái)生成語(yǔ)言的 LSTM,實(shí)現(xiàn)順序地預(yù)測(cè)單詞生成的功能.

      全部患者接受護(hù)理之后,共有65例順利的度過(guò)了圍手術(shù)期,有5例患者在治療階段有并發(fā)癥產(chǎn)生,經(jīng)過(guò)護(hù)理人員針對(duì)性的積極的護(hù)理,患者均痊愈,全部患者順利康復(fù)出院。

      圖2 LSTM 模型圖

      本文認(rèn)為全局圖像編碼嵌入和單詞嵌入不僅可以指導(dǎo)注意力LSTM 整合當(dāng)前信息,而且對(duì)于指導(dǎo)語(yǔ)言LSTM 生成單詞也是有價(jià)值的,因此將全局圖像編碼嵌入、已生成的單詞嵌入wt–1注入到語(yǔ)言LSTM 中,充分利用視覺(jué)信息和單詞嵌入信息指導(dǎo)句子的生成,模型如圖2 所示.

      注意力LSTM 在每個(gè)時(shí)間步中會(huì)接收輸入圖像的特征編碼嵌入、詞嵌入向量以及之前時(shí)間步的信息,注意力L STM 將以上輸入的信息進(jìn)行整合得到LSTM 的隱藏狀態(tài),然后將輸出的隱藏層信息作為注意力機(jī)制輸入的一部分,計(jì)算得到上下文特征. 最后,計(jì)算得出的上下文信息和注意力LSTM 的隱藏狀態(tài)一起作為模型語(yǔ)言LSTM 的輸入. 另外,本文模型為了充分利用原始信息,將全局圖像編碼嵌入、已生成的單詞嵌入wt–1與經(jīng)過(guò)注意力LSTM 所得的特征拼接后得到新特征作為語(yǔ)言LSTM 的輸入,得到語(yǔ)言LSTM 的輸出. 最后,在t時(shí)刻要生成的單詞yt由模型利用語(yǔ)言LSTM 的隱藏狀態(tài)預(yù)測(cè)得到,具體公式如式(1)–式(3):其中,是語(yǔ)言LSTM 前一時(shí)刻的輸出,是注意力LSTM 前一時(shí)刻的輸出,Attn為注意力操作,上下文向量zt經(jīng)過(guò)Attn操作后得到.wt–1是已生成單詞的嵌入,是全局編碼嵌入,Wu是參數(shù). 在時(shí)間步長(zhǎng)t處單詞分布的概率如下:

      其中,Wp是學(xué)習(xí)權(quán)重,bp是偏差. 句子概率分布計(jì)算公式如下:

      3.3 訪問(wèn)控制模塊

      為了充分表達(dá)場(chǎng)景圖中的信息,必須在不丟失且不重復(fù)的情況下表達(dá)場(chǎng)景圖G中的所有結(jié)點(diǎn),本文結(jié)合了文獻(xiàn)[17]的圖更新機(jī)制,在每一時(shí)間步生成單詞yt后,將t時(shí)刻的結(jié)點(diǎn)嵌入Xt重新賦予權(quán)重,更新為下一時(shí)刻使用的Xt+1,即更新結(jié)點(diǎn)的訪問(wèn)狀態(tài),如圖3所示.

      圖3 圖更新機(jī)制

      本文在此基礎(chǔ)上改進(jìn)了結(jié)點(diǎn)更新過(guò)程,提出了訪問(wèn)控制模塊,如圖4 所示.

      圖4 訪問(wèn)控制模塊結(jié)點(diǎn)更新

      注意力分?jǐn)?shù)αt表示每個(gè)結(jié)點(diǎn)的訪問(wèn)強(qiáng)度,當(dāng)t時(shí)刻某一個(gè)結(jié)點(diǎn)注意力高時(shí),代表已經(jīng)使用過(guò)當(dāng)前結(jié)點(diǎn),為了不重復(fù)使用,當(dāng)前結(jié)點(diǎn)的權(quán)重應(yīng)該被更新為較低的權(quán)重,注意力分?jǐn)?shù)越高的結(jié)點(diǎn)下一時(shí)刻權(quán)重被降低的幅度應(yīng)越大.

      在生成一些特殊單詞,如“a”和“this”時(shí),盡管訪問(wèn)了圖結(jié)點(diǎn),但這些單詞是非可視的,此時(shí)不更新結(jié)點(diǎn).因此,本文采用了文獻(xiàn)[5]的自適應(yīng)更新機(jī)制,用來(lái)修改注意力強(qiáng)度,如式(6)所示:

      其中,fvs是一個(gè)全連接網(wǎng)絡(luò),θvs是參數(shù),該網(wǎng)絡(luò)輸出一個(gè)標(biāo)量來(lái)表示當(dāng)前注意的結(jié)點(diǎn)是否由已生成的單詞表達(dá)的.

      其中,et, i代表t時(shí)刻對(duì)第i個(gè)結(jié)點(diǎn)的注意力強(qiáng)度,取值在0–1 之間,如果et, i取值為0,代表結(jié)點(diǎn)在t時(shí)刻未被使用,因此不應(yīng)被更新,如果et, i取值為1,代表結(jié)點(diǎn)需要被更新的程度最大.ut, i是視覺(jué)哨門(mén),控制更新的程度,在0–1 之間,ut, i的值越高代表更新的程度越大. 根據(jù)對(duì)變量取值的分析,GUF的取值在0.5–1 之間.

      使用GUF來(lái)指導(dǎo)圖更新,GUF的取值決定了結(jié)點(diǎn)下一時(shí)刻被訪問(wèn)的程度,從而實(shí)現(xiàn)訪問(wèn)控制. 通過(guò)式(9)來(lái)更新圖結(jié)點(diǎn):

      根據(jù)本文對(duì)圖更新系數(shù)GUF的分析,GUF的取值在0.5–1 之間,即使更新程度最大,Xt+1也將更新為0.5Xt,并不會(huì)被設(shè)為0,即并不會(huì)被完全刪除. 因此本文模型更新的幅度比完全刪除更小,結(jié)點(diǎn)保存的信息仍能在一定程度上起到指導(dǎo)句子生成的作用.

      通過(guò)這種方式,我們將結(jié)點(diǎn)嵌入Xt更新為下一個(gè)解碼步驟使用的Xt+1.

      3.4 目標(biāo)函數(shù)

      本文在訓(xùn)練模型時(shí)使用的損失為標(biāo)準(zhǔn)的交叉熵?fù)p失. 在訓(xùn)練過(guò)程中,對(duì)于給定標(biāo)簽序列y1:T、場(chǎng)景圖G和圖像I的描述模型,采用最小化交叉熵?fù)p失:

      經(jīng)過(guò)訓(xùn)練,本文的模型可以通過(guò)給定的圖像生成圖像描述.

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集

      本文實(shí)驗(yàn)使用的數(shù)據(jù)集為MSCOCO[18],它在圖像描述領(lǐng)域是被廣泛應(yīng)用的官方數(shù)據(jù)集. 數(shù)據(jù)集中的圖像數(shù)量超過(guò)12 萬(wàn)張,其中每一張圖像都有大約5 個(gè)注釋. 本文采用了MSCOCO 數(shù)據(jù)集的圖像及注釋,并采用“Karpathy”劃分設(shè)置. 當(dāng)前的圖像描述評(píng)測(cè)標(biāo)準(zhǔn)分別有BLEU1–BLEU4[19],ROUGE[20],METEOR[21],CIDEr[22],本文使用以上評(píng)測(cè)標(biāo)準(zhǔn)來(lái)評(píng)估模型的性能,通過(guò)比較模型生成的句子描述和參考句子的相似程度來(lái)評(píng)估生成的圖像文本描述語(yǔ)句的得分.

      在上述評(píng)測(cè)標(biāo)準(zhǔn)中,BLEU 是一種來(lái)源于機(jī)器翻譯中計(jì)算精度的評(píng)估方法,是用于計(jì)算模型所生成的句子和參考句子差異的方法,重點(diǎn)考慮了生成句子中單詞的準(zhǔn)確性,計(jì)算的結(jié)果在0.0–1.0 之間,結(jié)果越接近1 代表句子的匹配程度越高. BLEU 方法的缺點(diǎn)是極少關(guān)注召回率. ROUGE 也是計(jì)算精度常用的方法之一,基于查全率的相似度來(lái)計(jì)算模型生成描述的準(zhǔn)確率,與上文的BLEU 具有相似的計(jì)算方法. METEOR在機(jī)器翻譯評(píng)估中也是常用的方法之一,計(jì)算時(shí)對(duì)齊模型生成的描述與圖像的正確描述,這種自動(dòng)評(píng)估標(biāo)準(zhǔn)對(duì)生成句子的準(zhǔn)確率和召回率都進(jìn)行計(jì)算. CIDEr引入了“共識(shí)”的概念,是用于衡量圖像描述的一致性的標(biāo)準(zhǔn),它將句子表示成向量,根據(jù)余弦相似度的標(biāo)準(zhǔn)來(lái)判斷,該評(píng)價(jià)方法對(duì)生成描述句子的語(yǔ)義考慮較多.

      4.2 實(shí)驗(yàn)結(jié)果

      4.2.1 模型消融測(cè)試

      為了分析模型在引入訪問(wèn)控制模塊和原始信息注入對(duì)于圖像描述生成的作用,本文進(jìn)行了消融實(shí)驗(yàn)測(cè)試,測(cè)試了模型在3 種方法作用下的模型性能: ① 僅引入訪問(wèn)控制模塊; ② 僅引入原始信息注入; ③ 同時(shí)采用原始信息注入+訪問(wèn)控制模塊,即本文模型所采用的實(shí)驗(yàn)情況. 測(cè)試結(jié)果如表1 所示.

      表1 在數(shù)據(jù)集MSCOCO 上的模型消融測(cè)試結(jié)果(%)

      從表1 可以看出,在上述3 種情況中,采用“訪問(wèn)控制模塊+原始信息注入”對(duì)于圖像描述具有最好的性能,在生成語(yǔ)句的準(zhǔn)確度、流暢度上的表現(xiàn)都得到了最高的指標(biāo)值. 其主要原因是原始信息注入充分利用了原始輸入信息,另外,本文設(shè)計(jì)的訪問(wèn)控制模塊可以使更新的程度大小更合理,從而生成與圖像內(nèi)容更相符的描述.

      4.2.2 與其他模型的比較

      圖5 是本文提出的方法訓(xùn)練的模型與基線模型(ASG2Caption 模型)[17]在官方數(shù)據(jù)集MSCOCO 上的結(jié)果對(duì)比,可以清楚地看出,本文模型生成的句子與圖像實(shí)際內(nèi)容更加契合,語(yǔ)言更加準(zhǔn)確.

      圖5 實(shí)驗(yàn)結(jié)果對(duì)比

      如表2 所示,對(duì)于本文提出的模型,本文在官方數(shù)據(jù)集MSCOCO 上測(cè)試句子得分,以評(píng)估模型的有效性. 表2 中的數(shù)據(jù)表明,與基線模型(ASG2Caption 模型)[17]和其他方法相比,本文訓(xùn)練的模型具有更高的評(píng)分. 本文模型在CIDEr 評(píng)分中提升最為明顯,約提高了5.6 個(gè)百分點(diǎn). 本文訓(xùn)練的模型通過(guò)GUF來(lái)指導(dǎo)圖更新,可以使更新的程度大小更合理,從而使用更豐富的細(xì)節(jié)信息生成更高質(zhì)量的圖像描述.

      表2 在數(shù)據(jù)集MSCOCO 上的實(shí)驗(yàn)結(jié)果對(duì)比(%)

      4.3 實(shí)驗(yàn)分析

      在MSCOCO 數(shù)據(jù)集上,本文模型的注意力權(quán)重可視化圖如圖6 所示. 3 組圖的左邊為在MSCOCO 中選取的圖像,圖像右邊是句中對(duì)于劃線單詞將注意力權(quán)重表示在圖中的結(jié)果. 圖中的3 張可視化圖對(duì)應(yīng)了3 張不同的圖像,圖像下方的句子為本文提出的基于訪問(wèn)控制與原始信息注入模型生成的圖像描述.

      在圖6(a)中,“a baseball player” 在整體圖像中重要程度較大,可以看出,本文模型能夠很好地關(guān)注棒球運(yùn)動(dòng)員和球場(chǎng)地面,其中對(duì)球場(chǎng)的關(guān)注度最大,從而準(zhǔn)確地判斷出棒球運(yùn)動(dòng)員擊球的信息. 因此,在理解圖像時(shí),本文模型能夠關(guān)注相應(yīng)的圖像區(qū)域,為句子的生成提供準(zhǔn)確的依據(jù).

      圖6 模型注意力權(quán)重可視化圖

      在圖6(b)中,“beach” 在圖像中占有較大的區(qū)域,是較為重要的信息. 當(dāng)生成描述時(shí),本文模型對(duì)圖像的上半部分的沙灘和海浪關(guān)注程度最大,且注重沙灘和沖浪板的關(guān)聯(lián)性.

      在圖6(c)中,當(dāng)生成 “airplane” 時(shí),本文模型對(duì)飛機(jī)輪廓的判斷能夠達(dá)到較高的準(zhǔn)確度,且對(duì)于飛機(jī)前半部分和機(jī)翼關(guān)注度較高,對(duì)包含信息較少的部分關(guān)注度較低.

      由上述分析可知: 本文模型能夠準(zhǔn)確地判斷重要信息所在的位置,關(guān)注圖像目標(biāo)之間的關(guān)系,實(shí)現(xiàn)準(zhǔn)確表達(dá)圖像中有效信息的功能.

      5 結(jié)論與展望

      本文提出了一種基于訪問(wèn)控制模塊與原始信息注入的圖像描述網(wǎng)絡(luò),該網(wǎng)絡(luò)對(duì)基線模型中語(yǔ)言LSTM的輸入變量做了改進(jìn),以充分利用全局圖像信息和嵌入信息來(lái)生成句子. 此外,提出訪問(wèn)控制模塊的概念,用于實(shí)現(xiàn)圖更新機(jī)制. 同時(shí),本文設(shè)計(jì)了圖更新系數(shù),用于指導(dǎo)圖更新來(lái)確定更新的程度大小,可以在一定程度上優(yōu)化結(jié)點(diǎn)的更新程度. 本文進(jìn)行了充分的實(shí)驗(yàn)證明該方法的有效性. 在未來(lái)的工作中,本團(tuán)隊(duì)會(huì)繼續(xù)研究場(chǎng)景圖及模型框架的改進(jìn)方式,并考慮研究立體場(chǎng)景下的圖像描述模型來(lái)進(jìn)一步提升應(yīng)用價(jià)值.

      猜你喜歡
      訪問(wèn)控制結(jié)點(diǎn)注意力
      讓注意力“飛”回來(lái)
      Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      ONVIF的全新主張:一致性及最訪問(wèn)控制的Profile A
      A Beautiful Way Of Looking At Things
      動(dòng)態(tài)自適應(yīng)訪問(wèn)控制模型
      淺析云計(jì)算環(huán)境下等級(jí)保護(hù)訪問(wèn)控制測(cè)評(píng)技術(shù)
      大數(shù)據(jù)平臺(tái)訪問(wèn)控制方法的設(shè)計(jì)與實(shí)現(xiàn)
      基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)
      基于DHT全分布式P2P-SIP網(wǎng)絡(luò)電話穩(wěn)定性研究與設(shè)計(jì)
      卢氏县| 阳信县| 乌鲁木齐市| 黔南| 南江县| 丰顺县| 同江市| 长葛市| 陆良县| 涟水县| 左权县| 临安市| 福州市| 龙川县| 舟山市| 富蕴县| 象山县| 三江| 广水市| 如东县| 常州市| 杭锦旗| 萝北县| 天津市| 四川省| 于田县| 杭锦后旗| 政和县| 嘉善县| 辛集市| 宁河县| 普安县| 芒康县| 高雄市| 巧家县| 拉萨市| 泰兴市| 鹤庆县| 丹棱县| 开化县| 尼勒克县|