• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合多頭自注意力機(jī)制和共同注意的圖像問答模型*

    2023-09-29 05:51:46
    關(guān)鍵詞:注意力準(zhǔn)確率機(jī)制

    官 巍 張 晗 馬 力

    (西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)

    1 引言

    近年來,基于計(jì)算機(jī)視覺和自然語言處理技術(shù)的多模態(tài)學(xué)習(xí)發(fā)展迅猛,大量的研究工作聚集在二者的交叉領(lǐng)域,例如圖像問答[1]、圖像描述[2]和圖像文本匹配[3]等。圖像問答任務(wù)的通用框架為:使用任意的圖像(I)和相應(yīng)的問題(Q)作為輸入,圖像問答模型輸出以自然語言為形式的答案(A)。為實(shí)現(xiàn)這一目標(biāo),圖像問答模型不僅需要對(duì)圖像相關(guān)的問題進(jìn)行正確的理解,還需要推斷出正確的答案。因此,更好地提高圖像問答模型的有效性,是邁向人工智能的重要一步[4]。

    在早期圖像問答任務(wù)的研究中,許多模型是通過元素逐乘的方法對(duì)圖像特征和文本特征進(jìn)行融合[5],其中,圖像特征是通過使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)對(duì)目標(biāo)分類進(jìn)行獲取的[6~7],文本特征是通過遞歸神經(jīng)網(wǎng)路(RNNs)所獲得[8~9],然后通過分類器預(yù)測(cè)出最佳答案。Ren 等將提取的圖像特征作為第一個(gè)單詞,并將其與問題中的單詞一起輸入到遞歸神經(jīng)網(wǎng)絡(luò)中用于預(yù)測(cè)答案[10]。Geman等提出了從標(biāo)注過的圖像中訓(xùn)練出的自動(dòng)化問題產(chǎn)生器,這個(gè)產(chǎn)生器能夠根據(jù)所提供的測(cè)試圖像產(chǎn)生一系列的二元組問題[11]。盡管這些方法對(duì)圖像問答模型有很大作用,但是對(duì)于較為復(fù)雜的場(chǎng)景,圖像中的全局特征信息,往往會(huì)發(fā)生丟失。注意力機(jī)制成為改進(jìn)圖像問答模型一個(gè)更好的選擇。

    注意力機(jī)制屬于深度神經(jīng)網(wǎng)絡(luò)研究的最新進(jìn)展[12],已成功應(yīng)用于圖像、文本等單模態(tài)任務(wù)以及多模態(tài)任務(wù)中[13]。從圖像問答系統(tǒng)的輸入圖像中提取圖像區(qū)域中的特征注意力[14],已經(jīng)成為所有圖像問答模型實(shí)現(xiàn)的組成部分。除了圖像特征注意力機(jī)制,通過對(duì)文本信息使用注意力機(jī)制學(xué)習(xí)文本中的關(guān)鍵單詞或者短語也尤為重要。近期的研究表明,使用同時(shí)學(xué)習(xí)圖像和文本的共同注意,可以有利于圖像和問題的細(xì)粒度表示,從而提高模型的準(zhǔn)確率[15]。

    在圖像問答任務(wù)中,對(duì)于更加復(fù)雜的圖像場(chǎng)景,單一的注意力機(jī)制不能精確地關(guān)注圖像中的重要特征,導(dǎo)致圖像關(guān)鍵信息丟失。在此基礎(chǔ)上,本文采用一個(gè)融合多頭自注意力機(jī)制的圖像特征模型,來獲取圖像特征中的全局信息,對(duì)于不同的圖像特征生成多個(gè)注意權(quán)重,然后使用增強(qiáng)圖像特征和問題文本特征之間信息關(guān)聯(lián)性的共同注意網(wǎng)絡(luò),最后將獲取到不同模態(tài)的特征,進(jìn)行多模態(tài)特征融合后,進(jìn)行答案預(yù)測(cè),提高模型的準(zhǔn)確率。本文所提出融合多頭自注意力機(jī)制和共同注意的圖像問答模型在VQA1.0 數(shù)據(jù)集以及VQA2.0 數(shù)據(jù)集[16]表現(xiàn)出較好的準(zhǔn)確率。

    2 模型描述

    2.1 問題描述及處理思想

    為了在提取圖像特征時(shí)關(guān)注圖像中的關(guān)鍵信息,更好地獲得圖像特征表示,并且對(duì)于更加復(fù)雜的圖像場(chǎng)景,也可以精確地關(guān)注到圖像中的重要特征信息,本文基于ResNet-152 網(wǎng)絡(luò)使用多頭自注意力機(jī)制,捕捉圖像中的全局關(guān)鍵信息,獲取圖像特征表示。針對(duì)輸入的問題,首先對(duì)每個(gè)單詞進(jìn)行詞向量編碼,然后使用Bi-LSTM模型生成問題特征表示。在獲取到圖像特征和問題特征之后,使用共同注意網(wǎng)絡(luò),增強(qiáng)問題特征信息與圖像特征信息之間的關(guān)聯(lián)性。最后進(jìn)行多模態(tài)特征融合并使用分類器對(duì)融合特征進(jìn)行答案預(yù)測(cè),模型整體框架如圖1所示。下面將詳細(xì)介紹模型算法流程。

    2.2 圖像特征提取

    融合多頭自注意機(jī)制的圖像特征提取模型,可以更好的獲取圖像特征表示。多頭自注意力機(jī)制的優(yōu)點(diǎn)是,所獲取的圖像特征信息保留了使用單頭注意力機(jī)制可能被遺漏的重要信息,進(jìn)而捕獲了整個(gè)圖像場(chǎng)景中的全局重要信息,如圖2所示。

    圖2 融合多頭自注意力機(jī)制的圖像特征提取網(wǎng)絡(luò)

    本文模型使用ImageNet 分類任務(wù)上預(yù)先訓(xùn)練好的ResNet-152 來提取圖像中的視覺特征,去掉了所有的全連接層和全局池化層,只使用卷積層來導(dǎo)出保持圖像空間結(jié)構(gòu)的三維特征圖,并在之后添加一個(gè)1×1 的卷積層用來進(jìn)行線性適應(yīng),從而提高網(wǎng)絡(luò)的表達(dá)能力。給定輸入圖像X,使用改進(jìn)后的ResNet-152 網(wǎng)絡(luò)提取圖像特征信息記為Vf=[V1,V2,…,Vk]?Rk×di,其中Vk?Rdi表示第k個(gè)物體特征,k為圖像中物體的數(shù)量,di為期望維度。然后將通過Flatten 層后的二維特征圖通過一個(gè)多層感知機(jī)(MLP),在多層感知機(jī)輸出的第二個(gè)維度信息上使用softmax 函數(shù),用來保證各注意力權(quán)重之和為1。所得到的注意力權(quán)重矩陣的每一行對(duì)應(yīng)圖像中不同的部分,計(jì)算出的注意力權(quán)重矩陣為

    其中,?Rdi×k,Wa?Rr×da,Wb?Rda×di,T?(0,1)r×k,da為隱藏狀態(tài)維度,r表示注意力權(quán)重?cái)?shù)。將權(quán)重矩陣T與通過Flatten 層的二維特征圖進(jìn)行線性組合,獲取到最終的圖像特征輸入矩陣:

    2.3 文本特征提取

    雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)由前向LSTM 網(wǎng)絡(luò)和后向LSTM 網(wǎng)絡(luò)堆疊而成,以便更好的捕捉雙向的語義依賴。在使用Bi-LSTM 對(duì)問題文本進(jìn)行編碼之前,通過標(biāo)記器將每個(gè)句子分割成一個(gè)單詞單元,并且將輸入句子的長(zhǎng)度限制在14個(gè)單詞以內(nèi),超過的部分會(huì)被丟棄。問題長(zhǎng)度不足14個(gè)單詞,均使用0向量補(bǔ)充。將獲取的當(dāng)前時(shí)刻的輸入詞向量xt,輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)中:

    2.4 共同注意模型

    通過基于問題特征的自注意力機(jī)制引導(dǎo)的圖像注意特征,組成的共同注意網(wǎng)絡(luò),可以促進(jìn)不同模態(tài)信息之間的相互作用。首先對(duì)問題特征使用自注意力機(jī)制,以整個(gè)Bi-LSTM 隱藏狀態(tài)序列Y作為輸入,對(duì)問題中的多個(gè)相關(guān)單詞或短語,使用自我注意機(jī)制,輸出注意力權(quán)重向量C,將問題特征由向量C加權(quán)后求和為向量Q,該向量Q代表帶有注意的問題特征表示:

    其中Wq1?Rr×dc和Wq2?Rdc×2dq表示學(xué)習(xí)權(quán)重參數(shù),r和dc表示超參數(shù),Q為突出問題關(guān)注重點(diǎn)的特征表示。

    圖像注意利用問題特征表示來關(guān)注圖像信息中與問題信息最相關(guān)的對(duì)象區(qū)域。將問題注意Q通過均值函數(shù)變成q,首先使用逐元素乘法將使用自注意力機(jī)制后問題特征和輸入的圖像特征進(jìn)行融合,對(duì)融合特征通過線性層,以及使用softmax 函數(shù)計(jì)算每個(gè)圖像特征ik的歸一化注意力權(quán)重λk。最后,利用獲取的注意力權(quán)值對(duì)圖像特征進(jìn)行加權(quán),并將其求和為向量u來表示圖像注意特征。計(jì)算公式如下:

    其中wo?R1×2dq,Wq?Rdq1×2dq,和Wi?Rdi×2dq表示學(xué)習(xí)權(quán)重參數(shù),dq1和di為超參數(shù),⊙表示矩陣相乘。

    2.5 多模態(tài)融合與分類

    將最終得到的圖像特征表示u和問題特征表示q輸入到分別通過一個(gè)非線性全連接層,然后使用逐元素相乘進(jìn)行融合,得到融合后的特征:

    其中,z表示問題和圖像最終輸出的融合特征,fu和fq表示非線性層,符號(hào)?表示向量之間進(jìn)行逐元素相乘。

    將z輸入分類器預(yù)測(cè)答案。將融合之后的特征z通過一個(gè)非線性層fo,然后通過一個(gè)線性映射wo來預(yù)測(cè)N個(gè)候選分?jǐn)?shù)記為?,并使用sigmoid 激活函數(shù)將最終的分?jǐn)?shù)歸一化為( 0,1) ,之后使用一個(gè)二進(jìn)制交叉熵(BCE)作為損失函數(shù)。可以將最終的這一階段看作是一個(gè)邏輯回歸,對(duì)候選答案的準(zhǔn)確性進(jìn)行預(yù)測(cè)。目標(biāo)函數(shù)計(jì)算如下:

    其中M,N分別表示訓(xùn)練問題和候選答案的數(shù)量,s和s?分別表示真實(shí)答案的分?jǐn)?shù)以及模型預(yù)測(cè)出候選答案的分?jǐn)?shù)。

    3 實(shí)驗(yàn)

    3.1 實(shí)驗(yàn)數(shù)據(jù)集

    VQA1.0 數(shù)據(jù)集,通過MSCOCO 數(shù)據(jù)集的圖像進(jìn)行構(gòu)建。由真實(shí)圖像和抽象圖像組成,本文訓(xùn)練數(shù)據(jù)集來自真實(shí)圖像數(shù)據(jù),其中包括訓(xùn)練圖像,驗(yàn)證圖像和測(cè)試圖像分別包括82783 張、40504 張和81434 張,問題數(shù)據(jù)包括訓(xùn)練問題,驗(yàn)證問題和測(cè)試問題分別包括248349 個(gè)、121512 個(gè)和244302個(gè)。VQA1.0 中的基本問題類型包括:是/否、數(shù)字和其他。每張圖片對(duì)應(yīng)三個(gè)問題,每個(gè)問題都給出的10個(gè)基本真實(shí)答案。

    VQA2.0 數(shù)據(jù)集,包括82783 張訓(xùn)練集圖像,有40504 張驗(yàn)證集圖像和有81434 張測(cè)試集圖像,以及443757 個(gè)訓(xùn)練問題,214354 個(gè)驗(yàn)證問題,447793個(gè)測(cè)試問題。在該數(shù)據(jù)集中,針對(duì)同一個(gè)問題,對(duì)應(yīng)兩張不同的圖像,所以問題所對(duì)應(yīng)的答案也是不相同的。與VQA 1.0 數(shù)據(jù)集相比,VQA 2.0 數(shù)據(jù)集更加平衡,且該數(shù)據(jù)集只對(duì)應(yīng)開放式的任務(wù)。

    3.2 評(píng)估指標(biāo)

    由于數(shù)據(jù)集中的每個(gè)問題都由10 個(gè)不同的注釋者回答,答案有時(shí)也不相同,特別是對(duì)于主觀的問題。為了探索答案之間的不一致性,我們采用軟準(zhǔn)確性作為回歸目標(biāo)。

    其中a1,a2,…,ak是每個(gè)問題的正確標(biāo)注答案的集合。a表示預(yù)測(cè)答案,I為指示函數(shù)。

    3.3 實(shí)驗(yàn)環(huán)境及初始化

    實(shí)驗(yàn)中所使用的深度學(xué)習(xí)框架為PyTorch,在訓(xùn)練中使用Adam 多模型進(jìn)行優(yōu)化,將學(xué)習(xí)率設(shè)置為0.0001,batch-size 設(shè)置為512,在實(shí)驗(yàn)中引入dropout 和正則化技術(shù),用來防止模型在訓(xùn)練過程中出現(xiàn)過度擬合的問題。對(duì)于所有的中間層以及最終的融合特征嵌入,將維度設(shè)置為1024。實(shí)驗(yàn)在裝有兩個(gè)GTX 1080Ti顯卡的工作站上進(jìn)行。

    3.4 實(shí)驗(yàn)結(jié)果分析及對(duì)比

    1)VQA1.0數(shù)據(jù)集

    從表1 中可以得出,將本文所使用的模型方法針對(duì)VQA1.0 數(shù)據(jù)集,與DPPnet 等主流的圖像問答模型進(jìn)行對(duì)比,總體(Overall)的準(zhǔn)確率均高于其他模型,準(zhǔn)確率為64.6%,在VQA1.0 數(shù)據(jù)集中取得了不錯(cuò)的效果,證明了本文模型融合多頭自注意力機(jī)制的圖像特征提取模塊以及使用問題自注意力機(jī)制引導(dǎo)圖像注意的有效性。對(duì)于“number”、“Yes/No”以及“Other”類型的問題,本文模型的準(zhǔn)確率優(yōu)于所比較的模型。針對(duì)“other”類型的問題,本文模型比MAN模型提高了0.9%,比LSTM I+Q模型的準(zhǔn)確率提高了18.5%,證明本文模型性能較好。

    表1 VQA1.0數(shù)據(jù)集上的對(duì)比試驗(yàn)

    為了驗(yàn)證本文所使用的融合多頭自注意力機(jī)制的圖像特征提取模型的有效性,將圖像特征提取模塊替換為原始的去掉全連接層的ResNet152 模型,并將其命名為Ours(ResNet-151)模型,與本文模型在VQA1.0 數(shù)據(jù)集進(jìn)行比對(duì),對(duì)模型的有效性進(jìn)行驗(yàn)證,如表2所示。

    表2 多頭自注意力機(jī)制有效性對(duì)比

    由圖3 可以看出,采用融合多頭自注意力的ResNet-152網(wǎng)絡(luò)獲取圖像特征信息,使得整個(gè)模型在每個(gè)問題類型的準(zhǔn)確率均優(yōu)于未使用多頭自注意力的ResNet-152 網(wǎng)絡(luò)模型,說明本文表現(xiàn)出較好的準(zhǔn)確率和良好的性能。

    圖3 VQA1.0數(shù)據(jù)集對(duì)比多頭自注意力機(jī)制有效性

    2)VQA2.0數(shù)據(jù)集

    從表3 中可以得出,本文模型總體的準(zhǔn)確率為63.9%,高于所有對(duì)比模型,在VQA2.0 數(shù)據(jù)集中取得了不錯(cuò)的效果,證明了本文模型的有效性。將本文所使用的模型方法,針對(duì)不同問題類型,與主流的圖像問答模型進(jìn)行對(duì)比,對(duì)于“other”以及“Yes/No”類型的問題,本文模型的準(zhǔn)確率優(yōu)于所有比較的模型?!皁ther”類型的問題,本文模型比LSTM+CNN 模型的準(zhǔn)確率提高了12.9%,比VQA machine模型提高了1.3%。綜上所述,本文所提出的融合多頭自注意力和共同注意的圖像問答模型可以更好地進(jìn)行答案預(yù)測(cè)。

    表3 VQA2.0數(shù)據(jù)集上的對(duì)比試驗(yàn)

    同樣使用去掉全連接層的原始ResNet-152 網(wǎng)絡(luò)提取圖像特征表示,與本文模型在VQA2.0 數(shù)據(jù)集進(jìn)行比對(duì),對(duì)多頭自注意力機(jī)制的有效性進(jìn)行驗(yàn)證,如表4所示。

    表4 多頭自注意力機(jī)制有效性對(duì)比

    圖4 針對(duì)上表進(jìn)行可視化對(duì)比,綜上所述,可得出本文使用融合多頭自注意力機(jī)制的圖像特征提取模型,用作獲取圖像特征信息,在圖像問答領(lǐng)域進(jìn)行推廣,可以提高模型整體的準(zhǔn)確率。

    圖4 VQA2.0數(shù)據(jù)集對(duì)比多頭自注意力機(jī)制有效性

    3.5 實(shí)驗(yàn)結(jié)果可視化

    針對(duì)本文所提出的融合多頭自注意力和共同注意的圖像問答模型,選取測(cè)試集中的圖像以及輸入對(duì)應(yīng)的問題,進(jìn)行測(cè)試。圖5展示在VQA數(shù)據(jù)集上可視化結(jié)果。

    圖5 可視化結(jié)果

    4 結(jié)語

    本文提出了一種用于圖像問答任務(wù)的新型的網(wǎng)絡(luò)模型,通過采用融合多頭自注意力機(jī)制的圖像特征提取網(wǎng)絡(luò)獲取圖像特征,用來增強(qiáng)圖像的特征表示,并在模型中使用共同注意網(wǎng)絡(luò),結(jié)合基于自注意力機(jī)制的問題文本注意所引導(dǎo)的圖像特征注意,減少了候選答案的搜索空間,提高了整個(gè)模型的準(zhǔn)確率。

    實(shí)驗(yàn)結(jié)果顯示,本文所提出的模型能夠更好地獲取圖像特征表示,并且可以將更多的注意力權(quán)重放在問題特征所引導(dǎo)的圖像特征線索上。但是從實(shí)驗(yàn)結(jié)果可以得出,本文模型除了在回答“是/否”等簡(jiǎn)單問題上有較高的準(zhǔn)確率外,對(duì)于計(jì)數(shù)類問題和其他復(fù)雜類型的問題時(shí)(如:推理類問題),準(zhǔn)確率還是相對(duì)較低,并且現(xiàn)有的圖像問答模型都存在這個(gè)問題。未來將圍繞這兩類問題對(duì)圖像問答模型做進(jìn)一步研究。

    猜你喜歡
    注意力準(zhǔn)確率機(jī)制
    讓注意力“飛”回來
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    自制力是一種很好的篩選機(jī)制
    文苑(2018年21期)2018-11-09 01:23:06
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    A Beautiful Way Of Looking At Things
    破除舊機(jī)制要分步推進(jìn)
    注重機(jī)制的相互配合
    黔东| 读书| 徐闻县| 临洮县| 平定县| 安福县| 江西省| 邵东县| 澜沧| 连山| 陵川县| 西城区| 探索| 西乡县| 来宾市| 灵台县| 浪卡子县| 北川| 弥渡县| 威信县| 盐源县| 安岳县| 赤壁市| 合山市| 突泉县| 山阳县| 蕲春县| 曲水县| 安化县| 油尖旺区| 南部县| 监利县| 宿州市| 疏附县| 沅江市| 德阳市| 安达市| 海南省| 运城市| 潞城市| 抚顺县|