• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      視覺場景理解綜述

      2019-05-05 10:35:40王忠民張福濤
      關(guān)鍵詞:解碼注意力對象

      王忠民, 王 星, 李 剛, 張福濤

      (1.西安郵電大學(xué) 計(jì)算機(jī)學(xué)院, 陜西 西安 710121;2.西安郵電大學(xué) 陜西省網(wǎng)絡(luò)數(shù)據(jù)智能處理重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710121)

      視覺場景理解,稱為圖像語義描述,也可稱為“看圖說話”,是一個(gè)融合機(jī)器視覺技術(shù)和自然語言處理技術(shù)等多個(gè)領(lǐng)域的熱點(diǎn)問題[1-3]。視覺場景理解不僅需要理解圖像中各個(gè)實(shí)體對象信息,還需要理解實(shí)體對象之間的聯(lián)系。其主要任務(wù)是通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)學(xué)習(xí)圖像特征,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)學(xué)習(xí)語言模型,再使用長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)結(jié)合圖像特征和語言模型逐詞逐句生成圖像相應(yīng)描述。深入研究視覺場景理解,不僅可以加強(qiáng)學(xué)科融合、加深視覺場景理解模型研究,還可以優(yōu)化研究方法、開拓新的研究內(nèi)容。視覺場景理解模型實(shí)用化研究的不斷推進(jìn),對盲人輔助體系、機(jī)器人交互和代碼注釋等研究也具有重要意義[4-5]。

      視覺場景理解模型依據(jù)不同核心方法,可劃分為基于搜索的視覺場景理解模型、基于模板匹配的視覺場景理解模型和基于語言模型的視覺場景理解模型。

      基于搜索的視覺場景理解模型通過目標(biāo)檢測算法獲取圖像所包含的對象,然后將這些對象與圖像庫中的圖像做相似匹配,把最相似的K張圖片的描述作為該未知圖像的描述[6-8]。文獻(xiàn)[9]通過建立文本與圖像之間的聯(lián)系,預(yù)測圖像區(qū)域與其對應(yīng)的詞匯,再使用統(tǒng)計(jì)量信息計(jì)算圖像與文本的映射關(guān)系,最后利用相似度計(jì)算獲得相似圖片,以此獲得圖像的描述,該模型執(zhí)行簡單高效,能夠生成最符合人類描述的語句。文獻(xiàn)[10]提出先對場景、對象等關(guān)鍵實(shí)體進(jìn)行圖像分類以實(shí)現(xiàn)整體性識(shí)別,再整合全局信息與局部信息,最后通過整合后的信息提高模型準(zhǔn)確率。文獻(xiàn)[11]提出建立視覺場景理解系統(tǒng),通過計(jì)算一組圖像和描述之間的評分,從而獲得場景描述。該方法不僅考慮圖像之間的相似程度,也考慮未知圖片與已有描述的相似程度,提高了匹配的準(zhǔn)確性。

      基于模板匹配的模型,是在基于搜索的視覺場景理解方法中增加了重用能力,擴(kuò)大適用場景,將對象檢測與模板匹配相互結(jié)合,在場景模板的相應(yīng)位置填入合適的單詞[12-14]。該方法不僅可以適應(yīng)需求場景,也在使用卡槽法進(jìn)行內(nèi)容替換時(shí)提高描述準(zhǔn)確性。文獻(xiàn)[15]通過匯總大量圖片與描述信息,提出一種基于坐標(biāo)位置的視覺場景描述模型,通過獲取標(biāo)簽與圖片對象的坐標(biāo)對應(yīng)關(guān)系,使模型產(chǎn)生偏向于特定結(jié)構(gòu)的句子,然后向?qū)?yīng)位置填充相應(yīng)詞匯實(shí)現(xiàn)自動(dòng)描述。文獻(xiàn)[16]提出基于分步實(shí)現(xiàn)的場景描述,通過對大量圖片數(shù)據(jù)的學(xué)習(xí)獲得標(biāo)簽與圖像之間的對應(yīng)關(guān)系,根據(jù)目標(biāo)檢測結(jié)果與統(tǒng)計(jì)分析獲得自然語言的模型,共同選擇構(gòu)造最自然的描述語句。該模型是基于搜索的視覺場景理解模型的改進(jìn),在固定應(yīng)用場景中可以生成更確切的描述。

      基于注意力模型的思想靈感來自于機(jī)器翻譯,以深度學(xué)習(xí)相關(guān)理論模型加以輔助,可以進(jìn)一步增加模型泛化能力、描述更豐富的場景[17-19]。文獻(xiàn)[17]率先將機(jī)器翻譯模型-編碼-解碼框架引入視覺場景理解任務(wù)中,通過卷積神經(jīng)網(wǎng)絡(luò)獲取最后一層非全連接層的特征;通過循環(huán)神經(jīng)網(wǎng)絡(luò)將詞匯編碼為D維的詞向量,句子就可以表示為V×D維的“圖片”矩陣,其中V表示句子中詞匯的個(gè)數(shù),D為詞向量的維度;最后使用LSTM解碼器結(jié)合圖像特征和語言模型逐詞逐句生成最終描述結(jié)果。隨后,文獻(xiàn)[18]在編碼-解碼框架的基礎(chǔ)上將注意力模型引入視覺場景描述任務(wù),通過建立注意力矩陣實(shí)現(xiàn)不同時(shí)刻,預(yù)測不同詞匯時(shí)可自動(dòng)關(guān)注不同區(qū)域,以此提升模型的描述性能。

      目前,基于編碼-解碼框架的模型和基于注意力模型的研究已廣泛應(yīng)用于視覺場景理解中,基本實(shí)現(xiàn)圖像向文字的翻譯過程。結(jié)合國內(nèi)外研究現(xiàn)狀,本文在對已有文獻(xiàn)進(jìn)行綜述的基礎(chǔ)上,討論視覺場景理解的最新技術(shù)動(dòng)態(tài),分析視覺場景理解的發(fā)展趨勢并指出未來研究方向。

      1 基于搜索的視覺場景理解模型

      1.1 模型描述

      基于搜索的視覺場景理解模型通常分為對象檢測和描述生成兩個(gè)階段,視覺場景識(shí)別模型如圖1 所示。

      圖1 基于搜索的視覺場景識(shí)別模型

      階段1主要任務(wù)為對象檢測。對象檢測是一種基于目標(biāo)幾何和統(tǒng)計(jì)特征的圖像分割方法,將目標(biāo)的分割和識(shí)別合二為一,可使整個(gè)系統(tǒng)更具準(zhǔn)確性和實(shí)時(shí)性。目前實(shí)現(xiàn)對象檢測的網(wǎng)絡(luò)主要有Fast R-CNN(fast region-based convolutional network)[20]、Faster R-CNN(faster region-based convolutional network)[21]、YOLO(you only look once)[22]等分類效果較好地分類網(wǎng)絡(luò)。對象檢測主要檢索的圖像包含人、狗、鳥、飛機(jī)等前景對象信息;樹、道路、河流、天空等背景對象信息;學(xué)校、商場、教堂等場景對象信息。具體過程分為3個(gè)部分。

      (1) 目標(biāo)定位

      使用選擇性搜索算法掃描輸入圖像,尋找可能存在的對象區(qū)域,生成大約2 000個(gè)可能存在對象的候選區(qū)域。

      (2) 實(shí)例分割

      計(jì)算2 000個(gè)候選區(qū)域與原始對象標(biāo)定位置的重疊度,以重疊度確定是否檢測到對象。該重疊度可通過設(shè)定交并比閾值(intersection-over-union,IoU)實(shí)現(xiàn),保留存在對象的候選框Q。獲取候選框Q的坐標(biāo)及圖中對象原有標(biāo)記框B的坐標(biāo),計(jì)算重疊率

      O=(Q∩B)/(Q∪B)。

      通過對比交并比閾值與重疊率O的大小,可確定候選框Q中是否包含對象。

      (3) 目標(biāo)檢測

      目標(biāo)檢測和圖像分類問題不同,每張圖片待檢測目標(biāo)的數(shù)量不確定,導(dǎo)致目標(biāo)檢測的輸出長度可變[23]。針對目標(biāo)可變問題,傳統(tǒng)方法通過設(shè)定劃窗函數(shù),給不同位置產(chǎn)生固定大小的特征窗,由窗口數(shù)量表示對象數(shù)量;而在深度學(xué)習(xí)中,通過搜索性算法粗略估計(jì)對象位置,由閾值確定對象具體位置,即獲取對象集合E。

      目標(biāo)檢測主要有兩種實(shí)現(xiàn)方法:(1)利用哈爾特征(haar features,HF)生成多個(gè)簡單的二元分類器實(shí)現(xiàn)。(2) 使用方向梯度直方圖(histogram of oriented gradient,HOG)特征和支持向量機(jī)(support vector machine,SVM)分類實(shí)現(xiàn)[24-25]。例如:使用基于機(jī)器學(xué)習(xí)的方法R-CNN,把CNN特征提取器應(yīng)用于圖像的每個(gè)區(qū)域,再使用支持向量機(jī)分類獲取最終分類結(jié)果;在Fast R-CNN分類網(wǎng)絡(luò)中,對完整的圖片進(jìn)行CNN特征提取,利用興趣區(qū)域(region of interest, RoI)進(jìn)行集中特征映射,再根據(jù)前向傳播網(wǎng)絡(luò)進(jìn)行分類和回歸;Faster R-CNN分類網(wǎng)絡(luò)是在Fast R-CNN基礎(chǔ)上,添加候選區(qū)域網(wǎng)絡(luò),試圖取消對搜索性算法的依賴,使得模型完全實(shí)現(xiàn)端對端的訓(xùn)練。

      階段2主要任務(wù)為圖像匹配。圖像匹配是通過建立影像內(nèi)容、特征、結(jié)構(gòu)、關(guān)系、紋理及灰度等的對應(yīng)關(guān)系,根據(jù)相似性和一致性的分析,尋求相似影像目標(biāo)的過程。結(jié)合階段1獲得的對象集合E,對圖像庫中的每張圖像進(jìn)行檢測,獲得對象集合F,計(jì)算E與F的交集G,獲取G最高的前K張圖像,并以該K張圖像對應(yīng)的描述為未知圖像的描述。以Dis(*)函數(shù)代表相似度計(jì)算函數(shù),針對不同類別對象的相似度計(jì)算具體如下。

      (1) 前景對象匹配

      若查詢圖像窗口檢測到對象Wq,匹配圖像窗口檢測到對象Wm,則這兩個(gè)對象的相似概率的計(jì)算表達(dá)式為

      P(Wq,Wm)=e-Dis(Wq,Wm),

      其中,P(*)為相似概率值,e(*)為指數(shù)函數(shù),用于將相似距離Dis(*)歸一化至[0,1]之間。

      (2) 行為匹配

      若查詢圖像窗口檢測到行為Aq,匹配圖像窗口檢測到行為Am,則這兩個(gè)行為的相似概率的計(jì)算表達(dá)式為

      P(Aq,Am)=e-Dis(Aq,Am)。

      (3) 場景匹配

      若查詢圖像窗口檢測到場景Sq,匹配圖像窗口檢測到場景Sm,則這兩個(gè)場景的相似概率的計(jì)算表達(dá)式為

      P(Sq,Sm)=e-Dis(Sq,Sm)。

      完成圖像匹配后,模型即可將K張圖像的描述作為自身描述直接輸出。另外,利用逆文本頻率指數(shù)(term frequency-inverse document frequency,TF-IDF)[26],對查詢圖像的內(nèi)容和匹配標(biāo)題的內(nèi)容進(jìn)行相似匹配操作,可確保描述具有更高的準(zhǔn)確性。該指數(shù)的計(jì)算方法如下。

      (1)計(jì)算詞頻

      詞頻(term frequency,TF)是指給定的文件中某個(gè)給定的詞語在該文件中出現(xiàn)的頻率。第i個(gè)文本文件中第j個(gè)詞的重要性可表示為

      (1)

      其中,nij表示為第i個(gè)文件中第j個(gè)詞出現(xiàn)的次數(shù),分母表示所有文件中第j個(gè)詞出現(xiàn)的次數(shù)總和,k為文件總數(shù)。

      (2)計(jì)算逆向文件頻率

      逆向文件頻率(iinverse document frequency,IDF)是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可由總文件數(shù)目除以包含該詞語的文件數(shù)目,再將得到的商取對數(shù)得到,逆向文件頻率的計(jì)算表達(dá)式為

      (2)

      其中,D表示文件總數(shù),Dj表示包含第j個(gè)詞匯的文檔個(gè)數(shù)。

      由式(1)和式(2),可得逆文本頻指數(shù)計(jì)算表達(dá)式為

      Rij=tij×rj。

      因此,通過目標(biāo)檢測可獲知圖像中包含的具體對象,利用圖像匹配算法與逆文本頻率算法確定前K張最為相似的圖像,并以該K張圖像的描述作為未知圖像的最終描述。

      1.2 研究現(xiàn)狀

      基于搜索的視覺場景理解模型,可細(xì)分為建立全局特征進(jìn)行搜索的視覺場景理解模型和建立圖像與句子間映射關(guān)系的視覺場景理解模型。文獻(xiàn)[27]通過一個(gè)大型圖像數(shù)據(jù)庫實(shí)現(xiàn)了對100萬張圖片的Flickr查詢,并對每張圖片賦以自動(dòng)描述結(jié)果;文獻(xiàn)[28]提供了一個(gè)可以計(jì)算圖像和句子之間的分?jǐn)?shù)的系統(tǒng),該分?jǐn)?shù)可用于將描述性句子附加到給定圖像,以此實(shí)現(xiàn)場景理解。具體相關(guān)研究如表1所示。

      表1 基于搜索的視覺場景理解模型相關(guān)研究

      2 基于模板匹配的視覺場景理解模型

      2.1 模型描述

      基于模板匹配的視覺場景理解模型也可分為對象檢測和描述生成兩個(gè)階段?;谀0迤ヅ涞囊曈X場景理解模型如圖2所示。

      階段1主要任務(wù)為對象檢測。通過目標(biāo)檢測和屬性檢測算法確定圖像中包含的人、狗、鳥、汽車等實(shí)體對象,以及對象之間的位置等屬性關(guān)系。

      (1)目標(biāo)檢測

      目標(biāo)檢測方法與基于搜索的視覺場景理解方法相同,可使用哈爾特征、HOG、支持向量機(jī)等檢測算法,也可使用R-CNN,F(xiàn)ast R-CNN,F(xiàn)aster R-CNN深度學(xué)習(xí)模型實(shí)現(xiàn)。

      (2)屬性檢測

      屬性檢測是對捕獲對象進(jìn)行外觀分析,將提前訓(xùn)練好的屬性分類器作用于給定圖片并獲取該圖片所包含對象的各種屬性特征。屬性分類器可以通過DeepMind和Deep-ID等深度模型實(shí)現(xiàn)。

      階段2主要任務(wù)為生成描述。結(jié)合目標(biāo)對象、屬性描述和位置信息,通過序列判別方法建立實(shí)體之間的序列聯(lián)系,根據(jù)預(yù)測內(nèi)容和自然語言對文本進(jìn)行統(tǒng)計(jì),匹配最為相似的語句作為圖像描述。常用自然語言處理方法為條件隨機(jī)場(conditional random field,CRF)[37]和隱馬爾可夫模型(hidden markov model,HMM)[38]等。以條件隨機(jī)場為例,詞匯預(yù)測模型具體實(shí)現(xiàn)如下。

      條件隨機(jī)場是一種判別式概率模型,常用于標(biāo)注或分析序列資料,如自然語言文字或是生物序列,轉(zhuǎn)化示例如圖3所示。圖3中圓圈代表一個(gè)實(shí)體對象,三角形代表對象屬性,菱形代表關(guān)系,五邊形表示根據(jù)語義補(bǔ)充的內(nèi)容,六邊形表示臨時(shí)節(jié)點(diǎn)。利用對象檢測器和屬性分類器共同確定兩個(gè)對象之間的關(guān)系,表示形式為(對象1∶關(guān)系詞∶對象2)的三元組。由于條件隨機(jī)場在推斷時(shí)只能處理一元或者二元對象,加入一個(gè)中間節(jié)點(diǎn)可將其轉(zhuǎn)化為一個(gè)一元對象和兩個(gè)二元對象的組合。即在圖3(a)中增加中間節(jié)點(diǎn)轉(zhuǎn)化為圖3(b),轉(zhuǎn)化后的圖譜可將原始三元組拆分為(屬性1,對象1),(關(guān)系詞),(屬性2,對象2)三個(gè)元組,隨后條件隨機(jī)場再通過以上三個(gè)元組獲得一組對象間的預(yù)測序列。

      根據(jù)上述模型計(jì)算方法,可獲得圖2中包含<,against,>、<,against,>、<,beside,>等多個(gè)三元組預(yù)測模型,并可通過條件隨機(jī)場拆分為一元或二元元組,最終生成預(yù)測序列。因此,基于模板匹配的視覺場景理解模型,通過建立生成序列模型與匹配模板,可根據(jù)對象類別、屬性關(guān)系和位置關(guān)系等確定最終描述結(jié)果。

      圖2 基于模板匹配的視覺場景識(shí)別模型

      圖3 三元組數(shù)據(jù)向二元組CRF轉(zhuǎn)化

      2.2 研究現(xiàn)狀

      基于模板匹配的視覺場景理解模型增加了具有靈活性的模板,提高了實(shí)際生產(chǎn)生活中的應(yīng)用能力。應(yīng)用場景包括:(1)工廠場景。記錄印刷電路板的模板為“__號電路板__位置出現(xiàn)__問題”。(2)醫(yī)院場景。不同病情的化驗(yàn)結(jié)果或X光結(jié)果描述結(jié)構(gòu)相同,模板為“__患者_(dá)_檢查存在__問題”。(3)家庭陪護(hù)場景。保留陪護(hù)機(jī)器人的關(guān)鍵視頻,并建立視頻摘要,模板為“__時(shí)__分,__人干了__事,結(jié)果__”。具體相關(guān)研究如表2所示。

      表2 基于模板匹配的視覺場景理解模型相關(guān)研究

      3 基于注意力模型的視覺場景理解模型

      與基于搜索的模型和基于模板匹配的模型不同,基于注意力模型的研究旨在學(xué)習(xí)視覺內(nèi)容和文本句子在公共空間中的概率分布,即映射關(guān)系,以生成具有更靈活語法結(jié)構(gòu)的新句子。目前,利用神經(jīng)網(wǎng)絡(luò)分析概率分布,已在圖像描述任務(wù)中取得了重大突破。文獻(xiàn)[45]提出建立多模態(tài)對數(shù)-雙線性神經(jīng)語言模型實(shí)現(xiàn)圖像生成句子。文獻(xiàn)[46]提出了一種端到端的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),利用LSTM網(wǎng)絡(luò)為圖像生成句子,并在編碼-解碼框架的基礎(chǔ)上結(jié)合注意力模型,提高了模型描述準(zhǔn)確率。

      3.1 模型描述

      基于注意力模型的視覺場景理解模型是對基于編碼-解碼框架模型的視覺場景理解模型的補(bǔ)充與擴(kuò)展。主要通過編碼-解碼框架與注意力模型兩種技術(shù),得到圖像的最終描述。

      3.1.1 編碼-解碼框架

      編碼-解碼框架已廣泛應(yīng)用于自然語言處理中,主要完成端對端的學(xué)習(xí)任務(wù),包括機(jī)器翻譯、文本摘要提取和系統(tǒng)問答等[47-49]。在機(jī)器翻譯中,輸入序列是待翻譯的文本,輸出序列是翻譯后的文本;在系統(tǒng)問答中,輸入序列是提出的問題,輸出序列是答案;在視覺場景理解中,輸入序列是圖像的特征圖譜,輸出序列是描述后的文本。而圖像和其描述詞匯之間具有對應(yīng)關(guān)系,也可理解為構(gòu)成了端對端的任務(wù)系統(tǒng),因此,可在圖像/視頻描述生成任務(wù)中使用編碼-解碼框架。編碼-解碼框架的實(shí)現(xiàn)過程為將編碼器作用于輸入序列x,生成上下文向量c,再將上下文向量c傳入解碼器生成輸出序列y,結(jié)構(gòu)如圖4所示。

      圖4 編碼-解碼框架

      編碼-解碼框架在編碼階段主要實(shí)現(xiàn)對圖像的編碼、建立語言模型和建立圖像與文本映射關(guān)系;解碼階段是將語言模型、圖像特征等數(shù)據(jù)送入解碼網(wǎng)絡(luò)生成自然語言描述。因此,基于注意力模型的視覺場景理解任務(wù)包含視覺理解和圖像解碼兩個(gè)模塊。

      (1)視覺理解模塊

      視覺理解模塊用于提取特征,獲取圖像中的對象信息、屬性信息、位置信息等,并將這些信息編碼為可以供解碼器理解的中間向量。對于這一任務(wù),大多數(shù)模型可通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)提取的特征向量又可稱為注視向量,每個(gè)注視向量對應(yīng)于圖像的一個(gè)區(qū)域。注視向量可表示為

      T=(a1,a2,…,am),ai∈D,

      其中,ai表示圖像的一個(gè)區(qū)域特征,m表示提取的特征總數(shù),D表示每個(gè)特征的維度。

      將圖像I與注視向量T按位相乘,得到“注視”圖譜

      I′=I?T。

      將每次注視完成后的“注視”圖譜送入圖像解碼模塊用于生成當(dāng)前階段詞匯。

      (2)圖像解碼模塊

      圖像解碼器的主要結(jié)構(gòu)為LSTM網(wǎng)絡(luò),其輸入包括t時(shí)刻的上下文向量ct,t-1時(shí)刻的隱藏狀態(tài)ht-1,t時(shí)刻前生成的描述yt-1,則生成下一次詞匯的表達(dá)式為

      yt=Φ(ct,ht-1,yt-1)。

      LSTM網(wǎng)絡(luò)是解碼模塊的核心,而LSTM網(wǎng)絡(luò)的核心組件為知識(shí)記憶單元(細(xì)胞),其圍繞知識(shí)記憶單元建立遺忘門、輸入門和輸出門等一系列的門結(jié)構(gòu),這些門可用于知識(shí)篩選與知識(shí)更新[50-51],具體實(shí)現(xiàn)步驟如下。

      步驟1通過遺忘門篩選信息。將新知識(shí)與舊知識(shí)進(jìn)行對比,如果是對舊知識(shí)的改進(jìn),則遺忘舊知識(shí)。t時(shí)刻的遺忘門f的篩選結(jié)果的計(jì)算表達(dá)式為

      ft=δ[Wf(ht-1,xt)+bf],

      其中,δ表示sigmoid激活函數(shù),Wf為遺忘門的權(quán)重矩陣,xt為t時(shí)刻的輸入,bf為遺忘門的偏置量。

      步驟2通過輸入門篩選更新信息。利用目前學(xué)習(xí)到的知識(shí),對當(dāng)前學(xué)習(xí)到的知識(shí)進(jìn)行過濾,使用新知識(shí)更新舊知識(shí)。t時(shí)刻輸入門p和知識(shí)記憶單元N的篩選結(jié)果的計(jì)算表達(dá)式分別為

      pt=δ[Wp(ht-1,xt)+bp],
      Nt=φ[WN(ht-1,xt)+bN]。

      其中,δ、φ分別為softmax和tanh激活函數(shù),Wp、WN分別為輸入門和知識(shí)記憶單元的權(quán)重矩陣,bp、bN分別為輸入門和知識(shí)記憶單元的偏置量。

      步驟3更新知識(shí)記憶單元。將舊知識(shí)與新知識(shí)進(jìn)行整合,獲得本輪要存入知識(shí)記憶單元的知識(shí)

      步驟4通過輸出門篩選數(shù)據(jù)并輸出最終結(jié)果。t時(shí)刻輸出門的輸出結(jié)果和隱藏狀態(tài)更新結(jié)果的計(jì)算表達(dá)式分別為

      其中,Wo為輸出門的權(quán)重矩陣,bo為輸出門的偏置量。

      經(jīng)過上述步驟的多步迭代,將逐次逐句生成圖像的完整描述。因此,基于編碼-解碼框架的視覺場景模型,首先通過CNN對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,將獲得模型中間一層或多層的特征圖譜作為解碼器解碼時(shí)的輸入特征。然后在圖像解碼模塊中,將當(dāng)前輸入特征、知識(shí)記憶單元、以及上一時(shí)刻的隱藏狀態(tài)向量一并送入LSTM,循環(huán)生成下一描述詞匯,最終獲得目標(biāo)描述。該模型結(jié)構(gòu)如圖5所示。

      圖5 基于編碼-解碼框架的視覺場景理解模型

      3.1.2 注意力模型

      注意力模型主要應(yīng)用在圖像解碼階段,其表現(xiàn)為同一組特征圖譜,在不同時(shí)刻對不同區(qū)域具有不同的注意力,通過關(guān)注系數(shù)取值高低來決定注意力,取值越高注意力越大,取值越低注意力越小。

      在描述生成過程中,結(jié)合t-1時(shí)刻的知識(shí)記憶單元Nt-1、t時(shí)刻的輸入xt、t-1時(shí)刻的隱藏狀態(tài)ht-1,生成t時(shí)刻的描述yt,并通過隱藏狀態(tài)對輸入數(shù)據(jù)的影響實(shí)現(xiàn)關(guān)注位置的遷移?;谧⒁饬δP偷囊曈X場景理解模型如圖6所示。其中,編碼階段獲得圖片的結(jié)構(gòu)化集合V可描述為

      V={v1,v2,…,vM},

      其中,vi表示圖像中第i塊對應(yīng)集合的元素,代表輸入信息中某個(gè)時(shí)間片或者空間位置上的輸入信息,M表示集合V分塊數(shù)。每個(gè)集合對于上下文向量在t時(shí)刻所表達(dá)的注意力得分表達(dá)式為

      對得分結(jié)果進(jìn)行歸一化處理,獲得第i個(gè)位置t時(shí)刻的歸一化權(quán)重

      則歸一化后t時(shí)刻的注意力權(quán)重矩陣

      將V與βt進(jìn)行按位相乘運(yùn)算,可獲取t時(shí)刻的上下文向量,則更新上下文向量的計(jì)算表達(dá)式為

      ct=V?βt。

      將更新的上下文向量ct、t-1時(shí)刻的隱藏狀態(tài)ht-1、t-1時(shí)刻的描述送入解碼器網(wǎng)絡(luò)生成t時(shí)刻的描述

      yt=Φ(ct,ht-1,yt-1),

      經(jīng)過多步迭代,將逐次逐句生成圖像的完整描述。

      圖6 基于注意力模型的視覺場景理解模型

      3.2 研究現(xiàn)狀

      基于注意力模型的視覺場景理解模型可分為軟注意力模型與硬注意力模型兩個(gè)內(nèi)容。文獻(xiàn)[52]通過注意力的自然基礎(chǔ)理論提出了一個(gè)組合自下而上和自上而下的注意機(jī)制,使注意力能夠在對象之外的多個(gè)方面發(fā)揮作用。文獻(xiàn)[53]提出了一種新的編碼器-解碼器框架的擴(kuò)展——審查網(wǎng)絡(luò),該網(wǎng)絡(luò)是通用的,可以增強(qiáng)任何現(xiàn)有的編碼器-解碼器模型。該網(wǎng)絡(luò)對編碼器隱藏狀態(tài)執(zhí)行多個(gè)審查步驟,每個(gè)審查步驟后輸出一個(gè)思想向量,思想向量作為解碼器中注意力模型的輸入,以此保證整體描述的連貫性。具體相關(guān)研究如表3所示。

      表3 基于注意力模型的視覺場景理解模型相關(guān)研究

      (續(xù)表3)

      4 評價(jià)標(biāo)準(zhǔn)與數(shù)據(jù)集

      視覺場景理解任務(wù)基于機(jī)器視覺、自然語言處理等多個(gè)領(lǐng)域。因此,針對機(jī)器翻譯性能的評價(jià)準(zhǔn)則也同樣適用于視覺場景理解任務(wù)。

      4.1 評價(jià)準(zhǔn)則

      視覺場景理解任務(wù)的靈感來源于機(jī)器翻譯,對其評價(jià)標(biāo)準(zhǔn)可以參考機(jī)器翻譯的評價(jià)方法,將生成語句與人工描述相匹配,獲取一個(gè)相似度得分,以此來衡量描述的準(zhǔn)確性。常用的評價(jià)準(zhǔn)則有:基于雙語互譯質(zhì)量評估準(zhǔn)則(bilingual evaluation understud,BLEU)[62]、基于加權(quán)平均數(shù)與單字召回率的評估準(zhǔn)則Meteor[63]、基于共識(shí)的圖像描述評價(jià)準(zhǔn)則(consensus-based image description evaluation,CIDEr)[64]、基于召回率的相似性度量準(zhǔn)則(recall-oriented understudy for gisting evaluating,ROUGE)[65]等。各評價(jià)準(zhǔn)則詳細(xì)描述如下。

      (1)BLEU

      BLEU為雙語互譯質(zhì)量評估準(zhǔn)則,是評估機(jī)器翻譯質(zhì)量的工具。通過兩個(gè)句子的共現(xiàn)詞頻率計(jì)算,判斷兩個(gè)句子的相似程度,與多個(gè)給定描述進(jìn)行對比,從而獲得平均得分。分?jǐn)?shù)越高說明翻譯效果越好。BLEU準(zhǔn)則表達(dá)式

      其中,d表示候選描述,s表示參考描述,b為懲罰函數(shù),k表示選取某一個(gè)描述的概率,通常為1/n,p表示精度度量函數(shù)。Z表示相似判斷時(shí)每次使用的連續(xù)詞匯長度,z表示從句子中選取詞匯的起始位置,z∈[1,Z-3]。

      (2) Meteor

      Meteor是基于單精度的加權(quán)調(diào)和平均數(shù)與單字召回率的評價(jià)準(zhǔn)則,其目的是解決BLEU標(biāo)準(zhǔn)中固有的缺陷,Meteor準(zhǔn)則表達(dá)式為

      J=F(1-ν),

      其中,F(xiàn)為召回率的加權(quán)調(diào)和平均數(shù),ν為懲罰系數(shù)。

      (3) CIDEr

      CIDEr將每個(gè)句子看作“文檔”,表示成TF-IDF向量的形式,再計(jì)算參考描述與模型生成描述的余弦相似度以此作為評分結(jié)果。其評分表達(dá)式為

      其中,‖*‖為計(jì)算范數(shù)的操作,dη為候選描述,sη為參考描述,η表示測試數(shù)據(jù)集中圖片的編號,g為將描述轉(zhuǎn)化為TF-IDF向量的函數(shù)。

      (4)ROUGE

      ROUGE是一種基于召回率的相似性度量方法,和BLEU類似,缺少召回率的加權(quán)調(diào)和平均數(shù)的評價(jià)功能,主要考察翻譯的充分性和忠實(shí)性,無法評價(jià)參考譯文的流暢度,其計(jì)算的是N元組在參考描述和待評測描述的貢獻(xiàn)概率。

      4.2 數(shù)據(jù)集

      (1)Flickr30k數(shù)據(jù)集

      Flickr30K數(shù)據(jù)集[66]包含31,783張圖片,每張圖片帶有5個(gè)人類語言描述的標(biāo)簽,共158 915條描述。

      (2)MS COCO

      MS COCO(common objects in context)[68]是用于圖像識(shí)別、圖像分割和視覺場景理解的數(shù)據(jù)集。該數(shù)據(jù)集共包含30萬張圖片,每張圖片包含多于3個(gè)對象,并且為每張圖片配有5個(gè)描述。

      (3)PASCAL VOC

      PASCAL VOC數(shù)據(jù)集[69]不僅提供大量圖片-句子數(shù)據(jù),也提供了標(biāo)準(zhǔn)圖像檢測算法和圖像描述性能的評估系統(tǒng)。數(shù)據(jù)集共包含20個(gè)類別,分別為人類;鳥、貓、牛、狗、馬、羊等動(dòng)物;飛機(jī)、自行車、船、公共汽車、小轎車、摩托車、火車等交通工具;瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視等室內(nèi)物品。

      4.3 模型對比

      分別從模型優(yōu)劣勢和典型方法性能兩方面對比基于搜索的視覺場景理解模型、基于模板匹配的視覺場景理解模型和基于注意力模型的視覺場景理解模型。

      (1)模型優(yōu)劣勢對比

      表4從主要技術(shù)、特點(diǎn)分析兩方面對3類模型進(jìn)行分析,列舉了每類模型的主要技術(shù)和優(yōu)劣勢,具體如表所示。

      表4 3種視覺場景理解模型優(yōu)缺點(diǎn)對比

      (2)典型方法性能對比

      分別對比基于搜索的視覺場景理解模型的Im2Text[6];基于模板匹配的視覺場景理解模型的BabyText[8];基于語言模型的視覺場景理解模型的Google NIC[17]和SAT[18]等4種典型方法的性能及人類自然描述Human,其中Google NIC模型沒有使用注意力模型。實(shí)驗(yàn)中使用PASCAL VOC數(shù)據(jù)集[69]與SBU數(shù)據(jù)集[6]作為實(shí)驗(yàn)數(shù)據(jù)集,使用BLEU@4[62]準(zhǔn)則作為評價(jià)準(zhǔn)則,即判斷連續(xù)4個(gè)詞匯是否相似。具體對比結(jié)果如表5所示。

      表5 視覺場景理解的典型模型性能對比

      5 視覺場景理解的發(fā)展趨勢

      5.1 發(fā)展趨勢

      視覺場景理解已開始嘗試應(yīng)用在盲人輔助系統(tǒng)的視覺信息分析、機(jī)器人視覺系統(tǒng)的場景理解、無人駕駛系統(tǒng)中路況場景分析等現(xiàn)實(shí)需求各個(gè)方面。學(xué)者們一方面需要研究新的研究方式方法以滿足各種新應(yīng)用的挑戰(zhàn),還要改進(jìn)原有理論體系應(yīng)對不斷變化的應(yīng)用場景。視覺場景理解的發(fā)展也促進(jìn)了智能硬件和智慧城市等研究的發(fā)展。因此,視覺場景理解的發(fā)展需要向標(biāo)準(zhǔn)化和面向社會(huì)應(yīng)用的實(shí)用化趨勢發(fā)展。

      (1)標(biāo)準(zhǔn)化趨勢

      標(biāo)準(zhǔn)化是科學(xué)研究發(fā)展到一定階段的產(chǎn)物,建立標(biāo)準(zhǔn)化的研究體系有利于把握研究方向,并能在此基礎(chǔ)上不斷衍生新的課題。視覺場景理解模型研究是計(jì)算機(jī)視覺和自然語言處理相互結(jié)合的產(chǎn)物,對其建立標(biāo)準(zhǔn)化體系將為計(jì)算機(jī)視覺與自然語言處理提供更多的原動(dòng)力。

      (2)面向社會(huì)應(yīng)用的實(shí)用化趨勢

      深度學(xué)習(xí)網(wǎng)絡(luò)與嵌入式技術(shù)的大力發(fā)展給視覺場景理解模型的實(shí)際應(yīng)用帶來了新的機(jī)遇與挑戰(zhàn)。目前的研究已經(jīng)開始在盲人輔助體系、機(jī)器人輔助視覺和無人駕駛輔助體系等現(xiàn)實(shí)需求中做出大量嘗試,但網(wǎng)絡(luò)模型大、嵌入式設(shè)備計(jì)算不足等問題使其與工業(yè)級應(yīng)用仍然具有較大差距。但是,隨著智能硬件、工業(yè)4.0等思想的提出,深度網(wǎng)絡(luò)壓縮、圖形處理器(graphics processing unit,GPU)等技術(shù)的不斷突破;深圳市大疆創(chuàng)新科技有限公司和杭州海康威視數(shù)字技術(shù)股份有限公司等企業(yè)的不斷嘗試使視覺場景理解模型走向?qū)嵱贸蔀楝F(xiàn)實(shí)。

      5.2 研究方向

      不斷涌現(xiàn)的現(xiàn)實(shí)需求與不斷革新的信息技術(shù)不僅為視覺場景理解模型走向?qū)嵱锰峁┝思夹g(shù)理論支撐,還為視覺場景理解帶來了新的機(jī)遇與挑戰(zhàn),使其在未來的研究中不僅需要在理論研究方面進(jìn)行大量創(chuàng)新,還需要針對智能硬件、智能制造、智慧城市等實(shí)際應(yīng)用中需求進(jìn)行大量探索,盡快實(shí)現(xiàn)工業(yè)級應(yīng)用。因此,視覺場景理解模型的下一發(fā)展階段應(yīng)更加聯(lián)系實(shí)際,結(jié)合智能制造、智慧城市建設(shè)的浪潮,不斷優(yōu)化模型、優(yōu)化算法體系、貼近現(xiàn)實(shí),實(shí)現(xiàn)在提高模型能力的基礎(chǔ)上也提高模型實(shí)用性。在對已有文獻(xiàn)進(jìn)行綜述的基礎(chǔ)上,總結(jié)了視覺場景理解的最新技術(shù)動(dòng)態(tài),通過分析視覺場景理解的發(fā)展趨勢,給出了基于多種注意力模型融合的視覺場景理解、基于輔助網(wǎng)絡(luò)的視覺場景理解和基于樹形結(jié)構(gòu)的視覺場景理解等模型進(jìn)行探索,不斷增強(qiáng)模型能力。

      (1) 基于多種注意力模型融合的視覺場景理解模型

      注意力模型雖然能在描述生成過程中有選擇的關(guān)注圖像區(qū)域,但是,目前方法采用的特征均來自于分類器網(wǎng)絡(luò)的最后一個(gè)卷積層,這層雖然具有最高級的語義特征,但受神經(jīng)元的影響,使得對象之間的區(qū)分度變小,并抑制了注意力模型的能力。因此,在后續(xù)研究中,可以探究低級特征或多層次特征對描述性能的影響,并借用目標(biāo)跟蹤中使用多層特征線性組合的思想,構(gòu)建新的特征圖譜,建立基于多層空間的注意力模型,提高特征定位能力;與此同時(shí),在每一層內(nèi)部使用通道關(guān)注模型定位最能表述內(nèi)容的區(qū)域,從而提高描述的準(zhǔn)確性。

      (2) 基于輔助網(wǎng)絡(luò)的視覺場景理解模型

      視覺場景理解的數(shù)據(jù)集為MSCOCO、Flickr30K、Flickr8K等,每個(gè)數(shù)據(jù)集的場景有限,而且識(shí)別粒度不同,在模型調(diào)整過程中參考的內(nèi)容是當(dāng)前數(shù)據(jù),因此,在每個(gè)數(shù)據(jù)集上訓(xùn)練的模型都難以適應(yīng)其他數(shù)據(jù)集的描述,從而降低了原始模型的表達(dá)范圍,使得最終所能識(shí)別的對象只能來自于訓(xùn)練集。因此,在解碼階段嘗試補(bǔ)充實(shí)體內(nèi)容,豐富描述的多樣性。

      (3) 基于樹形結(jié)構(gòu)的視覺場景理解模型

      機(jī)器翻譯中序列到序列的生成機(jī)制,要求對前后語義理解正確,一旦前一詞匯表述錯(cuò)誤將直接導(dǎo)致整個(gè)描述失敗。因此,若將視覺場景理解回歸目標(biāo)檢測與卡槽填充,不僅有助于生成魯棒性更高地新穎描述,還可以有效降低錯(cuò)誤描述的概率。通過目標(biāo)檢測獲得圖像中的實(shí)體對象,并將這些實(shí)體對象以二叉樹的非葉子節(jié)點(diǎn)組織起來構(gòu)成描述的基本框架;然后通過屬性檢測器獲得每個(gè)實(shí)體對象更加細(xì)致的表達(dá),以此豐富表述結(jié)果。

      6 結(jié)語

      基于注意力模型的視覺場景理解模型具有更好的場景適應(yīng)性,泛化能力高,容錯(cuò)能力強(qiáng)。視覺場景理解模型將以建立標(biāo)準(zhǔn)化和面向社會(huì)應(yīng)用的實(shí)用化為未來研究趨勢,基于多種注意力模型融合的視覺場景理解模型、基于輔助網(wǎng)絡(luò)的視覺場景理解模型和基于樹形結(jié)構(gòu)的視覺場景理解模型等多個(gè)模型可作為未來深入探索的研究內(nèi)容。

      猜你喜歡
      解碼注意力對象
      神秘來電
      睿士(2023年2期)2023-03-02 02:01:09
      《解碼萬噸站》
      讓注意力“飛”回來
      解碼eUCP2.0
      中國外匯(2019年19期)2019-11-26 00:57:32
      NAD C368解碼/放大器一體機(jī)
      Quad(國都)Vena解碼/放大器一體機(jī)
      攻略對象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      基于熵的快速掃描法的FNEA初始對象的生成方法
      A Beautiful Way Of Looking At Things
      镇康县| 山东省| 张家港市| 乌苏市| 大姚县| 浙江省| 临泉县| 乌鲁木齐市| 兴山县| 高密市| 卓尼县| 枞阳县| 留坝县| 开原市| 霍城县| 老河口市| 东方市| 海原县| 凌源市| 黄龙县| 永安市| 双桥区| 迭部县| 东山县| 临沂市| 新宁县| 博白县| 什邡市| 灵山县| 花垣县| 浠水县| 宜州市| 湛江市| 青田县| 肇源县| 繁峙县| 灯塔市| 承德市| 九寨沟县| 罗江县| 筠连县|