肖婧文,姜士玲,溫俊芳,胡藝馨,王秋艷,宋慶增
(天津工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300387)
目前已有很多學(xué)者提出了多種新的模型來(lái)處理視覺(jué)問(wèn)答(visual question answering,VQA)任務(wù)。Hu等[1]提出了基于神經(jīng)網(wǎng)絡(luò)的端到端的視覺(jué)推理方法,可以動(dòng)態(tài)地預(yù)測(cè)與問(wèn)題語(yǔ)句描述相關(guān)的區(qū)域。Lee等[2]提出了堆疊式交叉注意力網(wǎng)絡(luò),使用自底向上的注意力機(jī)制檢測(cè)圖片中需要關(guān)注的信息。Wenya Guo等[3]提出了一個(gè)基于再關(guān)注框架的方法,可以通過(guò)答案重建初始注意圖,從而更好地理解問(wèn)題。
然而,圖片中不存在任何物體與問(wèn)句直接對(duì)應(yīng)的時(shí)候,會(huì)導(dǎo)致錯(cuò)誤的匹配及回答。比如,當(dāng)問(wèn)題語(yǔ)句包含“婚禮”這類場(chǎng)景詞的時(shí)候,因其不是實(shí)際物體,即使圖片中存在婚禮通常包含的“神父”、“教堂”、“花”等與婚禮有關(guān)的物體,現(xiàn)有的基于物體檢測(cè)的深度學(xué)習(xí)算法也無(wú)法進(jìn)行準(zhǔn)確的匹配。
本文針對(duì)上述不足,提出了一種基于場(chǎng)景詞分析的視覺(jué)問(wèn)答方法。本文的方法通過(guò)結(jié)合VQA語(yǔ)句理解、文本匹配、概率分析回答等模塊,提高了面向圖片集的視覺(jué)問(wèn)答任務(wù)的回答準(zhǔn)確率。
如圖1所示,本文提出的方法可以分成VQA語(yǔ)句理解模塊、文本匹配模塊、概率分析模塊。①VQA語(yǔ)句理解模塊主要采用基于注意力機(jī)制的one-shot深度學(xué)習(xí)模型,基于物體檢測(cè)生成第一次答案。當(dāng)?shù)谝淮未鸢副挥脩糍|(zhì)疑(希望得到其它答案)或者否定的時(shí)候,將啟動(dòng)如下兩個(gè)模塊。②文本匹配模塊,首先檢測(cè)并提取圖片及其相關(guān)信息中所有出現(xiàn)的物體,然后將這些物體與問(wèn)題語(yǔ)句進(jìn)行語(yǔ)義匹配。③概率分析回答模塊通過(guò)匹配算法,首先生成候選結(jié)果集,之后對(duì)選項(xiàng)進(jìn)行分析,最后選擇最高置信度的答案作為最終答案。
圖1 本文模型的概述
該模塊基于Liang等[4]提出的一種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行搭建,用于推理圖片及問(wèn)題信息,最后可視化每個(gè)子模塊的結(jié)果。注意力機(jī)制動(dòng)態(tài)地觀察在全局信息中應(yīng)該注意哪些子模塊生成的結(jié)果?;A(chǔ)VQA模塊的子模塊包含模塊生成器、模塊處理器和分類器,處理視覺(jué)特征和文本特征。
1.1.1 問(wèn)句-圖像模塊的生成
模塊生成器使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的所有圖片進(jìn)行編碼,再用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)所有問(wèn)句進(jìn)行編碼。序列編碼器使用長(zhǎng)短記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對(duì)圖片序列和問(wèn)句序列進(jìn)行編碼,獲得這些序列之間的關(guān)聯(lián)信息。
1.1.2 注意力網(wǎng)絡(luò)模塊
如圖2所示,本文的模型使用注意力機(jī)制來(lái)捕獲圖片序列和問(wèn)題序列之間的相互聯(lián)系。圖片上下文注意層旨在讓模型基于問(wèn)題的各個(gè)詞語(yǔ)尋找關(guān)聯(lián)的圖片上下文范圍和時(shí)間步長(zhǎng)。首先引進(jìn)關(guān)于時(shí)間的關(guān)聯(lián)矩陣D∈RL*L,L是序列的最大長(zhǎng)度,D是一個(gè)對(duì)稱矩陣Dij,代表一個(gè)問(wèn)題的第i步和第j步內(nèi)部的關(guān)聯(lián)性。每個(gè)上下文Dij(?i,j∈[1,L]), 然后進(jìn)行如下計(jì)算
(1)
式中:wd∈R2a*1,wo∈R4a*2a屬于模型的參數(shù),S是定義的相似函數(shù),oip表示圖像(p=1)序列或文本(p=2)序列的第i個(gè)時(shí)間步長(zhǎng)矢量表示,Q代表問(wèn)題,共有M個(gè)單詞,是切片運(yùn)算的符號(hào),主要用在向量空間中獲取全部的元素。時(shí)間相關(guān)矩陣獲取了問(wèn)題、圖片和文本序列的時(shí)間相關(guān)性。
(2)
(3)
(4)
(5)
(6)
圖2 本文的注意力機(jī)制和經(jīng)典VQA注意機(jī)制的比較
1.1.3 輸出模塊
文本匹配在很多自然語(yǔ)言處理(NLP)任務(wù)中起到重要作用,例如問(wèn)題解答(QA),信息檢索(IR)[7]和許多其它任務(wù)。在QA匹配任務(wù)中,問(wèn)句與答案可能是因果關(guān)系匹配,而不是簡(jiǎn)單的語(yǔ)義匹配(例如同義詞[8]),這導(dǎo)致問(wèn)句和答案之間的語(yǔ)義距離很大。與文本匹配不同的是,本文的任務(wù)是要找出圖片上標(biāo)注的文本與問(wèn)句文本在語(yǔ)義上是否相等。本文針對(duì)相冊(cè)里的圖片,基于其場(chǎng)景詞,生成多個(gè)不同含義關(guān)系的語(yǔ)句。每個(gè)句子有一定的意義,所有的語(yǔ)句都是根據(jù)圖像的內(nèi)容來(lái)判斷,再與問(wèn)句進(jìn)行匹配,并以置信度最高的答案為最后的輸出。
本文利用對(duì)象檢測(cè)器通過(guò)注意力機(jī)制去理解場(chǎng)景。視覺(jué)場(chǎng)景不僅僅是孤立的一個(gè)個(gè)物體,物體之間的關(guān)系也組成了有關(guān)這個(gè)場(chǎng)景的豐富的文本信息。比如,兩張圖片中有一個(gè)喂貓的男人和站在貓旁邊的男人,即使是完美的檢測(cè)器也很難感知到喂貓的男人與站在貓旁邊的男人之間的細(xì)微差別,也會(huì)在兩個(gè)語(yǔ)義上不同的圖像上產(chǎn)生相似的輸出(貓、男人)。所以在本文中,使用基于場(chǎng)景圖生成[9]的模型(圖片可視化的圖形結(jié)構(gòu)),該模型將圖像作為輸入,能夠提取出所有的物體并生成一個(gè)場(chǎng)景圖,預(yù)測(cè)圖片中所有物體還有它們之間的關(guān)系。將圖的迭代問(wèn)題使用標(biāo)準(zhǔn)RNN解決,通過(guò)消息傳遞來(lái)迭代地改進(jìn)其預(yù)測(cè),使用聯(lián)合推斷模型可以利用上下文行為去更好地預(yù)測(cè)對(duì)象及其之間的關(guān)系。本文的方法將圖片解析為場(chǎng)景圖,然后對(duì)多個(gè)對(duì)象進(jìn)行推理,解決圖像中出現(xiàn)場(chǎng)景詞的問(wèn)題,將場(chǎng)景圖形映射到圖像以計(jì)算圖像和問(wèn)題之間的相似性。
該模塊建立一個(gè)場(chǎng)景圖,將檢測(cè)出來(lái)的物體作為節(jié)點(diǎn),將物體之間的成對(duì)關(guān)系作為邊,利用結(jié)構(gòu)化知識(shí)進(jìn)行解釋和推理[10]。由于生成出來(lái)的場(chǎng)景圖不能直接使用,所以需要將它們轉(zhuǎn)換為多個(gè)視覺(jué)-文本對(duì),之后將視覺(jué)文本傳送給雙向LSTM。
接著用一個(gè)語(yǔ)義匹配模型來(lái)估計(jì)答案概率分布Pr(P|B,Q)。 如圖3所示,本文將相似性匹配模型應(yīng)用在場(chǎng)景語(yǔ)句中,給出一對(duì)問(wèn)句Q和視覺(jué)文本描述V,單詞嵌入把單詞轉(zhuǎn)變成d維向量,使用雙向LSTM讀取表示每個(gè)輸入句子的單詞向量,隨后衡量這些語(yǔ)義之間的相似性,輸出得分。
圖3 語(yǔ)句相似度匹配模型概述
(7)
下一層稱為上下文表示層,這一層將上下文信息融入到視覺(jué)文本對(duì)和問(wèn)題的每個(gè)時(shí)間步的表示中,采用雙向LSTM為每個(gè)問(wèn)句開(kāi)始編碼。由N個(gè)單詞組成的問(wèn)題首先被轉(zhuǎn)換為Glove向量序列,同時(shí)將雙向LSTM應(yīng)用到視覺(jué)文本對(duì)里,由M個(gè)單詞組成的視覺(jué)文本序列同樣先被轉(zhuǎn)換為Glove向量序列。接著采用空間加權(quán)匹配如式(8)
m=fm(u1,u2;W)
(8)
u1和u2為兩個(gè)D維空間矢量,W為可學(xué)習(xí)參數(shù)。m為選擇的特征的數(shù)量,且返回值m為一個(gè)l維矢量m=[m1…m2…ml]。
然后經(jīng)過(guò)兩個(gè)加權(quán)向量之間的余弦相似性來(lái)匹配如式(9)
mk=cosine(Wk°u1,Wk°u2)
(9)
從第k層來(lái)看,每個(gè)元素mk∈m是一個(gè)匹配值,并且它是通過(guò)兩個(gè)加權(quán)矢量之間的余弦相似性來(lái)計(jì)算的。
本文設(shè)計(jì)的概率分析模塊,通過(guò)推理和分析生成多個(gè)描述,然后與問(wèn)題進(jìn)行匹配,匹配完后產(chǎn)生得分,選出每個(gè)匹配后得分最高的作為候選信息,對(duì)每個(gè)候選信息語(yǔ)句進(jìn)行排序。之后,經(jīng)過(guò)概率分析器分析與選項(xiàng)中選項(xiàng)置信度最高的結(jié)果作為最后的答案進(jìn)行輸出。
為了能夠從選項(xiàng)中選出最終結(jié)果,本文的方法將對(duì)這些結(jié)果正確的概率進(jìn)行分析。在對(duì)問(wèn)句與語(yǔ)句進(jìn)行匹配結(jié)束后,需要對(duì)匹配結(jié)果進(jìn)行排序,排序函數(shù)為Timsort算法[11],Timsort算法根據(jù)得分從高到低進(jìn)行排序。算法是將歸并排序和插入排序進(jìn)行融合而得到的排序算法,它的執(zhí)行效率很高。Timsort算法找到數(shù)據(jù)中已經(jīng)排好序的塊,把每一個(gè)已經(jīng)有序的分區(qū)稱為一個(gè)Block,每個(gè)Block最少要有2個(gè)元素。針對(duì)升序和降序區(qū)別出每個(gè)Block,然后按規(guī)則合并這些Block,排序方法的輸入是一個(gè)個(gè)有序排列塊,針對(duì)這些 Block 序列,每次選取一個(gè) Block出來(lái)按規(guī)則進(jìn)行合并。每次合并會(huì)將兩個(gè)Block合并成一個(gè) Block,合并的結(jié)果保存到棧中。一直進(jìn)行歸并,直到遍歷完所有的Block,這時(shí)將棧上剩余的Block合并到只剩一個(gè)Block為止。
如果經(jīng)過(guò)匹配的結(jié)果答案概率,相似度得分最大的概率作為最終的候選結(jié)果。如果不在4個(gè)選項(xiàng)中,把最高的概率當(dāng)成最終的答案的話,可能會(huì)使模型找不到正確的答案,從而在選項(xiàng)中隨便選擇一個(gè),導(dǎo)致回答錯(cuò)誤。所以,對(duì)得分前五的數(shù)據(jù)進(jìn)行處理,與選項(xiàng)進(jìn)行結(jié)合,選出最佳答案。
排名在第一位的固然最有可能成為正確答案,但是排名靠前的如果并不是正確答案,意味著和其相似的答案正確概率也不高。例如,在圖4中答案部分,經(jīng)過(guò)前面的描述與問(wèn)題相似性匹配后,樣本圖片2的桌子相似性得分最高,但是在選項(xiàng)中并沒(méi)有桌子這個(gè)選項(xiàng),所以相似性最高的并不能作為最終選擇。其它候選答案也有可能是與選項(xiàng)最符合的答案,樣本圖片1板凳的相似性得分低于桌子的相似性得分,但選項(xiàng)中存在板凳的而沒(méi)有桌子選項(xiàng),所以可以得出的答案為含有板凳的選項(xiàng)。由上可知,本文的模型選取相似度前五的成為候選答案,尋找和選項(xiàng)相似性最高作為最終輸出的答案,提供答案的多樣性。
圖4 概率分析回答模塊概述
(10)
其中,P(Q) 是從4個(gè)選項(xiàng)中作為候選答案。
為了驗(yàn)證本文方法的推理能力,選擇MemexQA數(shù)據(jù)集和Visual7w數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集。MemexQA數(shù)據(jù)集[12]由20 860個(gè)問(wèn)題和大約13 591張個(gè)人照片組成。模型在14 156個(gè)隨機(jī)選擇的QA對(duì)的訓(xùn)練集上訓(xùn)練,并在一組3539個(gè)QA對(duì)上進(jìn)行測(cè)試。MemexQA數(shù)據(jù)集提供4個(gè)答案選項(xiàng),每個(gè)問(wèn)題只有一個(gè)正確答案。Visual7w數(shù)據(jù)集[13]由7萬(wàn)個(gè)問(wèn)題組成,問(wèn)題類型有“是什么”,“問(wèn)地點(diǎn)”,“問(wèn)時(shí)間”,“問(wèn)是誰(shuí)”,“問(wèn)原因”以及“怎么了”。其中有28 020個(gè)驗(yàn)證問(wèn)題和42 031個(gè)測(cè)試問(wèn)題,每個(gè)問(wèn)題有4個(gè)答案選擇,通過(guò)正確回答問(wèn)題的百分比來(lái)衡量結(jié)果。
本文使用場(chǎng)景圖在MemexQA數(shù)據(jù)集和Visual7w數(shù)據(jù)集進(jìn)行了訓(xùn)練。由于一般預(yù)測(cè)關(guān)系的方法都是單獨(dú)地推測(cè)每?jī)蓛晌矬w間的聯(lián)系(位置),疏忽了場(chǎng)景中的其它物體間的聯(lián)系,即鄰近文本的內(nèi)容對(duì)推測(cè)關(guān)系的關(guān)聯(lián)能力。本文使用的模型不是孤立地推斷場(chǎng)景圖的每個(gè)組件,而是在場(chǎng)景圖的物體之間傳遞包含上下文信息的消息。本文的方法以圖片作為輸入,產(chǎn)生一個(gè)場(chǎng)景圖以及描述。該場(chǎng)景圖由對(duì)象類別,它們的邊界框以及對(duì)象對(duì)之間的語(yǔ)義關(guān)系組成。圖5顯示了圖片生成場(chǎng)景圖的結(jié)果,可以通過(guò)場(chǎng)景圖了解各物體之間的關(guān)系。將圖像和對(duì)象邊界框作為輸入,并生成對(duì)象類標(biāo)簽(實(shí)線橢圓)和每對(duì)對(duì)象之間的關(guān)系謂詞(虛線橢圓)。
圖5 圖片生成場(chǎng)景圖的結(jié)果
實(shí)驗(yàn)運(yùn)用對(duì)比方法如下:LSTM、Embedding、Embedding+LSTM、Embedding+LSTM+Concat、DMN+[14]、Soft attention、MCB Pooling[15]和FVTA[4]。表1為各方法在MemexQA數(shù)據(jù)集上的精度對(duì)比。由表1可見(jiàn),相比現(xiàn)有方法,本文方法達(dá)到85.4%的精度。
表1 各方法在MemexQA數(shù)據(jù)集不同分支上的結(jié)果
當(dāng)?shù)谝粋€(gè)答案出錯(cuò)時(shí),本文的方法通過(guò)再次向模型輸入問(wèn)題。本文選擇的所有方法都是兩次回答。在MemexQA中有3539個(gè)問(wèn)題,把問(wèn)題和圖片輸入網(wǎng)絡(luò),本文的模型在第一次機(jī)會(huì)得到2366個(gè)正確答案。對(duì)于錯(cuò)誤答案,將問(wèn)題再次輸入并使用本文的方法作為第二次機(jī)會(huì),對(duì)問(wèn)題中含有場(chǎng)景詞的進(jìn)行語(yǔ)義再分析。本文的方法在第一次回答錯(cuò)誤的1173個(gè)答案中糾正了656個(gè),而現(xiàn)有方法都無(wú)法在第二次糾正錯(cuò)誤答案。結(jié)果表明,本文的方法可以在第二次機(jī)會(huì)中糾正錯(cuò)誤答案,并且和現(xiàn)有模型相比獲得更好的準(zhǔn)確度。它表明本文的方法具有更優(yōu)的結(jié)果,因?yàn)樗梢越鉀Q問(wèn)題中出現(xiàn)場(chǎng)景詞不容易用一個(gè)物體去解釋的問(wèn)題。
本文模型在14 156個(gè)隨機(jī)選擇的QA對(duì)的訓(xùn)練集上訓(xùn)練。如表2所示,在MemexQA數(shù)據(jù)集上,利用單個(gè)GPU(NVIDIA GeForce GTX 1650),本文的模型訓(xùn)練大概需要1 h,iBOWIMG基線模型訓(xùn)練約40 min;VQA注意力模型BIDAF[5]訓(xùn)練約1.6 h(一個(gè)epoch)。本文的模型訓(xùn)練時(shí)間介于基線模型和純注意力模型之間。在測(cè)試過(guò)程中,由于本文的模型會(huì)在第一個(gè)答案出錯(cuò)時(shí),再次向模型輸入問(wèn)題,糾正錯(cuò)誤答案,所以測(cè)試時(shí)間會(huì)相比于所基于的基礎(chǔ)模型慢一倍左右,本文模型在3539個(gè)QA對(duì)上測(cè)試大概需要15 min。因此本文模型更適用于對(duì)回答速度要求相對(duì)不高,可以通過(guò)用戶的反饋,在圖片集上需要找到精確結(jié)果的場(chǎng)景。
表2 各模型訓(xùn)練和測(cè)試的時(shí)間
MemexQA數(shù)據(jù)集還為每個(gè)問(wèn)題提供了事實(shí)真相照片。通過(guò)比較注意權(quán)重最高的照片和真實(shí)照片之間的相關(guān)性,以正確回答問(wèn)題。理想的VQA模型不僅應(yīng)具有回答問(wèn)題的高精度,而且還可以找到與真實(shí)證據(jù)高度相關(guān)的照片。表3列出了檢查模型是否將焦點(diǎn)放在正確的照片上的準(zhǔn)確性。本文的方法在尋找問(wèn)題的相關(guān)照片方面勝過(guò)其它模型。結(jié)果表明,所提出的方法可以捕獲用于回答問(wèn)題的重要信息。
表3 各方法找到真實(shí)圖片的結(jié)果
為了進(jìn)行定性比較,本文選擇一些代表性問(wèn)題,并根據(jù)圖6中顯示,本文的方法與其它方法回答的答案和檢索到的圖像。如第一個(gè)示例所示,系統(tǒng)必須找到正確的照片并在視覺(jué)上識(shí)別物體以回答問(wèn)題“我們上一次去婚禮是什么時(shí)候?”。本文的關(guān)注重點(diǎn)在于有關(guān)婚禮的正確照片上,還理解有關(guān)婚禮之間的聯(lián)系,從而正確回答了這個(gè)問(wèn)題。而對(duì)于其它模型可能輸出錯(cuò)誤的圖像并得到錯(cuò)誤的答案。此示例顯示了本文在理解有關(guān)場(chǎng)景詞方面對(duì)相關(guān)性進(jìn)行建模的性能,勝過(guò)現(xiàn)有的模型。對(duì)于每個(gè)問(wèn)題,都會(huì)顯示答案和從相冊(cè)中找到足以證明回答的圖像。正確的圖像和答案在第一個(gè)位置,不正確的答案在后邊的位置。
圖6 不同模型在MemexQA數(shù)據(jù)集上的定性比較
Visual7w數(shù)據(jù)集是Visual Genome的子集,其中包含附加注釋。每個(gè)問(wèn)題會(huì)有4個(gè)選項(xiàng)作為候選答案,其中只有一個(gè)是正確答案。另外,問(wèn)題中提到的所有對(duì)象都是可視化的,即與它們?cè)趫D像中的描繪的邊框相關(guān)聯(lián)。為了公平地比較,僅與單個(gè)模型的性能進(jìn)行比較,而沒(méi)有使用其它大型數(shù)據(jù)集(例如Visual Gnome)進(jìn)行預(yù)訓(xùn)練,而且也沒(méi)有額外的數(shù)據(jù),沒(méi)有額外的語(yǔ)言嵌入?yún)⑴c。
在此數(shù)據(jù)集上,實(shí)驗(yàn)運(yùn)用對(duì)比方法如下:BOW、LSTM[16]、LSTM+Att[13]、MCB Pooling[15]、MLP(A,Q,I)[17]、Ensemble-All[18]、POS+Att[19]。
首先,對(duì)比了BOW基線的兩種變體,第一個(gè)版本使用圖像、問(wèn)題和答案;第二個(gè)版本不使用圖像,分別對(duì)它們進(jìn)行訓(xùn)練,在這兩種情況下,使用默認(rèn)的Adam優(yōu)化器在50次~60次迭代訓(xùn)練中即可達(dá)到收斂。接著對(duì)比了LSTM,LSTM只處理文本信息,無(wú)可視化信息,通過(guò)序列化輸出的方式得到答案。LSTM+Att模型,該模型在LSTM體系結(jié)構(gòu)中添加了空間注意機(jī)制,用于與圖像信息一起對(duì)問(wèn)題進(jìn)行聯(lián)合編碼,以提高問(wèn)題編碼的精度。最后本文探索了結(jié)合詞性(POS)標(biāo)簽指導(dǎo)的注意力機(jī)制,對(duì)比了POS+Att模型,該模型可以捕獲語(yǔ)言-視覺(jué)交互并執(zhí)行聯(lián)合推理。
如表4所示,在Visual7w上,本文方法和現(xiàn)有方法的定量結(jié)果,將問(wèn)題分為6種類型,分別為“是什么”,“問(wèn)地點(diǎn)”,“問(wèn)時(shí)間”,“問(wèn)是誰(shuí)”,“問(wèn)原因”,“怎么了”。6種問(wèn)題類型的模型準(zhǔn)確性分別對(duì)應(yīng)表中的2到7列,總體準(zhǔn)確性對(duì)應(yīng)表的最后一列。對(duì)于每種單獨(dú)的問(wèn)題類型,本文的模型回答準(zhǔn)確性均有所提高,整體檢測(cè)精度能達(dá)到74.4%。
表4 各方法在Visual7w數(shù)據(jù)集上不同分支上的結(jié)果
本文構(gòu)建了一個(gè)模型來(lái)解決VQA中關(guān)于場(chǎng)景詞的潛在語(yǔ)義信息問(wèn)題。當(dāng)?shù)谝淮畏治鰣?chǎng)景詞是錯(cuò)誤的時(shí)候,還有另一次機(jī)會(huì)重新分析場(chǎng)景詞來(lái)得到答案。本文構(gòu)建的模塊化框架用于回答視覺(jué)文本序列的問(wèn)題,主要使用LSTM訓(xùn)練語(yǔ)義結(jié)構(gòu)化表示向量,使得簡(jiǎn)易的度量可以捕捉語(yǔ)句相似性。本文的方法不僅可以預(yù)測(cè)正確的答案,還可以找到能幫助用戶理解驗(yàn)證答案的結(jié)果,從而達(dá)到了更好的效果。在實(shí)際應(yīng)用當(dāng)中,給出第二個(gè)答案的能力對(duì)于人機(jī)交互也很重要,AI機(jī)器能再次確認(rèn)圖片中可能出現(xiàn)的物體,通過(guò)深刻理解兩個(gè)語(yǔ)義之間的含義,能使AI變得更加聰明。
在未來(lái)的工作中,將計(jì)劃研究如何針對(duì)更多的含有場(chǎng)景詞的句式,從而進(jìn)一步提高模型的實(shí)用性。同時(shí),也需要研究如何利用場(chǎng)景中的物體標(biāo)簽的概率分布[20],來(lái)進(jìn)一步提高圖片識(shí)別精度,從而提高匹配及回答精度。
計(jì)算機(jī)工程與設(shè)計(jì)2022年12期