• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于交互實例推薦網(wǎng)絡(luò)的人-物交互檢測方法研究

      2022-07-22 05:58:48薛麗霞尹凱建汪榮貴
      光電工程 2022年7期
      關(guān)鍵詞:集上注意力節(jié)點

      薛麗霞,尹凱建,汪榮貴,楊 娟

      合肥工業(yè)大學(xué)計算機與信息學(xué)院,安徽 合肥 230031

      1 引 言

      近年來,視覺關(guān)系檢測在目標檢測[1-2],動作識別[3-4],和場景分割[5-6]等領(lǐng)域取得了長足的發(fā)展。但是為了更深層次地理解圖像,識別圖像中的場景,不僅需要定位單個對象實例,還需要識別對象之間的交互關(guān)系。因此學(xué)者們開辟了視覺關(guān)系檢測的一個重要分支領(lǐng)域:人-物交互檢測(Human-object interaction detection,HOI),該項任務(wù)旨在檢索圖像中人和物的位置,并且識別存在于兩者之間的交互動作。這項工作對行為理解至關(guān)重要,引起了越來越多研究人員的關(guān)注,最近在該領(lǐng)域利用深度神經(jīng)網(wǎng)絡(luò)進行的研究已經(jīng)取得了令人矚目的進展[7-16]。

      HOI 的具體任務(wù)是推斷場景中的三元組<主語,謂語,賓語>。例如,在圖1 中,首先檢測定位出人和物,接下來推斷他們的關(guān)系,最終得出一個三元組。一般地,該領(lǐng)域采用雙階段檢測方法,對于給定圖像和它的目標檢測結(jié)果,首先將人和物完全配對,接著模型將這些人-物對歸類為不同交互類別[8-9,17]。由于一個人可以同時和多個物體發(fā)生交互,同時,一個物體也可以與多個人發(fā)生交互,因此HOI 檢測本質(zhì)上是一個多標簽分類任務(wù)[18]。Chao 等人[9]首先提出了一種利用人-物視覺特征和空間特征的多流方法來檢測HOI。隨后Gao 等人[8]在此工作的基礎(chǔ)上提出了一種以實例為中心的多流網(wǎng)絡(luò)來檢測人物交互,利用注意力機制聚焦圖片中對HOI檢測有幫助的區(qū)域,將HOI 的檢測效果提高到了一個新的高度。之后,Li 等人[19]擴展了Gao 等人[8]的方法,利用姿勢信息進一步強化表達了人物交互之間的細粒度上的區(qū)別,學(xué)習(xí)了一種可遷移的HOI 知識表達方法。此外,受到圖模型在場景理解[20-23]領(lǐng)域成功應(yīng)用的啟發(fā),不少學(xué)者嘗試將圖模型和神經(jīng)網(wǎng)絡(luò)相結(jié)合來解決HOI 檢測問題[11,17,24]。最近的工作大多通過引入額外信息進行檢測,如先驗知識[25],語義嵌入[17],人體骨骼[26]等,也有學(xué)者嘗試利用Transformer 的自注意力機制來改進HOI 模型[12,14],還有一些工作[27-30]致力于解決HOI 檢測中的長尾分布問題。

      圖1 人-物交互檢測流程Fig.1 Pipeline of human object interaction detection

      然而,基于一種樸素的直覺,一張圖片中不可能所有的人-物對之間都存在交互關(guān)系,上述方法中都對大量的非交互對也進行了推理,這無疑增加了檢測結(jié)果錯誤的可能性。盡管Li 等人[19]對非交互對抑制做了一些嘗試,但效果并不理想,這是因為沒有充分利用到人-物之間的交互關(guān)系。

      我們進一步發(fā)現(xiàn),現(xiàn)有HOI 檢測相關(guān)工作[8-11,17,19,24,27,31-32]都使用現(xiàn)成的目標檢測模型[1]來生成人和物的推薦框,然而目標檢測模型的檢測目標與HOI 檢測的需求并不匹配:前者定位圖像中所有實例,后者希望只定位存在交互關(guān)系的實例。受到Wang 等人[28]的啟發(fā),本文提出一種基于關(guān)系推理的適用于HOI 檢測的目標檢測器,充分利用圖像中人-物間的交互關(guān)系進行人、物推薦,盡可能減少非交互人-物對的出現(xiàn)。本文方法遵循Faster RCNN[1]的流程,用交互實例推薦網(wǎng)絡(luò)(interactive instance proposal network,IIPN)替換了原始的區(qū)域推薦網(wǎng)絡(luò)(region proposal network,RPN),IIPN 根據(jù)人-物之間的交互可能性,通過圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,簡寫為GNNs)的迭代推理,篩選出存在交互關(guān)系的人和物作為其輸出,由此減少后續(xù)關(guān)系推理的數(shù)量。

      此外,現(xiàn)有方法在推理環(huán)節(jié)均為簡單將幾種特征相加或拼接[8,17,19,28],如:人外觀特征、物體外觀特征、人-物的空間特征。這種做法忽略了在不同動作中各類特征的影響程度不同,例如:區(qū)分兩個三元組中的ride (騎)和hold (推)動作更多的取決于human 和bike 之間的空間關(guān)系,而要區(qū)分中的eat 和cut 動作則更多取決于人的姿勢,即外觀特征。同時,本文認為語義先驗對HOI 檢測也有幫助,例如:圖像中同時出現(xiàn)人和蘋果(apple),那么來自蘋果的語義先驗將會提示模型去關(guān)注與蘋果相關(guān)的動作,如吃(eat)或拿(hold),而非騎(ride)或站(stand)這種毫不相關(guān)的動作。因此,本文設(shè)計了一種多模態(tài)信息融合模塊(cross-modal information fusion module,CIFM),根據(jù)不同特征對檢測結(jié)果的影響程度計算融合注意力,并進行加權(quán)融合。

      綜上所述,本文的貢獻可以總結(jié)為:1) 本文提出一種基于關(guān)系推理的交互實例推薦網(wǎng)絡(luò),推理圖像中人和物之間的交互關(guān)系,并依此篩選出正確的人-物對,極大地減少了模型對非交互人-物對的推理;2) 本文注意到不同特征對動作預(yù)測結(jié)果的影響程度不同,提出了一個新的多模態(tài)信息融合模塊,基于融合注意力計算不同特征對預(yù)測結(jié)果的影響值并加權(quán)融合;3) 本文在HICO-DET 和V-COCO 數(shù)據(jù)集上進行了完備的實驗,證明了所提方法的有效性,并與若干種現(xiàn)有方法進行比較,結(jié)果表明,本文方法在HICODET 數(shù)據(jù)集上取得了最優(yōu)的效果。

      2 本文方法

      2.1 概述

      本文提出的檢測方法主要分為兩步:1) 交互實例推薦;2) HOI 檢測。與大多數(shù)現(xiàn)有方法不同[8-11,17,19,24,27,31-33],本文方法第一步使用交互實例推薦網(wǎng)絡(luò)(IIPN)推薦圖片中的交互人-物對。我們用bh∈H來表示檢測出的人邊界框,用bo∈O表示檢測到的物邊界框,其中H和O分別表示檢測出來的人和物的集合。此外,對于檢測到的人和物,用sh和so來分別表示它們的置信度。第二步,將IIPN 的輸出輸入到跨模態(tài)信息融合模塊(CIFM)來融合特征并預(yù)測交互得分。圖2 描述了本文方法的總體結(jié)構(gòu)。

      圖2 基于交互實例推薦網(wǎng)絡(luò)的HOI 檢測方法縱覽Fig.2 Overview of human object interaction detection based on interactive instance proposal network

      2.2 交互實例推薦網(wǎng)絡(luò)

      如上所述,本文方法首先通過IIPN 推薦交互對,在Li 等人[19]的研究中表明,圖片場景中充斥著大量非交互對。IIPN 的目標是關(guān)注并推薦場景中的交互對,為了達到這一目的,我們設(shè)計了兩個分支分別用來選擇得分較高的M個人的錨盒和N個物的錨盒。接著將它們建模為圖,利用圖神經(jīng)網(wǎng)絡(luò)在圖中傳遞信息,從而推薦存在交互關(guān)系的人物對。

      相較于原始的RPN,本文的做法有著明顯的優(yōu)勢。原始RPN 中,錨盒的得分僅僅與它覆蓋某個物體的程度相關(guān),一個錨盒覆蓋一個物體的部分越多,它的得分也越高。然而在HOI 檢測任務(wù)中,不僅需要準確地檢測物體,更重要的是檢測出具有交互關(guān)系的人和物,我們希望,存在交互關(guān)系的物錨盒能夠獲得更高的分數(shù)。IIPN 的詳細結(jié)構(gòu)如圖3 所示。

      圖3 交互實例推薦網(wǎng)絡(luò)Fig.3 Interactive instance proposal network

      2.2.1 人、物選擇分支

      遵循Wang 等人[28]的設(shè)計,本文同樣使用了一個人選擇分支和一個物選擇分支,目的是從RPN 的隱藏層特征中,計算出得分較高的錨盒,為后續(xù)的圖建模提供輸入。在人選擇分支中,首先計算得出前M個人隱藏層輸出,接著根據(jù)輸出獲得對應(yīng)的隱藏層特征,由此便獲得了前M個人的隱藏層特征。物選擇分支的計算過程類似。于是,我們得到了M個人的隱藏層特征和N個物的隱藏層特征。下面開始介紹用于推理關(guān)系的注意力圖神經(jīng)網(wǎng)絡(luò)。

      2.2.2 基于注意力圖神經(jīng)網(wǎng)絡(luò)的關(guān)系推理

      1)圖定義。一個圖的定義為G=(V,E),它由一組V個節(jié)點和E條邊組成。我們用Fv表示節(jié)點的特征,用Fe表 示邊上的特征。令vi∈V表示圖中的第i個節(jié)點,eij=(vi,vj))表 示從節(jié)點vi指 向節(jié)點vj的邊。對于一個具有n個 節(jié)點和m條 邊的圖,用Xv∈Rn×d表示節(jié)點特征矩陣,用Xe∈Rm×c表 示邊特征矩陣,其中,節(jié)點i的特征向量表示為Fvi,(i,j)之 間邊的特征向量表示為Fei j。

      2)注意力圖神經(jīng)網(wǎng)絡(luò)。為了通過圖結(jié)構(gòu)在上下文中傳遞信息,本文使用了注意力圖神經(jīng)網(wǎng)絡(luò)。在描述本模塊之前,先來回顧一下基本的圖注意力網(wǎng)絡(luò)。圖注意力網(wǎng)絡(luò)利用圖結(jié)構(gòu)和節(jié)點特征來更新節(jié)點的表征。假設(shè)某個節(jié)點vi的特征表示為zvi∈Rdv,其相鄰節(jié)點的特征首先通過一層可學(xué)習(xí)的線性映射W,接著將映射后的特征以預(yù)定義的權(quán)重經(jīng)過k層圖卷積以及聚合函數(shù)來進行聚合,那么每一層中節(jié)點vi的聚合特征avi計算如下:

      接著將兩式合并,并將節(jié)點的表征整合成矩陣的形式,上面的等式就可以合并如下:

      其中:σ表示非線性映射函數(shù)ReLU,Z(k?1)∈Rdv×Tn。對于不與vi相 鄰的節(jié)點vj來 說 αi j值為0,對于節(jié)點vi允許自連接,此時αii=1。對于普通的GNNs 來說,圖中的節(jié)點連接是已知的,其系數(shù)向量 αi是基于特征的對稱歸一化鄰接矩陣預(yù)設(shè)的。

      3)關(guān)系推理。經(jīng)過人和物選擇分支的計算,得到了一組M個人的特征和N個物的特征,這里暫時將其表示為hi∈Rd,oi∈Rd,其中在本文的實驗中d=512。將M個人和N個物體的隱藏層特征構(gòu)建成特征矩陣F∈R(m+n)×d,相應(yīng)的鄰接矩陣 形式為Ek×k,其中k=m+n。通常由于一個物體可以與多個人發(fā)生交互,一個人也可以同時與多個物體發(fā)生交互,同時,本文在實驗中規(guī)定,不考慮人和人、物和物之間的交互關(guān)系。于是得到初始鄰接矩陣式:

      從上面注意到,由于缺乏完善的監(jiān)督關(guān)系標簽,模型很難直接去計算人物對之間的交互連接。為了解決這個問題,我們引入了一種注意力機制來隱式地學(xué)習(xí)人物對之間的交互相關(guān)性,用αo,h表示,同時,用αij來動態(tài)地更新E[i,j],使得存在相關(guān)性的人物對之間可以獲得充分的信息交互。為了計算這種潛在的交互關(guān)系,受到文獻[24]的啟發(fā),我們利用一個多層感知機Rr(fo,fh)來 做這個工作,Rr的輸入是fo和fh拼接之后的向量。于是,這種交互關(guān)系可以表示為

      這里的交互關(guān)系得分就表示一對人物對之間的潛在交互可能性,由于每次只計算一對人物對,因此這個交互概率可以通過一個softmax 函數(shù)進行歸一化,如下式:

      其中:N表示一張圖片中人物對的個數(shù)。

      在計算出 αo,h之后,接著就可以獲得動態(tài)更新的鄰接矩陣,通過帶有信息的鄰接矩陣,就可以更新fh和fo,其過程可以用下式表示:

      其中:No和Nh分別表示圖像中的人和物的個數(shù)。與Zhang 等人[34]的實驗設(shè)置一樣,在本文的實驗中k=2,即會有兩輪的信息傳遞和匯集過程。IIPN 進一步通過處理fh和fo得到人、物邊界框(后續(xù)處理流程與Faster RCNN[1]相同)。

      2.3 跨模態(tài)信息融合模塊

      在2.2 節(jié)中介紹了關(guān)系推理模塊,并且利用推理模塊獲得了只存在交互關(guān)系的人、物邊界框。具體地,將IIPN 的輸出表示為,p={p1,p2,...,pm},o={o1,o2,...,om}},其中,每個邊界框都包含了[x,y,w,h,s,c]。其中x和y分別表示邊界框中心點的橫、縱坐標,w和h分別表示邊界框的寬和高,c表示分類,s表示其置信度。上文中提到,現(xiàn)有的HOI 方法利用多種信息來進行推理,如人和物的視覺信息、空間信息、編碼之后的距離和位置信息、甚至是語義信息。然而這些工作中對這些信息僅僅是粗糙的相乘或者相加,并沒有挖掘出更深層次的隱含信息。我們認為,不同信息對于HOI 檢測結(jié)果的貢獻是不一樣的,為了進一步挖掘這些隱含信息,本文設(shè)計了一個跨模態(tài)信息融合模塊,其結(jié)構(gòu)如圖4 所示。

      圖4 跨模態(tài)信息融合模塊詳細結(jié)構(gòu)Fig.4 Structure of cross-modal information fusion module

      2.3.1 外觀特征

      本文的外觀特征分為人和物兩種,通過帶有特征金字塔[35]的ResNet[36]作為骨干網(wǎng)絡(luò)提取圖片特征,接著利用ROI Pooling 和IIPN 生成的人物邊界框,提取到具體的人和物的外觀特征,分別將它們表示fh和fo,以便后續(xù)的分類。

      2.3.2 聯(lián)合空間特征

      盡管視覺信息中已經(jīng)包含了相當(dāng)?shù)木€索可供動作識別,但這還遠不夠[9]。僅僅利用單獨的視覺信息往往會導(dǎo)致錯誤的預(yù)測。例如在這兩個三元組中,視覺信息是非常接近的,只利用視覺信息無法做出正確的預(yù)測。為了消除這種錯誤,提高模型精度,本文借鑒了文獻[9]中的做法,對人物對的空間位置關(guān)系也進行了編碼,由于更加關(guān)注人和物的空間位置關(guān)系,本部分的輸入應(yīng)該忽略像素值而只利用邊界框的位置信息。為達到這一目的,本文利用了Chao 等人[9]設(shè)計的一種雙通道的二進制圖像。具體做法是,對于每一對邊界框,第一個通道中位于人邊界框之內(nèi)的值全為1,否則全為0,第二個通道中位于物邊界框之內(nèi)的值全為1,否則全為0。接著利用卷積神經(jīng)網(wǎng)絡(luò)從這個雙通道圖片中來提取空間特征。不同的是,本文還引入了聯(lián)合外觀特征來優(yōu)化模型的精度,具體的做法是,對于一對,先將其構(gòu)建為聯(lián)合框,如下式:

      接著利用ROI Pooling 提取出聯(lián)合外觀特征,我們認為聯(lián)合的特征可能含有一些有用的上下文信息,在實驗中證明本文這么做的優(yōu)點。最后,將提取到的空間編碼特征和聯(lián)合外觀特征進行按元素相加,得到聯(lián)合空間特征,并將其表示為fu。

      2.3.3 語義特征

      在許多工作中都證明了語義信息在HOI 檢測中的有效性[17,37]。為了消除HOI 檢測的歧義預(yù)測,進一步提高模型的精度。本文同樣引入了語義特征。具體地,本文使用目前流行的Glove[38]來提取詞嵌入,它接受文本輸入,輸出文本的向量表示,這種向量表示潛在地保留了文本的語義和語法特征。本文使用了公開的預(yù)訓(xùn)練過的Glove 模型[38],該模型對于輸入的單詞和短語產(chǎn)生300 維的向量。HICO-DET 中的所有三元組都用來獲得詞向量表示,本文用fsem表示,并且用來生成特征融合的注意力系數(shù)。

      2.3.4 特征融合

      至此,得到了包括人和物的外觀特征fh和fo,空間外觀特征fu,動作的語義特征fsem。為了確定四種特征對最終預(yù)測結(jié)果的影響程度,本文設(shè)計了一個簡單而高效的融合模塊來動態(tài)地計算每次預(yù)測時不同因素的注意力。具體地,利用一個多層感知機(multilayer perceptron,MLP)來完成這項任務(wù)。MLP 包含3 層全連接層,其中一層為2136 維,另一層為512 維,最后一層為4 維。首先將fh,fo,fu和fsem進行拼接,接著通過MLP 產(chǎn)生一個4 維的注意力向量,如下式:

      最后利用注意力進行加權(quán)融合得到預(yù)測向量。再通過一個MLP 輸出最終的預(yù)測向量。MLP 同樣包含3 層全連接層,分別為2136、512 和117(在V-COCO數(shù)據(jù)集上為26)維。對于一組人-物對,模型計算某個動作v的概率如下:

      其中:σ (·)表 示sigmoid 函數(shù),(·,·,·,·)表示對特征向量的拼接。

      2.4 訓(xùn)練

      本文模型的訓(xùn)練分為兩部分,第一部分為對IIPN端到端的訓(xùn)練。損失函數(shù)與Faster RCNN[1]相同,包括分類損失和回歸損失。如下式:

      訓(xùn)練的第二階段是對HOI 檢測任務(wù)進行端到端的訓(xùn)練,此時目標函數(shù)為一個多標簽分類的二元交叉熵(binary cross entrop,BCE)損失函數(shù),公式如下:

      其中:N為人-物對的個數(shù),K為預(yù)測的動作的個數(shù),在HICO-DET 數(shù)據(jù)集上K=117,在V-COCO 數(shù)據(jù)集上K=26。

      3 實 驗

      為了驗證本文方法的有效性,本文在兩個大型HOI 數(shù)據(jù)集上進行了一系列嚴謹?shù)膶嶒?,并與目前的若干個方法做了對比。本文還對模型檢測效果做了一些可視化展示以證明本文方法的有效性和優(yōu)越性。

      3.1 數(shù)據(jù)集和評估指標

      3.1.1 數(shù)據(jù)集

      本文所選取的數(shù)據(jù)集分別是HICO-DET[9]和VCOCO[39]。HICO-DET 是當(dāng)下最流行的大型HOI 數(shù)據(jù)集,它包含了47776 張圖片(其中訓(xùn)練集38118 張,測試集9658 張),117 個動詞,80 種物品,以及600個HOI 類別。此外,HICO-DET 還進一步將600 個HOI 劃分為462 個常見類別和138 個稀有類別,稀有類別是指訓(xùn)練樣本少于10 個類別。與HICO-DET 相比,V-COCO 要小一些,它是MS-COCO[40]的一個子集,總計包含10346 張圖片(其中訓(xùn)練集2553 張,驗證集2867 張,測試集4946 張),25 個動詞和80 種物品。

      3.1.2 評估指標

      本文采用Chao 等人[9]的標準來評估本文模型的檢測效果。具體地,當(dāng)且僅當(dāng)一個三元組滿足以下條件時才被認為是正確的正樣本:1) 檢測的人框和物框與真實值的IoU 大于0.5;2) 檢測出的HOI 類別與真實值相同。對于V-COCO,與Gupta 等人[39]一樣計算 mAProle來評估模型。而對于HICO-DET,本文評估三個方面的mAP:1) 所有600 個HOI 類別(記為Full) ;2) 138 個稀有的HOI 類別(記為 Rare);3) 462個常見的HOI 類別(記為 Non- Rare)。

      3.2 實驗細節(jié)

      本文提出的模型利用公開的PyTorch 框架編程,基于Detectron2 和帶有特征金字塔[35]的ResNet-50[36]構(gòu)建。訓(xùn)練階段,本文采用Detectron2 在COCO 上的預(yù)訓(xùn)練參數(shù)來初始化模型,并采用了雙階段的訓(xùn)練方式,首先在V-COCO 的訓(xùn)練集上對IIPN 進行10K次的迭代訓(xùn)練,對于IIPN 的輸出,保留sh>0.8的人邊界框和so>0.3的物邊界框;接著在HICO-DET 的訓(xùn)練集上對整體模型進行100K次的迭代訓(xùn)練。最后分別在它們的測試集上進行測試。模型訓(xùn)練使用一張NVIDIA RTX 1070 GPU,一個批次訓(xùn)練兩張圖片,采用SGD 方法訓(xùn)練模型,初始學(xué)習(xí)率為0.005,每10 K次迭代學(xué)習(xí)率降低0.0001,動量設(shè)為0.9。

      3.3 實驗結(jié)果

      本小節(jié)中,我們將所提方法與數(shù)個現(xiàn)有的方法進行對比評估。數(shù)據(jù)顯示,本文的模型在HICO-DET上的三種測試方法均取得了最優(yōu)的效果。如下分別在表1 和表2 中展示了在HICO-DET 和V-COCO 上的對比結(jié)果。

      表2 不同方法在V-COCO 測試集上的效果對比Table 2 Experimental results on V-COCO test set of different approaches

      如表1 所示,對于HICO-DET 數(shù)據(jù)集,本文方法超過了PMFNet[31],一種利用了人身體姿勢特征來檢測HOI 的方法,然而本文沒有利用這種額外特征。同時,本文方法還超過了Pryre 等人[32]所提出的一種學(xué)習(xí)單獨的詞嵌入結(jié)合相似對象之間類比,用以檢測人-物交互的方法。更值得一提的是,該項工作的目的是改進對Rare 模式下的模型精度,然而無論是在Default 模式或是Known Object 模式下,本文的模型在Rare 下的測試結(jié)果都優(yōu)于該方法。最后,本文所提出的方法在Default 模式和Known Object 模式下的三種測試結(jié)果也均超過了本文的基線方法。其中,在Default 模式下比基線分別提高了+0.85 (4.5%),+1.12 (7.6%),+0.77 (3.8%),在Known Object 模式下比基線分別提高了+1.91 (9%),+1.02 (5.7%),+1.45(6.3%)。

      表1 不同方法在HICO-DET 測試集上的效果對比Table 1 Experimental results on HICO-DET test set of different approaches

      對于V-COCO 數(shù)據(jù)集,本文方法也取得了不俗的效果。正如表2 所示,本文所提出的方法效果超過了除PMFNet[31]之外的所有方法,這是由于在VCOCO 數(shù)據(jù)集上動詞較少,姿勢特征對于檢測結(jié)果的提升有較大的影響。同時,PMFNet[31]在論文中給出了去除姿勢信息后的模型精度為48.6,比本文的方法低了1.7,充分說明了本文方法的優(yōu)越性。

      3.4 消融實驗

      在2.2 節(jié)中已詳細介紹了所提出的交互實例推薦網(wǎng)絡(luò),利用圖神經(jīng)網(wǎng)絡(luò)來推理人-物交互關(guān)系,利用注意力使得網(wǎng)絡(luò)更加聚焦。本文分別對比了基線網(wǎng)絡(luò),基線網(wǎng)絡(luò)+移除注意力的圖神經(jīng)網(wǎng)絡(luò)以及基線網(wǎng)絡(luò)+IIPN 的效果。此外,在2.3 節(jié)中介紹了跨模態(tài)信息融合模塊(CIFM),本文分別對比了基線網(wǎng)絡(luò),基線網(wǎng)絡(luò)+移除注意力的CIFM 和基線網(wǎng)絡(luò)+完整CIFM。具體數(shù)據(jù)如表3 所示,方便起見,在表中將without寫做w/o。同時,為了更直觀地顯示本文模型的實驗數(shù)據(jù),只展示了Default 模式和Known Object 模式在Full 下的測試結(jié)果。

      3.4.1 有/無IIPN 對比

      IIPN 是為了能推薦出存在交互關(guān)系的人-物對。根據(jù)表3 中的數(shù)據(jù)顯示,在不加注意力的情況下,本文的IIPN 在Default 模式下,比基線網(wǎng)絡(luò)提高了0.28(1.5%),加上了注意力之后,模型精度提升到了19.72,比基線網(wǎng)絡(luò)提升了0.67,提升百分比達到了3.5%,這充分顯示了本文所提出的IIPN 的有效性。通過將人-物構(gòu)建為圖模型,IIPN 學(xué)習(xí)了人-物之間的隱含交互關(guān)系,并利用注意力進一步強化學(xué)習(xí)到了這種關(guān)系,最終推理得出了存在交互關(guān)系的人框和物框,提高了模型的檢測精度。

      3.4.2 有/無CIFM 效果對比

      CIFM 是為了計算不同特征對HOI 檢測結(jié)果的貢獻程度。根據(jù)表3 的數(shù)據(jù),基線網(wǎng)絡(luò)+移除注意力計算的CIFM 檢測精度為19.26,只比基線網(wǎng)絡(luò)提高了0.21 (1.1%)。然而,引入注意力之后,對基線網(wǎng)絡(luò)的提升達到了0.55(2.9%),這印證了CIFM 挖掘到了各特征對檢測結(jié)果的影響方式,并充分證明了CIFM 在評估各種特征對HOI 檢測影響程度的有效性。

      表3 本文所提各模塊在HICO-DET 上的消融實驗Table 3 Ablation studies of the proposed module on HICO-DET

      3.4.3 M 和 N數(shù)量的對比分析

      在IIPN 中,本文分別選擇了M個人的隱藏層特征和N個物的隱藏層特征,因此本小節(jié)對M和N的不同取值所得到的效果進行了驗證,結(jié)果如表4 所示。

      表4 不同的 M 和 N 對實驗結(jié)果的影響Table 4 Effects of different M and N on experimental results

      對于M的選擇,本文參考了Wang 等人[28]中的參數(shù)設(shè)置為8。同時,本文也嘗試了將M設(shè)置為6,數(shù)據(jù)顯示M為6 的情況總體比M為8 下降了一個臺階。經(jīng)過對數(shù)據(jù)集的分析,認為這是由于在數(shù)據(jù)集中,有相當(dāng)一部分的圖片中是人群密集的,將人隱藏層特征的數(shù)量設(shè)置的稍大有助于模型去適應(yīng)這一部分數(shù)據(jù)集。此外,還分別嘗試了將N設(shè)置為2,3,4,在完整模型的實驗下,發(fā)現(xiàn)將N設(shè)置為3 時模型的表現(xiàn)達到了最好的水平。這或許和人不能同時和太多的物體交互有關(guān),3 種已經(jīng)是極限。

      3.4.4 不同特征的對比

      在本文所提出的跨模態(tài)信息融合模塊中,用到了人的外觀特征fh,物的外觀特征fo,聯(lián)合空間特征fu,以及語義特征fsem,本文也分別進行了實驗,以證明各個特征對最終檢測結(jié)果的有效性。結(jié)果如表5 所示。

      通過分析表5,可以清晰地顯示各個特征流的有效性。特別地,發(fā)現(xiàn)當(dāng)僅融入fh+fo+fu時,模型的檢測結(jié)果為19.63,將 SP替換為fu后,模型精度達到了19.78,提升了0.15。這恰好顯示了fu的有效性。

      表5 不同特征對實驗結(jié)果的影響Table 5 Influence of different characteristics on experimental results

      3.4.5 不同信息傳遞輪次 k的對比

      在本文的圖神經(jīng)網(wǎng)絡(luò)信息傳遞時,盡管本文遵循了其他作者[34]的設(shè)置,我們?nèi)匀粵Q定進行一組對比實驗,以確定不同的k對本文實驗結(jié)果有何影響。實驗結(jié)果如表6 所示。通過表6 可以發(fā)現(xiàn),當(dāng)k=2時,本文的實驗效果在V-COCO 和HICO-DET 數(shù)據(jù)集均取得了最好的效果。

      表6 不同迭代次數(shù) k 對實驗結(jié)果的影響Table 6 Influence of different k on experimental results

      3.5 可視化展示

      由于本文方法基于Faster-RCNN[1],我們對IIPN的人-物對推薦效果和Faster-RCNN 進行了對比,并挑選了部分圖片進行可視化展示。如圖5 所示,其中第一行為Faster-RCNN 的效果展示,第二行為IIPN的效果展示。通過圖5 可以清晰地看到,F(xiàn)aster-RCNN 對不相關(guān)的人或物也進行了推薦,而IIPN 只推薦了存在交互關(guān)系的人-物對。在圖6 和圖7 中,本文對模型的最終檢測結(jié)果進行了可視化來直觀地感受模型的檢測效果。圖6 中將HICO-DET 數(shù)據(jù)集上的部分檢測結(jié)果進行了可視化展示,其中人用紅色方框框出,物體用藍色方框框出,其中分別展示了簡單場景下和復(fù)雜場景下,本文所提出模型的檢測效果。圖7 則將CIFM 的融合注意力進行了可視化展示,其中每幅圖片右側(cè)數(shù)據(jù)從上到下分別為:fh、fo、fu、fsem對檢測結(jié)果的貢獻分數(shù)。

      圖5 IIPN 與Faster-RCNN 的人-物推薦效果展示Fig.5 Comparison of IIPN (bottom row) with Faster-RCNN (upper row)

      圖6 HICO-DET 數(shù)據(jù)集上的檢測結(jié)果可視化Fig.6 Visualization of detection results on HICO-DET

      圖7 融合注意力可視化展示Fig.7 Visualization of fusion attention

      4 結(jié) 論

      本文提出了一種全新的雙階段人-物交互檢測模型,首先利用交互實例推薦網(wǎng)絡(luò)(IIPN)來推薦存在交互關(guān)系的人-物對。IIPN 根據(jù)視覺特征以及圖像中人-物之間的交互關(guān)系進行交互對推薦。在實驗中證明了IIPN 能夠推薦出正確的交互對來提高檢測效果。此外,本文設(shè)計了一個跨模態(tài)信息融合模塊(CIFM),通過引入融合注意力,來動態(tài)計算各種特征對檢測結(jié)果的影響程度,本文的實驗證明了該模塊的有效性。最后,在兩個流行的大型數(shù)據(jù)集上,本文所提出的方法都取得了不俗的效果。

      猜你喜歡
      集上注意力節(jié)點
      CM節(jié)點控制在船舶上的應(yīng)用
      讓注意力“飛”回來
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復(fù)扇形指標集上的分布混沌
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點
      禄丰县| 舒兰市| 繁昌县| 丰都县| 广水市| 乐山市| 甘谷县| 武隆县| 龙游县| 航空| 志丹县| 任丘市| 南通市| 健康| 华亭县| 夹江县| 亚东县| 通山县| 鱼台县| 贡山| 岱山县| 吉木乃县| 双牌县| 舟曲县| 上栗县| 西安市| 大方县| 黎城县| 嘉兴市| 顺平县| 定南县| 张掖市| 洛阳市| 楚雄市| 宕昌县| 阳春市| 禹州市| 锡林浩特市| 平和县| 徐闻县| 武平县|