• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于自上而下注意力機(jī)制的零樣本目標(biāo)檢測(cè)

    2024-01-03 00:00:00齊鑫偉侍洪波宋冰陶陽(yáng)
    關(guān)鍵詞:計(jì)算機(jī)視覺(jué)目標(biāo)檢測(cè)

    摘要:由于可見(jiàn)類和未見(jiàn)類目標(biāo)數(shù)據(jù)分布的差異性,目前基于映射遷移策略的零樣本目標(biāo)檢測(cè)算法在測(cè)試時(shí)容易偏向可見(jiàn)類別的目標(biāo),且因?yàn)椴煌悇e在屬性上的相似性,特征分布比較混亂。本文提出一種新的零樣本目標(biāo)檢測(cè)框架,利用所設(shè)計(jì)的先驗(yàn)知識(shí)提取模塊和自上而下注意力機(jī)制模塊,為檢測(cè)過(guò)程提供任務(wù)導(dǎo)向,引導(dǎo)模型在訓(xùn)練期間關(guān)注出現(xiàn)的未見(jiàn)類特征,提高模型對(duì)不同數(shù)據(jù)分布的判別性;還設(shè)計(jì)了一種新的對(duì)比約束以提高特征之間的聚類能力;在MSCOCO 標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。結(jié)果表明,該模型在標(biāo)準(zhǔn)和廣義零樣本目標(biāo)檢測(cè)任務(wù)上都取得了顯著效果。

    關(guān)鍵詞:計(jì)算機(jī)視覺(jué);目標(biāo)檢測(cè);零樣本目標(biāo)檢測(cè);自上而下注意力機(jī)制;對(duì)比約束

    中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A

    隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)取得了巨大的進(jìn)步,各種目標(biāo)檢測(cè)算法[1-3] 相繼出現(xiàn),顯著地提升了檢測(cè)性能。然而,這些目標(biāo)檢測(cè)算法都依賴于大規(guī)模的標(biāo)注數(shù)據(jù),由于實(shí)際場(chǎng)景中自然界的目標(biāo)服從長(zhǎng)尾分布[4-6],很多目標(biāo)的標(biāo)注數(shù)據(jù)難以獲取,檢測(cè)器也無(wú)法自主地將識(shí)別能力推廣和優(yōu)化,導(dǎo)致網(wǎng)絡(luò)的性能大幅度下降。

    為解決上述問(wèn)題,一些研究[7-9] 提出了零樣本目標(biāo)檢測(cè)任務(wù)(Zero-Shot Object Detection, ZSD),它的靈感源于人類可以通過(guò)以往的經(jīng)驗(yàn)或者知識(shí)快速學(xué)習(xí)新概念,旨在同時(shí)定位和識(shí)別訓(xùn)練過(guò)程中未見(jiàn)過(guò)的新目標(biāo)。目前,大多數(shù)ZSD 模型基于一種嚴(yán)格的映射遷移策略[10-13],即在訓(xùn)練階段利用可見(jiàn)類別數(shù)據(jù),結(jié)合類別語(yǔ)義嵌入向量,學(xué)習(xí)視覺(jué)特征到語(yǔ)義特征的映射函數(shù),并將其遷移到未見(jiàn)類數(shù)據(jù),識(shí)別新的目標(biāo)。還有一些學(xué)者[14-16] 使用生成模型來(lái)合成未見(jiàn)類目標(biāo)的特征,并重新訓(xùn)練分類器,將零樣本學(xué)習(xí)過(guò)程轉(zhuǎn)換成有監(jiān)督學(xué)習(xí)。

    然而,由于可見(jiàn)類數(shù)據(jù)和未見(jiàn)類數(shù)據(jù)之間數(shù)量不同、種類不同,數(shù)據(jù)分布存在較大差異,而模型訓(xùn)練時(shí)只利用可見(jiàn)類樣本,這使得測(cè)試時(shí)容易將未見(jiàn)類目標(biāo)識(shí)別為可見(jiàn)類目標(biāo),造成嚴(yán)重的域偏移問(wèn)題,特別是當(dāng)面對(duì)更具挑戰(zhàn)性的廣義零樣本目標(biāo)檢測(cè)(Generalized Zero-Shot Object Detection, GZSD) 任務(wù),需要同時(shí)檢測(cè)出數(shù)據(jù)中的可見(jiàn)類別目標(biāo)和未見(jiàn)類別目標(biāo)時(shí),模型的遷移能力會(huì)更差。為此,研究者已經(jīng)做了大量的工作[17-19],但這些方法大多利用類別之間的連接關(guān)系,或者利用圖卷積神經(jīng)網(wǎng)絡(luò)[20],挖掘類別屬性上的關(guān)聯(lián),彌補(bǔ)訓(xùn)練時(shí)未見(jiàn)類別目標(biāo)信息的缺失。盡管這些工作有一定的效果,它們只是學(xué)習(xí)一個(gè)通用的零樣本目標(biāo)檢測(cè)器,忽略了檢測(cè)任務(wù)對(duì)模型的引導(dǎo)作用,無(wú)法突出未見(jiàn)類目標(biāo)的特征。

    本文設(shè)計(jì)了一種基于自上而下的注意力機(jī)制零樣本目標(biāo)檢測(cè)框架,利用所提出的先驗(yàn)知識(shí)提取模塊,在訓(xùn)練期間注入未見(jiàn)類別的先驗(yàn)知識(shí),為模型的訓(xùn)練提供任務(wù)導(dǎo)向,提高對(duì)未見(jiàn)類目標(biāo)的注意力,并結(jié)合對(duì)比約束,增強(qiáng)同一類別之間的相似性,提高最終的檢測(cè)精度。

    1 研究現(xiàn)狀

    1.1 目標(biāo)檢測(cè)

    目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域最基礎(chǔ)、最具挑戰(zhàn)性的任務(wù)之一。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,已經(jīng)得到了廣泛的關(guān)注與進(jìn)步,各種高效、杰出的算法[1-2, 21] 不斷出現(xiàn),極大地提高了檢測(cè)的精度與速度。目前的目標(biāo)檢測(cè)模型大致分為兩種形式: (1) 一階段模型, 如SSD(Spatial PyramidPooling)[22]、YOLO(You Only Look Once)[23-24] 系列、RetinaNet[2] 等,這類模型同時(shí)進(jìn)行分類和定位,因此檢測(cè)速度較快; (2) 二階段模型,如SPP-net(SpatialPyramid Pooling Convolutional Networks)[25]、Faster RCNN(Faster Region-based Convolutional NeuralNetworks)[1]、R-FCN(Region-based Fully ConvolutionalNetworks)[26]、Mask R-CNN(Mask Region-basedConvolutional Neural Networks)[27] 等,這類模型將檢測(cè)過(guò)程分為兩步:第1 步生成建議框,確定哪個(gè)框里包含檢測(cè)目標(biāo);第2 步對(duì)高置信度的建議框進(jìn)行分類和定位。由于第1 步篩選出了高質(zhì)量的候選框,所以二階段模型在算法精度上更具優(yōu)勢(shì),但檢測(cè)速度卻遜于一階段模型。此外,隨著Transformer 的迅速崛起,為獲取上下文信息,出現(xiàn)了許多基于Transformer的目標(biāo)檢測(cè)算法,如DETR(DEtection TRansformer)[21]、Deformable DETR[28]等。盡管這些方法取得了不錯(cuò)的效果,但它們都基于大量的訓(xùn)練數(shù)據(jù),并且測(cè)試數(shù)據(jù)的目標(biāo)類別與訓(xùn)練數(shù)據(jù)一致,無(wú)法泛化到未見(jiàn)類別目標(biāo)的檢測(cè)。由于Faster R-CNN[1] 精度較高,可擴(kuò)展性較強(qiáng),已經(jīng)被廣泛應(yīng)用到很多領(lǐng)域,所以本文選擇Faster R-CNN[1]作為研究的基礎(chǔ)網(wǎng)絡(luò)。

    1.2 零樣本學(xué)習(xí)

    零樣本學(xué)習(xí)[29](Zero-Shot Learning, ZSL) 是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)經(jīng)典問(wèn)題,它主要模仿人類識(shí)別新目標(biāo)的能力,旨在利用可見(jiàn)類別的信息,結(jié)合語(yǔ)義嵌入向量如文本描述、類別屬性向量、詞向量等,將分類能力從特征豐富的源域遷移到目標(biāo)域,進(jìn)而識(shí)別未見(jiàn)類別的實(shí)例。目前,關(guān)于ZSL 的研究非常多樣化,如基于生成對(duì)抗網(wǎng)絡(luò)的方法[30-33],基于獨(dú)立屬性分類器的方法[34-36] 等。本文主要關(guān)注的基于映射函數(shù)的方法,即利用所提供的語(yǔ)義信息,學(xué)習(xí)一個(gè)視覺(jué)-語(yǔ)義空間的映射函數(shù)。根據(jù)所映射到的空間的不同,可分為3 種類型:(1)學(xué)習(xí)將特征從視覺(jué)空間映射到語(yǔ)義空間的映射函數(shù)[37];(2)學(xué)習(xí)將特征從語(yǔ)義空間映射到視覺(jué)空間的映射函數(shù)[38];(3)將視覺(jué)特征和語(yǔ)義特征映射到公共的空間[39]。然而,在現(xiàn)實(shí)的應(yīng)用場(chǎng)景中,我們需要的可能不僅僅是物體的類別,還需要對(duì)物體進(jìn)行定位,所以ZSD 便應(yīng)運(yùn)而生。

    1.3 零樣本目標(biāo)檢測(cè)

    ZSD 作為一個(gè)近些年新提出的任務(wù),已經(jīng)引起了不少的關(guān)注。盡管都是用來(lái)檢測(cè)未見(jiàn)類目標(biāo),我們不能簡(jiǎn)單地將ZSL 中的方法進(jìn)行復(fù)制,因?yàn)樵赯SD 中單個(gè)圖像可能會(huì)出現(xiàn)多個(gè)目標(biāo),并且還需對(duì)目標(biāo)進(jìn)行定位,更具挑戰(zhàn)性。Rahman 等[7] 首次將ZSL 中的算法應(yīng)用到目標(biāo)檢測(cè)框架,并引入一種新的聚類損失函數(shù)來(lái)對(duì)齊視覺(jué)空間和語(yǔ)義空間兩個(gè)異構(gòu)空間。Bansal 等[8] 提出了一種背景感知的目標(biāo)檢測(cè)器,將未見(jiàn)類目標(biāo)從背景中分離出來(lái)。為減少噪聲對(duì)分類器的影響,MS-ZSD(Multi-Space Approach toZero-Shot Object Detection)[40] 提出了一種包含視覺(jué)-語(yǔ)義映射和語(yǔ)義-視覺(jué)映射的多空間視覺(jué)語(yǔ)義映射方法,并引入跨模態(tài)一致性損失來(lái)保持兩個(gè)模態(tài)表示的一致性。Zheng 等[13] 通過(guò)修改區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN) 學(xué)習(xí)背景向量,從而更好地區(qū)分背景和前景。Xie 等[41] 將視覺(jué)語(yǔ)言模型CLIP 的泛化能力轉(zhuǎn)移到Y(jié)OLOv3 模型上,也取得了不錯(cuò)的效果。除了修改模型的架構(gòu)以外,Rahman 等[42]提出極性損失函數(shù),從優(yōu)化學(xué)習(xí)過(guò)程的角度,實(shí)現(xiàn)視覺(jué)特征和語(yǔ)義特征的精準(zhǔn)匹配,緩解類不平衡問(wèn)題。此外,還有許多基于生成模型的方法[9, 14]。本文采用的是基于映射的方法。

    2 研究方法

    2.1 問(wèn)題描述

    在ZSD 中,本文用Xs和Xu分別表示訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),對(duì)于第 個(gè)樣本,bi =(bix,biy,biw,bih)用于描述目標(biāo)邊界框的空間坐標(biāo)和寬高尺寸,yi ∈ Ys用于描述目標(biāo)的類別。假設(shè)可見(jiàn)類別的集合為Ys = {y1,y2,…, ys},未見(jiàn)類別的集合為Yu = {ys+1,ys+2,…, ys+u}其中,可見(jiàn)類別與未見(jiàn)類別不相交,即Ys∩Yu = ?,Ys ∪Yu = Y,Y表示類別總數(shù)。對(duì)于每個(gè)類別,本文使用一個(gè) 維的語(yǔ)義嵌入向量(word2vec[43]) 輔助進(jìn)行知識(shí)的轉(zhuǎn)移,其中,可見(jiàn)類別的語(yǔ)義嵌入向量表示為Vs ∈Rd×s, 未見(jiàn)類別的語(yǔ)義嵌入向量表示為Vu ∈Rd×s,s和 u分別代表可見(jiàn)類別和未見(jiàn)類別的數(shù)量,d代表向量維度。ZSD 的任務(wù)為利用只包含可見(jiàn)類別標(biāo)簽的訓(xùn)練數(shù)據(jù)Xs,結(jié)合語(yǔ)義嵌入向量V,訓(xùn)練一個(gè)目標(biāo)檢測(cè)器識(shí)別和定位未見(jiàn)類別的目標(biāo)。

    2.2 模型架構(gòu)

    本文提出的ZSD 框架如圖1 所示,ResNet[44] 作為主干網(wǎng)絡(luò),學(xué)習(xí)圖像級(jí)的視覺(jué)特征,利用RPN 結(jié)合池化操作生成建議框(Region of Interest, RoI),最后利用一個(gè)分類分支和回歸分支完成分類和定位任務(wù)。

    對(duì)于分類分支,利用可見(jiàn)類樣本數(shù)據(jù),學(xué)習(xí)映射函數(shù)ψ v→s(·),將視覺(jué)特征映射到語(yǔ)義空間,即

    Fs =ψ v→s(Fv) (1)

    其中:Fv ∈ Rn×dv代表視覺(jué)特征, 表示RoI 的個(gè)數(shù),dv = 1 024表示視覺(jué)特征的維度,F(xiàn)s ∈ Rn×d表示映射到語(yǔ)義空間的特征,d = 300代表語(yǔ)義特征的維度,映射函數(shù)ψ v→s(·)通過(guò)多層感知機(jī)實(shí)現(xiàn)。將映射特征Fs傳入新提出先驗(yàn)知識(shí)提取模塊,如圖1 虛線框所示,結(jié)合特征編碼器,生成具有任務(wù)導(dǎo)向的先驗(yàn)輔助特征Fprior ∈ Rn×d;利用自上而下的注意力機(jī)制模塊(Top-Down Attention Module, TDAM) 完成特征的融合,并使用余弦相似度進(jìn)行類別預(yù)測(cè)。本文的分類損失Lcls采用交叉熵?fù)p失。

    對(duì)于回歸分支,考慮到Faster R-CNN[1] 采用的類不可知方式,具有較強(qiáng)的可移植性,所以本文沿用了Faster R-CNN[1] 中的邊界框預(yù)測(cè)方式,并使用SmoothL1損失進(jìn)行約束。

    為提高相同類別特征之間的聚類能力,本文新增一個(gè)對(duì)比損失Lcon,對(duì)各個(gè)分量進(jìn)行監(jiān)督,優(yōu)化網(wǎng)絡(luò)參數(shù)。所以本文多任務(wù)損失如下:

    Lzsd = Lcls + Lcon +SmoothL1 (2)

    2.3 先驗(yàn)知識(shí)提取模塊

    自上而下注意力的關(guān)鍵在于先驗(yàn)知識(shí)的獲取,通過(guò)利用與任務(wù)有關(guān)的先驗(yàn)知識(shí),引導(dǎo)模型對(duì)底層特征的處理,使模型朝著與當(dāng)前任務(wù)相關(guān)的方向優(yōu)化,從而緩解ZSD 測(cè)試時(shí)向可見(jiàn)類物體偏移的現(xiàn)象,提高未見(jiàn)類別目標(biāo)的檢測(cè)精度?;诖?,本文設(shè)計(jì)了一個(gè)先驗(yàn)知識(shí)提取模塊,如圖2 所示。

    整個(gè)先驗(yàn)知識(shí)提取模塊包含兩部分:預(yù)測(cè)模塊和推理模塊。在預(yù)測(cè)模塊中,為了使每個(gè)RoI 都有與之對(duì)應(yīng)的未見(jiàn)類別的引導(dǎo)信息,本文利用Fs ∈ Rn×d以及未見(jiàn)類的語(yǔ)義嵌入向量Vu ∈ Rd×u,得到一個(gè)預(yù)測(cè)特征Fpre ∈ Rn×u, 其中Fpre = Pcos(S,Vu),Pcos表示兩個(gè)矩陣之間的余弦相似度,即

    其中:A ∈ Rn×k,B ∈ Rm×k,?表示克羅內(nèi)克積,?表示哈達(dá)瑪除法。為排除一些低關(guān)聯(lián)程度信息的混淆和誤導(dǎo),對(duì)于維度為 的預(yù)測(cè)特征,本文選取相似度值最大的5 個(gè)類別特征進(jìn)行保留,并將剩余維度置0。

    對(duì)于推理模塊,首先利用映射后特征S ∈Rn×d并結(jié)合可見(jiàn)類別的語(yǔ)義嵌入向量Vs ∈ Rd×s,得到推理特征F′inf∈ Rn×s = Pcos(S,Vs)。為將推理特征映射到與預(yù)測(cè)特征相同的維度以便后續(xù)融合,利用可見(jiàn)類別與未見(jiàn)類的語(yǔ)義嵌入向量生成一個(gè)遷移矩陣, 即Wtransfer ∈ Rs×u = Pcos(Vs,Vu)。同樣保留5 個(gè)最相似的類別特征, 將剩余維度置0, 最終的推理特征Finf =WtransferF′inf,其中Finf ∈ Rn×u。

    對(duì)于融合特征Ffusion,本文采取加和的方式,即Ffusion = Fpre + Finf Ffusion ∈ Rn×u。為使所得先驗(yàn)知識(shí)與映射后的特征相融合,本文利用編碼架構(gòu),將融合特征編碼到和語(yǔ)義特征相同的維度,得到最終的先驗(yàn)特征Fprior ∈ Rn×d,編碼器通過(guò)多層感知機(jī)實(shí)現(xiàn),即Fprior = MLP(Ffusion)。

    2.4 自上而下的注意力模塊

    對(duì)于語(yǔ)義特征 Fs ,與語(yǔ)義嵌入向量 V 不同,即使屬于同一類別,由于目標(biāo)屬性之間的差異,如顏色、大小,它們的特征也千差萬(wàn)別。而且由于訓(xùn)練過(guò)程缺乏未見(jiàn)類的知識(shí),這使得測(cè)試結(jié)果更容易偏向可見(jiàn)類別目標(biāo)。而自上而下的注意力機(jī)制,由于存在先驗(yàn)知識(shí),可以為模型提供任務(wù)導(dǎo)向,使模型不再直接忽略訓(xùn)練期間出現(xiàn)的未見(jiàn)類物體的視覺(jué)特征,簡(jiǎn)單將其歸為背景信息,而是會(huì)提高對(duì)未見(jiàn)類別物體的敏感性,選擇性地保留和篩選,更加聚焦于和最終檢測(cè)任務(wù)相關(guān)的特征,進(jìn)而緩解域偏移現(xiàn)象的發(fā)生,提高檢測(cè)的準(zhǔn)確性?;诖?,本文設(shè)計(jì)了圖3 所示的自上而下的注意力機(jī)制模塊,對(duì)語(yǔ)義特征進(jìn)行動(dòng)態(tài)更新。

    首先,為使獲取的先驗(yàn)知識(shí)和語(yǔ)義特征更好地融合, 本文引入一個(gè)可學(xué)習(xí)的動(dòng)態(tài)參數(shù)α,使得Fs = Fs +αFprior。注意力機(jī)制模塊中的Q、 K、 V向量,通過(guò)如下方式計(jì)算:

    Q = Fs"?WQ (4)

    K = Fs"?WK (5)

    V = Fs"?WV (6)

    其中:WQ ∈ Rd×d,WK ∈ Rd×d,WV ∈ Rd×d,分別通過(guò)一個(gè)線性層訓(xùn)練而來(lái)。由于點(diǎn)積運(yùn)算容易受向量絕對(duì)大小和方向的影響,本文使用余弦相似度代替點(diǎn)積進(jìn)行相似度的運(yùn)算,提高模型對(duì)數(shù)據(jù)方向和特征結(jié)構(gòu)的魯棒性。注意力機(jī)制的輸出Fatten ∈ Rn×d如下:

    Fatten = Softmax(Q? K)?V (7)

    其中: ? 表示余弦相似度。

    為緩解梯度消失問(wèn)題,本文引入殘差連接并伴隨層歸一化操作,同時(shí)在前饋網(wǎng)絡(luò)中,采用更加平滑的GELU(Gaussian Error Linear Unit)[45] 激活函數(shù)。最終模型的輸出Fout ∈ Rn×d如下:

    Fout = FFN(layerNorm(Fs + Fatten)) (8)

    2.5 對(duì)比學(xué)習(xí)

    注意力機(jī)制通常更加關(guān)注局部和上下文特征,從而幫助模型更好地理解圖像信息,但它卻不會(huì)主動(dòng)提高同一類別之間的相似性。為此,本文引入一個(gè)對(duì)比損失函數(shù),提高模型的聚類能力,對(duì)于第 個(gè)區(qū)域建議zi,在當(dāng)前批次下, 將與之類別相同的RoI 作為正樣本,記為z+,將類別不同的RoI 作為負(fù)樣本,記為z-。區(qū)域?qū)Ρ葥p失函數(shù)如下:

    其中:Npi表示當(dāng)前批次下,對(duì)于zi 而言,和它類別相同的正樣本個(gè)數(shù);Nni表示類別不同的負(fù)樣本個(gè)數(shù);τv表示超參數(shù);N表示RoI 的總數(shù)。

    在語(yǔ)義空間中,對(duì)于任意兩個(gè)實(shí)例特征,通過(guò)施加對(duì)比約束,可以充分利用標(biāo)簽信息,拉近類別相同的實(shí)例在特征空間中的距離,提高其相似程度和聚類效果,使類內(nèi)特征更加緊密。此外,為進(jìn)一步減少向量絕對(duì)大小的干擾,與前人研究[46] 不同,本文拋棄了點(diǎn)積的計(jì)算方式,利用余弦相似度來(lái)衡量類別之間的相似性。

    2.6 模型預(yù)測(cè)

    對(duì)于目標(biāo)的預(yù)測(cè)類別,本文通過(guò)計(jì)算模型最終輸出Fout和語(yǔ)義嵌入向量V的余弦相似度進(jìn)行判斷,即在訓(xùn)練過(guò)程中,對(duì)于可見(jiàn)類別目標(biāo)的預(yù)測(cè)概率ps ∈ Rn×s:

    ps = Pcos(Fout,Vs) (10)

    在測(cè)試過(guò)程中,對(duì)于未見(jiàn)類別目標(biāo)的預(yù)測(cè)概率pu ∈ Rn×u:

    pu = Pcos(Fout,Vu) (11)

    3 實(shí)驗(yàn)部分

    3.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

    (1) 數(shù)據(jù)集:本文在MSCOCO 2014[47] 目標(biāo)檢測(cè)數(shù)據(jù)集上評(píng)估提出的方法??紤]到未見(jiàn)類的稀有性和多樣性,本文采用了可見(jiàn)類/未見(jiàn)類(65/15)[42] 和可見(jiàn)類/未見(jiàn)類(48/17)[8] 的分割方式。

    (2) 語(yǔ)義嵌入:對(duì)于所用到的語(yǔ)義嵌入信息,本文延續(xù)前人研究[48] 的策略,使用來(lái)自word2vec[43] 的300 維語(yǔ)義向量用于MSCOCO 數(shù)據(jù)集。

    (3) 實(shí)現(xiàn)細(xì)節(jié): 重新調(diào)整圖片大小, 以確保MSCOCO 數(shù)據(jù)集的最小邊長(zhǎng)分別為600 和800。本文選擇在ImageNet[49] 上預(yù)訓(xùn)練的ResNet-101[44] 作為主干網(wǎng)絡(luò),提取多尺度特征,并使用學(xué)習(xí)率為0.001、動(dòng)量為0.9 的SGD 優(yōu)化器優(yōu)化所提出的模型。在對(duì)比約束中,對(duì)于超參數(shù)τv,本文設(shè)置為0.01。

    (4) 評(píng)價(jià)指標(biāo):對(duì)于MSCOCO 數(shù)據(jù)集,選擇平均精度(mAP) 和Recall 作為評(píng)價(jià)指標(biāo)。本文在標(biāo)準(zhǔn)(ZSD) 和廣義零樣本目標(biāo)檢測(cè)(GZSD) 設(shè)置下進(jìn)行了實(shí)驗(yàn),并評(píng)估了諧波均值(Harmonic Mean, HM)來(lái)展示GZSD 的性能,其中, mAP 的 HM 可通過(guò)式(12)計(jì)算:

    HM =2×mAP×mAP/mAP+mAP(12)

    3.2 實(shí)驗(yàn)比較

    (1) ZSD/GZSD 性能。如表1 所示,本文將所提出的模型與SB[8]、PL-ZSD[42]、TL-ZSD[12]、BLC[50]、ZSI[13]、ContrastZSD[51] 和SU-ZSD[9] 等方法在MSCOCO 上對(duì)ZSD 和GZSD 的性能進(jìn)行了比較。從表中可以看出,在ZSD 任務(wù)中,不管是采用65/15 的劃分方式還是48/17 的劃分方式,該模型在最具挑戰(zhàn)性的指標(biāo)mAP 上都達(dá)到了最佳性能,尤其是在65/15 的劃分方式中,分別比PL-ZSD[42]、TL-ZSD[12]、BLC[50]、ZSI[13]、ContrastZSD[51]、SU-ZSD[9] 高出7.30%、5.13%、6.60%、6.10%、1.10%、0.70%,這些提升都表明了模型的有效性。對(duì)于更具挑戰(zhàn)性的GZSD 任務(wù),雖然未見(jiàn)類和可見(jiàn)類物體同時(shí)存在,該模型也有顯著的性能提升, 尤其是對(duì)于可見(jiàn)類的召回率、未見(jiàn)類的mAP和HM 的mAP 指標(biāo),它們都達(dá)到了最佳性能。這進(jìn)一步說(shuō)明本文所提出的先驗(yàn)知識(shí)獲取模塊可以很好地提取先驗(yàn)知識(shí),為最終的未見(jiàn)類檢測(cè)任務(wù)提供任務(wù)導(dǎo)向,同時(shí)也表明模型在緩解域偏移、提高未見(jiàn)類類別物體的判別性方面的有效性,可以更好地實(shí)現(xiàn)可見(jiàn)類到未見(jiàn)類的知識(shí)轉(zhuǎn)移。

    由于余弦相似度不受向量尺度變換的影響,在高維空間中仍能捕捉語(yǔ)義特征之間的關(guān)聯(lián),此外,語(yǔ)義嵌入向量的生成模型[43] 也采用余弦相似度進(jìn)行特征匹配,所以本文使用余弦相似度代替矩陣乘法進(jìn)行類別判斷。不過(guò),余弦相似度只考慮特征向量的方向,對(duì)于一些復(fù)雜的特征,可能無(wú)法捕捉特征之間的非線性關(guān)系和特征匹配情況,這也導(dǎo)致在表1 中,該模型在未見(jiàn)類Recall 指標(biāo)上表現(xiàn)并不是很優(yōu)異。但mAP 考慮了模型在不同交并比(Intersection overUnion, IoU) 閾值下的精度,對(duì)模型的性能進(jìn)行了更全面的評(píng)估,因此,mAP 可以更有力地衡量一個(gè)模型的質(zhì)量。所以,盡管該方法在召回率指標(biāo)上表現(xiàn)不是最佳,mAP 指標(biāo)上的表現(xiàn)仍能說(shuō)明模型的有效性。

    (2) 類別性能。為了進(jìn)一步展示該模型在MSCOCO 數(shù)據(jù)集上的優(yōu)勢(shì),本文在表2 上給出了每個(gè)類別的精度(AP)和mAP。如表2 所示,在mAP標(biāo)準(zhǔn)下,和其他模型相比,該模型具有顯著優(yōu)勢(shì),對(duì)于某些類別的AP,也獲得了很好的增益,例如bear、snowboard、hot dog 等類別。但由于此方法是利用可見(jiàn)類與未見(jiàn)類之間的相似性來(lái)生成先驗(yàn)知識(shí),進(jìn)而為最終檢測(cè)任務(wù)提供任務(wù)導(dǎo)向,所以在類別AP 中,對(duì)于那些可見(jiàn)類與未見(jiàn)類相似度較低的類別,例如hair driver等,類別之間的弱關(guān)聯(lián)性大大提高了知識(shí)轉(zhuǎn)移的難度,不能很好地生成有價(jià)值的先驗(yàn)信息,因此它們的檢測(cè)效果很差。

    (3) 定性分析。為了進(jìn)一步定性地分析檢測(cè)性能,本文在圖4 中可視化了MSCOCO 數(shù)據(jù)集上的一些ZSD 和GZSD 的檢測(cè)結(jié)果。從圖中可以看出,和ZSI[13] 相比,該模型可以正確地檢測(cè)出不同場(chǎng)景下的未見(jiàn)類物體,如單類別單物體(如toilet)、單類別多物體(如suitcase、cat)、多類別多物體(如train、snowboard、parking meter),而ZSI[13] 則出現(xiàn)了不同程度的漏檢現(xiàn)象。同時(shí),在GZSD 任務(wù)中,本文的方法也有不錯(cuò)的檢測(cè)效果,而ZSI[13] 不僅會(huì)出現(xiàn)錯(cuò)誤分類的情況(如將frisbee 識(shí)別成surfboard、將cat 識(shí)別為dog),還會(huì)出現(xiàn)漏檢現(xiàn)象(如skis、traffic light)。這些例子都證明了該模型在ZSD 和GZSD 任務(wù)中的有效性。

    為了進(jìn)一步證明該模型在特征聚類方面的有效性,本文在MSCOCO 數(shù)據(jù)集上隨機(jī)選取了9 個(gè)未見(jiàn)類別, 利用t-SNE[52] 對(duì)特征進(jìn)行了可視化, 并與ZSI[13] 進(jìn)行對(duì)比,如圖5(a) 和圖5(b) 所示??梢园l(fā)現(xiàn),ZSI[13] 中未見(jiàn)類的特征整體分布比較混亂,類內(nèi)距離較大,比如圖5(a) 中的“bear”、“train”等類別,這非常容易造成類別的混淆從而出現(xiàn)誤分類的現(xiàn)象。相比之下,可以清楚地看到本文的方法在未見(jiàn)類別上表現(xiàn)出更高的類內(nèi)緊密度,比如“train”、“parkingmeter”、“toaster”等類別。這表明該模型可以更好地捕捉特征的基本數(shù)據(jù)分布,提高特征之間的判別性,使得相似的類別更加聚集。

    3.3 消融實(shí)驗(yàn)

    為研究各個(gè)組件的作用,本文進(jìn)行了細(xì)致的消融實(shí)驗(yàn)來(lái)進(jìn)行定量分析,表3 示出了MSCOCO 數(shù)據(jù)集上基于mAP 的ZSD 和GZSD 性能??梢园l(fā)現(xiàn),和基線模型相比,本文所設(shè)計(jì)的自上而下的注意力機(jī)制模塊效果顯著,mAP 提升4.80%,這說(shuō)明通過(guò)為最終的檢測(cè)任務(wù)提供任務(wù)引導(dǎo),可以很好地提高模型對(duì)未見(jiàn)類目標(biāo)的注意力,增大模型對(duì)可見(jiàn)數(shù)據(jù)和未見(jiàn)類數(shù)據(jù)分布的區(qū)分性,緩解域偏移現(xiàn)象。在施加對(duì)比約束后,模型檢測(cè)效果進(jìn)一步提升,這說(shuō)明本文的方法在優(yōu)化特征分布、提高聚類效果方面的有效性。此外,為進(jìn)一步驗(yàn)證所提出的對(duì)比約束的合理性,本文與前人[46] 所提出的點(diǎn)積計(jì)算方式進(jìn)行對(duì)比,從表3 中可以看出,盡管二者都可以進(jìn)一步提升檢測(cè)精度,前者的效果更加顯著,這說(shuō)明了余弦相似度更適合語(yǔ)義特征之間權(quán)值的計(jì)算,在進(jìn)行對(duì)比約束時(shí)也更加有效。

    4 結(jié) 論

    本文提出了一種基于自上而下注意力機(jī)制的零樣本目標(biāo)檢測(cè)框架,探索充分利用未見(jiàn)類的語(yǔ)義知識(shí)引導(dǎo)模型對(duì)目標(biāo)進(jìn)行分類和定位。該模型通過(guò)結(jié)合先驗(yàn)知識(shí)提取模塊和自上而下注意力機(jī)制模塊,為檢測(cè)任務(wù)提供任務(wù)導(dǎo)向,引導(dǎo)模型對(duì)底層特征的處理,增強(qiáng)模型對(duì)可見(jiàn)類和未見(jiàn)類數(shù)據(jù)分布的區(qū)分性;同時(shí)利用對(duì)比約束,增強(qiáng)映射特征的判別能力,進(jìn)而更好地對(duì)齊視覺(jué)空間和語(yǔ)義空間,提高模型的性能。實(shí)驗(yàn)結(jié)果表明,該模型在各種基準(zhǔn)的標(biāo)準(zhǔn)和廣義零樣本目標(biāo)檢測(cè)任務(wù)中都取得了滿意的檢測(cè)結(jié)果。

    參考文獻(xiàn):

    [ 1 ]REN S, HE K, GIRSHICK R, et al. Faster R-CNN:Towards real-time object detection with region proposalnetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2016, 39(6): 1137-1149.

    [ 2 ]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss fordense object detection[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 2020, 42(2): 318-327.

    [ 3 ]沈震宇, 朱昌明, 王喆. 基于MAML 算法的YOLOv3 目標(biāo)檢測(cè)模型[J]. 華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022,48(1): 112-119.

    [ 4 ]JI Z, FU Y, GUO J, et al. Stacked semantics-guided attentionmodel for fine-grained zero-shot learning[J]. Advancesin Neural Information Processing Systems, 2018, 31: 5995-6004.

    [ 5 ]JIANG C, XU H, LIANG X, et al. Hybrid knowledgerouted modules for large-scale object detection[J].Advances in Neural Information Processing Systems,2018, 31: 1559-1570.

    [ 6 ]XU H, JIANG C, LIANG X, et al. Spatial-aware graphrelation network for large-scale object detection[C]//2019 IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). Long Beach, CA, USA: IEEE,2019: 9290-9299.

    [ 7]RAHMAN S, KHAN S, PORIKLI F. Zero-shotobject detection: Learning to simultaneously recognize andlocalize novel concepts[C]//14th Asian Conference onComputer Vision (ACCV). Perth, AUSTRALIA: Springer,2018: 547-563.

    [ 8 ]BANSAL A, SIKKA K, SHARMA G, et al. Zero-shotobject detection[C]//15th European Conference on ComputerVision (ECCV). Munich, Germany: Springer, 2018:397-414.

    [ 9 ]HAYAT N, HAYAT M, RAHMAN S, et al. Synthesizingthe unseen for zero-shot object detection[C]//15th AsianConference on Computer Vision (ACCV). Kyoto, Japan:Springer, 2020: 155-170.

    [10]DEMIREL B, CINBIS R G, IKIZLER-CINBIS N. Zeroshotobject detection by hybrid region embedding[EB/OL].(2018-5-16)[2018-5-17]. https://doi.org/10.48550/arXiv.1805.06157.

    [11]LI Z, YAO L, ZHANG X, et al. Zero-shot object detectionwith textual descriptions[C]//33rd AAAI Conference onArtificial Intelligence. Honolulu, HI: AAAI, 2019: 8690-8697.

    [12]RAHMAN S, KHAN S, BARNES N. Transductive learningfor zero-shot object detection[C]//2019 IEEE/CVFInternational Conference on Computer Vision (ICCV).Seoul: IEEE, 2019: 6081-6090.

    [13]ZHENG Y, WU J, QIN Y, et al. Zero-shot instancesegmentation[C]//2021 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). TN, USA:IEEE, 2021: 2593-2602.

    [14]HUANG P, HAN J, CHENG D, et al. Robust regionfeature synthesizer for zero-shot object detection[C]//2022 IEEE/CVF Conference on Computer Vision andPattern Recognition (CVPR). New Orleans, LA, USA: IEEE,2022: 7612-7621.

    [15]SARMA S, KUMAR S, SUR A. Resolving semanticconfusions for improved zero-shot detection[EB/OL].(2022-12-12) [2023-2-15]. https://doi.org/10.48550/arXiv.2212.06097.

    [16]ZHU P, WANG H, SALIGRAMA V. Don't even look once:Synthesizing features for zero-shot detection[C]//2020IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). Seattle, WA, USA: IEEE, 2020:11690-11699.

    [17]LI Y, LI P, CUI H, et al. Inference fusion with associativesemantics for unseen object detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(3):1993-2001.

    [18]LV W, SHI H, TAN S, et al. Cross-domain constrained networkfor zero-shot object detection[EB/OL]. (2022-10-31)[2022-12-1]. https://doi.org/10.21203/rs.3.rs-2208626/v1.

    [19]YAN C, ZHENG Q, CHANG X, et al. Semantics-preservinggraph propagation for zero-shot object detection[J].IEEE Transactions on Image Processing, 2020, 29: 8163-8176.

    [20]KIPF T N, WELLING M. Semi-supervised classificationwith graph convolutional networks[EB/OL]. (2016-9-9)[2016-10-24]. https://doi.org/10.48550/arXiv.1609.02907.

    [21]CARION N, MASSA F, SYNNAEVE G, et al. End-to-endobject detection with transformers[C]//European Conferenceon Computer Vision. Cham: Springer, 2020: 213-229.

    [22]LIU W, ANGUELOV D, ERHAN D, et al. SSD: Singleshot multibox detector[C]//Computer Vision–ECCV 2016:14th European Conference. Amsterdam, Netherlands:Springer, 2016: 21-37.

    [23]REDMON J, FARHADI A. YOLOV3: An incremental improvement[EB/OL]. (2018-4-8) [2018-5-20]. https://doi.org/10.48550/arXiv.1804.02767.

    [24]ZHU X, LYU S, WANG X, et al. TPH-YOLOv5:Improved YOLOv5 based on transformer prediction headfor object detection on drone-captured scenarios[C]//2021IEEE/CVF International Conference on Computer VisionWorkshops (ICCVW). Montreal, BC, Canada: IEEE, 2021:2778-2788.

    [25]HE K, ZHANG X, REN S, et al. Spatial pyramid pooling indeep convolutional networks for visual recognition[J]. IEEETransactions on Pattern Analysis and Machine Intelligence,2015, 37(9): 1904-1916.

    [26]DAI J, LI Y, HE K, et al. R-FCN: Object detection viaregion-based fully convolutional networks[EB/OL]. (2016-5-20)[2016-6-21]. https//doi.org/10.48550/arXiv.1605.06409.

    [27]HE K, GKIOXARI G, DOLLáR P, et al. MaskR-CNN[C]//2017 IEEE International Conference on ComputerVision (ICCV). Venice, Italy: IEEE, 2017: 2980-2988.

    [28]ZHU X, SU W, LU L, et al. Deformable DETR: Deformabletransformers for end-to-end object detection[EB/OL].(2020-10-8)[2020-11-30]. https://doi.org/10.48550/arXiv.2010.04159.

    [29]XIAN Y, LAMPERT C H, SCHIELE B, et al. Zero-shotlearning: A comprehensive evaluation of the good, the badand the ugly[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2018, 41(9): 2251-2265.

    [30]XIAN Y, LORENZ T, SCHIELE B, et al. Feature generatingnetworks for zero-shot learning[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City, UT: IEEE, 2018: 5542-5551.

    [31]YAN C, CHANG X, LI Z, et al. Zeronas: Differentiablegenerative adversarial networks search for zero-shot learning[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2021, 44(12): 9733-9740.

    [32]SU H, LI J, CHEN Z, et al. Distinguishing unseen fromseen for generalized zero-shot learning[C]//2022 IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR). New Orleans, LA, USA: IEEE, 2022: 7875-7884.

    [33]YANG J, SHEN Q, XIE C. Generation-based contrastivemodel with semantic alignment for generalized zero-shotlearning[J]. Image and Vision Computing, 2023, 137:104758.

    [34]HUYNH D, ELHAMIFAR E. Fine-grained generalizedzero-shot learning via dense attribute-basedattention[C]//2020 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). Seattle, WA,USA: IEEE, 2020: 4482-4492.

    [35]ZHANG Z, YANG G. Exploring attribute space with wordembedding for zero-shot learning[C]//2022 InternationalJoint Conference on Neural Networks (IJCNN). Padua,Italy: IEEE, 2022: 1-8.

    [36]CHEN S, HONG Z, XIE G S, et al. MSDN: Mutuallysemantic distillation network for zero-shot learning[C]//2022 IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). New Orleans, LA, USA: IEEE,2022: 7602-7611.

    [37]XIAN Y, AKATA Z, SHARMA G, et al. Latent embeddingsfor zero-shot classification[C]//2016 IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR).Las Vegas, NV, USA: IEEE, 2016: 69-77.

    [38]MENG M, ZHAN X, WU J. Joint discriminative attributesand similarity embeddings modeling for zero-shot recognition[J]. Neurocomputing, 2020, 399: 117-128.

    [39]ANNADANI Y, BISWAS S. Preserving semantic relationsfor zero-shot learning[C]//2018 IEEE/CVF Conference onComputer Vision and Pattern Recognition. Salt Lake City,UT, USA: IEEE, 2018: 7603-7612.

    [40]GUPTA D, ANANTHARAMAN A, MAMGAIN N, et al.A multi-space approach to zero-shot object detection[C]//2020 IEEE Winter Conference on Applications of ComputerVision (WACV). Snowmass, CO, USA: IEEE, 2020:1198-1206.

    [41]XIE J, ZHENG S. Zero-shot object detection through vision-language embedding alignment[C]//2022 IEEE InternationalConference on Data Mining Workshops (ICDMW).Orlando, FL, USA: IEEE, 2022: 1-15.

    [42]RAHMAN S, KHAN S, BARNES N. Polarity loss for zeroshotobject detection[EB/OL]. (2018-11-22) [2019-4-1].https://doi.org/10.48550/arXiv.1811.08982.

    [43]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributedrepresentations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems,2013, 26:3111-3119.

    [44]HE K, ZHANG X, REN S, et al. Deep residual learning forimage recognition[C]//2016 IEEE Conference on ComputerVision and Pattern Recognition (CVPR). Las Vegas,NV, USA: IEEE, 2016: 770-778.

    [45]HENDRYCKS D, GIMPEL K. Gaussian error linear units(GELUs)[EB/OL].(2016-6-27)[2016-7-8]. https//doi.org/10.48550/arxiv.1606.08415.

    [46]KHOSLA P, TETERWAK P, WANG C, et al. Supervisedcontrastive learning[J]. Advances in Neural InformationProcessing Systems, 2020, 33: 18661-18673.

    [47]LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft coco:Common objects in context[C]//Computer Vision–ECCV2014: 13th European Conference. Zurich, Switzerland:Springer, 2014: 740-755.

    [48]RAHMAN S, KHAN S, BARNES N. Improved visualsemanticalignment for zero-shot object detection[C]//34th AAAI Conference on Artificial Intelligence. NewYork, USA: AAAI, 2020: 11932-11939.

    [49]RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet largescale visual recognition challenge[J]. International Journalof Computer Vision, 2015, 115: 211-252.

    [50]ZHENG Y, HUANG R, HAN C, et al. Background learnablecascade for zero-shot object detection[C]//15th AsianConference on Computer Vision (ACCV). Kyoto, Japan:Springer, 2020: 107-123.

    [51]YAN C, CHANG X, LUO M, et al. Semantics-guided contrastivenetwork for zero-shot object detection[J]. IEEETransactions on Pattern Analysis and Machine Intelligence,2022, 46(3): 1530-1544.

    [52]VAN DER MAATEN L, HINTON G. Visualizing datausing t-SNE[J]. Journal of Machine Learning Research,2008, 9(11): 2579-2605.

    (責(zé)任編輯:李娟)

    基金項(xiàng)目: 國(guó)家自然科學(xué)基金(62073140, 62073141, 62103149); 國(guó)家重點(diǎn)研發(fā)計(jì)劃(2020YFC1522502, 2020YFC1522505)

    猜你喜歡
    計(jì)算機(jī)視覺(jué)目標(biāo)檢測(cè)
    視頻中目標(biāo)檢測(cè)算法研究
    軟件(2016年4期)2017-01-20 09:38:03
    基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
    雙目攝像頭在識(shí)別物體大小方面的應(yīng)用
    行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
    機(jī)器視覺(jué)技術(shù)發(fā)展及其工業(yè)應(yīng)用
    危險(xiǎn)氣體罐車(chē)液位計(jì)算機(jī)視覺(jué)監(jiān)控識(shí)別報(bào)警系統(tǒng)設(shè)計(jì)
    計(jì)算機(jī)視覺(jué)在交通領(lǐng)域的應(yīng)用
    基于計(jì)算機(jī)視覺(jué)的細(xì)小顆粒團(tuán)重量測(cè)量的研究
    移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
    基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測(cè)
    富阳市| 柯坪县| 滁州市| 竹溪县| 金华市| 承德县| 安岳县| 哈尔滨市| 筠连县| 海伦市| 平遥县| 青州市| 长泰县| 海阳市| 应城市| 玛多县| 赤峰市| 新竹市| 浦东新区| 石楼县| 宜城市| 安远县| 温州市| 葫芦岛市| 新和县| 雅安市| 普陀区| 忻城县| 建平县| 蚌埠市| 广灵县| 甘肃省| 慈溪市| 新邵县| 泽州县| 察雅县| 临沧市| 九龙县| 隆回县| 尚义县| 扎兰屯市|