• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      目標(biāo)檢測(cè)模型及其優(yōu)化方法綜述

      2021-07-25 17:49:24蔣弘毅王永娟康錦煜
      自動(dòng)化學(xué)報(bào) 2021年6期
      關(guān)鍵詞:候選框錨點(diǎn)尺度

      蔣弘毅 王永娟 康錦煜

      目標(biāo)檢測(cè)是指利用計(jì)算機(jī)工具和相關(guān)算法來(lái)對(duì)現(xiàn)實(shí)世界中的對(duì)象進(jìn)行分類(lèi)和定位的一類(lèi)計(jì)算機(jī)視覺(jué)技術(shù).

      傳統(tǒng)的目標(biāo)檢測(cè)需要手工提取特征[1?3],并針對(duì)特定檢測(cè)對(duì)象設(shè)計(jì)和訓(xùn)練分類(lèi)器.這類(lèi)方法難以獲得魯棒性強(qiáng)的特征,對(duì)外界環(huán)境噪聲十分敏感,故在工程應(yīng)用上具有較大的局限性.

      現(xiàn)階段,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和硬件設(shè)施的不斷進(jìn)步,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)技術(shù)發(fā)展迅速.以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)[4?6](Region convolutinal neural network,R-CNN)系列為代表的兩階段法,與以單階段檢測(cè)器[7](Single-shot detector,SSD)和YOLO[8?10](You only look once)系列為代表的單階段法是當(dāng)前基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)技術(shù)的兩種主流框架.

      近年來(lái),不少學(xué)者在兩種框架的基礎(chǔ)上對(duì)內(nèi)部的主干網(wǎng)絡(luò)、錨點(diǎn)設(shè)計(jì)、區(qū)域特征編碼等子模塊進(jìn)行了優(yōu)化改進(jìn),有效地提高了目標(biāo)檢測(cè)算法的性能.部分學(xué)者還提出了一種基于對(duì)象關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)框架[11?14],并在各大數(shù)據(jù)集上取得了驚人的成績(jī).

      本文針對(duì)近年來(lái)目標(biāo)檢測(cè)算法的最新研究進(jìn)展,從目標(biāo)檢測(cè)框架的子模塊設(shè)計(jì)優(yōu)化角度出發(fā),對(duì)該領(lǐng)域中一些有啟發(fā)性的研究成果進(jìn)行整理、歸納和分析,并對(duì)目標(biāo)檢測(cè)模型的優(yōu)化思路提出一些建議,以便眾多相關(guān)研究者參考和借鑒.

      1 基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)框架

      目前,主要使用的目標(biāo)檢測(cè)框架分為兩階段和單階段兩類(lèi).兩種框架在結(jié)構(gòu)上(圖1)的最大區(qū)別是:兩階段框架通過(guò)區(qū)域推薦網(wǎng)絡(luò) (Region proposals,RPN)類(lèi)的子網(wǎng)絡(luò)來(lái)輔助生成推薦框(Proposals),而單階段框架直接在特征圖上生成候選框.

      圖1 主流的目標(biāo)檢測(cè)框架Fig.1 Main object detection framework

      輸入的圖片經(jīng)過(guò)由卷積神經(jīng)網(wǎng)絡(luò)組成的主干網(wǎng)絡(luò)(Backbone)后,輸出整張圖片的特征圖(Feature map),通過(guò)頸部(Neck)連接層對(duì)不同尺度的特征圖進(jìn)行融合,以獲得多尺度的特征.此后,單階段方法一方面對(duì)錨點(diǎn)框(Anchor box)進(jìn)行分類(lèi),另一方面直接在不同尺度的特征圖上對(duì)正樣本預(yù)測(cè)邊界框(Bounding box)的位置補(bǔ)償,最后使用非極大值抑制得到檢測(cè)結(jié)果;兩階段方法先利用區(qū)域推薦網(wǎng)絡(luò)對(duì)錨點(diǎn)框進(jìn)行分類(lèi)和回歸得到推薦框,對(duì)其進(jìn)行特征編碼后再做分類(lèi)和回歸,最后經(jīng)過(guò)非極大值抑制完成對(duì)目標(biāo)的檢測(cè).

      傳統(tǒng)上,由于兩階段的目標(biāo)檢測(cè)框架相比于單階段的目標(biāo)檢測(cè)框架多進(jìn)行了一次分類(lèi)和回歸,故在檢測(cè)的準(zhǔn)確率和召回率上都要高出較多.相反,單階段目標(biāo)檢測(cè)框架直接在特征圖上對(duì)正例錨點(diǎn)框進(jìn)行分類(lèi)和回歸,算法復(fù)雜度較小,在檢測(cè)速度上有明顯優(yōu)勢(shì).但近些年來(lái),眾多學(xué)者針對(duì)兩種框架的各自缺點(diǎn)進(jìn)行了相應(yīng)改進(jìn),使部分單階段與兩階段模型在檢測(cè)性能與速度上的差異逐漸縮小[15?17].

      最近,Law 等[11]借鑒人體關(guān)鍵點(diǎn)檢測(cè)的思路,首次提出了一種基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)模型Cornernet(圖2),該框架與上述兩類(lèi)框架的最大區(qū)別是:不再通過(guò)微調(diào)錨點(diǎn)框來(lái)對(duì)目標(biāo)進(jìn)行定位,而是直接對(duì)目標(biāo)關(guān)鍵點(diǎn)進(jìn)行回歸,訓(xùn)練和預(yù)測(cè)邊界框的位置和大小.輸入圖片經(jīng)過(guò)卷積網(wǎng)絡(luò)提取特征后,輸出兩組熱圖(Heat map)來(lái)預(yù)測(cè)目標(biāo)邊界框的左上角點(diǎn)和右下角點(diǎn);每個(gè)熱圖有C個(gè)(C為類(lèi)別數(shù))通道,用來(lái)預(yù)測(cè)目標(biāo)的類(lèi)別.通過(guò)嵌入向量隱式表達(dá)兩類(lèi)角點(diǎn)間的距離,完成對(duì)圖上所有預(yù)測(cè)角點(diǎn)的兩兩匹配,得到最終的目標(biāo)邊界框.

      圖2 CornerNet 框架流程Fig.2 Overall pipeline of CornerNet

      除了選取角點(diǎn)作為物體關(guān)鍵點(diǎn)進(jìn)行目標(biāo)檢測(cè)外,Zhou 等[13]將目標(biāo)中心點(diǎn)作為關(guān)鍵點(diǎn),采用熱圖預(yù)測(cè)目標(biāo)中心點(diǎn),并對(duì)邊界框的大小直接進(jìn)行回歸.與使用角點(diǎn)作為關(guān)鍵點(diǎn)相比,該方法無(wú)需對(duì)關(guān)鍵點(diǎn)進(jìn)行匹配分組,檢測(cè)速度有了較大提升.Yang 等[14]通過(guò)預(yù)測(cè)不同物體的多組點(diǎn)對(duì),使模型更充分地學(xué)習(xí)到相應(yīng)目標(biāo)的幾何、語(yǔ)義、姿態(tài)等利于檢測(cè)任務(wù)的特征,有效提高了模型分類(lèi)與定位的能力.

      基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)框架與單階段檢測(cè)框架相比,在檢測(cè)速度上幾乎沒(méi)有劣勢(shì),而在檢測(cè)性能上遠(yuǎn)超傳統(tǒng)的單階段檢測(cè)框架,甚至比沒(méi)有經(jīng)過(guò)優(yōu)化的兩階段框架還要出色(圖3).同時(shí),其設(shè)計(jì)思路上非常直接,得到的模型也更為簡(jiǎn)潔;擴(kuò)展性極強(qiáng),能方便地應(yīng)用到三維目標(biāo)檢測(cè)、人體姿態(tài)估計(jì)等其他計(jì)算機(jī)視覺(jué)任務(wù)中.

      圖3 典型目標(biāo)檢測(cè)算法速度?準(zhǔn)確率對(duì)比Fig.3 Speed-accuracy comparison of typical object detection algorithms

      2 目標(biāo)檢測(cè)框架的子模塊優(yōu)化

      目標(biāo)檢測(cè)框架一般都包含:主干網(wǎng)絡(luò)、頸部連接層、錨點(diǎn)、區(qū)域特征編碼、分類(lèi)與定位頭部和損失函數(shù)等子模塊.此外,不同模型還有自己獨(dú)特的子模塊.對(duì)上述子模塊進(jìn)行合理的優(yōu)化可以有效地提高目標(biāo)檢測(cè)模型的性能.

      2.1 主干網(wǎng)絡(luò)與頸部連接層優(yōu)化

      主干網(wǎng)絡(luò)子模塊位于輸入層開(kāi)始到具體的下游任務(wù)層前,用于提取目標(biāo)的不同尺度特征.

      早期的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型(如SSD 模型)大多以VGG 網(wǎng)絡(luò)[18]作為主干網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)對(duì)卷積層和池化層進(jìn)行反復(fù)堆疊,提高特征提取和語(yǔ)義表達(dá)能力.然而該網(wǎng)絡(luò)的層數(shù)僅僅只有19 層,提取的特征表達(dá)能力有限.若僅通過(guò)疊加的方法加深網(wǎng)絡(luò)層數(shù),則梯度在網(wǎng)絡(luò)中傳遞時(shí)很容易出現(xiàn)消失或者爆炸,這反而降低了網(wǎng)絡(luò)的性能.

      為解決深度網(wǎng)絡(luò)梯度消失和爆炸的問(wèn)題,He等[19]提出了跳連的殘差(ResNet)網(wǎng)絡(luò)結(jié)構(gòu)(圖4),它將淺層的特征信息與后面層進(jìn)行融合,生成新的特征向后傳遞.該方法有效保證了特征信息向深層網(wǎng)絡(luò)中傳遞,提高了深層網(wǎng)絡(luò)的性能.

      圖4 殘差網(wǎng)絡(luò)的跳連結(jié)構(gòu)Fig.4 Shortcut structure of ResNet

      采用殘差結(jié)構(gòu)增加網(wǎng)絡(luò)深度雖然能夠有效提高卷積網(wǎng)絡(luò)的性能,但帶來(lái)的參數(shù)量增加也是成倍的.為此,Xie 等[20]將殘差結(jié)構(gòu)和Inception 結(jié)構(gòu)[21]進(jìn)行整合(圖5),同時(shí)增加網(wǎng)絡(luò)的深度和寬度(寬度方向參數(shù)共享),在提高網(wǎng)絡(luò)性能的同時(shí)有效控制了參數(shù)量的增長(zhǎng).

      圖5 基數(shù)為32 的ResNeXt 塊Fig.5 ResNeXt block with 32 cardinality

      同一層特征圖的不同通道蘊(yùn)含的特征信息是不同的,Hu 等[22]對(duì)特征圖內(nèi)不同通道間的特征進(jìn)行融合(圖6),使模型學(xué)習(xí)到每個(gè)特征通道的重要程度.這種方法顯式地建立了各個(gè)通道特征間的關(guān)系,有助于更好地提取目標(biāo)特征.

      圖6 特征通道融合的Inception 模塊Fig.6 The schema of SE-Inception module

      除了對(duì)特征通道間關(guān)系進(jìn)行建模外,特征圖同一通道的不同位置上也存在著緊密聯(lián)系.Wang 等[23]顯式地建立了圖上任一點(diǎn)與全局其他位置的關(guān)系,提出了圖像自注意力機(jī)制的非局部網(wǎng)絡(luò)(Non-local network)(圖7).該方法能有效地捕捉不同位置特征的空間聯(lián)系,從而增強(qiáng)了目標(biāo)特征.Cao 等[24]對(duì)非局部網(wǎng)絡(luò)進(jìn)行簡(jiǎn)化,并同時(shí)考慮了特征通道間的關(guān)系,使主干網(wǎng)絡(luò)在提取目標(biāo)特征的性能和速度上都有了提高.相似地,Woo 等[25]提出了通道與空間上的卷積注意力模塊,為特征圖上不同通道和不同位置上的特征賦予不同的權(quán)重,提高了網(wǎng)絡(luò)特征提取的能力.

      圖7 非局部網(wǎng)絡(luò)塊Fig.7 Block of non-local network

      淺層卷積特征的感受野小,缺少足夠的語(yǔ)義信息,但其通常有著較高的分辨率,保留了較多位置信息;深層卷積特征分辨率低,目標(biāo)位置不夠精確,但其感受野較大,包含了豐富的語(yǔ)義信息.

      頸部連接指將上述不同尺度的特征進(jìn)行融合,目的是生成同時(shí)具備高語(yǔ)義信息與精確位置信息的多尺度特征,提高模型對(duì)不同尺度目標(biāo)的檢測(cè)能力.

      最早將多特征融合技術(shù)應(yīng)用在目標(biāo)檢測(cè)框架上的是特征金字塔網(wǎng)絡(luò)(Feature pyramid network,FPN)模型[26].它采用金字塔式的層級(jí)結(jié)構(gòu)將殘差網(wǎng)絡(luò)中的低分辨率特征層進(jìn)行上采樣,并與相應(yīng)尺度的原始特征層進(jìn)行融合(圖8),輸出信息更多、魯棒性更強(qiáng)的多尺度特征.

      圖8 FPN 中的金字塔結(jié)構(gòu)Fig.8 Pyramid structure in FPN

      為進(jìn)一步增強(qiáng)融合后的多尺度特征,Pan 等[27]在FPN 的基礎(chǔ)上提出了BFP (Balanced feature pyramids)頸部連接結(jié)構(gòu).該算法將FPN 提取出的多尺度特征通過(guò)線性插值和池化調(diào)整到中間尺度大小,并對(duì)它們進(jìn)行加權(quán)平均得到整合后的單一尺度特征,再采用非局部網(wǎng)絡(luò)[23]加強(qiáng)該特征,最后將其映射回與輸入相同的尺度,用于之后的目標(biāo)檢測(cè).

      FPN 的底部特征層包含較多的位置信息,Liu等[28]在自頂向下的特征金字塔結(jié)構(gòu)的基礎(chǔ)上,又提出了自底向上的特征融合支路(圖9),將底層位置信息傳遞給高層特征,進(jìn)一步提高了模型的定位精度.

      圖9 PANet 中的自底向上金字塔結(jié)構(gòu)Fig.9 Bottom-up pyramid structure in PANet

      為充分利用不同層的特征,Zhao 等[29]對(duì)FPN 進(jìn)行堆疊,提出了多層級(jí)的FPN 頸部連接結(jié)構(gòu)(圖10).它通過(guò)U 型網(wǎng)絡(luò)對(duì)特征進(jìn)行編碼?解碼,并從SENet[22]中受到啟發(fā),對(duì)不同層間相同尺度的特征通道進(jìn)行加權(quán)拼接,最后利用得到的特征進(jìn)行多尺度預(yù)測(cè).

      圖10 M2Det 中的多層級(jí)特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Multi-level feature pyramid network in M2Det

      Tan 等[30]認(rèn)為不同尺度的特征層對(duì)目標(biāo)特征的貢獻(xiàn)應(yīng)該是不同的,并將沒(méi)有進(jìn)行融合的特征層從網(wǎng)絡(luò)中剔除,提出了加權(quán)融合的雙向特征金字塔結(jié)構(gòu)(圖11),從而進(jìn)一步優(yōu)化了不同特征層間的信息傳遞.

      圖11 雙向特征金字塔結(jié)構(gòu)Fig.11 Framework of Bi-FPN

      除了金字塔式的特征融合方法,Newell 等[31]采用了一種“沙漏式”的網(wǎng)絡(luò)結(jié)構(gòu)(圖12),它借鑒殘差網(wǎng)絡(luò)的思想,每個(gè)經(jīng)過(guò)池化后的特征層與經(jīng)過(guò)上采樣后相同尺度的特征層進(jìn)行融合,從而將淺層信息傳遞給深層特征,提高深層特征的定位能力.

      圖12 沙漏式結(jié)構(gòu)的特征融合Fig.12 Feature fusion based on hourglass structure

      無(wú)論是金字塔結(jié)構(gòu)還是沙漏結(jié)構(gòu),都是從高分辨特征圖通過(guò)卷積和池化得到低分率特征圖,再?gòu)牡头直媛侍卣鲌D中通過(guò)上采樣恢復(fù)到高分辨率特征圖.這類(lèi)編碼?解碼(Encoder-decoder)的方式雖然可以很容易地實(shí)現(xiàn)特征融合,但在尺度變換的過(guò)程中也無(wú)可避免地失去了部分細(xì)節(jié),對(duì)模型定位性能產(chǎn)生不利.針對(duì)上述問(wèn)題,Sun 等[32]提出了始終保持高分辨率的高分辨率網(wǎng)絡(luò) (High-resolution net,HRNet).它將高分辨率的子網(wǎng)絡(luò)作為第一階段,在信息融合時(shí)不斷增加低分辨率的特征層以形成更多的階段,并把這些不同尺度的特征層進(jìn)行反復(fù)互連,實(shí)現(xiàn)多尺度信息的交換,最終輸出高分辨特征圖(圖13).

      圖13 HRNet 的整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.13 Overall network structure of HRNet

      總之,主干網(wǎng)絡(luò)和頸部連接層的優(yōu)化都是為了獲得更加有利于模型分類(lèi)與定位的特征,而提取出高信息特征的關(guān)鍵在于:

      1)主干網(wǎng)絡(luò)和頸部連接層應(yīng)有一定的深度和寬度,充分考慮特征圖內(nèi)部、不同特征圖間的相互關(guān)系,對(duì)特征圖在維度、空間以及深度上進(jìn)行合理建模,從而充分地提取目標(biāo)特征.

      2)為在位置與語(yǔ)義信息之間取得平衡,主干網(wǎng)絡(luò)應(yīng)采用適當(dāng)?shù)南虏蓸雍蜕喜蓸勇?通過(guò)使用合理的頸部連接結(jié)構(gòu)或空洞卷積[33]等方法,保證輸出的目標(biāo)特征同時(shí)滿(mǎn)足分類(lèi)與定位的要求.

      2.2 錨點(diǎn)設(shè)計(jì)的優(yōu)化

      錨點(diǎn)是在特征圖上每個(gè)網(wǎng)格內(nèi)生成的具有不同大小、比例的矩形框.單階段檢測(cè)框架直接在錨點(diǎn)的基礎(chǔ)上生成目標(biāo)邊界框;兩階段檢測(cè)框架通過(guò)微調(diào)正例錨點(diǎn)獲得候選框.

      最早使用錨點(diǎn)的模型是Faster R-CNN[6].它在區(qū)域推薦子網(wǎng)絡(luò)特征圖上的每個(gè)網(wǎng)格中生成3 種尺度、3 種比例共9 個(gè)錨點(diǎn)框(圖14).根據(jù)錨點(diǎn)框與相對(duì)應(yīng)實(shí)例框的交并比大小來(lái)確定其為正樣本或負(fù)樣本.對(duì)正樣本錨點(diǎn)框進(jìn)行定位回歸獲得候選框,用于進(jìn)一步的定位和分類(lèi).

      圖14 Faster R-CNN 中的錨點(diǎn)示意圖Fig.14 Schematic diagram of anchors in faster R-CNN

      不同尺度比例的錨點(diǎn)框適合檢測(cè)不同物體.為此,Zhu 等[34]提出了基于步長(zhǎng)縮減的錨點(diǎn)框設(shè)計(jì)策略.高分辨率的特征圖感受野小,用于檢測(cè)小尺度目標(biāo),故為防止漏檢現(xiàn)象發(fā)生,應(yīng)當(dāng)縮減錨點(diǎn)框生成的步長(zhǎng)來(lái)增加錨點(diǎn)框的密度.低分辨率的特征圖感受野大,用于檢測(cè)大尺度目標(biāo),因而可以適當(dāng)增大錨點(diǎn)框步長(zhǎng),減少計(jì)算復(fù)雜度.Xie 等[35]提出了一種維度可分解的區(qū)域推薦網(wǎng)絡(luò),他將錨點(diǎn)在維度上進(jìn)行分解,使用一種錨點(diǎn)字符串(Anchor string)機(jī)制來(lái)獨(dú)立地匹配目標(biāo)的寬度和高度,從而有效地解決了對(duì)比例特殊目標(biāo)的檢測(cè).

      Zhong 等[36]創(chuàng)造性地提出通過(guò)訓(xùn)練讓模型自動(dòng)調(diào)整錨點(diǎn)框,并設(shè)計(jì)了一條獨(dú)立的分支用來(lái)預(yù)測(cè)和調(diào)整錨點(diǎn)框的形狀.Wang 等[37]在此基礎(chǔ)上,利用圖像特征來(lái)指導(dǎo)錨點(diǎn)框的生成(圖15),將錨點(diǎn)框的生成分為位置預(yù)測(cè)和形狀預(yù)測(cè)兩個(gè)步驟.通過(guò)位置和形狀預(yù)測(cè)確定相應(yīng)特征圖的每個(gè)網(wǎng)格內(nèi)是否存在錨點(diǎn)以及錨點(diǎn)框的長(zhǎng)寬;再利用可變形卷積[38?39]對(duì)特征圖進(jìn)行修正,以匹配錨點(diǎn)框.這種做法大大減少了錨點(diǎn)的數(shù)量,提高了錨點(diǎn)框?qū)δ繕?biāo)尺寸變化的適應(yīng)性.

      圖15 基于特征指導(dǎo)的錨點(diǎn)生成模型Fig.15 Anchor generation model based on feature guiding

      考慮到基于錨點(diǎn)的方法在分配正負(fù)樣本以及處理多尺度問(wèn)題上的局限性,很多學(xué)者提出了無(wú)錨點(diǎn)的目標(biāo)檢測(cè)模型.這類(lèi)模型大多在不同尺度的特征圖上進(jìn)行像素級(jí)的分類(lèi)和回歸來(lái)代替錨點(diǎn)框的功能.Tian 等[40]先計(jì)算特征圖上每個(gè)點(diǎn)映射回原圖的位置,再根據(jù)該位置是否位于相應(yīng)實(shí)例框內(nèi)進(jìn)行正負(fù)樣本的分配,并且定義中心度來(lái)降低實(shí)例框邊緣位置預(yù)測(cè)時(shí)的分?jǐn)?shù)權(quán)重,從而抑制了低質(zhì)量預(yù)測(cè)框?qū)z測(cè)結(jié)果的影響,提高了模型的檢測(cè)性能.Kong等[41]從人體眼球的中央凹(Fovea)結(jié)構(gòu)中獲得靈感,通過(guò)參數(shù)調(diào)整實(shí)例框?qū)捀邅?lái)確定正負(fù)樣本:向物體中心縮放,縮放后框內(nèi)所有樣本為正樣本點(diǎn):向物體外擴(kuò)大,擴(kuò)大化框外所有樣本為負(fù)樣本點(diǎn)(圖16);忽略?xún)蓚€(gè)邊界框范圍內(nèi)的點(diǎn).這種做法增加了正負(fù)樣本間的差異,有利于分類(lèi)問(wèn)題的學(xué)習(xí).

      圖16 FoveaBox 模型中的標(biāo)簽分配Fig.16 Label assign in FoveaBox

      利用先驗(yàn)尺度范圍將目標(biāo)分配給不同特征層的做法,本身就是非最優(yōu)的.針對(duì)該問(wèn)題,Zhu 等[42]提出了在線特征層選擇機(jī)制(圖17):訓(xùn)練階段,在所有尺度的特征層上進(jìn)行分類(lèi)和回歸訓(xùn)練,通過(guò)最小化焦點(diǎn)損失和交并比損失來(lái)選擇最佳的特征層;推理階段,直接選擇置信度最高的特征層用于檢測(cè).通過(guò)自動(dòng)選擇最佳特征,該模型有效避免了手工選擇特征層的一些弊端.

      圖17 FSAF 模型的在線特征選擇Fig.17 Online feature selection in FSFA

      對(duì)于尺度適中的目標(biāo)而言,相鄰特征層間有著相似的特性,將其分給指定一個(gè)特征層的做法不夠合理.因而,Zhu 等[43]又在FSAF 模型的基礎(chǔ)上提出了軟分配的方法(圖18),它通過(guò)預(yù)測(cè)目標(biāo)在不同尺度特征層以及同一特征層不同位置上的損失權(quán)重,來(lái)考慮特征層之間、同一特征層上不同位置之間的關(guān)系,進(jìn)而計(jì)算出訓(xùn)練時(shí)的總損失大小.

      圖18 軟分配的層權(quán)重預(yù)測(cè)Fig.18 Weights prediction for soft-selected features

      由于正例錨點(diǎn)框給出了目標(biāo)大致的初始位置和尺寸,降低了模型學(xué)習(xí)分類(lèi)和回歸的難度,這對(duì)于想要獲得高性能的檢測(cè)模型來(lái)說(shuō)是有很大幫助的.然而,基于錨點(diǎn)的檢測(cè)方法大多通過(guò)錨點(diǎn)框與相應(yīng)實(shí)例框的交并比閾值來(lái)確定正負(fù)樣本,這對(duì)錨點(diǎn)的設(shè)計(jì)要求非常高.相比之下,無(wú)錨點(diǎn)方法對(duì)目標(biāo)先驗(yàn)知識(shí)的要求低,但設(shè)計(jì)過(guò)程相對(duì)繁瑣.總之,錨點(diǎn)的設(shè)計(jì)及優(yōu)化應(yīng)遵循以下幾點(diǎn)原則:

      1)錨點(diǎn)框的比例、大小范圍應(yīng)根據(jù)具體數(shù)據(jù)集或任務(wù)來(lái)確定.當(dāng)待檢測(cè)對(duì)象的尺度變化很大時(shí),應(yīng)采用多尺度的特征圖,設(shè)計(jì)多尺度的錨點(diǎn).

      2)錨點(diǎn)框生成的密度應(yīng)保證在不漏檢的前提下盡量小,以減少計(jì)算量.對(duì)于小目標(biāo)應(yīng)增大錨點(diǎn)框生成的密度,而對(duì)于大目標(biāo)可以適當(dāng)降低密度.

      3)錨點(diǎn)框在任何尺度的特征圖上,其中心都要與對(duì)應(yīng)網(wǎng)格的中心盡可能對(duì)齊,以保證錨點(diǎn)框從特征圖回到原圖時(shí),不發(fā)生位置上的偏移.

      4)對(duì)于無(wú)錨點(diǎn)模型,應(yīng)該重點(diǎn)關(guān)注如何在沒(méi)有錨點(diǎn)的情況下更合理地分配與設(shè)置正負(fù)樣本,以及如何更有效地處理不同尺度物體帶來(lái)的多尺度特征,從而促進(jìn)模型更好地從訓(xùn)練數(shù)據(jù)中學(xué)習(xí).

      2.3 非極大值抑制算法的優(yōu)化

      非極大值抑制在目標(biāo)檢測(cè)中是指模型在前向推理階段,選擇置信度最高的候選框作為檢測(cè)結(jié)果,而剔除與其交并比大于閾值的周?chē)泻蜻x框的一種算法.這種方法對(duì)于同一個(gè)待檢測(cè)對(duì)象,可以排除其余非最優(yōu)的候選結(jié)果,避免出現(xiàn)重定位的問(wèn)題.

      非極大值抑制是幾乎所有基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型都使用到的方法.經(jīng)典的非極大值抑制是直接剔除非最優(yōu)的候選結(jié)果,這種做法在圖像上待檢測(cè)目標(biāo)是非密集的情況下有著出色的效果.而在目標(biāo)密集的場(chǎng)合,目標(biāo)之間相互遮擋,屬于同一類(lèi)的多個(gè)目標(biāo)非??拷鼤r(shí),非極大值抑制只保留置信度最高的候選框,從而產(chǎn)生漏檢.

      為解決上述問(wèn)題,Bodla 等[44]提出軟抑制(Soft NMS)的算法.它對(duì)于前n個(gè)置信度大小的非最優(yōu)候選框通過(guò)降低置信度來(lái)代替直接剔除的做法:

      其中,S表示置信度得分,IoU(M,bi)表示最優(yōu)候選框M與其余某候選框bi的交并比,Nt表示進(jìn)行軟抑制的閾值.

      從式(1)中可以看出,軟抑制算法認(rèn)為當(dāng)非最優(yōu)候選框與最優(yōu)候選框之間越接近,則其越有可能是冗余的,置信度分?jǐn)?shù)也越低.經(jīng)過(guò)更新后的置信度若低于正樣本置信度的閾值,則該候選框就被剔除.經(jīng)過(guò)軟抑制后的模型在密集場(chǎng)景下的檢測(cè)召回率有了一定的提高.

      候選框的置信度與交并比并非強(qiáng)相關(guān),只考慮分類(lèi)置信度是片面的.He 等[45]在軟抑制算法的基礎(chǔ)上加以改進(jìn),同時(shí)將定位置信度融入到其中,用來(lái)表示當(dāng)前候選框與實(shí)例框重合的可信程度.它對(duì)候選框和實(shí)例框分別進(jìn)行建模,并用KL 散度來(lái)衡量?jī)烧叻植奸g的距離:

      其中,PD(x)表示以實(shí)例框中心坐標(biāo)為均值的狄利克雷分布,Pθ(x)表示已候選框中心坐標(biāo)為均值,以定位置信度為標(biāo)準(zhǔn)差的高斯分布.

      該算法采用類(lèi)似于集成學(xué)習(xí)的思想通過(guò)訓(xùn)練得到不同候選框的定位置信度,并以其作為權(quán)重,對(duì)所有大于非極大值抑制閾值的候選框進(jìn)行加權(quán)求和,得到最終的檢測(cè)結(jié)果.

      與Softer-NMS 思想類(lèi)似,Jiang 等[46]設(shè)計(jì)了額外的分支來(lái)預(yù)測(cè)每一個(gè)候選框的交并比值大小,再通過(guò)類(lèi)似聚類(lèi)的規(guī)則來(lái)更新分類(lèi)置信度,最終用更新后的置信度來(lái)完成非極大值抑制.

      除上述方法外,Liu 等[47]設(shè)計(jì)了一個(gè)僅包含卷積層和全連接層的子網(wǎng)絡(luò),用來(lái)判斷交并比大于閾值的非最優(yōu)候選框是否和最優(yōu)候選框預(yù)測(cè)的是同一個(gè)目標(biāo),保留檢測(cè)目標(biāo)不同的非最優(yōu)候選框,從而有效避免了傳統(tǒng)方法存在的弊端.

      針對(duì)不同數(shù)據(jù)集和任務(wù)應(yīng)當(dāng)設(shè)計(jì)不同的非極大值抑制算法:當(dāng)數(shù)據(jù)集或任務(wù)的場(chǎng)景中目標(biāo)比較稀疏,優(yōu)化的抑制算法對(duì)模型的檢測(cè)性能幾乎沒(méi)有提升,使用原始的非極大值抑制算法就能比較簡(jiǎn)潔地完成目標(biāo)檢測(cè)任務(wù).但在場(chǎng)景復(fù)雜、目標(biāo)密集的情況下,對(duì)非極大值抑制算法進(jìn)行優(yōu)化能夠有效提升模型的檢測(cè)性能.

      2.4 交并比算法的優(yōu)化

      交并比是指兩個(gè)圖形的交集與并集的比值:

      其中,area(?)表示圖形的面積.

      交并比用來(lái)衡量?jī)蓚€(gè)圖形間的重合度.在目標(biāo)檢測(cè)中,錨點(diǎn)框和相應(yīng)實(shí)例框的交并比決定了其是正樣本還是負(fù)樣本;候選框間的交并比值決定是否進(jìn)行非極大值抑制.

      對(duì)于目標(biāo)檢測(cè),傳統(tǒng)的交并比可以很好地表達(dá)兩個(gè)相交矩形框間的距離.但是,對(duì)于不相交的矩形框,交并比始終為0,無(wú)法反映它們之間的距離.

      為了更一般地表達(dá)矩形框間的距離,Rezatofighi 等[48]提出了泛化交并比(Generalized IoU)的概念.它對(duì)于任意兩個(gè)凸形A、B在空間中尋找包含它們的最小凸形C,則泛化交并比定義為:

      從式(4)可以看出,泛化交并比的取值范圍是(?1,1],對(duì)于不相交的兩個(gè)矩形框,它們中心點(diǎn)間距離越大,泛化交并比越小,這種特性對(duì)降低負(fù)樣本學(xué)習(xí)的難度是非常有利的.

      交并比閾值決定了正負(fù)樣本的劃分結(jié)果.當(dāng)交并比閾值較大時(shí),意味著選取真實(shí)正樣本的標(biāo)準(zhǔn)更為嚴(yán)苛,則更少的正樣本進(jìn)行損失函數(shù)的計(jì)算,這容易引起類(lèi)別不平衡以及漏檢的問(wèn)題發(fā)生.當(dāng)交并比閾值較小時(shí),意味著更多的錯(cuò)誤正樣本會(huì)被當(dāng)作正樣本進(jìn)行訓(xùn)練,從而降低模型的檢測(cè)性能,為解決這一矛盾,Cai 等[49]提出了多階段變交并比閾值的方法,不同階段設(shè)置不同的交并比閾值,滿(mǎn)足不同階段模型的需求(圖19).

      圖19 級(jí)聯(lián)多階段目標(biāo)檢測(cè)模型Fig.19 Cascade stages of object detection model

      在前面階段,模型的性能較差,需要通過(guò)不斷“試錯(cuò)”來(lái)學(xué)習(xí)正確的分類(lèi)和定位;在后面階段,模型的性能有所提升,則可以適當(dāng)提高正樣本的判斷標(biāo)準(zhǔn),進(jìn)一步提升檢測(cè)性能.

      交并比是目標(biāo)檢測(cè)模型中非常重要的部分,它直接影響著模型的訓(xùn)練效果和檢測(cè)結(jié)果.對(duì)于交并比算法的設(shè)計(jì)和優(yōu)化應(yīng)注意:

      1)交并比值要充分反應(yīng)候選框與實(shí)例框,候選框與候選框之間的距離.

      2)交并比閾值應(yīng)根據(jù)訓(xùn)練過(guò)程中模型當(dāng)前性能,以及相應(yīng)任務(wù)或數(shù)據(jù)集的樣本分布來(lái)確定.

      2.5 正負(fù)樣本采樣算法的優(yōu)化

      錨點(diǎn)框在大尺度的特征圖上數(shù)量較多,大部分負(fù)樣本錨點(diǎn)框提供的梯度信息相近,將它們?nèi)坑糜诜诸?lèi)和回歸訓(xùn)練浪費(fèi)計(jì)算資源和時(shí)間,因而需要對(duì)所有錨點(diǎn)框進(jìn)行采樣,只選擇其中部分參與訓(xùn)練.

      由于正例錨點(diǎn)框的數(shù)量遠(yuǎn)遠(yuǎn)小于負(fù)例錨點(diǎn)框,直接在全局進(jìn)行隨機(jī)采樣會(huì)很容易引起正負(fù)訓(xùn)練樣本不均衡的問(wèn)題.Faster R-CNN 模型[6]對(duì)正樣本和負(fù)樣本分別進(jìn)行隨機(jī)采樣,采樣比例為1:1.這種分類(lèi)采樣的方法較好地解決了類(lèi)別不均衡的問(wèn)題,但沒(méi)有充分利用負(fù)樣本中的錯(cuò)誤信息來(lái)幫助模型訓(xùn)練.SSD 模型使用了困難負(fù)樣本采樣的策略,對(duì)負(fù)樣本按置信度誤差進(jìn)行降排序,將置信度較低的困難負(fù)樣本用來(lái)更新模型.

      區(qū)別于SSD 模型,Shrivastava 等[50]則根據(jù)輸入樣本的損失來(lái)在線選擇困難負(fù)樣本.他們對(duì)兩階段檢測(cè)框架進(jìn)行擴(kuò)充,設(shè)計(jì)了另外一個(gè)RoI 網(wǎng)絡(luò)用來(lái)專(zhuān)門(mén)計(jì)算輸入樣本的損失,并對(duì)輸入的損失進(jìn)行降排序,選擇損失最大的前n個(gè)負(fù)樣本用于模型的訓(xùn)練,用輸入損失作為衡量樣本學(xué)習(xí)難度標(biāo)準(zhǔn)的優(yōu)勢(shì)在于可以同時(shí)考慮分類(lèi)和回歸的困難程度.受到上述研究的啟發(fā),Yu 等[51]采用類(lèi)似的方法對(duì)單階段檢測(cè)框架的正負(fù)樣本采樣進(jìn)行了優(yōu)化.它直接過(guò)濾簡(jiǎn)單樣本,只對(duì)損失值最大的k個(gè)樣本進(jìn)行反向傳播來(lái)更新網(wǎng)絡(luò)參數(shù).

      困難負(fù)樣本同樣可以用與實(shí)例框的交并比值來(lái)表示.Pan 等[27]提出了一種基于交并比值的分級(jí)采樣方法.它將交并比值劃分為K個(gè)區(qū)間,每個(gè)區(qū)間的候選采樣數(shù)為Mk,劃分保證困難負(fù)樣本在每個(gè)區(qū)間均勻分布,數(shù)量為N,則采樣方法表示為:

      上式采樣方法有效地使參與訓(xùn)練的樣本分布更接近于困難負(fù)樣本的交并比分布,從而提高了困難負(fù)樣本被選中的概率.

      正負(fù)樣本采樣算法設(shè)計(jì)的關(guān)鍵在于如何解決訓(xùn)練過(guò)程中正負(fù)樣本數(shù)不平衡及困難負(fù)樣本難以充分利用這兩個(gè)問(wèn)題.針對(duì)不同數(shù)據(jù)集和任務(wù).上述兩個(gè)問(wèn)題的突出程度有所不同:模型應(yīng)用的場(chǎng)景越復(fù)雜,采樣帶來(lái)的問(wèn)題影響就越嚴(yán)重,合理的采樣方法能得到的模型性能收益就越大.

      2.6 區(qū)域特征編碼方法的優(yōu)化

      對(duì)于兩階段的目標(biāo)檢測(cè)框架,區(qū)域特征編碼是指將推薦層輸出的推薦框編碼成固定長(zhǎng)度向量的過(guò)程,其目的是便于后續(xù)全連接層或卷積層對(duì)目標(biāo)特征實(shí)行進(jìn)一步的分類(lèi)和回歸.

      在R-CNN 模型[4]中,Girshick 等直接將區(qū)域特征從整張圖片上裁剪下來(lái),并通過(guò)線性插值將其調(diào)整到固定尺寸后送入全連接層中,這種方法使用的特征雖然分辨率很高,但是計(jì)算過(guò)于耗時(shí).

      Fast R-CNN[5]和Faster R-CNN[6]模型中使用了區(qū)域特征池化(RoI pooling)的編碼方法,將任意大小的區(qū)域特征劃分為固定尺寸的網(wǎng)格(圖20),在網(wǎng)格內(nèi)采用最大池化提取出唯一的特征傳給后面的全連接層.然而,這種下采樣的方法對(duì)小目標(biāo)檢測(cè)效果很不理想,并且使得目標(biāo)失去了部分的位置信息.為此,He 等[52]又在此基礎(chǔ)上提出了區(qū)域特征對(duì)齊(RoI align)的編碼方法,用雙線性插值代替了最大池化,保證了區(qū)域特征編碼的精度.

      圖20 區(qū)域特征池化過(guò)程Fig.20 Pipeline of RoI pooling

      為了更好地解決下采樣帶來(lái)的位置信息丟失問(wèn)題,Dai 等[53]提出了位置敏感的區(qū)域特征池化方法,將每個(gè)網(wǎng)格作為特征圖的一個(gè)通道,通過(guò)最大池化的方法選擇出置信度最高的通道作為目標(biāo)所在的位置信息表示.然而這種位置敏感的區(qū)域編碼方法主動(dòng)放棄了全局信息,編碼后的特征缺失了空間上的關(guān)聯(lián).針對(duì)此問(wèn)題,Zhu 等[54]提出將區(qū)域特征池化和位置敏感的區(qū)域特征池化方法進(jìn)行融合,從而得到包含全局和局部信息、魯棒性更強(qiáng)的編碼特征.Zhai 等[55]在上述這些方法的基礎(chǔ)上,設(shè)計(jì)了一種特征選擇子網(wǎng)絡(luò)來(lái)針對(duì)不同大小和長(zhǎng)寬比的子區(qū)域進(jìn)行特征學(xué)習(xí),并將學(xué)習(xí)到的特征編碼后送入了后續(xù)網(wǎng)絡(luò)進(jìn)行分類(lèi)和回歸.

      區(qū)域特征編碼能夠?yàn)槟P秃罄m(xù)的精確分類(lèi)和回歸帶來(lái)很大的幫助.在設(shè)計(jì)和優(yōu)化區(qū)域特征編碼方法時(shí)應(yīng)注意:

      1)使用下采樣方法進(jìn)行編碼時(shí)會(huì)丟失區(qū)域特征的部分位置信息,為保證位置信息相對(duì)完整,應(yīng)該盡量減少下采樣的使用,或在后續(xù)處理時(shí)進(jìn)行相應(yīng)的補(bǔ)償.

      2)編碼時(shí)應(yīng)盡量保留區(qū)域特征內(nèi)的全局信息,避免不同區(qū)域特征間的關(guān)聯(lián)缺失,從而影響模型的檢測(cè)性能.

      2.7 分類(lèi)與定位去沖突方法的優(yōu)化

      目標(biāo)檢測(cè)的訓(xùn)練是同時(shí)對(duì)物體進(jìn)行分類(lèi)和定位的多任務(wù)學(xué)習(xí)過(guò)程,但由于分類(lèi)任務(wù)需要位置不敏感的目標(biāo)特征,而定位任務(wù)卻需目標(biāo)特征對(duì)位置敏感,這就導(dǎo)致模型在聯(lián)合訓(xùn)練的過(guò)程中很難使兩者同時(shí)達(dá)到最優(yōu),最終影響模型的檢測(cè)性能.

      在Fast R-CNN[5]與Faster R-CNN[6]模型中,區(qū)域特征池化操作破壞了全卷積網(wǎng)絡(luò)的平移不變性,從而引入了具有平移變換性的特征,幫助模型進(jìn)行更好的定位.但是這種做法使得區(qū)域級(jí)的特征無(wú)法在后續(xù)網(wǎng)絡(luò)中共享計(jì)算,降低了模型訓(xùn)練和推理的速度.針對(duì)此問(wèn)題,R-FCN 模型[53]創(chuàng)建了一個(gè)位置敏感的置信度圖,把平移變換特征引入了全卷積的網(wǎng)絡(luò)中,保證了特征在網(wǎng)絡(luò)中的計(jì)算都是可以被共享的,從而大大提高了模型的訓(xùn)練和推理效率.

      對(duì)于單階段框架的檢測(cè)模型,由于缺少區(qū)域特征池化等特征編碼操作,其經(jīng)過(guò)直接回歸后得到的候選框定位位置與用于分類(lèi)的目標(biāo)特征是不對(duì)齊的(圖21).為解決上述問(wèn)題,Chen 等[56]在單階段模型的基礎(chǔ)上,利用可變形卷積[38?39]來(lái)修正特征層的感受野,并根據(jù)回歸得到的候選框位置信息來(lái)確定卷積的補(bǔ)償值,以得到對(duì)齊后的目標(biāo)特征,從而實(shí)現(xiàn)了候選框位置與目標(biāo)特征間的匹配.

      圖21 目標(biāo)特征與候選框不對(duì)齊Fig.21 Misalignment between feature and box

      除了上述方法外,將分類(lèi)問(wèn)題與定位問(wèn)題進(jìn)行一定程度上的解耦后分別考慮,同樣是緩解兩者沖突問(wèn)題的有效手段.Cheng 等[57]認(rèn)為分類(lèi)與定位任務(wù)的沖突是導(dǎo)致檢測(cè)模型出現(xiàn)錯(cuò)誤正例現(xiàn)象的重要原因.對(duì)此,他將RPN 網(wǎng)絡(luò)輸出的推薦框映射回原圖進(jìn)行裁剪,再把裁剪后的圖像輸入到新的RCNN 網(wǎng)絡(luò)中單獨(dú)進(jìn)行一次分類(lèi),得到最終的分類(lèi)結(jié)果.為解決模型兩次分類(lèi)導(dǎo)致訓(xùn)練和推理速度過(guò)慢的問(wèn)題,Cheng 等[58]又通過(guò)共享兩次分類(lèi)過(guò)程中的淺層特征計(jì)算,來(lái)對(duì)模型進(jìn)行加速.整個(gè)模型的計(jì)算流程如圖22.

      圖22 DCRv2 模型的檢測(cè)流程Fig.22 Overall pipeline of DCRv2

      模型定位性能同樣受到分類(lèi)任務(wù)的影響.傳統(tǒng)的非極大值抑制方法只根據(jù)目標(biāo)的分類(lèi)置信度來(lái)決定檢測(cè)框的去留,而沒(méi)有直接考慮候選框的定位,導(dǎo)致定位精度更高的候選框反而有可能被抑制.對(duì)此,He 等[45]通過(guò)衡量候選框與實(shí)例框位置分布的差異,來(lái)重新計(jì)算每個(gè)候選框的置信度得分;Jiang等[46]預(yù)測(cè)每個(gè)候選框與對(duì)應(yīng)實(shí)例框的交并比值作為定位置信度,并用其來(lái)引導(dǎo)非極大值抑制.這類(lèi)方法在本質(zhì)上通過(guò)單獨(dú)考慮分類(lèi)與定位對(duì)檢測(cè)任務(wù)的貢獻(xiàn),從而緩解了分類(lèi)置信度與定位精度間不匹配的問(wèn)題.

      分類(lèi)特征與定位特征不匹配的問(wèn)題幾乎貫穿目標(biāo)檢測(cè)的整個(gè)過(guò)程,在設(shè)計(jì)相關(guān)解決方案時(shí)需考慮:

      1)當(dāng)前檢測(cè)場(chǎng)景或任務(wù)下,分類(lèi)與定位中哪一個(gè)指標(biāo)對(duì)模型最終性能的影響更大,從而用不同的權(quán)值來(lái)考慮兩者的重要性.

      2)在不同的檢測(cè)模型中,分類(lèi)與定位產(chǎn)生沖突的方式有所區(qū)別,應(yīng)根據(jù)其特點(diǎn)來(lái)針對(duì)性地考慮緩解兩者矛盾的方法.

      2.8 上下文信息建模方法的設(shè)計(jì)優(yōu)化

      上下文信息建模是指考慮目標(biāo)物體的周?chē)h(huán)境,通過(guò)顯式地建模目標(biāo)與周?chē)h(huán)境的關(guān)系,利用待檢測(cè)物體本身之外的信息,來(lái)幫助模型對(duì)該目標(biāo)的檢測(cè).根據(jù)利用的上下文信息范圍的不同,該方法可以被分為全局上下文建模與局部上下文建模兩類(lèi).

      全局上下文建模在整張圖像上考慮外部上下文信息,通常的做法是將提取到的外部特征與目標(biāo)特征進(jìn)行拼接,然后送入卷積層或全連接層中進(jìn)行分類(lèi)與回歸.具有代表性的工作是Bell 等[59]提出的ION 網(wǎng)絡(luò)、Ouyang[60]等提出的DeepID 網(wǎng)絡(luò).其中,ION 對(duì)內(nèi)通過(guò)跳躍池化(Skip pooling)提取目標(biāo)不同尺度的特征,對(duì)外采用空間遞歸神經(jīng)網(wǎng)絡(luò)(IRNN)來(lái)提出目標(biāo)外的上下文信息,并將兩種特征經(jīng)過(guò)L2歸一化后拼接在一起,送入后續(xù)的卷積層與全連接層進(jìn)行分類(lèi)與回歸(圖23).而Deepid 網(wǎng)絡(luò)則對(duì)每一張圖像學(xué)習(xí)一個(gè)類(lèi)別得分,并將其作為上下文特征與目標(biāo)特征進(jìn)行拼接,送入后續(xù)的SVM 分類(lèi)器中進(jìn)行分類(lèi).

      圖23 ION 網(wǎng)絡(luò)的總體框架Fig.23 Pipeline of ION

      局部上下文建模只考慮待檢測(cè)目標(biāo)與周?chē)h(huán)境或其他目標(biāo)之間的上下文關(guān)系,并將其作為線索幫助模型進(jìn)行推理.Chen 等[61]針對(duì)非極大值抑制方法存在的問(wèn)題,提出了空間記憶網(wǎng)絡(luò)(Spatial memory network,SMN)來(lái)保留和更新之前檢測(cè)到的目標(biāo)特征,它在每一輪迭代中把上一次的檢測(cè)結(jié)果作為先驗(yàn)知識(shí)輸入到RPN 網(wǎng)絡(luò)中來(lái)提升本次檢測(cè)的效果,然后將上一記憶單元與新檢測(cè)到的目標(biāo)特征輸入到GRU 網(wǎng)絡(luò)中來(lái)更新記憶單元(圖24).由于該方法顯式地考慮了不同目標(biāo)間的關(guān)系,在后處理階段無(wú)需再進(jìn)行非極大值抑制就能得到最終的檢測(cè)結(jié)果.

      圖24 SMN 網(wǎng)絡(luò)的記憶迭代過(guò)程Fig.24 Memory iterations of SMN

      考慮到場(chǎng)景信息對(duì)不同目標(biāo)的檢測(cè),以及不同物體對(duì)某一目標(biāo)的檢測(cè)做出的貢獻(xiàn)都是不同的,Liu 等[62]提出了基于結(jié)構(gòu)推理的檢測(cè)網(wǎng)絡(luò)(Structure inference net,SIN),它將檢測(cè)任務(wù)用圖結(jié)構(gòu)來(lái)進(jìn)行建模(圖25),把經(jīng)過(guò)區(qū)域特征編碼和全連接計(jì)算的目標(biāo)特征作為圖的頂點(diǎn),不同ROI 之間的權(quán)重關(guān)系及場(chǎng)景信息作為圖的邊,然后通過(guò)GRU 網(wǎng)絡(luò)(圖的邊為輸入特征,圖的頂點(diǎn)為隱藏層狀態(tài))學(xué)習(xí)不同目標(biāo)物體間的關(guān)系,最終得到新的特征用于分類(lèi)和回歸.

      圖25 SIN 網(wǎng)絡(luò)的檢測(cè)流程Fig.25 Pipeline of SIN

      為更加直觀地建立不同目標(biāo)物體間的關(guān)系,Hu 等[63]借鑒文獻(xiàn)[64]中的思想,設(shè)計(jì)了目標(biāo)關(guān)系模塊(Object relation module),它利用圖上所有目標(biāo)的外觀特征與幾何位置特征,來(lái)顯式地計(jì)算不同物體與待檢測(cè)目標(biāo)特征的權(quán)重關(guān)系,再將其與目標(biāo)原始特征進(jìn)行疊加,得到新的目標(biāo)特征,用于最終的分類(lèi)與回歸.

      除了考慮不同目標(biāo)間的上下文關(guān)系外,部分學(xué)者還對(duì)目標(biāo)內(nèi)不同子區(qū)域間的關(guān)系進(jìn)行了相關(guān)研究.其中,Gidaris 等[65]從推薦框的不同子區(qū)域(邊界區(qū)域,上下文區(qū)域,中心區(qū)域等)內(nèi)提取出不同特征,并將這些特征與原始區(qū)域特征進(jìn)行拼接,得到新的目標(biāo)特征.考慮到物體間遮擋問(wèn)題,Zeng 等[66]提出了雙向門(mén)卷積網(wǎng)絡(luò)(Gated bi-directional CNN,CBDNet),用來(lái)在不同子區(qū)域特征間傳遞信息,從而篩選出對(duì)檢測(cè)有幫助的區(qū)域內(nèi)上下文信息,得到更好的目標(biāo)特征.

      總之,上下文信息建模通過(guò)顯式地表達(dá)不同目標(biāo)與目標(biāo)間,目標(biāo)與場(chǎng)景間的關(guān)系,來(lái)建立相應(yīng)模型對(duì)周?chē)鷪?chǎng)景的視覺(jué)理解,提高模型檢測(cè)困難目標(biāo)物體的準(zhǔn)確率和召回率,在建立上下文信息模型時(shí)應(yīng)當(dāng)考慮:

      1)上下文信息會(huì)影響目標(biāo)原始的外觀、幾何、位置等自身特征,并非所有場(chǎng)景下使用上下文信息都會(huì)對(duì)模型檢測(cè)性能有提升,需根據(jù)相應(yīng)的檢測(cè)任務(wù)或數(shù)據(jù)集來(lái)決定是否應(yīng)用.

      2)不同對(duì)象提供的上下文信息對(duì)檢測(cè)當(dāng)前目標(biāo)的貢獻(xiàn)是不同的,在利用這些上下信息進(jìn)行建模時(shí)應(yīng)當(dāng)分別考慮.

      2.9 多尺度預(yù)測(cè)方法的設(shè)計(jì)優(yōu)化

      多尺度預(yù)測(cè)指對(duì)于不同尺度的目標(biāo)用不同分辨率的特征圖進(jìn)行檢測(cè).區(qū)別于特征融合,該預(yù)測(cè)方法在模型網(wǎng)絡(luò)結(jié)構(gòu)上表現(xiàn)為多分支,每個(gè)分支的有效感受野[67]大小不同.

      在SSD[7]中,模型共有6 個(gè)不同分辨率的特征圖對(duì)目標(biāo)進(jìn)行檢測(cè).其中,大分辨率的特征圖有效感受野小,用于檢測(cè)小物體;小分辨率的特征圖有效感受野大,用于檢測(cè)大物體.此后,YOLO 系列[8?10]、RetinaNet[68]等經(jīng)典的單階段檢測(cè)模型都采用了類(lèi)似的預(yù)測(cè)方法.

      多尺度預(yù)測(cè)在兩階段框架上同樣有著較多的應(yīng)用.文獻(xiàn)[69?70]都在不同分辨率的特征圖上來(lái)進(jìn)行候選框的選取,以滿(mǎn)足不同尺度大小物體的檢測(cè)需求.Singh 等[71]指出將極端尺寸的物體用于模型訓(xùn)練會(huì)導(dǎo)致其檢測(cè)性能下降,從而提出了限定訓(xùn)練樣本尺寸的多尺度訓(xùn)練和預(yù)測(cè)的SNIP (Scale normalization for image pyramid)算法.該算法采用圖像金字塔對(duì)輸入進(jìn)行多尺度變換,針對(duì)不同尺度的輸入設(shè)定樣本的有效尺寸范圍,使模型只從合理尺寸大小(當(dāng)前輸入尺度下)的樣本中進(jìn)行梯度計(jì)算和參數(shù)更新,避免極端大小目標(biāo)對(duì)模型性能的影響,最終到達(dá)多尺度訓(xùn)練與預(yù)測(cè)的目的(圖26).但是,由于SNIP 模型需要在高分辨率圖上進(jìn)行多尺度的訓(xùn)練,所以訓(xùn)練速度非常慢.為此,Singh 等[72]對(duì)模型的圖片輸入進(jìn)行了預(yù)處理,利用正例框選(Positive chip selection)的方法從原圖中提取出多幅不同尺度的低分辨率子圖,用于包含原圖中所有的實(shí)例.這種方法大大減少了模型對(duì)高分辨率背景區(qū)域的計(jì)算,提高了模型的訓(xùn)練速度.

      圖26 SNIP 模型的多尺度訓(xùn)練與預(yù)測(cè)Fig.26 Multi-scale training and inference of SNIP

      為進(jìn)一步提高模型對(duì)小目標(biāo)的檢測(cè)性能,Najibi等[73]標(biāo)記與小物體(在某一尺度下)有交集的像素作為焦點(diǎn)像素 (Focus pixels),通過(guò)連通相鄰的焦點(diǎn)像素形成焦點(diǎn)區(qū)域,并采用級(jí)聯(lián)的方式訓(xùn)練該區(qū)域去預(yù)測(cè)小目標(biāo),從而提高了模型對(duì)小目標(biāo)檢測(cè)的準(zhǔn)確率和召回率.

      多尺度預(yù)測(cè)方法的本質(zhì)目的就是使得目標(biāo)尺度與當(dāng)前特征圖的有效感受野相匹配.為讓同樣結(jié)構(gòu)的預(yù)測(cè)分支擁有不同感受野,Li 等[74]借鑒了空洞空間金字塔池化(Atrous spatial pyramid pooling,ASPP)[75]模塊的設(shè)計(jì)思路,在不同預(yù)測(cè)分支上使用膨脹率不同的空洞卷積來(lái)獲得不同大小的感受野(圖27),并通過(guò)支路間的參數(shù)共享提升模型的訓(xùn)練和推理速度,最終取得了較好的檢測(cè)效果.

      圖27 TridentNet 模型的多尺度預(yù)測(cè)Fig.27 Multi-scale inference of TridentNet

      多尺度預(yù)測(cè)有效緩解了卷積神經(jīng)網(wǎng)絡(luò)缺少尺度不變性的問(wèn)題,對(duì)檢測(cè)模型性能的提升起到了關(guān)鍵作用.在設(shè)計(jì)和優(yōu)化多尺度預(yù)測(cè)方法時(shí),應(yīng)當(dāng)考慮:

      1)利用特征圖進(jìn)行多尺度預(yù)測(cè)時(shí),可以通過(guò)特征融合等方法來(lái)緩解淺卷積層特征提取不充分(如SSD)的問(wèn)題.

      2)多尺度會(huì)增加較多的計(jì)算量,故在設(shè)計(jì)相應(yīng)算法時(shí)需要考慮模型訓(xùn)練與推理的資源和時(shí)間消耗,通過(guò)參數(shù)共享、轉(zhuǎn)化輸入等技巧來(lái)減少計(jì)算.

      2.10 損失函數(shù)的設(shè)計(jì)優(yōu)化

      損失函數(shù)量化了檢測(cè)模型在訓(xùn)練過(guò)程中出現(xiàn)的分類(lèi)和定位等錯(cuò)誤,為模型的更新提供了方向.大多數(shù)目標(biāo)檢測(cè)算法的損失函數(shù)由分類(lèi)損失函數(shù)與定位損失函數(shù)的加權(quán)和求得:

      其中,Lcls表示分類(lèi)損失函數(shù),Lreg表示定位損失函數(shù),λ表示平衡分類(lèi)損失與定位損失的權(quán)重系數(shù).

      2.10.1 分類(lèi)損失函數(shù)

      分類(lèi)損失指模型預(yù)測(cè)目標(biāo)類(lèi)別與實(shí)例不符帶來(lái)的懲罰.在經(jīng)典的單階段和兩階段檢測(cè)框架中,分類(lèi)損失一般由二分類(lèi)交叉熵表示:

      其中,pi表示由k+1 類(lèi)softmax 計(jì)算出的置信度,N?表示對(duì)應(yīng)類(lèi)別的樣本數(shù)目.

      從式中可以看出,當(dāng)輸出的特征圖某個(gè)網(wǎng)格上預(yù)測(cè)的正確類(lèi)別置信度越低則相應(yīng)的損失函數(shù)值就越高,從而對(duì)模型參數(shù)的更新貢獻(xiàn)就越大.

      傳統(tǒng)的二分類(lèi)交叉熵沒(méi)有考慮樣本中存在類(lèi)別不平衡等問(wèn)題,使得數(shù)量眾多的簡(jiǎn)單負(fù)樣本控制了模型更新的方向,而具有更多信息的正樣本和困難負(fù)樣本對(duì)梯度的更新幾乎沒(méi)有貢獻(xiàn).針對(duì)這個(gè)問(wèn)題,Lin 等[68]提出了焦點(diǎn)損失(Focal loss),它在式(7)基礎(chǔ)上分別為正負(fù)樣本、難易樣本添加了權(quán)重:

      其中,α表示正負(fù)樣本間的權(quán)重,取值為[0,1].表示難易樣本間的權(quán)重,取值為≥0.

      上式表明,對(duì)于樣本數(shù)較少、學(xué)習(xí)難度大的類(lèi)別應(yīng)適當(dāng)增加其在損數(shù)函數(shù)中權(quán)重,保證所有樣本對(duì)模型參數(shù)更新的貢獻(xiàn)都是相對(duì)平衡的.

      焦點(diǎn)損失函數(shù)雖然通過(guò)調(diào)整樣本權(quán)重,有效緩解了類(lèi)別不均問(wèn)題,但卻沒(méi)能顯式地考慮樣本間的關(guān)系,并且手工設(shè)計(jì)的超參難以適用于不同的任務(wù)和數(shù)據(jù)集.針對(duì)上述問(wèn)題,Chen 等[76]提出了基于樣本置信度排序的平均準(zhǔn)確率損失(Average precision loss),用樣本間置信度的差值代替原本置信度:

      其中,s(bi;θ)表示參數(shù)θ為的錨點(diǎn)框bi的置信度.

      則平均準(zhǔn)確率損失定義為:

      其中,H(?)表示單位階躍函數(shù),P表示正樣本,N表示負(fù)樣本.

      上式中,當(dāng)負(fù)樣本的置信度得分高于正樣本置信度得分時(shí),以正負(fù)樣本置信度差值為輸入的單位階躍函數(shù)取值為1,從而產(chǎn)生損失.

      除了為樣本提供權(quán)重的方法外,Li 等[77]從梯度更新角度出發(fā),提出了梯度均衡機(jī)制(Gradient harmonizing mechanism).該方法首先定義并計(jì)算了梯度模長(zhǎng)g=|p ?p?|,其中p為對(duì)應(yīng)類(lèi)別的置信度,p?為對(duì)應(yīng)實(shí)例標(biāo)簽.如圖28 所示,對(duì)于一個(gè)收斂的檢測(cè)模型,梯度模長(zhǎng)很小或很大的樣本數(shù)量遠(yuǎn)遠(yuǎn)多于模長(zhǎng)中等的樣本數(shù)量.

      圖28 不同梯度模長(zhǎng)的樣本數(shù)量Fig.28 Number of samples with different gradient norm

      定義區(qū)域內(nèi)樣本數(shù)量與區(qū)域大小比值為梯度密度,則:

      其中,?表示區(qū)間長(zhǎng)度,gk表示第k個(gè)樣本的梯度.

      則梯度均衡機(jī)制的分類(lèi)損失定義為:

      其中,LCE表示標(biāo)準(zhǔn)的二分類(lèi)交叉熵.

      從上式可以看出,對(duì)于樣本多的梯度模長(zhǎng)區(qū)間,其在總分類(lèi)損失中的權(quán)重會(huì)下降,從而使模型更加均衡地學(xué)習(xí)不同難度的負(fù)樣本,以提高其分類(lèi)性能.

      2.10.2 定位損失函數(shù)

      定位損失指模型預(yù)測(cè)目標(biāo)位置與實(shí)例位置不重合帶來(lái)的懲罰.在經(jīng)典的單階段和兩階段檢測(cè)框架中,定位損失一般由平滑L1范數(shù)來(lái)表示:

      其中,x表示候選框?qū)嶋H補(bǔ)償與預(yù)測(cè)補(bǔ)償?shù)牟?

      平滑L1范數(shù)的優(yōu)點(diǎn)在于對(duì)定位誤差的懲罰是線性增長(zhǎng)的,這有利于保持訓(xùn)練過(guò)程的平穩(wěn).

      在目標(biāo)密集的檢測(cè)場(chǎng)景下,模型的輸出結(jié)果會(huì)很大程度上受到周?chē)渌繕?biāo)的影響干擾.為此,Wang 等[78]提出了排斥損失(Repulsion loss),迫使預(yù)測(cè)框與對(duì)應(yīng)實(shí)例框靠近,而增大其與其他實(shí)例框和預(yù)測(cè)框間的距離:

      其中,LAttr表示預(yù)測(cè)框與對(duì)應(yīng)實(shí)例框間的距離損失,LRepGT表示預(yù)測(cè)框與其他實(shí)例框間的距離損失,LRepBox表示預(yù)測(cè)框與周?chē)渌A(yù)測(cè)框間的距離損失.α,β為實(shí)驗(yàn)確定的權(quán)重常數(shù).

      當(dāng)預(yù)測(cè)框與對(duì)應(yīng)實(shí)例框距離很近,而與其他實(shí)例框和預(yù)測(cè)框的距離很遠(yuǎn)時(shí),模型計(jì)算得到的定位損失就越小,表明當(dāng)前模型檢測(cè)性能越好.

      通常,模型的總損失函數(shù)是分類(lèi)損失與加權(quán)定位損失的和.然而,這種通過(guò)加權(quán)對(duì)分類(lèi)損失和定位損失的權(quán)重進(jìn)行調(diào)整的做法會(huì)導(dǎo)致模型對(duì)定位損失大的樣本更加敏感,影響模型的性能.針對(duì)上述問(wèn)題,Pan 等[27]提出了平衡L1損失,用于降低被過(guò)度放大的困難負(fù)樣本梯度,適當(dāng)提高簡(jiǎn)單樣本的梯度.文中通過(guò)對(duì)定位損失梯度的設(shè)計(jì)來(lái)反解定位損失函數(shù):

      其中,α、b、γ為實(shí)驗(yàn)確定的常數(shù).

      無(wú)論是L1損失還是L2損失,都是將各個(gè)位置坐標(biāo)分開(kāi)來(lái)進(jìn)行獨(dú)立的預(yù)測(cè).這種對(duì)位置的描述方法忽略了各個(gè)點(diǎn)之間的聯(lián)系,因而并非一定是對(duì)位置最直觀的表示.為此,Yu 等[79]提出了基于交并比的定位損失計(jì)算方法,直接以預(yù)測(cè)框和相應(yīng)實(shí)例框的交并比作為判斷定位準(zhǔn)確性的依據(jù):

      其中,area(?)表示區(qū)域面積.

      從上式中可以看出,若預(yù)測(cè)框與實(shí)例框交并比越大,則損失函數(shù)的值越小,說(shuō)明模型當(dāng)前的性能較好.

      然而上述損失函數(shù)值在預(yù)測(cè)框和實(shí)例框交并比值很小時(shí)趨于無(wú)窮,不利于數(shù)值穩(wěn)定.Tychsen-Smith等[80]提出了帶上界的交并比損失(以預(yù)測(cè)框橫坐標(biāo)為例):

      其中,bt表示實(shí)例框,x表示預(yù)測(cè)框中心位置橫坐標(biāo),wt表示實(shí)例框?qū)挾?Δx表示預(yù)測(cè)框與實(shí)例框中心橫坐標(biāo)的差.

      上式損失值在預(yù)測(cè)框與實(shí)例框交并比值為0 時(shí)是常數(shù),從而有效避免了數(shù)值溢出的問(wèn)題.

      2.10.3 其他損失函數(shù)

      除了目標(biāo)的類(lèi)別和位置外,一些檢測(cè)模型同時(shí)需要預(yù)測(cè)其他特定模塊的輸出.例如,文獻(xiàn)[37]中對(duì)錨點(diǎn)框生成的位置及形狀進(jìn)行預(yù)測(cè),設(shè)計(jì)了錨點(diǎn)框損失函數(shù);文獻(xiàn)[11]中對(duì)特征圖上所有左上角點(diǎn)與右下角點(diǎn)的配對(duì)進(jìn)行預(yù)測(cè),設(shè)計(jì)了配對(duì)組合損失函數(shù);文獻(xiàn)[42]中對(duì)最佳尺度的特征層進(jìn)行預(yù)測(cè),設(shè)計(jì)了特征層選擇的損失函數(shù).

      由于這類(lèi)損失函數(shù)都是針對(duì)特定的目標(biāo)檢測(cè)算法而設(shè)計(jì),不具備一般性,故在此不做具體闡述.

      總之,損失函數(shù)決定了模型參數(shù)的更新方向,從而很大程度上影響模型最終的檢測(cè)性能.損失函數(shù)的設(shè)計(jì)優(yōu)化應(yīng)注意:

      1)損失函數(shù)在定義域內(nèi)應(yīng)是連續(xù)可微的.

      2)對(duì)于分類(lèi)損失函數(shù),應(yīng)當(dāng)考慮不同類(lèi)別樣本對(duì)參數(shù)更新的貢獻(xiàn),保證模型對(duì)各類(lèi)樣本學(xué)習(xí)都足夠充分.

      3)對(duì)于定位損失函數(shù),應(yīng)當(dāng)選取位置表示能力較強(qiáng)且優(yōu)化難度較低的決策變量,并根據(jù)具體任務(wù)與數(shù)據(jù)集做合理的修正.

      4)對(duì)于端到端的訓(xùn)練過(guò)程,總損失函數(shù)是由各類(lèi)損失函數(shù)加權(quán)求和構(gòu)成的,其權(quán)重大小應(yīng)當(dāng)根據(jù)具體任務(wù)或數(shù)據(jù)集,通過(guò)實(shí)驗(yàn)的方法來(lái)確定.

      2.11 特定場(chǎng)景下的檢測(cè)模型優(yōu)化

      在不同場(chǎng)景與任務(wù)下,由于模型檢測(cè)對(duì)象的差異,相應(yīng)的目標(biāo)檢測(cè)架構(gòu)也會(huì)有較大區(qū)別.

      2.11.1 自然場(chǎng)景下的文本檢測(cè)模型優(yōu)化

      自然場(chǎng)景下的文本檢測(cè)任務(wù)中,文本框通常具有多方向、極端長(zhǎng)寬比、形狀不規(guī)則等特定問(wèn)題.因而無(wú)法直接套用通用目標(biāo)檢測(cè)模型.

      針對(duì)上述問(wèn)題,Ma 等[81]在Faster R-CNN 基礎(chǔ)上,設(shè)計(jì)了預(yù)測(cè)文本傾斜角度的RPN 網(wǎng)絡(luò),來(lái)實(shí)現(xiàn)多方向的文本檢測(cè).Liao 等[82]在SSD 模型的基礎(chǔ)上,通過(guò)修改卷積核尺寸以適應(yīng)長(zhǎng)文本的檢測(cè),并將回歸水平預(yù)測(cè)框修改為回歸四邊形框的角點(diǎn),來(lái)實(shí)現(xiàn)傾斜文本的檢測(cè).Zhou 等[83]繼承DenseBox[84]的檢測(cè)思想,在多尺度融合的特征圖上進(jìn)行像素級(jí)的文本檢測(cè),預(yù)測(cè)每個(gè)像素到四個(gè)邊界的距離以及旋轉(zhuǎn)角度,得到最終的檢測(cè)結(jié)果.

      某些情況下不同文本的間距很小,語(yǔ)義分割難以將其完全分開(kāi).Deng 等[85]提出使用實(shí)例分割來(lái)解決該問(wèn)題,它借助FCN 網(wǎng)絡(luò)進(jìn)行像素級(jí)預(yù)測(cè),分別得到文本和鏈接的二分類(lèi),使用正鏈接去連接鄰近的正文本像素,得到文本實(shí)例分割的結(jié)果.為提高對(duì)彎曲文本的檢測(cè)性能,Xie 等[86]在Mask RCNN 的基礎(chǔ)上多一個(gè)分支做文字語(yǔ)義分割,并把語(yǔ)義分割的中間特征和檢測(cè)分支特征進(jìn)行融合,用語(yǔ)義分割的結(jié)果作為注意力,對(duì)實(shí)例特征再進(jìn)行一次計(jì)算,得到最終的分類(lèi)得分.這種做法顯著提高了Mask R-CNN 模型對(duì)不規(guī)則形狀文本的檢測(cè)精度,取得了很好的效果.除了自頂向下的實(shí)例分割方法外,Wang 等[87]采用一種漸進(jìn)尺度擴(kuò)展網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)文本間緊挨情況下的檢測(cè),它以FPN 為基礎(chǔ)架構(gòu),用多支路來(lái)表示不同核的分割結(jié)果,再通過(guò)漸進(jìn)式擴(kuò)展算法不斷擴(kuò)大文本核,直到相鄰核之間發(fā)生擴(kuò)展沖突,得到最精細(xì)的文本檢測(cè)結(jié)果.

      2.11.2 航拍圖像下的檢測(cè)模型優(yōu)化

      航拍圖像下的目標(biāo)占像素小、密集、多方向,其數(shù)據(jù)集[88?89]與通用場(chǎng)景下的圖像數(shù)據(jù)差距較大,因而通用模型在航拍圖像上難以取得良好的檢測(cè)效果.

      為提高對(duì)航拍圖像下小目標(biāo)檢測(cè)的召回率,Yang 等[90]采用提高特征圖分辨率(或減少錨點(diǎn)框步長(zhǎng))的方法使更多的小目標(biāo)匹配到正樣例,并通過(guò)不同層級(jí)間的特征融合,以及空間與通道上的注意力機(jī)制來(lái)增強(qiáng)不同尺度目標(biāo)的特征,來(lái)進(jìn)一步區(qū)分前景與背景.

      考慮到航拍角度的特殊性,獲得旋轉(zhuǎn)不變的目標(biāo)特征是尤為關(guān)鍵的.Ding 等[91]利用一個(gè)全連接層從水平區(qū)域框中學(xué)習(xí)到旋轉(zhuǎn)區(qū)域框,并通過(guò)旋轉(zhuǎn)位置敏感模塊(Rotated position sensitive RoI Align)來(lái)從該框中獲得旋轉(zhuǎn)不變的目標(biāo)特征,用于后續(xù)的分類(lèi)與回歸.

      直接回歸方向邊界框的角度需要一些復(fù)雜的規(guī)則來(lái)保證角度計(jì)算不出現(xiàn)歧義,這加大了模型學(xué)習(xí)的難度.對(duì)此,Qian 等[92]提出了八參數(shù)的旋轉(zhuǎn)損失,它采用基于向量叉積(Cross-product)的計(jì)算方法來(lái)得到四邊形邊界框的回歸計(jì)算順序,從而來(lái)消除角度計(jì)算時(shí)出現(xiàn)的歧義問(wèn)題.Zhu 等[93]不直接回歸方向框的旋轉(zhuǎn)角度,而是用角度分別為90°與180°的兩個(gè)不同周期的周期向量(Periodic vectors)來(lái)隱式地表達(dá)邊界框的方向,這種方法生成的標(biāo)簽數(shù)據(jù)能夠省去復(fù)雜的規(guī)則描述,從而更加簡(jiǎn)單與合理地表示了帶方向的標(biāo)注框.

      2.11.3 遮擋環(huán)境下的行人檢測(cè)模型優(yōu)化

      行人之間相互遮擋是密集人群檢測(cè)的一大難點(diǎn).被遮擋行人的特征受到周?chē)腥说挠绊?導(dǎo)致檢測(cè)中出現(xiàn)假正例與漏檢的問(wèn)題.為此,一些行人檢測(cè)數(shù)據(jù)集[94?95]提供了更有針對(duì)性的數(shù)據(jù)標(biāo)注,來(lái)幫助解決行人遮擋問(wèn)題.

      Pang 等[96]利用標(biāo)注中的遮擋信息設(shè)計(jì)了基于掩碼的空間注意力機(jī)制模塊(Mask-guided attention),來(lái)幫助模型更加專(zhuān)注于行人未被遮擋部分的特征,從而有效緩解了周?chē)渌卣鲗?duì)行人檢測(cè)的干擾.Zhang 等[97]等針對(duì)遮擋問(wèn)題,在Faster RCNN 模型的基礎(chǔ)上提出用基于遮擋敏感的區(qū)域特征編碼來(lái)代替原始模型中的相應(yīng)操作,它將行人分成五個(gè)部分后分別進(jìn)行區(qū)域特征編碼,并根據(jù)不同部分的遮擋程度來(lái)加權(quán)組合這些特征,得到對(duì)遮擋敏感的行人特征并用于后續(xù)的檢測(cè).Liu 等[98]借鑒FCN 與DCN 的思想,采用位置敏感的可變形卷積池化來(lái)增加模型特征編碼的靈活性,讓模型更多地從行人可見(jiàn)部分中學(xué)習(xí)相應(yīng)特征,避免其他物體的遮擋干擾.

      除了使用注意力機(jī)制外,部分學(xué)者從損失函數(shù)的角度來(lái)解決遮擋問(wèn)題.Wang 等[78]與Zhang 等[97]都通過(guò)縮小候選框與相應(yīng)實(shí)例框距離,增大與實(shí)例框和候選框距離,來(lái)緩解候選框間距離太近導(dǎo)致后處理困難的問(wèn)題.

      在密集場(chǎng)景下,傳統(tǒng)的非極大值抑制方法處理候選框會(huì)很容易出現(xiàn)漏檢與假正例問(wèn)題.對(duì)此,Liu等[99]針提出了自適應(yīng)的非極大值抑制算法.它首先在兩階段模型上增加人群密度估計(jì)分支,得到該區(qū)域的人群密度大小,然后根據(jù)該值動(dòng)態(tài)地調(diào)整非極大值抑制的閾值,從而較好解決了遮擋下的候選框后處理問(wèn)題.

      綜上所述,對(duì)于特定場(chǎng)景下的檢測(cè)模型進(jìn)行優(yōu)化時(shí)應(yīng)注意:

      1)數(shù)據(jù)集的選擇非常重要.專(zhuān)業(yè)數(shù)據(jù)集往往比通用數(shù)據(jù)集的標(biāo)注信息更具針對(duì)性,因而能更好地幫助檢測(cè)模型的設(shè)計(jì)、訓(xùn)練與測(cè)試.

      2)不同任務(wù)對(duì)檢測(cè)模型的要求不同,應(yīng)根據(jù)當(dāng)前任務(wù)的特殊性與難點(diǎn)來(lái)針對(duì)性地優(yōu)化模型.

      3 實(shí)驗(yàn)結(jié)果對(duì)比與分析

      本文在COCO 2017 數(shù)據(jù)集上對(duì)上述各種改進(jìn)的模型進(jìn)行實(shí)驗(yàn)和比較,結(jié)果見(jiàn)表1 與表2 (注:RResNet,X-ResNeXt,HR-HRNet,D-DarkNet,HGHourglass.++表示使用了多尺度、水平翻轉(zhuǎn)等策略).

      表1 各檢測(cè)模型的性能對(duì)比Table 1 Performance comparison of different object detection models

      表2 部分檢測(cè)模型的速度、顯存消耗、參數(shù)量與計(jì)算量對(duì)比(基于Titan Xp)Table 2 Speed,VRAM consumption,parameters and computation comparison of some object detection models (on Titan Xp)

      對(duì)比表中的數(shù)據(jù)進(jìn)行分析后可以看出:

      1)相同檢測(cè)框架下不同主干網(wǎng)絡(luò)的模型檢測(cè)性能差別很大,主干網(wǎng)絡(luò)越深則相應(yīng)模型檢測(cè)性能越好,頸部連接結(jié)構(gòu)引入的特征融合操作,對(duì)檢測(cè)效果提升明顯.使用通道、空間注意力與全局上下文后,模型的檢測(cè)準(zhǔn)確率進(jìn)一步提升.由此表明深層、多尺度、全局的特征對(duì)模型檢測(cè)起到了重要的作用.

      2)錨點(diǎn)的設(shè)計(jì)對(duì)模型檢測(cè)性能有較大影響,根據(jù)目標(biāo)幾何特征來(lái)設(shè)計(jì)或自適應(yīng)生成相應(yīng)尺寸的錨點(diǎn)框能有效提高模型的檢測(cè)精度.無(wú)錨點(diǎn)檢測(cè)模型作為新興研究方向也有著比較出色的性能,但其涉及像素級(jí)的計(jì)算過(guò)程,因而顯存占用相對(duì)較多.

      3)在高交并比的評(píng)價(jià)標(biāo)準(zhǔn)下,改進(jìn)的非極大值抑制算法能使模型檢測(cè)準(zhǔn)確率有所提升.這表明非最優(yōu)的候選框中也包含對(duì)模型檢測(cè)有利的信息,對(duì)其進(jìn)行充分利用可以提高模型對(duì)困難樣本的檢測(cè)性能.

      4)變交并比閾值能幫助模型從粗到細(xì)地調(diào)整候選框的分類(lèi)與定位,解決模型當(dāng)前性能與正負(fù)樣本的交并比閾值不匹配問(wèn)題,有效地提高模型整體的檢測(cè)性能,但同時(shí)也引入了更多的計(jì)算量.

      5)對(duì)正負(fù)樣本進(jìn)行合理采樣能緩解檢測(cè)中的類(lèi)別不均問(wèn)題,提高模型訓(xùn)練的有效性,從而幫助模型更快地學(xué)習(xí)到目標(biāo)特征,提高檢測(cè)精度.

      6)對(duì)比不同區(qū)域特征編碼方法可以看到,精確的局部位置信息以及全局信息對(duì)于兩階段模型獲得表達(dá)能力強(qiáng)的編碼特征都是很重要的.

      7)通過(guò)特征對(duì)齊或者解耦的方法,來(lái)解決分類(lèi)與定位的特征不匹配問(wèn)題,可以有效避免任務(wù)間相互影響,幫助模型更有效地進(jìn)行多任務(wù)學(xué)習(xí).

      8)上下文建??紤]全局與周?chē)繕?biāo)的信息,來(lái)提取出包含上下文信息的目標(biāo)特征,實(shí)驗(yàn)結(jié)果表明該方法能夠有效提高模型(特別是當(dāng)主干網(wǎng)絡(luò)較淺時(shí))對(duì)困難樣本的檢測(cè)效果.

      9)尺度變化對(duì)模型檢測(cè)性能的影響比較嚴(yán)重.對(duì)不同尺度目標(biāo)采用不同有效感受野大小的特征圖去檢測(cè),能顯著地提高目標(biāo)在實(shí)際場(chǎng)景下的檢測(cè)性能.但是由于這類(lèi)模型需要進(jìn)行不同尺度上的特征計(jì)算,在訓(xùn)練/推理速度、顯存消耗、計(jì)算量上有較為明顯的短板.

      10)針對(duì)特定問(wèn)題進(jìn)行合理優(yōu)化后的損失函數(shù)可以更直接地去表達(dá)和解決目標(biāo)檢測(cè)中存在的正負(fù)、難易樣本不均,目標(biāo)遮擋嚴(yán)重,定位精度不高等難題,從而在幾乎不增加模型復(fù)雜度的情況下提高模型的檢測(cè)性能.

      4 展望

      除了對(duì)目標(biāo)檢測(cè)模型的各種子模塊進(jìn)行優(yōu)化外,近些年來(lái)該領(lǐng)域也出現(xiàn)了一些新興的研究方向.

      4.1 基于神經(jīng)算法搜索的模塊優(yōu)化

      神經(jīng)算法搜索(NAS)是一種在給定搜索空間中搜索最優(yōu)模型架構(gòu)的自動(dòng)學(xué)習(xí)算法.基于強(qiáng)化學(xué)習(xí)的NAS 算法,通過(guò)設(shè)計(jì)RNN 控制器來(lái)進(jìn)行架構(gòu)搜索,利用子模型在搜索空間中的準(zhǔn)確度作為獎(jiǎng)勵(lì)信號(hào),來(lái)更新其參數(shù).在反復(fù)的訓(xùn)練過(guò)程中,控制器就能逐漸學(xué)會(huì)生成更好的模型架構(gòu).

      NAS 在計(jì)算機(jī)視覺(jué)領(lǐng)域最早的應(yīng)用成果是NAS-Net[101].它借鑒了ResNet、Inception 等主流網(wǎng)絡(luò)重復(fù)堆疊的思想,通過(guò)RNN 控制器來(lái)預(yù)測(cè)分類(lèi)網(wǎng)絡(luò)的結(jié)構(gòu),并利用驗(yàn)證集上的準(zhǔn)確率來(lái)更新RNN 控制器的參數(shù),最終得到了分類(lèi)網(wǎng)絡(luò)的基本堆疊單元.實(shí)驗(yàn)表明,該方法得到的分類(lèi)網(wǎng)絡(luò)在分類(lèi)性能上有較大優(yōu)勢(shì).

      目標(biāo)檢測(cè)與圖像分類(lèi)的任務(wù)不同,因而NASNet 架構(gòu)對(duì)于檢測(cè)來(lái)說(shuō)不是最優(yōu)的.針對(duì)該問(wèn)題,曠視[102]首次提出了用于自動(dòng)搜索物體檢測(cè)器主干網(wǎng)絡(luò)方法.為降低搜索過(guò)程中的時(shí)間與資源消耗,研究人員將網(wǎng)絡(luò)權(quán)重的訓(xùn)練與結(jié)構(gòu)搜索進(jìn)行解耦,先在ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,再在檢測(cè)數(shù)據(jù)集上微調(diào)參數(shù),最后進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的搜索.搜索過(guò)程采用遺傳算法來(lái)進(jìn)行架構(gòu)的更新,收斂后得到的DetNAS 主干網(wǎng)絡(luò)模型性能超越了絕大部分的手工網(wǎng)絡(luò)結(jié)構(gòu).

      最近,Google Brain 又將NAS 應(yīng)用在特征金字塔的搜索上,得到了NAS-FPN[103]架構(gòu).它利用融合單元(Merging cells)組建起基本的特征金字塔結(jié)構(gòu)和所有可能的特征層組合,構(gòu)造出算法的搜索空間.從最終收斂的結(jié)果來(lái)看(圖29),底層向上傳遞信息的特征融合次數(shù)較多,這表明精確的位置信息對(duì)模型檢測(cè)準(zhǔn)確率提升的有較大作用.

      圖29 NAS 搜索收斂后的FPN 架構(gòu)Fig.29 NAS-FPN framework after convergence

      為提高NAS 方法的搜索速度和效率,降低計(jì)算資源的消耗,Wang 等[104]采用無(wú)錨點(diǎn)的FCOS 模型作為搜索對(duì)象,并限定了卷積操作的搜索空間,分別對(duì)特征金字塔和預(yù)測(cè)頭部的結(jié)構(gòu)進(jìn)行了搜索,搜索結(jié)果表明可變形卷積與拼接操作對(duì)于提升特征金字塔的性能非常關(guān)鍵,而可變形卷積+1×1 卷積的結(jié)構(gòu)在預(yù)測(cè)頭部上取得了性能和計(jì)算量上的最佳平衡.

      為搜索更為復(fù)雜的目標(biāo)檢測(cè)模型架構(gòu),并在更大的數(shù)據(jù)集上進(jìn)行搜索驗(yàn)證,降低NAS 方法的計(jì)算和時(shí)間開(kāi)銷(xiāo)[105]是非常必要的,也是該研究領(lǐng)域未來(lái)發(fā)展的重要方向.

      4.2 少樣本的目標(biāo)檢測(cè)

      目前,主流的檢測(cè)模型都是在大量數(shù)據(jù)樣本下訓(xùn)練得到的,這些模型在面對(duì)少樣本的情況會(huì)出現(xiàn)嚴(yán)重的過(guò)擬合,性能大大降低.而少樣本的目標(biāo)檢測(cè)(Few-shot object detection)正是針對(duì)少量訓(xùn)練數(shù)據(jù)提出的一類(lèi)檢測(cè)任務(wù).

      少樣本學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域主要有元學(xué)習(xí)(Meta learning)與度量學(xué)習(xí)(Metric learning)兩類(lèi).元學(xué)習(xí)則注重訓(xùn)練模型少樣本的學(xué)習(xí)能力,使模型能夠從少量樣本中提取出有用的特征;度量學(xué)習(xí)通過(guò)度量支撐樣本與測(cè)試樣本間的特征距離來(lái)進(jìn)行目標(biāo)的分類(lèi).

      許多少樣本學(xué)習(xí)[106?109]模型都是在兩階段模型的基礎(chǔ)上通過(guò)替換RPN 網(wǎng)絡(luò)和檢測(cè)頭部來(lái)實(shí)現(xiàn)的.其中,Karlinsky 等[106]在Faster-RCNN 模型的基礎(chǔ)上,用子網(wǎng)絡(luò)替換原始模型中的分類(lèi)支路(圖30),提出了端到端的少樣本學(xué)習(xí)框架,它將區(qū)域編碼后的特征送入度量嵌入模塊計(jì)算出嵌入特征向量,再計(jì)算該向量與每個(gè)類(lèi)別的表征向量的距離,來(lái)得到每個(gè)ROI 區(qū)域的類(lèi)別后驗(yàn)概率.在少樣本測(cè)試時(shí),用支撐樣本計(jì)算出的表征向量替代訓(xùn)練過(guò)程中的表征向量,從而獲得新類(lèi)別的表征,并用于類(lèi)別后驗(yàn)概率的計(jì)算,得到最終的分類(lèi)結(jié)果.

      圖30 RepMet 模型的訓(xùn)練與推理流程Fig.30 Training and inference pipeline of RepMet

      Fan 等[107]提出了注意力機(jī)制的RPN 網(wǎng)絡(luò)(圖31),用來(lái)過(guò)濾與支撐樣本類(lèi)別不符的物體,并為每個(gè)不同類(lèi)別的支撐樣本單獨(dú)建立多關(guān)系頭部(Multi-relation head)來(lái)對(duì)查詢(xún)樣本和支撐樣本進(jìn)行匹配,得到最終的檢測(cè)結(jié)果.

      圖31 基于注意力機(jī)制RPN 與多關(guān)系頭部的少樣本檢測(cè)Fig.31 Attention-RPN and multi-relation head based few-shot detection

      雖然上述模型都實(shí)現(xiàn)了端到端的少樣本檢測(cè),但其并沒(méi)考慮少樣本下的定位問(wèn)題.對(duì)此,Kang 等[110]提出了一種新的檢測(cè)框架,它包括元特征學(xué)習(xí)與特征權(quán)重調(diào)整兩個(gè)部分.給定一個(gè)查詢(xún)樣本和一組新類(lèi)支撐樣本,特征學(xué)習(xí)器從查詢(xún)樣本中提取出元特征,權(quán)重調(diào)整模塊捕獲支撐樣本的全局特征,并將其用于調(diào)整查詢(xún)樣本的元特征,從而查詢(xún)樣本的元特征能夠有效地使用支撐樣本提供的分類(lèi)與定位信息,最終獲得查詢(xún)樣本的分類(lèi)與定位結(jié)果.

      少樣本檢測(cè)是克服實(shí)際工程中數(shù)據(jù)樣本缺乏問(wèn)題的重要方法之一.當(dāng)下,大多數(shù)相關(guān)模型在檢測(cè)推理中使用的查詢(xún)樣本類(lèi)別較少,并對(duì)少樣本下目標(biāo)定位問(wèn)題的研究不多,這都是該方法在投入實(shí)際工程前需要解決的問(wèn)題.

      4.3 領(lǐng)域自適應(yīng)的目標(biāo)檢測(cè)

      目標(biāo)檢測(cè)通常假定訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從相同的分布,然而在實(shí)際工程中并非總是如此,這種分布上的不匹配會(huì)導(dǎo)致模型在實(shí)際場(chǎng)景應(yīng)用中產(chǎn)生顯著的性能下降.領(lǐng)域自適應(yīng)便是為了解決該問(wèn)題而出現(xiàn)的新興研究方向.

      領(lǐng)域自適應(yīng)的目標(biāo)檢測(cè)主要分為有監(jiān)督與無(wú)監(jiān)督兩類(lèi).有監(jiān)督方法[111?113]生成或利用少量的目標(biāo)域 (Target domain)標(biāo)簽來(lái)微調(diào)網(wǎng)絡(luò)模型,消除與源域(Source domain)間的差異.無(wú)監(jiān)督方法[114?116]采用對(duì)抗訓(xùn)練的方式,來(lái)訓(xùn)練領(lǐng)域判別器以最小化源域與目標(biāo)域間的分布差異.

      Ionue 等[111]采用CycleGAN[117]將源域數(shù)據(jù)分布變換為目標(biāo)域數(shù)據(jù)分布,并在其上進(jìn)行訓(xùn)練來(lái)對(duì)檢測(cè)模型進(jìn)行微調(diào).接著用微調(diào)后的檢測(cè)器對(duì)目標(biāo)域圖像進(jìn)行檢測(cè),選取最高概率的結(jié)果作為目標(biāo)圖像的偽標(biāo)注,并用這些偽標(biāo)注進(jìn)一步對(duì)模型進(jìn)行微調(diào),得到最終的檢測(cè)模型.

      Kim 等[113]同時(shí)從有監(jiān)督與無(wú)監(jiān)督方法中受到啟發(fā),通過(guò)CycleGAN 生成與源域共享標(biāo)簽的中間域圖像,三個(gè)域圖像同時(shí)輸入到模型進(jìn)行多類(lèi)別的域判別器訓(xùn)練,進(jìn)而得到多個(gè)域間不變的目標(biāo)特征,用于后續(xù)的分類(lèi)與回歸.

      Chen 等[114]首次提出無(wú)監(jiān)督的領(lǐng)域自適應(yīng)目標(biāo)檢測(cè),它在Faster R-CNN 模型的基礎(chǔ)上,同時(shí)訓(xùn)練圖像級(jí)與實(shí)例級(jí)的域判別器(圖32),采用對(duì)抗訓(xùn)練的方法:最小化域分類(lèi)損失得到最佳域判別器,最大化該判別器分類(lèi)誤差,來(lái)對(duì)齊源域與目標(biāo)域,從而得到域不變的目標(biāo)特征,提高模型在目標(biāo)域的檢測(cè)性能.

      圖32 基于Faster R-CNN 的域適應(yīng)分支Fig.32 Domain adaptive branch based on faster R-CNN

      淺層特征與高層特征包含的信息是不同的.Saito 等[115]分別選取淺層特征與高層特征在源域與目標(biāo)域上做不同程度的對(duì)齊:底層特征使用交叉熵?fù)p失做強(qiáng)對(duì)齊,高層特征使用Focal loss 做弱對(duì)齊,最終得到更適合于目標(biāo)域檢測(cè)的特征.

      領(lǐng)域自適應(yīng)的目標(biāo)檢測(cè)對(duì)提升模型在實(shí)際場(chǎng)景(如惡劣天氣條件)下泛化能力的幫助很大,是未來(lái)檢測(cè)模型能在更一般環(huán)境下得到成功應(yīng)用的關(guān)鍵技術(shù).

      4.4 輕量化的目標(biāo)檢測(cè)

      為實(shí)現(xiàn)目標(biāo)檢測(cè)模型在嵌入式設(shè)備或移動(dòng)端設(shè)備的落地,減少模型推理的計(jì)算和時(shí)間開(kāi)銷(xiāo)是至關(guān)重要的.

      Google 提出的MobileNets 系列[118?120]是專(zhuān)門(mén)為移動(dòng)端設(shè)計(jì)的輕量級(jí)網(wǎng)絡(luò),它用深度分離卷積來(lái)代替?zhèn)鹘y(tǒng)卷積,并修改輸入與輸出層的結(jié)構(gòu),來(lái)大大降低了模型計(jì)算量;用倒置殘差模塊和線性瓶頸層來(lái)減輕低維度上非線性變換造成的信息丟失,最終得到了在計(jì)算資源受限下具備較高檢測(cè)性能的網(wǎng)絡(luò)模型.

      除了MobileNets 系列外,Zhang 等[121?122]設(shè)計(jì)了基于組卷積(Group convolution)優(yōu)化的ShuffleNet,它針對(duì)組卷積輸出的通道信息表示能力差的問(wèn)題,提出了通道間的混洗操作,來(lái)促進(jìn)不同通道間的特征信息傳遞,在保證計(jì)算量幾乎不變的條件下,有效增強(qiáng)了每個(gè)輸出通道的特征表示能力.Zhang 等[123]提出了主從組卷積的計(jì)算方法,通過(guò)主組卷積減少卷積計(jì)算量,從卷積來(lái)融合不同分組間的目標(biāo)特征,并采用稀疏化卷積核、量化卷積核權(quán)重等方法來(lái)進(jìn)一步壓縮網(wǎng)絡(luò)模型的大小.

      Qin 等[124]在ShuffleNet 上進(jìn)行改進(jìn),通過(guò)增大淺層特征的通道數(shù)和感受野,來(lái)獲得更有效的目標(biāo)特征,并加入上下文信息增強(qiáng)模塊和空間注意力模塊來(lái)進(jìn)一步促進(jìn)多特征的融合,從而在保證高速推理的同時(shí)提升模型的檢測(cè)精度.

      另外,部分學(xué)者還通過(guò)模型剪枝的方法來(lái)降低檢測(cè)推理的計(jì)算量.Zhang 等[125]在YOLOV3 模型的基礎(chǔ)上,通過(guò)對(duì)每一輪訓(xùn)練后的模型進(jìn)行評(píng)估,來(lái)剪枝尺度因子較小的通道,不斷降低模型的復(fù)雜度,最終得到與原模型檢測(cè)性能相近,但推理速度更快的新模型.

      在移動(dòng)端與嵌入式端應(yīng)用越發(fā)廣泛的背景下,降低模型計(jì)算開(kāi)銷(xiāo)以實(shí)現(xiàn)在這些設(shè)備上的部署是大勢(shì)所趨,也是未來(lái)目標(biāo)檢測(cè)領(lǐng)域研究的熱點(diǎn).

      4.5 弱監(jiān)督下的目標(biāo)檢測(cè)

      實(shí)例級(jí)的數(shù)據(jù)標(biāo)注是一項(xiàng)昂貴、費(fèi)時(shí)費(fèi)力的工作,甚至在某些場(chǎng)合下是難以做到的.而弱監(jiān)督的目標(biāo)檢測(cè)從只提供圖像級(jí)(Image-Level)的標(biāo)注信息中來(lái)學(xué)習(xí)對(duì)目標(biāo)的分類(lèi)與定位.由于缺少實(shí)例框標(biāo)注,弱監(jiān)督下的目標(biāo)檢測(cè)需要根據(jù)圖像特征來(lái)進(jìn)行定位.

      Bilen 等[126]通過(guò)選擇搜索(Selective search)的方法來(lái)獲得大量候選框,再利用分類(lèi)階段和檢測(cè)階段分別得到每個(gè)候選框的類(lèi)別概率與每個(gè)候選框?qū)μ囟繕?biāo)的檢測(cè)貢獻(xiàn)率,兩者的內(nèi)積作為各區(qū)域的得分,最后根據(jù)得分來(lái)確定檢測(cè)結(jié)果.然而,WSDDN 模型的損失函數(shù)是非凸函數(shù),往往收斂到局部極小值,相應(yīng)的一些優(yōu)化方法[127?130]被提出用來(lái)解決該問(wèn)題.Yang 等[131]在文獻(xiàn)[128]的基礎(chǔ)上將多實(shí)例學(xué)習(xí)過(guò)程(Multi-instance learning)與模型訓(xùn)練過(guò)程連接成一個(gè)可端到端訓(xùn)練的網(wǎng)絡(luò),并引入了空間注意力機(jī)制來(lái)獲得更具有判別性的特征.Wan等[132]提出一種基于最小熵隱變量的弱監(jiān)督模型,它通過(guò)優(yōu)化局部最小熵模型來(lái)估計(jì)偽標(biāo)簽(Pseudoobjects)和困難負(fù)例,并充分利用這些信息來(lái)最小化學(xué)習(xí)過(guò)程中的隨機(jī)性,從而進(jìn)一步提高模型的定位能力.

      Zhou 等[133]從目標(biāo)的語(yǔ)義信息角度出發(fā),利用全局池化來(lái)得到每個(gè)特征層對(duì)每一類(lèi)別物體的權(quán)重值,并以此對(duì)特征圖進(jìn)行線性加權(quán),獲得的高響應(yīng)區(qū)域就是目標(biāo)所在區(qū)域.然而,這種方式很容易導(dǎo)致模型只對(duì)目標(biāo)最具有辨別力的部分進(jìn)行檢測(cè),從而降低定位的精度.對(duì)此,Zhang 等[134]提出了對(duì)抗互補(bǔ)學(xué)習(xí)的策略,它通過(guò)交替訓(xùn)練兩個(gè)不同的分類(lèi)器,得到互補(bǔ)的目標(biāo)特征來(lái)進(jìn)行拼接,由此避免了上述問(wèn)題,提高了模型的定位能力.Choe 等[135]在訓(xùn)練過(guò)程中隨機(jī)生成掩碼來(lái)遮擋目標(biāo)整體范圍內(nèi)最顯著的特征,來(lái)引導(dǎo)模型學(xué)習(xí)目標(biāo)完整的區(qū)域特征,從而有效解決了目標(biāo)定位誤差較大的問(wèn)題.

      在數(shù)據(jù)標(biāo)注成本越發(fā)昂貴的背景下,弱監(jiān)督目標(biāo)檢測(cè)的低廉成本使其受到了更多研究人員的關(guān)注.如何進(jìn)一步縮小弱監(jiān)督檢測(cè)模型與通用檢測(cè)模型間的性能差距,是未來(lái)該方向的研究重點(diǎn).

      5 結(jié)語(yǔ)

      本文歸納分析了目標(biāo)檢測(cè)模型的子模塊優(yōu)化方法,并對(duì)目標(biāo)檢測(cè)領(lǐng)域未來(lái)發(fā)展的方向進(jìn)行了展望,從中得出了以下結(jié)論:

      1)不同的檢測(cè)場(chǎng)景與任務(wù)對(duì)模型性能的要求不同,應(yīng)根據(jù)具體場(chǎng)景與任務(wù)特點(diǎn)對(duì)模型做相應(yīng)的改進(jìn),并在專(zhuān)業(yè)數(shù)據(jù)集上對(duì)其進(jìn)行訓(xùn)練與測(cè)試.

      2)主干網(wǎng)絡(luò)和頸部連接層的結(jié)構(gòu)優(yōu)化能夠抽取更好的目標(biāo)特征,因而幾乎在任何場(chǎng)景、對(duì)任何模型的檢測(cè)性能提升都是非常有利的.

      3)當(dāng)檢測(cè)場(chǎng)景中目標(biāo)分布密集,相互遮擋問(wèn)題嚴(yán)重時(shí),非極大值抑制算法和交并比算法的優(yōu)化能夠有效緩解目標(biāo)漏檢的問(wèn)題,從而提升模型對(duì)密集目標(biāo)的檢測(cè)性能.

      4)當(dāng)檢測(cè)場(chǎng)景相對(duì)復(fù)雜,背景嘈雜時(shí),正負(fù)樣本采樣算法和損失函數(shù)設(shè)計(jì)的優(yōu)化能提升模型從各類(lèi)訓(xùn)練樣本中學(xué)習(xí)的效果,進(jìn)而提高模型對(duì)困難目標(biāo)的檢測(cè)效果.

      5)目標(biāo)檢測(cè)領(lǐng)域在未來(lái)將圍繞更優(yōu)的檢測(cè)性能與更好的工程落地兩個(gè)不同方向,從自動(dòng)化、輕量化、域適應(yīng)、少樣本、弱監(jiān)督等角度展開(kāi)進(jìn)一步深入研究.

      猜你喜歡
      候選框錨點(diǎn)尺度
      重定位非極大值抑制算法
      面向自然場(chǎng)景文本檢測(cè)的改進(jìn)NMS算法
      基于NR覆蓋的NSA錨點(diǎn)優(yōu)選策略研究
      基于Soft-NMS的候選框去冗余加速器設(shè)計(jì)*
      5G手機(jī)無(wú)法在室分NSA站點(diǎn)駐留案例分析
      5G NSA錨點(diǎn)的選擇策略
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
      5G NSA組網(wǎng)下錨點(diǎn)站的選擇策略?xún)?yōu)化
      一種針對(duì)特定目標(biāo)的提議算法
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      乌兰县| 平远县| 界首市| 岳西县| 钟山县| 平邑县| 沂水县| 呼和浩特市| 南丰县| 苏州市| 文水县| 张家港市| 侯马市| 公主岭市| 仪征市| 资溪县| 延津县| 白河县| 北安市| 抚州市| 卫辉市| 巴东县| 长沙市| 新河县| 福建省| 泾川县| 宿松县| 溧阳市| 遵义市| 称多县| 阿拉善盟| 虞城县| 城步| 曲麻莱县| 永和县| 顺昌县| 万年县| 凤阳县| 厦门市| 镶黄旗| 高阳县|