• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      錨點(diǎn)機(jī)制在目標(biāo)檢測領(lǐng)域的發(fā)展綜述

      2022-04-13 02:40:18伏軒儀張鑾景梁文科畢方明房衛(wèi)東
      計(jì)算機(jī)與生活 2022年4期
      關(guān)鍵詞:錨點(diǎn)關(guān)鍵點(diǎn)樣本

      伏軒儀,張鑾景,梁文科,畢方明+,房衛(wèi)東

      1.中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州221116

      2.中國賽寶(山東)實(shí)驗(yàn)室,濟(jì)南250013

      3.中國科學(xué)院 上海微系統(tǒng)與信息技術(shù)研究所 無線傳感網(wǎng)與通信重點(diǎn)實(shí)驗(yàn)室,上海200050

      目標(biāo)檢測是計(jì)算機(jī)視覺和圖像處理領(lǐng)域的基礎(chǔ)問題,為解決自動駕駛、姿態(tài)估計(jì)等下游視覺任務(wù)提供技術(shù)保障。目標(biāo)檢測算法識別圖像中目標(biāo)的類別和位置,結(jié)合目標(biāo)分類和定位兩個(gè)任務(wù)。圖像中的目標(biāo)存在形變、遮擋、尺度變化大等特殊情況,給目標(biāo)檢測任務(wù)增加難度,目標(biāo)檢測的發(fā)展就是完善檢測算法以應(yīng)對特殊情況造成的檢測性能下降。目標(biāo)檢測算法分為三個(gè)步驟:特征提取、生成候選區(qū)域與候選區(qū)域分類。在傳統(tǒng)的目標(biāo)檢測模型中,使用滑動窗口提取特征,設(shè)計(jì)基于人工設(shè)計(jì)的特征算子描述圖像,使用分類器對特征進(jìn)行分類?;瑒哟翱谌狈︶槍π?,導(dǎo)致計(jì)算冗余?;诘讓右曈X特征設(shè)計(jì)的特征算子難以匹配復(fù)雜的圖像特征,存在單一性、適應(yīng)能力差等問題。2012 年AlexNet在ImageNet競賽中以超過第二名10.9 個(gè)百分點(diǎn)的絕對優(yōu)勢一舉奪冠,引發(fā)深度學(xué)習(xí)的研究熱潮。基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)使用卷積神經(jīng)網(wǎng)絡(luò)替代手工提取特征,大幅提升檢測精度和計(jì)算效率,推動目標(biāo)檢測的新發(fā)展。

      目前目標(biāo)檢測方面已有綜述從時(shí)間先后順序,一階段、二階段分類等方面總結(jié)梳理,與現(xiàn)有綜述不同,本文圍繞錨點(diǎn)機(jī)制在目標(biāo)檢測中的影響展開,介紹anchor機(jī)制的原理和優(yōu)化anchor設(shè)置的目標(biāo)檢測模型,同時(shí)重點(diǎn)關(guān)注新近無錨點(diǎn)算法的發(fā)展,探索兩類算法的本質(zhì)區(qū)別,在主流數(shù)據(jù)集上對比典型算法的性能表現(xiàn),便于本方向相關(guān)研究者參考和借鑒。

      1 anchor原理及優(yōu)化設(shè)置

      1.1 anchor原理

      anchors 是在數(shù)據(jù)集中識別到目標(biāo)的候選框組合,考慮到目標(biāo)大小和尺寸不同,在設(shè)置anchor 時(shí)選擇一定的尺寸和寬高比以適配目標(biāo)。anchor 與傳統(tǒng)目標(biāo)檢測中的滑動窗口不同,滑動窗口尺寸單一,無法識別不同尺度大小的目標(biāo);anchor 有針對地設(shè)計(jì)尺度和寬高比例參數(shù),提高目標(biāo)檢測的靈活度。Faster R-CNN提出anchor 機(jī)制以來,錨定方法(anchorbased)成為各種目標(biāo)檢測模型的指導(dǎo)思想。圖1 展示Faster R-CNN 中anchor 設(shè)置情況,其中三種顏色代表的尺度分別為128×128、256×256、512×512,顏色相同的anchor寬高比分別為1∶1、1∶2、2∶1。

      圖1 Faster R-CNN 中的錨點(diǎn)示意圖Fig.1 Schematic diagram of anchors in Faster R-CNN

      1.2 anchor的問題和對應(yīng)優(yōu)化

      基于anchor 的檢測架構(gòu)將目標(biāo)邊界檢測為多個(gè)錨框,預(yù)測每個(gè)錨框的偏移量和類別。在訓(xùn)練過程中,網(wǎng)絡(luò)的輸出值都是相對錨點(diǎn)框的偏移量,值域范圍較小,容易收斂,減小訓(xùn)練難度。因此anchor 機(jī)制廣泛應(yīng)用于先進(jìn)的深度學(xué)習(xí)檢測器中。一些檢測器不存在以anchor 命名的候選框,但使用了類似的思想,例如文獻(xiàn)[20]中的默認(rèn)框(default boxes),文獻(xiàn)[21]中的先驗(yàn)框(priors)以及文獻(xiàn)[16]中的網(wǎng)格(grid cell)等。與傳統(tǒng)檢測方法相比,基于深度學(xué)習(xí)的anchor-based 模型能夠提升檢測精度。但研究人員從中發(fā)現(xiàn),anchor-based 系列模型存在以下三方面的問題:

      (1)anchor 的尺寸需要精心設(shè)計(jì),大量預(yù)定義的參數(shù)對模型的預(yù)測能力有一定影響,超參數(shù)的手工調(diào)制影響模型的魯棒性。超參數(shù)的設(shè)置與數(shù)據(jù)集相關(guān),需要根據(jù)數(shù)據(jù)集的特點(diǎn)重新設(shè)計(jì)錨點(diǎn)框的超參數(shù),因此限制了模型的泛化能力。

      (2)anchor-based 方法本質(zhì)上是對圖像進(jìn)行密集采樣,DSSD中設(shè)置超過4 萬個(gè)anchor,RetinaNet超過10 萬。數(shù)量眾多的anchor 對交并比的計(jì)算增加了顯存的消耗。

      (3)anchor 中的大部分為僅包含背景信息的負(fù)樣本,最終只有一小部分與真實(shí)目標(biāo)重合,加劇了正負(fù)樣本不平衡的問題,模型的分類能力會被負(fù)樣本所主導(dǎo)。

      針對anchor存在的問題,一些方法從尺度、角度、數(shù)量等方面增加anchor 的種類,達(dá)到優(yōu)化anchor 設(shè)置的目的。在尺度方面,Cai等在不同的特征層設(shè)計(jì)不同尺度的檢測器。低層的卷積網(wǎng)絡(luò)感受野較小,用于小目標(biāo)的檢測,而高層的卷積網(wǎng)絡(luò)適用于檢測大目標(biāo),改善Faster R-CNN 目標(biāo)大小和模板不匹配的問題。Zhu 等提出一種生成anchor 的新策略,基于步長縮減anchor,用于檢測小目標(biāo)的高分辨率特征圖感受野較小,為防止漏檢小目標(biāo),應(yīng)當(dāng)縮減anchor生成的步長(srtide)。另外在訓(xùn)練時(shí)隨機(jī)抖動以增加anchor 與目標(biāo)的重合度,提升人臉檢測對小目標(biāo)的檢測性能。在數(shù)量方面,Ke 等提出一種多錨點(diǎn)學(xué)習(xí)的方法,基于交并比篩選一部分優(yōu)質(zhì)的anchor,構(gòu)造屬于目標(biāo)的錨點(diǎn)袋(anchor bag),再結(jié)合分類和定位分?jǐn)?shù)評估anchor bag 中的正樣本,使用正樣本優(yōu)化訓(xùn)練損失。無論是尺度還是數(shù)量的增加,都進(jìn)一步增加計(jì)算復(fù)雜度以及內(nèi)存開銷,并不能取得理想的效果。另一類思路引入可形變卷積以解決目標(biāo)形狀差異大的問題,提高檢測器的靈活性。但由于需要學(xué)習(xí)額外的偏移量,參數(shù)量大,增加訓(xùn)練難度,依然是以犧牲效率為代價(jià)換取精度的提升。

      基于增加anchor 種類的優(yōu)化方法仍然依靠先驗(yàn)知識,許多學(xué)者針對anchor 的先驗(yàn)性提出質(zhì)疑,指出基于人工先驗(yàn)知識設(shè)計(jì)anchor 尺寸是檢測效果不佳的主要原因。Yang 等提出一種不依靠先驗(yàn)知識的MetaAnchor。根據(jù)一些預(yù)設(shè)的anchor 結(jié)合圖像的特征隱式學(xué)習(xí)錨點(diǎn)框函數(shù)以預(yù)測目標(biāo),將人工先驗(yàn)知識轉(zhuǎn)化為可學(xué)習(xí)的參數(shù)形式。MetaAnchor 對anchor的設(shè)定和目標(biāo)的分布更加魯棒,適用于任何基于anchor 的目標(biāo)檢測框架,有效縮減不同數(shù)據(jù)集之間邊界框分布的差異。Ma 等設(shè)計(jì)的檢測模型AABO(adaptive anchor box optimization)指出,每更換一個(gè)使用場景時(shí),需要手工調(diào)整anchor的配置以適應(yīng)新域的特性和分布。AABO 設(shè)計(jì)一種自適應(yīng)的特征金字塔搜索空間,結(jié)合貝葉斯優(yōu)化和子采樣方法優(yōu)點(diǎn)的超參數(shù)優(yōu)化方法,有效為特定數(shù)據(jù)集確定最優(yōu)的anchor 配置。與其他工作的區(qū)別在于,AABO 學(xué)習(xí)到的anchor 配置在整個(gè)數(shù)據(jù)集上共享。anchor 的提出是基于多尺度檢測的需求,但如何獨(dú)立于先驗(yàn)知識,使anchor 能夠主動學(xué)習(xí)特征,需要借助遷移學(xué)習(xí)等方面的技術(shù)進(jìn)一步改進(jìn)。

      2 基于關(guān)鍵點(diǎn)的anchor-free模型

      基于關(guān)鍵點(diǎn)的anchor-free 模型主要分為兩種思路,一類對特定位置的關(guān)鍵點(diǎn)分組,另一類結(jié)合中心關(guān)鍵點(diǎn)進(jìn)行回歸預(yù)測。基于關(guān)鍵點(diǎn)分組的anchorfree 模型從特征圖中檢測特定關(guān)鍵點(diǎn),根據(jù)對關(guān)鍵點(diǎn)的匹配生成高質(zhì)量的檢測框,減少預(yù)設(shè)錨框存在的特征不匹配、計(jì)算冗余等問題。此類模型有基于角點(diǎn)的CornerNet及其優(yōu)化版本CornerNet-Lite,基于極值點(diǎn)的ExtremeNet等。結(jié)合中心關(guān)鍵點(diǎn)的anchor-free 模型在特征圖的每個(gè)位置輸出其為目標(biāo)中心點(diǎn)的概率、回歸目標(biāo)尺度、偏移量等信息進(jìn)行邊框的預(yù)測。此類模型有Objects as Points及系列工作等。本章綜述基于關(guān)鍵點(diǎn)的anchor-free 模型主要思想和檢測框架,針對不同模型的優(yōu)點(diǎn)和存在的問題進(jìn)行詳盡分析。

      2.1 基于特定關(guān)鍵點(diǎn)的anchor-free模型

      Law 等提出了一種基于關(guān)鍵點(diǎn)分組的目標(biāo)檢測方法CornerNet,算法受到Newell 等用于多人姿態(tài)估計(jì)的關(guān)聯(lián)嵌入法啟發(fā),使用左上角和右下角配對構(gòu)造的預(yù)測框檢測目標(biāo),檢測結(jié)構(gòu)如圖2 所示。CornerNet使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)Hourglass-104 輸出的一系列特征圖分別輸入兩個(gè)分支模塊,預(yù)測左上角點(diǎn)(top-left corners)和右下角點(diǎn)(bottom-right corners)。在圖2 中,每個(gè)分支模塊包含一個(gè)角點(diǎn)池化(corner pooling)層和3 個(gè)輸出:熱力圖(heatmaps)、嵌入向量(embeddings)和偏移預(yù)測(offsets)。輸出兩組heatmap代表不同種類角點(diǎn)的位置,embedding 對角點(diǎn)進(jìn)行分組,分組依據(jù)是向量之間的距離差異。為了生成的預(yù)測框更緊密貼合目標(biāo),網(wǎng)絡(luò)還預(yù)測偏移量(offsets),以輕微調(diào)整角點(diǎn)的位置。

      圖2 CornerNet檢測結(jié)構(gòu)Fig.2 CornerNet detection framework

      與其他視覺任務(wù)中的池化操作不同,角點(diǎn)池化試圖將特征圖的最大激活值從目標(biāo)內(nèi)部轉(zhuǎn)移到邊界。如圖3 所示,以左上角點(diǎn)池化(top-left corner pooling)為例:垂直方向自下而上提取特征圖的最大值,水平方向從右向左提取最大值,然后求和得到輸出結(jié)果,數(shù)值計(jì)算過程如圖。Corner Pooling 使用兩個(gè)獨(dú)立的特征圖分別在兩個(gè)方向上檢測最大激活值,降低2 路信號的相關(guān)性,加強(qiáng)單個(gè)方向上的邊緣信息,從而提高檢測性能。

      圖3 左上角點(diǎn)池化數(shù)值計(jì)算過程Fig.3 Numerical procedure of top-left corner pooling

      CornerNet 僅使用兩個(gè)角點(diǎn)預(yù)測目標(biāo)缺乏物體內(nèi)部信息,僅基于距離對角點(diǎn)進(jìn)行匹配而導(dǎo)致多個(gè)相似目標(biāo)被檢測為同一目標(biāo),檢測的準(zhǔn)確性有待提升。另一方面,每張圖片的推理耗時(shí)1.147 s,難以滿足交互實(shí)時(shí)性要求。原團(tuán)隊(duì)進(jìn)一步的后續(xù)工作CornerNet-Lite提出兩種輕量級的CornerNet 變種:CornerNet-Saccade 首先獲取可能出現(xiàn)目標(biāo)的初步位置及其尺寸,使用類似人眼掃視的注意機(jī)制,有重點(diǎn)地處理圖像中的像素點(diǎn);CornerNet-Squeeze 引入新的緊湊骨干架構(gòu),將SqueezeNet 與堆疊沙漏網(wǎng)絡(luò)整合在一起,并應(yīng)用于物體檢測。這兩種變體共同解決了有效目標(biāo)檢測中的兩個(gè)關(guān)鍵用例:在不犧牲精度的情況下提高效率以及提高實(shí)時(shí)檢測的準(zhǔn)確性。遺憾的是,CornerNet-Saccade 與CornerNet-Squeeze結(jié)合的效果不理想,主要由于CornerNet-Saccade 需要強(qiáng)大的主干網(wǎng)絡(luò)來生成足夠準(zhǔn)確的特征圖,而CornerNet-Squeeze 則是減弱了主干網(wǎng)絡(luò)的表達(dá)能力進(jìn)行加速,兩種變體只能各自解決單方面的問題,存在局限性。

      ExtremeNet將目標(biāo)檢測定義為完全基于外觀信息的關(guān)鍵點(diǎn)估計(jì)問題,提出一種目標(biāo)檢測的新思路:使用標(biāo)準(zhǔn)的關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)檢測上下左右4 個(gè)關(guān)鍵點(diǎn)以及中心點(diǎn),根據(jù)幾何關(guān)系對5 個(gè)關(guān)鍵點(diǎn)分組。作者認(rèn)為CornerNet 中提出的角點(diǎn)(corner point)只不過是另一種形式的包圍框,且角點(diǎn)大部分位于目標(biāo)的外部。但是本文提出的極點(diǎn)(extreme point)是位于物體上的,因此在視覺上是可區(qū)分的,具有一致的局部外觀特征。另外,與CornerNet 使用關(guān)聯(lián)嵌入法(associative embedding)不同,本文的分類方法完全基于幾何外觀信息,避免隱式的特征學(xué)習(xí)。ExtremeNet沿用了CornerNet 網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),對關(guān)鍵點(diǎn)的分組方法與CornerNet 不同,且關(guān)鍵點(diǎn)個(gè)數(shù)增加至5個(gè)。顯然增加關(guān)鍵點(diǎn)能夠包含更多的信息,但同時(shí)增加了計(jì)算開銷。通過暴力枚舉極點(diǎn)對所有結(jié)果進(jìn)行羅列,算法復(fù)雜度較高。在產(chǎn)生4 個(gè)方向極點(diǎn)的基礎(chǔ)上進(jìn)一步計(jì)算幾何中心,后處理過程繁瑣。在極點(diǎn)的匹配過程中,容易產(chǎn)生假陽性(false-positive)樣本,影響檢測效果。

      在錨定方法(anchor-based)引導(dǎo)的檢測中,列舉大量可能存在目標(biāo)的anchor,是一種自上而下的檢測思路。以上基于特定關(guān)鍵點(diǎn)的anchor-free 模型開啟了真正意義上自底向上的目標(biāo)檢測時(shí)代,對關(guān)鍵點(diǎn)的定義和組合方式提出優(yōu)化?;陉P(guān)鍵點(diǎn)檢測思路的發(fā)展致力于加入更多關(guān)鍵點(diǎn)提供特征信息,自ExtremeNet 開始,關(guān)鍵點(diǎn)不僅限于角點(diǎn),更多后續(xù)工作開始聚焦目標(biāo)中心點(diǎn)對檢測效果的影響。將關(guān)鍵點(diǎn)檢測分解為更細(xì)致的任務(wù),獲取到更多信息以及分解任務(wù)間的關(guān)聯(lián)性可能會對網(wǎng)絡(luò)產(chǎn)生好的影響。

      2.2 結(jié)合中心點(diǎn)回歸預(yù)測的anchor-free模型

      Objects as Points由ExtremeNet作者提出,因?yàn)橥耆谥行狞c(diǎn)進(jìn)行檢測,作者在論文中以CenterNet指代檢測器。CenterNet 將目標(biāo)建模為一個(gè)中心關(guān)鍵點(diǎn),在中心點(diǎn)位置回歸出目標(biāo)的尺寸、姿態(tài)等其他信息。針對CornerNet、ExtremeNet依賴關(guān)鍵點(diǎn)分組后處理步驟降低了檢測速度的問題,CenterNet 提供了一種更為簡潔的思路,即提取每個(gè)目標(biāo)的中心點(diǎn),無需對多個(gè)關(guān)鍵點(diǎn)分組。與錨定(anchor-based)算法相似,CenterNet 將中心點(diǎn)類比于一個(gè)單獨(dú)且形狀未知的錨點(diǎn)。又因?yàn)檫@種錨點(diǎn)只和位置有關(guān),不存在錨點(diǎn)重疊的問題,無需人為設(shè)置閾值來進(jìn)行前景和背景的區(qū)分。在檢測過程的設(shè)計(jì)方面,CenterNet 沒有對關(guān)鍵點(diǎn)進(jìn)行后處理分組,從而大大減少了網(wǎng)絡(luò)參數(shù)量和計(jì)算量。

      同時(shí)期的另一種CenterNet-Triplets在CornerNet的基礎(chǔ)上發(fā)展而來,旨在解決CornerNet 存在錯(cuò)誤的角點(diǎn)配對問題。作者將左上角、右下角和中心點(diǎn)結(jié)合為三聯(lián)體(Triplets),在角點(diǎn)的基礎(chǔ)上增加一個(gè)關(guān)鍵點(diǎn)來探索候選框靠近幾何中心位置的信息。對于角點(diǎn)構(gòu)造的預(yù)測邊框,如果同類別物體的中心關(guān)鍵點(diǎn)也包含在該候選框的中心區(qū)域,則保留該檢測框,否則舍棄?;谌?lián)體關(guān)鍵點(diǎn)的CenterNet 結(jié)合物體內(nèi)部信息,對角點(diǎn)的預(yù)測做后處理矯正。CenterNet-Triplets仍然停留在結(jié)合中心關(guān)鍵點(diǎn)矯正匹配的階段,粗略看來整合了角點(diǎn)和中心點(diǎn)的信息,大部分工作建立在ConerNet的基礎(chǔ)上完成。CenterNet-Objects as Points完全基于中心點(diǎn),沒有后處理步驟,模型結(jié)構(gòu)簡單。且該方法容易擴(kuò)展到姿態(tài)識別等其他與關(guān)鍵點(diǎn)檢測相關(guān)的任務(wù)中,具有啟發(fā)性意義。

      Dong 等提出的CentripetalNet 針對關(guān)聯(lián)嵌入法匹配關(guān)鍵點(diǎn)的導(dǎo)致的誤檢做出優(yōu)化改進(jìn)。文章指出,基于物體的外觀信息產(chǎn)生嵌入向量的做法缺乏魯棒性。同類別的物體具有相同的外觀,這時(shí)物體的角點(diǎn)所對應(yīng)的嵌入向量十分相似,使得網(wǎng)絡(luò)的訓(xùn)練難度較大,出現(xiàn)錯(cuò)誤的關(guān)鍵點(diǎn)匹配對。CentripetalNet以CenterNet為基線,提出新的關(guān)鍵點(diǎn)分組方法,結(jié)合物體的外觀和關(guān)鍵點(diǎn)的位置信息。CentripetalNet使用基于向心位移(centripetal shift)的角點(diǎn)配對方法,以及一種能夠更好地預(yù)測向心偏移的交叉星形可變形卷積模塊。圖4 依次展示了CornerNet、CenterNet-Triplets、CentripetalNet的部分檢測效果圖,在同類型的相似物體高度集中場景中,前兩者出現(xiàn)了將多個(gè)目標(biāo)識別為同一目標(biāo)的情況,如第一種場景中的球員,第二種場景中的滑雪運(yùn)動員。CentripetalNet成功移除錯(cuò)誤的角點(diǎn)配對導(dǎo)致的誤檢,與CenterNet-Triplets相比,CentripetalNet的效果提升主要來自大中型目標(biāo),如第三種場景中,CentripetalNet對人體目標(biāo)的識別效果更加精確。

      圖4 改進(jìn)關(guān)鍵點(diǎn)匹配系列模型檢測效果對比Fig.4 Detection results comparison of key point matching series models

      另一種結(jié)合中心點(diǎn)的預(yù)測模型并不區(qū)分正負(fù)樣本,使用類似語義分割的思想,使用全卷積網(wǎng)絡(luò)逐像素預(yù)測。早期工作中,DenseBox首先提出:(1)直接對是否為某類中心點(diǎn)進(jìn)行判別;(2)在中心點(diǎn)處直接回歸相關(guān)的幾何參數(shù)。以此為啟發(fā),F(xiàn)COS(fully convolutional one-stage)額外預(yù)測了每個(gè)位置上的中心置信度(centerness),抑制偏離中心過遠(yuǎn)的誤檢。FCOS 僅憑借非極大抑制進(jìn)行后處理,模型更加簡單靈活,可以擴(kuò)展到其他計(jì)算機(jī)視覺任務(wù)中。檢測流程如圖5 所示:

      圖5 FCOS 網(wǎng)絡(luò)的檢測結(jié)構(gòu)Fig.5 Fully convolutional one-stage object detection framework

      (1)輸入圖片,經(jīng)過骨干網(wǎng)絡(luò)進(jìn)行特征提取,結(jié)合特征金字塔獲得不同尺度的最終特征圖。

      (2)在特征圖上逐像素點(diǎn)進(jìn)行分類和回歸。確定每個(gè)點(diǎn)所屬物體類別,根據(jù)每個(gè)點(diǎn)到物體4 個(gè)邊界的距離確定包圍框(bounding box)。

      (3)引入中心置信度分支,預(yù)測一個(gè)像素到對應(yīng)邊框中心的偏差,降低低質(zhì)量預(yù)測框的權(quán)重,減少非極大抑制后處理計(jì)算負(fù)擔(dān)。

      其中中心置信度(centerness)分支的主要作用是篩選遠(yuǎn)離目標(biāo)中心的低質(zhì)量bounding box。增加一個(gè)與分類平行的分支用以預(yù)測中心置信度。中心置信度描述的是某一位置到該位置到其所屬目標(biāo)中心的距離。設(shè)定第個(gè)卷積塊的輸出特征圖為F,算法將F上一點(diǎn)(,)映射到原始的輸入圖片位置并回歸。在進(jìn)行正負(fù)樣本判斷時(shí),若(,)落入真值標(biāo)簽(ground truth)邊界范圍內(nèi)即視為正樣本,與anchorbased 模型相比大量增加正樣本的數(shù)量,幫助模型有效學(xué)習(xí)。正樣本位置的回歸目標(biāo)可表示為:

      中心置信度的取值范圍是(0,1),通過二元交叉熵?fù)p失訓(xùn)練。測試時(shí),最終分?jǐn)?shù)由中心置信度預(yù)測結(jié)果和分類分?jǐn)?shù)乘積得到。中心置信度降低遠(yuǎn)離目標(biāo)中心的bounding box 得分,結(jié)合非極大抑制后處理濾除低質(zhì)量邊框,進(jìn)而提高檢測效果。FCOS 在實(shí)驗(yàn)分析中與anchor-based 模型對比了樣例總數(shù)和內(nèi)存占用情況,樣例總數(shù)減少了90%,內(nèi)存占用減少了67%,但缺乏實(shí)時(shí)性指標(biāo)的對比。逐像素密集檢測相當(dāng)于在每個(gè)像素點(diǎn)鋪設(shè)anchor,對檢測速度會產(chǎn)生影響。中心置信度的可解釋性有待進(jìn)一步增強(qiáng),需要從幾何理論等方面給出理論支撐。

      現(xiàn)階段anchor-free 的主要檢測范式可以分為以上兩類,對特定位置的關(guān)鍵點(diǎn)分組和結(jié)合中心關(guān)鍵點(diǎn)進(jìn)行回歸預(yù)測。最先提出基于關(guān)鍵點(diǎn)目標(biāo)檢測的CornerNet引領(lǐng)了定義特定關(guān)鍵點(diǎn)的檢測思路,此方向的優(yōu)化工作針對關(guān)鍵點(diǎn)的選取與組合方式。增加關(guān)鍵點(diǎn)個(gè)數(shù)是細(xì)分檢測任務(wù)的表現(xiàn)形式,獲取到更多信息以及分解任務(wù)間的關(guān)聯(lián)性可能會對網(wǎng)絡(luò)產(chǎn)生好的影響。關(guān)鍵點(diǎn)組合存在繁瑣的后處理過程,導(dǎo)致計(jì)算復(fù)雜度居高不下,推理時(shí)間緩慢,催生了輕量化的CornerNet-Lite。結(jié)合中心點(diǎn)回歸預(yù)測的anchorfree 模型中,Objects as Points直接檢測中心關(guān)鍵點(diǎn)進(jìn)而回歸其他屬性,實(shí)現(xiàn)端到端的高效檢測。FCOS則在目標(biāo)檢測中引入語義分割的思想,融合中心度過濾低質(zhì)量檢測,不僅提供了一階段anchor-free 檢測的新思路,加強(qiáng)與其他視覺任務(wù)的關(guān)聯(lián)性,也可用于兩階段目標(biāo)檢測的感興趣區(qū)域網(wǎng)絡(luò)(region proposal network,RPN)提升性能。

      3 其他類型的anchor-free模型

      CenterNet的作者團(tuán)隊(duì)發(fā)表于2021 年的最新研究成果提出,目標(biāo)檢測、實(shí)例分割和姿態(tài)估計(jì)都是對位置敏感的視覺識別任務(wù),并設(shè)計(jì)一個(gè)統(tǒng)一的框架稱為位置敏感網(wǎng)絡(luò)(location-sensitive network,LSNet)。文章認(rèn)為,不同的視覺任務(wù)本質(zhì)上都是識別物體,不同之處在于表征物體的形式:目標(biāo)檢測用包圍框,實(shí)例分割用mask,姿態(tài)估計(jì)用關(guān)鍵點(diǎn)。作者設(shè)計(jì)一個(gè)統(tǒng)一的框架將預(yù)測目標(biāo)與真實(shí)的目標(biāo)聯(lián)系起來,以一個(gè)anchor 點(diǎn)和指向關(guān)鍵點(diǎn)的個(gè)向量作為檢測框架。在目標(biāo)檢測任務(wù)中,1 個(gè)anchor 點(diǎn)和指向極值點(diǎn)的4 個(gè)向量確定目標(biāo)框;在實(shí)例分割任務(wù)中,1 個(gè)anchor 點(diǎn)和指向輪廓點(diǎn)的個(gè)向量確定mask;在人體姿態(tài)估計(jì)任務(wù)中,1 個(gè)anchor 點(diǎn)和指向17 個(gè)關(guān)鍵點(diǎn)的向量確定pose。

      LSNet 分為兩個(gè)階段:第一階段從特征金字塔(feature pyramid networks,F(xiàn)PN)的頭部預(yù)測一個(gè)anchor 點(diǎn)并與一組landmark 聯(lián)系起來;第二階段組合landmark 描述目標(biāo)對象的幾何形狀。為了準(zhǔn)確定位目標(biāo),使用ATSS(adaptive training sample selection)分配器為目標(biāo)分配盡可能多的anchor點(diǎn),并在預(yù)測的landmark 上使用可形變卷積提取特征??紤]到目標(biāo)檢測中的損失函數(shù)IoU loss 只能基于矩形框回歸優(yōu)化,難以運(yùn)用到實(shí)例分割任務(wù)中的多邊形和姿態(tài)估計(jì)中的離散關(guān)鍵點(diǎn),作者提出一種新的損失函數(shù)Cross-IoU Loss。Cross-IoU Loss 對anchor 點(diǎn)到landmark 的每個(gè)向量計(jì)算交并比,將二維的交并比壓縮到一維,從垂直和水平兩個(gè)方向分解計(jì)算向量與真值標(biāo)簽的重合程度。LSNet 拓展了anchor-free 方法應(yīng)用于視覺識別的邊界,充分證明使用關(guān)鍵點(diǎn)定義和定位目標(biāo)是一個(gè)值得研究的方向。

      Zhang 等人開發(fā)的一階段目標(biāo)檢測模型VarifocalNet(VFNet)是一種感知交并比的密集目標(biāo)檢測器。作者在文章中指出高性能密集目標(biāo)檢測器的關(guān)鍵在于對候選檢測目標(biāo)進(jìn)行排序篩選,之前的研究工作使用分類得分或?qū)⒎诸惖梅峙c定位得分相乘,兩個(gè)不可靠的預(yù)測相乘可能會導(dǎo)致候選目標(biāo)的排名變差,損害檢測性能。文章提出感知交并比的分類得分(IoU-aware classification score,IACS)同時(shí)表示物體的存在置信度和定位精度,設(shè)計(jì)了一種新的高效星型邊界框表示法,以及變焦損失Varifocal loss訓(xùn)練檢測器。VFNet 以FCOS+ATSS 作為基礎(chǔ),作者深入理解每種技術(shù)的優(yōu)點(diǎn),并將它們組合到一個(gè)模型中。變焦損失Varifocal loss 借助調(diào)制因子平衡正負(fù)樣本的權(quán)重,非對稱地處理正負(fù)樣本,與第4 章融合anchor-based 與anchor-free 的思想類似,重點(diǎn)關(guān)注有關(guān)正負(fù)樣本選擇的問題。

      4 融合anchor-based 與anchor-free的方法

      Zhu等指出,在與特征金字塔結(jié)合使用的anchorbased 檢測模型RetinaNet中,基于人工經(jīng)驗(yàn)規(guī)則,將anchor 離散化到不同的特征層,又根據(jù)目標(biāo)和anchor的交并比選擇最匹配的anchor 檢測目標(biāo)。這種選定特征層的算法,特征級別不一定是最適合目標(biāo)的。基于特征選擇的無錨點(diǎn)模塊(feature selective anchorfree module,F(xiàn)SAF),在特征金字塔的每一層都分出一個(gè)anchor-free 分支,允許在任意層上進(jìn)行編碼和解碼。在訓(xùn)練期間,動態(tài)地將每個(gè)目標(biāo)分配到最合適的特征層,不設(shè)置anchor以限制特征層選擇。作者在原有的RetinaNet 的基礎(chǔ)上加入一個(gè)anchor-free 分支。該分支分為兩個(gè)卷積層,分別負(fù)責(zé)分類和回歸任務(wù)。以RetinaNet 主干網(wǎng)絡(luò)的到特征層構(gòu)造特征金字塔,圖6 中展示了其中的三層,每層用來探測不同大小的目標(biāo)。FSAF 模塊根據(jù)目標(biāo)內(nèi)容選擇最匹配的特征層,而不是僅僅根據(jù)目標(biāo)框尺寸分配特征層。檢測過程如圖6 所示,目標(biāo)輸入到特征金字塔的所有層,然后求得所有anchor-free 分支損失函數(shù)的和,選擇和最小的特征層來學(xué)習(xí)。在消融實(shí)驗(yàn)中,加入FSAF 模塊后增加了6 ms 的計(jì)算時(shí)間,為ResNet-101 主干網(wǎng)絡(luò)的RetinaNet 帶來1.8 個(gè)百分點(diǎn)的精度提升。

      圖6 FSAF 網(wǎng)絡(luò)的檢測結(jié)構(gòu)Fig.6 FSAF detection framework

      一種主樣本注意力策略(prime sample attention,PISA)提出,每個(gè)批次(batch)中的樣本是非獨(dú)立的,每個(gè)樣本給予的關(guān)注度也不應(yīng)完全相同。PISA對正負(fù)樣本點(diǎn)權(quán)重一致性進(jìn)行優(yōu)化,使用層次局部排名重新定義樣本的重要性,根據(jù)重要性為樣本分配不同的損失權(quán)重,是后續(xù)研究一個(gè)具有潛力的起點(diǎn)。自PISA 開始,研究者們探索標(biāo)簽分配(label assign)問題對檢測器的影響,在2.2 節(jié)中,F(xiàn)COS也針對標(biāo)簽分配方面進(jìn)行了優(yōu)化,通過空間和尺度約束選擇正負(fù)樣本,以采樣方式擬合anchor-based 與anchor-free 產(chǎn)生的性能差異,指出標(biāo)簽分配策略可以進(jìn)一步提升目標(biāo)檢測器的上限,是anchor-based 與anchor-free 產(chǎn)生性能差異的根本原因。本章重點(diǎn)介紹圍繞標(biāo)簽分配策略優(yōu)化開展的工作,圖7 展示本章介紹的基于標(biāo)簽分配優(yōu)化的檢測模型關(guān)系。

      圖7 基于標(biāo)簽分配優(yōu)化的檢測模型關(guān)系Fig.7 Relationship between detection models based on label assign optimization

      FreeAnchor針對PISA 中發(fā)現(xiàn)的問題,設(shè)計(jì)了新的損失函數(shù)。為提高召回率,recall loss 確保每個(gè)實(shí)例有足夠好的正樣本。為保證精確度,precession loss 確保每個(gè)實(shí)例盡可能避免產(chǎn)生假陽性目標(biāo)。論文拋棄以往根據(jù)IoU 硬性指定anchor 和GT 匹配關(guān)系的方法,提出FreeAnchor 方法來進(jìn)行更自由的匹配。FreeAnchor 將檢測算法的訓(xùn)練過程定義為最大似然估計(jì)的過程,除提升檢測性能外,一個(gè)突出的表現(xiàn)是對長條狀目標(biāo)友好。

      Zhang 等探 究anchor-based 和anchor-free的目標(biāo)檢測算法之間產(chǎn)生差異的根本原因。作者分別選擇anchor-based/free 典型算法RetinaNet和FCOS 進(jìn)行對比,將RetinaNet 鋪設(shè)的anchor 數(shù)改為1 后發(fā)現(xiàn)相同的正負(fù)樣本定義下的RetinaNet 和FCOS 性能幾乎一樣。由此指出anchor-based 與anchor-free 方法的主要區(qū)別在于對正負(fù)樣本的選擇,提出自適應(yīng)訓(xùn)練樣本選擇(adaptive training sample selection,ATSS)。ATSS 根據(jù)統(tǒng)計(jì)學(xué)特征劃分正負(fù)樣本,具體方法如下:在每個(gè)金字塔特征圖層中選擇個(gè)檢測框中心點(diǎn)和目標(biāo)中心點(diǎn)距離最近的檢測框作為候選正樣本集。計(jì)算每個(gè)候選正樣本與標(biāo)注的目標(biāo)檢測框(ground truth,GT)的交并比D以及D的均值m和標(biāo)準(zhǔn)差v。以均值和方差的和作為篩選正樣本的閾值。ATSS 僅有一個(gè)超參數(shù),且在實(shí)驗(yàn)中證明在一定區(qū)間內(nèi)的取值對檢測性能的影響微乎其微。但作為一種自適應(yīng)方法,對篩選閾值的確定還是依靠先驗(yàn)信息且缺乏對閾值設(shè)定的理論解釋,調(diào)參痕跡較重。Zhu 等進(jìn)一步改進(jìn)此問題,將分配過程自動化,對于一個(gè)目標(biāo)檢測框,標(biāo)記所有落入框內(nèi)的樣本為正樣本,不落在框內(nèi)的樣本為負(fù)樣本。由此設(shè)計(jì)AutoAssign 進(jìn)一步提出根據(jù)數(shù)據(jù)集動態(tài)定義正負(fù)樣本,公平對待每個(gè)位置的正負(fù)樣本屬性,通過正負(fù)樣本的權(quán)重映射,動態(tài)調(diào)整每個(gè)位置的預(yù)測,運(yùn)用在RetinaNet和FCOS上都能有穩(wěn)定的性能提升。

      表1 總結(jié)標(biāo)簽分配策略的幾個(gè)維度及先驗(yàn)形式。現(xiàn)有的標(biāo)簽分配策略都利用中心先驗(yàn)(center prior),依賴于物體圍繞框中心的分布方式。若數(shù)據(jù)的分布不符合中心先驗(yàn),將不能取得良好的檢測效果。標(biāo)簽分配分為尺度(scale)和空間(spatial)兩個(gè)維度,AutoAssign 定義的權(quán)重對兩個(gè)維度實(shí)現(xiàn)聯(lián)合訓(xùn)練。目標(biāo)檢測的標(biāo)簽分配應(yīng)該是連續(xù)的過程,沒有真正意義上的正負(fù)樣本之分,表1 中的大部分模型使用IoU 閾值定義正負(fù)樣本使標(biāo)簽分配的過程離散化,不是一個(gè)合理的思路。如何設(shè)計(jì)連續(xù)的自適應(yīng)標(biāo)簽分配,將是未來的研究重點(diǎn)。

      表1 標(biāo)簽分配目標(biāo)檢測模型總結(jié)Table 1 Summary of label assign object detection models

      5 性能對比

      在第1~4 章中介紹了基于無錨點(diǎn)的各類目標(biāo)檢測算法,表2 對第2~4 章中列舉的部分目標(biāo)檢測模型的原理、優(yōu)缺點(diǎn)及使用范圍進(jìn)行總結(jié)。表3 在COCO數(shù)據(jù)集上使用平均檢測精度及其變體對比檢測性能,以是否基于anchor 劃分為兩部分。、、、、是基于COCO 數(shù)據(jù)集定義的檢測精度評價(jià)指標(biāo),、用以評價(jià)不同的交并比閾值下的檢測效果,50 與75 表示預(yù)測框與標(biāo)注框的交并比大于50%和75%時(shí)才會被認(rèn)為預(yù)測正確。、、分別表示模型預(yù)測不同大小尺度目標(biāo)的AP,s(small)為area<322,m(medium)為322962,area 是分割掩碼(segmentation mask)中的像素?cái)?shù)量。模型的綜合性能表現(xiàn)受主干網(wǎng)絡(luò)、輸入圖像尺寸、硬件加速環(huán)境影響,權(quán)衡速度與精度,表3 列舉每個(gè)模型最佳性能表現(xiàn)的檢測指標(biāo)。為公平起見,性能評價(jià)結(jié)果均基于COCO 數(shù)據(jù)集,論文中未具體描述的以“—”省略。

      表2 各類無錨點(diǎn)目標(biāo)檢測模型總結(jié)Table 2 Summary of various anchor-free object detection models

      結(jié)合表2 與表3 可以得到以下幾點(diǎn)信息:

      表3 各類目標(biāo)檢測模型在COCO 數(shù)據(jù)集上的性能對比Table 3 Performance comparison of various object detection models on COCO dataset

      (1)在anchor-free 方法中,CornerNet是最早提出的基于組合角點(diǎn)檢測模型,檢測精度達(dá)到42.1%,超過同時(shí)期基于錨框的檢測算法。后續(xù)推出的CornerNet-Lite中,CornerNet-Squeeze設(shè)計(jì)了更加輕量的檢測網(wǎng)絡(luò),計(jì)算速度達(dá)到約33 frame/s,相比CornerNet 提高了約6 倍,是目標(biāo)檢測模型在輕量化方面做出的重大改進(jìn),也表明輕量化是計(jì)算機(jī)視覺任務(wù)發(fā)展的迫切需求?;跈z測特定關(guān)鍵點(diǎn)的anchor-free 模型發(fā)展趨勢是以多樣化的關(guān)鍵點(diǎn)提取到豐富的目標(biāo)信息,但組合關(guān)鍵點(diǎn)的后處理步驟拖累檢測速度,與結(jié)合中心關(guān)鍵點(diǎn)檢測的方法相比速度較慢。

      (2)Objects as Points與基于三聯(lián)體關(guān)鍵點(diǎn)的CenterNet,聚焦中心關(guān)鍵點(diǎn)的作用,通過不同的方式充分利用中心點(diǎn),提升了檢測精度,表明中心區(qū)域?qū)﹃P(guān)鍵點(diǎn)分組的重要性。CentripetalNet 針對圖像中相似物體的誤檢情況,進(jìn)一步使用向心偏移提高小目標(biāo)密集排列的檢測效果,檢測精度超過具有代表性的anchor-based 模型RetinaNet、SSD、YOLO v3。結(jié)合中心關(guān)鍵點(diǎn)的檢測方法默認(rèn)目標(biāo)的分布圍繞幾何中心,對不符合此分布的目標(biāo)(如長條狀的行人)將產(chǎn)生不穩(wěn)定的檢測效果,魯棒性較差。

      (3)結(jié)合中心關(guān)鍵點(diǎn)回歸預(yù)測的anchor-free 方法,都利用特征金字塔(FPN)進(jìn)行多尺度目標(biāo)檢測。FCOS加入中心度分支剔除低質(zhì)量檢測框提升檢測性能。融合anchor-based 與anchor-free 的檢測器FSAF通過在線特征選擇的方式,動態(tài)地為每個(gè)實(shí)例選擇最合適的特征層,提升中小型目標(biāo)的檢測效果,表現(xiàn)為評價(jià)指標(biāo)、有所提升。多尺度檢測是提升檢測效果的重要方法,但顯著增加的內(nèi)存開銷和計(jì)算耗時(shí)是主要問題,下一步研究方向可以繼續(xù)探討構(gòu)建“碎片式”圖像金字塔解決計(jì)算耗時(shí)問題。

      (4)融合anchor-based&free 的方法中,標(biāo)簽分配策略解決正負(fù)樣本不平衡的問題,擴(kuò)充有利于模型訓(xùn)練的正樣本數(shù)量,避免超參數(shù)的引入,降低手工調(diào)參的成本。

      (5)現(xiàn)階段anchor-free 系列模型暫時(shí)沒有性能上的突出表現(xiàn),但仍存在思想上的優(yōu)越性?;陉P(guān)鍵點(diǎn)的檢測可以借助語義分割等其他視覺任務(wù)的先進(jìn)方法,拓展模型的使用范圍??紤]到anchor的固有缺陷,可以認(rèn)為anchor-free 的研究方向在未來仍舊值得繼續(xù)探索。

      6 特定場景下的優(yōu)化

      目標(biāo)檢測作為計(jì)算機(jī)視覺的一個(gè)研究熱點(diǎn),無錨點(diǎn)目標(biāo)檢測已逐漸成為其中的關(guān)鍵方法。借助無錨點(diǎn)目標(biāo)檢測模型處理圖像,解決生產(chǎn)生活中的實(shí)際問題,涉及遙感圖像處理、輔助醫(yī)學(xué)臨床診斷、智慧交通等其他多個(gè)領(lǐng)域。下面分不同領(lǐng)域來介紹無錨點(diǎn)目標(biāo)檢測的具體應(yīng)用情況。

      (1)遙感圖像分辨率高,圖像特征信息多種多樣。在部分圖像中只存在零星的物體,如果使用anchor-based 方法將存在大量的冗余anchor,且正負(fù)樣本極不平衡。由于目標(biāo)變化的尺度較大,難以統(tǒng)一調(diào)整anchor 的尺寸,anchor 回歸效率較低,有必要應(yīng)用anchor-free 檢測模型提高檢測效率。Liu 等將包圍盒編碼為矢量,在此基礎(chǔ)上提出包含方向信息的ProjectIoU 引導(dǎo)預(yù)測。設(shè)計(jì)一種組合損失函數(shù),其中ProjectIoU 監(jiān)督方向信息,GIoU 監(jiān)督尺寸信息。在檢測頭中使用TanhExp 替換激活函數(shù)提高檢測速度,進(jìn)一步影響無錨點(diǎn)檢測方法在遙感目標(biāo)檢測領(lǐng)域的應(yīng)用。蔣光峰等提出的RCNet使用中心關(guān)鍵點(diǎn)、旋轉(zhuǎn)角以及寬高表征遙感目標(biāo)。添加一個(gè)用于預(yù)測方向的分支,實(shí)現(xiàn)旋轉(zhuǎn)中心點(diǎn)估計(jì)。RCNet使用DLA34 主干網(wǎng)在保持66.68%檢測精度的同時(shí)實(shí)現(xiàn)了29.4 frame/s 的運(yùn)行速度,適合計(jì)算資源緊張同時(shí)對運(yùn)算時(shí)間有一定限制的平臺。

      (2)使用計(jì)算機(jī)視覺方法輔助醫(yī)學(xué)臨床診斷對疾病的早期診斷至關(guān)重要。??低暪咎岢龅腂MassDNet首次將FSAF結(jié)構(gòu)應(yīng)用于乳腺腫塊檢測中。乳腺腫塊的檢測困難主要在于腫塊的異質(zhì)性,使用特征提取網(wǎng)絡(luò)的最后兩層與底層特征結(jié)合,能夠檢測不同尺寸的腫塊。加入FSAF 模塊后,在靈敏度(true positive rate,TPR)基本持平的情況下,平均每張圖片的假陽性比例(false positive per image,F(xiàn)PPI)降低0.141。BMassDNet 減輕醫(yī)生的視覺疲勞同時(shí)有效提高檢測精度,推動深度學(xué)習(xí)應(yīng)用在醫(yī)學(xué)領(lǐng)域的發(fā)展。矩形包圍框在病理圖像旋轉(zhuǎn)時(shí)會發(fā)生角度變化,尤其在特定的醫(yī)學(xué)圖像如肺結(jié)節(jié)、腎小球的檢測方面,無錨點(diǎn)的目標(biāo)表示方法具有優(yōu)越性。CircleNet針對球形生物醫(yī)學(xué)目標(biāo)進(jìn)行優(yōu)化,使用圓形包圍框(bounding circle)來檢測目標(biāo)。與使用矩形包圍框(bounding box)需要學(xué)習(xí)寬高兩個(gè)維度相比,使用bounding circle 僅需學(xué)習(xí)半徑一個(gè)維度。表4 對比了不同表征目標(biāo)方法的旋轉(zhuǎn)一致性,旋轉(zhuǎn)一致性的計(jì)算方法是旋轉(zhuǎn)后交并比大于0.5 的bounding box/circle數(shù)量除以bounding box/circle的總數(shù)量。

      表4 旋轉(zhuǎn)一致性對比Table 4 Comparison of rotation consistency results

      實(shí)驗(yàn)結(jié)果表明,與矩形包圍盒相比,圓形的表示方法在自由度更小的情況下并沒有降低檢測效果,在采集的活檢掃描圖像數(shù)據(jù)集上平均檢測精度達(dá)到64.7%。

      (3)在智慧交通領(lǐng)域內(nèi),華南理工大學(xué)提出的CircleDet借助站臺門上方部署的攝像頭截取視頻檢測地鐵客流量。在俯拍視角的攝像頭中,人的頭部在大部分情況下表現(xiàn)為圓形,矩形包圍框的表示并不適用。使用圓形表征目標(biāo)降低了檢測難度,減少預(yù)測輸出,為設(shè)計(jì)更輕量的骨干網(wǎng)絡(luò)提供條件。作者在DLA(deep layer aggregation)網(wǎng)絡(luò)的特征圖深度聚合階段,將每個(gè)階段的深度削減為1,結(jié)合修剪通道數(shù)量設(shè)計(jì)輕量化網(wǎng)絡(luò)。CircleDet 在GPU 加速的情況下每幀檢測時(shí)間為9 ms,在邊緣設(shè)備僅依靠CPU 加速的情況下每幀檢測時(shí)間為130 ms,滿足實(shí)時(shí)性要求。

      7 總結(jié)與展望

      本文以基于深度學(xué)習(xí)的目標(biāo)檢測算法為背景,從anchor機(jī)制提出的背景和原理出發(fā),分別回顧優(yōu)化anchor 設(shè)置和基于無錨點(diǎn)(anchor-free)以及融合anchor-based/free 等方向的研究工作進(jìn)展,其中重點(diǎn)對比總結(jié)了anchor-free 方向的研究工作,從定性和定量兩個(gè)角度以列表形式總結(jié)?;阱^點(diǎn)機(jī)制在目標(biāo)檢測領(lǐng)域的發(fā)展現(xiàn)狀,未來可以開展的工作包括以下幾個(gè)方面:

      (1)anchor-free 目標(biāo)檢測的一個(gè)重要手段是關(guān)鍵點(diǎn)檢測,但在特殊場景的小目標(biāo)檢測中,關(guān)鍵點(diǎn)存在語義模糊性。例如遙感圖像中碼頭的密集船只,地鐵客流監(jiān)控系統(tǒng)中出行高峰時(shí)段的行人目標(biāo),存在分布稠密、相互重疊的問題,有待進(jìn)一步解決。

      (2)當(dāng)圖像的輸入尺寸過小時(shí),能檢測到的關(guān)鍵點(diǎn)數(shù)量有限;若圖像輸入尺寸大,將影響檢測速度,在主干網(wǎng)絡(luò)中使用輕量化卷積將成為新的研究熱點(diǎn)。卷積作為深度學(xué)習(xí)的構(gòu)成基礎(chǔ),將卷積輕量化可最大限度地提高網(wǎng)絡(luò)計(jì)算效率,減少卷積間的冗余計(jì)算量,使模型在相同識別精度下,卷積在參數(shù)量或計(jì)算量上占比有所下降,使得模型便于在移動式視覺終端上使用。

      (3)提出錨點(diǎn)機(jī)制的出發(fā)點(diǎn)是提供先驗(yàn)知識,解決目標(biāo)尺度變化大的問題。但anchor-based 發(fā)展的障礙也正是因?yàn)橄闰?yàn)知識并不能完全滿足多尺度檢測的需要,因此產(chǎn)生了anchor-free的研究方向。anchorbased 方法加入了人為先驗(yàn)分布,訓(xùn)練和回歸的值域變化范圍相對較小,anchor-free 擺脫先驗(yàn)知識的限制,導(dǎo)致其檢測結(jié)果不穩(wěn)定,需要設(shè)計(jì)更多的方法進(jìn)行優(yōu)化。

      (4)在形式上,組合多個(gè)關(guān)鍵點(diǎn)的anchor-free 模型實(shí)際上使用類似anchor的矩形框檢測,基于單個(gè)關(guān)鍵點(diǎn)的anchor-free 模型相當(dāng)于在每個(gè)位置上都有一個(gè)anchor,始終沒有真正打破anchor 的局限。值得一提的是,融合anchor-based 與anchor-free 的工作指出,正負(fù)樣本的定義才是兩類算法的本質(zhì)區(qū)別,標(biāo)簽分配成為連接兩類算法的橋梁,值得進(jìn)一步探索。

      猜你喜歡
      錨點(diǎn)關(guān)鍵點(diǎn)樣本
      聚焦金屬關(guān)鍵點(diǎn)
      肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
      基于NR覆蓋的NSA錨點(diǎn)優(yōu)選策略研究
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      5G手機(jī)無法在室分NSA站點(diǎn)駐留案例分析
      5G NSA錨點(diǎn)的選擇策略
      5G NSA組網(wǎng)下錨點(diǎn)站的選擇策略優(yōu)化
      移動通信(2020年5期)2020-06-08 15:39:51
      推動醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      乌兰浩特市| 友谊县| 湾仔区| 称多县| 珲春市| 广饶县| 搜索| 襄城县| 墨江| 揭东县| 上高县| 怀仁县| 察哈| 武乡县| 永登县| 缙云县| 黑龙江省| 江城| 常州市| 瓦房店市| 眉山市| 揭东县| 阳原县| 吴江市| 元阳县| 鸡泽县| 句容市| 晋州市| 渭源县| 林周县| 安吉县| 汪清县| 桦甸市| 勃利县| 青田县| 织金县| 蓬溪县| 雷波县| 攀枝花市| 中西区| 枞阳县|