李曉筱,胡曉光,王梓強(qiáng),杜卓群
1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京100038
2.中國人民公安大學(xué) 偵查學(xué)院,北京100038
深度學(xué)習(xí)誕生前,實(shí)現(xiàn)圖像中目標(biāo)檢測任務(wù)主要依賴于人工設(shè)計(jì)局部特征描述子,概括性強(qiáng)、抽象表達(dá)概括全局信息從而區(qū)分圖像的不同區(qū)域,經(jīng)典算法有HOG[1](Histogram of Oriented Gradient)、SIFT[2](Scale-Invariant Feature Transform)及LBP[3](Local Binary Patterns)等,但局部特征描述符的設(shè)計(jì)需要極強(qiáng)的領(lǐng)域?qū)I(yè)知識且耗費(fèi)人力。在深度學(xué)習(xí)的發(fā)展之下,借用深層次卷積神經(jīng)網(wǎng)絡(luò)可以從圖像中學(xué)習(xí)具有不同層次的特征表示方法,如何設(shè)計(jì)具有更好局部特征描述子的問題轉(zhuǎn)化為如何設(shè)計(jì)輕量網(wǎng)絡(luò)結(jié)構(gòu)和簡化訓(xùn)練過程,以實(shí)現(xiàn)精細(xì)任務(wù)。在計(jì)算機(jī)視覺的飛速發(fā)展之下,細(xì)化分類的計(jì)算機(jī)視覺技術(shù)可以分為分類、目標(biāo)檢測、語義分割、實(shí)例分割多個類別[4]。分類指的是預(yù)測目標(biāo)圖像中對象類別,目標(biāo)檢測在由粗至細(xì)的過程中不僅確定圖像中目標(biāo)的類別,同時以邊界框或者圖中心的形式標(biāo)明目標(biāo)所在圖像中具體位置。語義分割在此基礎(chǔ)上對目標(biāo)每個像素點(diǎn)標(biāo)簽預(yù)測,使每個像素按照其所在區(qū)域或?qū)ο蠓诸悩?biāo)記,得到更精細(xì)分割結(jié)果。實(shí)例分割的概念最早由Hariharan等人[5]提出,旨在對同類對象組不同個體提供不同標(biāo)簽,整個過程中相同含義像素被賦予相同標(biāo)簽,在實(shí)現(xiàn)目標(biāo)檢測任務(wù)時解決語義分割問題。
隨著深度學(xué)習(xí)[6]及卷積神經(jīng)網(wǎng)絡(luò)[7]的出現(xiàn),許多實(shí)例分割框架被提出。實(shí)例分割廣泛應(yīng)用于無人駕駛、醫(yī)學(xué)影像分析、安全防控、工業(yè)分揀等領(lǐng)域,可靠、迅速提取圖像關(guān)鍵信息,準(zhǔn)確、精細(xì)分割的結(jié)果為后續(xù)視覺處理提供便利。分割精度體現(xiàn)在精確定位及識別框架,在內(nèi)外條件變化的實(shí)際場景中保持較高魯棒性;保持較高精度的同時降低算法計(jì)算量是實(shí)例分割的開發(fā)思想。目標(biāo)分割根據(jù)階段分類可分為基于候選區(qū)域的雙階段檢測及基于一體化卷積網(wǎng)絡(luò)的單階段檢測器,前者的準(zhǔn)確率高、檢測精度高,但后者檢測運(yùn)行速度快。受單雙階段目標(biāo)檢測啟發(fā),實(shí)例分割也存在單階段實(shí)例分割及雙階段實(shí)例分割。兩類實(shí)例分割方法適用于不同的場景,近期實(shí)例分割取得很大進(jìn)展,基于Faster R-CNN發(fā)展而來的Mask R-CNN實(shí)例分割網(wǎng)絡(luò)使用掩碼分割、包圍框回歸、對象分類三支線并行,是一種直接有效的實(shí)例分割方法,以其網(wǎng)絡(luò)的高精度和穩(wěn)定性成為雙階段實(shí)例分割網(wǎng)絡(luò)的標(biāo)桿;單階段實(shí)例分割網(wǎng)絡(luò)YOLACT 的出現(xiàn)標(biāo)志實(shí)時性實(shí)例分割的開端,以較小的精度損失獲取高效的處理能力。但目前而言實(shí)例分割方法缺乏相關(guān)綜述性文章。本文將以近兩年計(jì)算機(jī)視覺會議為主,闡述主流實(shí)例分割網(wǎng)絡(luò)結(jié)構(gòu)及應(yīng)用,并介紹常用評價(jià)指標(biāo)及數(shù)據(jù)庫,對未來可能發(fā)展進(jìn)行展望。
圖1 FCIS網(wǎng)絡(luò)結(jié)構(gòu)
傳統(tǒng)語義分割網(wǎng)絡(luò)使用采用交叉熵并結(jié)合標(biāo)簽進(jìn)行端到端訓(xùn)練,無法實(shí)現(xiàn)同一像素在不同區(qū)域具有不同語義的實(shí)例分割任務(wù)。FCIS[8]提出一種端到端完全卷積的實(shí)例分割方法,它沿用了實(shí)例感知全卷積網(wǎng)絡(luò)[9](Instance-sensitive fully convolutional networks)中位置感知特征圖(Position-sensitive Score Map)概念,在輸入圖片中卷積生成k×k組位置感知特征圖;特征感知特征圖表示像素在不同感興趣區(qū)域(Regions of Interest,RoI)的位置特征表示,綜合像素在每個感興趣區(qū)域的得分衡量像素屬于對象實(shí)例的可能性。
為了增加分割、檢測子任務(wù)的聯(lián)系性,F(xiàn)CIS在位置感知特征圖基礎(chǔ)上提出內(nèi)部分?jǐn)?shù)和外部分?jǐn)?shù)。在分割任務(wù)中,直接使用Softmax 判別函數(shù)對像素分類,感興趣區(qū)域?qū)γ總€像素分?jǐn)?shù)集合;在檢測任務(wù)中,先對每類位置特征感知特征圖逐像素使用Max 函數(shù)分類,匯集所有像素可能性后使用Softmax 判別函數(shù)獲得整個區(qū)域預(yù)測分?jǐn)?shù)。兩類位置特征感知圖的提出將分割和檢測的子任務(wù)緊密結(jié)合,使用較簡潔、直觀的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)任務(wù)。
對于整個FCIS框架(如圖1),圖像輸入只保留卷積層的ResNet 進(jìn)行卷積操作獲得初步特征,特征經(jīng)過區(qū)域建議網(wǎng)絡(luò)得到感興趣區(qū)域同時經(jīng)過卷積層生成特征圖。結(jié)合位置特征感受的過程實(shí)現(xiàn)分割和檢測的子任務(wù)。FCIS 建立了一個完全拋棄全連接層的輕量級網(wǎng)絡(luò),設(shè)計(jì)的位置特征感知圖架構(gòu)使圖像分割和圖像分類可以共享特征圖,整個網(wǎng)絡(luò)計(jì)算量小、更加輕量。
FCIS 作為實(shí)例分割早期模型,提供了一種實(shí)例分割任務(wù)的解決方案,但就結(jié)果來看,在重疊的實(shí)例上FCIS 出現(xiàn)系統(tǒng)性的檢測錯誤,并產(chǎn)生了虛假邊緣[10],如圖2所示。
圖2 實(shí)例重疊時FCIS檢測產(chǎn)生虛假邊緣
Mask R-CNN[10]是目標(biāo)檢測網(wǎng)絡(luò)Fast R-CNN[11]、Faster R-CNN[12]發(fā)展而來的實(shí)例分割網(wǎng)絡(luò),通過在邊界框識別分支的基礎(chǔ)上增加預(yù)測目標(biāo)掩碼的分支,有效檢測目標(biāo)對象的同時,對每個實(shí)例生成高質(zhì)量的分割掩模。
傳統(tǒng)特征提取操作中,系列卷積獲得的特征圖經(jīng)過上采樣尺寸過大,無法實(shí)現(xiàn)對小目標(biāo)的檢測。主干網(wǎng)絡(luò)部分,Mask R-CNN 采用特征金字塔網(wǎng)絡(luò)[13](Feature Pyramid Networks,F(xiàn)PN)和ResNet101 網(wǎng)絡(luò)結(jié)合,在原始特征金字塔網(wǎng)絡(luò)自上而下特征中加入3×3 卷積進(jìn)一步提取特征。抽象但語義更強(qiáng)的特征圖上采樣并橫向連接至分辨率更高的底層特征圖,保證空間尺寸相同的情況下,融合后特征圖更好的定位,主干網(wǎng)絡(luò)的選擇實(shí)現(xiàn)信息豐富、特征加強(qiáng)。
Mask R-CNN 使用輕量的區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)獲取感興趣區(qū)域,對每塊掃描獲得的瞄(anchor-box)輸出前景或背景的類別,并同時評估輸出精細(xì)調(diào)整前景瞄框與目標(biāo)中心位置關(guān)系;在多個瞄框重疊的情況下使用非極大值抑制(Non-Maximum Suppression,NMS)選擇前景分?jǐn)?shù)最高瞄框,最終輸出圖片內(nèi)最佳的區(qū)域建議。
Mask R-CNN提出RoIAlign操作,使用雙線性插值的方法計(jì)算每個感興趣區(qū)域采樣點(diǎn)輸入特征值,避免邊界量化的同屬保證提取特征與輸入對齊。訓(xùn)練中Mask R-CNN提出多任務(wù)損失函數(shù)L:
式(1)中Lbox衡量目標(biāo)分類損失值,Lcls衡量目標(biāo)檢測損失,Lmask衡量實(shí)例分割損失。
由于Mask R-CNN 具有較強(qiáng)的分割精度,Zimmermann 等[14]受人工設(shè)計(jì)分割算子的啟發(fā),提出在原有Mask R-CNN 基礎(chǔ)上增加邊緣分支以增強(qiáng)網(wǎng)絡(luò)對邊緣檢測的精度,在速度基本不變的情況下網(wǎng)絡(luò)精度提升1.8%;Huang[15]等將金字塔注意力網(wǎng)絡(luò)(PAN)作為Mask R-CNN 的骨干網(wǎng)絡(luò),以統(tǒng)一的方式從自然場景圖像中檢測出多方向和彎曲的文本,該方法能有效地抑制文本類背景引起的誤報(bào)警,在多項(xiàng)文本檢測基準(zhǔn)任務(wù)上取得了優(yōu)異的性能。
Mask R-CNN中,掩碼分支最終輸出由分類分支最高置信度決定,但分類分支置信度與掩碼的相關(guān)度很低,依據(jù)分類分支確定的掩碼并不是最佳選擇,導(dǎo)致衡量算法掩碼部分分值降低。針對此問題,Mask Scoring R-CNN[16]設(shè)計(jì)一種掩碼評價(jià)策略Mask IoU衡量真實(shí)掩碼與預(yù)測掩碼差異,同時引入網(wǎng)絡(luò)分支Mask IoU Head對評價(jià)進(jìn)行訓(xùn)練。掩碼評價(jià)策略用Smask表示:
其中,Scls表示目標(biāo)分類分?jǐn)?shù),SIoU表示交并比分?jǐn)?shù)。Mask Scoring R-CNN提出的掩碼評價(jià)策略相比之前的評價(jià)對目標(biāo)分類及掩碼分割更敏感,從而校準(zhǔn)了掩碼質(zhì)量和掩碼得分之間的偏差,提升分割性能;且網(wǎng)絡(luò)穩(wěn)定性能高,為后續(xù)實(shí)例分割評價(jià)工作的進(jìn)一步發(fā)展提供可能方向。
較高級別的特征對應(yīng)于較大的感受野,并且可以更好地捕捉關(guān)于姿勢等實(shí)例的整體信息,而較低級別的特征保存更好的位置信息,并且可以提供更精細(xì)的細(xì)節(jié)。BlendMask[17]提出一種基于提議的實(shí)例掩碼預(yù)測的方法,稱為blender,它結(jié)合了豐富的實(shí)例級信息和精確的密集像素特征,在與目標(biāo)檢測框架結(jié)合的過程中,以較小的計(jì)算提高檢測準(zhǔn)確性。
網(wǎng)絡(luò)結(jié)構(gòu)方面,BlendMask由一個檢測器網(wǎng)絡(luò)和一個掩碼分支組成。掩碼分支有三個部分,其中底部模塊用于預(yù)測評分圖,模塊的輸入可以是語義分割網(wǎng)絡(luò)的主干特征,或特征金字塔;頂層模塊attention map 獲取粗略的實(shí)例信息,包括對象形狀及位置;Blender module模塊用于合并評分和關(guān)注度,它根據(jù)關(guān)注度結(jié)合位置感知生成最終預(yù)測。與典型分辨率為28×28 的掩碼版相比,混合掩碼具有靈活性,提供了詳細(xì)的實(shí)例級信息,獲取位置感知信息并抑制外部區(qū)域。在輸出高分辨率掩膜的同時可以適用于實(shí)時性任務(wù)。
在YOLACT[18]誕生前,精度較高的實(shí)例分割網(wǎng)絡(luò)是基于雙階段目標(biāo)檢測提出的,但雙階段方式掩碼的生成依賴于目標(biāo)定位,例如Mask R-CNN使用RoIAlign從邊界框中獲取特征,并將局部化特征輸入到掩碼生成模塊,這樣依序處理的方式使得雙階段實(shí)例分割方式雖然精度高,但處理速度慢。受單階段目標(biāo)檢測算法SSD[19]、YOLO[20]等實(shí)時性強(qiáng)的啟發(fā),YOLACT將實(shí)例分割分解為兩個并行的任務(wù):生成整個輸入圖像的掩碼組合、預(yù)測每個實(shí)例掩碼系數(shù)并將相應(yīng)預(yù)測系數(shù)與全圖組合;在不需要依序處理(repooling)的情況下,YOLACT網(wǎng)絡(luò)速度達(dá)到30 frame/s(每秒幀數(shù))以上,產(chǎn)生高精度掩碼的同時可以實(shí)現(xiàn)實(shí)時性的實(shí)例分割。
主干網(wǎng)絡(luò)部分,YOLACT 沿用單階段目標(biāo)檢測網(wǎng)絡(luò)RetinaNet 結(jié)構(gòu),使用RestNet101 與特征金字塔網(wǎng)絡(luò)結(jié)合,其中,特征金字塔網(wǎng)絡(luò)部分由P3至P7構(gòu)成,P3至P5層由ResNet對應(yīng)C3至C5層計(jì)算獲取。P3層保留更深層次圖像特征輸入全圖掩碼分支(Protonet),通過全卷積神經(jīng)網(wǎng)絡(luò)將最后一層保留k個通道,處理后變?yōu)樵瓐D1/4 大小,獲取全圖預(yù)測的k個掩碼組合。全圖掩碼分支監(jiān)督來自最終掩碼損失,在獲得高質(zhì)量掩碼的情況下對小目標(biāo)分割體現(xiàn)更好的分割效果,如圖3。
掩碼系數(shù)部分,YOLACT在基于錨點(diǎn)(anchor)目標(biāo)檢測基礎(chǔ)上,對應(yīng)全局掩碼分支增加第三個分支預(yù)測k個掩碼系數(shù);共包含預(yù)測分類置信度分支、預(yù)測邊框分支、掩碼系數(shù)預(yù)測分支,對每個瞄點(diǎn)產(chǎn)生4+c+k個系數(shù)。全圖掩碼和掩碼系數(shù)采用線性組合的方式:
其中,P表示全圖掩碼矩陣h×w×k,C表示經(jīng)非極大值抑制和得分閾值篩選后的掩碼系數(shù)矩陣n×k。
在提升網(wǎng)絡(luò)速度方面,YOLACT 提出一種快速非極大值抑制方法(Fast NMS)。傳統(tǒng)目標(biāo)檢測網(wǎng)絡(luò)中,在為每個錨點(diǎn)產(chǎn)生邊界回歸和類別置信度后使用非極大值抑制降低重復(fù)檢測,但按順序執(zhí)行的方法受速度限制,快速非極大值抑制方法并行排序矩陣計(jì)算,并保留確定剔除的檢測框?qū)ζ渌虻挠绊?。在Mask R-CNN中僅替換非極大值抑制方法,就提速15.0 ms,且性能損失僅為0.3 mAP,快速非極大值抑制方法在網(wǎng)絡(luò)性能損失較小的情況下,實(shí)現(xiàn)了網(wǎng)絡(luò)提速的飛躍。
YOLACT 雖然在測試過程中也存在目標(biāo)場景復(fù)雜時無法準(zhǔn)確定位、相距較遠(yuǎn)兩個實(shí)例間掩碼重疊的問題,但輕量且精度較高的網(wǎng)絡(luò)為實(shí)時實(shí)例分割網(wǎng)絡(luò)提供了參考。改進(jìn)方面,Lee 等[21]提出了一種將混合精度量化技術(shù)應(yīng)用于YOLACT 網(wǎng)絡(luò)的方法,根據(jù)YOLACT 中的參數(shù)大小和對模塊精度的影響自適應(yīng)量化,在盡可能保持精度的同時顯著地減小網(wǎng)絡(luò)規(guī)模,在精度損失小于0.1%的情況下整個網(wǎng)絡(luò)的參數(shù)尺寸減小75.4%;Liu等[22]提出一種實(shí)時實(shí)例分割YolactEdge。對基于圖像的實(shí)時方法YOLACT 進(jìn)行了兩個改進(jìn):(1)TensorRT 優(yōu)化,同時考慮了速度和精度;(2)提出新的特征扭曲模塊。實(shí)驗(yàn)表明,YolactEdge 在保證掩碼精度同時,速度提升3~5倍。
圖3 YOLACT網(wǎng)絡(luò)結(jié)構(gòu)
針對YOLACT 實(shí)時性強(qiáng)但精度稍差的問題,YOLACT++[23]被提出;它沿用YOLACT 生成整個輸入圖像的掩碼組合、預(yù)測每個實(shí)例掩碼系數(shù)并將相應(yīng)預(yù)測系數(shù)與全圖組合的設(shè)計(jì),保持原有網(wǎng)絡(luò)架構(gòu)的大部分結(jié)構(gòu),從主干網(wǎng)絡(luò)、瞄框選擇、掩碼評估改進(jìn)等方面對原有結(jié)構(gòu)進(jìn)行優(yōu)化。主干網(wǎng)絡(luò)方面,YOLACT++加入可變性空間卷積(Deformable Convolution with Intervals),提升對長寬比、尺度、角度不同目標(biāo)的處理能力,衡量精度和處理速度的可變性空間卷積使網(wǎng)絡(luò)耗時增加2.8 ms的情況下,mAP 提升1.6。瞄框選擇方面,YOLACT++嘗試兩種變形方法:保持尺度不變增加長寬比以及保持長寬比不變增加每層尺寸的比例;掩碼評估方面,YOLACT++參考Mask Scoring R-CNN的評價(jià)思想,加入快速掩碼重評分分支(Fast Mask Re-Scoring Network),截取全局掩碼預(yù)測結(jié)果輸入卷積層提取特征,并將全局池化輸出的交并比與目標(biāo)分類分?jǐn)?shù)相乘作為最終評分??焖傺诖a重評分分支校準(zhǔn)了掩碼質(zhì)量和掩碼得分之間的偏差,且保持了網(wǎng)絡(luò)速度,如圖4。
圖4 快速掩碼重評分分支
PolarMask[24]是一種全卷積、無錨框的單階段實(shí)例分割算法,它將實(shí)例分割問題轉(zhuǎn)化為極坐標(biāo)下選取實(shí)例中心并進(jìn)行分類及密集回歸預(yù)測目標(biāo)實(shí)例輪廓的問題:輸入整幅圖像后,PolarMask 通過預(yù)測每個角度上采樣的正位置確定目標(biāo)實(shí)例中心,并預(yù)測目標(biāo)實(shí)例中心到實(shí)例輪廓的距離,組裝后輸出掩碼。圖5表示了不同掩碼表示方法,(b)表示了像素到像素預(yù)測網(wǎng)絡(luò)的掩碼表示方法,例如Mask R-CNN,雖然精確度高但耗時較長;(c)表示笛卡爾坐標(biāo)系的掩碼表示方法,坐標(biāo)原點(diǎn)表示目標(biāo)實(shí)例中心,輪廓線由距離和角度決定;(d)表示極坐標(biāo)系下掩碼表示方法,在兼?zhèn)涞芽栕鴺?biāo)系以目標(biāo)中心為原點(diǎn)、距離角度確定輪廓線的基礎(chǔ)上,角度具有很強(qiáng)方向性,對于確定外輪廓來說較為方便。
圖5 不同掩碼表示方法
為了獲得更簡潔的網(wǎng)絡(luò)結(jié)構(gòu),PolarMask 嵌入單階段目標(biāo)檢測方法FCOS[25]。主干網(wǎng)絡(luò)部分,PolarMask保持了與FCOS一樣的主干+特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)用于提取不同層次豐富特征;分支部分,PolarMask引入掩碼回歸分支替代FCOS中檢測框分支,以圖片輸入網(wǎng)絡(luò)確定的實(shí)例中心為原點(diǎn),間隔△θ角度均勻發(fā)射n條射線,輪廓與中心的距離決定射線長短,其中△θ為10°,n為36;由于角度預(yù)設(shè)定,只需預(yù)測射線長度。
在實(shí)例中心選擇上,PolarMask以目標(biāo)質(zhì)心為基礎(chǔ),將質(zhì)心周圍9~16 個像素作為實(shí)例候選中心的正樣本,引入極軸中心度(Polar Centerness)分支選擇目標(biāo)極坐標(biāo)中心,降低正負(fù)樣本的不平衡性。定義每個實(shí)例中n條射線長度分別為{d1,d2,…,dn} ,則有:
極軸中心度分支與分類分支并行,在對極軸中心加權(quán)過程中,依據(jù)式(4),射線長度均衡的中心會被賦予更高權(quán)重。
在交并比損失方面,PolarMask 引入極坐標(biāo)下交并比損失計(jì)算方法(Polar IoU Loss),預(yù)測掩模與真實(shí)值之間的交互面積與加和面積之比。交并比公式定義為式(5),其中d表示回歸目標(biāo)射線長度,d*表示預(yù)測射線長度,夾角為θ;式(5)經(jīng)離散化和簡化操作,最終定義交并比損失函數(shù)為式(6):
PolarMask提出一種將掩碼表示轉(zhuǎn)化為掩碼輪廓表示的方法,使用極坐標(biāo)和射線的方式模擬輪廓,雖然最終精度稍差于主流實(shí)例分割算法,但對于掩碼輪廓的設(shè)計(jì)提供了全新的思路。改進(jìn)方面,對于PolarMask掩膜分割邊緣模糊的問題,張緒義等[26]通過對輪廓點(diǎn)角度的偏置及距離預(yù)測,并加入語義分割子網(wǎng)絡(luò)精細(xì)邊緣,測試分割結(jié)果比原方法提升2.1%。
CenterMask[27]是一種單階段無瞄框?qū)嵗指罘椒?,在單階段目標(biāo)檢測方法FCOS的基礎(chǔ)上,提出新的空間注意力引導(dǎo)掩碼分支(SAG-Mask)。SAG-Mask 分支從FCOS 檢測中獲取目標(biāo)預(yù)測框,以預(yù)測每個感興趣區(qū)域上的分割掩碼;同時空間注意力模塊(SAM)有助于分支聚焦于有意義的像素并抑制無意義的像素。
針對Mask R-CNN 中RoIAlign 不考慮輸入尺度比例的缺陷,CenterMask 引入尺度自適應(yīng)區(qū)域分配函數(shù)(Scale-adaptive RoI assignment function),在為掩碼預(yù)測提取感興趣區(qū)域的特征時,考慮感興趣區(qū)域比例。
主干網(wǎng)絡(luò)方面,CenterMask 在VoVNet[28]的基礎(chǔ)上改進(jìn),提出高效的主干網(wǎng)絡(luò)VoVNetV2,以進(jìn)一步提高中心掩碼的性能。由于單次聚合(OSA)模塊有效捕捉不同的感受野的特性,原有的VoVNet 網(wǎng)絡(luò)可以有效進(jìn)行多樣化特征表示;但在網(wǎng)絡(luò)深度增加的情況下,由于conv 等變換函數(shù)的增加,堆疊OSA 模塊使得梯度的反向傳播逐漸困難。因此CenterMask在VoVNet中增加了殘差連接和eSE 模塊。殘差連接中,輸入路徑連接到OSA 模塊的末端,OSA 模塊能夠以端到端的方式在每個級上反向傳播模塊梯度,擴(kuò)大主干網(wǎng)絡(luò)深度;針對SE模塊降維導(dǎo)致的信道信息丟失問題,eSE使用一個具有C 通道的全連接層(fully-connected layer)保持信道信息,從而提高了性能。
實(shí)例分割解決不同實(shí)例個體像素分割的問題,為了提高網(wǎng)絡(luò)對復(fù)雜場景的理解能力,需要高清晰度、數(shù)量規(guī)模龐大的數(shù)據(jù)庫作為支撐。在實(shí)例分割網(wǎng)絡(luò)飛速發(fā)展的同時,一些為網(wǎng)絡(luò)性能提供訓(xùn)練驗(yàn)證的公開數(shù)據(jù)集出現(xiàn),為網(wǎng)絡(luò)模型的測試結(jié)果提供基準(zhǔn)。
Cityscapes[29]數(shù)據(jù)集著重于對城市街道場景的理解,主要包含城市街道場景圖像,按照與城市場景相關(guān)性(車輛、天空、地面等)將30 個目標(biāo)類別分為8 類數(shù)據(jù)集。數(shù)據(jù)集包含約5 000 張帶有精細(xì)注釋的圖像和20 000 張帶有粗略注釋的圖像,提供語義、實(shí)例注釋。Cityscapes 在天氣情況穩(wěn)定良好的時間內(nèi)采集了50 個城市圖像;但由于視頻記錄的形式,在使用數(shù)據(jù)集前需要人工選擇視頻幀數(shù),獲取所需不同場景下具有較多目標(biāo)類別的標(biāo)注圖像。
MS COCO[30](Microsoft Common Objects in Context)數(shù)據(jù)集是微軟公司于2014 年公布的數(shù)據(jù)集,主要包含日常復(fù)雜生活場景照片,超過328 000 張照片中包括91 種常見物體類型(80 個可分類別)及250 萬個標(biāo)注實(shí)例,其中82種每種有超過5 000個標(biāo)注實(shí)例。基于龐大、可靠的數(shù)據(jù)量,以COCO 數(shù)據(jù)集為基準(zhǔn)的檢測挑戰(zhàn)賽是目前目標(biāo)檢測、實(shí)例分割領(lǐng)域的標(biāo)桿。檢測挑戰(zhàn)賽包含超過80 個可分通用場景物體,訓(xùn)練圖像及測試圖像超過80 000張、驗(yàn)證圖像超過40 000張。測試圖像包括用于驗(yàn)證及調(diào)試的測試圖像集test-dev、用于不同比賽和最新技術(shù)的測試圖像集test-standard、提交服務(wù)器的測試挑戰(zhàn)圖像集test-challenge 及避免過擬合的預(yù)留測試圖像集test-reserve。
Mapillary Vistas[31]數(shù)據(jù)集著重于大規(guī)模街道圖像,主要針對語義分割和實(shí)例分割任務(wù)。數(shù)據(jù)集包含25 000 幅高分辨率圖像和66 個目標(biāo)類別,其中37 個類別使用多邊形細(xì)致標(biāo)注單個實(shí)例,細(xì)致標(biāo)注總量是Cityscapes 的5 倍,可用于實(shí)例分割。圖像由不同經(jīng)驗(yàn)的攝影師使用多種成像設(shè)備(手機(jī)、平板電腦、動作相機(jī)、專業(yè)拍攝平臺)拍攝,拍攝場景來自多變天氣、季節(jié)的世界各地,保證了數(shù)據(jù)集圖像細(xì)節(jié)和地理范圍的多樣性,豐富數(shù)據(jù)集為視覺道路場景理解提供了發(fā)展基礎(chǔ)。LVIS[32](Large Vocabulary Instance Segmentation)是Facebook AI research于2019年公布的數(shù)據(jù)集。目前實(shí)例分割訓(xùn)練建立在目標(biāo)類別少、單類樣本充分的數(shù)據(jù)集中,但實(shí)際應(yīng)用場景下存在大量單類樣本不足的目標(biāo)類別,針對小樣本訓(xùn)練,LVIS 收集164 000 張圖像,對1 000 多個對象類別標(biāo)注獲得220 萬個高質(zhì)量的實(shí)例分割掩碼,構(gòu)建大型詞匯實(shí)例分割數(shù)據(jù)集。相比于COCO數(shù)據(jù)集,LVIS 人工標(biāo)注掩碼具有更大的重疊面積和更好的邊界連續(xù)性,更加精確的掩碼保證有較長的分類尾的情況下依然保持很好的訓(xùn)練效果。
公開大型數(shù)據(jù)集的產(chǎn)生為實(shí)例分割提供了網(wǎng)絡(luò)性能評價(jià)的標(biāo)準(zhǔn),依賴于網(wǎng)絡(luò)適用場景的不同,指標(biāo)常從網(wǎng)絡(luò)執(zhí)行時間、運(yùn)行內(nèi)存占用、算法精度等多個方面考慮。其中執(zhí)行時間的提出針對于近年來發(fā)展迅速的實(shí)時性網(wǎng)絡(luò),算法精度因?yàn)榭陀^性和準(zhǔn)確性依然是實(shí)例分割主流的評價(jià)指標(biāo)。目前算法精度評價(jià)指標(biāo)主要有PA[33](Pixel Accuracy)、mPA[33](Mean Pixel Accuracy)、IoU[33](Intersection over Union)及mIoU[33](Mean Intersection over Union)。其中,PA表示總像素與預(yù)測正確像素之比,mPA表示每類預(yù)測正確的像素總數(shù)與每類別總數(shù)之比求和的均值,IoU表示預(yù)測圖像掩碼和真實(shí)掩碼交集與兩部分和的比率,mIoU 表示每個類別IoU 求和的均值。
在實(shí)例分割過程中總計(jì)k+1 個分類,表示為{L0,L1,…,LK},且包含背景類別1。則評價(jià)指標(biāo)公式如下:
Pii表示實(shí)際類別與像素預(yù)測類別都為i的數(shù)目,Pij表示實(shí)際類別為i的像素預(yù)測類別為j的數(shù)目,Pji表示實(shí)際類別為j預(yù)測類別為i的數(shù)目。
本文所述主要實(shí)例分割網(wǎng)絡(luò)在MS COCO 數(shù)據(jù)集上測試性能如表1 所示,其中FPS 指每秒幀數(shù)(frames per second)。
表1 網(wǎng)絡(luò)性能比較
由表1 可知,在現(xiàn)有的龐大數(shù)據(jù)集支撐下,為增加精度,以Mask R-CNN為代表的雙階段網(wǎng)絡(luò)增加全卷積分支、使用特征金字塔網(wǎng)絡(luò)增加主干網(wǎng)絡(luò)不同層次信息融合,利用不同卷積層特性增加網(wǎng)絡(luò)分辨率加強(qiáng)小目標(biāo)檢測效果;以Mask Scoring R-CNN 為代表的網(wǎng)絡(luò)增加掩碼質(zhì)量評價(jià)分支,通過對掩碼質(zhì)量和分類結(jié)果的綜合評價(jià)實(shí)現(xiàn)精度提升;以BlendMask為代表的網(wǎng)絡(luò)結(jié)合了豐富實(shí)例信息和密集像素特征,以較小的計(jì)算保證實(shí)時性的同時提高檢測準(zhǔn)確性。
以YOLACT為代表的單階段網(wǎng)絡(luò)參考單階段目標(biāo)檢測網(wǎng)絡(luò),使用主干網(wǎng)絡(luò)構(gòu)建特征金字塔網(wǎng)絡(luò)獲取不同卷積層網(wǎng)絡(luò)信息,融合全局掩碼與掩碼系數(shù)分支并改進(jìn)非極大值抑制方法,實(shí)現(xiàn)網(wǎng)絡(luò)實(shí)時性;以YOLACT++為代表的單階段網(wǎng)絡(luò)加入可變性空間卷積以適應(yīng)不同尺度物體分割檢測任務(wù),并加入掩碼評分分支校準(zhǔn)掩碼得分實(shí)現(xiàn)網(wǎng)絡(luò)精度的提升;以PolarMask 為代表的單階段網(wǎng)絡(luò)將實(shí)例分割問題轉(zhuǎn)化為極坐標(biāo)下選取實(shí)例中心并進(jìn)行分類及密集回歸預(yù)測目標(biāo)實(shí)例輪廓的問題,為掩碼表示方法提供新的思路。
基于以上分析可知,單雙階段實(shí)例分割網(wǎng)絡(luò)選用輕量高效網(wǎng)絡(luò)并追求特征表達(dá)穩(wěn)定,但同時又具有不同的特性。雙階段實(shí)例分割網(wǎng)絡(luò)比單階段實(shí)例分割網(wǎng)絡(luò)具有更高的精度,主流的雙階段網(wǎng)絡(luò)框架靈活,在小目標(biāo)檢測效果上體現(xiàn)出優(yōu)勢;但同時由于分類和分割任務(wù)的時序性,雙階段網(wǎng)絡(luò)在實(shí)時任務(wù)上表現(xiàn)稍差。單階段實(shí)例分割網(wǎng)絡(luò)較少使用全卷積網(wǎng)絡(luò)分支,且去掉基于區(qū)域的時序步驟,整個網(wǎng)絡(luò)呈現(xiàn)輕量化的狀態(tài),網(wǎng)絡(luò)實(shí)時性強(qiáng)可用于實(shí)時場景實(shí)例分割檢測任務(wù);但同時對于小目標(biāo)的檢測效果稍差。目前實(shí)例分割網(wǎng)絡(luò)改進(jìn)主要從以下幾方面展開:(1)主干網(wǎng)絡(luò)的選擇更換。主干網(wǎng)絡(luò)實(shí)現(xiàn)圖像特征提取,是實(shí)例分割網(wǎng)絡(luò)的重要組成部分;以ResNet 為代表的網(wǎng)絡(luò)解決了網(wǎng)絡(luò)深度增加帶來的梯度爆炸問題,目前ResNet V2[34]、ResNeXt[35]等也可以應(yīng)用到實(shí)例分割主干網(wǎng)絡(luò)部分,實(shí)現(xiàn)較小計(jì)算量下的網(wǎng)絡(luò)特征提取。(2)目標(biāo)特征穩(wěn)定表達(dá)。實(shí)例分割網(wǎng)絡(luò)引入特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),將不同卷積層信息融合,解決同張圖像中不同尺寸目標(biāo)處理問題,獲取不同分辨率以提高小目標(biāo)的處理能力;加入可變性空間卷積解決角度變換、圖像長寬比變換的問題。(3)掩碼評分分支引入。在網(wǎng)絡(luò)結(jié)構(gòu)中增加掩碼評價(jià)分支,校準(zhǔn)預(yù)測掩碼質(zhì)量和得分偏差,提升網(wǎng)絡(luò)精度。
基于深度學(xué)習(xí)的實(shí)例分割是計(jì)算機(jī)視覺領(lǐng)域的重要發(fā)展方向,快速處理數(shù)據(jù)并主動學(xué)習(xí)使得不斷更新的網(wǎng)絡(luò)朝著輕量、實(shí)時、精度高的方向邁進(jìn),在保持精度和運(yùn)行速度的同時付出最小訓(xùn)練代價(jià)、實(shí)現(xiàn)端到端處理并落地于實(shí)際應(yīng)用。在目標(biāo)檢測和語義分割發(fā)展促進(jìn)下,實(shí)例分割作為計(jì)算機(jī)視覺領(lǐng)域的新任務(wù)取得一定成果,但仍然存在許多挑戰(zhàn):
(1)小樣本任務(wù)。日常生活場景中存在大量單類樣本不足的目標(biāo),在樣本量不足的情況下難以獲得較好的訓(xùn)練效果;小樣本學(xué)習(xí)旨在樣本不足的情況下對新樣本進(jìn)行有效分割。最早的距離度量學(xué)習(xí)模型是孿生網(wǎng)絡(luò),直接匹配學(xué)習(xí)樣本相似;更新的方法指利用元學(xué)習(xí)思路,學(xué)習(xí)結(jié)束的元分類器在新任務(wù)上僅微調(diào)參數(shù)即可實(shí)現(xiàn)分類任務(wù)。但目前小樣本目標(biāo)檢測存在樣本類增多識別精度迅速下降等問題,實(shí)例分割領(lǐng)域的小樣本任務(wù)仍然存在空白。
(2)實(shí)時性場景任務(wù)。在無人駕駛、生物識別等實(shí)用場景下,保證實(shí)時性的同時要求網(wǎng)絡(luò)達(dá)到良好精度。YOLACT及YOLACT++標(biāo)志著實(shí)時實(shí)例分割任務(wù)成為可能,多分支網(wǎng)絡(luò)及輕量化的網(wǎng)絡(luò)結(jié)構(gòu)提升網(wǎng)絡(luò)速度,但相對于其他主流實(shí)例分割網(wǎng)絡(luò)精度有所下降。
(3)三維實(shí)例分割。相比于二維圖像實(shí)例分割,三維實(shí)例分割是解決端到端的分割問題,直接將點(diǎn)云作為輸入。PointNet[36]保持輸入點(diǎn)排列不變性,實(shí)現(xiàn)對三維點(diǎn)云的直接處理,為對象分類、部分分割到場景語義解析的應(yīng)用提供了統(tǒng)一的體系結(jié)構(gòu)。