萬新軍,周逸云,沈鳴飛,周濤,胡伏原*
1. 蘇州科技大學(xué)電子與信息工程學(xué)院,蘇州 215009; 2. 蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,蘇州 215009; 3. 北方民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川 750021
實(shí)例分割(王子愉 等,2019)是圖像及視頻場景理解的基礎(chǔ)任務(wù),精確的實(shí)例分割在自動(dòng)駕駛(Zhou等,2020)、醫(yī)學(xué)影像分割(林成創(chuàng) 等,2020)和視頻監(jiān)控(黃澤濤 等,2021)等實(shí)際場景中具有廣泛應(yīng)用。隨著深度卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,實(shí)例分割技術(shù)取得顯著進(jìn)展,主要包括單階段實(shí)例分割方法和兩階段實(shí)例分割方法。
單階段實(shí)例分割方法形式多樣。YOLACT(you only look at coefficients)(Bolya等,2019)為每個(gè)實(shí)例預(yù)測一組原型掩膜和掩膜系數(shù),并通過矩陣乘法組合;PolarMask(Xie等,2020)利用實(shí)例中心點(diǎn)分類和密集距離回歸,基于極坐標(biāo)系對(duì)實(shí)例掩膜進(jìn)行建模;SOLO(segmenting objects by locations)(Wang等,2020)將實(shí)例類別定義為目標(biāo)的位置和尺寸,將實(shí)例分割任務(wù)分為類別預(yù)測和生成實(shí)例掩膜兩個(gè)子任務(wù)。單階段方法需要同時(shí)定位、分類和分割對(duì)象,特別是不同尺度目標(biāo),難度更大,雖然速度較快,但分割精度提升受限,在解決目標(biāo)多尺度問題上不具有優(yōu)勢。
兩階段實(shí)例分割方法首先使用檢測器生成候選區(qū)域,然后針對(duì)候選區(qū)域進(jìn)行分割,并為每個(gè)實(shí)例生成像素級(jí)掩膜。Mask R-CNN(mask region-based convolutional neural network)(He等,2017)通過擴(kuò)展Faster R-CNN(Ren等,2017),增加掩膜預(yù)測分支來分割候選框中的目標(biāo),該算法對(duì)于檢測和分割兩個(gè)階段的高效利用,極大提高了分割精度。以下算法都是在Mask R-CNN框架基礎(chǔ)上的改進(jìn)。PANet(path aggregation network)(Liu等,2018)通過添加一條自底向上的路徑,增強(qiáng)了特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)(Lin等,2017)的多層次特征表示;MaskLab(Chen等,2018)產(chǎn)生邊界框檢測、語義分割和方向預(yù)測3個(gè)輸出,通過組合語義和方向預(yù)測來執(zhí)行前景和背景分割;MS RCNN(mask scoring region-based convolutional neural network)(Huang等,2019a)緩解了掩膜質(zhì)量和評(píng)分之間的偏差;Wen等人(2020)提出聯(lián)合多任務(wù)級(jí)聯(lián)結(jié)構(gòu),并在全卷積網(wǎng)絡(luò)分支中引入特征融合,有效聯(lián)合了高低層特征;BMask R-CNN(boundary-preserving mask region-based convolutional neural network)(Cheng等,2020)利用額外的分支直接估計(jì)邊界來增強(qiáng)掩膜特征的邊界感知。DCT-Mask(discrete cosine transform mask)(Shen等,2021)使用離散余弦變換將高分辨率二進(jìn)制掩膜編碼成緊湊的向量。兩階段方法經(jīng)過不斷改進(jìn),有效提高了分割精度。但上述方法未從多尺度目標(biāo)變化角度提出解決方案,因此分割精度仍有提升空間。
多尺度上下文信息通過增強(qiáng)特征表示,可以有效提高分割性能。在圖像分割領(lǐng)域已有一些工作致力于提取和融合多尺度上下文信息。PSPNet(pyramid scene parsing network)(Zhao等,2017)通過金字塔池模塊和金字塔場景解析網(wǎng)絡(luò),利用不同尺度的上下文信息聚合來實(shí)現(xiàn)高質(zhì)量的場景分割;CCNet(criss-cross network)(Huang等,2019b)通過循環(huán)交叉注意模塊獲取密集的上下文信息進(jìn)行語義分割;HTC(hybrid task cascade)(Chen等,2019a)增加了語義分割分支來整合FPN各層特征的上下文信息,以增強(qiáng)目標(biāo)前景和背景的判別性特征用于實(shí)例分割;Zhang等人(2022)設(shè)計(jì)了語義注意模塊和尺度互補(bǔ)掩膜分支,以充分利用多尺度上下文信息解決遙感圖像實(shí)例分割問題;吉淑瀅和肖志勇(2021)使用金字塔卷積和密集連接的集成提取多尺度信息,并充分融合上下文和多尺度特征進(jìn)行胸部多器官分割;丁宗元等人(2021)提出融合不同尺度交互映射的雙路網(wǎng)絡(luò)結(jié)構(gòu)用于提取目標(biāo)的多尺度特征,顯著提升交互式圖像分割性能;RefineMask(Zhang等,2021)使用空洞卷積設(shè)計(jì)了語義融合模塊,將捕獲的多尺度上下文信息用于實(shí)例分割。
但是,目標(biāo)多尺度變化導(dǎo)致實(shí)例分割精度提升受限。對(duì)此,本文在兩階段實(shí)例分割模型Mask R-CNN的基礎(chǔ)上,提出了融合多尺度上下文信息的實(shí)例分割算法。首先,提出注意力引導(dǎo)的特征金字塔網(wǎng)絡(luò)(attention-guided feature pyramid network,AgFPN),通過鄰層特征自適應(yīng)融合模塊(adjacent-layer feature adaptive fusion module,AFAFM)對(duì)FPN鄰層特征融合方式進(jìn)行優(yōu)化,使用內(nèi)容感知重組(Wang等,2019)對(duì)特征上采樣,并在鄰層特征融合前使用通道注意力機(jī)制(Hu等,2020)對(duì)通道加權(quán),增強(qiáng)語義一致性。其次,引入多尺度通道注意力(multi-scale channel attention, MSCA)(Dai等,2021)構(gòu)造了注意力特征融合模塊(attentional feature fusion module, AFFM)和全局上下文模塊(global context module,GCM)來整合多尺度特征,并將感興趣區(qū)域(region of interest,RoI)特征與目標(biāo)多尺度上下文信息(multi-scale contextual information,MSCI)進(jìn)行融合,增強(qiáng)了分類回歸和掩膜預(yù)測兩個(gè)分支的多尺度特征表示。通過在MS COCO 2017(Microsoft common objects in context 2017)(Lin等,2014)和Cityscapes(Cordts等,2016)兩個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估,所提方法有效提高了實(shí)例分割的精度,顯著提升了不同尺度目標(biāo)在相互遮擋和分界處的定位、識(shí)別和分割性能。
為解決目標(biāo)多尺度變化問題,本文提出了融合多尺度上下文信息的實(shí)例分割算法。如圖1所示,所提算法網(wǎng)絡(luò)結(jié)構(gòu)以Mask R-CNN框架為基礎(chǔ),首先,使用注意力引導(dǎo)的特征金字塔網(wǎng)絡(luò)AgFPN提取圖像多尺度特征,主干網(wǎng)絡(luò)的特征層次表示為{f2,f3,f4,f5},鄰層特征自適應(yīng)融合后得到的自頂向下的特征表示為{p2,p3,p4,p5}。接著,進(jìn)行多尺度上下文信息提取與融合。其中,區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)對(duì)目標(biāo)區(qū)域建議邊界框,進(jìn)行前景和背景的分類和邊界框的回歸,并篩選感興趣區(qū)域RoI;同時(shí),多尺度上下文信息通過注意力特征融合模塊和全局上下文模塊從AgFPN中獲得。然后,使用RoIAlign算法根據(jù)目標(biāo)檢測框的位置,將RoI映射到特征圖中獲得固定尺寸的特征圖,進(jìn)而與多尺度上下文信息進(jìn)行融合。最后,利用融合特征進(jìn)行邊界框回歸和掩膜預(yù)測。
圖1 融合多尺度上下文信息的實(shí)例分割模型
通過更高效的AgFPN進(jìn)行特征提取以及多尺度上下文信息聚合,可以有效提高不同尺度目標(biāo)的實(shí)例分割性能。
多尺度特征表示是檢測和分割不同尺度目標(biāo)的有效方法,為了充分利用高層語義特征和底層細(xì)粒度特征,F(xiàn)PN成為實(shí)例分割算法的通用網(wǎng)絡(luò)。
但是,在FPN自頂向下的特征融合路徑中,不同層的特征融合采用最近鄰插值和元素相加的方法,插值只依賴特征的相對(duì)位置而無法利用豐富的語義信息,直接元素相加忽略了相鄰特征之間的語義差距而產(chǎn)生混疊效應(yīng)。FPN鄰層特征的融合方式不能充分利用不同尺度的特征,因此,本文提出AgFPN,通過鄰層特征自適應(yīng)融合模塊AFAFM對(duì)FPN鄰層特征融合方式進(jìn)行優(yōu)化。
圖2 鄰層特征自適應(yīng)融合模塊結(jié)構(gòu)圖
上述過程可具體描述為
(1)
(2)
(3)
(4)
式中,t1∈R1×2c×1×1,t2∈R(c/s)×2c×1×1,t3∈R2c×(c/s)×1×1,s=2為尺度因子;LN代表層歸一化,δ表示激活函數(shù)ReLU(rectified linear unit);2σ表示激活函數(shù)2 × sigmoid,該函數(shù)可使通道權(quán)值連續(xù)相乘后的均值為1,并可選擇性地激發(fā)或抑制特征,⊙表示點(diǎn)乘。
Mask R-CNN算法在檢測和掩膜分支中僅利用到RoI特征,由于缺乏多尺度上下文信息,掩膜預(yù)測質(zhì)量提高受限。
因此,本文通過引入多尺度通道注意力,設(shè)計(jì)了AFFM模塊來整合多尺度特征,以及GCM模塊來挖掘融合特征中的多尺度上下文信息,并將上下文信息與RoI特征融合,從而使模型能夠更好地預(yù)測實(shí)例分割結(jié)果。
具體來說,給定RoI,使用RoIAlign算法從相應(yīng)層次的FPN輸出中提取小的特征塊(例如7 × 7或14 × 14)。同時(shí),對(duì)多尺度上下文信息特征應(yīng)用RoIAlign,得到相同尺寸的特征塊,然后將兩個(gè)分支的特征按元素求和進(jìn)行組合。MSCI的結(jié)構(gòu)設(shè)計(jì)如圖3所示。首先,利用AFFM聚合相鄰層特征;然后,GCM提取融合特征的上下文信息為新的特征層,并與下一層特征進(jìn)行注意力特征融合,依次迭代;最后,得到來自不同層的多尺度上下文信息。
圖3 多尺度上下文信息提取與融合
1.2.1 注意力特征融合模塊
將不同層或分支的特征進(jìn)行融合通常利用加法求和或通道拼接等簡單操作,無法有效利用上下文信息。因此,本文提出注意力特征融合模塊AFFM,通過引入多尺度通道注意力MSCA有效融合跨層特征,利用多尺度上下文信息緩解多尺度變化的影響。
MSCA對(duì)不同尺度目標(biāo)具有較強(qiáng)的適應(yīng)性,其結(jié)構(gòu)如圖4(a)所示。MSCA使用雙分支并行結(jié)構(gòu),其中一個(gè)分支利用全局平均池化提取和增強(qiáng)特征圖的全局上下文信息,另一個(gè)分支保持原始特征分辨率以獲取局部上下文信息,避免忽略較小尺度目標(biāo)。MSCA利用兩個(gè)分支的逐點(diǎn)卷積沿通道維度壓縮和恢復(fù)特征,從而聚合多尺度通道上下文信息,便于網(wǎng)絡(luò)識(shí)別和檢測極端尺度變化下的目標(biāo)。
AFFM結(jié)構(gòu)如圖4(b)所示,表示為
(5)
圖4 3種網(wǎng)絡(luò)結(jié)構(gòu)圖
AFFM引入了多尺度通道注意力,通過挖掘通道之間的相互依賴關(guān)系,對(duì)不同層次的多尺度特征進(jìn)行融合,獲得了注意力信息引導(dǎo)的融合特征。
1.2.2 全局上下文模塊
FC=conv(F),FCA=FC?A(FC)
(6)
FP=conv(Pool(F)),FPA=FP?A(FP)
(7)
(8)
式中,conv,Pool,A和upsample分別代表卷積、平均池化、MSCA和上采樣操作。
GCM用于在特定級(jí)別自適應(yīng)地提取多尺度上下文信息,改進(jìn)不同尺度和特定語義的特征表示,自適應(yīng)地整合全局和局部特征,可以有效提高多尺度目標(biāo)的分割精度。
為了驗(yàn)證本文算法的性能,在MS COCO 2017和Cityscapes數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與相關(guān)方法進(jìn)行視覺效果和定量結(jié)果對(duì)比,使用平均精度(average precision,AP)作為評(píng)價(jià)指標(biāo),并在MS COCO 2017數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。
MS COCO 2017數(shù)據(jù)集包含80個(gè)實(shí)例級(jí)標(biāo)簽類別,模型使用訓(xùn)練集的115 000幅圖像進(jìn)行訓(xùn)練,對(duì)5 000幅驗(yàn)證集圖像進(jìn)行測試,最終展示了20 000幅測試數(shù)據(jù)集圖像上的定量結(jié)果。
Cityscapes數(shù)據(jù)集包含大量城市街道場景圖像,提供了語義、實(shí)例特定和像素特定的注釋,分別有2 975、500和1 525幅圖像用于訓(xùn)練、驗(yàn)證和測試。對(duì)于實(shí)例分割任務(wù),有8個(gè)實(shí)例類別。
利用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn)所提算法,實(shí)驗(yàn)環(huán)境為Ubuntu 16.04操作系統(tǒng),使用4塊NVIDIA 1080Ti圖形處理器(graphics processing unit,GPU)加速運(yùn)算。
在MS COCO 2017數(shù)據(jù)集上,本文方法分別使用ResNet-50和ResNet-101作為主干網(wǎng)絡(luò),并利用ImageNet上預(yù)訓(xùn)練的權(quán)重來初始化網(wǎng)絡(luò)參數(shù)。實(shí)驗(yàn)采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)進(jìn)行16萬次迭代訓(xùn)練優(yōu)化,初始學(xué)習(xí)率為0.002,batch size設(shè)為4,當(dāng)?shù)螖?shù)為13萬次和15萬次時(shí),學(xué)習(xí)率分別降低10倍。設(shè)置權(quán)重衰減(weight decay)系數(shù)為0.000 5,動(dòng)量(momentum)系數(shù)設(shè)為0.9。損失函數(shù)和其他超參數(shù)均按照mmdetection(Chen等,2019b)中描述的策略進(jìn)行設(shè)置和初始化。
在Cityscapes數(shù)據(jù)集上,使用ResNet-50作為主干網(wǎng)絡(luò),batch size設(shè)為4,迭代次數(shù)為48 000次,初始學(xué)習(xí)率為0.005,當(dāng)?shù)?6 000次時(shí),學(xué)習(xí)速率降至0.000 5。其他設(shè)置與在MS COCO 2017數(shù)據(jù)集上的實(shí)驗(yàn)相同。
在MS COCO 2017測試集上,將所提方法與經(jīng)典的兩階段方法和其他單階段方法進(jìn)行分割精度的對(duì)比,結(jié)果如表1所示。其中,AP50和AP75分別表示IoU閾值為0.5和0.75時(shí)的平均精度,APS、APM和APL分別是小、中、大3種不同尺度目標(biāo)的平均精度??梢钥闯觯崴惴ㄏ噍^于基線Mask R-CNN在主干網(wǎng)絡(luò)為ResNet50和ResNet101時(shí)分別提高了1.7%和2.5%;在多尺度目標(biāo)分割精度上,以主干網(wǎng)絡(luò)ResNet50為例,APS和APM分別提高了1.6%和2.6%,說明利用AgFPN進(jìn)行特征提取,并在RoI特征中引入多尺度上下文信息,有效提高了中小目標(biāo)的掩膜預(yù)測質(zhì)量。
表1 實(shí)例分割模型在MS COCO 2017測試集上的平均精度對(duì)比
本文方法與其他兩階段方法如PANet和MS RCNN等相比具有一定的競爭優(yōu)勢,且分割精度高于流行的YOLACT(you only look at coefficients)、PolarMask和SOLO等單階段方法。但是,本文方法在大尺度目標(biāo)的分割精度APL上低于SOLO算法,表明所提方法在大型目標(biāo)的邊緣分割精度上還有提升空間。
在Cityscapes數(shù)據(jù)集上,對(duì)比了部分實(shí)例分割模型的平均精度,主干網(wǎng)絡(luò)均采用ResNet-50。實(shí)驗(yàn)結(jié)果如表2所示。其中,AP[val]表示Cityscapes 驗(yàn)證子集的結(jié)果,AP和AP50表示Cityscapes測試子集的結(jié)果。fine表示只使用精細(xì)數(shù)據(jù)進(jìn)行訓(xùn)練,coarse表示粗糙數(shù)據(jù),fine + coco表示使用精細(xì)數(shù)據(jù)并在MS COCO 2017數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
從表2可以看出,所提方法使用fine + coco訓(xùn)練策略,在驗(yàn)證子集和測試子集上進(jìn)行性能評(píng)估,比Mask R-CNN分別提高了2.1%和2.3%,有效提高了實(shí)例分割精度,同時(shí)優(yōu)于PANet和BMask RCNN等實(shí)例分割方法。實(shí)驗(yàn)結(jié)果表明,所提方法具有較強(qiáng)的模型泛化性和對(duì)不同尺度目標(biāo)的識(shí)別魯棒性。
表2 Cityscapes數(shù)據(jù)集上實(shí)例分割模型的平均精度對(duì)比
2.4.1 在MS COCO 2017數(shù)據(jù)集上多尺度目標(biāo)下的可視化結(jié)果展示
MS COCO 2017數(shù)據(jù)集上多尺度目標(biāo)實(shí)例分割的可視化結(jié)果如圖5所示。可視化結(jié)果表明,本文方法對(duì)多尺度目標(biāo)具有較好的定位、分類和分割效果。由于遠(yuǎn)、小目標(biāo)信息較少,通過在分類回歸和掩膜預(yù)測分支中彌補(bǔ)目標(biāo)多尺度上下文信息可以有效提高小目標(biāo)的識(shí)別精度,更有利于分割。同時(shí),AgFPN可以有效緩解FPN鄰層不同尺度目標(biāo)的語義特征混疊,減少多尺度目標(biāo)錯(cuò)檢和漏檢概率,顯著提高多尺度目標(biāo)的分割精度。
圖5 在MS COCO 2017數(shù)據(jù)集上多尺度目標(biāo)實(shí)例分割的可視化結(jié)果
此外,本文方法在不同目標(biāo)邊界位置以及存在遮擋的情況下有較好的預(yù)測結(jié)果。如圖6第1、2行所示,本文方法可以識(shí)別到被“足球”遮擋的“手”屬于“運(yùn)動(dòng)員”,能準(zhǔn)確識(shí)別出被“轎車”遮擋的目標(biāo)是“馬”,而其他算法或漏檢或錯(cuò)檢。如圖6第3、4行所示,在不同實(shí)例的邊界處,本文方法處理的邊界更為精準(zhǔn),分割質(zhì)量更高??梢暬瘜?duì)比表明,所提算法取得了良好的性能。
圖6 在MS COCO 2017數(shù)據(jù)集上在目標(biāo)邊界處和遮擋情況下的可視化結(jié)果對(duì)比
2.4.2 在Cityscapes數(shù)據(jù)集上的可視化結(jié)果展示與分析
為了驗(yàn)證本文方法的有效性和泛化性,在Cityscapes數(shù)據(jù)集上進(jìn)行多尺度目標(biāo)實(shí)例分割,可視化結(jié)果如圖7所示。Cityscapes數(shù)據(jù)集注釋質(zhì)量較高,且城市街景中更容易造成視覺形變,產(chǎn)生多尺度目標(biāo),對(duì)于實(shí)例分割任務(wù)具有更多挑戰(zhàn)性。從圖7可以看出,本文方法有效解決了不同尺度和不同類別的實(shí)例分割任務(wù),多尺度目標(biāo)得到了準(zhǔn)確的識(shí)別、分類和像素級(jí)掩膜生成,甚至有效緩解了目標(biāo)遮擋問題,表現(xiàn)了較好的分割性能,證明了所提方法的有效性和泛化性。
圖7 在Cityscapes數(shù)據(jù)集上多尺度目標(biāo)實(shí)例分割的可視化結(jié)果
為進(jìn)一步驗(yàn)證本文方法的性能,在Cityscapes數(shù)據(jù)集上與基線Mask R-CNN進(jìn)行對(duì)比,結(jié)果如圖8所示。從圖8第1、2行可以看出,本文方法在不同尺度目標(biāo)存在遮擋和目標(biāo)邊界處分割效果較好;從圖8第3、4行可以看出,所提方法有效改善了小尺度目標(biāo)的漏檢和錯(cuò)檢??梢暬Y(jié)果顯示,所提方法在具有挑戰(zhàn)性的Cityscapes數(shù)據(jù)集上也有較好的效果。
圖8 本文方法與Mask R-CNN在Cityscapes數(shù)據(jù)集上的可視化結(jié)果對(duì)比
2.4.3 本文訓(xùn)練模型在不同場景圖像上的測試結(jié)果
圖9為在MS COCO 2017和Cityscapes數(shù)據(jù)集上訓(xùn)練的本文方法模型在不同場景圖像上的測試結(jié)果,測試圖像來源網(wǎng)絡(luò)和實(shí)地拍攝。在Cityscapes數(shù)據(jù)集上訓(xùn)練的模型,主要測試具有不同尺度目標(biāo)的城市街景圖,如圖9(a)所示,不同尺度目標(biāo)得到了準(zhǔn)確的識(shí)別和分割。在MS COCO 2017數(shù)據(jù)集上測試了室內(nèi)場景、城市街景和河景,以及白天、黑夜和雨天等特殊場景,如圖9(b)所示。測試結(jié)果表明,所提方法具有一定的泛化性和實(shí)用價(jià)值。
圖9 訓(xùn)練模型在不同場景圖像上的測試結(jié)果
為驗(yàn)證所提模型設(shè)計(jì)的注意力引導(dǎo)的特征金字塔網(wǎng)絡(luò)AgFPN、注意力特征融合模塊AFFM和全局上下文模塊GCM的有效性,進(jìn)行消融實(shí)驗(yàn)。
2.5.1 AgFPN的作用
本文提出的AgFPN易于集成到當(dāng)前流行的兩階段實(shí)例分割網(wǎng)絡(luò),只需要將AgFPN直接替換基線模型中的FPN即可。表3為AgFPN對(duì)實(shí)驗(yàn)結(jié)果的影響對(duì)比。其中,*表示重新實(shí)現(xiàn)的結(jié)果,APb表示檢測框的精度,R代表ResNet??梢钥闯?,使用不同的實(shí)例分割框架和骨干網(wǎng)絡(luò),與基線模型相比,AgFPN帶來了更好的性能提升,表明AgFPN在提高分割和檢測精度上具有一定效果。
表3 AgFPN對(duì)實(shí)驗(yàn)結(jié)果的影響對(duì)比
2.5.2 AFFM和GCM的作用
注意力特征融合模塊AFFM和全局上下文模塊GCM都是即插即用的特征關(guān)系增強(qiáng)模塊。為評(píng)估AFFM和GCM模塊的作用,以ResNet-50 + FPN為主干網(wǎng)絡(luò),在MS COCO 2017驗(yàn)證集上進(jìn)行消融實(shí)驗(yàn)。表4為AFFM和GCM模塊對(duì)實(shí)驗(yàn)結(jié)果的影響對(duì)比??梢钥闯觯總€(gè)模塊都有效提高了基線的性能。具體來說,AFFM和GCM模塊將平均精度分別提高了0.6%和0.7%,當(dāng)組合兩個(gè)模塊時(shí),基線的性能進(jìn)一步提高了1.7%。實(shí)驗(yàn)結(jié)果表明,兩個(gè)模塊有助于整合多尺度特征并充分挖掘多尺度上下文信息,提高了實(shí)例分割的準(zhǔn)確度。
表4 AFFM和GCM模塊對(duì)實(shí)驗(yàn)結(jié)果的影響對(duì)比
2.5.3 MSCI網(wǎng)絡(luò)結(jié)構(gòu)有效性分析
為了驗(yàn)證多尺度上下文信息MSCI結(jié)構(gòu)的有效性,對(duì)利用不同層、不同融合順序的結(jié)構(gòu)進(jìn)行測試,消融實(shí)驗(yàn)結(jié)果如表5所示。其中,原始結(jié)構(gòu)記為“P5、P4、P3和P2”,則“P2、P3、P4和P5”表示從P2層和P3層開始進(jìn)行融合迭代,“P2和P3”表示只利用P2層和P3層特征進(jìn)行融合,“P4和P5”表示只利用P4層和P5層特征進(jìn)行融合??梢钥闯?,從高層開始進(jìn)行特征融合比從低層開始更加有效,高層特征具有較強(qiáng)的語義信息,將高級(jí)的語義特征從頂至下傳播到底層,有助于多尺度特征融合與表達(dá)。此外,只融合P2層和P3層特征比只融合P4層和P5層特征更有利于精度提高,由于低層特征包含的是顏色、邊緣、輪廓和紋理等信息,能使分割預(yù)測結(jié)果更加細(xì)致、精準(zhǔn)。
表5 多尺度融合策略對(duì)實(shí)驗(yàn)結(jié)果的影響對(duì)比
為了驗(yàn)證MSCI的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)目標(biāo)定位和多尺度目標(biāo)識(shí)別的作用,使用Grad-CAM(gradient-weighted class activation mapping)(Selvaraju 等,2017)對(duì)MS COCO 2017數(shù)據(jù)集圖像進(jìn)行熱力圖可視化。圖10為ResNet-50和ResNet-50 + MSCI網(wǎng)絡(luò)熱力圖可視化結(jié)果對(duì)比。
可以看出,更強(qiáng)的可視化類激活映射(CAM)區(qū)域被更亮的顏色覆蓋。與ResNet-50相比,ResNet-50 + MSCI網(wǎng)絡(luò)的激活區(qū)域更集中,與目標(biāo)重疊度更高,如圖10第1行中的飛機(jī)和第2行中的人等,表明它能更好地定位目標(biāo)、利用目標(biāo)區(qū)域特征。而ResNet-50的定位能力相對(duì)較差,只覆蓋部分對(duì)象或受背景干擾。此外,ResNet-50 + MSCI也可以準(zhǔn)確預(yù)測小尺度的目標(biāo),如圖10第3行和第5行中遠(yuǎn)處的人,圖10第4行中遠(yuǎn)處的動(dòng)物等,這體現(xiàn)了MSCI網(wǎng)絡(luò)具有充分表達(dá)多尺度特征的能力。
圖10 在MS COCO 2017數(shù)據(jù)集上ResNet-50和ResNet-50 + MSCI網(wǎng)絡(luò)熱力圖可視化結(jié)果對(duì)比
2.5.4 本文算法推理速度的討論分析
為了測試所提模型在推理速度上的性能,以ResNet-50 + FPN為主干網(wǎng)絡(luò)(本文方法替換為AgFPN),使用單個(gè)V100 GPU,利用預(yù)先訓(xùn)練的模型在同一臺(tái)本地機(jī)器上測試每個(gè)模型的推理時(shí)間。
表6為本文方法與其他方法推理速度的對(duì)比??梢钥闯?,本文方法在分割精度上略低于RefineMask和HTC,但推理速度明顯高于這兩種方法。RefineMask和HTC均利用多尺度上下文信息,并且RefineMask采用掩膜多階段細(xì)化策略,HTC使用級(jí)聯(lián)架構(gòu),二者都顯著增加了計(jì)算量,分割精度得到大幅提升的同時(shí),推理速度受限。SOLO算法是單階段實(shí)例分割方法,采用輕量化模型,有效提高了推理速度,但分割精度不足。本文方法在Mask R-CNN的基礎(chǔ)上增加了一定的計(jì)算復(fù)雜度,提高了分割精度,也影響了一定的推理速度,但在精度與速度的權(quán)衡上具有一定優(yōu)勢。
表6 本文方法與其他方法推理速度的對(duì)比
為解決目標(biāo)多尺度變化問題,本文充分考慮FPN在鄰層特征融合時(shí)信息損失和語義特征混疊,以及RoI特征多尺度上下文信息不足問題,提出一種融合多尺度上下文信息的實(shí)例分割方法。通過鄰層特征自適應(yīng)融合模塊優(yōu)化FPN鄰層特征的融合方式,減少了信息衰減并增加了語義一致性,有利于多尺度特征的表達(dá);同時(shí),通過引入多尺度通道注意力設(shè)計(jì)了注意特征融合模塊和全局上下文模塊,增強(qiáng)了RoI特征的目標(biāo)多尺度上下文信息。實(shí)驗(yàn)結(jié)果表明,所提方法有效提高了多尺度目標(biāo)的實(shí)例分割精度。
但是,由于分割網(wǎng)絡(luò)中存在多次卷積和下采樣操作,且邊界像素比例較低,本文方法在較大尺度目標(biāo)邊界分割精度上提升有限。此外,本文方法在Mask R-CNN的基礎(chǔ)上增加了一定的計(jì)算開銷,影響了推理速度,使得將本文算法應(yīng)用于實(shí)時(shí)應(yīng)用程序或部署在邊緣設(shè)備上具有一定挑戰(zhàn)性。因此,改善較大尺度實(shí)例邊界分割準(zhǔn)確度和模型輕量化設(shè)計(jì)是今后需要繼續(xù)研究的問題。