• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      尺度自適應(yīng)生成調(diào)控的弱監(jiān)督視頻實(shí)例分割

      2023-09-27 07:22:14張印輝海維琪何自芬黃瀅陳東東
      光學(xué)精密工程 2023年18期
      關(guān)鍵詞:實(shí)例卷積精度

      張印輝, 海維琪, 何自芬, 黃瀅, 陳東東

      (昆明理工大學(xué) 機(jī)電工程學(xué)院,云南 昆明 650000)

      1 引 言

      近年來(lái),輔助駕駛領(lǐng)域中對(duì)車(chē)輛周?chē)鷱?fù)雜環(huán)境多目標(biāo)感知和場(chǎng)景理解技術(shù)成為研究的重點(diǎn)方向?,F(xiàn)階段,針對(duì)輔助駕駛車(chē)輛環(huán)境感知技術(shù)包括激光雷達(dá)(Lidar)[1-4]、全球?qū)Ш叫l(wèi)星系統(tǒng)(Global Navigation Satellite System, GNSS)[5-7]和慣性測(cè)量單元(Inertial Measurement Unit,IMU)[8]以及計(jì)算機(jī)視覺(jué)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[9-11]等技術(shù)。其中全球?qū)Ш叫l(wèi)星系統(tǒng)和慣性測(cè)量單元往往只用于定位,而激光雷達(dá)和計(jì)算機(jī)視覺(jué)既可用于定位也可用于識(shí)別,但激光雷達(dá)成本高,且無(wú)法給出跟蹤目標(biāo)的類(lèi)別和尺寸信息?;谟?jì)算機(jī)視覺(jué)的實(shí)例分割技術(shù)具備對(duì)復(fù)雜環(huán)境進(jìn)行實(shí)時(shí)感知的強(qiáng)大能力且成本較低,被廣泛應(yīng)用于輔助駕駛視覺(jué)識(shí)別系統(tǒng),實(shí)現(xiàn)輔助駕駛車(chē)輛對(duì)周?chē)系K物的精準(zhǔn)識(shí)別。

      實(shí)例分割技術(shù)可分為圖像實(shí)例分割和視頻實(shí)例分割兩個(gè)方向。其中圖像實(shí)例分割[12-15]針對(duì)單幀圖像進(jìn)行實(shí)例分類(lèi)、檢測(cè)和分割;視頻實(shí)例分割[16-20]以圖像實(shí)例分割為基礎(chǔ),對(duì)不同幀中同一實(shí)例進(jìn)行跨幀關(guān)聯(lián)追蹤,以時(shí)間序列形式獲得各實(shí)例的分割掩膜及檢測(cè)結(jié)果。目前基于深度學(xué)習(xí)的視頻實(shí)例分割方法主要包括基于全監(jiān)督和弱監(jiān)督學(xué)習(xí)兩類(lèi)模型,在全監(jiān)督學(xué)習(xí)中,Mask-Track R-CNN[16]在圖像實(shí)例分割Mask RCNN[12]頭部基礎(chǔ)上添加跟蹤分支關(guān)聯(lián)不同幀之間的目標(biāo)實(shí)例,最先實(shí)現(xiàn)幀級(jí)實(shí)例同時(shí)檢測(cè)、跟蹤和分割,并在提出的Youtube-VIS2019[16]數(shù)據(jù)集驗(yàn)證模型有效性,但結(jié)合單幀圖像分割和傳統(tǒng)方法進(jìn)行跟蹤關(guān)聯(lián),忽略了關(guān)鍵的時(shí)間信息,導(dǎo)致網(wǎng)絡(luò)分割精度低。Maskprop[21]在MaskTrack R-CNN基礎(chǔ)上添加mask傳播分支,將中間幀目標(biāo)實(shí)例mask傳播到視頻其他幀以提升mask生成和關(guān)聯(lián)質(zhì)量,在使用較少標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下,在Youtube-VIS數(shù)據(jù)集上分割精度達(dá)到46.6%,比MaskTrack R-CNN高16.3%,但由于MaskProp采用離線學(xué)習(xí)方式導(dǎo)致模型占用內(nèi)存大且分割時(shí)效性差。為克服檢測(cè)到跟蹤多階段分割范式處理速度較慢且不利于發(fā)揮視頻時(shí)序連續(xù)性的優(yōu)勢(shì),STEm-Seg[22]采用三維卷積和高斯混合來(lái)改善時(shí)空嵌入特征表示,提升挖掘視頻整體的空間和時(shí)序信息提取能力,且以較快的速度解決視頻實(shí)例分割的問(wèn)題。然而,該方法獲得的實(shí)例嵌入特征僅包含像素級(jí)高斯后驗(yàn)概率估計(jì),缺乏視頻數(shù)據(jù)目標(biāo)實(shí)例時(shí)變的高級(jí)上下文抽象和統(tǒng)計(jì)特征,極大限制了STEm-Seg算法的分割魯棒性。CrossVIS[23]提出一種新的交叉學(xué)習(xí)方案,基于當(dāng)前幀中的實(shí)例特征,以像素方式定位其他視頻幀中相同實(shí)例,有效利用視頻中固有的上下文信息來(lái)增強(qiáng)跨視頻幀的實(shí)例表示,同時(shí)削弱背景和無(wú)關(guān)實(shí)例信息,顯著提高了網(wǎng)絡(luò)分割精度。但上述基于全監(jiān)督學(xué)習(xí)的視頻實(shí)例分割技術(shù)對(duì)目標(biāo)真實(shí)值像素級(jí)標(biāo)注具有很強(qiáng)的依賴(lài)性,因此冗長(zhǎng)的視頻序列樣本導(dǎo)致大量的人工精細(xì)化標(biāo)注成本劇增。

      目前基于邊界框的弱監(jiān)督實(shí)例分割方法僅將實(shí)例邊界框坐標(biāo)及類(lèi)別信息作為真實(shí)值進(jìn)行網(wǎng)絡(luò)約束學(xué)習(xí),極大節(jié)省人工標(biāo)注成本[24]。Hsu等人[25]提出BBTP(Bounding Box Tightness Prior)方法將弱監(jiān)督實(shí)例分割問(wèn)題視為多示例學(xué)習(xí)任務(wù),以真實(shí)邊界框?yàn)榻缦迏^(qū)分前景與背景,結(jié)合MIL loss和DenseCRF對(duì)偽mask進(jìn)一步優(yōu)化,然而僅以邊界框約束像素歸類(lèi)可能導(dǎo)致邊界框內(nèi)mask質(zhì)量下降。Wang[26]等人基于BoxCaseg預(yù)訓(xùn)練模型生成偽標(biāo)簽,并通過(guò)邊界框標(biāo)簽約束偽標(biāo)簽邊界,最后用于代替Mask R-CNN實(shí)例分割模型訓(xùn)練過(guò)程中人工標(biāo)注值,但受限于指定實(shí)例分割預(yù)訓(xùn)練模型難以適配現(xiàn)有視頻實(shí)例分割網(wǎng)絡(luò)。Tian等人[27]提出BoxInst方法,通過(guò)構(gòu)建投影損失和顏色相似性損失函數(shù)替換CondInst[28]中mask分割損失,顯著縮小了弱監(jiān)督和全監(jiān)督實(shí)例分割之間的性能差距。弱監(jiān)督視頻實(shí)例分割僅使用邊界框?qū)W(wǎng)絡(luò)進(jìn)行訓(xùn)練嚴(yán)重制約了交通場(chǎng)景大尺度動(dòng)態(tài)范圍目標(biāo)分割精度的問(wèn)題。

      為實(shí)現(xiàn)輔助駕駛車(chē)輛對(duì)周?chē)鷱?fù)雜環(huán)境的多尺度動(dòng)態(tài)目標(biāo)精準(zhǔn)感知和場(chǎng)景理解,以及節(jié)省訓(xùn)練所需人工精細(xì)化標(biāo)注成本,本文設(shè)計(jì)了一種基于尺度自適應(yīng)生成調(diào)控弱監(jiān)督視頻實(shí)例分割算法(Scale Adaptive Generation Regulation,SAGRNet)。首先針對(duì)全監(jiān)督網(wǎng)絡(luò)對(duì)目標(biāo)真實(shí)值像素級(jí)標(biāo)注具有很強(qiáng)的依賴(lài)性,冗長(zhǎng)的視頻序列樣本導(dǎo)致大量的人工精細(xì)化標(biāo)注成本劇增的問(wèn)題,本文引入正交損失函數(shù)和顏色相似性損失函數(shù)代替全監(jiān)督CrossVIS網(wǎng)絡(luò)實(shí)例mask分割損失,僅利用邊界框標(biāo)簽對(duì)初始預(yù)測(cè)mask進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)了基于邊界框的弱監(jiān)督視頻實(shí)例分割算法Box-CrossVIS,并以此作為本文的基準(zhǔn)網(wǎng)絡(luò)。其次,在特征金字塔(Feature Pyramid Networks,F(xiàn)PN)[29]自上而下融合路徑嵌入多尺度特征映射貢獻(xiàn)度動(dòng)態(tài)自適應(yīng)調(diào)控模塊,通過(guò)動(dòng)態(tài)調(diào)整不同尺度特征映射信息貢獻(xiàn)度以強(qiáng)化對(duì)目標(biāo)局部位置和整體輪廓的聚焦能力,增強(qiáng)網(wǎng)絡(luò)對(duì)前景目標(biāo)多尺度變化情況下的識(shí)別感知能力。最后,在mask預(yù)測(cè)分支前添加目標(biāo)實(shí)例多細(xì)粒度空間信息聚合生成調(diào)控模塊,采用通道注意力機(jī)制[30]聚合基于不同空洞率提取的多細(xì)粒度空間信息生成權(quán)重參數(shù)以調(diào)控各尺度特征,有效細(xì)化實(shí)例邊緣輪廓并增強(qiáng)跨通道信息交互掩碼特征映射表征能力。SAGRNet算法在Youtube-VIS2019提取的交通場(chǎng)景數(shù)據(jù)集上進(jìn)行綜合實(shí)驗(yàn),平均分割精度達(dá)到38.1%,且在2080Ti上最高分割速度可達(dá)36 FPS,為車(chē)輛輔助駕駛實(shí)現(xiàn)實(shí)時(shí)多目標(biāo)感知和實(shí)例級(jí)場(chǎng)景理解提供了有效算法依據(jù)。

      2 本文算法

      2.1 SAGRNet網(wǎng)絡(luò)結(jié)構(gòu)

      SAGRNet網(wǎng)絡(luò)包含特征提取和后處理兩個(gè)階段,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在特征提取階段,首先將視頻t和t+δ幀圖像輸入到ResNet50提取語(yǔ)義特征{C1,C2,C3,C4,C5}。其次,利用FPN增強(qiáng)上下文多尺度目標(biāo)特征信息提取能力,通過(guò)自頂向下和橫向連接融合方式為低層特征引入豐富的高層語(yǔ)義信息,得到特征圖{P3,P4,P5}。為解決由于距離變化造成交通場(chǎng)景中車(chē)輛和行人等障礙物目標(biāo)尺度動(dòng)態(tài)范圍擴(kuò)大問(wèn)題,本文在FPN融合路徑嵌入自適應(yīng)調(diào)控模塊,動(dòng)態(tài)調(diào)整不同尺度特征映射信息貢獻(xiàn)度以強(qiáng)化對(duì)不同尺度目標(biāo)的感知識(shí)別能力。最后,將FPN輸出特征經(jīng)3×3卷積操作,并將得到的最高層特征進(jìn)行2倍下采樣操作,最終得到特征圖{F3,F(xiàn)4,F(xiàn)5,F(xiàn)6,F(xiàn)7}。在特征后處理階段,首先將特征提取階段輸出的各尺度特征分別輸入Mask Branch和Controller Head分支。其中Mask Branch用于生成實(shí)例mask預(yù)測(cè)的Fmask特征,并結(jié)合相對(duì)位置信息Coord拼接生成實(shí)例mask特征圖;Controller Head用于生成實(shí)例特定動(dòng)態(tài)濾波器θx,y(t),θx′,y′(t+δ),并預(yù)測(cè)該位置實(shí)例動(dòng)態(tài)條件卷積MaskHead的參數(shù)。針對(duì)實(shí)例邊緣輪廓分割不完整、質(zhì)量粗糙的問(wèn)題,本文在mask預(yù)測(cè)分支前添加生成調(diào)控模塊以細(xì)化實(shí)例邊界并實(shí)現(xiàn)特征跨通道信息交互增強(qiáng)掩碼特征映射表征能力,提高網(wǎng)絡(luò)對(duì)實(shí)例邊緣輪廓的分割能力。然后,將生成的mask特征圖和動(dòng)態(tài)濾波器交叉輸入條件卷積MaskHead生成靜態(tài)和交叉動(dòng)態(tài)mask。t幀和t+δ幀圖像生成的靜態(tài)實(shí)例mask可表示為:

      圖1 SAGRNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SAGRNet Network Structure

      t幀和t+δ幀圖像生成的交叉動(dòng)態(tài)實(shí)例mask可表示為:

      其中,Maskhead由三個(gè)卷積層組成,以實(shí)例為條件動(dòng)態(tài)生成卷積參數(shù)。最后,引入正交損失和顏色相似性損失函數(shù)代替全監(jiān)督CrossVIS網(wǎng)絡(luò)實(shí)例mask分割損失,利用邊界框標(biāo)簽對(duì)初始預(yù)測(cè)mask進(jìn)行約束輸出預(yù)測(cè)分割結(jié)果。

      2.2 自適應(yīng)調(diào)控模塊

      在特征提取網(wǎng)絡(luò)中,F(xiàn)PN主要對(duì)骨干網(wǎng)絡(luò)提取的各層級(jí)特征圖進(jìn)行高層語(yǔ)義信息和低層細(xì)節(jié)信息的融合,用于增強(qiáng)特征圖表達(dá)能力并提高網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的感知能力[31]。低層特征具有優(yōu)秀的細(xì)粒度空間分辨率,包含豐富的細(xì)節(jié)信息特征,但語(yǔ)義信息表征能力弱,更適合檢測(cè)小尺度目標(biāo);而高層特征擁有較大感受野,能提取到豐富的語(yǔ)義信息,但特征分辨率低,幾何信息表征能力弱,更適合檢測(cè)大尺度目標(biāo)。在本文交通場(chǎng)景數(shù)據(jù)集中,由于車(chē)輛、行人等障礙物目標(biāo)距離遠(yuǎn)近容易造成目標(biāo)尺度動(dòng)態(tài)范圍過(guò)大,原有FPN將高低層特征進(jìn)行簡(jiǎn)單的線性加權(quán)融合不僅會(huì)削弱高層特征圖對(duì)大尺度目標(biāo)局部位置信息的感知,還會(huì)降低低層特征對(duì)小尺度目標(biāo)細(xì)節(jié)信息的提取能力,導(dǎo)致在目標(biāo)大尺度范圍變化下網(wǎng)絡(luò)對(duì)前景目標(biāo)的識(shí)別能力降低。因此,本文提出自適應(yīng)調(diào)控模塊(Adaptive Regulation Module,ARM),通過(guò)動(dòng)態(tài)調(diào)整FPN不同層級(jí)信息貢獻(xiàn)度以強(qiáng)化對(duì)目標(biāo)局部位置和整體輪廓的聚焦能力,提高網(wǎng)絡(luò)分割精度,具體結(jié)構(gòu)如圖2所示。

      圖2 自適應(yīng)調(diào)控模塊Fig.2 Adaptive regulation module

      首先,ARM模塊將高層特征XH和低層特征XL經(jīng)1×1卷積操作捕捉空間特征信息并壓縮通道為c,在本文實(shí)驗(yàn)中,c設(shè)置為256。然后,將通道壓縮后的高層特征通過(guò)雙線性插值上采樣,使其與XL保持相同分辨率。最后,根據(jù)高低層特征貢獻(xiàn)程度自適應(yīng)賦予權(quán)重參數(shù)α1,α2后進(jìn)行特征融合,其中α1,α2在模型訓(xùn)練過(guò)程中,通過(guò)網(wǎng)絡(luò)梯度反向傳播不斷學(xué)習(xí),自適應(yīng)調(diào)整和更新以適應(yīng)當(dāng)前的分割任務(wù),最終得到融合特征圖X:

      其中:αi為歸一化權(quán)重,∑αi=1,wi為初始化指數(shù)權(quán)重,wj為特征權(quán)重;(?)表示卷積核為k×k,步長(zhǎng)為m的卷積操作;U表示上采樣操作;⊕表示逐元素相加;·表示權(quán)重系數(shù)與特征圖相乘。

      由于高低層特征圖之間的細(xì)粒度和語(yǔ)義信息不同,融合后的特征會(huì)造成信息沖突和冗余,削弱特征圖的表達(dá)能力。因此,ARM模塊通過(guò)兩個(gè)分支L(X)和G(X)來(lái)提取通道注意力,增強(qiáng)相關(guān)信息的關(guān)注,減弱不相關(guān)信息的干擾。L(X)采用全局平均池化操作提取全局上下文信息,然后采用1×1卷積將得到的注意力特征進(jìn)行通道縮減,再使用1×1卷積操作進(jìn)行通道還原,實(shí)現(xiàn)特征跨通道信息交互和信息整合,并降低網(wǎng)絡(luò)計(jì)算量。G(X)采用兩個(gè)1×1卷積進(jìn)行通道信息交互,在不降低特征通道維度情況下建立權(quán)重映射關(guān)系,從而避免特征信息損耗。最終將兩個(gè)分支輸出的特征進(jìn)行特征融合,對(duì)融合后的特征使用Sigmoid激活函數(shù)進(jìn)行權(quán)重歸一化以濾掉冗余信息,實(shí)現(xiàn)從不同尺度特征中自適應(yīng)選擇分割任務(wù)所需特征信息,生成注意力權(quán)重N(X):

      其中:GAP(?)表示全局平均池化操作;Convn→mk×k表示卷積核為k×k,輸入通道數(shù)為n,輸出通道數(shù)為m的卷積操作;δ表示ReLU激活函數(shù);BN表示批量歸一化操作;⊕表示逐元素相加。

      為了抑制無(wú)關(guān)背景噪聲的干擾和防止網(wǎng)絡(luò)性能退化,將Sigmoid函數(shù)生成的注意力權(quán)重N(X)分別與X′H和X′L相乘進(jìn)行加權(quán)融合,最終生成自適應(yīng)融合特征圖Z:

      其中:?表示逐元素相乘。自適應(yīng)調(diào)控融合后的特征圖Z能夠有效強(qiáng)化對(duì)目標(biāo)局部位置和整體輪廓的聚焦能力,克服了車(chē)輛、行人等目標(biāo)由于距離遠(yuǎn)近造成的尺度動(dòng)態(tài)范圍過(guò)大問(wèn)題。

      2.3 生成調(diào)控模塊

      CrossVIS將特征提取階段輸出的F4,F(xiàn)5上采樣與F3融合輸入Mask Branch,通過(guò)一系列卷積操作生成原型掩膜。然而受限于卷積核尺寸,原有特征提取階段只能有效表征局部信息,導(dǎo)致部分實(shí)例邊緣紋理信息丟失。因此,本文在mask預(yù)測(cè)分支基礎(chǔ)上設(shè)計(jì)生成調(diào)控模塊(Generating Regulatory Module,GRM),其包含多細(xì)粒度提取模塊和空間信息聚合模塊,采用通道注意力機(jī)制聚合基于不同空洞率提取的多細(xì)粒度空間信息生成權(quán)重參數(shù)以調(diào)控各尺度特征,有效細(xì)化了實(shí)例邊緣輪廓并增強(qiáng)了跨通道信息交互掩碼特征映射表征能力,提高了模型對(duì)目標(biāo)的定位精度和邊緣輪廓分割精度,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

      圖3 生成調(diào)控模塊Fig.3 Generating regulatory module

      圖4 正交損失構(gòu)建Fig.4 Construction of orthogonal loss

      為有效表征不同層級(jí)特征實(shí)例邊緣輪廓細(xì)節(jié)信息,本文基于ResNet50與FPN框架提取的F3∈R256×48×80,F(xiàn)4∈R256×24×40,F(xiàn)5∈R256×12×20作為生成調(diào)控模塊的輸入。首先,對(duì)輸入各層級(jí)特征進(jìn)行3×3卷積將其通道壓縮為128,并對(duì)卷積后的高層特征分別進(jìn)行雙線性插值上采樣與低層特征F5保持相同分辨率,然后分別送入多細(xì)粒度提取模塊。具體地,使用3×3卷積進(jìn)行初步特征提取,為了獲取不同細(xì)粒度特征信息減少信息丟失,使用由三個(gè)空洞率r=[1,2,5]的空洞卷積并聯(lián)組成的混合空洞卷積(Hybrid Dilation Convolution,HDC)[32]對(duì)特征進(jìn)行實(shí)例邊緣輪廓細(xì)節(jié)信息提??;將提取的不同細(xì)粒度特征在通道維度進(jìn)行拼接和混洗,提高通道間信息的流動(dòng)以增強(qiáng)通道間的關(guān)聯(lián)性,然后使用1×1卷積進(jìn)行通道降維;為防止網(wǎng)絡(luò)性能退化,最后采用殘差結(jié)構(gòu)將輸入特征與提取的輪廓細(xì)節(jié)信息進(jìn)行跳躍連接得到新的特征Fi′∈R128×48×80,在增強(qiáng)特征提取能力的同時(shí),豐富目標(biāo)實(shí)例邊緣輪廓細(xì)節(jié)信息,多細(xì)粒度提取模塊計(jì)算公式為:

      其中:AConv(r,n)表示空洞率r=n的空洞卷積;Cat(?)表示在通道維度進(jìn)行拼接;SN(?)表示通道混洗;Fi表示輸入特征;Fi′表示輸出特征;⊕表示逐元素相加。

      為解決卷積神經(jīng)網(wǎng)絡(luò)中各層級(jí)和通道間信息價(jià)值不等的問(wèn)題,將由不同空洞率提取的多細(xì)粒度特征輸入空間信息聚合模塊生成權(quán)重參數(shù)以調(diào)控各尺度特征。具體地,首先將各層級(jí)特征圖F3′,F(xiàn)4′,F(xiàn)5′在通道維度進(jìn)行拼接生成新的特征F′∈R384×48×80。然后,采用擠壓與激勵(lì)(Squeeze and Excitation)[30]操作計(jì)算特征F?的通道注意力,增強(qiáng)關(guān)鍵通道信息并抑制無(wú)關(guān)冗余信息,提高網(wǎng)絡(luò)對(duì)特征可分辨性。具體地,首先將拼接后的特征F′進(jìn)行擠壓操作,即對(duì)F?進(jìn)行全局平均池化將全局信息壓縮,建立不同通道間的相互依存關(guān)系,得到特征向量T∈R384×1×1。然后,為自動(dòng)獲取每個(gè)特征通道重要程度,并抑制對(duì)當(dāng)前任務(wù)用處不大的低效或無(wú)效的通道信息,將池化后的特征經(jīng)兩個(gè)1×1卷積操作完成特征激勵(lì),為有效降低計(jì)算量,通道壓縮比例設(shè)置為r=4。最后使用Sigmoid函數(shù)生成各通道權(quán)重Z∈R384×1×1,并與原特征Fi′相乘得到特征圖U∈R384×48×80:

      為進(jìn)一步捕捉不同尺度特征信息對(duì)分割任務(wù)的重要性,通過(guò)1×1卷積操作壓縮各尺度特征信息U通道數(shù)為3,利用Softmax函數(shù)進(jìn)行空間信息權(quán)重歸一化,得到權(quán)重矩陣W∈R3×48×80,然后權(quán)重矩陣在通道方向進(jìn)行分割,以此生成特征重要性權(quán)重參數(shù)λ,γ,α∈R1×48×80以調(diào)控各尺度特征,權(quán)重參數(shù)與各尺度特征相乘后得到新的特征L∈R128×48×80:

      最后,將整合后的特征L再次送入多細(xì)粒度提取模塊,通過(guò)擴(kuò)大感受野增強(qiáng)特征全局信息和細(xì)粒度信息提取能力,進(jìn)一步提升網(wǎng)絡(luò)模型分割精度。

      2.4 弱監(jiān)督損失構(gòu)建

      2.4.1 正交損失約束

      基于邊界框的弱監(jiān)督實(shí)例分割模型,用于網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的真實(shí)值僅為邊界框標(biāo)注信息。BoxInst[27]為確保覆蓋生成預(yù)測(cè)mask最小外接框與真實(shí)邊界框相匹配而提出的正交損失函數(shù),通過(guò)邊界框標(biāo)注信息監(jiān)督預(yù)測(cè)mask水平和垂直投影,縮小模型預(yù)測(cè)mask與真實(shí)邊界框的偏差,具體操作如下:

      首先,假設(shè)訓(xùn)練圖像尺寸為W×H,用于網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的真實(shí)邊界框左上角和右下角坐標(biāo)分別為(x1,y1)和(x2,y2)。然后,對(duì)訓(xùn)練圖像建立橫向真實(shí)行矩陣Xgt∈R1×W和縱向真實(shí)值列矩陣Ygt∈RH×1,令行矩陣Xgt的x1至x2位置所對(duì)應(yīng)元素全為1,其余位置元素均為0,列矩陣Ygt的y1至y2位置對(duì)應(yīng)元素為1,其余位置元素均為0。最后,假設(shè)S∈(0,1)H×W為網(wǎng)絡(luò)預(yù)測(cè)mask,S表示該像素點(diǎn)是前景目標(biāo)的概率。計(jì)算預(yù)測(cè)mask分?jǐn)?shù)每行和每列最大值Sn∈(0,1),組成列矩陣Ypre∈RH×1和行矩陣Xpre∈RW×1。為了使預(yù)測(cè)的mask趨近真實(shí)mask,應(yīng)使網(wǎng)絡(luò)預(yù)測(cè)mask與真實(shí)邊界框在軸X,Y軸投影盡可能接近。因此,定義正交損失Lx,Ly如下:

      最后,將X軸和Y軸方向的損失相加得到正交損失Lpre=Lx+Ly。

      2.4.2 顏色相似性損失

      僅通過(guò)正交損失對(duì)初始預(yù)測(cè)mask的約束,可以初步提高預(yù)測(cè)mask質(zhì)量,但存在多個(gè)mask投影到同一真實(shí)邊界框,導(dǎo)致預(yù)測(cè)mask質(zhì)量和精細(xì)化程度下降。受啟發(fā)于顏色相似的相鄰像素間屬于同類(lèi)別概率較高,引入顏色相似性損失對(duì)預(yù)測(cè)mask進(jìn)一步約束。在實(shí)例分割領(lǐng)域中,利用像素顏色差異可以對(duì)復(fù)雜背景中的目標(biāo)對(duì)象進(jìn)行有效區(qū)分,若像素間顏色相似性較高,則這些像素較大概率具有相同實(shí)例標(biāo)簽。因此,通過(guò)確定顏色相似性閾值τ,當(dāng)某兩個(gè)像素點(diǎn)顏色相似性高于τ,則它們標(biāo)簽相同的概率較高,由此引入顏色相似性[27]:

      其中:si,j,sl,k為像素點(diǎn)(i,j)和(l,k)的顏色信息,e表示像素點(diǎn)(i,j)和(l,k)之間的連線,Ce表示(i,j)和(l,k)的顏色相似度,θ是一個(gè)超參數(shù),本文設(shè)置為2,τ值本文設(shè)置為0.3。

      為構(gòu)建顏色相似性損失函數(shù),在圖像上建立一個(gè)無(wú)向圖G=(V,E),其中V表示圖像中所有像素點(diǎn)的集合,E表示代表圖像中兩像素點(diǎn)連線的集合。在計(jì)算像素間兩兩相似性時(shí),采取隔像素采樣的方法以增大感受野,將每個(gè)像素同時(shí)與周?chē)?個(gè)相鄰點(diǎn)計(jì)算顏色相似性,示意圖如圖5所示。

      圖5 顏色相似性損失構(gòu)建Fig.5 Construction of color similarity loss

      定義ye∈(0,1)為邊e的標(biāo)簽,當(dāng)Ce>τ時(shí),ye=1,表示邊緣連接的兩像素具有相同的標(biāo)簽,否則ye=0,表示兩個(gè)像素點(diǎn)標(biāo)簽不同。設(shè)像素(i,j)和(l,k)為邊緣的兩個(gè)端點(diǎn),網(wǎng)絡(luò)預(yù)測(cè)pi,j可以看作像素(i,j)為前景的概率,則ye=1和ye=0的概率分別表示為:

      因此,顏色相似性損失函數(shù)為:

      其中:Ein表示框中至少包含一個(gè)像素的邊的集合,使用Ein代替E可以防止損失被框外無(wú)效像素控制,N是Ein的邊數(shù)。當(dāng)ye=0時(shí),該邊的標(biāo)簽未知,容易對(duì)網(wǎng)絡(luò)造成錯(cuò)誤的監(jiān)督,所以在損失中丟棄(1-ye)logP(ye=0)一項(xiàng),結(jié)合顏色相似性約束,最終損失函數(shù)為:

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集的建立

      本文在Youtube-VIS2019數(shù)據(jù)集基礎(chǔ)上抽取了交通場(chǎng)景中常見(jiàn)的人、摩托車(chē)、滑板、轎車(chē)、卡車(chē)、火車(chē)、狗七個(gè)類(lèi)別目標(biāo)作為本文數(shù)據(jù)集,其中訓(xùn)練集329個(gè)視頻片段,總幀數(shù)7 212幀包含603個(gè)實(shí)例,驗(yàn)證集53個(gè)視頻片段,總幀數(shù)1 097幀包含88個(gè)實(shí)例。本文在訓(xùn)練過(guò)程中僅使用訓(xùn)練集中的邊界框標(biāo)簽和類(lèi)別標(biāo)簽對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,而測(cè)試集使用與全監(jiān)督數(shù)據(jù)集一致像素級(jí)標(biāo)簽、邊界框標(biāo)簽和類(lèi)別標(biāo)簽對(duì)網(wǎng)絡(luò)模型定量分析。

      3.2 實(shí)驗(yàn)配置

      本文實(shí)驗(yàn)平臺(tái)為Ubuntu18.04操作系統(tǒng),CPU為Intel(R) Core(TM) i9-10400F處理器,GPU為NVIDIA GTX 3060顯卡,顯存為12GB的計(jì)算機(jī)。深度學(xué)習(xí)框架為pytorch1.8.0,python版本為3.7、采用CUDA11.1和cuDNN8.0.5加速網(wǎng)絡(luò)模型訓(xùn)練。

      實(shí)驗(yàn)過(guò)程中,將輸入圖像尺寸統(tǒng)一為360×640并將批處理尺寸(Batch Size)設(shè)置為4。在訓(xùn)練階段初始學(xué)習(xí)率設(shè)置為0.000 5、迭代次數(shù)為12Epoch,每個(gè)Epoch輸出一個(gè)模型權(quán)重,對(duì)最后的訓(xùn)練模型的精度和推理速度綜合比較后選出最優(yōu)模型。

      3.3 評(píng)價(jià)指標(biāo)

      本文使用平均精度(Average Precision,AP)和平均召回率(Average Recall,AR)作為網(wǎng)絡(luò)模型的評(píng)價(jià)指標(biāo),而在實(shí)例分割任務(wù)中,常以預(yù)測(cè)值與真實(shí)值的交并比IoU(Intersection over Union,IoU)來(lái)確定算法的評(píng)價(jià)指標(biāo)AP和AR值。視頻例分割中IoU的定義與圖像實(shí)例分割有所不同,較為注重相同實(shí)例在時(shí)序上空間位置的關(guān)聯(lián)情況。給定一個(gè)視頻序列的真實(shí)掩膜mi…j和預(yù)測(cè)掩膜其中i,j代表時(shí)序信息。假如在t幀靜態(tài)圖像中沒(méi)有出現(xiàn)目標(biāo)實(shí)例,那么利用空白掩膜對(duì)該幀信息進(jìn)行填補(bǔ),具體可表示為mt=0或=0,即把IoU從圖像擴(kuò)展到視頻序列,視頻實(shí)例分割I(lǐng)oU計(jì)算公式如式(18)所示:

      其中:a和b分別表示為某個(gè)實(shí)例的真實(shí)值和預(yù)測(cè)值。

      求得IoU之后,按照0.05的增量在0.50至0.95區(qū)間取值10個(gè)IoU作為閾值,AP為這10個(gè)閾值下對(duì)應(yīng)的平均精度的均值,AP(50)和AP(75)分別表示IoU閾值為50%和75%時(shí)的平均精度,AP值越大表示視頻實(shí)例分割效果越好;召回率AR表示真實(shí)分割結(jié)果的所有目標(biāo)像素中被分割出來(lái)的目標(biāo)像素所占的比例,主要衡量模型預(yù)測(cè)正樣本的能力,其中AR1表示每幀圖像按照IoU由高到低選取1個(gè)結(jié)果計(jì)算平均召回率,AR10表示每幀圖像按照IoU由高到低選取10個(gè)結(jié)果計(jì)算平均召回率。相關(guān)計(jì)算公式如下:

      其中:TP表示正確檢測(cè)為正樣本的個(gè)數(shù),F(xiàn)P表示誤檢為正樣本的個(gè)數(shù),F(xiàn)N表示漏檢為正樣本的個(gè)數(shù)。

      3.4 實(shí)驗(yàn)結(jié)果與定量分析

      3.4.1 自適應(yīng)調(diào)控實(shí)驗(yàn)分析

      本節(jié)根據(jù)是否自適應(yīng)更新權(quán)重參數(shù)以及權(quán)重是否歸一化將自適應(yīng)調(diào)控模塊設(shè)計(jì)為3類(lèi),分別為對(duì)FPN中高低層特征賦予常量α1和α2的權(quán)重平衡模型(Weight Balance Model,WBM)、對(duì)高低層特征賦予初始化為1的自適應(yīng)權(quán)重未歸一化模型(Weight Unnormalization Model,WUM)和初始化為1的自適應(yīng)權(quán)重歸一化模型(Weight Normalization Madel,WNM),并對(duì)三類(lèi)模型進(jìn)行實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表1所示。

      表1 不同權(quán)重實(shí)驗(yàn)結(jié)果對(duì)比Tab.1 Comparison of experimental results with different weights

      從表1可知,WBM將高低層特征賦予常量α1和α2的權(quán)重,由于高低層特征對(duì)網(wǎng)絡(luò)分割任務(wù)的貢獻(xiàn)度不等,人為賦值權(quán)重α1和α2需要大量調(diào)參實(shí)驗(yàn)才能取得最優(yōu)解,當(dāng)人為賦值α1=1,α2=0.25時(shí),網(wǎng)絡(luò)平均分割精度為34.8%,相較于Box-CrossVIS基準(zhǔn)提升了1.8%。WUM由于自適應(yīng)生成的權(quán)重參數(shù)未進(jìn)行歸一化處理,會(huì)導(dǎo)致權(quán)重參數(shù)過(guò)大引起網(wǎng)絡(luò)梯度爆炸,平均分割精度為33.4%,較Box-CrossVIS提升了0.4%。WNM將自適應(yīng)權(quán)重進(jìn)行歸一化處理,使模型根據(jù)數(shù)據(jù)特征分布來(lái)自行決定特征權(quán)重,強(qiáng)化了對(duì)目標(biāo)局部位置和整體輪廓的聚焦能力,在自適應(yīng)調(diào)控模塊中平均分割精度達(dá)到最高35.6%,較Box-CrossVIS提升了2.6%。因此本文選擇初始化為1的自適應(yīng)權(quán)重歸一化模型WNM作為自適應(yīng)調(diào)控模塊的最終模型。

      為解釋自適應(yīng)調(diào)控模塊的工作機(jī)理以及對(duì)最終分割結(jié)果的有效性,本文對(duì)特征金字塔網(wǎng)絡(luò)的最低層特征F3進(jìn)行熱力圖可視化分析。熱力圖可以直觀反映模型在圖像上的關(guān)注區(qū)域,熱力圖內(nèi)顏色越深,表明模型對(duì)該區(qū)域的關(guān)注程度越高。如圖6所示(彩圖見(jiàn)期刊電子版),(a)為模型輸入的原圖像、(b)和(c)分別為Box-CrossVIS基準(zhǔn)網(wǎng)絡(luò)和嵌入ARM模塊后的熱力映射圖。圖(b)中紅色高亮感興趣區(qū)域除了集中在前景目標(biāo)上之外,還擴(kuò)散到背景目標(biāo)上,對(duì)分割任務(wù)存在一定的干擾。圖(c)中紅色高亮區(qū)域明顯集中于需要精確分割的前景目標(biāo)上,并對(duì)背景進(jìn)行抑制,引導(dǎo)網(wǎng)絡(luò)在特征提取過(guò)程中重點(diǎn)關(guān)注目標(biāo)實(shí)例特征信息,明顯地減少了無(wú)關(guān)區(qū)域的特征權(quán)重占比。說(shuō)明嵌入自適應(yīng)調(diào)控模塊后,網(wǎng)絡(luò)能有效學(xué)到感興趣區(qū)域信息,并對(duì)前景重要目標(biāo)特征予以關(guān)注,增強(qiáng)了網(wǎng)絡(luò)分割效果。3.4.2 生成調(diào)控模塊實(shí)驗(yàn)分析

      圖6 熱力圖可視化對(duì)比Fig.6 Visual Comparison of heat map

      為獲取最佳的多層級(jí)特征細(xì)粒度空間信息聚合效果,實(shí)驗(yàn)中對(duì)特征提取階段輸出的5個(gè)特征層按逐層遞增順序進(jìn)行了不同尺度的融合實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

      結(jié)果表明,當(dāng)生成調(diào)控模塊對(duì)輸入特征F3和F4進(jìn)行聚焦融合時(shí),模型平均分割精度為34.9%,較基準(zhǔn)網(wǎng)絡(luò)Box-CrossVIS提升1.9%。當(dāng)生成調(diào)控模塊對(duì)輸入特征F6和F7聚焦融合時(shí),模型平均分割精度僅為17.6%,較基準(zhǔn)網(wǎng)絡(luò)Box-CrossVIS降低15.4%。當(dāng)輸入的特征圖層數(shù)為3時(shí),F(xiàn)3,F(xiàn)4和F5三個(gè)特征層聚合多細(xì)粒度空間信息生成權(quán)重參數(shù)以調(diào)控各尺度特征(GRM)取得了最好的分割效果,模型平均分割精度達(dá)到35.6%,較基準(zhǔn)網(wǎng)絡(luò)Box-CrossVIS提升2.6%。當(dāng)輸入特征圖層數(shù)為3和4時(shí),模型平均分割精度分別為34.6%和34.2%,相較于基準(zhǔn)Box-CrossVIS分割精度分別提升1.6%和1.2%。綜上所述,當(dāng)生成調(diào)控模塊對(duì)輸入特征F3,F(xiàn)4或F3,F(xiàn)4和F5進(jìn)行聚焦融合時(shí),模型平均分割精度均有不同程度的提升,但隨著高層特征F6和F7的加入,模型平均分割精度隨層數(shù)增加有所降低,且當(dāng)生成調(diào)控模塊僅聚焦融合高層特征F6和F7時(shí),模型平均分割精度有較大降低。充分說(shuō)明低層特征F3,F(xiàn)4,F(xiàn)5對(duì)邊界輪廓特征信息貢獻(xiàn)度較大,而高層F6,F(xiàn)7對(duì)邊界輪廓特征信息貢獻(xiàn)度偏低。

      為了更直觀突顯生成調(diào)控模塊在交通場(chǎng)景視頻序列中對(duì)障礙物實(shí)例邊緣細(xì)節(jié)信息提取的有效性,本文選擇對(duì)mask預(yù)測(cè)分支的輸入特征圖進(jìn)行可視化分析??紤]到該特征包含128個(gè)通道維度,分別提取Box-CrossVIS基準(zhǔn)模型與嵌入GRM模塊后模型的第一層通道特征進(jìn)行可視化分析以保證對(duì)比條件的一致性,引入GRM模塊前后特征圖可視化對(duì)比結(jié)果如圖7所示。從圖(b)可視化結(jié)果可以看出,Box-CrossVIS提取的特征圖實(shí)例邊緣輪廓粗糙,前景與背景對(duì)比度不明顯,而從圖(c)可以看出,嵌入生成調(diào)控模塊后,模型對(duì)前景目標(biāo)實(shí)例的邊緣輪廓特征提取能力明顯高于基準(zhǔn)模型,增大了背景與前景的反差對(duì)比度,優(yōu)化了模型對(duì)目標(biāo)邊緣輪廓的定位準(zhǔn)確性,有效減少圖像邊緣信息丟失。結(jié)果表明生成調(diào)控模塊可以通過(guò)注意力機(jī)制聚合基于不同空洞卷積率提取的多細(xì)粒度空間信息,細(xì)化了實(shí)例邊緣輪廓,有效彌補(bǔ)邊緣輪廓分割mask連續(xù)性缺失,提高了本文算法的分割精度。

      圖7 特征圖可視化結(jié)果Fig.7 Visualization of characteristic image

      3.4.3 不同網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對(duì)比

      考慮到弱監(jiān)督視頻實(shí)例分割相關(guān)工作較少,本文選擇全監(jiān)督網(wǎng)絡(luò)YolactEdge,STMask,CrossVIS與本文模型做對(duì)比,以客觀評(píng)價(jià)SAGRNet模型對(duì)交通場(chǎng)景障礙物識(shí)別分割任務(wù)的優(yōu)越性。為保證驗(yàn)證結(jié)果有效性和公平性,對(duì)比實(shí)驗(yàn)均在同一設(shè)備上開(kāi)展且使用同一數(shù)據(jù)集,算法性能對(duì)比如表3所示。

      表3 不同模型的實(shí)驗(yàn)結(jié)果對(duì)比Tab.3 Comparison of experimental results of different models

      結(jié)果表明,本文模型SAGRNet平均分割精度最高達(dá)到38.1%,較弱監(jiān)督Box-CrossVIS基準(zhǔn)網(wǎng)絡(luò)分割精度提升5.1%,較全監(jiān)督網(wǎng)絡(luò)YolactEdge分割精度提升2.1%,但平均分割速度降低了11FPS;與全監(jiān)督網(wǎng)絡(luò)CrossVIS和STMask網(wǎng)絡(luò)相比,分割精度分別降低僅2.5%和1.9%,但數(shù)據(jù)集的標(biāo)注成本卻有大幅度降低。綜上所述,本文算法能在弱監(jiān)督條件下取得與部分全監(jiān)督網(wǎng)絡(luò)相當(dāng)?shù)姆指钚Ч?,?yàn)證了本文改進(jìn)算法SAGRNet的優(yōu)越性。

      3.4.4 SAGRNet消融實(shí)驗(yàn)

      為驗(yàn)證各改進(jìn)模塊在交通場(chǎng)景數(shù)據(jù)集中針對(duì)目標(biāo)障礙物的有效分割,本文以弱監(jiān)督Box-CrossVIS算法為基準(zhǔn),分別與添加了本文ARM和GRM模塊的不同網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。

      表4 消融實(shí)驗(yàn)結(jié)果Tab.4 Result of ablation experiments

      由表4可知,弱監(jiān)督Box-CrossVIS算法平均分割基準(zhǔn)精度為33.0%。首先,在FPN融合路徑嵌入ARM模塊,改進(jìn)了網(wǎng)絡(luò)高低層特征融合方式,解決了多尺度信息直接融合效率低下的問(wèn)題。結(jié)果表明,嵌入ARM模塊后在平均分割速度保持不變的情況下,平均分割精度達(dá)到35.6%;其次,在mask預(yù)測(cè)分支前添加GRM模塊,通過(guò)注意力機(jī)制聚合基于不同空洞率提取的多細(xì)粒度空間信息進(jìn)行多尺度特征調(diào)控,以有效彌補(bǔ)實(shí)例邊緣信息匱乏導(dǎo)致的邊緣輪廓分割mask連續(xù)性缺失問(wèn)題,分割精度達(dá)到35.6%;最后,將兩種方法組合使用,以38.1%的平均分割精度達(dá)到最優(yōu)結(jié)果,以上模塊比Box-CrossVIS基準(zhǔn)分別提升了2.6%,2.6%和5.1%,驗(yàn)證了本文算法有效性。

      3.4.5 實(shí)驗(yàn)平臺(tái)搭建與驗(yàn)證

      由上述對(duì)比實(shí)驗(yàn)可知,在交通場(chǎng)景數(shù)據(jù)集上,本文提出的算法能夠有效提高模型對(duì)障礙物目標(biāo)的識(shí)別和分割精度。為有效驗(yàn)證SAGRNet算法在交通場(chǎng)景中應(yīng)用的可行性,本文基于輔助駕駛小車(chē)獲取復(fù)雜交通場(chǎng)景下的視頻數(shù)據(jù),并與CrossVIS,Box-CrossVIS算法進(jìn)行對(duì)比驗(yàn)證。該輔助駕駛小車(chē)搭載激光雷達(dá)、毫米波、GPS和攝像機(jī)等設(shè)備,其中獲取視頻數(shù)據(jù)所使用的攝像頭型號(hào)為1080P(SP5268),最大分辨率為1 920×1 080,網(wǎng)絡(luò)分割可視化結(jié)果如圖8所示。對(duì)比(a1),(a2)分割結(jié)果,CrossVIS網(wǎng)絡(luò)生成的mask質(zhì)量?jī)?yōu)秀,邊緣輪廓清晰,而對(duì)于僅使用邊界框進(jìn)行訓(xùn)練的弱監(jiān)督Box-CrossVIS算法,由于監(jiān)督信息減弱導(dǎo)致網(wǎng)絡(luò)難以準(zhǔn)確地挖掘和定位目標(biāo)實(shí)例,造成分割實(shí)例存在邊緣輪廓粗糙、不連續(xù)等問(wèn)題。在(a3)中本文算法SAGRNet通過(guò)聚合基于不同空洞率提取的多細(xì)粒度空間信息改善了實(shí)例邊緣紋理信息丟失的問(wèn)題,實(shí)現(xiàn)了對(duì)目標(biāo)實(shí)例的準(zhǔn)確定位與分割。在(b1),(b2)視頻序列中,均存在行人不完全分割、過(guò)分割的問(wèn)題,在(b3)中由于自適應(yīng)調(diào)控模塊強(qiáng)化了對(duì)目標(biāo)局部位置和整體輪廓的聚焦能力,提高了網(wǎng)絡(luò)對(duì)目標(biāo)實(shí)例的捕捉能力。綜上所述,本文模型SAGRNet相比于Box-CrossVIS而言能更好適應(yīng)交通場(chǎng)景大尺度動(dòng)態(tài)范圍目標(biāo)的分割問(wèn)題,有效降低模型的誤檢率和漏檢率,有更高的檢測(cè)分割精度以及更好的魯棒性。

      圖8 分割結(jié)果可視化Fig.8 Visualization of segmentation results

      4 結(jié) 論

      本文針對(duì)輔助駕駛車(chē)輛對(duì)復(fù)雜交通場(chǎng)景下多目標(biāo)感知和場(chǎng)景理解的需求,提出一種自適應(yīng)生成調(diào)控弱監(jiān)督視頻實(shí)例分割算法SAGRNet。首先,引入正交損失和顏色相似性損失代替CrossVIS實(shí)例mask分割損失,利用邊界框信息監(jiān)督網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)基于邊界框的弱監(jiān)督視頻實(shí)例分割Box-CrossVIS;其次,引入自適應(yīng)調(diào)控模塊強(qiáng)化對(duì)目標(biāo)局部位置和整體輪廓的聚焦能力,增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度變化情況下前景目標(biāo)的感知能力;最后,設(shè)計(jì)生成調(diào)控模塊聚合多細(xì)粒度空間信息,彌補(bǔ)邊緣輪廓分割mask連續(xù)性缺失問(wèn)題。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文算法能有效提高輔助駕駛車(chē)輛對(duì)復(fù)雜交通場(chǎng)景下多目標(biāo)障礙物的檢測(cè)和分割精度,平均分割精度達(dá)到38.1%,較Box-CrossVIS模型提高5.1%,且在2080Ti上最高分割速度可達(dá)36 FPS,能夠滿(mǎn)足實(shí)時(shí)檢測(cè)分割需求。此外,本文還搭建了輔助駕駛小車(chē)實(shí)驗(yàn)平臺(tái)驗(yàn)證本文算法的可行性。

      盡管已經(jīng)取得了顯著的進(jìn)展,本文算法仍存在進(jìn)步空間。一方面,輔助駕駛車(chē)輛在交通場(chǎng)景下自主行駛時(shí)捕獲的障礙物目標(biāo)普遍存在相互遮擋的情況,嚴(yán)重的遮擋會(huì)帶來(lái)易混淆的遮擋邊界及非連續(xù)自然的物體形狀,影響網(wǎng)絡(luò)對(duì)物體整體結(jié)構(gòu)的判斷,出現(xiàn)欠分割或錯(cuò)分現(xiàn)象,網(wǎng)絡(luò)抗干擾能力有待提高;另一方面,本文算法僅依靠邊界框信息對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,由于監(jiān)督信息的減弱會(huì)面臨局部聚焦,難以準(zhǔn)確地挖掘和定位所有目標(biāo)實(shí)例等問(wèn)題。因此,在正交損失和顏色相似性損失的基礎(chǔ)上,通過(guò)引入光流等相關(guān)技術(shù)獲取視頻序列中的外觀和運(yùn)動(dòng)信息對(duì)初始預(yù)測(cè)mask進(jìn)一步約束,縮小視覺(jué)弱監(jiān)督學(xué)習(xí)與全監(jiān)督學(xué)習(xí)的性能差異,并將其應(yīng)用于實(shí)際的視覺(jué)理解應(yīng)用,仍然是未來(lái)視覺(jué)弱監(jiān)督視頻實(shí)例分割研究的重點(diǎn)。

      猜你喜歡
      實(shí)例卷積精度
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      GPS/GLONASS/BDS組合PPP精度分析
      改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
      完形填空Ⅱ
      完形填空Ⅰ
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      巧用磨耗提高機(jī)械加工精度
      河南科技(2014年14期)2014-02-27 14:11:53
      伊春市| 长汀县| 昌都县| 叶城县| 内黄县| 贺兰县| 昆山市| 应城市| 南康市| 象山县| 秦皇岛市| 满洲里市| 汶上县| 金塔县| 玉龙| 凤阳县| 永德县| 太仓市| 宿州市| 阿瓦提县| 龙口市| 阳谷县| 门源| 巴东县| 高邮市| 屏南县| 蒙城县| 深州市| 满洲里市| 洮南市| 准格尔旗| 乳山市| 利川市| 岳池县| 贵州省| 新乡县| 仁怀市| 开江县| 清徐县| 方山县| 巴楚县|