郭恩強(qiáng) 符鋅砂
(華南理工大學(xué) 土木與交通學(xué)院,廣東 廣州 510640)
拋灑物因可預(yù)見性差、事故危害大、二次事故誘發(fā)幾率高等特點成為了影響交通安全的突出隱患[1],已引起交通從業(yè)人員的廣泛關(guān)注。于此同時,隨著圖像處理技術(shù)的日益成熟,以圖像處理算法為核心的視頻交通事件監(jiān)控讓拋灑物的實時預(yù)警和快速處理成為了可能,這不僅有利于維護(hù)交通的穩(wěn)定通暢,而且能有效保障人民的生命財產(chǎn)安全使之不受威脅。
傳統(tǒng)基于圖像處理的拋灑物檢測算法通常采用圖像差分的方式,其核心思想是將拋灑區(qū)域視為前景,非拋灑區(qū)域設(shè)定為背景,通過幀間區(qū)域的變化對比實現(xiàn)拋灑物識別。在此背景下,李清瑤、Din、Zeng等[2-4]提出背景差分和幀間差分融合的方法,先利用像素區(qū)域的幀間變化獲取目標(biāo)前景,再根據(jù)前景的運(yùn)動軌跡或運(yùn)動狀態(tài)完成拋灑物確認(rèn)。為了增強(qiáng)算法對復(fù)雜環(huán)境的抗干擾能力,夏瑩杰、Fu等[5-6]提出了基于高斯混合模型的動態(tài)背景建模方法,進(jìn)行背景快速迭代,以達(dá)到適應(yīng)環(huán)境快速變化的目的。汪貴平等[7]將抑制車輛陰影算法融入至前景檢測,降低因陰影產(chǎn)生的拋灑物誤報。上述方法在單一噪聲下取得不錯的效果,但受限于底層特征孱弱的表達(dá)能力,傳統(tǒng)方法很難應(yīng)對多種噪聲干擾(例如光線突然變化、雨水反光、樹葉晃動等),導(dǎo)致算法泛化性能差,容易產(chǎn)生虛警誤報。
近年來,深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域取得重大突破,該算法借助于強(qiáng)大的特征表達(dá)能力,將圖像分類、目標(biāo)檢測等算法性能指標(biāo)推向前所未有的高度。在此背景下,研究人員嘗試采用目標(biāo)檢測算法對拋灑物進(jìn)行識別。其中,金瑤等[8]對YOLOV3模型進(jìn)行多尺寸模塊改造,實現(xiàn)對石頭、木塊、落葉等拋灑物體識別;章悅等[9]利用CenterMask模型對石塊、廢棄紙盒等4類拋灑物進(jìn)行定位和識別。借助于主流目標(biāo)檢測算法的優(yōu)良性能,此類方法在特定的拋灑物類別識別上達(dá)到了非常高的精度。但該方法依舊存在應(yīng)用的局限性,其中最突出的問題在于方法和應(yīng)用場景之間存在天然的矛盾:一方面,交通場景的開放性和不確定性決定了拋灑物測試數(shù)據(jù)是開集合,并且類別數(shù)不可窮舉;另一方面,主流目標(biāo)檢測算法只能識別訓(xùn)練數(shù)據(jù)涵蓋的類別,當(dāng)場景出現(xiàn)訓(xùn)練數(shù)據(jù)不存在的類別時,該方法無法識別“新類別”。如何突破方法的局限,將深度學(xué)習(xí)更好地應(yīng)用于拋灑物檢測是值得探究的問題。
遵循基于圖像差分的拋灑物檢測方法的核心思想,拋灑物的出現(xiàn)必然會導(dǎo)致參考圖像與待檢圖像之間產(chǎn)生外觀差異,因此如何更準(zhǔn)確地度量圖像之間差異是解決該任務(wù)的關(guān)鍵。近幾年,特征相似性學(xué)習(xí)廣泛應(yīng)用于人臉驗證、圖片匹配、變化檢測等計算機(jī)視覺任務(wù),此類方法通過孿生卷積神經(jīng)網(wǎng)絡(luò)將兩張圖像從樣本空間映射至特征空間形成特征對,然后通過計算特征對的歐式距離等度量指標(biāo)量化圖像區(qū)域的相似程度。以特征相似性學(xué)習(xí)的視角重新審視拋灑物檢測任務(wù),首先將拋灑物區(qū)域定義為外觀特征不相似,背景區(qū)域定義為外觀特征相似,然后通過識別特征不相似的區(qū)域完成拋灑物定位。不難看出,基于特征相似性學(xué)習(xí)的拋灑物檢測方法巧妙地將拋灑物檢測問題轉(zhuǎn)化為局部特征是否相似的二分類決策任務(wù),可有效推廣到“未知”類別的拋灑物識別,避免了基于目標(biāo)檢測方法的類別局限。
在此基礎(chǔ)上,復(fù)雜多變外界環(huán)境產(chǎn)生的噪聲干擾(光照變化、車輛快速運(yùn)動等)與拋灑物產(chǎn)生特征纏繞依舊是亟需解決的難題。針對這一問題,本研究在特征相似性學(xué)習(xí)的基礎(chǔ)框架下加入了注意力掩膜單元,目的是利用注意力掩膜排除背景區(qū)域的噪聲干擾,引導(dǎo)特征響應(yīng)聚焦于拋灑物引起的變化,同時忽視噪聲產(chǎn)生的擾動,進(jìn)而提升特征的語義表達(dá)性能。為進(jìn)一步加強(qiáng)注意力掩膜對拋灑物和噪聲干擾的語義判別性能,本研究還提出利用特征序列狀態(tài)轉(zhuǎn)移的方式構(gòu)建長跨度上下文信息以及強(qiáng)監(jiān)督的學(xué)習(xí)方法,實驗證明該方法有效提升了拋灑物檢測率。
綜上所述,針對訓(xùn)練數(shù)據(jù)閉合性、類別有限與真實場景開放性、類別不可窮舉之間的矛盾,本研究提出了基于特征相似性學(xué)習(xí)的拋灑物檢測框架。在此基礎(chǔ)上,本研究融入了全新的注意力掩膜單元,并通過構(gòu)建長跨度上下文信息和強(qiáng)監(jiān)督學(xué)習(xí)的方式提升注意力掩膜的語義判別性能,引導(dǎo)特征響應(yīng)聚焦于拋灑物區(qū)域,有效解決了光照變化等噪聲干擾與拋灑物在特征空間的纏繞問題。本研究通過精度指標(biāo)對比證明該方法有效提升了特征語義判別性能,確保算法在復(fù)雜場景下依舊具有較強(qiáng)的抗噪聲干擾能力。
本研究的算法檢測思路如下:首先對實時視頻流按照K幀間隔(本研究將K設(shè)置為16)進(jìn)行圖像對采集,將當(dāng)前幀(記為T1時刻圖像)設(shè)定為待檢圖像,前K幀(記為T0時刻圖像)設(shè)定為參考圖像,然后對待檢圖像和參考圖像進(jìn)行逐區(qū)域比較。假如幀間有物體拋出,那么待檢圖像和參考圖像之間一定存在外觀特征的差異,可通過識別外觀差異完成拋灑物檢測。可以看出,準(zhǔn)確量化外觀特征差異是識別拋灑物的關(guān)鍵。
為了準(zhǔn)確描述外觀特征之間的差異,本研究提出了基于特征相似性學(xué)習(xí)的拋灑物檢測基礎(chǔ)框架(Dropped Objcet Detection Network,以下簡稱為DODNet)。如圖1所示,DODNet主要包括基于孿生卷積神經(jīng)網(wǎng)絡(luò)的主干(backbone)模塊、基于注意力機(jī)制的特征增強(qiáng)頸項(neck)模塊以及基于特征相似性對比的網(wǎng)絡(luò)輸出(head)結(jié)構(gòu)。在主干模塊部分,本研究選用參數(shù)共享的孿生網(wǎng)絡(luò),通過卷積操作分別對T0時刻參考圖像和T1時刻待檢圖像進(jìn)行特征提取,并得到特征和。其中,采用孿生網(wǎng)絡(luò)的目的是保證參考圖像和待檢圖像之間的外觀特征差異只與圖像信息有關(guān),而和模型參數(shù)無關(guān)。在主干模塊提取的特征基礎(chǔ)之上,引入基于注意力掩膜單元(Attention Masking Unit,以下簡稱為AMU)的特征增強(qiáng)頸項模塊。該模塊目的是通過生成的注意力掩膜引導(dǎo)特征響應(yīng)聚焦于拋灑物區(qū)域,從而排除光線、雨滴等瞬時自然環(huán)境變化以及車輛快速移動引發(fā)的語義混淆,提升算法的抗干擾能力。具體操作中,AMU會生成3個不同層級的注意力響應(yīng)圖{,,},通過權(quán)重聚合的方式生成增強(qiáng)特征和。最后,在網(wǎng)絡(luò)輸出模塊部分,網(wǎng)絡(luò)采用相似性對比的方式,利用歐式距離量化圖像特征和之間的差異。最后通過固定閾值二值化決策的方式將距離值較大的區(qū)域判定為拋灑物,得到最終的結(jié)果圖。
圖1 基于相似性學(xué)習(xí)的拋灑物檢測算法基礎(chǔ)框架Fig.1 Detailed architecture of dropped object detection network based on similarity learning
注意力掩膜單元(以下簡稱AMU)基本結(jié)構(gòu)如圖2所示。為了方便闡述,本研究將T0時刻圖像特征和T1時刻圖像特征記為F。如圖2所示,AMU通過特征通道分離操作將輸入特征F按通道數(shù)平均切分為FEN和FA,并分別流向兩個分支:特征編碼分支和注意力分支。其中特征編碼分支通過常規(guī)的卷積核單元將輸入特征FEN映射為特征FDE,而注意力分支則將輸入特征FA映射稱為注意力掩膜MAtt。在此基礎(chǔ)上,將特征FDE和MAtt按照式(1)進(jìn)行加權(quán)聚合得到增強(qiáng)特征:
圖2 注意力掩膜單元示意圖Fig.2 An illustration of the proposed attention mask unit
其中,?表示為逐元素相乘,MAtt取值范圍為[0,1]。由于MAtt權(quán)重響應(yīng)反映了不同區(qū)域信息的重要程度,因此加權(quán)聚合生成的特征FAtt能夠關(guān)注到最重要的特征信息,這對模型抗干擾能力的提升至關(guān)重要。
如上文所提,注意力分支的作用在于生成一張注意力掩膜MAtt,并且掩膜權(quán)重響應(yīng)應(yīng)聚焦于最相關(guān)的特征信息。依據(jù)文獻(xiàn)[10-12]的研究結(jié)論,搜索最相關(guān)的特征信息的前提在于盡可能地利用長跨度的上下文信息。為了實現(xiàn)這一目的,本研究將采用特征序列狀態(tài)轉(zhuǎn)移方式構(gòu)建進(jìn)行上下文信息構(gòu)建。具體操作中,將特征圖的每一行或列看作是一維序列,利用門控循環(huán)單元[13](以下簡稱GRU)的狀態(tài)轉(zhuǎn)移矩陣將前一個空間位置的特征信息轉(zhuǎn)移至下一個空間位置,此時每一行或列的特征均建立了長跨度的上下文信息依賴。GRU推理過程如式(2)-(5)所示:
其中,⊙表示的是逐像素相乘運(yùn)算,σ代表Sigmoid函數(shù)。xt、ht分別表示t時刻原始輸入和隱層特征,rt為重置門,zt為更新門。{Wz,Wr,Wh,Uz,Ur,Wh}均為狀態(tài)轉(zhuǎn)移矩陣,{bz,br,bh}均為偏置向量,隱層狀態(tài)ht和記憶單元?均通過狀態(tài)轉(zhuǎn)移矩陣進(jìn)行更新。為方便描述,可將式(2)-(5)簡寫為G(·),具體如式(6)所示:
其中,W={Wz,Wr,Wh,Uz,Ur,Wh,bz,br,bh}代表了整個計算模塊的狀態(tài)轉(zhuǎn)移矩陣和偏置向量。
參照式(6)的形式,本研究將時間序列上下文信息依賴轉(zhuǎn)化成空間位置序列的上下文信息構(gòu)建,其中t時刻的原始輸出xt轉(zhuǎn)變?yōu)榭臻g位置p的特征xp,t-1時刻的隱藏特征ht-1轉(zhuǎn)變?yōu)榍耙粋€空間位置p-1的上下文信息Cp-1,t時刻的隱藏特征ht轉(zhuǎn)變?yōu)榭臻g位置p的上下文信息Cp??臻g位置p的上下文信息計算如式(7)所示:
為了使每一個空間位置得到更為全局的視野,本研究提出四方向上下文信息編碼模塊,即對特征圖上下左右四個方向均進(jìn)行長跨度上下文編碼操作。具體操作如圖3所示,首先利用特征通道分離操作將輸入特征FA按通道數(shù)切分為4組特征{F↑;F↓;F→;F←},其中F↑、F↓、F→、F←分別表示按照自下向上、自上向下、自左向右及自右向左總計4個方向進(jìn)行上下文信息編碼。在切分特征{F↑;F↓;F→;F←}基礎(chǔ)上,對任意空間位置p特征{Fp↑;Fp↓;Fp→;Fp←},按照式(7)分別進(jìn)行上下文信息編碼,得到上下文信息4個方向上下文信息計算如式(8)-(11)所示:
圖3 注意力分支示意圖Fig.3 An illustration of the proposed attention branch
在4個方向上下文信息編碼基礎(chǔ)上,沿通道方向進(jìn)行維度連接得到更為全局的上下文信息C,并根據(jù)式(12)對空間注意力掩膜進(jìn)行計算:
其中,σ表示Sigmoid函數(shù),φGAP表示全局池化層,φBN表示批歸一化,表示為1×1卷積核。
本文方法的訓(xùn)練損失包括對比損失和注意力響應(yīng)強(qiáng)監(jiān)督損失兩部分。其中,對比損失函數(shù)是深度度量學(xué)習(xí)領(lǐng)域非常重要的約束函數(shù),廣泛地應(yīng)用于人臉認(rèn)證[14]、行人再識別[15]、無監(jiān)督學(xué)習(xí)[16]等領(lǐng)域,詳細(xì)計算如式(13)所示。
式中:{,}表示不同時刻{T,T}在位置i的01特征對,D{,}表示樣本i的歐式距離度量值。yi代表空間位置i的特征對標(biāo)簽值,其中,yi=1表示位置i為拋灑物區(qū)域,yi=0則表示位置i為背景區(qū)域。m1、m2分別為間隔閾值,本研究將m1設(shè)置為0,將m2設(shè)置為2。從式(13)可以看出,該函數(shù)優(yōu)化的本質(zhì)是通過降低總體損失數(shù)值,促使拋灑物特征對距離趨向于間隔值m2,同時背景區(qū)域特征對距離趨向另一個間隔值m1,最終達(dá)到最大化拋灑物特征差異的同時最小化背景區(qū)域特征差異的目的。
注意力掩膜的強(qiáng)監(jiān)督損失是另一個重要的損失函數(shù),該損失用于對注意力響應(yīng)預(yù)測的優(yōu)化,目的是確保注意力掩膜能夠準(zhǔn)確聚焦于拋灑物區(qū)域,最大程度地降低噪聲干擾的影響。本研究將采用二階回歸函數(shù)進(jìn)行損失計算,具體如式(14)所示:
式中:yi表示空間位置i對應(yīng)的標(biāo)簽值,ali表示第l層注意力掩膜在位置i的預(yù)測值,LAtt為所有層(N=3)的均方差損失總和。最后,本研究最終的損失函數(shù)L由對比損失LC和注意力響應(yīng)損失LAtt組成,并按照式(15)進(jìn)行計算。
實驗數(shù)據(jù)來源于廣東省的多條高速公路產(chǎn)生的拋灑物視頻監(jiān)控影像。依據(jù)算法設(shè)定,數(shù)據(jù)將含有拋灑物圖像設(shè)定為待檢圖像XT1,將該拋灑物落地前K幀圖像(本研究將K設(shè)置為16)設(shè)定為參考圖像。為了滿足場景的真實性和復(fù)雜多樣性的要求,采集數(shù)據(jù)涵蓋了多個天氣場景,包括晴天、雨天、霧天、雨滴鏡頭等多個場景。具體場景類別分布如圖4(a)所示,其中晴天(39%)、陰天(27%)、雨天(14%)比重較大,雨滴鏡頭(11%)及霧天(9%)也占據(jù)一定比例。于此同時,拋灑物涵蓋了多個細(xì)粒度物體類別,例如塑料泡沫、紙箱、輪胎、石塊、瓶子等。拋灑物各類別比例分布如圖4(b)所示,其中拋灑物類別占比較多的包括塑料物(25%)、桶類(18%)、紙箱(15%)及輪胎(13%),其他類別拋灑物主要包含線纜、瓶子等。
圖4 數(shù)據(jù)集天氣場景及拋灑物類別占比分布Fig.4 Distribution of the weather scenes and dropped objects by class
在數(shù)據(jù)采集的基礎(chǔ)上,對拋灑物進(jìn)行像素級標(biāo)注。具體將拋灑物區(qū)域的像素值設(shè)置為1,其他區(qū)域均當(dāng)成背景標(biāo)注為0。圖5示出了拋灑物主要類別的樣例,其中紅色掩膜為拋灑物。為了提升算法的泛化能力,本研究對部分原始參考圖像進(jìn)行數(shù)據(jù)增廣,增廣的方法包括添加高斯噪聲、模糊化等操作及拋灑樣本隨機(jī)粘貼等,具體效果如圖6所示。最終的數(shù)據(jù)集中共包含1 682組圖像,訓(xùn)練集、驗證集、測試集分別按7∶1∶2的比例進(jìn)行分配。
圖5 拋灑物類別標(biāo)注示例Fig.5 Examples of dropped object annotation by class
圖6 數(shù)據(jù)增廣示例Fig.6 Examples of data augmentation
所有實驗均在GTX TITAN1080顯卡硬件條件下搭建,訓(xùn)練及測試代碼使用Pytorch[17]框架。實驗用的基礎(chǔ)模型為ImageNet預(yù)訓(xùn)練的ResNet50[18],采用的網(wǎng)絡(luò)參數(shù)設(shè)置如下:圖像輸入尺寸統(tǒng)一縮放為480×320,訓(xùn)練時的批量大小為1,訓(xùn)練階段將采用隨機(jī)梯度下降(SGD)的訓(xùn)練方式,訓(xùn)練批次設(shè)置為60次。初始學(xué)習(xí)率設(shè)置為10-6,訓(xùn)練階段的學(xué)習(xí)率按照指數(shù)衰退方式[18]進(jìn)行調(diào)整。
在模型性能方面,本研究采用4個指標(biāo)進(jìn)行評價,包括準(zhǔn)確性指標(biāo):精確率P、召回率R、調(diào)和均值F1,以及實時性指標(biāo):運(yùn)行時間。其中準(zhǔn)確性指標(biāo)計算方式如式(16)-(18)所示:
其中,P表示精確率,R表示召回率,NTP表示被正確分類為正樣本的個數(shù),NFP表示被錯誤分類為正樣本的個數(shù),NFN表示被錯誤分類為負(fù)樣本的個數(shù)。F1是綜合考慮精確率和召回率后的評價指標(biāo),F(xiàn)1取值范圍為0~1,其數(shù)值越大則代表模型精度越高。
本研究將DODNet與多個主流算法進(jìn)行性能評價指標(biāo)對比。對照組算法分為傳統(tǒng)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的方法,其中傳統(tǒng)方法包括幀間差分[1]和高斯混合模型[5](簡稱GMM);而基于卷積神經(jīng)網(wǎng)絡(luò)的方法有:FCN-FSL[19]、UNet-FSL[20]、DeeplabV3-FSL[21]、RefineNet-FSL[22]和DRN-FSL[23]等主流卷積神經(jīng)網(wǎng)絡(luò)算法,其中FSL指特征相似性學(xué)習(xí)。詳細(xì)結(jié)果如表1所示。
表1 DODNet與主流算法在不同場景下的性能評價指標(biāo)對比Table1 Performance comparison of DODNet with other popular methods under various conditions
在準(zhǔn)確性指標(biāo)方面,基于底層特征的傳統(tǒng)方法表現(xiàn)較差,尤其是在雨天、霧天、雨滴鏡頭等復(fù)雜場景,算法的檢測精確率遠(yuǎn)低于基于卷積神經(jīng)網(wǎng)絡(luò)的檢測算法,其中在調(diào)和均值方面,DODNet模型比幀間差分算法提升49.0個百分點,比GMM算法提升42.7個百分點;于此同時,在主干結(jié)構(gòu)幾乎相同的情況下,由于注意力機(jī)制的引入,DODNet在各場景的檢測精度高于基于主流的卷積神經(jīng)網(wǎng)絡(luò)的拋灑物算法,其中DODNet模型比FCNFSL模型提升21.4個百分點,比UNet-FSL模型提升14.9個百分點,比DeeplabV3-FSL模型提升8.1個百分點,比RefineNet-FSL模型提升5.9個百分點,比DRN-FSL模型提升3.7個百分點。與此同時,在實時性指標(biāo)方面,注意力機(jī)制的引入使得DODNet模型體量和計算復(fù)雜度增大,導(dǎo)致檢測速度相對變慢,但每秒檢測幀數(shù)仍能穩(wěn)定在30幀左右,可以滿足監(jiān)控環(huán)境下的實時檢測和及時預(yù)警的要求。
為了更直觀展示算法有效性,本研究分別挑選不同場景下具有代表性的圖片進(jìn)行結(jié)果可視化對比,具體如圖7所示。通過對比可以看到,傳統(tǒng)方法對復(fù)雜環(huán)境變化和目標(biāo)快速運(yùn)動等因素的抗干擾能力差,尤其是晴天場景下的模糊噪聲、陰天場景下的高斯噪聲、雨滴鏡頭場景下掉落雨滴造成的外觀特征變化,均嚴(yán)重影響算法檢測精度。在基于卷積神經(jīng)網(wǎng)絡(luò)算法方面,由于FCN-FSL和UNet-FSL采用性能較弱的VGG16,模型在復(fù)雜場景下容易出現(xiàn)“鬼影”誤檢區(qū)域。而在主干結(jié)構(gòu)均為ResNet50的前提下,融入注意力機(jī)制DODNet算法識別的拋灑物區(qū)域輪廓更為準(zhǔn)確,并且?guī)缀醪淮嬖谌魏蝹侮栃哉`檢區(qū)域,這說明注意力掩膜有效排除了復(fù)雜環(huán)境產(chǎn)生的噪聲干擾,極大提高了特征的語義判別性能。
圖7 不同場景下本研究所提算法與主流算法的結(jié)果Fig.7 Results of the proposed algorithm and baseline methods under different conditions
3.3.1 有無注意力掩膜單元的對比
為驗證注意力掩膜單元對拋灑物檢測效果的提升,本節(jié)將針對有無注意力掩膜這一變量進(jìn)行消融試驗對比,并設(shè)計兩個模型:DODNet-w/oAT和DODNet-ConvUnit。其中DODNet-w/oAT表示未添加注意力掩膜單元的DODNet模型,DODNet-ConvUnit表示在DODNet-w/oAT基礎(chǔ)上疊加了與注意力掩膜單元參數(shù)體量接近的卷積核單元(ConvUnit)。ConvUnit具體由3層1×1×512×512的卷積層、最大池化層和ReLU激活函數(shù)組成。為了保證對比試驗的公平性,DODNet不對注意力掩膜使用強(qiáng)監(jiān)督學(xué)習(xí)。
結(jié)果對比如表2所示,DODNet-w/oAT模型的調(diào)和均值指標(biāo)F1為72.3%,加入注意力掩膜單元后,DODNet模型的精確度、召回率以及調(diào)和均值指標(biāo)得到顯著提升,其中精確度提高了8.7個百分點,召回率提升4.2個百分點,調(diào)和精度指標(biāo)提升6.4個百分點。于此同時,在調(diào)和均值方面,DODNet-ConvUnit比DODNet-w/oAT模型提升0.5個百分點??梢钥吹?,卷積核單元的引入會帶來精度的些許提升,但與接近體量的注意力掩膜單元相比,精度提升并不明顯。這說明,注意力掩膜單元精度提升的原因不在于參數(shù)體量的增加,而是在于注意力機(jī)制的作用。
表2 DODNet在有無注意力掩膜單元情形下的性能評價指標(biāo)對比Table 2 Performance comparison of DODNet with or without attention mask unit
為進(jìn)一步驗證注意力掩膜單元的有效性,對注意力掩膜單元作用前后的特征進(jìn)行可視化,其中展示特征樣例均為最后1層第84通道的特征圖。如圖8所示,可以看出,在注意力掩膜作用前,特征圖在8(a)示例中隧道墻體、8(b)示例中隧道出口光亮處以及8(c)和8(d)示例中落下的雨滴均存在明顯的響應(yīng),導(dǎo)致背景過于嘈雜,容易產(chǎn)生誤報。而加入注意力掩膜響應(yīng)單元的優(yōu)勢在于,經(jīng)過優(yōu)化得到的注意力圖能夠通過注意力權(quán)重大小自動聚焦于拋灑物區(qū)域,同時過濾掉背景區(qū)域的特征響應(yīng),在特征響應(yīng)層面將拋灑物與背景分離,最終提升模型的抗干擾能力。
圖8 不同場景下有無注意力掩膜單元的特征可視化示例Fig.8 Examples of feature visualization with or without attention mask unit
3.3.2 不同注意力方法的對比
為了證明本研究提出的基于上下文空間序列關(guān)系的注意力掩膜單元AMU有效性,本研究將AMU與主流注意力模型進(jìn)行實驗對比,其中注意力對照組模型分別選取CBAM模塊[11]和BAM模塊[12]。為保證對比試驗的公平性,所有實驗主干結(jié)構(gòu)均使用ResNet50,同時只比較原文章提出的空間注意力機(jī)制且不對注意力掩膜進(jìn)行強(qiáng)監(jiān)督學(xué)習(xí)。
對比結(jié)果如表3所示,本研究提出的DODNet-AMU模型在準(zhǔn)確度、召回率和調(diào)和均值指標(biāo)方面均優(yōu)于DODNet-CBAM和DODNet-BAM。其中在調(diào)和均值方面,DODNet-AMU模型比DODNet-CBAM提升5.4個百分點,比DODNet-BAM提升2.8個百分點。為了更直觀地比較注意力方法的作用,本研究將基于注意力對照方法生成的注意力掩膜圖進(jìn)行可視化。從圖9的注意力掩膜效果可以看出,基于DODNet-AMU生成的注意力掩膜輪廓更精確,語義判別性能更強(qiáng)。
表3 不同注意力方法的性能評價指標(biāo)對比Table 3 Performance comparison with different attention methods
圖9 基于不同注意力方法生成的注意力掩膜圖示例Fig.9 Examples of attention mask based on different attention methods
3.3.3 注意力機(jī)制有無強(qiáng)監(jiān)督學(xué)習(xí)的對比
對注意力掩膜進(jìn)行強(qiáng)監(jiān)督學(xué)習(xí)是本研究提出的算法另一個關(guān)鍵點。為探究強(qiáng)監(jiān)督學(xué)習(xí)對模型的影響,針對有無可監(jiān)督學(xué)習(xí)這一變量進(jìn)行對照試驗,其中DODNet-AMU表示為引入注意力掩膜模塊但未對注意力掩膜進(jìn)行強(qiáng)監(jiān)督訓(xùn)練的模型,DODNet-AMU-SL表示對注意力掩膜進(jìn)行強(qiáng)監(jiān)督訓(xùn)練的模型。結(jié)果對比如表4所示,經(jīng)過強(qiáng)監(jiān)督學(xué)習(xí)的注意力掩膜模型的準(zhǔn)確率和調(diào)和均值分別提升3.2和2.1個百分點。與此同時,本研究將基于DODNet-AMU和DODNet-AMU-SL生成的注意力掩膜圖和結(jié)果預(yù)測圖進(jìn)行可視化。通過圖10可以看出,基于有強(qiáng)監(jiān)督學(xué)習(xí)的注意力掩膜單元受到標(biāo)簽信息的指導(dǎo),生成的注意力掩膜更接近于真實輪廓。
表4 注意力機(jī)制有無監(jiān)督學(xué)習(xí)的模型性能評價指標(biāo)對比Table 4 Performance comparison with/without supervised learning
圖10 注意力掩膜單元有無強(qiáng)監(jiān)督學(xué)習(xí)的注意力掩膜圖及預(yù)測圖示例Fig.10 Examples of attention mask and prediction with or without supervised learning
針對當(dāng)前以目標(biāo)檢測為核心的拋灑物檢測算法無法識別“未知類別”的局限,本研究提出了基于特征相似性學(xué)習(xí)的拋灑物檢測方案。為了提升算法對光照等噪聲的抗干擾能力,本研究加入了全新的注意力掩膜模塊,并且嘗試通過構(gòu)建長跨度上下文信息和強(qiáng)監(jiān)督學(xué)習(xí)的方式提升注意力掩膜的語義判別性能。結(jié)合試驗結(jié)果對比,得到以下結(jié)論:
(1)注意力掩膜單元有效提升了特征的語義判別性能,大幅度提高拋灑物檢測精度,其中調(diào)和均值F1提高6.4個百分點,同時算法運(yùn)行速度穩(wěn)定在30幀/s,滿足實時性需求。
(2)與局部上下文信息相比,長跨度上下文信息更有利于注意力掩膜聚焦拋灑物特征信息,同時過濾掉背景噪聲,抗干擾能力更強(qiáng)。
(3)通過強(qiáng)監(jiān)督學(xué)習(xí)得到的注意力掩膜輪廓更為準(zhǔn)確,注意力響應(yīng)的聚焦性更強(qiáng)。
基于幀間特征相似性的拋灑物檢測方法仍存在局限性,其中最大的短板是算法應(yīng)用時效較短,其有效性只存在于拋灑物拋出過程的幾秒鐘,拋灑過后的物體很難通過相似對比的方式完成檢測。未來的研究工作將重點關(guān)注開放集合的目標(biāo)檢測算法,該研究方向理論上可以解決拋灑物“未知類別”的問題,同時能解決當(dāng)前方法應(yīng)用時效短的問題。