周大可, 宋 榮,楊 欣
(1.南京航空航天大學(xué) 自動(dòng)化學(xué)院, 南京 211100; 2.江蘇省物聯(lián)網(wǎng)與控制技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京航空航天大學(xué)), 南京 211100)
行人檢測(cè)作為目標(biāo)檢測(cè)領(lǐng)域的一個(gè)重要研究方向,一直受到研究者們的普遍關(guān)注,目前已經(jīng)對(duì)智能交通、智能輔助駕駛和視頻監(jiān)控等領(lǐng)域產(chǎn)生了深入的影響[1]。傳統(tǒng)的行人檢測(cè)方法,如HOG(histogram of oriented gradient)[2]、DPM(deformable parts model)[3]和ACF(aggregate channel feature)[4]等,都是通過(guò)手工設(shè)計(jì)或特征聚合來(lái)獲得行人特征。隨著2012年AlexNet[5]在圖像分類(lèi)任務(wù)中的重大突破,利用卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural networks)自主學(xué)習(xí)特征提取過(guò)程從而代替?zhèn)鹘y(tǒng)手工設(shè)計(jì)是目前的主要研究方向[6]。根據(jù)檢測(cè)機(jī)制的不同,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法主要分為兩類(lèi):一是兩階段方法,以Faster R-CNN[7]為例,其主要思路是采用級(jí)聯(lián)的方式,在生成候選目標(biāo)區(qū)域的基礎(chǔ)上進(jìn)一步判斷邊界框的類(lèi)別和位置。另一類(lèi)則是單階段方法,以YOLO(you only look once)[8]和SSD(single shot multibox detector)[9]為例,其思路是用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)直接回歸出邊界框的位置和類(lèi)別。
卷積神經(jīng)網(wǎng)絡(luò)的引入提升了行人檢測(cè)算法性能,但遮擋問(wèn)題仍然是行人檢測(cè)中的一個(gè)主要難點(diǎn)[10-13]。文獻(xiàn)[10]通過(guò)一種聯(lián)合學(xué)習(xí)方式建模不同的行人遮擋模式,但其檢測(cè)框架復(fù)雜且無(wú)法窮盡所有的情況;文獻(xiàn)[11]設(shè)計(jì)新的損失函數(shù),使預(yù)測(cè)框在不斷逼近目標(biāo)真實(shí)框的同時(shí)遠(yuǎn)離其他的真實(shí)框,這種方法對(duì)遮擋的處理更為靈活,實(shí)現(xiàn)也更加簡(jiǎn)單;文獻(xiàn)[12]將前述的兩種思路相結(jié)合,提出部件遮擋感知單元和聚集損失函數(shù)來(lái)處理行人遮擋問(wèn)題;文獻(xiàn)[13]通過(guò)引入新的監(jiān)督信息(行人可見(jiàn)區(qū)域邊界框)來(lái)處理遮擋,其思路是用兩個(gè)分支網(wǎng)絡(luò)分別回歸行人的全身框和可見(jiàn)區(qū)域的邊界框,最終融合兩個(gè)分支的結(jié)果來(lái)提升檢測(cè)性能。
注意力機(jī)制源于對(duì)人類(lèi)視覺(jué)的研究,在計(jì)算機(jī)視覺(jué)的各種任務(wù)(如圖像分類(lèi)、檢測(cè)和分割等)中均有廣泛的應(yīng)用[14]。常見(jiàn)的注意力機(jī)制有兩種類(lèi)型:一是空間注意力機(jī)制[15],即通過(guò)網(wǎng)絡(luò)學(xué)習(xí)來(lái)自適應(yīng)地調(diào)節(jié)特征圖中每個(gè)元素的權(quán)重;二是通道注意力機(jī)制[16],即利用網(wǎng)絡(luò)來(lái)調(diào)節(jié)特征圖中不同通道的權(quán)重。利用注意力機(jī)制可以加強(qiáng)網(wǎng)絡(luò)對(duì)行人可見(jiàn)區(qū)域特征的關(guān)注,進(jìn)而改善算法的遮擋處理能力。文獻(xiàn)[17]利用預(yù)訓(xùn)練的行人姿態(tài)估計(jì)模型生成的部件熱圖作為監(jiān)督信息指導(dǎo)通道注意力機(jī)制的學(xué)習(xí),有效提高了遮擋行人的檢測(cè)效果,但其僅使用了單一的通道注意力機(jī)制且需要額外的網(wǎng)絡(luò)來(lái)生成監(jiān)督信息,檢測(cè)框架復(fù)雜。
本文以基于回歸的檢測(cè)方法RetinaNet[18]為基礎(chǔ),針對(duì)行人檢測(cè)的兩個(gè)子任務(wù)(分類(lèi)和定位),在不同的支路分別采用空間和通道注意力機(jī)制,同時(shí)引入行人邊界框作為監(jiān)督信息,簡(jiǎn)單有效地指導(dǎo)兩種注意力機(jī)制的學(xué)習(xí)。此外,利用行人可見(jiàn)區(qū)域邊界框設(shè)計(jì)新型的可感知遮擋的回歸損失函數(shù),進(jìn)一步提高了算法對(duì)遮擋的魯棒性。
本文方法的基本框架采用RetinaNet,主要由3個(gè)部分組成,分別是Resnet[19]主干網(wǎng)絡(luò)、FPN[20](feature pyramid network)特征金字塔融合模塊、以及結(jié)合雙重注意力機(jī)制的卷積預(yù)測(cè)模塊,網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。
圖1 本文算法整體網(wǎng)絡(luò)結(jié)構(gòu)示意
Resnet是目前主流的特征提取主干網(wǎng)絡(luò)之一,其通過(guò)“捷徑”將前后層直接相連,從而使網(wǎng)絡(luò)更加容易擬合恒等映射。Resnet可以改善網(wǎng)絡(luò)深度增加帶來(lái)的模型訓(xùn)練困難、性能提升較小的問(wèn)題,即“退化”現(xiàn)象。本文提取特征的主干網(wǎng)絡(luò)采用Resnet50,其具體結(jié)構(gòu)參數(shù)見(jiàn)表1。
FPN是一種U型網(wǎng)絡(luò)結(jié)構(gòu),其通過(guò)融合生成的特征金字塔,有效結(jié)合深淺層不同維度的特征表達(dá),并且在不同層獨(dú)立預(yù)測(cè)不同尺度的行人。如圖1所示,自上至下的卷積層c5、c4、c3分別在采樣之后與下層逐層融合,得到p5、p4、p3。p6和p7即c6和c7,在c5的基礎(chǔ)上分別通過(guò)一次和兩次3×3卷積得到。多層預(yù)測(cè)可以更好地處理行人遠(yuǎn)近導(dǎo)致的尺度問(wèn)題。
表1 Resnet50結(jié)構(gòu)
卷積預(yù)測(cè)模塊包含分類(lèi)支路和回歸支路,分類(lèi)支路主要負(fù)責(zé)區(qū)分前景與背景,其通過(guò)多個(gè)卷積核大小為3×3,輸出通道數(shù)為256的卷積層對(duì)p3~p7進(jìn)行卷積,最終以通道數(shù)為K×A的3×3卷積輸出類(lèi)別概率。其中K為類(lèi)別數(shù)目,本文中設(shè)為2,即僅前景和背景兩個(gè)類(lèi)別,A表示輸出特征圖中每個(gè)網(wǎng)格的先驗(yàn)邊界框數(shù)目,本文中為9?;貧w支路除了尾部輸出卷積層以外結(jié)構(gòu)均與分類(lèi)支路相同,在此不再贅述。尾部輸出卷積層需輸出預(yù)測(cè)框相對(duì)于預(yù)設(shè)框的偏移程度,通過(guò)通道數(shù)為4A的3×3卷積實(shí)現(xiàn),4表示框的偏移量dx、dy、dw、dh。
本文在RetinaNet的基礎(chǔ)上對(duì)卷積預(yù)測(cè)模塊的分類(lèi)支路和回歸支路分別增加注意力機(jī)制子網(wǎng)絡(luò),同時(shí)引進(jìn)行人可見(jiàn)框信息對(duì)傳統(tǒng)的回歸損失函數(shù)進(jìn)行優(yōu)化,如圖1所示。除了以上兩點(diǎn)改進(jìn)之外,本文網(wǎng)絡(luò)所有參數(shù)設(shè)定均保持與基準(zhǔn)方法相同。
本文通過(guò)注意力機(jī)制指導(dǎo)網(wǎng)絡(luò)重點(diǎn)關(guān)注行人未被遮擋的區(qū)域,增加行人關(guān)鍵部位的特征權(quán)重,從而避免背景遮擋等干擾信息的影響。針對(duì)檢測(cè)問(wèn)題中分類(lèi)和定位兩個(gè)方面采用不同的注意力機(jī)制:在定位支路采用空間注意力機(jī)制,在分類(lèi)支路采用通道注意力機(jī)制。同時(shí),利用數(shù)據(jù)集中提供的行人標(biāo)簽中的全身邊界框和可見(jiàn)邊界框來(lái)為空間注意力機(jī)制提供監(jiān)督信息,從而更加有效地指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)。
1.2.1 空間注意力機(jī)制
空間注意力機(jī)制的基本思想是通過(guò)網(wǎng)絡(luò)生成一個(gè)與原始特征圖相同尺寸的掩膜,掩膜中每個(gè)元素的值代表特征圖對(duì)應(yīng)位置像素的權(quán)重,經(jīng)過(guò)學(xué)習(xí)不斷調(diào)整各個(gè)權(quán)重,其本質(zhì)是告訴網(wǎng)絡(luò)應(yīng)該關(guān)注的區(qū)域。本文的空間注意力機(jī)制子網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。首先通過(guò)4個(gè)大小為3×3、通道數(shù)均為256的卷積核對(duì)回歸分支進(jìn)行卷積,再利用一個(gè)通道數(shù)為1的3×3卷積將特征圖壓縮成掩膜。為了保留原本的背景信息,以exp(掩膜參數(shù))乘到原來(lái)的特征圖上,從而調(diào)節(jié)原本特征圖各個(gè)位置的權(quán)重。本文為了指導(dǎo)空間注意力機(jī)制的學(xué)習(xí),使用行人的監(jiān)督信息生成一個(gè)像素級(jí)的目標(biāo)掩膜作為空間注意力機(jī)制的標(biāo)簽:將行人的全身邊界框和可見(jiàn)邊界框區(qū)域像素值分別設(shè)為0.8和1,其余背景區(qū)域像素值設(shè)為0。這樣的標(biāo)簽將會(huì)指導(dǎo)空間注意力機(jī)制關(guān)注圖片中行人區(qū)域,同時(shí)更加關(guān)注行人的可見(jiàn)區(qū)域。
圖2 空間注意力子網(wǎng)絡(luò)結(jié)構(gòu)
1.2.2 通道注意力機(jī)制
通道注意力機(jī)制基于對(duì)卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)基本認(rèn)識(shí):卷積特征圖的不同通道編碼了物體不同部位的特征。文獻(xiàn)[16,21]發(fā)現(xiàn)一些通道的特征圖對(duì)行人的特定部位如頭、上身和腳等有極高的響應(yīng)。通道注意力機(jī)制的基本思想就是通過(guò)網(wǎng)絡(luò)生成一個(gè)長(zhǎng)度等于通道數(shù)目的向量,向量中的每個(gè)元素對(duì)應(yīng)特征圖每個(gè)通道的權(quán)重,通過(guò)學(xué)習(xí)不斷調(diào)整各通道的權(quán)重,其本質(zhì)是告訴網(wǎng)絡(luò)應(yīng)該關(guān)注的行人部位。因此本文在分類(lèi)支路加入通道注意力機(jī)制,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,與文獻(xiàn)[16]中的結(jié)構(gòu)類(lèi)似:首先對(duì)分類(lèi)支路進(jìn)行池化;將池化后的權(quán)重向量送入全連接層FC1和FC2,對(duì)其進(jìn)行“壓縮”和“拉伸”操作;然后通過(guò)sigmoid函數(shù)將向量的分量限制在0~1之間,并將兩個(gè)向量相加融合為最終的權(quán)重向量。不同于文獻(xiàn)[16]中僅使用平均池化,本文同時(shí)采用全局池化和最大池化,這樣可以在保留每個(gè)通道平均特征的同時(shí)突出其主要特征,使得網(wǎng)絡(luò)更加關(guān)注行人的可見(jiàn)部位。
圖3 通道注意力子網(wǎng)絡(luò)結(jié)構(gòu)
1.3.1 算法整體損失函數(shù)
λ2La(m,m*)
(1)
1.3.2 遮擋感知的回歸損失函數(shù)
在通用目標(biāo)檢測(cè)中,經(jīng)典的回歸損失函數(shù)為smoothL1函數(shù),其形式為
(2)
(3)
其中:A為所有參與計(jì)算的行人檢測(cè)框,tin為檢測(cè)的第n個(gè)行人框,ti*n則為其真實(shí)坐標(biāo),x、y、w、h分別為真值框的中心點(diǎn)坐標(biāo)以及寬高。
為了進(jìn)一步處理遮擋問(wèn)題,本文提出一種可以依據(jù)遮擋程度自主調(diào)整檢測(cè)框權(quán)重的回歸損失函數(shù)。其基本思路是:在計(jì)算回歸損失函數(shù)時(shí),通過(guò)預(yù)測(cè)行人邊界框與數(shù)據(jù)集提供的行人可見(jiàn)區(qū)域邊界框的IOG(intersection over ground truth)作為每個(gè)正樣本產(chǎn)生損失函數(shù)的權(quán)重,即若預(yù)測(cè)的正樣本邊界框與行人可見(jiàn)區(qū)域重疊較多,那么它產(chǎn)生的損失更為可信,分配較高的權(quán)重,反之則分配較低的權(quán)重。基于這個(gè)直觀的想法,設(shè)計(jì)出的改進(jìn)回歸損失函數(shù)具體形式為
(4)
(5)
其中:n為第n個(gè)預(yù)測(cè)框,bpred為判定為前景的行人預(yù)測(cè)框,bgtvis為其對(duì)應(yīng)的行人可見(jiàn)區(qū)域邊界框。
采用IOG而不是IOU的原因在于,期望的權(quán)重在0~1之間,而即使是完全正確的預(yù)測(cè)框,其與可見(jiàn)區(qū)域的IOU也可能是一個(gè)較小的數(shù)值,因此使用IOG更為合適。文獻(xiàn)[13]中同樣利用行人可見(jiàn)區(qū)域與預(yù)測(cè)框的重疊程度改善遮擋問(wèn)題,做法是當(dāng)預(yù)測(cè)框與行人全身邊界框和可見(jiàn)區(qū)域邊界框的IOU同時(shí)大于一個(gè)固定的閾值時(shí),才判定此預(yù)測(cè)框?yàn)檎龢颖尽_@種做法有兩個(gè)不足之處:一是閾值的大小不好設(shè)定,二是判定條件過(guò)嚴(yán)可能導(dǎo)致有真實(shí)框沒(méi)有對(duì)應(yīng)的預(yù)測(cè)框。本文提出的新型回歸損失函數(shù)則有效地解決了這兩個(gè)問(wèn)題,更加靈活地利用行人可見(jiàn)框來(lái)指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)。
2.1.1 數(shù)據(jù)集
實(shí)驗(yàn)是在Caltech和CityPerson兩個(gè)行人數(shù)據(jù)集上進(jìn)行的。Caltech數(shù)據(jù)集[22]是目前最為常用的公開(kāi)數(shù)據(jù)集之一,原始圖片為640×480像素,提供行人全身邊界框和可見(jiàn)區(qū)域邊界框標(biāo)簽。預(yù)先劃分好訓(xùn)練集4 250張,測(cè)試集4 024張。CityPerson是目前較新的公開(kāi)行人檢測(cè)數(shù)據(jù)集,由文獻(xiàn)[23]于2017年提供,其包含了5 000張德國(guó)各地的實(shí)拍圖片。相比于Caltech數(shù)據(jù)集,其行人遮擋問(wèn)題更加嚴(yán)重。數(shù)據(jù)集預(yù)先將2 975張作為訓(xùn)練集,1 525張作為測(cè)試集,圖片為2 048× 1 024像素,提供行人全身邊界框和可見(jiàn)部分邊界框。
2.1.2 先驗(yàn)邊界框的設(shè)置
本文算法在5個(gè)不同的特征層進(jìn)行預(yù)測(cè),所以需要設(shè)計(jì)各特征層上的預(yù)設(shè)邊界框,預(yù)設(shè)邊界框的好壞直接影響到回歸的速度與精度。文獻(xiàn)[6,9]手工設(shè)計(jì)幾個(gè)固定尺寸和比例的邊界框,但其不夠靈活且效果稍差。文獻(xiàn)[24]提出了一種更為靈活的方法,通過(guò)對(duì)訓(xùn)練集進(jìn)行聚類(lèi)來(lái)確定預(yù)設(shè)邊界框的尺寸和比例。
本文采用聚類(lèi)的思想來(lái)設(shè)計(jì)預(yù)設(shè)邊界框,與文獻(xiàn)[24]不同的是,本文算法在5個(gè)特征層進(jìn)行預(yù)測(cè),所以需要根據(jù)不同特征圖的尺寸合理安排不同大小的預(yù)設(shè)邊界框。具體做法是:首先獲得訓(xùn)練集中所有真實(shí)框的寬高ball={b1,b2,…,bn},為了避免聚類(lèi)中心被數(shù)據(jù)量最大的中等尺寸的框主導(dǎo),預(yù)先按框的高度h從小到大將所有框劃分為5份,然后利用k-means聚類(lèi)基于每份邊界框生成9個(gè)預(yù)設(shè)的邊界框,最終共生成45個(gè)不同大小與比例的預(yù)設(shè)邊界框,分別配置到不同尺度的預(yù)測(cè)特征層上。聚類(lèi)中,考慮輸出行人邊界框的目的,距離度量采用如下形式:
d(box,ci)=1-IOU(box,ci)
(6)
(7)
其中:box為訓(xùn)練集中的行人邊界框,ci為第i個(gè)聚類(lèi)中心代表的邊界框。
2.1.3 訓(xùn)練細(xì)節(jié)
利用水平翻轉(zhuǎn)、裁剪等操作實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),增加訓(xùn)練樣本集的豐富程度。為了保證圖片放縮過(guò)程中物體不會(huì)變形,通過(guò)加padding縮放操作將Caltech和CityPerson數(shù)據(jù)集的輸入圖片尺寸分別調(diào)整為1 200×900像素和1 400×700像素,兼顧性能和速度。通過(guò)Adam算法對(duì)網(wǎng)絡(luò)各部分參數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率的初始值設(shè)為0.000 1,如果連續(xù)3個(gè)epoch整體損失函數(shù)值不發(fā)生明顯變化,學(xué)習(xí)率衰減為原來(lái)的1/10,總訓(xùn)練epoch數(shù)為80。主干網(wǎng)絡(luò)ResNet50采用在ImageNet上訓(xùn)練好的模型。batch大小為2,訓(xùn)練平臺(tái)為英偉達(dá)RTX 2080。
2.1.4 評(píng)估指標(biāo)
對(duì)數(shù)平均漏檢率(log-average miss rate)[22]是評(píng)估行人檢測(cè)算法最為常用的指標(biāo)之一。同時(shí)為了更好地體現(xiàn)算法對(duì)遮擋問(wèn)題的處理能力,利用數(shù)據(jù)集提供的行人可見(jiàn)邊界框和全身邊界框的比值(可見(jiàn)度,Vis)來(lái)衡量遮擋程度,將測(cè)試集按遮擋程度分為以下3類(lèi):1)輕微遮擋, Vis>0.65;2)嚴(yán)重遮擋,0.20
本文以RetinaNet為基本框架,分別添加雙重注意力機(jī)制子網(wǎng)絡(luò)和可感知遮擋的優(yōu)化回歸損失函數(shù),其余參數(shù)值均保持和RetinaNet相同。消融實(shí)驗(yàn)結(jié)果見(jiàn)表2、3。其中k-means_anchor、attention、weightloss分別表示是否用聚類(lèi)預(yù)測(cè)邊界框、是否加入注意力機(jī)制子網(wǎng)絡(luò)以及是否使用改進(jìn)的回歸損失函數(shù)。
表2 Caltech數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果
表3 CityPerson 數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果
由表2、3的消融實(shí)驗(yàn)結(jié)果可以看出,與基準(zhǔn)方法RetinaNet相比,增加注意力機(jī)制子網(wǎng)絡(luò)和感知遮擋的新型回歸損失函數(shù)在不同遮擋程度子集上均會(huì)帶來(lái)一定的性能提升,尤其是對(duì)于嚴(yán)重遮擋的子集,性能提升更加顯著。在Caltech的嚴(yán)重遮擋子集上二者分別提高了6.22%和7.35%,在CityPerson上分別提高了3.29%和3.37%。相較于基本框架RetinaNet,本文方法在Caltech和CityPerson的嚴(yán)重遮擋子集上分別提高了12.03%和4.56%,充分表明該方法對(duì)復(fù)雜交通場(chǎng)景下的遮擋問(wèn)題具有很好的處理能力,本文方法的整體性能與RetinaNet相比,同樣有較大的提升。此外,利用聚類(lèi)生成預(yù)設(shè)行人邊界框會(huì)給整體性能帶來(lái)一定提升,但對(duì)于遮擋問(wèn)題效果不明顯。
圖4展示了Caltech數(shù)據(jù)集下基準(zhǔn)方法RetinaNet與本文方法的檢測(cè)效果,可以看出,基準(zhǔn)方法無(wú)法檢出一些被汽車(chē)、草叢等遮擋的行人,而本文方法可以檢出這些目標(biāo);對(duì)于一些行人之間相互遮擋的現(xiàn)象,基準(zhǔn)方法只會(huì)給出一個(gè)大的邊界框,本文方法能分別將每個(gè)行人框出,表明本文方法對(duì)于類(lèi)內(nèi)遮擋和類(lèi)間遮擋均具有較好的魯棒性。
圖4 Caltech數(shù)據(jù)集上檢測(cè)效果圖
在中國(guó)的街道場(chǎng)景中,行人更加密集,極易發(fā)生遮擋現(xiàn)象,尤其是類(lèi)內(nèi)遮擋較為普遍。本文方法對(duì)于類(lèi)內(nèi)遮擋的魯棒性結(jié)論在國(guó)內(nèi)智能交通領(lǐng)域具有較高的應(yīng)用價(jià)值。
2.3.1 檢測(cè)效果
表4對(duì)比了本文方法和其他8種方法(包括傳統(tǒng)的HOG[2]和ACF[4],基準(zhǔn)RetinaNet[18],新近提出的AdaptFasterRCNN[23]等)的檢測(cè)效果??紤]到CityPerson數(shù)據(jù)集較新,目前尚未有充足方法在其上進(jìn)行測(cè)試,且其Benchmark并未給出其他方法的原始檢測(cè)文件,難以客觀地與其對(duì)比算法性能。因此對(duì)比實(shí)驗(yàn)只在Caltech上進(jìn)行.
從表4中可以看出,本文方法在整體數(shù)據(jù)集上的平均對(duì)數(shù)漏檢率最低,僅為18.72%,與其他方法相比具有一定的優(yōu)勢(shì)。在輕微遮擋子集上,本文方法的檢測(cè)效果也處于前列,平均漏檢率為9.97%,略高于AdaptFastRCNN等4種方法,這可能是本文方法側(cè)重于遮擋問(wèn)題而導(dǎo)致一些小尺寸行人的漏檢。但在嚴(yán)重遮擋子集上,本文方法的性能十分突出,其平均對(duì)數(shù)漏檢率僅為45.69%,比其他方法小12%以上,遠(yuǎn)遠(yuǎn)領(lǐng)先其他方法。這表明本文針對(duì)遮擋問(wèn)題專門(mén)設(shè)計(jì)的雙重注意力機(jī)制和遮擋感知的新型回歸損失函數(shù)非常有效。從表4中還可以看出,對(duì)于行人檢測(cè)這樣的非剛體、背景復(fù)雜且存在遮擋的檢測(cè)問(wèn)題,包括本文方法在內(nèi)的基于卷積神經(jīng)網(wǎng)絡(luò)的方法遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的手工設(shè)計(jì)特征的方法。
表4 Caltech數(shù)據(jù)集上與其他8種方法對(duì)比結(jié)果
圖5進(jìn)一步給出了嚴(yán)重遮擋子集上幾種方法的漏檢率隨著每張圖誤檢數(shù)目變化的曲線圖,曲線下方的面積越小,行人檢測(cè)算法的性能更強(qiáng)。同樣可以看出,隨著每圖誤檢數(shù)量的變化,本文方法的漏檢率都處于最低水平,相比于其他行人檢測(cè)方法,整體優(yōu)勢(shì)明顯。
圖5 Caltech嚴(yán)重遮擋子集上的檢測(cè)效果對(duì)比
2.3.2 檢測(cè)速度
本文方法在Caltech(縮放至1 200×900像素)和CityPerson數(shù)據(jù)集(縮放至1 400×700像素)上的檢測(cè)速度分別為11.8幀/s(frames per second)和10.0幀/s,實(shí)現(xiàn)了準(zhǔn)實(shí)時(shí)的行人檢測(cè)。此外,也比較了本文方法和其他4種精度較高的檢測(cè)方法(包括RPN+BF[25], SA-FastRCNN[26]等)的檢測(cè)效率,實(shí)驗(yàn)在Caltech數(shù)據(jù)集上進(jìn)行。為進(jìn)行公平的比較,類(lèi)似于文獻(xiàn)[28],本文對(duì)比了各方法在單位算力(TFLOPS,每秒萬(wàn)億次單精度浮點(diǎn)計(jì)算)下的檢測(cè)速度,結(jié)果見(jiàn)表5(GPU計(jì)算能力來(lái)自NVIDIA官網(wǎng))。
表5 5種方法的檢測(cè)速度
從表5中可以看出,本文方法的檢測(cè)速度略慢于RetinaNet,比其他3種方法的快1倍以上。主要原因在于:本文方法采用單階段的檢測(cè)框架,可以實(shí)現(xiàn)端到端的快速檢測(cè);而SA-FastRCNN等3種方法采用雙階段的檢測(cè)框架,需要通過(guò)網(wǎng)絡(luò)生成候選區(qū)域然后再進(jìn)行檢測(cè);此外,由于注意力機(jī)制子網(wǎng)絡(luò)帶來(lái)了附加的計(jì)算量,因此本文方法的檢測(cè)效率略低于RetinaNet。
提出一種結(jié)合雙重注意力機(jī)制的遮擋感知方法來(lái)提高行人檢測(cè)算法在嚴(yán)重遮擋情況下的性能,降低遮擋對(duì)檢測(cè)造成的影響。該方法通過(guò)引入空間/通道雙重注意力機(jī)制,以及遮擋感知的新型損失函數(shù),能夠有效地處理遮擋問(wèn)題,在Caltech和CityPerson數(shù)據(jù)集上分別取得18.72%和41.95%的平均漏檢率,優(yōu)于RetinaNet等8種先進(jìn)的行人檢測(cè)算法;尤其在Caltech嚴(yán)重遮擋子集上,其平均漏檢率僅為45.69%,低于其他方法12%以上。并且,該方法可以實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)的行人檢測(cè),在Caltech和CityPerson上的檢測(cè)速度分別為11.8幀/s和10.0幀/s。