曹帥,張曉偉,馬健偉
(青島大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,青島266071)
隨著人工智能與計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展以及人們對(duì)公共安全領(lǐng)域的日益重視,智能視頻監(jiān)控技術(shù)已經(jīng)發(fā)展為當(dāng)前的研究熱點(diǎn)。行人檢測(cè)是智能化視頻監(jiān)控系統(tǒng)中的核心關(guān)鍵技術(shù)之一,并為后續(xù)的更高層次的視頻分析與理解提供可靠的數(shù)據(jù)支持。因此,行人檢測(cè)技術(shù)直接影響著智能視頻監(jiān)控的智能化水平,具有重要的研究意義和應(yīng)用價(jià)值。
近年來(lái),基于深度卷積神經(jīng)網(wǎng)絡(luò)的通用目標(biāo)檢測(cè)[1-3]取得了巨大的成功,尤其是Girshick等提出的基于R-CNN[4]目標(biāo)檢測(cè)模型,代替了手工設(shè)計(jì)特征[5-6]極大地提高了行人檢測(cè)的性能。然而,在視頻監(jiān)控系統(tǒng)中行人存在不同空間尺度的差異,尤其是大尺度、低分辨率的行人目標(biāo)對(duì)行人檢測(cè)技術(shù)帶來(lái)了極大的挑戰(zhàn)。為解決行人在空間尺度變化下的檢測(cè)問(wèn)題,目前主要分為2種策略:圖像金字塔[7-8]和特征金字塔[2,9-10]?;趫D像金字塔的多尺度行人檢測(cè)方法通過(guò)采樣輸入圖像得到不同尺度的圖像金字塔集合,以預(yù)測(cè)最終的檢測(cè)結(jié)果。其中,具有代表性的圖像金字塔的尺度歸一化網(wǎng)絡(luò)(SNIP)[7]及其加強(qiáng)版具有高效重采樣的圖像金字塔的尺度歸一化網(wǎng)絡(luò)(SNIPER)[8],其選取若干個(gè)正樣本區(qū)域和負(fù)樣本區(qū)域作為圖像金字塔。然而,這種基于圖像金字塔的行人檢測(cè)方法在時(shí)間和內(nèi)存方面的消耗是巨大的,限制了在實(shí)時(shí)智能監(jiān)控視頻任務(wù)中的應(yīng)用。
為兼顧精度與速度,基于特征金字塔的多尺度方法被廣泛應(yīng)用到目標(biāo)檢測(cè)。與圖像金字塔相比,特征金字塔需要的內(nèi)存空間和計(jì)算量要少的多,并且結(jié)構(gòu)簡(jiǎn)單,能夠有效地嵌入到各類(lèi)目標(biāo)檢測(cè)器中。其中,單鏡頭多盒檢測(cè)器(SSD)[2]就是基于視覺(jué)幾何組網(wǎng)絡(luò)(VGG-16)提取不同分辨率的多層特征圖集合用于多尺度目標(biāo)檢測(cè)。感受野塊網(wǎng)絡(luò)(RFB-Net)[9]在SSD網(wǎng)絡(luò)的基礎(chǔ)上采用2個(gè)模擬人類(lèi)視覺(jué)感受野的特征提取模塊替換原有卷積層,并使用6個(gè)不同層級(jí)的特征圖用于檢測(cè)。類(lèi)似的,漸進(jìn)定位網(wǎng)絡(luò)(ALFNet)[10]在Res-Net-50[11]后3個(gè)階段的最后一個(gè)卷積層以及新添加卷積層上堆疊多個(gè)目標(biāo)分類(lèi)和空間位置坐標(biāo)回歸模塊,形成漸進(jìn)定位網(wǎng)絡(luò),從而實(shí)現(xiàn)對(duì)多尺度目標(biāo)精確定位。
大量研究表明[12-13],通過(guò)添加橫向連接和自上而下信息傳播路徑進(jìn)行特征融合,生成的特征表達(dá)能力更強(qiáng)。特征金字塔網(wǎng)絡(luò)(FPN)[14]通過(guò)自上而下的跨層路徑有效地融合了高層特征所具有的魯棒語(yǔ)義信息生成特征金字塔網(wǎng)絡(luò)。路徑聚合網(wǎng)絡(luò)(PANet)[15]基于FPN網(wǎng)絡(luò)結(jié)構(gòu)添加自底向上的擴(kuò)展路徑,以精確的定位信息增強(qiáng)整個(gè)特征金字塔表達(dá)能力,有效提高了目標(biāo)分割的準(zhǔn)確度。多級(jí)特征金字塔目標(biāo)檢測(cè)器(M2Det)[16]提出了多層次的特征金字塔網(wǎng)絡(luò),使用多層次重復(fù)的網(wǎng)絡(luò)結(jié)構(gòu)生成具有更強(qiáng)表達(dá)能力的特征金字塔。受上述研究工作的啟發(fā),為充分利用不同尺度特征層在視覺(jué)語(yǔ)義信息上的互補(bǔ)性,本文提出了跨尺度特征聚合網(wǎng)絡(luò)(TS-FAN)模塊,在幾乎沒(méi)有增加任何時(shí)間耗費(fèi)的前提下實(shí)現(xiàn)了不同層次特征信息的聚合,以增強(qiáng)特征金字塔的語(yǔ)義魯棒性和定位精確性。
另一方面,為檢測(cè)視頻圖像中的不同尺度目標(biāo),F(xiàn)aster R-CNN[1]基 于 多 尺 度 區(qū) 域 建 議 網(wǎng) 絡(luò)(RPN)生成多尺度初始候選目標(biāo)區(qū)域檢測(cè)多尺度目標(biāo)。進(jìn)而FPN利用多個(gè)RPN子網(wǎng)絡(luò)來(lái)盡可能的覆蓋圖像中目標(biāo)的所有尺度,但這種方式忽略了不同路徑RPN網(wǎng)絡(luò)生成的候選目標(biāo)集存在行人分類(lèi)與定位回歸之間的不一致性,從而影響多尺度行人的檢測(cè)性能。為解決這一問(wèn)題,本文引入一種基于多路徑RPN的尺度補(bǔ)償策略來(lái)有效處理多尺度目標(biāo),以提高不同尺度行人的召回率。受尺度自適應(yīng)的三叉戟網(wǎng)絡(luò)(TridentNet)[17]多分支檢測(cè)的啟發(fā),為避免極端尺度行人對(duì)不同路徑模型訓(xùn)練影響,本文利用尺度感知的策略使不同路徑RPN檢測(cè)與特征層感受野相匹配的多尺度行人候選框,并將不同路徑RPN生成的候選目標(biāo)區(qū)域單獨(dú)處理,避免了不同路徑下不同候選目標(biāo)相互之間產(chǎn)生的影響。同時(shí),根據(jù)Li等[18]的研究,不同尺度行人實(shí)例在不同特征層上具有不同的特征表達(dá),因此本文對(duì)不同尺度行人使用不同的特征映射函數(shù),為多路徑RPN生成的不同尺度候選目標(biāo)區(qū)域集匹配相適應(yīng)的聚合特征層,形成多尺度行人檢測(cè)網(wǎng)絡(luò)。
綜上所述,本文主要貢獻(xiàn)如下:
1)引入一種基于多路徑RPN的尺度補(bǔ)償策略,依據(jù)不同分辨率行人實(shí)例構(gòu)建多路徑RPN網(wǎng)絡(luò),使各路徑RPN網(wǎng)絡(luò)分支基于有效感受野大小自適應(yīng)地生成候選目標(biāo)尺度集,以提高多尺度目標(biāo)的召回率,并通過(guò)非極大值抑制的方法得到多尺度的目標(biāo)候選區(qū)域集合。
2)根據(jù)不同分辨率特征層在視覺(jué)語(yǔ)義信息和精確定位信息上的差異性,本文提出了TS-FAN模塊,通過(guò)跨層連接聚合多尺度特征信息,極大地縮短了底層特征信息傳播到頂層特征層的路徑,增強(qiáng)了特征金字塔的語(yǔ)義魯棒性和定位精確性。
3)基于尺度感知的端到端訓(xùn)練方案,將多路徑RPN中得到的不同尺度候選目標(biāo)集映射到與之匹配的聚合特征層中進(jìn)行特征提取,形成多尺度行人檢測(cè)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,在Caltech[19]和ETH[20]數(shù)據(jù)集上明顯優(yōu)于目前一流行人檢測(cè)方法TLL-TFA[21],尤其對(duì)大尺寸、低分辨率行人的檢測(cè)性能提升較為顯著。
TS-FAN總體結(jié)構(gòu)如圖1所示,主要包含3個(gè)部分:基于尺度補(bǔ)償策略的多路徑RPN、TS-FAN模塊和多尺度行人檢測(cè)網(wǎng)絡(luò)。TS-FAN網(wǎng)絡(luò)模型基于端到端的訓(xùn)練方式聯(lián)合不同路徑RPN子網(wǎng)絡(luò)和TS-FAN模塊,通過(guò)多路徑RPN產(chǎn)生得到的行人候選區(qū)域自適應(yīng)感知其在相應(yīng)特征聚合網(wǎng)絡(luò)模塊上的有效特征,并采用尺度感知的策略形成多尺度行人檢測(cè)網(wǎng)絡(luò)。圖中:C1~C5分別為Res-Net-50的5個(gè)不同階段;H3~H5分別為不同分辨率的聚合特征。
圖1 TS-FAN總體網(wǎng)絡(luò)架構(gòu)Fig.1 TS-FAN overall network architecture
RPN在Faster R-CNN[1]中被提出,因其引入了多尺度滑動(dòng)窗口遍歷特征圖的每個(gè)空間位置,極大地提高了目標(biāo)檢測(cè)的召回率。然而,RPN只在某一深度卷積特征層上提取候選目標(biāo),其固定尺寸的卷積核限制了單一特征層的視覺(jué)感受野大小。對(duì)此,F(xiàn)PN[14]在多個(gè)特征層上生成多尺度候選目標(biāo),進(jìn)一步提升了目標(biāo)檢測(cè)的召回率。在此基礎(chǔ)上,本文開(kāi)展了對(duì)多路徑RPN行人召回率的實(shí)驗(yàn)分析,發(fā)現(xiàn)不同深度卷積特征層對(duì)不同尺度行人候選目標(biāo)召回率具有較大的性能差異。大尺寸行人在高層特征圖具有較高的召回率,而小尺寸行人在分辨率高的低層特征具有較高的召回率。為此,根據(jù)各深度卷積特征層的有效感受野大?。?2],本文采用尺度補(bǔ)償策略,將行人候選目標(biāo)劃分為3個(gè)路徑的RPN來(lái)適應(yīng)行人的多尺度變化,如圖2所示。其中左、右分支作為輔助檢測(cè)網(wǎng)絡(luò),中間分支則為主檢測(cè)網(wǎng)絡(luò)。本文使用ResNet-50作為特征提取基礎(chǔ)網(wǎng)絡(luò),定義C3、C4、C5代表基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)中每個(gè)階段的最后一個(gè)殘差塊res3d、res4 f、res5c。不同分支RPN中設(shè)置有效真實(shí)標(biāo)注框的高度(行人實(shí)例高度像素值)分別在小于50像素、所有像素、大于100像素范圍內(nèi),跨越該范圍的真實(shí)標(biāo)注視為無(wú)效標(biāo)注,不參與該RPN分支訓(xùn)練。由于每個(gè)RPN路徑針對(duì)不同尺度的行人目標(biāo)進(jìn)行訓(xùn)練,所以不同RPN路徑使用獨(dú)立損失函數(shù),其中RPN多任務(wù)損失函數(shù)定義為
圖2 多路徑RPNFig.2 Multipath region proposal network
L=lcls+φ[y=1]lloc(1)
式中:lcls為分類(lèi)損失采用交叉熵?fù)p失函數(shù)[1];lloc為位置回歸損失采用Smooth-L1損失函數(shù)[1];φ為一個(gè)超參數(shù);y=1表示只有正樣本進(jìn)行位置回歸?;趩蝹€(gè)RPN損失函數(shù),給出總體損失函數(shù),其定義為
式中:L1、L2、L3分別為左、中、右分支的多任務(wù)損失函數(shù)。
基于上述多路徑RPN得到具有不同尺度范圍的候選區(qū)域集P={Ps,Pa,Pl},其中Ps和Pl分別為小尺度集和大尺度集,它們是對(duì)所有尺度集Pa的尺度補(bǔ)償。對(duì)于上述候選區(qū)域集使用閾值為0.7的非極大值抑制減少重疊候選目標(biāo)框,為目標(biāo)識(shí)別階段提供高質(zhì)量的候選區(qū)域。
特征金字塔被廣泛應(yīng)用到多尺度檢測(cè)的模型中,如 圖3所 示,SSD[2]和STDN[23]網(wǎng) 絡(luò) 都 是基于自底向上的信息傳播方式生成不同空間分辨的特征金字塔。然而這種方法沒(méi)有考慮到不同層次信息的互 補(bǔ) 性[24-26],TLL-TFA[21]、CSP[27]等利用反卷積等上采樣操作將不同層次的特征層歸一化到同一分辨率,并通過(guò)特征通道疊加的方式進(jìn)行特征融合。FPN[14]和PANet[15]模型構(gòu)建了自上而下和自底向上的信息傳播路徑,融合不同層次特征層作為目標(biāo)檢測(cè)特征層。而M2Det[16]提出了多層次的FPN,使用更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)生成具有更強(qiáng)表達(dá)能力的特征金字塔。然而這些方法都是通過(guò)復(fù)雜的網(wǎng)絡(luò)構(gòu)建更多的特征金字塔,從而得到更加魯棒的特征表示,其忽略了低層次特征的重要性,丟失大量的細(xì)節(jié)特征信息。
圖3 多種特征金字塔模型示意圖Fig.3 Schematic diagram ofmultiple feature pyramid models
本文提出的TS-FAN模塊是在FPN網(wǎng)絡(luò)模型的基礎(chǔ)上通過(guò)添加自底向上快速路徑,縮短低層次高分辨率特征圖到高層次特征圖的傳播路徑,以有效聚合低層特征圖中的局部細(xì)節(jié)特征信息。本文在自底向上的特征編碼路徑引入平均池化層,來(lái)豐富用于檢測(cè)特征層的特征信息,實(shí)現(xiàn)不同尺度卷積特征的增強(qiáng)表示。
本文提出的TS-FAN模塊有效地融合了自頂向下、由底向上和同層映射三種路徑特征,如圖4所示。在特征融合之前,首先使用1×1卷積核對(duì)當(dāng)前特征層Ci和上、下相鄰特征層Ci+1、Ci-1(i?{3,4,5})實(shí)現(xiàn)特征維度的統(tǒng)一,得到空間分辨率不同但 是 特 征 通 道 數(shù) 相 同 的 特 征 層C′i+1、C′i、C′i-1。在自上而下的特征傳播路徑中,使用雙線(xiàn)性插值的上采樣方法將C′i+1特征層的空間分辨率擴(kuò)大到原來(lái)的2倍,并且保持特征維度不變,保留其高層特征圖中較為魯棒的語(yǔ)義特征信息。另一方面,為保留低層有利于目標(biāo)定位較為敏感的局部位置信息,在自底向上的特征增強(qiáng)路徑中,采用平均池化方法對(duì)C′i-1層特征層下采樣縮放至原來(lái)一半的空間分辨率大小,并且不改變其特征維度,保留其低層特征圖中較為精確的定位信息。特征聚合通過(guò)對(duì)特征圖逐像素相加的方式實(shí)現(xiàn),其能夠增加特征的信息量,但特征維度本身沒(méi)有增加,這對(duì)于最終的圖像分類(lèi)是有益的。最后為減少上采樣過(guò)程中的混疊效應(yīng),添加了一個(gè)3×3卷積處理融合后的特征圖生成最終的具有強(qiáng)表達(dá)能力的特征圖。TS-FAN模塊的計(jì)算公式為
圖4 特征聚合模塊Fig.4 Feature aggregation module
式中:c為特征通道維度;Ki為3×3卷積核;“*”為卷積操作;Avgpooling為平均池化操作;Upsampling為上采樣操作;Hi為T(mén)S-FAN模塊得到的增強(qiáng)特征表示。
本文根據(jù)不同分辨率的特征層對(duì)于不同尺度行人的有效性,通過(guò)多尺度檢測(cè)方法聯(lián)合多路徑RPN生成的多尺度行人候選集Pi={Ps,Pa,Pl}和TS-FAN模塊得到的聚合特征Hi={H3,H4,H5}提取候選區(qū)域特征編碼。如多路徑RPN中的主檢測(cè)分支生成Pa集合中的行人候選區(qū)域匹配到相應(yīng)的TS-FAN生成的聚合特征H4,從而得到該特征層的感興趣區(qū)域,利用RoI-pooling歸一化提取的特征編碼得到7×7×512特征,將提取的特征編碼由全連接層變換到1 024維高維特征向量,精確計(jì)算候選區(qū)域的置信度分?jǐn)?shù)和4個(gè)坐標(biāo)偏移量,得到最終的檢測(cè)結(jié)果,其他2個(gè)輔助檢測(cè)分支類(lèi)似。對(duì)于不同尺度集的候選區(qū)域使用對(duì)應(yīng)的檢測(cè)分支,每個(gè)檢測(cè)分支訓(xùn)練都有真實(shí)類(lèi)別標(biāo)注p*和真實(shí)標(biāo)注框b*=分別為真實(shí)標(biāo)注框的左下角坐標(biāo)和寬、高。本文單分支行人檢測(cè)訓(xùn)練的損失函數(shù)定義如下:
式中:Lcls為分類(lèi)交叉損失函數(shù);Lreg為候選目標(biāo)的回歸損失函數(shù),Lreg(b,b*)=R(b-b*),R為Smooth-L1損失函數(shù);p和b=(bx,by,bw,bh)為網(wǎng)絡(luò)候選目標(biāo)框置信度分?jǐn)?shù)和空間位置;λ為平衡分類(lèi)與回歸任務(wù)的損失函數(shù),本文中λ=10。預(yù)測(cè)得到的候選目標(biāo)框與任何一個(gè)真實(shí)標(biāo)注框的重疊度大于0.5時(shí)p*=1,否則p*=0。多尺度行人檢測(cè)的具體實(shí)現(xiàn)過(guò)程如算法1所示。
算法1基于TS-FAN的多尺度行人檢測(cè)。
輸出:網(wǎng)絡(luò)模型權(quán)重ω和ωb。
初始化:加載ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重,為新添加的卷積層使用高斯函數(shù)初始化權(quán)重。設(shè)定學(xué)習(xí)率ζω和ζωb。
迭代循環(huán):
其中:t和T分別為當(dāng)前迭代次數(shù)和總迭代次數(shù);Lfar、Lmedium、Lnear分別為大尺寸、中尺寸、小尺寸分支路徑的損失函數(shù);ζω和ζωb分別為權(quán)重的學(xué)習(xí)率和偏置項(xiàng)的學(xué)習(xí)率。
本節(jié)在2個(gè)公開(kāi)基準(zhǔn)數(shù)據(jù)集Caltech和ETH上測(cè)試本文的TS-FAN方法對(duì)多尺度行人檢測(cè)的有效性。本文基于Caltech評(píng)估標(biāo)準(zhǔn)[19]:平均每幅圖像假陽(yáng)性(FPPI)在[10-2,100]之間的行人漏檢率,用MR-2表示。依據(jù)Caltech測(cè)試集數(shù)據(jù)劃分標(biāo)準(zhǔn)[19],劃分為:Reasonable子集(行人高度大于50像素和可見(jiàn)度在65%以上);All子集(高度最小為20像素和可見(jiàn)度在20%以上);Large、Near、Medium和Far子集分別表示行人高度范圍為大于100像素、大于80像素、30~80像素之間和20~30像素之間的測(cè)試子集。設(shè)置學(xué)習(xí)率為0.001、權(quán)重衰減為0.0005、梯度更新權(quán)重為0.9,在單GPU上每個(gè)mini-batch使用2張圖片,選擇使用SGD優(yōu)化器。實(shí)驗(yàn)所使用環(huán)境為Ubuntu14.0、caffe2、CUDA8.0.61、python2.7.12,硬件配置為NVIDIA GeForce GTX 1080Ti(一塊)、Intel(R)Xeon(R)CPU E5-2609v4@1.70GHz×16。
2.2.1 RPN尺度補(bǔ)償策略的重要性
為驗(yàn)證基于尺度補(bǔ)償策略的多路徑RPN對(duì)多尺度行人候選目標(biāo)生成的有效性,本文在Caltech數(shù)據(jù)集上通過(guò)RPN獲取300個(gè)目標(biāo)候選框,以評(píng)估行人檢測(cè)的召回率(表示為R300)。本實(shí)驗(yàn)設(shè)置預(yù)測(cè)目標(biāo)框與真實(shí)標(biāo)注框重疊度閾值大于0.5即為判斷為正樣本,否則為負(fù)樣本。
首先,在ResNet-50的不同層次特征層(C3、C4、C5)中引入RPN,P34表示為FPN網(wǎng)絡(luò)中聯(lián)合使用P3、P4特征層,C34表示為聯(lián)合使用C3、C4特征層,其他依次類(lèi)推。從表1數(shù)據(jù)可以看出,小尺寸的行人在高分辨率的特征層上具有較高的召回率,如C3要比C5表現(xiàn)得更好。而在C4層,該層能夠更好地兼顧不同尺度行人實(shí)例,對(duì)于多尺度檢測(cè)表現(xiàn)出良好的效果,但對(duì)于小尺寸行人實(shí)例召回率僅為75.2%,這意味著單卷積層的RPN并不能有效覆蓋圖像中行人實(shí)例的所有尺度。本文引入多路徑RPN尺度補(bǔ)償策略提取多尺度目標(biāo)候選框,在整個(gè)Caltech多尺度行人集合上取得了97.2%的行人召回率。而且從表1中還可以看到,在卷積特征層上聯(lián)合多路徑RPN生成行人候選目標(biāo)比在FPN中更為有效,其原因可歸結(jié)為經(jīng)過(guò)卷積后的特征層比融合后的FPN特征含有更多的局部細(xì)節(jié)信息。
表1 在Caltech數(shù)據(jù)集上對(duì)于RPN的消融實(shí)驗(yàn)Table 1 Ablation experim ent of RPN on Caltech dataset
2.2.2 跨尺度聚合特征對(duì)于行人檢測(cè)的有效性
為驗(yàn)證本文TS-FAN模塊對(duì)行人檢測(cè)的有效性,本節(jié)將其與FPN的行人檢測(cè)結(jié)果進(jìn)行了實(shí)驗(yàn)對(duì)比。表2中的Proposal為單路徑RPN的輸入,如FPN-P3和TS-FAN-H3分別表示FPN網(wǎng)絡(luò)和TS-FAN網(wǎng)絡(luò)在ResNet-50第3階段檢測(cè),其余類(lèi)似,TS-FAN-H3H4H5表示多分支檢測(cè)。從表2中可以觀察到,TS-FAN 模塊 TS-FAN-H3和 TSFAN-H4相較于FPN 的FPN-P3和FPN-P4在Caltech數(shù)據(jù)集上均有明顯的檢測(cè)性能提升。尤其是TS-FAN-H3比FPN-P3在Caltech的Reasonable、Near、Medium子集上的行人漏檢率MR-2降低了17.45%、28%、11.25%,TS-FAN-H4相對(duì)于FPN-P4在Far子集上的行人漏檢率MR-2提升了9.91%。這可歸因于聚合低層次特征的細(xì)節(jié)信息有利于提升行人的檢測(cè)效果。
表2 Caltech數(shù)據(jù)集上驗(yàn)證跨尺度聚合特征的有效性Tab le 2 Verification of validity of trans-scale aggregation features on Caltech dataset
值得關(guān)注的是在FPN-P5加入低層次特征后,TS-FAN-H5只在Caltech的Near測(cè)試子集上表現(xiàn)出性能提升,其原因可歸結(jié)為該特征層分辨率較低,更加傾向于大尺寸行人實(shí)例的檢測(cè)。而且表2中聯(lián)合各跨尺度聚合特征在Caltech的Reasonable和Near測(cè)試子集上表現(xiàn)效果略低于單跨尺度聚合特征,而在Medium和Far測(cè)試子集上行人漏檢率MR-2為17.24%和50.38%,明顯優(yōu)于單跨尺度聚合特征。這是由于低層次特征的加入,使得網(wǎng)絡(luò)更加關(guān)注中、小尺度行人。最后,本文相對(duì)于單路徑RPN,在多路徑RPN下聯(lián)合各跨尺度聚合特征TS-FAN-H3H4H5,能夠更有效地檢測(cè)多尺度行人實(shí)例,在Reasonable、Near、Medium、Far測(cè)試子集上行人漏檢率MR-2分別達(dá)到5.53%、0.47%、13.76%、47.30%。其在不同尺度行人的檢測(cè)性能上均有明顯的提升,其原因可歸結(jié)為多路徑RPN為第二階段行人識(shí)別和預(yù)測(cè)行人目標(biāo)包圍框提供了高召回率、高質(zhì)量行人候選區(qū)域集。
本節(jié)為橫向?qū)Ρ缺疚姆椒▽?duì)多尺度行人檢測(cè)的有效性,首先在Caltech測(cè)試數(shù)據(jù)集上與目前表現(xiàn)較好的行人檢測(cè)方法FasterRCNN+ATT[28]、RPN +BF[29]、AdaptFasterRCNN[30]、F-DNN +SS[31]、PCN[32]、GDFL[33]、F-DNN2+SS[34]、TLLTFA和AR-Ped[35]進(jìn)行了實(shí)驗(yàn)對(duì)比。從表3中可以看出,本文TS-FAN方法在Caltech數(shù)據(jù)集上取得了最好的檢測(cè)性能,其在Reasonable、All、Near、Medium和Far的子集上,行人漏檢率MR-2分別為5.53%、26.21%、0.47%、13.76%和47.30%。在Caltech測(cè)試數(shù)據(jù)集Reasonable子集上,本文方法相較于當(dāng)前一流的AR-Ped方法,行人漏檢率MR-2降低了0.92%。與當(dāng)前領(lǐng)先的TLL-TFA方法相比,在All、Near、Medium和Far的子集上行人漏檢率 MR-2分別降低了11.94%、0.25%、9.16%和12.79%。量化的實(shí)驗(yàn)對(duì)比結(jié)果如圖5中所示,可以明顯地觀察到本文提出的TS-FAN網(wǎng)絡(luò)對(duì)于不同尺度的行人實(shí)例均表現(xiàn)出較好的行人檢測(cè)效果。
圖5 在Caltech數(shù)據(jù)集上,本文方法與目前一流方法的對(duì)比Fig.5 Comparison of proposed method with some state-of-the-artmethods on Caltech dataset
表3 在Caltech數(shù)據(jù)集不同重疊評(píng)估設(shè)置上,本文方法與目前一流方法的比較Tab le 3 Com parison of p roposed m ethod w ith som e state-of-the-art m ethods on the Caltech dataset under differen t overlapping evaluation p rotocols
低層次特征帶來(lái)局部細(xì)節(jié)特征信息和較為精確的定位信息,使得網(wǎng)絡(luò)對(duì)于位置感知能力更強(qiáng),從而在行人間的遮擋問(wèn)題上同樣表現(xiàn)出具有競(jìng)爭(zhēng)力的行人檢測(cè)效果。TS-FAN方法在Caltech數(shù)據(jù)集的Partial和Heavy子集上與當(dāng)前領(lǐng)先的TLLTFA方法相比,在Partial和Heavy子集上行人漏檢率MR-2分別降低了7.81%和10.84%。在Partial子集上與AR-Ped方法相比,行人漏檢率MR-2降低了1.25%。
在ETH測(cè)試數(shù)據(jù)集上,TS-FAN方法與目前檢測(cè)性能較好的行人檢測(cè)方法ChnFtrs[36]、Joint-Deep[37]、MultiSDP[38]、DBN-Mut[39]、TA-CNN[40]、RPN+BF和F-DNN2+SS進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示。見(jiàn)圖6(a)和(b),TS-FAN方法在All和Reasonable測(cè)試子集上比目前檢測(cè)效果較好的F-DNN2+SS方法行人漏檢率MR-2降低了7.28%和2.73%。尤其在Medium和Far子集上,TS-FAN方法行人漏檢率MR-2提升了19.97%和29.21%,如圖6(e)和(f)所示。而在Near子集上,TS-FAN方法較RPN+BF方法和F-DNN2+SS方法行人漏檢率MR-2分別降低了1.51%和3.19%。其原因可歸結(jié)為本文TS-FAN方法沒(méi)有使用更深層次的卷積層(如特征圖分辨率較原圖下采樣64倍)。
圖6 在ETH數(shù)據(jù)集上,本文方法與目前一流方法的對(duì)比Fig.6 Comparison of proposed method with some state-of-the-artmethods on ETH dataset
為形象地觀測(cè)本文TS-FAN模型在Caltech數(shù)據(jù)集和ETH數(shù)據(jù)集上的檢測(cè)效果,圖7和圖8顯示了本文方法與當(dāng)前一流行人檢測(cè)方法的輸出結(jié)果。
圖7 在Caltech數(shù)據(jù)集上,本文方法與目前一流方法可視化效果對(duì)比Fig.7 Comparison of visualized effects of proposed method with some state-of-the-artmethods on Caltech dataset
圖8 在ETH數(shù)據(jù)集上,本文方法與目前一流方法可視化效果對(duì)比Fig.8 Comparison of visualized effects of proposed method with some state-of-the-artmethods on ETH dataset
1)本文針對(duì)多尺度行人檢測(cè)任務(wù),設(shè)計(jì)了一種跨尺度特征聚合的多尺度行人檢測(cè)網(wǎng)絡(luò),其通過(guò)多路徑RPN尺度補(bǔ)償策略為行人識(shí)別階段提供了高質(zhì)量的目標(biāo)候選區(qū)域。
2)提出的TS-FAN網(wǎng)絡(luò)模塊為多尺度行人檢測(cè)網(wǎng)絡(luò)提供了高魯棒性的特征層用于特征提取,并通過(guò)實(shí)驗(yàn)驗(yàn)證TS-FAN網(wǎng)絡(luò)模塊能顯著提高行人檢測(cè)性能。
3)通過(guò)多尺度行人檢測(cè)網(wǎng)絡(luò),聯(lián)合多路徑RPN得到的候選目標(biāo)區(qū)域和跨尺度聚合特征進(jìn)行行人識(shí)別和精細(xì)化空間位置。實(shí)驗(yàn)結(jié)果表明,本文方法TS-FAN在Caltech數(shù)據(jù)集和ETH數(shù)據(jù)集上取得了一流的多尺度行人檢測(cè)性能。