• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合上下文及空間信息的擁擠行人檢測(cè)算法

      2023-09-06 04:29:58劉振興宋曉寧
      關(guān)鍵詞:行人特征融合

      劉振興,宋曉寧

      (江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122)

      1 引 言

      行人檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的熱門研究課題之一,其最終目的是準(zhǔn)確識(shí)別行人類別并檢測(cè)行人所處位置.行人檢測(cè)算法作為關(guān)鍵技術(shù)已經(jīng)被廣泛應(yīng)用于相關(guān)學(xué)術(shù)或工業(yè)領(lǐng)域,并在其中發(fā)揮著重要作用.隨著該技術(shù)的快速發(fā)展,現(xiàn)階段行人檢測(cè)算法性能面臨各種挑戰(zhàn),行人遮擋就是其中一個(gè)主要的挑戰(zhàn).在行人密度較大的擁擠場(chǎng)景中,很多檢測(cè)算法性能相較于簡(jiǎn)單場(chǎng)景會(huì)大打折扣,被遮擋行人存在嚴(yán)重的漏檢或誤檢問題.

      在行人檢測(cè)算法發(fā)展初期,許多傳統(tǒng)的方法被用于解決行人檢測(cè)問題,其中有基于Haar小波特征、梯度方向直方圖(Histogram of Oriented Gradients,HOG)和輪廓模板的方法被提出.這一類方法在早期的行人檢測(cè)任務(wù)中發(fā)揮了重要的作用.隨著深度學(xué)習(xí)的發(fā)展,越來越多的研究者發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征表達(dá)能力,基于深度學(xué)習(xí)的行人檢測(cè)算法逐漸成為了主流.現(xiàn)有的通用目標(biāo)檢測(cè)算法已經(jīng)被證明能夠完成簡(jiǎn)單場(chǎng)景下的行人檢測(cè)任務(wù),并且表現(xiàn)出較優(yōu)的性能.不論是一階段目標(biāo)檢測(cè)算法YOLO[1]、SSD[2],還是兩階段目標(biāo)檢測(cè)算法Faster R-CNN[3]、Cascade R-CNN[4]在行人檢測(cè)任務(wù)中都有被廣泛應(yīng)用.然而,通用目標(biāo)檢測(cè)算法在擁擠場(chǎng)景下的檢測(cè)性能會(huì)因嚴(yán)重的遮擋問題而大幅下降,這也使研究者開始關(guān)注行人遮擋問題.文獻(xiàn)[5]提出一種行人檢測(cè)和遮擋估計(jì)的方法,通過網(wǎng)絡(luò)的兩個(gè)分支分別預(yù)測(cè)行人全身和可見部分位置.類似地,文獻(xiàn)[6]通過同時(shí)預(yù)測(cè)行人全身和頭部位置,有效緩解行人遮擋帶來的檢測(cè)不準(zhǔn)確問題.文獻(xiàn)[7,8]針對(duì)遮擋問題對(duì)網(wǎng)絡(luò)的損失函數(shù)進(jìn)行重新設(shè)計(jì),使得預(yù)測(cè)框和真實(shí)目標(biāo)框更加接近.非極大線性抑制(Non-Maximum Suppression,NMS)[9]在目標(biāo)檢測(cè)中發(fā)揮著重要作用,能夠有效地抑制大量非相關(guān)候選框.文獻(xiàn)[10,11]提出具有針對(duì)性的NMS方法,能夠在密集行人場(chǎng)景下更加準(zhǔn)確地抑制目標(biāo)框周圍的非相關(guān)候選框.文獻(xiàn)[12,13]使用注意力機(jī)制,讓網(wǎng)絡(luò)特征學(xué)習(xí)更加關(guān)注被遮擋行人的可見區(qū)域.文獻(xiàn)[14]將行人檢測(cè)問題轉(zhuǎn)換為行人頭部檢測(cè)問題,有效應(yīng)對(duì)行人遮擋問題.上述方法為解決行人檢測(cè)中的遮擋問題提供了不同的可行策略,但是遮擋問題始終沒有較好地方法徹底解決,這些方法依然存在許多不足.

      本文針對(duì)擁擠場(chǎng)景下的行人檢測(cè)任務(wù),提出一種融合目標(biāo)上下文及空間信息的檢測(cè)方法.使用改進(jìn)之后的特征金字塔網(wǎng)絡(luò)抽取目標(biāo)多尺度特征,有效應(yīng)對(duì)檢測(cè)目標(biāo)尺度變化問題.此外,通過有效融合目標(biāo)上下文信息和空間位置信息,使得特征學(xué)習(xí)網(wǎng)絡(luò)充分挖掘行人的有效特征,降低因行人被遮擋導(dǎo)致整體信息缺失帶來的影響.利用數(shù)據(jù)增強(qiáng)豐富行人遮擋的方式,有效提升網(wǎng)絡(luò)模型特征表達(dá)能力,進(jìn)一步提高在擁擠場(chǎng)景中算法的檢測(cè)能力.在公開數(shù)據(jù)集CrowdHuman[15]和CityPersons[16]上實(shí)驗(yàn)證明提出方法的有效性,在不使用額外監(jiān)督信息的情況下進(jìn)一步提升了行人檢測(cè)算法在擁擠場(chǎng)景中的性能.

      2 Faster R-CNN算法

      Faster R-CNN檢測(cè)算法是目標(biāo)檢測(cè)任務(wù)中主流的方法之一,采用兩階段的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),能夠在各種任務(wù)中獲得較為突出的檢測(cè)性能,得到了研究者的高度認(rèn)可.行人檢測(cè)任務(wù)中使用Faster R-CNN或其優(yōu)化算法也較為普遍.Faster R-CNN 網(wǎng)絡(luò)結(jié)構(gòu)以原始圖像作為輸入,經(jīng)過ResNet-50[17]卷積神經(jīng)網(wǎng)絡(luò)做目標(biāo)特征抽取,利用候選區(qū)域網(wǎng)絡(luò)對(duì)已抽取特征進(jìn)行第1個(gè)階段的分類和回歸,該階段可以過濾掉許多與目標(biāo)不相關(guān)的候選框.之后,將候選框特征輸入到第2個(gè)階段,經(jīng)感興趣區(qū)域(Region of Interest,RoI)池化操作和全連接層的輸出特征作為最終的目標(biāo)特征,最后網(wǎng)絡(luò)分別對(duì)其做分類和回歸預(yù)測(cè)完成目標(biāo)檢測(cè).

      Faster R-CNN檢測(cè)網(wǎng)絡(luò)在擁擠場(chǎng)景下表現(xiàn)不佳.從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā)分析導(dǎo)致性能下降的原因,首先是特征抽取網(wǎng)絡(luò)的選取,深度殘差網(wǎng)絡(luò)ResNet-50從被提出開始就受到很多研究者的青睞,主要是因?yàn)槠渲械臍埐钅K設(shè)計(jì)能夠很好地解決梯度消失或爆炸、網(wǎng)絡(luò)退化問題,在很多研究領(lǐng)域都有廣泛應(yīng)用.針對(duì)行人密度大的場(chǎng)景,由于行人和采樣相機(jī)之間距離的不確定,以及行人尺度的多樣化,導(dǎo)致被檢測(cè)目標(biāo)存在尺度變化問題,這對(duì)特征抽取網(wǎng)絡(luò)ResNet-50網(wǎng)絡(luò)來說是一個(gè)挑戰(zhàn).其次,因?yàn)楸徽趽跄繕?biāo)對(duì)特征有很大的敏感性,如果相互遮擋的行人特征提取不夠或不準(zhǔn)確都會(huì)使得檢測(cè)網(wǎng)絡(luò)產(chǎn)生誤判,從而影響最終的檢測(cè)結(jié)果.上述問題使得本文需要進(jìn)一步的考慮行人檢測(cè)算法的結(jié)構(gòu)設(shè)計(jì),通過改變網(wǎng)絡(luò)模型的實(shí)現(xiàn)細(xì)節(jié)來優(yōu)化算法性能.本文在繼承Faster R-CNN網(wǎng)絡(luò)兩階段結(jié)構(gòu)的基礎(chǔ)上,針對(duì)其應(yīng)用于擁擠場(chǎng)景存在的問題進(jìn)行相應(yīng)的改進(jìn)和重新設(shè)計(jì),有效地提升了檢測(cè)器在擁擠場(chǎng)景下的檢測(cè)能力.

      3 本文方法

      3.1 算法框架

      為了有效提升行人檢測(cè)算法在擁擠場(chǎng)景下的檢測(cè)能力,本文所提方法在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)上選擇能夠獲得更高精度的兩階段目標(biāo)檢測(cè)網(wǎng)絡(luò).如圖1所示為提出方法的整體網(wǎng)絡(luò)框架結(jié)構(gòu).原始輸入圖像首先經(jīng)過數(shù)據(jù)增強(qiáng)做隨機(jī)擦除預(yù)處理,將處理之后的圖像輸入特征抽取網(wǎng)絡(luò)獲得充分融合的多尺度特征.然后將這些特征輸入上下文模塊進(jìn)而提取行人潛在的上下文信息和空間特征信息.融合了上下文信息及空間信息的特征被輸入到候選區(qū)域網(wǎng)絡(luò)做第1階段的分類和回歸任務(wù).之后,將得到的候選框特征經(jīng)過感興趣區(qū)域?qū)R處理和全連接層輸出,最后利用輸出特征做第2階段的分類和回歸完成行人檢測(cè).

      圖1 本文提出算法網(wǎng)絡(luò)圖Fig.1 Network diagram of the algorithm proposed in this paper

      兩個(gè)階段的分類和回歸任務(wù)都使用多任務(wù)損失函數(shù)完成模型訓(xùn)練.其中分類和回歸任務(wù)分別為交叉熵?fù)p失函數(shù),Smooth L1損失函數(shù),公式如下:

      (1)

      3.2 多尺度特征抽取網(wǎng)絡(luò)

      特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN)[18]的提出為解決目標(biāo)檢測(cè)任務(wù)中存在的多尺度問題提供了一個(gè)可行解.其結(jié)構(gòu)如圖2所示.該網(wǎng)絡(luò)的輸入為一張圖像,輸出為多層的不同比例大小的特征圖.特征金字塔網(wǎng)絡(luò)的結(jié)構(gòu)主要由一個(gè)自下而上的路徑、一個(gè)自上而下的路徑和橫向連接結(jié)構(gòu)3部分組成.首先是一個(gè)自下而上的路徑.如圖2左半部分所示,一般選取ResNet特征抽取網(wǎng)絡(luò)作為其自下而上結(jié)構(gòu),使用每個(gè)階段(stage)的最后一個(gè)殘差塊輸出的特征圖,并將其定義為C2、C3、C4、C5,它們相對(duì)于輸入圖像的步幅(stride)為4、8、16、32像素.其次是一個(gè)自上而下的路徑,如圖2右半部分所示,自上而下結(jié)構(gòu)將具有更強(qiáng)語義的高層特征圖進(jìn)行上采樣獲得高分辨率的特征.隨后通過橫向連接結(jié)構(gòu)與自下而上路徑的特征相融合得到增強(qiáng),每一個(gè)橫向連接都會(huì)合并兩條路徑中具有相同空間大小的特征圖,這使得具有高級(jí)語義的特征能夠和高分辨的特征在網(wǎng)絡(luò)結(jié)構(gòu)中得到融合.網(wǎng)絡(luò)的特征輸出被定義為P2、P3、P4、P5,與C2、C3、C4、C5相對(duì)應(yīng).

      圖2 特征金字塔網(wǎng)絡(luò)Fig.2 Feature pyramid network

      神經(jīng)網(wǎng)絡(luò)的淺層特征一般具有更多的空間細(xì)節(jié)信息,深層特征往往更多地具有較高的語義信息.通常,目標(biāo)的定位更多地依靠網(wǎng)絡(luò)的淺層特征,分類主要依靠深層更具判別性的特征.特征金字塔網(wǎng)絡(luò)利用自上而下的增強(qiáng)分支很好地將網(wǎng)絡(luò)高層語義信息與底層特征相結(jié)合,進(jìn)一步提升了特征抽取網(wǎng)絡(luò)的表達(dá)能力.受文獻(xiàn)[19,20]啟發(fā),本文為了增強(qiáng)多尺度特征抽取網(wǎng)絡(luò),在特征金字塔網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ)上進(jìn)行改進(jìn),考慮網(wǎng)絡(luò)低層特征對(duì)于目標(biāo)定位的重要性,利用自下而上的帶權(quán)融合分支將底層特征有效地傳播到高層,使得整個(gè)特征網(wǎng)絡(luò)得到增強(qiáng),每一個(gè)層級(jí)特征有更好地表達(dá)能力.

      為了使多尺度特征融合更加有效和充分,本文對(duì)特征金字塔網(wǎng)絡(luò)做進(jìn)一步的改進(jìn).考慮到在融合不同尺度特征時(shí),不同的輸入特征對(duì)最后的輸出特征的貢獻(xiàn)度或重要性是有所差別的.本方法在已有的特征金字塔網(wǎng)絡(luò)多層輸出之后增加一個(gè)帶有權(quán)重學(xué)習(xí)的自下而上的分支,使得經(jīng)過FPN網(wǎng)絡(luò)初步融合的特征進(jìn)一步與通過下采樣得到的特征有效融合,進(jìn)行融合的多尺度分支特征都帶有可學(xué)習(xí)的權(quán)重參數(shù),這樣可以根據(jù)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)多尺度特征融合需要的權(quán)重.如圖3所示為各層不同尺度特征進(jìn)行帶權(quán)融合的結(jié)構(gòu).該分支從特征金字塔網(wǎng)絡(luò)的輸出特征P2開始,對(duì)其進(jìn)行卷積下采樣,之后將所得特征通過圖3的方式與下一層特征P3進(jìn)行帶權(quán)融合,其中W1和W2為可學(xué)習(xí)權(quán)重.經(jīng)過帶權(quán)融合的特征繼續(xù)進(jìn)行下采樣與其下一層特征進(jìn)行同樣方式的融合.最終改進(jìn)后的特征網(wǎng)絡(luò)輸出為E2,E3,E4,E5,與前面FPN的多層輸出相對(duì)應(yīng).具有權(quán)重的多個(gè)特征進(jìn)行相互融合不再是簡(jiǎn)單的疊加,而是通過網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)得到合適的權(quán)重,不同特征對(duì)最后提取特征貢獻(xiàn)不同,有效減少特征簡(jiǎn)單相加進(jìn)行融合帶來的特征冗余,從而使得融合更加有效.

      圖3 橫向連接結(jié)構(gòu)Fig.3 Horizontal connection structure

      改進(jìn)后的特征金字塔網(wǎng)絡(luò)可以很好地融合不同層特征,首先利用原始特征金字塔網(wǎng)絡(luò)自上而下的結(jié)構(gòu)將高層語義特征與底層特征相結(jié)合,然后通過提出的自下而上的帶權(quán)融合分支將具有更多空間細(xì)節(jié)信息的低層特征傳播到高層特征中.經(jīng)過兩個(gè)不同方向的多尺度融合使得底層特征也可以具有比較充分的語義信息,高層特征也可以具備更多利于定位的信息.改進(jìn)后的特征金字塔網(wǎng)絡(luò)的輸出依然是是多層的特征,其中每一層的特征都具有不同的尺度,可以很好地適應(yīng)行人檢測(cè)目標(biāo)尺度的變化.

      3.3 融合上下文及空間信息

      對(duì)于擁擠場(chǎng)景下的行人檢測(cè),行人遮擋是一個(gè)較為突出的問題.被遮擋行人由于缺乏完整的特征信息導(dǎo)致檢測(cè)器無法正確檢出.為了使特征抽取網(wǎng)絡(luò)獲得足夠的行人特征信息,緩解行人遮擋帶來的目標(biāo)特征抽取不充分問題,本文通過擴(kuò)大特征感知范圍,有效結(jié)合目標(biāo)空間信息,提出一種有效融合上下文信息和空間特征信息的模塊.

      如圖4所示,為了獲得更多的特征上下文信息,本文方法使用卷積核大小不同的卷積分別對(duì)特征進(jìn)行卷積處理,不同大小的感受野能夠捕捉不同范圍的潛在目標(biāo)信息.本文使用卷積核大小為3×3,5×5和7×7的卷積分別對(duì)特征F∈RH×W×C進(jìn)行卷積操作獲得特征F1∈RH×W×C/2,F2∈RH×W×C/4和F3∈RH×W×C/4.此外,為了獲得更多的空間位置信息,能夠更多地幫助目標(biāo)定位,如公式(2)所示,使用空間信息提取網(wǎng)絡(luò)將特征F先通過一個(gè)基于通道的全局最大池化(Global Max Pooling,GMP)和全局平均池化處理(Global Average Pooling,GAP),得到兩個(gè)大小為[H×W×1]的特征圖.之后將兩個(gè)特征圖基于通道進(jìn)行拼接作為卷積f的輸入,經(jīng)過卷積把通道數(shù)降維,降維之后的特征經(jīng)過sigmoid函數(shù)得到攜帶空間信息的特征.

      圖4 上下文模塊Fig.4 Context module

      S(F)=δ(f([GMP(F),GAP(F))])

      (2)

      最后,為了使模塊特征同時(shí)具有上下文信息和空間信息,對(duì)具有不同感受野的特征進(jìn)行空間信息的融合,使其具備一定的空間信息,這有助于目標(biāo)在缺失部分特征的情況下仍然可以被正確檢出.將空間信息S與特征F1,F2,F3分別進(jìn)行逐元素相乘,使得3個(gè)具有不同上下文信息的特征都攜帶有一定的空間信息.將融合后具有空間信息的特征基于通道進(jìn)行拼接操作獲得完整的特征上下文.在上下文模塊的最后使用可變形卷積(Deformable Convolution,DConv)[21]做簡(jiǎn)單的特征對(duì)齊操作后輸出模塊的最終特征.為了驗(yàn)證提出方法的有效性,本文的實(shí)驗(yàn)章節(jié)通過在不同網(wǎng)絡(luò)添加模塊做消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果很好地說明了模塊的有效性.

      3.4 數(shù)據(jù)增強(qiáng)

      行人檢測(cè)的遮擋場(chǎng)景一般可以分為兩種,第1種是類間遮擋,即行人目標(biāo)被其它類別的物體(如汽車、墻體等)所遮擋,這類遮擋會(huì)使得行人缺乏完整的特征信息;第2種是類內(nèi)遮擋,這種遮擋是由于行人密集而導(dǎo)致的行人之間的互相遮擋,往往這類遮擋會(huì)因?yàn)樘卣餍畔⒌南嗨贫葮O大而影響最終的檢測(cè)判別.在公開的數(shù)據(jù)集中第1種遮擋模式相較于第2種少許多,為了有效豐富數(shù)據(jù)中的遮擋模式,基于隨機(jī)擦除算法[22],本文通過隨機(jī)的擦除人群區(qū)域的某一部分來模擬遮擋.這樣的遮擋可能會(huì)遮擋除某個(gè)目標(biāo)之外的其他行人或一些背景信息,這也是出于對(duì)本文上下文模塊獲取信息的考慮.因?yàn)槟繕?biāo)的上下文信息對(duì)遮擋目標(biāo)的檢出很有幫助,通過隨即擦除一些目標(biāo)周圍信息,在模型訓(xùn)練過程中使得上下文模塊獲取潛在的行人有效信息更加準(zhǔn)確.

      原始圖像定義為I∈[H×W×C],其中前兩個(gè)維度為圖像的高和寬,最后一維是通道數(shù).將擦除區(qū)域內(nèi)的三通道RGB值設(shè)置為{0.49,0.48,0.45},本文提出的方法有效地控制擦除區(qū)域的大小,從而避免圖像中的行人被完全遮擋.提出方法設(shè)置擦除區(qū)域的寬不超過原圖像寬W的一半,同時(shí)也保證其不小于0.3×W.除此之外,設(shè)置擦除區(qū)域的高度為0.1×H.為了防止遮擋過多導(dǎo)致模型訓(xùn)練困難或出現(xiàn)網(wǎng)絡(luò)收斂問題,本文對(duì)每一張輸入圖像至多做兩次相應(yīng)的數(shù)據(jù)增強(qiáng).圖5為數(shù)據(jù)增強(qiáng)效果示例,左邊為原始圖像,右邊為使用數(shù)據(jù)增強(qiáng)后.在原始圖像輸入網(wǎng)絡(luò)前通過這樣的方式做數(shù)據(jù)預(yù)處理,很好地豐富了數(shù)據(jù)中行人遮擋的模式.

      圖5 數(shù)據(jù)增強(qiáng)示例Fig.5 Data augmentation example

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)環(huán)境

      本文所有實(shí)驗(yàn)均在以下環(huán)境開展:Ubuntu16.04.7操作系統(tǒng),CPU型號(hào)為9900K,內(nèi)存為64G,GPU型號(hào)為NVIDIA RTX 2080Ti,使用深度學(xué)習(xí)框架為Pytorch.

      4.2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

      為了有效且準(zhǔn)確地評(píng)估所提出方法,本文使用目前行人檢測(cè)研究領(lǐng)域主流的兩個(gè)數(shù)據(jù)集CrowdHuman和CityPersons展開實(shí)驗(yàn).CrowdHuman數(shù)據(jù)集是由曠視研究院于2018年發(fā)布,該數(shù)據(jù)集涉及大量的人群場(chǎng)景,能更好地評(píng)估檢測(cè)器.CrowdHuman數(shù)據(jù)集規(guī)模大且具有豐富的數(shù)據(jù)標(biāo)注,圖像中的每個(gè)行人標(biāo)注包括頭部標(biāo)注框、可見區(qū)域標(biāo)注框和全身標(biāo)注框.其中包含15000、4370、5000張圖像,分別用于訓(xùn)練、驗(yàn)證和測(cè)試.僅訓(xùn)練集和驗(yàn)證集中就包含47萬個(gè)行人實(shí)例,每張圖像平均包含23個(gè)行人,數(shù)據(jù)集包含各種遮擋形式.CityPersons數(shù)據(jù)集是用于語義分割任務(wù)的數(shù)據(jù)集Cityscapes的一個(gè)子集,其中只對(duì)行人進(jìn)行了標(biāo)注.CityPersons數(shù)據(jù)集包含2975、500、1575張圖像,分別用于訓(xùn)練、驗(yàn)證和測(cè)試.該數(shù)據(jù)集是在3個(gè)國(guó)家中的18個(gè)城市的3個(gè)不同季節(jié)中采集的,每一張圖像平均包含7個(gè)行人,每個(gè)行人標(biāo)注都包含可見區(qū)域標(biāo)注框和全身標(biāo)注框.

      CrowdHuman數(shù)據(jù)集相較于其它的行人數(shù)據(jù)集有著更高的復(fù)雜程度,人群場(chǎng)景更加多樣,不同程度的遮擋分布相對(duì)均衡.為了充分的說明本文方法的有效性,在實(shí)驗(yàn)環(huán)節(jié)使用該數(shù)據(jù)集作為主要的實(shí)驗(yàn)數(shù)據(jù)集,通過不同方式的實(shí)驗(yàn)對(duì)比驗(yàn)證網(wǎng)絡(luò)模型.CityPersons數(shù)據(jù)集作為輔助數(shù)據(jù)集更好地驗(yàn)證模型的泛化能力.

      提出算法在不同數(shù)據(jù)集上進(jìn)行評(píng)估驗(yàn)證,需要有比較好的評(píng)價(jià)指標(biāo).在本實(shí)驗(yàn)中選擇使用平均精度(Average Precision,AP)和丟失率(Miss Rate,MR-2)兩項(xiàng)指標(biāo)對(duì)模型進(jìn)行全面評(píng)估比較,其中AP是目標(biāo)檢測(cè)任務(wù)中常用的一項(xiàng)評(píng)價(jià)指標(biāo),該指標(biāo)越高說明模型性能越好,MR-2指標(biāo)數(shù)值越低說明檢測(cè)丟失率越小,模型性能更優(yōu).

      4.3 實(shí)驗(yàn)參數(shù)設(shè)置

      本文實(shí)驗(yàn)的基線算法網(wǎng)絡(luò)模型以FPN作為特征抽取網(wǎng)絡(luò),設(shè)置每批次訓(xùn)練的圖片數(shù)為2,訓(xùn)練使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)作為優(yōu)化器.整個(gè)模型總共訓(xùn)練40 個(gè)周期,網(wǎng)絡(luò)訓(xùn)練的初始學(xué)習(xí)率設(shè)置為0.0025,分別在第24和34周期時(shí)學(xué)習(xí)率衰減10%.數(shù)據(jù)預(yù)處理使用水平翻轉(zhuǎn),Anchor高寬比設(shè)置為{1∶1,2∶1,3∶1}.此外,為了更好地完成模型在CityPersons數(shù)據(jù)集上的訓(xùn)練,本文在實(shí)驗(yàn)過程中考慮了CityPersons數(shù)據(jù)集的數(shù)據(jù)量相對(duì)較少,數(shù)據(jù)集中的圖像分辨率高的因素,重新調(diào)整模型訓(xùn)練的迭代次數(shù),設(shè)置網(wǎng)絡(luò)訓(xùn)練25個(gè)周期,在第17個(gè)周期時(shí)學(xué)習(xí)率衰減10%.其它部分的參數(shù)設(shè)置與CrowdHuman數(shù)據(jù)集保持一致.

      4.4 模塊消融實(shí)驗(yàn)

      為了更好地評(píng)估模塊的有效性,本文在CrowdHuman數(shù)據(jù)集上進(jìn)行各模塊消融實(shí)驗(yàn).通過逐個(gè)添加模塊的方式,比較添加模塊前后算法評(píng)價(jià)指標(biāo),綜合評(píng)估網(wǎng)絡(luò)模塊的性能優(yōu)劣.消融實(shí)驗(yàn)所有的實(shí)驗(yàn)結(jié)果均是在CrowdHuman數(shù)據(jù)集的訓(xùn)練集上完成模型訓(xùn)練,驗(yàn)證集上面進(jìn)行驗(yàn)證.表1的消融實(shí)驗(yàn)結(jié)果很好地證明了提出方法的有效性,在評(píng)價(jià)指標(biāo)AP和MR-2上都有明顯的提升.本文在實(shí)驗(yàn)中以使用特征金字塔網(wǎng)絡(luò)做特征抽取的Faster R-CNN網(wǎng)絡(luò)作為基線算法,在其基礎(chǔ)上展開各模塊的消融實(shí)驗(yàn)對(duì)比.基線算法在加入了數(shù)據(jù)增強(qiáng)方法后,平均精度和丟失率指標(biāo)都有明顯的提升,通過隨機(jī)擦除的方式模擬遮擋,可以增加數(shù)據(jù)中的行人遮擋模式,使得網(wǎng)絡(luò)模型泛化性有所提高,可以適應(yīng)不同程度和方式的遮擋.除此之外,提出算法使用不同的特征抽取網(wǎng)絡(luò)進(jìn)行比較,使用改進(jìn)后的特征金字塔網(wǎng)絡(luò)做特征提取更加有效,能夠更多地融合不同尺度的特征,有效幫助模型應(yīng)對(duì)行人多尺度問題.相較于原始的特征金字塔網(wǎng)絡(luò),平均精度AP增加1.4%,丟失率下降2.0%,兩項(xiàng)指標(biāo)變化說明提出方法的有效性,增加的帶權(quán)融合分支結(jié)合了不同層級(jí)的特征信息,輸出多尺度特征,減少不同尺度行人的漏檢或誤檢.同時(shí),本文方法使用特征金字塔網(wǎng)絡(luò)作為特征抽取網(wǎng)絡(luò),添加上下文模塊后兩個(gè)指標(biāo)都有相應(yīng)地提升,平均精度AP增加1.1%,丟失率MR-2下降2.8%.將特征抽取網(wǎng)絡(luò)替換為改進(jìn)后的特征金字塔網(wǎng)絡(luò),在添加了上下文模塊的情況下,平均精度AP增加0.5%,丟失率下降1.7%.實(shí)驗(yàn)表明在不同的網(wǎng)絡(luò)中添加上下文模塊,算法檢測(cè)精度都得到了進(jìn)一步提升,丟失率大幅下降很好地說明提出方法有效的減少行人漏檢,能夠在擁擠場(chǎng)景中更好地完成檢測(cè),緩解遮擋帶來的嚴(yán)重漏檢問題.通過一系列的消融對(duì)比實(shí)驗(yàn)可以證明提出方法的有效性.本文算法與基線算法相比,AP整體提升1.9%,MR-2下降3.7%,這也很好地提升了行人檢測(cè)算法在擁擠場(chǎng)景中的檢測(cè)能力.

      表1 消融實(shí)驗(yàn)結(jié)果Table 1 Ablation experiment results

      4.5 實(shí)驗(yàn)結(jié)果比較

      本文提出的方法在兩個(gè)不同數(shù)據(jù)集上都做了實(shí)驗(yàn)評(píng)估,也同其它現(xiàn)有的行人檢測(cè)算法展開比較,綜合評(píng)估提出方法的有效性.對(duì)比實(shí)驗(yàn)的所有算法均是在訓(xùn)練集上進(jìn)行模型的訓(xùn)練調(diào)優(yōu),在驗(yàn)證集上進(jìn)行驗(yàn)證評(píng)估,為了對(duì)比實(shí)驗(yàn)公平有效,本文方法也采用相同的處理方式進(jìn)行實(shí)驗(yàn).

      本文方法在CrowdHuman數(shù)據(jù)集上的驗(yàn)證結(jié)果同多個(gè)不同的行人檢測(cè)算法進(jìn)行比較,表2展示了具體比較結(jié)果.經(jīng)典的兩階段目標(biāo)檢測(cè)算法Faster R-CNN用于擁擠場(chǎng)景中的行人檢測(cè),其各項(xiàng)指標(biāo)相較于本文方法都有大幅的下降.本文在第2章對(duì)Faster R-CNN算法用于擁擠場(chǎng)景的行人檢測(cè)存在的不足做了具體的分析說明,通過本文提出方法的改進(jìn)和優(yōu)化,行人檢測(cè)算法在擁擠場(chǎng)景中的檢測(cè)能力有大幅度的提升.Adaptive NMS和R2NMS算法都是使用改進(jìn)后處理方式NMS的思想來降低行人的漏檢或誤檢.CaSe算法合理利用行人可見部位的特征信息完成整個(gè)行人的檢測(cè)任務(wù).與這些方法不同,本文方法通過改進(jìn)多尺度特征抽取網(wǎng)絡(luò),充分結(jié)合高層與底層特征信息.同時(shí)利用上下文模塊有效緩解遮擋帶來的特征信息缺失,挖掘更多的潛在信息.本文提出的行人檢測(cè)方法與不同算法之間的進(jìn)行對(duì)比,在平均精度和丟失率兩項(xiàng)指標(biāo)上都有著比較好的表現(xiàn),在CrowdHuman數(shù)據(jù)集上丟失率MR-2指標(biāo)能夠降低到39.9%,能夠更多地檢測(cè)出擁擠場(chǎng)景中的行人.能夠達(dá)到這樣的檢測(cè)效果,得益于本文方法更多關(guān)注行人遮擋導(dǎo)致的特征缺失,很好地利用目標(biāo)的上下文信息捕捉潛在的有效特征,在其中融入目標(biāo)的空間位置信息幫助檢測(cè)器更好地定位.通過各個(gè)算法的比較,提出方法在挑戰(zhàn)性極高的CrowdHuman數(shù)據(jù)集上優(yōu)于已有算法的檢測(cè)水平.

      表2 CrowdHuman數(shù)據(jù)集各算法實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison results of various algorithms in CrowdHuman dataset

      進(jìn)一步驗(yàn)證算法在其它數(shù)據(jù)集上的性能,評(píng)估模型泛化能力,本文提出方法與其它不同算法在CityPersons數(shù)據(jù)集上展開對(duì)比實(shí)驗(yàn).為了對(duì)比公平有效,本文選擇與其它算法一致的數(shù)據(jù)集子集,使用CityPersons數(shù)據(jù)集的子集Reasonable進(jìn)行訓(xùn)練和驗(yàn)證實(shí)驗(yàn).該子集圖像中包含的行人遮擋率保持在區(qū)間0~0.35之間,行人尺寸大于50像素.相較于CrowdHuman數(shù)據(jù)集,該數(shù)據(jù)集的行人遮擋和行人密集程度低一點(diǎn).CityPersons數(shù)據(jù)集中圖像分辨率較高,并且數(shù)據(jù)集中訓(xùn)練集數(shù)據(jù)量較少,為了更好地完成模型訓(xùn)練和驗(yàn)證,本文在該數(shù)據(jù)集上的訓(xùn)練也做了相應(yīng)的調(diào)整,具體在實(shí)驗(yàn)參數(shù)設(shè)置小節(jié)已做詳細(xì)說明.表3為本文方法與現(xiàn)有算法的對(duì)比,提出方法在CityPersons數(shù)據(jù)集上丟失率MR-2指標(biāo)可以達(dá)到11.2%.Repulsion Loss算法和OR-CNN算法更多地關(guān)注損失函數(shù),均采用重新設(shè)計(jì)網(wǎng)絡(luò)損失函數(shù)的方式使得目標(biāo)框的回歸更加準(zhǔn)確.ATT-part算法利用對(duì)身體局部的注意力機(jī)制完成行人檢測(cè).此外,在該數(shù)據(jù)集上本文方法和Faster R-CNN算法相比,丟失率指標(biāo)有明顯的下降,這也反映出本文方法針對(duì)擁擠場(chǎng)景的行人檢測(cè)更加有效.相較于其它行人檢測(cè)算法,本文方法有較好的指標(biāo)表現(xiàn).在兩個(gè)數(shù)據(jù)集上進(jìn)行算法對(duì)比實(shí)驗(yàn),不管是在行人密度較高的CrowdHuman數(shù)據(jù)集,還是在行人密度相對(duì)稀疏的CityPersons數(shù)據(jù)集上本文方法都有著較為優(yōu)異的表現(xiàn),各指標(biāo)也很好的反應(yīng)了方法的有效性,尤其是在存在不同程度遮擋的擁擠場(chǎng)景下.

      表3 CityPersons數(shù)據(jù)集各算法實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison results of various algorithms inCityPersons dataset

      4.6 可視化實(shí)驗(yàn)

      為了驗(yàn)證提出算法的有效性,將基線算法與本文算法的檢測(cè)結(jié)果進(jìn)行可視化對(duì)比.對(duì)CrowdHuman數(shù)據(jù)集中的驗(yàn)證集圖片進(jìn)行可視化得到的部分效果圖如圖6所示.其中,圖6中上面的兩幅圖像為基線算法的檢測(cè)結(jié)果可視化,下面的兩幅圖像為本文提出算法的檢測(cè)結(jié)果可視化.通過圖6的幾幅圖像對(duì)比可看出,在行人密度較大的場(chǎng)景中,基線算法的檢測(cè)存在普遍地漏檢或誤檢,有一些被嚴(yán)重遮擋的行人無法被正確檢出,有一部分行人框的定位不精確.本文提出算法的可視化結(jié)果相較于基線算法表現(xiàn)較好,能較為完整和正確地檢出擁擠場(chǎng)景中各行人,很好地改善了行人遮擋帶來都漏檢現(xiàn)象,有效地提升了行人檢測(cè)算法的檢測(cè)能力.

      圖6 行人檢測(cè)可視化Fig.6 Pedestrian detection visualization

      5 結(jié) 論

      為了解決行人擁擠場(chǎng)景下的一系列檢測(cè)問題,本文對(duì)通用目標(biāo)檢測(cè)方法適用于行人檢測(cè)存在的不足進(jìn)行分析,提出了融合上下文及空間信息的行人檢測(cè)算法.利用改進(jìn)的特征金字塔網(wǎng)絡(luò)作為特征抽取網(wǎng)絡(luò),增強(qiáng)多尺度特征的表達(dá)能力,有效應(yīng)對(duì)行人目標(biāo)多尺度變化問題.通過有效融合目標(biāo)上下文信息和空間信息,模型能更加充分地抽取行人特征信息,有效改善因行人被遮擋導(dǎo)致的特征抽取不充分或缺失問題.此外,為了豐富數(shù)據(jù)中的行人遮擋模式,利用提出的數(shù)據(jù)增強(qiáng)方法模擬遮擋,進(jìn)一步提升模型的泛化能力,使得模型能夠在不同數(shù)據(jù)集上都有好的表現(xiàn).本文提出方法在CrowdHuman和CityPersons數(shù)據(jù)集上開展了大量的實(shí)驗(yàn)對(duì)比,得到了較為充分地驗(yàn)證,實(shí)驗(yàn)數(shù)據(jù)結(jié)果和可視化結(jié)果說明了提出方法的有效性,在各個(gè)指標(biāo)上均取得較優(yōu)的結(jié)果.但是,在實(shí)驗(yàn)論證過程中也發(fā)現(xiàn)提出方法存在性能不穩(wěn)定情況,仍然有檢測(cè)不夠精準(zhǔn),模型輕量化和檢測(cè)速度的問題.因此,在接下來的學(xué)術(shù)工作中將進(jìn)一步分析具體導(dǎo)致問題的原因,提出具有更優(yōu)性能的行人檢測(cè)網(wǎng)絡(luò)模型,為行人遮擋問題的解決提供更好的可行解.

      猜你喜歡
      行人特征融合
      村企黨建聯(lián)建融合共贏
      融合菜
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
      《融合》
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      路不為尋找者而設(shè)
      抓住特征巧觀察
      我是行人
      阿图什市| 新邵县| 稻城县| 南木林县| 资源县| 新竹市| 盖州市| 凤山市| 上林县| 乐陵市| 阿尔山市| 黄龙县| 荥阳市| 米泉市| 榆林市| 浦江县| 桃园市| 邓州市| 东丽区| 陕西省| 云和县| 萨嘎县| 个旧市| 旺苍县| 即墨市| 濮阳市| 镇江市| 日土县| 安西县| 视频| 江油市| 同德县| 通海县| 巨鹿县| 饶阳县| 合川市| 彰化市| 承德市| 合阳县| 乌审旗| 昌都县|