• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于背景抑制與上下文感知的人群計(jì)數(shù)網(wǎng)絡(luò)

      2022-09-15 06:59:44黃奕秋楊佳信歐嘉敏
      計(jì)算機(jī)工程 2022年9期
      關(guān)鍵詞:計(jì)數(shù)注意力卷積

      黃奕秋,胡 曉,楊佳信,歐嘉敏

      (1.廣州大學(xué) 電子與通信工程學(xué)院,廣州 510006;2.廣州大學(xué) 機(jī)械與電氣工程學(xué)院,廣州 510006)

      0 概述

      近年來(lái),隨著城市居住人口的不斷增加,人口密集程度不斷上升,導(dǎo)致?lián)頂D踩踏風(fēng)險(xiǎn)也隨之增加。為實(shí)時(shí)檢測(cè)人群數(shù)量變化,避免擁擠踩踏對(duì)公共安全、交通控制、智能交通等造成破壞,精確地監(jiān)測(cè)人群的數(shù)量變化成為一個(gè)十分重要的課題。

      基于計(jì)數(shù)方式的不同,人群計(jì)數(shù)算法可以分為傳統(tǒng)的人群計(jì)數(shù)算法和基于深度學(xué)習(xí)的人群計(jì)數(shù)算法。傳統(tǒng)的人群計(jì)數(shù)算法首先提取圖像中行人特征,然后通過(guò)檢測(cè)或回歸的方法確定人群數(shù)量。其中,基于檢測(cè)的方法[1]是通過(guò)檢測(cè)圖像中人的頭部信息計(jì)算出人數(shù),這種方法隨著目標(biāo)分布密集程度的增加,檢測(cè)難度也隨之增加。而基于回歸的方法[2-3]則是利用圖像的紋理特征與人數(shù)的映射關(guān)系估計(jì)出人群數(shù)量,能夠減小人群擁擠情況下的估計(jì)誤差。然而由于回歸方法無(wú)法從圖像中提取有助于完成人群計(jì)數(shù)任務(wù)的語(yǔ)義信息,導(dǎo)致當(dāng)存在嚴(yán)重的遮擋問(wèn)題和背景干擾時(shí),算法性能難以提升。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)在許多計(jì)算機(jī)視覺(jué)任務(wù)中都取得了良好的效果[4-5],在一定程度上突破了傳統(tǒng)網(wǎng)絡(luò)的限制,顯著提升了計(jì)數(shù)性能。但圖像存在的透視畸變問(wèn)題和背景噪聲不僅影響了網(wǎng)絡(luò)的計(jì)算精度,而且約束了網(wǎng)絡(luò)的泛化能力和魯棒性。

      為減少圖像中多尺度問(wèn)題對(duì)計(jì)數(shù)任務(wù)的影響,ZHANG 等[6]利用端到端的深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)不同場(chǎng)景的人群計(jì)數(shù),此網(wǎng)絡(luò)雖然提高了計(jì)數(shù)的精確性,但網(wǎng)絡(luò)的跨場(chǎng)景計(jì)數(shù)能力較差。文獻(xiàn)[7]提出多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-Column CNN,MCNN),通過(guò)不同尺度的卷積核提取不同尺度大小的頭部特征,提高網(wǎng)絡(luò)跨場(chǎng)景計(jì)數(shù)的能力,但該網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜,泛化能力有待提高。SAM 等[8]提出切換卷積神經(jīng)網(wǎng)絡(luò)(Switching CNN,SwitchCNN),該網(wǎng)絡(luò)雖然提高了泛化能力,但冗余結(jié)構(gòu)較多,計(jì)算量較大。為解決MCNN 這一類(lèi)多列結(jié)構(gòu)網(wǎng)絡(luò)存在的網(wǎng)絡(luò)冗余問(wèn)題,LI 等[9]提出基于擴(kuò)展卷積的密集場(chǎng)景識(shí)別網(wǎng)絡(luò)(Congested Scene Recognition Network,CSRNet),通過(guò)去除冗余的多列卷積層,采用7 層空洞卷積構(gòu)成一個(gè)單通道端到端的人群計(jì)數(shù)網(wǎng)絡(luò),在減少網(wǎng)絡(luò)冗余的情況下提高了模型對(duì)透視畸變的抗干擾能力。與CSRNet 類(lèi)似,LIU 等[10]設(shè)計(jì)了一個(gè)上下文感知網(wǎng)絡(luò)(Context-Aware Network,CAN)以自適應(yīng)預(yù)測(cè)人群密度所需的上下文信息,進(jìn)而減小圖像多尺度問(wèn)題造成的干擾。值得注意的是,雖然CSRNet 和CAN 均減少了此問(wèn)題造成的影響,但圖像本身存在的背景噪聲對(duì)人群計(jì)數(shù)的精度仍然造成影響,并未得到改善。

      為抑制圖像背景對(duì)人群計(jì)數(shù)網(wǎng)絡(luò)性能的干擾,文獻(xiàn)[11]提出注意力尺度網(wǎng)絡(luò)(Attention Scaling Network,ASNet),并利用二進(jìn)制掩碼對(duì)背景和人群進(jìn)行分割,但該網(wǎng)絡(luò)并不能實(shí)現(xiàn)端到端的計(jì)算,網(wǎng)絡(luò)計(jì)算量較大。ZHU 等[12]通過(guò)對(duì)稱(chēng)雙路徑多尺度融合網(wǎng)絡(luò)(Dual Path Multi-scale Fusion Network,SFANet),利用空間注意力圖過(guò)濾密度圖的噪聲以提高計(jì)數(shù)準(zhǔn)確度,但其生成的空間注意力圖精度有待提高,無(wú)法對(duì)噪聲進(jìn)行充分抑制,網(wǎng)絡(luò)的泛化能力和魯棒性有待增強(qiáng)。

      本文對(duì)SFANet 進(jìn)行改進(jìn),提出基于背景抑制與上下文感知的人群計(jì)數(shù)網(wǎng)絡(luò)。通過(guò)構(gòu)建背景噪聲抑制(Background Noise Suppression,BNS)模塊提高網(wǎng)絡(luò)對(duì)圖像背景噪聲的抑制能力,并設(shè)計(jì)上下文感知增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu),減少圖像透視畸變對(duì)計(jì)數(shù)任務(wù)的干擾。

      1 本文網(wǎng)絡(luò)

      1.1 網(wǎng)絡(luò)結(jié)構(gòu)

      本文網(wǎng)絡(luò)由VGG-16 網(wǎng)絡(luò)、密度圖生成(Density Map Generation,DMG)模塊、BNS 模塊以及上下文感知增強(qiáng)網(wǎng)絡(luò)(Weight Enhancement-Context Aware Network,WE-CAN)4 個(gè)部分組成,具體結(jié)構(gòu)如圖1所示。

      圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of network in this paper

      由圖1 可知,該網(wǎng)絡(luò)首先利用特征提取網(wǎng)絡(luò)VGG-16 提取輸入圖像不同層次的特征并分別輸入DMG 模塊和BNS 模塊中進(jìn)行處理,生成密度特征圖和空間注意力圖。然后,將生成的密度特征圖和空間注意力圖相乘,得到能有效抑制噪聲的初級(jí)密度圖。最后,利用WE-CAN 模塊提取初級(jí)密度圖上下文信息并進(jìn)行優(yōu)化處理,減少透視畸變引起的問(wèn)題,進(jìn)而獲得高質(zhì)量的預(yù)測(cè)密度圖。

      1.2 密度圖生成模塊

      DMG 模塊的作用是生成高分辨率的初級(jí)密度圖,其結(jié)構(gòu)如圖1 中DMG 模塊所示。由于低層特征包含更多的紋理信息,高層特征包含頭部等位置信息[13],因此DMG 模塊采用特征金字塔的結(jié)構(gòu)[14]能使輸入的低層特征圖和高層特征圖的信息有效互補(bǔ),從而得到高分辨率的初級(jí)密度圖。

      在DMG 模塊中,首先提取VGG-16 網(wǎng)絡(luò)中4 個(gè)池化層的中間特征圖,分別記為F1、F2、F3、F4;然后依次對(duì)F1、F2、F3、F4進(jìn)行特征融合。DMG 模塊首先利用特征融合策略對(duì)F4進(jìn)行兩倍上采樣,并與F3級(jí)聯(lián),利用T 操作處理得到通道數(shù)為256 的中間特征圖FC1;然后,使用T 操作將FC1和F2進(jìn)行特征融合并進(jìn)行降維操作,生成通道數(shù)為128 的特征圖FC2;最后,利用H 操作對(duì)FC2與F1級(jí)聯(lián)后的特征進(jìn)行融合,在經(jīng)過(guò)特征通道降維后得到通道數(shù)為32 的高分辨率的密度特征圖Fden,其大小為原始輸入的1/2。

      生成高分辨率的密度特征圖Fden后,為了減少圖像背景對(duì)計(jì)數(shù)結(jié)果的干擾,將Fden與BNS 模塊生成的空間注意力圖Matt進(jìn)行相乘操作,實(shí)現(xiàn)對(duì)噪聲的抑制,最后生成初級(jí)密度圖Frefine。此過(guò)程的表達(dá)式如式(1)所示:

      其中:?表示逐點(diǎn)相乘操作。

      1.3 背景噪聲抑制模塊

      BNS 模塊旨在生成對(duì)圖像背景噪聲起抑制作用的空間注意力圖Matt,其結(jié)構(gòu)如圖1 中BNS 模塊所示。由式(1)可知,空間注意力圖Matt對(duì)噪聲的抑制能力越強(qiáng),其與Fden相乘后生成初級(jí)密度圖Frefine的精確度越高。因此,為增強(qiáng)空間注意力圖抑制噪聲的能力,本文設(shè)計(jì)了基于通道域注意力ECA 模塊[15]和多層次信息融合的BNS 模塊。由于低層特征包含細(xì)節(jié)邊緣的信息,且高層特征圖具有區(qū)分頭部區(qū)域與噪聲的有效語(yǔ)義信息,因此BNS 模塊使用ECA 模塊充分提取不同層次的有效信息,提高頭部特征信息表達(dá)能力,從而生成高質(zhì)量的空間注意力圖。通道域注意力模塊ECA 的結(jié)構(gòu)如圖2 所示,其中,K為卷積核,GAP 為全局平均池化。

      圖2 ECA 模塊結(jié)構(gòu)Fig.2 Structure of ECA module

      由圖2 可知,ECA 模塊的引入不僅能增強(qiáng)低層特征圖中細(xì)節(jié)邊緣信息的表達(dá),而且能提高高層特征圖中用于區(qū)分頭部和背景的語(yǔ)義信息權(quán)重。具體而言,ECA 模塊首先利用卷積核大小為K的一維卷積獲取特征圖中每個(gè)通道以及K個(gè)相鄰?fù)ǖ乐g的交互信息,從而計(jì)算出不同通道的權(quán)重,此過(guò)程用C1DK(·)表示。然后,將計(jì)算得到的權(quán)重與原始特征圖相乘,以增強(qiáng)不同特征中有效信息的表達(dá)[15],此過(guò)程如式(2)所示:

      其中:x表示輸入特征;y表示輸出結(jié)果;sigmoid 表示sigmoid 激活函數(shù);在網(wǎng)絡(luò)中K值設(shè)為3。

      為進(jìn)一步突出空間注意力圖中前景和后景差異[12],BNS 模塊在輸出空間注意力圖前使用1×1×1 卷積對(duì)特征圖進(jìn)行降維,并使用sigmoid 函數(shù)將空間注意力圖像素點(diǎn)的值映射為(0,1),從而區(qū)分圖像中頭部區(qū)域與背景區(qū)域,此過(guò)程的表達(dá)式如式(3)所示:

      其中:Matt表示最終生成的空間注意力圖;fatt表示經(jīng)過(guò)3 個(gè)通道域注意力模塊優(yōu)化后的中間特征圖;*表示卷積操作;W和b分別表示一維卷積的權(quán)重和偏置。

      1.4 上下文感知增強(qiáng)網(wǎng)絡(luò)

      為增強(qiáng)特征圖中上下文信息的表達(dá),減少圖像透視畸變?cè)斐傻挠绊?,本文在CAN[10]模塊的基礎(chǔ)上結(jié)合特征權(quán)重增強(qiáng)模塊(Feature Weight Enhance Module,WE)進(jìn)行改進(jìn),提出WE-CAN 模塊。其中WE 模塊用于增強(qiáng)特征圖中多尺度上下文信息的表達(dá),其結(jié)構(gòu)如圖3 所示。由圖3 可知,WE 模塊的功能是提取DMG 模塊所生成初級(jí)密度圖Frefine中的多尺度特征并增強(qiáng)其中有效信息的表達(dá)。WE 模塊首先對(duì)Frefine進(jìn)行平均池化[16-17],并使用一個(gè)1×1 卷積和2 個(gè)3×3 卷積以不同的感受野提取Frefine的多尺度信息。為有效提取不同尺度的頭部特征,本文首先根據(jù)文獻(xiàn)[16]中提出的空洞空間卷積池化金字塔中對(duì)卷積核的設(shè)置,將1×1 卷積的空洞率設(shè)為1,2 個(gè)3×3卷積的空洞率分別設(shè)為6 和12。然后,對(duì)提取到的頭部特征與池化后的Frefine進(jìn)行級(jí)聯(lián)后降維輸出,記為FA。其次,利用通道域注意力模塊(Squeeze and Excitation Module,SE)[18]強(qiáng)化Frefine中有效的多尺度信息表達(dá),生成具有顯著信息的特征,記為FS。最后,對(duì)FA和FS進(jìn)行相乘操作,生成多尺度特征密度圖Fm,該過(guò)程可以表述為:

      圖3 WE-CAN 模塊結(jié)構(gòu)Fig.3 Structure of WE-CAN module

      其中:Fm表示W(wǎng)E 模塊生成的多尺度特征密度圖。

      結(jié)合WE 模塊對(duì)CAN[10]模塊進(jìn)行改進(jìn),本文提出的WE-CAN 模塊能提取特征中更詳細(xì)的空間信息和全局信息,增強(qiáng)網(wǎng)絡(luò)自適應(yīng)優(yōu)化多級(jí)上下文信息的能力,其結(jié)構(gòu)如圖3(a)所示。由圖3(a)可知,WE-CAN 模塊分為4 個(gè)步驟:首先使用4 個(gè)不同核大小的平均池化層對(duì)初級(jí)密度圖Frefine進(jìn)行多尺度特征提取,生成4 個(gè)不同尺寸的感受野,以感知上下文特征Sj,比例分別為1、2、3、6[10];其次,將Sj與WE 模塊生成的Fm相減,從而提取出目標(biāo)特征與相鄰特征的特征差異Cj,實(shí)現(xiàn)WE-CAN 模塊中的特征差異提取,其定量表述為式(5);然后,WE-CAN 模塊將計(jì)算出的Cj輸入到權(quán)重計(jì)算網(wǎng)絡(luò)中,利用一維卷積計(jì)算不同尺度在輸入特征圖中的尺度權(quán)重ωj,此過(guò)程可表述為式(6);最后,利用尺度權(quán)重ωj對(duì)初級(jí)密度圖Frefine進(jìn)行透視矯正并降維輸出,使網(wǎng)絡(luò)生成高質(zhì)量的預(yù)測(cè)密度圖Dpre,該過(guò)程可表述為式(7):

      其中:[·|·]表示級(jí)聯(lián)操作。

      2 實(shí)驗(yàn)與結(jié)果分析

      2.1 數(shù)據(jù)集

      ShanghaiTech、UCF-CC-50 以 及UCF-QNRF 數(shù)據(jù)集是目前人群計(jì)數(shù)研究中的主流數(shù)據(jù)集詳情如下:

      1)ShanghaiTech 數(shù)據(jù)集是由ZHANG[8]等提出的大型開(kāi)源數(shù)據(jù)集,該數(shù)據(jù)集由Part A 和Part B 2 個(gè)部分組成。Part A 包含從互聯(lián)網(wǎng)中隨機(jī)收集的482 張圖片,其中300 張用于訓(xùn)練,182 張用于測(cè)試。Part B則包含716 張拍攝于上海繁華街道的圖片,其中400 張用于訓(xùn)練,316 張用于測(cè)試。

      2)UCF-CC-50 數(shù)據(jù)集[19]是一個(gè)包含擁擠人群圖片的開(kāi)源數(shù)據(jù)集,一共包括50 張不同分辨率的人群圖片。該數(shù)據(jù)集圖片人數(shù)變化大,人群范圍跨度大,從94 人到4 543 人,平均每張圖片1 280 人。為更好地驗(yàn)證模型的準(zhǔn)確性,在實(shí)驗(yàn)過(guò)程中使用與文獻(xiàn)[20]相同的5 折交叉驗(yàn)證法:首先在不重復(fù)的前提下將數(shù)據(jù)集平均劃分為5 份,每份10 張圖像。然后每次選擇不同的一份作為測(cè)試集,將余下的4 份作為訓(xùn)練集進(jìn)行訓(xùn)練,分別獲得5 組測(cè)試結(jié)果,最后取5 組測(cè)試結(jié)果的平均值作為模型的性能指標(biāo),并與其他網(wǎng)絡(luò)進(jìn)行比較。

      3)UCF-QNRF 數(shù)據(jù)集[20]是一個(gè)復(fù)雜且擁擠的人群數(shù)據(jù)集,共包含1 251 642 處人體標(biāo)注。該數(shù)據(jù)集共有1 535 張圖像,訓(xùn)練集由1 201 張圖像組成,其余334 張作為測(cè)試集。UCF-QNRF 數(shù)據(jù)集不僅包含多種多樣的環(huán)境背景,而且數(shù)據(jù)集中圖像的分辨率差異較大,具有一定的挑戰(zhàn)性。

      本文采用的3 個(gè)數(shù)據(jù)集對(duì)比結(jié)果如表1 所示。

      表1 本文數(shù)據(jù)集信息Table 1 Information of datasets in this paper

      2.2 數(shù)據(jù)處理

      2.2.1 真實(shí)人群密度圖生成

      由于現(xiàn)有的人群計(jì)數(shù)數(shù)據(jù)集只標(biāo)注了圖像中人頭的位置,因此需要將人頭位置轉(zhuǎn)化為真實(shí)人群密度圖以提供更多的監(jiān)督信息。本文按照文獻(xiàn)[8]中生成密度圖的方法,對(duì)所有的目標(biāo)均采用內(nèi)核大小相同的高斯濾波器進(jìn)行處理。首先使用δ(x-xi)表示圖像在像素點(diǎn)xi上的頭部標(biāo)注,然后利用標(biāo)準(zhǔn)差為σi的高斯核濾波器Gσi對(duì)每個(gè)頭部標(biāo)注進(jìn)行高斯模糊處理,進(jìn)而得到相應(yīng)的真實(shí)人群密度圖DGT,該過(guò)程可定量描述為:

      其中:標(biāo)準(zhǔn)差σi由K最近鄰算法計(jì)算得出;表示xi和k個(gè)相鄰點(diǎn)之間的距離,k設(shè)為3;β為超參數(shù),根據(jù)文獻(xiàn)[7]將其設(shè)為0.3。

      2.2.2 真實(shí)空間注意力圖生成

      為使網(wǎng)絡(luò)生成預(yù)測(cè)空間注意力圖,實(shí)現(xiàn)對(duì)預(yù)測(cè)密度圖的權(quán)重分配,本文根據(jù)文獻(xiàn)[12]設(shè)定閾值的方式對(duì)真實(shí)人群密度圖DGT進(jìn)行二值化處理,將人群區(qū)域和背景區(qū)域進(jìn)行分割,從而獲得真實(shí)空間注意力圖ΑGT,該過(guò)程可定量描述為:

      其中:x表示DGT中不同位置像素點(diǎn)的值;t表示閾值,在本文實(shí)驗(yàn)中將其設(shè)為0.001。

      2.3 訓(xùn)練方法

      本文基于Pytorch框架,在Ubuntu18.04系統(tǒng)和RTX 2080Ti GPU 條件下進(jìn)行實(shí)驗(yàn)。為提高訓(xùn)練速度和計(jì)數(shù)精度,本文導(dǎo)入VGG-16 預(yù)訓(xùn)練模型并將其作為前端特征提取器,其余網(wǎng)絡(luò)參數(shù)初始值由均值為0、標(biāo)準(zhǔn)差為0.01 的高斯分布隨機(jī)生成。同時(shí),采用Adam 優(yōu)化器訓(xùn)練,學(xué)習(xí)率設(shè)為1×10-4,權(quán)重衰減設(shè)為5×10-3,迭代次數(shù)設(shè)為800 次,批量化大小設(shè)為8。

      2.4 多任務(wù)聯(lián)合損失函數(shù)

      為獲得精確的人群估計(jì)結(jié)果,本文根據(jù)文獻(xiàn)[12]的方法,將多任務(wù)聯(lián)合損失函數(shù)分別用于訓(xùn)練網(wǎng)絡(luò)生成有效的預(yù)測(cè)空間注意力圖和精準(zhǔn)的預(yù)測(cè)密度圖。此外,基于現(xiàn)有的研究,本文利用歐氏幾何距離測(cè)量預(yù)測(cè)人群密度圖和真實(shí)人群密度圖之間的差值并將其作為損失函數(shù),以用于訓(xùn)練網(wǎng)絡(luò)模型生成預(yù)測(cè)密度圖。損失函數(shù)的表達(dá)式如式(11)所示:

      其中:F(Xi;Θ)表示預(yù)測(cè)的人群密度圖;Θ表示網(wǎng)絡(luò)學(xué)習(xí)參量;xi和DGT分別表示輸入圖像和真實(shí)人群密度圖。

      為得到有效的空間注意力圖,本文在訓(xùn)練過(guò)程中采用二進(jìn)制交叉熵?fù)p失(Binary Cross Entropy Loss,BCELoss)作為損失函數(shù),計(jì)算人群空間注意力圖與真實(shí)人群空間注意力圖之間的差值。損失函數(shù)的表達(dá)式如式(12)所示:

      其中:表示真實(shí)人群空間注意力圖;Pi是經(jīng)過(guò)sigmoid 函數(shù)處理后預(yù)測(cè)空間注意力圖中每個(gè)像素的概率值。

      在訓(xùn)練過(guò)程中使用多任務(wù)結(jié)合損失函數(shù)實(shí)現(xiàn)端到端的訓(xùn)練,多任務(wù)聯(lián)合損失函數(shù)表達(dá)式如式(13)所示:

      其中:α為超參數(shù),設(shè)其為0.1。

      2.5 評(píng)價(jià)指標(biāo)

      現(xiàn)有的研究主要使用平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方誤差(Mean Square Error,MSE)對(duì)模型進(jìn)行評(píng)估,MAE 反映了網(wǎng)絡(luò)的準(zhǔn)確性,而MSE 體現(xiàn)了網(wǎng)絡(luò)的泛化能力。其計(jì)算過(guò)程分別如式(14)和式(15)所示:

      其中:N表示測(cè)試集中測(cè)試圖像的數(shù)量;分別表示網(wǎng)絡(luò)預(yù)測(cè)的人群總數(shù)和真實(shí)人群密度圖中的人群總數(shù)。

      2.6 結(jié)果分析

      為驗(yàn)證本文網(wǎng)絡(luò)的有效性,在人群計(jì)數(shù)任務(wù)數(shù)據(jù) 集ShanghaiTech、UCF-CC-50 以 及UCF-QNRF 數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),并與現(xiàn)有的其他網(wǎng)絡(luò)包括MCNN[7],SwitchCNN[8],CSRNet[9],多尺度聚合網(wǎng)絡(luò)(Multi-Scale Aggregation Network,SANet)[21],CAN[10],關(guān)系注意力神經(jīng)網(wǎng)絡(luò)(Relational Attention Network,RANet)[22],SFANet[12],泛密度神經(jīng)網(wǎng)絡(luò)(Pan-Density Neural Network,PaDNet)[23],密度感知卷積神經(jīng)網(wǎng)絡(luò)(Density-Aware CNN,DensityCNN)[24]以及多尺度感知人群計(jì)數(shù)神經(jīng)網(wǎng)絡(luò)(Scale-Aware Crowd Counting Network,SACCN)[25]進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如表2 所示。

      表2 不同網(wǎng)絡(luò)在公開(kāi)數(shù)據(jù)集上的MAE 與MSE 結(jié)果比較Table 2 Comparison on MAE and MSE of different networks on public datasets

      由表2 可知,對(duì)于ShanghaiTech 數(shù)據(jù)集,本文網(wǎng)絡(luò)模型在密集程度較高的Part A 子集上的MAE 和MSE 分別為56.6 和97.6,均達(dá)到了先進(jìn)水平。同時(shí)在人群密度較低的Part B 子集中,本文網(wǎng)絡(luò)也取得了所有對(duì)比網(wǎng)絡(luò)中最佳的MAE 和MSE,分別為6.3和10.2,相比SFANet 分別下降了8.7%和6.4%。在樣本量較少,但視角豐富的UCF-CC-50 數(shù)據(jù)集中,本文網(wǎng)絡(luò)取得了對(duì)比網(wǎng)絡(luò)中最低的MAE 和MSE,分別為160.6 和224.7,與SFANet 相比分別下降了26.9%和28.9%。在場(chǎng)景豐富、圖像視角多樣的UCF-QNRF 數(shù)據(jù)集中,本文網(wǎng)絡(luò)的MAE 和MSE 分別為85.8 和146.0,取得了對(duì)比網(wǎng)絡(luò)中的最佳結(jié)果,與SFANet 相比MAE 下降了14.9%,MSE 下降了16.3%。

      表2 的實(shí)驗(yàn)數(shù)據(jù)說(shuō)明本文網(wǎng)絡(luò)在擁擠人群和稀疏人群場(chǎng)景中均具有較高的準(zhǔn)確性,而且在圖像畸變較為嚴(yán)重、背景環(huán)境復(fù)雜多樣的擁擠人群場(chǎng)景中具有良好性能,體現(xiàn)了該網(wǎng)絡(luò)良好的泛化能力和較強(qiáng)的魯棒性。

      2.7 消融性實(shí)驗(yàn)

      為驗(yàn)證BNS 模塊和WE-CAN 模塊的有效性,在ShanghaiTech 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分析不同模塊對(duì)網(wǎng)絡(luò)性能的影響。

      消融實(shí)驗(yàn)結(jié)果如表3 所示。首先以SFANet 作為基線(xiàn)網(wǎng)絡(luò),并在其基礎(chǔ)上增加BNS 模塊進(jìn)行實(shí)驗(yàn),從而驗(yàn)證BNS 模塊的有效性。此外,為驗(yàn)證WE-CAN模塊的有效性,在基線(xiàn)網(wǎng)絡(luò)添加了BNS 模塊的基礎(chǔ)上分別添加CAN 模塊和WE-CAN 模塊進(jìn)行對(duì)比實(shí)驗(yàn)。由表3 可知,SFANet 增加BNS 模塊后在Part A數(shù)據(jù)集上的MAE 下降1.5%,在Part B 數(shù)據(jù)集的MAE下 降2.9%,MSE 下 降4.6%。當(dāng)SFANet 依次增加BNS 模塊和CAN 模塊后,Part A 數(shù)據(jù)集的MAE 相比SFANet 下降3.5%,Part B 數(shù)據(jù)集的MAE 下降4.3%,MSE 下降4.6%。當(dāng)網(wǎng)絡(luò)增加了WE-CAN 模塊后,在Part A 數(shù)據(jù)集的MAE 下 降5.3%,Part B 數(shù)據(jù)集的MAE 和MSE 分別下降了8.7%和6.4%。上述消融性實(shí)驗(yàn)驗(yàn)證了本文設(shè)計(jì)的BNS 模塊和WE-CAN 模塊在人群計(jì)數(shù)任務(wù)中的有效性和合理性。

      表3 消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiment

      2.8 結(jié)果可視化

      將本文網(wǎng)絡(luò)和SFANet 生成的密度圖進(jìn)行對(duì)比,結(jié)果如圖4 所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。

      圖4 本文網(wǎng)絡(luò)與SFANet 的預(yù)測(cè)密度圖比較Fig.4 Comparison of predict density map between SFANet and network in this paper

      由圖4 可知,當(dāng)擁擠人群存在旗幟等遮擋物的時(shí)候,SFANet 無(wú)法很好區(qū)分人群和背景區(qū)域,容易將旗幟上的圖案判定為人體特征,導(dǎo)致最終預(yù)測(cè)結(jié)果誤差較大。而本文網(wǎng)絡(luò)能有效抑制噪聲,使生成的預(yù)測(cè)密度圖能準(zhǔn)確突出人群區(qū)域,提高人群計(jì)數(shù)任務(wù)的計(jì)算精度。

      此外,本文網(wǎng)絡(luò)能生成較精確的預(yù)測(cè)空間注意力圖和預(yù)測(cè)密度圖,且能進(jìn)行可視化,可視化結(jié)果如圖5所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。

      圖5 本文網(wǎng)絡(luò)的實(shí)驗(yàn)效果展示Fig.5 Experimental effect display of network in this paper

      由圖5 左數(shù)第1 列、第2 列圖可知,針對(duì)存在背景干擾較嚴(yán)重的擁擠人群場(chǎng)景的圖像,本文網(wǎng)絡(luò)能將圖像中存在的汽車(chē)、樹(shù)木等遮擋物識(shí)別為背景元素,減少遮擋物對(duì)預(yù)測(cè)結(jié)果的干擾。由圖5 左數(shù)第3 列圖可知,針對(duì)目標(biāo)尺度變化較大的圖像,本文網(wǎng)絡(luò)生成的預(yù)測(cè)空間注意力圖和預(yù)測(cè)密度圖均能較好地對(duì)圖像中的多尺度目標(biāo)進(jìn)行檢測(cè)。由圖5 左數(shù)第4 列圖可知,針對(duì)稀疏人群場(chǎng)景的圖像,本文網(wǎng)絡(luò)也能生成精確的預(yù)測(cè)空間注意力圖和預(yù)測(cè)密度圖,體現(xiàn)了該網(wǎng)絡(luò)良好的跨場(chǎng)景計(jì)數(shù)能力。

      綜上所述,本文網(wǎng)絡(luò)能生成高質(zhì)量的預(yù)測(cè)密度圖,在有效抑制圖像噪聲干擾的同時(shí),也能有效減少透視畸變引起的估計(jì)誤差,展示了該網(wǎng)絡(luò)在人群計(jì)數(shù)領(lǐng)域中優(yōu)越的性能。

      3 結(jié)束語(yǔ)

      本文提出基于背景抑制與上下文感知的人群計(jì)數(shù)網(wǎng)絡(luò),通過(guò)引入DMG 模塊有效提取不同層次特征的有效信息,生成高分辨率的特征圖,并利用BNS 模塊充分抑制圖像噪聲干擾,提高模型的人群計(jì)數(shù)精度。此外,采用WE-CAN 模塊解決圖像存在的透視畸變問(wèn)題,在對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練時(shí)采用多任務(wù)的聯(lián)合損失函數(shù),以提高模型的計(jì)數(shù)精度。實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)在UCF-QNRF 數(shù)據(jù)集上的平均絕對(duì)誤差和均方誤差分別為85.8、146.0,相較于MCNN、SwitchCNN、CSRNet 等網(wǎng)絡(luò)最高分別下降69.0%和67.2%,具有良好的泛化能力和較強(qiáng)的魯棒性。下一步將引入霧霾、暴雨等復(fù)雜天氣變化的數(shù)據(jù)樣本和存在低光照、過(guò)曝等光照變化的數(shù)據(jù)樣本對(duì)模型進(jìn)行訓(xùn)練,提高網(wǎng)絡(luò)在復(fù)雜環(huán)境下的計(jì)算精度。

      猜你喜歡
      計(jì)數(shù)注意力卷積
      讓注意力“飛”回來(lái)
      古人計(jì)數(shù)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      遞歸計(jì)數(shù)的六種方式
      古代的計(jì)數(shù)方法
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      這樣“計(jì)數(shù)”不惱人
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      荃湾区| 明溪县| 肇州县| 施甸县| 通道| 泽普县| 黔西县| 佛山市| 舒兰市| 阳城县| 琼结县| 海阳市| 三穗县| 安塞县| 高密市| 金塔县| 吐鲁番市| 凤阳县| 从江县| 宜兰市| 汉川市| 尚义县| 潼关县| 鹿泉市| 晋城| 乌兰察布市| 滨州市| 澄迈县| 鲁甸县| 新巴尔虎右旗| 乐平市| 山阴县| 兴化市| 安塞县| 汽车| 罗山县| 尉犁县| 扎鲁特旗| 新河县| 尉氏县| 南江县|