一種面向人群計(jì)數(shù)的卷積注意力網(wǎng)絡(luò)模型

2023-01-13 11:57:56朱宇斌李文根關(guān)佶紅張毅超

計(jì)算機(jī)工程與應(yīng)用 2023年1期

朱宇斌，李文根，關(guān)佶紅，張毅超

同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系，上海 201804

在過去十幾年中，目標(biāo)計(jì)數(shù)問題受到專家學(xué)者的廣泛關(guān)注，它旨在分析計(jì)數(shù)特定場景中目標(biāo)的數(shù)量。隨著世界人口的爆炸性增長和城市化進(jìn)程不斷加深，目標(biāo)計(jì)數(shù)問題中的人群計(jì)數(shù)問題變得越來越重要，對于解決人群聚集等相關(guān)問題具有意義。

圖1人群計(jì)數(shù)技術(shù)發(fā)展時(shí)間線Fig.1 Timeline of crowd counting

人群計(jì)數(shù)作為群體事件分析的重要一環(huán)，能夠針對特定場景下人群目標(biāo)數(shù)量進(jìn)行估計(jì)，在重大事件的事先告警與事后復(fù)盤中具有重要應(yīng)用。另外，人群計(jì)數(shù)方法能夠輔助實(shí)現(xiàn)實(shí)時(shí)預(yù)測場景人數(shù)，進(jìn)而有效減少人群聚集，這對當(dāng)下新冠肺炎疫情的控制具有關(guān)鍵作用。人群計(jì)數(shù)旨在計(jì)算給定輸入圖片中的人數(shù)。與目標(biāo)檢測、目標(biāo)追蹤等計(jì)算機(jī)視覺問題不同，人群計(jì)數(shù)將重點(diǎn)放在“計(jì)數(shù)”上，而無需關(guān)心目標(biāo)的位置。整體來看，現(xiàn)有人群計(jì)數(shù)方法主要有三大類[1]：基于檢測的方法、基于回歸的方法和基于卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）的方法。

如圖1展示了人群計(jì)數(shù)相關(guān)技術(shù)發(fā)展時(shí)間線[1]。在人群計(jì)數(shù)發(fā)展初期，人們想到如果能夠使用模型準(zhǔn)確地檢測出視頻或圖片中的每個(gè)目標(biāo)，那么可以很好地計(jì)算總數(shù)。故而提出了基于檢測的方法[2-4]。由于其準(zhǔn)確性和模型性能受到圖像分辨率低、目標(biāo)大小不一、目標(biāo)重疊模糊等因素的限制，研究者提出了基于回歸的模型[5-7]，進(jìn)一步提升了計(jì)數(shù)效果。然而，回歸模型的相關(guān)方法仍然忽視了空間尺度的相關(guān)信息，僅得到一個(gè)計(jì)數(shù)結(jié)果，不能學(xué)習(xí)到目標(biāo)的分布，導(dǎo)致其結(jié)果缺乏可信度和可解釋性。近年來，由于基于CNN的模型能夠提取出有效的空間尺度、紋理特征等深層信息，在復(fù)雜監(jiān)控環(huán)境下的圖片和視頻數(shù)據(jù)上表現(xiàn)優(yōu)異，成為人群計(jì)數(shù)領(lǐng)域的一大研究熱點(diǎn)。目前，大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法都是多列的網(wǎng)絡(luò)結(jié)構(gòu)，并使用多任務(wù)學(xué)習(xí)和全監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型。

為解決人群計(jì)數(shù)中存在的背景干擾、目標(biāo)遮擋、目標(biāo)尺度不一和目標(biāo)分布不均等問題，不少專家學(xué)者進(jìn)行了許多新穎的嘗試和改進(jìn)[8]。MCNN[9]能夠一定程度上緩解目標(biāo)尺寸大小不一的問題，但對于背景干擾、目標(biāo)遮擋和目標(biāo)分布不均等問題卻沒有很好地解決。Switching CNN[10]通過訓(xùn)練一個(gè)回歸器來擬合最終的結(jié)構(gòu)，能夠從一定程度上緩解人群計(jì)數(shù)問題中目標(biāo)尺度不一和目標(biāo)分布不均的問題，但對于背景干擾和目標(biāo)遮擋兩個(gè)問題并沒有得到解決。BL[11]通過直接學(xué)習(xí)標(biāo)注點(diǎn)的分布，從而對背景的干擾進(jìn)行了屏蔽。同時(shí)將網(wǎng)絡(luò)模型的參數(shù)更加高效地用在解決目標(biāo)分布和目標(biāo)尺度問題上，對現(xiàn)有人群計(jì)數(shù)算法是一個(gè)很好的啟發(fā)——可以通過直接關(guān)注標(biāo)注位置本身學(xué)習(xí)訓(xùn)練模型，來獲得比模糊處理標(biāo)記訓(xùn)練更好的效果。

目前人群計(jì)數(shù)研究仍然存在諸多不足：

問題1現(xiàn)有方法通常使用高斯模糊預(yù)處理數(shù)據(jù)，從而平滑標(biāo)記點(diǎn)，但這種做法會(huì)使背景和目標(biāo)變得更加難以區(qū)分，增大了背景干擾帶來的影響。

問題2目標(biāo)遮擋帶來的計(jì)數(shù)誤差問題在領(lǐng)域內(nèi)仍然沒有較好方法來解決。

問題3從研究現(xiàn)狀可以發(fā)現(xiàn)，目前大多數(shù)網(wǎng)絡(luò)模型仍然采用多列網(wǎng)絡(luò)結(jié)構(gòu)。雖然這類方法能夠有效地在每一列提取不同尺度的目標(biāo)特征，但列間存在著大量冗余，并不能有效解決目標(biāo)尺度不一的問題。

問題4仍然沒有一個(gè)有效的方法既能感知目標(biāo)在圖片上的尺度的變化規(guī)律，又能提取圖片中空間上的特征。

本文旨在針對這些存在的問題提出相應(yīng)的解決方案，進(jìn)而提高人群計(jì)數(shù)的準(zhǔn)確度。

1 基于相似性度量的卷積注意力網(wǎng)絡(luò)

針對當(dāng)前人群計(jì)數(shù)問題存在的四大難點(diǎn)，提出了一種基于相似性度量的卷積注意力網(wǎng)絡(luò)（similarity measured convolutional attention network，SMCAN）。如圖2展示了SMCAN網(wǎng)絡(luò)的基本結(jié)構(gòu)。該網(wǎng)絡(luò)包含主干網(wǎng)絡(luò)、注意力模塊和回歸卷積層三個(gè)模塊，并通過使用基于相似性度量的損失函數(shù)來定義預(yù)測密度圖與真實(shí)密度圖之間的損失。

圖2 SMCAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of SMCAN

下面將分別介紹SMCAN網(wǎng)絡(luò)三個(gè)模塊的功能、結(jié)構(gòu)和技術(shù)細(xì)節(jié)。

1.1 主干網(wǎng)絡(luò)

主干網(wǎng)絡(luò)是指整個(gè)模型中最開始的若干層，其作用是提取圖片中目標(biāo)的基本特征。主干網(wǎng)絡(luò)的有效性和復(fù)雜程度很大程度上影響最終人群計(jì)數(shù)結(jié)果的好壞。因此，在人群計(jì)數(shù)問題中，相關(guān)算法模型通常采用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)，并使用遷移學(xué)習(xí)來微調(diào)其參數(shù)。如圖3表示SMCAN網(wǎng)絡(luò)的主干網(wǎng)絡(luò)結(jié)構(gòu)，其輸入圖像為原始圖片，依次通過通道數(shù)為64、128、128和512的卷積層，得到大小為原始圖片1/64的輸出層。

圖3 SMCAN主干網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Backbone network structure of SMCAN

SMCAN的主干網(wǎng)絡(luò)使用VGG16[12]的前4個(gè)卷積層，其權(quán)重通過在ILSVRC16數(shù)據(jù)集上預(yù)訓(xùn)練得到，所以其輸出層包含了原始圖像中深層次的特征，有利于空間和尺度注意力模塊的特征提取。

1.2 注意力模塊

如圖4表示SMCAN網(wǎng)絡(luò)的注意力模塊的具體結(jié)構(gòu)。模塊的輸入層大小為C×W×H，其中C、W和H分別代表通道數(shù)、寬度和高度，輸出層的大小與輸入層相同。

圖4 注意力模塊結(jié)構(gòu)Fig.4 Attention module stracture of SMCAN

在尺度注意力模塊中，輸入層首先通過一個(gè)1×1卷積，將其結(jié)果分別進(jìn)行變形和變形轉(zhuǎn)置操作生成特征圖F1和F2，其中F1的大小為C×HW，F(xiàn)2的大小為HW×C。之后，將F1與F2相乘，得到大小為C×C的特征圖F3。然后，F(xiàn)3經(jīng)過softmax激活函數(shù)得到特征圖F4。該過程可表示為：

類似地，在空間注意力模塊中的變換過程可以表示為：

尺度注意力模塊和空間注意力模塊的不同之處在于：

（1）從輸入輸出上看，尺度注意力模塊和空間注意力模塊的輸入層和輸出層大小是一致的，但生成特征圖的方法不同。尺度注意力模塊僅使用一個(gè)1×1卷積來提取注意力特征，而空間注意力模塊使用了三個(gè)。對于尺度注意力模塊，使用同一個(gè)卷積核能夠讓該模塊后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)不需要關(guān)心空間上的變化，而是將重點(diǎn)放在不同尺度上。

（2）從注意力角度上看，兩個(gè)模塊的特征圖F4都蘊(yùn)含了注意力信息。在尺度注意力模塊中，通過對尺度間相關(guān)性的注意來感知尺度間相似的局部圖案和紋理特征。在空間注意力模塊中，則將關(guān)注重點(diǎn)放在圖片中目標(biāo)的集中區(qū)域和全局呈現(xiàn)的透視現(xiàn)象上，從而提取對應(yīng)的空間注意力特征。

盡管尺度注意力模塊和空間注意力存在差異，但從整體思路上看，其二者都是將輸入層變形為特定的維度，通過在該維度上的信息自乘得到注意力信息。經(jīng)過對注意力信息和輸入信息的融合，最終得到含有注意力特征的輸出。如果同時(shí)使用這兩個(gè)模塊來處理圖像，理論上能在一定程度上解決人群計(jì)數(shù)中目標(biāo)尺度不一和目標(biāo)分布不均的問題。

1.3 回歸卷積層

如圖5所示，SMCAN網(wǎng)絡(luò)的回歸卷積層首先將提取到的尺度和空間注意力特征連接起來，隨后連接一個(gè)卷積核大小為1×1、輸出通道數(shù)為1的卷積層。其目的是將注意力模塊得到的信息通過類似于“回歸”的卷積操作得出目標(biāo)的個(gè)數(shù)，每個(gè)位置上的目標(biāo)個(gè)數(shù)組合起來便形成了密度圖，不過大小是原始圖片的1/64。最后將回歸卷積得到的密度圖通過插值上采樣方法，生成與原圖大小一致的預(yù)測密度圖。

圖5 回歸卷積層結(jié)構(gòu)Fig.5 Structure of regression convolutional layer

1.4 損失函數(shù)

針對人群計(jì)數(shù)問題中背景干擾和目標(biāo)遮擋兩大問題，引入基于相似性度量的損失函數(shù)[13]：

其中，LMAE(μ,ν)、LEMD(μ,ν)、LTV(μ,ν)分別為平均絕對誤差損失項(xiàng)、推土機(jī)距離損失項(xiàng)和全變差距離損失項(xiàng)，λ1和λ2為超參數(shù)，分別用于調(diào)節(jié)推土機(jī)距離損失和全變差距離損失的權(quán)重。基于推土機(jī)距離損失項(xiàng)的優(yōu)勢在于可以直接度量預(yù)測密度圖與真實(shí)密度圖之間的相似性，進(jìn)而替代通過高斯模糊預(yù)處理數(shù)據(jù)來度量預(yù)測密度圖與模糊后的真實(shí)密度圖的相似性?；谌儾罹嚯x損失項(xiàng)的優(yōu)勢在于可以通過度量概率分布的總體變化來計(jì)算預(yù)測密度圖與真實(shí)密度圖之間的差異，從而降低由目標(biāo)遮擋帶來的計(jì)數(shù)影響。該損失函數(shù)能夠定量計(jì)算預(yù)測密度圖與真實(shí)密度圖的差異，緩解背景干擾和目標(biāo)遮擋問題。

2 實(shí)驗(yàn)

2.1 評價(jià)指標(biāo)

本文使用平均絕對誤差（mean absolute error，MAE）和均方根誤差（mean squared error，RMSE）兩個(gè)指標(biāo)來評價(jià)人群計(jì)數(shù)方法的性能。兩個(gè)評價(jià)指標(biāo)的計(jì)算公式如下：

其中N為測試圖片的數(shù)量，和分別代表圖片人群數(shù)量的預(yù)測結(jié)果和真實(shí)值。嚴(yán)格來說，MAE反映了預(yù)測的準(zhǔn)確性，RMSE反映了預(yù)測的穩(wěn)定性和魯棒性。

2.2 實(shí)驗(yàn)配置

為了驗(yàn)證提出方法在不同場景下的效果，本文將使用三個(gè)公開的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

（1）Shanghai Tech數(shù)據(jù)集[9]：Shanghai Tech數(shù)據(jù)集最早由MCNN在2016年使用，是大規(guī)模人群計(jì)數(shù)數(shù)據(jù)集之一。該數(shù)據(jù)集由1 198張圖像和330 165個(gè)標(biāo)注組成，并根據(jù)不同的密度分布，分為Part A和Part B兩部分。Part A包含482張圖片，平均分辨率為589×868；Part B包含716張圖片，平均分辨率為768×1 024。該數(shù)據(jù)集中訓(xùn)練集和測試集的每一張圖片都對應(yīng)一個(gè).mat格式的標(biāo)注文件，其中包含目標(biāo)的位置信息。需要注意的是，Part A圖片的復(fù)雜程度遠(yuǎn)高于Part B，具體表現(xiàn)在目標(biāo)的分布以及數(shù)量上。因此，Part A上的絕對誤差一般比Part B高。

（2）UCF-QNRF數(shù)據(jù)集[14]：UCF-QNRF是2018年發(fā)表的數(shù)據(jù)集，包含1 535張富有含挑戰(zhàn)性的圖片和125萬個(gè)標(biāo)注。圖片的平均分辨率達(dá)到了2 013×2 902，平均每張圖片的目標(biāo)數(shù)量為815。

（3）NWPU數(shù)據(jù)集[15]：NWPU是2020年公開的數(shù)據(jù)集，包含5 109張圖像和2 133 238個(gè)標(biāo)注。相比于以往的數(shù)據(jù)集，該數(shù)據(jù)集除了數(shù)據(jù)量更大外，還有負(fù)樣本和高分辨率圖片，圖片的平均分辨率達(dá)到2 311×3 383的圖片。

由于使用高斯模糊對原始圖片中的標(biāo)記點(diǎn)進(jìn)行平滑處理會(huì)對最后網(wǎng)絡(luò)模型的泛化性能造成嚴(yán)重的損傷，實(shí)驗(yàn)將直接采用真實(shí)標(biāo)記數(shù)據(jù)替代以往的高斯模糊處理。

此外，當(dāng)圖片較大、分辨率高和目標(biāo)較多時(shí)，經(jīng)過環(huán)境測試發(fā)現(xiàn)單一塊顯卡無法支持大圖片的訓(xùn)練。因此，在不增加實(shí)驗(yàn)成本的情況下，本實(shí)驗(yàn)將UCF-QNRF和NWPU數(shù)據(jù)集中的高清圖片拆分為四部分進(jìn)行預(yù)測，并將得到的圖片拼接、人數(shù)相加得到最終預(yù)測結(jié)果。

表1列舉了實(shí)驗(yàn)環(huán)境的各項(xiàng)參數(shù)。在模型訓(xùn)練時(shí)，根據(jù)實(shí)驗(yàn)分析，損失函數(shù)中的權(quán)重參數(shù)λ1和λ2分別設(shè)置為0.01和0.1。

表1 實(shí)驗(yàn)環(huán)境信息Table 1 Information of experimental environment

2.3 方法對比實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)對比了SMCAN網(wǎng)絡(luò)與主流人群計(jì)數(shù)模型的性能，包括MCNN[9]、CMTL[16]、Switching CNN[10]、ACSCP[17]、CSRNet[18]和CFF[19]。表2、表3和表4分別展示了各類模型在Shanghai Tech、UCF-QNRF和NWPU數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。從表中可以看出，從SMCAN與經(jīng)典人群計(jì)數(shù)方法實(shí)驗(yàn)結(jié)果的定量數(shù)據(jù)與對比來看，相比單獨(dú)使用相似性度量損失函數(shù)和注意力模塊，SMCAN在Shanghai Tech數(shù)據(jù)集上取得了更好的效果，其Part A的MAE和RMSE均超過了CFF模型。在NWPU上的實(shí)驗(yàn)數(shù)據(jù)也充分說明了SMCAN優(yōu)秀的預(yù)測效果。

表2 Shanghai Tech數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Experimental results on Shanghai Tech

表3 UCF-QNRF數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 3 Experimental results on UCF-QNRF

表4 NWPU數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 4 Experimental results on NWPU

如圖6對SMCAN網(wǎng)絡(luò)的預(yù)測效果進(jìn)行了可視化，展示了不同場景下的人群計(jì)數(shù)結(jié)果。從預(yù)測的直觀效果來看，SMCAN在3個(gè)數(shù)據(jù)集上都取得了較好的預(yù)測效果，其預(yù)測密度圖與真實(shí)密度圖分布大致相同，而且計(jì)數(shù)結(jié)果較為準(zhǔn)確。特別地，針對圖第一行中目標(biāo)尺度不一，圖第二行、第四行中目標(biāo)分布不均，圖第三行中背景干擾和圖第五行中目標(biāo)遮擋問題，該模型均能較為準(zhǔn)確地預(yù)測。因此，SMCAN通過結(jié)合基于相似性度量的損失函數(shù)和基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模塊，能夠有效解決基于視覺的人群計(jì)數(shù)問題存在的四大挑戰(zhàn)，具有較高的實(shí)用價(jià)值。

圖6 SMCAN預(yù)測效果樣例Fig.6 Samples of SMCAN prediction effects

2.4 模塊有效性分析實(shí)驗(yàn)結(jié)果

為了進(jìn)一步驗(yàn)證尺度注意力模塊和空間注意力模塊在SMCAN網(wǎng)絡(luò)中的有效性，設(shè)計(jì)了如下4組對比實(shí)驗(yàn)：

組1原始VGG16模型；

組2 VGG16與尺度注意力模塊組合；

組3 VGG16與空間注意力模塊組合；

組4提出的SMCAN網(wǎng)絡(luò)。

4組實(shí)驗(yàn)均采用基于相似性度量的損失函數(shù)進(jìn)行訓(xùn)練。表5展示了4組實(shí)驗(yàn)的結(jié)果。分別對比組1和組2、組3和組4可以發(fā)現(xiàn)，尺度注意力模塊能夠有效提高人群數(shù)量預(yù)測的準(zhǔn)確性和穩(wěn)定性。另外，分別對比組1和組3、組2和組4可以發(fā)現(xiàn)，空間注意力模塊也能夠提高預(yù)測準(zhǔn)確性和穩(wěn)定性。另外還可以發(fā)現(xiàn)，SMCAN中基于相似性度量的損失函數(shù)與空間和尺度注意力模塊兼容性良好，從RMSE來看，SMCAN具有較好的穩(wěn)定性。

表5 實(shí)驗(yàn)結(jié)果對比Table 5 Comparsion of experimental results

3 總結(jié)

為了同時(shí)解決人群計(jì)數(shù)的四大挑戰(zhàn)，本文結(jié)合基于相似性度量的損失函數(shù)和基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模塊，提出了一種基于相似性度量的卷積注意力網(wǎng)絡(luò)SMCAN。該網(wǎng)絡(luò)通過將基于推土機(jī)距離的損失項(xiàng)、基于全變差距離的損失項(xiàng)、尺度注意力模塊、空間注意力模塊與傳統(tǒng)的VGG16網(wǎng)絡(luò)有機(jī)結(jié)合起來，在多個(gè)數(shù)據(jù)集上取得了很好的人群計(jì)數(shù)效果。