郝曉亮,楊倩倩,夏殷鋒,彭思凡,殷保群
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥230027)
在人群計數(shù)所面臨的諸多難題中,人群尺度變化導(dǎo)致的計數(shù)性能下降問題備受關(guān)注。圖1所示在人群密度較大的場景中,圖片中不同區(qū)域的人群在分布上存在人頭尺度上的不均衡,對計數(shù)準確性造成嚴重的影響。為了解決此類問題,本文提出了基于上下文的特征增強方法,提取不同尺度的人頭特征,融合經(jīng)過強化的特征,生成反映不同人頭尺度的密度圖。
圖1 人群分布示例圖
基于CNN的方法應(yīng)用于人群計數(shù)的早期,研究者們采用多列網(wǎng)絡(luò)[1-3]來感知復(fù)雜場景下不同人頭的尺度來解決因尺度變化而造成的計數(shù)誤差。MCNN[2]首次以多列網(wǎng)絡(luò)提取單圖的人群尺度,使用不同尺寸的卷積核建立網(wǎng)絡(luò),利用不同的感受野提取多尺度人群信息,并生成最終的人群密度圖。ONORO-RUBIO D等人[4]從多分辨率輸入圖入手,利用三種不同分辨率的同一張人群圖像中提取的多尺度特征并融合生成密度圖,實現(xiàn)利用不同尺寸圖像輸入來解決人群尺度變化的問題。文獻[5]中提出一種端到端的編碼解碼網(wǎng)絡(luò),旨在提取圖片中的不同語義信息與空間信息,通過融合低層特征彌補密度圖像素上的不足,提高了生成密度圖的質(zhì)量。
盡管上述方法可以在一定程度上提升性能,但是因人群圖片尺度變化過于劇烈,多列網(wǎng)絡(luò)或者多分辨率處理在處理多尺度問題上仍存在參數(shù)量過大的問題[6];更多的計數(shù)方法依賴融合后的高層語義信息,忽視了低層的細節(jié)信息,缺乏對密度圖細節(jié)的補充,在復(fù)雜場景下計數(shù)性能難有提升。并且使用單個卷積層生成人群密度圖容易引起計數(shù)誤差,不能充分利用圖片有效特征。
為解決上述問題,本文針對密度估計圖中部分人群空間細節(jié)信息缺失的問題,將不同模塊提取的特征重新聚合利用,通過特征融合機制,將上下文提取的特征強化后進行多尺度語義融合,補充密度圖中關(guān)于不同人頭尺度的細節(jié),從而提高算法性能。
綜上,本文提出基于上下文特征重聚合的人群計數(shù)網(wǎng)絡(luò)(Context-aware Feature Reaggregation Network for Crowd Counting,CFRNet),可完成任意分辨率的人群圖片輸入,并輸出對應(yīng)分辨率的人群密度估計圖,實現(xiàn)了對提取特征增強后的重新聚合,從而提升算法網(wǎng)絡(luò)的多尺度特征表達能力。CFRNet由特征提取器(Feature Extraction Network,F(xiàn)EN)、上下文特征增強模塊(Context-aware Feature Enhance Block,CFEB)、多尺度特征融合結(jié)構(gòu)(Multi-Scale feature Fusion Model,MSFM)三部分組成。
假設(shè)在任意的像素xi處標記一個人頭目標,可以將其轉(zhuǎn)化為單位沖激函數(shù)δ(x-xi),因此人群圖像可以利用式(1)來標記所有的人頭位置。
式中x代表二維圖像中的坐標,N表示人頭標記總數(shù)。對單一人頭標記而言,將人頭中心位置利用高斯核平滑處理,將δ(x-xi)平滑處理為高斯核,通過對密度圖整體求和得到總?cè)藬?shù)。人群密度圖F(x)可由H(x)與標準高斯核卷積而生成,F(xiàn)(x)定義如下:
利用15×15大小的固定高斯核生成密度圖,直接對密度圖進行逐像素相加即可獲得真值人數(shù),計算如下:
式中Gk表示第k個人群圖片的總?cè)藬?shù)。
1.2.1 特征提取器
為提高算法對特征的提取能力,表1所示為特征提取器模型結(jié)構(gòu)(Feature Extraction Network,F(xiàn)EN),包括13個卷積層和4個池化層。FEN網(wǎng)絡(luò)中卷積核尺寸為3×3,使用多個層次的小卷積核組成提取網(wǎng)絡(luò)提取特征,可以加快模型的訓(xùn)練。
表1 FEN結(jié)構(gòu)細節(jié)
1.2.2 上下文特征增強模塊
LIU S等[7]指出可以模擬人眼機制,通過增大網(wǎng)絡(luò)的感受野,從而提高特征的表達能力。因此,CFRNet基于空洞卷積[8]建立上下文特征增強模塊(Context-aware Feature Enhance Block,CFEB)來強化提取的特征。圖3為所提出的特征增強模塊,多層空洞卷積被用于構(gòu)建CFEB,同時使用大量的空洞卷積層代替卷積網(wǎng)絡(luò)中的池化操作,保持輸出特征的分辨率,避免小尺度人群信息的丟失,從而提高了人群密度圖的質(zhì)量。
圖3 CFEB結(jié)構(gòu)
1.2.3 多尺度特征融合模塊
為進一步提高CFRNet對提取特征的表征能力,本文提出了多尺度特征融合結(jié)構(gòu)(Multi-Scale feature Fusion Model,MSFM)。此方法有兩個優(yōu)點:不僅利用低層特征補充空間細節(jié)信息,將融合后的特征重新聚合并強化,而且將多層網(wǎng)絡(luò)輸出的密度圖融合多尺度特征生成最終密度圖,提升了生成質(zhì)量。在后續(xù)消融實驗中證明了MSFM的有效性。
MSFM主要基于FEN的后三個模塊的輸出映射,利用多組CFEB模塊來逐層強化FEN提取的特征,并自下而上地補充多尺度細節(jié)信息。如圖2所示,經(jīng)過B5輸出的特征經(jīng)過多組CFEB強化后,經(jīng)過雙線性插值函數(shù)進行上采樣,得到與第四個模塊B4相同大小的特征圖,與上一層網(wǎng)絡(luò)的計算過程所不同的是,B4模塊后接的第一個CFEB輸出特征與B5所在層的最后一個CFEB模塊輸出特征圖的拼接。與第四層網(wǎng)絡(luò)映射關(guān)系類似,完成B3層的特征強化過程。
圖2 CFRNet算法結(jié)構(gòu)圖
1.3.1 數(shù)據(jù)預(yù)處理
本節(jié)中對所用到的人群計數(shù)相關(guān)的數(shù)據(jù)集進行預(yù)處理以及數(shù)據(jù)增強。首先,將數(shù)據(jù)集圖片隨機裁剪為9塊256×256大小的圖像塊;按照先前的工作[9],對數(shù)據(jù)集進行增強。
1.3.2 實驗環(huán)境
本文實驗中,采用如表2所示的開放環(huán)境進行實驗。
表2 開發(fā)環(huán)境配置列表
1.3.3 損失函數(shù)
本文將歐式距離損失作為CFRNet的損失函數(shù),以測量計數(shù)算法的誤差,定義如下:
其中,Θ表示可學(xué)習(xí)的參數(shù),N表示訓(xùn)練圖片數(shù)目。Xi表示第i張圖像,F(xiàn)i與F(Xi;Θ)分別對應(yīng)真實密度圖與生成密度圖。本文采用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò),初始學(xué)習(xí)率為1×10-5,學(xué)習(xí)率的衰減率為0.995。
本文引入平均絕對誤差(Mean Absolute Error,MAE)、均方誤差(Mean Squared Error,MSE)來評價計數(shù)算法的性能,如式(5)和式(6)所示:
其中N代表測試圖片數(shù)目,zi與分別代表真值與算法的預(yù)測值。
ShanghaiTech數(shù)據(jù)集由ZHANG Y等人[10]在2016年提出。這里將ShanghaiTech數(shù)據(jù)集的兩部分標記為SHT_A和SHT_B,數(shù)據(jù)圖片分別來源于互聯(lián)網(wǎng)搜索和上海的街頭拍攝。在本節(jié)中引入9種具有代表性的計數(shù)算法與CFRNet進行對比,表3中給出兩個數(shù)據(jù)集上的性能對比。
表3 SHT_A和SHT_B數(shù)據(jù)集結(jié)果
圖4顯示了SHT_A和SHT_B部分密度估計圖上的對比結(jié)果,其中第一列為測試圖片,第二列為真實密度圖,而第三列則是本算法獲得的密度圖。
圖4 SHT_A與SHT_B估計密度圖與真實密度圖對比
UCF_CC_50數(shù)據(jù)集在2013年由DREES H等人[18]提出。該數(shù)據(jù)集圖片具有人群分布較為密集、人頭尺度變化較小等特點。本實驗采用五折交叉驗證的方法來評價算法的性能。由表4可知,9種不同的的計數(shù)算法被用來與CFRNet進行對比能,表中給出了各算法的性能指標。
表4 UCF_CC_50數(shù)據(jù)集結(jié)果
圖5中展示了本算法在UCF_CC_50數(shù)據(jù)集的密度圖對比示例。由于本數(shù)據(jù)集訓(xùn)練樣本過少,相關(guān)算法在本數(shù)據(jù)集中的誤差結(jié)果表現(xiàn)均較大,因此在后續(xù)章節(jié)中引入場景豐富的UCF_QNRF數(shù)據(jù)集實驗。
圖5 UCF_CC_50估計密度圖與真實密度圖對比
IDREES H等人[24]于2018年公開UCF_QNRF數(shù)據(jù)集,UCF_QNRF數(shù)據(jù)集大約有125萬個標注點,其中人群圖片大多來自網(wǎng)頁搜索和朝圣素材等圖片素材,意味著UCF_QNRF數(shù)據(jù)集中人群場景滿足復(fù)雜性要求,并且存在多尺度變化的人群,對檢驗本章算法的魯棒性意義較大。表5展示了本文與10種高水平計數(shù)算法的性能對比。
表5 UCF_QNRF數(shù)據(jù)集結(jié)果
圖6展示了CFRNet在UCF_QNRF數(shù)據(jù)集中的可視化情況,由圖可知CFRNet可真實地在估計密度圖上展現(xiàn)復(fù)雜場景中的人群分布,進一步說明了CFRNet算法的先進性。
圖6 UCF_QNRF估計密度圖與真實密度圖對比
為驗證CFRNet的有效性,針對密度圖的生成方式以及CFEB的有效性,本小節(jié)在SHT_A上進行消融實驗。
2.4.1 密度圖融合方式對比實驗
表6為密度圖生成方式的對比實驗數(shù)據(jù),其中單層生成表示僅依賴CFRNet最后一層輸出人群密度估計圖,而多層融合方式則是本文所采用的多尺度生成方法,通過對比可以充分說明CFRNet在密度圖生成方式上的有效性。
表6 CFRNet密度圖融合方法對比實驗
2.4.2CFEB參數(shù)選擇實驗
為驗證CFEB模塊的有效性實驗,進行如表7所示的消融實驗,其中3CFEB w/o MSFM表示本文模型去掉了MSFM結(jié)構(gòu),而0CFEB表示采用0個CFEB模塊,以此類推可得其他結(jié)構(gòu)的示意結(jié)果。通過對比可以得出使用3個CFEB模塊建立CFRNet可以達到最佳性能。
表7 CFEB參數(shù)選擇實驗
本文提出了一種基于上下文特征重聚合的計數(shù)算法以解決人群圖像中的尺度變化問題。CFRNet由特征提取器提取圖片的基本特征,通過多組CFEB來組成上下文特征增強模塊用以提取不同尺度的有效信息,并結(jié)合多尺度特征融合結(jié)構(gòu),將底層信息融入到高層特征中,建立起編碼到解碼的計數(shù)網(wǎng)絡(luò)。結(jié)構(gòu)驗證實驗說明了本文算法結(jié)構(gòu)的有效性。