魏文戈 陳舒荻
摘? ?要:在計(jì)算機(jī)視覺(jué)領(lǐng)域,針對(duì)小角度俯拍下的站臺(tái)人群計(jì)數(shù)的研究工作較少,且計(jì)數(shù)精度普遍較低。人群計(jì)數(shù)算法往往通過(guò)圖像分割識(shí)別出圖片中的所有行人個(gè)體,并進(jìn)行數(shù)量統(tǒng)計(jì),具有很重要的現(xiàn)實(shí)意義。然而現(xiàn)有的圖像分割算法往往只能適用于簡(jiǎn)單場(chǎng)景下的簡(jiǎn)單分割任務(wù)。由于小角度俯拍下的站臺(tái)場(chǎng)景中存在行人近大遠(yuǎn)小、行人互相遮擋和行人輪廓姿態(tài)多樣等原因,因此給有效分割計(jì)數(shù)帶來(lái)了較大的挑戰(zhàn)。針對(duì)這一任務(wù),提出了距離自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(Distance Adaptive Convolutional Neutral Network,簡(jiǎn)稱DACNN),通過(guò)改進(jìn)回歸對(duì)象和設(shè)計(jì)距離自適應(yīng)卷積層,成功實(shí)現(xiàn)了對(duì)小角度俯拍下站臺(tái)人群的準(zhǔn)確計(jì)數(shù)。經(jīng)過(guò)一系列實(shí)驗(yàn)表明,該模型不僅計(jì)數(shù)精度高,而且計(jì)數(shù)速度較快、魯棒性良好,具有廣闊的運(yùn)用前景。
關(guān)鍵詞:小角度俯拍;站臺(tái)人群計(jì)數(shù);圖像分割;距離自適應(yīng)
中圖分類號(hào):TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Platform Crowd Counting Under Small Angle
WEI Wen-ge?覮,CHEN Shu-di
(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing,Jiangsu 211106,China)
Abstract:In the field of computer vision,there are few research work on platform crowd counting under small angles and the counting accuracy is generally low. Crowd counting algorithms often identify all the individuals in the image through image segmentation,and make the counting of the crowd,which is of great practical significance. However,the existing image segmentation algorithms are often only applicable to simple segmentation tasks in simple scenes. Since the human body caused by small angles in the vicinity looks larger while in the distance seems small,the body block each other and have diverse stance,to effectively split the statistics becomes a great challenge. In response to this task,this paper proposes Distance Adaptive Convolutional Neutral Network (DACNN). By designing a distance-adaptive convolutional layer and improving the model loss function,we can achieve a better performance under small angles of platform crowd counting. After a series of experiments show that the algorithm model not only has a high counting accuracy and fast counting speed,but also has good practicality,can be widely used.
Key words:small angle;platform crowd counting;image segmentation;distance-adaptive
人群計(jì)數(shù),作為圖像識(shí)別的一個(gè)重要研究領(lǐng)域,通過(guò)圖像分割識(shí)別出圖片中的所有人群個(gè)體,并進(jìn)行數(shù)量統(tǒng)計(jì),可廣泛運(yùn)用于安防等領(lǐng)域。目前針對(duì)小角度俯拍下的站臺(tái)人群計(jì)數(shù)的研究工作較少且準(zhǔn)確率較低,不能較好地應(yīng)用于復(fù)雜的實(shí)際場(chǎng)景中。由于監(jiān)控?cái)z像機(jī)小角度俯拍導(dǎo)致的站臺(tái)行人近大遠(yuǎn)小,行人互相遮擋和輪廓姿態(tài)多樣等問(wèn)題,給有效分割計(jì)數(shù)帶來(lái)了較大挑戰(zhàn)。針對(duì)這一問(wèn)題,提出了距離自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(Distance Adaptive Convolutional Neutral Network),對(duì)傳統(tǒng)回歸對(duì)象進(jìn)行了改進(jìn),并創(chuàng)新性地設(shè)計(jì)了距離自適應(yīng)卷積層,從而實(shí)現(xiàn)了對(duì)小角度俯拍下的站臺(tái)人群計(jì)數(shù)的有效計(jì)數(shù)。經(jīng)過(guò)一系列嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn),證明了該模型計(jì)數(shù)精度高,實(shí)用性好。
主要貢獻(xiàn)如下:
1) 根據(jù)問(wèn)題特性設(shè)計(jì)全新的回歸對(duì)象,較好地解決了由于行人遮擋和輪廓多樣所帶來(lái)的計(jì)數(shù)困難;
2) 設(shè)計(jì)并提出了距離自適應(yīng)卷積層,解決了行人近大遠(yuǎn)小所帶來(lái)的分割計(jì)數(shù)精度上的挑戰(zhàn);
3) 經(jīng)過(guò)橫向?qū)Ρ葘?shí)驗(yàn),證明了該模型可在小角度俯拍下精確地進(jìn)行站臺(tái)人群計(jì)數(shù),且計(jì)數(shù)速度較快、實(shí)用性較好。
1? ?相關(guān)工作
人群計(jì)數(shù)算法通過(guò)圖像分割識(shí)別出圖片中的所有行人個(gè)體,據(jù)此進(jìn)行人群計(jì)數(shù)。
1.1? ?圖像分割算法
傳統(tǒng)的圖像分割算法包括聚類法、直方圖法、邊緣檢測(cè)法、區(qū)域生長(zhǎng)法、水平集方法等等。其中聚類法通過(guò)將圖像像素點(diǎn)進(jìn)行聚類以實(shí)現(xiàn)分割,但分割效果較差;直方圖法根據(jù)掃描結(jié)果建立直方圖并依照?qǐng)D像中的峰和谷進(jìn)行分類,其效率較高;邊緣檢測(cè)法參照?qǐng)D像邊緣像素點(diǎn)檢測(cè)結(jié)果進(jìn)行分割,被廣泛應(yīng)用于圖像處理;區(qū)域生長(zhǎng)法聚合相似性像素并迭代分割;水平集方法使用符號(hào)函數(shù)記錄物體輪廓并分割,該方法也較為常用。
近幾年,深度學(xué)習(xí)逐漸成為圖像分割算法的主流。全卷積神經(jīng)網(wǎng)絡(luò)[1]首次將神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分割中,利用多個(gè)卷積層和全連接層抽取特征,由反卷積層實(shí)現(xiàn)上采樣,但分割效果較差;DeepLab[2]通過(guò)空洞卷積較好地改善了分割效果;SegNet[3]在全卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上將全連接層替換為與卷積部分對(duì)稱的反卷積結(jié)構(gòu),較大程度上改善了分割效果;Mask R-CNN[4]在Faster R-CNN[5]上增加掩碼分支以實(shí)現(xiàn)分割,并通過(guò)RoIAlign[4]結(jié)構(gòu)保留更多空間對(duì)稱性,提高了分割精度。
1.2? ?人群計(jì)數(shù)算法
目前關(guān)于人群計(jì)數(shù)算法的研究較多,但大多是針對(duì)簡(jiǎn)單場(chǎng)景下的計(jì)數(shù)研究。文獻(xiàn)[6][7]通過(guò)多尺度和多通道嘗試讓卷積神經(jīng)網(wǎng)絡(luò)能夠分割計(jì)數(shù);文獻(xiàn)[8]對(duì)跨場(chǎng)景人群計(jì)數(shù)進(jìn)行了研究;文獻(xiàn)[9]基于視頻來(lái)統(tǒng)計(jì)行人數(shù)量;文獻(xiàn)[10]側(cè)重于研究通道場(chǎng)景下如何有效實(shí)現(xiàn)行人統(tǒng)計(jì);文獻(xiàn)[11]在視頻監(jiān)控中并行處理人群計(jì)數(shù)和密度分析;文獻(xiàn)[12]基于光流法實(shí)現(xiàn)人群計(jì)數(shù);文獻(xiàn)[13]通過(guò)PCA與多元統(tǒng)計(jì)回歸,為人群計(jì)數(shù)提供了新思路;文獻(xiàn)[14]將像素融合紋理特征用于行人統(tǒng)計(jì);文獻(xiàn)[15][16]把神經(jīng)網(wǎng)絡(luò)應(yīng)用于人群計(jì)數(shù)方法中;文獻(xiàn)[17][18]設(shè)計(jì)了動(dòng)態(tài)場(chǎng)景監(jiān)控系統(tǒng)下的人群計(jì)數(shù)方法;文獻(xiàn)[19]通過(guò)視頻識(shí)別技術(shù)統(tǒng)計(jì)人流量;文獻(xiàn)[20]基于像素統(tǒng)計(jì)完成人群計(jì)數(shù)任務(wù);文獻(xiàn)[21]根據(jù)行人統(tǒng)計(jì)數(shù)據(jù)預(yù)報(bào)異常情況;文獻(xiàn)[22][23]側(cè)重于針對(duì)安防視頻中的人群計(jì)數(shù)應(yīng)用;文獻(xiàn)[24]總結(jié)了人群計(jì)數(shù)和密度估計(jì)的發(fā)展進(jìn)程并為后續(xù)研究提供了指導(dǎo);文獻(xiàn)[25]探索了人群密度自動(dòng)統(tǒng)計(jì)系統(tǒng);文獻(xiàn)[26]基于特征點(diǎn)統(tǒng)計(jì)高密度人群。
在實(shí)際的應(yīng)用場(chǎng)景中,由于小角度俯拍下的站臺(tái)行人近大遠(yuǎn)小、互相遮擋且輪廓姿態(tài)多樣,導(dǎo)致現(xiàn)有研究均不能有效解決該挑戰(zhàn)。本文因此設(shè)計(jì)并提出了距離自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò),通過(guò)改進(jìn)回歸對(duì)象和設(shè)計(jì)距離自適應(yīng)卷積層,成功實(shí)現(xiàn)了對(duì)小角度俯拍下站臺(tái)人群的準(zhǔn)確計(jì)數(shù)。
2? ?距離自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(DACNN)
在本節(jié)中,我們將詳細(xì)介紹如何針對(duì)小角度俯拍下的站臺(tái)人群計(jì)數(shù)設(shè)計(jì)距離自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)。
2.1? ?DACNN網(wǎng)絡(luò)結(jié)構(gòu)
DACNN前半部分網(wǎng)絡(luò)結(jié)構(gòu)繼承SegNet[3]網(wǎng)絡(luò),經(jīng)過(guò)13個(gè)卷積層實(shí)現(xiàn)下采樣,再由對(duì)稱的13個(gè)反卷積層實(shí)現(xiàn)上采樣并得到和原圖像相同尺寸的上采樣結(jié)果。
DACNN后半部分網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)距離自適應(yīng)卷積層實(shí)現(xiàn)上采樣結(jié)果到目標(biāo)分布圖的映射,如圖1。
2.2? ?設(shè)計(jì)回歸對(duì)象
傳統(tǒng)的人群計(jì)數(shù)算法中,圖像分割回歸對(duì)象設(shè)計(jì)為圖中每個(gè)行人的身體可見(jiàn)區(qū)域。由于小角度俯拍下站臺(tái)行人之間互相遮擋而且輪廓姿態(tài)多樣,因此原有的回歸對(duì)象容易受此干擾而影響最終的計(jì)數(shù)準(zhǔn)確率。
通過(guò)仔細(xì)觀察發(fā)現(xiàn)行人被遮擋最少的部分為頭部。因此本文設(shè)計(jì)每個(gè)行人頭部中心點(diǎn)作為新的回歸對(duì)象,并通過(guò)統(tǒng)計(jì)點(diǎn)數(shù)總和來(lái)完成人群計(jì)數(shù)。如圖2,新的回歸對(duì)象有效避免了行人近大遠(yuǎn)小所帶來(lái)的分割困難,并提高了模型分割計(jì)數(shù)準(zhǔn)確率。
3.3? ?距離自適應(yīng)卷積層
針對(duì)小角度俯拍站臺(tái)場(chǎng)景中行人呈現(xiàn)近大遠(yuǎn)小這一挑戰(zhàn),本文創(chuàng)新性地設(shè)計(jì)了距離自適應(yīng)卷積層,根據(jù)行人距離的遠(yuǎn)近靈活調(diào)整動(dòng)態(tài)高斯濾波核至最佳核大小以進(jìn)行高斯濾波。
當(dāng)距離與圖像水平方向成正相關(guān)時(shí),動(dòng)態(tài)高斯核大小計(jì)算公式如下:
當(dāng)距離與圖像垂直方向成正相關(guān)時(shí),動(dòng)態(tài)高斯核大小計(jì)算公式如下:
當(dāng)距離同時(shí)與圖像水平方向和垂直方向相關(guān)時(shí),動(dòng)態(tài)高斯核大小計(jì)算公式如下:
經(jīng)過(guò)高斯濾波后,由于每個(gè)單像素點(diǎn)的像素值被稀釋,直接訓(xùn)練會(huì)導(dǎo)致模型難以收斂。因此我們?cè)诟咚篂V波之后針對(duì)性地進(jìn)行了像素值擴(kuò)增:
如圖3,經(jīng)過(guò)距離自適應(yīng)卷積層得到的行人頭部中心點(diǎn)分割效果呈現(xiàn)近大遠(yuǎn)小的特性,符合實(shí)際拍攝下的小角度俯拍站臺(tái)場(chǎng)景狀況,能更好地引導(dǎo)模型根據(jù)距離遠(yuǎn)近學(xué)得不同的圖像特征。同時(shí)遠(yuǎn)處行人的頭部中心點(diǎn)由于濾波核較小,像素值密度更大,成為模型側(cè)重學(xué)習(xí)的區(qū)域,從而明顯提升了模型計(jì)數(shù)精度。
對(duì)應(yīng)的,將最后得到的分割計(jì)數(shù)結(jié)果除以擴(kuò)增的倍數(shù),即可得到該場(chǎng)景下人群的真實(shí)計(jì)數(shù)結(jié)果。
3? ?實(shí)驗(yàn)分析
采集了某高度擁擠的交通站臺(tái)上方監(jiān)控?cái)z像頭的拍攝視頻,按一定時(shí)間間隔提取足量幀圖像并進(jìn)行了人工標(biāo)注。
選取了該領(lǐng)域主流的FCN[1]模型和SegNet[3]模型,與DACNN模型進(jìn)行對(duì)比實(shí)驗(yàn)。在相同訓(xùn)練集上采用同樣的超參數(shù)設(shè)置進(jìn)行訓(xùn)練,并將收斂的模型在相同測(cè)試集上分別進(jìn)行了行人頭部中心點(diǎn)分割對(duì)比試驗(yàn)和人群計(jì)數(shù)準(zhǔn)確率對(duì)比試驗(yàn)。
圖4證明了距離自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(DACNN)的行人頭部中心點(diǎn)分割效果超過(guò)了目前主流的FCN[1]網(wǎng)絡(luò)和SegNet[3]網(wǎng)絡(luò)。
表1證明了DACNN的人群計(jì)數(shù)準(zhǔn)確率優(yōu)于目前主流的FCN[1]網(wǎng)絡(luò)和SegNet[3]網(wǎng)絡(luò)。
5? ?結(jié)? ?論
目前針對(duì)小角度俯拍站臺(tái)場(chǎng)景下的人群計(jì)數(shù)研究工作較少。由于小角度俯拍下存在站臺(tái)行人近大遠(yuǎn)小、互相遮擋和輪廓姿態(tài)多樣等原因,現(xiàn)有算法的分割計(jì)數(shù)準(zhǔn)確率往往較低。針對(duì)這一問(wèn)題,提出了距離自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(DACNN),通過(guò)改進(jìn)回歸對(duì)象和設(shè)計(jì)距離自適應(yīng)卷積層,成功提升了小角度俯拍下的站臺(tái)人群計(jì)數(shù)的準(zhǔn)確率。并通過(guò)實(shí)驗(yàn)證明了該模型不僅計(jì)數(shù)準(zhǔn)確率高、速度快,而且實(shí)用性較好,具有廣闊的運(yùn)用前景。
參考文獻(xiàn)
[1]? ?LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]// Computer Vision and Pattern Recognition,IEEE,2015:3431—3440.
[2]? ?CHEN L C,PAPANDREOU G,KOKKINOS I,et al. DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,PP(99):1—1.
[3]? ?BADRINARAYANAN V,HANDA A,CIPOLLA R. SegNet:a deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J]. Computer Science,2015.
[4]? ?HE K,GKIOXARI G,DOLLAR P,et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017:2961—2969.
[5]? ?REN S,HE K,GIRSHICK R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems,MIT Press,2015:91—99.
[6]? ? ZENG L,XU X,CAI B,et al. Multi-scale convolutional neural networks for crowdcounting[J]. 2017.
[7]? ? ZHANG Y,ZHOU D,CHEN S,et al. Single-image crowd counting via multi-column convolutional neural network[C]// IEEE Conference on Computer Vision and Pattern Recognition,IEEE Computer Society,2016:589—597.
[8]? ? ZHANG C,LI H,WANG X,et al. Cross-scene crowd counting via deep convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,IEEE Computer Society,2015:833—841.
[9]? ? 陳登武. 基于視頻圖像的行人統(tǒng)計(jì)技術(shù)研究[D]. 南京:東南大學(xué),2009.
[10]? 趙文影. 通道場(chǎng)景下人群計(jì)數(shù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué),2014.
[11]? 柴進(jìn). 視頻監(jiān)控中的人數(shù)統(tǒng)計(jì)和人群密度分析[D]. 西安:西安電子科技大學(xué),2011.
[12]? 高從文. 基于光流方法的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)[D]. 北京:中國(guó)科學(xué)院研究生院,2011.
[13]? 李虎,張二虎,段敬紅. 基于PCA和多元統(tǒng)計(jì)回歸的人群人數(shù)統(tǒng)計(jì)方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(11):206—209.
[14]? 徐麥平,張二虎,陳亞軍. 融合像素與紋理特征的人群人數(shù)統(tǒng)計(jì)方法研究[J]. 西安理工大學(xué)學(xué)報(bào),2015(3):340—346.
[15]? 衣淑鳳. 基于小波變換和神經(jīng)網(wǎng)絡(luò)的人數(shù)統(tǒng)計(jì)方法研究[D].北京:北京工業(yè)大學(xué),2004.
[16]? 李志英. 基于人工神經(jīng)網(wǎng)絡(luò)的人群流量統(tǒng)計(jì)系統(tǒng)[D].廣州:中山大學(xué),2003.
[17]? 韓亞偉. 動(dòng)態(tài)場(chǎng)景監(jiān)控系統(tǒng)中人數(shù)統(tǒng)計(jì)算法的研究[D].濟(jì)南:山東大學(xué),2010.
[18]? 王海強(qiáng). 視頻監(jiān)控中人群人數(shù)統(tǒng)計(jì)方法研究[D].西安:西安理工大學(xué),2016.
[19]? 黃秋嬌. 基于視頻識(shí)別技術(shù)的人群流量統(tǒng)計(jì)、特定人檢測(cè)[J]. 科技與生活,2011(14):169—172.
[20]? 孫著研. 基于像素統(tǒng)計(jì)的人群數(shù)量檢測(cè)方法研究[J]. 數(shù)字技術(shù)與應(yīng)用,2016(10):129—130.
[21]? 陳禹. 基于視頻的人群數(shù)量統(tǒng)計(jì)及異常檢測(cè)方法研究[D]. 沈陽(yáng)工業(yè)大學(xué),2015.
[22]? 徐麥平. 安防監(jiān)控中人群人數(shù)統(tǒng)計(jì)方法的研究[D].西安:西安理工大學(xué),2015.
[23]? 黃敬埕. 視頻監(jiān)控中的人群密度估計(jì)和人數(shù)統(tǒng)計(jì)技術(shù)研究[D]. 杭州:杭州電子科技大學(xué),2014.
[24]? 譚智勇,黃先開(kāi),袁家政,等. 人群密度估計(jì)和人數(shù)統(tǒng)計(jì)的研究進(jìn)展[C]// 網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì). 2015.
[25]? 張燏. 人群密度自動(dòng)統(tǒng)計(jì)系統(tǒng)的研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2012.
[26]? 曾昭賢. 基于特征點(diǎn)的視頻高密度人群人數(shù)統(tǒng)計(jì)[D]. 長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.