郭淑濤, 韓 琳
(公安部第一研究所, 北京 100044)
不同場(chǎng)合、不同人流密度、不同人體姿態(tài)都增加了密集場(chǎng)景下的人流密度統(tǒng)計(jì)方法的研究難度。在火車(chē)站、地鐵站、大型商場(chǎng)等人群密集的地方,人群的頻繁流動(dòng)容易引發(fā)交通擁堵、人員踩踏等事故。通過(guò)對(duì)密集場(chǎng)景下的人流密度統(tǒng)計(jì)方法的研究, 實(shí)時(shí)監(jiān)控統(tǒng)計(jì)公共區(qū)域的人流密度,相關(guān)部門(mén)及時(shí)安排安防人員疏散人群,引導(dǎo)人群流動(dòng),有利于提前預(yù)防和有效減少突發(fā)性事故。在新冠疫情防控背景下,結(jié)合智能機(jī)器人、邊緣智能盒子的密集場(chǎng)景下人流密度統(tǒng)計(jì)算法,可有效檢測(cè)人流、防止人員聚集。在建設(shè)智慧城市方面,該研究領(lǐng)域市場(chǎng)前景廣闊,其作用也必將日益凸顯。 實(shí)現(xiàn)密集人群的人數(shù)統(tǒng)計(jì)通常有兩類(lèi)方法:一類(lèi)是基于回歸的人數(shù)統(tǒng)計(jì),另一類(lèi)是基于檢測(cè)的人數(shù)統(tǒng)計(jì)。
基于輸入圖像的預(yù)測(cè)密度圖訓(xùn)練回歸模型即把圖像像素當(dāng)作計(jì)量單位,用整個(gè)密度圖的像素總和來(lái)預(yù)測(cè)最終人數(shù)。Zhang 等[1]搜集并標(biāo)注了相關(guān)的圖片數(shù)據(jù)集,并提出了簡(jiǎn)單高性能的多維卷積神經(jīng)網(wǎng)絡(luò)MCNN, 從單幅圖片中的任意密度和視角就能正確估計(jì)圖像中人群的數(shù)量;Li等[2]提出了更高維的神經(jīng)網(wǎng)絡(luò)模型CSRNet,其前端采用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)用來(lái)提取圖片的2D 特征,后端則采用了膨脹卷積神經(jīng)網(wǎng)絡(luò)用來(lái)傳送輸入圖像中更大的感受野,替換了池化操經(jīng)網(wǎng)絡(luò)TEDNet,能將不同編碼階段的分等級(jí)圖像特征合并到多條的解碼路徑;Idrees 等[4]發(fā)現(xiàn)密集人群的圖像中計(jì)數(shù)、 密度圖估計(jì)和人員定位三者之間存在內(nèi)在聯(lián)系, 并以此使損失函數(shù)優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò);Cao 等[5]提出了一種編解碼結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)SANet,編碼器端提取多尺度圖像特征, 解碼器端采用一系列反卷積層生成高分辨率人群密度圖,還改進(jìn)了損失函數(shù),將歐幾里得損失函數(shù)和局部模式的一致性損失函數(shù)結(jié)合起來(lái)。Victor 等[6]提出了一種監(jiān)督學(xué)習(xí)的框架,并改進(jìn)了損失函數(shù)。 見(jiàn)圖1,第一張是測(cè)試圖片,第二張是真實(shí)標(biāo)簽的熱力圖,第三張是模型估計(jì)的熱力圖,圖1 演示了該方法過(guò)程和效果[25-27]。
圖1 基于回歸的人數(shù)統(tǒng)計(jì)方法演示Fig.1 Demonstration of the regression-based numerical statistics methods
基于檢測(cè)的人數(shù)統(tǒng)計(jì)方法即在經(jīng)過(guò)預(yù)先訓(xùn)練的目標(biāo)檢測(cè)模型中輸入圖像,模型經(jīng)過(guò)圖像分類(lèi),計(jì)算出類(lèi)別為人的邊界框數(shù)量,獲得最終的人數(shù)。 其流程見(jiàn)圖2。
圖2 基于檢測(cè)的人數(shù)統(tǒng)計(jì)流程圖Fig.2 Flow chart of population statistics based on detection
基于檢測(cè)的人數(shù)統(tǒng)計(jì)模型在簡(jiǎn)單的一階段目標(biāo)檢測(cè)模型和兩階段目標(biāo)檢測(cè)模型的基礎(chǔ)上進(jìn)一步改變和發(fā)展,并形成該領(lǐng)域獨(dú)特的方法。 Gao 等[12]提出了一種獲取流動(dòng)人員的活動(dòng)區(qū)域, 再用注水算法檢測(cè)和篩選活動(dòng)區(qū)域的方法, 通過(guò)追蹤檢測(cè)活動(dòng)區(qū)域的人頭數(shù)統(tǒng)計(jì)人員總數(shù);Luo 等[13]提出了一個(gè)多視角頭肩模型檢測(cè)室內(nèi)人員的局部位置, 并改進(jìn)了K 均值聚類(lèi)算法確定人數(shù);Chi 等[14]利用人頭檢測(cè)任務(wù)和人體檢測(cè)任務(wù)有內(nèi)在聯(lián)系, 提出了一種同時(shí)檢測(cè)人頭和人體的模型JointDet;Peng 等[15]提出一種檢測(cè)室內(nèi)中較小人頭的級(jí)聯(lián)多尺度網(wǎng)絡(luò)模型FRN,F(xiàn)RN 有兩個(gè)檢測(cè)器提取圖像特征,一個(gè)提取較大物體和全局圖像特征,一個(gè)提取較小圖像特征;Vu 等[16]提出了子模型Global CNN 和Pairwise CNN,兩種子模型混合形成一種人頭檢測(cè)模型;Vora 等[17]提出了一種快速人頭檢測(cè)的模型FCHD,適用于嵌入式設(shè)備開(kāi)發(fā)。
下文介紹兩類(lèi)簡(jiǎn)單的目標(biāo)檢測(cè)模型: 一類(lèi)是一階段的檢測(cè)算法,另一類(lèi)是兩階段的檢測(cè)算法。一階段的檢測(cè)算法即物體檢測(cè)過(guò)程中檢測(cè)算法一步完成——物體檢測(cè)采用一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò), 該神經(jīng)網(wǎng)絡(luò)的輸入為原始圖像,輸出為Bounding box(邊界框)和box(框)中物體類(lèi)別[22-24],常見(jiàn)的模型有yolo[7],ssd[8];兩階段的檢測(cè)算法即物體檢測(cè)過(guò)程中檢測(cè)算法分兩步完成——首先獲取檢測(cè)物體的候選區(qū)域,然后進(jìn)行分類(lèi)[17-21],常見(jiàn)模型有RCNN[9],F(xiàn)ast R-CNN[10]和Faster R-CNN[11]。一階段檢測(cè)比兩階段檢測(cè)實(shí)時(shí)檢測(cè)性能好,但是準(zhǔn)確率較差。
以yolo 為例介紹一階段檢測(cè)模型,yolo 模型采用一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò),直接輸入為一整張圖像,直接輸出為預(yù)測(cè)出的邊界框的坐標(biāo)、 框中物體所屬類(lèi)別的概率和置信度;圖3 是其檢測(cè)物體流程:
圖3 一階段檢測(cè)物體流程Fig.3 One stage object detection process
(1)將圖像統(tǒng)一裁剪大小,作為神經(jīng)網(wǎng)絡(luò)的輸入(yolo模型將圖像大小裁剪到448×448)。
(2)通過(guò)一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò),得到一些邊界框的坐標(biāo)、框中物體所屬類(lèi)別的概率和置信度;
(3)進(jìn)行非極大值抑制(NMS),篩選框(Boxes)。
以R-CNN 為例介紹兩階段檢測(cè)模型,R-CNN 模型采用選擇性搜索策略作為候選區(qū)域方法來(lái)獲取待檢測(cè)目標(biāo)的感興趣區(qū)域,并利用候選區(qū)域法創(chuàng)建了約2000 個(gè)感興趣區(qū)域,這些區(qū)域被轉(zhuǎn)換為固定大小的圖像,將圖像輸入到卷積神經(jīng)網(wǎng)絡(luò),待訓(xùn)練完成后,采用SVM 對(duì)感興趣區(qū)域進(jìn)行分類(lèi),采用線性回歸損失來(lái)校正邊界框,以實(shí)現(xiàn)目標(biāo)分類(lèi)并得到邊界框。 其流程圖見(jiàn)圖4。
圖4 R-CNN 兩階段檢測(cè)模型流程圖Fig.4 Flow chart of R_CNN two-stage detection model
兩階段目標(biāo)檢測(cè)模型的設(shè)計(jì)思路是模擬一個(gè)人的見(jiàn)到新物品的思考過(guò)程,當(dāng)人見(jiàn)到一個(gè)陌生物品時(shí),首先確定物品的具體位置,其次觀察物品形狀、顏色等特征,最后對(duì)物品分類(lèi)。二階段目標(biāo)檢測(cè)模型與上述流程類(lèi)似,首先是得到檢測(cè)對(duì)象的候選框,其次是提取檢測(cè)對(duì)象特征,最后再對(duì)檢測(cè)對(duì)象分類(lèi)。
系統(tǒng)總結(jié)當(dāng)前兩種基于回歸的人數(shù)統(tǒng)計(jì)和基于檢測(cè)的人數(shù)統(tǒng)計(jì)的研究方法中常用數(shù)據(jù)集、 各個(gè)數(shù)據(jù)集的介紹、以及對(duì)應(yīng)的評(píng)價(jià)指標(biāo)。
SmartCity 數(shù)據(jù)集是騰訊優(yōu)圖實(shí)驗(yàn)室采集整理而成的數(shù)據(jù)集,涵蓋了十類(lèi)場(chǎng)景,每類(lèi)場(chǎng)景包含了50 張高視角監(jiān)控?cái)z像頭拍攝的圖片, 用于研究室內(nèi)場(chǎng)景和室外場(chǎng)景下行人數(shù)量變化帶來(lái)的影響。
Shanghaitech 數(shù)據(jù)集約有1200 張圖片, 分為part_A和part_B 兩部分?jǐn)?shù)據(jù)集。
WorldExpo's 數(shù)據(jù)集約有4000 張圖片, 測(cè)試數(shù)據(jù)涵蓋了五類(lèi)場(chǎng)景, 每類(lèi)場(chǎng)景包含了120 張圖片和感興趣區(qū)域(region of interest),并在感興趣區(qū)域標(biāo)記了人群計(jì)數(shù)。
The UCF_CC_50 數(shù)據(jù)集有50 張圖片,具有圖片數(shù)量較少,不同圖片中人數(shù)變化較大的特點(diǎn)。
UCF-QNRF 數(shù)據(jù)集是佛羅里達(dá)大學(xué)采集整理得到的數(shù)據(jù)集,該數(shù)據(jù)集約有1500 張圖片,該數(shù)據(jù)集是目前注釋數(shù)量最多的數(shù)據(jù)集,具有多場(chǎng)景、多視角、多光線、多人群密度變化的特點(diǎn),其多場(chǎng)景囊括了建筑物、植物、道路等世界各地的室外場(chǎng)景, 極大推動(dòng)了不同地區(qū)人群密度統(tǒng)計(jì)任務(wù)的研究。 其常用數(shù)據(jù)集見(jiàn)表1。
表1 基于回歸的人流密度統(tǒng)計(jì)數(shù)據(jù)集Tab.1 Data sets of pedestrian density statistics based on regression
式中:N—測(cè)試圖片的數(shù)量; C^i—在第ith張密集人群圖片中人數(shù)量的估計(jì)值;Ci—在第ith張密集人群圖片中人數(shù)量的真實(shí)值;MAE—預(yù)測(cè)結(jié)果的準(zhǔn)確度;MSE—預(yù)測(cè)結(jié)果的魯棒性,對(duì)預(yù)測(cè)的異常點(diǎn)敏感,當(dāng)模型表現(xiàn)越差,預(yù)測(cè)結(jié)果和真實(shí)結(jié)果之間的誤差越大,該值越大。 在不同數(shù)據(jù)集上,各種研究方法的評(píng)價(jià)指標(biāo)數(shù)值不同, 當(dāng)前UCF_CC_50 數(shù)據(jù)集上評(píng)價(jià)指標(biāo)數(shù)值見(jiàn)表2。
表2 UCF_CC_50 數(shù)據(jù)集的評(píng)價(jià)指標(biāo)Tab.2 Evaluation index of UCF_CC_50 dataset
當(dāng)前基于檢測(cè)的人數(shù)統(tǒng)計(jì)的常用數(shù)據(jù)集可以分為三類(lèi):基于人頭檢測(cè)的數(shù)據(jù)集、基于人體檢測(cè)的數(shù)據(jù)集、可基于人頭和人體檢測(cè)的數(shù)據(jù)集。 所用數(shù)據(jù)集見(jiàn)表3。
表3 基于檢測(cè)的人流密度統(tǒng)計(jì)常用數(shù)據(jù)集Tab.3 Common data sets of pedestrian density statistics based on detection
3.3.1 基于人頭檢測(cè)的數(shù)據(jù)集
Brainwash 數(shù)據(jù)集采集于一家咖啡館, 詳實(shí)標(biāo)注了館內(nèi)的密集人群人頭信息。 其中, 訓(xùn)練集約有10800 張圖片,驗(yàn)證集有500 張圖片,測(cè)試集則有500 張圖片。
3.3.2 基于人體檢測(cè)的數(shù)據(jù)集
Crowd Image 數(shù)據(jù)集是阿里云提供在天池平臺(tái)上的人體檢測(cè)數(shù)據(jù)集,含7345 張多人圖片,當(dāng)畫(huà)面中行人數(shù)量大于100 時(shí),均按100 計(jì)算。
3.3.3 可基于人頭和人體檢測(cè)的數(shù)據(jù)集
CrowdHuman 數(shù)據(jù)集有規(guī)模較大、取材跨度大、標(biāo)記詳實(shí)的特點(diǎn)。 訓(xùn)練集和驗(yàn)證集一共有470000 個(gè)人類(lèi)實(shí)例,每個(gè)人類(lèi)實(shí)例中標(biāo)注了人體頭部框、肉眼可見(jiàn)的區(qū)域框和人體全身框。
人頭檢測(cè)任務(wù)和人體檢測(cè)任務(wù)上的性能評(píng)價(jià)指標(biāo)有平均準(zhǔn)確率mAP (mean Average Precision), 檢測(cè)時(shí)間(ms)、漏檢個(gè)數(shù)三項(xiàng)。 人頭檢測(cè)精度用平均準(zhǔn)確率表示,人頭檢測(cè)速度用檢測(cè)時(shí)間表示; 沒(méi)有被正確檢測(cè)的人頭個(gè)數(shù)用漏檢個(gè)數(shù)表示[31]。precision(精確率)和recall(召回率)的公式化定義分別為:
密集場(chǎng)景下人流密度統(tǒng)計(jì)的相關(guān)研究主要面臨如下兩個(gè)難點(diǎn):一是場(chǎng)景中高度重疊的人員信息特征相似,容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)表征錯(cuò)誤;二是場(chǎng)景中個(gè)體高度重疊,容易導(dǎo)致NMS 過(guò)度抑制。解決兩個(gè)難點(diǎn)是此領(lǐng)域之關(guān)鍵。密集場(chǎng)景下,識(shí)別人員的身體特征,清晰表達(dá)人員特征信息并進(jìn)行特征信息分類(lèi),是該領(lǐng)域研究的熱點(diǎn)和下一步方向。
本文介紹了密集場(chǎng)景下的人流密度統(tǒng)計(jì)方法的背景、應(yīng)用場(chǎng)景、技術(shù)路線、研究方法,總結(jié)整理了基于回歸和基于檢測(cè)的兩種人數(shù)統(tǒng)計(jì)方法常用數(shù)據(jù)集和評(píng)測(cè)兩種方法模型性能的評(píng)價(jià)指標(biāo), 總結(jié)了密集場(chǎng)景下的人流密度統(tǒng)計(jì)方法的研究課題當(dāng)前存在的關(guān)鍵問(wèn)題和研究難點(diǎn),展望了未來(lái)的發(fā)展趨勢(shì)。