周成博,陶青川(四川大學(xué)電子信息學(xué)院,成都 610064)
基于景區(qū)場景下的人群計(jì)數(shù)
周成博,陶青川
(四川大學(xué)電子信息學(xué)院,成都610064)
人群計(jì)數(shù)在景區(qū)等公共場景下具有廣泛的現(xiàn)實(shí)意義和發(fā)展空間。通過對目標(biāo)區(qū)域的人群統(tǒng)計(jì)信息進(jìn)行分析,可以對很多社會安全問題起到一定的預(yù)警作用,從而實(shí)現(xiàn)物力和人力以及社會資源的分配和調(diào)度。因此,人群計(jì)數(shù)問題已經(jīng)成為了人工智能和機(jī)器視覺的研究焦點(diǎn)之一。
目前,有2類方法在人群計(jì)數(shù)中廣泛使用:①直接法[1-3]:在人群密度很低的場景中,通過逐個分析視頻中的個體,從而得到人群的結(jié)果。②間接法[4-12]:利用圖像特征得出人群人數(shù),即有圖像特征和圖像人數(shù)建立回歸關(guān)系。后者將圖像中的人群看做一個整體研究對象,而前者是通過檢測分析個體特征,并考慮到景區(qū)等大場景下人群密度變化較大以及擁擠時人體間相互遮擋,所以本文選用間接法。
影響間接法的一個主要因素是圖像特征。間接法常用的特征有:紋理特征[4](GLCM)、梯度統(tǒng)計(jì)特征[5-7](HOG)、像素統(tǒng)計(jì)特征(運(yùn)動塊的大小[8-10]、特征點(diǎn)個數(shù)[11-12])等。由于采用間接法,建立圖像特征和人群人數(shù)的回歸模型,本文提出一種融合像素與紋理特征相結(jié)合的人群計(jì)數(shù)方法。首先,通過標(biāo)定圖像中的目標(biāo)區(qū)域(圖像子塊),則圖像中的總?cè)藬?shù)即為各個圖像子塊人數(shù)之和。然后,提取圖像子塊的特征:一是像素點(diǎn)比例特征,包括前景像素點(diǎn)和邊緣像素點(diǎn)比例;二是圖像紋理特征:彩色圖像的灰度共生矩陣。最后,采用基于像素和紋理特征的支持向量回歸方法來得到人群人數(shù)。實(shí)驗(yàn)表明,與傳統(tǒng)方法相比,本文方法具有較高的人群計(jì)數(shù)準(zhǔn)確率。圖1是本文方法的流程圖。
圖1 本文算法流程圖
1.1運(yùn)動目標(biāo)提取
提取運(yùn)動前景目標(biāo)在本文中采用基于混合高斯模型的方法。K個高斯分布構(gòu)成了背景圖像的一個像素點(diǎn),即:
式中:xt是t時刻的RGB值,ωi,t為t時刻第i個高斯分布的權(quán)系數(shù),τi,t表示t時刻第i個高斯分布的方差矩陣,μi,t為t時刻第i個高斯分布的均值向量(假設(shè)R,G,B兩兩獨(dú)立),k取值為3-5,表示分布模式數(shù);I為三維單位矩陣。
初始化時,高斯分布的均值向量和權(quán)重都為0,方差取一個較大的值(V0)。時刻t,將一幀圖像的每個像素點(diǎn)值xt和相應(yīng)的k個模型相比較,如果第i個高斯分布Gi均值和像素值xt兩者之間的距離在標(biāo)準(zhǔn)差的2.5倍范圍內(nèi),則判定該Gi與像素值xt匹配。如果所有的高斯分布中存在有與像素值xt相匹配的模型,則該模型的參數(shù)按照如下式子更新:
(1)如果模式不匹配,它們的標(biāo)準(zhǔn)差σ和均值μ維持原值。
(2)如果模式匹配,Gi的標(biāo)準(zhǔn)差σ和均值μ更新如下:如果該像素的所有Gi和像素值xt兩者之間完全不匹配,那么模式Gi中最小權(quán)重者重新賦值,即:其中:W0為預(yù)設(shè)的一個較小值且大于0;
如果t時刻像素值xt和模式Gi之間相匹配,令Mk,t= 1,否則Mk,t=0,然后權(quán)重ωk,t以下式更新。
接下來確定由背景過程產(chǎn)生的哪些高斯分布,即背景過程的最佳描述。首先根據(jù)ωk,t/σk,t。
按降序排列K個高斯分布,標(biāo)準(zhǔn)差小、權(quán)重大的模式排列靠前,標(biāo)準(zhǔn)差大、權(quán)重小的模式靠后,如此最前列最能夠描述穩(wěn)定背景過程,而相反最后列最能夠描述背景暫態(tài)擾動產(chǎn)生的分布,它將被取代。最后,背景像素模型產(chǎn)生于前B個:
式中:閾值T取值為0.5≤T≤1;B為前B個最佳描述背景像素的高斯分布。
重新分析前B個高斯分布和t時刻的各個像素點(diǎn)xt的匹配關(guān)系,如果為背景點(diǎn),那么必有像素值xt和前B個高斯分布之一匹配,反之,不匹配,該像素為前景運(yùn)動目標(biāo)。如此,便可提取出運(yùn)動目標(biāo)。
1.2融合像素點(diǎn)河改進(jìn)的GLCM人群統(tǒng)計(jì)回歸方法
像素點(diǎn)比例能夠反映圖像中人群密集的程度,高密度人群圖像表現(xiàn)為細(xì)膩的紋理。因此可以同時提取圖像的紋理特征和像素特征,建立起圖像特征向量和人群人數(shù)的回歸模型,并用此模型來估計(jì)人群人數(shù)。本文采用像素(前景像素和邊緣像素)特征與改進(jìn)的灰度共生矩陣CGLCM的方法來提取高密度人群的特征,并用支持向量回歸機(jī)建立圖像紋理特征和人數(shù)的回歸模型。
(1)改進(jìn)的紋理特征提取方法CGLCM
由于傳統(tǒng)的GLCM方法進(jìn)行紋理特征提取只適用于單通道的灰度圖像,不能適用于多通道彩色圖像[13],因此BENCO等[14]改進(jìn)了GLCM方法,提出了以彩色圖像為基礎(chǔ)的紋理特征提取方法(color GLCM,CGLCM))。首先將RGB圖像分離成R,G,B三個分量,并任意計(jì)算兩個單通道分量的GLCM,如此便得到9 個GLCM 矩陣:CGLCM(Grr,Grg,Grb,Ggr,Ggg,Ggb,Gbr,Gbg,Gbb);然后分別計(jì)算9個矩陣的特征向量:
FV=[FE(Grr),F(xiàn)E(Grg),F(xiàn)E(Grb),F(xiàn)E(Ggr),F(xiàn)E(Ggg),F(xiàn)E(Ggb),F(xiàn)E(Gbr),F(xiàn)E(Gbg),F(xiàn)E(Gbb)](10)
式中FE(k)表示矩陣k的紋理特征值,最后求得9個分量FE(k)的特征值的均值作為CGLCM方法的特征提取結(jié)果,完成彩色圖像紋理特征的計(jì)算。
(2)像素特征與改進(jìn)灰度共生矩陣CGLCM的人群紋理特征提取
經(jīng)過預(yù)處理后圖像,然后分別計(jì)算當(dāng)前幀的前景、邊緣像素與當(dāng)前幀ROI圖像總像素的比值,將這兩個比例因子作為特征的兩個維度。此外,熵、對比度、逆差矩、能量這四種特征彼此獨(dú)立不相關(guān),成為了分析共生矩陣的常用方式。在本文中,通過分析特征的數(shù)據(jù),發(fā)現(xiàn)能量,逆差矩對人群密度變化時影響不大,所以只選取熵、對比度兩種特征作為特征維度。首先對人群ROI圖像進(jìn)行像素統(tǒng)計(jì)計(jì)算得到兩個比例因子,作為圖像像素特征。然后得到ROI圖像的CGLCM,計(jì)算CGLCM的對比度、熵。將兩種特征的結(jié)果作為最終的特征向量。其具體計(jì)算步驟如下:
(1)計(jì)算當(dāng)前幀的前景圖像像素和邊緣圖像像素與當(dāng)前幀ROI圖像總像素比值:
其中:pf為當(dāng)前幀的前景圖像像素,pe為邊緣圖像像素;pr為ROI圖像總像素。
(2)計(jì)算圖像的彩色灰度共生矩陣p(i,j,d,θ),選取θ=0°、90°、45°、135°四個方向,d=1,得到每個方向上的9個矩陣FV。
(3)分別計(jì)算9個灰度共生矩陣4個方向上的熵、對比度,具體如下:
熵:(4)計(jì)算各個方向上2個特征值的均值,得到CGLCM的一個8維的特征向量。
(5)將(1)和(4)求得的一個10維特征向量作為圖像的最終特征。
1.3SVR回歸模型的建立
支持向量回歸機(jī)(Support Vector Regression,SVR)是一種被廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法,它通過建立線性和非線性回歸模型,克服了神經(jīng)網(wǎng)絡(luò)的局限性的缺點(diǎn),具有泛化能力強(qiáng)、全局最優(yōu)解等特點(diǎn),因此本文用它來建立回歸模型。
設(shè)訓(xùn)練集樣本為:
T={(xi,yi),xi∈Rm,yi∈R,i=1,2,…,n}(14)
將輸入向量投影到高維空間,建立下式的最優(yōu)決策函數(shù):
通過SVR建立由輸入向量到高維特征空間的映射:
式中,?(x)非線性映射函數(shù),ω,b分別為權(quán)重向量、閾值。SVR回歸分析建立為如下約束優(yōu)化問題,ε為不敏感損失函數(shù):
這是一個凸二次優(yōu)化問題,懲罰系數(shù)常量C>0,ξi、ξi*為松弛因子,表示考慮到擬合誤差的存在,樣本偏離ε的程度。
對于式(16)和(17),為了獲得問題的最優(yōu)解,引入拉格朗日(Lagrange)函數(shù)進(jìn)行優(yōu)化:
式中K(xi,x)稱為核函數(shù),高斯徑向基核函數(shù)選取如下:
本文使用OpenCV[15]提供的可供C++調(diào)用的動態(tài)庫,它可以解決回歸、分類及分布估計(jì)等問題。
根據(jù)本文提到的人群計(jì)數(shù)方法,設(shè)計(jì)了基于C++語言的人群計(jì)數(shù)系統(tǒng)。該系統(tǒng)采用了Microsoft Visual Studio 2010作為系統(tǒng)開發(fā)工具、OpenCV[15]開源庫作為圖像工具、MFC作為圖形用戶界面開發(fā)工具,在Intel Celeron CPU G1610@2.60GHz 2.60GHz、4.00GB RAM 32bit的PC上完成視頻人數(shù)統(tǒng)計(jì)。實(shí)驗(yàn)所用的人群數(shù)據(jù)集來自國家5A級景區(qū)九寨溝,并選取了兩個景點(diǎn):珍珠灘棧道2和樹正上車,視頻獲得來源于九寨溝景區(qū)數(shù)字圖像處理大樓服務(wù)器。
圖2給出了兩個景點(diǎn)的各二幅圖像:(a)圖表示相應(yīng)景點(diǎn)的原圖,(b)圖反映了對應(yīng)的人群計(jì)數(shù)感興趣區(qū)域圖像,圖中綠色閉合區(qū)域代表要預(yù)測的圖像子塊,并在右上角給出了對應(yīng)該幀的估計(jì)人數(shù)(N代表總?cè)藬?shù),o,t分別代表兩個圖像子塊的人數(shù))??梢钥闯觯瑯湔宪嚲包c(diǎn)人群密度高于珍珠灘棧道2。
圖2 視頻圖像樣本
為了評估算法的性能,用平均絕對誤差(Mean Absolute Error)和平均相對誤差(Mean Relative Error)兩個指標(biāo)來度量實(shí)驗(yàn)結(jié)果,即:
式中,N是測試圖像幀的總數(shù);P(i)是算法估計(jì)幀i各子塊人數(shù)之和;R(i)是幀i的真實(shí)人數(shù),作為標(biāo)準(zhǔn)參考值。通過和傳統(tǒng)的GLCM相比較,得到的實(shí)驗(yàn)結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果比較
在表1的實(shí)驗(yàn)結(jié)果中,從景區(qū)兩個監(jiān)控點(diǎn)的視頻中各選取1000幅左右圖像作為訓(xùn)練樣本,約400幅圖像(無任何訓(xùn)練樣本)作為測試樣本。可以看出,與傳統(tǒng)的GLCM相比,本文算法在兩個監(jiān)控點(diǎn)均取得了較好的結(jié)果,能夠滿足實(shí)時監(jiān)控的需求。通過對比以上兩個景點(diǎn),發(fā)現(xiàn)在人群密度非常高時,兩種方法的準(zhǔn)確率均較高。這表明,在本文方法中,紋理特征占有最主要的作用,更適用于大場景高密度人群計(jì)數(shù)。
圖2、圖3給出了珍珠灘棧道2和樹正上車兩個景點(diǎn)的約400幅圖像中預(yù)測人數(shù)與實(shí)際人數(shù)的曲線圖,其中綠線為預(yù)測人數(shù),紅線為實(shí)際人數(shù)。
從圖3、4看出,本文預(yù)測結(jié)果和實(shí)際人數(shù)有輕微的誤差,但不影響實(shí)際應(yīng)用中結(jié)果的判斷,再次論證本文算法的可行性。
本文提出了一種兩種特征(像素特征與紋理特征)相結(jié)合的人群人數(shù)統(tǒng)計(jì)方法。以景區(qū)人群作為研究對象,通過提取前景人群目標(biāo)的像素比例特征和彩色圖像紋理特征構(gòu)建人群特征向量維度,進(jìn)而建立特征向量和人群人數(shù)之間的回歸模型,最后根據(jù)該模型實(shí)現(xiàn)人群計(jì)數(shù)。通過分析同一視頻的測試實(shí)驗(yàn)結(jié)果,在有關(guān)人群計(jì)數(shù)準(zhǔn)確率的2項(xiàng)指標(biāo)上,本文方法均優(yōu)于傳統(tǒng)方法。
圖3 估計(jì)人數(shù)與實(shí)際人數(shù)的對比圖
圖4 估計(jì)人數(shù)與實(shí)際人數(shù)的對比圖
[1]Li M,Zhang Z X,Huang K Q.Estimating the Number of People in Crowded Scenes by MID Based Foreground Segmentation and Head-Shoulder Detection[C].Proceedings of the 19th International Conference on Pattern Recognition.Flofida,USA:IEEE,2008:1-4.
[2]于海濱,劉敬彪,劉濟(jì)林.用于行人頭部特征提取的目標(biāo)區(qū)域匹配方法[J].中國圖象圖形學(xué)報,2009,14(3):482-488.
[3]Zhao T,Nevalia R,wu B.Segmentation and Tracking of Multiple Humans in Crowded Environments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(7):1198-1211.
[4]郭森,嚴(yán)和平,柳偉.基于灰度共生矩陣的密集人群人數(shù)估計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(28):169-171.
[5]Chan A B,Liang Z S,Vasconcelos N.Privacy Preserving Crowd Monitoring Counting People without People Models or Tracking[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Flofida,USA:IEEE,2008:1-7.
[6]Chan A B,Vasconcelos N.Counting People with Low-Level Features and Bayesian Regression[J].IEEE Transactions on Image Processing,2012,21(4):21-60-2177.
[7]張路,陳淑榮.基于ROI區(qū)域強(qiáng)分辨力HOG特征的視頻行人檢測[J].微型機(jī)與應(yīng)用,2013,32(7):46-48.
[8]Hou Y L,Pang G K.People Counting and Human Detection in a Challenging Situation[J].IEEE Transactions on Systems Man and Cybernetics,2011,41(1):24-33.
[9]李寅,王貴錦,林行剛.結(jié)合局部和全局特征的人群密度估計(jì)算法[J].清華大學(xué)學(xué)報:自然科學(xué)版,2013,53(4):542-545.
[10]鄭翔翔,張怡.基于頭部檢測和跟蹤的人數(shù)統(tǒng)計(jì)方法.計(jì)算機(jī)應(yīng)用與軟件,2011,28(2):44-46.
[11]Conte D,F(xiàn)oggia P,Percannella G.A Method for Counting People in Crowded Scenes[C].Proceedings of the Seventh IEEE International !Conference on Advanced Video and Signal based Surveillance.Klagenfurt,Austria:IE-EE,2011:111-118.
[12]Conte D,F(xiàn)oggia P,Percannella G.Counting Moving People in Videos by Sali-ent Points Detection[C].Proceedings of the 20th International Conference on Pattern Recognition Istanbul,Turkey:IEEE,2010:1743-1746.
[13]Muniz R,Corrales J A.Novel Techniques for Color Texture Classification[C].Hamid R.IPCV06:Proceeding.USA:WORLDCOMP' 06Publication,2006:6114-6120.
[14]BENCO M,Hudec R.Novel Method for Color Textures Features Extraction Based on GLCM[J].Radio Engineering,2007,4(16):64-67.
[15]熊顯濤,杜寶江.機(jī)器視覺工具包OpenCV開發(fā)技術(shù)[J].計(jì)算機(jī)與網(wǎng)絡(luò),2005(1-0):184-185.
Video Surveillance;Counting People;Background Modeling;Texture Features;SVR Regression Model
Counting People Based on the Scenic Spot
ZHOU Cheng-bo,TAO Qing-chuan
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610064)
1007-1423(2016)05-0052-06
10.3969/j.issn.1007-1423.2016.05.012
周成博(1989-),男,河南商丘人,碩士研究生,研究方向?yàn)橛?jì)算機(jī)應(yīng)用與圖像識別
2015-12-29
2016-02-03
景區(qū)中采用攝像機(jī)實(shí)現(xiàn)自動人群計(jì)數(shù)在智能安防領(lǐng)域具有重要價值,但攝像機(jī)透視成像、背景復(fù)雜、行人相互遮擋等因素導(dǎo)致人群計(jì)數(shù)精度不高。提出一種像素特征和紋理特征相結(jié)合的人群計(jì)數(shù)方法,首先獲得像素點(diǎn)特征,然后對傳統(tǒng)的灰度共生矩陣進(jìn)行改進(jìn),最后用回歸模型估計(jì)人數(shù)。實(shí)踐表明,具有良好的實(shí)時性和較高的計(jì)數(shù)準(zhǔn)確率,能夠很好地滿足景區(qū)實(shí)時自動計(jì)數(shù)的需求。
視頻監(jiān)控;人群計(jì)數(shù);背景建模;紋理特征;SVR回歸模型
陶青川(1972-),男,四川南充人,碩士生導(dǎo)師,副教授,研究方向?yàn)槟J阶R別與智能系統(tǒng)、計(jì)算機(jī)應(yīng)用與圖像識別
The use of video surveillance for automatic people counting in scenic spots has an important value in the field of intelligent security. However,there are several factors such as camera perspective imaging,background clutter,and pedestrian occlusion,which lead to a low count accuracy.Proposes a method which combines pixel features with texture features,firstly it gets pixel features,then improves the traditional gray level co-occurrence matrix,finally uses the regression model to estimate the number of people.A large number of experimental results on several real video sequences demonstrate real-time effect and the high precision for various environments and meet the requirements of real-time monitoring of the scene spot.