高陳強(qiáng),余迪虎,李 強(qiáng),查 力
(重慶郵電大學(xué) 信號(hào)與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室 多媒體通信技術(shù)研究所,重慶 400065)
傳統(tǒng)的基于視頻圖像的人流量統(tǒng)計(jì)的一般過程是:首先采用合適的方法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),然后通過形態(tài)學(xué)處理、區(qū)域分析、運(yùn)動(dòng)跟蹤等過程統(tǒng)計(jì)出人流量。在這個(gè)過程中,最重要的步驟是前期的運(yùn)動(dòng)目標(biāo)檢測(cè),常見的方法有幀差法、背景建模法、光流法等[3-5]。幀差法簡(jiǎn)單、易于實(shí)現(xiàn),但容易形成“空洞”;背景建模法穩(wěn)健性較強(qiáng),但是當(dāng)場(chǎng)景中運(yùn)動(dòng)目標(biāo)占整個(gè)場(chǎng)景的比例較大且運(yùn)動(dòng)緩慢時(shí),建模效果較差;光流法計(jì)算量最大,很難滿足實(shí)時(shí)性要求。此外,把機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到人流量統(tǒng)計(jì)也得到了一些研究,如Boosting[6]、神經(jīng)網(wǎng)絡(luò)[7]方法。該方法的一般思路是:首先利用機(jī)器學(xué)習(xí)方法檢測(cè)出行人,進(jìn)而統(tǒng)計(jì)出人流量。為了達(dá)到較好的行人檢測(cè)效果,需要采集大量的訓(xùn)練樣本,同時(shí)往往要求圖像的成像質(zhì)量較好。該方法的難點(diǎn)之一是如何處理擁擠情況下的行人遮擋問題。
在實(shí)際應(yīng)用中(如建筑物樓梯間人流量統(tǒng)計(jì)等),往往會(huì)遇到許多復(fù)雜場(chǎng)景,如檢測(cè)場(chǎng)景較??;行人在場(chǎng)景中占較大比例;行人之間出現(xiàn)遮擋等情況;行人的運(yùn)動(dòng)會(huì)影響整個(gè)場(chǎng)景的光照變化等。因此,傳統(tǒng)的方法以及基于機(jī)器學(xué)習(xí)的方法都很難取得較好的效果。本文提出了一種基于特征匹配的人流量統(tǒng)計(jì)方法。其核心思想是對(duì)行人穿過檢測(cè)區(qū)域這一過程的視頻提取特征,即用一個(gè)特征向量來描述這段視頻。該方法分為兩個(gè)階段:第一階段是采集少量有代表性的樣本,每個(gè)樣本由特征向量和對(duì)應(yīng)的人數(shù)組成,并根據(jù)人數(shù)進(jìn)行分類;第二階段是人流量統(tǒng)計(jì)階段,提取行人穿過檢測(cè)區(qū)域這一過程的視頻的特征向量,然后把該特征向量與樣本庫的每類樣本進(jìn)行匹配,得到最佳的人數(shù)估計(jì),然后累加每個(gè)過程中最佳人數(shù)估計(jì),得到總?cè)藬?shù)。實(shí)驗(yàn)結(jié)果表明,該方法具有較好的統(tǒng)計(jì)效果。
把一段包含運(yùn)動(dòng)行人的視頻序列相鄰幀作差分,并將差分圖像二值化為只含0和1的二值圖像,則每幀二值化圖像中為“1”的像素點(diǎn)數(shù)與視頻幀數(shù)的對(duì)應(yīng)關(guān)系如圖1所示。其中,橫軸表示視頻幀數(shù),縱軸表示為“1”的像素點(diǎn)的個(gè)數(shù)。圖1中從第N1幀到第N2幀,即區(qū)間[N1,N2]為無運(yùn)動(dòng)目標(biāo)通過的視頻段;從第N2幀到第N3幀,即區(qū)間[N2,N3]為運(yùn)動(dòng)目標(biāo)進(jìn)入檢測(cè)區(qū)到離開的視頻段。在下文中,稱區(qū)間[N2,N3]這樣的視頻段為“運(yùn)動(dòng)視頻段”。從圖1中可以清晰地看到有3段運(yùn)動(dòng)視頻段,從而可以提取3個(gè)特征向量分別對(duì)應(yīng)這3個(gè)運(yùn)動(dòng)視頻段。
本文通過如下的方法從視頻序列中提取運(yùn)動(dòng)視頻段:首先判斷當(dāng)前幀對(duì)應(yīng)的差分圖像的二值化圖像中為“1”的像素點(diǎn)的個(gè)數(shù),像素點(diǎn)個(gè)數(shù)大于閾值Nth時(shí),認(rèn)為該幀圖像中有運(yùn)動(dòng)目標(biāo),反之則無運(yùn)動(dòng)目標(biāo);然后提取連續(xù)出現(xiàn)運(yùn)動(dòng)目標(biāo)的幀對(duì)應(yīng)的幀數(shù),得到這些連續(xù)幀對(duì)應(yīng)的區(qū)間[a,b],計(jì)算區(qū)間的長度length=b-a。對(duì)于運(yùn)動(dòng)目標(biāo)在場(chǎng)景中沒有停留的情況,運(yùn)動(dòng)視頻段對(duì)應(yīng)一個(gè)區(qū)間,對(duì)于運(yùn)動(dòng)目標(biāo)在場(chǎng)景中有停留,運(yùn)動(dòng)視頻段對(duì)應(yīng)連續(xù)幾個(gè)區(qū)間。最后設(shè)定閾值α和β(α<β):當(dāng)length>β時(shí),該區(qū)間對(duì)應(yīng)的視頻段為一段運(yùn)動(dòng)過程,提取該區(qū)間對(duì)應(yīng)的視頻段可以得到一個(gè)運(yùn)動(dòng)視頻段;當(dāng)α<length<β時(shí),連續(xù)的幾段區(qū)間對(duì)應(yīng)的視頻為一段運(yùn)動(dòng)視頻段,提取這幾段區(qū)間對(duì)應(yīng)的視頻可以得到一個(gè)運(yùn)動(dòng)視頻段;當(dāng)length<α?xí)r,可以理解為該段視頻中的“運(yùn)動(dòng)目標(biāo)”可能是噪聲等引起的,對(duì)應(yīng)的視頻段不是所需要的運(yùn)動(dòng)視頻段。通過上述步驟可以有效地從視頻中提取運(yùn)動(dòng)視頻段。下文中,樣本庫的建立以及人流量統(tǒng)計(jì)階段的運(yùn)動(dòng)視頻段的提取都是根據(jù)上述方法實(shí)現(xiàn)的。
特征向量的提取是本文的重點(diǎn)之一,不僅在第一階段的樣本庫的建立需要提取特征向量,而且在第二階段對(duì)人流量進(jìn)行統(tǒng)計(jì)、提取特征向量也是必須的。通過如下方法可以提取一個(gè)描述運(yùn)動(dòng)視頻段時(shí)域和空域信息的特征向量。特征向量提取包括圖像處理、特征圖像提取以及特征向量提取。
1)圖像處理
為了較方便地提取特征向量以及減少計(jì)算量,本文采用灰度圖像。若視頻為彩色,首先將每幀視頻圖像轉(zhuǎn)化成灰度圖像,然后提取特征圖像。反之,直接提取特征圖像。
國際上有關(guān)環(huán)境管理和綠色生產(chǎn)的標(biāo)準(zhǔn)有很多,企業(yè)可以通過ISO14000的標(biāo)準(zhǔn)認(rèn)證機(jī)制在內(nèi)部建立起低碳生產(chǎn)和綠色管理的新體系,將企業(yè)生產(chǎn)、產(chǎn)品設(shè)計(jì)、工藝技術(shù)控制、包裝運(yùn)輸、銷售服務(wù)等環(huán)節(jié)進(jìn)行系統(tǒng)調(diào)整和重新建設(shè),發(fā)揮出各方面、各部門在綠色生產(chǎn)和低碳發(fā)展上的優(yōu)勢(shì)和積極性,真正建立起企業(yè)生產(chǎn)、供應(yīng)、管理的綠色鏈條,在企業(yè)內(nèi)部將低碳經(jīng)濟(jì)轉(zhuǎn)化為可以執(zhí)行、操作和實(shí)施的操作和行為。
2)特征圖像提取
首先,提取第k-1幀和第k幀灰度圖像的差分圖像Dk,k∈(2,3,…)。并根據(jù)差分圖像提取行人區(qū)域,從而提取出視頻運(yùn)動(dòng)段的時(shí)域信息。然后,利用Sobel算子求出第k幀X方向的梯度圖像和Y方向的梯度圖像,提取視頻運(yùn)動(dòng)段的頻域信息,得到fxk(x,y)和 fyk(x,y),其中fxk(x,y)和fyk(x,y)分別為第k幀圖像X,Y方向的梯度圖像像素值。最后根據(jù)差分圖像、X方向、Y方向梯度圖像,通過公式(1),求出當(dāng)前幀的特征圖像fk(x,y)3)特征向量提取
在特征圖像提取階段,根據(jù)差分圖像可以得到行人在當(dāng)前幀中的大致區(qū)域,以及該幀對(duì)應(yīng)的特征圖像。特征圖像中存在大量的背景信息,而這些信息不是所需要的,甚至嚴(yán)重影響了有用的行人信息,使特征向量不能有效描述運(yùn)動(dòng)視頻段。為了提取更有效的行人信息,根據(jù)各個(gè)差分圖像行人區(qū)域,統(tǒng)計(jì)其對(duì)應(yīng)的特征圖像中該區(qū)域的特征直方圖向量Xk=(x1,x2,…,xn)T,以及該區(qū)域總像素點(diǎn)的個(gè)數(shù)sumk。其中n表示劃分特征值域bin的個(gè)數(shù)。然后,累加所有特征圖像的Xk以及sumk,得到運(yùn)動(dòng)視頻段總的直方圖向量Xsum和總像素點(diǎn)個(gè)數(shù)Sum,其中
然后歸一化Xsum,得到特征向量X∈Rn。其中
常用的分類判別都是基于歐式空間,由于歐式空間受到量綱的限制,影響了系統(tǒng)性能。馬氏距離考慮模式特征參數(shù)的大小以及特征間的相關(guān)性,克服了歐氏距離受量綱影響的缺點(diǎn)。在此基礎(chǔ)上本文提出了基于馬氏距離特征匹配的人流量統(tǒng)計(jì)算法。
馬氏距離[8-9]是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離。馬氏距離常用平方形式表示。設(shè)Z為測(cè)試向量,M為樣本集(X1,X2,…,XK)的均值向量,C為該樣本總體的協(xié)方差矩陣,則向量Z到這個(gè)樣本均值的馬氏距離定義為
其中,均值向量M及協(xié)方差矩陣C分別為
向量Z到均值向量為M的類的馬氏距離表示的是Z與該模式類的相似性的大小,馬氏距離越小,說明模式Z與該模式類的相似程度越大;反之,說明相似程度越小。
為了估計(jì)運(yùn)動(dòng)視頻段中包含的人數(shù),首先需要建立樣本庫,其流程圖如圖2所示。首先,根據(jù)特征向量的求取過程求出每個(gè)樣本運(yùn)動(dòng)視頻段的描述特征向量Zi∈Rn,表示第i個(gè)樣本特征向量。然后,加入標(biāo)簽,即樣本序列中包含的人數(shù)Ni,從而得到帶標(biāo)簽的特征向量Xi=(Zi,Ni)∈Rn+1,Ni∈(1,2,…)。本文提取了60個(gè)帶標(biāo)簽的特征向量,形成一個(gè)數(shù)據(jù)庫。最后,根據(jù)數(shù)據(jù)庫中的特征向量的標(biāo)簽,將樣本分為不同的類,并根據(jù)式(6)和式(7),得到一個(gè)包含不同類的均值向量MNi和協(xié)方差矩陣CNi的樣本庫。
基于馬氏距離特征匹配的人流量統(tǒng)計(jì)算法的核心是第二階段的人流量統(tǒng)計(jì)。其算法流程圖如圖3所示。具體思路為:檢測(cè)視頻序列首次出現(xiàn)的運(yùn)動(dòng)視頻段,提取該運(yùn)動(dòng)視頻段的特征向量。然后根據(jù)式(5),計(jì)算該特征向量到樣本庫中各個(gè)類的馬氏距離。因?yàn)轳R氏距離表示的是向量與模式類的相似性的大小,如果馬氏距離越小,其相似程度越大。因此,可以通過最小的馬氏距離得到當(dāng)前運(yùn)動(dòng)視頻段最佳的人數(shù)估計(jì)。然后提取下一個(gè)運(yùn)動(dòng)視頻段的特征向量,得到該階段的最佳人數(shù)估計(jì)。通過累加各個(gè)運(yùn)動(dòng)視頻段的最佳人數(shù)估計(jì),實(shí)現(xiàn)人流量的統(tǒng)計(jì)。
本文算法采用標(biāo)準(zhǔn)C/C++語言實(shí)現(xiàn),開發(fā)軟件平臺(tái)為VS2008和OpenCV,算法運(yùn)行環(huán)境為CPU P42.2 GHz、內(nèi)存1 Gbyte、Windows XP操作系統(tǒng)的PC機(jī)。攝像頭采集的視頻幀大小為320×240、幀速20 f/s(幀/秒)、AVI視頻格式。
利用大廈中樓梯間的人流量統(tǒng)計(jì)來驗(yàn)證本文算法的有效性,圖4是幾幀代表圖像。通過式(1)可以得到圖4b和圖4d的特征圖像,分別對(duì)應(yīng)圖5a和圖5b。其中圖5a是擁有1個(gè)運(yùn)動(dòng)目標(biāo)的場(chǎng)景,而圖5b是擁有2個(gè)運(yùn)動(dòng)目標(biāo)的場(chǎng)景。圖5a和圖5b運(yùn)動(dòng)區(qū)域分別為圖5c和圖5d虛線框區(qū)域,通過統(tǒng)計(jì)該區(qū)域的直方圖,得到特征向量。從圖5可以看出,人的特征主要由人的外輪廓決定,這在一定程度上減少了行人服裝、配飾等物品帶來的影響。
為了進(jìn)一步顯示本文算法的穩(wěn)健性,與傳統(tǒng)的幀差法和背景建模法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示。圖6a和圖6b為2張用幀差法求出的圖片,與圖5相比,幀差法求解的運(yùn)動(dòng)目標(biāo)的輪廓不清晰,而且還出現(xiàn)了一些“空洞”。圖6c為使用高斯背景建模法仿真出來的一幅背景圖像,可以看出背景中還有人運(yùn)動(dòng)留下的痕跡,圖6d為對(duì)應(yīng)的差分圖像。通過圖6中的4幅圖像,可以比較直觀地說明幀差法和背景建模法不適合樓梯間這種場(chǎng)景下的人流量統(tǒng)計(jì)。
表1是3種算法對(duì)2組視頻圖像的統(tǒng)計(jì)結(jié)果。從表1可以看出本文算法可以準(zhǔn)確地統(tǒng)計(jì)人流量。對(duì)于單個(gè)行人通過的情況,檢測(cè)的誤檢率基本為零,多個(gè)行人同時(shí)通行的情況下,其誤檢率也不超過5%,低于背景減法和幀差法的誤檢率。
表1 3種算法的實(shí)驗(yàn)結(jié)果
表2為本文算法在不同視頻下的運(yùn)行的時(shí)間,可以看出本文的算法平均每秒可以檢測(cè)16~17幀圖像,運(yùn)行速度基本等于輸入視頻播放速度,基本能夠保證實(shí)時(shí)性的要求。
表2 實(shí)時(shí)性分析
針對(duì)樓梯間人流量統(tǒng)計(jì)這類復(fù)雜環(huán)境的應(yīng)用,提出了一種基于馬氏距離特征匹配的人流量估計(jì)方法。實(shí)驗(yàn)結(jié)果表明,對(duì)于單個(gè)行人的檢測(cè),本文算法基本不會(huì)發(fā)生誤檢的情況,對(duì)于多個(gè)行人的情況,誤檢率也不超過5%。而且本文算法運(yùn)算速度較快,能夠同時(shí)滿足實(shí)時(shí)性和精度的要求。但是該算法還有許多地方需要改進(jìn),當(dāng)場(chǎng)景中人數(shù)較多時(shí),其檢測(cè)精度會(huì)下降。這個(gè)問題的解決需要依賴于樣本訓(xùn)練的精度,這也是本文下一步的研究重點(diǎn)。
[1]何小映,何紅.人流量統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)[J].中國科技信息,2007(14):97-98.
[2]侯俊,程燕.人流量統(tǒng)計(jì)視頻監(jiān)控系統(tǒng)[J].電視技術(shù),2009,33(2):63-65.
[3]董文明,吳樂華,姜德雷.基于背景重構(gòu)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2008,20(6):754-757.
[4]ROSSI M,BOZZOLI A.Tracking and counting moving people[EB/OL].[2010-09-20].http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=413857.
[5]PICCARDI M.Background subtraction techniques∶a review[EB/OL].[2010-09-20].http://www-staff.it.uts.edu.au/~massimo/Background SubtractionReview-Piccardi.pdf.
[6]吳渝,向浩宇,劉群.一種基于網(wǎng)格的最近鄰SVM新算法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2008,20(6):706-709.
[7]方衛(wèi)寧,胡青梅,李娜,等.基于RBF神經(jīng)網(wǎng)絡(luò)的復(fù)雜場(chǎng)景人群目標(biāo)的識(shí)別[J].北京交通大學(xué)學(xué)報(bào):自然科學(xué)版,2009(4):29-33.
[8]李玉榕,項(xiàng)國波.一種基于馬氏距離的線性判別分析分類算法[J].計(jì)算機(jī)仿真,2006,23(8):86-88.
[9]齊敏,李大健,郝重陽.模式識(shí)別導(dǎo)論[M].北京:清華大學(xué)出版社,2009.