翁菲,劉允才
隨著制造成本的不斷降低以及日益增長的應用需求,視頻檢測器被廣泛應用于復雜場景的實時監(jiān)控,關于智能視頻監(jiān)控的研究也越來越深入。由于單攝像機有限的視域無法滿足廣域視頻監(jiān)控的要求,多攝像機網(wǎng)絡成為有效解決廣域視頻監(jiān)控問題的一種途徑。在已提出的多攝像機監(jiān)控系統(tǒng)中,都有不同程度的限制。如文獻[1]中要求攝像機之間具有重疊的視域,而重疊的視域?qū)⑾拗朴行У谋O(jiān)控范圍;文獻[2]中采用非重疊攝像機,但是不適合實時應用。于是,本文提出一種基于非重疊視域多攝像機的實時監(jiān)控系統(tǒng)。
圖1描述了該系統(tǒng)的流程框圖。該系統(tǒng)分別對每個攝像機視頻進行背景建模、前景檢測以及運動目標的特征提取,當目標離開攝像機視域的時候,根據(jù)已知的拓撲關系,向相關攝像機發(fā)布監(jiān)控任務,當有目標進入處于有效監(jiān)控狀態(tài)的攝像機視域時,進行目標匹配,從而實現(xiàn)在多攝像機系統(tǒng)中對行人目標的持續(xù)跟蹤。本文將分別介紹該系統(tǒng)的各主要功能模塊。
圖1 多攝像機監(jiān)控系統(tǒng)框圖
系統(tǒng)采用一種雙層的背景維持算法,進行背景建模與更新[3]。相較于經(jīng)典的高斯建模法,該方法計算效率高并且對場景的變化適應性更強。首先,在像素層進行背景更新。由于運動目標所在位置的像素值變化比背景處的像素值快,于是通過對相鄰的圖像幀進行差分,即可根據(jù)像素值的變化快慢,區(qū)分前景像素與背景像素。但是這種像素層的背景更新,沒有考慮到包含在幀間的運動信息。當由于攝像機的移動、光線變化、或者運動目標離開了場景等因素,引起背景的突變,對圖像層進行背景更新,可以對這些變化進行快速響應。通過融合像素層以及圖像層的檢測結果,可以在不同情形下獲得比較合適的背景模型。
系統(tǒng)采用背景差分的方法進行前景的檢測。將每一幀輸入圖像(圖2(a))與背景模型進行差分,與背景像素具有顯著差異的像素點將被判別為前景像素。然后,對前景圖像(圖2(b))進行形態(tài)學處理以去除前景圖像中小的間隙與空洞,最后得到的前景圖像如圖2(c)所示。
圖2 前景檢測
(1)直方圖特征:直方圖是一種被廣泛用于目標匹配的外觀特征,它在一定程度上對行人的姿勢變化具有良好的魯棒性。但是直方圖丟失了顏色分布的空間信息,一種解決方法是將目標按照空間關系分為3個部分,分別為頭部、上半身以及下半身,為每個部分建立直方圖[4]。由于頭部的直方圖對目標匹配的意義不大,在本系統(tǒng)中取下兩部分的直方圖,使用混合高斯模型,對這兩部分的直方圖進行建模,并利用混合高斯模型參數(shù),根據(jù)公式(1)別針對待匹配目標的上本身與下半身計算相似度。
其中,wai和wbi表示待匹配目標a和b的混合高斯模型中第i個分量的權值,xaik和xbik表示混合高斯模型中第i個分量的協(xié)方差矩陣,d(mai,mbi)表示目標a和b的混合高斯模型中第i個分量均值之間的歐式距離。
公式(1)所描述的相似度數(shù)值越小,相似度越大。實驗表明,這種距離度量方法效果要優(yōu)于傳統(tǒng)的K-L距離和Bhattacharyya距離。
(2)UV色度特征:YUV顏色空間描述了圖像的亮度信息以及色度信息。亮度信息已經(jīng)體現(xiàn)在直方圖中,因此,從YUV顏色空間中,提取UV色度信息,可以作為目標的另一個特征表示。文獻[5]提供了一種提取UV色度空間模型的方法,該方法根據(jù)YUV顏色空間的UV通道,建立二維色度平面,將圖像的色度信息分別投射到色度平面上,并對平面上的UV色度分布建立二維混合高斯模型,圖3為一個行人目標及其對應的UV色度模型。相似度的計算方法同直方圖特征。
圖3 UV色度模型
(3)主要顏色普特征:對于一幅8位彩色圖像在RGB顏色空間中存在的顏色可達百萬種,很難在如此龐大的顏色種類的基礎上,進行兩個目標之間的匹配。文獻[6]提供了一種提取主要顏色譜的方法,使用最近鄰分類法將所有像素聚類為有限的幾種主要顏色,對所有顏色的頻率進行降序排列之后,前90%的顏色即可作為該目標的特征描述。圖4為一個行人目標及其對應的主要顏色譜直方圖。
圖4 主要顏色譜直方圖
在這種特征描述方式下,兩個待匹配目標之間的相似度由公式(2)計算得到:
其中,pai和pbi表示待匹配目標a和b的主要顏色譜直方圖中第i個顏色柱的權值;d(Cai,Cbi)表示顏色柱Cai和Cbi之間的距離。該公式描述的相似度數(shù)值越小,表示目標a和b越相似.。
對于多特征之間的數(shù)據(jù)融合,常用的解決方法是采用貝葉斯模型。但是對于置信度相差較大的特征,基于貝葉斯模型的融合算法的準確度往往不夠高。為了使在融合特征數(shù)目較多,置信度相差比較大的情況下,獲得比較高的匹配準確度,本系統(tǒng)采用一種疊代加寬的融合方法進行特征融合。
首先,將獲得的相似度構成特征相似度矩陣S,表示為:
其中,Si,j表示特征i中跟蹤目標與第j個待匹配目標間的相似度;i=1,2,……,N,j=1,2,……,M。
然后,根據(jù)相似度矩陣計算兩個待匹配目標之間的置信度指數(shù),并將置信度指數(shù)構成置信度矩陣。
根據(jù)以上信息,按照以下步驟進行特征融合,最終實現(xiàn)目標匹配:
(1)設置w為疊代寬度閾值,設置疊代寬度初值a=1;
(2)在相似度矩陣中搜索每個特征行中前a個相似度最大的目標,如果某一列且只有一列中的所有N個特征行的元素都被搜索到,則該列所對應的待匹配目標即表示目的目標,疊代終止;
(3)如果有大于1的m列中所有N個特征行的元素都被搜索到,則分別計算置信度指數(shù)矩陣中與此m列所對應的每一列的期望值,期望值最高的一列所對應的待匹配目標即表示目的目標,疊代終止;
(4)如果沒有一列中的所有特征行的元素都被搜索到,即在當前寬度下未找到任何目的目標,則更新疊代寬度a=a+1;a≤w,轉(zhuǎn)步驟(2),進行下一次疊代;
(5)若a>w,則在當前寬度下搜索第二相似的目的目標,即取被搜索到的元素最多的那一列所對應的待匹配目標作為目的目標,疊代終止。
對于已經(jīng)安置好的多攝像機監(jiān)控系統(tǒng),它的拓撲結構是固定的,目標在場景中所有可能的運動路線也是可以確定的。例如,當目標從某攝像機的某出口走出之后,可以根據(jù)已知的拓撲結構,估計出該目標可能進入哪些攝像機視域范圍內(nèi),分別需要經(jīng)過多長時間。因此,建立整個場景的拓撲模型,將對目標的跟蹤起到極大的輔助作用。
拓撲模型中包含了多攝像機之間的所有連接信息,包括每個攝像機視域范圍內(nèi)的進出口區(qū)域,各個攝像機的進出口之間是否存在通路,以及每條通路的長度。由于不同的行人步行速度不一致,經(jīng)過同一路徑的時間也會有所起伏,于是采用平均時間t結合時間窗w的方式描述每條通路的長度,選取合適的時間窗w,使得大多數(shù)行人經(jīng)過的時間落在(t-w,t+w)范圍內(nèi)。時間窗需要根據(jù)實際情況進行選取,數(shù)值太大會影響系統(tǒng)的運行效率,數(shù)值太小會影響跟蹤結果的準確率。
如前所述,當目標從某攝像機的某出口走出之后,可以根據(jù)已知的拓撲結構,估計出該目標可能進入哪些攝像機視域范圍內(nèi),分別需要經(jīng)過多長時間。于是,當檢測到目標走出某攝像機時,即可根據(jù)已知的拓撲關系向相關攝像機發(fā)布監(jiān)控任務,在目標有可能進入視域范圍內(nèi)的一段時間內(nèi),該攝像機將處于有效監(jiān)控狀態(tài)。而當有目標進入處于有效監(jiān)控狀態(tài)的攝像機視域時,進行目標匹配,從而實現(xiàn)在多攝像機系統(tǒng)中對行人目標的持續(xù)跟蹤。這種機制可以在不影響監(jiān)控效果的前提下,很好的提高系統(tǒng)的運行效率,從而達到實時監(jiān)控。
為驗證該系統(tǒng)的有效性,用4個攝像頭在室內(nèi)環(huán)境進行了實驗。多攝像頭的拓撲結構如圖5所示。在實驗過程中,10個行人(如圖6所示)被分為兩組,其中一組行人先后穿過攝像機1、攝像機2以及攝像機4,另一組行人先后穿過攝像機1、攝像機3以及攝像機4。實驗以15幀每秒的速率采樣得到248*156大小的AVI視頻序列,然后利用本系統(tǒng)分別對每個行人進行跟蹤。對行人B的跟蹤過程如圖4所示。在第172幀的時候行人B出現(xiàn)在攝像機1視域中,選取他為跟蹤目標(圖7(a));第590幀的時候,行人B進入處于監(jiān)控狀態(tài)的攝像機3視域中,系統(tǒng)立刻將他識別為被跟蹤對象(圖4(c));在第1021幀行人B進入處于監(jiān)控狀態(tài)的攝像機4視域中,并立刻被識別為被跟蹤對象(圖4(e))。實驗結果顯示,該系統(tǒng)的跟蹤準確率為85.2%。表1為使用不同特征進行目標匹配的跟蹤結果比較。
圖5 拓撲模型示意圖
圖6 行人目標
圖7 對行人B的跟蹤過程
表1 不同特征跟蹤準確率比較
本文描述了一種基于非重疊攝像機的視頻監(jiān)控系統(tǒng)。該系統(tǒng)分別對每個攝像機視頻進行背景建模、前景檢測以及運動目標的特征提取,并在單攝像機中實現(xiàn)目標跟蹤,當目標離開攝像機視域的時候,根據(jù)已知的拓撲關系向相關攝像機發(fā)布監(jiān)控任務,當有目標進入處于有效監(jiān)控狀態(tài)的攝像機視域時,進行目標匹配,從而實現(xiàn)在多攝像機系統(tǒng)中對行人目標的持續(xù)跟蹤。實驗結果表明,該系統(tǒng)可以在不需對攝像機進行標定的情況下,對穿過多個攝像機的運動目標進行實時準確的跟蹤。
[1]Khan S,Shah M.Consistent Labeling of Tracked Objects in Multiple Cameras with Overlapping Fields of View[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2003,25.
[2]Rahimi A,Darrell T.Simultaneous Calibration and Tracking with a Network of Non-overlapping Sensors[C].IEEE Conf.in Computer Vision and Pattern Recognition,2004.
[3]Yang T,Stan Z Li.Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes[C].IEEE Conf.in Computer Vision and Pattern Recognition,2005.
[4]Yinghao Cai,Wei Chen.Continuously Tracking Objects Across Multiple Widely Separated Cameras[C].ACCV,2007.
[5]Jeong K,Jaynes C.Object Matching in Disjoint Cameras Using a Color Transfer Approach[J].Machine Vision and Applications,2008.
[6]Eric Dahai Cheng,Massimo Piccardi.Disjoint Track Matching Based on a Major Color Spectrum Histogram Representation[J].Optical Engineering,2007.