宋佳聲 胡國清
(華南理工大學機械與汽車工程學院,廣東廣州510640)
從復雜的監(jiān)控場景中提取出運動的前景目標是智能監(jiān)控系統(tǒng)的首要問題.如果有一個自適應場景變化的背景模型,就可以通過背景減法分割出前景目標.高斯分布函數(shù)常被用來對場景背景進行建模.文獻[1]中用單個高斯模型(SGM)對場景進行建模,適用于室內單純的場景中.文獻[2]中提出的混合高斯模型(GMM),雖然提高了前景分割的準確性,但模態(tài)數(shù)固定以及學習因子統(tǒng)一使其存在收斂與更新速度慢、對背景變化的適應能力與對前景異常的感知能力無法兼顧的問題[3].為此,文獻[4]中將混合高斯模型的更新區(qū)分為背景學習和背景更新兩個階段,在不同的階段采用不同的參數(shù)估計算法;文獻[5]中通過對匹配數(shù)據(jù)個數(shù)的統(tǒng)計自適應地實時調整學習因子和模態(tài)個數(shù);文獻[6]中通過引入懲罰因子提出了一種自適應最小化模態(tài)個數(shù)的混合高斯模型;為避免繁瑣的高斯模型參數(shù)估計問題,文獻[7]中提出了一種固定窗口長度的非參數(shù)方法,但大量的數(shù)據(jù)存儲要求以及復雜的計算限制了其應用;近年來人們提出了許多改進的算法[8];文獻[9]中利用球面均值聚類算法找到光照改變時的顏色空間特征,據(jù)此為混合高斯模型參數(shù)更新提供了準確方向;文獻[10]中提出了兩種不同的學習因子,分別用于均值和方差的實時更新;文獻[11]中將場景劃分為背景、陰影、靜態(tài)前景和移動前景4種區(qū)域,每個區(qū)域使用不同的模態(tài)學習因子,從而形成對混合高斯模型更新的反饋機制;文獻[12]中提出了一種基于顏色、邊緣和紋理的混合視覺特征的高斯建模方法;文獻[13]中將偏差均值作為判斷模型是否與當前像素值匹配的閾值參數(shù);文獻[14]中在混合高斯模型的框架下,通過改變計算策略來提高參數(shù)的更新速度,改善了GMM的實時性;文獻[15]中通過統(tǒng)計模態(tài)匹配個數(shù)和引入懲罰因子來優(yōu)化GMM的模態(tài)個數(shù)以及相應參數(shù)的更新速度.
為提高視頻監(jiān)控系統(tǒng)中背景高斯模型的更新速度,文中提出了基于時空熵分析的組合高斯背景建模方法(CGM),即對場景的不同區(qū)域使用不同的模型和更新機制.根據(jù)檢測的全局特征的變化來實現(xiàn)不同模型之間的切換.文中通過時空采樣模型獲取像素顏色值在時域和空域的變化特征,進而檢測出邊緣或輪廓線所對應的像素區(qū)域.最后通過實驗驗證所提建模方法的有效性.
場景中的像素是復雜多變的,其原因有自然景物的擾動、傳感器的振顫、投影和光照的改變、顏色的二義性、前景運動的不確定性和遮擋等.這里的“復雜”是指本體論意義上的復雜性[16],體現(xiàn)為場景圖像空間中像素的多樣性和差異性,文中具體指像素顏色值在時域和空域變化的劇烈程度.場景運動復雜度是對像素變化劇烈程度的一種定量描述.文獻[17]中從組合論的角度給出了復雜度的定義:一個系統(tǒng)(廣義集合)的復雜度反映的是該集合內元素的種類以及各類中包含的元素個數(shù)等特征,體現(xiàn)為集合內部狀態(tài)的豐富程度和差異程度,這種內部復雜度的計算公式為
式中,K為廣義集合內不同標志值的個數(shù),nk為第k類個體的數(shù)量,N為總個體數(shù).據(jù)此可知,系統(tǒng)的復雜度是與其內部個體特征差異性相關聯(lián)的,它是對個體特征差異性和多樣性的一種度量:個體差異越大,總體復雜度越大;個體差異越小,總體復雜度越小.
圖1 計算場景復雜度的采樣空間Fig.1 Sampling space for calculating of scene complexity
監(jiān)控系統(tǒng)得到的場景圖像序列除了存在空間分布的差異性外,還有時間軸上分布的差異性.因此,文中建立圖1所示的采樣空間:時間滑窗長為L,空間窗長為W,則采樣空間的總樣本數(shù)為Np=W2L.根據(jù)式(1),將每個像素領域內的時空灰度分布的差異程度作為該像素的運動復雜度,稱為像素熵值.為簡化計算,將像素p按圖1所示的采樣空間中的樣本多通道顏色值轉化為單通道灰度值f(p),并對該灰度值按照式(2)進行壓縮,其中Lg為壓縮后的最大灰度,fmax為樣本空間的最大采樣值.壓縮后的灰度級將大大減少,既保留了差異性,又減小了后續(xù)信息熵的計算.
統(tǒng)計各個灰度級g(g為0~Lg的整數(shù))的采樣值個數(shù),將像素p的采樣空間中灰度為g的像素個數(shù)記為np,g,根據(jù)式(1)可知該像素點的熵值為
在大多數(shù)監(jiān)控場合,每個攝像頭所監(jiān)控的區(qū)域是固定的,區(qū)域中背景的顏色值也是相對穩(wěn)定的.但在一些特殊的情況(如攝像頭朝向的調整、光線的突然變化、背景某些區(qū)域永久性的移入/移出等)下,監(jiān)控區(qū)域也會產生突然的、大范圍的變化.此時,場景的運動復雜度可能發(fā)生很大的變化,必須根據(jù)新的場景更新相應的運動復雜度.如果沒有及時更新場景的復雜度,將造成基于該場景復雜度的背景模型的偏差,進而導致大量前景目標的誤檢.為此,文中通過設定一個前景區(qū)域大小的閾值FT來檢測這種變化.如果前景區(qū)域面積大于該閾值,則重新計算場景運動復雜度,并據(jù)此調整背景模型,具體流程見圖2.
圖2 基于場景復雜性的前景檢測流程圖Fig.2 Flowchart of foreground detection based on scene complexity
場景復雜性分析的目的是為背景建模提供先驗知識,即掩碼圖.如圖2所示,根據(jù)式(3)計算各個像素在各自采樣空間中的運動復雜度,得到熵值E(p).然后,將所有像素的熵值轉化為256個灰階單通道圖像,構成一幅熵值圖.灰階所描述的是像素的運動復雜度,其值越大則時域或空域變化越劇烈.為簡化計算,將這些像素分成2類,分別代表圖像的2類不同區(qū)域.為了保證分割后這2類區(qū)域的差異性,采用最大熵閾值分割的方法進行分割,得到一個二值化圖像模板,即掩碼圖.對圖3(a)所示的視頻圖像進行復雜度分析和最大熵閾值分割,結果如圖3(b)、3(c)所示.將圖像空間分為2類區(qū)域:(1)灰度值為0的黑色區(qū)域,對應于原場景中顏色值相對均勻、穩(wěn)定的區(qū)域,文中稱為穩(wěn)定區(qū)域;(2)灰度值為255的白色區(qū)域,對應于原圖像中顏色值富于變化的區(qū)域,多為邊界或顏色值存在反復波動的區(qū)域,稱為動態(tài)區(qū)域.在監(jiān)控系統(tǒng)中,一般黑色區(qū)域占較大面積,如圖3中穩(wěn)定區(qū)域的像素占總像素的84.32%.
圖3 場景復雜度分析過程圖Fig.3 Procedure images of analysis on scene complexity
根據(jù)場景復雜性分析輸出的掩碼圖,對處于穩(wěn)定區(qū)域的像素采用單模態(tài)的高斯模型,對處于動態(tài)區(qū)域的像素采用多模態(tài)的高斯模型.在動態(tài)區(qū)域,每個像素的顏色值采用K個高斯模態(tài)建模,設第k個模態(tài)的均值為 μk,標準方差為 σk,先驗概率為 ωk,參數(shù)集為 Θk={ωk,θk},其中 θk={μk,σk}.為避免復雜的矩陣求逆運算,假設像素顏色值的紅色、綠色和藍色分量相互獨立,且具有相同的方差.像素顏色值的某個分量x的概率密度函數(shù)可表示為
設某像素有T個顏色值,對其中任意一個顏色值xt,先根據(jù)貝葉斯后驗概率判定它屬于哪個高斯模態(tài),然后對含有該模態(tài)參數(shù)的似然函數(shù)求偏導,從而求得似然函數(shù)的最大值,由此得到如下估計量:
最后,將K個高斯分量按照ωk/σk從大到小的順序排列,選取其中前B個高斯模態(tài)作為背景的一個建模,其中為小于1的預設正數(shù).如果xt屬于這B個模態(tài),則xt為背景;否則xt為前景.
對處于穩(wěn)定區(qū)域的像素,其顏色值x分布采用單高斯模態(tài)建模.具體過程如下:對任意一個采樣值xt,根據(jù)它與模態(tài)中心的馬氏距離判定它是否屬于該模態(tài),如果屬于,則采用指數(shù)平滑學習進行模態(tài)參數(shù)估計,否則模態(tài)參數(shù)保持不變.
對于采用背景減法得到前景目標的分割算法而言,背景維護是最為關鍵的問題.由于在圖像的2類不同區(qū)域所采用的模態(tài)個數(shù)是不同的,因而相應的更新算法也不一樣.在動態(tài)區(qū)域,根據(jù)背景模型參數(shù)的估計式可以得到
對于穩(wěn)定區(qū)域,由于采用的是單模態(tài),因而省去了模態(tài)匹配的過程,但需要判斷顏色值與背景值的距離.根據(jù)正態(tài)分布的特征,取95%的置信區(qū)間為背景更新區(qū)間:如果顏色值處在背景值的約2個標準差之外,則不予采信,不做背景更新操作;如果顏色值處在置信區(qū)間內,則按式(11)、(12)進行背景更新,其中ρ為預設的學習因子.
假設t時刻的掩碼圖為m.如果根據(jù)圖2所示的流程檢測到前景面積的變化大于預設閾值,則重新計算掩碼圖,記為m'.通過比較這兩個掩碼圖可以知道場景中兩類區(qū)域的變化情況,即像素點p(i,j)有如下2種情況:
(1)m(i,j)=0,m'(i,j)=255,像素背景模型由單模態(tài)變?yōu)槎嗄B(tài),將原模型中的單模態(tài)作為多模態(tài)模型中權值為1的模態(tài).
(2)m(i,j)=255,m'(i,j)=0,像素背景模型由多模態(tài)變?yōu)閱文B(tài),選取多模態(tài)模型中權值最大者初始化單模態(tài)背景模型.
文中組合高斯背景建模算法主要包括2個步驟:(1)初始化模型.通過場景時空熵值的計算得到場景的運動復雜度圖像,再通過最大熵閾值分割法得到像素分組的掩碼圖像(模板),按照該模板對穩(wěn)定區(qū)域和動態(tài)區(qū)域分別進行高斯模態(tài)的初始化.(2)更新背景模型.采用背景減法分割運動目標,按照掩碼圖像對不同區(qū)域采用不同的更新策略.
根據(jù)L幀圖像(總像素為M×N)初始化背景模型的偽代碼如下:
根據(jù)圖1定義的采樣空間,對像素p進行灰度
采樣,得到f(p);
根據(jù)式(2)對f(p)進行灰度壓縮;
根據(jù)式(3)計算像素p的時空熵值E(p);
END FOR
根據(jù)最大熵閾值分割法將熵值圖E劃分為兩類
區(qū)域,得到二值化圖像模板m;
更新背景模型的偽代碼如下:
為驗證文中模型(CGM)的分割效果,在聯(lián)想ThinkPad-R60計算機上進行實驗,并與SGM[1]和模態(tài)數(shù)固定(模態(tài)數(shù)為5)的GMM[2]進行比較.實驗程序采用C語言編寫.為客觀地比較,實驗程序中不含有形態(tài)學的濾波處理.選用PETS庫中的視頻進行了實驗,結果如圖4、5所示.
圖4 視頻PetsD2TeC1第950幀的分割結果Fig.4 Segmentation results of frame 950 in video PetsD2TeC1
圖5 視頻IndoorGTTest2第920幀的分割結果Fig.5 Segmentation results of frame 920 in video IndoorGTTest2
從圖4可知:SGM存在明顯的誤檢,將背景中各種實物的輪廓、擺動的樹葉、直立的路燈柱及紋理與顏色的分界線誤分割為前景,這些區(qū)域正是位于相應掩碼圖中白色顯示的區(qū)域;GMM與GCM都采用了多模態(tài)建模區(qū)域,故能很好地解決誤檢問題.
從圖5可知:SGM將場景中的輪廓、邊緣及光照強度突變的區(qū)域誤檢為前景;GMM與CGM的檢測結果大致相同且誤檢相對較少.
為進一步定量分析3種背景模型的分類效果,以像素為單位統(tǒng)計每幀中前景和背景的像素數(shù),得到 4 個統(tǒng)計量 NTP、NFP、NFN和 NTN.其中,NTP表示真實前景區(qū)域中被檢測為前景的像素數(shù),NFP表示真實背景區(qū)域中被誤檢為前景的像素數(shù),NFN表示真實前景區(qū)域中被誤檢為背景的像素數(shù),NTN表示真實背景區(qū)域中被檢測為背景的像素數(shù).衡量當前幀分割效果的指標有檢出率(RD)、誤警率(RFA)、準確率(RA),計算式如下:
考慮到NTN相對于NTP而言是一個很大的值,因此RA的分子分母中均無NTN項.
實驗統(tǒng)計第200幀以后的1000幀視頻PetsD2TeC1的前景分割結果(檢測階段的更新公式中設定t=200),如圖6所示,GMM與CGM的接受者操作特征比較接近,均遠遠高于SGM.對1000幀分割結果進行統(tǒng)計,得到GMM、CGM和SGM的平均準確率分別為 0.76、0.75、0.56,說明 CGM 前景分割的準確性接近于GMM,遠優(yōu)于SGM.
圖6 3種背景模型的接受者操作特征曲線Fig.6 Receiver operating characteristic curves of three background models
模型運行時間主要包括模型初始化時間和模型更新時間.表1給出了3種模型處理視頻PetsD2TeC1的運行時間,CGM消耗了較多的初始化時間,這主要是由場景分析中掩碼圖的計算量較大造成的.對于固定攝像頭的監(jiān)控系統(tǒng),背景相對固定,初始化只發(fā)生在安裝初期及前景面積變化大于規(guī)定閾值時,故CGM的初始化時間通常還是可以容忍的.CGM在初始化之后背景更新、前景分割的運算速度較快(接近于SGM),這有利于提高系統(tǒng)的實時性.
表1 3種背景模型的運行時間比較Table 1 Comparison of running time among three background models
綜上所述,SGM存在明顯的誤檢;GMM的分割效果最為理想,但較耗時;CGM雖然需要消耗較多的初始化時間,但背景更新用時較少,分割效果比較理想,表現(xiàn)出較好的實時性,即它在分割效果上接近于GMM,而運行時間上接近于SGM.
在固定攝像頭的監(jiān)視系統(tǒng)中,其場景固定,視頻背景穩(wěn)定,文中針對此類應用提出了一種基于時空熵分析的組合高斯背景建模方法.首先分析場景的運動復雜性,建立像素顏色值的采樣時空模型,并據(jù)此得到場景的運動復雜度;在隨后的測量中,根據(jù)前景檢測結果更新場景運動復雜度.然后利用最大熵閾值分割方法對場景圖像的像素進行分類,將場景圖像分為穩(wěn)定區(qū)域和動態(tài)區(qū)域,形成差異性明顯的掩碼圖像,再對不同區(qū)域采用不同的高斯模型及更新算法.實驗結果表明,該模型能夠保證分割效果,減少分割運算時間,提高系統(tǒng)的實時性,但模型的初始化耗時較長.文中使用較大的前景面積變化閾值以減少掩碼圖像更新的次數(shù),這在大多數(shù)場合是適用的.像素顏色值的二義性、前景陰影的誤檢等問題有待進一步研究.
[1]Wren C,Azarbayejani A,Darrell T,et al.Pfinder:realtime tracking of the human body[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.
[2]Stauffer C,Grimson W E L.Adaptive background mixture models for real-time tracking[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins:IEEE,1999:246-252.
[3]Power P Wayne,Schoonees Johann A.Understanding background mixture models for foreground segmentation[C]∥Proceedings Image and Vision Computing.New Zealand:University of Auckland,2002:267-271.
[4]KaewTraKulPong P,Bowden R.An improved adaptive background mixture model for real-time tracking with shadow detection[C]∥Proceedings of the 2nd European Workshop on Advanced Video Based Surveillance Systems.London:Kluwer Academic Publishers,2001:1-5.
[5]Lee D.Effective Gaussian mixture learning for video background subtraction [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):827-832.
[6]Zivkovic Z.Improved adaptive Gaussian mixture model for background subtraction[C]∥Proceedings of the 17th International Conference on Pattern Recognition.Cambridge:IEEE,2004:28-31.
[7]Elgammal A,Duraiswami R,Harwood D,et al.Background and foreground modeling using nonparametric kernel density estimation for visual surveillance[C]∥Proceedings of the IEEE,2002,90(7):1151-1163.
[8]宋佳聲.動態(tài)場景的自適應高斯混合模型的研究[J].計算機工程與應用,2012,48(1):8-12.Song Jia-sheng.Study of adaptive Gaussian mixture models for dynamic scenes[J].Computer Engineering and Applications,2012,48(1):8-12.
[9]Li Dawei,Xu Lihong,Goodman Erik.Online background learning for illumination-robustforeground detection[C]∥Proceedings of the 11th International Conference on Control,Automation,Robotics and Vision.Singapore:IEEE,2010:1093-1100.
[10]Bouttefroy P L M,Bouzerdoum A,Phung S L,et al.On the analysis of background subtraction techniques using Gaussian mixture models[C]∥Proceedings of the 35th International Conference on Acoustics,Speech,and Signal Processing.Dallas:IEEE,2010:4025-4045.
[11]Lin Horng-hong,Chuang Jen-Hui,Liu Tyng-Luh.Regularized background adaptation:a novel learning rate control scheme for Gaussian mixture modeling[J].IEEE Transactions on Image Processing,2011,20(3):822-836.
[12]常曉夫,張文生,董維山.基于多種類視覺特征的混合高斯背景模型[J].中國圖象圖形學報,2011,16(5):829-834.Chang Xiao-fu,Zhang Wen-sheng,Dong Wei-shan.Mixture of Gaussian background modeling method based on multi-category visual features[J].Journal of Image and Graphics,2011,16(5):829-834.
[13]白向峰,李艾華,李喜來.新型背景混合高斯模型[J].中國圖象圖形學報,2011,16(6):983-988.Bai Xiang-feng,Li Ai-hua,Li Xi-lai.A novel background Gaussian mixture model[J].Journal of Image and Graphics,2011,16(6):983-988.
[14]Gorur P,Amrutur B.Speeded up Gaussian mixture model algorithm for background subtraction[C]∥Proceedings of the 8th IEEE International Conference on Advanced Video and Signal Based Surveillance.Klagenfurt:IEEE,2011:386-391.
[15]Chen Z,Ellis T.Self-adaptive Gaussian mixture model for urban traffic monitoring system[C]∥Proceeding of IEEE InternationalConferenceon ComputerVision Workshops.Barcelona:IEEE,2011:1769-1776.
[16]苗東升.論復雜性 [J].自然辯證法通訊,2000,22(6):87-92.Miao Dong-sheng.On complexity[J].Journal of Dialectics of Nature,2000,22(6):87-92.
[17]張學文.組成論[M].合肥:中國科學技術大學出版社,2003:19-87.