黃 榜,劉忠杰,王 敏,趙娜娜,宋小波
(常州先進(jìn)制造技術(shù)研究所 機(jī)器視覺(jué)實(shí)驗(yàn)室,江蘇 常州 213164)
背景建模是基于視覺(jué)應(yīng)用的一個(gè)重要模塊,如智能交通、視頻監(jiān)控及行為識(shí)別等。運(yùn)動(dòng)目標(biāo)檢測(cè)的一般方法是將當(dāng)前圖像與根據(jù)歷史數(shù)據(jù)訓(xùn)練出的背景模型進(jìn)行分析比較,進(jìn)而將前景圖像與背景圖像分離開(kāi)來(lái)。目前,背景建模的一個(gè)難點(diǎn)就是訓(xùn)練背景模型時(shí)背景并不是一成不變的,而是不穩(wěn)定的。這些波動(dòng)可能是飄落的樹(shù)葉、隨風(fēng)飄動(dòng)的旗幟、蕩漾的水波、變化的燈光及閃爍的顯示器等。即使背景是靜態(tài)的,攝像頭的抖動(dòng)及信號(hào)噪音也會(huì)帶來(lái)不穩(wěn)定的因素。不僅如此,陰影及瞬間的光照變化也是較為重要的問(wèn)題。除此之外,實(shí)時(shí)性也是一個(gè)重要的指標(biāo)。
大部分背景建模方法是基于像素的。高斯分布是背景建模的一種常用方法。因?yàn)楸尘安环€(wěn)定,僅僅使用單高斯模型是不夠的,STAUFFER C和GRIMSON W對(duì)每個(gè)像素點(diǎn)使用K個(gè)高斯分布進(jìn)行描述,提出了混合高斯模型MoG(Mixture of Gaussians)[1-2]?;旌细咚鼓P屠肒-均值近似法[3]替代了期望最大化EM(Expectation-Maximization)方法。該方法后來(lái)被不斷改進(jìn)和拓展。例如,HARVILLE M等使用YUV顏色編碼方式并利用立體相機(jī)加入了圖像的深度信息替代了RGB三原色顏色表示方法[4]。LEE D S提出了一個(gè)高效的MoG訓(xùn)練算法[5],描述如下:
對(duì)于一幅圖像I,首先對(duì)其進(jìn)行高斯平滑處理,得到圖像 S:
這里 p是(x,y)處的一個(gè)像素,*是卷積運(yùn)算,G(p,σ)是方差為σ2的高斯函數(shù)。
首先將圖像分割為若干圖像塊,然后對(duì)各圖像塊Bc建立一個(gè)描述元,顯然,最為直接的方法就是對(duì)Bc中的圖像強(qiáng)度進(jìn)行采樣,作為一個(gè)模板,然后使用歸一化相關(guān)算法進(jìn)行模板匹配,但是這種方法對(duì)噪聲較為敏感。
本文采用一種穩(wěn)定的描述元計(jì)算方法,避免了梯度運(yùn)算。其描述元的建立基于如下定義的反差值:其中,p是 Bc中的一個(gè)像素,pc是由 Bc的 4個(gè)中心像素的均值估計(jì)出來(lái)的,并不存在于Bc中,使用反差值意味著對(duì)光線變化不敏感。反差值計(jì)算示意圖如圖1所示。
與SIFT算法類(lèi)似,將每個(gè)圖像塊分成4個(gè)區(qū)域,然后利用每個(gè)四分之一區(qū)域的對(duì)比值來(lái)建立描述元。由于在每個(gè)四分之一區(qū)域里同時(shí)存在正數(shù)和負(fù)數(shù),若直接將它們相加將會(huì)衰減該區(qū)域的元素特征,因此這里將正反差和負(fù)反差進(jìn)行獨(dú)立計(jì)算。若定義Qi為第i個(gè)四分之一區(qū)域,則 Qi關(guān)于 Pc的正反差PCHQi(pc)定義如下:
這里PQi是 Qi中具有正反差值的像素個(gè)數(shù),i=0,1,2,3。同樣,定義Qi關(guān)于 Pc的負(fù)反差 NCHQi(pc)如下:
這里NQi是Qi中具有負(fù)反差值的像素個(gè)數(shù),i=0,1,2,3。至此,可以用一個(gè)8維矢量定義圖像塊Bc的反差描述元如下:
以上反差描述元的建立是針對(duì)灰度圖像而言的,多數(shù)情況下,這種方法實(shí)現(xiàn)起來(lái)迅速有效,但是對(duì)于有些圖像卻是不適合的。如顏色相差很大亮度卻很接近,在這種情況下,利用灰度圖像對(duì)前景目標(biāo)進(jìn)行識(shí)別是不容易做到的。因此,需要將本方法拓展到彩色圖像目標(biāo)識(shí)別中。
令 a∈{R,G,B},b∈{R,G,B}分別為 p和 pc的 3個(gè)顏色通道,關(guān)于Pc的正負(fù)反差定義如下:
其中,i=0,1,2,3,Ca,b(p,pc)是 p的 a通道與 pc的 b通道之間的反差值。
顯然,數(shù)對(duì)(a,b)有9種對(duì)比方式,這就預(yù)示著圖像塊Bc的反差描述元CHT(pc)是一個(gè) 72維矢量,為了提高算法的效率,將(a,b)限定為:
這樣,CHT(pc)就降為一個(gè)48維矢量,即 CHT(pc)∈R48。
混合高斯模型是目前背景建模最為成功的方法之一,它使用K個(gè)高斯分布來(lái)表征圖像所有像素的特性,在新一幀圖像獲得后更新混合高斯模型,用當(dāng)前圖像中的每個(gè)像素點(diǎn)與混合高斯模型匹配,如果成功匹配,則將該點(diǎn)判定為背景點(diǎn),反之為前景點(diǎn)。
本文首先令n個(gè)圖像塊的反差描述元為{X1,X2,…,Xn},然后用K個(gè)高斯分布進(jìn)行建模。當(dāng)前矢量Xn+1被識(shí)別為背景的概率為:
若K個(gè)高斯分布都不匹配,則用一個(gè)均值為Xn+1的高斯分布替代概率最小的概率分布,并將其初始化為一個(gè)較大的方差和較低的權(quán)值。若與其中一個(gè)高斯分布相匹配,則此高斯分布均值和方差更新如下:
其中 α,β 為學(xué)習(xí)率,且 α=βη(Xn|μn,i,σn,i),匹配的分布對(duì)應(yīng)Mn+1=1,不匹配的分布對(duì)應(yīng)Mn+1=0。
最后根據(jù)ω/σ的值對(duì)所有高斯分布進(jìn)行降序排列,取前B個(gè)高斯分布以權(quán)值聯(lián)合生成背景如下:
其中,T是判別數(shù)據(jù)是否為背景的下限,如果當(dāng)前觀測(cè)圖像塊Xn+1與前B個(gè)高斯分布相匹配,將其判斷為背景,否則將其判斷為前景。
圖2(a)為從原始視頻序列中截取的9幀圖像,圖2(b)為使用本文基于反差描述元的混合高斯模型背景建模識(shí)別效果。本文所取的視頻右方是一片風(fēng)中搖曳的樹(shù)木,從圖 2(b)可以明顯看出,在速度為 20 S/s的情況下,改進(jìn)的背景建模方法有效地濾除了干擾,基本無(wú)殘留的像素點(diǎn),前景輪廓比較清晰,幾乎沒(méi)有拖影現(xiàn)象,達(dá)到了較好的前景識(shí)別效果。最后對(duì)檢測(cè)到的前景進(jìn)行了實(shí)時(shí)跟蹤,并對(duì)其運(yùn)動(dòng)軌跡進(jìn)行了實(shí)時(shí)描述。最終的檢測(cè)效果如圖 2(c)。
針對(duì)經(jīng)典的混合高斯背景建模算法魯棒性較差且背景建模實(shí)時(shí)性不足的缺點(diǎn),本文提出了一種改進(jìn)方法,其進(jìn)行了兩點(diǎn)改進(jìn),首先將圖像矢量化,即將圖像分成若干塊,對(duì)每一塊圖像進(jìn)行高斯背景建模,其次基于圖像塊的反差描述元進(jìn)行匹配,降低了環(huán)境光等的干擾。經(jīng)實(shí)驗(yàn)取得了良好的效果。
[1]FRIEDMAN N,RUSSELL S.Image segmentation in video sequences: A probabilistic approach[C].Proceedings of the 13th Annual Conference on Uncertainty in Artificial Intelligence,1997:175-181.
[2]STAUFFER C,GRIMSON W.Adaptive background mixture models for real time tracking[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,1999:246-252.
[3]Sun Tong,NEUVO Y.Detail-preserving median based filters in image processing[J].Pattern Recognition Letters,1994,15(4):341-347.
[4]HARVILLE M.A framework for high-level feedback to adaptive,per-pixel,mixture-of-Gaussian background models[C].Proceedings of European Conference on Computer Vision,2002:543-560.
[5]LEE D S.Effective gaussian mixture learning for video background subtraction[J].IEEE Transactions on Pattern Anal.Mach.Intell.2005,27(5):827-832.