基于運動和空間方向一致性的視頻顯著性檢測

2016-08-05 07:58:06陳耀武

計算機應(yīng)用與軟件 2016年7期

關(guān)鍵詞：像素點矢量梯度

韓　冬　田　翔　陳耀武

(浙江大學(xué)數(shù)字技術(shù)與儀器研究所　浙江杭州 310027) (浙江省網(wǎng)絡(luò)多媒體技術(shù)重點實驗室　浙江杭州 310027)

基于運動和空間方向一致性的視頻顯著性檢測

韓冬田翔陳耀武

(浙江大學(xué)數(shù)字技術(shù)與儀器研究所浙江杭州 310027) (浙江省網(wǎng)絡(luò)多媒體技術(shù)重點實驗室浙江杭州 310027)

摘要根據(jù)人眼的視覺特點，提出一種基于對比運動和空間方向一致性的算法，用來檢測視頻序列的顯著性區(qū)域。在該算法中，首先針對每一幀圖像利用sobel算子計算其水平梯度、垂直梯度，然后用光流法計算運動矢量；接著構(gòu)建三維張量結(jié)構(gòu)，得到每個像素點與周圍點的水平、垂直梯度和運動矢量一致性，并對比每個像素點與周邊點的一致性；最后把對比結(jié)果轉(zhuǎn)化為視頻顯著圖。將該方法與已經(jīng)存在的方法進行比較，實驗結(jié)果表明，該方法可以很好地排除背景紋理區(qū)域的運動所帶來的影響，能夠準(zhǔn)確地檢測出各種運動場景的顯著性區(qū)域。

關(guān)鍵詞視頻顯著性空間方向梯度運動矢量三維張量結(jié)構(gòu)一致性對比

0引言

視頻顯著性與人體視覺系統(tǒng)密切相關(guān)。它使得人們能夠在一個視頻場景中快速地找到所關(guān)注的區(qū)域，有助于我們對視頻圖像的理解，可以用于感興趣區(qū)域檢測、目標(biāo)分割、識別與跟蹤等[1]。目前，視頻顯著性分析已經(jīng)成為了圖像處理和計算機視覺領(lǐng)域的一個重要研究課題。

在過去的十幾年里，研究者發(fā)明了許多應(yīng)用于靜止圖像的顯著性檢測算法。Itti等人[2]于1998年提出了一種基于多尺度圖像特征融合的顯著性檢測方法。Harel等人[3]于2006年提出了一種基于圖的抖動的自底向上的視覺顯著性模型。2007年Hou等人[4]通過計算傅里葉譜殘差，得到了顯著性圖。2009年Achanta等人[5]結(jié)合顏色與亮度等信息來進行顯著性檢測。Cheng等人[6]在2011年提出了一種基于區(qū)域?qū)Ρ榷鹊姆椒?，利用直方圖與空間信息得到了視頻顯著圖。Perazzi等人[7]在2012年提出了一種基于對比的顯著性模型，它抽取了圖像的超像素成分，并通過對比其獨特性和空間分布性來得到顯著性圖。

根據(jù)人體視覺系統(tǒng)的特性，人眼對正在運動的物體更加敏感，使得視頻序列的顯著性與靜止圖像的顯著性有著一定的不同。對于視頻序列來說，一個好的顯著性檢測算法應(yīng)該更加關(guān)注于正在運動的物體。最早的方法是通過混合高斯模型[8]來得到顯著性圖。它用多個高斯模型來表征圖像中各個像素點，在每一幀圖像更新高斯模型，通過像素點與模型匹配得到視頻顯著圖。Zhai等人[9]提出了一種基于時空信息的顯著性檢測方法。它通過圖像的顏色距離差來計算空域顯著性，通過SIFT點對來計算時域顯著性，并將二者動態(tài)融合成為最后的視頻顯著圖。Guo等人[10]計算每個像素點的灰度、顏色和運動特征，組成四元組，通過四維傅里葉變換的相位譜來得到視頻顯著圖。Fang等人[11]于2014年提出了一種融合時空信息與統(tǒng)計學(xué)不確定性的顯著性檢測方法。它首先提取運動特征進行時間顯著性評估，提取光照、顏色和紋理特征進行空間顯著性評估；然后分別進行時間、空間不確定性評估；最終將時空的顯著性、不確定性進行加權(quán)融合得到視頻顯著圖。

本文提出一種基于對比運動和空間方向一致性的算法，計算每一幀圖像的水平梯度、垂直梯度和運動矢量，并將每個像素點與周圍像素點進行對比，把對比圖轉(zhuǎn)換成為視頻顯著圖。實驗表明，該算法能夠很好地克服背景紋理區(qū)域的運動所帶來的影響，準(zhǔn)確地檢測出各種運動場景的顯著性區(qū)域。

1顯著性檢測

本文中視頻顯著性檢測算法分為以下四個步驟：光流法計算運動矢量；利用Sobel算子計算圖像水平、垂直梯度；利用三維結(jié)構(gòu)張量模型計算每個像素點與周圍像素點的水平、垂直梯度與運動矢量的一致性；通過對比一致性獲得視頻顯著圖。算法框架如圖1所示。

圖1　算法流程圖

1.1計算運動矢量與空間梯度

通過光流法[12]計算輸入視頻每幀圖像的運動矢量矩陣MVx、MVy，得到的運動矢量場與輸入視頻有著相同的分辨率。其中MVx表示水平方向運動矢量矩陣，MVy表示垂直方向運動矢量矩陣。計算運動矢量幅值，得到幅值矩陣，如式(1)所示：

(1)

為了方便后續(xù)處理，將運動矢量矩陣歸一化，得到歸一化后的運動矢量矩陣gt，如式(2)所示：

(2)

利用sobel算子[13]對輸入視頻灰度圖像進行掩膜濾波，得到與輸入視頻有著相同分辨率的水平梯度矩陣gx和垂直梯度矩陣gy，同樣進行歸一化處理。用于水平、垂直濾波的sobel算子分別為：

(3)

(4)

1.2構(gòu)建三維結(jié)構(gòu)張量

基于Laptev等人[14]時空域中感興趣區(qū)域點的特征的啟發(fā)，對每一幀圖像k中的每個像素點i，構(gòu)建三維結(jié)構(gòu)張量Sk(i)，用來表示視頻圖像中的點在時空域的特征，如式(5)所示：

(5)

本文中使用三維結(jié)構(gòu)張量矩陣Sk(i)的原因是：計算矩陣Sk(i)的最大特征值λ1和另外2個特征值λ2、λ3的差值，其差值可以表示局部區(qū)域中的像素點沿著三維時空方向(三個坐標(biāo)軸分別為空間水平梯度、空間垂直梯度、運動矢量)分布的密集程度。差值越大，表示密集程度就越大，時空方向的一致性就越高。

因此，如式(6)所示，我們定義每個像素點的時空方向一致性c為：

c=(λ1-(λ2+λ3))2

(6)

如圖2所示，在輸入視頻灰度圖像中選取兩個矩形區(qū)域，船代表顯著性運動區(qū)域，水波代表非顯著性干擾區(qū)域。

圖2　coastguard視頻中選取的船和背景水波矩形區(qū)域

將所選取的兩個矩形區(qū)域中各個點繪制在三維時空方向圖中，三個坐標(biāo)軸分別為空間水平梯度、空間垂直梯度、運動矢量。如圖3所示，在顯著性運動區(qū)域(船)中的像素點密集程度高，時空域方向的一致性高，而非顯著性干擾區(qū)域(水波)像素點密集程度低，一致性低。

圖3　船和背景水波中的點的分布以及一致性c的值

1.3一致性對比

為了減少背景局部區(qū)域動態(tài)變化帶來的噪聲，體現(xiàn)出局部區(qū)域的一致性，我們將每個像素點的時空域方向一致性與其周圍像素點進行對比，得到對比值：

其中ck(i)、ck(j)分別為第k幀像素點i、j的時空方向一致性，Wi為以像素點i為中心的圖像矩陣，在本文中取7×7矩陣。計算可得，圖2中船的矩形區(qū)域V值為573.31，水波的矩形區(qū)域V值為145.38，二者的V值差異比一致性c差異更大一些。

2實驗結(jié)果與分析

為了驗證本文算法的有效性，將本文算法(MSC)與以下方法進行比較：基于譜殘差的顯著性模型(SR)[4]、基于空間區(qū)域?qū)Ρ榷扰c顏色信息的顯著性模型(RC)[6]、混合高斯模型(GMM)[8]?；谧V殘差的顯著性模型(SR)[4]是靜態(tài)空間信息模型；基于空間區(qū)域?qū)Ρ榷扰c顏色信息的顯著性模型(RC)[6]是結(jié)合顏色信息的顯著性模型；混合高斯模型(GMM)[8]是結(jié)合了時空信息的顯著性模型。在本文實驗中，選取5類不同場景的視頻進行測試：(1)有單個運動的物體，背景不動，且背景包含大塊平坦信息和紋理區(qū)域；(2)有2個運動的物體，背景不動，且背景紋理比較復(fù)雜；(3)有2個運動的物體，背景在運動，且背景紋理比較復(fù)雜；(4)有1個運動的物體，背景在運動，且背景紋理比較復(fù)雜；(5)鏡頭在運動，體現(xiàn)為背景在運動。實驗結(jié)果如圖4所示。

圖4　實驗結(jié)果

由圖4可以看出，本文算法與其他方法相比，能夠準(zhǔn)確地檢測出顯著性區(qū)域，并能夠很好地克服背景區(qū)域運動帶來的影響。具體來看，由于背景紋理區(qū)域運動的影響，SR模型算法并不能很好地區(qū)分顯著性運動的物體與背景；RC算法能夠很好地區(qū)分顏色信息，但是對運動的物體并不敏感，也不能很好地將運動的物體分離出來；GMM算法結(jié)合了時間信息，相對SR和RC要好一些，能夠檢測出顯著運動的物體，但是仍不能完全排除背景信息的干擾。這些算法并不能很好地排除背景區(qū)域運動帶來的噪聲，如水波和觀眾等。而本文算法結(jié)合了運動矢量和空間梯度，利用三維結(jié)構(gòu)張量模型，對比運動與空間方向的一致性，能夠很好地排除背景噪聲。

為了更加直觀地評價本文提出的方法，我們通過準(zhǔn)確率(precision)、召回率(recall)、加權(quán)調(diào)和均值指標(biāo)(F值)來比較本文算法與上述方法。其中準(zhǔn)確率(precision)定義為檢測到正確顯著點的數(shù)目與檢測到所有顯著點的數(shù)目之比，召回率(recall)定義為檢測到正確顯著點的數(shù)目與實際顯著點的數(shù)目之比。加權(quán)調(diào)和均值指標(biāo)(F值)的定義如式(8)所示。

(8)

一般而言，準(zhǔn)確率和召回率通常是矛盾的，所以采用F值來綜合表示顯著性檢測結(jié)果。在本文中，與文獻[6]相同，取λ2為0.3。檢測結(jié)果如圖5所示。我們可以看出，本文算法要好于其他方法。

圖5　顯著性檢測結(jié)果

利用coastguard視頻序列將本文算法的耗時與SR、RC、GMM算法進行比較，通過MATLAB 7.0計算各算法所耗時間。結(jié)果如圖6所示。我們可以看出本文算法(MSC)比其他算法耗時都要長，這是因為針對每個像素點都要計算三維張量結(jié)構(gòu)、三維矩陣特征值，并對比每個像素點與周圍像素點的一致性，耗時較多。

圖6　各算法耗時結(jié)果

3結(jié)語

本文提出了一種基于對比運動和空間梯度一致性的視頻顯著性檢測算法。該算法首先用光流法計算運動矢量，接著計算每幀輸入圖像的水平、垂直梯度，通過構(gòu)建三維張量結(jié)構(gòu)，計算每個像素點水平梯度、垂直梯度和運動矢量三者與周圍點的一致性，并通過對比一致性構(gòu)建出顯著性模型。實驗結(jié)果表明，本文算法能夠很好地排除背景紋理區(qū)域的運動帶來的噪聲，準(zhǔn)確地檢測出視頻顯著性區(qū)域，優(yōu)于其他方法。本文算法中計算三維張量結(jié)構(gòu)耗時比較多，如何改善該算法是后續(xù)的研究方向。

參考文獻

[1] Liu T, Yuan Z, Sun J, et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(2):353-367.

[2] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254-1259.

[3] Harel J, Koch C, Perona P. Graph-based visual saliency[C]// Proceedings of Neural Information Processing Systems. Vancouver: MIT Press, 2006:545-552.

[4] Hou X, Zhang L. Saliency detection: a spectral residual approach[C]// IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis: IEEE, 2007:1-7.

[5] Achanta R, Estrada E, Wils P, et al. Salient region detection and segmentation[C]// International Conference in Computer Vision System. Santorini: Springer, 2008:66-75.

[6] Cheng M, Zhang G, Mitra N J, et al. Global contrast based salient region detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs: IEEE, 2011:409-416.

[7] Perazzi F, Krahenbuhl P, Pritch Y, et al. Saliency filters: contrast based filtering for salient region detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012:733-740.

[8] Zivkovic Z. Improved adaptive Gaussian mixture model for background subtraction[C]// IEEE Conference on Pattern Recognition. Cambridge: IEEE, 2004:28-31.

[9] Zhai Y, Shan M. Visual attention detection in video sequences using spatiotemporal cues[C]// International Conference on Multimedia. Santa Barbara: ACM, 2006:815-824.

[10] Guo C, Ma Q, Zhang L. Spatiotemporal saliency detection using phase spectrum of quaternion Fourier transform[C]// IEEE Conference on Computer Vision and Pattern Recognition. Anchorage: IEEE, 2008:1-8.

[11] Fang Y, Wang Z, Lin W, et al. Video saliency incorporating spatiotemporal cues and uncertainty weighting[J]. IEEE Transaction on Image Processing, 2014, 23(9):3910-3921.

[12] Sun D, Roth S, Black M J. Secrets of optical flow estimation and their principles[C]// IEEE Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010:2432-2439.

[13] Rafael C Gonzalez, Richard E Woods. 數(shù)字圖像處理[M]. 阮秋琦,阮宇智,等譯. 3版. 北京:電子工業(yè)出版社, 2011.

[14] Laptev I, Lindeberg T. On space-time interest points[J]. International Journal of Computer Vision, 2005, 64(2):107-123.

收稿日期：2015-02-10。浙江省重點科技創(chuàng)新團隊項目(2011R0 9021)。韓冬，碩士生，主研領(lǐng)域：網(wǎng)絡(luò)視頻編解碼。田翔，副教授。陳耀武，教授。

中圖分類號TP391.4

文獻標(biāo)識碼A

DOI:10.3969/j.issn.1000-386x.2016.07.037

VIDEO SALIENCY DETECTION BASED ON CONTRASTING COHERENCE OF MOTION AND SPATIAL DIRECTION

Han DongTian XiangChen Yaowu

(InstituteofAdvancedDigitalTechnologyandInstrumentation,ZhejiangUniversity,Hangzhou310027,Zhejiang,China) (ZhejiangProvincialKeyLaboratoryforNetworkMultimediaTechnologies,Hangzhou310027,Zhejiang,China)

AbstractAccording to the characteristics of human visual system (HVS), we proposed an algorithm to detect the salient region of video sequence, which is based on contrasting the coherence of motion and spatial direction. In this algorithm, it first uses Sobel operator to calculate the horizontal gradient and vertical gradient for each frame, and then calculates the motion vector by the method of optical flow. After that, it builds a 3D tensor structure to obtain the coherence of each pixel with its surrounding pixels in regard to the horizontal and vertical gradients and the motion vector, as well as contrasts the coherence of each pixel with its surrounding pixels. Finally it converts the contrasting results to video saliency map. Comparing this algorithm with existing methods, experimental result showed that it could well exclude the impact of motion in background texture region and accurately detect the salient regions of all kinds of motion scenes.

KeywordsVideo saliencySpatial directionGradientMotion vector3D tensor structureContrast of coherence