陳振東
(江蘇財經(jīng)職業(yè)技術(shù)學(xué)院,江蘇 淮安 223003)
對于一幅圖像來說,用戶只對圖像中的部分區(qū)域感興趣,這部分感興趣的區(qū)域代表了用戶的查詢意圖,而多數(shù)剩余的不感興趣區(qū)域則與用戶查詢意圖無關(guān).顯著區(qū)域是圖像中最能引起用戶興趣、最能表現(xiàn)圖像內(nèi)容的區(qū)域.事實上,顯著區(qū)域的選擇是非常主觀的,由于用戶任務(wù)和知識背景的不同,對于同一幅圖像,不同的用戶可能會選擇不同的區(qū)域作為顯著區(qū)域.
常用的方法是利用人的注意力機(jī)制為基礎(chǔ)計算圖像的顯著度.認(rèn)知心理學(xué)的研究表明,圖像中有些區(qū)域能顯著的吸引人的注意,這些區(qū)域含有較大的信息量.認(rèn)知科學(xué)家已經(jīng)提出了許多數(shù)學(xué)模型來模擬人的注意力機(jī)制.由于利用了圖像認(rèn)知過程中的一般規(guī)律,這樣提取的顯著區(qū)域比較符合人的主觀評價.
基于視覺特征的方法最具代表性的是Itti等人[1]提出的顯著圖方法.這種方法利用了神經(jīng)生理學(xué)中的感受野、側(cè)抑制神經(jīng)網(wǎng)絡(luò)等研究成果,模擬了人的視覺注意力機(jī)制.認(rèn)為像素與背景的對比是吸引人注意的重要因素,并把這種對比定義為該點的顯著值.綜合考慮顏色、亮度、方向等多種特征的顯著值得到圖像的顯著圖,然后再根據(jù)顯著圖確定圖像的顯著區(qū)域.在此基礎(chǔ)上很多人也提出了不同的顯著性分析方法,如圖論GBVS[2],頻譜殘差SR[3]等.國內(nèi)在Itti方法的基礎(chǔ)上提出了多尺度分析方法[4]檢測效果比較好,而且保持了圖像的完整分辨率,防止信息丟失.
本文借鑒多尺度分析方法的思想提出一種基于頻率域的圖像顯著區(qū)域的提取方法,并與多尺度分析方法和Itti方法進(jìn)行了對比.為此,下面首先簡要介紹一下多尺度分析方法的原理,在此基礎(chǔ)上詳細(xì)闡述了本文提出的顯著區(qū)域提取方法,并通過實驗對比了本文提出的方法與Itti方法、多尺度分析方法的性能好壞和分割效果.
圖1 :(a)對比度濾波器里的內(nèi)部區(qū)域R1和R2;(b)當(dāng)R1大小固定時,不同尺度對應(yīng)的R2的大小;(c)計算顯著圖的遍歷順序
顯著度是由圖像區(qū)域與其周圍區(qū)域(選取不同的大小范圍)的對比度決定的,在多尺度分析方法中由圖像區(qū)域各像素的特征向量均值與其鄰域特征向量的距離得到此區(qū)域的顯著度.
具體實現(xiàn)過程如圖1,(a)中區(qū)域R1(顏色較深區(qū)域)為一個固定大小的區(qū)域,區(qū)域R2(顏色較淺區(qū)域)為包含區(qū)域R1的一個大小可變(多尺度)區(qū)域.(b)中區(qū)域R1的大小可以為一個像素,但是當(dāng)圖像中噪聲比較大時,R1可以設(shè)定為一個較小的區(qū)域,如9×9等像素塊大小;而區(qū)域區(qū)域R2大小有3個尺度(h/8、h/4、h/2,h≤w).(c)中通過過由左到右、由上到下遍歷整幅圖像,計算R1和R2的特征距離,并把特征距離轉(zhuǎn)化到0-255范圍內(nèi),由此得到灰度顯著圖.因為R2有3個尺度,計算R1和R2的特征距離作為顯著度,這樣共得到3幅灰度顯著圖.對3幅顯著圖對應(yīng)像素點的灰度值求和求平均,就得到與原圖像一樣大小的顯著圖.
圖像R1顯著度可以這樣表示:
其中N1和N2分別為區(qū)域R1和區(qū)域R2中像素的個數(shù).V為區(qū)域R1和區(qū)域R2中各像素的特征向量,D為歐氏距離.為了方便計算,由于在CIELab顏色空間中,人所感覺的顏色差距近似為歐氏距離,因此上式D可以這樣表示:
其中:v1= [L1,a1,b1]T,v2= [L2,a2,b2]T分別為區(qū)域 R1和區(qū)域R2的平均特征向量.最終的顯著圖M在多種尺度s下顯著圖的顯著度值的和,如下式所示:
其中mij是顯著圖M的像素對應(yīng)的顯著度值.
多尺度分析方法保持了圖像的分辨率,然而,根據(jù)多尺度分析方法的原理,小于濾波器尺寸的目標(biāo)可以檢測出來,但是大于濾波器尺寸的目標(biāo)只能部分檢測出來.能被最小濾波器很好檢測到的小一點的目標(biāo)肯定能被三個濾波器檢測到,而大點的目標(biāo)只能被大點的濾波器檢測到.因為最終的顯著圖是這三個特征圖(對應(yīng)著三個濾波器的檢測)之和的平均值,較小的目標(biāo)始終能很好的突出.這個從圖2可以看出,玩具熊的眼睛比它的其他部分更突出.因此,多尺度分析方法不能統(tǒng)一地突出顯著性區(qū)域,只能突出較小的目標(biāo).本文介紹的方法能夠解決這個問題,有效地輸出完整分辨率的顯著圖.
圖2
本文方法基于顏色和亮度來估計中心-周圍像素對比度的,有三大優(yōu)勢:一致地使顯著性區(qū)域突出,并且使該區(qū)域具有明確的邊界;完整的分辨率;計算簡單.
我們用wlc代表低頻截斷閾值,whc代表高頻截斷閾值.為了克服多尺度分析方法的缺點,突出大的顯著性目標(biāo),我們需要考慮原始圖像對應(yīng)的非常低的頻率,也就是wlc要低.wlc低也有助于一致地突出顯著性目標(biāo),不會只突出目標(biāo)的一部分.為了獲得明確的邊界,我們需要保持原始圖像對應(yīng)的高頻信息,也就是whc要高.然而,為了避免噪聲、紋理、阻擋物體的高頻信息的干擾,需要去除最高的頻率.因此,顯著圖應(yīng)該包含較大范圍的頻率,所以一些帶通濾波器[wlc,whc]的組合是非常必要的.
本文選擇高斯差分濾波器(公式4)作為帶通濾波器.該濾波器因為有效地逼近拉普拉斯高斯濾波器,因此被廣泛地應(yīng)用于邊緣檢測[5].高斯差分濾波器也常用于感興趣點檢測[6]和顯著性區(qū)域檢測[7,8].下式給出高斯差分濾波器,其中 σ1,σ2(σ1> σ2)是高斯濾波器的標(biāo)準(zhǔn)方差:
一個高斯差分濾波器是簡單的帶通濾波器,它的通頻帶寬度是由σ1:σ2控制.我們考慮將若干個高斯差分濾波器進(jìn)行組合.如果定義σ1=ρσ和σ1=σ,那么ρ=σ1/σ2,那么這些具有標(biāo)準(zhǔn)方差的高斯差分濾波器的總和:
其中N為正整數(shù),上式結(jié)果實質(zhì)就是兩個高斯值的差,它們的標(biāo)準(zhǔn)方差的比例是K=ρN.如果假設(shè)σ1和σ2變化來保持ρ為常數(shù)1.6(為了檢測邊緣的需要),那么需要增加一些邊緣檢測算子在不同的圖像尺度上的輸出.這樣就保證了整個顯著性區(qū)域都可以得到突出,而不是只是顯著性區(qū)域的邊緣或者其中心部分得到突出.
在計算顯著圖時,需要選擇適當(dāng)?shù)摩?和σ2來確保帶通濾波器保留我們所需要的原始圖像空間頻率.給定足夠長的濾波器和σ1與σ2之間足夠大的差分,公式(4)里的帶通濾波器通頻帶就可以近似看成來自兩個連續(xù)的高斯濾波器.因為σ1>σ2,那么wlc大小由σ1控制,whc大小由σ2控制.然后,在實際應(yīng)用中,這些濾波器的長度不可能足夠長,雖然實現(xiàn)很簡單,但是近似就不精確.
為了在標(biāo)準(zhǔn)方差下實現(xiàn)大的比例值,σ1被設(shè)置成無窮大.為了消除噪聲和紋理的高頻信息以及計算方便,本文使用小的高斯核.這些小的高斯核的二項式濾波器能夠很好地擬合離散的高斯值[9].因此,本文方法比多尺度分析方法更好地保持了高頻信息.
對于W*H大小的圖像I,計算其顯著圖S如下式:
其中Iμ是圖像I的算術(shù)平均灰度值,Iwhc是為了消除紋理細(xì)節(jié)和噪音將該圖像經(jīng)過高斯模糊后的值.因為對這兩者之間的差值大小感興趣,因此就用絕對值這個范數(shù)來表示,這樣計算方便.我們對圖像不需要下采樣,可以直接得到完整分辨率的顯著圖.
與多尺度分析方法類似,本文在CIELab顏色空間提取顏色特征,其中每個像素在CIELab顏色空間里都是[L,a,b]T的形式:
多尺度分析方法里的顯著區(qū)域提取方法是先利用爬山算法來選取K個初始點然后用K均值算法進(jìn)行過分割然后根據(jù)固定閾值進(jìn)行提取.而根據(jù)[10],均值偏移算法比K均值算法更好地分割出邊界.我們在Lab顏色空間里實現(xiàn)均值偏移算法,對參數(shù)sigmaS,sigmaR和minRegion分別設(shè)定7,10和20.對于每一幅圖像都采用一個固定閾值效果不一定都好,因此本文在這采用自適應(yīng)閾值T,該值設(shè)定為圖像平均顯著值的兩倍,如下式所示:
其中W和H分別是顯著圖的寬和高,S(x,y)是坐標(biāo)為(x,y)的像素點對應(yīng)的顯著值.
由此,本文算法的流程示意圖如圖3所示:
圖3
測試使用的機(jī)器(PIV,cpu 3.0G,2G內(nèi)存),軟件平臺采用Matlab7.0.在本文中選取文獻(xiàn)[11]中的真實圖像庫作為實驗圖像集,
為了衡量本算法性能優(yōu)劣,本文采用 F-measure作為參數(shù),該值是查準(zhǔn)率(precision)和查全率(recall)的函數(shù),如公式(9)所示,在這里為了側(cè)重查準(zhǔn)率,選擇β2=0.3:
對1000幅不同的圖像分別采用Itti方法、多尺度分析方法和本文方法,分別求得查準(zhǔn)率、查全率和F-measure,求得平均值如圖4所示:
圖4 三種不同方法查準(zhǔn)率、查全率、F-measure值比較圖
從上圖可以看出,無論查準(zhǔn)率還是查全率或F-measure,本文方法都優(yōu)于其他兩種方法.
其中,選擇兩幅圖進(jìn)行三種不同方法的處理后得到的顯著圖進(jìn)行比較,分別如圖5和圖6所示,圖6的原圖是圖2的(a).
圖5
圖6
從圖5和圖6可以看出,與其他兩種方法相比,本文方法不僅統(tǒng)一地突出顯著性區(qū)域、具有明確的邊界,而且消除了紋理和噪聲對圖像的影響,效果非常好.
本文在頻率域里分析顯著性區(qū)域提取的方法,使用顏色和亮度這兩個特征來計算顯著圖,然后采用meanshift方法結(jié)合自適應(yīng)閾值方法提取顯著性區(qū)域.該方法易于實現(xiàn),計算速度快并且提供完整分辨率的顯著圖.實驗結(jié)果表明,與Itti方法和多尺度分析方法相比,本文方法無論查準(zhǔn)率、查全率還是F-measure值都最高,提取效果令人滿意.但是本文方法也有不足就是:背景復(fù)雜的時候,顯著目標(biāo)提取效果不夠理想,這有待進(jìn)一步改進(jìn).
[1]L.Itti,C.Koch,and E.Niebur.A model of saliency - based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254 –1259.
[2]J.Harel,C.Koch,and P.Perona.Graph - based visual saliency[J].Advances in Neural Information Processing Systems,2007,19:545 –552.
[3]X.Hou and L.Zhang,Saliency detection:A spectral residual approach:IEEE Conference on Computer Vision and Pattern Recognition[C],2007:1–8.
[4]王國營,梁春迎.一種圖像顯著區(qū)域的提取方法[J].計算機(jī)應(yīng)用,2010,30(6):1619-1621.
[5]D.Marr.Vision:a computational investigation into the human representation and processing of visual information[M].W.H.Freeman,San Francisco,1982.
[6]D.G.Lowe.Distinctive image features from scale - invariant feature points[J].International Journal of Computer Vision,2004,60:91–110.
[7]J.Harel,C.Koch,and P.Perona.Graph - based visual saliency[J].Advances in Neural Information Processing Systems,2007,19:545 –552.
[8]S.Alpert,M.Galun,R.Basri,A.Brandt.Image Segmentation by Probabilistic Bottom - Up Aggregation and Cue Integration:IEEE International Conference on Computer Vision and pattern Recognition[C],2007:1-8.
[9]J.L.Crowley,O.Riff,and J.H.Piater.Fast computation of characteristic scale using a half octave pyramid.International Conference on Scale-Space theories in Computer Vision[C],2003.
[10]C.Christoudias,B.Georgescu,and P.Meer.Synergism in low level vision.IEEE Conference on Pattern Recognition[C],2002.
[11]T.Liu,J.Sun,N.-N.Zheng,X.Tang,and H.-Y.Shum.Learning to detect a salient object.IEEE Conference on Computer Vision and Pattern Recognition[C],2007.