李崇飛,高穎慧,盧 凱,曲智國
(1.國防科學技術大學計算機學院,湖南 長沙410073;2.國防科學技術大學ATR國家重點實驗室,湖南 長沙410073)
隨著成像技術和傳感器技術的飛速發(fā)展,圖像規(guī)模越來越大,這使得后續(xù)的圖像處理和目標分析面臨很大困難。在圖像分析過程中,觀察者往往只對部分區(qū)域有興趣,如果能夠僅僅只對感興趣區(qū)域進行分析處理,必然可以減少處理數據量,降低分析復雜性,并提高處理結果的準確性。研究發(fā)現,人類視覺系統(tǒng)HVS在觀察復雜場景時,可以迅速把注意力集中在某些顯著性目標上并對其優(yōu)先處理,這就是視覺注意機制。利用視覺注意機制來提取圖像顯著區(qū)域,進而對圖像顯著區(qū)域進行分析處理,可以大大減少處理數據量,提高分析準確性。最早的視覺注意機制模型是由Treisman A M和Gelade C[1]提出的特征綜合理論,該理論將視覺注意過程分為早期視覺信息的并行處理和后期視覺特征的串行融合。后來,Koch C等人[2]又對特征綜合理論進行了擴展,研究了視覺注意的焦點選擇和轉移機制,提出了神經生物學框架,其主要思想是首先對圖像的多種視覺特征進行抽取,然后計算每種特征的顯著圖,最后對各個分量的顯著圖進行融合。
基于神經生物學框架,產生了許多顯著性檢測模型[3,4],其中以Itti L和 Koch C提出的視覺注意模型最具代表性[4]。視覺注意模型通過提取圖像的多特征多尺度信息進行顯著性度量,并通過Center-Surround算子對結果進行融合得到顯著圖。結構相似性理論是由 Wang Zhou等[5,6]提出的用來對HVS整體功能進行高層次模擬的理論,該理論認為,HVS的主要功能是從視野中提取結構信息,以對結構信息的度量作為圖像感知質量的近似。結構相似度指數SSIM(Structural SIMilarity)是結構相似性理論的一個實現,它將結構信息定義為一種獨立于亮度和對比度的用來反映場景中物體結構的屬性,并將結構相似性建模為亮度、對比度和結構三個不同因素的組合。Itti模型對圖像噪聲、亮度等具有較強的魯棒性,但Itti模型還存在以下不足:(1)由于其采用近鄰插值,以多尺度特征圖的“尺度間差”近似Center-Surround算子,故顯著圖的空間分辨率較低且存在明顯的馬賽克效應[7];(2)Itti模型對顯著目標的輪廓提取能力較差,其檢測結果較易丟失邊緣信息,故只能通過圓形區(qū)域大致描述顯著區(qū)域的位置。由于Itti模型中的顯著圖描述了一種自底向上的圖像特征對人眼的刺激程度,是對多種特征下各個位置的顯著狀況的量化。而結構相似度描述了一種自頂向下的HVS模擬過程,是對圖像的高層次結構相似性信息的提取,十分符合人類視覺對顯著特征的描述。若將Itti模型中的顯著圖描述與結構相似度描述結合起來,對克服Itti模型的不足可以起到很好的作用。因此,本文基于神經生物學框架,建立了基于局部圖像結構相似度的顯著性檢測模型,該模型利用結構相似度對人類視覺系統(tǒng)的高層次抽象,通過新的Center-Surround算子對自然圖像的顯著程度進行度量,同時引入多特征融合方式。該模型更符合人類視覺對顯著性特征的檢測模式,可以克服Itti模型由于采用多尺度圖像插值產生的馬賽克現象,同時由于采用了局部相似度度量,對顯著目標的邊緣提取效果更好。
基于結構相似度的顯著性檢測模型以神經生物學框架為基礎,以局部結構相似度進行顯著性度量,模型主要包括三個步驟:首先按照特征融合理論和神經生物學框架把初級視覺特征分解為顏色、亮度、方向三個類型的特征;然后對三個初級視覺特征進行局部相似度度量,得到各個特征分量的顯著圖;最后對三個特征分量顯著圖進行融合得到最終顯著圖,同時通過二值化得到相應的顯著區(qū)域。具體如圖1所示。
Figure 1 Salient region detection model proposed in this paper圖1 基于結構相似度的顯著性檢測模型
解剖學和物理心理學的研究結果表明,視覺系統(tǒng)會將輸入的視覺信息分離成不同的通道,并輸送到不同子系統(tǒng)進行分析和編碼,形成不同的屬性[7]。本文選擇視覺較為敏感的亮度、顏色和方向三類特征參與檢測。
假設輸入圖像的紅綠藍三個RGB分量分別是r、g、b,則亮度通道可以通過式(1)求得:
由于人眼的顏色通道有顏色雙對抗(Double Opponent)系統(tǒng),紅色的中心被綠色周邊抑制,或藍色的中心被黃色的周邊抑制,紅、綠、黃、藍四個通道分別通過式(2)~式(5)求得[4]:
顏色特征分量使用顏色雙對抗系統(tǒng)表示為紅綠拮抗和黃藍拮抗。如公式(6)和(7)所示。
對于方向特征,使用0°、45°、90°、135° 四個方向的Gabor濾波器分別對灰度圖I進行濾波,得到四個方向的特征圖。這樣,一共得到圖像的七個底層特征,分別是一個灰度特征、兩個顏色特征和四個方向特征。
場景圖像中各個位置的局部顯著性度量定義為某種特征在該位置的局部對比度,可以采用Center-Surround算子與特征圖卷積求得。在人類視覺中,與周圍特征存在反差的圖像位置經過Center-Surround算子的作用將產生較強的響應,實現了從視覺敏感特征向視覺刺激的轉化。本文從一個新的角度計算Center-Surround算子,即采用結構相似度度量圖像中某位置與周圍的反差程度。
結構相似度從圖像組成的角度解釋結構信息,將結構信息定義為圖像中獨立于亮度、對比度,反映場景中物體結構的屬性。結構相似度將相似性建模為三個不同因素的組合:亮度(l)、對比度(c)和結構(s),用均值 (μx,μy)作為亮度的估計,用標準差 (σx,σy)作為對比度的估計,以協方差 (σxy)作為結構相似程度的度量。結構相似度定義為:
其中,x和y分別是進行對比的子圖像塊。
σ、β、α>0,這三個參數用來調整亮度、對比度和結構信息的權重,C1、C2、C3是為了防止分母接近零時產生不穩(wěn)定現象所添加的常數。取σ=β=α=1,C3=C2/2,則結構相似性可以簡化為:
本文定義的Center-Surround計算單元如圖2所示,計算圖像某點的局部結構相似度,首先定義以此像素點為中心的3×3的區(qū)域為Center域,定義以此像素點為中心的7×7的區(qū)域為Surround域,Center域形成一個Center矩陣,而Surround域則形成一系列Surround矩陣,Center矩陣沿Surround域左上角開始滑動,按照公式(12)和Surround矩陣依次計算相似度。最終按照公式(13)得到此像素點X的局部結構相似度均值。
Figure 2 Center-Surround definition圖2 Center-Surround定義
對特征圖中的所有像素點計算局部結構相似度均值得到相應的相似度圖,然后對相似度圖進行歸一化處理。由于圖像的結構相似度越高,其顯著性越低,使用全一矩陣減去相似度圖得到每個特征圖的顯著圖。
依照Treisman的特征融合理論,要把各個特征分量的顯著圖進行加權融合 。本文對三種特征采用平均加權的方式進行融合,其中顏色分量和方向分量分別先進行加權平均融合,最后對三個分量再進行融合。具體如公式(14)所示:
為了得到更精確的顯著區(qū)域和顯著目標輪廓,需要對顯著圖進行閾值分割得到二值圖??梢圆捎脛討B(tài)設置閾值的方法進行閾值分割[8]。首先得到顯著圖的灰度直方圖,計算直方圖的數學期望E和標準差σ。由統(tǒng)計學可知,直方圖大部分數據都集中在E-σ和E+σ之間,設閾值為E-σ,可以動態(tài)地得到魯棒性較強的分割閾值,最終利用二值圖對原圖像進行顯著區(qū)域提?。ㄈ鐖D3所示)。
Figure 3 Saliency map and salient region detection圖3 顯著圖與顯著區(qū)域提取
為了驗證本文方法的正確性,采用文獻[9,10]中的圖庫進行實驗,并與Itti模型處理結果進行對比,Itti模型處理結果使用文獻[4]提供的工具箱在Matlab環(huán)境下生成。實驗在Intel XEON 6700雙核處理器,2GB內存的硬件環(huán)境下進行,操作系統(tǒng)為 Microsoft Windows XP Service Pack 2,實驗開發(fā)環(huán)境是Matlab R2009a。
圖4為本文方法的檢測結果與Itti方法檢測結果的對比圖。從中可以看出,Itti方法得到的顯著圖模糊程度比較嚴重,無法提取顯著區(qū)域的有效邊緣,并存在一定的馬賽克現象,尤其對于第二幅圖的小島和第三幅圖的自行車無法檢測到正確的顯著區(qū)域。而本文方法可以檢測到所有顯著區(qū)域且顯著區(qū)域的輪廓比較清晰,可以較好地指示顯著目標的邊緣,顯著圖的整體對比度更高,后續(xù)處理更方便。
Figure 4 Results of our method in comparison with Itti’s model圖4 本文方法檢測結果及與Itti方法的對比
圖5 a和圖5b為增加了不同程度高斯噪聲的自然圖像檢測結果,圖5c和圖5d為增加不同程度椒鹽噪聲的檢測結果??梢钥闯?,當噪聲增加時,檢測結果出現了誤差,一些非顯著區(qū)域被檢測到,但顯著區(qū)域仍可以被檢測出來。這說明本文方法具有較好的抗噪性能。
基于Koch神經生物學框架和結構相似性理論,本文構建了一種多特征融合的視覺顯著性檢測方法,該方法利用局部結構相似性描述顯著性,利用結構相似性對HVS的高層次抽象檢測圖片的顯著性特征。實驗結果表明,本文方法可以有效檢測出自然圖像的顯著區(qū)域,并具有較好的抗噪性能。與經典的Itti方法相比,本文方法可以克服采用鄰近插值產生的馬賽克現象,在顯著圖的對比度和顯著區(qū)域邊緣信息檢測等方面都較Itti方法有較大提高。
本文方法僅僅利用視覺較為敏感的亮度、顏色和方向這三類特征進行檢測,而紋理、深度等特征在HVS中也發(fā)揮著一定作用。另一方面,人類視覺在進行觀察時,會利用多尺度特性,而本文方法沒有加以考慮。因此,接下來的工作中,我們將進一步探討多特征與結構相似度的關系,并考慮在未來的改進中加入多尺度信息。
[1] Treisman A M,Gelade C.A feature integration theory of at-tention[J].Cognitive Psychology,1980,(12):97-136.
[2] Koch C,Ullman S.Shifts in selective visual attention:Towards the underlying neural circuitry[J].Human Neurobiology,1985,4(4):219-227.
[3] Dashan G,Vijay M.On the plausibility of the discriminant center-surround hypothesis for visual saliency[J].Journal of Vision,2008,8(7):1-18.
[4] Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[5] Wang Zhou,Bovik A C.A universal image quality index[J].IEEE Signal Processing Letters,2002,9(3):81-84.
[6] Wang Zhou,Bovik A C,Sheikh H R,et al.Image quality assessment:From error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[7] Treisman A.Feature binding,attention and object perception[J].Philosophical Transactions of the Royal Society of Loondon:Series B,1998,353(1373):1295-1306.
[8] Ge T,Feng S.A method for image salient regions detection based on layers and dynamic threshold[J].Journal of Computer Applications,2006,26(11):2721-2723.
[9] Hou X,Zhang L.Saliency detection:A spectral residual approach[C]∥Proc of CVPR,2007:1.
[10] Wolfe J.Guided search 2.0:A revised model of guided search[J].Psychonomic Bulletin & Review,1994,1(2):202-238.