楊思燕,周國慶
(1.陜西廣播電視大學計算機與信息管理系,陜西西安710119;2.西安電子科技大學計算機學院,陜西西安710071)
隨著多媒體技術的日益發(fā)展和傳感器科技的不斷進步,圖像信息已然成為洞察世界的主要窗口,紛繁復雜的圖像數據依賴人工處理已十分困難,迫切需要智能化處理方式的參與。在計算機視覺和圖像分析處理中,我們關心的并不是整幅圖像而是引起人眼關注的一部分區(qū)域,稱為顯著區(qū)域。所謂顯著區(qū)域,主要包含了人眼最為關心的重要場景,較好地描述了圖像的信息數據,是能夠刺激人的視覺系統(tǒng)(HVS)在極短的時間內把注意力關注到圖像中的區(qū)域。如果在圖像分析中引入視覺注意的這種不同優(yōu)先級處理機制,賦予各異的圖像區(qū)域,不但能夠減少計算機分析圖像的時間復雜度,而且能夠顯著提高處理計算的效率和定位關注的顯著區(qū)域。
普遍被認可的分類方式是將顯著性區(qū)域檢測算法[1-4]歸納為基于空域的顯著性檢測算法和基于頻域的顯著性檢測算法兩大類,這是從處理空間的方式上進行劃分的,也比較容易將算法分類清楚?;诳沼虻囊曈X顯著性檢測算法啟蒙于神經科學和生物學研究,因而該類算法誕生較早。起先是受大腦神經處理機制的啟發(fā)Treisman和Gelade首次提出了特征綜合理論[5],總結HVS處理機制分為帶有預處理感知的并行處理階段和具有選擇性關注知覺的串行融合階段。而后Koeh和Ullman對該理論的研究不斷深入并對其進行了擴展[6],創(chuàng)建和發(fā)展了視覺注意的焦點選擇和轉移機制理論,并首次發(fā)明了顯著圖的概念理念。借鑒和研究這些理論成果,Itti等人構建了首個自底向上的基于空域的視覺顯著性算法模型(IT)[1],該算法從多特征多尺度角度利用圖像的顏色、方向等信息進行顯著性值計算,并運用中央—周圍差原則(Center-Surround)算子對初步顯著圖運用線性融合操作獲取最終顯著圖。盡管IT是模仿和符合仿生學機理的,但由于有對參數選擇的敏感性和計算時間的復雜度較高等原因,沒有在實時應用或工程中得到較好的發(fā)揮,限制了其應用的發(fā)展。通過研究IT模型的形成機理,Bruce等人引入信息論的原理將圖像數據利用信息熵原則進行處理提出了信息最大化的顯著性算法模型(AIM)[7]。而Harel等人將圖論的思想借鑒到顯著性算法模型中來,提出基于馬爾科夫連隨機場的檢測模型(GB)[8]。這些基于空域的算法模型方法提取圖像的特征都較為復雜,而且計算機處理的時間冗余度也較高,一定程度限制了其方法的利用。
為了提升模型的實用性和提高算法的實時性,受頻域特征的啟發(fā),HVS研究者將其借鑒到視覺顯著性檢測算法模型中,構建了許多優(yōu)秀的基于頻域的視覺顯著性目標檢測方法。而Hou和Zhang開創(chuàng)先河地提出了基于頻域處理的譜殘余方法(SR)[4],該方法首先運用傅里葉變換操作圖像的頻率譜獲取殘差譜,再進行傅里葉逆變換獲取圖像的空域顯著圖。Guo等人受SR方法的啟發(fā)提出了一種頻域顯著性目標提取模型[5],其對圖像利用傅里葉變換操作后不考慮幅度譜信息,直接運用相位譜的逆變換提取顯著圖。值得關注的是Achanta等人改變圖像的色彩空間并進行頻域處理,提出了一種效果較為滿意的顯著性算法模型(FT)[6]。這些基于頻域的顯著性檢測算法具備分析處理速度快的優(yōu)勢,因此備受研究者們的青睞,從而日益成為視覺顯著性目標探測算法的研究熱點。但現有算法也存在下列劣勢:1)對復雜背景提取效果不好或當場景中存在弱小目標時檢測不到;2)所檢測到的目標輪廓不很清楚或模糊不清為后續(xù)處理帶來了難度;3)獲取的目標不能直接應用
針對已有的基于頻域的顯著性區(qū)域檢測方法的不足,本文提出了一種利用圖像寬頻調諧信息和結合譜殘差分析的顯著目標檢測算法。
根據HVS視覺規(guī)律特點,人眼對目標的亮度、顏色、空間方位、運動等特征特別敏感。研究發(fā)現人類通過灰度信息只能分辨出幾十種目標特征,而運用色調信息卻可以識別出成千上萬種目標,所以顏色特征被推崇為是對目標信息比較強有力的表達方式。同時,利用顏色信息對目標進行區(qū)分,符合人腦感知目標特性的心理和神經過程;而且HVS對顏色的區(qū)分能力(選擇性)是相當強的,因此我們也選用顏色信息進行特征分析。IT等基于空域的方法一般選用的是RGB顏色空間,FT等基于頻域的方法將RGB空間轉換為Lab顏色空間進行顯著值計算;但通過實驗發(fā)現,這兩種顏色特征都有些缺陷,盡管FT是目前方法中比較優(yōu)秀的,但還會存在誤檢或漏檢的不足;而通過大量實驗發(fā)現利用顏色的寬頻特征可以彌補這種不足,圖1是最好的證明。因此,文中利用寬頻調諧顏色進行顯著圖的計算。
從圖1可以看出,本文利用寬頻調諧顏色的優(yōu)勢,能夠檢測出FT方法不能檢測或漏檢的部分,后續(xù)的實驗也論證了這點,確實比FT方法能夠精確檢測目標。
根據文獻[4]的結論表明,目標位置也會影響顯著目標的顯著值,引入上下文信息可以消除位置的不確定和歧義性,更為準確地獲取圖像的關注區(qū)域。因此,文中利用公式(1)進行寬頻調諧特征的顯著值計算。
其中,dcolor(Pp,Pq)表示特征之間的差異性。本文方法選用的是寬頻調諧顏色特征,所以dcolor(Pp,Pq)就是計算Pp和Pq在RGB色彩空間中的顏色特征差。dposition(Pp,Pq)計算特征之間的空間位置差值。C是一個影響因子,用來控制空間位置關系的權重大小。在該文計算時,設置c=3。通過對文獻[3-5]的深入學習和實驗論證,在目標的顯著值除受顏色信息、位置信息等因素影響,最為重要的還有尺度信息。
圖像中的顯著目標可以而且通常出現在各種尺度中。簡答而言,人眼觀察目標會根據距離的遠近而關注不同的對象,距離近關注的是小目標,而距離遠關注的就是大目標,從某種程度上來講,能夠吸引人注意的目標在各個尺度下的顯著值大小是不一樣的。大量實驗發(fā)現尺度不同的情況下,目標和背景信息受尺度的干擾是不一樣的,因此利用多尺度分析對目標信息的獲取更為精確。這也建議我們進行顯著性檢測時,應當盡可能地考慮尺度的選擇。為此,大多數多尺度(比如Itti模型等)顯著模型提取了在不同尺度下的多尺度特征圖,然后再利用一定的融合策略組合這些特征圖。在進行尺度選擇時,可以利用滑動窗口、高斯金字塔等方法。而上文中提到的Itti模型(包括其他模型)都是利用多尺度進行分析提取圖像特征進行顯著值的尺度比較得到各個尺度下的特征圖。而本文在進行顯著圖精細化處理的時候,也借鑒了這種思想,能夠較好地去除背景信息,突出顯著物,達到顯著圖優(yōu)化的目標。
本算法運用多尺度分析來提取目標對象的顯著值,本文選用三個不同尺度來計算圖像的顯著值,圖像最終的顯著值計算為
圖1 特征選擇實驗Fig.1 Experiments of feature selection
圖2 尺度空間圖Fig.2 Multi-scale space sub-image
設定原始圖像I的尺寸為H×W,其中H為高度,W為寬度:
1)對目標圖像運用高斯平滑操作,以去除因噪聲、成像編碼帶來的誤差及紋理的影響,獲取到一個新的圖像Ig,其計算公式如下:
式中:(I,J)為圖像的坐標值;符號“×”表示卷積操作;G為高斯平滑濾波器,本文尺度大小選用5×5或7×7。本算法采用的二維Gabor濾波器的計算公式為:
其中公式(4)中,
θ為Gabor濾波器的方向信息,σx和σy分別為軸x和y軸方向的高斯方差,f為Gabor濾波器的中心頻率
2)提取圖像Ig的R、G、B 3個通道的寬頻調諧顏色信息,根據公式(1)檢測的初步結果利用公式(2)-(4)得到亮度I特征、RG特征、BY特征
3)計算每個寬頻調諧特征下所對應的整幅圖像的均值:
4)對于每個像素,計算各寬頻調諧特征下與整幅圖像均值之間的距離并進行歸一化處理操作,便于圖像信息的顯示.
5)特征融合得到每個像素的初步顯著值:
根據文獻[6]信息論理論,紛繁復雜的自然圖像H(image)是有規(guī)律可循的,其可以用兩部分來表征所包含的目標對象,一是新穎的反常信息H(innovation),二是冗余的常見信息H(redundancy)。
新穎的反常信息H(innovation)就是我們感興趣的目標區(qū)域(圖像的顯著信息),可以運用下式求得。
據HVS研究者發(fā)現,自然圖像擁有統(tǒng)計特性變換不變性的規(guī)律特征,并運用實驗證明了其在幅度譜上符1/f規(guī)則[8](即某頻率的幅值與該頻率的倒數成正比)。因此文中運用圖像log頻譜與頻率幾乎呈線性關系的特性來進行操作運算。因為對目標圖像在log譜上做操作運算,可以通過運用平均濾波器與幅度譜進行卷積獲取冗余數據并進行逆運算操作進一步得到我們所關注的目標信息。
6)對獲取到的初步特征圖S進行殘差分析。對特征圖S(x),首先對其進行二維離散傅里葉變換操作,從空間域轉換到頻域處理,對幅值取對數后得到Log譜L(f):
式中F代表二維離散傅里葉變換,[S(x])代表其幅值,φ代表其相位。由于log曲線滿足局部線性條件的特征規(guī)律,因此采用了局部平均濾波器hn(f)對目標圖像做平滑處理,獲取到log譜的大致輪廓:
式中hn(f)是一個n×n的矩陣,定義為
運用公式(23)可以獲取圖像更為精確的顯著信息,因為其描述原圖像各像素的最終顯著值,構建了最終的顯著圖(saliency map)。本文在此步也融入尺度分析方法上利用公式(2)進一步進行多尺度分析,得到更為精細和完美輪廓的圖像最終顯著圖。
本文n取3,利用公式(16)-(21)就可以獲取我們所需要的譜殘差,計算方式如下:
公式(22)得到的結果就是我們需要的譜殘差,表征和描述的就是我們所最為關心的感興趣區(qū)域,因此就可以獲取目標對象。利用譜殘差和相位P(f)運用二維離散傅里葉逆變換操作:
為了顯示我們算法的優(yōu)越性和實用性,利用微軟(MSRA)數據庫上的1 000張不同類型的圖片,我們選用Intel Pentium Dual 2.9GHz CPU、4GB內存的微機首先進行定性實驗,其次進行定量分析比較。圖2為選取的部分實驗結果圖(且與較為流行和較為優(yōu)勢的IT[3]、SR[4]、FT[6]、GB[7]、AIM算法等進行實驗比較),其中KB為本文的算法。
圖3 六種顯著圖對比結果Fig.3 Comparison of 6 results
圖2中描述了文中算法與較為優(yōu)勢的五種算法結果實驗圖。從中明顯發(fā)現,IT算法只能大體檢測顯著目標的位置信息且不能完整描述輪廓;SR算法獲取到的顯著圖也不能表達顯著目標的邊緣信息,且對背景噪聲的敏感性較強;GB和AIM算法獲取的感興趣區(qū)域目標輪廓還不是很清晰,難以精準分割目標對象;盡管FT算法獲得的感興趣區(qū)域擁有良好的邊緣信息,但會出現漏檢或誤檢的情況,尤其是背景與目標較為接近的時候;文中方法由于考慮了頻率特征和上下文信息并運用了多尺度,去除了背景干擾信息,保留了感興趣區(qū)域的邊緣信息,獲取的顯著圖不但輪廓清晰完整而且邊緣信息線條明顯。為了證實我們方法的優(yōu)勢性,我們也對統(tǒng)計結果進行定量分析;選用和借鑒文獻[6]中的方法首先對最終顯著圖進行二值化處理操作,然后再與標準圖庫(實際分割圖)進行對比驗證,獲取查準率(precision)和查全率(recall)及F3個指標值。給定實際分割圖G=[g1,g2,…,gn]和算法獲取的顯著圖S=[s1,s2,…,sn],查準率(precision)和查全率(recall)以及F指標的定義如下:
其中,設置β2=0.25,得到的查準率和查全率以及F指標如圖4。
圖4 定量分析結果圖Fig.4 Quantitive analysis of the results
從圖3明顯看出,IT、AIM和GB3種算法得到的查準率和查全率都極為低,因此對后續(xù)處理會困難重重,難以分割精準的目標信息;從查準率和查全率以及F指標來看,本文算法獲得的3個指標(分別為0.92,0.89,0.882)明顯好于IT、AIM和GB算法;比SR方法(分別為0.81,0.79,0.805)和目前較為優(yōu)秀的FT方法(分別為0.89,0.84,0.835)都要好。因此從定量分析的結果來看,文中提出的算法優(yōu)勢較為明顯,特別是查準率,對確定人眼感興趣目標位置和精準分割場景中目標對象是優(yōu)勢明顯的,擴大了視覺顯著性算法應用的深度和廣度,為實際應用進一步提升了范圍。
文中經過深入研究通HVS的視覺規(guī)律,提出了一種利用圖像寬頻調諧信息和結合譜殘差分析的顯著性目標檢測新算法。該方法將圖像的上下文信息和頻率特征融合在一起,運用多尺度方法提取圖像的感興趣區(qū)域。大量實驗結果證實,文中算法在能夠提取較為精確的目標邊緣和獲取更好的細節(jié)。但多尺度如何細分還需要進一步探討以及算法還沒有應用到具體的目標識別任務中去,下步將是研究的重點。
[1] Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans.On Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[2] Hou X,Zhang L.Saliency Detection:A Spectral Residual Approach[C]//Proc.CVPR,2007.
[3] Guo C L,Ma Q,Zhang L M.Spatio-temporal Saliency Detection Using Phase Spectrum of Quaternion Fourier Transform[C]//Proc.CVPR,2008.
[4] AchantaRadhakrishna,Estrada Sheila,Wils Francisco,et a1.Frequency-tuned salient region detection[A].Proceedings of The IEEE International Conference on Computer Vision and Pattern Recognition Lausanne,Switzerland,2009:1597-1604.
[5] Treisman A M,Gelade C.A feature integration theory of attention[J].Cognitive Psychology,1980(12):97-136.
[6] Koch C,Ullman S.Shifts in selective visual attention:towards theunderlyingneuralcircuitry[J].HumanNeurobiology,1985,4(4):219-227.
[7] Bruce N,Tsotsos J.Saliency based on information maximization[C]//Advances in neural information processing syste-ms.2005:155-162.