殷世瓊,齊美彬
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
?
目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法
殷世瓊,齊美彬
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥230009)
摘要:現(xiàn)有的顯著性檢測(cè)算法主要是由數(shù)據(jù)驅(qū)動(dòng)的,是通過(guò)底層特征來(lái)檢測(cè)能吸引用戶注意的所有顯著性區(qū)域,而在具體的圖像理解過(guò)程中,用戶往往關(guān)注某一種或幾種特定目標(biāo)。文章提出了一種目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法,得到用戶感興趣的顯著性區(qū)域。該算法是用圖像中像素點(diǎn)與目標(biāo)圖像的平均色之間的差異來(lái)表示單個(gè)像素點(diǎn)的顯著值。結(jié)果表明,目標(biāo)驅(qū)動(dòng)顯著性檢測(cè)算法可以快速地檢測(cè)出與目標(biāo)圖像相似的顯著目標(biāo)。
關(guān)鍵詞:生物視覺(jué)機(jī)制;目標(biāo)驅(qū)動(dòng);顯著性檢測(cè)
0引言
人類的視覺(jué)可以很容易地分辨出視野中的重要信息,由此可以通過(guò)檢測(cè)圖像中的顯著性區(qū)域來(lái)優(yōu)先分配分析和處理圖像所需的資源,以簡(jiǎn)化處理圖像信息的工作量,并提高處理圖像的準(zhǔn)確性。因此,針對(duì)互聯(lián)網(wǎng)上日益增長(zhǎng)的圖像資源,對(duì)圖像進(jìn)行顯著性檢測(cè)的意義重大。檢測(cè)后的結(jié)果可以廣泛應(yīng)用于圖像分割、目標(biāo)識(shí)別、自適應(yīng)壓縮和圖像檢索等多種計(jì)算機(jī)視覺(jué)領(lǐng)域。
顯著性檢測(cè)(saliency detection)算法主要是檢測(cè)圖像中的顯著性區(qū)域。圖像顯著性目前還沒(méi)有較為明確的定義,可以抽象地理解為顯著性區(qū)域就是圖像中視覺(jué)關(guān)注的焦點(diǎn)、人眼較為感興趣區(qū)域,或者是局部視覺(jué)明顯的區(qū)域等。一般來(lái)說(shuō),這些區(qū)域是圖像中能夠代表整幅圖像主要信息的區(qū)域。圖像的顯著性本身是一個(gè)相對(duì)的概念,為了衡量圖像的顯著性,文獻(xiàn)[1]提出了顯著特征圖(saliency map),簡(jiǎn)稱顯著圖。顯著圖是一個(gè)表征圖像視覺(jué)關(guān)注區(qū)域的二維分布,其中灰度值越大,則表示該區(qū)域的顯著性越強(qiáng),更能吸引人眼視覺(jué)注意。
眾所周知,人類的注意過(guò)程可分為吸引注意(attract attention)的預(yù)注意過(guò)程和人主觀加以關(guān)注(pay attention)的集中注意過(guò)程2種模式。在人類的實(shí)際觀察過(guò)程中,這2種模式是同時(shí)存在、相互作用的,它們共同成就了人類的觀察能力。
文獻(xiàn)[1-2]將視覺(jué)機(jī)制分為快速的、下意識(shí)的、自底向上的、數(shù)據(jù)驅(qū)動(dòng)的顯著性提取和慢速的、目標(biāo)依賴的、自頂向下的、目標(biāo)驅(qū)動(dòng)的顯著性提取。但在實(shí)踐中,目前大多數(shù)視覺(jué)注意計(jì)算模型主要集中在自下而上方面,尚缺乏目標(biāo)驅(qū)動(dòng)注意(即自上而下注意)的計(jì)算[3]。
本文提出了一種目標(biāo)驅(qū)動(dòng)顯著性檢測(cè)(target-driven saliency detection,TD)算法,該算法參考人類主觀加以關(guān)注的集中注意力的過(guò)程,由用戶選定目標(biāo)圖像,決定顯著值的評(píng)價(jià)標(biāo)準(zhǔn),然后基于生物視覺(jué)機(jī)制選取特征,用全局對(duì)比來(lái)計(jì)算顯著圖。由此可以篩選出更加符合用戶主觀選擇的顯著區(qū)域,從而可以進(jìn)一步篩選圖像資源。
1相關(guān)工作
本文算法主要關(guān)注基于視覺(jué)特征的顯著性分析算法,該類算法大多是基于生物視覺(jué)形成機(jī)制,利用亮度、顏色、邊緣[4]等底層特征屬性來(lái)分析圖像的顯著性?;谏镆曈X(jué)機(jī)制的顯著性算法可以寬泛地分為局部和全局2大類。
基于局部對(duì)比度的方法利用了圖像區(qū)域相對(duì)于局部鄰域的稀有度。文獻(xiàn)[1]提出了非常有影響力的生物啟發(fā)模型。在此基礎(chǔ)上,文獻(xiàn)[2]利用多尺度圖像特征的中心-外周拮抗的差異,定義了經(jīng)典的圖像顯著性區(qū)域計(jì)算模型。文獻(xiàn)[5]提出了基于圖的視覺(jué)顯著性檢測(cè)算法,將文獻(xiàn)[2]算法計(jì)算的顯著圖和其他顯著圖結(jié)合后,再進(jìn)行歸一化處理,然后得到圖像的顯著區(qū)域。這類算法可以較為準(zhǔn)確地檢測(cè)出顯著區(qū)域所在的大致位置,但是該類方法傾向于在邊緣處產(chǎn)生高顯著性,故而得到的顯著圖較為模糊。
此外,基于全局對(duì)比度的顯著性區(qū)域計(jì)算方法是對(duì)整副圖像來(lái)計(jì)算圖像的顯著性。文獻(xiàn)[6]定義了基于某個(gè)像素和其余像素點(diǎn)對(duì)比度的像素級(jí)的顯著性。文獻(xiàn)[4]提出了用某個(gè)像素和整個(gè)圖像的平均色的色差來(lái)定義顯著值。文獻(xiàn)[7]提出了基于直方圖對(duì)比度和基于局域?qū)Ρ榷鹊娘@著性檢測(cè)方法,簡(jiǎn)單高效地得到圖像顯著圖。該類方法計(jì)算的顯著圖較為清晰,據(jù)此分割出的區(qū)域包含的非相關(guān)信息較少。
上述算法都屬于快速的、下意識(shí)的、自底向上的、數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)算法。而在實(shí)際應(yīng)用中,用戶的主觀選擇對(duì)于顯著性檢測(cè)也有很重要的影響,由底層特征自發(fā)地檢測(cè)出的吸引注意的顯著區(qū)域,未必就符合用戶的需求,如圖1所示。圖1中,GBVS算法為基于圖形的視覺(jué)顯著性算法,HC算法為基于直方圖的對(duì)比算法。
圖1 不同數(shù)據(jù)驅(qū)動(dòng)算法計(jì)算的顯著圖
由圖1可知,2種算法計(jì)算出的顯著圖,其結(jié)果均判定海灘上船只或海中央突出的崖壁較為顯著,然而用戶關(guān)注的區(qū)域可能是碧藍(lán)壯闊的大海,對(duì)于海面上的物體會(huì)主觀性地選擇忽略。這種數(shù)據(jù)驅(qū)動(dòng)的算法檢測(cè)出的區(qū)域在用戶主觀上反而是非顯著區(qū)域,這將極大地影響后續(xù)的圖像處理。
因此本文參考人類主觀加以關(guān)注的集中注意力的過(guò)程,提出了一種目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法。
2目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法
本文提出的目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法參考了生物視覺(jué)機(jī)制,基于全局對(duì)比度計(jì)算顯著性區(qū)域。該算法先學(xué)習(xí)目標(biāo)圖像的亮度和顏色特征值作為計(jì)算像素顯著值的評(píng)判標(biāo)準(zhǔn);然后計(jì)算測(cè)試圖像每個(gè)像素點(diǎn)與目標(biāo)圖像的平均色之間的差異,得到目標(biāo)驅(qū)動(dòng)的顯著圖。檢測(cè)流程如圖2所示。
圖2 目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法流程
2.1視覺(jué)特征選擇
生物視覺(jué)在目標(biāo)圖像理解中被廣泛應(yīng)用[8],生物視覺(jué)相關(guān)研究認(rèn)為,視覺(jué)系統(tǒng)對(duì)視覺(jué)信號(hào)的對(duì)比度很敏感。文獻(xiàn)[9]的實(shí)驗(yàn)證明了人眼視覺(jué)系統(tǒng)接收彩色圖像信息后,最終轉(zhuǎn)換至DKL空間[10]。而在DKL空間內(nèi),圖像信息會(huì)被分解為亮度(lum)通道、紅綠(red-green)通道和黃藍(lán)(yellow-blue)通道3個(gè)通道。
本文選擇在最接近人類視覺(jué)的L*a*b*色彩空間下計(jì)算像素間的差值。該顏色空間是一種顏色-對(duì)立空間,其中,維度L(L*)表示顏色的亮度L*∈[0,100],L*=0表示黑色,而L*=100表示白色;a和b則表示顏色對(duì)立維度,a*,b*∈[-128,127],a*代表紅色(或品紅色)和綠色通道,a*若為負(fù)值則表示綠色,若為正值則表示紅色,b*代表黃色和藍(lán)色通道,b*若為負(fù)值則表示藍(lán)色,若為正值則表示黃色。
2.2計(jì)算目標(biāo)圖像的平均色
目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法需要先學(xué)習(xí)目標(biāo)圖像的特征,選用特征表征目標(biāo)圖像非常重要。本文算法基于圖像的顏色統(tǒng)計(jì)特征計(jì)算圖像像素的顯著值。具體來(lái)說(shuō),就是一個(gè)像素的顯著值用它和目標(biāo)圖像平均色的差值來(lái)表征。因此,本文先計(jì)算目標(biāo)圖像的平均色I(xiàn)0,即對(duì)目標(biāo)圖像IT求平均,具體公式為:
I0=means(IT)
(1)
為了減少目標(biāo)圖像中所包含的背景信息對(duì)檢測(cè)結(jié)果的影響,本文在計(jì)算目標(biāo)圖像的平均色I(xiàn)0時(shí),需要先對(duì)目標(biāo)圖像進(jìn)行預(yù)處理。輸入目標(biāo)圖像,對(duì)該圖像進(jìn)行簡(jiǎn)單的分割后建立對(duì)應(yīng)的模板圖像,如圖3所示。
圖3 目標(biāo)圖像及對(duì)應(yīng)的模板圖像
由圖3可知,若模板圖像中某像素點(diǎn)顯示白色,則在目標(biāo)圖像中對(duì)應(yīng)位置的像素點(diǎn)為前景像素。反之,若模板圖像中某像素點(diǎn)顯示黑色,則在目標(biāo)圖像中對(duì)應(yīng)位置的像素點(diǎn)為背景像素,該像素點(diǎn)的圖像信息不加入計(jì)算。依據(jù)上述劃分,在L*a*b*色彩空間中計(jì)算均值。目標(biāo)圖像的統(tǒng)計(jì)直方圖如圖4所示,由圖4可以看出,在計(jì)算目標(biāo)圖像的平均色時(shí),目標(biāo)在單個(gè)通道上的統(tǒng)計(jì)直方圖中會(huì)集中分布在某峰值附近。
圖4 目標(biāo)圖像的統(tǒng)計(jì)直方圖
對(duì)于代表目標(biāo)圖像的特征值,可以選用單通道統(tǒng)計(jì)直方圖中峰值附近的3組數(shù)據(jù)加權(quán)平均表征該通道特征值,以進(jìn)一步集中表示目標(biāo)圖像的特征值。
對(duì)于較為復(fù)雜的圖像,可以采用混合高斯模型求取特征值。
2.3計(jì)算目標(biāo)驅(qū)動(dòng)的顯著圖
圖像I中像素Ik的顯著值S(Ik)定義為:
(2)
其中,I0為目標(biāo)圖像的平均色;D(Ik,I0)為像素Ik和目標(biāo)圖像的平均色I(xiàn)0在L*a*b*空間下的距離度量,具體計(jì)算公式為:
(3)
(4)
(5)
(6)
其中,D(Lk,L0)為L(zhǎng)分量的顯著值;maxL為L(zhǎng)*分量?jī)?nèi)的最大值;minL為L(zhǎng)*分量?jī)?nèi)的最小值;D(ak,a0)為a分量的顯著值;maxa為a*分量?jī)?nèi)的最大值;mina為a*分量?jī)?nèi)的最小值;D(bk,b0)為b分量的顯著值;maxb為b*分量?jī)?nèi)的最大值;minb為b*分量?jī)?nèi)的最小值。
為了在閾值分割時(shí)能夠更精確分離顯著的像素點(diǎn)和非顯著的像素點(diǎn),本文在計(jì)算像素點(diǎn)顯著值時(shí),選擇每幅圖像實(shí)際的各分量的最值作為計(jì)算像素特征差異的參數(shù)。即(4)~(6)式中,max與min均為測(cè)試圖像實(shí)際計(jì)算出的| Lk-L0|、| ak-a0|、| bk-b0|的取值區(qū)間的最值,而非直接代入其理論最值。
直接代入各分量理論最值計(jì)算的結(jié)果如圖5a所示,即取maxL-minL=100,maxa-mina=255,maxb-minb=255計(jì)算的顯著圖。歸一化處理后得到的結(jié)果如圖5b所示,由圖5b可以看出,得到的結(jié)果更能區(qū)分顯著像素點(diǎn)和非顯著像素點(diǎn)。
很明顯,圖像I中的像素Ik若與目標(biāo)圖像的平均色I(xiàn)0越相似,差異越小,該像素的顯著值就越大;反之,像素Ik若與目標(biāo)圖像的平均色I(xiàn)0的差異越大,其顯著值就越小。由此可得到目標(biāo)驅(qū)動(dòng)的基于全局對(duì)比度的圖像顯著圖。
圖5 選擇不同最值計(jì)算顯著圖的效果
3實(shí)驗(yàn)數(shù)據(jù)與分析
本文實(shí)驗(yàn)在Matlab 2012a平臺(tái)上進(jìn)行,計(jì)算機(jī)配置為Intel i5-4200U雙核處理器及4 G內(nèi)存,系統(tǒng)為32位Win7系統(tǒng)。
在corel標(biāo)準(zhǔn)測(cè)試集上測(cè)試本文算法模型。該圖像集共有10類圖像,每類有100幅圖像,隨機(jī)選取圖像作為目標(biāo)圖像,在測(cè)試集中檢測(cè)出與目標(biāo)圖像最相近的圖像。算法的部分實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 基于目標(biāo)圖像的TD顯著圖和分割圖
由圖6可以看出,對(duì)于同一副圖像,由于目標(biāo)圖像不同,主觀加以關(guān)注的顯著區(qū)域不同,計(jì)算得到的顯著圖也不同。數(shù)據(jù)驅(qū)動(dòng)的幾種顯著性檢測(cè)算法和本文檢測(cè)算法的檢測(cè)結(jié)果如圖7、圖8所示。圖7中,SR算法為譜殘算法;FT算法為頻率調(diào)諧凸區(qū)域檢測(cè)算法。
由圖7、圖8可知,雖然兩幅圖中都檢測(cè)到了花朵的位置,但是幾種算法檢測(cè)出紅色花朵的顯著性要比白色花朵顯著性高;在關(guān)注白色花朵時(shí),由本文算法檢測(cè)出的顯著性遠(yuǎn)大于紅色花朵,從而賦予了每個(gè)像素點(diǎn)帶有主觀性的顯著值。
本文算法與其他算法在corel標(biāo)準(zhǔn)測(cè)試集上計(jì)算的平均用時(shí)見(jiàn)表1所列。表1中,CA算法為上下文感知的顯著性檢測(cè)算法;GB算法為基于圖形的視覺(jué)顯著性算法。
圖7 數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)算法與本文算法實(shí)驗(yàn)結(jié)果1
圖8 數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)算法與本文算法的實(shí)驗(yàn)結(jié)果2
算法t/s代碼類型IT算法[2]0.611MatlabGB算法[5]1.614MatlabSR算法[11]0.064MatlabFT算法[4]0.016C++HC算法[7]0.019C++CA算法[12]53.100MatlabTD算法0.067Matlab
4結(jié)束語(yǔ)
本文依據(jù)生物視覺(jué)機(jī)制和全局對(duì)比度顯著性分析算法原理,融合先驗(yàn)知識(shí),提出了一種目標(biāo)驅(qū)動(dòng)的視覺(jué)顯著性檢測(cè)算法,該算法能夠依據(jù)用戶的主觀意愿,快速檢測(cè)出與用戶主觀上加以關(guān)注的目標(biāo)相似的顯著性區(qū)域,從而有利于對(duì)圖像資源進(jìn)行有選擇的篩選。但是,目標(biāo)圖像本身包含各種信息,本文算法只用了簡(jiǎn)單的亮度和顏色對(duì)比的視覺(jué)特征來(lái)表述目標(biāo)圖像,在檢測(cè)圖像顯著性區(qū)域時(shí),對(duì)于不同類別的圖像存在誤檢現(xiàn)象。因此下一步將采用多種目標(biāo)表述方式,檢測(cè)出更加符合主觀意愿的顯著圖。
[參考文獻(xiàn)]
[1]Koch C,Ullman S.Shifts in selective visual attention:towards the underlying neural circuitry[J].Human Neurobiology,1985,4(4):219-227.
[2]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[3]黎萬(wàn)義,王鵬,喬紅.引入視覺(jué)注意機(jī)制的目標(biāo)跟蹤方法綜述[J].自動(dòng)化學(xué)報(bào),2014,40(4):561-576.
[4]Achanta R,Hemami S,Estrada F,et al.Frequency-tuned salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2009:1597-1604.
[5]Harel J,Koch C,Perona P.Graph-based visual saliency[C]//Proceedings of the Twentieth Annual Conference on Neural Information Processing System,2006:545-552.
[6]Zhai Y,Shah M.Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th ACM International Conference on Multimedia,2006:815-824.
[7]Cheng M M,Zhang G X,Mitra N J,et al.Global contrast based salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2011:409-416.
[8]宋皓,徐小紅.基于生物視覺(jué)通路的目標(biāo)識(shí)別算法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2012,35(4):481-484.
[9]King-Smith P E,Grisby S S,Vingrys A J,et al.Efficient and unbiased modifications of the QUEST threshold method:theory,simulations,experimental evaluation and practical implementation[J].Vision Research,1994,34(7):885-912.
[10]Derrington A M,Krauskopf J,Lennie P.Chromatic mechanisms in lateral geniculate nucleus of macaque[J].Journal of Physiology,1984,357(1):241-265.
[11]Hou X,Zhang L.Saliency detection:a spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition,2007:1-8.
[12]Goferman S,Zelnik-Manor L,Tal A.Context-aware saliency detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):1915-1926.
(責(zé)任編輯閆杏麗)
Target-driven saliency detection method
YIN Shi-qiong,QI Mei-bin
(School of Computer and Information,Hefei University of Technology,Hefei 230009,China)
Abstract:The existing saliency detection methods are mainly driven by data,and detect all the salient regions which can attract users’ attention by low-level features. However,the users always pay attention to one or several kind of targets in the specific image understanding process. In this paper,a target-driven saliency detection method is proposed to get the salient regions that users are interested in. The pixel saliency is defined by using a pixel’s color difference from the average image color of the target image. The experimental results demonstrate that the proposed method can quickly detect the salient object that is similar to the target image.
Key words:biological visual system;target driven;saliency detection
收稿日期:2015-03-09
基金項(xiàng)目:國(guó)家自然科學(xué)基金面上資助項(xiàng)目(61371155);安徽省科技攻關(guān)計(jì)劃資助項(xiàng)目(1301b042023)
作者簡(jiǎn)介:殷世瓊(1990-),女,安徽肥東人,合肥工業(yè)大學(xué)碩士生; 齊美彬(1969-),男,安徽東至人,博士,合肥工業(yè)大學(xué)教授,碩士生導(dǎo)師.
doi:10.3969/j.issn.1003-5060.2016.06.010
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-5060(2016)06-0767-05