李二水 張建偉
(1.四川大學(xué)計(jì)算機(jī)學(xué)院 成都 610065)
(2.四川大學(xué)視覺合成圖形圖像技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室 成都 610065)
?
基于空間分布特征的圖像顯著性檢測(cè)*
李二水1,2張建偉1,2
(1.四川大學(xué)計(jì)算機(jī)學(xué)院成都610065)
(2.四川大學(xué)視覺合成圖形圖像技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室成都610065)
摘要論文提出了一種基于圖像顯著性區(qū)域的空間分布統(tǒng)計(jì)特征的全分辨率顯著性檢測(cè)方法。該方法根據(jù)圖像尺寸按比例提取出圖像四周的像素,組成一個(gè)新的背景圖像,通過對(duì)背景圖像進(jìn)行分析處理,得出背景圖像塊的顏色空間特征,將其運(yùn)用于獲得整幅圖像的全分辨率顯著性。此外,通過簡(jiǎn)單的閾值分割方法得到圖像中的顯著目標(biāo)。實(shí)驗(yàn)結(jié)果表明,論文提出的方法容易實(shí)現(xiàn),能夠快速、清晰而準(zhǔn)確地提取出圖像中的顯著性目標(biāo)。
關(guān)鍵詞空間分布特征; 顯著性檢測(cè); 背景圖像; 全分辨率
Image Saliency Detection Based on Spatial Distribution Feature
LI Ershui1,2ZHANG Jianwei1,2
(1. College of Computer, Sichuan University, Chengdu610065)
(2. National Key Laboratory of Fundamental Science on Synthetic Vision, Sichuan University, Chengdu610065)
AbstractA method of salient region detection that outputs full resolution saliency maps is proposed which is based on spatial distribution feature of image salient region. Firstly, according to the image size, some peripheral pixels of the image are copied to build a new image named background image, then the background image is analyzed and its features of color space are gotten, lastly, its features are used to produce a full resolution saliency map of the entry image. Moreover, the salient region is obtain by apply a sample method of threshold segmentation on the saliency map. The experiment results show that our model is simple to implement, can extract salient objects in images fast and exactly.
Key Wordsspatial distribution feature, saliency detection, background image, full resolution
Class NumberTP391
1引言
實(shí)驗(yàn)心里學(xué)家赤瑞特拉通過大量的實(shí)驗(yàn)得出人類獲取的外界信息83%都是通過視覺完成的,然后對(duì)于海量的信息,視覺系統(tǒng)并不是同時(shí)地完全進(jìn)行接收和處理,它具有某種特殊的機(jī)制進(jìn)行選擇性的處理和忽略,就是視覺的選擇注意機(jī)制。把這種機(jī)制引用于圖像和視頻的處理之中,發(fā)展出了顯著性檢測(cè)研究。
長(zhǎng)久以來,包括計(jì)算機(jī)視覺、心理學(xué)、生物學(xué)和神經(jīng)學(xué)等多個(gè)領(lǐng)域的學(xué)者和專家一致致力于視覺注意機(jī)制的基礎(chǔ)研究和實(shí)際應(yīng)用工作。舉例來說,在計(jì)算機(jī)視覺領(lǐng)域,顯著區(qū)域的檢測(cè)有著廣泛的應(yīng)用,如基于內(nèi)容的圖像檢測(cè)[1]、圖像自動(dòng)裁剪[3]、圖像視頻壓縮[4]以及在小的顯示設(shè)備上調(diào)節(jié)圖像的大小[5]等。最近的研究[16,18,20]表明視覺注意機(jī)制同樣有助于目標(biāo)的檢測(cè)、識(shí)別和追蹤。
圖像顯著性是指,圖像中的像素點(diǎn)或區(qū)域能夠區(qū)別于其他點(diǎn)或區(qū)域吸引視覺注意的能力。顯著區(qū)域檢測(cè)的本質(zhì)是一種視覺注意模型(Visual Attention Model,VAM)。VAM是依據(jù)視覺注意機(jī)制而建立的模型,它利用視覺注意機(jī)制得到圖像中最容易引起視覺注意的顯著部分,并用一幅灰度圖像表示其顯著度[7]。Treisman和Gelade[21],Koch和Ullman[9]的早期工作,以及Itti,Wolfe[8,11]等人的視覺注意理論提議將視覺注意機(jī)制分為兩個(gè)階段:純數(shù)據(jù)驅(qū)動(dòng)、快速的、自底向上的、潛意識(shí)的顯著性提??;以及任務(wù)驅(qū)動(dòng)、慢速的、自頂向下的、有意識(shí)的顯著性提取。
圖1 輸入圖像(上),視覺顯著圖(下)
2相關(guān)工作
本文主要關(guān)注自底向上的顯著性檢測(cè)相關(guān)的文獻(xiàn)。這類方法或是基于生物學(xué)原理的,或是純計(jì)算的,或兩者兼顧。這些方法利用亮度、顏色、邊緣等底層特征屬性來決定圖像某個(gè)區(qū)域和它周圍的對(duì)比度。我們可以寬泛地把這些算法分成局部的和全局的兩大類。
圖2 各主流方法及SD方法得到的視覺顯著性圖
基于局部對(duì)比度的方法利用圖像區(qū)域相對(duì)于局部領(lǐng)域的對(duì)比度。在Koch和Ullman[19]提出的非常有影響力的生物啟發(fā)模型基礎(chǔ)上,Itti等人[7]定義了圖像的顯著性。此定義利用了多尺度圖像的中心-周圍的差異特征來得到多幅顯著圖并最終融合成整體顯著性圖像。Ma和Zhang[17]提出了另一種基于局部對(duì)比度分析的方法來產(chǎn)生顯著性圖像,并用模糊增長(zhǎng)模型對(duì)其進(jìn)行擴(kuò)展。Harel等人[14]通過將Itti等人的特征圖歸一化來突出顯著部分,并且可以和其他顯著圖像結(jié)合。Liu等人[20]通過將高斯圖像金字塔的對(duì)比度線型結(jié)合,提出了多尺度對(duì)比度。最近,Goferman等人[12]同時(shí)對(duì)局部底層線索、全局考慮、視覺組織規(guī)則以及表層特征進(jìn)行建模來突出顯著性物體。這些利用局部對(duì)比度的方法傾向于在邊緣部分產(chǎn)生高顯著性值,而不是均勻地突出整個(gè)物體。
基于全局對(duì)比度的顯著性區(qū)域計(jì)算方法用一個(gè)區(qū)域和整個(gè)圖像的對(duì)比度來計(jì)算顯著性值。Zhai和Shah[13]定義了基于某個(gè)像素和其余像素點(diǎn)對(duì)比度的像素級(jí)顯著性。Achanta等人[2]提出了頻率調(diào)諧方法,此方法用某個(gè)像素和整個(gè)圖像的平均色的色差來直接定義顯著值。但該方法用的是整個(gè)圖像的平均色,在本質(zhì)上就弱化了顯著區(qū)域的顯著程度。
3顯著區(qū)域空間分布特征
3.1原理
所有現(xiàn)在已存的顯著性檢測(cè)算法,包括基于全局對(duì)比度的方法和基于局部對(duì)比度的方法,它們得出視覺顯著性的方法都是由圖像的像素值之間進(jìn)行對(duì)比從而同時(shí)產(chǎn)生出相對(duì)顯著性區(qū)域和相對(duì)非顯著性區(qū)域。如果能有某種方法先確定某些像素屬于非顯著性區(qū)域,那么圖像的顯著性檢測(cè)就變得非常容易了。
圖3 原始圖片和它們的人工標(biāo)注的顯著區(qū)域圖
通過對(duì)國(guó)際上現(xiàn)有的、業(yè)界接受度高的、多個(gè)用于圖像目標(biāo)檢測(cè)、分割和顯著性檢測(cè)等圖像處理算法比較的公開測(cè)試數(shù)據(jù)集進(jìn)行觀察和分析,我們發(fā)現(xiàn)圖像處理算法感興趣的區(qū)域絕大部分是處于整個(gè)圖像空間的中間位置。對(duì)于圖像的顯著性檢測(cè)而言,這種顯著性區(qū)域處于圖像中間位置的像素空間分布特征更加的明顯。其實(shí),只要我們大概地回想一下我們真實(shí)日常生活中拍攝照片時(shí)的場(chǎng)景,我們就會(huì)明白,對(duì)于我們感興趣的目標(biāo),我們當(dāng)然會(huì)把它置于取景框的中央,并聚焦于它們。這樣就表明了一個(gè)非常重要的事實(shí):我們感興趣的區(qū)域或者目標(biāo)較大概率處于一幅圖像的中間位置,這個(gè)像素空間分布特征不僅是我們?yōu)闇y(cè)試圖像算法而收集的圖像數(shù)據(jù)集的圖片有,所有人工拍攝的自然圖片都具有這個(gè)像素空間分布特征。
3.2實(shí)現(xiàn)
在所有我們已知的公開測(cè)試集中,Achanta等人提供的測(cè)試集[2]是此類數(shù)據(jù)最大的測(cè)試集,并且由人工精確標(biāo)注了顯著性區(qū)域。圖1展示了其中的一些圖片和對(duì)應(yīng)的精確標(biāo)注顯著圖。觀察之后不難發(fā)現(xiàn),顯著圖并不是處于圖像的絕對(duì)中央位置,而是有一定的隨機(jī)性。而且,有少量圖像,它們的部分顯著圖處于整個(gè)圖像的邊緣。
圖4 邊緣區(qū)域圖
我們定義邊緣比例ER為邊緣像素個(gè)數(shù)占整幅圖像像素個(gè)數(shù)的比例。針對(duì)輸入圖像I,它的寬為W個(gè)像素,高為H個(gè)像素。ER計(jì)算公式為:
(1)
為了使我們的算法針對(duì)不同的圖像檢測(cè)顯著性具有較好的泛化能力,而不是僅針對(duì)某一個(gè)數(shù)據(jù)集去達(dá)到最好的ROC曲線,我們并沒有統(tǒng)計(jì)任何一個(gè)測(cè)試數(shù)據(jù)集的邊緣比例。本文中所有實(shí)驗(yàn)結(jié)果的邊緣比例ER采用經(jīng)驗(yàn)值ER=10%,而且EU=ED,EL=ER。當(dāng)然,這些值也可以根據(jù)實(shí)際輸入圖像的特點(diǎn)來確定。把收集的邊緣像素重新組合成一個(gè)背景圖。
4獲得顯著性圖像
4.1選擇顏色模型
Lab顏色模型基于人對(duì)顏色的感覺,Lab中的數(shù)值描述正常視力的人能夠看到的所有顏色。因?yàn)長(zhǎng)ab描述的是顏色的顯示方式,而不是設(shè)備生成顏色所需的特定色料的數(shù)量,所以Lab被視為與設(shè)備無關(guān)的顏色模型。Lab色彩模型由亮度L和有關(guān)色彩的a,b三個(gè)元素組成。L表示亮度,a表示從洋紅色到綠色的范圍,b表示從黃色到藍(lán)色的范圍。L的值域由0~100,a和b的值域都是由-128~+127。所有的顏色就以這三個(gè)值交互變化所組成。
Lab色彩模型除了不依賴于設(shè)備外,它還具有其他的特點(diǎn)和優(yōu)勢(shì):色域?qū)掗?它不僅包含了RGB,CMYK的所有色域,還能表現(xiàn)出它們不能表現(xiàn)的色彩;人的肉眼能感知的色彩,都能通過Lab模型表現(xiàn)出來;Lab色彩模型彌補(bǔ)了RGB色彩模型色彩分布不均的不足,因?yàn)镽GB模型在藍(lán)色到綠色之間的過渡色彩過多,而在綠色到紅色之間又缺少黃色和其他色彩。為了在獲取圖像顯著性的處理中保留盡量寬闊的色域和豐富的色彩,同時(shí)效果較好,我們把原始圖像變換到Lab色彩模型。
圖5 顯著性算法流程圖
4.2變換顏色空間
針對(duì)輸入圖像I,它的寬為W個(gè)像素,高為H個(gè)像素。按照邊緣比例ER=10%提取I的四周邊緣像素組成邊緣圖像B,它的寬為Wb=0.1*W個(gè)像素,高為Hb=0.1*H個(gè)像素。運(yùn)用相同的顏色空間變換參數(shù)把輸入圖像I和它的對(duì)應(yīng)邊緣圖像B變換到Lab色彩空間,分別對(duì)應(yīng)為ILab和BLab。然后再分別分離出三個(gè)通道:ILab分離得到IL、Ia和Ib;BLab分離得到BL、Ba和Bb。
對(duì)于獲得的Blab的單通道圖像BL、Ba和Bb,分別計(jì)算得到對(duì)應(yīng)的平均值mBL、mBa和mBb。
利用一階距離獲得單通道圖的顯著性。
針對(duì)原圖在Lab空間分解通道得到的三個(gè)單通道圖像IL、Ia和Ib,使用式(2)可以分別計(jì)算一階距離得到三幅顯著性圖,分別為SL、SA和SB。
S(x,y)=‖I(x,y)-mB‖
(2)
4.3獲得最終顯著圖
在已經(jīng)獲得SL、SA和SB三幅顯著圖的情況下,如何融合最終的顯著圖。顯然可以給它們分配不同的比例線型合成最后的顯著圖S。本文實(shí)驗(yàn)結(jié)果采用如式(3)所示的最簡(jiǎn)單的平均法,每幅顯著圖SL、SA和SB在合成最后的顯著圖S的比重是一樣的。
(3)
5實(shí)驗(yàn)結(jié)果與分析
為了評(píng)價(jià)本文提出的顯著性檢測(cè)方法,這里比較了六種主流的顯著性檢測(cè)模型:Itti模型[7],GBVS模型[14],CA模型[12],FT模型[2],NS模型[17],SSO模型[19]與本文模型在圖像數(shù)據(jù)庫(kù)[6]中的表現(xiàn),Achanta[15]從該數(shù)據(jù)庫(kù)中選出1000幅圖像組成一個(gè)顯著性檢測(cè)的標(biāo)準(zhǔn)圖像庫(kù),圖像庫(kù)中每幅圖像均有被大部分人接受的單一顯著物理存在。六種主流模型的MatLab程序可以從相關(guān)網(wǎng)站上下載得到。
一些具有代表性的測(cè)試圖像及實(shí)驗(yàn)結(jié)果見圖2(a)~2(h)。從圖2中可以看到本文方法產(chǎn)生的顯著圖能夠明顯且客觀地反映出圖像中整個(gè)顯著物體的輪廓,特別是圖像的邊緣信息比較完整和清晰,顯著物體與背景圖像的對(duì)比也很強(qiáng)烈,顯著物體的整體性也比較完整,結(jié)果與人的主觀感覺比較一致。Itti模型、CA模型和NS模型的顯著圖都是顯示一些邊緣亮點(diǎn),顯著區(qū)域內(nèi)部被鏤空,GBVS模型和SSO模型的顯著圖邊緣模糊,在處理復(fù)雜背景的圖像時(shí)不能有效地抑制背景噪聲的特點(diǎn)更加明顯;在FT模型的顯著圖中能夠檢測(cè)到顯著物體的邊緣和較好的完整性,但是顯著物體與背景區(qū)域的對(duì)比不如本文模型得到顯著圖明顯,因?yàn)楸疚哪P统浞掷昧孙@著物體像素的空間分布特性,在本質(zhì)上消除了背景區(qū)域像素對(duì)顯著性檢測(cè)的干擾,能夠有效彌補(bǔ)上述方法的缺陷。
除了上述的主觀評(píng)價(jià)外,本文還計(jì)算了幾種不同顯著性檢測(cè)方法的ROC(Receiver Operating Characteristic)曲線。ROC曲線是一種分析判斷和決策性能的定量方法,可以動(dòng)態(tài)地、客觀地評(píng)價(jià)一種分類方法的優(yōu)劣??陀^評(píng)價(jià)顯著性結(jié)果的本質(zhì)是一個(gè)二分問題,即算法計(jì)算的結(jié)果是否與統(tǒng)一接受的主觀認(rèn)定相一致。一個(gè)二分問題會(huì)出現(xiàn)四類情況:實(shí)際是正類并且被預(yù)測(cè)為正類,即真正類(True Positive,TP);實(shí)際是負(fù)類而被預(yù)測(cè)為真類,即假正類(False Positive,FP);實(shí)際是負(fù)類并且被預(yù)測(cè)為負(fù)類,即真負(fù)類(True Negative,TP);實(shí)際是正類而被預(yù)測(cè)成負(fù)類,即假負(fù)類(False Negative,FN)。定義真正類率(True Positive Rate,TPR)和假正類率(False Positive Rate,FPR)分別為
(4)
ROC曲線的橫坐標(biāo)為FPR,代表錯(cuò)誤的命中率;縱坐標(biāo)為TPR,代表正確的命中率。我們先將處理原圖而得到的顯著性圖歸一化到灰度圖空間,然后簡(jiǎn)單地取灰度圖的直方圖谷值為閾值,對(duì)顯著性圖進(jìn)行二分閾值分割。顯著圖的TPR和FPR是正相關(guān)的,我們期望的結(jié)果是:較小的FPR對(duì)應(yīng)較大的TPR。
本文中繪制ROC曲線的數(shù)據(jù)庫(kù)圖像由文獻(xiàn)[2]提供,該數(shù)據(jù)庫(kù)共包含1000幅自然場(chǎng)景的圖像,圖像中顯著物體的大小占整幅圖像的大小各不相同,顯著物體在整幅圖像中的空間分布也千差萬(wàn)別,而且圖像背景也比較復(fù)雜。圖6中的ROC曲線表明本文提出的方法在較小的FPR時(shí),有較大的RPR,其結(jié)果優(yōu)于文獻(xiàn)[1~5]中提出的方法。
圖6 ROC曲線
本算法運(yùn)行的軟件環(huán)境為Matlab R2013a,系統(tǒng)環(huán)境為Windows 7旗艦版,內(nèi)存為4GB,CPU主頻為2.5GHz,運(yùn)行計(jì)算一副圖像顯著性的平均耗時(shí)為4.736秒,與本文中提及的其他主流算法相比,處于中等偏上水平,結(jié)合顯著性檢測(cè)的效果,本文提出的方法的表現(xiàn)是優(yōu)秀的。
6結(jié)語(yǔ)
我們提出了基于空間分布特征的圖像顯著性計(jì)算方法,該方法實(shí)現(xiàn)簡(jiǎn)單,時(shí)間復(fù)雜度較低,再結(jié)合Lab色彩模型可以準(zhǔn)確地刻畫出整幅圖像中的完整顯著區(qū)域。
我們通過對(duì)業(yè)界比較認(rèn)可的幾個(gè)公開的圖像顯著性計(jì)算測(cè)試集仔細(xì)觀察,得出了顯著區(qū)域像素在整幅圖像中的空間分布特征,利用該特征可以獲得背景區(qū)域像素,并且大大地減少了計(jì)算量。利用已獲得的先驗(yàn)知識(shí),把顯著區(qū)域和背景區(qū)域提前分離,使得背景區(qū)域像素不會(huì)作為噪聲干擾我們計(jì)算圖像像素的顯著性,這樣使得我們的顯著性區(qū)域與背景區(qū)域的對(duì)比更加明顯,同時(shí),顯著性區(qū)域也保持了很好的完整性。
本文提出的顯著性檢測(cè)方法主要是在Lab色彩空間中基于各單通道顏色對(duì)比來獲取圖像的顯著特性的。接下來的工作將把圖像的紋理特征加入進(jìn)來,作為像素顯著性強(qiáng)度的一個(gè)影響因素,以便使顯著性檢測(cè)方法更加完善。
參 考 文 獻(xiàn)
[1] Jian M W, Dong J Y, Ma J. Image retrieval using wavelet-based salient regions[J]. The Imaging Science Journal,2011,59(4):219-231.
[2] R. Achanta, S. Hemami, F. Estrada, et al. Frequency-tuned salient region detection. In CVPR, pages 1597-1694,2009:409-414.
[3] 華順剛,陳國(guó)鵬,時(shí)樹勝.基于相似性判據(jù)的圖像尺寸調(diào)整算法[J].計(jì)算機(jī)工程,2012,38(4):191-193.
HUA Shungang, CHEN Guopeng, SHI Shusheng. Image resizing algorithm based on similarity criterion[J]. Computer Engineering,2012,38(4):191-193.
[4] Gupta R, Chaudury S. A scheme for attentional video compression[J]. Pattern Recognition and Machine Intelligence,2011,6744:458-465.
[5] Kim W, Kim C. A novel image importance model for content-aware image resizing[C]//Proceedings of the 18thIEEE International Conference on Image. Brussels, Belgium: IEEE,2011:2469-2472.
[6] 沈蘭蓀,張菁,李曉光.圖像檢索與壓縮域處理技術(shù)的研究[M].北京:人民郵電出版社,2008:102-103.
SHEN Lansun, ZHANG Jing, LI Xiaoguang. Image Retrieval and Compressed Domain Processing[M]. Beijing: Posts and Telecom Press,2008:102-103.
[7] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[8] Zhang X L, Li Z P, Zhou T G, et al. Neural activities in V1 create a bottom-up saliency map[J]. Neuron,2012,73(1):183-192.
[9] C. Koch, S. Ullman. Shifts in selective visual attention: towards the underlying neural circuitry. Human Neurbiology, 4:219-227,1985:409-410.
[10] Hansen L K, Karadogan S, Marchegiani L. What to measure next to improve decision making? On top-down task driven feature saliency[C]//2011 IEEE Symposium on Computational Intelligence, Cognitive Algorithms, Mind, and Brain. Paris, France: IEEE,2011:86-87.
[11] Baluch F, Itti L. Mechanisms of top-down attention[J]. Trends in Neurosciences,2011,34(4):210-224.
[12] S. Goferman, L. Zelnik-Manor, A. Tal. Context-aware saliency detection. In CVPR,2010:410-414.
[13] Itti L, Koch C. A saliency-based search mechanism for overt and covert shifts of visual attention. Vision Research,2000,40(6):1489-1506.
[14] J. Harel, C. Koch, P. Perona. Graph-based visual saliency. In NIPS, pages 545-552,2006:410-414.
[15] Achanta R, Estrada F, Wils P, et al. Salient region detection and segmentation[C]//Proceedings of the 6thInternational Conference on Computer Vision Systems,2008,5008:66-75.
[16] Jiao W, Peng Q M, Lv W X, et al. Multiscale detection of salient regions[C]//Proceedings of the 4thIEEE Conference on Industrial Electronics and Applications. Xi’an, China: IEEE,2009:2408-2411.
[17] Zhang Ling-Yun, Matthew H. Tong, TimK. Marks, et al. Cottrell (2008). SUN: A Bayesian framework for saliency using natural statistics[J]. Journal of Vision,8(7):32,1-20.
[18] Zhang J, Sun J D, Liu J, et al. Visual attention model based on multi-scale local contrast of low-level features[C]//Proceedings of the 10thIEEE International Conference on Signal Processing(ICSP). Beijing, China,2010:902-905.
[19] Esa Rahtu, Juho Kannala, Mikko Salo, et al. Segmenting salient objects from images and videos[C]//Proceedings of the 11thEuropean conference on Computer vision: Part V pages 366-379.
[20] 張巧榮,顧國(guó)昌,劉海波,等.利用多尺度頻域分析的圖像顯著區(qū)域檢測(cè)[J].哈爾濱工程大學(xué)學(xué)報(bào),2010,31(3):361-365.
ZHANG Qiaorong, GU Guochang, LIU Haibo, et al. Salient region detection using multi-scale analysis in the frequency domain[J]. Journal of Harbin Engineering University,2010,31(3):361-365.
[21] A. M. Triesman, G. Gelade. A feature-integration theory of attention[J]. Cognitive Psychology,1980,12(1):97-136.
中圖分類號(hào)TP391
DOI:10.3969/j.issn.1672-9722.2016.02.032
作者簡(jiǎn)介:李二水,男,碩士研究生,研究方向:圖形圖像處理、計(jì)算機(jī)視覺。張建偉,男,博士,研究員,博士生導(dǎo)師,研究方向:數(shù)字圖像處理與計(jì)算機(jī)圖形學(xué)、空管自動(dòng)化。
基金項(xiàng)目:面向大尺度場(chǎng)景的高融合度增強(qiáng)現(xiàn)實(shí)技術(shù)(編號(hào):2013AA013802);民航科技項(xiàng)目(編號(hào):20150228)資助。
*收稿日期:2015年8月17日,修回日期:2015年9月21日