崔冬 王明 李剛? 顧廣華 李海濤
(1.燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2.河北省信息傳輸與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)
顯著性檢測(cè)可以模仿人類視覺機(jī)制檢測(cè)出圖像中最引人注目的地方,它能夠從海量的圖像信息中提取出重要的信息,從而減少計(jì)算時(shí)間。顯著性檢測(cè)已經(jīng)在很多領(lǐng)域得到應(yīng)用,例如圖像分類[1]、視頻目標(biāo)跟蹤[2]、圖像檢索[3]和目標(biāo)識(shí)別[4]等。
現(xiàn)有的顯著性檢測(cè)方法分為自下而上(數(shù)據(jù)驅(qū)動(dòng))[5- 6]和自上而下(任務(wù)驅(qū)動(dòng))[7- 8]兩類。同自下而上的方法相比,自上而下的方法更加復(fù)雜。Itti等[9]提出了一種利用中心-周圍差異的生物啟發(fā)模型進(jìn)行顯著性檢測(cè)的方法。Harel等[10]通過構(gòu)建圖結(jié)構(gòu)改進(jìn)了文獻(xiàn)[9]的方法,改進(jìn)方法能更有效地區(qū)分前景區(qū)域和背景區(qū)域,但邊界較為模糊,細(xì)節(jié)信息丟失嚴(yán)重。Jiang等[11]利用吸收馬爾可夫鏈的顯著性檢測(cè)方法,通過計(jì)算轉(zhuǎn)移節(jié)點(diǎn)到吸收節(jié)點(diǎn)時(shí)間的差異來(lái)獲得超像素的顯著值,該方法更傾向于凸出顯著區(qū)域,但不能很好地抑制背景噪聲,會(huì)降低整體的顯著值。Li等[12]利用正則化隨機(jī)游走排序方法計(jì)算圖像顯著性,并且加入約束項(xiàng),進(jìn)一步提高了準(zhǔn)確性。顧廣華等[13]利用前景和背景種子同時(shí)進(jìn)行檢測(cè),并將二者融合,能夠較好地檢測(cè)出顯著物體,并抑制了背景噪聲,但在復(fù)雜場(chǎng)景下顯著物體有可能靠近邊界,此時(shí)有可能將前景物體錯(cuò)認(rèn)為背景,從而得到錯(cuò)誤的結(jié)果。Li等[14]根據(jù)圖像的多尺度卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征來(lái)計(jì)算圖像顯著性。Zhao等[15]利用兩個(gè)CNN網(wǎng)絡(luò)獨(dú)立地捕獲圖像的全局和局部信息,并進(jìn)行顯著性檢測(cè),雖然考慮了全局與局部的關(guān)系,但未能有效地將全局CNN與局部CNN之間的信息傳遞協(xié)同考慮進(jìn)來(lái)。
傳統(tǒng)的顯著性檢測(cè)算法大多提取圖像的顏色特征、紋理特征等,此類特征一般不全面,具有一定的主觀性。CNN中添加全連接層只能在圖像層面提取特征,并降低了計(jì)算效率。為了解決上述問題,本文提出了一種基于多級(jí)深度特征和正則化隨機(jī)游走的顯著性檢測(cè)算法,利用全卷積神經(jīng)網(wǎng)絡(luò)(FCN),并融合深層卷積特征和淺層卷積特征信息對(duì)圖像進(jìn)行多級(jí)深度特征提取,保留原始圖像的空間信息,并且通過隨機(jī)游走加強(qiáng)全局與局部的聯(lián)系。最后在ECSSD和DUTOMRON數(shù)據(jù)庫(kù)上對(duì)比了本文算法與其他6種檢測(cè)算法的性能。
本文算法的主要思路為:首先,考慮到顯著目標(biāo)尺度的巨大變化,通過簡(jiǎn)單線性迭代聚類算法(SLIC)[16]將圖像分割為m個(gè)不同的尺度,得到不同尺度的超像素。本文將圖像超像素分割為3個(gè)尺度(200、170、140),得到圖像的多尺度先驗(yàn)圖,利用FCN提取圖像多級(jí)的FCN特征,并將圖像的FCN特征分配給相應(yīng)尺度的超像素。然后,提取背景點(diǎn)作為種子點(diǎn),得到背景種子點(diǎn)的顯著性近似值,并通過其互補(bǔ)值得到前景種子點(diǎn)的顯著性近似值,在正則化隨機(jī)游走框架中利用前景種子點(diǎn)生成單一顯著圖。最后,融合多尺度的單一顯著圖,得到最終顯著圖。本文算法框圖如圖1所示。
圖1 本文算法框圖Fig.1 Block diagram of the proposed algorithm
本文使用FCN-32S[17]提取圖像的FCN特征。利用Matconvnet工具箱中的pascal-fcn32s-dag.mat來(lái)提取圖像的深度特征(http://www.vlfeat.org/matconvnet/),在FCN中,深層特征包含圖像抽象的高級(jí)語(yǔ)義信息,淺層特征包含圖像的底層特征(如顏色、邊緣和紋理等)。深層特征由于其較低的空間分辨率,容易丟失圖像的細(xì)節(jié)信息。因此,聚合多級(jí)特征有助于產(chǎn)生更好的結(jié)果。本文算法提取了pool1層和pool5層的特征,與傳統(tǒng)單一的顏色特征相比,本文算法提取的多級(jí)FCN特征更加有效、全面。
FCN可以接受任意尺寸的輸入圖像。本文將輸入圖像裁剪為500×500,并在四面邊界進(jìn)行100像素寬度的補(bǔ)0。由于子采樣和池化操作,每個(gè)卷積層的輸出具有不同的分辨率。通過最近鄰插值將每個(gè)特征圖的大小調(diào)整為輸入圖像大小;對(duì)圖像進(jìn)行簡(jiǎn)單線性迭代聚類(SLIC)超像素分割時(shí),先計(jì)算每個(gè)超像素中像素的數(shù)量,再將每個(gè)超像素中像素?cái)?shù)量的深度特征的均值映射到相應(yīng)的超像素,即
(1)
給定一個(gè)數(shù)據(jù)集X={x1,x2,…,xl,xl+1,…,xn},n為數(shù)據(jù)的總數(shù),前l(fā)個(gè)數(shù)據(jù)被標(biāo)記為查詢數(shù)據(jù)點(diǎn),其余數(shù)據(jù)點(diǎn)未被標(biāo)記。令y=[y1,y2,…,yn]T為指示向量,若xi屬于查詢節(jié)點(diǎn),則yi=1,否則yi=0。隨后構(gòu)建稀疏連通圖G=(V,E),其中,V為數(shù)據(jù)集,E為節(jié)點(diǎn)之間無(wú)向邊的集合。節(jié)點(diǎn)之間邊的權(quán)重wij構(gòu)成相似度矩陣W=[wij]n×n,兩個(gè)節(jié)點(diǎn)之間的權(quán)重表示為
wij=exp(-g(ri,rj)/σ2)
(2)
式中,σ為權(quán)重參數(shù)。度矩陣D=diag{d1,d2,…,dn},為基于圖模型的對(duì)角矩陣,其中
(3)
設(shè)f:X→Rn為排序函數(shù),其中f=[f1,f2,…,fs,…,fn]T,fs表示xs的排序值,它通過求解最小化問題(4)得到:
(4)
式中,μ為權(quán)值參數(shù)。最終最小化問題可以轉(zhuǎn)換為式(5)、(6)求解:
f*=(D-αW)-1y
(5)
(6)
首先,通過SLIC對(duì)圖像進(jìn)行多尺度超像素分割,利用圖像邊界作為背景先驗(yàn)。當(dāng)顯著目標(biāo)接近圖像邊界時(shí),有可能將前景對(duì)象錯(cuò)認(rèn)為背景。為了避免這種情況,本文采用一種反轉(zhuǎn)校正的方法來(lái)檢測(cè)并去除與邊界相鄰的前景區(qū)域。首先,將背景點(diǎn)的排序結(jié)果定義為初始顯著性Si(i):
Si(i)=f*(i),i=0,1,…,n
(7)
然后,使用K-均值聚類算法將Si(i)劃分為背景/前景超像素,并得到標(biāo)記圖L,同時(shí)將背景超像素標(biāo)記為0,前景超像素標(biāo)記為1。
最后,計(jì)算L中與邊界相鄰超像素的平均邊界標(biāo)簽Lb,如果Lb大于預(yù)定義的閾值(本文將反轉(zhuǎn)閾值設(shè)置為1.5),則將Si視為反轉(zhuǎn),利用L找到并去除所有邊界相鄰的超像素,并利用新形成的邊界重新執(zhí)行初始顯著性估計(jì),得到反轉(zhuǎn)初始顯著性SRC;否則,Si沒有反轉(zhuǎn),直接輸出SRC=Si。
隨機(jī)游走理論是一個(gè)節(jié)點(diǎn)從當(dāng)前節(jié)點(diǎn)出發(fā)以一定概率做無(wú)規(guī)律運(yùn)動(dòng)到其他相鄰節(jié)點(diǎn),再將其運(yùn)動(dòng)到的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),不斷重復(fù)上述過程,所得到的游走路徑稱為隨機(jī)游走序列。利用節(jié)點(diǎn)之間的空間特性,不僅可以從局部信息相似性方面衡量節(jié)點(diǎn)間的關(guān)系,還能通過連接方式捕捉全局信息。
將n×n拉普拉斯矩陣L元素定義為
(8)
Q(xk)=k, 0 (9) (10) 通過最小化狄利克雷積分來(lái)實(shí)現(xiàn)最優(yōu)pk: (11) (12) (13) 本文采用ECSSD[18]和DUT-OMRON[19- 20]數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行了對(duì)比實(shí)驗(yàn)。ECSSD數(shù)據(jù)庫(kù)包含1 000幅圖像。DUT-OMRON數(shù)據(jù)庫(kù)包含背景結(jié)構(gòu)更加復(fù)雜的5 166幅圖像。兩個(gè)數(shù)據(jù)庫(kù)均有相應(yīng)的標(biāo)注圖。 為了更加準(zhǔn)確地客觀評(píng)估本文算法,本文采用兩種評(píng)價(jià)指標(biāo)來(lái)測(cè)試算法的性能。首先采用計(jì)算準(zhǔn)確率(P)、召回率(R)[20]繪制P-R曲線圖。另外,將自適應(yīng)閾值設(shè)為顯著圖像素均值的2倍。經(jīng)過二值分割后,將得到所有圖像的平均準(zhǔn)確率和召回率,根據(jù)式(14)計(jì)算F值[21- 22]: (14) 根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),本文設(shè)η2=0.3。 為了驗(yàn)證本文算法的有效性和可靠性,采用本文算法與其他6種顯著性算法(NLDF[23]、RCRR[24]、RFCN[25]、ABI[26]、HCA[27]和DRFI[28])進(jìn)行了比較。其中NLDF、RFCN和ABI算法為深度學(xué)習(xí)算法,需要訓(xùn)練模型。HCA算法與本文算法均是采用深度特征與傳統(tǒng)機(jī)器學(xué)習(xí)算法結(jié)合的形式,不需要訓(xùn)練模型,直接調(diào)用Matconvnet現(xiàn)有的模型,運(yùn)算復(fù)雜度低,因此兩者更具有對(duì)比性。RCRR與DRFI算法為具有代表性的兩種傳統(tǒng)算法。 圖2為7種算法對(duì)ECSSD數(shù)據(jù)庫(kù)中3幅圖像的顯著圖檢測(cè)結(jié)果。從圖中可以看出:NLFD算法存在顯著目標(biāo)檢測(cè)不完整、將背景物體錯(cuò)認(rèn)為前景物體和背景噪聲較大的情況;RCRR算法可以清楚地看出顯著目標(biāo),但輪廓不夠清晰,前景與背景的明暗對(duì)比不夠明顯,同時(shí)也有一定的背景噪聲;RFCN和ABI算法存在同樣的問題,就是將背景物體錯(cuò)認(rèn)為顯著目標(biāo)檢測(cè)出來(lái);HCA算法雖然沒有錯(cuò)誤檢測(cè)的現(xiàn)象發(fā)生,但不能很好地將前景與背景物體區(qū)分開,前景與背景連接在一起了;DRFI算法將顯著物體較為完整地檢測(cè)出來(lái),但存在較大的背景噪聲,且顯著物體不夠清晰明亮;本文算法能將顯著目標(biāo)很好地凸顯出來(lái),并有效地抑制了背景區(qū)域,也沒有錯(cuò)誤檢測(cè)背景物體的現(xiàn)象,證明了本文算法的優(yōu)越性。 圖3為7種算法對(duì)DUT-OMRON數(shù)據(jù)庫(kù)中3幅圖像的顯著性檢測(cè)結(jié)果。從圖中可以看出:HCA和DRFI算法的背景噪聲較大,而且沒有將顯著目標(biāo)同背景有效區(qū)分;NLFD和ABI算法的檢測(cè)結(jié)果雖然較為清晰,但其背景噪聲過于明亮,表明這兩種算法將背景物體誤認(rèn)為前景檢測(cè)出來(lái);RFCN算法的檢測(cè)結(jié)果濾波現(xiàn)象明顯,同本文算法相比,背景干擾更大;本文算法檢測(cè)到的顯著目標(biāo)輪廓完整準(zhǔn)確,同時(shí)有效地抑制了背景,證明了本文算法的有效性和可靠性。 圖2 7種算法對(duì)ECSSD中3幅圖像的顯著性檢測(cè)結(jié)果Fig.2 Saliency detection results of 7 algorithms for 3 images in ECSSD 圖3 7種算法對(duì)DUT-OMRON中3幅圖像的顯著性檢測(cè)結(jié)果Fig.3 Saliency detection results of 7 algorithms for 3 images in DUT-OMRON 圖4是7種算法在ECSSD數(shù)據(jù)庫(kù)上的P-R曲線圖。由圖中可知:作為傳統(tǒng)算法的RCRR、DRFI算法,其準(zhǔn)確率和召回率偏低,是因?yàn)轱@著目標(biāo)不夠凸出,背景噪聲較大;屬于深度學(xué)習(xí)算法的NLDF、RFCN和ABI算法,其P-R性能較好;本文算法的P-R性能同深度學(xué)習(xí)算法相比稍有差距,但優(yōu)于HCA、RCRR和DRFI算法,而且本文算法不需要訓(xùn)練模型,節(jié)省了時(shí)間,運(yùn)算復(fù)雜度較低,更加方便快捷。 圖4 7種算法在ECSSD數(shù)據(jù)庫(kù)上的P-R曲線Fig.4 P-R curves of 7 algorithms on ECSSD database 圖5給出了7種算法在ECSSD數(shù)據(jù)庫(kù)上的準(zhǔn)確率、召回率和F值比較。從圖中可知:本文算法的準(zhǔn)確率高于其他6種算法;F值高于RCRR、HCA、DRFI算法,與RFCN持平,略低于NLFD和ABI算法;在檢測(cè)目標(biāo)準(zhǔn)確性上,本文算法具有一定的優(yōu)勢(shì)。 圖5 7種算法在ECSSD數(shù)據(jù)庫(kù)上的性能對(duì)比 圖6是7種算法在DUT-OMRON數(shù)據(jù)庫(kù)上的P-R曲線圖。從圖可以看出,本文算法的檢測(cè)性能明顯優(yōu)于RCRR、DRFI和HCA算法,但與深度算法相比稍有差距,表明本文算法具有較好的檢測(cè)性能。 圖6 7種算法在DUT-OMRON數(shù)據(jù)庫(kù)上的P-R曲線Fig.6 P-R curves of 7 algorithms on DUT-OMRON database 圖7給出了7種算法在DUT-OMRON數(shù)據(jù)庫(kù)上的準(zhǔn)確率、召回率和F值比較。由圖中可以看到,本文算法的準(zhǔn)確率與F值略低于屬于深度學(xué)習(xí)算法的NLDF與ABI算法,但高于屬于深度學(xué)習(xí)算法的RFCN算法;本文算法的準(zhǔn)確率、召回率與F值均高于HCA、RCRR與DRFI算法。 圖7 7種算法在DUT-OMRON數(shù)據(jù)庫(kù)上的性能對(duì)比 本文提出了一種基于多級(jí)深度特征和隨機(jī)游走的顯著性檢測(cè)算法,該算法能夠較為完整地提取圖像特征,減小圖像特征信息的損失,并通過隨機(jī)游走算法加強(qiáng)了局部與全局的關(guān)系。實(shí)驗(yàn)結(jié)果表明,本文算法既能有效地抑制背景噪聲,又能凸出顯著區(qū)域。與其他6種主流算法在公開數(shù)據(jù)集上的檢測(cè)性能對(duì)比表明,在同類型算法中本文算法的檢測(cè)準(zhǔn)確性和F值具有一定的優(yōu)越性。2 實(shí)驗(yàn)結(jié)果與分析
3 結(jié)論