張珂, 趙歆波, 莫蓉
(1.西北工業(yè)大學(xué) 現(xiàn)代設(shè)計與集成制造技術(shù)教育部重點實驗室, 陜西 西安 710072;2.西北工業(yè)大學(xué) 計算機學(xué)院, 陜西 西安 710129)
顯著圖是表示視覺場景中每個像素位置吸引注意力程度的地形圖[1]。研究者已經(jīng)提出了多種用于計算顯著圖的視覺顯著模型,根據(jù)注意力類型的不同,可以分為自頂向下和自底向上2種:自頂向下注意力依賴于任務(wù),由生物的主觀認(rèn)知控制;相反自底向上注意力受圖像數(shù)據(jù)驅(qū)動,由圖像中的突出特征引導(dǎo)。自底向上顯著模型通常提取圖像中的低層特征并整合為顯著圖,而自頂向下顯著模型一般通過加入高層特征或從真實眼動數(shù)據(jù)中學(xué)習(xí)特征權(quán)重的方式來加入自頂向下注意成分。
自底向上注意通常在初級視皮層V1中形成,而自頂向下注意則與高級腦皮層相關(guān),這2種顯著模型都直接或間接地受到生物視覺機制的啟發(fā)。最經(jīng)典的自底向上顯著模型[2],模擬了人類從視網(wǎng)膜到初級視皮層的早期視覺通路:首先根據(jù)視網(wǎng)膜中視錐細(xì)胞和視桿細(xì)胞的特點將輸入圖像分解為亮度和顏色成分,之后進行的中央周邊差算子模擬側(cè)膝體中的on-off型神經(jīng)元,用于提取方向特征的Gabor濾波則是對V1簡單細(xì)胞方向選擇特性的模擬。該框架在自底向上模型中被廣泛采用,但未考慮V1中更深層的end-stopping機制,無法檢測T型結(jié)點和線段端點等特征。
end-stopping機制是初級視皮層內(nèi)一部分簡單細(xì)胞和復(fù)雜細(xì)胞的特性,這類細(xì)胞被稱為end-stopped細(xì)胞,約占V1層神經(jīng)元的25%左右。end-stopped細(xì)胞對特定長度和朝向的條狀刺激敏感,其組合可以用于檢測角點、直線和邊緣的交叉點、奇點和曲率較大點[3]。這些特征可以描述場景中物體的形狀和輪廓信息,因此被許多模型用于提取顯著區(qū)域或估計顯著度,如基于角點的方法[4]、基于興趣點的方法[5]和基于曲率特征的方法[6]等,但這些模型使用設(shè)計好的單一特征來描述顯著性,均未涉及end-stopping機制的建模,而end-stopped細(xì)胞能感知角點、線交叉點、曲率點等多種特征,其在自底向上顯著圖形成過程中的作用還未被充分研究。
不同于上述模型,本文將end-stopping機制引入自底向上顯著圖的計算框架,通過模擬初級視皮層V1中end-stopped神經(jīng)元的特性來提取角點、邊緣交叉點和曲率較大點等顯著特征,并與顏色、亮度、方向特征合并,共同形成自底向上顯著圖的表達(dá)。在公開的眼動數(shù)據(jù)集上,將模型輸出的顯著圖與人眼真實數(shù)據(jù)進行了比較,結(jié)果顯示模型能夠較好地估計人眼注視位置;與其他模型的對比結(jié)果顯示,本文方法達(dá)到了當(dāng)前自底向上顯著模型的領(lǐng)先水平,部分指標(biāo)優(yōu)于早期的基于深度學(xué)習(xí)的自頂向下模型。
早期的視覺注意力模型認(rèn)為顯著圖在額頂葉等高級視皮層中形成,但最新研究表明,自底向上顯著圖在初級視皮層V1中就已生成[7]。在V1中,信號按照簡單細(xì)胞→復(fù)雜細(xì)胞→end-stopped細(xì)胞(曾被稱為超復(fù)雜細(xì)胞),完成由低級到高級的整合過程。另外,心理學(xué)實驗也證實end-stopping刺激物具有高顯著性[8],因此end-stopped細(xì)胞對于自底向上顯著圖的形成具有重要意義。
本文考慮將end-stopping機制引入自底向上顯著圖的計算框架,用于提取角點、邊緣交叉點和曲率較大點等顯著特征(本文中統(tǒng)稱為end-stopping特征),將其與方向特征一起作為V1顯著圖表達(dá),并融合代表側(cè)膝體輸出的亮度和顏色特征,合并得到自底向上顯著圖,整個流程如圖1所示。
圖1 基于end-stopping機制的顯著模型
在end-stopping機制的建模上,本文借鑒了[9]提出的一種理想模型,首先通過2D Gabor函數(shù)模擬簡單細(xì)胞感受野,然后提取Gabor響應(yīng)振幅作為復(fù)雜細(xì)胞響應(yīng),最后將2個不同朝向的復(fù)雜細(xì)胞響應(yīng)乘積作為end-stopped細(xì)胞的響應(yīng)。該模型成功模擬了V1皮層中end-stopped細(xì)胞的大部分特性,計算較為簡便,符合自底向上注意快速分析場景信息的特點。
視網(wǎng)膜中的視錐細(xì)胞對可見光譜中的不同波長敏感,對應(yīng)于長(L)、中(M)和短(S)波長,視桿細(xì)胞則對亮暗變化敏感。視網(wǎng)膜和側(cè)膝體中的神經(jīng)節(jié)細(xì)胞具有中心-周邊拮抗型感受野,將亮度和彩色信號作為一個對立成分來處理,從視錐細(xì)胞響應(yīng)分離出“紅-綠”(R-G)通道和“藍(lán)-黃”(B-Y)通道,從視桿細(xì)胞響應(yīng)分離出亮度通道(L),并沿側(cè)膝體(LGN)并進入V1。
CIE Lab顏色空間常被用來描述上述過程,L,a和b通道可看作下式中定義的R-G、B-Y和L對立顏色表示
(1)
LGN輸出的對立顏色成分進入V1層后,按照簡單細(xì)胞→復(fù)雜細(xì)胞→end-stopped細(xì)胞(曾被稱為超復(fù)雜細(xì)胞),完成由低級到高級的逐層整合。簡單細(xì)胞和復(fù)雜細(xì)胞都具有方向和空間頻率選擇性,我們首先對L,a,b通道分別進行2D Gabor濾波來提取簡單細(xì)胞響應(yīng)
(2)
式中,σ為高斯濾波方差,控制感受野大小,θ是細(xì)胞朝向,波長為λ,帶寬取σ/λ=0.56。2D Gabor濾波的實部和虛部分別對應(yīng)偶、奇對稱濾波器,通過卷積計算出響應(yīng)值,表示對當(dāng)前方向的響應(yīng)強度。
復(fù)雜細(xì)胞建模為Gabor 響應(yīng)振幅,即奇偶濾波器對圖像響應(yīng)的模值
(3)
式中,Re和Im分別是Gabor響應(yīng)的實部和虛部,尺度s對應(yīng)不同的波長λ,θ=(i-1)π/N,N是選取的方向角度個數(shù)。
文獻[9]將end-stopped細(xì)胞建模為相鄰2個朝向的復(fù)雜細(xì)胞響應(yīng)乘積,當(dāng)細(xì)胞朝向角度差異大于20°、小于等于30°時效果最好,因此我們?nèi)=8使得角度差為22.5°,尺度因子s為6。每幅end-stopping特征圖的計算公式為
Ei(x,y)=Cθi(x,y)*Cθi+1(x,y)
(4)
式中,θi=(i-1π)/N,Cθ(x,y)表示最優(yōu)朝向為θ的復(fù)雜細(xì)胞響應(yīng)之和,是對V1中方位功能柱的模擬
(5)
end-stopped細(xì)胞會受到其他相鄰神經(jīng)元的長距離抑制,可以用高斯差分(difference of Gaussian)算子來模擬這種機制,以抑制鄰域中的近似響應(yīng)
(6)
實驗中σ取輸入圖像寬度的0.02倍,?x」=max(x,0)。所有特征圖被抑制后加權(quán)相加得到end-stopping顯著圖
(7)
SE中像素值越高,表示該位置同時存在多個方向響應(yīng)的可能性越大,該像素是角點、線交叉點或曲率點的概率越大。
自底向上顯著圖主要在V1層形成,V1層中end-stopped細(xì)胞大約占25%,其余大部分為具有方向選擇性的簡單和復(fù)雜細(xì)胞,另外側(cè)膝體輸出的對立顏色和亮度信息也有一定貢獻,因此將end-stopping特征圖和文獻[2]中的亮度、顏色、方向特征合并,形成自底向上顯著圖的完整表達(dá)。
各通道特征圖具有不同的動態(tài)范圍和提取機制,其重要性也各不相同,合并前需要進行歸一化。文獻[2]提出的歸一化算子包括歸一化和加權(quán)2個步驟,模擬了皮層的側(cè)抑制機制。但該方法在只有一個強峰值時有效,存在多個同等峰值的特征圖會被忽略。本文采用了基于局部峰數(shù)量的歸一化加權(quán)方法
(8)
式中,F(xiàn)是各特征通道C上歸一化后的特征圖,m為全局峰值附近范圍內(nèi)的局部峰數(shù)量。通過除以局部峰值數(shù)量的平方根,局部峰較少的特征圖得到增強而整體存在大量局部峰的特征圖被抑制。加權(quán)后的各特征圖直接相加,形成最終顯著圖。
視覺顯著模型研究一般有2個目的:①根據(jù)模型生成的顯著圖來研究視覺注意力機制;②預(yù)測注視點位置并將其用于計算機視覺的其他領(lǐng)域。我們對模型的注視點預(yù)測性能進行了評估,即以人眼眼動數(shù)據(jù)生成的注視圖(fixation map)作為真實值(ground truth),將模型輸出顯著圖與之進行對比。
本文使用sAUC、CC和NSS這3種最常見的評價指標(biāo),以提供最公平的對比評估結(jié)果。其中sAUC用于描述模型對顯著區(qū)域檢測的準(zhǔn)確性,CC和NSS用于描述模型輸出的顯著圖與人眼注視圖的一致性或相關(guān)性。
sAUC(AUC-shuffled)是對AUC的改進。AUC曾是顯著模型中使用最廣泛的評價指標(biāo),它將顯著圖看作二值分類器,顯著值在閾值之上的點被視為正樣本(注視點),閾值之下的作為負(fù)樣本(非注視點),人眼注視點為真值,AUC值是以真陽性率和假陽性率為坐標(biāo)軸繪制成的ROC曲線下方區(qū)域面積。與AUC不同,sAUC將其他圖像上的注視點作為負(fù)樣本,從而將中心偏差也引入假陽性率的計算,因而不易受到中心偏差效應(yīng)的影響。
歸一化掃描路徑顯著性(NSS)是歸一化后的顯著圖在注視點位置的平均值,用來衡量每一次掃視時顯著圖與人眼注視圖之間的關(guān)聯(lián)程度。NSS越大,眼動位置預(yù)測越準(zhǔn)確,值為1表示眼動位置落在預(yù)測區(qū)域的密度高于平均值一個標(biāo)準(zhǔn)差。
線性相關(guān)系數(shù)(CC)在顯著模型中常被用于衡量模型估計的顯著圖與人眼注視圖之間的相關(guān)性。CC值越接近1,2幅圖越相似。
本文采用的數(shù)據(jù)集為Toronto和MIT1003[10-11]:Toronto數(shù)據(jù)集包含120幅分辨率為511*681的彩色圖像,其中大部分為不包含特定感興趣區(qū)域的場景圖像,收集了20位觀測者對每幅圖觀看3 s的眼動數(shù)據(jù);MIT1003數(shù)據(jù)庫包含分辨率不一、橫向或豎向排列的1 003幅圖像,種類包括文本、人臉和室內(nèi)外場景,收集了15名受試者自由觀看3 s數(shù)據(jù),2幅圖像之間間隔1 s。
我們選擇了4種顯著模型(AWS[12],BMS[13],Cor[4],eDN[14])進行對比,其中AWS、BMS和Cor是最新的、性能最優(yōu)的自底向上模型,eDN是首個基于深度學(xué)習(xí)的顯著模型,另外我們還將end-stopping顯著圖ES加入對比。
本文模型與其他對比模型在Toronto數(shù)據(jù)集上的部分顯著圖結(jié)果如圖2所示。可以看出本文模型的顯著圖與人眼真實眼動數(shù)據(jù)較為接近,能夠準(zhǔn)確預(yù)測注視點位置。
圖2 各模型在Toronto數(shù)據(jù)集上的部分顯著圖
與其他模型相比,本文模型更關(guān)注物體邊界上的輪廓和邊緣信息。這是因為我們通過復(fù)雜細(xì)胞響應(yīng)相乘的方式建模end-stopped細(xì)胞,角點(遙控器、顯示器的四角)、線交叉點(自行車骨架聯(lián)結(jié)點)和曲率點(手指彎曲處)等對多個方向存在響應(yīng)的特征被檢測出來,同時方向響應(yīng)代表的物體邊緣也得到一定保留。end-stopping顯著圖主要感知物體輪廓信息,而對物體內(nèi)部或與物體無關(guān)的顯著區(qū)域關(guān)注不足,因此我們加入了顏色和亮暗特征,完善了自底向上顯著圖的表達(dá)。另外,模型對長邊緣具有一定的抑制作用,與end-stopped細(xì)胞對長邊緣不敏感的特性吻合。
表1和表2分別給出了各模型在Toronto和MIT1003數(shù)據(jù)集上的性能對比結(jié)果。在Toronto數(shù)據(jù)集上,本文模型的各項指標(biāo)均略低于BMS而高于AWS和Cor;sAUC 值略高于Cor模型,而CC和NSS值有大幅提升;與eDN相比,本文方法CC和NSS較低,但在sAUC上具有明顯優(yōu)勢。MIT1003數(shù)據(jù)集上的對比結(jié)果大體相似,唯一不同的是本文模型的各項指標(biāo)低于AWS模型,但差距很小。end-stopping顯著圖各項指標(biāo)略低于最終顯著圖,其sAUC明顯高于eDN模型,CC和NSS較Cor模型具有優(yōu)勢,表明本文中的end-stopping特征能夠有效提取顯著區(qū)域。
表1 Toronto數(shù)據(jù)集上各模型的性能評價指標(biāo)
表2 MIUT1003數(shù)據(jù)集上各模型的性能評價指標(biāo)
2個數(shù)據(jù)集上的對比結(jié)果顯示,本文模型性能與當(dāng)前最好的3種自底向上模型相當(dāng),部分指標(biāo)優(yōu)于基于深度學(xué)習(xí)的eDN模型。
中心偏差效應(yīng)是指觀察者的眼動數(shù)據(jù)通常會更加偏向圖像中心,部分顯著模型利用這一點,對圖像中心進行高斯模糊而獲得較高的分?jǐn)?shù),從而產(chǎn)生不公平的性能對比結(jié)果。除sAUC外的大部分評價指標(biāo)都容易受到中心偏差的影響,由于sAUC的特性,其對高斯模糊具有良好的抗干擾能力,我們通過繪制不同高斯模糊標(biāo)準(zhǔn)差std下的sAUC變化曲線,分析了模型對中心偏差效應(yīng)的魯棒性。
圖3和圖4給出了各模型在Toronto數(shù)據(jù)集上的sAUC-std曲線。本文模型的sAUC峰值略低于BMS模型而明顯高于其他模型,end-stopping顯著圖的sAUC峰值略低于BMS和AWS模型。與其他模型相比,本文模型的 sAUC曲線變化較為平緩,表示模型對高斯模糊std值不敏感,受中心偏差效應(yīng)的影響較小。
圖3 模型在Toronto數(shù)據(jù)集上的sAUC-std曲線
圖4 模型在MIT1003數(shù)據(jù)集上的sAUC-std曲線
本文提出了一種生物啟發(fā)的視覺顯著模型,引入初級視皮層V1中的end-stopping機制以提取角點、邊緣交叉點和線段端點等特征,end-stopped細(xì)胞響應(yīng)與V1中簡單/復(fù)雜細(xì)胞的方向響應(yīng),以及LGN輸出的亮度、顏色特征一起形成自底向上顯著圖的完整表達(dá)。
在2個公開數(shù)據(jù)集上,模型與3種自底向上模型及一種深度學(xué)習(xí)模型進行了對比,結(jié)果表明本文模型達(dá)到了當(dāng)前自底向上顯著模型的先進水平,且對中心偏差效應(yīng)具有較強的抗干擾能力。其原因是,本文提取的end-stopping特征表征潛在的物體形狀和輪廓信息,相對于顏色、亮度等低層特征,物體在場景中往往更易吸引人的注意。但由此帶來的問題是,對于場景中較大的物體,end-stopping特征難以預(yù)測物體內(nèi)部的注視點位置;另外當(dāng)場景中不存在顯著物體時,具有較高明暗、亮度對比度的區(qū)域最具顯著性,因此模型加入了亮度和顏色特征來計算最終顯著圖。
本文將end-stopping機制引入顯著模型計算框架,對視覺顯著性和注意力研究具有2點貢獻:第一,驗證了將end-stopping機制用于顯著圖計算的可行性;第二,通過建模end-stopped細(xì)胞,對包含視網(wǎng)膜、側(cè)膝體和V1輸出的自底向上顯著圖,形成了一個初步的完備表達(dá)。本文提出的顯著模型在注視點預(yù)測性能上未能超越其他方法,這可能是由于V1中end-stopped細(xì)胞的生理結(jié)構(gòu)和作用機制還不是十分明晰,所以本文采用了一種計算上較為簡便的end-stopping理想模型,更準(zhǔn)確的建模方法有賴于視覺神經(jīng)生理機制的未來進展,以建立更加完備、準(zhǔn)確的自底向上顯著模型,這對于自底向上注意機制的研究具有重要意義。