崔麗娜,胡玉蘭,片兆宇
(沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110159)
基于增量記憶視覺(jué)注意模型的復(fù)雜目標(biāo)識(shí)別研究
崔麗娜,胡玉蘭,片兆宇
(沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110159)
針對(duì)復(fù)雜背景下的目標(biāo)識(shí)別問(wèn)題,提出一種新的基于增量記憶的視覺(jué)注意模型。首先根據(jù)目標(biāo)的顏色形狀,以及自底向上的原始視覺(jué)特征顏色、強(qiáng)度、方向、對(duì)稱性對(duì)目標(biāo)進(jìn)行粗定位。在此基礎(chǔ)上,利用粗選目標(biāo)的顏色、形狀生成一組自頂向下的偏差信號(hào),對(duì)初選目標(biāo)進(jìn)行及時(shí)指導(dǎo)修正。為了提高識(shí)別的準(zhǔn)確率,算法設(shè)計(jì)了一種增量學(xué)習(xí)記憶的機(jī)制來(lái)指導(dǎo)偏差信號(hào),所提出的增量注意機(jī)制不僅可以不斷學(xué)習(xí)和記憶各類目標(biāo)的顏色和形狀特征,而且利用這種機(jī)制可生成一個(gè)自頂向下的偏差信號(hào),對(duì)關(guān)注的候選區(qū)域的目標(biāo)進(jìn)行精確定位。此外,訓(xùn)練后的增量記憶的顏色、形狀特征有助于推斷新的未知目標(biāo)。最后的仿真實(shí)驗(yàn)中,與五種典型算法對(duì)比,無(wú)論是主觀還是客觀實(shí)驗(yàn),都獲得了較優(yōu)結(jié)果。因此,所提算法是一種高效的、切實(shí)可行的算法。
自底向上注意;自頂向下注意;增量記憶;視覺(jué)顯著性
人類視覺(jué)系統(tǒng)[1]具有機(jī)器無(wú)法比擬的靈活、高效的適應(yīng)能力,在自然或雜亂復(fù)雜的場(chǎng)景中,往往可以輕松地檢測(cè)到任意目標(biāo)。因此,把人類視覺(jué)系統(tǒng)的特性融入到人工視覺(jué)系統(tǒng)中一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究重點(diǎn)。而顯著目標(biāo)檢測(cè),由于其高效的處理性能、廣闊的應(yīng)用前景,被認(rèn)為是機(jī)器視覺(jué)研究的重中之重。
本文利用增量記憶將自底向上處理過(guò)程與自頂向下處理過(guò)程結(jié)合起來(lái),提出一種新的注意模型?;谠撃P偷乃惴◤?qiáng)調(diào)自頂向下的注意感知,實(shí)際上是一個(gè)自底向上和自頂向下有機(jī)融合和相互作用的過(guò)程,將目標(biāo)對(duì)象生成的偏差信號(hào)定義為增量記憶,自頂向下模型生成的增量記憶不斷指導(dǎo)修正自底向上模型對(duì)目標(biāo)對(duì)象的識(shí)別,達(dá)到即使在復(fù)雜背景下,也可以準(zhǔn)確、高效地識(shí)別出目標(biāo)對(duì)象。最后的仿真結(jié)果中,與6種典型自底向上注意模型對(duì)比,所提算法體現(xiàn)了更好的穩(wěn)定性和有效性。
視覺(jué)注意機(jī)制是模擬人腦來(lái)處理信息的機(jī)制[2]。通過(guò)將不同的處理優(yōu)先級(jí)賦予不同的圖像區(qū)域,可以降低處理過(guò)程的復(fù)雜度,提高處理速度和抗干擾能力,即在特征整合理論的基礎(chǔ)上,提取圖像的亮度等初級(jí)視覺(jué)特征,形成各個(gè)特征維的顯著圖;然后基于非均勻采樣的方式,采用多特征圖合并策略對(duì)這些不同特征維的顯著圖進(jìn)行融合,形成一幅最終的顯著圖。根據(jù)顯著圖可以得到一系列的待注意的目標(biāo),各目標(biāo)通過(guò)注意轉(zhuǎn)移的禁止返回(Iinhibition of retum)機(jī)制[3]和勝者為王(Winner-take-all)競(jìng)爭(zhēng)機(jī)制[4]吸引注意焦點(diǎn),并使得注意焦點(diǎn)在各個(gè)待注意的目標(biāo)之間依一定的原則轉(zhuǎn)移。注意信息是由每一個(gè)對(duì)應(yīng)于特定區(qū)域圖像特征的點(diǎn)組成的。
以基于視覺(jué)注意機(jī)制的注意快速識(shí)別目標(biāo)為例,其識(shí)別效果如圖1所示。
圖1 識(shí)別效果圖
由圖可知,單純視覺(jué)注意模型檢測(cè)顯著目標(biāo)的效果并不好,在目標(biāo)對(duì)象和背景對(duì)比度不明顯的情況下識(shí)別效果很差,顯著區(qū)域的邊界不清晰,特征細(xì)節(jié)給模糊掉了,目標(biāo)對(duì)象并不突出,尤其背景比較復(fù)雜的情況下,噪聲干擾也比較大。
為了模擬人類的智能視覺(jué)系統(tǒng),本文提出一種基于增量記憶的視覺(jué)注意的模型。本模型包括兩個(gè)處理過(guò)程:自底向上處理過(guò)程[5],自頂向下處理[6]過(guò)程。自頂向下處理過(guò)程生成增量記憶,指導(dǎo)修正自底向上處理過(guò)程的識(shí)別目標(biāo)對(duì)象工作,其中增量注意不僅可以不斷學(xué)習(xí)和記憶各類目標(biāo)的顏色和形狀特征,而且利用增量記憶生成自頂向下的偏差信號(hào),可以對(duì)目標(biāo)對(duì)象進(jìn)行精確定位。整體框圖如圖2所示。
圖2 該模型的概述
首先由原始的輸入圖像可獲取到圖像的基本特征,通過(guò)高斯金字塔提取粗尺度圖像,圖像通過(guò)中央標(biāo)準(zhǔn)差(CSD)獲取到顯著信息[7];同時(shí)對(duì)圖像的基本顏色特征、形狀特征進(jìn)行加權(quán)等處理生成基于原始圖像的顏色、形狀偏差信號(hào),即增量記憶,在生成細(xì)識(shí)別目標(biāo)對(duì)象的過(guò)程中,偏差信號(hào)對(duì)識(shí)別不斷指導(dǎo)修正,以實(shí)現(xiàn)復(fù)雜背景下目標(biāo)對(duì)象的高效準(zhǔn)確識(shí)別,生成顯著圖。通過(guò)增量記憶[8]不僅可以識(shí)別顯著區(qū)域,而且可以將其存儲(chǔ)下來(lái)。
2.1 自底向上處理
2.1.1 顏色特征提取
為了提高識(shí)別精度,并且實(shí)現(xiàn)彩色圖像的識(shí)別,識(shí)別過(guò)程中各個(gè)顏色通道需保持獨(dú)立。若想獲得最佳的圖像邊緣就需要采用IUV顏色空間[9]。把對(duì)彩色圖像(R,G,B)的識(shí)別問(wèn)題轉(zhuǎn)換成(I,U,V)顏色空間的問(wèn)題,識(shí)別過(guò)程中各個(gè)顏色通道保持獨(dú)立,這種方法識(shí)別精度高,并且實(shí)現(xiàn)了彩色圖像的識(shí)別。通過(guò)公式(1)計(jì)算:
(1)
根據(jù)RGB顏色空間模型[10]構(gòu)建一個(gè) IUV 顏色模型,轉(zhuǎn)化方法如公式(2)所示:
(2)
強(qiáng)度特征i通過(guò)公式(3)獲得:
i=(r+g+b)/3
(3)
2.1.2 基于中央周邊差的特征處理
在顯著圖模型中,以方向(O)和對(duì)稱性(S)特性作為高階特性,分別利用Gabor濾波器和Fukushima對(duì)稱性提取邊緣特性的方法,將I、O、S、U、V5個(gè)特征通過(guò)高斯金字塔,生成7個(gè)不同尺寸的特征圖,可以得到35幅特征圖。然后,利用中央周邊差,將I、O、S、U、V的顯著圖組合成4個(gè)顯著圖,如式(4):
(4)
2.1.3 基于顯著圖的獨(dú)立成分分析
在該模塊中,采用獨(dú)立分量分析算法[11]來(lái)減少冗余,以視覺(jué)皮層的作用作為冗余減速器。將特征圖各個(gè)特征通道與濾波器寬度作卷積計(jì)算并求和來(lái)確定局部顯著區(qū)域。最合適的規(guī)模顯著區(qū)域集中在x,如式(5)所示:
(5)
HD(l,x)和WD(l,x)分別是熵和窗大小。在自底向上顯著圖模型中獲取局部區(qū)域,定義為IOR 區(qū)域[12]。自底向上凸起的局部地區(qū)獲得的地圖模型被定義為IOR地區(qū)。那么屏蔽掉這個(gè)IOR 區(qū)域也就是排除了先前認(rèn)為的顯著對(duì)象,接著可以找到下一個(gè)顯著目標(biāo)。
2.1.4 顯著圖的熵值選擇與目標(biāo)對(duì)象中央加強(qiáng)
本文通過(guò)抑制幅度譜脈沖進(jìn)行顯著目標(biāo)檢測(cè),對(duì)脈沖的抑制量不同檢測(cè)出的顯著圖結(jié)果也不同,所以建立了不同高斯函數(shù)平滑后幅度譜尺度空間[13],它是由一系列高斯函數(shù)與幅度譜卷積[14]得到的,每個(gè)高斯函數(shù)具有一個(gè)不同的尺度參數(shù),如式(6)所示:
(6)
其中k為可調(diào)節(jié)的尺度參數(shù), k=1…K,K由圖像的尺寸決定,如式(7)所示:
K=[log2min{H,W}]+1
(7)
H,W為圖像的長(zhǎng)和寬,t0=0.5。給定圖像的幅度譜為A(u,v),則平滑幅度譜的尺度空間如式(8)所示:
Λ(u,v,k)=(g(u,k)*A(u,v))
(8)
對(duì)不同尺度的顯著圖求熵值,熵值最小的顯著圖[15]認(rèn)為檢測(cè)結(jié)果是最好的,其計(jì)算公式如式(9)所示:
kp=argmin{H(Sk)}
(9)
其中熵值計(jì)算為傳統(tǒng)的計(jì)算公式如式(10)所示:
(10)
2.2 自頂向下處理
2.2.1 提取顏色和形狀特征
由R,G,B和Y色彩成分可以獲取到RG和BY特性,而由RG和BY可以獲取物體的顏色和形狀特性,通過(guò)此過(guò)程可以有效地通過(guò)顏色特征來(lái)提取圖像的細(xì)節(jié)信息。目標(biāo)物體的RG和BY特征通過(guò)裁剪變成兩個(gè)16×16極對(duì)數(shù)特性,并且將每個(gè)極對(duì)數(shù)特性轉(zhuǎn)換為一維向量。
本文采用熵最大模型來(lái)分別模擬視覺(jué)注意機(jī)制簡(jiǎn)單特性和復(fù)雜特性,即S1和C1特性。S1特性構(gòu)造使用一個(gè)對(duì)象在一個(gè)局部區(qū)域的定位信息,并通過(guò)Gabor濾波器具有不同尺度的輸入圖像。通過(guò)濾波可以獲得2尺度和8個(gè)方向的濾波特性的S1特性。因此每個(gè)方向就有了兩個(gè)S1定位圖,通過(guò)S1定位圖對(duì)每個(gè)方向的操作取最大的操作可以得到C1特性。
2.2.2 自頂向下信號(hào)生成偏差矩陣
當(dāng)成功訓(xùn)練學(xué)習(xí)目標(biāo)對(duì)象后還有一個(gè)額外的作用就是可以生成權(quán)重矩陣,矩陣可以生成自上而下的偏差信號(hào),這樣便在輸入場(chǎng)景中可以找到目標(biāo)對(duì)象區(qū)域?;谔囟ㄆ钭⒁獾哪繕?biāo)對(duì)象任務(wù)來(lái)考慮尺度不變特性,基于三種不同尺度的高斯金字塔,其三種不同的尺度可以用來(lái)訓(xùn)練三種不同比例的顏色和形狀特性。所以這三種不同比例訓(xùn)練的權(quán)重矩陣可以生成三種不同尺度的特性。在中央周邊差(CSD&N)過(guò)程中,三種不同比例的權(quán)重矩陣可以用于生成不同尺度的偏差信號(hào)。
(11)
其中c_We和f_We分別是顏色和形狀的加權(quán)矩陣,Ie,Oe,Se,Ce分別是強(qiáng)度、方向、對(duì)稱性和顏色特征。
2.3 增量記憶
首先將自頂向下處理工程生成的顏色、形狀偏差信號(hào)定義為增量記憶,結(jié)合考慮自頂向下的目標(biāo)對(duì)象的形狀和顏色偏差信號(hào),得出顯著圖,利用提出的模型可以成功地提取出目標(biāo)物體區(qū)域,生成流程圖如圖3所示。
圖3 自頂向下注意的實(shí)驗(yàn)結(jié)果
通過(guò)對(duì)一個(gè)特定尺度的目標(biāo)對(duì)象的感知可以獲取到每個(gè)感知對(duì)象的權(quán)重矩陣。因此,通過(guò)使用不同尺度的自底向上特征并用自上向下的加權(quán)矩陣提出的自上向下偏差模型可以檢測(cè)出尺度不變的對(duì)象定位區(qū)域。基于同一特征圖生成過(guò)程由自頂向下的偏差強(qiáng)度特征、方向特征、對(duì)稱性特征、顏色特征可以創(chuàng)建偏差強(qiáng)度特征圖、偏差方向特征圖、偏差顏色特征圖、偏差對(duì)稱性特征圖這四種不同的偏差特征圖。
將本文提出的方法與FT,SR,AIM,Gbvs,Itti算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖4。
圖4 實(shí)驗(yàn)結(jié)果:(a)原圖 (b)FT (c)SR(d)AIM (e)Gbvs (f)Itti (g)本文方法
從上圖的對(duì)比結(jié)果可以看出,本文方法具有最好的顯著性能評(píng)估。對(duì)于測(cè)試圖像,大多數(shù)方法都能夠檢測(cè)出顯著目標(biāo),但是都各有利弊,并不完善。FT算法可以識(shí)別目標(biāo)對(duì)象但是精確度不高,沒(méi)有消除冗余信息;SR算法抗噪聲性能不好,識(shí)別效果也不是很理想;AIM算法在目標(biāo)對(duì)象和背景對(duì)比度不明顯的情況下識(shí)別效果很差,顯著區(qū)域的邊界不清晰;Gbvs算法和Itti算法可以識(shí)別出目標(biāo)對(duì)象的大體輪廓,但是對(duì)象的細(xì)節(jié)信息被復(fù)雜的背景給模糊掉了,所以最終識(shí)別效果不好。從本文算法最終識(shí)別效果可以看出,對(duì)于復(fù)雜背景下的目標(biāo)對(duì)象識(shí)別效果還是很不錯(cuò)的,冗余信息處理的也比較好,抗噪聲性能相比較也是比較強(qiáng)的,精確度、準(zhǔn)確率等各方面的表現(xiàn)都不錯(cuò)。
在正常的人類視覺(jué)中,自底向上和自頂向下處理過(guò)程的結(jié)合將會(huì)影響注意,并將注意吸引到顯著的相關(guān)場(chǎng)景部分。所以,強(qiáng)調(diào)模擬自頂向下的注意感知實(shí)際上是一個(gè)自下而上和自上而下的有機(jī)融合和相互作用的過(guò)程,在這個(gè)過(guò)程中自動(dòng)運(yùn)用視覺(jué)認(rèn)知規(guī)律,通過(guò)一系列視知覺(jué)操作,使視覺(jué)處理過(guò)程在一定目的下,以盡可能小的代價(jià)獲得盡可能好的結(jié)果,也更加符合人類視覺(jué)感知的基本特征。
復(fù)雜背景下的目標(biāo)識(shí)別是計(jì)算機(jī)視覺(jué)的研究熱點(diǎn)和難點(diǎn)問(wèn)題。本文中提出了一種基于增量記憶將自底向上和自頂向下相結(jié)合的方式來(lái)定位復(fù)雜背景下目標(biāo)對(duì)象的方法。在復(fù)雜的背景下,該模型有較強(qiáng)的噪聲抑制能力,可以把目標(biāo)準(zhǔn)確定位出來(lái)并且更好地解決目標(biāo)識(shí)別的問(wèn)題。
[1] 田媚.模擬自頂向下視覺(jué)注意機(jī)制的感知模型研究[D].北京:北京交通大學(xué),2007.
[2] 暴林超.復(fù)雜目標(biāo)視覺(jué)注意模型研究[D].武漢:華中科技大學(xué),2011.
[3] 謝玉林.貝葉斯框架下圖像顯著性檢測(cè)[D]. 大連: 大連理工大學(xué), 2011.
[4] 殷德奎,張保民,柏連發(fā).一種熱圖像的多模板邊緣檢測(cè)方法[J].南京理工大學(xué)學(xué)報(bào),1999,23(1): 16-20.
[5] TREISMAN A,GELADE G. A feature integration theory of attention [J]. Cognitive Psychology, 1980, 12(1): 97-136.
[6] 王岳環(huán),張?zhí)煨?基于視覺(jué)注意機(jī)制的實(shí)時(shí)紅外小目標(biāo)預(yù)檢測(cè)[J].華中科技大學(xué)學(xué)報(bào): 自然科學(xué)版,2001,29(6):7-9.
[7] 唐奇伶.基于初級(jí)視皮層感知機(jī)制的輪廓與邊界檢測(cè)[D].武漢:華中科技大學(xué),2007.
[8] 張鵬,王潤(rùn)生.基于視點(diǎn)轉(zhuǎn)移和視區(qū)追蹤的圖像顯著區(qū)域檢測(cè)[J].軟件學(xué)報(bào),2004,15(6):891-899.
[9] 單列.視覺(jué)注意機(jī)制的若干關(guān)鍵技術(shù)及應(yīng)用研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2008.
[10] PETER R J. Components of bottom-up gaze allocation in natural images[J]. Vision Research, 2005, 45(8): 2397-2416.
[11] ITTI KOCH. Feature combination strategies for saliency-based visual attention systems[J],Iournal of Electronic Imaging,2001,10(1):161-169.
[12] LIU T,SUN J, ZHENG.X. Learning to detect a salient object[C]. in: Proceedings of CVPR,1969:97-145.
[13] 謝玉林.貝葉斯框架下圖像顯著性檢測(cè)[D]. 大連: 大連理工大學(xué), 2011.
[14] 田媚,羅四維,廖靈芝.基于what和where信息的目標(biāo)檢測(cè)方法[J].電子學(xué)報(bào),2007,35(11):2055-2061.
[15] DALAL N. Histograms of oriented gradients for human detection[C]. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition,2005: 886-893.
Target recognition of visual attention model based on the incremental memory
Cui Lina,Hu Yulan, Pian Zhaoyu
(School of Information Science and Engineering, Shenyang Ligong University,Shenyang 110159, China)
A new method to recognize target of visual attention model based on the incremental memory is proposed, it is about the target recognition problem under complex background. First of all, according to the shape and the color of the target, and the original visual characteristic of the bottom-up color, intensity, direction, symmetry, the target is located roughly. On this basis, a set of top-down bias signal is generated. In order to improve the accuracy of recognition, target recognition of visual attention model based on the incremental memory is proposed. The proposed incremental attention mechanism not only can keep on learning and memory of all kinds of color and shape features of target, and taking advantage of this mechanism, it can generate a top-down bias signal, to pay attention to the candidate regions of target for precise positioning. In addition, unknown object is located by the training characteristics of the color and shape of the increment of memory. In the final simulation experiment, the proposed method is compared with five kinds of typical algorithms, both subjective and objective experiment. The proposed method is the best one. Therefore, the proposed method is an efficient and practical method.
top-down attention; bottom-up attention; incremental memory; saliency map
TP391
A
1674-7720(2016)01-0045-04
崔麗娜,胡玉蘭,片兆宇.基于增量記憶視覺(jué)注意模型的復(fù)雜目標(biāo)識(shí)別研究[J] .微型機(jī)與應(yīng)用,2016,35(1):45-48,52.
2015-09-08)
崔麗娜(1990-),通信作者,女,碩士生,主要研究方向:自適應(yīng)信號(hào)處理。E-mail:cuilina_krystal@163.com。
胡玉蘭(1961-),女,碩士,教授,主要研究方向:多機(jī)器人系統(tǒng)、人工智能、多傳感器信息融合技術(shù)、系統(tǒng)檢測(cè)技術(shù)等。
片兆宇(1980-),男,博士,教授,主要研究方向:自適應(yīng)信號(hào)處理。