吳月娥 邊后琴
摘 要:針對在傳統機器視覺研究中,尺度、顯著性和物體識別多數被分開研究的現狀,首先分析三者之間的內在聯系和相互關系,得出應該在一個框架中來研究它們的結論;然后討論視覺中的尺度空間表示方法、顯著性度量方法。最后選取強度、顏色和方向三種特征以及尺度引導注意,建立一個自下而上的結合尺度與特征引導的計算模型,并給出仿真實驗結果。[JP]
關鍵詞:協同模式識別;主動視覺;視覺選擇性注意機制;尺度空間
中圖分類號:TP391
0 引 言
目前主動視覺是機器視覺研究的熱點和發(fā)展方向。其核心內容是為了完成給定的視覺任務,如何主動、智能、有選擇地獲取視覺信息;從計算的觀點來說,就是要建立視覺選擇性注意機制的計算模型,對圖像數據進行顯著性度量。
機器視覺要完成從2D圖像出發(fā)對場景進行理解,而2D圖像本身作為對應3D場景的一個不可逆透射變換,它對場景的描述形式表現為數值矩陣形式,所有的信息都隱藏在里面,為此機器視覺算法的基本要求就是要能從這種原始以矩陣形式表示的2D圖像數據中提取“有意義”的描述。其中的關鍵問題是:到底什么是“有意義”的,以及其描述的形式或模型是什么。顯然這兩個問題都跟具體的視覺任務有關,最基本的任務就是視覺物體識別,為了識別,一個前提是要能從圖像中分離出物體出來,即前景/背景分離,前景構成對圖像的一種“有意義”描述,而視覺選擇性注意機制的計算模型是實現得到這種描述的一種有效模型,為此要對圖像進行顯著性度量;同時所得前景以及其各種特征只在一定的有限的尺度范圍內才是“有意義”的,即尺度也是描述的┮桓霆重要參數,所以尺度、顯著性和物體識別對一個描述模型來說是密不可分。
1 視覺中的尺度空間的表示
圖像中的尺度問題可以理解為成像所使用的孔徑/光圈的大小,以及成像設備和物體之間的距離的綜合作用在透射投影下賦予物體的像的一個固有屬性。一幅自然場景的2D圖像中包括各種不同大小的物體的像,預先并不知道有哪些尺度,為了從圖像出發(fā)去理解場景,必須要在各個尺度上對圖像進行表示和分析處理,即多尺度表示和分析[7,8]。將尺度作為一個自由參量引入圖像中。多尺度表示方法由來已久,主要有兩種:四叉樹和金字塔。
尺度空間表示的一般方法是:將尺度作為一個自由參量引入到原始玁維信號(如2D圖像)中,得到一個┆玁+1維的信號,所得信號在尺度維上滿足一個擴散方程,該擴散方程是一個以原始信號為初始狀態(tài)的偏微分方程(PDE),稱所得信號為原始信號的尺度空間表示;根據擴散方程的線性和非線性可以將尺度空間表示區(qū)分為線性尺度空間和非線性尺度空間;在尺度維上,信號表現出一種由細到粗的過程,一個基本要求就是在粗的尺度上,信號中不能出現新的結構[1,3]。記原始圖像為I(x,y)∈[WTHZ]R[WTBX],(x,y)∈[WTHZ]Z[WTBX],尺度記為t∈[WTHZ]R[WTBX]+,圖像尺度空間表示為:
式中:玊為尺度空間變換,尺度玹的初始值為原始圖像中的尺度,為了數學上分析方便一般可認為為0。┩1(a)為尺度空間表示示意圖;圖1 (b)為Lena圖像的尺度空間表示。玊滿足的擴散方程為:
式中:[WTHX]J[WTBX]=-[WTHX]D[WTBX]齌是獸lick法則,表示擴散的平衡特性;[WTHX]D[WTBX]是一個正定對稱矩陣表示擴散張量。如果[WTHX]J[WTBX]和齌平行,則表示擴散是各向同性的,這時[WTHX]D[WTBX]可用一個正常數g來代替,反之為各向異性。若[WTHX]D[WTBX]是一個正常數(如常取1),則相應的尺度空間為線性尺度空間;若[WTHX]D[WTBX]是一個與圖像結構相關的標量或向量函數,則為非線性各向同性尺度空間或非線性各向異性尺度空間。И
尺度空間表示提供了一種對圖像進行多尺度分析的基礎。但是在尺度空間中,想要得到“有意義”的描述還隱含于圖像數據中,所以重要的是如何利用尺度空間表示來產生更好、更有意義的描述,或者如何利用尺度來引導注意,計算圖像數據中自下而上的顯著性。
顯著性度量是實現引導視覺注意的最常用的方法。在數學形式上,顯著性度量函數其實就是從各種早期視覺特征圖到顯著圖的一個映射,它計算的核心在于如何進行對比度計算,而不依賴于其具體的某種輸入。目前,顯著性度量共有七種方法,文中結合使用兩種方法:基于空間和特征整合的顯著性度量和基于尺度空間表示和信息論的顯著性度量。
2 視覺選擇性注意機制計算模型框架
視覺注意計算模型框架如圖2所示。針對隱式注意建立自下而上的結合尺度與特征共同引導的視覺注意計算模型,選擇使用強度、顏色和方向圖作為自下而上引導視覺注意的早期視覺特征,根據主尺度估計的結果建立它們的尺度空間表示,形成度量顯著性的高維空間。通過在所得高維空間中進行顯著性度量來引導視覺注意,特征和尺度共同作用形成顯著圖,所得的顯著圖包括兩個部分:圖像中區(qū)域/物體的顯著性大小和它們的最佳尺度。オ[KH-1]
2.1 顏色特征圖提取
記r(t),g(t)和b(t)為原始圖像中的紅、綠和藍色通道。其中t表示尺度,可設原始圖像的尺度為0,則強度圖為I(t)=[r(t)+g(t)+b(t)]/3。首先,為了除去色調(Hue)的影響,使用I(t)對r(t),g(t)和b(t)通道進行歸一化,然后可以得到如式(3)計算的廣義上的紅、綠、藍和黃四個通道。圖3所示分別為Lena圖像的各個顏色特征分量。
2.2 方向特征圖提取
V1區(qū)是視覺信息處理的前端,它的數學模型通常用Gabor濾波器表示。Gabor函數是高斯函數調制的正弦和余弦函數,相應地構成其偶小波和奇小波,它是能夠取得空域和頻域聯合測不準原理下限的惟一函數,且有很好的方向選擇性。二維Gabor濾波器的數學表達式如下
式中:(x0,y0)是空域中感受野中心;(ξ0,υ0)是濾波器在頻域上的最優(yōu)空間頻率。σ和β分別是x和y軸方向上高斯函數的標準差。通常取4個或8個方向的獹abor濾波器輸出作為方向特征圖:(i/N)π,N=4或8;i=0,1,2,3或i=0,1,2,…,7。圖
4是Lena圖像的┧母霆方向特征圖和相應的Gabor函數。
2.3 顯著性度量函數
在經過主特征圖提取以后,尺度為t的圖像中每個像素可以用一個含10個元素的張量來表示圖像描述模型。顯著性度量結果應該包含兩個部分:一是,要得到圖像中哪些區(qū)域/物
式中:F用來度量這里所使用的描述玠escrip([WTHX]s[WTBX])表示圖像信號的符合性如何;顯著性與玠escrip([WTHX]s[WTBX])表示圖像信號的符合性成反比。顯著性度量的難度在于如何去設計F,使得其結果有一定的認知符合性和有效性。И
3 主尺度估計與注視點最佳尺度選擇
建立尺度空間表示,首先要確定當前圖像中的主尺度,所謂主尺度是指圖像中前景物體的尺度。根據主尺度再確定建立尺度空間表示的所用的尺度范圍,同時根據尺度空間表示來對注視點的最佳尺度進行選擇。
3.1 主尺度估計
在圖像中引人尺度維以后,這時圖像在尺度維上由細到粗的變化,總體上表現為一種信息丟失的過程,那么如何去度量其丟失量[3,8]。通過前面對尺度空間表示的討論,可以知道這種由細到粗的過程是通過讓圖像在尺度維上按某個PDE擴散方程,為了度量相鄰尺度圖像I(x,y;t璱)和I(x,y;t﹊+1)之間中的信息丟失量,先對I歸一化,即使得隝(x,y;t)玠玿玠珁=1,然后通過計算它們之間的Kullback[CD*2]Leibler距離來度量:
通過在尺度維上計算這種相鄰尺度圖像間的g(x)值,所有g(x)е抵兇畬籩鄧對應的尺度即為圖像中的主尺度,如圖5所示。原始圖像有黑白交替的方塊,尺度大約為100個像素,通過度量其KL信息在尺度空間的分布,主尺度的估計值與實際情況相符合。
3.2 注視點最佳尺度選擇
尺度空間表示提供了多尺度表示和分析的基礎,其中尺度作為一個自由參量,選擇最佳尺度也就意味著要建立一個測度。這個測度是關于尺度的一個凸函數,其極大值所對應的尺度即為最佳尺度,如何設計這個測度函數是關鍵所在。由前面的討論知道尺度空間表示的一個基本要求就是在粗尺度上圖像中不能形成新的結構,也就是說原始圖像中的極大值和極小值都要被抑制,從而在圖像由細到粗過程中表現出一種平滑作用,最常用的線性尺度空間:
對其求關于x和y的一階或二階偏導可得:I瓁,I瓂,I﹛x,I﹜y,I﹛y,這些偏導數的的組合可以得到十分有用的算子,如用于邊緣檢測的梯度算子玸qrt(I瓁2+I瓂2),И㎜aplace算子等,但這些偏導數本身是關于尺度的遞減函數,這是因為隨著尺度增大,圖像不斷被平滑,而實際中通常希望這些算子具備尺度不變性,所以要使用尺度去對其進行規(guī)范化,對玿和y進行變量代換:
[HJ1]И[HJ]u=x/t, v=y/t[JY](8)[HJ1]И[HJ]
則可得:I璾=tI瓁,I璿=tI瓂,其他的類推可得,從而使得規(guī)范后的偏導是凸函數,可以用來進行最佳尺度選擇,文中使用規(guī)范拉普拉斯函數,如式(8)所示,求其極大值所對應的尺度為最佳尺度,實驗圖像如圖6所示。
4 結合尺度和特征的顯著性度量仿真實驗
有了上面的討論后,現在可以給出結合尺度與特征引導的視覺注意計算的仿真實驗。算法流程:
(1) 獲取輸入圖像,提取主特征圖:獻,RG,BY┧母霆方向圖;
(2) 使用強度圖獻,建立其尺度空間表示,按第3.1節(jié)中方法估計圖像的主尺度玹璸,并保留獻的尺度空間表示;
(3)根據主尺度玹璸確定尺度空間表示的相鄰尺度間隔大小玹﹕tep,在此采用四層尺度空間表示,則玹﹕tep=max[Int(玹璸/4),玹﹎in猏],Int為取整操作,玹﹎in為間隔閾值,本文中玹﹎in=2。也可以采用八層或其他;
(4) 根據玹﹕tep建立RG,BY四個方向圖的四層尺度空間表示。
(5) 進行中央-外周計算,中央層為center=[1,2],外周層[WTHX]s[WTBZ]=[3,4],從而形成1[CD*2]2,1[CD*2]3,2[CD*2]3,2[CD*2]4四層,所以可得7×4=28個特征;
(6) 對得到的28幅特征圖,按式(5)進行迭代產生特征顯著圖,迭代次數為5;
(7) 對所得特征顯著圖歸一化后線性組合,得到最終顯著圖。組合系數取為1;
(8) 選取注視點,在獲得每個注視點后,根據第3.2節(jié)中的方法進行最佳尺度選擇;根據注視點及其最佳尺度產生圖像前景的一個模板(Mask)。
圖7為結合尺度與特征引導的注意仿真實驗結果。[LL]從圖中可以看出,無論是對尺度范圍變化較大的圖像還是尺度變化范圍不大的圖像,模型基本上能將圖像中大部分感興趣的區(qū)域/物體注意到,且能對注視點進行最佳尺度選擇。
5 結 語
在此討論了結合尺度、顯著性和物體識別的必要性和可行性;著重討論了尺度空間表示,并給出了尺度空間中一種多尺度表示的方法。在以上的分析基礎上給出了一種結合尺度與特征引導的視覺注意計算模型和具體實現,以及仿真實驗結果。
參 考 文 獻
[1]Navalpakkam V,Itti L.Modeling the Influence of Task on Attention[J].Vision Research,2005,45(2):205[CD*2]231.
[2]Soto D,Blanco M J.Spatial Attention and Object[CD*2]based Attention:A Comparison within a Single Task[J].Vision Research,2004,44:69[CD*2]81.
[3]Duits R,Florack L,Graaf J D,玡t al.On the Axioms of Scale Space Theory[J].Journal of Mathematical Imaging and Vision,2004,20:267[CD*2]298.
[4]Duda R O.Pattern Classification[M].2nd Edition.Wiley[CD*2]Interscience,2000.
[5]Lowe D G.Distinctive Image Features from Scale Invariant Keypoints[J].International Journal of Computer Vision,2004,2(60):91[CD*2]110.
[6]Mikolajczyk K,Tuytelaars T,Schmid C,玡t al.A Comparison of Affine Region Detectors[J].International Journal of Computer Vision,2004.
[7]Florack L,Kuijper A.The Topological Structure of Scale[CD*2]Space Images[J].Journal of Mathematical Imaging and Vision,2000,12:65[CD*2]79.
[8]Kuijper A.Mutual Information Aspects of Scale Space Images[J].Pattern Recognition,2004,37(12):2 361[CD*2]2 373.
[9]Itti L,Koch C.Computational Modeling of Visual Attention[J].Nature Neuroscience,2001,2:194[CD*2]203.
作者簡介 吳月娥 上海電力學院講師,中國科學技術大學博士。主要研究方向為數字圖像處理、計算機視覺。
邊后琴 上海電力學院講師,上海交通大學博士。主要研究方向為機器機視覺、機器人控制。