趙利萍,周海英
(中北大學(xué) 計算機與控制工程學(xué)院,山西 太原030051)
在復(fù)雜的背景下實現(xiàn)目標(biāo)識別[1]一直是視覺測量方面研究的難點之一,通常處理這類問題的方法大致分為兩種:一種是直接識別目標(biāo),通常用的是模板匹配的方法;另一種是首先要運用一定的方法圈定一些區(qū)域作為假定的目標(biāo)區(qū)域,再進(jìn)一步選取更為準(zhǔn)確的目標(biāo)區(qū)域,而且通常把矩形不變量作為選取目標(biāo)區(qū)域的特征[2,3]。這幾種方法都是針對靜態(tài)目標(biāo),計算量大,難以實現(xiàn)對目標(biāo)的實時識別。
視覺注意系統(tǒng)在機器人視覺系統(tǒng)中的應(yīng)用使得對動態(tài)目標(biāo)的識別成為現(xiàn)實,它能夠為機器人提供較為準(zhǔn)確和直觀的視覺信息[4,5]。視覺注意系統(tǒng)即是模擬人眼的選擇性注意行為以及其預(yù)注意和注意不斷循環(huán)的工作機制的系統(tǒng)[5]。預(yù)注意階段:在視覺場的周邊進(jìn)行簡單的計算以確定下一個凝視點的位置和下一個視網(wǎng)膜中央凹將執(zhí)行的場景,這樣就產(chǎn)生了一連串的中央凹圖像;注意階段:前邊得到的中央凹圖像將會經(jīng)過注意處理,獲得基于視覺基元的復(fù)雜特征信息。
Gallant等對獼猴V4區(qū)在Cartesian和non-Cartesian光柵刺激下的神經(jīng)反應(yīng)進(jìn)行研究,揭示了Cartesian和non-Cartesian濾波器一起作用于該注意處理過程。本文是基于Cartesian和non-Cartesian在視覺注意機制方面作用的思想,提出了利用50個Cartesian和non-Cartesian濾波器構(gòu)造一組視覺元素,以此獲得中央凹圖像的觀測向量,進(jìn)而組成注意序列的方法,來表征圖像的特征集。因此比較當(dāng)前場景的觀測向量和經(jīng)過訓(xùn)練的平均觀測向量,用幾個掃視就可以快速實時地實現(xiàn)移動機器人對目標(biāo)的識別和判斷。
人眼的形狀近似為一球體,有三層薄膜包圍著它,分別為角膜與鞏膜、脈絡(luò)膜和視網(wǎng)膜。人眼最里面的膜是視網(wǎng)膜,當(dāng)眼睛適當(dāng)?shù)鼐劢箷r,來自眼睛外部的光就會在視網(wǎng)膜上成像。眼睛中的光接收器主要有錐狀體和桿狀體,錐狀體主要集中于視網(wǎng)膜的中央?yún)^(qū)域,稱之為中央凹[7,8]。它對顏色高度敏感,并且可以高效地分辨圖像的細(xì)節(jié)信息。機器視覺是用機器模擬人眼來進(jìn)行測量和判斷[4]。用移動機器人的攝像機來代替人眼,當(dāng)攝像機對準(zhǔn)圖像時,即確定了此時的凝視點,繞光軸最高視力的小區(qū)域就是中央凹區(qū)域。
灰度形態(tài)學(xué)腐蝕算子
單尺度形態(tài)學(xué)梯度算子
式中:I⊕g——利用g對I進(jìn)行膨脹,IΘg——利用g對I進(jìn)行腐蝕。
該單尺度形態(tài)學(xué)梯度算子的性能優(yōu)劣由結(jié)構(gòu)元素g的大小來決定。如果g大的話就會邊緣之間發(fā)生嚴(yán)重的互相影響,這就會造成該梯度的極大值同邊緣不相一致的后果;但是,當(dāng)g過于小時,該梯度算子對斜度邊緣輸出一個很小的結(jié)果 (雖然此時該梯度有較高的分辨率)。
為了使得大結(jié)構(gòu)元素的優(yōu)點和小結(jié)構(gòu)元素的優(yōu)點都被充分利用,就提出了多尺度形態(tài)學(xué)梯度算子。設(shè)Bi是一組大小為 (2 i+1)(2 i+1)的正方形結(jié)構(gòu)元素,則多尺度形態(tài)學(xué)梯度算子定義為
則邊緣檢測后得到的矩形區(qū)域在原圖中表示如圖1所示。
圖1 矩形區(qū)域在原圖中的表示
It is high time for us to think about how to adjust our diplomatic working model and improve tactics that are of benefit to China.
在視覺注意的注意階段,中央凹圖像Xtv經(jīng)過注意處理后,就得到一個關(guān)于其狀態(tài)的觀測向量ot。因此預(yù)注意和注意每循環(huán)一次就得到一個觀測向量,為了得到目標(biāo)或者場景的足夠信息,就需要多次循環(huán),這就會得到多個觀測向量。將得到的多個向量按照觀測的先后順序排列起來形成的序列,就稱為注意序列OT= (o1,…,oT)。其中視覺元素的選擇是至關(guān)重要的。
生理神經(jīng)表現(xiàn)的潛在可能性表明視覺元素是由Cartesian和non-Cartesian濾波器共同組成[9,10]。這里選取的是由30個Cartesian和20個non-Cartesian(包含5個concentric、5個polar、5個hyperbolic、5個旋轉(zhuǎn)的hyperbolic)濾波器組成的視覺元素來進(jìn)行實驗的。
(1)Cartesian濾波器數(shù)學(xué)模型
(2)non-Cartesian濾波器數(shù)學(xué)模型
1)concentric filters
2)polar filters
3)hyperbolic filters
4)旋轉(zhuǎn)的hyperbolic filters
其中,c是定向角,ω是頻率,(i,j)分別表示像素在中央凹圖像中的位置。
選擇了視覺元素后,對中央凹圖像進(jìn)行注意處理。假設(shè)一共有M個不同的視覺元素,F(xiàn)代表視覺元素的濾波器組,Ωm代表第m個視覺元素值的集合。注意處理的過程如下:
假設(shè)視覺元素中濾波器函數(shù)的數(shù)學(xué)模型為
其中,F(xiàn)是由Cartesian和non-Cartesian濾波器組成,j)代表的是t時刻待處理中央凹圖像的像素值,(i,j)代表像素X的位置,表的是該時刻圖像像素通過濾波器后的響應(yīng)。而且m和M需要滿足的約束條件是
當(dāng)濾波器為Cartesian濾波器時,最后響應(yīng)取
當(dāng)濾波器為non-Cartesian濾波器時,最后響應(yīng)取
最后得到的 M個視覺元素值 [g1,…,gM]就組成了一個向量,稱之為t時刻的觀測向量:
在實驗中研究這些濾波器的響應(yīng)。當(dāng)攝像頭掃過這些物體時記錄下的其前4個掃視所產(chǎn)生的圖像如圖2所示。
圖2 前4個掃視圖 (從上到下依次是目標(biāo)1,目標(biāo)2,場景1,場景2,場景3)
在此仔細(xì)觀察一下所選的視覺元素中各濾波器對圖2所示的目標(biāo)或者場景的各掃視圖像的響應(yīng)——即觀測向量,分別如圖3中的 (a),(b),(c),(d),(e)所示。據(jù)觀測,隨著時間信號從一個中央凹到下一個中央凹時,所觀測到的觀測向量ot也在隨之改變。
由此可知,經(jīng)過預(yù)注意和注意的循環(huán),通過對產(chǎn)生的一組中央凹圖像Xf=進(jìn)行視覺處理后,就可獲得注意序列OT= (o1,…,oT),且注意序列能夠?qū)υ撃繕?biāo)或者場景的內(nèi)容提供足夠的信息。因而注意序列可以看作是與時空相關(guān)的一組包含關(guān)鍵視覺數(shù)據(jù)視覺元素值。顯然,如果我們要使用注意序列來達(dá)到目標(biāo)識別的任務(wù)的話,視覺元素的選擇是相當(dāng)重要的。
在實驗中,我們用移動機器人帶有的攝像頭進(jìn)行掃視來獲取目標(biāo)1(打印機)、目標(biāo)2(盆栽)、場景1(含有目標(biāo)1)、場景2(含有目標(biāo)2)、場景3(其他)。把目標(biāo)1和目標(biāo)2作為當(dāng)攝像頭掃過場景1、2、3時需要識別的當(dāng)前目標(biāo)任務(wù)。首先要對目標(biāo)1和目標(biāo)2進(jìn)行學(xué)習(xí),攝像頭對每個目標(biāo)觀察了No=5次,每次觀察停止前都獲得Nt=28個掃視圖像。我們用目標(biāo)的注意序列的平均觀測向量Ti(i=1,2)來簡單的描述該學(xué)習(xí)目標(biāo),Ti的數(shù)學(xué)表達(dá)式為
目標(biāo)1、2的平均觀測向量如圖4所示。
攝像頭隨機對現(xiàn)場進(jìn)行查看 (這里選取場景1,2,3),并計算該場景前n個掃視的平均觀測向量Bj(n)(j=1,2,3)
然后通過計算需要識別的目標(biāo)的平均觀測向量Ti和當(dāng)前場景的平均觀測向量Bj(n)之間的歐式距離d(Bj(n),Ti)來評估我們所選取的視覺基元的識別效果。當(dāng)所識別的目標(biāo)1或者2的平均觀測向量Ti與當(dāng)前場景j的平均觀測向量Bj(n)之間的歐式距離d(Bj(n),Ti)最小時,就認(rèn)為該場景j中包含有目標(biāo)i。
顯然,掃視數(shù)量n是至關(guān)重要的。比如,開始時只有一個掃視 (即n=1),我們可以看到比較的目標(biāo)和場景相差不太大,除非第一個中央凹圖像包含有一個非常顯著地特征。然而當(dāng)進(jìn)行更多的掃視后,即n增大時,d(Bj(n),Ti)將變得明顯比其它的要小。圖5的兩幅圖分別表示場景1、場景2、場景3當(dāng)前平均觀測向量和目標(biāo)1(目標(biāo)2)已學(xué)習(xí)的平均觀測向量的歐氏距離d(Bj(n),Ti)相比較。從圖5中可以看出第一個掃視后明顯差距不大,隨著n的增加,結(jié)果變得可區(qū)分了:從第4個掃視之后場景1(場景2)與目標(biāo)1(目標(biāo)2)的距離明顯是最小的,因此我們認(rèn)為機器人正在觀察的場景1(場景2)中的物體就是目標(biāo)1(目標(biāo)2)。這樣就將目標(biāo)1(目標(biāo)2)正確識別出來了,而且所需掃視數(shù)目很少。因此該方法可以滿足我們對目標(biāo)進(jìn)行實時識別的需求。
圖3 目標(biāo)及場景前4次掃視的觀測向量
圖4 目標(biāo)1,2的平均觀測向量
圖5 目標(biāo)1,2與場景1,2,3的平均觀測向量的距離
本文采用一組由50個Cartesian和non-Cartesian濾波器組成的視覺基元,來實現(xiàn)移動機器人對目標(biāo)的識別。注意序列是由時空相關(guān)的視覺特征集構(gòu)成的,每次觀測都包含了該組視覺元素中所有濾波器的響應(yīng),因此當(dāng)攝像頭環(huán)顧周圍時,與時間和空間相關(guān)的一組注意序列就產(chǎn)生了。實驗結(jié)果表明,一個動態(tài)場景可以由注意序列有效地進(jìn)行表達(dá),而且?guī)в袛z像頭的移動機器人可以用平均觀測向量學(xué)習(xí)一個復(fù)雜的目標(biāo)物體,并通過用幾個掃視,用當(dāng)前的觀測向量和經(jīng)過訓(xùn)練的平均觀測向量作比較,以快速實時地實現(xiàn)對目標(biāo)的識別判斷。
[1]SHI Siqi.Study on object recognition based on contour feature[D].Xi’an:Xidian University,2012 (in Chinese). [史思琦.基于輪廓特征的目標(biāo)識別研究 [D].西安:西安電子科技大學(xué),2012.]
[2]YANG Heng,WANG Qing.A novel local invariant feature detection and description algorithm [J].Chinese Journal of Computers,2010,33 (5):935-944 (in Chinese).[楊恒,王慶.一種新的局部不變特征檢測和描述算法 [J].計算機學(xué)報,2010,33 (5):935-944.]
[3]GU Yong,HE Mingxin.Research on beer bottle detection system based on machine vision [J].Computer Engineering and Design,2012,33 (1):248-253 (in Chinese). [顧勇,何明昕.基于機器視覺的啤酒瓶檢測系統(tǒng)研究 [J].計算機工程與設(shè)計,2012,33 (1):248-253.]
[4]ZHANG Bo,LUO Haiyong,LIU Jiwei,et al.Multi-vision based passive target localization for multimedia sensor networks[J].Journal of Computer Research and Development,2010,47 (Suppl.):60-63 (in Chinese). [張波,羅海勇,劉翼偉,等.多媒體傳感器網(wǎng)絡(luò)中基于多視信息的被動目標(biāo)定位算法[J].計算機研究與發(fā)展,2010,47 (增刊):60-63.]
[5]McIntyre S,Gugerty L,Duchowski A.Brake lamp detection in complex and dynamic environments:Recognizing limitations of visual attention and perception [J].Accident Analysis &Prevention,2012,45:588-599.
[6]Sagi D.The psychophysics of texture segmentation [J].Spatial Vision,1993,7 (1):83.
[7]WEI Xiaowen,SHI Xuli,ZHAO Ziwu.Compression Method based on human visual system [J].Digital Video,2010,34(10):23-25 (in Chinese). [魏小文,石旭利,趙子武.一種基于人眼視覺特性的壓縮方法 [J].電視技術(shù),2010,34(10):23-25.]
[8]LI Zhiqing,SHI Zhiping,LI Zhixin,et al.Space coding model based on structural similarity [J].Journal of Software,2012,21(10):2410-2419 (in Chinese).[李志清,施智平,李志欣,等.基于結(jié)構(gòu)相似度的稀疏編碼模型 [J].軟件學(xué)報,2010,21(10):2410-2419.]
[9]Hara A,Watanabe M,Takahama T.Cartesian ant programming [C]//IEEE International Conference on Systems,Man,and Cybernetics.IEEE,2011:3161-3166.
[10]Moinet M,SerréP.Geometric transformation of a constrained object using a non-Cartesian method [J].International Journal of Product Development,2014,19 (1):156-172.