胡文楠
(長春工業(yè)大學(xué) 應(yīng)用技術(shù)學(xué)院,吉林 長春 130012)
機(jī)器人障礙物檢測(cè)[1]需要多個(gè)傳感器協(xié)作完成,在該過程中,如何充分運(yùn)用軟件計(jì)算的優(yōu)勢(shì),表征障礙物的特征,減少復(fù)雜硬件的需求是一個(gè)熱門研究方向。機(jī)器視覺是一個(gè)可行的解決途徑,如基于內(nèi)容的圖像檢索[2](content based image retrieval,CBIR)。為開發(fā)出有效的CBIR系統(tǒng),必須提取數(shù)據(jù)庫圖像的重要特征以表示該類圖像,然后通過相似度測(cè)量,檢索出與目標(biāo)圖像相關(guān)的圖像,以便后續(xù)的信息處理與挖掘。
目前關(guān)于機(jī)器人障礙物檢測(cè)的研究,在軟件和硬件方面均有一定發(fā)展。如Tang等[3]提出一種基于主動(dòng)式全景視覺的移動(dòng)機(jī)器人障礙物檢測(cè),該系統(tǒng)對(duì)硬件資源的需求較大。Chen[4]提出一種單目視覺處理方法進(jìn)行障礙物識(shí)別。Wang等[5]提出一種基于過分割方法和機(jī)器人正運(yùn)動(dòng)學(xué)模型的障礙物識(shí)別方法。Ding等[6]提出一種機(jī)器人自主定位與障礙物檢測(cè)方法,將檢測(cè)的障礙物信息插入到環(huán)境稀疏特征地圖中,達(dá)到自主定位和檢測(cè)的效果。Xiao等[7]通過Kinect攝像機(jī)和二維激光雷達(dá),提出了一種低成本的移動(dòng)機(jī)器人障礙物檢測(cè)方法。Han等[8]提出了一種基于卡爾曼濾波和樸素貝葉斯網(wǎng)絡(luò)結(jié)合的檢測(cè)與分類方法,采用卡爾曼濾波算法檢測(cè)視頻中的障礙物,并通過樸素貝葉斯網(wǎng)絡(luò)對(duì)障礙物進(jìn)行分類。
與以上方法不同,本文通過CBIR來檢測(cè)固體障礙物。在5種不同距離度量下,使用不同的特征提取法進(jìn)行大量實(shí)驗(yàn)。利用所提方法可以實(shí)時(shí)更新障礙物的信息,有利于機(jī)器人檢測(cè)識(shí)別障礙物,實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性。
本文提出一種基于圖像檢索的機(jī)器人障礙物檢測(cè)方法,主要目的是使機(jī)器人具備自主識(shí)別和分類障礙物的能力(類似于智能搬運(yùn)機(jī)器人)。其應(yīng)用范圍較廣,如利用機(jī)器人進(jìn)行物品歸類與搬運(yùn)等。
機(jī)器人上的CBIR系統(tǒng)主要依靠高清攝像設(shè)備、射頻識(shí)別(radio frequency identification,RFID)、地理信息系統(tǒng)(geographic information system,GIS)和分組無線服務(wù)技術(shù)(general packet radio service,GPRS)解決圖像數(shù)據(jù)的采集和傳輸處理。其基本框架如圖1所示。首先,系統(tǒng)通過RFID閱讀器與RFID標(biāo)簽通信以獲得標(biāo)簽序號(hào),及相關(guān)固體障礙物的信息,并將這些信息發(fā)送到控制服務(wù)器以確保信息的收集與管理。當(dāng)控制服務(wù)器收到序列號(hào)時(shí),系統(tǒng)會(huì)收到第一幅圖像,并比較該幅圖像與數(shù)據(jù)庫中存儲(chǔ)的參考圖像,采用一定的相似性度量方法檢索出前幾幅最為相似的圖像。采集過程結(jié)束后,機(jī)器人的攝像機(jī)再拍攝第二幅圖像。依此類推,不停進(jìn)行圖像捕捉與處理。因此所有的實(shí)時(shí)標(biāo)簽序號(hào)、采集時(shí)間、信息狀態(tài)圖像、GPS數(shù)據(jù)通過具有GSM/GPSR的GSM調(diào)制解調(diào)器網(wǎng)絡(luò)進(jìn)行閱讀、分析和存儲(chǔ),并向用戶圖形界面展示。這樣機(jī)器人可以獲得實(shí)時(shí)位置、障礙物的實(shí)際信息,以及周圍區(qū)域的估計(jì)精度,可以為后續(xù)的其它處理做準(zhǔn)備。
圖1 機(jī)器人障礙物檢測(cè)系統(tǒng)的基本框架
為檢測(cè)障礙物獲得相關(guān)障礙物信息,采集獲得的圖像需要與數(shù)據(jù)庫的圖像進(jìn)行檢索匹配,并可以將該采集圖像編入數(shù)據(jù)庫中。圖2給出CBIR系統(tǒng)在數(shù)據(jù)庫中的索引并檢索圖像的架構(gòu)。首先進(jìn)入查詢接口模塊,分別對(duì)數(shù)據(jù)庫圖像和查詢圖像提取圖像特征;接著進(jìn)入特征表示模塊,將查詢圖像特征與數(shù)據(jù)庫圖像進(jìn)行相似度計(jì)算,將獲得的計(jì)算結(jié)果按從大到小排序,遴選出前N個(gè)檢索圖像作為輸出結(jié)果。為了討論距離度量的影響,本文將不同的相似性距離方法用于CBIR系統(tǒng)中。通常,一個(gè)完善的CBIR系統(tǒng)有兩個(gè)要點(diǎn):①必須提取出數(shù)據(jù)庫中每一個(gè)圖像的重要特征,并有效地表征圖像;②可以從數(shù)據(jù)庫中檢索出相關(guān)圖像。
圖2 提出的CBIR架構(gòu)
為識(shí)別固體障礙物的位置,必須獲得可靠的圖像數(shù)據(jù),并確保這些圖像的數(shù)量和質(zhì)量。為此,從不同位置拍攝多種不同的障礙物,利用拍攝的圖像構(gòu)建一個(gè)穩(wěn)健的圖像數(shù)據(jù)庫。通過檢索圖像與數(shù)據(jù)庫圖像進(jìn)行對(duì)比,獲得相關(guān)的影像[9]。在GPRS網(wǎng)絡(luò)可用的情況下,通過GPRS調(diào)制解制器將固體障礙物的所有實(shí)時(shí)信息和GPS數(shù)據(jù)傳輸?shù)椒?wù)器。在接收?qǐng)D像方面,采用不同的圖像處理方法來預(yù)測(cè)障礙物的位置。與一般圖像數(shù)據(jù)庫不同,本文圖像數(shù)據(jù)庫采集都是機(jī)器人路徑途中的固體障礙物圖像,這些障礙物會(huì)被攝像機(jī)預(yù)先從多個(gè)角度拍攝,并對(duì)圖像進(jìn)行編號(hào),同一障礙物編號(hào)相同。為了處理方便,拍攝獲得的RGB彩色圖像均轉(zhuǎn)換為灰度圖像。
在CBIR系統(tǒng)中,距離度量(或稱相似性度量[10])通常是一個(gè)關(guān)鍵組成部分,一些實(shí)用的距離度量方法有:巴特查里亞[4]、余弦[4]、歐幾里德[9]、卡方[11]、陸地移動(dòng)距離[11](earth mover’s distance,EMD)。在CBIR計(jì)算過程中,優(yōu)良的距離度量方法可以顯著提升檢索過程的誤差。一般根據(jù)圖像間的最小距離度量將檢索結(jié)果進(jìn)行排名,所獲的距離越小,則檢索圖像與數(shù)據(jù)庫圖像越相似。假設(shè)x,y分別是檢索圖像和數(shù)據(jù)庫圖像,則可按照表1中不同方法計(jì)算相似度的距離。
表1 用于測(cè)量相似度的距離度量
在對(duì)所接收?qǐng)D像進(jìn)行特征提取之前,需要去除不符合需要的和其它有干擾的特征。對(duì)接收?qǐng)D像進(jìn)行預(yù)處理是障礙物位置探測(cè)階段的重要步驟。分類處理結(jié)果較為依賴預(yù)處理的過程。噪音、光線都會(huì)一定程度影響對(duì)圖像的處理檢測(cè)。因此,本文預(yù)處理過程包含以下步驟:①在不同的光線條件下拍攝照片,以提升數(shù)據(jù)庫的整體質(zhì)量;②在復(fù)雜的燈光環(huán)境下進(jìn)行補(bǔ)光,以減少燈光對(duì)障礙物位置檢測(cè)的消極影響;③將RGB彩色圖像轉(zhuǎn)化為灰度格式進(jìn)行處理,并稍微提高像素的亮度;④拍攝原始圖像時(shí),將分辨率設(shè)定為640×480,并將它的大小裁剪為不高于300×300的尺寸,這樣可以減少預(yù)處理的復(fù)雜度,也便于圖像存儲(chǔ)。
本文的目的是研究圖像紋理特征在障礙物位置探測(cè)系統(tǒng)中的作用。紋理分類的一個(gè)主要問題是提取障礙物的紋理不變特征。在很多現(xiàn)有的紋理結(jié)構(gòu)中,采用不同的方法來描繪紋理特征,其紋理特征提取至關(guān)重要。本節(jié)主要研究不同的特征提取法,即3種不同的障礙物特征提取方法,分別是Gabor小波、GLCM和BGLAM。
Gabor變換是短期傅里葉轉(zhuǎn)換與高斯窗口的結(jié)合[12]。在時(shí)域中的窗口大小是固定的,因此在空間域和頻域中需要固定的分辨率。所以,Gabor轉(zhuǎn)換可以用于分析數(shù)字信號(hào),但是很多自然紋理中沒有數(shù)字信號(hào)。本文通過不斷轉(zhuǎn)換小波解決這個(gè)問題。轉(zhuǎn)換的方法為
(1)
式中:s(t)為信號(hào);(a,b)分別是膨脹因子和轉(zhuǎn)化因子;h(t)為基本小波。小波轉(zhuǎn)換將信號(hào)s(t)分解成小波函數(shù)集。小波轉(zhuǎn)換可以根據(jù)因子(a,b)在時(shí)空域和頻域中得到可變分辨率。二維的Gabor基本函數(shù)定義為
(2)
式中:σ是高斯分布在x方向和y方向的變體;ω0是正弦曲線的頻率;θ是正弦曲線的方向。Gabor基本函數(shù)是一個(gè)二維的高斯,由頻率為ω0、 方向?yàn)棣鹊恼仪€包圍并調(diào)制。垃圾箱位置檢測(cè)中所用的Gabor小波函數(shù)定義為
(3)
根據(jù)掩碼尺寸和正確的頻度確定Gabor濾波器的參數(shù)。掩碼尺寸的大小影響檢索精度。需要確定最適合的濾波器大小,并用正確的頻值確定垃圾箱位置。本文通過5個(gè)集的可分性和4種不同大小(7×7、11×11、17×17、21×21)的像素來測(cè)量掩碼尺寸和頻值對(duì)提取特征造成的影響。
Gabor小波的基本函數(shù)含有所選的特定濾波組件,其可用于構(gòu)建空間域?yàn)V波器[13]。每一個(gè)濾波器都由一對(duì)元素組成,即復(fù)雜正弦曲線的實(shí)部和虛部。在一種頻級(jí)中,濾波器的輸出是對(duì)圖像中所有卷積像素的虛實(shí)濾波器掩碼的平均卷積輸出的調(diào)制。計(jì)算公式為
(4)
式中:Rave是用濾波器掩碼對(duì)圖像區(qū)域進(jìn)行卷積的結(jié)果。Iave是用濾波器虛掩碼對(duì)圖像區(qū)域進(jìn)行卷積的結(jié)果。
在GLCM中采用統(tǒng)計(jì)方法得到不同的紋理特征,其采用的灰度圖像的像素大小為300×300,目的是在固體障礙物位置檢測(cè)中減少處理的復(fù)雜性,便于存儲(chǔ)。概率密度函數(shù)通過用已輸出的數(shù)量除以可能輸出的總數(shù),將GLCM規(guī)范化[14]。概率測(cè)量定義為
Pr(x)=Cij(d,θ)
(5)
式中:Cij是灰度i與j之間的共生概率;定義如下
(6)
式中:Pij表示i和j在給定d和θ內(nèi)共生的數(shù)量;G是量化位置規(guī)定的數(shù)量。
文獻(xiàn)[15]中指出以GLCM表示的最合適的特征是能量、熵、對(duì)比度、方差、相關(guān)性和逆差矩。因此,本文采用10個(gè)紋理特征提取特征的精度。這些特征通過矩陣中行和列的平均值μ和標(biāo)準(zhǔn)偏差σ進(jìn)行定義:
能量
對(duì)比
關(guān)聯(lián)
同質(zhì)性
集群突出
熵
差異
動(dòng)關(guān)聯(lián)
集群陰影
最大概率
maxPro=MAXijCij
設(shè)計(jì)GLCM時(shí)需要考慮很多參數(shù)因子,如量化料位G,置換值d,向值θ。本文只測(cè)試了G和d的作用,因?yàn)楹芏嘌芯勘砻鲗ⅵ仍O(shè)定為0°、45°、90°和135°可以得到精確的結(jié)果。表2給出了GLCM因子的細(xì)節(jié)和垃圾箱位置檢測(cè)中設(shè)定的值。
表2 固體障礙物位置檢測(cè)中GLCM的因子設(shè)定
灰度氛圍矩陣(GLAM)是用來形成有鄰域的有限矩形點(diǎn)陣圖像網(wǎng)格[16]。氛圍矩陣把A作為單獨(dú)的集進(jìn)行處理,并計(jì)算A與B的鄰域。兩個(gè)子集的氛圍集用A,B?S,VB(A,N) 或者VB(A) 進(jìn)行表示,其中,鄰域系統(tǒng)N中與B相關(guān)的A氛圍集是根據(jù)V的氛圍集進(jìn)行推導(dǎo)的。
BGLAM是從單一站點(diǎn)開始計(jì)算的GLAM鄰域系統(tǒng)。圖3給出了在最近鄰系統(tǒng)中,灰度氛圍矩陣在二進(jìn)制晶格中的例子。圖像的BGLAM可以測(cè)量出灰度鄰域中每一個(gè)灰度的數(shù)量。在圖3的案例中,共有8個(gè)方向(離中心像素最近的8個(gè)鄰域),這表明,最終的矩陣中包含8個(gè)小矩陣,每一個(gè)小矩陣代表一個(gè)方向。由于原始圖像被分為兩種灰度,所以小矩陣的大小為2×2。右側(cè)矩陣的特征通過計(jì)算出這些元素在給定方向中出現(xiàn)的次數(shù)計(jì)算而得到。因此,一旦所有的矩陣(每個(gè)方向一個(gè))都被計(jì)算出,就把所有的值串聯(lián)起來,形成特征矢量。BGLAM一個(gè)主要的優(yōu)點(diǎn)是不需要濾波器,特征參數(shù)可以直接從原始圖像中獲得。當(dāng)且僅當(dāng)兩個(gè)圖像的BGLAM相同時(shí),這兩個(gè)圖像才相同。因此,BGLAM可以表示特定圖像。
圖3 BGLAM的示例
本文用表1中的5種相似度距離將所測(cè)試圖像和數(shù)據(jù)庫中其它固體障礙物圖像進(jìn)行比較。用平均檢索率來評(píng)估檢索系統(tǒng)的性能。將N值設(shè)為1、3、5、8、10、15和20。該實(shí)驗(yàn)在同一個(gè)數(shù)據(jù)庫中進(jìn)行,比較不同距離所得出的結(jié)果,以獲得最佳檢索精準(zhǔn)度。
在CBIR系統(tǒng)中一般使用5種距離:巴特查里亞[4]、余弦[4]、歐幾里德[9]、卡方[11]、EMD[11],并將這5個(gè)距離分為低、中、滿、淹沒和溢出。采用相同的數(shù)據(jù)庫,將不同距離的結(jié)果進(jìn)行比較,以獲得最佳性能。
本文基于兩種定量評(píng)估標(biāo)準(zhǔn)。第一種是基于準(zhǔn)確率-召回率(Precision-Recall)圖像的平均檢索率。平均檢索率是將平均檢索準(zhǔn)確率與前N個(gè)匹配檢索圖中屬于同一圖像的數(shù)量作對(duì)比。N表示被檢索圖像的數(shù)量。本文使用F1(準(zhǔn)確率和召回率的加權(quán)調(diào)和平均數(shù))將其與被檢索的圖像數(shù)量作比較。召回率、準(zhǔn)確率和F1測(cè)度的計(jì)算公式分別為
(7)
(8)
(9)
其中,Nretrieval表示檢索出相關(guān)圖像的數(shù)量;Nallrelevant表示數(shù)據(jù)庫中相關(guān)圖像的數(shù)量;NnumRetrieval表示檢索圖像的總數(shù)。
本文在250個(gè)固體障礙物圖像中比較Gabor法在不同距離下的檢索精準(zhǔn)度。表3給出了幾種相似度距離的檢索率。在所有的匹配中,EMD的結(jié)果優(yōu)于其它相似度距離。采用Gabor過濾器的EMD距離從第1張到第10張圖像的平均檢索率為100%,在第15張圖像時(shí)為90%。
表3 采用Gabor小波檢測(cè)固體障礙物的平均檢索率/%
EMD距離提升了CBIR系統(tǒng)的性能,且在不同位置下對(duì)所有固體障礙物圖像的處理結(jié)果都較好。
圖4和圖5分別給出了基于平均檢索率和F1測(cè)量的每個(gè)距離的性能。所選Gabor在EMD距離下檢索系統(tǒng)的參數(shù)明顯優(yōu)于其它距離,前10個(gè)檢索圖像的平均檢索率達(dá)到100%,前20個(gè)檢索圖像的平均檢索率也有60%以上,明顯優(yōu)于其它4種距離度量,次好的是歐幾里得度量在前10個(gè)圖像中,歐幾里德距離的平均檢索比率性能與EMD距離的性能相似,然而,歐幾里得距離度量前20個(gè)檢索圖像的平均檢索比率只有50%,甚至低于卡方和余弦距離度量。對(duì)于F1測(cè)量,EMD距離度量更快達(dá)到了峰值,且峰值保持的次數(shù)更多,也優(yōu)于其它4種距離度量。因此,通過觀察基于F1測(cè)量的歐幾里德距離,可以看出EMD距離的優(yōu)越性。
圖4 采用Gabor小波的平均檢索率
圖5 采用Gabor小波的F1測(cè)量
測(cè)試數(shù)據(jù)庫中的一個(gè)簡單圖像,并在EMD距離中將它用作檢索圖像。圖6給出了前20個(gè)匹配中檢索圖像的結(jié)果。從圖中可知,所提系統(tǒng)能夠檢索出正確的相似影像,而且相似度非常高,前9個(gè)是相同障礙物,后11個(gè)是相似障礙物,雖然隨著N逐漸增加,檢索的精準(zhǔn)度就逐漸減少,但檢索的結(jié)果基本準(zhǔn)確。
圖6 采用Gabor小波得出的前20個(gè)檢索圖像
將GLCM法與5種相似度距離一起使用,以測(cè)量并比較平均檢索率。表4比較了平均檢索率。從表4的結(jié)果中可以看出,所有距離在前5個(gè)檢索圖像中的平均檢索率均為100%(巴特查里亞距離除外)。當(dāng)N>5時(shí),采用EMD距離度量的平均檢索率也達(dá)87.5%。綜合來看,EMD距離有很明顯的優(yōu)越性。這主要是由于EMD可以更好地描述直方圖的距離,因此,圖像特征的表征效果更佳,獲得更高的平均檢索率。
表4 采用GLCM固體障礙物的平均檢索率/%
圖7給出了采用GLCM的平均檢索率,圖8給出了采用GLCM的F1測(cè)量值。從圖中可知,在前10個(gè)檢索圖像中,EMD距離的平均檢索比率保持在70%以上,而其它距離度量的平均檢索率都在65%以下,其中,采用巴特查里亞距離,其平均檢索率下降的最快。采用卡方、余弦、EMD和歐幾里德距離平均檢索率下降比較平緩,而EMD表現(xiàn)最佳。對(duì)于F1測(cè)量,EMD距離更早達(dá)到峰值,且峰值更高,因此,EMD距離優(yōu)于所有其它距離。兩方面表現(xiàn)最差的是巴特查里亞距離度量。圖9給出了前20個(gè)匹配中檢索圖像的結(jié)果。從圖中可知,所提系統(tǒng)能夠檢索出正確的相似影像。隨著N逐漸增加,系統(tǒng)的精準(zhǔn)度就逐漸減少,但依然保持較高的精度。
圖7 采用GLCM的平均檢索率
圖8 采用GLCM的F1測(cè)量
圖9 采用GLCM得出的前20個(gè)檢索圖像
在BGLAM中采用相同的相似度距離方法,來比較CBIR中GLAM的性能。實(shí)驗(yàn)中,選擇了與MLN和KNN分類器相同的BGLAM參數(shù)。使用的數(shù)據(jù)庫中每個(gè)類別的前20個(gè)圖像來評(píng)估CBIR。表5給出了采用5種相似度測(cè)量時(shí)從固體障礙物數(shù)據(jù)庫中獲得的平均檢索率。對(duì)于前10(N=10)個(gè)匹配圖像,余弦、卡方和EMD均達(dá)到了100%的檢索率,但當(dāng)N增加時(shí),EMD距離表現(xiàn)出的平均檢索率更高。根據(jù)數(shù)據(jù)庫的主觀測(cè)試得出:平均檢索率越高,與人類感知相符的距離度量越好。
在5種距離方法中,可以將BGLAM中的檢索圖像和目標(biāo)圖像作為特征提取法,對(duì)這5種距離進(jìn)行評(píng)估。在檢索效率方面,巴特查里亞和歐幾里德距離的結(jié)果精度明顯差于其它距離方法。巴特查里亞在前8個(gè)圖像中檢索出不相干的圖像,準(zhǔn)確率為70%。圖10和圖11給出了基于不同距離方法的平均檢索率和這些距離的F1測(cè)量結(jié)果。從兩圖中可知,EMD距離的性能最佳,在前10個(gè)檢索圖像中,
表5 采用BGLAM固體障礙物的檢索率
圖10 采用BGLAM的平均檢索率
圖11 采用BGLAM的F1測(cè)量
平均檢索比率達(dá)到100%。前15個(gè)檢索圖像中,達(dá)70%的檢索比率,最低平均檢索比率達(dá)55%。在大多數(shù)檢索出的圖像中余弦距離的性能與EMD的相似。余弦距離和EMD距離明顯優(yōu)于其它距離方法。由于歐幾里德距離沒有考慮特征屬性在語義類別中的變化,因此性能較差?;谏鲜鲇^點(diǎn),EMD和余弦距離在CBIR系統(tǒng)使用BGLAM時(shí)優(yōu)于其它相似度距離。
本文提出用于固體障礙物位置檢測(cè)的CBIR系統(tǒng),該系統(tǒng)有兩個(gè)重點(diǎn):①必須通過提取數(shù)據(jù)庫中每張圖像的重要特征有效地代表圖像;②檢索圖像和數(shù)據(jù)庫中圖像的相似度度量必須能夠檢索出相關(guān)圖像。CBIR系統(tǒng)依賴于障礙物圖像的紋理特征,能夠檢索出排名靠前的圖像,以及數(shù)據(jù)庫中已存儲(chǔ)的圖像特征。在障礙物位置探測(cè)系統(tǒng)中,EMD距離在所有的N值中的準(zhǔn)確率都最高。將GLCM作為CBIR系統(tǒng)中的特征提取法,在較低的距離度量中結(jié)果較好,但是與其它特征提取法相比,在較高的度量中效率較低。另外,實(shí)驗(yàn)結(jié)果表明,前10幅圖像可以由Gabor和BGLAM提取法檢索出,EMD距離非常有效,可以在機(jī)器人障礙物位置識(shí)別系統(tǒng)中使用。