盧良鋒,何加銘,謝志軍,孫德超
(寧波大學(xué),浙江 寧波 315211)
基于深度學(xué)習(xí)的RGB-D物體識別算法*
盧良鋒,何加銘,謝志軍,孫德超
(寧波大學(xué),浙江 寧波 315211)
結(jié)合RGB圖像和深度圖像,提出了一種新的基于深度學(xué)習(xí)的無監(jiān)督物體識別算法KSAE-SPMP。采用標準的RGB-D數(shù)據(jù)庫2D3D來驗證新提出的算法。實驗結(jié)果表明,與之前提出的基于RGB-D的物體識別算法相比,KSAE-SPMP算法取得了最高的識別準確率,此算法能夠很好地完成RGB-D物體的識別。
物體識別 RGB-D圖像 k稀疏自編碼 空間金字塔最大池化 Softmax分類器
基于RGB圖像的物體識別從RGB圖像中提取顏色特征、紋理特征和輪廓特征等來識別物體?;谏疃葓D像的物體識別從深度圖像中提取物體的三維空間形狀等特征來識別物體。這2種物體識別方法都未能完全利用物體的可用特征信息,存在一定的局限性。RGB-D相機能同時記錄物體的高分辨率的RGB圖像和深度圖像。物體的深度信息和顏色信息對彼此都是一種有效的補充,結(jié)合RGB圖像和深度圖像,能夠有效地提高物體的識別準確率。
深度學(xué)習(xí)[1]是一種新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。它通過組合低層特征形成更加抽象的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。本文結(jié)合RGB圖像和深度圖像,提出了一種新的深度學(xué)習(xí)算法KSAESPMP來完成物體的識別。實驗結(jié)果表明,與之前提出的基于RGB-D的物體識別算法相比,KSAE-SPMP算法取得了最高的識別準確率,此算法能夠很好地完成RGB-D物體的識別。
本文主要研究如何利用深度學(xué)習(xí)算法完成RGB-D的物體識別。在過去的幾年中,一些研究小組對如何從物體中無監(jiān)督地提取具有代表性的特征做了深入的研究,取得了一些極具價值的研究成果。
(1)無監(jiān)督特征學(xué)習(xí)算法
近年來,許多無監(jiān)督地從原始視覺圖像中提取特征的算法被提出。例如深度信念網(wǎng)絡(luò)[4]、去噪自編碼[5]、卷積神經(jīng)網(wǎng)絡(luò)[6]、K均值算法[7-8]、分層稀疏編碼[9]和分層匹配追蹤算法[3]等。這些無監(jiān)督的特征學(xué)習(xí)算法在多種識別工作中取得了優(yōu)異的成果。如手寫字體的識別、面部識別、物體識別、場景識別、動作識別[15]和物體識別[16]等。然而,這些算法大多被應(yīng)用在二維圖像的處理上,如灰度圖像。本文同時使用RGB和深度圖像,提取到了更多樣性的特征,有效地提高了物體的識別準確率。
(2)基于RGB-D的深度學(xué)習(xí)算法
新一代傳感技術(shù)RGB-D相機的出現(xiàn),推動了物體識別技術(shù)的進一步發(fā)展。RGB-D相機能夠同時記錄RGB圖像和深度圖像,RGB圖像包含物體的表面顏色信息和紋理信息,深度圖像包含物體的空間形狀信息,結(jié)合RGB圖像和深度圖像能有效地提高物體的識別準確率。在過去的幾年里,許多基于RGB-D的物體識別深度學(xué)習(xí)算法被提出。Blum等人提出了卷積K均值描述符[7],在興趣點附近自動地學(xué)習(xí)特征并最終將這些特征進行融合。Liefeng Bo等人提出了分層匹配追蹤算法(HMP)[10],此算法利用稀疏編碼和空間金字塔最大池化(SPMP)無監(jiān)督地從原始RGB-D圖像中學(xué)習(xí)分層的特征。Socher等人結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)提出了CNN-RNN深度學(xué)習(xí)算法[11],卷積神經(jīng)網(wǎng)絡(luò)層學(xué)習(xí)低維的平移不變性特征并作為RNN輸入,遞歸神經(jīng)網(wǎng)絡(luò)層學(xué)習(xí)高維抽象特征。本文在Liefeng Bo等人工作[10]的基礎(chǔ)上,結(jié)合改進的k稀疏自編碼算法(k-SAE)和空間金字塔最大池化算法(SPMP),提出了新的無監(jiān)督的深度學(xué)習(xí)算法KSAE-SPMP,與之前的算法相比,此算法取得了更高的識別準確率。
(3)RGB-D數(shù)據(jù)庫
自2010年RGB-D(Kinect款)相機誕生以來,一些研究小組采集并公布了若干RGB-D數(shù)據(jù)庫,為以后的研究工作奠定了堅實的基礎(chǔ)。其中,比較具有代表性的有美國華盛頓大學(xué)計算機與科學(xué)工程系的Kevin Lai、Liefeng Bo聯(lián)合因特爾西雅圖實驗室的Xiaofeng Ren等人公布的RGB-D數(shù)據(jù)庫[12],馬克思·普朗克學(xué)會Browatzki等人公布的2D3D數(shù)據(jù)庫[13]等。本文采用2D3D數(shù)據(jù)校驗算法的準確性,2D3D數(shù)據(jù)庫包含14個類別,共計156個室內(nèi)常見的物體,每個類別包括10個左右的物體。每個物體包含36對RGB圖像和深度圖像,這些圖像是由物體放置在托盤上每旋轉(zhuǎn)20度拍攝一張而成。圖1展示了這些物體的一些代表性圖片:
圖1 2D3D數(shù)據(jù)庫部分物體實例圖片
本文提出了KSAE-SPMP深度學(xué)習(xí)算法,用于基于RGB-D的物體識別。KSAE-SPMP算法共分為3個階段,即整個深度學(xué)習(xí)網(wǎng)絡(luò)分為3層:
(1)使用k稀疏自編碼算法(k-SAE)[2]分別提取低維的顏色特征和形狀特征。
(2)以階段1提取的低維特征作為輸入,使用空間金字塔最大池化算法(SPMP)[3]提取高維平移不變性特征。
(3)合并顏色特征和形狀特征作為物體最終的特征,送入Softmax分類器進行分類。
3.1 k稀疏自編碼算法提取低維特征
圖2 簡單的4-2-4結(jié)構(gòu)稀疏自編碼圖例
自編碼算法是一種無監(jiān)督的特征學(xué)習(xí)算法?,F(xiàn)在假設(shè)有1個無類別標簽的樣本集。{x(1),x(2),…,x(m)},其中x(i)∈Rn。自編碼算法通過反向傳播算法,期望輸出的目標值等于輸入值,即x^(i)=x(i),這樣可以說隱層節(jié)點值y(i)是x(i)的另一種表示,即可作為輸入x(i)的特征。如果在隱層節(jié)點上加入稀疏性限制,可以發(fā)現(xiàn)原始輸入的一些有價值的數(shù)據(jù)結(jié)構(gòu)。稀疏性可以簡單地解釋如下:假設(shè)使用sigmoid函數(shù)作為神經(jīng)元的激活函數(shù),當(dāng)神經(jīng)元的輸出接近1時,認為它是被激活的,而輸出接近0時,認為它是被抑制的。當(dāng)隱層節(jié)點數(shù)目較多時,希望大多數(shù)隱層節(jié)點處于抑制狀態(tài),以期發(fā)現(xiàn)輸入數(shù)據(jù)中的結(jié)構(gòu)。圖2是一個簡單的三層稀疏自編碼網(wǎng)絡(luò),輸入層、隱層和輸出層節(jié)點數(shù)分別為4、2和4。近年來的研究表明,通過鼓勵稀疏的方式學(xué)習(xí)到的特征在分類任務(wù)中通常有著優(yōu)異的表現(xiàn)。
在典型的稀疏自編碼算法[14]中,使用公式(1)作為總體的代價函數(shù)。其中第1項為均方差項,第2項為權(quán)重衰減項,第3項為稀疏懲罰項,用來控制隱層節(jié)點的稀疏性。通過反向誤差傳播來優(yōu)化參數(shù){W,b},迭代過若干次后,期望輸出x^(i)=x(i)。
Makhzani等人提出了一種改進的稀疏自編碼算法k稀疏自編碼[2]。k稀疏自編碼算法使用線性的激活函數(shù),在隱層節(jié)點中,每次選取最大的k個激活值,并將其他的所有激活值設(shè)置為0。誤差反向傳播的每次迭代中均如此設(shè)置,直至迭代完成。得到優(yōu)化后的參數(shù){W,b}后,對于輸入x(i),計算特征f=Wx+b并選取其中最大的αk個最大的激活作為最終的特征,其中α≥1,其它所有的激活值全部設(shè)置為0。k稀疏自編碼在手寫數(shù)字識別等領(lǐng)域取得了優(yōu)異的表現(xiàn)。
本文使用k稀疏自編碼算法作為KSAE-SPMP深度學(xué)習(xí)網(wǎng)絡(luò)的第1層,分別從RGB圖像和深度圖像中提取物體的低維顏色特征和低維形狀特征。首先,將所有的圖片大小縮放至r×r,并從RGB圖像和深度圖像中分別隨機提取h個圖像塊,每個圖像塊的長和寬均為s。分別使用RGB和深度圖像塊作為輸入,訓(xùn)練2個k稀疏自編碼,一個用于提取RGB圖像特征,另一個用于提取深度圖像特征。訓(xùn)練完成后,分別使用這2個k稀疏自編碼作為映射函數(shù),從每張RGB和深度圖像中以卷積的方式逐像素提取顏色特征和形狀特征。假設(shè)k稀疏自編碼的隱層節(jié)點個數(shù)為q,則卷積后得到的顏色特征和形狀特征均為一個大小為t×t×q的三維矩陣,t=r–s+1。為降低特征的維度,對三維矩陣進行了簡單的平均池化,將池化后的三維矩陣送入空間金字塔最大池化層,從低維特征中提取空間平移不變性特征。
3.2 空間金字塔最大池化算法提取高維特征
空間金字塔最大池化(SPMP)[3]是一種有效地從低維特征中提取抽象的空間平移不變特征的算法。對于每一張RGB圖像和深度圖像來說,k稀疏自編碼層輸出的低維特征均為一個三維矩陣。圖3為空間金字塔最大池化的簡單描述,圖中每個點代表1個q維的向量。
空間金字塔最大池化算法將所有的點劃分為d2個塊,其中d取不同的值。圖3中的4個子圖d的取值分別為1、2、3和4。假設(shè)每個塊C共包含p個點,即共有p個q維向量,將其組合成1個大小為p×q維的矩陣。如公式(2)所示,對于矩陣的每一行,取最大的值作為最終的特征值,所以對于每個塊C,最終結(jié)果為1個q維的向量。
對于每張圖片,選取不同的d值后,假設(shè)圖片共被分為了r個塊。如圖3中選取d=1、2、3、4,此圖片共被劃分為了r = 12+22+32+42=30個塊。對于每一個塊C,最終特征結(jié)果均為1個q維矩陣,所以每張圖片的最終特征為1個r×q維的向量。
3.3 Softmax分類器完成分類
圖3 空間金字塔最大池化簡單示例
對于物體的每個樣本而言,RGB圖像和深度圖像經(jīng)過空間金字塔最大池化提取后的特征均為1個r×q維的向量,將這2個r×q維的向量合并為1個2×r×q維的向量,此向量為每個樣本最終的特征向量。分別提取每個樣本的特征向量,并將樣本分為訓(xùn)練樣本集和測試樣本集2個部分。Softmax分類器是深度學(xué)習(xí)領(lǐng)域一個常用的快速分類器,在手寫數(shù)字識別和物體識別等領(lǐng)域都取得了優(yōu)秀的分類結(jié)果。本文選擇Softmax分類器來測試KSAE-SPMP算法的準確性。首先使用訓(xùn)練集對Softmax分類器進行訓(xùn)練,然后使用測試樣本集作為輸入,得到最終的物體識別準確率。
為驗證KSAE-SPMP算法的有效性,本文采用了馬克思·普朗克學(xué)會Browatzki等人公布的2D3D數(shù)據(jù)庫。2D3D數(shù)據(jù)庫包含14個類別,共計156個室內(nèi)常見的物體,每個類別包括10個左右的物體。每個物體包含36對RGB圖像和深度圖像,這些圖像是由物體放置在托盤上每旋轉(zhuǎn)20度拍攝1張而成。
4.1 實驗過程
為與先前提出的以2D3D數(shù)據(jù)庫[13]為測試數(shù)據(jù)集的方法進行實驗結(jié)果的對比,采用了與之相同的實驗過程。每次實驗中,隨機地將數(shù)據(jù)庫分為2個部分,一部分作為訓(xùn)練樣本,一部分作為測試樣本。分割規(guī)則為隨機地從每個類別中挑選出6個物體用于訓(xùn)練,剩余的物體用于測試。對于類別中物體個數(shù)小于6的樣本,隨機選取1個物體用于測試,剩余的物體用于訓(xùn)練,保證每個類別中至少有1個物體用于測試。對于每個物體,選取其中角度均勻分布的18張圖片用于訓(xùn)練或者測試。最終的訓(xùn)練樣本包含82個物體,共計1 476張圖片,測試樣本包含74個物體,1 332張圖片。整個實驗重復(fù)30次,每次隨機分割數(shù)據(jù)庫,最終的實驗結(jié)果取30次實驗結(jié)果的平均值。
數(shù)據(jù)庫分割完成后,首先將所有的圖片大小重置為194×194,然后從訓(xùn)練樣本中的RGB圖像和深度圖像中分別隨機提取300 000個大小為10×10的圖像塊,并用這些圖片塊作為k稀疏自編碼算法的輸入,完成k稀疏自編碼算法的訓(xùn)練。k稀疏自編碼算法的隱層節(jié)點個數(shù)為300,k的值選擇25。完成訓(xùn)練后,以卷積的方式逐像素地從每張圖片中提取特征。每張RGB圖片和深度圖片的特征均為1個300×185×185的三維矩陣。分別對這些三維矩陣進行簡單的平均池化,池化滑動窗口大小為10×10,步長為5。池化后的特征為300×36×36的三維矩陣。對每個三維矩陣進行空間金字塔最大池化,選取d分別為1、2、3、4,每張RGB圖像和深度圖像的最終特征均為30×300 = 9000維的向量。將每個樣本從RGB圖像和深度圖像中提取的特征進行合并,得到最終的特征,特征最終的維度為18 000。提取完所有樣本的特征后,使用訓(xùn)練樣本集訓(xùn)練Softmax分類器,使用測試樣本集得到最終的物體識別準確率。
4.2 實驗結(jié)果對比
在本文之前,已經(jīng)有學(xué)者提出了一些深度學(xué)習(xí)算法用于2D3D數(shù)據(jù)庫中物體的識別。表1列出了本文以及之前的一些算法所取得的物體識別的準確率。2D3D數(shù)據(jù)庫的作者Browatzki等人采用手動的特征提取算法[13],識別準確率較低。Liefeng Bo等人采用分層匹配追蹤深度學(xué)習(xí)算法[10],識別結(jié)果得到明顯提高。新提出的算法KSAE-SPMP的識別準確率與之前最好的結(jié)果相比[10]提高了1.4%,獲得了最高的識別準確率。另外,RGB圖像和深度圖像特征結(jié)合時取得的識別準確率明顯高于單獨使用RGB圖像或者深度圖像,這說明KSAE-SPMP算法能高效地完成多分類RGB-D物體的識別。
表1 物體識別準確率結(jié)果及對比/%
本文采用RGB-D數(shù)據(jù)庫,結(jié)合物體的顏色信息和深度信息,提出了一種新的無監(jiān)督深度學(xué)習(xí)算法KSAE-SPMP來完成物體的識別。實驗結(jié)果表明,與單獨使用RGB圖像和深度圖像相比,結(jié)合RGB圖像特征和深度圖像特征能有效提高物體識別的準確率。KSAE-SPMP算法學(xué)習(xí)到了極具代表性的特征,在標準的RGB-D數(shù)據(jù)庫2D3D上,與之前的工作相比,KSAE-SPMP算法取得了更高的物體識別準確率。KSAE-SPMP算法能高效地完成多分類物體的識別。
[1] 孫志軍,薛磊,許陽明,等. 深度學(xué)習(xí)研究綜述[J]. 計算機應(yīng)用研究, 2012,29(8): 2806-2810.
[2] Makhzani A, Frey B. k-Sparse Autoencoders[J]. arXiv preprint arXiv, 2013: 1312-5663.
[3] Bo L, Ren X, Fox D. Hierarchical Matching Pursuit for Image Classifi cation: Architecture and Fast Algorithms[J]. NIPS, 2011,1(2): 6-6.
[4] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006,18(7): 1527-1554.
[5] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]. Proceedings of the 25th international conference on machine learning, ACM, 2008: 1096-1103. [6] Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]. Proceedings of the 26th Annual International Conference on Machine Learning, ACM, 2009: 609-616.
[7] Blum M, Springenberg J T, Wulfing J, et al. A learned feature descriptor for object recognition in rgb-d data[C]. Robotics and Automation(ICRA), 2012 IEEE International Conference on IEEE, 2012: 1298-1303.
[8] Coates A, Ng A Y. The importance of encoding versus training with sparse coding and vector quantization[C]. Proceedings of the 28th International Conference on Machine Learning(ICML-11), 2011: 921-928.
[9] Yu K, Lin Y, Lafferty J. Learning image representations from the pixel level via hierarchical sparse coding[C]. Computer Vision and Pattern Recognition(CVPR), 2011 IEEE Conference on IEEE, 2011: 1713-1720.
[10] Bo L, Ren X, Fox D. Unsupervised feature learning for RGB-D based object recognition[C]. Experimental Robotics, Springer International Publishing, 2013: 387-402. [11] Socher R, Huval B, Bath B P, et al. Convolutional-Recursive Deep Learning for 3D Object Classification[C]. NIPS, 2012: 665-673.
[12] Lai K, Bo L, Ren X, et al. A large-scale hierarchical multi-view rgb-d object dataset[C]. Robotics and Automation(ICRA), 2011 IEEE International Conference on IEEE, 2011: 1817-1824.
[13] Browatzki B, Fischer J, Graf B, et al. Going into depth: Evaluating 2D and 3D cues for object classifi cation on a new, large-scale object dataset[C]. Computer Vision Workshops(ICCV Workshops), 2011 IEEE International Conference on IEEE, 2011: 1189-1195.
[14] Deng J, Zhang Z, Marchi E, et al. Sparse autoencoderbased feature transfer learning for speech emotion recognition[C]. Affective Computing and Intelligent Interaction(ACII), 2013 Humaine Association Conference on, 2013: 511-516.
[15] 王寧波. 基于RGB-D的行人檢測[D]. 杭州: 浙江大學(xué), 2013.
[16] 吳鑫,王桂英,叢楊. 基于顏色和深度信息融合的目標識別方法[J]. 農(nóng)業(yè)工程學(xué)報, 2013(A01): 96-100.★
盧良鋒:碩士研究生就讀于寧波大學(xué),研究方向為深度學(xué)習(xí)。
何加銘:教授,博士生導(dǎo)師,主要研究方向為移動通信。
謝志軍:寧波大學(xué)副教授,研究方向為無線傳感器網(wǎng)絡(luò)、基于TDLTE的新一代無線通信技術(shù)、RFID等。
RGB-D Object Recognition Algorithm Based on Deep Learning
LU Liang-feng, HE Jia-ming, XIE Zhi-jun, SUN De-chao
(Ningbo University, Ningbo 315211, China)
Combined with RGB and depth images, a novel unsupervised object recognition algorithm KSAE-SPMP based on deep learning was put forward. A standard RGB-D database 2D3D was adopted to verify the proposed algorithm. Experimental results demonstrated that compared with RGB-D algorithm based on object recognition proposed previously, KSAE-SPMP algorithm has the highest accurate identification rate, which is able to complete the RGB-D object recognition commendably.
object recognition RGB-D image K sparse auto encoding spatial pyramid max pooling Softmax classifi er
10.3969/j.issn.1006-1010.2015.10.010
TP391.4
A
1006-1010(2015)10-0052-05
盧良鋒,何加銘,謝志軍,等. 基于深度學(xué)習(xí)的RGB-D物體識別算法[J]. 移動通信, 2015,39(10): 52-56.
浙江省移動網(wǎng)絡(luò)應(yīng)用技術(shù)重點實驗室(2010E10005);浙江省新一代移動互聯(lián)網(wǎng)用戶端軟件科技創(chuàng)新團隊(2010R50009);新型輸入引擎及搜索與識別算法研究(2012R10009-19);浙江省重中之重學(xué)科開放基金項目(xkxl1305)
2014-12-04
責(zé)任編輯:劉妙 liumiao@mbcom.cn