蔣云飛柴 琦楊 杰
(青島大學(xué)機(jī)電工程學(xué)院,青島 266071)
近年來,機(jī)器人廣泛應(yīng)用于家居環(huán)境,尤其是擁有機(jī)械臂自主抓取功能的機(jī)器人,所以在機(jī)器人技術(shù)中必然要融入計(jì)算機(jī)視覺功能[1]。在抓取時(shí),機(jī)器人面對的是不同大小、形狀及位姿的生活物品,并且經(jīng)常存在物品被嚴(yán)重遮擋的問題,這給機(jī)器人的目標(biāo)檢測任務(wù)帶來較大的挑戰(zhàn)。目前,針對復(fù)雜場景多目標(biāo)重疊物體的識別研究成果并不理想。2011年Hinterstoisser等[2]提出了旨在解決雜亂場景中少紋理3D 物體的實(shí)時(shí)監(jiān)測與6D位姿估計(jì)定位問題的第一代LineMod算法,適用于部分雜亂場景檢測及工業(yè)上常見的少紋理或無紋理元器件的檢測識別,但對于同種物體相互重疊等復(fù)雜情況下的物體分割識別仍存在一定的不足;2012年第二代LineMod算法選擇較為稀疏的視角采樣,采用分塊匹配的思想提升被遮擋物體的打分[3],一定程度上解決了目標(biāo)遮擋識別難題,但是識別準(zhǔn)確率較低,分塊匹配速度提升不明顯,未從根本上解決遮擋問題;LCHF模型借鑒了LineMod的模板匹配功能以及霍夫森林投票方式,采用新型分割函數(shù)集成到回歸森林的方式來處理嚴(yán)重雜亂和遮擋場景中的3D物體檢測和位姿估計(jì)[4-5],但LCHF受限于手動標(biāo)注特征,在解決識別多個(gè)物體以及重疊場景問題時(shí)效率較低;Patch-LineMod算法[6]利用Kmeans均值聚類方法將整個(gè)模板分割成不同的特征塊,利用訓(xùn)練特征塊與目標(biāo)物體的點(diǎn)云相似性進(jìn)行識別判斷[7-8],提高了多目標(biāo)重疊場景下的識別能力。但該方法采用的特征點(diǎn)分塊方式極其簡單,特征分類機(jī)制存在較高的錯(cuò)誤匹配率及漏選率。針對LineMod算法不能對弱紋理重疊目標(biāo)進(jìn)行有效檢測的問題,本文利用LineMod算法的原理,提出了一種基于7D特征的聚類匹配識別方法CMRL(Cluster-matching Recognition Improved LineMod),將特征點(diǎn)具有的更深層次的7D特征向量信息[9]作為分類影響因素,分析特征點(diǎn)信息的內(nèi)部邏輯,提高獨(dú)特特征在特征點(diǎn)分類過程中的影響比重,結(jié)合Kmeans均值聚類方法,利用新的特征點(diǎn)分類規(guī)則,完成特征點(diǎn)更加合理的聚類,形成包含更多匹配信息的特征模板,以便獲取更加準(zhǔn)確的匹配識別結(jié)果,從而提高多目標(biāo)遮擋情況下的識別效果。
在Line Mod算法基礎(chǔ)上,本文引進(jìn)7D 特征向量,取代原有的3D 空間向量。7D 特征向量包含3D 空間位置特征向量(X、Y、Z)以及4D 位姿向量(梯度方向Rgd、梯度幅度Rgm、表面法向量方向Rsd、表面法向量幅度Rsm)。在計(jì)算特征信息時(shí),各特征點(diǎn)受到7D 特征向量的影響,能獲得更加合理的特征塊,可以很好地分離物體表面具有明顯相關(guān)性的特征,使獲得的模板更加具有邏輯相關(guān)性和可識別性。在特征信息降維的過程中,本文采用梯度下降法,將包含7D 特征向量的特征信息降維為3D,之后采用特征點(diǎn)均值聚類實(shí)現(xiàn)模板的總匹配,同時(shí)自動消除多余的聚類,至此獲得具有大量獨(dú)特特征信息的新特征模板,在匹配過程中可以明顯提高識別精度。
特征點(diǎn)的7D 特征向量處理過程如圖1(a)、(b)所示,輸入物體的原始點(diǎn)云數(shù)據(jù)后,通過計(jì)算每個(gè)3D 特征點(diǎn)的4個(gè)附加特征向量形成如圖1(b)所示的7D 特征向量。
圖1 7D特征向量處理過程和形成特征塊過程
獲取7D 特征向量后,需要對模板進(jìn)行分塊處理。設(shè)定特征尺寸s,然后集成特征點(diǎn)鄰域s×s區(qū)域內(nèi)的特征點(diǎn)作為待匹配特征塊,圖1(b)、(c)所示為模板信息處理形成特征塊的過程。
特征塊計(jì)算
其中,p是特征塊T 的中心點(diǎn),s×s以p為中心點(diǎn)的鄰域。
降維計(jì)算是利用數(shù)據(jù)降維算法將7D 特征向量信息降維為3D 特征信息,實(shí)現(xiàn)特征信息的可視化,便于分類計(jì)算形成新的3D 特征向量[10],具體過程如圖2所示。
圖2 Kmeans 均值化計(jì)算新的3D向量過程
本文借鑒無監(jiān)督降維算法(Principal Components Analysis,PCA)、隨機(jī)近鄰嵌入算法(Stochastic Neighbor Embedding,SNE)及t分布隨機(jī)近鄰嵌入算法(t-distributed Stochastic Neighbor Embedding,t-SNE),采用Kmeans均值化方法獲得新的3D 空間特征向量,實(shí)現(xiàn)高維數(shù)據(jù)空間映射為低維數(shù)據(jù)空間的非線性降維[11]。函數(shù)輸入為式(1)的7D 特征向量,輸出為優(yōu)化后的新的3D 特征信息I,向量降維函數(shù)UML()為
UML()函數(shù)類似于t-SNE算法,可以很好的解釋不同特征之間的復(fù)雜多項(xiàng)式關(guān)系以及分析聚焦于低維區(qū)域中不相似的數(shù)據(jù)點(diǎn)之間的關(guān)系,并保留原有的重新分塊得到的特征塊信息。
為了更好地解釋UML()函數(shù),采用t-SNE算法[11]表示
在3D 空間高低映射過程中,條件概率q ij用以反映高維空間7D 特征向量和低維空間3D 特征數(shù)據(jù)點(diǎn)之間的相似性
利用式(4)、式(5)計(jì)算7D 空間內(nèi)所有特征點(diǎn)的條件概率p ij和q ij,代入計(jì)算其對應(yīng)的KL()散度(Kullback-Leibler Divergence),得到散度最小值對應(yīng)的兩條件概率。KL()散度衡量兩個(gè)概率分布之間的距離,值越小表示兩個(gè)條件概率值越接近,即新的3D 空間的條件概率分布與真實(shí)的7D 空間條件概率分布越接近,完成了特征塊信息完整映射降維。計(jì)算相似度
之后利用隨機(jī)梯度下降法[12]完成7D 特征向量向3D 空間的特征信息映射
經(jīng)過對條件概率p ij和q ij的反復(fù)計(jì)算獲得最佳的相似度,最終得到從映射到3D 空間的特征信息。
本文提出的CMRL算法借助于引進(jìn)的7D 特征向量,用新的特征信息替代單純的特征點(diǎn)空間信息進(jìn)行特征塊的聚類匹配,獲得新的特征模板
其中,O i代表特征塊信息,代表了基于Kmeans聚類在特征聚類生成過程中所使用的模板聚類方法。
這樣可以充分利用特征點(diǎn)的內(nèi)在邏輯關(guān)聯(lián)性來提高物體獨(dú)特特征(物體邊緣、角、圓弧等)對特征點(diǎn)分類影響的比重,從而獲得關(guān)聯(lián)性更強(qiáng)的新的特征模板,具體過程如圖3所示。
圖3 新特征模板分塊聚類的過程
圖4所示為模板的原始特征點(diǎn)以及分類后的實(shí)際模板聚類結(jié)果。
圖4 模板聚類結(jié)果
利用余弦相似度函數(shù)Sim()測量兩個(gè)輸入向量的角度,在輸入的圖像中由pose()函數(shù)得到與訓(xùn)練數(shù)據(jù)集中模板最接近的最大相似度模板特征,特征模板包含目標(biāo)對象已訓(xùn)練的位置信息,將新的特征模板與測試圖像比對匹配,從而完成目標(biāo)物體的識別與6D 位姿估計(jì)過程。
具體的匹配識別及位姿估計(jì)過程如圖5所示。利用非極大值抑制算法進(jìn)行位姿計(jì)算、校正及驗(yàn)證,即通過ICP(the Iterative Closest Point)后處理算法,依據(jù)相似度分?jǐn)?shù)去除位姿估計(jì)過程中得到的重復(fù)的或錯(cuò)誤的位置信息,并采用校正驗(yàn)證以提高位姿估計(jì)準(zhǔn)確度[13]。
圖5 目標(biāo)檢測與位姿估計(jì)過程示意圖
現(xiàn)用實(shí)驗(yàn)驗(yàn)證CMRL 方法在應(yīng)對復(fù)雜場景重疊物體時(shí)的目標(biāo)識別效果。實(shí)驗(yàn)條件設(shè)置:CPU 為Intel(R)Core(TM)i5-9300H@2.40GHz,內(nèi)存16GB,借助Kinect V2 Depth傳感器,使用Doumanoglou數(shù)據(jù)集。Doumanoglou數(shù)據(jù)集是針對復(fù)雜場景中測試多目標(biāo)重疊物體的識別算法與位姿估計(jì)能力的公用數(shù)據(jù)集,包括訓(xùn)練集和測試集兩部分,與LineMod算法的訓(xùn)練識別過程剛好吻合。為清晰表示CMRL方法針對復(fù)雜場景重疊物體的識別效果,本文采用召回率和F1值來表示,F1值表示算法識別結(jié)果與真實(shí)場景中所有結(jié)果的匹配度。
圖6為部分實(shí)驗(yàn)過程。實(shí)驗(yàn)在152個(gè)測試樣本上開展,Line Mod、Patch-Line Mod、CMRL算法在場景1(咖啡杯)、場景2(果汁盒)及場景3(兩種物體混合)的召回率結(jié)果見表1??芍?Line Mod算法不具備復(fù)雜場景下重疊物體的識別能力,平均召回率僅10.6%。在場景1(咖啡杯)和場景2(果汁盒)中,Patch-Line Mod算法和CMRL算法均展現(xiàn)了較為出色的重度遮擋情況下多目標(biāo)物體的識別能力,其中CMRL算法的識別能力更為出色。
表1 LineMod、Patch-LineMod、CMRL方法在3種場景下召回率(%)
圖6 目標(biāo)檢測實(shí)驗(yàn)結(jié)果
對比不同的經(jīng)典算法在Doumanoglou數(shù)據(jù)集上Ntop=1(最高自信度的目標(biāo))時(shí)的F1分?jǐn)?shù),結(jié)果見表2。Ntop值指在所有估計(jì)值中具有最高自信度的前N個(gè)估計(jì)值。分別測試了Line Mod算法、PPF(點(diǎn)對點(diǎn)特征)算法、Hough-Forest算法、Doumanoglou算法和CMRL方法的F1值,平均值為該算法在兩個(gè)數(shù)據(jù)集性能的平均F1值。
表2 各算法Ntop=1時(shí)在場景1和場景2的F1分?jǐn)?shù)
Ntop=1時(shí),CMRL算法在兩個(gè)場景下的分值最終達(dá)到了0.946和0.916,證明該方法的識別準(zhǔn)確率大大提高,平均水平達(dá)到0.931。場景2中,CMRL算法的F1分?jǐn)?shù)相較于其他算法有了明顯的提高,說明本方法具備更高的識別準(zhǔn)確度以及更出色的識別能力。
本文提出的CMRL 方法在面對多目標(biāo)遮擋復(fù)雜情況時(shí)展現(xiàn)了較好的目標(biāo)檢測能力,相較于Line Mod算法,在魯棒性、識別率和準(zhǔn)確度等方面都有了明顯提升。但限于實(shí)驗(yàn)條件和時(shí)間問題,只在Doumanoglou數(shù)據(jù)集上進(jìn)行了仿真驗(yàn)證,并未在實(shí)際場景中進(jìn)行測試,日后可以嘗試在更多數(shù)據(jù)集場景下進(jìn)行仿真或者在實(shí)際場景中進(jìn)行實(shí)驗(yàn)驗(yàn)證。
青島大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年3期