• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合注意力特征的遮擋物體6D姿態(tài)估計(jì)

    2022-12-18 08:10:48馬康哲皮家甜熊周兵
    計(jì)算機(jī)應(yīng)用 2022年12期
    關(guān)鍵詞:關(guān)鍵點(diǎn)投影姿態(tài)

    馬康哲,皮家甜,熊周兵,呂 佳

    (1.重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 401331;2.重慶國(guó)家應(yīng)用數(shù)學(xué)中心(重慶師范大學(xué)),重慶 401331;3.北京理工大學(xué)重慶創(chuàng)新中心,重慶 401120)

    0 引言

    近年來,隨著機(jī)器人產(chǎn)業(yè)的不斷發(fā)展,相關(guān)的工業(yè)應(yīng)用被廣泛部署。機(jī)械臂抓取作為其中較為重要的任務(wù)之一,在制造業(yè)自動(dòng)化、家政服務(wù)、智慧醫(yī)療等領(lǐng)域有重要的應(yīng)用場(chǎng)景。傳統(tǒng)的二維空間(Two-Dimensional space,2D)目標(biāo)檢測(cè)只能夠提供目標(biāo)對(duì)象的2D 邊界框,由于其在空間位置信息上的缺失,在實(shí)際應(yīng)用場(chǎng)景中很難實(shí)現(xiàn)對(duì)目標(biāo)物體的精準(zhǔn)抓取。估計(jì)目標(biāo)物體的6 個(gè)方向的自由度(Six Degree of freedom,6D)姿態(tài)信息可以為機(jī)器人提供豐富的二維空間與三維空間(Two-Dimensional space and Three-Dimensional space,2D-3D)交互信息。物體的6D 姿態(tài)通常是指物體坐標(biāo)系與傳感器坐標(biāo)系的坐標(biāo)變換,由3 個(gè)自由度的平移變換和3 個(gè)自由度的旋轉(zhuǎn)變換構(gòu)成。因此,對(duì)目標(biāo)物體進(jìn)行6D 姿態(tài)估計(jì),是機(jī)器人能夠準(zhǔn)確抓取物體的重要步驟。

    現(xiàn)有的算法在面對(duì)復(fù)雜背景、光照不足、遮擋等真實(shí)的自然場(chǎng)景時(shí),效果仍然不佳。雖然RGBD(Red-Green-Blue-Depth)圖像的方法可以利用深度信息來消除透視投影過程中造成的對(duì)象比例歧義,在準(zhǔn)確率上有明顯優(yōu)勢(shì);但主流的基于RGBD 圖像的6D 姿態(tài)估計(jì)網(wǎng)絡(luò)普遍依賴于點(diǎn)云特征提取網(wǎng)絡(luò)PointNet[1],計(jì)算量大,推理速度慢,難以投入實(shí)際應(yīng)用。

    僅使用RGB(Red-Green-Blue)圖像來識(shí)別物體的6D 姿態(tài)是計(jì)算機(jī)視覺領(lǐng)域的重點(diǎn)及難點(diǎn),其中基于關(guān)鍵點(diǎn)的方法在實(shí)時(shí)性和準(zhǔn)確率上取得了很好的平衡。該方法通常使用網(wǎng)絡(luò)回歸關(guān)鍵點(diǎn)的坐標(biāo),通過求解透視投影PnP(Perspectiven-Point)問題得到相機(jī)坐標(biāo)系到物體坐標(biāo)系下的轉(zhuǎn)換矩陣。Nibali 等[2]為了克服全連接層回歸坐標(biāo)泛化能力差的缺陷,使用熱圖匹配的方式來計(jì)算2D 關(guān)鍵點(diǎn)坐標(biāo);但該方法在關(guān)鍵點(diǎn)被遮擋時(shí)不能夠有效發(fā)揮作用。Peng 等[3]為圖片中每個(gè)像素回歸了指向關(guān)鍵點(diǎn)的矢量,通過投票的方式選取關(guān)鍵點(diǎn)的位置,取得了很好的效果;但是該方法不可微,不適合網(wǎng)絡(luò)的學(xué)習(xí)。Yang 等[4]在自監(jiān)督領(lǐng)域的物體6D 姿態(tài)估計(jì)中提出了一個(gè)新穎的求解關(guān)鍵點(diǎn)方法,通過雙尺度的關(guān)鍵點(diǎn)的對(duì)應(yīng)關(guān)系求解姿態(tài);但是因使用了兩個(gè)大型網(wǎng)絡(luò),很難達(dá)到實(shí)時(shí)的目的。

    針對(duì)上述問題,本文首先對(duì)網(wǎng)絡(luò)學(xué)習(xí)過程中的特征進(jìn)行了改進(jìn),提出將能夠聚焦空間通道注意力信息的卷積注意力模塊(Convolutional Block Attention Module,CBAM)[5]引入到物體6D 姿態(tài)估計(jì)的網(wǎng)絡(luò)中的跳躍連接(Skip connection)階段,注意力機(jī)制能夠讓網(wǎng)絡(luò)關(guān)注非凸優(yōu)化中更具影響力的特征,空間注意力信息讓網(wǎng)絡(luò)更好保留位置信息,通道注意力可以增強(qiáng)網(wǎng)絡(luò)的分割效果。其次,舍棄了關(guān)鍵點(diǎn)投票的策略,引入一種可微的方法求解關(guān)鍵點(diǎn),并將其用于輕量級(jí)網(wǎng)絡(luò)中:第一步采用弱監(jiān)督方式得到與圖像尺寸大小相同的偏置注意力圖(Attention Map);第二步將其與生成的偏置圖(Offset Map)在對(duì)應(yīng)目標(biāo)掩碼像素下相乘;最后累加求和得到關(guān)鍵點(diǎn)。實(shí)驗(yàn)結(jié)果證明,該策略能夠充分利用每個(gè)像素點(diǎn)的位置信息,同時(shí)在面對(duì)遮擋場(chǎng)景下的物體具有較好的魯棒性。本文的主要工作如下:

    1)提出在物體姿態(tài)估計(jì)網(wǎng)絡(luò)中的Skip connection 階段引入CBAM,優(yōu)化分割效果的同時(shí)減小回歸關(guān)鍵點(diǎn)位置信息帶來的定位誤差。

    2)針對(duì)基于隨機(jī)抽樣一致算法(RANdom SAmple Consensus,RANSAC)的關(guān)鍵點(diǎn)投票方法耗時(shí)長(zhǎng)、不可微的問題,提出使用歸一化損失函數(shù)以弱監(jiān)督的方式回歸的注意圖作為對(duì)應(yīng)像素位置上偏置的權(quán)重分?jǐn)?shù),累加求和得到關(guān)鍵點(diǎn)的策略。

    3)本文算法與現(xiàn)有的物體姿態(tài)估計(jì)方法相比,準(zhǔn)確率更高,在遮擋場(chǎng)景下更魯棒。

    1 相關(guān)工作

    基于RGB 圖像的物體6D 姿態(tài)估計(jì)算法大致可以分為3種:網(wǎng)絡(luò)直接回歸的方法、基于2D-3D 稠密對(duì)應(yīng)關(guān)系的方法和基于關(guān)鍵點(diǎn)的方法。

    網(wǎng)絡(luò)直接回歸的方法將6D 姿態(tài)估計(jì)的問題視為回歸或者分類任務(wù),網(wǎng)絡(luò)模型直接從輸入圖片預(yù)測(cè)相關(guān)的參數(shù),如歐拉角、四元數(shù)。Xiang 等[6]首次提出了端到端的姿態(tài)估計(jì)網(wǎng) 絡(luò)PoseCNN(Convolutional Neural Network for 6D object Pose estimation in cluttered scenes),在內(nèi)部解耦了旋轉(zhuǎn)和平移,直接回歸了目標(biāo)物體的質(zhì)心的平移矩陣和四元數(shù)代表的旋轉(zhuǎn)矩陣,并提出了一個(gè)能夠處理對(duì)稱物體的損失函數(shù)。Kehl 等[7]提出了SSD(Single Shot multibox Detector)-6D 網(wǎng)絡(luò),擴(kuò)展了2D 檢測(cè)器SSD 的任務(wù);由于旋轉(zhuǎn)空間不連續(xù),該方法將姿態(tài)估計(jì)任務(wù)轉(zhuǎn)換成了離散視角點(diǎn)分類的問題。Sundermeyer 等[8]使用CAD(Computer Aided Design)模型渲染的合成數(shù)據(jù)來學(xué)習(xí)旋轉(zhuǎn)空間特征的隱式編碼,然后將預(yù)測(cè)的隱式特征與碼本進(jìn)行匹配。梁達(dá)勇等[9]使用網(wǎng)絡(luò)對(duì)物體多角度視圖編碼得到隱式的幾何特征與紋理特征進(jìn)行融合。上述方法都高度依賴姿態(tài)細(xì)化網(wǎng)絡(luò)來提高性能。

    基于2D-3D 稠密對(duì)應(yīng)關(guān)系的方法通過求解PnP 問題來恢復(fù)物 體姿態(tài)。Li 等[10]提出的CDPN(Coordinates-based Disentangled Pose Network)通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)了物體在3D 空間的坐標(biāo),用來建立稠密的2D-3D 對(duì)應(yīng)關(guān)系。Zakharov等[11]提出的DPOD(Dense Pose Object Detector)通過UV 貼圖(UV Mapping)估計(jì)其在3D 物體表面的對(duì)應(yīng)位置,通過UV 圖作為中間表征構(gòu)建起2D-3D 對(duì)應(yīng)關(guān)系。Hodaň 等[12]提出的EPOS(Estimating 6D Pose of Objects with Symmetries)將目標(biāo)物體用片段來表示,使用編碼解碼的結(jié)構(gòu)預(yù)測(cè)采樣像素和片段之間的對(duì)應(yīng)關(guān)系?;?D-3D 稠密對(duì)應(yīng)關(guān)系的方法需要從較大空間中搜索合適的解,同時(shí)需要用到大量的RANSAC、PnP 操作來求解姿態(tài)。

    相比而言,基于關(guān)鍵點(diǎn)的方法預(yù)測(cè)稀疏的對(duì)應(yīng)關(guān)系更有希望應(yīng)用在未來真實(shí)場(chǎng)景中。Rad 等[13]提出了BB8 方法,首先使用一個(gè)網(wǎng)絡(luò)粗略的分割目標(biāo)物體,然后通過另外一個(gè)網(wǎng)絡(luò)回歸長(zhǎng)方體邊界框的8 個(gè)頂點(diǎn)的2D 投影。由于2D 位置坐標(biāo)在面對(duì)遮擋時(shí)會(huì)失效,Oberweger 等[14]提出使用2D 關(guān)鍵點(diǎn)熱圖來代替關(guān)鍵點(diǎn)坐標(biāo)的位置,提升了模型的抗遮擋能力;但是由于熱圖尺寸固定,很難預(yù)測(cè)在圖像外面的點(diǎn)。Peng等[3]提出了逐像素投票網(wǎng)絡(luò)(Pixel Voting Network,PVNet),為每個(gè)像素點(diǎn)預(yù)測(cè)一個(gè)關(guān)鍵點(diǎn)矢量,通過RANSAC 算法進(jìn)行投票,最后PnP 算法求解姿態(tài)。Song 等[15]將單一關(guān)鍵點(diǎn)關(guān)表征擴(kuò)張到了混合的表征,包括關(guān)鍵點(diǎn)、邊緣矢量、對(duì)稱性關(guān)系;然而回歸更多的表征也限制了其性能。

    Woo 等[5]提出了一種簡(jiǎn)單而高效的卷積注意力模塊(CBAM),可以有效融合通道和空間注意力特征。李坤等[16]將坐標(biāo)注意力引入到人體姿態(tài)估計(jì)網(wǎng)絡(luò),特征圖的精確位置信息得到了加強(qiáng)。Stev?i? 等[17]首次將空間注意力用于迭代的物體6D 姿態(tài)估計(jì)細(xì)化網(wǎng)絡(luò)中,顯著提升了網(wǎng)絡(luò)的性能。

    2 基于關(guān)鍵點(diǎn)的物體6D姿態(tài)估計(jì)網(wǎng)絡(luò)

    考慮到算法的實(shí)用性,本文采用了基于關(guān)鍵點(diǎn)的方法。在理想的狀態(tài)下,提出的解決方案應(yīng)該能夠很好地處理弱紋理物體,并且在復(fù)雜背景、不同光照、遮擋情況下都能準(zhǔn)確計(jì)算出關(guān)鍵點(diǎn)的位置,同時(shí)在實(shí)時(shí)性和準(zhǔn)確度上都達(dá)到一定的要求。在不大幅度增加網(wǎng)絡(luò)計(jì)算量的前提下,本文對(duì)PVNet的架構(gòu)進(jìn)行了改進(jìn):首先,在每個(gè)Skip connection 階段的淺層特征后增加了一個(gè)CBAM 來增強(qiáng)不同尺度下的特征;其次,在輕量級(jí)骨干網(wǎng)絡(luò)ResNet18 的編碼階段之后,加入一個(gè)卷積核為3 × 3 的卷積層和一個(gè)上采樣層,通過歸一化損失函數(shù)采取弱監(jiān)督的方式,回歸得到關(guān)鍵點(diǎn)偏置的注意力圖;最后,網(wǎng)絡(luò)在解碼階段回歸了物體掩碼和關(guān)鍵點(diǎn)的偏置圖。在此基礎(chǔ)上,通過掩碼圖剔除背景無關(guān)的像素,逐像素對(duì)偏置賦予注意力權(quán)重累加求和計(jì)算出關(guān)鍵點(diǎn)。整體架構(gòu)如圖1所示。

    圖1 物體6D姿態(tài)估計(jì)網(wǎng)絡(luò)整體架構(gòu)Fig.1 Overall architecture of object 6D pose estimation network

    2.1 CBAM注意力機(jī)制

    注意力機(jī)制通過對(duì)不同重要程度的特征分配不同大小的權(quán)重,可以讓模型專注于目標(biāo)任務(wù)相關(guān)的特征而不是包含無關(guān)背景的冗余特征。注意力機(jī)制通常分為兩種,即通道注意力和空間注意力。本文采用的卷積注意力模塊是一個(gè)簡(jiǎn)單而有效的混合注意力模塊,由通道注意力和空間注意力串聯(lián)組成:通道注意力關(guān)注的是不同通道對(duì)目標(biāo)任務(wù)結(jié)果的影響,空間注意力判斷哪個(gè)位置的信息對(duì)目標(biāo)任務(wù)結(jié)果比較重要。

    如圖2 所示,在通道注意力模塊(Channel Attention Module,CAM)中,給定一個(gè)大小為H×W×C的特征F,其中H、W、C分別為特征圖的長(zhǎng)、寬、和通道數(shù)。特征圖首先分別經(jīng)過最大池化和平均池化后,得到大小為1 × 1 ×C的特征,將其送入共享權(quán)重的多重感知機(jī)(Muti-Layer Perceptron,MLP),其中隱藏層神經(jīng)元個(gè)數(shù)為C/r,r為縮減倍數(shù),激活函數(shù)為ReLU(Rectified Linear Unit),經(jīng)過MLP 得到兩個(gè)特征相加再經(jīng)過一個(gè)Sigmoid 激活函數(shù)得到通道注意力權(quán)重系數(shù)Mc,最后將輸入特征與Mc相乘即可得到通道注意力特征。在空間注意力模塊(Spatial Attention Module,SAM)中,將通道注意力特征作為輸入特征,經(jīng)過最大池化和平均池化后在通道進(jìn)行拼接后得到大小為H×W× 2 的特征,將其輸入到卷積核為7 × 7 的卷積層中,經(jīng)過Sigmoid 激活函數(shù)得到空間注意力權(quán)重系數(shù)Ms,最后將通道注意力特征與Ms相乘得到增強(qiáng)后的特征F′。

    圖2 CBAM結(jié)構(gòu)Fig.2 CBAM structure

    2.2 物體6D姿態(tài)求解

    基于關(guān)鍵點(diǎn)的方法需要首先求得關(guān)鍵點(diǎn)的坐標(biāo)位置,使用固定尺寸熱圖來替代關(guān)鍵點(diǎn)坐標(biāo)的方法不能解決遮擋問題,使用投票的方式求解關(guān)鍵點(diǎn)的坐標(biāo),其過程不可學(xué)習(xí),屬于次優(yōu)的方案。受文獻(xiàn)[4]方法的啟發(fā),本文采用一種可微的方式求解關(guān)鍵點(diǎn)。在得到2D 平面的關(guān)鍵點(diǎn)的信息后,將其與3D 模型中標(biāo)注的關(guān)鍵點(diǎn)構(gòu)成2D-3D 映射關(guān)系,求解PnP問題恢復(fù)物體姿態(tài)。為簡(jiǎn)化模型,本文采用EPnP(Efficient PnP)算法[18]求解物體姿態(tài)。

    在關(guān)鍵點(diǎn)選擇的過程中,為了充分利用掩碼圖中每個(gè)像素點(diǎn)對(duì)關(guān)鍵點(diǎn)的坐標(biāo)位置的相互關(guān)系,如圖3 所示,本文提出的網(wǎng)絡(luò)回歸了目標(biāo)物體掩碼以及每個(gè)關(guān)鍵點(diǎn)的偏置圖,通過對(duì)位置坐標(biāo)的約束以弱監(jiān)督的方式得到了對(duì)應(yīng)關(guān)鍵點(diǎn)的注意圖。通過注意力分?jǐn)?shù)加權(quán)平均前景像素關(guān)鍵點(diǎn)偏置圖可以計(jì)算出關(guān)鍵點(diǎn)。計(jì)算公式如式(1)所示:

    圖3 關(guān)鍵點(diǎn)計(jì)算Fig.3 Key points calculation

    2.3 損失函數(shù)

    本文模型主要采用編碼解碼的結(jié)構(gòu),目標(biāo)函數(shù)由三部分組成:第一部分語義分割損失Lseg采用交叉熵?fù)p失,第二部分偏置圖損失Loff采用smooth L1 損失,第三部分關(guān)鍵點(diǎn)損失Lkey采用 L1 損失。整體的損失函數(shù)L如式(2)所示:

    其中:λ1、λ2、λ3分別為平衡常數(shù)。

    當(dāng)物體在2D 平面投影的面積越大時(shí),其偏置圖損失函數(shù)值也越大;因此,需要首先對(duì)其進(jìn)行歸一化。由于在2D 平面中目標(biāo)物體尺寸缺失,而物體掩碼的像素點(diǎn)個(gè)數(shù)易受遮擋條件的影響,本文在關(guān)鍵點(diǎn)的損失函數(shù)中,將物體實(shí)例分割的外接矩形框的最長(zhǎng)邊作為尺度歸一化因子。具體公式如式(3)所示:

    本文方法采用弱監(jiān)督的方式得到注意力圖,通過在網(wǎng)絡(luò)中加入關(guān)鍵點(diǎn)的損失函數(shù)來約束特征圖隨機(jī)生成注意力圖。公式如式(4)所示:

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 數(shù)據(jù)集

    LINEMOD 數(shù)據(jù)集[19]由15 783 幅圖像組成,其中包含13 個(gè)弱紋理對(duì)象,每個(gè)對(duì)象包含約1 400 幅圖像。由于目標(biāo)對(duì)象缺少紋理,且圖像中混亂的場(chǎng)景以及光照變化使該數(shù)據(jù)集面臨挑戰(zhàn)。本文按照先前的工作[10,19]劃分訓(xùn)練和測(cè)試集,并根據(jù)文獻(xiàn)[10]方法生成用于訓(xùn)練的合成圖像。

    Occlusion LINEMOD 數(shù)據(jù)集[20]是LINEMOD 數(shù)據(jù)集的重新注釋,每張圖像都包含多個(gè)部分遮擋物體。由1 435 幅圖像組成,包含8 個(gè)物體。通常的規(guī)則是在LINEMOD 數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò),然后在Occluded LINEMOD 數(shù)據(jù)集上測(cè)試,以驗(yàn)證算法面對(duì)遮擋場(chǎng)景的魯棒性。

    3.2 評(píng)價(jià)指標(biāo)

    為了評(píng)價(jià)模型的性能,本文使用2D 投影指標(biāo)[21]和點(diǎn)平均距離(ADD(-S))指標(biāo)[6]分別對(duì)模型進(jìn)行評(píng)估。

    2D 投影指標(biāo) 該指標(biāo)計(jì)算的是預(yù)測(cè)的姿態(tài)投影的點(diǎn)與真實(shí)標(biāo)注姿態(tài)投影的點(diǎn)之間的平均距離。當(dāng)平均距離小于5 個(gè)像素的時(shí)候,估計(jì)的姿態(tài)認(rèn)為是正確的。

    其中:M代表目標(biāo)物體3D 模型中的頂點(diǎn)合集;m代表頂點(diǎn)的個(gè)數(shù);R、T分別代表真實(shí)的旋轉(zhuǎn)和平移;、分別代表預(yù)測(cè)的旋轉(zhuǎn)和平移。

    ADD(-S)指標(biāo) 當(dāng)預(yù)測(cè)的點(diǎn)云與實(shí)際的點(diǎn)云差值小于物體直徑的10%時(shí),該指標(biāo)認(rèn)為估計(jì)的轉(zhuǎn)換矩陣是正確的。

    對(duì)于非對(duì)稱物體,ADD 度量計(jì)算通過預(yù)測(cè)姿態(tài)和地面真實(shí)姿態(tài)轉(zhuǎn)換的物體頂點(diǎn)之間的點(diǎn)對(duì)平均距離,對(duì)于對(duì)稱物體,本文使用最近點(diǎn)對(duì)距離ADD-S 度量。相關(guān)定義如下:

    3.3 實(shí)驗(yàn)設(shè)置

    數(shù)據(jù)集方面,本文模型使用了兩個(gè)公開數(shù)據(jù)集LINEMOD 數(shù)據(jù)集和Occlusion LINEMOD 數(shù)據(jù)集。實(shí)驗(yàn)將LINEMOD 數(shù)據(jù)集85%的樣本作為訓(xùn)練樣本,剩下15%的樣本作為測(cè)試樣本;Occlusion LINEMOD 數(shù)據(jù)集僅用來測(cè)試。關(guān)鍵點(diǎn)的位置通過最遠(yuǎn)點(diǎn)采樣算法(Farthest Point Sampling,F(xiàn)PS)計(jì)算得出,本文選取8 個(gè)關(guān)鍵點(diǎn)作為注釋。為了防止過擬合,本文方法對(duì)圖像進(jìn)行了常規(guī)的圖像增強(qiáng)操作,包括隨機(jī)裁切、旋轉(zhuǎn)和色彩變化等操作。為了增加數(shù)據(jù)集樣本大小,本文使用了PVNet 中的數(shù)據(jù)集擴(kuò)增方法生成了10 000 幅只包含單個(gè)物體的渲染圖像,圖像背景從SUN397 數(shù)據(jù)集[22]中隨機(jī)選擇;另外為了模擬真實(shí)的遮擋場(chǎng)景,生成10 000 幅包含多個(gè)物體相互遮擋的合成圖像。

    在模型訓(xùn)練過程中,初始學(xué)習(xí)率設(shè)置為0.001,bathsize設(shè)置為10,epoch 設(shè)置為100,σ設(shè)置為0.5,使用Adam 優(yōu)化器,前5 個(gè)epoch 使用了warmup 策略對(duì)模型進(jìn)行預(yù)熱,學(xué)習(xí)率調(diào)整通過每訓(xùn)練5 個(gè)epoch 衰減0.85。

    3.4 實(shí)驗(yàn)結(jié)果分析

    3.4.1 模型實(shí)時(shí)性分析

    實(shí)驗(yàn)所用計(jì)算機(jī)CPU 型號(hào)為 AMD Ryzen R5 5600X 3.7 GHz,GPU 使用一張Titan XP 顯卡,batchsize 設(shè)置為10。在LINEMOD 數(shù)據(jù)集上,輸入尺寸大小為480 × 640的圖像,測(cè)試結(jié)果可以達(dá)到23 FPS。其中數(shù)據(jù)導(dǎo)入耗時(shí)28.1 ms,前向傳播耗時(shí)3.5 ms,EPnP耗時(shí)2.7 ms,關(guān)鍵點(diǎn)計(jì)算耗時(shí)11.2 ms,可以滿足機(jī)器人在現(xiàn)實(shí)環(huán)境中進(jìn)行物體實(shí)時(shí)抓取的基本要求。如表1 所示,相比基于RANSAC 投票的計(jì)算方法,本文提出的關(guān)鍵點(diǎn)計(jì)算方法耗時(shí)減小了50.9%。

    表1 計(jì)算關(guān)鍵點(diǎn)方法耗時(shí)對(duì)比 單位:msTab.1 Time consumption comparison of calculating key points unit:ms

    3.4.2 LINEMOD 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

    為了體現(xiàn)方法的優(yōu)越性,本文將該方法使用2D 投影指標(biāo)與ADD(-S)指標(biāo)對(duì)物體6D 姿態(tài)估計(jì)領(lǐng)域中不同方法進(jìn)行對(duì)比,包括BB8[13]、YOLO6D(YOLO(You Only Look Once)for 6D object pose estimation)[23]、PVNet[3]、DPOD[11]、CDPN[10]、HybridPose[15],實(shí)驗(yàn)結(jié)果如表2、3 所示。

    表2 使用2D投影指標(biāo)在LINEMOD數(shù)據(jù)集上各方法對(duì)比 單位:%Tab.2 Comparison of methods on LINEMOD dataset in terms of 2D projection metric unit:%

    表3 使用ADD(-S)指標(biāo)在LINEMOD數(shù)據(jù)集上各方法對(duì)比 單位:%Tab.3 Comparison of methods on LINEMOD dataset in terms of ADD(-S)metric unit:%

    BB8 使用3D 矩形框上的8 個(gè)點(diǎn)作為關(guān)鍵點(diǎn),直接回歸坐標(biāo)的位置,PVNet 和HybridPose 使用關(guān)鍵點(diǎn)投票的策略定位物體表面的關(guān)鍵點(diǎn),DPOD 通過UV 圖建立稠密的2D-3D 對(duì)應(yīng)關(guān)系。其中BB8、DPOD、HybridPose 通常使用細(xì)化網(wǎng)絡(luò)提高其精度。

    在LINEMOD 數(shù)據(jù)集中,本文方法不使用細(xì)化網(wǎng)絡(luò)達(dá)到了最高精度,相較于基于投票策略的網(wǎng)絡(luò)PVNet,2D 投影指標(biāo)和ADD(-S)指標(biāo)分別提高了0.3 個(gè)百分點(diǎn)和5.0 個(gè)百分點(diǎn),驗(yàn)證了本文方法對(duì)于弱紋理物體以及復(fù)雜背景下計(jì)算關(guān)鍵點(diǎn)的有效性以及準(zhǔn)確性,大幅提升了旋轉(zhuǎn)矩陣和平移矩陣的精度。尤其對(duì)于小尺寸類別ape 和duck,在ADD(-S)指標(biāo)分別提升了25.0 個(gè)百分點(diǎn)和16.0 個(gè)百分點(diǎn),驗(yàn)證了本文方法在融合多尺度上下文信息有明顯優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明本文方法在精度上可以媲美較新的一些加了細(xì)化網(wǎng)絡(luò)的方法,如HybridPose。

    3.4.3 Occlusion LINEMOD 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

    遮擋條件下的物體6D 姿態(tài)估計(jì)是該領(lǐng)域的一項(xiàng)挑戰(zhàn),本文總結(jié)對(duì)比了Oberweger[14]、SegDriven[24]、PVNet[3]、SSPE(Single-Stage Pose Estimation)[25]、DPOD[11]、HybridPose[15]在Occlusion LINEMOD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,如表4、5 所示。

    表4 使用2D投影指標(biāo)在Occlusion LINEMOD 數(shù)據(jù)集上各方法對(duì)比 單位:%Tab.4 Comparison of methods on Occlusion LINEMOD dataset in terms of 2D Projection metric unit:%

    在2D 投影指標(biāo)中,在Occlusion LINEMOD 數(shù)據(jù)集上,本文方法的性能接近PVNet,但是仍然提升了0.4 個(gè)百分點(diǎn)。ADD(-S)將對(duì)稱物體納入考慮范圍之內(nèi),相較于2D 投影指標(biāo)更嚴(yán)謹(jǐn),故本文將其引入對(duì)模型進(jìn)行進(jìn)一步評(píng)估。

    本文方法在對(duì)PVNet 進(jìn)行改進(jìn)之后,在Occlusion LINEMOD 數(shù)據(jù)集中,ADD(-S)指標(biāo)平均值從40.8%提升到了46.3%;且在多個(gè)類別中取得了最高的分?jǐn)?shù),包括ape、can、driller、duck、holepuncher。在不加任何細(xì)化網(wǎng)絡(luò)的前提下,本文方法的準(zhǔn)確率最高,優(yōu)于DPOD 方法13.5 個(gè)百分點(diǎn),驗(yàn)證了本文方法在遮擋條件下具有更出色的性能。對(duì)于對(duì)稱物體glue、eggbox,性能有輕微下降,通過分析可知是由于輕量級(jí)網(wǎng)絡(luò)對(duì)于對(duì)稱信息的學(xué)習(xí)不敏感造成對(duì)注意力圖的影響。但總體而言,本文方法在遮擋場(chǎng)景下有較強(qiáng)的魯棒性。

    表5 使用ADD(-S)指標(biāo)在Occlusion LINEMOD 數(shù)據(jù)集上與其他方法對(duì)比 單位:%Tab.5 Comparison with other methods on Occlusion LINEMOD dataset in terms of ADD(-S)metric unit:%

    3.4.4 超參數(shù)σ對(duì)模型影響分析

    σ的作用是對(duì)尺度的值進(jìn)行范圍調(diào)整。在實(shí)驗(yàn)中,將尺度敏感因子σ設(shè)置為0.5,即每次預(yù)測(cè)誤差都被歸一化到其對(duì)象尺度的一半。根據(jù)實(shí)驗(yàn)觀察,將σ設(shè)置為0.5 的誤差值始終小于將σ設(shè)置為1 的誤差值,因此處于Smooth L1 損失或L1 損失的非線性區(qū)域,能夠進(jìn)行有效的反向梯度傳播。

    3.5 消融實(shí)驗(yàn)分析

    為驗(yàn)證融合注意力的增強(qiáng)特征對(duì)遮擋物體姿態(tài)估計(jì)的影響以及使用注意力圖求解關(guān)鍵點(diǎn)相較于基于RANSAC 投票求解關(guān)鍵點(diǎn)對(duì)實(shí)驗(yàn)結(jié)果精度的影響,本文設(shè)計(jì)了消融實(shí)驗(yàn)。通過消除CBAM 以及使用注意力圖求解關(guān)鍵點(diǎn)的方法替代投票選取關(guān)鍵點(diǎn)的策略與基模型PVNet 進(jìn)行對(duì)比,實(shí)驗(yàn)在LINEMOD 數(shù)據(jù)集和Occlusion LINEMOD 數(shù)據(jù)集上進(jìn)行。

    實(shí)驗(yàn)結(jié)果如表6 所示。采用控制變量法對(duì)2.1 節(jié)、2.2 節(jié)中的優(yōu)化策略進(jìn)行實(shí)驗(yàn)表明,使用注意力圖求解關(guān)鍵點(diǎn)的策略,相較于基于RANSAC 投票策略,在LINEMOD 數(shù)據(jù)集中2D 投影指標(biāo)和ADD(-S)指標(biāo)分別提升了0.2 和4.6 個(gè)百分點(diǎn);在Occlusion LINEMOD 數(shù)據(jù)集中ADD(-S)指標(biāo)提升了3.4 個(gè)百分點(diǎn);2D 投影指標(biāo)有所下降,這是由于特征表達(dá)能力受限,注意力圖得分較高的像素點(diǎn)集中分布在關(guān)鍵點(diǎn)周圍,當(dāng)物體被嚴(yán)重遮擋時(shí),關(guān)鍵點(diǎn)的位置產(chǎn)生偏差。模型在跳躍連接階段加入CBAM 之后,相較于只使用投票策略的方法,在LINEMOD 數(shù)據(jù)集中2D 投影指標(biāo)和ADD(-S)指標(biāo)分別提升了0.3 和5.0 個(gè)百分點(diǎn);在Occlusion LINEMOD 數(shù)據(jù)集中2D 投影指標(biāo)和ADD(-S)指標(biāo)分別提升了0.3 和5.5 個(gè)百分點(diǎn),驗(yàn)證了融合注意力模塊之后的基于注意力圖關(guān)鍵點(diǎn)求解策略大幅度提升了姿態(tài)估計(jì)方法的精度。

    表6 消融實(shí)驗(yàn)結(jié)果Tab.6 Ablation experiment results

    在跳躍連接階段加入CBAM 后,淺層特征通過注意力模塊后可以摒棄掉特征矩陣中與背景相關(guān)的冗余信息,增強(qiáng)淺層特征表達(dá)能力;通過與深層特征的融合,有利于捕捉全局信息優(yōu)化分割效果,同時(shí)提升回歸偏置圖精度,讓注意圖分?jǐn)?shù)不單單聚集在關(guān)鍵點(diǎn)周圍,有更好的分布性。如圖4 所示,加了CBAM 的模型回歸的注意力圖更能充分利用每個(gè)位置的信息,權(quán)重不單一集中在關(guān)鍵點(diǎn)周圍。配合注意力圖求解關(guān)鍵點(diǎn)方法的結(jié)果更準(zhǔn)確;同時(shí),該方法在關(guān)鍵點(diǎn)被遮擋條件下,仍然具有良好的魯棒性。

    圖4 注意力圖可視化Fig.4 Visualization of attention map

    3.6 實(shí)驗(yàn)結(jié)果可視化

    本文在LINEMOD 數(shù)據(jù)集和Occlusion LINEMOD 數(shù)據(jù)集中對(duì)類別ape、cat、driller、glue 隨機(jī)選取了一些圖片進(jìn)行可視化,如圖5 所示。其中圖5(a)為原圖,圖5(b)為預(yù)測(cè)物體掩碼圖及其最大的外接矩陣,圖5(c)為預(yù)測(cè)關(guān)鍵點(diǎn),圖5(d)為立體矩形框,包圍矩形線條分別代表物體的預(yù)測(cè)姿態(tài)與真實(shí)姿態(tài)。第一行類別ape 和第二行類別cat 是在LINEMOD 數(shù)據(jù)集測(cè)試結(jié)果,第三行類別driller 和第四行類別glue 是在Occlusion LINEMOD 數(shù)據(jù)集上的測(cè)試結(jié)果。

    從圖5 中可以看出,無論是對(duì)于小尺寸類別ape 或者是大尺寸類別driller,本文方法都能準(zhǔn)確檢測(cè)到關(guān)鍵點(diǎn)的位置;此外,在Occlusion LINEMOD 數(shù)據(jù)集中的場(chǎng)景下,即使關(guān)鍵點(diǎn)被遮擋,本文方法仍然能夠準(zhǔn)確檢測(cè)到關(guān)鍵點(diǎn)的位置,求解出物體姿態(tài),可以有效應(yīng)用于機(jī)械臂抓取。

    圖5 部分實(shí)驗(yàn)結(jié)果可視化Fig.5 Visualization of some experimental results

    4 結(jié)語

    本文在基于關(guān)鍵點(diǎn)的單目圖像物體6D 姿態(tài)估計(jì)方法中,對(duì)PVNet 網(wǎng)絡(luò)架構(gòu)以及關(guān)鍵點(diǎn)求解策略進(jìn)行了改進(jìn),在幾乎不增加網(wǎng)絡(luò)負(fù)擔(dān)、滿足機(jī)械臂抓取實(shí)時(shí)性要求下,通過加入融合通道空間注意力信息的CBAM 并采用一種可微的求解關(guān)鍵點(diǎn)方法,提升了網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果表明,本文方法在LINEMOD 數(shù)據(jù)集中ADD(-S)指標(biāo)提高了5.0 個(gè)百分點(diǎn),在Occlusion LINEMOD 數(shù)據(jù)集中ADD(-S)指標(biāo)提高了5.5 個(gè)百分點(diǎn),顯著提升了模型在遮擋場(chǎng)景下的單目RGB 圖像的物體6D 姿態(tài)估計(jì)的魯棒性,甚至可以媲美一些加了細(xì)化網(wǎng)絡(luò)的方法。

    但是在研究過程中還存在一些問題,例如對(duì)于對(duì)稱物體,輕量級(jí)網(wǎng)絡(luò)在學(xué)習(xí)過程中和遮擋場(chǎng)景下的關(guān)鍵點(diǎn)求解過程中未能充分有效利用其對(duì)稱信息,另外該方法依賴于真實(shí)數(shù)據(jù)集標(biāo)注,需要大量標(biāo)簽;因此,下一步工作的重點(diǎn)將會(huì)針對(duì)輕量級(jí)網(wǎng)絡(luò)下對(duì)稱物體關(guān)鍵點(diǎn)求解策略以及在無標(biāo)簽場(chǎng)景下采用無監(jiān)督方式對(duì)單目圖像進(jìn)行物體6D 姿態(tài)估計(jì)。

    猜你喜歡
    關(guān)鍵點(diǎn)投影姿態(tài)
    聚焦金屬關(guān)鍵點(diǎn)
    肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
    解變分不等式的一種二次投影算法
    攀爬的姿態(tài)
    基于最大相關(guān)熵的簇稀疏仿射投影算法
    找投影
    找投影
    全新一代宋的新姿態(tài)
    汽車觀察(2018年9期)2018-10-23 05:46:40
    跑與走的姿態(tài)
    醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
    南木林县| 宜春市| 巫溪县| 孟津县| 湄潭县| 清原| 阜康市| 江都市| 上蔡县| 辽中县| 永嘉县| 扶风县| 洪湖市| 华蓥市| 亳州市| 安福县| 中牟县| 伊吾县| 崇阳县| 平遥县| 潜山县| 望都县| 咸阳市| 高阳县| 凤凰县| 宁陕县| 阿拉善盟| 正阳县| 汝南县| 广昌县| 宜川县| 遵化市| 滦平县| 南投市| 晋中市| 承德县| 宝清县| 顺平县| 昌都县| 涞源县| 海口市|