• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于特征融合和注意力機(jī)制的物體6D姿態(tài)估計(jì)算法

      2023-12-30 05:26:10高維東劉賢梅
      關(guān)鍵詞:特征提取姿態(tài)語義

      高維東,林 琳,劉賢梅,趙 婭

      (東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

      0 引 言

      基于視覺的物體6D姿態(tài)估計(jì)從圖像中檢測目標(biāo)物體,并估計(jì)其相對相機(jī)的位置姿態(tài)和旋轉(zhuǎn)姿態(tài),是視覺三維感知的核心問題之一,主要應(yīng)用于增強(qiáng)現(xiàn)實(shí)、自動駕駛和智能機(jī)器人抓取等領(lǐng)域。真實(shí)場景的復(fù)雜背景、目標(biāo)物體的弱紋理和小體積特性、物體間的相互遮擋,均給物體6D姿態(tài)估計(jì)帶來巨大挑戰(zhàn)。

      基于深度學(xué)習(xí)的物體6D姿態(tài)估計(jì)根據(jù)輸入的不同分為基于RGB圖像的物體6D姿態(tài)估計(jì)和基于RGBD圖像的物體6D姿態(tài)估計(jì),后者利用深度信息的幾何特征消除物體比例歧義和區(qū)分相似物體,在精度上有顯著優(yōu)勢。由于RGB圖像和D圖像屬于不同模態(tài),因此如何充分利用兩種不同模態(tài)數(shù)據(jù)進(jìn)行物體6D姿態(tài)估計(jì)是一個值得研究的問題。

      根據(jù)RGB圖像和D圖像使用方式的不同,基于RGBD圖像的物體6D姿態(tài)估計(jì)分為級聯(lián)的方法和融合的方法。早期工作多采用級聯(lián)設(shè)計(jì)發(fā)揮RGB圖像與D圖像的優(yōu)勢。PoseCNN[1]和SSD-6D[2]先使用CNN從RGB圖像提取姿態(tài)語義特征,預(yù)測物體初始姿態(tài),再對D圖像使用迭代最近點(diǎn)算法(Iterative Closest Point,ICP)完成姿態(tài)優(yōu)化。然而,ICP優(yōu)化姿態(tài)比較耗時,無法滿足對實(shí)時性有需求的應(yīng)用,同時,D圖像中的幾何特征未得到充分使用。融合的方法將具有互補(bǔ)特性的RGB圖像和D圖像融合,姿態(tài)特征的語義信息表達(dá)能力更強(qiáng),物體6D姿態(tài)估計(jì)精度更高、遮擋魯棒性更強(qiáng)。根據(jù)融合階段的不同,分為輸入融合、輸出融合和過程融合。

      輸入融合將RGB圖像與D圖像進(jìn)行簡單地拼接操作,組成四通道圖像后送入到CNN中同時提取外觀特征和幾何特征,具有充分利用數(shù)據(jù)的原始信息和計(jì)算量要求低的優(yōu)點(diǎn)。iPose(instance-aware pose estimation)[3]使用RGBD圖像編解碼網(wǎng)絡(luò)將物體像素映射到三維物體表面,計(jì)算物體6D姿態(tài)。然而由于兩種數(shù)據(jù)的異構(gòu)性,因此僅使用一個主干網(wǎng)絡(luò)很難同時有效提取目標(biāo)物體的外觀特征和幾何特征,并且,基于D圖像的CNN特征提取存在“投影分解”問題。在D圖像中,物理世界投影的三維結(jié)構(gòu)通過一維的深度值及圖像的二維像素坐標(biāo)保持,CNN中調(diào)整大小、翻轉(zhuǎn)和池化等操作會破壞深度值和二維像素坐標(biāo)的聯(lián)系,影響物體幾何特征的提取。

      點(diǎn)云的幾何特征較D圖像更加豐富,所以輸出融合和過程融合中均先將D圖像轉(zhuǎn)換為點(diǎn)云,再使用兩個獨(dú)立的主干網(wǎng)絡(luò)分別提取RGB圖像的外觀特征和點(diǎn)云的幾何特征。

      輸出融合將兩個主干網(wǎng)絡(luò)的決策輸出融合,再預(yù)測物體姿態(tài),是一種模塊化、靈活性高的方法。DenseFusion[4]、基于特征融合的6D目標(biāo)位姿估計(jì)算法[5]和PVN3D[6]等先分別提取密集的外觀特征和幾何特征,然后將兩種特征拼接融合,最后進(jìn)行姿態(tài)估計(jì)。由于卷積運(yùn)算的感受野有限,上述輸出融合的算法難以編碼目標(biāo)物體區(qū)域的長程依賴關(guān)系,導(dǎo)致姿態(tài)語義特征缺乏目標(biāo)物體的全局特征信息?;谖恢靡蕾嚨拿芗诤系?D位姿估計(jì)方法[7]通過編碼像素間的位置關(guān)系構(gòu)建目標(biāo)物體的長程依賴關(guān)系,增強(qiáng)算法辨識遮擋物的能力。但是輸出融合忽略了中間層不同特征的互補(bǔ)作用,如相似外觀的不同物體可以通過幾何特征分辨,因物體表面反射引起的深度缺失可以通過外觀特征補(bǔ)充。

      過程融合在整個特征提取過程中進(jìn)行融合,姿態(tài)特征的語義信息表達(dá)能力強(qiáng)。FFB6D(Full Flow Bidirectional Fusion Network for 6D Pose Estimation)[8]在RGB圖像和點(diǎn)云特征提取網(wǎng)絡(luò)之間構(gòu)建雙向融合模塊作為兩個網(wǎng)絡(luò)的通信橋梁,實(shí)現(xiàn)外觀特征與幾何特征的過程融合。然而FFB6D仍存在以下問題:(1)RGB圖像特征提取網(wǎng)絡(luò)的首個卷積塊僅負(fù)責(zé)通道調(diào)整,未抑制復(fù)雜背景;(2)FFB6D的RGB圖像特征提取網(wǎng)絡(luò)分支為編解碼結(jié)構(gòu),輸出的姿態(tài)語義特征缺乏目標(biāo)物體的細(xì)節(jié)外觀特征;(3)上下文信息存儲了目標(biāo)物體可見區(qū)域與遮擋區(qū)域的聯(lián)系,FFB6D使用池化金字塔模塊(Pyramid Pooling Module,PPM)[9]同等程度地增添全局上下文信息和區(qū)域上下文信息,然而由于目標(biāo)物體的大小不同、遮擋情況不同,因此這些上下文信息的重要程度也應(yīng)是不同的;(4)解碼器將編碼器學(xué)到的低分辨率的姿態(tài)語義特征上采樣至像素空間,FFB6D易將表面相似的物體誤判為目標(biāo)物體。這都導(dǎo)致了復(fù)雜背景下弱紋理小物體6D姿態(tài)估計(jì)精度較低和遮擋場景下算法魯棒性差。

      針對上述問題,該文在FFB6D基礎(chǔ)上,提出了一種基于特征融合和注意力機(jī)制的物體6D姿態(tài)估計(jì)算法,主要工作如下:(1)在RGB圖像特征提取網(wǎng)絡(luò)的首個卷積塊中添加卷積注意力模塊(Convolutional Block Attention Module,CBAM)[10],抑制復(fù)雜背景,增強(qiáng)目標(biāo)物體區(qū)域的顯著度;(2)使用跳躍連接將編碼階段的細(xì)節(jié)外觀特征拼接融合到解碼階段的姿態(tài)語義特征,考慮到淺層特征中存在一定的干擾特征,在跳躍連接中使用CBAM過濾干擾特征,增強(qiáng)顏色、紋理等細(xì)節(jié)外觀特征;(3)在PPM的末端拼接通道注意力模塊(Channel Attention Module,CAM)[10],自適應(yīng)地學(xué)習(xí)不同區(qū)域和不同尺度上下文信息的重要程度,提升遮擋魯棒性;(4)在RGB圖像特征提取網(wǎng)絡(luò)的末端添加CBAM,從通道域和空間域分別增強(qiáng)相似表面特征的區(qū)分度,從而降低相似物體對物體6D姿態(tài)估計(jì)的干擾。

      1 基于特征融合和注意力機(jī)制的物體6D姿態(tài)估計(jì)算法

      基于特征融合和注意力機(jī)制的物體6D姿態(tài)估計(jì)架構(gòu)圖如圖1所示,分別輸入RGB圖像和D圖像,主干網(wǎng)絡(luò)由RGB圖像特征提取網(wǎng)絡(luò)和點(diǎn)云特征提取網(wǎng)絡(luò)并聯(lián)而成,雙向融合模塊實(shí)現(xiàn)外觀特征與幾何特征的交互融合,將提取的密集姿態(tài)特征輸入到3D關(guān)鍵點(diǎn)檢測模塊和語義分割模塊,回歸每一個點(diǎn)到3D關(guān)鍵點(diǎn)的偏移,并為3D關(guān)鍵點(diǎn)投票,確定3D關(guān)鍵點(diǎn),最后使用最小二乘擬合算法計(jì)算物體6D姿態(tài)。

      圖1 基于特征融合和注意力機(jī)制的物體6D姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)

      相較FFB6D網(wǎng)絡(luò),文中算法在負(fù)責(zé)通道調(diào)整的的卷積塊后添加CBAM,實(shí)現(xiàn)復(fù)雜背景過濾和目標(biāo)物體區(qū)域顯著度增強(qiáng);在RGB圖像特征提取網(wǎng)絡(luò)上構(gòu)建基于CBAM的跳躍連接,充分利用姿態(tài)語義特征的同時最大限度地保留目標(biāo)物體的顏色、紋理等細(xì)節(jié)外觀特征;在PPM后添加CAM,通過對每個通道的特征進(jìn)行權(quán)重分配來學(xué)習(xí)不同通道間特征的相關(guān)性,加強(qiáng)重要特征上下文信息的權(quán)重;在RGB圖像特征提取網(wǎng)絡(luò)的末端添加CBAM,進(jìn)一步增大相似表面特征的區(qū)分度。

      1.1 基于CBAM的復(fù)雜背景過濾模塊

      CBAM是一種輕量級的混合注意力模塊,由CAM和空間注意力模塊(Spatial Attention Module,SAM)串聯(lián)而成,在通道域和空間域?qū)W⒂谖矬w6D姿態(tài)估計(jì)任務(wù)相關(guān)特征,如圖2“Convolutional Block Attention Module”部分所示。對于輸入特征圖(F∈RC×H×W),其中C,H,W分別為特征圖的通道數(shù)、高和寬,首先對特征圖進(jìn)行空間域的全局最大池化和全局均值池化,將池化后的結(jié)果送入到共享權(quán)重的MLP(Multi-Layer Perception),相加MLP得到的兩個結(jié)果后再經(jīng)過Sigmoid激活函數(shù)得到通道注意力權(quán)重(Mc),最后將F與Mc相乘,獲得通道注意力調(diào)整后的特征圖(F');對F'進(jìn)行通道域的全局最大池化和全局均值池化,拼接池化生成的兩個特征圖,再經(jīng)過卷積和Sigmoid,獲得空間注意力權(quán)重(Ms),最后將F'與Ms相乘,獲得空間注意力調(diào)整后的特征圖(F'')。通道注意力和空間注意力計(jì)算過程如公式(1)和(2)。

      圖2 基于CBAM的復(fù)雜背景過濾模塊

      Mc=σ(MLP(AvgPool(F))+

      MLP(MaxPool(F)))

      (1)

      Ms=σ(f7×7[AvgPool(F);MaxPool(F)])

      (2)

      其中,MLP為共享權(quán)重的多層感知機(jī),σ為Sigmoid激活函數(shù),f為卷積操作,“;”表示串行聯(lián)結(jié)。

      考慮到FFB6D的點(diǎn)云特征提取網(wǎng)絡(luò)的預(yù)處理層為全連接層,無法使用CBAM抑制復(fù)雜背景,因此該文僅在RGB圖像特征提取網(wǎng)絡(luò)添加基于CBAM的復(fù)雜背景過濾模塊,其具體流程如圖2所示。首先使用Conv調(diào)整輸入圖像的尺寸和通道數(shù),使其可傳入到基于ResNet34的編碼器,再使用CBAM抑制干擾特征,增強(qiáng)目標(biāo)物體區(qū)域的顯著度。

      1.2 基于CBAM的跳躍連接

      跳躍連接是一種常用于彌補(bǔ)編解碼結(jié)構(gòu)細(xì)節(jié)特征缺失的技術(shù),如點(diǎn)云分割網(wǎng)絡(luò)(RandLA-Net[11])。該網(wǎng)絡(luò)通過跳躍連接將線、角、面等細(xì)節(jié)幾何特征拼接到深層語義特征,使其具備高判別性。FFB6D的點(diǎn)云特征提取網(wǎng)絡(luò)分支由RandLA-Net主干部分構(gòu)成。然而,FFB6D的RGB圖像特征提取網(wǎng)絡(luò)分支并未采用跳躍連接,因此其輸出的特征缺乏目標(biāo)物體的細(xì)節(jié)外觀特征。

      該文使用類激活映射可視化FFB6D特征層,如圖3所示。圖3(a)框內(nèi)為目標(biāo)物體driller,分析圖3(b)至圖3(d)可知,除目標(biāo)物體所在區(qū)域,其他區(qū)域仍存在高亮。這表明RGB圖像編碼器輸出的特征仍存在干擾特征,因此若直接在FFB6D的RGB圖像特征提取網(wǎng)絡(luò)分支上構(gòu)建跳躍連接,引入目標(biāo)物體細(xì)節(jié)外觀特征的同時,干擾特征也被引入。

      圖3 FFB6D的RGB圖像特征提取網(wǎng)絡(luò)分支的特征映射圖

      受啟發(fā)于上述觀察分析,該文提出了基于CBAM的跳躍連接,首先將編碼階段輸出的特征傳入到CBAM,在CBAM抑制干擾特征后,跳躍連接再將處理后的特征傳入到解碼階段,與解碼階段輸出的特征進(jìn)行拼接融合,實(shí)現(xiàn)空間信息補(bǔ)充、細(xì)節(jié)外觀特征與姿態(tài)語義特征的融合。

      1.3 基于CAM的PPM

      上下文信息存儲了目標(biāo)物體可見區(qū)域與遮擋區(qū)域的聯(lián)系,針對性地增添上下文信息可更好地保留目標(biāo)物體姿態(tài)特征。

      基于CAM的PPM具體流程如圖4所示。左側(cè)模塊為PPM,該結(jié)構(gòu)先將特征圖劃分為1×1,2×2,3×3,6×6的子區(qū)域,然后分別在子區(qū)域內(nèi)全局平均池化,從而獲得不同尺度和不同區(qū)域的上下文信息,再使用1×1卷積對四個池化后的特征圖進(jìn)行降維,然后將四個結(jié)果分別上采樣至原始特征圖的尺寸,最后與原始特征圖進(jìn)行拼接。然而由于目標(biāo)物體的大小不同、遮擋情況不同,PPM這種同等程度地增添不同尺度和不同區(qū)域上下文信息的方式難以針對性地應(yīng)對遮擋問題。圖4右側(cè)模塊為CAM,CAM是CBAM的通道注意力模塊,通過全局最大池化和全局平均池化獲取PPM輸出特征圖的判別性特征和全局上下文特征,以此選取并增強(qiáng)含有重要區(qū)域上下文信息的特征通道,從而針對性地解決遮擋問題,使得算法更好地摒棄遮擋區(qū)域的干擾特征,保留目標(biāo)物體姿態(tài)語義特征,提升遮擋魯棒性。

      圖4 基于CAM的PPM

      1.4 基于CBAM的特征增強(qiáng)模塊

      基于CBAM的跳躍連接將編碼器每一階段的細(xì)節(jié)外觀特征傳送到解碼器,實(shí)現(xiàn)外觀細(xì)節(jié)特征與姿態(tài)語義特征的融合。然而當(dāng)復(fù)雜背景或遮擋物和目標(biāo)物體表面相似時,由于CBAM的特征分辨能力有限,基于CBAM的跳躍連接易將外觀相似的背景或遮擋物的細(xì)節(jié)外觀特征誤判為目標(biāo)物體特征,將其傳送至解碼器特征層,從而導(dǎo)致背景或遮擋物誤判為目標(biāo)物體。

      該文在RGB圖像特征提取網(wǎng)絡(luò)的末端添加CBAM,在深層姿態(tài)語義特征充分融合細(xì)節(jié)外觀特征后,CBAM結(jié)合深層語義特征的判別性,辨別外觀相似的干擾特征,實(shí)現(xiàn)相似表面干擾特征的抑制,從而提升物體姿態(tài)估計(jì)精度。

      1.5 損失函數(shù)

      文中算法的目標(biāo)是訓(xùn)練一個3D關(guān)鍵點(diǎn)檢測模塊,用于預(yù)測點(diǎn)到3D關(guān)鍵點(diǎn)的偏移,以及一個語義分割模塊和中心點(diǎn)投票模塊,用于實(shí)例級的語義分割。因此,該文使用一個多任務(wù)損失函數(shù)實(shí)現(xiàn)網(wǎng)絡(luò)的學(xué)習(xí),第一部分是關(guān)鍵點(diǎn)損失(Lkeypoint),第二部分是語義分割損失(Lsemantic),第三部分是中心點(diǎn)損失(Lcenter),整體的損失函數(shù)為L。

      (3)

      (4)

      其中,γ是注意力參數(shù),用于控制容易分類和難分類樣本的權(quán)重,ci是預(yù)測的第i個點(diǎn)屬于目標(biāo)物體類別的置信度,l是真實(shí)類別的one-hot表達(dá)。

      (5)

      (6)

      其中,λ1,λ2,λ3為平衡參數(shù)。

      2 實(shí)驗(yàn)及結(jié)果分析

      2.1 物體6D姿態(tài)數(shù)據(jù)集

      LINEMOD數(shù)據(jù)集[12]由13類大小不同的家居用品組成,包括ape,duck和benchvise等,每個家居用品圖像集包含約1 400張實(shí)拍圖像。每張實(shí)拍圖像均包含物體特性、環(huán)境等方面的影響因素,如弱紋理的目標(biāo)物體、復(fù)雜背景等,但不包含遮擋。大多數(shù)工作中,LINEMOD數(shù)據(jù)集中15%的圖像作為訓(xùn)練集,其余85%作為測試集。

      Occlusion LINEMOD數(shù)據(jù)集[13]以LINEMOD數(shù)據(jù)集的benchvise圖像集為基礎(chǔ),補(bǔ)充標(biāo)注了含遮擋的ape,can,cat,driller,duck,eggbox,glue,holepuncher等8類目標(biāo)物體的6D姿態(tài),共1 214張,用于彌補(bǔ)LINEMOD數(shù)據(jù)集缺乏目標(biāo)物體被遮擋情況圖像的問題。Occlusion LINEMOD數(shù)據(jù)集用于測試在LINEMOD數(shù)據(jù)集上訓(xùn)練的模型,檢驗(yàn)?zāi)P兔鎸φ趽鯐r的性能。

      由于僅使用LINEMOD數(shù)據(jù)集15%的實(shí)拍圖像難以訓(xùn)練一個精度高、遮擋魯棒性強(qiáng)的模型。因此,該文使用PVN3D的圖像合成策略擴(kuò)容LINEMOD數(shù)據(jù)集,分別合成70 000張無遮擋單目標(biāo)物體圖像和10 000張含遮擋單目標(biāo)物體圖像,兩部分合成圖像及LINEMOD數(shù)據(jù)集15%的實(shí)拍圖像共同構(gòu)成訓(xùn)練集。為檢驗(yàn)?zāi)P托阅?該文使用LINEMOD數(shù)據(jù)集的85%實(shí)拍圖像檢驗(yàn)?zāi)P驮趶?fù)雜背景中的性能和Occlusion LINEMOD數(shù)據(jù)集的全部實(shí)拍圖像檢驗(yàn)?zāi)P驮谡趽鯃鼍爸械男阅堋?/p>

      2.2 評價指標(biāo)

      該文分別使用ADD(-S)(average distance to the 3D(symmetric)model)[1]和FPS(Frames Per Second)對文中算法的精度和速度進(jìn)行評價。

      ADD(-S)是一種三維空間度量標(biāo)準(zhǔn),其中ADD針對非旋轉(zhuǎn)對稱的物體,ADD -S針對旋轉(zhuǎn)對稱物體,計(jì)算通過預(yù)測姿態(tài)和真值姿態(tài)轉(zhuǎn)換的模型頂點(diǎn)之間的平均距離,當(dāng)距離小于閾值時,姿態(tài)估計(jì)正確。最常用的閾值為模型直徑的10%,記作ADD(-S)-0.1d。平均距離計(jì)算公式如式(7)和式(8)。

      (7)

      (8)

      其中,x1和x2表示最接近點(diǎn)對。

      ADD(-S)精度計(jì)算公式如式(9)。

      (9)

      其中,Numpre表示正確姿態(tài)估計(jì)的數(shù)量,NumGT表示測試集圖像的數(shù)量。

      FPS是一種算法推理速度度量標(biāo)準(zhǔn),指物體6D姿態(tài)估計(jì)算法每秒處理圖像的幀數(shù)。

      2.3 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)使用基于NVIDIA GTX 2080Ti GPU的服務(wù)器,深度學(xué)習(xí)框架為PyTorch 1.6,編程語言為python 3.6。

      關(guān)鍵點(diǎn)方面,使用SIFT算法檢測物體的2D關(guān)鍵點(diǎn),然后將其提升至3D空間,最后使用最遠(yuǎn)點(diǎn)采樣算法選擇3D關(guān)鍵點(diǎn)的前8個為物體關(guān)鍵點(diǎn)[7]。

      在模型訓(xùn)練過程中,初始學(xué)習(xí)率設(shè)置為0.000 01,batchsize設(shè)置為2,epoch設(shè)置為25,γ設(shè)置為2,λ1,λ3設(shè)置為1,λ2設(shè)置為2,使用Adam優(yōu)化器,采用循環(huán)學(xué)習(xí)率更新策略(Cyclical Learning Rates,CyclicLR)。

      2.4 實(shí)驗(yàn)結(jié)果分析

      2.4.1 復(fù)雜背景中弱紋理物體6D姿態(tài)估計(jì)

      為驗(yàn)證算法在復(fù)雜背景下的優(yōu)越性,以ADD(-S)-0.1d為指標(biāo),將文中算法與物體6D姿態(tài)估計(jì)領(lǐng)域中的不同算法進(jìn)行對比,包括DeepIM(Deep Iterative Matching for 6D Pose Estimation)[14],PVNet(Pixel-wise Voting Network)[15],CDPN(Coordinates-based Disentangled Pose Network)[16],DPOD(6D Pose Object Detector and Refiner)[17],DenseFusion[4],文獻(xiàn)[18],G2L-Net(Global to Local Network)[19],PVN3D[6]和FFB6D[8]。表1為對比結(jié)果。

      表1 在LINEMOD數(shù)據(jù)集上各算法對比 %

      分析表1發(fā)現(xiàn),文中算法平均ADD(-S)為99.8%,相較FFB6D,平均精度提高了0.1百分點(diǎn),其中弱紋理小物體ape和duck的ADD -0.1d分別提高了0.5百分點(diǎn)和0.1百分點(diǎn),驗(yàn)證該算法可提升弱紋理小物體在復(fù)雜背景中的6D姿態(tài)估計(jì)精度。

      2.4.2 推理速度分析

      由表1可知,文中算法的推理速度為12 FPS,其中數(shù)據(jù)前向傳播65 ms,姿態(tài)計(jì)算18 ms,滿足智能機(jī)械人抓取和增強(qiáng)現(xiàn)實(shí)等應(yīng)用實(shí)時性的基本需求。

      對比表1中基于不同輸入的算法推理速度,除DeepIM算法外,其余基于RGB圖像的物體6D姿態(tài)估計(jì)算法的推理速度普遍快于基于RGBD圖像的算法,這是由于基于RGB圖像的算法僅需從RGB圖像提取姿態(tài)特征,因此推理速度較快。DeepIM推理速度較慢的原因是,在預(yù)測目標(biāo)物體初始6D姿態(tài)后,算法再迭代優(yōu)化目標(biāo)物體6D姿態(tài),這極大增加了算法每幀圖像的處理時間。

      分析基于RGBD圖像的物體6D姿態(tài)估計(jì)算法的推理速度。(1)DenseFusion和文獻(xiàn)[18]的網(wǎng)絡(luò)結(jié)構(gòu)相似,均先借助一個語義分割網(wǎng)絡(luò)分割出目標(biāo)物體區(qū)域,然后分別從RGB圖像和點(diǎn)云的目標(biāo)物體區(qū)域中提取外觀特征和幾何特征,最后融合兩種模態(tài)的特征,因此二者推理速度一致;(2)G2L-Net放棄使用推理速度較慢的語義分割網(wǎng)絡(luò),使用推理速度快的目標(biāo)檢測網(wǎng)絡(luò)YOLO v3標(biāo)注目標(biāo)物體區(qū)域,在定位目標(biāo)物體點(diǎn)云時,使用3D球形范圍搜索替代較慢的矩形范圍搜索,因此其推理速度得到提升;(3)上述三種算法的點(diǎn)云特征提取網(wǎng)絡(luò)分支的輸入為目標(biāo)物體區(qū)域的點(diǎn)云,而PVN3D輸入的點(diǎn)云為整個場景的點(diǎn)云,因此推理速度較慢;(4)FFB6D將PVN3D的點(diǎn)云提取網(wǎng)絡(luò)替換為更加輕量級的RandLA-Net,推理速度得到提升;(5)文中算法基于FFB6D,添加注意力機(jī)制和特征融合模塊,速度略有下降。

      2.4.3 遮擋場景中弱紋理物體6D姿態(tài)估計(jì)

      為驗(yàn)證算法在遮擋場景中的優(yōu)越性,以ADD(-S)-0.1d為指標(biāo),將文中算法與物體6D姿態(tài)估計(jì)領(lǐng)域中的不同算法進(jìn)行對比,包括文獻(xiàn)[20],HybridPose[21],文獻(xiàn)[22],PVN3D[6]和FFB6D[8]。表2為對比結(jié)果。

      表2 在Occlusion LINEMOD數(shù)據(jù)集上各算法對比 %

      分析表2發(fā)現(xiàn),文中算法平均ADD(-S)為73.4%,相較FFB6D,平均精度提高了7.8百分點(diǎn),達(dá)到了最高精度,且多種弱紋理物體精度均有提升,其中ape,cat,duck等弱紋理小物體的ADD -0.1d分別提升8百分點(diǎn)、9百分點(diǎn)和11.5百分點(diǎn),驗(yàn)證該算法較好地緩解了遮擋對弱紋理小物體精度的損害。

      在Occlusion LINEMOD數(shù)據(jù)集上,分析了遮擋與精度的關(guān)系,如圖5所示。相較FFB6D,在不同遮擋情況,文中算法的物體6D姿態(tài)估計(jì)精度均有提升,尤其在20%到30%遮擋區(qū)間,文中算法展現(xiàn)了良好的遮擋魯棒性,圖5也直觀地反映了文中算法遮擋魯棒性的提升。

      圖5 遮擋與精度關(guān)系

      2.5 消融實(shí)驗(yàn)

      為驗(yàn)證基于CBAM的復(fù)雜背景過濾模塊、基于CBAM的跳躍連接、基于CAM的PPM及基于CBAM的特征增強(qiáng)模塊對實(shí)驗(yàn)結(jié)果的影響,設(shè)計(jì)了消融實(shí)驗(yàn),逐步消除四個模塊與FFB6D進(jìn)行對比,根據(jù)模塊添加數(shù)量由多到少分別命名為模型1~模型4。實(shí)驗(yàn)在LINEMOD數(shù)據(jù)集和Occlusion LINEMOD數(shù)據(jù)集上進(jìn)行驗(yàn)證。消融結(jié)果見表3。

      表3 消融實(shí)驗(yàn)結(jié)果 %

      從表3可以發(fā)現(xiàn),在Occlusion LINEMOD數(shù)據(jù)集上,模型1(文中模型)的平均精度為73.34%,相較FFB6D提升了7.71百分點(diǎn),表現(xiàn)出較優(yōu)的遮擋魯棒性,驗(yàn)證了該文對算法遮擋魯棒性差的原因分析,也證明了所提出措施的可行性。值得注意的是,基于CBAM的跳躍連接、基于CAM的PPM和基于CBAM的特征增強(qiáng)模塊效果顯著,具體分析如下。

      (1)基于CBAM的跳躍連接對復(fù)雜背景中弱紋理物體6D姿態(tài)估計(jì)精度提升貢獻(xiàn)較大,在LINEMOD數(shù)據(jù)集上,模型4相較FFB6D提升了0.03百分點(diǎn)。究其原因,FFB6D網(wǎng)絡(luò)采用編解碼結(jié)構(gòu),編碼階段使用卷積網(wǎng)絡(luò)進(jìn)行連續(xù)多次下采樣,使得模型丟失大量顏色、紋理等細(xì)節(jié)特征,而解碼階段僅對深層姿態(tài)語義特征進(jìn)行上采樣,導(dǎo)致解碼階段的特征幾乎不含細(xì)節(jié)特征。然而,目標(biāo)物體處于不同的6D姿態(tài)時,其所呈現(xiàn)外觀也有所不同,因此在姿態(tài)語義特征中引入顏色、紋理等細(xì)節(jié)特征可指導(dǎo)算法更好地估計(jì)目標(biāo)物體6D姿態(tài)。

      (2)基于CAM的PPM對算法的遮擋魯棒性貢獻(xiàn)最大,在Occlusion LINEMOD數(shù)據(jù)集上,模型2相較模型3提升了3.78百分點(diǎn)?;贑AM的PPM根據(jù)目標(biāo)物體的大小和遮擋情況,自動獲取每個特征通道的重要程度,加強(qiáng)含有重要區(qū)域上下文信息的特征通道的權(quán)重,使算法更好地應(yīng)對多變的遮擋情況。

      (3)基于CBAM的特征增強(qiáng)模塊對復(fù)雜背景中弱紋理物體6D姿態(tài)估計(jì)精度提升貢獻(xiàn)最大,在LINEMOD數(shù)據(jù)集上,模型1(文中模型)相較模型2提升了0.04百分點(diǎn);對遮擋場景中物體6D姿態(tài)估計(jì)貢獻(xiàn)較大,在Occlusion LINEMOD數(shù)據(jù)集上,模型1(文中模型)相較模型2提升了3.02百分點(diǎn)。受限于CBAM的特征分辨能力,基于CBAM的跳躍連接將表面外觀相似的干擾特征誤判為目標(biāo)物體特征并將其與深層語義特征融合,因此,進(jìn)一步抑制復(fù)雜背景和遮擋物的干擾特征是有必要的?;贑BAM的特征增強(qiáng)模塊添加在RGB圖像特征提取網(wǎng)絡(luò)末端,結(jié)合深層姿態(tài)語義特征,從通道域和空間域分辨并抑制相似外觀的干擾特征,從而提升物體6D姿態(tài)估計(jì)精度。

      實(shí)驗(yàn)使用類激活映射分別在FFB6D、基于特征融合和注意力機(jī)制的物體6D姿態(tài)估計(jì)網(wǎng)絡(luò)的第一層、第五層和第九層進(jìn)行特征可視化,如圖6、圖7和圖8所示。

      圖6 第一層特征映射圖

      圖7 第五層特征映射圖

      圖8 第九層特征映射圖

      結(jié)合圖6發(fā)現(xiàn),圖6(b)相較圖6(a)特征圖更清晰,混影減少,這說明基于CBAM的復(fù)雜背景過濾模塊可實(shí)現(xiàn)復(fù)雜背景的過濾與目標(biāo)物體區(qū)域的增強(qiáng)。結(jié)合圖7發(fā)現(xiàn),圖7(a)特征圖雖保留了較多特征,但噪音較多,圖7(b)特征圖的噪音幾乎都被去除,這說明基于CAM的PPM有助于保留姿態(tài)語義特征。結(jié)合圖8發(fā)現(xiàn),圖8(a)特征圖在目標(biāo)物體區(qū)域和遮擋區(qū)域均存在高亮凸起,圖8(b)特征圖僅在目標(biāo)物體區(qū)域存在高亮凸起,這說明基于CBAM的特征增強(qiáng)模塊可抑制外觀相似物體的干擾。

      2.6 實(shí)驗(yàn)結(jié)果可視化

      該文選取FFB6D姿態(tài)預(yù)測失敗的Occlusion LINEMOD數(shù)據(jù)集的部分圖像,圖9(a)白框內(nèi)為目標(biāo)物體,其類別分別是ape,cat,driller,glue,holepuncher等。首先,使用文中算法計(jì)算物體6D姿態(tài),再結(jié)合物體的三維模型,將其重投影至原圖像,其投影結(jié)果用白色表示,如圖9(b)所示。由圖9可知,遮擋場景中,無論是小物體cat,duck還是大物體driller,glue和holepuncher,算法仍可準(zhǔn)確地預(yù)測姿態(tài),也驗(yàn)證該算法有較好的遮擋魯棒性。

      圖9 部分實(shí)驗(yàn)結(jié)果可視化

      3 結(jié)束語

      針對物體6D姿態(tài)估計(jì)易受真實(shí)場景的復(fù)雜背景、目標(biāo)物體的弱紋理和小體積特性、物體間相互的遮擋影響,使用基于CBAM的復(fù)雜背景過濾模塊提升目標(biāo)物體在復(fù)雜背景中的顯著度;使用基于CBAM的跳躍連接對深層姿態(tài)語義特征進(jìn)行顏色、紋理等細(xì)節(jié)外觀特征補(bǔ)充;使用基于CAM的PPM和基于CBAM的特征增強(qiáng)模塊突出目標(biāo)物體未被遮擋區(qū)域,提升遮擋魯棒性。實(shí)驗(yàn)結(jié)果表明,該算法在幾乎不增加網(wǎng)絡(luò)負(fù)擔(dān)的情況下,在LINEMOD數(shù)據(jù)集上,平均ADD(-S)-0.1d提高了0.1百分點(diǎn),在Occlusion LINEMOD數(shù)據(jù)集上,平均ADD(-S)-0.1d提高了7.8百分點(diǎn),提升了算法的遮擋魯棒性。由于增強(qiáng)現(xiàn)實(shí)和智能機(jī)器人抓取等領(lǐng)域的應(yīng)用多部署在存儲空間小和算力低的設(shè)備,因此,優(yōu)化模型體積和提升推理速度是下一步的研究重點(diǎn)。

      猜你喜歡
      特征提取姿態(tài)語義
      攀爬的姿態(tài)
      語言與語義
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      全新一代宋的新姿態(tài)
      汽車觀察(2018年9期)2018-10-23 05:46:40
      跑與走的姿態(tài)
      中國自行車(2018年8期)2018-09-26 06:53:44
      Bagging RCSP腦電特征提取算法
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      語義分析與漢俄副名組合
      什邡市| 乐东| 崇礼县| 阿拉尔市| 绩溪县| 贵溪市| 甘洛县| 长阳| 沿河| 丰台区| 高青县| 沙坪坝区| 尼木县| 弥勒县| 柯坪县| 乌兰县| 南宫市| 温泉县| 景谷| 尖扎县| 屏东县| 莎车县| 苍梧县| 广宗县| 加查县| 云阳县| 南召县| 安图县| 彭水| 丹阳市| 环江| 买车| 开远市| 岗巴县| 青川县| 修文县| 延庆县| 高淳县| 芜湖市| 包头市| 铜山县|