• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于單目視覺的類別級六自由度位姿估計方法?

    2023-11-21 06:17:34史金龍茅凌波
    計算機(jī)與數(shù)字工程 2023年8期
    關(guān)鍵詞:位姿實例類別

    郭 凌 史金龍 茅凌波

    (江蘇科技大學(xué)計算機(jī)學(xué)院 鎮(zhèn)江 212000)

    1 引言

    物體6D 位姿估計技術(shù)具有很高的研究價值,其中6D是指沿X、Y、Z三個直角坐標(biāo)軸方向的旋轉(zhuǎn)與平移,位姿決定了物體在攝像機(jī)中心坐標(biāo)系下的三維位置與姿態(tài)。近年來,該技術(shù)在越來越多的領(lǐng)域中發(fā)揮著至關(guān)重要的作用,如:虛擬現(xiàn)實[1]、無人機(jī)[2]、智能機(jī)器人[3]等。

    由于6D 位姿估計任務(wù)的復(fù)雜性,目前主流的方法主要致力于實例級物體的位姿估計[4~6]?!皩嵗壩蛔斯烙嫛笔侵赶到y(tǒng)需預(yù)先獲得目標(biāo)的CAD 模型才能對目標(biāo)進(jìn)行位姿估計,與之對應(yīng)的是“類別級位姿估計”,是指系統(tǒng)可以對已知類別中未知CAD模型的實例估計位姿。

    目前,已有的不需要CAD 模型的類別級位姿估計技術(shù)通常應(yīng)用于室外場景,文獻(xiàn)[7~8]利用雷達(dá)、激光獲取深度信息,做到在室外環(huán)境下檢測行人類與車輛類。然而由于室外場景的天然屬性,系統(tǒng)可忽略對于目標(biāo)在Z 軸上的平移與旋轉(zhuǎn)信息,實際上得到的是物體的4D 位姿,而對于機(jī)器人抓取所面對的桌面級別的目標(biāo)對象,該類方法并不適用。

    目前現(xiàn)有的方法中,文獻(xiàn)[9]利用同類物體3D骨架結(jié)構(gòu)不變性,對給定類別的實例提取的局部特征進(jìn)行學(xué)習(xí),通過圖匹配算法提高算法泛化能力,實現(xiàn)類別級物體的位姿估計。NOCS[10]、CASS[11]均將同一類別的所有實例規(guī)定到統(tǒng)一的形狀空間中,從而獲得同一類別的模板表示方法,再通過網(wǎng)絡(luò)訓(xùn)練將實例與類模板匹配,最終回歸位姿。然而這幾種類別級6D位姿估計算法均要使用深度或點云信息,而這些信息并不總是易于獲得的,比如:在增強(qiáng)現(xiàn)實的應(yīng)用中,普通的平板電腦或手機(jī)等硬件設(shè)備不具備獲取深度信息的能力。

    對目前的問題總結(jié)如下:1)目前位姿估計技術(shù)通常針對實例級物體;2)針對類別級物體,主要實現(xiàn)的是室外4D 位姿估計;3)在某些場景下深度信息不易獲得。鑒于此,本文設(shè)計了一種基于單目視覺的類別級6D 位姿估計算法,僅利用二維圖像對目標(biāo)進(jìn)行類別級的識別與檢測,并得到類別模型,再融合單目深度估計技術(shù),結(jié)合點云配準(zhǔn)最終實現(xiàn)對類別級物體估計6D位姿。

    通過對公共類別級數(shù)據(jù)集的評估,表明本文提出的方法能在單目情況下具有精準(zhǔn)的對物體的檢測識別定位能力,且能較好地完成對類級別物體6D位姿估計。

    2 本文方法

    2.1 網(wǎng)絡(luò)結(jié)構(gòu)

    圖1 展示了本文方法的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)僅通過輸入單張RGB 圖像,就能實現(xiàn)針對類別級物體的檢測識別、實例分割、尺寸估計和6D位姿估計。為更清晰地介紹網(wǎng)絡(luò)結(jié)構(gòu),將網(wǎng)絡(luò)分為三個模塊,分別是:圖1(a)標(biāo)準(zhǔn)化模型點云生成模塊、圖1(b)單目深度估計模塊、圖1(c)位姿估計模塊。

    2.1.1 標(biāo)準(zhǔn)化模型點云生成模塊

    該模塊結(jié)構(gòu)如圖1(a)所示,輸入為二維圖像,輸出為圖像中多目標(biāo)的類別標(biāo)簽、實例分割掩膜和標(biāo)準(zhǔn)化預(yù)測模型點云P?!皹?biāo)準(zhǔn)化”是指將同一個類別下的所有實例的三維坐標(biāo)歸一化到[1,1,1]的空間中,且將每個實例的方向統(tǒng)一為與ShapeNetCore[12]數(shù)據(jù)集中模型相同的方向。標(biāo)準(zhǔn)化模型點云生成模塊框架具體描述如下。

    第一步,輸入一張RGB圖像,經(jīng)過一個VGG卷積模塊得到特征圖;

    第二步,根據(jù)候選區(qū)域生成算法(Region Proposal Network,RPN)[13]得到多個感興趣區(qū)域(Region of Interest,ROI),最終回歸ROI候選框,并映射得到ROI特征圖。

    第三步,利用ROI 對齊(ROI Align)操作,將多個大小不一的ROI 特征圖轉(zhuǎn)化為固定尺寸的特征圖。

    第四步,該模塊經(jīng)過三個網(wǎng)絡(luò)分支最終輸出三部分信息:類別與邊框、實例掩膜、標(biāo)準(zhǔn)化模型點云P。在三個網(wǎng)絡(luò)分支中,除全連接層外,卷積核均為3×3,反卷積核均為2×2,步長均為2。在預(yù)測類別與邊框分支中,將7×7×256 的特征圖輸入全連接層,分別對每一個ROI圖像回歸類別與邊框。在預(yù)測實例掩膜分支中,ROI圖像對齊后,經(jīng)過8個連續(xù)的卷積,得到14×14×256 的特征圖,再通過反卷積得到最終的掩膜。在預(yù)測標(biāo)準(zhǔn)化模型點云分支中,經(jīng)ROI 圖像對齊后,分別預(yù)測各對象的X、Y、Z 坐標(biāo),輸出為28×28×N 的張量,其中N 為對象個數(shù)。最終通過后處理,得到預(yù)測的標(biāo)準(zhǔn)化模型點云P。

    2.1.2 單目深度估計模塊

    本文提出的網(wǎng)絡(luò)結(jié)構(gòu)融合了單目深度估計模型,如圖1(b)所示。該模型基于ResNet[14]架構(gòu),首先,將圖像進(jìn)行四次下采樣,得到尺寸為原圖像1/32 的圖像;接著,對前四層進(jìn)行跳躍連接,利用多尺度特征融合(Feature Pyramid Network,F(xiàn)PN)以獲得更多層次的語義信息,同時對其進(jìn)行上采樣,直到將其放大到原圖像尺寸;最后,利用一個自適應(yīng)模塊得到最終的深度圖,該模塊由兩個通道數(shù)分別為128和1的卷積層以及一個雙線性插值層組成。

    2.1.3 位姿估計模塊

    該模塊結(jié)構(gòu)如圖1(c)所示,將2.1.2 節(jié)中得到的深度圖與2.1.1 節(jié)中得到的實例掩膜對齊,重建后得到目標(biāo)實例的局部點云Q。具體的深度圖轉(zhuǎn)化點云過程如式(1)。

    其中,[μ,ν]是圖像中的像素坐標(biāo),Z是深度值,fx、fy分別是相機(jī)在x 軸與y 軸的焦距,[σx,σy]是圖像的中心坐標(biāo),[X,Y,Z] 是對應(yīng)點的三維坐標(biāo)。

    根據(jù)標(biāo)準(zhǔn)化模型點云P 與實例的局部點云Q,利用Umeyama 算法[15]進(jìn)行點云配準(zhǔn),具體算法如式(2)。計算一組旋轉(zhuǎn)與平移矩陣[R|T]使目標(biāo)函數(shù)F達(dá)到最優(yōu)。其中R為3×3 的矩陣,T為3×1 的向量。Pm為標(biāo)準(zhǔn)化模型點云上的第m 個點,Qm為局部點云Q 上的第m 個點。c 為縮放比例,M 為點對總數(shù)(m=1,2,…,M)。

    2.2 損失函數(shù)設(shè)計

    2.2.1 標(biāo)準(zhǔn)化模型點云生成模塊

    在該模塊中損失函數(shù)L1如式(3)~(7)所示,其中Lcls表示對目標(biāo)進(jìn)行標(biāo)簽識別時造成的損失,Lreg表示邊框回歸時造成的損失,Lmask表示掩膜預(yù)測部分造成的損失,Lpre表示預(yù)測目標(biāo)對象在三維空間中的標(biāo)準(zhǔn)化點云時造成的損失。

    其中pi是預(yù)測的目標(biāo)概率,當(dāng)預(yù)測值為正樣本時,=?1,當(dāng)預(yù)測值為負(fù)樣本時=0。

    其中ti={tx,ty,tu,tv} 是一個向量,(tx,ty)表示包圍框的中心點坐標(biāo),tu,tv分別表示包圍框的寬和高,為對應(yīng)的基準(zhǔn)值。

    在預(yù)測分割掩膜時,若像素包含目標(biāo),則qi=1,否則為0,q*i為對應(yīng)的基準(zhǔn)值。

    其中oi為目標(biāo)模型的逐像素的三維坐標(biāo)預(yù)測值,為對應(yīng)的基準(zhǔn)值,oi?R3,?R3。上述公式中i為像素點的索引。

    2.2.2 單目深度估計模塊

    在該模塊中對于一張輸入圖像I,在圖像中隨機(jī)采樣K 個點對(dk,ek),損失函數(shù)L2用來衡量點對之間的相對距離如式(8),其中K?{1,2,…k}。(dk,ek)表示第k 個點對,?k代表第k 個點對的前后順序關(guān)系,?k?{+1,-1,0},分別用來表示ek距離dk“更遠(yuǎn)”、“更近”、“相同”。z為估計的相對深度。

    3 實驗與結(jié)果

    3.1 實驗細(xì)節(jié)

    本文實驗在Pytorch 中實現(xiàn)了文中所述方法,并使用ADAM優(yōu)化器在Nvidia GPU上訓(xùn)練,型號為GTX-2080Ti。在網(wǎng)絡(luò)訓(xùn)練階段,由在COCO數(shù)據(jù)集上進(jìn)行2D實例分割任務(wù)所得的訓(xùn)練權(quán)重對本文模型進(jìn)行初始化,設(shè)置初始學(xué)習(xí)率為0.001,批大小設(shè)置為2。

    3.2 數(shù)據(jù)集

    實驗在NOCS 數(shù)據(jù)集上完成,該數(shù)據(jù)集是目前在研究類級別位姿估計領(lǐng)域運(yùn)用最廣泛且數(shù)據(jù)量最大的數(shù)據(jù)集,其由兩部分組成:1)結(jié)合真實世界渲染后的合成數(shù)據(jù)集;2)拍攝于真實場景的數(shù)據(jù)集。

    3.3 評價指標(biāo)

    本文使用兩種維度的評價指標(biāo):1)聯(lián)合交集3D IoU(Intersection over Union)為50%時的平均精度。3D IoU 表示真實包圍框與網(wǎng)絡(luò)預(yù)測包圍框之間的三維重疊部分在二者總區(qū)域的占比;2)在規(guī)定的旋轉(zhuǎn)、平移誤差下的平均精度,旋轉(zhuǎn)誤差ER與平移誤差ET分別可用式(9)~(10)表示,其中Tr表示模型繞中心軸的軌跡,R*為旋轉(zhuǎn)的基準(zhǔn)值,R為預(yù)測值,T*為平移的基準(zhǔn)值,T為與預(yù)測值。

    3.4 實驗結(jié)果分析

    為更模擬實際工業(yè)生產(chǎn)環(huán)境,選擇在真實場景的數(shù)據(jù)集測試。各類物體在不同閾值的3DIoU 下的平均精度如圖2(a)所示,3DIoU 指標(biāo)反映了三維檢測效果和目標(biāo)尺寸估計效果。本文算法在3DIoU 等于50%時,平均精度達(dá)到85.6%。在3DIoU 小于50%時,數(shù)據(jù)集中的筆記本、相機(jī)等類別表現(xiàn)出色,由此說明本文方法對于系統(tǒng)未知CAD 模型的實例有較好的三維檢測效果與目標(biāo)尺寸估計效果。

    各類物體在不同閾值的旋轉(zhuǎn)誤差、平移誤差下的平均精度如圖2(b)、(c)所示,該圖反映了6D 位姿估計效果。當(dāng)平移誤差小于5cm 時,平均精度達(dá)到89.2%,旋轉(zhuǎn)誤差小于10°時,平均精度達(dá)到21.4%。6D 位姿估計算法普遍對于平移誤差容忍度高,而旋轉(zhuǎn)誤差對最終位姿估計結(jié)果影響較大。對于瓶子、碗和罐頭這類對稱的物體類別,算法允許預(yù)測的3D 包圍框圍繞對象Z 軸自由旋轉(zhuǎn),而不受懲罰。

    3.5 實驗結(jié)果對比

    首先定義一種基準(zhǔn)算法,選取Mask R-CNN[13]來預(yù)測目標(biāo)對象的實例掩模圖,再通過與深度圖的映射關(guān)系得到目標(biāo)對象的3D 點云,最終利用ICP算法[15]對目標(biāo)對象的點云進(jìn)行校準(zhǔn),實現(xiàn)實例級6D 姿態(tài)估計。將本文算法與基準(zhǔn)算法、NOCS算法對比,見表1。本文提出的網(wǎng)絡(luò)取得的結(jié)果比基準(zhǔn)算法更好,且能實現(xiàn)對于網(wǎng)絡(luò)未知CAD 模型的實例進(jìn)行判別的任務(wù)。平均精度與NOCS 相比,后者效果更好,但是NOCS 需要利用深度傳感器獲取深度信息,而本文提出的算法在滿足工業(yè)實際抓取的精度要求的同時,只需單張二維圖像即可得到位姿,降低了生產(chǎn)成本,可用性更強(qiáng)。

    表1 與兩種方法的比較結(jié)果

    3.6 結(jié)果展示

    為了更直接地觀察到本文方法的6D 位姿估計效果,實驗中在真實場景數(shù)據(jù)集與合成數(shù)據(jù)上分別做測試,實驗結(jié)果如圖3(a)、(b)所示,圖中第一列為基準(zhǔn)值,第二列為預(yù)測值,第三列為深度估計結(jié)果。

    圖3 定性結(jié)果展示

    本文方法在僅輸入RGB 圖像的情況下,可以在雜亂的背景中排除干擾物體對目標(biāo)進(jìn)行識別檢測,由圖3 可以觀察到目標(biāo)物體均在回歸得到的三維目標(biāo)包圍框中,且包圍框的位置朝向及向量軸均可確定目標(biāo)物體的姿態(tài)。尤其在非對稱物體的位姿估計中,如圖中的馬克杯這一類物體,紅色向量大致朝向馬克杯的把手,這便于機(jī)器人抓取等任務(wù)的實現(xiàn)。對于相機(jī)這一類別包含多種實例的情況,圖中長鏡頭相機(jī)和微單相機(jī)都正確地被三維目標(biāo)檢測框包圍,反映本類級別物體位姿估計算法魯棒性好的特點。

    4 結(jié)語

    針對實際工業(yè)場景下可能出現(xiàn)的兩種問題:1)無法預(yù)先獲取目標(biāo)準(zhǔn)確的CAD 模型;2)無法獲取深度圖。設(shè)計了新的類別級位姿估計方法,并將深度估計與其融合,實現(xiàn)僅輸入單張二維圖像,就能對網(wǎng)絡(luò)訓(xùn)練中未見過的實例進(jìn)行目標(biāo)識別分類及6D 位姿估計的任務(wù)。通過在真實場景數(shù)據(jù)集的測試并與最新的類別級位姿估計技術(shù)的比較,結(jié)果表明本文所提算法效果比較理想,且魯棒性強(qiáng)。

    猜你喜歡
    位姿實例類別
    基于共面直線迭代加權(quán)最小二乘的相機(jī)位姿估計
    基于CAD模型的單目六自由度位姿測量
    小型四旋翼飛行器位姿建模及其仿真
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    完形填空Ⅱ
    完形填空Ⅰ
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    基于幾何特征的快速位姿識別算法研究
    聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
    长宁县| 垦利县| 康马县| 武清区| 大安市| 邵阳县| 宜君县| 石家庄市| 石屏县| 尚义县| 胶南市| 瑞丽市| 康定县| 阳新县| 云南省| 浦江县| 德清县| 台北市| 中方县| 曲靖市| 廊坊市| 福海县| 藁城市| 衡南县| 南丹县| 海丰县| 达拉特旗| 兴安盟| 山东| 凉山| 寻乌县| 巧家县| 那坡县| 城市| 衡阳市| 莒南县| 肃北| 滨海县| 剑川县| 赤峰市| 临颍县|