• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于可變形注意力機(jī)制的多模態(tài)3D目標(biāo)檢測(cè)算法韓邦彥

      2024-10-10 00:00:00田青
      軟件工程 2024年10期
      關(guān)鍵詞:注意力模態(tài)特征

      關(guān)鍵詞:3D目標(biāo)檢測(cè);多模態(tài)融合;可變形注意力機(jī)制

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

      0 引言(Introduction)

      3D目標(biāo)檢測(cè)是自動(dòng)駕駛等領(lǐng)域的核心技術(shù),旨在準(zhǔn)確地輸出三維空間中物體的位置坐標(biāo)和類別信息,為車輛感知環(huán)境和規(guī)劃路徑提供了基礎(chǔ)[1]。

      現(xiàn)有的3D目標(biāo)檢測(cè)算法根據(jù)輸入數(shù)據(jù)的不同來源,可以分為3類:基于圖像的算法[2]、基于激光點(diǎn)云的算法[3]以及融合了激光點(diǎn)云和圖像的方法[4]。相機(jī)圖像具有豐富的色彩和紋理信息,但是無法提供準(zhǔn)確的距離信息,同時(shí)在惡劣天氣、夜晚環(huán)境中其性能可能會(huì)受到較大的影響。激光點(diǎn)云具有精確的位置信息,但語義信息不豐富。近年來,基于融合的方法展現(xiàn)出了獨(dú)特的優(yōu)越性,可以集合兩種模態(tài)數(shù)據(jù)的優(yōu)點(diǎn),從而獲得準(zhǔn)確性更高、魯棒性更強(qiáng)的檢測(cè)結(jié)果。

      因此,本文選擇基于融合的3D目標(biāo)檢測(cè)方法作為研究對(duì)象,旨在進(jìn)一步挖掘并提升其在目標(biāo)檢測(cè)精度和魯棒性方面的潛力。

      1 融合點(diǎn)云和圖像的3D目標(biāo)檢測(cè)算法(3D objectdetection algorithm fusing point cloud and image)

      基于點(diǎn)云和圖像融合的方法可以分為3類:前融合(earlyfusion)、特征融合(feature fusion)及決策融合(decisionfusion)。前融合在數(shù)據(jù)預(yù)處理階段進(jìn)行融合,Point Painting[4]將點(diǎn)云投影到語義分割后的圖像上,為點(diǎn)云添加類別信息。特征融合分別提取不同模態(tài)的特征,在特征層面進(jìn)行融合。MV3D(多視點(diǎn)三維網(wǎng)絡(luò))[5]從鳥瞰圖生成3D目標(biāo)候選框,通過ROI(感興趣區(qū)域)池化將鳥瞰圖、前視圖和圖像的特征融合。TransFusion[6]使用Object Query從點(diǎn)云BEV(鳥瞰圖)特征生成初始3D邊界框,然后利用Tansformer解碼層與圖像特征進(jìn)行融合。BEVFusion[7]將點(diǎn)云特征和圖像特征都轉(zhuǎn)換到BEV空間下進(jìn)行融合,在BEV特征上輸出最終結(jié)果。決策融合在結(jié)果層面進(jìn)行融合,如CLOCs(具有局部感知上下文的跨層融合)[8]通過現(xiàn)有的2D和3D檢測(cè)網(wǎng)絡(luò)獲得候選對(duì)象,然后對(duì)這些候選對(duì)象進(jìn)行處理,生成融合的檢測(cè)結(jié)果。

      前融合在低級(jí)語義層面融合數(shù)據(jù),但這種方法容易產(chǎn)生較大的對(duì)齊噪聲,并且未能充分利用圖像的語義信息;決策融合的性能會(huì)在不同傳感器的結(jié)果存在較大差異時(shí)顯著下降。因此,目前主流融合點(diǎn)云和圖像的3D目標(biāo)算法主要采用特征融合的方式。然而,特征融合也存在一些問題,如相機(jī)標(biāo)定不準(zhǔn)時(shí),會(huì)出現(xiàn)特征對(duì)齊誤差。近年來,針對(duì)特征融合中存在的問題,許多學(xué)者進(jìn)行了改進(jìn)。AutoAlign系列算法[9-10]、DeepFusion[11]等使用交叉注意力機(jī)制對(duì)每個(gè)圖像特征和體素特征進(jìn)行交互,能在一定范圍內(nèi)自動(dòng)對(duì)齊特征;DeepInteraction[12]同時(shí)保持兩種模態(tài)的特征,在特征學(xué)習(xí)和解碼器中進(jìn)行交互,最大化不同特征的互補(bǔ)效果;CMT[13]在圖像和點(diǎn)云特征上加入由坐標(biāo)生成的位置編碼,自主學(xué)習(xí)不同模態(tài)數(shù)據(jù)位置的對(duì)應(yīng)關(guān)系。

      為了解決上述問題,本文提出了并行融合模塊,旨在改善對(duì)齊誤差,并通過可學(xué)習(xí)權(quán)重比例生成融合特征。同時(shí),考慮到點(diǎn)云數(shù)據(jù)的稀疏性,本文還提出了掩碼特征增強(qiáng)模塊,以提高受遮擋物體及小目標(biāo)的檢測(cè)準(zhǔn)確率。

      2 算法描述(Algorithm description)

      近年來,基于注意力機(jī)制的目標(biāo)檢測(cè)算法逐漸流行,這類算法利用其全局感知的能力,有效地提高了檢測(cè)準(zhǔn)確度。然而,傳統(tǒng)注意力機(jī)制需要與全局所有特征進(jìn)行交互,導(dǎo)致計(jì)算量大、收斂時(shí)間慢。為解決這一問題,ZHU 等[14]提出了可變形注意力模塊,不同于普通注意力機(jī)制進(jìn)行全局特征交互,可變形注意力機(jī)制在參考點(diǎn)周圍自適應(yīng)地選擇K 個(gè)關(guān)鍵點(diǎn)的計(jì)算結(jié)果,提高了運(yùn)算效率,顯著縮短了訓(xùn)練時(shí)間。同時(shí),由于計(jì)算復(fù)雜度降低,所以可以使用多尺度特征進(jìn)行注意力計(jì)算。可變形注意機(jī)制的計(jì)算公式為

      本文提出的算法使用可變形注意力機(jī)制提取融合特征,總體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先使用兩個(gè)獨(dú)立的骨干網(wǎng)絡(luò)提取多視角圖像和點(diǎn)云的特征,其次輸入連續(xù)6個(gè)編碼層。每個(gè)編碼層中包含并行融合模塊和掩碼特征增強(qiáng)模塊,以BEV Query的形式與兩種模態(tài)的特征進(jìn)行交互,將特征聚合到統(tǒng)一的鳥瞰圖視角下,通過無錨框的檢測(cè)頭輸出預(yù)測(cè)的3D邊界框信息。

      輸入數(shù)據(jù)為雙目彩色相機(jī)和激光雷達(dá)點(diǎn)云數(shù)據(jù)。點(diǎn)云數(shù)據(jù)(x,y,z)坐標(biāo)范圍是[0,70.4] m×[-40,40] m×[-3,1] m,使用SECOND[17]網(wǎng)絡(luò)提取特征,以0.05 m×0.05 m×4 m的大小進(jìn)行體素化,然后進(jìn)行稀疏卷積,輸出激光點(diǎn)云BEV特征圖大小為200×176。彩色相機(jī)分辨率為1 224×370,經(jīng)過ResNet+FPN 提取特征,輸出多尺度特征圖,大小分別為(H/4)×(W/4),(H/8)×(W/8),(H/16)×(W/16),(H/32)×(W/32)。學(xué)習(xí)率為1e-2,訓(xùn)練80個(gè)周期。

      3.3 結(jié)果與分析

      為了驗(yàn)證提出的并行特征融合模塊和掩碼特征增強(qiáng)模塊的有效性,在KITTI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),選擇車輛目標(biāo)與基線網(wǎng)絡(luò)CenterPoint[19]進(jìn)行比較,結(jié)果如表1所示。在KITTI數(shù)據(jù)集上,本文方法與近年來一些具有影響力的模型進(jìn)行了性能比較,比較結(jié)果如表2所示。本文方法的檢測(cè)效果如圖4所示。

      首先,單獨(dú)添加了并行融合模塊,相對(duì)于基準(zhǔn)網(wǎng)絡(luò)引入了額外的圖像特征信息。并行融合的模式更充分地保留了點(diǎn)云和圖像兩種模態(tài)的特征,其中點(diǎn)云提供了準(zhǔn)確的位置信息,而圖像則提供了顏色、紋理等視覺信息。同時(shí),使用可變形注意力機(jī)制使得兩種模態(tài)的特征圖可以在一定范圍內(nèi)自適應(yīng)融合,減少了對(duì)齊誤差。在車輛目標(biāo)上,研究人員觀察到在表1中只加入PFF模塊與基準(zhǔn)網(wǎng)絡(luò)相比,對(duì)于Easy、Mod、Hard的AP3D0.7分別提升了5.95百分點(diǎn)、6.57百分點(diǎn)、7.09百分點(diǎn),APBEV0.7分別提升了2.69百分點(diǎn)、2.09百分點(diǎn)、2.84百分點(diǎn),表現(xiàn)出較為明顯的改進(jìn)效果。

      其次,研究人員進(jìn)一步加入了掩碼特征增強(qiáng)模塊。該模塊根據(jù)前景分割圖對(duì)BEV特征圖進(jìn)行多尺度融合,并使得稀疏的特征圖變得更為密集。這樣做不僅對(duì)受遮擋物體缺失的特征有一定程度的彌補(bǔ),而且對(duì)Mod和Hard難度的車輛目標(biāo)檢測(cè)結(jié)果有了一定程度的提升。在表1中,研究人員觀察到,同時(shí)加入PFF模塊和MFA模塊與只加入PFF模塊相比,在3種難度下,AP3D0.7分別提高了0.49百分點(diǎn)、0.70百分點(diǎn)、0.54百分點(diǎn),APBEV0.7分別提升了1.24百分點(diǎn)、1.44百分點(diǎn)、1.53百分點(diǎn)。

      4 結(jié)論(Conclusion)

      本文提出了一種融合激光點(diǎn)云和圖像融合3D目標(biāo)檢測(cè)算法。通過并行融合模塊對(duì)不同模態(tài)特征進(jìn)行交互,同時(shí)保留兩種特征信息,能夠自適應(yīng)地學(xué)習(xí)不同特征的融合范圍及分布比例,減小了特征對(duì)齊誤差。通過掩碼特征增強(qiáng)模塊突出前景區(qū)域信息,增強(qiáng)了BEV特征圖中受遮擋部分的特征強(qiáng)度,提升了多尺度檢測(cè)能力。在KITTI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,相較于基線網(wǎng)絡(luò),本文算法在檢測(cè)精度上有了顯著的提高,證明了改進(jìn)方法的有效性。

      作者簡介:

      韓邦彥(1999-),男,碩士生。研究領(lǐng)域:計(jì)算機(jī)視覺與目標(biāo)檢測(cè)。

      田 青(1984-),男,博士,教授。研究領(lǐng)域:人工智能與圖像處理。

      猜你喜歡
      注意力模態(tài)特征
      讓注意力“飛”回來
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      抓住特征巧觀察
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      國內(nèi)多模態(tài)教學(xué)研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
      由單個(gè)模態(tài)構(gòu)造對(duì)稱簡支梁的抗彎剛度
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      五常市| 兰溪市| 云龙县| 疏附县| 桃园县| 长顺县| 孝义市| 望江县| 白朗县| 朝阳市| 天柱县| 繁峙县| 邹平县| 红安县| 瑞丽市| 赤城县| 金寨县| 江陵县| 定结县| 循化| 宜君县| 泊头市| 呼和浩特市| 马山县| 兴业县| 博客| 车致| 娱乐| 关岭| 柯坪县| 塔城市| 西藏| 探索| 普兰县| 皋兰县| 宁南县| 潮州市| 灵璧县| 常宁市| 涟水县| 东兰县|