梁小芳 余華平
摘要:目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,由于2D目標(biāo)檢測(cè)技術(shù)自身的發(fā)展限制和近年來硬件技術(shù)的發(fā)展與應(yīng)用,3D目標(biāo)檢測(cè)技術(shù)逐步取得了較不錯(cuò)的成績(jī),并為目標(biāo)檢測(cè)技術(shù)打開了新的應(yīng)用領(lǐng)域,如AR/VR、自動(dòng)駕駛、文化遺產(chǎn)保護(hù)等。文中從2個(gè)方向,4個(gè)分支介紹近年來3D檢測(cè)技術(shù)領(lǐng)域的經(jīng)典架構(gòu)以及關(guān)鍵性知識(shí),簡(jiǎn)要分析了各架構(gòu)特點(diǎn),并對(duì)3D目標(biāo)檢測(cè)技術(shù)的發(fā)展做出總結(jié)與展望。
關(guān)鍵詞:目標(biāo)檢測(cè);深度學(xué)習(xí);激光雷達(dá)點(diǎn)云;圖像數(shù)據(jù);神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP399文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)01-0231-04
Abstract: Target detection is an important branch in the field of computer vision, Due to the limitations of the development of 2D target detection technology and the development and application of hardware technology in recent years,3D target detection technology has gradually achieved relatively good results and opened up new possibilities for target detection technology. The application areas of the company, such as AR/VR, autonomous driving, cultural heritage protection, etc. The article introduces the classic architecture and key knowledge in the field of 3D detection technology in recent years from 2 directions and 4 branches, briefly analyzes the characteristics of each architecture, and summarizes and prospects the development of 3D target detection technology.
Key words: target detection;deep learning;LIDAR point cloud; image data; neural network
1引言
在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測(cè)是近些年來引發(fā)各界關(guān)注的主要方向之一,其理論的進(jìn)步和在各大領(lǐng)域的廣泛應(yīng)用,很大程度上利用計(jì)算機(jī)視覺技術(shù)節(jié)約了對(duì)人力資源的消耗。目標(biāo)檢測(cè)需要識(shí)別出物體的位置和相應(yīng)類別信息,根據(jù)輸出結(jié)果的不同,分為2D目標(biāo)檢測(cè)和3D目標(biāo)檢測(cè)。與2D目標(biāo)檢測(cè)相比,3D目標(biāo)檢測(cè)包含物體的長(zhǎng)度、寬度、高度以及旋轉(zhuǎn)角度等信息,因此,實(shí)際應(yīng)用中,3D空間的目標(biāo)檢測(cè)具有更深遠(yuǎn)的意義,在AR/VR、遙感測(cè)繪、軍事勘察、無人駕駛、生物醫(yī)學(xué)檢測(cè)、文化遺產(chǎn)保護(hù)等領(lǐng)域,3D目標(biāo)檢測(cè)技術(shù)能很好體現(xiàn)自身優(yōu)勢(shì),從而完成相關(guān)任務(wù)。
2基于點(diǎn)云的3D目標(biāo)檢測(cè)
3D目標(biāo)檢測(cè)問題本質(zhì)上是三維點(diǎn)的劃分問題,而激光雷達(dá)點(diǎn)云是通過眾多無序數(shù)據(jù)點(diǎn)組成的集合進(jìn)行表達(dá)的。與單視圖和多視圖對(duì)比發(fā)現(xiàn),激光雷達(dá)點(diǎn)云中點(diǎn)的深度屬性能夠被直接測(cè)量,所以基于激光雷達(dá)點(diǎn)云的3D目標(biāo)檢測(cè)方式顯得更為直觀和精準(zhǔn),同時(shí)由于一般深度相機(jī)的視野問題,激光雷達(dá)點(diǎn)云可以更好地應(yīng)用于戶外環(huán)境下的大尺度場(chǎng)景。
關(guān)于點(diǎn)云數(shù)據(jù)的3D目標(biāo)檢測(cè)研究,目前國(guó)際上大致分為兩個(gè)方向,一個(gè)方向是將圖像數(shù)據(jù)和點(diǎn)云數(shù)據(jù)進(jìn)行融合,另一個(gè)方向則是僅以點(diǎn)云數(shù)據(jù)作為輸入。本章將從這兩個(gè)方向?qū)陙磔^優(yōu)秀模型進(jìn)行介紹。
2.1 激光雷達(dá)點(diǎn)云與圖像融合的3D目標(biāo)檢測(cè)
從信息論來看,多傳感器具有更多的互補(bǔ)信息,采用多模態(tài)的信息能夠很好地提高魯棒性和檢測(cè)準(zhǔn)確率。在3D目標(biāo)檢測(cè)中,將激光雷達(dá)點(diǎn)云和圖像信息進(jìn)行融合的主要方法為前融合(Early-Fusion)、中間層融合(Deep-Fusion)和后融合(Late-Fusion)。它們的簡(jiǎn)要流程如圖1所示。
Early-Fusion 指的是在對(duì)原始傳感器數(shù)據(jù)進(jìn)行提取特征任務(wù)之前對(duì)特征進(jìn)行融合。通常表現(xiàn)為將多個(gè)單獨(dú)的數(shù)據(jù)集處理成單一的特征向量,然后輸入到分類器中,再經(jīng)過深度學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn)邊框回歸。理論上,這種融合方法是多模態(tài)融合中效果最好的方法,因?yàn)榇藭r(shí)對(duì)應(yīng)的特征在現(xiàn)實(shí)中存在一定的索引關(guān)系和更少的特征抽象。但前融合技術(shù)通常不能很好地利用不同模態(tài)數(shù)據(jù)間的互補(bǔ)特性,并且前融合的原始數(shù)據(jù)經(jīng)常含有非常多的冗余信息。所以,前融合方法經(jīng)常和特征提取方法進(jìn)行結(jié)合,從而達(dá)到剔除冗余信息的目的,如最大相關(guān)最小冗余算法(MRMR)、自動(dòng)解碼器(Autoencoders)、主成分分析(PCA)等。
Deep Fusion需要在特征層中做一定的交互。激光雷達(dá)點(diǎn)云和圖像數(shù)據(jù)的分支都各自采用自己的特征提取器,并且各分支網(wǎng)絡(luò)在前饋層次中進(jìn)行逐語義級(jí)別的融合,做到多尺度(multi-scale)信息的語義融合。其主要特點(diǎn)是可以靈活選擇進(jìn)行融合的位置。因此也是最可能創(chuàng)造出新的融合方法的融合方式。
Late fusion是最簡(jiǎn)單的融合方法,核心思想就是兩種模態(tài)的特征不在特征層或者最開始就融合,因?yàn)椴煌瑐鞲衅鞯臄?shù)據(jù)本身存在比較大的差異,就激光雷達(dá)和圖像而言,最大的差異就在視圖的不同,圖像中物體尺度會(huì)隨距離變化而發(fā)生改變,但是點(diǎn)云數(shù)據(jù)不存在這個(gè)問題。此外,點(diǎn)云和圖像做特征層的融合最大的難點(diǎn)是像素和點(diǎn)云點(diǎn)之間索引精準(zhǔn)性和領(lǐng)域差異。而該融合方式的誤差來自多個(gè)分類器,不同分類器的誤差通?;ゲ桓蓴_,從而不會(huì)使誤差發(fā)生累加現(xiàn)象。較普遍的后融合方式包括平均值融合(Averaged-Fusion)、貝葉斯規(guī)則融合(Bayesrule Based)、最大值融合(Max-Fusion),以及集成學(xué)習(xí)(Ensemble Learning)等。
通過上述內(nèi)容不難發(fā)現(xiàn),Early-Fusion、Deep-Fusion和 Late-Fusion分別是在輸入層、特征層和決策層上的融合。
目前3D目標(biāo)檢測(cè)的多模態(tài)融合方法可以從MV3D(CVPR17)說起,它是將點(diǎn)云數(shù)據(jù)以特定的視角投影到二維平面,再將不一樣視覺角度的數(shù)據(jù)進(jìn)行融合,從而完成認(rèn)知任務(wù)。該方法進(jìn)行鳥瞰視角投影時(shí)會(huì)丟失幾何結(jié)構(gòu)信息,損失精度,并且實(shí)驗(yàn)最終結(jié)果顯示MV3D只對(duì)汽車結(jié)果較好,對(duì)行人和自行車的檢測(cè)表現(xiàn)的都很差。
F-PointNet沒有對(duì)激光雷達(dá)點(diǎn)云和圖像這兩類信息分別處理(并行)進(jìn)行融合,而是通過串行方式,先在2D目標(biāo)檢測(cè)器中生成邊框,然后再投影到三維點(diǎn)云上對(duì)邊框做進(jìn)一步的優(yōu)化工作。該類方法提高了檢測(cè)效率,實(shí)現(xiàn)了逐維(2D-3D)定位,縮短了對(duì)點(diǎn)云的搜索時(shí)間,并且?guī)缀鯖]有任何維度的信息損失。但其突出劣勢(shì)表現(xiàn)為整個(gè)流程對(duì)2D的檢測(cè)效果比較依賴,且無法解決遮擋問題。
MMF(CVPR19)創(chuàng)新點(diǎn)主要是第一次將圖像特征投影到鳥瞰視圖(BEV圖)中做回歸,其次是解決了BEV視圖信息和圖像信息在點(diǎn)對(duì)點(diǎn)(point-wise)級(jí)別的融合問題。
以上三個(gè)架構(gòu)是近年來通過激光雷達(dá)點(diǎn)云和圖像數(shù)據(jù)融合進(jìn)行3D目標(biāo)檢測(cè)方向的優(yōu)秀作品,從中可以看出。多模態(tài)融合的3D目標(biāo)檢測(cè)目前普遍存在以下難點(diǎn):
1) 傳感器視角差異:攝像頭由于小孔成像原理,是從視錐出發(fā)獲取信息,而激光雷達(dá)是在真實(shí)的3D世界中獲取信息。
2) 數(shù)據(jù)表征不同:圖像數(shù)據(jù)是規(guī)則、稠密的,而點(diǎn)云數(shù)據(jù)則是無序、稀疏的。
3) 信息融合難度:圖像數(shù)據(jù)因距離存在尺度問題,2D檢測(cè)中,深度學(xué)習(xí)方法都是以CNN結(jié)構(gòu)為基礎(chǔ)進(jìn)行設(shè)計(jì),而點(diǎn)云數(shù)據(jù)具備幾何結(jié)構(gòu)和深度信息,無法采用傳統(tǒng)的CNN架構(gòu)感知,且點(diǎn)云目標(biāo)檢測(cè)領(lǐng)域中有MLP、CNN,GCN等多個(gè)簡(jiǎn)單結(jié)構(gòu)構(gòu)成的網(wǎng)絡(luò),在融合過程中將哪幾種網(wǎng)絡(luò)進(jìn)行融合是需要進(jìn)行研究的。
2.2激光雷達(dá)點(diǎn)云的3D目標(biāo)檢測(cè)
相對(duì)于激光雷達(dá)點(diǎn)云與圖像融合方式而言,純點(diǎn)云數(shù)據(jù)做數(shù)據(jù)增強(qiáng)更容易,因?yàn)椴恍枰紤]數(shù)據(jù)間的對(duì)應(yīng)關(guān)系。
為了方便分析,相關(guān)學(xué)者將使用純激光雷達(dá)點(diǎn)云的3D檢測(cè)分為基于點(diǎn)素(Point-Based的)和基于體素(Voxel-Based)兩個(gè)分支。Point-Based方式采用原始的點(diǎn)云數(shù)據(jù)坐標(biāo)作為特征載體,直接利用激光雷達(dá)點(diǎn)云進(jìn)行處理。Voxel-Based方式將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化成規(guī)則數(shù)據(jù),利用卷積實(shí)現(xiàn)任務(wù),換而言之,該方式將voxel中心作為CNN感知特征載體,但相對(duì)原始點(diǎn)云對(duì)圖像的坐標(biāo)索引來說,voxel中心與原始圖像的索引存在偏差。
蘋果公司提出的VoxelNet架構(gòu)將三維點(diǎn)云劃分為一定數(shù)量的voxel,經(jīng)過點(diǎn)的隨機(jī)采樣及歸一化處理后,對(duì)每一個(gè)非空voxel都采用若干個(gè)VFE層進(jìn)行局部特征提取,然后經(jīng)過中間的3D卷積層進(jìn)一步特征抽象處理,實(shí)現(xiàn)增大感受野并學(xué)習(xí)幾何空間特征,最后使用RPN對(duì)物體進(jìn)行分類檢測(cè)與位置回歸。該方法提出了端到端、可訓(xùn)練的深度網(wǎng)絡(luò)架構(gòu),可以直接處理稀疏的3D點(diǎn)云,避免了因人工設(shè)計(jì)的特征而引入的信息瓶頸問題。
SECOND方法是一個(gè)一階段的用于3D激光點(diǎn)云的目標(biāo)檢測(cè)方法,主要特點(diǎn)為:
1)使用了3D稀疏卷積(SparseConvolution),大大提升了3D卷積的速度;
2)數(shù)據(jù)庫(kù)采樣的操作被應(yīng)用到數(shù)據(jù)增強(qiáng)過程中;
3)分類損失使用了focal loss,方向損失使用smoothL1(sin(theat1-theta2))+softmax loss。
PointPillar是一種新穎的編碼器,它利用PointNet架構(gòu)來學(xué)習(xí)在垂直列柱體組織中的點(diǎn)云的特征,完成3D物體檢測(cè)網(wǎng)絡(luò)的端到端訓(xùn)練;通過將柱體上的所有計(jì)算都設(shè)置為稠密的2D卷積,從而實(shí)現(xiàn)62 Hz的檢測(cè)速率,比前期其他方法快2-4倍;
Part-A^2首次將稀疏卷積(SparseConvolution)應(yīng)用到兩階段(Two-Stage)的3D點(diǎn)云目標(biāo)檢測(cè)中,整個(gè)網(wǎng)絡(luò)分為局部感知(Part-Aware Stage)和局部聚集(Part-Aggregation Stage)這兩個(gè)模塊。Part-Aware Stage將整個(gè)空間柵格化,然后對(duì)每一個(gè)格子生成特征,使用全連接層和最大池化(MaxPooling)方法對(duì)柵格內(nèi)的點(diǎn)云自動(dòng)進(jìn)行特征提取,得到每個(gè)柵格的特征,這個(gè)階段的輸出是4維的特征圖和區(qū)域提案。Part-Aggregation Stage對(duì)前一階段產(chǎn)生的voxel實(shí)現(xiàn)池化和分類。
PointRCNN是第一個(gè)從原始點(diǎn)云進(jìn)行3D物體檢測(cè)的Two-Stage框架,也是首個(gè)基于點(diǎn)云的免錨提案生成策略的方案,實(shí)現(xiàn)了純粹使用點(diǎn)云數(shù)據(jù)完成3D目標(biāo)檢測(cè)任務(wù),并且很好地解決了遮擋問題和以及檢測(cè)過程中對(duì)2D檢測(cè)結(jié)果的依賴。該框架包括兩個(gè)部分:第一部分通過將前景點(diǎn)分割的方式,實(shí)現(xiàn)從原始點(diǎn)云空間產(chǎn)生3D提案;第二部分通過使用規(guī)范的坐標(biāo)來調(diào)整提案,從而獲取最后的檢測(cè)結(jié)果。
STD是騰訊優(yōu)圖和港科大的研究成果,它是一個(gè)Two-Stage方法,先通過語義信息對(duì)每一個(gè)點(diǎn)生成一個(gè)球形錨(anchor),再通過非極大值抑制(NMS)方法得到最終的分類提案,接下來是點(diǎn)池化層得到每一個(gè)提案的特征,采用的是VFE操作,這一階段區(qū)別于VoxelNet系列,VoxelNet系列的特征是以小size的anchor為單位,而STD則是以一個(gè)“提案”為單位進(jìn)行提取的。第二階段是一個(gè)巨大的創(chuàng)新,是將交并比分支(IOU Branch)和邊框預(yù)測(cè)分支(Box Prediction Branch)進(jìn)行結(jié)合。
香港中文大學(xué)團(tuán)隊(duì)提出了一種新穎的高性能3D對(duì)象檢測(cè)框架,稱為PointVoxel-RCNN(PV-RCNN),用于從點(diǎn)云中進(jìn)行精確的3D對(duì)象檢測(cè)。該方法也是一個(gè)Two-Stage方法,將3D體素卷積神經(jīng)網(wǎng)絡(luò)和基于PointNet的集合進(jìn)行抽象,通過深度集成來學(xué)習(xí)更多判別性點(diǎn)云功能。它利用了3D體素CNN的高效學(xué)習(xí)和替代提案以及基于PointNet的網(wǎng)絡(luò)靈活接收范圍等優(yōu)勢(shì)。PV-RCNN不僅是一個(gè)Multi-Scale和voxel的特征信息融合,同時(shí)也是point和voxel的融合。point的方法具有可變、多尺度感受野的特征,而voxel的方法則具有高效性,PV-RCNN將這兩點(diǎn)得到了很好的體現(xiàn)。
圖2展示的是近幾年來基于激光雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行3D目標(biāo)檢測(cè)的主要發(fā)展脈絡(luò)。
表1展示的是基于激光雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行3D目標(biāo)檢測(cè)的幾大模型在KITTI測(cè)試集上的性能比較,這些結(jié)果是通過具有40個(gè)召回位置的平均精度評(píng)估結(jié)果。
3基于非激光雷達(dá)點(diǎn)云的3D目標(biāo)檢測(cè)
3.1單目圖像下的3D目標(biāo)檢測(cè)
2017年CVPR中,A.Mousavian團(tuán)隊(duì)提出了一種利用單目圖像對(duì)目標(biāo)物體進(jìn)行朝向、大小和3D位置進(jìn)行預(yù)測(cè)的方法。這種算法框架主要由2D目標(biāo)檢測(cè)網(wǎng)絡(luò)、目標(biāo)大小姿態(tài)估計(jì)網(wǎng)絡(luò)、目標(biāo)3D中心點(diǎn)向量求解模塊這三個(gè)部分構(gòu)成。它首次利用深度神經(jīng)網(wǎng)絡(luò)獲得了相對(duì)穩(wěn)定的3D對(duì)象屬性,并利用這些屬性和2D幾何約束,得到了3D的邊框,與此同時(shí),這種方法不需要預(yù)處理階段,并為后人提供了MultiBin回歸這種新穎的用于估計(jì)物體方向的思路。
以王曉剛教授為主導(dǎo)的香港中文大學(xué)和商湯科技團(tuán)隊(duì)提出的高性能3D目標(biāo)檢測(cè)框架——GS3D,是一種基于可靠2D檢測(cè)結(jié)果和表面特征的三維車輛檢測(cè)算法,它的主要流程是:利用2D檢測(cè)器得到目標(biāo)物體的方向和邊界框,然后得到具有指導(dǎo)意義的粗糙長(zhǎng)方體3D邊界框,再利用3D邊框重投影到二維平面的信息來獲取目標(biāo)物體的3D表面特征;最后將2D邊框提取的紋理信息和3D邊框提取的表面特征融合,獲得更加精細(xì)化的3D檢測(cè)框。GS3D為單目圖像下的3D目標(biāo)檢測(cè)模型的精細(xì)化提供了指導(dǎo)性思路。
YOLO-6D是利用YOLO系列進(jìn)行3D目標(biāo)檢測(cè)的優(yōu)秀算法,相比之前同類型算法,它的運(yùn)行速度相對(duì)穩(wěn)定,幾乎不受運(yùn)行時(shí)間和目標(biāo)數(shù)量影響,并且避免了因微調(diào)結(jié)果導(dǎo)致物體檢測(cè)超時(shí)問題,但它主要弊端是需要使用先驗(yàn)3D模型知識(shí)。YOLO-6D通過預(yù)測(cè)目標(biāo)物體3D邊框的1個(gè)中心點(diǎn)和8個(gè)頂點(diǎn)以及后續(xù)的PNP算法,實(shí)現(xiàn)了將6D姿態(tài)預(yù)測(cè)問題到9個(gè)坐標(biāo)點(diǎn)預(yù)測(cè)的轉(zhuǎn)換。
3.2基于RGB-D圖像下的3D目標(biāo)檢測(cè)
計(jì)算機(jī)圖形領(lǐng)域,含有與目標(biāo)對(duì)象表面距離有關(guān)信息的圖像或圖像通道被稱為深度圖,傳感器與物體的實(shí)際距離就是由深度圖的像素值來表示。由于RGB圖像和深度圖像的配準(zhǔn)關(guān)系,像素點(diǎn)間具備一一對(duì)應(yīng)關(guān)系。
2014年,RGB大神對(duì)2D目標(biāo)檢測(cè)架構(gòu)——R-CNN進(jìn)行改進(jìn),通過模塊對(duì)深度圖實(shí)現(xiàn)利用,第一階段基于RGB圖像和深度圖,檢測(cè)圖像中的輪廓,并生成包括每個(gè)像素的視差、高度、傾斜角2.5D的提案。第二階段利用DepthCNN和RGB CNN分別提取深度圖和2D圖像特征,最后使用SVM實(shí)現(xiàn)最終分類任務(wù)。
隨后,2015年陳曉智團(tuán)隊(duì)將R-CNN推廣到RGB-D圖像,引入一種新的編碼方式來捕獲圖像中像素的地心姿態(tài),該方式比單獨(dú)利用深度通道取得了更好的實(shí)驗(yàn)效果。普林斯頓大學(xué)學(xué)者,提出的方法為Faster R-CNN的3D版本,側(cè)重于室內(nèi)場(chǎng)景下的目標(biāo)檢測(cè)。該團(tuán)隊(duì)增加了多種尺度的檢測(cè)手段來檢測(cè)各種大小不一的目標(biāo)。具體來說,是在不同的卷積層上進(jìn)行3D滑窗,最后得到6個(gè)偏移量:來自坦普爾大學(xué)的學(xué)者則利用Fast R-CNN架構(gòu),重新回到2.5D方法來進(jìn)行3D目標(biāo)檢測(cè)。即從RGB-D上提取出合適的表達(dá),而后建立模型以將2D結(jié)果轉(zhuǎn)換為3D空間。
雖然利用三維幾何特征實(shí)現(xiàn)3D目標(biāo)檢測(cè)前景光明,但在實(shí)踐中,重建的三維形狀往往不完整,并且由于遮擋、反射等原因包含各種噪聲。
4結(jié)論
隨著硬件技術(shù)和理論技術(shù)的發(fā)展,3D目標(biāo)檢測(cè)領(lǐng)域碩果累累,一定程度上改善了人類的生活習(xí)慣,促進(jìn)了科技發(fā)展并推動(dòng)了社會(huì)進(jìn)步。盡管3D目標(biāo)檢測(cè)發(fā)展勢(shì)頭迅猛,但也不難發(fā)現(xiàn),該領(lǐng)域仍存在許多暫時(shí)難以突破的瓶頸,如單目圖像下的3D目標(biāo)檢測(cè)中,由于透視投影存在,很難捕捉局部目標(biāo)和尺度問題;基于深度圖的3D目標(biāo)檢測(cè)因遮擋、光線等造成數(shù)據(jù)噪聲較多,極大影響三維重建過程;在基于激光雷達(dá)的3D目標(biāo)檢測(cè)方向,采用激光雷達(dá)點(diǎn)云與圖像進(jìn)行融合時(shí),兩者間的數(shù)據(jù)配準(zhǔn)以及對(duì)運(yùn)算對(duì)顯存的極高要求暫時(shí)還未有突破性進(jìn)展。
雖然在3D目標(biāo)檢測(cè)技術(shù)的發(fā)展道路中存在許多艱辛,但其潛力仍不能小覷,未來3D目標(biāo)檢測(cè)技術(shù)在識(shí)別精準(zhǔn)度以及實(shí)時(shí)性方面或許會(huì)吸引更多的學(xué)者參與研究,當(dāng)然各種因技術(shù)發(fā)展引發(fā)的道德倫理以及個(gè)人隱私和信息安全等問題也需要引起各界重視。
參考文獻(xiàn):
[1] Chen X, Ma H, Wan J, et al. Multi-view 3d object detection network for autonomous driving[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1907-1915.
[2] Qi C R, Liu W, Wu C, et al. Frustum pointnets for 3d object detection from rgb-d data[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 918-927.
[3] Liang M, Yang B, Wang S, et al. Deep continuous fusion for multi-sensor 3d object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 641-656.
[4] Zhou Y, Tuzel O. Voxelnet: End-to-end learning for point cloud based 3d object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4490-4499.
[5] Yan Y, Mao Y, Li B. Second: Sparsely embedded convolutional detection[J]. Sensors, 2018, 18(10): 3337.
[6] Lang A H, Vora S, Caesar H, et al. Pointpillars: Fast encoders for object detection from point clouds[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12697-12705.
[7] Qi C R, Su H, Mo K, et al. Pointnet: Deep learning on point sets for 3d classification and segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 652-660.
[8] Shi S, Wang Z, Shi J, et al. From Points to Parts: 3D Object Detection from Point Cloud with Part-aware and Part-aggregation Network[J]. arXiv preprint arXiv:1907.03670, 2019.
[9] Shi S, Wang X, Li H. Pointrcnn: 3d object proposal generation and detection from point cloud[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 770-779.
[10] Yang Z, Sun Y, Liu S, et al. Std: Sparse-to-dense 3d object detector for point cloud[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 1951-1960.
[11] Shi S, Guo C, Jiang L, et al. Pv-rcnn: Point-voxel feature set abstraction for 3d object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10529-10538.
【通聯(lián)編輯:梁書】