基于深度學(xué)習(xí)的3維點云處理綜述

2022-05-09 07:39:56李嬌嬌孫紅巖張若晗孫曉鵬

計算機研究與發(fā)展 2022年5期

李嬌嬌孫紅巖董雨張若晗孫曉鵬,2

1(遼寧師范大學(xué)計算機與信息技術(shù)學(xué)院計算機系統(tǒng)研究所遼寧大連 116029) 2(智能通信軟件與多媒體北京市重點實驗室(北京郵電大學(xué)) 北京 100876)

隨著3維傳感器的迅速發(fā)展，3維數(shù)據(jù)變得無處不在，利用深度學(xué)習(xí)方法對這類數(shù)據(jù)進行語義理解和分析變得越來越重要.

不同3維數(shù)據(jù)(體素、網(wǎng)格等)表示下，深度學(xué)習(xí)的方法不盡相同，但這些方法應(yīng)用于點云中都有一定的局限性，具體表現(xiàn)為：體素化方法會受到分辨率的限制；轉(zhuǎn)換為2維圖像的方法在形狀分類和檢索任務(wù)上取得了優(yōu)越性能，但將其擴展到場景理解或其他3維任務(wù)(如姿態(tài)估計)有一定的困難；光譜卷積神經(jīng)網(wǎng)絡(luò)限制在流形網(wǎng)格；基于特征的深度神經(jīng)網(wǎng)絡(luò)會受到所提取特征表示能力的限制[1].

點云本身具有的無序性與不規(guī)則性為利用深度學(xué)習(xí)方法直接處理該類數(shù)據(jù)帶來一定挑戰(zhàn)性：1)規(guī)模局限性.現(xiàn)有研究方法一般針對小規(guī)模點云，而能處理大型點云的方法也需要切割處理，即將其分為小塊后再處理.但切割可能會造成點云整體信息的丟失.2)遮擋.當(dāng)被掃描對象被遮擋時，將直接導(dǎo)致信息的丟失，這為后續(xù)任務(wù)的處理帶來嚴重影響.3)噪聲.由于點云數(shù)據(jù)本身就是3維空間內(nèi)的點集，噪聲的存在直接影響點云模型的正確表示，在形狀識別等任務(wù)中會造成精度的降低.4)旋轉(zhuǎn)不變.對于同一模型，旋轉(zhuǎn)不同角度仍表示同一對象，網(wǎng)絡(luò)識別結(jié)果不應(yīng)由于角度不同而產(chǎn)生差異.

隨著近年來激光雷達等傳感設(shè)備及相關(guān)技術(shù)的發(fā)展，3維點云的掃描與獲取更為便捷，其處理技術(shù)在機器人、自動駕駛及其他領(lǐng)域的實際應(yīng)用中已取得一定進展.基于深度學(xué)習(xí)的蓬勃發(fā)展，研究者提出了許多方法來解決相關(guān)領(lǐng)域的不同問題.本文對基于深度學(xué)習(xí)的點云處理任務(wù)進行詳細闡述.

本文的主要貢獻有4個方面：

1) 從機器人、自動駕駛、虛擬和增強現(xiàn)實以及醫(yī)學(xué)4個領(lǐng)域介紹點云處理技術(shù)的應(yīng)用情況；

2) 探討點云拓撲結(jié)構(gòu)與形狀分析在應(yīng)用于點云處理任務(wù)中的必要性，并總結(jié)對比多種算法；

3) 歸納基于點云數(shù)據(jù)處理相關(guān)任務(wù)的方法，主要包括模型重建與變換、分類分割、檢測跟蹤與姿態(tài)估計，著重討論基于深度學(xué)習(xí)的方法，并給出各種方法的優(yōu)劣比較；

4) 總結(jié)多個公開點云數(shù)據(jù)集，并分析各數(shù)據(jù)集中不同方法能處理的不同任務(wù).

1 基本概念及應(yīng)用情況

1.1 深度學(xué)習(xí)

機器學(xué)習(xí)推動現(xiàn)代科技手段的進步.網(wǎng)絡(luò)的內(nèi)容過濾及推薦、語音文本的轉(zhuǎn)換及醫(yī)學(xué)影像分析等應(yīng)用程序越來越多地使用深度學(xué)習(xí)技術(shù).

1) 基礎(chǔ)概念

深度學(xué)習(xí)善于發(fā)現(xiàn)高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)，因此可應(yīng)用于科學(xué)、商業(yè)和醫(yī)學(xué)等諸多領(lǐng)域.

深度學(xué)習(xí)利用多處理層組成的計算模型學(xué)習(xí)具有抽象層次的數(shù)據(jù)表示，關(guān)鍵在于其目標特征不是人類指定的，而是從大量數(shù)據(jù)中學(xué)習(xí)獲取的，深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能的基礎(chǔ).多層感知機或全連接網(wǎng)絡(luò)堆疊線性層和非線性激活層，是神經(jīng)網(wǎng)絡(luò)的經(jīng)典類型.卷積網(wǎng)絡(luò)引入卷積層和池化層，在處理圖像、視頻和音頻方面取得了突破性進展.遞歸網(wǎng)絡(luò)可有效處理文本語音等具有連續(xù)性的數(shù)據(jù).Trans-former利用self-attention機制提取特征，最早用于處理自然語言[2-3].

2) 框架平臺

為了實現(xiàn)更復(fù)雜的模型，若從頭開始編寫代碼，效率非常低，因此深度學(xué)習(xí)框架應(yīng)運而生.本節(jié)介紹常用的深度學(xué)習(xí)框架，并將其匯總于表1中.

目前常用于點云處理的框架更多為TensorFlow與PyTorch，其他框架如Caffe與Jittor等也可用于處理點云，但應(yīng)用較少.

1.2 點云處理任務(wù)

3維幾何模型中，點云已經(jīng)成為主要表達方式之一，其應(yīng)用于深度學(xué)習(xí)中的處理技術(shù)已取得一定成果.在不同任務(wù)驅(qū)動下，本文以構(gòu)建神經(jīng)網(wǎng)絡(luò)為主要方法，通過分類與整理相關(guān)文獻，將點云處理任務(wù)分為模型重建與變換、分類分割、檢測跟蹤與姿態(tài)估計幾大類.本節(jié)總結(jié)其基本概念.

Table 1 Deep Learning Framework 表1 深度學(xué)習(xí)框架

模型重建與變換包括形狀修復(fù)、模型補全與變形.掃描獲取到的數(shù)據(jù)并不能完美表征原物體的特性，很可能存在缺漏或誤差，造成模型不完整、扭曲，故而需要對該模型進行處理，使其盡可能貼合原物體模型或目標模型，處理手段即為重建與變換.

分類分割主要包括分類、部件分割、語義分割與實例分割.在諸如機器人抓取等需求中，必須明確所抓取對象的分類，即需要判斷其信息，判斷即為對場景中對象語義信息標記與分類.

檢測跟蹤主要包括3維對象檢測、場景流估計與目標跟蹤.在諸如自動駕駛等應(yīng)用中，需要明確路徑與方向，確定追蹤對象，并能依據(jù)當(dāng)前狀態(tài)自動調(diào)節(jié)或人為干預(yù)使其后續(xù)運動符合預(yù)期目標.

姿態(tài)估計主要包括位姿估計與手部姿態(tài)估計.前者需要確定對象的位置與方向，如工廠噴漆中，噴槍需要依據(jù)目標不斷改變其位置與指向.后者則是為了理解人類肢體語言，如在體感游戲中，根據(jù)肢體變換執(zhí)行相應(yīng)游戲操作.

1.3 應(yīng)用情況

3維點云處理目前在實際應(yīng)用中已經(jīng)取得了一定的進展.本節(jié)以應(yīng)用為導(dǎo)向，從機器人領(lǐng)域、自動駕駛領(lǐng)域及虛擬、增強現(xiàn)實領(lǐng)域及醫(yī)學(xué)領(lǐng)域4個角度介紹點云處理技術(shù)的應(yīng)用情況.

1.3.1 機器人領(lǐng)域

機器人抓取技術(shù)的核心在于目標識別和定位.2019年Lin等人[4]利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)物體外在形狀，并訓(xùn)練網(wǎng)絡(luò)在獲取物體局部表面時也能成功抓取目標.

在機器人室內(nèi)定位及導(dǎo)航技術(shù)方面，2020年Khanh等人[5]設(shè)計了新的云端導(dǎo)航系統(tǒng).云端導(dǎo)航下機器人能更準確地移動到目標位置.該技術(shù)可應(yīng)用于位置服務(wù)需求，如盲人導(dǎo)航.

針對噴漆機器人的自動化操作，2019年Lin等人[6]利用迭代最近點(iterative closest point, ICP)算法進行姿態(tài)估計，計算物體部件的位置誤差，并重新調(diào)整機器人的方向，以完成所需的噴漆任務(wù).2020年P(guān)arra等人[7]設(shè)計了能夠在地板下的空隙中進行隔熱噴涂以提高建筑的強度及使用年限的機器人.他們針對地形不均勻等情況，提出定位模塊.機器人依據(jù)傳感器獲取連續(xù)點云的信息.Yang等人[8]基于點云模型表示的家具表面路徑規(guī)劃和邊緣提取技術(shù)提出邊緣噴涂，獲取噴涂槍路徑點序列和對應(yīng)姿態(tài).在家具等工件的生產(chǎn)流程中，該方法能夠根據(jù)噴涂系統(tǒng)坐標系與家具姿態(tài)的不同，自適應(yīng)地調(diào)整二者的坐標關(guān)系，以實現(xiàn)正確噴涂的目的.

1.3.2 自動駕駛領(lǐng)域

自動駕駛系統(tǒng)的性能受環(huán)境感知的影響.車輛對其環(huán)境的感知為系統(tǒng)的自動響應(yīng)提供了基礎(chǔ).2017年Hanke等人[9]提出采用光線追蹤的汽車激光雷達傳感器實現(xiàn)實時模型測量方法.使用由真實世界場景的測量構(gòu)建的虛擬環(huán)境，能夠在真實世界和虛擬世界傳感器數(shù)據(jù)之間建立直接聯(lián)系.2019年Josyula等人[10]提出了利用機器人操作系統(tǒng)(robot operating system, ROS)和點云庫(point cloud library, PCL)對點云進行分割的方法.它是為自動駕駛車輛和無人機的避障而開發(fā)的，具體涉及障礙物檢測與跟蹤.

激光雷達(light detection and ranging, LIDAR)和視覺感知是高水平(L4-L5)飛行員成功自動避障的關(guān)鍵因素.為了對大量數(shù)據(jù)進行點云標記，2020年Li等人[11]提出針對3維點云的標注工具，實現(xiàn)了點云3維包圍盒坐標信息到相機與LIDAR聯(lián)合標定后獲得的2維圖像包圍盒的轉(zhuǎn)換.

基于圖的同步定位與建圖(simultaneous locali-zation and mapping, SLAM)在自動駕駛中應(yīng)用廣泛.實際駕駛環(huán)境中包含大量的運動目標，降低了掃描匹配性能.2020年Lee等人[12]利用加權(quán)無損檢測(掃描匹配算法)進行圖的構(gòu)造，在動態(tài)環(huán)境下也具有魯棒性.

1.3.3 虛擬、增強現(xiàn)實領(lǐng)域

為了更好地了解室內(nèi)空間信息，2015年Tredinnick等人[13]創(chuàng)建了能夠在沉浸式虛擬現(xiàn)實(virtual reality, VR)顯示系統(tǒng)中以較快的交互速率可視化大規(guī)模LIDAR點云的應(yīng)用程序，能夠產(chǎn)生準確的室內(nèi)環(huán)境渲染效果.2016年Bonatto等人[14]探討了在頭戴式顯示設(shè)備中渲染自然場景的可能性.實時渲染是使用優(yōu)化的子采樣等技術(shù)來降低場景的復(fù)雜度實現(xiàn)的，這些技術(shù)為虛擬現(xiàn)實帶來了良好的沉浸感.2018年Feichter等人[15]提出了在真實室內(nèi)點云場景中抽取冗余信息的算法.其核心思想是從點云中識別出平面線段，并通過對邊界進行三角剖分來獲取內(nèi)點，從而描述形狀.

生成可用于訓(xùn)練新模型的標注已成為機器學(xué)習(xí)中獨立的研究領(lǐng)域，它的目標是高效和高精度.標注3維點云的方法包括可視化，但這種方法是十分耗時的.2019年Wirth等人[16]提出了新的虛擬現(xiàn)實標注技術(shù)，它大大加快了數(shù)據(jù)標注的過程.

LTDAR為增強現(xiàn)實(augmented reality, AR)提供了基本的3維信息支持.2020年Liu等人[17]提出學(xué)習(xí)圖像和LIDAR點云的局部特征表示，并進行匹配以建立2維與3維空間的關(guān)系.

使用手勢自然用戶界面(natural user interface, NUI)對于頭戴式顯示器和增強及虛擬現(xiàn)實等可穿戴設(shè)備中虛擬對象的交互至關(guān)重要.然而，它在GPU上的實現(xiàn)存在高延遲，會造成不自然的響應(yīng).2020年Im等人[18]提出基于點云的神經(jīng)網(wǎng)絡(luò)處理器.該處理器采用異構(gòu)內(nèi)核結(jié)構(gòu)以加速卷積層和采樣層，實現(xiàn)了使用NUI所必需的低延遲.

1.3.4 醫(yī)學(xué)領(lǐng)域

醫(yī)學(xué)原位可視化能夠顯示患者特定位置的成像數(shù)據(jù)，其目的是將特定病人的數(shù)據(jù)與3維模型相結(jié)合，如將手術(shù)模擬過程直接投影到患者的身體上，從而在實際位置顯示解剖結(jié)構(gòu).2011年P(guān)lacitelli等人[19]采用采樣一致性初始配準算法(sample consensus initial alignment, SAC-IA)，通過快速配準三元組計算相應(yīng)的匹配變換，實現(xiàn)點云快速配準.

模擬醫(yī)學(xué)圖像如X射線是物理學(xué)和放射學(xué)的重要研究領(lǐng)域.2020年Haiderbhai等人[20]提出基于條件生成式對抗網(wǎng)絡(luò)(conditional generative adversarial network, CGAN)的點云X射線圖像估計法.通過訓(xùn)練CGAN結(jié)構(gòu)并利用合成數(shù)據(jù)生成器中創(chuàng)建的數(shù)據(jù)集，可將點云轉(zhuǎn)換成X射線圖像.

2 模型形狀結(jié)構(gòu)

了解并確定高層形狀結(jié)構(gòu)及其關(guān)系能夠使得模型感知局部和全局的結(jié)構(gòu)，并能通過部件之間的排列和關(guān)系描繪形狀，這是研究形狀結(jié)構(gòu)分析的核心課題.隨著真實世界的掃描和信息的挖掘，以及設(shè)計模型規(guī)模的增大，在大量信息中進行3維幾何模型的識別和分析變得越來越重要.

2.1 結(jié)構(gòu)信息

對于3維物體，僅明確局部信息遠遠不夠，更重要的是結(jié)構(gòu)關(guān)系,它是理解整體3維結(jié)構(gòu)的關(guān)鍵,利用結(jié)構(gòu)關(guān)系可以更好地把握物體的語義信息.

2.1.1 拓撲結(jié)構(gòu)

3維物體在局部結(jié)構(gòu)之間有內(nèi)在聯(lián)系，而這些聯(lián)系是智能推理的基本能力.明確部件之間的對稱性、表面的連續(xù)性及主軀干和其他部位間的聯(lián)系，即明確物體本身拓撲結(jié)構(gòu)對3維物體的理解起重要作用.

現(xiàn)有的大多數(shù)方法都是對圖像的空間或時間關(guān)系進行建模，為了捕捉點云局部區(qū)域之間的結(jié)構(gòu)交互作用，2019年Duan等人[21]提出結(jié)構(gòu)關(guān)系網(wǎng)絡(luò)(structural relation network, SRN)解釋點云中局部區(qū)域的結(jié)構(gòu)依賴性.該方法通過計算局部結(jié)構(gòu)之間的相互作用，解釋它們之間的關(guān)系，從而使學(xué)習(xí)到的局部特征不僅編碼3維結(jié)構(gòu)，而且編碼與其他局部區(qū)域的關(guān)系.相較于對局部信息的利用，2018年Deng等人[22]提出點對特征網(wǎng)絡(luò)(point pair feature network, PPFNet)，學(xué)習(xí)全局信息的局部特征描述符，以在無組織的點云中到對應(yīng)點.

相鄰點往往具有相似的幾何結(jié)構(gòu)，因此通過鄰域圖傳播特征有助于學(xué)習(xí)更穩(wěn)健的局部模式.2018年Shen等人[23]提出了2種新的操作來改進PointNet，使之更有效利用局部結(jié)構(gòu).第1種方法是定義局部3維幾何結(jié)構(gòu)，它類似于處理圖像的卷積核.第2種方法利用局部高維特征結(jié)構(gòu)，從3維位置生成的近鄰圖上重復(fù)進行特征聚合.

為了學(xué)習(xí)點云內(nèi)的空間拓撲結(jié)構(gòu)，2019年He等人[24]提出GeoNet，針對不同任務(wù)，采用不同融合方法.具體來說，選擇PU-Net用于點云上采樣，PointNet++[25]則用于其他任務(wù)(重建、分類等).

2.1.2 算法性能對比分析

具體來說，文獻[21]的SRN模塊證明了結(jié)構(gòu)關(guān)系推理在點云數(shù)據(jù)分析中的有效性.它具有很強的泛化能力，可以很容易地與現(xiàn)有網(wǎng)絡(luò)相融合.它不需要特定的標簽也能捕捉到高度相關(guān)的局部結(jié)構(gòu)和常見的結(jié)構(gòu)關(guān)系.對于具有復(fù)雜局部結(jié)構(gòu)的點云數(shù)據(jù)，其效果更為顯著.文獻[22]學(xué)習(xí)純幾何上的局部描述符，并高度感知全局上下文，在精度、速度、對點密度以及對3維姿態(tài)變化的魯棒性方面達到了較高的性能.其主要限制是內(nèi)存占用.文獻[23]能夠有效地捕捉局部信息，直接利用局部幾何結(jié)構(gòu).2種新的操作能夠顯著提高點云語義學(xué)習(xí)的性能.但是，這種方法需要盡量避免在頂層改變鄰域圖結(jié)構(gòu).文獻[24]學(xué)習(xí)對局部和全局結(jié)構(gòu)信息都進行編碼的特征，可用于與其他網(wǎng)絡(luò)架構(gòu)融合以提高其性能，但數(shù)據(jù)集中像火箭這樣的棒狀物體只占小部分，所以GeoNet會在推理這類樣例時出錯.

2.2 形狀信息

形狀分析與識別中長期存在的問題是如何使得模型具有多樣且逼真的3維形狀，并具有相關(guān)語義和結(jié)構(gòu)特點的能力.

2.2.1 形狀分析

形狀分析的目的往往不是幾何意義上的，而是功能的或語義級別的.局部描述符是各種3維形狀分析問題的核心，它應(yīng)該對形狀的結(jié)構(gòu)變化保持不變，并且對丟失的數(shù)據(jù)、異常值和噪聲具有魯棒性.

2017年Huang等人[26]采用能夠自動學(xué)習(xí)3維形狀局部描述符的方法，不需要輸入部件分割，通過學(xué)習(xí)多個形狀類別，可直接生成通用的描述符.網(wǎng)絡(luò)將幾何和語義上相似的點嵌入描述符空間中，其產(chǎn)生的描述符可以用于各種形狀分析應(yīng)用.

借助多種數(shù)據(jù)格式，2017年Shafiq等人[27]提出點云到2維網(wǎng)格的表示方法和體系結(jié)構(gòu).現(xiàn)有的大多數(shù)方法在低層中使用較少的濾波器，在高層中逐漸增加其數(shù)量，但這可能丟失重要特征信息.Shafiq等人主張在低分辨率的輸入層也使用大量濾波器，這不會顯著影響參數(shù)的總數(shù)，還能實現(xiàn)更高精度.

基于層次化的思想，2017年Klokov等人[28]提出的Kd-network、2018年Xie等人[29]提出的注意力形狀上下文網(wǎng)絡(luò)(attentional shape context net, attentional SCN)以及2019年Liu等人[30]提出的RS-Conv(relation-shape convolutional neural network)和Mo等人[31]提出的StructureNet分別以不同方法實現(xiàn)分析模型形狀信息的目的.

具體來說，Kd-network[28]在多方面模仿Conv-Nets[32]但使用kd-tree形成計算圖、共享可學(xué)習(xí)參數(shù)，并以自下而上的方式計算層次表示.attentional SCN[29]不會刪除點之間的空間關(guān)系，它通過構(gòu)建形狀上下文的層次結(jié)構(gòu)，以解釋端到端過程學(xué)習(xí)的局部和全局上下文信息.RS-Conv[30]可以將規(guī)則網(wǎng)格使用的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)擴展到不規(guī)則配置，實現(xiàn)點云的上下文形狀感知學(xué)習(xí).StructureNet[31]引入n元層次結(jié)構(gòu)編碼，從根本上避免了二值化引起的不必要的數(shù)據(jù)變化，從而大大簡化了學(xué)習(xí)任務(wù).

2.2.2 算法性能與對比分析

文獻[26]在對象類別未知時也能產(chǎn)生有效的局部描述符.但它對局部信息和上下文都很敏感，且在生成局部描述符過程中，只依靠透視投影來獲取局部表面信息，而投影得到的信息可能不夠全面.此外，對于形狀和拓撲結(jié)構(gòu)變化顯著的部件，它使用的非剛性對齊方法易于生成不精確的訓(xùn)練對應(yīng)，而太多錯誤的訓(xùn)練對應(yīng)將影響描述符的區(qū)分性能.文獻[27]結(jié)合了體素表示和2維圖像的優(yōu)點.文獻[28]內(nèi)存占用小且計算效率高.但在形狀分類中，對于較小的模型，每個epoch的學(xué)習(xí)時間短，達到收斂的周期數(shù)會增加.對于較大的模型，kd-tree構(gòu)造的時間較長.文獻[29]通過層次結(jié)構(gòu)傳遞信息，以獲取豐富的局部和全局形狀信息，并據(jù)此來表示目標點的內(nèi)在屬性.文獻[30]在法線估計任務(wù)中，可能對一些棘手的形狀(如旋轉(zhuǎn)樓梯)不太有效.文獻[31]允許對具有多種幾何和結(jié)構(gòu)變化的包圍盒和點云進行形狀合成，可用于不同的分析任務(wù)中.然而，StructureNet是基于數(shù)據(jù)驅(qū)動的方法，它繼承了數(shù)據(jù)集中數(shù)據(jù)的采樣偏差.對于包含具有分離部分或非對稱部分的模型，其生成效果不盡如人意.

3 模型重建與變換

由于遮擋等多種因素的限制，利用激光雷達等點云獲取設(shè)備得到的數(shù)據(jù)存在幾何信息和語義信息的丟失以及拓撲結(jié)構(gòu)的不確定，這直接導(dǎo)致了數(shù)據(jù)的質(zhì)量問題.為后續(xù)任務(wù)的處理帶來極大挑戰(zhàn).

3.1 形狀修復(fù)與重建

點云的不完整給后續(xù)處理任務(wù)帶來了一定的困難和挑戰(zhàn)，這突顯出點云補全作為點云預(yù)處理方法的重要性.

直接對原始點云進行形狀補全與修復(fù)的方法是2019年Sarmad等人[33]提出的RL-GAN-NET及Wang等人[34]提出的漸進上采樣網(wǎng)絡(luò)、2020年Huang等人[35]提出的PF-Net及繆永偉等人[36]提出的基于生成對抗網(wǎng)絡(luò)的方法.PF-Net，RL-GAN-NET與基于生成對抗網(wǎng)絡(luò)的方法是對殘缺點云的補全：PF-Net只輸出缺失部分；RL-GAN-NET輸出修復(fù)后的完整模型；基于生成對抗網(wǎng)絡(luò)的方法生成缺失部分并與原輸入數(shù)據(jù)合并得到完整模型.漸進上采樣網(wǎng)絡(luò)則是將稀疏點云變密集.

RL-GAN-NET[33]基于數(shù)據(jù)驅(qū)動填充缺失區(qū)域，通過控制生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)將含噪聲的部分點云轉(zhuǎn)換成更具真實性的完整點云.基于片元的點集漸進上采樣網(wǎng)絡(luò)[34]由具有相同結(jié)構(gòu)的上采樣單元組成，但每個單元對應(yīng)不同級別的細節(jié)，可以成功地將稀疏的輸入點集逐步上采樣到具有豐富幾何細節(jié)的密集點集.PF-Net[35]能夠從部分點云及其低分辨率特征點中提取多尺度特征，增強了網(wǎng)絡(luò)提取語義和幾何信息的能力.文獻[36]為了修復(fù)補全模型形狀，以生成對抗網(wǎng)絡(luò)為基礎(chǔ)，利用Wasserstein距離優(yōu)化模型，補全形狀的同時保持精細結(jié)構(gòu)信息.

在不直接對原始點云進行操作的情況下，廣泛使用的方法是基于圖像進行的重建.2019年Nguyen等人[37]、Choi等人[38]都提出了由單一2維圖像重建物體3維點云表示的方法.2種方法都能夠根據(jù)輸入圖像對隨機點集變形以生成目標對象，并具有可伸縮性，即輸出點云的大小可以是任意的.

Nguyen等人[37]提出的點云變形網(wǎng)絡(luò)(point cloud deformation network, PCDNet)基于局部特征，利用高層語義進行預(yù)測.它的整體形狀特征是由AdaIN提取出來的.提取操作是對稱映射，因此網(wǎng)絡(luò)對無序點云具有不變性.Choi等人[38]利用CNN從輸入圖像中提取形狀特征，然后利用提取的形狀信息將隨機初始化的點云變形為給定對象的形狀.

文獻[33-36]都可以完成補全點云，文獻[34-35]直接對原始點云進行處理，不需要進行其余步驟，但文獻[33]需要對原始點云進行降維.文獻[37-38]從目標圖像提取點的形狀信息并根據(jù)提取的信息進行模型重建.

3.2 模型變形

點云變形過程中，缺乏有效語義的局部結(jié)構(gòu)監(jiān)督可能會在學(xué)習(xí)過程中積累誤差，這將嚴重限制學(xué)習(xí)特征的可分辨性，進而影響網(wǎng)絡(luò)在3維點云理解中的能力.本節(jié)根據(jù)不同方式，將變形問題分為直接變形與借助圖像信息變形2種方式展開介紹.

直接變形原點云數(shù)據(jù)的方法中，研究思路是多樣的，可以根據(jù)成對形狀[39]、多角度分析[40]等多種方法實現(xiàn).

一般的變形方法是單方向的.2018年Yin等人[39]提出的P2P-Net可以實現(xiàn)雙方向的變形.變換前后的2點集可以是同一形狀在不同視角或不同時間下的采樣，也可以是不同形狀中的采樣.2019年Han等人[40]提出的多角度點云變分自編碼器MAP-VAE(multi-angle point cloud variational auto-encoder)將有效的局部監(jiān)督與變分約束下的全局監(jiān)督相結(jié)合.

與直接基于點的變形不同，2019年Wang等人[41]提出了基于目標2維圖像、3維網(wǎng)格或3維點云來變形網(wǎng)格的3維變形網(wǎng)絡(luò)(3-dimensional deformation network, 3DN)，Zhou等人[42]提出了基于圖像信息的點云變形監(jiān)測方法.前者通過保持原網(wǎng)格拓撲結(jié)構(gòu)不變和對稱性等性質(zhì)，可以生成合理的變形，能夠適應(yīng)原模型和目標模型中不同密度的變化.后者利用點云顏色信息和反射強度信息的特點，將小波變換模極大值技術(shù)引入點云強度圖像的特征提取中.

在變形中，文獻[39]不需要成對的點以及點的對應(yīng)關(guān)系，只需成對的形狀即可實現(xiàn)變形.文獻[40]通過多角度分析并分割點云，利用變分約束來促進新形狀的生成.文獻[41]更改3維網(wǎng)格曲面頂點位置并變形為目標模型.文獻[42]需要將點云轉(zhuǎn)換為2維強度圖像再變形.

3.3 算法性能對比分析

在形狀補全修復(fù)及模型重建任務(wù)中，文獻[33]能夠在缺失大量區(qū)域的情況下實現(xiàn)補全，其形狀完成框架在具有噪聲前提下，解決了點云數(shù)據(jù)的低可用性.文獻[34]主要解決不同細節(jié)級別和點云密度的上采樣問題，能夠自適應(yīng)地確定感受野.這種基于自適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)能夠以端到端的方式在高分辨率點集上訓(xùn)練，從具有稀疏性和噪聲的點集得到高精度的點云幾何結(jié)構(gòu).文獻[35]能夠以部分點云作為輸入并直接輸出缺失部分，但它對數(shù)據(jù)集的要求較高.文獻[36]能有效保證網(wǎng)絡(luò)的收斂性和訓(xùn)練穩(wěn)定性.但是對于局部點較為稀疏且具有精細結(jié)構(gòu)的模型，其修補效果并不理想.

文獻[37-38]都是根據(jù)輸入圖像對隨機點集進行變形，并生成任意大小點云表示的模型.前者能夠簡單有效地生成高質(zhì)量的形狀模型.然而，其輸出坐標的預(yù)測不受語義形狀信息和局部一致性的約束，這會降低性能.后者可訓(xùn)練參數(shù)的數(shù)量與點云大小無關(guān)，因此不需要額外開銷，其效率較高.

在變形任務(wù)中，文獻[39]可以在沒有明確點與點之間對應(yīng)關(guān)系的情況下實現(xiàn)雙向性的幾何變化，但它無法學(xué)習(xí)并保存輸入形狀的內(nèi)在屬性.文獻[40]聯(lián)合利用局部和全局自監(jiān)督學(xué)習(xí)更具鑒別力的點云特征，并能夠從不同角度捕捉局部區(qū)域的幾何和結(jié)構(gòu)信息.文獻[41]可以使用現(xiàn)有的高質(zhì)量網(wǎng)格模型來生成新模型，但當(dāng)原模型或目標模型缺失區(qū)域較大時，變形還需要更改原模型的拓撲結(jié)構(gòu)，否則會產(chǎn)生錯誤的對應(yīng)點.文獻[42]能夠明確點云中各點之間的拓撲關(guān)系.

4 形狀分類與分割

基于檢索或劃分的目的，對具有相似特征或相同屬性的點云數(shù)據(jù)進行區(qū)域的分割或?qū)傩缘姆诸愂菢O其重要的.

4.1 基于體素的網(wǎng)絡(luò)

使用體素這種規(guī)則的數(shù)據(jù)結(jié)構(gòu)可以保留和表達空間分布.通常，每個體素僅包含布爾占用狀態(tài)而不是其他詳細的點分布.

2016年Qi等人[43]對體素CNN和多視角CNN進行了改進并介紹了2種不同的體素CNN網(wǎng)絡(luò)結(jié)構(gòu).第1種網(wǎng)絡(luò)有利于對對象的細節(jié)進行研究，第2種網(wǎng)絡(luò)有利于捕捉對象的全局結(jié)構(gòu).

2017年Tchapmi等人[44]提出SEGCloud，Wang等人[45]提出O-CNN.SEGCloud聯(lián)合基于體素的3維全卷積神經(jīng)網(wǎng)絡(luò)(3-dimensional fully convolutional neural networks, 3D-FCNN)和基于點的條件隨機場(conditional random fields, CRF)，從而在原始3維點空間中實現(xiàn)分割.O-CNN的核心思想是用八叉樹表示3維形狀并離散化其表面，僅對3維形狀邊界所占據(jù)的稀疏八叉樹進行CNN運算.其特殊之處在于八叉樹的葉子節(jié)點存儲的是法向量信息.

與SEGCloud類似，同樣使用稀疏卷積的是2018年Graham等人[46]介紹的子流形稀疏卷積網(wǎng)絡(luò)(submanifold sparse convolutional networks, SSCN).他們引入子流形稀疏卷積(submanifold sparse con-volution, SSC)算子，并將其作為SSCN的基礎(chǔ)，以稀疏體素作為輸入，能夠處理高維空間中的數(shù)據(jù)，并可用3維點云語義分割.

為了有效地編碼體素中點的分布，2019年Meng等人[47]提出新的體素變分自編碼器(variational auto-encoder, VAE)網(wǎng)絡(luò)VV-NET.每個體素內(nèi)的點分布由自編碼器捕捉，該編碼器利用徑向基函數(shù)(radial basis functions, RBF)，既提供了規(guī)則結(jié)構(gòu)，又能獲取詳細的數(shù)據(jù)分布.

2020年Shao等人[48]提出基于空間散列的數(shù)據(jù)結(jié)構(gòu)，設(shè)計了hash2col和col2hash，使得卷積和池化等CNN操作[49]能夠有效地并行化，使用完美空間散列(perfect spatial hashing, PSH)整合3維形狀.

文獻[43]的2種體素CNN網(wǎng)絡(luò)結(jié)構(gòu)輸出結(jié)果的精度值較高，但高分辨率會限制該網(wǎng)絡(luò)的性能.文獻[44]結(jié)合了神經(jīng)網(wǎng)絡(luò)(neural networks, NNs)、三線性插值(trilinear interpolation, TI)和全連接條件隨機場(fully connected conditional random fields, FC-CRF)的優(yōu)點，表現(xiàn)出相當(dāng)高的性能.與“暴力”體素化方案相比，文獻[45]使用的八叉樹結(jié)構(gòu)有效減少了占用的內(nèi)存，但是也生成了許多冗余的空葉八叉樹.特別是對于高分辨率模型，其內(nèi)存開銷相當(dāng)大.文獻[46]在識別大場景中的對象表現(xiàn)出高效率、高精度的優(yōu)勢.文獻[47]占用內(nèi)存較小且效率較高，但與其他方法相比，其精度不顯優(yōu)勢且處理某些特定形狀時可能會出錯.文獻[48]利用3維形狀邊界稀疏性，建立不同分辨率下模型的層次散列表，顯著減少了CNN訓(xùn)練過程中占用的內(nèi)存.

4.2 基于視圖的網(wǎng)絡(luò)

在基于視圖的方法中，通常將點云投影到2維圖像中，并利用2維CNN提取及融合圖像特征，進而應(yīng)用于后續(xù)具體任務(wù)中.

受現(xiàn)有深度學(xué)習(xí)網(wǎng)絡(luò)的限制，基于多視角的方法只能從特定角度識別點云模型.因此，選擇角度提取點云的所有信息是難點.2017年Lawin等人[50]與2019年Zhou等人[51]分別提出不同的視角選擇方法來應(yīng)對挑戰(zhàn).為了完全覆蓋渲染視圖中的點云，Lawin等人[50]控制等距角，生成具有不同俯仰角和平移距離的圖像.Zhou等人[51]提出了MVPointNet，其視圖是利用變換網(wǎng)絡(luò)(transformer network, T-Net)[1]生成的變換矩陣來確定多個相同的旋轉(zhuǎn)角度獲取的，這保證了網(wǎng)絡(luò)對幾何變換的不變性.

點云包含了豐富的3維信息，不同的視圖包含不同的2維信息.不同于以上只利用不同視角圖像的方法，2017年Guerry等人[52]提出的SnapNet-R可同時利用2維圖像和3維空間結(jié)構(gòu)中的信息，2019年Jaritz等人[53]提出的MVPNet將2維圖像特征聚合到3維中，2019年Yang等人[54]提出的Relation Network綜合考慮了不同視圖之間區(qū)域到區(qū)域和視圖到視圖的關(guān)系.

對于單個圖像，SnapNet-R[52]生成多個視圖，所有視圖都對應(yīng)于從不同的角度看到的場景.MVPNet[53]采用貪心算法動態(tài)選擇RGB-D幀，并獲取不同幀上的2維圖像特征，然后將這些特征提升到3維，并將它們聚集到原始點云中以進行語義分割.對于給定視圖中的某區(qū)域，Relation Network[54]從其他視圖中找到匹配或相關(guān)區(qū)域，并利用來自匹配或相關(guān)區(qū)域的線索來重新增強該區(qū)域的信息.此外，其還采用注意選擇機制生成各視圖的重要性分數(shù)，該分數(shù)反映視圖的相對辨別能力.

文獻[50]僅使用顏色值或法線作為輸入也能取得較高的性能.文獻[51]提取中心點與鄰域點之間的信息，在3維形狀分類中精度較高.文獻[52]證明了3維結(jié)構(gòu)重建與2維語義標記是互利的.文獻[53]計算了2維圖像特征，這可以從高分辨率的圖像中收集額外的信息，提升到3維中的2維特征包含上下文信息.文獻[54]的網(wǎng)絡(luò)結(jié)構(gòu)考慮了區(qū)域到區(qū)域的關(guān)系和視圖到視圖的關(guān)系，對3維對象的學(xué)習(xí)能力較強.

4.3 基于點的網(wǎng)絡(luò)

CNN處理點云的研究中，大多數(shù)方法需要對點云進行體素化或?qū)⑵滢D(zhuǎn)化為視圖等其他操作，這會帶來一定的局限性.直接對點云進行處理即相當(dāng)于直接處理原始數(shù)據(jù)，其優(yōu)勢十分顯著.

基于點云數(shù)據(jù)不規(guī)則的特點，針對采樣密度不確定的情況，2018年Atzmon等人[55]提出點卷積神經(jīng)網(wǎng)絡(luò)(point convolutional neural networks, PCNN)，對圖像CNN進行了泛化，允許調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)，利用擴展算子和約束算子生成適應(yīng)點云的卷積.Hermosilla等人[56]提出Monte Carlo卷積，使用Monte Carlo積分做卷積計算，利用這一概念可以組合處理來自不同層的多個采樣信息.2020年Zhai等人[57]提出雙輸入網(wǎng)絡(luò)(dual-input network, DINet)框架和適用于該框架的正則化方法，可以減少噪聲和背景對分類任務(wù)的干擾.

對于局部信息丟失問題，2019年白靜等人[58]提出的MSP-Net與2020年Hu等人[59]提出的RandLA-Net都能在網(wǎng)絡(luò)訓(xùn)練過程中有效改變感受野范圍.2021年杜靜等人[60]引入局部殘差塊能夠提取更多局部細節(jié)信息.

只使用最高層特征將會丟失較多底層細節(jié)信息，在滿足點云覆蓋的完備、空間分布的自適應(yīng)性及區(qū)域之間的重疊性的要求下，文獻[58]提出多尺度局部區(qū)域劃分及多尺度局部特征融合算法.

昂貴的采樣技術(shù)或計算繁重的預(yù)/后處理使得大多數(shù)方法只能處理小規(guī)模點云.RandLA-Net[59]使用隨機采樣解決規(guī)模局限性，引入局部空間編碼(local spatial encoding, LocSE)模塊逐步增大感受野來學(xué)習(xí)復(fù)雜的局部結(jié)構(gòu)，能有效保留幾何特征.文獻[60]融合幾何結(jié)構(gòu)特征及語義特征，改進殘差模塊以實現(xiàn)點云數(shù)據(jù)復(fù)雜幾何結(jié)構(gòu)的提取.

基于點云本身無序性的特點，為了滿足置換不變性與順序不變性，2019年Wu等人[61]提出PointConv、Wang等人[62]提出DGCNN、Komarichev等人[63]提出環(huán)狀卷積、Zhang等人[64]提出ShellNet，2020年Zhao等人[65]提出Point Transformer，2021年Guo等人[66]提出PCT.

PointConv[61]擴展到反卷積PointDeconv可以獲得更好的分割結(jié)果，這是大多數(shù)現(xiàn)有算法不能實現(xiàn)的操作.DGCNN[62]顯式地構(gòu)造局部圖并學(xué)習(xí)邊的嵌入，因此能夠在語義空間中對點進行分組.點云中普遍存在法向翻轉(zhuǎn)，環(huán)形保護策略下，無論相鄰點如何排列，其結(jié)果不變.Komarichev等人[63]將搜索區(qū)域限制在局部環(huán)形區(qū)域中.這使得相鄰點序列的首尾相連，因此，可以基于任意起始位置排序.卷積運算ShellConv使用同心球的統(tǒng)計信息來定義代表性特征并解決點序模糊性.ShellNet[64]是在ShellConv的基礎(chǔ)上進一步建立的.

Point Transformer[65]與PCT[66]的相同之處在于都以transformer為基礎(chǔ).文獻[65]設(shè)計了適合于處理點云的point transformer layer，并構(gòu)造以其為核心的residual point transformer block，它有助于局部特征向量之間的信息交換，為所有數(shù)據(jù)點生成新的特征向量.文獻[66]的PCT編碼器將輸入坐標嵌入到特征空間中生成特征，繼而輸入注意模塊中獲取具有區(qū)分性的表示并學(xué)習(xí)點的語義信息.

針對點云密度不同的問題，文獻[55]計算效率高，對點云中點的階數(shù)不變，對采樣密度變化魯棒性強，但其計算量較大.文獻[56]參數(shù)數(shù)量較少，但在不同規(guī)模的點云中，效率與質(zhì)量方面的高性能不能兼得.文獻[57]在處理包含大量噪聲和復(fù)雜背景信息的真實數(shù)據(jù)時也能表現(xiàn)出較高精度.文獻[58]所提的MSP-Net是多尺度分類網(wǎng)絡(luò)，隨著神經(jīng)網(wǎng)絡(luò)深度的增加及感受野的擴大，其特征抽象程度也越高.文獻[59-60]可直接處理大規(guī)模點云，前者能夠很好地權(quán)衡效率和質(zhì)量問題，后者注意力機制的引入及殘差模塊的改進，提高了網(wǎng)絡(luò)獲取更具區(qū)分性語義特征的提取能力.

針對順序與置換不變的特點，文獻[61]能夠完全逼近任意3維點上的連續(xù)卷積，特定的反卷積操作可以獲得更好的分割結(jié)果.文獻[62]使用有向圖表示點云的局部結(jié)構(gòu)，能夠更好地捕捉結(jié)構(gòu)信息，但該方法的某些細節(jié)設(shè)計影響了其效率.文獻[63]可以在局部環(huán)形區(qū)域上定義任意大小的卷積核，更好地捕獲鄰域結(jié)構(gòu)，且捕獲到的信息不重疊.文獻[64]在不增加網(wǎng)絡(luò)層數(shù)的情況下允許感受野更大，且解決了卷積階數(shù)問題.文獻[65]中residual point transformer block集成self-attention與線性投影，可以減少維數(shù)并加速處理過程.文獻[66]用注意模塊的輸入和注意特征之間的偏移量來代替注意特征，提出隱式拉普拉斯算子和歸一化改進，偏移注意優(yōu)化過程可以近似理解為拉普拉斯過程.

4.4 算法性能對比分析

本節(jié)將從評估指標與算法詳細對比分析2部分進行介紹.

4.4.1 評估指標

目前廣泛使用的指標為準確率(accuracy,Acc)、精確率(precision,P)、召回率(recall,R)以及交并比(intersection over union,IoU).

指標計算公式中，TP(true positives)表示正類判定為正類，F(xiàn)P(false positives)表示負類判定為正類，F(xiàn)N(false negatives)表示正類判定為負類，TN(true negatives)表示負類判定為負類.

N類對象中，第i類的準確率為

(1)

N類對象的類間平均準確率為

(2)

精確率指的是所有被判定為正類(TP+FP)中，真實的正類(TP)所占的比例.N類對象中，第i類的精確率為

(3)

N類對象的總體精度為

(4)

N類對象中，第i類的交并比為

(5)

所有類的平均交并比為

(6)

召回率指所有真實為正類(TP+FN)中被判定為正類(TP)占的比例，其計算方式為

(7)

除了這些指標外，還有一個重要指標為平均精準度(average precision,AP).基于精確率和召回率即可得到PR(precision-recall)曲線(R值為橫軸，P值為縱軸)，則PR曲線的線下面積即為AP值.注：mAP為所有類別下AP的均值.

4.4.2 算法對比

文獻[43-48]都是基于體素的方法.具體來說，文獻[43]提出的2種體素CNN網(wǎng)絡(luò)結(jié)構(gòu)在結(jié)合數(shù)據(jù)擴充和多方向池化后，性能有顯著的提升.該方法顯著地改善了體素CNN在3維形狀分類方面的研究現(xiàn)狀，但更高的3維分辨率會限制該網(wǎng)絡(luò)的性能.文獻[44]使用了基于標準體素的3D-FCNN，并且仍然可以使用稀疏卷積來適應(yīng)體素的稀疏性.文獻[45]利用了八叉樹表示的稀疏性和形狀的局部方向性，實現(xiàn)了緊湊的存儲和快速的計算.但其存儲和計算開銷隨著八叉樹深度的增加呈2次增長，且該算法沒有考慮形狀的幾何變化.文獻[46]在識別單個模型部件或大場景中的對象時，都表現(xiàn)出高效率高精度的優(yōu)勢.文獻[47]進一步使用RBF來計算每個體素內(nèi)的局部連續(xù)表示.此外，對對稱性進行了編碼，并在不增加參數(shù)數(shù)量的情況下提高了網(wǎng)絡(luò)的表達能力，獲得更穩(wěn)健的分割結(jié)果.VV-Net對包含噪聲的數(shù)據(jù)具有一定的魯棒性.但對某些特定形狀的輸入，它得到的效果并不好.文獻[48]中PSH的運用使得散列表的大小與輸入3維模型的大小相同.2種GPU算法使得基于散列的模型實現(xiàn)了CNN操作的并行計算，其內(nèi)存開銷比現(xiàn)有的基于八叉樹的方法(如O-CNN)小得多，運行速度較快.但所有PSH都是使用CPU生成的，使用GPU可進一步加速該過程.

文獻[50-54]都是基于視圖的方法.只利用不同視角圖像的算法中，文獻[50]從點云中提取不同信息(如顏色、深度值和法線)并組合多種信息作為輸入，判斷其對分割結(jié)果的影響.該方法證明多種信息的融合能顯著提高分割性能.該方法得益于大量現(xiàn)成的用于圖像分割和分類的數(shù)據(jù)集，這大大減少甚至消除了訓(xùn)練3維數(shù)據(jù)的需要.此外，該方法提高了空間分辨率和分割結(jié)果的質(zhì)量.文獻[51]引入了豐富的局部結(jié)構(gòu)特征，這些特征包含了中心點及其鄰域點之間的信息，能夠更好地表示和捕捉模型的上下文結(jié)構(gòu).多個視圖的融合包含了更多的點云信息，使網(wǎng)絡(luò)在3維目標分類任務(wù)中具有更強的魯棒性和準確性.

除了不同視角圖像外，還考慮其他信息(點云信息、不同視圖的聯(lián)系等)的算法中，與僅使用RGB-D單幅圖像相比，文獻[52]利用了點云中的信息，具有更高的完備性，能夠快速生成與原始相機位置不同的視點.文獻[53]有效融合2維視角圖像和3維點云，在將2維信息提升到3維之前，先計算了2維圖像特征，證明了從多視角圖像中計算圖像特征的優(yōu)越性.其網(wǎng)絡(luò)訓(xùn)練速度較快，對密度變化的點云具有更高的魯棒性，在遮擋情況下也能實現(xiàn)良好的分割.文獻[54]從不同的角度有效地連接相應(yīng)的區(qū)域，從而增強了單個視圖圖像的信息，利用視圖之間的相互關(guān)系，并對這些視圖進行集成以獲得有區(qū)別的3維對象表示.

文獻[55-66]都是基于點的處理方法.主要針對點云密度問題的算法中，文獻[55]的框架由擴展算子和約束算子組成，其核心思想得到適應(yīng)任意點云的卷積.文獻[56]能在相鄰點數(shù)目可變的感受野中直接工作.特定的結(jié)構(gòu)可以在2個不同采樣密度之間進行卷積，實現(xiàn)從較低采樣到較高采樣的映射，也可以降低采樣分辨率.該方法在均勻與非均勻采樣中都表現(xiàn)出優(yōu)越性能.但是，它存在效率與質(zhì)量的權(quán)衡：小規(guī)模點云或較小的感受野中，其計算速度很快但結(jié)果不精確；大規(guī)模點云或較大的感受野中，其結(jié)果精度較高但計算速度慢.文獻[57]提出適用于DINet框架的正則化方法能有效減少點云噪聲和遮擋對原始信息的干擾.文獻[58]建立不同尺度的局部感受野，能隨著感受野的擴大獲得抽象程度更高的多尺度局部語義重要特征，其多尺度局部空間劃分貼合點云空間分布，但該算法未考慮單一尺度局部區(qū)域的關(guān)系.文獻[59-60]都采用隨機采樣解決點云規(guī)模過大的問題，但隨機采樣在快速采樣的同時很可能會丟失關(guān)鍵特征.二者為彌補該問題所采取的方法也有一定的相似之處：前者引入LocSE，后者設(shè)計多特征提取模塊.它們都對中心點、鄰域點的3維坐標、中心點與鄰域點間的歐氏距離和相對坐標進行編碼，用于后續(xù)特征處理.

主要針對順序與置換不變的算法中，文獻[61]可以實現(xiàn)與2維卷積網(wǎng)絡(luò)中相同的平移不變性以及點云中點的順序不變性.此外，它可以在保證高效利用內(nèi)存的同時實現(xiàn)改變求和順序技術(shù).文獻[62]動態(tài)更新圖的同時聚合點，它描述的是相鄰點之間的邊特征.文獻[63]可以在具有相同大小卷積核且不增加參數(shù)的情況下覆蓋較大的區(qū)域.基于環(huán)的方法可以聚集更多具有區(qū)分性的特征，能夠更好地捕獲形狀的幾何細節(jié).文獻[64]定義從內(nèi)到外的卷積順序，允許高效的鄰域點查詢.ShellNet具有快速的局部特征學(xué)習(xí)能力，同時能以較快的速度訓(xùn)練網(wǎng)絡(luò).文獻[65]引入了可訓(xùn)練的、參數(shù)化的位置編碼，這對后續(xù)特征轉(zhuǎn)換非常重要.文獻[66]采用鄰域嵌入策略來改進點嵌入，增強局部上下文信息獲取能力.其注意機制在獲取全局特征方面是有效的，但是它可能忽略了點云學(xué)習(xí)所必需的局部幾何信息.

表2與表3分別給出各算法在處理分類與分割任務(wù)的性能比較.其中，由于文獻[45，48]受分辨率影響，表中給出分辨率為643的結(jié)果.

Table 2 Performance Comparison of Classified Tasks 表2 分類任務(wù)性能比較 %

Table 3 Performance Comparison of Segmentation Tasks 表3 分割任務(wù)性能比較 %

5 目標檢測與跟蹤

自動駕駛、機器人設(shè)計等領(lǐng)域中，3維目標檢測與跟蹤至關(guān)重要.自動駕駛車輛和無人機的避障等實際應(yīng)用中，涉及障礙物檢測與跟蹤.

5.1 3維目標跟蹤

目標跟蹤是推測幀的屬性并預(yù)測變化，即推斷對象的運動情況，可以利用預(yù)測對象的運動信息進行干預(yù)使之實際運動符合預(yù)期目標或用戶要求.

為了從點云中推斷出目標對象的可移動部件以及移動信息，2019年Yan等人[67]提出RPM-Net.其特定的體系結(jié)構(gòu)夠預(yù)測對象多個運動部件在后續(xù)幀中的運動，同時自主決定運動何時停止.

2020年Wang等人[68]提出PointTrackNet.網(wǎng)絡(luò)中提出了新的數(shù)據(jù)關(guān)聯(lián)模塊，用于合并2幀的點特征，并關(guān)聯(lián)同一對象的相應(yīng)特征.首次使用3維 Siamese跟蹤器并應(yīng)用于點云的是Giancola等人[69].基于Achlioptas等人[70]提出的形狀完成網(wǎng)絡(luò)，2019年Giancola等人[69]通過使用給定對象的語義幾何信息豐富重編碼后的表示來提高跟蹤性能.

2019年Burnett等人[71]提出aUToTrack，使用貪婪算法進行數(shù)據(jù)關(guān)聯(lián)和擴展卡爾曼濾波(extended Kalman filter, EKF)跟蹤目標的位置和速度.Simon等人[72]融合2維語義信息及LIDAR數(shù)據(jù)，還引入了縮放旋轉(zhuǎn)平移分數(shù)(scale-rotation-translation score, SRTs)，該方法可更好地利用時間信息并提高多目標跟蹤的精度.

文獻[67]可以從開始幀和結(jié)束幀的移動部分導(dǎo)出變化范圍，故參數(shù)中不含變換范圍，減少了參數(shù)個數(shù).文獻[68]提供的跟蹤關(guān)聯(lián)信息有助于減少目標短期消失的影響，其性能比較穩(wěn)定，但是當(dāng)汽車被嚴重遮擋時，結(jié)果會出現(xiàn)問題.文獻[69]解決了相似性度量、模型更新以及遮擋處理3方面的問題，但該方法直接利用對稱性來完善汽車整體形狀會導(dǎo)致更多噪聲.文獻[71]實際需要計算被檢測物體的質(zhì)心，這種方法能有效檢測行人，但對于汽車來說，其結(jié)果并不準確.文獻[72]提出的SRTs可用于快速檢測目標，提高了準確性和魯棒性.

5.2 3維場景流估計

機器人和人機交互中的應(yīng)用可以從了解動態(tài)環(huán)境中點的3維運動，即場景流中受益.以往對場景流的研究方法主要集中于立體圖像和RGB-D圖像作為輸入，很少有人嘗試從點云中直接估計.

2019年Behl等人[73]提出PointFlowNet，網(wǎng)絡(luò)聯(lián)合預(yù)測3維場景流以及物體的3維包圍盒和剛體運動.Gu等人[74]提出HPLFlowNet，可以有效地處理非結(jié)構(gòu)化數(shù)據(jù)，也可以從點云中恢復(fù)結(jié)構(gòu)化信息.能在不犧牲性能的前提下節(jié)省計算成本.Liu等人[75]提出FlowNet3D.由于每個點都不是“獨立”的，相鄰點會形成有意義的信息，故而FlowNet3D網(wǎng)絡(luò)嵌入層會學(xué)習(xí)點的幾何相似性和空間關(guān)系.

文獻[73]先檢測出object并計算出ego motion和scene flow，再去回歸各個object的motion，它從非結(jié)構(gòu)化點云中直接估計3維場景流.文獻[74-75]的整體結(jié)構(gòu)類似，都是下采樣-融合-上采樣，直接擬合出scene flow.

5.3 3維目標檢測與識別

在城市環(huán)境中部署自動型車輛是一項艱巨的技術(shù)挑戰(zhàn)，需要實時檢測移動物體，如車輛和行人.為了在大規(guī)模點云中實現(xiàn)實時檢測，研究者針對不同需求提出多種方法.

2019年Shi等人[76]提出PointRCNN，將場景中的點云基于包圍盒生成真實分割掩模，分割前景點的同時生成少量高質(zhì)量的包圍盒預(yù)選結(jié)果.在標準坐標中優(yōu)化預(yù)選結(jié)果來獲得最終檢測結(jié)果.

2019年Lang等人[77]提出編碼器PointPillars.它學(xué)習(xí)在pillars中組織的點云表示，通過操作pillar，無需手動調(diào)整垂直方向的組合.由于所有的關(guān)鍵操作都可以表示為2維卷積，所以僅使用2維卷積就能實現(xiàn)端到端的3維點云學(xué)習(xí).

考慮到模型的通用性，2019年Yang等人[78]提出STD，利用球形錨生成精確的預(yù)測，保留足夠的上下文信息.PointPool生成的規(guī)范化坐標使模型在幾何變化下具有魯棒性.box預(yù)測網(wǎng)絡(luò)模塊消除定位精度與分類得分之間的差異，有效提高性能.

2019年Liu等人[79]提出大規(guī)模場景描述網(wǎng)絡(luò)(large-scale place description network, LPD-Net).該網(wǎng)絡(luò)采用自適應(yīng)局部特征提取方法得到點云的局部特征.此外，特征空間和笛卡兒空間的融合能夠進一步揭示局部特征的空間分布，歸納學(xué)習(xí)整個點云的結(jié)構(gòu)信息.

為了克服一般網(wǎng)絡(luò)中點云規(guī)模較小的局限性，2019年P(guān)aigwar等人[80]提出Attentional PointNet.利用Attentional機制進行檢測能夠在大規(guī)模且雜亂無章的環(huán)境下重點關(guān)注感興趣的對象.

2020年Shi等人[81]提出PV-RCNN.它執(zhí)行2步策略：第1步采用體素CNN進行體素特征學(xué)習(xí)和精確的位置生成，以節(jié)省后續(xù)計算并對具有代表性的場景特征進行編碼；第2步提取特征，聚集特征可以聯(lián)合用于后續(xù)的置信度預(yù)測和進一步細化.

文獻[76]生成的預(yù)選結(jié)果數(shù)量少且質(zhì)量高.文獻[77]能夠利用點云的全部信息，其計算速度較快.文獻[78]能夠?qū)Ⅻc特征從稀疏表示轉(zhuǎn)換為緊湊表示，且用時較短.文獻[79]充分考慮點云的局部結(jié)構(gòu)，自適應(yīng)地將局部特征作為輸入，在不同天氣條件下仍能體現(xiàn)出健壯性.文獻[80]不必處理全部點云，但預(yù)處理步驟使得計算成本較大.文獻[81]結(jié)合基于體素的與基于PointNet的優(yōu)勢，能夠?qū)W習(xí)更具鑒別力的點云特征.

5.4 算法性能對比分析

跟蹤算法中，文獻[67]主要關(guān)注的是物體部件的跟蹤，文獻[68]與文獻[69]則主要檢測同一物體在不同時間的狀態(tài).文獻[67]的優(yōu)勢在于可以同時預(yù)測多個運動部件及其各自的運動信息，進而產(chǎn)生基于運動的分割.該方法實現(xiàn)高精度的前提是輸入對象的幾何結(jié)構(gòu)明確，否則很有可能會生成不完美的運動序列.文獻[68]在快速變化的情況下，如突然剎車或轉(zhuǎn)彎，其結(jié)果仍可靠.但是當(dāng)目標被嚴重遮擋時，其結(jié)果并不可靠.由于大多數(shù)模型(如汽車模型)只能從單側(cè)看到，文獻[69]利用對稱性完善汽車形狀的方法未必是有效的.文獻[71]的處理方法較簡單且用時較短，在CPU上運行時間不超過75 ms.它能在檢測行人時達到較高性能.但用于擁擠道路的自動駕駛時，其采用的質(zhì)心估計對于汽車并不準確.文獻[72]同時利用2維信息與3維 LIDAR數(shù)據(jù)，且使用的SRTs指標可縮短訓(xùn)練時間.

場景流估計算法中，文獻[73]聯(lián)合3維場景流和剛性運動進行預(yù)測，其效率較高且處理不同運動時具有魯棒性.文獻[74]與文獻[75]都以端到端的方式從點云中學(xué)習(xí)場景流.前者從非結(jié)構(gòu)化的點云中恢復(fù)結(jié)構(gòu)化，在生成的網(wǎng)格上進行計算，后者則是在點云的連續(xù)幀中計算.

檢測算法中，文獻[76]不會在量化過程中丟失信息，也不需要依賴2維檢測來估計3維包圍盒，故而可以充分利用3維信息.文獻[77]的處理速度較快，計算效率較高.文獻[78]具有較高的計算效率和較少的計算量，能夠同時集成基于點和基于體素的優(yōu)點.文獻[79]引入局部特征作為網(wǎng)絡(luò)輸入，有助于充分了解輸入點云的局部結(jié)構(gòu).文獻[80]能夠有效地獲取數(shù)據(jù)的3維幾何信息.但是，將點云裁剪成較小區(qū)域等預(yù)處理步驟增加了計算成本.文獻[81]結(jié)合了基于體素與基于PointNet的優(yōu)點，不僅保留了精確的位置，而且編碼了豐富的場景上下文信息.

表4給出KITTI數(shù)據(jù)集下不同算法處理跟蹤任務(wù)的性能對比.指標為多目標跟蹤準確度(multi-object tracking accurancy, MOTA)、多目標跟蹤精確度(multi-object tracking precision, MOTP)、目標大部分被跟蹤到的軌跡占比(mostly tracked, MT)、目標大部分跟丟的軌跡占比(mostly lost, ML)、ID改變總數(shù)量(ID switches, IDS)、跟蹤過程中被打斷的次數(shù)(fragmentation, FRAG)及每秒幀數(shù)(frames per second, FPS).

Table 4 Performance Comparison of Tracking Tasks 表4 處理跟蹤任務(wù)性能對比

表5給出在KITTI數(shù)據(jù)集下3維檢測框(3-dimensional detection benchmark, 3D)、BEV視圖下檢測框(bird eye view detection benchmark, BEV)與檢測目標旋轉(zhuǎn)角度(average orientation similarity detection benchmark, AOS)的檢測結(jié)果.其中，評估指標為AP，IoU閾值為：汽車0.7，行人和自行車0.5.

Table 5 Performance Comparison of Detecting Tasks 表5 處理檢測任務(wù)性能對比 %

6 姿態(tài)估計

3維姿態(tài)估計即確定目標物體的方位指向問題，在機器人、動作跟蹤和相機定標等領(lǐng)域都有應(yīng)用.

6.1 位姿估計

解決3維可視化問題的中間步驟一般是確定3維局部特征，位姿估計是其中最突出的問題.

2017年Elbaz等人[82]提出的LORAX采用了可以處理不同大小點云的設(shè)置，并設(shè)計了對大規(guī)模掃描數(shù)據(jù)有效的算法.2019年Speciale等人[83]將原始3維點提升到隨機方向的3維線上，僅存儲3維線和3維點的關(guān)聯(lián)特征描述符，這類映射被稱為3維線云.2019年Zhang等人[84]從目標點云中自動提取關(guān)鍵點，生成對剛性變換不變的逐點特征，利用層次式神經(jīng)網(wǎng)絡(luò)預(yù)測參考姿態(tài)對應(yīng)的關(guān)鍵點坐標.最后計算出當(dāng)前姿態(tài)與參考姿態(tài)之間的相對變換.

2018年Deng等人[85]提出了PPF-FoldNet，通過點對特征(point pair feature, PPF)對局部3維幾何編碼，建立了理論上的旋轉(zhuǎn)不變性，同時兼顧點的稀疏性和置換不變性，能很好地處理密度變化.

考慮到成對配準描述符也應(yīng)該為局部旋轉(zhuǎn)的計算提供線索，2019年Deng等人[86]提出端到端的配準方法.這種算法在PPF-FoldNet[85]的工作基礎(chǔ)上，通過學(xué)習(xí)位姿變換將3維結(jié)構(gòu)與6自由度運動解耦.該方法基于數(shù)據(jù)驅(qū)動來解決2點云配準問題.

2020年Kurobe等人[87]提出CorsNet，連接局部特征與全局特征，不直接聚集特征，而是回歸點云之間的對應(yīng)關(guān)系，比傳統(tǒng)方法集成更多信息.

文獻[82]解決了2點云之間點數(shù)相差數(shù)倍的問題，它簡單、快速，并且具備擴展性，但在極端情況下，其結(jié)果會出錯.文獻[83]只使用了一個幾何約束，其準確性與召回率可以與傳統(tǒng)方法媲美，但這種方法的速度較慢.文獻[84]需要較少的訓(xùn)練數(shù)據(jù)，因此對于沒有紋理的對象，它更快、更精確.文獻[85]繼承了多個網(wǎng)絡(luò)框架的優(yōu)點，且充分利用點云稀疏性，能夠快速提取描述符.文獻[86]提高了成對配準的技術(shù)水平且減少了運行時間.文獻[87]結(jié)合了局部與全局特征，從平移和旋轉(zhuǎn)的角度而言準確性較高.表6上半部分給出位姿估計算法的核心方法及優(yōu)勢對比分析.

Table 6 Comparison of Pose Estimation Methods 表6 姿勢估計方法對比

6.2 手部姿態(tài)估計

點云作為更簡單有效的數(shù)據(jù)表示方法，其輸入的點集和輸出的手部姿態(tài)共享相同表示域，有利于學(xué)習(xí)如何將輸入數(shù)據(jù)映射到輸出姿態(tài)上.

為了直接從點云中估計手部姿態(tài)，同樣以手部3維點云為輸入，2018年Chen等人[88]提出語義手部姿態(tài)回歸網(wǎng)絡(luò)(semantic hand pose regression network, SHPR-Net)，通過學(xué)習(xí)輸入數(shù)據(jù)的變換矩陣和輸出姿態(tài)的逆矩陣應(yīng)對幾何變換的挑戰(zhàn).Ge等人[89]提出的方法輸出反映手部關(guān)節(jié)的每點貼近度和方向的heat-maps和單位向量場，并利用加權(quán)融合從估計的heat-maps和單位向量場中推斷出手部關(guān)節(jié)位置.2019年Li等人[90]提出的方法以置換等變層(permutation equivariant layer, PEL)為基本單元，構(gòu)建了基于PEL的殘差網(wǎng)絡(luò)模型.且手部姿態(tài)是利用點對姿勢的投票方案來獲得的，這避免了使用最大池化層提取特征而導(dǎo)致的信息丟失.

現(xiàn)有的手部姿態(tài)估計方法大多依賴于訓(xùn)練集，而在訓(xùn)練數(shù)據(jù)上標注手部3維姿態(tài)費時費力.2019年Chen等人[91]提出的SO-HandNet旨在利用未注記數(shù)據(jù)以半監(jiān)督的方式獲得精確的3維手部姿態(tài)估計.通過自組織映射(self-organizing map， SOM)模擬點的空間分布，然后對單個點和SOM節(jié)點進行層次化特征提取，最終生成輸入點云的判別特征.

2018年Ge等人[92]提出Hand PointNet，提出的精細化網(wǎng)絡(luò)可以進一步挖掘原始點云中更精細的細節(jié)，能夠回歸出更精確的指尖位置.Huang等人[93]認為學(xué)習(xí)算法不僅要研究數(shù)據(jù)的內(nèi)在相關(guān)性，而且要充分利用手部關(guān)節(jié)之間的結(jié)構(gòu)相關(guān)性及其與輸入數(shù)據(jù)的相關(guān)性.基于此，2020年他們提出非自回歸手部transformer(non-autoregressive hand transformer, NARHT)，以關(guān)節(jié)特征的形式提供參考手部姿態(tài)，利用其固有的相關(guān)性來逼近輸出姿態(tài).

文獻[88]對點云的幾何變換具有魯棒性.文獻[89]能夠很好地捕捉空間中點云的結(jié)構(gòu)信息.文獻[90]較利用體素的方法占用內(nèi)存更少，但其效率不如基于深度圖像的方法.文獻[91]的特征編碼器能夠揭示輸入點云的空間分布.文獻[92]能夠捕捉復(fù)雜的手部結(jié)構(gòu)，并精確地回歸出手部姿態(tài)的低維表示.文獻[93]采用新的non-autoregressive結(jié)構(gòu)學(xué)習(xí)機制來代替transformer的自回歸分解，在解碼過程中提供必要的姿態(tài)信息.表6下半部分給出手部姿態(tài)估計算法的核心方法及優(yōu)勢對比分析.

6.3 算法性能對比分析

位姿估計方法中，核心問題是找到旋轉(zhuǎn)矩陣與平移矩陣.文獻[83，85-86]都利用了RANSAC迭代算法.其中，文獻[83]實現(xiàn)了魯棒、準確的6自由度姿態(tài)估計.文獻[85]是無監(jiān)督、高精度、6自由度變換不變的網(wǎng)絡(luò).文獻[86]在挑戰(zhàn)成對配準的真實數(shù)據(jù)集方面優(yōu)于現(xiàn)有技術(shù)，具有更好的泛化能力且速度更快.文獻[82]的LORAX能夠并行實現(xiàn)，效率較高，適合實時應(yīng)用.它對隨機噪聲、密度變化不敏感，并且其魯棒性僅在極端水平下才會惡化.文獻[84]使用較少的訓(xùn)練圖像實現(xiàn)了較高的準確性.文獻[87]提出的CorsNet回歸的是對應(yīng)關(guān)系，而不是直接姿態(tài)變化.

手部姿態(tài)估計方法中，文獻[88]可獲得更具代表性的特征.SHPR-Net可以在不改變網(wǎng)絡(luò)結(jié)構(gòu)的前提下擴展到多視點的手部姿態(tài)估計，這需要將多視點的深度數(shù)據(jù)融合到點云上.然而，融合后的點云也會受到噪聲的影響.文獻[89]可以更好地利用深度圖像中的3維空間信息，捕捉3維點云的局部結(jié)構(gòu)，并且能夠集中學(xué)習(xí)手部點云的有效特征，從而進行精確的3維手部姿態(tài)估計.文獻[90]與基于體素化的方法相比，需要更少的內(nèi)存.但與基于深度圖像的方法相比，需要更多的計算時間和內(nèi)存.文獻[91]使用半監(jiān)督的方式對網(wǎng)絡(luò)進行訓(xùn)練，其性能可與全監(jiān)督的方法相媲美.文獻[92]有效利用深度圖中的信息，以較少的網(wǎng)絡(luò)參數(shù)捕獲更多的手部細節(jié)及結(jié)構(gòu)，并準確地估計其3維姿態(tài).文獻[93]首次結(jié)合結(jié)構(gòu)化手部姿勢估計與基于transformer的自然語言處理領(lǐng)域的轉(zhuǎn)換框架.引入?yún)⒖际植孔藙轂檩敵鲫P(guān)節(jié)提供等效依賴關(guān)系.文獻[89]的模型大小為17.2 MB.其中11.1 MB用于點對點回歸網(wǎng)絡(luò)，它是分層PointNet;6.1 MB用于附加的回歸模塊，它由3個全連層組成.文獻[90]有2種版本，回歸版本為38 MB，檢測版本為44 MB.文獻[91]中，手部特征編碼器(hand feature encoder, HFE)、手部特征解碼器(hand feature decoder, HFD)和手部特征估計器(hand pose estimator, HPE)的大小分別為8.1 MB，74 MB，8.5 MB.由于只在測試階段使用HFE和HPE，所以其網(wǎng)絡(luò)模型大小為16.6 MB.文獻[92]的模型大小為10.3 MB，其中回歸網(wǎng)絡(luò)為9.2 MB，指尖精細網(wǎng)絡(luò)為1.1 MB.不同方法在3個數(shù)據(jù)集上的性能對比分析如圖1所示:

Fig. 1 Performance comparison of hand pose estimation methods圖1 手部姿態(tài)估計方法的性能對比

7 總結(jié)

本文總結(jié)了近年來多種點云處理任務(wù)的方法，特別側(cè)重于基于深度學(xué)習(xí)的工作，為讀者提供了最新的研究進展.

大多數(shù)關(guān)于點云的綜述類文章都集中于討論點云分類分割處理任務(wù).如文獻[94-95]只討論了語義分割任務(wù)；文獻[96-97]增加了目標檢測和分類任務(wù)的研究分析.其中，文獻[97]只用1節(jié)內(nèi)容簡要介紹分類、分割及目標檢測三大任務(wù)，更關(guān)注于處理點云數(shù)據(jù)的深度學(xué)習(xí)方法，而不依據(jù)處理任務(wù)對其進行劃分討論.本文則考慮多種點云處理任務(wù)，包括模型重建與變換、分類分割、檢測跟蹤與姿態(tài)估計等.在模型分割分類中，由于大部分算法有用于實現(xiàn)點云分類與分割的功能，不同于文獻[96-97]將分類與分割作為2種類別分開討論，本文將它們統(tǒng)一考慮，并根據(jù)基于體素、基于視圖與基于點三大主流方法對其劃分并展開討論，明確給出各算法可處理的任務(wù).

目前，已經(jīng)有大量學(xué)者對點云處理任務(wù)進行研究并依據(jù)任務(wù)的不同提出多種方法，但這些方法或多或少都有一定的局限性.本文基于這些算法的不足總結(jié)點云處理任務(wù)所面臨的挑戰(zhàn)與發(fā)展趨勢.

1) 數(shù)據(jù)方面

大部分方法只在現(xiàn)有的數(shù)據(jù)集上進行實驗，而對于新獲取的數(shù)據(jù)并不適用.這很大程度上是由于新獲取的數(shù)據(jù)無法實現(xiàn)多角度、全方位的完美匹配，而且不同平臺獲得的數(shù)據(jù)難以融合，無法達到統(tǒng)一的標準.對于融合后的點云，具有魯棒性和區(qū)分性特征的提取有一定的難度，未來的研究可以從特征提取方面入手.

數(shù)據(jù)集尺度不均衡是由于真實復(fù)雜場景中檢測及識別小目標較為困難.未來研究工作可人工生成小目標樣本，增大數(shù)據(jù)集中小目標所占比例，進而在網(wǎng)絡(luò)訓(xùn)練中提高其識別檢測能力.

數(shù)據(jù)質(zhì)量對網(wǎng)絡(luò)(如transformers)的泛化性和魯棒性的影響較大[2].點云的幾何位置存在誤差時，可以通過已知控制點對其進行幾何矯正.當(dāng)使用激光掃描獲取數(shù)據(jù)時，除了考慮掃描距離和入射角度的問題，還可以進行強度矯正，通過不同方法改善點云的質(zhì)量.

隨著3維掃描技術(shù)的發(fā)展，大規(guī)模點云的獲取已不是難點，挑戰(zhàn)性在于如何對其進行處理.此外，算法精度依賴大批量的數(shù)據(jù)集[98]，目前還沒有比較好的解決手段.

2) 性質(zhì)方面

點云是3維空間內(nèi)點的集合，它沒有提供鄰域信息，故而大部分方法需要依據(jù)不同的鄰域查詢方法確定點的鄰域，這將導(dǎo)致算法增加額外的計算成本.點云不能顯式地表達目標結(jié)構(gòu)以及空間拓撲關(guān)系.此外，當(dāng)目標被遮擋或重疊時，不能依據(jù)幾何關(guān)系確定拓撲結(jié)構(gòu)，給后續(xù)處理任務(wù)帶來一定難度.

針對點云的不規(guī)則性及無序性，將其應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)中進行相關(guān)任務(wù)的處理需要做數(shù)據(jù)形式的轉(zhuǎn)換，如體素化[40].但這些轉(zhuǎn)換操作不但增加了計算量，而且很可能在轉(zhuǎn)換的過程中丟失信息，所以直接的點云處理方法是重要的研究方向.

3) 網(wǎng)絡(luò)結(jié)構(gòu)方面

① 基于快速和輕量級的模型.為了達到理想效果，目前的算法傾向于使用含大量參數(shù)的較大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，導(dǎo)致計算復(fù)雜度高、內(nèi)存占用大、速度慢等問題.因此，設(shè)計快速且輕量級的網(wǎng)絡(luò)架構(gòu)具有較大的應(yīng)用價值[99-100].

② 網(wǎng)絡(luò)結(jié)構(gòu)的改良.優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)可使同一網(wǎng)絡(luò)處理多種任務(wù)，能夠很大程度地降低復(fù)雜度[2].還可以考慮與其他網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合[45]來實現(xiàn)優(yōu)化目的.

4) 應(yīng)用方面

室外場景信息較多、結(jié)構(gòu)復(fù)雜，所以目前大多數(shù)方法著重于相對簡單的室內(nèi)場景的分析.然而自動駕駛[12]等技術(shù)的研究無法在室內(nèi)場景中完成，所以未來的研究方向可側(cè)重于構(gòu)建適用于室外場景的網(wǎng)絡(luò)模型.

現(xiàn)有分割方法大都用于單個物體的部件分割[1]或場景中同類對象的語義分割[25].而真實場景中目標類別眾多、結(jié)構(gòu)復(fù)雜，對同類對象的不同個體分割是3維形態(tài)檢測(文物、古建監(jiān)測)的重要手段.

現(xiàn)有的大多數(shù)算法主要利用靜態(tài)場景中獲取的數(shù)據(jù)，在地震檢測等實際應(yīng)用中，設(shè)計能夠應(yīng)對變化場景的算法具有重要應(yīng)用價值.利用時序上下文信息可作為其研究方向[99].

計算機視覺中的有效性通常與效率相關(guān)，它決定模型是否可用于實際應(yīng)用中[100]，因此在二者之間實現(xiàn)更好的平衡是未來研究中有意義的課題.

作者貢獻聲明：李嬌嬌負責(zé)調(diào)研文獻、撰寫并修改全文;孫紅巖負責(zé)檢查論文并提出指導(dǎo)意見；董雨和張若晗負責(zé)檢索、歸納、整理相關(guān)文獻;孫曉鵬負責(zé)確定論文思路、設(shè)計文章框架.