莊屹,趙海濤
(華東理工大學 信息科學與工程學院,上海 200237)(?通信作者電子郵箱haitaozhao@ecust.edu.cn)
面向三維點云單目標跟蹤的提案聚合網絡
莊屹,趙海濤*
(華東理工大學 信息科學與工程學院,上海 200237)(?通信作者電子郵箱haitaozhao@ecust.edu.cn)
與二維可見光圖像相比,三維點云在空間中保留了物體真實豐富的幾何信息,能夠應對單目標跟蹤問題中存在尺度變換的視覺挑戰(zhàn)。針對三維目標跟蹤精度受到點云數據稀疏性導致的信息缺失影響,以及物體位置變化帶來的形變影響這兩個問題,在端到端的學習模式下提出了由三個模塊構成的提案聚合網絡,通過在最佳提案內定位物體的中心來確定三維邊界框從而實現三維點云中的單目標跟蹤。首先,將模板和搜索區(qū)域的點云數據轉換為鳥瞰偽圖,模塊一通過空間和跨通道注意力機制豐富特征信息;然后,模塊二用基于錨框的深度互相關孿生區(qū)域提案子網給出最佳提案;最后,模塊三先利用最佳提案對搜索區(qū)域的感興趣區(qū)域池化操作來提取目標特征,隨后聚合了目標與模板特征,利用稀疏調制可變形卷積層來解決點云稀疏以及形變的問題并確定了最終三維邊界框。在KITTI跟蹤數據集上把所提方法與最新的三維點云單目標跟蹤方法進行比較的實驗結果表明:在汽車類綜合性實驗中,真實場景中所提方法在成功率上提高了1.7個百分點,精確率上提高了0.2個百分點;在多類別擴展性實驗上,即在汽車、貨車、騎車人以及行人這4類上所提方法的平均成功率提高了0.8個百分點,平均精確率提高了2.8個百分點。可見,所提方法能夠解決三維點云中的單目標跟蹤問題,使得三維目標跟蹤結果更加精確。
點云;目標跟蹤;孿生網絡;注意力機制;可變形卷積
單目標跟蹤已成為計算機視覺中的一個研究熱點,被應用在自動駕駛、跟隨機器人和安防系統(tǒng)等場景下[1]?;诳梢姽鈭D像的二維跟蹤方法面臨著遮擋、光照、尺度變化等挑戰(zhàn)。因此,需要在原始圖像上增加額外維度的信息來解決這些問題。為了克服遮擋,深度圖被用以增加可見光-深度(RGB-Depth, RGB-D)信息[2-3]。通過聯合使用紅外圖像,可見光-紅外(RGB-Thermal, RGB-T)信息可以幫助解決光照變化的問題[4-5]。上述兩種方法依然無法解決尺度變化問題,并且在可見光信息弱化時可能導致跟蹤失敗。激光雷達獲取的點云數據保留了物體的幾何信息,在三維空間中給出了接近真實的物體描述,是避免尺度變化的首選表示方法[6]。
目前,可實現點云三維單目標跟蹤的有基于點級特征跟蹤器以及基于體素級特征跟蹤器這兩大類方法?;邳c級特征跟蹤器有:Giancola等[7]基于正則化三維形狀補全(Shape Completion for 3D, SC3D)的思想,在理想前提下使用卡爾曼濾波器,采用余弦相似度比較候選對象潛層語義信息定位目標;Qi等[8]基于真實場景提出了P2B(Point-to-Box)方法,利用PointNet++[9]增強跟蹤目標關鍵點特征,并基于VoteNet[10]設計網絡用于回歸潛在的目標中心;Fang等[11]基于PointNet++編碼器,采用點級別特征的互相關操作設計3D-SiamRPN(3D-Siamese Region Proposal Network)通過區(qū)域提案網絡確定最終的三維邊界框?;隗w素級特征跟蹤器有:Zarzar等[12]提出了一個二維到三維形狀補全(2D and 3D Shape Completion, 2D-SC3D)孿生跟蹤網絡,將原始點云體素化生成鳥瞰偽圖代替窮舉搜索,理想化選擇候選對象。
基于點級特征的跟蹤器對點的位置信息直接進行建模,著眼于代表目標部分的關鍵點實現跟蹤,脫離了目標整體信息;基于體素級特征的跟蹤器對原始點云進行體素劃分,能夠利用被跟蹤物體的整體信息,但是會受到點云特征壓縮后細節(jié)信息不突出的影響。以上兩類跟蹤器均受到了點云數據稀疏性導致的信息缺失影響,以及物體位置改變帶來的形變影響。
針對上述問題,本文提出了體素級的提案聚合網絡(Proposal-based Aggregation Network, PA-Net),在利用被跟蹤物體整體信息實現區(qū)域提案后,進一步在最佳提案的感興趣區(qū)域(Region of Interest,RoI)精細化確定物體的中心。相較于傳統(tǒng)鳥瞰偽圖的生成形式,PA-Net通過將點云數據分割成空間中的柵格體素,并整合每個體素中的各個點生成統(tǒng)一特征表示,包含了更加豐富的幾何信息,更適合于三維目標跟蹤。PA-Net主要由3個模塊構成:1)模塊一設計為一個分離式注意力機制模塊,通過空間和跨通道注意力機制兩部分來增加感受野,豐富了原始點云稀疏的特征;2)模塊二用基于錨框的深度互相關孿生區(qū)域提案子網給出最佳提案,并給出了目標在搜索區(qū)域的整體方位;3)模塊三根據最佳提案提取感興趣區(qū)域目標特征,并提出了稀疏調制可變形卷積層,運用L1范數正則化,使得卷積核在擁有權重和偏移變量的同時受到稀疏矩陣的約束,更適應點云稀疏性的特征并解決了形變問題,在聚合預測結果后確定最終的邊界框中心及偏轉角度。在KITTI數據集上的實驗結果表明,與當前先進的三維點云單目標跟蹤方法相比,PA-Net對于各類物體,在跟蹤成功率和精確率兩個評價指標上都取得了更好的性能,并且對于同類物體,模型具備一定魯棒性。
本文的主要工作如下:
1)構建了從整體信息定位到精細化確定物體中心的體素級提案聚合網絡,解決了面向點云的三維單目標跟蹤問題。
2)設計了稀疏調制可變形卷積層,并聯合分離式注意力機制模塊豐富了提取的特征,減少了由點云稀疏性帶來的負面影響,解決了跟蹤過程中的形變問題。
3)設計了利用最佳提案聚合感興趣區(qū)域目標特征與模板特征來預測中心,實現了端到端的單階段輸出,避免了多階段網絡產生的計算冗余。
基于孿生網絡的方法在可見光圖像跟蹤方面發(fā)展迅速,利用兩個權值共享分支,通過模板與搜索區(qū)域的相關性度量實現跟蹤。文獻[13]中提出了基于錨框定位的區(qū)域建議網絡,通過回歸中心以及邊界框長寬來確定跟蹤結果。改進孿生區(qū)域提案網絡SiamRPN++[14]在上述基礎上提出了一種深度可分離的相關結構,減少了參數量,增強了目標跟蹤的穩(wěn)定性和整體性能。由于二維圖像跟蹤中存在的尺度變換問題,往往利用兩階段的方法:對第一階段的回歸結果建立候選對象,第二階段在候選對象中進行進一步的結果確定。基于圖像的二維卷積網絡體系結構,無法直接應用于三維點云數據,首先需要通過體素特征提取的方式,將原始點云轉換為二維偽圖像。
基于體素提取點云特征的網絡通常都用在三維點云目標檢測問題中。體素網絡VoxelNet[15]作為體素網絡里程碑式的方法,在三維目標檢測上取得了令人滿意的效果。Yan等[16]提出了SECOND(Sparsely Embedded CONvolutional Detection)稀疏卷積方法,利用稀疏卷積網絡提高了VoxelNet的計算效率。這兩種方法的特征提取過程需要用到三維卷積運算,對于時間和計算資源的消耗很大,很難應用于實時性要求強的跟蹤場景。
Lang等[17]提出了一個名為點柵格PointPillars的檢測器,將原始點云通過柵格化的形式轉換成鳥瞰偽圖,在目標檢測問題的精度和速度上都有優(yōu)勢。PointPillars指出,在點云場景下,鳥瞰的俯視形式避免了前視、側視中帶來的遮擋,能夠盡量多地在二維空間中保留物體的位置信息。文獻[12]中將點云數據直接依照視圖形式轉換成鳥瞰圖像。本文方法的具體操作為:基于點柵格形式將原始點云轉化為二維偽圖像,相較于傳統(tǒng)的鳥瞰圖像擁有更豐富的幾何信息;利用PointPillars思想,通過保留深度范圍,不對該維度進行體素劃分,將方格體素轉變?yōu)闁鸥耋w素,來學習的點云特征;利用全連接網絡可以將深度方向的信息壓縮至單位柵格體素中,將學習到的點云特征編碼為二維偽圖像,在此基礎上可以實現二維卷積網絡體系結構的應用。借助此方法的初步點云特征提取能夠降低網絡計算的時間消耗,使其滿足三維單目標跟蹤的實時性要求。
注意力機制的運用能夠幫助獲取所有輸入的全局依賴性以及更加詳細的信息[18]。雙流注意力機制網絡(Dual Attention Networks, DANet)方法[19]采用了雙重注意力模塊,同時考慮了每個空間位置和通道的相關性,成功運用在語義分割領域。Dai等[20]提出了可變形卷積網絡來處理目標檢測中的變形問題,為卷積核的每個點學習一個新的偏移量,有助于匹配對象的實際形狀,使得卷積區(qū)域始終覆蓋在目標周圍。Zhu等[21]在此基礎上進一步給卷積核的點施加額外的調制權重,以此來增加特征處理自由度,增強了網絡的表達能力。Yu等[22]結合了注意力機制和可變形卷積的優(yōu)點,提出了可變形注意力機制網絡(deformable Siamese attention networks,Siamattn),在基于可見光圖像的跟蹤問題中使用了一個可變形的注意力機制模塊,使得目標對干擾和背景具有更強的辨別力。受到上述方法啟發(fā),本文設計了一個新的分離式注意力模塊,對于卷積之前的特征從寬、高兩個維度分別運用注意力機制,以集成更多的空間信息,豐富特征。在卷積之后使用跨通道注意力模塊來融合更多的通道特征。為了更好適應特征稀疏的場景,對于調制可變形卷積的卷積核施加L1正則化約束,使得卷積核在受到偏移量、調制權重的約束下進一步變?yōu)橄∈杈仃嚒O∈枵{制可變形卷積層只在最終輸出層使用,在增強幾何信息的同時平衡時間消耗。
真實場景下的點云三維單目標跟蹤是通過在第一幀給出目標及其位置的條件下,逐幀對搜索區(qū)域內的目標進行定位。提案聚合網絡PA-Net利用整體信息實現區(qū)域提案并聚合RoI的目標特征與模板進一步確定物體的中心。PA-Net由3個主要模塊組成,如圖1所示:1)分離式注意力機制模塊;2)基于錨框的深度互相關孿生區(qū)域提案子網;3)基于目標-模板聚合特征的稀疏調制可變形卷積子網。
圖1 提案聚合網絡(PA-Net)的整體結構Fig. 1 Overall structure of Proposal-based Aggregation Network (PA-Net)
原始點云中的每一個點的表達式是一個4維向量,分別由空間坐標位置(x,y,z)以及反射率r構成。首先為模板和搜索區(qū)域設置不同的裁剪區(qū)域范圍(x-y平面不同,z平面相同)保證網格大小相同。設置了范圍和網格大小,即確定了鳥瞰偽圖像的空間大小,詳見3.2.1節(jié)實驗設置。
模板分支如圖2所示。將這些點按照其位置離散成不同的柵格,并將原始點的維度與柵格中所有點的算術平均值距離和從柵格中心到x-y平面的偏移進行拼接。對于每個柵格,形成維度為的特征向量,由于點云的稀疏性,包含的點的數量是不同的,根據不同的目標,將每根柱子上的最大點數設為45,如果數據量太少,則采用零填充,通過全連接網絡擴展特征后,獲得維度為的柵格特征,并按照柵格的位置索引重新填充至原來的空間位置,最終獲得形狀大小為(C,h,w)的模板鳥瞰偽圖以及形狀大小為(C,H,W)的搜索區(qū)域鳥瞰偽圖。
圖2 點云柵格化特征提取Fig. 2 Rasterized feature extraction for point cloud
卷積神經網絡使用局部感受野進行特征的提取,沒有綜合考慮各個位置的聯系和相關性。對于通道間的相關性也應著重考慮,使用空間注意力機制能夠使每個位置都融合了其他空間位置信息。
式中,以寬方向為例,通過卷積層將原始特征通道維度(C)壓縮至來獲取查詢鍵Q和重點鍵K并調整到形為(),通過矩陣乘法和列softmaxcol操作獲得寬自注意力特征AW。
圖3 空間注意力機制模塊結構Fig. 3 Structure of spatial attention mechanism module
值特征VW也通過卷積層生成,在調整形狀后與AW相乘并通過殘差連接將標量參數與原始特征相加,最終獲得寬維度自注意力特征FW,如式(2),同時重塑回原始形狀大小。
同樣的做法下獲得高方向自注意力特征FH,最終通過元素加方式融合FH和FW得到空間自注意力特征XA。
傳統(tǒng)通道注意力機制中,只考慮了單一的特征圖通道與通道間的關系;而在跟蹤過程中,文獻[22]中提出了一種融合模板與搜索區(qū)域通道注意力機制的方法,使得模板和搜索區(qū)域的每個通道融合了自身其他通道的信息。參照空間注意力機制的做法,能夠分別獲得模板以及搜索區(qū)域的跨通道注意力機制特征,如圖4所示。
圖4 跨通道注意力機制模塊結構Fig. 4 Structure of cross-channel attention mechanism module
卷積之前的特征圖,存在通道少但是寬高較大的特點,對于使用空間注意力機制更加有利,每個位置能融合更多位置的信息。而經過多次卷積后的特征圖則恰恰相反,將跨通道注意力機制運用到卷積后的特征圖,能夠融合到更多深層維度信息。因此將這兩部分分離,分別作用于卷積前后。
模塊二的特征學習采用了自上而下的卷積結構生成多個分辨率生成特征,并使用跨通道注意力模塊融合模板和搜索區(qū)域信息,集成相應特征。在使用卷積神經網絡的方式提取圖像特征時,往往通過加深網絡層數、增加卷積核的大小的方式來換取特征通道數的增加,從而提取到更復雜的特征。這樣的做法不可避免地帶來了空間分辨率下降的缺陷,導致空間信息丟失。為了平衡這一特點的優(yōu)劣,本文采用多分辨率提取方法,在卷積下采樣提取特征的同時,針對產生的不同分辨率特征圖分別進行自注意力機制運算,最后在統(tǒng)一空間分辨率的基礎上,融合不同分辨率下的注意力特征,如圖5所示。
對于原始特征圖,卷積神經網絡分別進行2倍、4倍以及8倍的下采樣,對于每一次卷積下采樣的特征圖,首先使用跨通道注意力機制模塊得到不同分辨率大小的注意力特征圖,隨后分別進行1倍、2倍以及4倍上采樣,從而能獲得3張高和寬大小為原始特征圖的一半、通道數為原始特征圖的4倍且空間分辨率一致的注意力特征圖。
與傳統(tǒng)的串聯特征方式不同,參考文獻[14]中利用深度互相關層代替?zhèn)鹘y(tǒng)互相關,本文對于各個分辨率特征先進行互相關,如式(3)所示:
式中:模板空間注意力特征ZA與搜索區(qū)域空間注意力特征XA在卷積塊嵌入函數的作用后在互相關層進行組合;“*”操作代表以ZA在空域上的特征映射作為卷積核,在XA空域特征映射上進行卷積操作,從而實現在空間區(qū)域搜索模板的操作;bc代表各個位置的偏差值。
隨后通過分類融合卷積塊以及錨框偏移融合卷積塊,對于得到的前背景分類,從中確定前景置信度最高的最優(yōu)區(qū)域索引,根據該索引在錨框偏移中確定回歸變量從而可以確定最佳提案。設定預定義的錨框,可以使得訓練過程穩(wěn)定快速,詳見3.2.2節(jié)中的實驗設置。深度互相關的做法可以有效降低計算成本和內存使用,圖5中各個卷積塊的具體參數設置在表1中給出。
PA-Net在模塊二中獲得最佳提案后,在模塊三中利用感興趣區(qū)域池化在搜索區(qū)域注意力特征中確定物體所在位置。為了獲取物體在跟蹤過程中的狀態(tài)變化信息,將池化選擇的目標特征與原始模板特征在通道維度級聯,實現特征聚合來保證信息獲取的完整性。非剛性物體以及剛性物體朝向改變引起目標形變問題,使用傳統(tǒng)卷積中的固定卷積核難以覆蓋目標所在的完全區(qū)域得到詳細的幾何信息。在文獻[23]的啟發(fā)下,本文提出了稀疏調制可變形卷積,如圖6所示。
圖5 卷積與深度互相關示意圖Fig. 5 Schematic diagram of convolution and deep cross-correlation
表1 卷積模塊參數設置Tab. 1 Parameter setting of convolution modules
對于輸入的聚合特征,實現三分支、相同大小預測圖的輸出,分別對應中心位置、中心偏差以及偏轉角度。根據中心位置的最佳預測,相對應地來確定最終邊界框的中心偏差大小以及偏轉角度。與此同時,中心偏差會聚合前一階段最佳提案的預測中心來確定物體最終的中心位置,以此實現精確化的中心定位。
圖6 稀疏調制可變形卷積結構Fig. 6 Structure of sparse modulated deformable convolution
模塊二中的分類損失Lcls參照了焦點損失[24]。首先,根據錨框的設定使用正閾值(positive_threshold)或者負閾值(negative_threshold)來匹配概率pa,如式(5)。在此基礎上設置了一個平滑的標記Ts,以此來增強分類的泛化能力,防止過度擬合。
式中:Ts設定為0.01;Ia表示錨框與真實框的重合比例IoU(Intersection over Union)。通過Ts對pa的約束,可以改進得到本文使用的帶參數懲罰的焦點損失,如式(6):
模塊二中的框回歸損失Lreg、模塊三中的中心損失Lctr以及角度損失Lrot,均使用SmoothL1損失函數[25]。模塊二中只對水平方向參數進行回歸來確定提案,如式(7)所示:
稀疏調制可變形卷積中的L1正則化約束作為Lspa參與損失函數的運算,如式(10),權重wk參照式(4)。
將上述所有損失匯總為提案聚合網絡的最終損失L,如式(11):
實驗在硬件環(huán)境為Inter Core i7-8700CPU @3.20 GHz、64 GB內存、Nvidia 1080Ti顯卡,軟件環(huán)境為Ubuntu16.04、Python3.7、Pytorch1.1.0的平臺上進行訓練和測試。
實驗用的數據集基于KITTI跟蹤數據集[26],僅使用點云數據。利用21個室外場景和4種不同類型的目標物體測試了PA-Net的性能,為了公平比較實驗結果,在數據集分割、跟蹤序列生成和評估度量中均遵循了文獻[8]中的設置。數據集分為以下幾個部分:場景0~16用于訓練,場景17~18用于驗證,場景19~20用于測試。通過在一個場景中連接每一幀來生成跟蹤序列,在序列中跟蹤目標出現并提供真實邊界框(Ground Truth, GT)。在汽車(Car)類別上做了綜合性實驗,在其他的類別如貨車(Van)、騎車人(Cyclist)、行人(Pedestrian)上做了擴展性實驗,消融實驗在汽車類別上進行。評估指標設置為單目標跟蹤的一次評估(One Pass Evaluation, OPE)[27]。成功率被定義為預測框和GT之間的IoU的接受者操作特性(Receiver Operating Characteristic, ROC)曲線下面積(Area Under Curve, AUC)。精確率定義為0~2 m的誤差下中心之間歐氏距離的AUC。
3.2.1 柵格化細節(jié)
對于汽車以及貨車類的三維空間范圍內的模板裁剪區(qū)域的水平范圍x、y設置為,高度范圍z設置為;搜索區(qū)域的水平范圍設置為,高度設置為;網格大小的水平分辨率為0.16 m。對于騎車人和行人,模板的裁剪區(qū)域水平范圍設置為;搜索區(qū)域的水平范圍設置為,高度范圍不變;相應的網格水平分辨率為0.04 m。
3.2.2 錨框細節(jié)
汽車和貨車的錨框的寬度、長度和高度設置為(1.60,3.90,1.56) m,在匹配操作中的正負閾值分別設置為0.60和0.45。對于行人,錨框的寬度、長度和高度為(0.60,0.80,1.73) m,正負閾值分別為0.70和0.35。騎車人的錨框寬度、長度和高度為(0.60,1.76,1.73) m,匹配使用0.50和0.35的正負閾值。
3.2.3 訓練
展會期間,多個全球印刷行業(yè)的重要會議及商會、協(xié)會等行業(yè)組織的行業(yè)交流活動會舉辦,展會形成了一個促進全球印刷行業(yè)交流發(fā)展的平臺。
隨著跟蹤物體軌跡的變化,模板采集到的點云數量也會隨著跟蹤過程增加或減少,更新模板的過程會對跟蹤的實際效果產生影響。對于模板的更新策略,本文采用第一幀GT和上一幀預測框中的點云數據進行合并后采樣的融合更新策略(模板統(tǒng)一采樣點數量為512),如圖7所示,既保留了被跟蹤物體的初始信息,同時也融合進了目標跟蹤過程的狀態(tài)變化信息。為了增加訓練樣本,在上一個GT上添加微小的隨機偏移來擴充數據。
圖7 模板點云合并采樣的融合結果(汽車)Fig. 7 Fusion result of merged sampling of template point cloud(Car)
搜索區(qū)域樣本的采樣點數量統(tǒng)一為1 024,根據不同類別將上一幀的預測框的長寬進行固定大小的放大,具體為:汽車和貨車設置為2 m,騎車人設置為0.6 m,行人設置為0.3 m。訓練過程的優(yōu)化器使用Adam優(yōu)化器[28],初始學習率為0.001,經過10個周期后下降80%。批大小設置為16。PA-Net在大約100個周期后可以獲得令人滿意的結果,訓練中損失函數的收斂曲線如圖8所示。
圖8 訓練與驗證中的損失函數曲線Fig. 8 Curves of loss in training and validation
3.2.4 測試
為了逐幀推斷跟蹤序列中的三維邊界框,首先將第一個GT中的點云數據作為模板,將后續(xù)預測結果中的點云與之相合并形成新的模板。與訓練過程相似,在當前幀中,將前一幀的搜索結果擴大了2 m(汽車和貨車)、0.6 m(騎車人)和0.3 m(行人)。
實驗選擇汽車類,在相同數據集劃分下將PA-Net與SC3D[7]、2D-SC3D[12]、P2B[8]以及3D-SiamRPN[11]進行比較,結果見表2。搜索區(qū)域分別基于對前一幀預測、前一幀GT或當前幀GT生成?;诋斍皫珿T與前一幀GT是理想化情況,在滿足實際跟蹤要求的前提下,對短期跟蹤性能進行評估。PA-Net在兩種理想情況下的性能都相較其他方法有了較大提高,可以看出PA-Net在短期跟蹤性能上擁有優(yōu)勢。
重點討論真實跟蹤場景中使用前一幀測試的結果,不依賴于GT。從表2中可以看出,PA-Net無論在成功率還是精確率上都相較其他方法有所提高,分別將指標提高到59.0%、75.2%,相較于后一名的57.3%、75.0%,分別提升了1.7個百分點、0.2個百分點。以下所有實驗都是基于前一幀預測,以符合現實場景。
PA-Net在擴展性實驗上同樣取得了較好的效果,將其在汽車、貨車、騎車人和行人類別上同3.3節(jié)中列舉的方法進行了比較,如表3所示。由表3可以看出,PA-Net在所有類別上均優(yōu)于其他方法,4種類別的平均成功率、平均精確率分別為47.5%、67.7%,相較于后一名的46.7%、64.9%,分別提升了0.8個百分點、2.8個百分點。值得注意的是,PA-Net在貨車以及騎車人類上存在顯著優(yōu)勢,意味著PA-Net可以用更少的訓練數據來學習目標的整體并預測實際中心。
為了測試模型的魯棒性,考慮到貨車與汽車相似,而騎車人類別可能包含行人的潛在信息,因此使用在汽車類上訓練的模型來測試貨車,使用在自行車上訓練的模型來測試行人,貨車的成功率、精確率分別為40.9%、48.3%,行人的成功率、精確率分別為33.0%、65.1%,相較于原始模型性能有一定下降,但也能反映出模型具有一定的魯棒性。
表2 汽車類上不同方法的綜合性實驗結果Tab. 2 Comprehensive experimental results of different methods on Car
表3 不同方法的多類別擴展性實驗結果Tab. 3 Extensive experimental results on different categories of different methods
針對PA-Net的特征豐富層以及聚合回歸層進行了5組消融實驗進行對比,結果如表4所示。表4中對特征豐富層的分離式注意力機制模塊進行了消融實驗,在聚合回歸層同為傳統(tǒng)卷積的情況下分別比較了特征豐富層使用無注意力機制的原始特征、將空間注意力機制和跨通道注意力機制并行使用下獲得的注意力特征,以及分離式注意力機制特征下汽車類別上的結果。通過比較可以發(fā)現,注意力機制進一步豐富了特征,為模型也提供了更多有效信息,提高了跟蹤精度。分離式注意力機制依照特征圖的特性而設計,相較單純地并行使用注意力機制性能有了進一步的提升。
在特征豐富層使用分離式注意力機制的條件下,對聚合回歸層的稀疏調制可變形卷積使用進行消融實驗,見表4,對比了使用傳統(tǒng)卷積、調制可變形卷積以及本文的稀疏調制可變形卷積的最終結果。可以看出,可變形卷積的使用對于性能的提升較大,進一步驗證了物體在跟蹤過程中的形變問題主要反映在邊界框旋轉角度的變化以及非剛性體的運動狀態(tài)變化,通過改變卷積核形狀能夠使得感受野的覆蓋更加全面進而得到更精確的結果。同時,稀疏化權重矩陣所帶來的性能提升也表明,對于存在稀疏性問題的跟蹤任務,稀疏調制可變形卷積起到了改善效果。
本文在特征豐富層使用分離式注意力機制、在聚合回歸層使用稀疏調制可變性卷積的組合方法取得了最佳的成功率和精確率,進一步驗證了本文方法在點云三維單目標跟蹤中能夠提升精確度。
表4 PA-Net在汽車類上特征豐富層與聚合回歸層的消融實驗結果 單位:%Tab. 4 Ablation experimental results of PA-Net in feature enriching layer and aggregated regression layer on Car unit:%
在圖9中給出了兩種不同場景下,PA-Net與P2B的汽車跟蹤結果。由圖9結果可以看出,無論是在點云密集還是稀疏分布場景下,PA-Net都取得了更好的結果,尤其是在稀疏場景中,PA-Net的預測框更貼近真實框,并且在位置上保持穩(wěn)定。在發(fā)生場景突變的情況下,從密集幀到稀疏幀,PA-Net比P2B更有優(yōu)勢,PA-Net的預測框比P2B的預測框更貼近目標中心。
對于上述兩種場景,圖10給出了物體的實際跟蹤軌跡。圖10(a)展示了長時間跟蹤狀態(tài)下PA-Net、P2B的跟蹤軌跡與真實軌跡的對比結果,可以看出PA-Net的跟蹤軌跡更加貼近真實結果,且在過程中軌跡相對平滑,沒有發(fā)生突變,驗證了PA-Net跟蹤的穩(wěn)定性。圖10(b)所示為短時間跟蹤場景的軌跡,通過點狀圖更加細節(jié)地展示了物體中心的實際位置,可以看出PA-Net相較P2B能夠更加準確地貼近物體中心實現跟蹤,保持穩(wěn)定。
圖9 汽車類上PA-Net與P2B的跟蹤結果可視化對比Fig. 9 Visual comparison of PA-Net and P2B tracking results on Car
圖11給出了消融實驗不同特征豐富層下最終輸出得到的分類熱力圖。經過sigmoid函數約束后的中心位置預測值被約束到0~1,分為前景與背景兩類,越接近1代表是前景,即跟蹤物體中心的概率越大。從圖11(c)可以看出,在使用分離式注意力機制模塊下,目標預測圖中的熱力值范圍更加集中,表明引用注意力特征對于分類圖起到了積極影響,使得前景背景的區(qū)分更加清晰。
圖10 汽車類上PA-Net與P2B的跟蹤軌跡Fig. 10 Tracking trajectories of PA-Net and P2B on Car
圖11 不同特征豐富層作用下的分類熱力圖Fig. 11 Classification heat maps with different feature enriching layers
對擴展性實驗的實際結果進行可視化,在不同輸出層作用下對于物體中心預測的實際結果如圖12所示。對比圖12(a)與圖12(b)可知,可變形卷積的使用使得對于物體中心的預測更加精準。對于點云分布較為稀疏的騎車人與貨車類別,由圖12(c)可知,稀疏調制可變形卷積的使用使得對于物體跟蹤的邊界框回歸成功率以及中心預測精確率都有所提升。
對應圖12中的結果,表5給出了PA-Net預測的中心位置、中心補償以及偏轉角度,并將其與真實結果進行了對比。對于三維空間中物體的中心,分別預測在三個維度方向上的值來共同確定,通過提案前景最優(yōu)置信度最優(yōu)區(qū)域對應的中心回歸值,以及中心前景最優(yōu)置信度區(qū)域對應的中心補償值相加可以得到PA-Net預測的物體中心,比較真實中心點的位置,三個維度值的偏差均在10%以內。對于偏轉角度,采用弧度制預測,實際的角度偏差在16%。由此可見,PA-Net在對于跟蹤物體的中心預測以及邊界框偏轉角度的預測上可以滿足一定的精度要求。
表6給出了汽車類別下不同方法的實際運行速度。所有方法采用相同環(huán)境,在單個Nvidia 1080ti上進行測試。由表6可以看出,在預處理階段3D-SiamRPN的運行最快,僅用時0.5 ms。由于PA-Net在預處理階段進行柵格體素切分生成偽圖,因此需要消耗較多時間,但在模型推理以及后處理模塊相較于其他兩種方法性能更優(yōu),消耗時間只需要5.6 ms以及0.3 ms??傮w上看,與P2B相比,PA-Net在總體運行速度上仍存在進一步提升的空間。
圖12 不同輸出層作用下的物體邊界框以及中心預測Fig. 12 Prediction of object bounding box and center with different output layers
表5 中心位置與偏轉角度預測的結果Tab. 5 Results of predicted center position and deflection angle
表6 不同方法在汽車類上的運行速度Tab. 6 Running speeds of different methods on Car
本文提出了一種解決點云三維單目標跟蹤問題的提案聚合網絡PA-Net,通過在最佳提案內定位物體的中心來確定三維邊界框實現跟蹤。本文方法利用分離式注意力機制模塊,采用空間和跨通道注意力機制豐富特征信息,并利用稀疏調制可變形卷積層針對模板和搜索區(qū)域深度互相關得到最佳提案預測物體中心,解決了點云稀疏以及形變的問題。所提網絡整體采用了單階段輸出形式,避免了計算冗余。實驗結果表明,PA-Net在不同實驗環(huán)境下都有較大的優(yōu)越性。但體素柵格化的處理方式增加了在預處理階段的耗時,在運行速度上PA-Net仍存在一定的提升空間。下一階段將研究提高預處理階段的運行效率并從點云數據中提取出更豐富和具有代表性的特征,在保證性能的同時,在更具挑戰(zhàn)性的環(huán)境下進行測試。
[1] SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking: an experimental survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1442-1468.
[2] SHAO L, SHAH P, DWARACHERLA V, et al. Motion-based object segmentation based on dense RGB-D scene flow [J]. IEEE Robotics and Automation Letters, 2018, 3(4): 3797-3804.
[3] ZHOU Y, WANG T, HU R H, et al. Multiple Kernelized Correlation Filters (MKCF) for extended object tracking usingX-band marine radar data [J]. IEEE Transactions on Signal Processing, 2019, 67(14): 3676-3688.
[4] LI C L, ZHU C L, HUANG Y, et al. Cross-modal ranking with soft consistency and noisy labels for robust RGB-T tracking [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11217. Cham: Springer, 2018:831-847.
[5] ZHU Y B, LI C L, TANG J, et al. Quality-aware feature aggregation network for robust RGBT tracking [J]. IEEE Transactions on Intelligent Vehicles,2021, 6(1): 121-130.
[6] 王紅艷,鄭伶杰,陳獻娜.簡述激光雷達點云數據的處理應用[J].資源導刊,2015(S2):44-45.(WANG H Y, ZHENG L J, CHEN X N. Brief introduction of the processing application of the point cloud data of lidar [J]. Resources Guide,2015(S2): 44-45.)
[7] GIANCOLA S, ZARZAR J, GHANEM B. Leveraging shape completion for 3D Siamese tracking [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:1359-1368.
[8] QI H Z, FENG C, CAO Z G, et al. P2B: point-to-box network for 3D object tracking in point clouds [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020:6328-6337.
[9] QI C H, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 5105-5114.
[10] QI C H, LITANY O, HE K M, et al. Deep Hough voting for 3D object detection in point clouds [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 9276-9285.
[11] FANG Z, ZHOU S F, CUI Y B, et al. 3D-SiamRPN: an end-to-end learning method for real-time 3D single object tracking using raw point cloud [J]. IEEE Sensors Journal, 2021, 21(4): 4995-5011.
[12] ZARZAR J, GIANCOLA S, GHANEM B. Efficient tracking proposals using 2D-3D Siamese networks on LIDAR [EB/OL]. [2021-02-13]. https://arxiv.org/pdf/1903.10168v1.pdf.
[13] LI B, YAN J J, WU W, et al. High performance visual tracking with Siamese region proposal network [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980.
[14] LI B, WU W, WANG Q, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:4277-4286.
[15] ZHOU Y, TUZEL O. VoxelNet: end-to-end learning for point cloud based 3D object detection [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:4490-4499.
[16] YAN Y, MAO Y X, LI B. SECOND: sparsely embedded convolutional detection [J]. Sensors, 2018, 18(10): Article No.3337.
[17] LANG A H, VORA S, CAESAR H, et al. PointPillars: fast encoders for object detection from point clouds [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:12689-12697.
[18] NAM H, HA J W, KIM J. Dual attention networks for multimodal reasoning and matching [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017:2156-2164.
[19] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2019: 3141-3149.
[20] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017:764-773.
[21] ZHU X Z, HU H, LIN S, et al. Deformable ConvNets v2: more deformable, better results [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:9300-9308.
[22] YU Y C, XIONG Y L, HUANG W Let al. Deformable Siamese attention networks for visual object tracking [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2020: 6727-6736.
[23] 尚麗,蘇品剛,周燕.基于改進的快速稀疏編碼的圖像特征提?。跩].計算機應用,2013,33(3):656-659.(SHANG L, SU P G,ZHOU Y. Image feature extraction based on modified fast sparse coding algorithm [J]. Journal of Computer Applications, 2013, 33(3): 656-659.)
[24] LIN T Y, GOYAL P, GIRSHICK Ret al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017:2999-3007.
[25] SHAH J, QURESHI I, DENG Y M, et al. Reconstruction of sparse signals and compressively sampled images based on smoothl1-norm approximation [J]. Journal of Signal Processing Systems, 2017, 88(3): 333-344.
[26] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the KITTI vision benchmark suite [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 3354-3361.
[27] WU Y, LIM J, YANG M H. Online object tracking: a benchmark [C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2013:2411-2418.
[28] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-02-03]. https://arxiv.org/pdf/1412.6980.pdf.
Proposal-based aggregation network for single object tracking in 3D point cloud
ZHUANG Yi, ZHAO Haitao*
(School of Information Science and Engineering,East China University of Science and Technology,Shanghai200237,China)
Compared with 2D RGB-based images, 3D point clouds retain the real and rich geometric information of objects in space to deal with vision challenge with scale variation in the single object tracking problem. However, the precision of 3D object tracking is affected by the loss of information brought by the sparsity of point cloud data and the deformation caused by the object position changing. To solve the above two problems, a proposal-based aggregation network composed of three modules was proposed in an end-to-end learning pattern. In this network, the 3D bounding box was determined by locating object center in the best proposal to realize the single object tracking in 3D point cloud. Firstly, the point cloud data of both templates and search areas was transferred into bird’s-eye view pseudo images. In the first module, the feature information was enriched through spatial and cross-channel attention mechanisms. Then, in the second module, the best proposal was given by the anchor-based deep cross-correlation Siamese region proposal subnetwork. Finally, in the third module, the object features were extracted through region of interest pooling operation by the best proposal at first, and then,the object and template features were aggregated, the sparse modulated deformable convolution layer was used to deal with the problems of point cloud sparsity and deformation, and the final 3D bounding box was determined. Experimental results of the comparison between the proposed method and the state-of-the-art 3D point cloud single object tracking methods on KITTI dataset show that: in comprehensive experiment of car, the proposed method has improved 1.7 percentage points on success rate and 0.2 percentage points on precision in real scenes; in multi-category extensive experiment of car, van, cyclist and pedestrian, the proposed method has improved the average success rate by 0.8 percentage points, and the average precision by 2.8 percentage points, indicating that the proposed method can solve the single object tracking problem in 3D point cloud and make the 3D object tracking results more accurate.
point cloud; object tracking; Siamese network; attention mechanism; deformable convolution
TP399
A
1001-9081(2022)05-1407-10
10.11772/j.issn.1001-9081.2021030533
2021?04?08;
2021?06?17;
2021?06?17。
莊屹(1996—),男,上海人,碩士研究生,主要研究方向:目標檢測、目標跟蹤; 趙海濤(1974—),男,山東青島人,教授,博士,主要研究方向:模式識別、機器學習。
ZHUANG Yi, born in 1996,M. S. candidate. His research interests include object detection, object tracking.
ZHAO Haitao, born in 1974,Ph. D., professor. His research interests include pattern recognition, machine learning.