毛 琳 解云嬌 楊大偉 張汝波
(大連民族大學(xué)機(jī)電工程學(xué)院 大連 116600)
隨著人工智能技術(shù)的發(fā)展,人類生活環(huán)境中出現(xiàn)越來越多的智能自主系統(tǒng),并且在視頻監(jiān)控、人機(jī)交互以及交通檢測(cè)等方面有著廣泛的實(shí)際應(yīng)用。并且這些應(yīng)用是建設(shè)智能運(yùn)輸系統(tǒng)[1,2]和智慧城市[3–5]的重要組成部分,例如自動(dòng)駕駛汽車、服務(wù)型機(jī)器人和高級(jí)監(jiān)控系統(tǒng)。在現(xiàn)實(shí)道路場(chǎng)景中,預(yù)測(cè)動(dòng)態(tài)對(duì)象的軌跡是智能自主系統(tǒng)的核心任務(wù)之一。這項(xiàng)任務(wù)中根據(jù)不斷變化的環(huán)境,利用歷史軌跡進(jìn)行未來軌跡預(yù)測(cè)確實(shí)需要平滑和安全的路徑規(guī)劃。而實(shí)際應(yīng)用中最常遇見的動(dòng)態(tài)對(duì)象之一是行人,因此預(yù)測(cè)行人運(yùn)動(dòng)軌跡對(duì)于自動(dòng)駕駛中的導(dǎo)航規(guī)劃、人機(jī)交互和智能監(jiān)控等任務(wù)至關(guān)重要。經(jīng)過算法和文獻(xiàn)的調(diào)研分析,現(xiàn)有的軌跡預(yù)測(cè)算法普遍存在的問題之一是:模型在通過歷史軌跡學(xué)習(xí)鄰居之間的社交互動(dòng)時(shí),均不同程度地忽略了行人的局部目的地信號(hào),進(jìn)而導(dǎo)致預(yù)測(cè)軌跡逐漸偏離真實(shí)軌跡。本文針對(duì)這一問題展開研究,并對(duì)算法模型進(jìn)行相關(guān)改進(jìn)。
行人的主觀意識(shí)會(huì)不斷調(diào)整軌跡方向,所以在軌跡預(yù)測(cè)時(shí)一個(gè)極具挑戰(zhàn)性的問題是建模擁擠空間中人們之間發(fā)生的社交互動(dòng)。Alahi等人[6]首次將長(zhǎng)短時(shí)記憶方法(Long Short Time Memory,LSTM)引入到軌跡預(yù)測(cè)領(lǐng)域,同時(shí)提出社交池化長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Social pooling LSTM network,Social LSTM)從有限時(shí)間步中學(xué)習(xí)行人之間的社交互動(dòng)關(guān)系,并用社交池化層來捕捉鄰居之間的關(guān)鍵互動(dòng),由此LSTM隱藏態(tài)將學(xué)習(xí)到行人隨時(shí)間變化的運(yùn)動(dòng)特征,該模型可以融合鄰居行人運(yùn)動(dòng)特征對(duì)主要行人進(jìn)行聯(lián)合推理。在公開數(shù)據(jù)集上測(cè)試評(píng)估后,展現(xiàn)算法優(yōu)秀的推理性能,該方法成功預(yù)測(cè)由社交互動(dòng)引起的各種非線性行為。考慮到行人傾向于表現(xiàn)出連貫的運(yùn)動(dòng)模式,Bisagno等人[7]提出一種群組長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Group-LSTM network,Group-LSTM),該算法將相干濾波算法與LSTM網(wǎng)絡(luò)相結(jié)合,進(jìn)而利用運(yùn)動(dòng)相關(guān)性來對(duì)具有相似運(yùn)動(dòng)趨勢(shì)的軌跡進(jìn)行聚類,在群體層面上預(yù)測(cè)擁擠場(chǎng)景中行人的未來軌跡。在兩個(gè)公共基準(zhǔn)行人鳥瞰數(shù)據(jù)集(Walking pedestrains In busy scenarios from a BIrd eye view, BIWI)[8]和塞浦路斯大學(xué)多人軌跡數(shù)據(jù)集(University of CYprus, UCY)[9]上,實(shí)驗(yàn)結(jié)果表明,所提出的Group-LSTM在預(yù)測(cè)任務(wù)上的性能表現(xiàn)優(yōu)于Social LSTM。但是該算法并沒有考慮場(chǎng)景信息,針對(duì)這一問題Xue等人[10]提出一種基于分層編碼的社交場(chǎng)景長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Social Scene-LSTM network, SS-LSTM),共用3層編碼分別學(xué)習(xí)行人尺度、社會(huì)關(guān)系尺度、場(chǎng)景尺度的行人狀態(tài)信息,其社會(huì)關(guān)系編碼中的傳統(tǒng)矩形領(lǐng)域軌跡映射替換為圓形領(lǐng)域映射,并將3層編碼信息相加后作為解碼器的輸入。該算法在城鎮(zhèn)中心數(shù)據(jù)集(town centre)[11]上進(jìn)行的預(yù)測(cè)不同長(zhǎng)度軌跡的實(shí)驗(yàn)表明,當(dāng)軌跡預(yù)測(cè)長(zhǎng)度較大時(shí),其模型在社會(huì)尺度上表現(xiàn)更好。雖然SS-LSTM方法在長(zhǎng)時(shí)預(yù)測(cè)結(jié)果優(yōu)于其他方法,但短時(shí)軌跡預(yù)測(cè)結(jié)果不如其他算法準(zhǔn)確。Bartoli等人[12]將特定場(chǎng)景中影響行人運(yùn)動(dòng)的因素分為兩個(gè)方面,分別是人與人和人與空間的相互作用,為此提出一種新型的上下文感知池化,用來學(xué)習(xí)和編碼人與人和人與空間的交互,該算法基于LSTM體系結(jié)構(gòu),在公開數(shù)據(jù)集上證明了模型的有效性。
以上所述算法模型雖然使軌跡預(yù)測(cè)精度有所提升,但行人在前往目的地過程中長(zhǎng)期依賴歷史軌跡信號(hào),缺乏該行人與周圍鄰居發(fā)生信息交換而引發(fā)社交互動(dòng)后的關(guān)鍵信息,進(jìn)而造成局部端點(diǎn)特征推理的局限性。并且多模態(tài)預(yù)測(cè)沒有獲取足夠豐富的推理信號(hào),難以建模多個(gè)符合真實(shí)軌跡的中間隨機(jī)目標(biāo)。
本文提出一種條件端點(diǎn)局部目的地池化網(wǎng)絡(luò)(Conditional Endpoint local destination Pooling NETwork, CEPNET),可以有效學(xué)習(xí)社交互動(dòng)以及提供有價(jià)值的特征推理信號(hào)。本文的主要貢獻(xiàn)具體包括3個(gè)方面:一是使用歷史軌跡編碼信號(hào),引入條件變分自編碼器來建模社交向量的概率估計(jì),并進(jìn)行了消融實(shí)驗(yàn)來定性分析編碼器的信號(hào)推理能力;二是創(chuàng)新性地構(gòu)建條件端點(diǎn)特征推理算法和社交池化自注意力掩碼機(jī)制來融合結(jié)構(gòu)化的深度生成模型的高斯信號(hào),通過自我注意力社交池化層過濾噪聲信號(hào)進(jìn)而降低模型預(yù)測(cè)誤差,提高軌跡預(yù)測(cè)的準(zhǔn)確率;三是將CEPNET在公開數(shù)據(jù)集上與現(xiàn)有Vanilla[19], SGAN[13]和Social-BiGAT[16]等先進(jìn)算法進(jìn)行比較,結(jié)果證明該模型性能超越現(xiàn)有算法,有效提升軌跡預(yù)測(cè)精度。
在特定場(chǎng)景中,由于建筑環(huán)境在一定的時(shí)期內(nèi)是固定不變的,所以行人在此場(chǎng)景中的物理軌跡存在一定的規(guī)律性,比如,相似的目的地,相似的移動(dòng)路徑和相似的交互行為。行人傾向于在前往目的地的路上根據(jù)環(huán)境變化和其他行人的社交行為來調(diào)整自己的軌跡,為建模這個(gè)復(fù)雜的心理過程,使模型可以從歷史軌跡中學(xué)習(xí)具體的行人之間的交互行為動(dòng)機(jī),本文提出條件端點(diǎn)局部目的地池化網(wǎng)絡(luò)CEPNET,算法邏輯框圖如圖1所示。該網(wǎng)絡(luò)主要包含3部分,分別為條件變分自編碼器,條件端點(diǎn)特征推理器和自注意力社交池化網(wǎng)絡(luò),其中在自注意力社交池化網(wǎng)絡(luò)中,設(shè)計(jì)自注意社交關(guān)系掩碼來增強(qiáng)行人軌跡預(yù)測(cè)的自我方向的關(guān)注度。
有監(jiān)督深度學(xué)習(xí)已經(jīng)成功地應(yīng)用在許多識(shí)別問題上,在提供大量訓(xùn)練數(shù)據(jù)的前提下,它可以很好地近似一個(gè)復(fù)雜的多對(duì)1函數(shù)。但要建立能夠有效執(zhí)行概率推理和做出多種預(yù)測(cè)的復(fù)雜結(jié)構(gòu)化輸出的算法模型,仍然是一個(gè)挑戰(zhàn)。在這項(xiàng)工作中,引入條件變分自編碼器[20,21](Conditional Variational Auto-Encoder, CVAE)。CVAE是一個(gè)深度條件生成模型,該模型將高維輸出空間的先驗(yàn)分布建模為以輸入觀測(cè)為條件的生成模型,在特征學(xué)習(xí)的同時(shí)結(jié)構(gòu)化輸出預(yù)測(cè)的高斯?jié)撟兞俊?/p>
在結(jié)構(gòu)化輸出預(yù)測(cè)中,學(xué)習(xí)能夠執(zhí)行概率推理和進(jìn)行多種合理預(yù)測(cè)的模型是非常重要的,這是因?yàn)檐壽E預(yù)測(cè)任務(wù)需要對(duì)從單個(gè)輸入到許多可能輸出的概率映射進(jìn)行建模。而條件變分自編碼器生成的軌跡概率分布特征,雖然對(duì)預(yù)測(cè)軌跡推理提供豐富的生成信號(hào),但是容易造成整個(gè)算法模型的泛化能力降低,進(jìn)而導(dǎo)致該算法對(duì)未參與訓(xùn)練的場(chǎng)景軌跡預(yù)測(cè)誤差偏大。因此,為將學(xué)習(xí)到的局部目的地進(jìn)行概率推理和增強(qiáng)模型的整理泛化能力,提出條件端點(diǎn)局部特征推理算法(Local Feature Inference algorithm, LoFI),算法框架如圖3所示。
自注意力社交池化網(wǎng)絡(luò)是利用本地自注意社交掩碼來提取相關(guān)信息的新方法,該方法能夠通過社交掩碼歸納偏差的同時(shí)忽略雜散信號(hào),從而學(xué)習(xí)更穩(wěn)定的社交信息。
本文的實(shí)驗(yàn)環(huán)境為Ubuntu16.04系統(tǒng),使用NVIDIA GTX1080Ti GPU,Intel Xeon CPU E5-2683。算法采用Python3和Pytorch1.8.0框架,運(yùn)行環(huán)境為CUDA10.2,迭代學(xué)習(xí)率配置如表1所示。
表1 模型迭代學(xué)習(xí)率配置
數(shù)據(jù)集:為驗(yàn)證模型的有效性,實(shí)驗(yàn)仿真使用軌跡預(yù)測(cè)領(lǐng)域的行人鳥瞰數(shù)據(jù)集(Walking pedestrians In busy scenarios from a BIrd eye view, BIWI)[8]和塞浦路斯大學(xué)多人軌跡數(shù)據(jù)集(University of CYprus, UCY)[9],其中BIWI[8]包含ETH和Hotel兩組場(chǎng)景數(shù)據(jù),UCY[9]包含Univ, Zara01和Zara02,總共有5組數(shù)據(jù),4個(gè)不同場(chǎng)景,涵蓋1536名行人在擁擠環(huán)境中的運(yùn)動(dòng)信息。其中,ETH,Univ和Zara02沒有參與訓(xùn)練,對(duì)應(yīng)的測(cè)試結(jié)果可用來衡量算法的泛化能力;Hotel和Zara01的數(shù)據(jù)則按照6:2:2的方式被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,對(duì)應(yīng)的測(cè)試結(jié)果用來衡量算法的擬合能力。在這5個(gè)測(cè)試數(shù)據(jù)集中,ETH和Hotel行人密度更稀疏,而Univ, Zara01和Zara02包含更多的擁擠區(qū)域。這些數(shù)據(jù)集包含真實(shí)世界中不同場(chǎng)景下的行人軌跡信息,具體是根據(jù)在不同場(chǎng)景中錄制的俯視角視頻,按照2.5 fps從視頻采樣圖片后人工標(biāo)注的行人軌跡位置,該數(shù)據(jù)集廣泛應(yīng)用于軌跡預(yù)測(cè)算法的性能比較。
而在凡俗如方某者,自不敢奢望“三不朽”,那是“圣賢”們的偉業(yè)。寫寫弄弄三十年,在我只許愿:曾經(jīng)的筆墨并未因輕浮與應(yīng)景,若干年后復(fù)讀時(shí)而令自己心慚臉紅,則在筆者也算是經(jīng)“墨磨”過的賣稿人了!
實(shí)驗(yàn)細(xì)節(jié):將只含有CVAE算法的交互方法描述為條件端點(diǎn)局部目的地推理網(wǎng)絡(luò)(Conditional Endpoint local destination Inference NETwork,CENET-I),該方法同樣使用本文對(duì)前t時(shí)間步的歷史軌跡劃分方式來編碼歷史觀測(cè)軌跡序列,保留了E1和E2編碼器。相比于CENET-I,CEPNET則表示融合CVAE, LoFI, SA-Social Pool和SA-Social Mask的條件端點(diǎn)局部目的地池化網(wǎng)絡(luò)。本實(shí)驗(yàn)將2018年發(fā)表的SGAN[13]、2019年提出的S-BiGAT[16],以及本文的CENET-I,CEPNET作為軌跡預(yù)測(cè)的交互模塊在Trajnet++基準(zhǔn)上進(jìn)行消融實(shí)驗(yàn),Vanilla[19]為4種算法的基線算法,具體是去掉整個(gè)交互模塊的LSTM網(wǎng)絡(luò),其邏輯框架如圖7(a)所示。各個(gè)算法在Trajnet++基準(zhǔn)上的集成方式,如圖7(b)所示。
為確保模型評(píng)估的公平性,該實(shí)驗(yàn)仿真中的SGAN[13], S-BiGAT[16], Vanilla[19], CENET-I和CEPNET模型使用相同訓(xùn)練集、驗(yàn)證集和測(cè)試集,且同樣迭代25次,迭代平均運(yùn)行時(shí)間如表2所示。在提升軌跡預(yù)測(cè)性能的前提下,CEPNET平均每59.09 min迭代1次。訓(xùn)練、驗(yàn)證、測(cè)試的規(guī)則均為模型輸入9個(gè)時(shí)間步(3.6 s)的觀測(cè)軌跡,然后預(yù)測(cè)未來12個(gè)時(shí)間步(4.8 s)的預(yù)測(cè)軌跡。
表2 各算法模型迭代平均運(yùn)行時(shí)間(min)
為對(duì)模型性能進(jìn)行客觀評(píng)估,除了本領(lǐng)域常用的平均偏移精度誤差(Average Deviation accuracy Error, ADE)和最終偏移誤差(Final Deviation accuracy Error, FDE)之外,又引入新的評(píng)估指標(biāo)預(yù)測(cè)碰撞率(prediction Collision, Col-I)和真值碰撞率(ground truth Collision, Col-II)。測(cè)試評(píng)估采用以交互模型為中心的行人軌跡預(yù)測(cè)基準(zhǔn)Trajnet++[19],該基準(zhǔn)將行人交互軌跡分為4大類別,分別為靜態(tài)I、線性II、交互III和非交互IV。靜態(tài)類型是指主要行人在場(chǎng)景中走過的總距離小于1 m;線性類型是指使用擴(kuò)展卡爾曼濾波預(yù)測(cè)的最終位移誤差(FDE)小于0.5 m;互動(dòng)類型是指存在同向跟隨、避免碰撞、群組匯聚或是相鄰行人出現(xiàn)在主要行人附近的其他互動(dòng);非互動(dòng)類型是指主要行人軌跡是非線性的,并且在預(yù)測(cè)過程中沒有社會(huì)互動(dòng)。
其中ADE用于計(jì)算整個(gè)預(yù)測(cè)序列的預(yù)測(cè)軌跡值與對(duì)應(yīng)真實(shí)軌跡值之間的L2平均距離,誤差值越小越好,單位為(m);FDE則關(guān)注預(yù)測(cè)序列的最終目的地與其真實(shí)最終目的地之間的距離,誤差值越小越好,單位為(m);Col-I是當(dāng)前時(shí)刻行人預(yù)測(cè)值與相鄰行人預(yù)測(cè)值的碰撞概率百分比(%),概率值越低越好;Col-II是當(dāng)前時(shí)刻行人預(yù)測(cè)值與相鄰行人真值的碰撞概率百分比(%),概率值越低越好。
根據(jù)上述的ADE, FDE, Col-I和Col-II指標(biāo)在ETH和UCY數(shù)據(jù)集上進(jìn)行同領(lǐng)域先進(jìn)算法之間的性能比較,CEPNET相比于基線算法Vanilla[21],ADE降低22.5%,F(xiàn)DE降低20%,Col-I降低9.75%,Col-II降低9.15%,具體的實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知,SGAN[13]算法在行人密度稀疏的場(chǎng)景中,性能是具有優(yōu)勢(shì)的,但在密集區(qū)域的軌跡預(yù)測(cè)誤差較大,社交推理能力信號(hào)極易受到周圍鄰居的影響。S-BiGAT[16]算法的社交圖注意力機(jī)制雖然對(duì)周圍鄰居的互動(dòng)信號(hào)有極強(qiáng)的結(jié)合能力,其預(yù)測(cè)值碰撞率Col-I的評(píng)估結(jié)果誤差較小,但是計(jì)算量很大且模型的推理能力并不理想,導(dǎo)致ADE和FDE誤差較大。Vanilla[19]算法是基于線性計(jì)算,對(duì)于非線性曲線的擬合能力很差,在各方面的預(yù)測(cè)誤差均較大。CENET-I算法雖然在Hotel和Zara01數(shù)據(jù)集中實(shí)現(xiàn)同于或優(yōu)于Vanilla[21]的預(yù)測(cè)性能,但對(duì)陌生場(chǎng)景(ETH, Univ和Zara02)的泛化能力較差。由于CEPNET算法能夠合理地學(xué)習(xí)局部端點(diǎn)特征信號(hào)和強(qiáng)大的泛化推理能力,在所有場(chǎng)景中普遍降低各方面的誤差值。根據(jù)測(cè)試平均結(jié)果可以看出,CEPNET算法綜合性能已經(jīng)超過SGAN[11]和S-BiGAT算法,而CEPNET算法在5個(gè)數(shù)據(jù)集上ADE和FDE的評(píng)估表現(xiàn)均優(yōu)于其他算法,該算法實(shí)現(xiàn)軌跡預(yù)測(cè)最佳性能。
表3 CEPTNET與其他算法在ETH和UCY數(shù)據(jù)集上的定量結(jié)果
除以上所述測(cè)試結(jié)果之外,還對(duì)特定場(chǎng)景中的不同社交互動(dòng)類型進(jìn)行對(duì)應(yīng)指標(biāo)的測(cè)試分析,表4為隨機(jī)抽樣結(jié)果。在這5種算法中,SGAN[13]算法在交互類型III上的軌跡推理誤差較小,而S-BiGAT[16]在預(yù)測(cè)值碰撞率Col-I上依然保持優(yōu)勢(shì)。CEPNET算法跟CENET-I算法相比,其社交池化網(wǎng)絡(luò)優(yōu)化數(shù)據(jù)通道中的軌跡信號(hào),將同一時(shí)刻的社交信息有效地融合到軌跡預(yù)測(cè)的結(jié)果中,提高模型的泛化能力。與基線算法Vanilla[19]相比,CEPNET算法通過CVAE生成的條件端點(diǎn)局部目的地,條件端點(diǎn)特征推理器對(duì)該局部目的地進(jìn)行特征編碼,得到的概率特征有效地指導(dǎo)模型對(duì)未來軌跡的預(yù)測(cè)。由表4評(píng)估結(jié)果的整體誤差排名可知,CEPNET算法綜合性能優(yōu)于其他算法。
表4 不同場(chǎng)景下4種交互類別的預(yù)測(cè)值評(píng)估結(jié)果
圖8是對(duì)5個(gè)算法模型訓(xùn)練和驗(yàn)證損失的折線圖,其中圖8(a)中各顏色的曲面是對(duì)應(yīng)模型的訓(xùn)練損失值震蕩區(qū)間,實(shí)線是對(duì)應(yīng)迭代次數(shù)的損失均值;圖8(b)是模型在驗(yàn)證集上每次迭代測(cè)試后所對(duì)應(yīng)的損失曲線。在訓(xùn)練集和驗(yàn)證集上,可以看出CEPNET算法的損失值均比其他算法更小且收斂速度更快。
在擁擠的場(chǎng)景中,建模行人的個(gè)人行為對(duì)其他行人軌跡的影響是非常重要的。傳統(tǒng)軌跡預(yù)測(cè)方法使用吸引力和斥力模型來構(gòu)建模型邏輯,而CEPNET采用純數(shù)據(jù)的驅(qū)動(dòng)方法來學(xué)習(xí)歷史軌跡中發(fā)生的交互行為信息。CEPNET模型會(huì)根據(jù)當(dāng)前主要行人的個(gè)人空間信息、歷史軌跡信息、感知到的社交互動(dòng)和最終目的地來規(guī)劃該行人的路徑軌跡。為分析模型對(duì)行人是否有實(shí)際的交互推理能力,根據(jù)真實(shí)場(chǎng)景的坐標(biāo)系,將SGAN[13], S-BiGAT[16], Vanilla[19],CENET-I和CEPNET模型的預(yù)測(cè)值和真值進(jìn)行可視化分析,具體如圖9、圖10所示。圖9、圖10中黑色實(shí)線是本場(chǎng)景中的主要行人的軌跡真值,即對(duì)此人用3種模型進(jìn)行軌跡預(yù)測(cè)分析,虛線是本場(chǎng)景中的其他行人軌跡真值。紅色點(diǎn)表示SGAN[13]算法的預(yù)測(cè)值,藍(lán)色點(diǎn)表示Vanilla[19]算法的預(yù)測(cè)值,橙色點(diǎn)表示CENET-I算法的預(yù)測(cè)值,綠色點(diǎn)表示CEPNET算法的預(yù)測(cè)值。每組場(chǎng)景中的所有軌跡長(zhǎng)度,均為連續(xù)21個(gè)時(shí)間步(8.4 s)上的可視化結(jié)果。
圖9(a)是ETH中第1015組場(chǎng)景,此場(chǎng)景中軌跡密集、路線復(fù)雜,且存在同向跟隨、相向避讓等多種社交互動(dòng),CEPNET算法的抗干擾能力明顯優(yōu)于其他算法;圖9(b)是Hotel中第223組場(chǎng)景,此場(chǎng)景中主要行人的社交互動(dòng)相對(duì)簡(jiǎn)單,但是屬于非線性路徑,由圖可知,在其他算法方向逐漸偏離目的地的過程中,CEPNET算法依然能夠正確預(yù)測(cè)該行人目的地的方向;圖9(c)是Univ中第3組場(chǎng)景,該場(chǎng)景中存在同向跟隨的社交關(guān)系,各算法均存在不同程度的偏離目的地方向,而CEPNET的位移誤差最?。粓D9(d)是Zara01第904組場(chǎng)景,該場(chǎng)景同樣為一對(duì)朋友相伴而行的情況,CEPNET算法雖然相較S-BiGAT[16]算法在速度預(yù)測(cè)上存在一定誤差,但能夠保持算法學(xué)習(xí)到正確的目的地方向。
圖10(a)是靜態(tài)類型行人軌跡預(yù)測(cè),圖10(b)是線性類型行人軌跡預(yù)測(cè),圖10(c)是存在社交互動(dòng)的交互類型軌跡預(yù)測(cè),圖10(d)是非交互類型的軌跡預(yù)測(cè)。在非交互類型中,一個(gè)有趣的現(xiàn)象是現(xiàn)有算法主要行人的預(yù)測(cè)軌跡很容易被模型學(xué)習(xí)到的鄰居行人的軌跡所干擾,而CEPNET算法有效地減少這種干擾,這有力地說明社交自注意力掩碼在本算法中的可靠性和實(shí)用性。通過可視化模型在不同場(chǎng)景和不同類型的預(yù)測(cè)值,發(fā)現(xiàn)CEPNET算法相較于另外4個(gè)模型,極大地提高了預(yù)測(cè)性能。
綜上所述,在公開數(shù)據(jù)集上的定量評(píng)估和可視化結(jié)果均證明了CEPNET算法在軌跡預(yù)測(cè)領(lǐng)域的先進(jìn)性。
本文針對(duì)行人社交互動(dòng)過程中存在局部目的地特征信號(hào)考慮不足所導(dǎo)致的無法準(zhǔn)確預(yù)知未來軌跡概率分布的問題,提出一種條件端點(diǎn)局部目的地池化網(wǎng)絡(luò)(CEPNET)。通過在公開數(shù)據(jù)集上的消融實(shí)驗(yàn)和定量分析結(jié)果證明提出的LoFI和SA-Social Pool在軌跡預(yù)測(cè)過程中的可靠性。此外,仿真實(shí)驗(yàn)還定性地證明自注意力社交掩碼對(duì)于非互動(dòng)類型的非線性軌跡預(yù)測(cè)的有效性,CEPNET算法評(píng)估結(jié)果達(dá)到先進(jìn)水平并且優(yōu)于基線算法Vanilla[19]的預(yù)測(cè)性能。CEPNET算法雖然很好地實(shí)現(xiàn)了對(duì)觀測(cè)軌跡的特征推理,但仍然存在與現(xiàn)有模型相似的缺陷,就是無法準(zhǔn)確預(yù)測(cè)行人未發(fā)生社交互動(dòng)時(shí)的非線性軌跡。因此,對(duì)非線性軌跡的概率推理,是下一步的研究重點(diǎn)。