房建武,賈 皓,朱 晨,王 賀,薛建儒
(1.長(zhǎng)安大學(xué)交通視覺安全實(shí)驗(yàn)室,西安 710064;2.西安交通大學(xué)視覺認(rèn)知計(jì)算與智能車實(shí)驗(yàn)室,西安 710049)
據(jù)統(tǒng)計(jì),由于“車輛未按規(guī)定避讓行人”這一因素造成的交通事故傷亡占據(jù)中國(guó)交通事故發(fā)生的最大比重[1],因此,行人穿越檢測(cè)是智能駕駛車輛面臨的重要感知任務(wù)之一。同時(shí),由于長(zhǎng)期以來人類在駕駛中積攢的大量經(jīng)驗(yàn),類人駕駛是目前智能駕駛技術(shù)研究的主要途徑之一。所以,面對(duì)行人穿越檢測(cè)這一問題,如果智能車輛系統(tǒng)能夠像人一樣理解行人的穿越意圖、感知行人穿越的運(yùn)動(dòng)狀態(tài)、預(yù)測(cè)其運(yùn)動(dòng)趨向,則可以有效地減少交通事故的發(fā)生,從而提高駕駛的安全性,促進(jìn)智能交通領(lǐng)域發(fā)展。
近些年伴隨深度神經(jīng)網(wǎng)絡(luò)理論研究的深入和計(jì)算力的不斷提升,深度學(xué)習(xí)得到了前所未有的關(guān)注與發(fā)展,在計(jì)算機(jī)視覺領(lǐng)域催生并推動(dòng)了許多應(yīng)用場(chǎng)景,在一些諸如物體檢測(cè)、圖像分類等任務(wù)中都取得了超過人類檢測(cè)的水平。因此,在需要感知系統(tǒng)的多種無人系統(tǒng)平臺(tái)中,例如機(jī)器人、智能駕車、無人機(jī)等,被廣泛使用[2-5]。在駕駛環(huán)境中,行人是最主要的交通要素,所以,許多學(xué)者及研究機(jī)構(gòu)著力研究如何檢測(cè)行人穿越[6-10]。發(fā)展到現(xiàn)在,由于行人目標(biāo)的高機(jī)動(dòng)性、主觀意圖不明確性、場(chǎng)景交互的多樣性,這個(gè)問題現(xiàn)在仍然面臨許多挑戰(zhàn)[11]。本文主要綜述當(dāng)前駕駛環(huán)境行人穿越檢測(cè)的發(fā)展現(xiàn)狀及主要技術(shù)線路,從試圖穿越、正在穿越、穿越預(yù)測(cè)三個(gè)階段分別以穿越意圖理解角度、穿越軌跡跟蹤角度及穿越行為預(yù)測(cè)角度進(jìn)行分析。最后對(duì)行人穿越檢測(cè)問題可能的新思路及挑戰(zhàn)因素進(jìn)行探討,希望為無人駕駛領(lǐng)域的發(fā)展提供一些新思路。
近年來,一些關(guān)于穿越行人檢測(cè)的方法利用行人的輪廓、姿態(tài)[12-13]等信息來進(jìn)行穿越意圖檢測(cè),這些方法的目的是在人體姿態(tài)發(fā)生細(xì)微變化時(shí)進(jìn)行穿越與否的判斷。比如,當(dāng)某個(gè)行人要發(fā)生穿越行為時(shí),首先會(huì)左右觀望交通狀況,此時(shí)尚未發(fā)生穿越動(dòng)作,只是頭部進(jìn)行了細(xì)微的轉(zhuǎn)向。一般而言,如果路側(cè)行人與車輛存在視覺注意的交互,則其穿越意圖比未發(fā)生眼神交互的行人更加明顯。因此路側(cè)的行人頭部朝向和眼神的交互是行人穿越可能發(fā)生的重要線索。此外,當(dāng)一個(gè)行人站在道路邊緣時(shí),其比站在距離路邊較遠(yuǎn)的行人更有意發(fā)生穿越。在行人的穿越意圖理解中,頭部和軀干的特征是最主要的特征。
在計(jì)算機(jī)視覺領(lǐng)域內(nèi),行人的特征通常是從視覺影像中獲取能夠充分表征行人區(qū)分性的高緯度表征。基于此,采用若干機(jī)器學(xué)習(xí)算法進(jìn)行識(shí)別與分類,比如支持向量機(jī)[14],人工神經(jīng)網(wǎng)絡(luò)[15]概率決策樹[16]、k-NN[17]和卷積神經(jīng)網(wǎng)絡(luò)[18]等。在這些工作中有一類方法結(jié)合頭部和腿部的特征來預(yù)測(cè)行人是否具有穿越意圖,比如文獻(xiàn)[19]中的工作,首先利用頭部圖像進(jìn)行頭部朝向的估計(jì),而腿部(軀干部分)用于估計(jì)行人的運(yùn)動(dòng)。圖1是這類方法的一種典型示例,描述了這種特征提取的體系結(jié)構(gòu)。
圖1 基于人體特征識(shí)別穿越意圖的框架Fig.1 Framework of intention estimation of pedestrian crossing
高斯動(dòng)力學(xué)模型在計(jì)算機(jī)視覺、模式分析及多媒體處理領(lǐng)域已經(jīng)得到了大量的應(yīng)用,并在很多具體應(yīng)用中取得了突出進(jìn)展。究其根本,高斯動(dòng)力學(xué)模型的研究重點(diǎn)集中于如何將時(shí)空高維信息轉(zhuǎn)換到低維空間來求解。在行人穿越意圖估計(jì)中,高斯過程動(dòng)力學(xué)模型將行人身體的關(guān)鍵點(diǎn)或肢體關(guān)節(jié)提取的三維時(shí)空信息約簡(jiǎn)到一個(gè)由位置和位移表征的低維高斯空間。例如Minguez 等人[20]提出的平衡化的高斯動(dòng)力學(xué)模型(Balanced Gaussian Process Dynamical Models,B-GPDM)可以提前1 秒預(yù)測(cè)未來行人的意圖,該方法將行人骨架或者關(guān)節(jié)點(diǎn)提取的三維位置和低維度隱空間上分布的位移關(guān)系融合進(jìn)模型中,使其具有推斷未來的可能位置和預(yù)測(cè)位置的特性。在此工作中,專門提出了4 種基礎(chǔ)模型:行走(walking)、停止(stopping)、開始(beginning)、站立(standing)。
這種基于高斯運(yùn)動(dòng)學(xué)過程模型進(jìn)行意圖檢測(cè)的核心過程是匹配一個(gè)訓(xùn)練好的行人識(shí)別模型來估計(jì)每個(gè)目標(biāo)的意圖,此類方法的示意如圖2 所示,將行人執(zhí)行不同活動(dòng)的運(yùn)動(dòng)序列數(shù)據(jù)集進(jìn)行訓(xùn)練。首先將幾種類型的行人穿越序列分成若干子集,然后對(duì)視頻內(nèi)包含某一個(gè)活動(dòng)的短時(shí)序列建模一個(gè)高斯過程動(dòng)力學(xué)模型。對(duì)于持續(xù)到來的新視頻輸入不斷選擇最佳行為模式匹配的模型,這種匹配的方法精度取決于模型的訓(xùn)練準(zhǔn)確程度。最后所選模型用于預(yù)測(cè)行人意圖是否具有四種意圖屬性之中的一種從而完成意圖檢測(cè),為自動(dòng)駕駛車輛提供信息。本質(zhì)上來講,此工作是一種行人運(yùn)動(dòng)意圖的分類方法。
圖2 行人穿越行為訓(xùn)練及匹配示意圖[20]Fig.2 Schematic of model training and evaluation process for pedestrian crossing detection [20]
隨著大規(guī)模自動(dòng)駕駛數(shù)據(jù)的不斷涌現(xiàn),深度學(xué)習(xí)逐漸在行人穿越任務(wù)中發(fā)揮作用?;诖耍a(chǎn)生了一類數(shù)據(jù)驅(qū)動(dòng)的行人穿越意圖估計(jì)方法。當(dāng)然,根據(jù)自動(dòng)駕駛車輛配置傳感器數(shù)據(jù)的模態(tài)差異,將有若干工作將不同傳感數(shù)據(jù)引入穿越意圖估計(jì),比如,采用三維激光點(diǎn)云數(shù)據(jù)。
在數(shù)據(jù)驅(qū)動(dòng)下,多種深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)被提出,其中,文獻(xiàn)[21]將深度神經(jīng)網(wǎng)絡(luò)的時(shí)間序列分類體系結(jié)構(gòu)進(jìn)行比較,專門創(chuàng)建了預(yù)測(cè)路旁行人的穿越意圖的多尺度密集記憶網(wǎng)絡(luò)(multi-scale dense neural networks)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short-Term-Memory,LSTM),并驗(yàn)證了其效果。多尺度密集記憶網(wǎng)絡(luò)包含兩個(gè)全聯(lián)接層、兩個(gè)dropout 層以及一個(gè)sigmoid 激活層,用于直接將卷積神經(jīng)網(wǎng)絡(luò)提取的行人特征進(jìn)行分類。而LSTM 結(jié)構(gòu)進(jìn)一步在時(shí)序上進(jìn)行關(guān)聯(lián),捕捉行人運(yùn)動(dòng)特征?;诖耍梢酝茢喑鲂腥说倪\(yùn)動(dòng)意圖,比如行人未來姿勢(shì)和移動(dòng)方向。
由于圖像坐標(biāo)系是一種透視變換,在行人穿越意圖估計(jì)上存在偏差,因此文獻(xiàn)[21]采用三維點(diǎn)云數(shù)據(jù)進(jìn)行意圖估計(jì),其將三維點(diǎn)云數(shù)據(jù)映射成一個(gè)二維圖像,圖像分辨率為三維點(diǎn)云采樣點(diǎn)的范圍,圖像數(shù)值為三維點(diǎn)云的遠(yuǎn)近。這些圖像可以收集行人姿態(tài)信息。對(duì)于每個(gè)獨(dú)立的行人,記錄下點(diǎn)云集合組成的點(diǎn)陣編號(hào),以及點(diǎn)陣本身的旋轉(zhuǎn)角度。這樣,卷積神經(jīng)網(wǎng)絡(luò)卓越的圖像處理分類能力就可以得到利用。
本節(jié)顯示出文中提到的幾種典型方法的特征。這些方法是在行人還未發(fā)生穿越行為時(shí),或者說行人將要進(jìn)行穿越時(shí)意圖的檢測(cè),從而避免可能發(fā)生的事故。
在駕駛環(huán)境中,由于交通參與者種類多樣,行人的軌跡跟蹤問題需要克服動(dòng)態(tài)場(chǎng)景變化的干擾。同時(shí),駕駛環(huán)境行人目標(biāo)數(shù)目眾多,一般采用多目標(biāo)跟蹤的方法進(jìn)行研究。針對(duì)行人穿越而言,其主要呈現(xiàn)3 個(gè)大的挑戰(zhàn)因素。
頻繁遮擋:行人穿越過程通常處于復(fù)雜的交通環(huán)境之中,易發(fā)生行人被其他車輛或者行人目標(biāo)遮擋的情況,且被遮擋的對(duì)象經(jīng)常處于持續(xù)遮擋的狀態(tài)。
強(qiáng)尺度變化:由于車輛的運(yùn)動(dòng)特性,穿越的行人目標(biāo)存在明顯的尺度變化問題。比如遠(yuǎn)處的行人起初尺度較小,但隨著自車的不斷接近,行人尺度會(huì)極速增大。
高機(jī)動(dòng)性:行人穿越過程中,由于其主觀判斷的變化,其運(yùn)動(dòng)方向、運(yùn)動(dòng)速度存在頻繁的變化,因此行人穿越過程具有高度的機(jī)動(dòng)性,所以要將行人在運(yùn)動(dòng)中的機(jī)動(dòng)性考慮進(jìn)去。
軌跡跟蹤中為了克服這些問題,本文首先介紹目前主要的兩階段訓(xùn)練的跟蹤方法和端到端的跟蹤方法。其次,對(duì)最新的基于圖卷積的軌跡跟蹤方法進(jìn)行描述。
3.2.1 兩階段訓(xùn)練的跟蹤方法研究
行人跟蹤的分步訓(xùn)練方法一般來說需要預(yù)先收集整個(gè)序列后進(jìn)行所有視頻幀中行人目標(biāo)的檢測(cè)??紤]到相鄰的視頻幀之間的目標(biāo)時(shí)空連接關(guān)系,一般會(huì)用到圖模型來求解多目標(biāo)跟蹤問題。這些圖結(jié)構(gòu)可以通過最小損失流[22-23]、最短路徑[24]、多次剪枝[25]或多區(qū)域[26]的子圖分解來求解??梢韵驁D結(jié)構(gòu)中的點(diǎn)或者權(quán)邊施加概率約束來描述運(yùn)動(dòng)和遮擋問題[27]?,F(xiàn)如今,隨著深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展,行人特征描述已經(jīng)全面采用深度卷積特征。
兩階段訓(xùn)練過程中,在基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行行人目標(biāo)特征提取的基礎(chǔ)上[28-29],關(guān)鍵問題是如何學(xué)習(xí)行人目標(biāo)兩兩之間的相似度和短時(shí)軌跡之間的相似度。為了獲得更精確的相似度度量,在文獻(xiàn)[30]中考慮了額外的時(shí)間順序信息。這些連續(xù)的特征在軌跡分裂重聯(lián)結(jié)模塊(Generation Cleaving Re-connection Association,GCRA)[31]就對(duì)較長(zhǎng)時(shí)間內(nèi)的物體特征打亂時(shí)間順序后進(jìn)行了多次重復(fù)利用,并獲得了不錯(cuò)的效果。此外,聯(lián)合多圖切割方法(Joint Multi-cut,JointMC)[32]提取行人目標(biāo)的深度光流特征提升圖結(jié)構(gòu)邊切割優(yōu)化性能。DeepNetWork[33]采用端到端學(xué)習(xí)的方式對(duì)網(wǎng)絡(luò)流進(jìn)行優(yōu)化從而改善跟蹤結(jié)果,從而更好地實(shí)現(xiàn)行人穿越跟蹤。
在此類方法中,我們研究組之前也設(shè)計(jì)了基于RGB 圖像數(shù)據(jù)和三維點(diǎn)云融合的多目標(biāo)跟蹤方法[34]。通過預(yù)先檢測(cè)行人目標(biāo)后,將行人的視覺特征和三維點(diǎn)云特征進(jìn)行融合,并使用Kuhn- Munkras 算法計(jì)算相鄰視頻幀之間的目標(biāo)關(guān)聯(lián)。
3.2.2 端到端的的跟蹤方法研究
與兩階段訓(xùn)練方式不同,端到端訓(xùn)練框架將行人目標(biāo)檢測(cè)和軌跡跟蹤集成為一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu)。其主要難點(diǎn)在于如何同時(shí)學(xué)習(xí)目標(biāo)檢測(cè)器及軌跡關(guān)聯(lián)模型,并進(jìn)行新數(shù)據(jù)進(jìn)入后的時(shí)序更新。
一些深度學(xué)習(xí)模型使得端到端的跟蹤網(wǎng)絡(luò)訓(xùn)練效率不斷提升。比如文獻(xiàn)[35]從行人再識(shí)別任務(wù)中學(xué)習(xí)外觀特征,與檢測(cè)相關(guān)聯(lián)。而另一類方法[36-37]則通過使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行自回歸和匹配分類來預(yù)測(cè)運(yùn)動(dòng)與外觀特征,比如基于時(shí)空注意機(jī)制的多目標(biāo)跟蹤(Spatial-Temporal Attention Mechanism MOT,STAM-MOT)[38]應(yīng)用空間和時(shí)間注意力映射來處理跟蹤中的局部遮擋問題,并設(shè)計(jì)端到端的遞歸神經(jīng)網(wǎng)絡(luò)(RNN、LSTM)來學(xué)習(xí)軌跡與檢測(cè)、語句更新、初始化和終止軌跡之間的關(guān)聯(lián)。為了尋找目標(biāo)的最優(yōu)位置,文獻(xiàn)[39]采用了用于單個(gè)目標(biāo)跟蹤的密集搜索策略。此外,基于多假設(shè)跟蹤(Multiple Hypothesis Tracking,MHT)框架的兩種與深度學(xué)習(xí)相結(jié)合的方法是MHT-DAM 和MHT-bLSTM[40],其中采用了CNN 和雙線性LSTM 網(wǎng)絡(luò)學(xué)習(xí)外觀特征。
由于圖卷積網(wǎng)絡(luò)(Graph Neural Network,GNN)在構(gòu)建目標(biāo)間關(guān)系時(shí)具有非常良好的建模特性,因此近年來GNN 也被廣泛應(yīng)用于多目標(biāo)跟蹤領(lǐng)域,本小節(jié)將介紹較為有效的基于GNN的跟蹤算法。
最早將GNN 用于行人跟蹤的是在Jiang 等人[41]的工作中,可以看出這種方法通過一個(gè)孿生網(wǎng)絡(luò),得到觀測(cè)的目標(biāo)和當(dāng)前的目標(biāo)軌跡的表征相似度,然后將目標(biāo)的歷史軌跡位置作為輸入,輸入一個(gè)LSTM 網(wǎng)絡(luò)得到相應(yīng)的位置,計(jì)算這個(gè)點(diǎn)與觀測(cè)到的目標(biāo)的運(yùn)動(dòng)相似度,由兩個(gè)相似度構(gòu)成相似度矩陣。軌跡與觀測(cè)目標(biāo)的相似度之間構(gòu)成了關(guān)系圖,以目標(biāo)和觀測(cè)信息作為節(jié)點(diǎn),相似度作為邊權(quán),表觀特征和位置信息拼接作為節(jié)點(diǎn)屬性特征。
再比如另外一類基于GNN 的多目標(biāo)跟蹤方法,深度關(guān)聯(lián)網(wǎng)絡(luò)(Deep Association Network)[42]先將行人表觀特征和實(shí)際運(yùn)動(dòng)特征進(jìn)行提取,并構(gòu)建了兩種特征的網(wǎng)絡(luò)聯(lián)系圖,通過GNN 后得到關(guān)聯(lián)矩陣,其中目標(biāo)重合度信息被用于相似度矩陣計(jì)算中。另一種方法,即GNMOT(Graph Networks Multiple Object Tracking)[43]將GNN 網(wǎng)絡(luò)用于表征行人整體和軀干的運(yùn)動(dòng),二者融合在一起得到一種相似度矩陣。
基于GNN 的多目標(biāo)跟蹤方法關(guān)鍵問題是怎樣構(gòu)建一個(gè)好的圖關(guān)聯(lián)結(jié)構(gòu)。為此,文獻(xiàn)[44]設(shè)計(jì)了一種基于信息傳遞網(wǎng)絡(luò)(Message Passing Networks,MPN)的跟蹤器。其中,MPN 的圖關(guān)聯(lián)結(jié)構(gòu)的構(gòu)建方法是比較新穎的,圖的節(jié)點(diǎn)是由所有的視頻幀中的全部目標(biāo)組成的,直接將觀測(cè)的信息作為一個(gè)總的節(jié)點(diǎn)。節(jié)點(diǎn)的屬性特征是由訓(xùn)練得到的行人外觀表征特征與人體姿態(tài)幾何特征組成的,并且特征由歐氏距離度量,然后通過創(chuàng)建的MLP(多層感知機(jī))網(wǎng)絡(luò)得到最終的特征表達(dá)。圖結(jié)構(gòu)中各邊表示跨越不同幀的不同行人目標(biāo)之間的關(guān)系,最終也以此構(gòu)建了一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu)。
此外,在一些利用三維激光點(diǎn)云進(jìn)行多目標(biāo)跟蹤的工作上,比如在GNN3DMOT[45],運(yùn)動(dòng)特征是通過LSTM 網(wǎng)絡(luò)得到的,表觀特征是通過卷積神經(jīng)網(wǎng)絡(luò)得到的。這個(gè)方法的改進(jìn)版本GNNTrk Forecast[46-47]中將多目標(biāo)跟蹤與軌跡預(yù)測(cè)結(jié)合,取得了更好的跟蹤效果,其示意圖如圖3 所示。
圖3 GNN 用于跟蹤示意圖[46]Fig.3 Pipeline of multi-object tracking by GNN [46]
行人跟蹤的方法著重于行人發(fā)生穿越的過程中,當(dāng)行人發(fā)生了穿越行為,通過跟蹤的方法發(fā)現(xiàn)并檢測(cè)出來穿越行人,為智能車提供信息。
在基于穿越跟蹤的基礎(chǔ)上穿越過程中的軌跡預(yù)測(cè)(穿越預(yù)測(cè))是計(jì)算機(jī)視覺領(lǐng)域研究的熱點(diǎn)問題之一,在汽車的自動(dòng)駕駛、機(jī)器人自動(dòng)導(dǎo)航、城市街道規(guī)劃等領(lǐng)域具有廣泛的應(yīng)用場(chǎng)景。軌跡預(yù)測(cè)的影響因素主要是目標(biāo)歷史行為、不同目標(biāo)之間的互動(dòng)、場(chǎng)景背景的約束,對(duì)人的行為進(jìn)行預(yù)測(cè)還涉及人類行為的隨機(jī)性。所以挑戰(zhàn)性主要表現(xiàn)在不確定性、交互性、機(jī)動(dòng)性、多模態(tài)特性4 個(gè)方面。預(yù)測(cè)結(jié)果多模態(tài)(multi-modal)特性是指對(duì)于相同的歷史軌跡,不同目標(biāo)可能有不同的未來軌跡。例如在十字路口,A 行人可能左轉(zhuǎn),B 行人可能直行。如何對(duì)不同意圖進(jìn)行建模,使預(yù)測(cè)方法能夠生成較為完善的預(yù)測(cè)結(jié)果是軌跡預(yù)測(cè)任務(wù)較為關(guān)注的一點(diǎn)。另外,目標(biāo)間交互關(guān)系的建模也起到舉足輕重的作用,在日常駕駛環(huán)境下,被預(yù)測(cè)車輛或行人的行為不僅與自身的歷史軌跡有關(guān),還會(huì)受到周圍其他目標(biāo)的影響。最終的目標(biāo)是預(yù)測(cè)結(jié)果要可靠精確,因?yàn)檐囕v和行人在日常環(huán)境中的行為會(huì)受到各種交通規(guī)則的約束,怎樣利用好這些規(guī)則輸出安全可靠的預(yù)測(cè)結(jié)果對(duì)于輔助駕駛系統(tǒng)而言至關(guān)重要。
基于此,本文主要從基于馬爾可夫決策過程的穿越預(yù)測(cè)方法和基于深度學(xué)習(xí)的穿越預(yù)測(cè)方法兩方面進(jìn)行綜述。
在行人穿越預(yù)測(cè)中有短期時(shí)序依賴的穿越行為預(yù)測(cè)和長(zhǎng)期時(shí)序依賴的穿越行為預(yù)測(cè)。Karasev等人[48]提出了一種針對(duì)行人長(zhǎng)期行為的預(yù)測(cè)方法,將他們的行為建模為跳躍馬爾可夫過程,目標(biāo)是一個(gè)隱藏變量。假設(shè)近似理性的行為,并結(jié)合環(huán)境約束和偏差,將穿越行為建模為馬爾可夫決策過程框架中的策略學(xué)習(xí)。使用時(shí)序?yàn)V波器推斷行人狀態(tài),并通過隨機(jī)策略進(jìn)行規(guī)劃來預(yù)測(cè)穿越動(dòng)作。
將穿越行為預(yù)測(cè)定義為將目標(biāo)映射到行動(dòng)的策略函數(shù)π:給定自然觀測(cè)狀態(tài)g和當(dāng)前狀態(tài)X=(X,θ,S),其中X為行人位置,θ為行人移動(dòng)方向,S為行人移動(dòng)距離。策略π產(chǎn)生從當(dāng)前時(shí)間t到實(shí)現(xiàn)目標(biāo)的未來某個(gè)時(shí)間的未來物理狀態(tài)軌跡。因?yàn)榫哂邢嗤繕?biāo)的不同個(gè)體會(huì)有不同的行為,所以策略π是隨機(jī)的。預(yù)測(cè)結(jié)果示意圖如圖4 所示。
實(shí)際上,在軌跡預(yù)測(cè)過程中,結(jié)合道路的幾何結(jié)構(gòu)和行人目標(biāo)的運(yùn)動(dòng)朝向,利用強(qiáng)化學(xué)習(xí)或者深度強(qiáng)化學(xué)習(xí)進(jìn)行軌跡預(yù)測(cè)具有很大的實(shí)用價(jià)值。只不過,難點(diǎn)在于獎(jiǎng)酬空間的設(shè)計(jì)和與環(huán)境交互中軌跡預(yù)測(cè)動(dòng)作集合的設(shè)計(jì)。
圖4 藍(lán)色表示可能的潛在穿越區(qū)域[48]Fig.4 Regions marked by blue color represent potential path of crossing[48]
由于行人穿越過程中的時(shí)序依賴性,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[49]被廣泛用來表征時(shí)空序列數(shù)據(jù)的時(shí)序特征,LSTM 將場(chǎng)景中的每個(gè)目標(biāo)軌跡序列單獨(dú)使用LSTM 網(wǎng)絡(luò)編碼-解碼,學(xué)習(xí)每個(gè)目標(biāo)的運(yùn)動(dòng)行為特征。解碼器根據(jù)時(shí)空上下文信息生成場(chǎng)景個(gè)體的預(yù)測(cè)軌跡,該模型未考慮現(xiàn)實(shí)場(chǎng)景個(gè)體之間存在的交互性。Yang 等人在LSTM基礎(chǔ)上提出的Social-LSTM 模型[50],在LSTM 模型中加入社交池化層,該層基于空間距離的方式將鄰近個(gè)體的隱藏信息共享,獲取鄰近個(gè)體的交互關(guān)注度。Group-LSTM[51]利用運(yùn)動(dòng)一致性,對(duì)具有相似運(yùn)動(dòng)趨勢(shì)的軌跡進(jìn)行聚類,然后再提出改進(jìn)的Social-LSTM 來進(jìn)行未來的軌跡預(yù)測(cè)。
計(jì)算機(jī)視覺幾乎所有任務(wù)都在用GAN 網(wǎng)絡(luò)來提升性能,GAN 神經(jīng)網(wǎng)絡(luò)主要包括一個(gè)生成器和一個(gè)鑒別器,通過兩者的相互博弈來得到更精確的結(jié)果。Lisotto 等人基于生成對(duì)抗網(wǎng)絡(luò)思想提出Social-GAN 和S-GAN-P 模型[52],借助GAN網(wǎng)絡(luò)的生成對(duì)抗思想,生成器與鑒別器的大量對(duì)抗訓(xùn)練,相較于LSTM 編碼-解碼系列模型,在總體時(shí)段和單個(gè)時(shí)間點(diǎn)的預(yù)測(cè)精度表現(xiàn)更好,圖5 顯示出基于GAN 網(wǎng)絡(luò)的軌跡預(yù)測(cè)示意圖。
考慮到行人穿越過程中,社交注意力的影響,即不同遠(yuǎn)近、不同運(yùn)動(dòng)朝向的行人對(duì)于目標(biāo)行人具有不同的重要性。社交注意力(Social Attention)[53]是一種軌跡預(yù)測(cè)模型,可以捕捉每個(gè)人在人群中行走的相對(duì)重要性,無論他們是否接近。Yang 等人[54]在Social-GAN 的基礎(chǔ)上采用注意機(jī)制來利用行人頭部方向與其軌跡之間的相關(guān)性,以行人最后一步的行進(jìn)方向?yàn)轭^部方向。
Takuma 等人[55]利用行人檢測(cè)框的位置序列和大小序列,加入自車攝像機(jī)本身的運(yùn)動(dòng)信息(攝像機(jī)在每?jī)蓭g的平移和旋轉(zhuǎn)信息)。另外,圖片中其他目標(biāo)對(duì)于行人的相對(duì)坐標(biāo)也被用來進(jìn)行預(yù)測(cè)。為了得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果,有很多模型考慮了周圍環(huán)境信息對(duì)預(yù)測(cè)軌跡的影響,Lisotto等人提出的模型[56]考慮了三個(gè)基本因素:人與人之間的相互作用、對(duì)區(qū)域的歷史觀察以及周圍空 間的語義,針對(duì)這三種因素分別設(shè)立了池化層來學(xué)習(xí)交互關(guān)系,未來的位置坐標(biāo)是通過使用線性回歸來提取高斯分布的關(guān)鍵參數(shù)獲得的。
圖5 基于GAN 的行人軌跡預(yù)測(cè)方法示意圖Fig.5 Method pipeline of trajectory prediction by GAN
行人穿越預(yù)測(cè)從行人軌跡點(diǎn)時(shí)序聯(lián)系、行人空間交互、時(shí)空重要性度量、場(chǎng)景結(jié)構(gòu)建模(幾何、語義信息)4 個(gè)大的方面不斷改進(jìn)。進(jìn)一步從單目標(biāo)軌跡預(yù)測(cè)逐漸演變到多模態(tài)軌跡預(yù)測(cè)。從駕駛安全的角度來講,行人穿越預(yù)測(cè)的精度和可靠度不斷提升。
未來的行人檢測(cè)技術(shù)的研究仍需要集中在以下幾個(gè)方面:時(shí)效性、多目標(biāo)、多尺度、復(fù)雜環(huán)境和遮擋問題。當(dāng)前的穿越行人檢測(cè)技術(shù)大多數(shù)面向車載端,這是自動(dòng)駕駛智能車發(fā)展的必然方向。自動(dòng)駕駛當(dāng)前的目標(biāo)是建立高效準(zhǔn)確的穿越行人檢測(cè)方法,而在一些復(fù)雜場(chǎng)景下,尤其是利用視覺信號(hào)進(jìn)行行人穿越檢測(cè)時(shí),存在很大的挑戰(zhàn)。行人穿越檢測(cè)很重要,為了更好地檢測(cè)行人穿越,現(xiàn)階段的主流新思路有如下幾個(gè)。
(1)駕駛員注意預(yù)測(cè):駕駛員會(huì)注意到可能發(fā)生穿越的行人,結(jié)合自己的駕駛經(jīng)驗(yàn),會(huì)進(jìn)行關(guān)鍵目標(biāo)選擇[57],將這種機(jī)制融合到算法中可能會(huì)促進(jìn)行人穿越檢測(cè)性能提升。
(2)聯(lián)合注意角度:駕駛員視覺注意和行人視覺注意角度在發(fā)生穿越時(shí),會(huì)產(chǎn)生交互,這種交互信息的利用可以有望提高行人穿越判別準(zhǔn)確度。
(3)場(chǎng)景幾何結(jié)構(gòu)使用:行人意圖結(jié)合道路結(jié)構(gòu)幾何信息,是研究行人穿越的關(guān)鍵信息,比如站在路邊的行人與道路的角度越靠近90°穿越的概率越大。
(4)多傳感融合:從車載傳感角度出發(fā)在視頻輸入設(shè)備的基礎(chǔ)上融合多種傳感器技術(shù)進(jìn)行檢測(cè),比如融合紅外設(shè)備、3D 激光雷達(dá)等。
(5)車路協(xié)同技術(shù):隨著國(guó)家布局車聯(lián)網(wǎng)技術(shù),車路協(xié)同技術(shù)得以大力發(fā)展,一些基于車路協(xié)同的穿越行人檢測(cè)方法得到重視。其中,可以利用路側(cè)及路上布設(shè)的新式傳感器,進(jìn)行行人穿越信號(hào)的識(shí)別,并及時(shí)發(fā)送給自主車輛。由路上的設(shè)備來進(jìn)行感知(或者做一些邊緣計(jì)算工作),這樣,昂貴的傳感器成本轉(zhuǎn)移到道路基礎(chǔ)設(shè)施上,給個(gè)人用戶帶來便利。
(6)車聯(lián)網(wǎng)技術(shù):伴隨著國(guó)家布局的車聯(lián)網(wǎng)技術(shù)的發(fā)展,在單車智能自動(dòng)駕駛中,在車上安裝攝像頭、激光雷達(dá)、毫米波雷達(dá)等傳感器,讓車輛能感知到周圍的情況,自動(dòng)做出反應(yīng)。但是,單車智能存在不可避免的視覺盲區(qū)。假如在此區(qū)域內(nèi)出現(xiàn)突然穿出的行人,則對(duì)于車輛來說,行人出現(xiàn)時(shí)減速已經(jīng)無法及時(shí)避讓。因此,在行人穿越檢測(cè)任務(wù)中,車輛網(wǎng)技術(shù)是一種有效手段。