• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多層時(shí)空融合網(wǎng)絡(luò)的駕駛?cè)俗⒁饬︻A(yù)測*

      2023-05-29 09:59:52金立生紀(jì)丙東郭柏蒼
      汽車工程 2023年5期
      關(guān)鍵詞:時(shí)空注意力卷積

      金立生,紀(jì)丙東,郭柏蒼

      (燕山大學(xué)車輛與能源學(xué)院,秦皇島 066004)

      前言

      人類視覺系統(tǒng)能夠快速搜索視野中的感興趣區(qū)域和目標(biāo),而不會(huì)被環(huán)境中的混亂對象干擾;熟練的駕駛?cè)丝梢钥焖僮R(shí)別交通場景中的各類要素及其運(yùn)動(dòng)狀態(tài),從而及時(shí)辨識(shí)直接或潛在的駕駛風(fēng)險(xiǎn)信息。駕駛?cè)俗⒁饬Φ姆植记闆r會(huì)影響車輛行駛安全性和穩(wěn)定性,例如分心駕駛行為引發(fā)交通事故的幾率遠(yuǎn)高于專注駕駛狀態(tài)[1]。因此,以人的視覺特性為研究重點(diǎn),深入挖掘行車場景中駕駛?cè)俗⒁饬Φ淖兓?guī)律,對增強(qiáng)駕駛輔助系統(tǒng)能效、提高智能化類人駕駛系統(tǒng)水平有重要作用[2-3]。

      近年來已有學(xué)者專注于人類注意力機(jī)制的相關(guān)研究,從探究影響人類在場景中的注意行為的視覺搜索理論[4],到通過特征提取計(jì)算人類在場景中的注視點(diǎn)的顯著性預(yù)測[5](saliency prediction),其研究的注視行為主要為自由觀看場景(無任務(wù)狀態(tài))。然而,駕駛?cè)诵枰P(guān)注道路場景中的諸多信息,使駕駛過程具有高度的任務(wù)導(dǎo)向性,且由于交通環(huán)境的復(fù)雜多變以及駕駛風(fēng)格[6]、剩余注意力[7]、潛在注意力[8]、疲勞[9]與分心[10]等駕駛狀態(tài)對駕駛?cè)艘曈X特性[11]的影響,使注意力預(yù)測仍是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。

      與靜態(tài)場景中的顯著性預(yù)測不同,駕駛場景聚焦于如何利用視頻流中的時(shí)空特性實(shí)現(xiàn)動(dòng)態(tài)場景中的顯著性預(yù)測(即駕駛?cè)俗⒁饬︻A(yù)測)。為此,近年來涌現(xiàn)了多個(gè)大規(guī)模駕駛?cè)俗⒁饬σ曨l數(shù)據(jù)集,為基于數(shù)據(jù)驅(qū)動(dòng)的注意力預(yù)測模型提供了較為充分的研究保障。Alletto 等[12]使用眼動(dòng)儀采集了駕駛?cè)嗽趯?shí)車駕駛時(shí)的注視數(shù)據(jù),并發(fā)布了首個(gè)大規(guī)模的駕駛?cè)俗⒁饬?shù)據(jù)集DR(eye)VE。Palazzi 等[13-14]繼續(xù)完善了該項(xiàng)目,并提出基于3D 卷積的包含RGB 圖像、光流和語義圖像的多分支駕駛?cè)俗⒁饬︻A(yù)測模型,但旁路的光流、語義分支明顯增加了網(wǎng)絡(luò)的復(fù)雜性和計(jì)算量。

      為避免實(shí)車駕駛數(shù)據(jù)集中不同駕駛?cè)顺霈F(xiàn)的個(gè)人偏差,研究人員在實(shí)驗(yàn)室中利用駕駛視頻重復(fù)測量不同駕駛?cè)擞^看時(shí)的注意行為并進(jìn)行平均處理,使每個(gè)視頻幀上都包含有多個(gè)駕駛?cè)说淖⒁曅袨?,有效去除了個(gè)體偏差?;贐DD100K[15]數(shù)據(jù)集,Xia 等[16]提取了包括制動(dòng)事件和發(fā)生在繁忙地區(qū)的視頻片段,通過平均處理駕駛?cè)俗⒁朁c(diǎn),制作了關(guān)鍵駕駛情況下的注意力數(shù)據(jù)集BDD-A,然后利用2D卷積提取當(dāng)前幀的空間特征,建立了基于LSTM(long short-term memory networks)的注意力預(yù)測模型。然而,這種僅使用LSTM 在幀間傳遞特征的方式,難以捕捉連續(xù)幀間更深層的時(shí)空耦合特征。

      聚焦駕駛?cè)俗⒁饬ο嚓P(guān)的數(shù)據(jù)集,由于DR(eye)VE 和BDD-A 僅提供了駕駛?cè)俗⒁朁c(diǎn)注釋中連續(xù)的顯著性圖(saliency map),未提供注釋信息中的注視圖(fixation map),使其應(yīng)用范圍受限。針對此問題,Deng 等[17]發(fā)布了TDV(traffic driving videos)數(shù)據(jù)集,并提出基于純2D卷積神經(jīng)網(wǎng)絡(luò)的駕駛?cè)俗⒁饬︻A(yù)測網(wǎng)絡(luò)CDNN(convolutional-deconvolutional neural network),雖然該網(wǎng)絡(luò)足夠輕量,但未充分利用場景中的時(shí)間特征。Fang等[18]延續(xù)并拓展了關(guān)鍵駕駛情況,建立了多種交通環(huán)境駕駛事故的駕駛?cè)俗⒁朁c(diǎn)數(shù)據(jù),并發(fā)布了DADA-2000 數(shù)據(jù)集。此外,F(xiàn)ang等[19]還在后續(xù)的研究中設(shè)計(jì)了基于雙流網(wǎng)絡(luò)的RGB 圖像與語義圖像的融合網(wǎng)絡(luò),以此識(shí)別駕駛?cè)说母信d趣區(qū)域,且使用3D卷積作為特征提取骨干捕獲了深層時(shí)空耦合特征,但旁路的語義分支和3D骨干大幅增加了網(wǎng)絡(luò)的體積。Li 等[20]通過2D 特征提取模塊和短時(shí)特征提取模塊分別獲得輸入特征的空間和運(yùn)動(dòng)信息,解碼預(yù)測駕駛?cè)说娘@著注意圖,并最后傳輸至目標(biāo)顯著性評(píng)估分支,建立駕駛?cè)俗⒁饬︼@著性預(yù)測和目標(biāo)顯著性評(píng)估聯(lián)合網(wǎng)絡(luò),但該網(wǎng)絡(luò)僅考慮了相鄰兩幀間的短暫運(yùn)動(dòng)信息,未能有效利用更長時(shí)間范圍的場景信息。由于3D 卷積能夠同時(shí)提取多幀間的時(shí)空耦合特征,Chang 等[21]使用3D卷積網(wǎng)絡(luò)搭建了特征金字塔并進(jìn)行解碼,但此類全3D 卷積網(wǎng)絡(luò)加劇了內(nèi)存的成本和優(yōu)化的難度。Wang 等[22]和Bellitto 等[23]僅在編碼器的特征提取骨干網(wǎng)絡(luò)中使用了3D 卷積,然后使用層次化的2D 卷積或注意力機(jī)制等解碼器進(jìn)行解碼,然而3D 骨干網(wǎng)絡(luò)的參數(shù)量同樣難以滿足網(wǎng)絡(luò)整體輕量化的需求。

      在現(xiàn)有研究的基礎(chǔ)上,本文中重點(diǎn)針對模型輕量化研究存在的不足,通過簡潔、高效的結(jié)構(gòu)設(shè)計(jì),構(gòu)建基于2D-3D 混合卷積的多層時(shí)空融合網(wǎng)絡(luò),提出駕駛?cè)俗⒁饬p量化預(yù)測模型。模型采用層次化的編碼器-解碼器架構(gòu),使用記憶模塊儲(chǔ)存和迭代輕量化2D卷積骨干提取的多層次特征,避免上下幀特征的重復(fù)提??;在解碼器中使用輕量化3D卷積模塊進(jìn)行時(shí)空特征融合,并逐步解碼以預(yù)測動(dòng)態(tài)駕駛場景的顯著性區(qū)域和目標(biāo);使用輕量化骨干,設(shè)計(jì)輕量化時(shí)空融合層并放置在高層抽象特征層,得到兼顧速度和精度的駕駛?cè)俗⒁饬︻A(yù)測模型。

      1 駕駛?cè)俗⒁饬︻A(yù)測模型設(shè)計(jì)

      1.1 模型整體結(jié)構(gòu)

      為建立輕量化的駕駛視角駕駛?cè)俗⒁饬︻A(yù)測模型,對模型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行合理設(shè)計(jì),通過在多個(gè)特征尺度上的編碼與解碼,充分利用當(dāng)前幀與歷史幀間的時(shí)間、空間和尺度信息,形成采用四分支并行整體網(wǎng)絡(luò)的架構(gòu),如圖1所示。

      圖1 模型整體結(jié)構(gòu)

      在編碼器中,首先使用特征提取骨干網(wǎng)絡(luò)在4個(gè)不同尺度的特征層上提取當(dāng)前幀的空間特征,然后并行輸入至記憶模塊,與在歷史幀上提取的特征在通道上進(jìn)行拼接聚合并輸出至解碼器模塊。在解碼器中,模塊分為4 個(gè)并行分支,各分支中經(jīng)過一系列的時(shí)空卷積與上采樣,融合連續(xù)幀間的空間特征以捕獲深層的時(shí)空耦合特征,預(yù)測生成顯著性概率圖,融合所有分支的結(jié)果以生成最后的顯著圖,得到駕駛?cè)俗⒁饬︻A(yù)測結(jié)果。

      考慮本方法采用了層次化設(shè)計(jì),易出現(xiàn)單一監(jiān)督層無法兼顧獨(dú)立的多分支特征學(xué)習(xí)問題。為此,在訓(xùn)練過程中選擇多層聯(lián)合監(jiān)督,使每個(gè)獨(dú)立的分支層級(jí)都能在訓(xùn)練過程中充分地學(xué)習(xí)到監(jiān)督特征。

      1.2 編碼器模塊

      編碼器模塊分為特征提取骨干和記憶模塊兩部分。其中,特征提取骨干采用輕量化網(wǎng)絡(luò)MobileNetV2[24]的全卷積層。為充分利用駕駛場景中的尺度信息,輸出當(dāng)前幀It∈RH×W×3選擇從Level-1 到 Level-4 的 4 個(gè)層級(jí)的特征作為骨干網(wǎng)絡(luò)的輸出。

      記憶模塊包含存儲(chǔ)和迭代兩個(gè)功能,并分別在網(wǎng)絡(luò)運(yùn)行的兩個(gè)階段發(fā)揮作用。第一階段,記憶模塊在時(shí)間維度上拼接聚合當(dāng)前幀It編碼后的特征和存儲(chǔ)的歷史幀Vt={It-T+1,…,It-1}中的特征,得到時(shí)間長度為T的特征張量后傳輸給解碼器。第二階段,在當(dāng)前幀It時(shí)刻模型執(zhí)行完畢后,記憶模塊去除It-T+1時(shí)刻的特征,保留It時(shí)刻的特征,依次迭代更新,使在執(zhí)行下一時(shí)刻計(jì)算前記憶模塊中僅包含時(shí)間長度為T-1 的特征張量,并最后作用于It+1時(shí)刻。模型通過在上下幀之間傳遞骨干網(wǎng)絡(luò)提取的空間特征的設(shè)計(jì)能避免視頻類算法重復(fù)提取上下幀特征的弊端,有效減少網(wǎng)絡(luò)計(jì)算量,提升運(yùn)算速度。

      1.3 解碼器模塊

      雖然編碼器已在時(shí)間維度將連續(xù)幀的空間特征進(jìn)行拼接聚合,但不同幀間特征仍然相互獨(dú)立。因此,為學(xué)習(xí)和捕獲連續(xù)幀間深層的時(shí)空耦合特征,本文基于3D卷積設(shè)計(jì)了一個(gè)輕量、有效的時(shí)空融合解碼器。如圖1 所示,解碼器模塊為并行多分支結(jié)構(gòu),每個(gè)分支又可分為時(shí)空融合層和預(yù)測層。時(shí)空融合層由3 種卷積層級(jí)聯(lián)組成,其中3D 下采樣層使用了卷積核尺寸(kernel size)為3 × 1 × 1、步長(stride)為2 × 1 × 1、填充(padding)為2 × 1 × 1 的3D 卷積。由式(1)可知,3D 下采樣層能夠使輸入的時(shí)空特征僅在時(shí)間維度下采樣至原來的0.5 倍,而高度和寬度保持不變。

      式中:M為輸入特征尺寸;N為輸出特征尺寸;K為卷積核尺寸;P為填充尺寸;S為步長;i代表特征的維度,即3D卷積所處理的時(shí)間維T、高度維H和寬度維W。

      為平衡網(wǎng)絡(luò)計(jì)算量和擬合能力,本文受ConvNeXts[25]的啟發(fā)設(shè)計(jì)了基于逆瓶頸結(jié)構(gòu)的3D block。逆瓶頸卷積塊在ConvNeXts 中得到了大量應(yīng)用,但其僅適用于2D 圖像的特征提取,無法處理視頻序列。因此,本文借鑒了其將大內(nèi)核卷積運(yùn)算和通道深度卷積運(yùn)算分離的思想,基于3D 卷積提出逆瓶頸3D block,并根據(jù)解碼器架構(gòu)做進(jìn)一步的參數(shù)適用性設(shè)計(jì),以適應(yīng)視頻圖像處理和時(shí)空特征融合。如圖2所示,3D block包含3個(gè)卷積層,第1層采用卷積核大小為7 × 7 × 7 的3D 可分離卷積[26](3D separable convolution),用以增大感受野的窗口大??;第2 層為擴(kuò)大通道寬度的1 × 1 × 1 卷積,膨脹比設(shè)置為2;第3層為在時(shí)空融合過程中逐步縮減通道寬度的1 × 1 × 1卷積。

      圖2 3D block的總體結(jié)構(gòu)

      3D 可分離卷積的總體結(jié)構(gòu)如圖2 中虛線框所示,其利用卷積核尺寸將3D卷積拆成空間卷積和時(shí)間卷積串聯(lián)運(yùn)算,同標(biāo)準(zhǔn)3D卷積相比可以減少計(jì)算量和優(yōu)化難度。同時(shí),逆瓶頸結(jié)構(gòu)的設(shè)計(jì)用以抵消大卷積核帶來的計(jì)算量,且通過后續(xù)對網(wǎng)絡(luò)寬度的擴(kuò)張補(bǔ)償網(wǎng)絡(luò)的容量損失。最后,時(shí)空融合層的最后一層為在每一個(gè)3D block 后都串聯(lián)的trilinear 三線性上采樣層,用以將特征圖的尺寸擴(kuò)大2 倍,但時(shí)間維長度保持不變。

      由于每一個(gè)分支的時(shí)空特征流在經(jīng)歷完整的時(shí)空融合層后,該層特征時(shí)間維度已被融合至一維,因此本文均使用帶有Sigmoid激活函數(shù)的2D 卷積作為預(yù)測層。Sigmoid函數(shù)如式(2)所示,其輸出范圍為(0,1),使預(yù)測層可將每一層的時(shí)空融合特征映射為概率分布進(jìn)行輸出,得到每個(gè)特征層級(jí)的顯著性概率圖,然后將其在通道上拼接并最終融合生成預(yù)測的顯著性圖,即駕駛?cè)说淖⒁饬︻A(yù)測結(jié)果。因此,編碼器模塊通過在多個(gè)特征層級(jí)上進(jìn)行獨(dú)立的時(shí)空特征融合與最后的融合預(yù)測,能夠充分利用動(dòng)態(tài)駕駛場景的時(shí)間、空間和尺度信息。

      此外,本文在時(shí)空融合層的每一層卷積后都加入了批正則化(batch normalization)和GELU激活函數(shù),用以增加網(wǎng)絡(luò)的非線性和尋優(yōu)能力。GELU函數(shù)如式(3)所示,其在激活函數(shù)中引入了隨機(jī)正則的思想能夠在模型訓(xùn)練過程中引入隨機(jī)性,使訓(xùn)練過程的魯棒性更佳。

      1.4 聯(lián)合監(jiān)督模塊

      基于分層監(jiān)督思想設(shè)計(jì)聯(lián)合監(jiān)督模塊,選擇在視頻顯著性預(yù)測領(lǐng)域得到廣泛應(yīng)用的KL 散度(kullback-leibler divergence)損失作為具體每層監(jiān)督的損失函數(shù)。聯(lián)合監(jiān)督模塊中使用的組合損失函數(shù)L 的計(jì)算方法見式(4),其中m表示圖1 中的監(jiān)督層Sup0、Sup1、Sup2、Sup3 和Sup4,具體為每個(gè)解碼器分支的顯著性概率圖輸出以及最終融合生成的顯著性圖。?KL為KL散度,計(jì)算方法為

      式中:G∈[0,1]為駕駛?cè)俗⒁饬Φ恼鎸?shí)標(biāo)簽;S∈[0,1]為模型預(yù)測出的顯著性值;i為每一點(diǎn)的像素值。

      2 實(shí)驗(yàn)與分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

      為全面測試所提出的駕駛?cè)俗⒁饬︻A(yù)測方法,分別選擇基于事故場景和正常駕駛場景的數(shù)據(jù)集DADA-2000[18]和TDV[17],其中包含的主要場景如圖3 所示,左起前3 列選自DADA-2000,最右列選自TDV,基本覆蓋了所有典型駕駛場景。

      圖3 DADA-2000與TDV數(shù)據(jù)集主要場景

      DADA-2000(driver attention prediction in driving accident scenarios)是一個(gè)大規(guī)模的駕駛事故場景中的駕駛?cè)俗⒁饬︻A(yù)測數(shù)據(jù)集,包含2 000個(gè)視頻,目前已經(jīng)公開1 018 個(gè)視頻,分別為598 個(gè)視頻(約241 k 幀)用以訓(xùn)練、198 個(gè)視頻(約64 k 幀)用以驗(yàn)證和222 個(gè)視頻(約70 k 幀)用以測試。注視來源于20 位有經(jīng)驗(yàn)的駕駛?cè)说难蹌?dòng)追蹤數(shù)據(jù),每個(gè)視頻中都至少記錄了5名駕駛?cè)说难蹌?dòng)數(shù)據(jù)。

      TDV 包含16 個(gè)交通駕駛視頻,每個(gè)視頻的時(shí)長為52~181 s 不等。在訓(xùn)練階段共有49 k 幀,驗(yàn)證階段有6.6 k 幀,測試階段有19 k 幀,其注視來源于28位有經(jīng)驗(yàn)的駕駛?cè)说难蹌?dòng)追蹤數(shù)據(jù),且每個(gè)視頻都被所有的駕駛?cè)擞^看。

      使用MobileNetV2[24]的預(yù)訓(xùn)練模型初始化特征提取骨干參數(shù),選擇ADAM 優(yōu)化器,初始學(xué)習(xí)率為0.001,權(quán)重衰減為2×10-7,學(xué)習(xí)率每隔5 個(gè)epoch 下降0.5 倍。使用re-fine 操作,特征提取骨干學(xué)習(xí)率設(shè)為其他模塊的0.1。模型時(shí)間長度T設(shè)置為16幀,每幀圖像首先縮放為256 × 256,然后經(jīng)標(biāo)準(zhǔn)化、隨機(jī)鏡像和隨機(jī)裁剪至尺寸為224 × 224 后輸入網(wǎng)絡(luò)。此外,由于顯存的限制,批次設(shè)置為10,但本文選擇累積20 個(gè)批次的梯度后再更新一次模型參數(shù),以變相擴(kuò)大批次值。模型訓(xùn)練和測試所使用的計(jì)算平臺(tái)均為配備了NVIDIA RTX5000 GPU 的Ubuntu 18.04臺(tái)式計(jì)算機(jī)。

      顯著性預(yù)測常用衡量算法性能的評(píng)價(jià)指標(biāo)[27]:Area under the Curve by Judd(AUC-J),Shuffled-AUC(s-AUC),AUC-Borji(AUC-B),the Normalized Scanpath Saliency(NSS),Kullback-Leibler Divergence(KL),Similarity(SIM)和Linear Correlation Coefficient(CC)被用來定量評(píng)估對比本文提出的模型與當(dāng)前最先進(jìn)的SOTA(state-of-the-art)模型的精度。這些指標(biāo)可以分為兩類:基于位置的方法包括AUC-J、AUC-S、AUC-B和NSS,使用二值的注視圖作為真實(shí)標(biāo)簽;基于分布的方法包括KL、SIM 和CC,使用連續(xù)的顯著圖作為真實(shí)標(biāo)簽。其中注視圖是離散的,記錄了圖像上每一個(gè)像素是否接收到人類的注視,使用高斯核模糊每個(gè)注視點(diǎn)后即可得到連續(xù)的顯著圖。

      2.2 實(shí)驗(yàn)結(jié)果分析

      為驗(yàn)證所提出算法的有效性,在DADA-2000和TDV 數(shù)據(jù)集上同當(dāng)前具有代表性的12 個(gè)注意模型進(jìn)行定量對比,包括有ITTI[28],SALICON[29],GBVS[30],HFT[31],CDNN[17],MLNet[32],Two-Stream[33],BDD-A[16],DR(eye)VE[14],ACLNet[5],SCAFNet[19]和ASIAF-Net[20]。其中,前6 個(gè)模型均基于空間特征,后6個(gè)模型利用了動(dòng)態(tài)駕駛場景的時(shí)空特征。

      在DADA-2000 數(shù)據(jù)集上的測試結(jié)果如表1 所示,其中加粗的數(shù)據(jù)表示對應(yīng)指標(biāo)的最佳性能。本文提出的模型在KL、CC、AUC-J 和s-AUC 4 個(gè)指標(biāo)上優(yōu)于所有對比的模型,在NSS 和SIM 兩個(gè)指標(biāo)上為次優(yōu)。同時(shí),相比僅在基于分布的評(píng)價(jià)指標(biāo)SIM和CC 上獲得最優(yōu)的SCAFNet,以及僅在基于位置的評(píng)價(jià)指標(biāo)NSS 和AUC-J 的ASIAF-Net,本研究的模型分別在這兩類評(píng)價(jià)指標(biāo)中的KL、CC、AUC-J 和s-AUC 上都獲得了最優(yōu)。由此證明,所提出的算法不僅在性能上優(yōu)于最先進(jìn)的同類模型,還實(shí)現(xiàn)了更高的魯棒性。

      表1 本文模型與其他模型在DADA-2000數(shù)據(jù)集上的結(jié)果對比

      表2中幾乎所有的模型都在TDV 數(shù)據(jù)集上取得了更好表現(xiàn),這是因?yàn)門DV 的駕駛場景最為單一,且每幀上擁有最多的駕駛?cè)俗⒁朁c(diǎn)(28 人),復(fù)雜度和挑戰(zhàn)性均低于DADA-2000數(shù)據(jù)集,使該數(shù)據(jù)集更易于學(xué)習(xí)擬合。相對于其它所有對比算法,本文建立的模型在AUC-B 上獲得了最優(yōu),在KL、CC 和SIM上獲得了次優(yōu)。盡管在TDV 數(shù)據(jù)集上并未在所有指標(biāo)上實(shí)現(xiàn)最優(yōu)性能,但與駕駛?cè)俗⒁饬︻A(yù)測研究中SOTA模型ASIAF-Net和SCAFNet相比,本文模型依舊在AUC-J 和AUC-B 兩個(gè)基于位置的指標(biāo)上對ASIAF-Net 實(shí)現(xiàn)超越;在SIM、CC 和KL 3 個(gè)基于分布的指標(biāo)上對SCAFNet 實(shí)現(xiàn)超越;表明本文模型不僅足以和當(dāng)前最先進(jìn)的方法相媲美,且更具有魯棒性。

      表2 本文模型與其他模型在TDV數(shù)據(jù)集上的結(jié)果對比

      綜合對比DADA-2000 和TDV 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,提出的模型在場景復(fù)雜度更高、挑戰(zhàn)性更大的DADA-2000 數(shù)據(jù)集上取得最佳表現(xiàn),說明本模型能夠?qū)︸{駛?cè)俗⒁饬ψ龀鰷?zhǔn)確預(yù)測,識(shí)別動(dòng)態(tài)駕駛場景中的顯著區(qū)域和潛在風(fēng)險(xiǎn)。此外,相比與當(dāng)前的SOTA 模型,SCAFNet 模型中的旁路語義分支和3D骨干均大幅增加了網(wǎng)絡(luò)的體積和復(fù)雜度;ASIAFNet 模型僅考慮了相鄰兩幀間的運(yùn)動(dòng)特征且在編碼器中對上下幀特征進(jìn)行了重復(fù)提?。槐灸P屯ㄟ^行之有效的結(jié)構(gòu)優(yōu)化設(shè)計(jì),解決了以上模型存在的不足,在實(shí)現(xiàn)模型輕量化的同時(shí)保證了其具有足夠高的預(yù)測精度。

      在類人駕駛系統(tǒng)中,駕駛?cè)俗⒁饬︻A(yù)測算法的模型尺寸和運(yùn)行時(shí)間是必須考慮的重要指標(biāo)。在表3 中,本文與部分公開模型就模型尺寸和運(yùn)行時(shí)間進(jìn)行對比。為保障數(shù)據(jù)可信性,其中SALICON、Two-Stream、ITTI、GBVS 和ACLNet 的數(shù)據(jù)來源于視頻顯著性排行榜(https://mmcheng.net/videosal/),DR(eye)VE 的數(shù)據(jù)來源于原論文。ASIAF-Net 雖未公開相關(guān)模型信息,但該模型在網(wǎng)絡(luò)編碼器中采用了兩個(gè)ResNet50[34]作為雙流骨干網(wǎng)絡(luò),而單個(gè)ResNet50 尺寸就已達(dá)102.5 MB。從表3 中模型尺寸和運(yùn)行時(shí)間的對比可以看出,本文所提出的多層時(shí)空融合方法不僅在模型尺寸上實(shí)現(xiàn)了大幅優(yōu)化,且能保證運(yùn)行速度足夠快,充分滿足實(shí)時(shí)性需求。

      表3 本文模型與其他模型的模型尺寸和推理時(shí)間結(jié)果對比

      為更好證明所提出注意力預(yù)測模型在真實(shí)交通環(huán)境中的有效性,將本文模型與其他代表性方法ITTI、CDNN、BDD-A 在DADA-2000 數(shù)據(jù)集上進(jìn)行定性對比,共選取8 個(gè)代表性的場景,結(jié)果如圖4 所示。圖4(a)中對于突然沖出的行人,本模型能準(zhǔn)確關(guān)注到該行人;得益于充分利用時(shí)間上下文信息,模型能夠在圖4(b)的后續(xù)幀中預(yù)測注視點(diǎn)落在行人的未來軌跡上,表明在時(shí)空信息的幫助下,模型捕捉到了駕駛?cè)说囊鈭D。對于住宅區(qū)道路圖4(c)、二輪車事故場景圖4(d)、十字路口圖4(e)、鄉(xiāng)村道路圖4(f)、雨天場景圖4(g)和典型的二輪車、汽車碰撞場景圖4(h),相比于對比模型,本模型均能夠更精準(zhǔn)地定位到駕駛?cè)说年P(guān)注區(qū)域和感興趣目標(biāo),且能夠在一定程度上反映出駕駛?cè)说鸟{駛意圖。

      圖4 DADA-2000數(shù)據(jù)集的部分場景中本文模型與其他模型的駕駛?cè)俗⒁饬︻A(yù)測對比結(jié)果

      2.3 消融實(shí)驗(yàn)與分析

      由于本文使用3D 卷積提取動(dòng)態(tài)場景中的時(shí)空耦合特征,但限于3D 卷積只能處理固定長度的時(shí)空序列的特性。因此,在消融實(shí)驗(yàn)中證明了設(shè)置不同時(shí)間長度時(shí)的模型性能。實(shí)驗(yàn)結(jié)果如表4 所示,當(dāng)設(shè)置時(shí)間長度T=16 幀時(shí),模型取得相對最佳性能;同時(shí),相對于短時(shí)序列,過長的時(shí)間序列(如T=32 幀,約1.28 s)降低了性能,說明其引入了較多與預(yù)測無關(guān)的特征。綜上所述,表4 的實(shí)驗(yàn)結(jié)果證明了駕駛場景具有很快的特征更新速度,且一個(gè)小的時(shí)間窗口(例如T=16 幀,約0.6 s)就包含足夠的上下文信息來預(yù)測駕駛?cè)嗽谠摃r(shí)刻的注視位置,這與Palazzi等[14]的結(jié)論相近。

      表4 設(shè)置不同時(shí)間長度的本文模型在DADA-2000數(shù)據(jù)集上的結(jié)果對比

      為驗(yàn)證所采用的多層次特征策略的有效性,在表5 中對比了不同監(jiān)督層級(jí)的顯著性預(yù)測值與真實(shí)標(biāo)簽的差距。實(shí)驗(yàn)發(fā)現(xiàn),更深層的特征層級(jí)取得了更好的性能表現(xiàn),說明通過增加網(wǎng)絡(luò)深度能加強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。但任何一個(gè)單獨(dú)層級(jí)都無法在該數(shù)據(jù)集上獲得最佳的結(jié)果,而本文利用融合層融合了其他4 個(gè)特征層級(jí)的Sup0,在5 個(gè)指標(biāo)上都超越了被融合層級(jí)。結(jié)果表明,每一個(gè)特征層都學(xué)習(xí)到了其他特征層所不具備的尺度信息,而本文采用的多層次特征學(xué)習(xí)與融合能夠充分利用場景中的尺度信息,捕獲不同尺寸大小的刺激因素。

      表5 本文模型的不同監(jiān)督層級(jí)在DADA-2000數(shù)據(jù)集上的結(jié)果對比

      在編碼器中為擴(kuò)大卷積層的感受野和非線性激活能力,使用7 × 7 × 7 卷積和GELU函數(shù)作為基本卷積運(yùn)算。為驗(yàn)證該方法的有效性,使用3 × 3 × 3卷積和RELU激活函數(shù)作為基線并逐步恢復(fù)7 × 7 ×7 卷積和GELU激活函數(shù)。在DADA-2000 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表6 所示。更大的卷積核在AUC-B指標(biāo)上得到了最高分值,但同時(shí)使用7 × 7 × 7 卷積和GELU激活函數(shù)使本文模型獲得了相對最佳的表現(xiàn),證明了網(wǎng)絡(luò)設(shè)計(jì)的有效性。

      表6 不同組成設(shè)置的本文模型在DADA-2000數(shù)據(jù)集上的結(jié)果對比

      3 結(jié)論

      為解決當(dāng)前復(fù)雜交通環(huán)境下的動(dòng)態(tài)駕駛場景中駕駛?cè)俗⒁饬︻A(yù)測模型存在的模型體積龐大、實(shí)時(shí)性較差的問題,通過創(chuàng)新的結(jié)構(gòu)設(shè)計(jì),提出了一種輕量化的2D-3D 時(shí)空融合全卷積網(wǎng)絡(luò),實(shí)現(xiàn)快速、高效的注意力預(yù)測。研究結(jié)果及其結(jié)論如下。

      (1)基于層次化編碼器-解碼器架構(gòu)建立了駕駛?cè)俗⒁饬︻A(yù)測模型,采用多層次時(shí)空融合有效利用動(dòng)態(tài)駕駛場景中的時(shí)間、空間和尺度信息,使模型能夠克服次要信息干擾,準(zhǔn)確識(shí)別和定位場景中的關(guān)鍵信息。

      (2)設(shè)計(jì)并使用輕量3D 時(shí)空融合層和輕量2D骨干MobileNetV2,同時(shí)僅在上下幀之間傳遞空間特征,避免特征的重復(fù)提取,有效降低了本文模型的尺寸和計(jì)算量,使其滿足輕量化和實(shí)時(shí)性的需求。

      (3)在DADA-2000 和TDV 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,本模型在多個(gè)顯著性指標(biāo)上優(yōu)于對比模型,表明模型實(shí)現(xiàn)了精度和速度的有效平衡,證明了該方法在駕駛?cè)俗⒁饬︻A(yù)測上的先進(jìn)性和優(yōu)越性。

      在未來的研究中還應(yīng)彌補(bǔ)的不足包括:①在網(wǎng)絡(luò)設(shè)計(jì)中探索自適應(yīng)時(shí)間長度的時(shí)空融合方案;②將注意力預(yù)測模型引入車輛目標(biāo)檢測、目標(biāo)跟蹤等感知算法中,以注意力驅(qū)動(dòng)的方式進(jìn)一步完善車輛類人駕駛系統(tǒng),增加智能車輛系統(tǒng)的可解釋性與可信性。

      猜你喜歡
      時(shí)空注意力卷積
      跨越時(shí)空的相遇
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      鏡中的時(shí)空穿梭
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      玩一次時(shí)空大“穿越”
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      時(shí)空之門
      开平市| 六安市| 保康县| 平昌县| 兴文县| 马公市| 定远县| 道孚县| 大关县| 香格里拉县| 南川市| 隆子县| 孝感市| 揭西县| 富裕县| 扎赉特旗| 呼图壁县| 西乌珠穆沁旗| 荥阳市| 塔城市| 南漳县| 武冈市| 汉沽区| 习水县| 获嘉县| 西华县| 柳河县| 乌兰浩特市| 资阳市| 大石桥市| 龙江县| 额尔古纳市| 离岛区| 济南市| 濮阳县| 天峨县| 广德县| 新田县| 大厂| 阿勒泰市| 乐平市|