• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義分割與深度估計的行車環(huán)境實時解析

      2020-01-03 01:24:44
      計算機測量與控制 2019年12期
      關鍵詞:解碼器編碼器語義

      (同濟大學 道路與交通工程教育部重點實驗室,上海 201800)

      0 引言

      道路行車環(huán)境的感知與解析是車輛輔助駕駛與自動駕駛的關鍵技術,同時也是車輛進行判斷和決策的基礎。在目前實現(xiàn)道路行車環(huán)境感知的眾多技術中,計算機視覺技術憑借其設備安裝簡單、操作方便的優(yōu)點,一直以來都是研究的熱點。它通過車輛前方攝像頭獲取的圖像信息,利用設計的算法對圖像中的場景進行語義分割和深度估計,實現(xiàn)行車環(huán)境的解析。

      不過由于場景復雜、光線陰影變化大、物體遮擋等原因,使得語義分割和深度估計這兩個基礎的計算機視覺任務極富挑戰(zhàn)。近年來隨著深度學習的迅速發(fā)展,使得關于兩個任務的研究取得了極大的進展。目前已經(jīng)有不少學者提出實現(xiàn)語義分割和實現(xiàn)深度估計的神經(jīng)網(wǎng)絡,并且能達到良好的精度,但由于其網(wǎng)絡結構過于龐大,導致模型計算量過大,無法達到實時計算和落地使用。針對該問題,不少研究者通過精簡網(wǎng)絡結構,減小網(wǎng)絡的深度和寬度,希望能達到實時計算的目的。但由于網(wǎng)絡結構的精簡,導致了精度的下降,因此在實時計算和精度這兩方面的權衡,成為了時下研究的難點。另外在道路場景的解析中,語義信息和深度信息缺一不可,目前大部分工作仍將二者當做兩個獨立的任務分別處理,導致在實時性上再打折扣。

      考慮到語義信息和深度信息具有一定相關性,即相同的語義要素具有相近的深度信息,本文提出了一個輕量級的網(wǎng)絡模型,同時完成語義分割和深度估計兩個任務,并且實現(xiàn)端到端的訓練與推測。在保持一定精度的情況下,實現(xiàn)實時計算(30 fps 以上)。本文的主要工作如下:

      1)設計了一個輕量化、高效的特征提取模塊。在保持模型精度的情況下,大大減少了模型的參數(shù)量,提高了模型計算速度;

      2)設計了一個基于多尺度卷積和注意力機制的解碼模塊,用于捕捉特征間的語義信息或深度信息;

      3)根據(jù)前兩點設計的編碼和解碼模塊,搭建了一個端到端實現(xiàn)語義分割和深度估計的神經(jīng)網(wǎng)絡,實現(xiàn)單個網(wǎng)絡同時解決兩個任務,并且達到實時性的要求。

      1 相關工作

      圖1 網(wǎng)絡結構圖

      語義分割是對圖像中每一個像素進行分類的任務。文獻[1] 開創(chuàng)性地提出了全卷積神經(jīng)網(wǎng)絡實現(xiàn)圖像的語義分割,拋棄了后處理的步驟,使得語義分割結束了多階段處理的時代,實現(xiàn)了語義分割端到端的訓練與預測。在此基礎上,文獻[2-3]等網(wǎng)絡提出了高效的深度卷積編碼器-解碼器框架,并通過編碼器和解碼器中部分網(wǎng)絡結構層的直接連接,一方面使得網(wǎng)絡的訓練更加容易、提高網(wǎng)絡的訓練效率,另一方面使得解碼器能夠獲得低階的物體特征細節(jié),從而改善物體邊緣的預測效果,整體上提高了預測的精度。文獻[4-5]等提出的空洞卷積和金字塔池化,增大了特征提取過程的感受野,考慮了圖像中的上下文關系,進一步提高了預測精度。盡管上述網(wǎng)絡能取得良好的分割效果,卻是建立在結構復雜、模型龐大的神經(jīng)網(wǎng)絡基礎上,無法滿足實時性計算的需求。文獻[6-7]等通過減少網(wǎng)絡層數(shù)、減少特征圖通道數(shù)目、精簡網(wǎng)絡結構等措施,在犧牲一定精度的情況下,將預測的速度提高到了30FPS以上。本文通過設計了一個高效的特征提取結構,減少了模型的計算量,在取得與文獻[7]相近的精度下,將預測速度提高到了60FPS以上。

      深度估計也是一個逐像素考慮的任務,旨在估計圖像中每一個像素到觀測位置的距離。文獻[8]將深度估計作為一個回歸問題,首先提出使用卷積神經(jīng)網(wǎng)絡估算圖像深度。得益于CNN 強大的特征提取能力,針對單張RGB圖像的深度估計研究涌現(xiàn)了諸多成果,相比于傳統(tǒng)的方法,在精度上取得了長足的進展。在監(jiān)督學習方面有文獻[9-11] 等,無監(jiān)督學習方面有文獻[12-13 ]等,半監(jiān)督學習方面有文獻[14]。本文提出的模型與上述模型存在較大差異,一是在模型結構上做了精簡優(yōu)化,使得深度的預測速度能達到實時的效果; 二是模型不僅完成深度估計,同時也完成了語義分割任務,二者在模型訓練時,能相互借鑒各自的信息,使得模型精度更高,泛化能力更強。

      深度估計與語義分割的結合,一定程度上是基于二者任務特點的相似性和物體深度與語義的相關性,使得二者結合既能減少計算量,又能相互增益、提高精度。在深度估計與語義分割結合方面,文獻[15]提出了一個遞歸處理語義信息和深度信息的網(wǎng)絡結構,盡管能充分利用深度信息和語義信息之間的關系,但網(wǎng)絡在深層時大量使用了大卷積核的卷積運算,導致計算量爆炸增長網(wǎng)絡參數(shù)量更是達到350 M,導致無法達到實時計算的要求。在處理語義分割與深度估計兩項任務的關系方面,本文提出的網(wǎng)絡結構中,語義分割和深度估計任務共享了大部分的權重,使得模型能夠捕捉二者之間的相關性;同時對于深度估計和語義分割,又有各自的注意力機制模塊,使得網(wǎng)絡能學習各自任務的差異性。在網(wǎng)絡計算量和實時性方面,本文提出的網(wǎng)絡結構能在保持一定精度的情況下達到65FPS的速度,模型參數(shù)僅為1.2 M。

      2 模型結構

      2.1 總體結構

      模型的總體是一個編碼器-解碼器的結構,編碼器用于提取圖像的特征,解碼器用于對提取到的特征進行處理,預測像素點所屬的類別和深度。網(wǎng)絡的總體結構如圖1所示,輸入的圖片依次經(jīng)過編碼器和解碼器,然后得到深度預測和語義分割預測的結果。

      2.2 編碼器

      編碼器部分共包含三個子層,每個子層由一個降采樣單元和若干個改進的殘差單元組成,各子層的組成分布如表1所示。隨著層數(shù)的加深,改進的殘差單元模塊增加、輸入的特征圖尺寸減小、通道數(shù)目增加。

      表1 編碼器結構圖

      降采樣單元。降采樣單元設置的目的在于減小特征圖尺寸同時增大通道的數(shù)目,從而達到擴大感受野和生成高階特征的目的。文中所使用的降采樣單元包含兩個分支,一個是卷積核大小為3×3、步長為2 的卷積操作,另一個是池化大小為2×2、步長為2 的最大池化操作。這兩個操作都能將特征圖的大小縮小到原來的一半,達到降采樣單元的目的之一——減小特征圖尺寸。通過級聯(lián)兩個分支的輸出,整個降采樣單元輸出的通道數(shù)則變成輸入的兩倍,實現(xiàn)了通道數(shù)的增加。

      改進的殘差單元。本文針對文獻[16] 中提出的殘差單元改進思路在于減少單元中的參數(shù)量和計算量,從而達到減少模型參數(shù)量、加速計算的目的。對于輸入通道數(shù)為Nin、輸出通道數(shù)為Nout、輸出特征圖尺寸為h·w、卷積核大小為fh·fw的卷積操作來說,參數(shù)量大小Np為:

      Np=Nin·fh·fw·Nout

      (1)

      計算量大小No為:

      No=Nin·fh·fw·Nout·h·w

      (1)

      圖2 改進的殘差單元結構圖

      另外在改進的殘差單元左右兩個分支中,會各自使用兩個空洞卷積??斩淳矸e相比于普通的卷積操作而言,能獲得更大的感受野,提取得到的特征更具有全局性。對于語義分割和深度估計這種細粒度的任務而言,對單一像素的預測很大程度上可以借鑒于周圍的像素點,因此當感受野較大時,提取得到的特征更有利于對像素點的語義和深度作出更準確的預測。

      2.3 解碼器

      解碼器的結構如圖1所示,共包含兩大部分。第一部分是中間兩個分支,用于捕捉語義信息與深度信息的共同點。這兩個分支分別是多尺度卷積模塊(Multi-scale Convolution Module)分支和普通的卷積運算分支。兩個分支輸出的通道個數(shù)均為C+1, 其中C個通道為語義通道,1個通道為深度通道。由于深度特征和語義特征在一定程度上具有很大的相似性,一般而言具有相同語義的像素也具有相近的深度值。對于車、行人等交通參與者,其本身的深度和周圍像素點之間會發(fā)生突變,而這變化可以通過語義的邊緣捕捉到。因此,這兩部分通道在分支內計算時,相互融合,從而達到捕捉語義信息和深度信息共同點的目的。兩個分支的輸出通過點積運算合并后,再將通道拆分成兩部分,分別是包含C個通道的語義部分和包含1個通道的深度部分,再參與后續(xù)的計算。

      多尺度卷積模塊的結構如圖3所示。編碼器的輸出依次進行了三個不同尺度卷積運算, 分別是7×7,5×5,3×3。不同尺寸的卷積感受野大小不一樣,尺度大的卷積可捕捉距離較遠像素間的語義和深度信息,尺度小的卷積則可捕捉距離較近像素的語義和深度信息,綜合不同大小的卷積核,就能解析不同尺度的特征。不同尺寸卷積提取到的信息,均通過1×1的卷積操作進行特征的整合,而后小尺寸卷積分支的輸出通過上采樣與大尺度卷積分支輸出相加,將不同尺度卷積提取到的信息融合,最終輸出結果??偣灿袃纱稳诤?、三個上采樣操作,得到和輸入相同特征圖大小和通道數(shù)的輸出。

      圖3 多尺度卷積模塊結構圖

      第二部分是旁路的兩個分支,用于捕捉語義和深度各自獨特的信息。分支上的操作依次是全局平均池化、1×1的卷積和上采樣。語義分支輸出了特征圖大小不變、通道數(shù)為C的語義信息,深度分支輸出了特征圖大小不變、通道數(shù)為1的深度信息。

      解碼器最后融合兩部分分支的輸出,即綜合考慮了語義和深度的相關信息和各自提取的獨特信息,分別輸出了模型的語義預測結果和深度預測結果。

      2.4 損失函數(shù)

      對于深度估計,我們使用文獻[17] 中提出的損失函數(shù),定義為:

      (3)

      式中,di是像素i預測值和實際值的差值,c為所有差值最大值的1/5,即c=max(di)/5。該損失函數(shù)對于差值較大的像素點,具有較大的梯度,使得模型在訓練的時候,對于預測結果較差的部分,權重更新幅度更大,更有利于模型的收斂,加快了模型的訓練。

      對于語義分割,使用的是交叉熵損失函數(shù),定義為:

      (4)

      (5)

      3 實驗結果與分析

      3.1 實驗設置

      數(shù)據(jù)集本文實驗所使用的數(shù)據(jù)集為Cityscapes 數(shù)據(jù)集[18], 包含了歐洲50個城市在不同季節(jié)、不同天氣條件下的街道場景。其中語義標注數(shù)據(jù)包括19 個類別,深度標注數(shù)據(jù)為視差值。整個數(shù)據(jù)集共包含5 000張圖像,訓練集為2 975張,驗證集為500張,測試集為1 525張。

      評價指標語義分割結果采用的評價指標為平均交并比(mIoU, mean intersection-over-union),計算19 個類別的IoU的平均值,其中IoU的反映了預測區(qū)域和實際區(qū)域的重疊程度,是實際區(qū)域和預測區(qū)域的交集比上二者的并集計算方法如下:

      式中,TP、FP、FN分別表示實際為真預測也為真、實際為假預測為真、和實際為假預測為假的像素點的個數(shù)。

      對數(shù)空間均方根誤差(rms(log)):

      3.2 實驗結果分析

      定量分析如表2所示,在語義分割效果方面,本文取取了幾個在語義分割任務重具有代表性的網(wǎng)絡作為對比,如SegNet、ENet、PSPNet和ICNet。相比于SegNet,本文提出的網(wǎng)絡不僅具有更高的分割精度,并且在計算速率上提升了四倍;相比于ENet,本文提出的網(wǎng)絡在同樣達到高實時性的基礎上,在語義分割精度上提升了10.7%;相比于ICNet,語義分割的精度相近,但參數(shù)量更少,并在實時性上實現(xiàn)了翻倍;盡管精度不及PSPNet, 但在實時計算性能上提升了83倍。

      在深度估計方面,各項評價指標均好于DepthNet。在深度估計與語義分割同時完成方面,本文提出的網(wǎng)絡在語義分割和深度估計精度上均優(yōu)于HybridNet,且能達到實時的效果。

      定性分析圖4是CityScapes測試集圖片深度估計和語義分割預測結果的可視化。對比深度估計的真實值和預測值,可以發(fā)現(xiàn)算法能很好地捕捉場景中出現(xiàn)的行人、車輛等使空間距離分布發(fā)生突變的物體,這得益于網(wǎng)絡中深度分割和語義分割共享的解碼模塊,使得在深度信息預測時,得以借鑒語義信息。對比語義分割的真實值和預測值,可以發(fā)現(xiàn)網(wǎng)絡能將路、天空、建筑、綠化等環(huán)境要素和行人、車輛、非機動車、交通標志等交通要素完整且清晰地分割出來和ENet,并且在成塊的分割結果中不會出現(xiàn)其他錯誤的分類。

      整體而言,提出的網(wǎng)絡在深度估計和語義分割任務中能達到良好的精度,并且能滿足高實時性的要求,說明改進殘差模塊在參數(shù)量降低的情況下仍有很高的特征提取能力,整個編碼器模塊具有較高的編碼效率;同時也說明了解碼器能很好地解析出編碼器提取的特征。特別是在語義任務中,無論是大物體還是小物體,都具有良好的分割精度,說明解碼器中的多尺度模塊能有效解析大小不同物體的特征,完成預測。

      表2 實驗結果對比表

      圖4 深度估計與語義分割結果

      4 結束語

      道路行車環(huán)境的實時解析是智能駕駛的關鍵技術,隨著關于神經(jīng)網(wǎng)絡研究的迅速發(fā)展,在實現(xiàn)單目圖像的語義分割和深度估計上已經(jīng)能實現(xiàn)一定的精度,但仍存在模型參數(shù)多、計算量大、難以實時計算等問題,導致無法真正落地使用。針對該問題,本研究提出了一個輕量化、高效的特征提取模塊和一個綜合考慮語義信息和深度信息的特征解碼模塊,在一個網(wǎng)絡中同時完成語義分割和深度估計兩個任務。在CityScapes數(shù)據(jù)集中,語義分割預測結果的mIOU為65.0%、深度估計結果的誤差為0.21, 并且在單個GPU 上推斷速度達到了65 fps,滿足實時性要求。

      猜你喜歡
      解碼器編碼器語義
      科學解碼器(一)
      科學解碼器(二)
      科學解碼器(三)
      語言與語義
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
      基于FPGA的同步機軸角編碼器
      基于PRBS檢測的8B/IOB編碼器設計
      “上”與“下”語義的不對稱性及其認知闡釋
      JESD204B接口協(xié)議中的8B10B編碼器設計
      電子器件(2015年5期)2015-12-29 08:42:24
      認知范疇模糊與語義模糊
      平江县| 临沭县| 惠水县| 包头市| 墨江| 普兰店市| 陇川县| 原平市| 上林县| 双峰县| 宕昌县| 盐池县| 乡城县| 山丹县| 芦溪县| 黄骅市| 凤台县| 车险| 普洱| 农安县| 聊城市| 太仆寺旗| 拉孜县| 文山县| 中江县| 合山市| 枣强县| 喀喇沁旗| 嘉善县| 济南市| 老河口市| 仲巴县| 溧阳市| 泰宁县| 旌德县| 鸡泽县| 海兴县| 桃源县| 阿坝| 津南区| 米易县|