文/許珂 蒲霖 張琳
針對自動駕駛車輛視野范圍強依賴于硬件配置和部署場景的局限性,設計了一個基于IPv6融合人工智能的車聯網視頻智能處理系統—— IPv6_See_Through,利用IPv6的動態(tài)自動配置地址以及增強的組播流媒體控制技術,車輛融合多路視頻后通過深度學習進行目標檢測,進而增大自動駕駛汽車的駕駛感知范圍、提高感知信息的準確性,解決依賴自身傳感器無法解決的問題,如盲區(qū)監(jiān)測、不良視線檢測等。分析表明本系統可保證視頻畫面實時性與檢測準確性,具有一定實用價值。
隨著現代傳感技術、數據分析、人工智能等技術與設備的飛速發(fā)展,近年來智能交通系統(ITS)的學術研究和行業(yè)發(fā)展十分突出,對提高交通服務智能化的各個方面產生了深刻的影響。在國外,谷歌、特斯拉、Mobileye自動駕駛系統,基于傳感器、雷達和攝像頭的各種信息輸入,通過人工智能技術決策,單車自動駕駛已經在一定程度上實現。在國內,2016年9月28日,華為、奧迪、寶馬、戴姆勒、沃達豐、愛立信、英特爾、諾基亞、高通宣布結成了5G汽車聯盟(5GAA)。各公司將在車聯網通信解決方案的開發(fā)、測試、促進銷售方面展開合作,并支持標準化,加快商用化和向全球市場推廣。目前已涵蓋主要車企、運營商與設備商成員40多家。
然而,通過車輛自身傳感器等硬件設備獲得環(huán)境信息具有很大的局限性,車輛視野范圍強依賴于硬件配置和部署場景。在晚上、雨雪天、霧天等惡劣天氣下,在交叉路口、拐彎處等場景,雷達、攝像頭存在看不見,看不清,看不準的情況。特斯拉曾發(fā)生過的一次致命事故,即為在強烈的日照條件下,自動駕駛未能識別卡車的白色車身,因此未能及時啟動剎車系統所導致。針對這些場景開發(fā)性能更強的傳感器,成本會高到消費者無法承受的地步。
針對上述問題,利用V2X通信(V2I,V2V,V2P)技術,能夠提供遠超出當前傳感器感知范圍的信息。本質上可以把V2X視為一個拉長拉遠的“傳感器”,通過和周邊車輛、道路、基礎設施的通訊,獲取比單車能得到的更多的信息,大大增強對周圍環(huán)境的感知。同時,相對于IPv4網絡協議,IPv6協議更大地址空間、動態(tài)地址自動配置、加強的組播以及對流媒體控制的特性,使IPv6在車聯網視頻傳輸中提高網絡整體吞吐量、支持構建動態(tài)合作式視頻處理系統、改善視頻傳輸性能與質量。更進一步的,通過深度學習的方式使車輛更加智能化的自主判斷道路狀況并做出應急措施。
本文設計了一個基于IPv6融合人工智能的車聯網視頻智能處理系統—— IPv6_See_Through,增大自動駕駛汽車的駕駛感知范圍、提高感知信息的準確性,解決依賴自身傳感器無法解決的問題。最后給出數據分析表明系統的可靠性。
自動化駕駛車輛應猶如人一樣具有感知和決策能力。眼睛可以看見視野范圍內的各個物體即環(huán)境感知能力,耳朵可以收到其他物體傳來的訊息即通訊能力,大腦則將收集到的所有信息分析處理、最終做出決策以控制行動即決策應用能力。本文將上述能力概括為ITS的五層概念模型如圖1所示,用于表征自動駕駛系統的典型架構和主要組件。
圖1 IPv6_See_Through系統概念模型
物理層:物理層封裝ITS中涉及的各種物理實體,如數據采集設備(數碼相機、攝像頭、傳感器、雷達、pad),車輛和其他公共環(huán)境物體(交通信號燈)等。各物理實體為數據生成的源頭。該層通過實體間的合理配置,快速獲得高質量高可靠性的數據信息。比如車輛視頻的獲取可通過安裝固定攝像頭,也可通過常用具有攝像功能的手持設備(pad、手機等)。
數據層:將物理層得到的信息劃分為三類。基礎信息,即時間、速度、GPS位置等,一般為文本類信息;環(huán)境信息,即道路狀況、交通燈、建筑物等可看見的信息,一般為圖像視頻類信息;重點信息,即事故、提醒等由其他設備直接報告的信息,文本、圖像、聲音等信息均可。該層相關技術包括數據存儲技術、數據處理技術(視頻數據壓縮、數據格式選擇)等。視頻數據在處理(融合、人工智能)之前,需保存于可靠位置,以保證與其他數據的后續(xù)融合處理。又由于數據冗余性會占用帶寬且給其他通訊設備造成無效信息處理的負擔,所以需要用到視頻壓縮等關鍵技術以保證可靠性和安全性。
圖2 IPv6_See_Through系統實現
網絡層:車聯網V2X通訊包括V2V(車和車)、V2I(車和基礎設施)、V2P(車和人)三個方面。其基本要求是V2V的通訊必須隨處可用,包括沒有網絡覆蓋的環(huán)境,所以V2V的直聯是V2X的基本功能。IEEE下面有IEEE 802.11p(DSRC),LTE下面有 LTE-V PC5,都支持V2V直聯。許多自動駕駛場景下(如編隊行駛、并道等),因為收發(fā)車輛的距離近,V2V的直聯是更好的通訊模式。另外,由于車輛環(huán)境復雜,網絡節(jié)點(車輛、基礎設施、人)眾多導致數據量大,所以需要網絡擁塞控制、干擾管理和網絡覆蓋方面的統一協調,將相關視頻數據融合可有效減少數據冗余的問題。
圖3 視頻傳輸流程
應用層:對有效信息進行處理決策以控制車輛行為,該層使用的關鍵技術有深度學習、人工智能等。
上述模型具體化為IPv6_See_Through系統實現,如圖2所示。0號車輛的視野范圍為綠色區(qū)域,1-3號車輛的視野范圍為橙色區(qū)域且具有重疊部分。0號車輛的視線被1-3號車輛阻擋,若1號車輛前方發(fā)生緊急剎車狀況時,極有可能導致追尾情況。然而,若0號車輛接收來自1-3號車輛視野視頻并融合為大視野視頻,最后通過深度學習等技術識別分類視頻中的物體(汽車、人等),盡早在更大視野中做出預判,有效減少事故的發(fā)生率。
高速率低時延的視頻傳輸技術
信息傳輸是合作式自動駕駛的基礎,越快速高質量的傳輸,信息的效用越高,越有利于后續(xù)車輛做出正確的判斷和抉擇。目前車輛數量極大,且車聯網環(huán)境具有拓撲變化快、車輛之間接觸時間短、通信鏈路不穩(wěn)定、傳輸帶寬有限、實時性要求較高等特點,文本信息數據量相對較小,傳輸完成所需時間短,而視頻信息數據量巨大,在車輛接觸的有限時間有限帶寬下,極容易發(fā)生信息傳輸不完整、播放中斷、畫質不清晰等問題。如圖3為視頻傳輸流程圖所示,視頻從產生、編碼、傳輸到最后播放消費,各個環(huán)節(jié)都會產生延遲。其中,成像延遲取決于硬件設備,視頻編解碼延遲和網絡延遲通過策略的選擇可有效改進。
因此主要考慮如下三點:
(1)使用IPv6地址分配于各車輛以適應車聯網節(jié)點多的特性。IPv4中規(guī)定IP地址長度為32bit,最大地址個數為2^32;而IPv6中IP地址的長度為128,即最大地址個數為2^128,且網絡中一個接口可以有一個或多個IPv6地址,將IPv6應用到車聯網中,有效解決了地址匱乏問題。
表1 視頻壓縮標準性能對比
圖4 圖像拼接流程
(2)選擇高效的視頻編解碼方式以提高帶寬利用率、保證傳輸速率與視頻連續(xù)性。如表1所示,由于 H.264的壓縮比高,授權成本較低,使用領域非常廣泛,本文采用H.264編碼方式。以MPEG2壓縮比為1相比,H.264可達到25%-40%的壓縮比率。
(3)選擇合適的車輛間網絡數據傳輸協議和傳輸方式以適應車輛接觸時間短的特性。一方面,車聯網中車輛為多對多的傳輸方式。IPv4中定義了三種數據包的傳輸:單播、組播和廣播。組播是一種允許一個或者多個發(fā)送者(組播源)發(fā)送單一的數據包同時到多個接受者的網絡技術,其傳輸機制是無論有多少個目的地址,在整個網絡的任何一條鏈路上只傳輸單一的數據包,所以相對于單播,組播具有節(jié)約帶寬、提高傳輸速率的優(yōu)越性。IPv6 協議加強了組播技術并增加了對流媒體的控制,高效實現多路視頻數據信息傳輸。 另一方面,由于車輛接觸時間短,通信前需要建立連接的方式會導致時延增加,所以車輛間通信采用802.11p協議(DSRC),802.11p協議中規(guī)定工作站可以在不加入基礎服務集的情況下建立通信鏈路,減少了由于加入服務、建立連接、權限認證等過程所消耗的時間,適合高速移動的車載環(huán)境。
基于視頻融合的分布式目標檢測與追蹤技術
在目標檢測與追蹤之前,車輛接收到多路視頻后,需要將多路視頻融合為大視野視頻,以減少視頻冗余度,進而降低后續(xù)深度學習處理的的目標檢測與追蹤復雜度與消耗時間。
視頻融合的基本技術為圖像拼接技術。圖像拼接的基本流程如圖4所示,主要分為四個步驟:圖像匹配(registration)、重投影(reprojection)、縫合(stitching)和融合(blending)。
圖像匹配:是指一對描繪相同場景之間的幾張圖片的幾何對應關系。一組照片可以是不同時間不同位置的拍攝,或者由多個傳感器同時拍攝多張圖像。
重投影:通過圖像的幾何變換,把一系列圖片轉換成一個共同的坐標系。
縫合:通過合并重疊部分的像素值并保持沒有重疊的像素值使之生成更大畫布的圖像。
圖5 基于視頻融合的分布式架構
圖6 OpenCL的工作模型
融合:通過幾何和光度偏移錯誤通常導致對象的不連續(xù),并在兩個圖像之間的邊界附近產生可見的接縫。因此,為了減小接縫的出現,需要在縫合時或縫合之后使用混合算法。
進一步,對于單輛汽車而言,由于移動平臺其資源受限性和計算能力有限,導致無法進行實時的基于深度學習來做道路物體檢測。為此,本文提出一種基于車隊通信的分布式深度學習方案,主要用于深度學習執(zhí)行階段的分布式計算。分布式架構圖如圖5所示。每一輛車安裝一臺車載通信單元 OBU(on-board unit),用于DSRC車輛間通信,同時車輛中安置一臺手機,其攝像頭用于視頻數據的采集,CPU和GPU用于視頻數據處理融合以及深度學習的計算。車輛間互相通信傳輸視頻流等信息。當車輛一收到車輛二和車輛三的攝像頭中視頻流的圖片幀后,進行圖像融合并且進行分布式目標檢測。車輛檢測到目標后,識別目標種類與目標的狀態(tài)作出安全決策,如剎車、減速等行為。
表2 視頻參數
圖8 視頻4路互傳實驗
圖9 兩路視頻融合互傳實驗
在Android手機計算集群中,配置有GPU計算設備的計算節(jié)點,在目標識別的過程中不但應該充分利用CPU計算能力,更應該充分挖掘GPU強大的并行能力。在GPU并行方案里面,OpenCL具備擴展能力強,并行充分等特點。故本工程采用OpenCL作為GPU并行計算的調用框架。OpenCL提供了控制并行計算設備的一些接口以及一些控制單元行為的類C編程語言。利用OpenCL接口可以開發(fā)并行度高、運行在GPU或者其他處理設備上的程序。OpenCL的工作模型如圖6所示.
圖1O 分布式圖片處理實驗數據
在深度學習中,運算量最大的卷積層采用OpenCL進行并行GPU加速,根據卷積算法的特點,使用OpenCL實現卷積算法可以分為以下幾個步驟:創(chuàng)建OpenCL的存儲器對象,即圖像對象和緩存對象;通過提供一個三維的偏移和范圍并調用函數,將圖像對象拷貝到GPU緩存中;編譯并執(zhí)行內核函數。同時單幅圖片在單臺手機上的識別,采用Yolo深度學習模型耗時1~3秒左右,不能達到安全實時的需求。由此我們設計一套分布式計算的方法去將單臺手機計算量劃分到多個組中進行。每臺手機就是計算任務中的一個進程,手機之間采用OBU的DSRC進行通信。將深度學習中的卷積層的對圖像的卷積計算進行橫向劃分,每臺手機負責矩陣圖像中的部分矩陣行數據。由此使用分布式技術提升深度學習的計算速度。
實驗中,我們采用4臺華為pad進行視頻的多路傳輸,如圖8所示,每路視頻延時小于0.5s。視頻參數如表格2所示。視頻傳輸后,系統做實時融合,兩路視頻融合時間約為15ms/幀,如圖9所示標明圖中兩幀圖片的界線,分別為紅色邊界和白色邊界。
視頻融合后,采用最多 4臺華為pad進行并行化目標識別,采用Tiny-YOLO的網絡結構,其實驗結果如圖10。
對于單張圖片的計算耗時,隨著分布式程度的增加時間大大減少。采用4臺手機并行處理圖片其總時延在1s以內,基本滿足安全性要求。
通過車輛間通信形成龐大的合作式智能網絡來交換重要信息的方式可大大拓寬車輛視野;通過深度學習的方式使車輛更加智能化的自主判斷道路狀況并做出應急措施。本文設計的融合IPv6技術的車聯網中視頻智能處理系統—— IPv6_See_Through,采用視頻分發(fā)合作的方式,利用IPv6的動態(tài)自動配置地址以及增強的組播流媒體控制技術,車輛融合多路視頻后通過深度學習進行目標檢測,進而增大自動駕駛汽車的駕駛感知范圍、提高感知信息的準確性,解決依賴自身傳感器無法解決的問題,如盲區(qū)監(jiān)測、不良視線檢測等自身傳感器無法解決的問題,如盲區(qū)監(jiān)測、不良視線檢測等,可起到防患于未然、降低自動駕駛系統成本、提高系統可靠性等作用。在以后研究中將進一步提高系統性能。
(責編:高錦)
[1] 國家車聯網產業(yè)標準體系建設指南(智能網聯汽車)(2017)
[2] Vinel A, Belyaev E, Lamotte O, et al. Video transmission over IEEE 802.11p: Real-world measurements[C]// IEEE International Conference on Communications Workshops. IEEE, 2013:505-509.
[3] Liu Z, Dong M, Zhang B, et al. RMV: Real-Time Multi-View Video Streaming in Highway Vehicle Ad-Hoc Networks (VANETs)[C]// GLOBECOM 2016 - 2016 IEEE Global Communications Conference. IEEE, 2016:1-6.
[4] Segvic S, Sevrovic M, Kos G, et al. Preliminary experiments in multi-view video stitching[J].Proceedings of the International Convention on Information and Communication Technology, Electronics and Microelectronics ? MIPRO 2011 / Bogunovi?, Nikola ; Ribari?, Slobodan, 2011:892-896
[5] Dan G, Marpe D, Mulayoff A, et al. Performance comparison of H.265/MPEG-HEVC, VP9, and H.264/MPEG-AVC encoders[C]// Picture Coding Symposium. IEEE, 2014:394-397.