【摘要】近年來,目睹了AI相關領域的驚人進展,例如計算機視覺,機器學習和自動駕駛汽車。但是,與任何快速增長的領域一樣,保持最新或初學者進入該領域變得越來越困難。迄今為止,還沒有針對自動駕駛汽車的計算機視覺中的問題,數(shù)據(jù)集和方法進行一般性的研究。本研究試圖通過提供有關該主題的最新調查來闡述無人駕駛中計算機視覺以及自主視覺的相關問題,包括數(shù)據(jù)集和基準及語義分割。本研究的內容可以為初學者提供便利。
【關鍵字】計算機視覺;自動駕駛汽車;數(shù)據(jù)集;語義分割
1. 無人駕駛的歷史及發(fā)展
1.1 無人駕駛的出現(xiàn)
自從1980年代首次成功的展示以來,人類在自動駕駛汽車領域已經取得了巨大的進步。盡管取得了這些進步,但可以肯定的是,在任意復雜的環(huán)境中實現(xiàn)全自動無人駕駛還有數(shù)十年的路程。其原因有兩個方面:首先,在復雜動態(tài)環(huán)境中運行的自治系統(tǒng)需要人工智能,該人工智能應及時地將不可預測的情況和原因概括化。其次,明智的決定需要準確的感知,但是大多數(shù)現(xiàn)有的計算機視覺系統(tǒng)會產生錯誤,其錯誤率對于自主導航是不可接受的。
1.2 無人駕駛的研究發(fā)展
全球許多政府機構啟動了各種項目來探索智能交通系統(tǒng)(ITS)。PROMETHEUS項目始于1986年在歐洲,涉及13個以上的汽車制造商,來自19個歐洲國家的政府和大學的幾個研究部門。由卡內基梅隆大學于1995年完成了第一個自主驅動器,從而取得了重要的里程碑。在大學,研究中心和汽車公司發(fā)起了許多倡議之后,美國政府于1995年成立了國家自動公路系統(tǒng)聯(lián)盟(NAHSC)。日本于1996年成立了高級巡航輔助公路系統(tǒng)研究協(xié)會。Bertozzi等調查了在這些項目中開發(fā)出的許多方法來應對自動駕駛道路這一具有挑戰(zhàn)性的任務。他們得出結論,越來越多的計算能力變得越來越可用,但是諸如反射,潮濕的道路,直射的陽光,隧道和陰影之類的困難仍然使數(shù)據(jù)解釋具有挑戰(zhàn)性。因此,他們建議增強傳感器功能。他們還指出與自動駕駛的責任和對人類乘客的影響有關的法律方面需要仔細考慮。總之,自動化將可能僅限于特殊的基礎設施,并將逐步擴展。受PROMETHEUS項目成功的推動,1998年,F(xiàn)ranke等人在高速公路上自動駕駛,描述了在復雜的城市交通情況下自動駕駛的實時視覺系統(tǒng)。盡管對高速公路情景進行了深入研究,但以前尚未解決過城市場景。他們的系統(tǒng)包括基于深度的障礙物檢測和立體跟蹤,以及用于單眼檢測和識別交通標志等相關物體的框架。Google于2009年啟動了自動駕駛汽車項目,并在2016年3月之前自動完成了1,498,000英里的路程,位于加利福尼亞州山景城,德克薩斯州奧斯汀和華盛頓州柯克蘭。不同的傳感器(例如雷達,LiDAR,GPS)可以檢測行人,騎自行車的人,車輛,道路工作以及所有方向的信息。根據(jù)他們的事故報告,谷歌的自動駕駛汽車僅發(fā)生了14次碰撞,而其中13次是由其他人造成的。在2016年,該項目被拆分為獨立的自動駕駛技術公司。Tesla Autopilot是由Tesla開發(fā)的高級驅動程序助手系統(tǒng),該系統(tǒng)于2015年推出其軟件版本7。系統(tǒng)的自動化級別允許完全自動化,但在必要時需要駕駛員的全力控制。自2016年10月起,特斯拉生產的所有車輛均配備了八個攝像頭,十二個超聲波傳感器和一個前向雷達,以實現(xiàn)完整的自動駕駛功能。
盡管上述項目和實驗都令人印象深刻,但對帶有精確注釋的路線圖以及預先記錄的本地化地圖的一般假設表明,自治系統(tǒng)距離人類的能力還很遠。最重要的是,即使在復雜的城市環(huán)境中,也需要從視覺信息到通用人工智能的強大感知能力,以達到人類水平的可靠性并做出安全反應。
2. 數(shù)據(jù)集和基準
在無人駕駛汽車方面,KITTI數(shù)據(jù)集和Cityscapes數(shù)據(jù)集為重建運動估計和識別任務引入了具有挑戰(zhàn)性的基準,并為縮小實驗室設置與現(xiàn)實世界中的挑戰(zhàn)之間的差距做出了貢獻。僅在幾年前,具有數(shù)百個帶標記示例的數(shù)據(jù)集才被認為足以解決許多問題。但是,通過引入帶有成百上千個標記示例的數(shù)據(jù)集,通過以有監(jiān)督的方式訓練高容量深度模型,已在許多計算機視覺學科中取得了令人矚目的突破。但是,特別是對于諸如光流或語義分割之類的任務,收集大量帶標記的數(shù)據(jù)并非易事。
Scharstein等在Middlebury基準測試中引入了新穎的數(shù)據(jù)集,其中包括更復雜的場景,還包括椅子,桌子和植物等普通對象。在這兩個數(shù)據(jù)集中,都使用了結構化的照明系統(tǒng)來創(chuàng)建地面真相。2014年,對于最新版本的Middlebury v3,Scharstein等人通過一種用于2D子像素對應搜索以及相機和投影儀自我校準的新技術,可以為高分辨率的立體圖像生成高精度的地面真相。與現(xiàn)有數(shù)據(jù)集相比,此新版本可實現(xiàn)更高的視差和校正精度,并可以進行更精確的評估。
2012年,Geiger等人引入了KITTI Vision Benchmark用于立體,光流,視覺測距法/ SLAM和3D對象檢測。該數(shù)據(jù)集是從自動駕駛平臺捕獲的,包含使用高分辨率彩色和灰度立體攝像機,Velodyne 3D激光掃描儀和高精度GPS / IMU慣性導航系統(tǒng)的六個小時的記錄。從該數(shù)據(jù)集導出的立體和光流基準包括194個訓練對和195個測試圖像對,分辨率為1280 通過將累積的3D激光點云投影到圖像上獲得的376像素和稀疏的地面真相。由于用作參考傳感器的旋轉激光掃描儀的局限性,立體聲和光流基準測試僅限于具有攝像機運動的靜態(tài)場景。
3. 語義分割
語義分割是計算機視覺中的基本主題,其目的是為圖像中的每個像素分配來自預定義類別的標簽。將圖像分割為通常在街道場景中發(fā)現(xiàn)的語義區(qū)域(例如汽車,行人或道路)可提供對周圍環(huán)境的全面了解,這對于自動導航至關重要。語義分割的挑戰(zhàn)來自場景的復雜性和標簽空間的大小。傳統(tǒng)上,語義分割問題被提出作為最大的條件隨機場后驗(MAP)的推理(CRF),在像素或超像素的定義。但是,這些早期的公式效率不高,只能處理有限大小和少量類別的數(shù)據(jù)集。此外,僅利用了非常簡單的功能,例如顏色,邊緣和紋理信息。2009年,Shotton等觀察到更強大的功能可以顯著提高性能,并提出了一種基于稱為紋理布局過濾器的新型功能的方法,該方法可以利用對象的紋理外觀,布局和紋理上下文。他們將紋理布局濾鏡與CRF中的低級圖像特征結合在一起,以獲得像素級分割。利用隨機增強和分段訓練技術來有效訓練模型。
到目前為止,這些方法獨立考慮每個對象類,而對象類的同時出現(xiàn)可能是語義分割的重要線索,例如,比起辦公室,汽車更可能出現(xiàn)在街道場景中。因此,Ladicky等提出將對象類共現(xiàn)作為CRF中的全球潛力。他們展示了如何使用圖割算法有效地優(yōu)化這些潛力,并展示了對較簡單成對模型的改進。深度卷積神經網絡用于圖像分類和目標檢測的成功激發(fā)了人們的興趣,即利用其功能來解決像素級語義分割任務。盡管用于圖像分類的現(xiàn)代卷積神經網絡通過降低分辨率的連續(xù)合并和二次采樣層將多尺度上下文信息組合在一起,但語義分割卻需要多尺度上下文推理以及全分辨率密集預測。
4. 場景理解
無人駕駛的基本要求之一是充分了解其周圍區(qū)域,例如復雜的交通場景。戶外場景理解的復雜任務涉及幾個子任務,例如深度估計,場景分類,對象檢測和跟蹤,事件分類等等。這些任務中的每一個都描述場景的特定方面。最好對這些方面中的一些進行建模,以充分利用場景中不同元素之間的關系,并獲得整體的理解。大多數(shù)場景理解模型的目標是獲得場景的豐富但緊湊的表示形式,包括場景的所有元素,例如布局元素,交通參與者以及彼此之間的關系。與2D圖像領域的推理相比,3D推理在解決幾何場景理解問題中起著重要作用,并以3D對象模型,布局元素和遮擋關系的形式提供了更豐富的場景表示。場景理解中的一個具體挑戰(zhàn)是對城市和郊區(qū)交通場景的解釋。與高速公路和鄉(xiāng)村道路相比,城市場景包括許多獨立移動的交通參與者,道路和十字路口的幾何布局更多的可變性以及由于模糊的視覺特征和照明變化而導致的難度增加。
從單個圖像推斷場景的整體3D結構。表面布局表示為一組具有特定方向(如支撐,垂直和天空)的粗略幾何類別。這些元素是通過多次細分為每個類學習基于外觀的模型來推斷的。在分類和表示方面提出了一種更精細的方法,使用超像素來識別交通場景中的道路和物體類型。Geiger等使用概率模型共同分析交叉路口的3D場景布局以及場景中車輛的位置和方向。假設小徑是獨立的會導致難以置信的配置,例如汽車相互碰撞。張等通過將高級語義以流量模式的形式包括在表述中來解決此問題。
5. 總結
在本文中,我們對自動駕駛汽車的計算機視覺中的問題,數(shù)據(jù)集和方法進行了總體調查。我們使用對KITTI基準的新穎深入的定性分析并考慮了其他數(shù)據(jù)集,討論了這些主題中的開放性問題和當前的研究挑戰(zhàn)。希望本研究的研究總結可以為初學者提供便利。
參考文獻:
[1]韓廣飛,李曉明,武瀟.無人駕駛汽車視覺導航中車道線檢測的研究[J].火力與指揮控制(6):156-158+162.
[2]唐智威.基于視覺的無人駕駛汽車研究綜述[J].制造業(yè)自動化,2016,38(8):134-136.
[3]王亮.無人駕駛汽車的眼睛:激光雷達與機器視覺[J].中小企業(yè)管理與科技(下旬刊),564(01):145-146.
作者簡介:張月月(1993),男,漢族,河南省安陽市,碩士研究生,云南師范大學,大數(shù)據(jù)與人工智能。