劉俊生
?
基于Mask R-CNN網(wǎng)絡模型的無人駕駛感知
劉俊生
(重慶理工大學車輛工程學院,重慶 400054)
近幾年深度學習技術在圖像檢測方面的應用取得了極大的突破,利用卷積神經(jīng)網(wǎng)絡模型可高效且準確的識別目標。一種開源網(wǎng)絡模型——Mask R-CNN,被用于無人駕駛感知檢測,取得了較好的檢測效果。為了進一步提高檢測精度,提出遷移學習方法重新訓練網(wǎng)絡,使得網(wǎng)絡更適用于無人駕駛領域的感知任務。
深度學習;卷積神經(jīng)網(wǎng)絡;Mask R-CNN;目標檢測
隨著計算資源的增加和大數(shù)據(jù)的出現(xiàn),基于深度學習的目標檢測開始嶄露頭角。該技術里程碑式的進展出現(xiàn)在2012年,Krizhevsky[1]提出了基于卷積神經(jīng)網(wǎng)絡的圖像分類。此后大量關于圖像分類、目標檢測的網(wǎng)絡模型都是基于該基礎模型的擴充、完善,不斷演化而來的。比如基礎模型有VGG[2], GoogleNet[3], ResNet[4]等,兼具精度與實時性的模型有SSD[5],YOLO[6]等。這些算法的提出與不斷改進使得無人車技術的實現(xiàn)又向前邁進了一大步[7]。
Mask R-CNN網(wǎng)絡模型基于Faster R-CNN模型擴展了一個與現(xiàn)有目標檢測和回歸并行的分支——預測目標掩碼分支。該網(wǎng)絡有三個分支:類別標簽分支、檢測框回歸分支、掩碼分支。其中類別標簽和檢測框回歸分支沿用的Faster R-CNN,而掩碼分支等效FCN網(wǎng)絡作用于每個感興趣區(qū)域(RoI),并預測RoI的像素級的分割掩碼。
該網(wǎng)絡由Facebook AI 研究院(FAIR)發(fā)布開源于網(wǎng)上,供全世界研究人員方便開發(fā)應用于專用領域。根據(jù)其開源項目的介紹,配置計算機環(huán)境,下載軟件平臺——Detectron,就能調(diào)用網(wǎng)絡進行具體的目標檢測任務。
但該網(wǎng)絡由COCO數(shù)據(jù)集訓練而來,共可檢測81種常規(guī)類別,其中背景算為1類。這大大多于無人駕駛所需檢測識別的分類。因此直接調(diào)用模型,會出現(xiàn)一定量的誤檢情況。
為了使Mask R-CNN網(wǎng)絡模型更適用于無人駕駛專用領域,可采用遷移學習重新訓練網(wǎng)絡。理論上,重新訓練的網(wǎng)絡能提高識別精度,減少誤檢率。
遷移學習采用哪種訓練方式依賴于兩點:新數(shù)據(jù)集的大小與新數(shù)據(jù)集與原始數(shù)據(jù)集的相似性。根據(jù)情況,使用遷移學習的方法會略有不同。主要有4種情況,分別為新數(shù)據(jù)集小,且與原始數(shù)據(jù)集相似;新數(shù)據(jù)集小,但不同于原始數(shù)據(jù)集;新數(shù)據(jù)集大,且相似于原始數(shù)據(jù)集;新數(shù)據(jù)集大,但不同于原始數(shù)據(jù)集。
圖1 遷移學習訓練策略分析圖
對于數(shù)據(jù)集尺寸來說,大的數(shù)據(jù)集可能有一百萬張圖片,小的數(shù)據(jù)集可能2000張。當使用小數(shù)據(jù)集來進行遷移學習時,要注意避免過擬合。為了適應無人駕駛場景的應用,本文在網(wǎng)上下載了一批開源數(shù)據(jù),這批數(shù)據(jù)是針對公路場景的。對于數(shù)據(jù)集相似性來說,一般認為狗的圖片和狐貍的圖片相似,他們共享通用特征。而花的圖片就不同于狗的圖片。顯然,無人駕駛感知任務所要識別的類別已包含于COCO數(shù)據(jù)集所擁有的類別,因此數(shù)據(jù)集相似。
本文屬于上述情況一——數(shù)據(jù)小且相似,因此根據(jù)圖1所示,選擇切除通用模型的全連接尾部,用下載好的圖片重新訓練網(wǎng)絡,如圖2所示。
圖2 網(wǎng)絡模型重訓練方案
切掉神經(jīng)網(wǎng)絡的尾部,即全連接層,然后增加一個新的全連接層,并匹配新數(shù)據(jù)集的類別數(shù)量。接著隨機初始化全連接層的權(quán)重,為了避免小數(shù)據(jù)集帶來的過擬合問題,需要凍住預訓練網(wǎng)絡的權(quán)重。最后重新訓練網(wǎng)絡,更新新的全連接層的權(quán)重。
為了驗證網(wǎng)絡模型的效果,本文自行采集了一批數(shù)據(jù),并從中挑選幾種較為典型的工況進行算法驗證,共檢測了2346張圖像。
為了比較通用模型與重新訓練的模型的差別,本文先后用同一批數(shù)據(jù)測試了這兩個模型。效果如圖3所示。
圖3 最終測試結(jié)果個例及對比(Mask R-CNN+表示重訓練模型)
圖3例舉了個別測試結(jié)果,并對比了原模型與重訓練模型的效果。其中原模型檢測時存在明顯漏檢的圖片有122張,即這批數(shù)據(jù)的漏檢率達到了5%。采用重新訓練的模型再次檢測上述122張漏檢的圖片后發(fā)現(xiàn),成功去除了其中的92張,即該批數(shù)據(jù)漏檢率下降到1.3%。
深度學習技術展現(xiàn)出了強大的性能,使得越來越多的研究者將這個技術引入更多的領域解決更多的具體問題,如無人駕駛中的環(huán)境感知、決策等。本文采用Mask R-CNN網(wǎng)絡模型檢測圖像,為了提高檢測精度,采用遷移學習的方法重新訓練了網(wǎng)絡,并用自己采集的圖像進行檢測,取得了不錯的效果。
[1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classifica -tion with deep convolutional neural networks,” in Proc. Advances in Neural Information Processing Systems, 2012.
[2] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in Proc. International Conf. Lear -ning Representations, 2015.
[3] C. Szegedy, W. Liu, Y. Q. Jia, P. Sermanet, S. Reed, D. Anguelov, etc. Going Deeper with Convolutions. Computer Vision and Pattern Recognition. 2014
[4] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE Conf. Computer Vis. Pattern Recognition, 2016.
[5] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Fu, and A. Berg, “Ssd: Single shot multibox detector,” in Proc. European Conf. Computer Vision, 2016.
[6] J. Redmon, S. Divvala, R. Girshick, A. Farhadi. “You Only Look Once: Unified, Real-Time Object Detectrion” 2015.
[7] 張新鈺,高洪波,趙建輝,周沫.基于深度學習的自動駕駛技術綜述[J].清華大學學報(自然科學版),2018,58(04):438-444.
Perception of Unmanned Driving Based on Mask R-CNN
Liu Junsheng
(School of vehicle engineering, Chongqing university of technology, Chongqing 400054)
In recent years, the application of deep learning technology in image detection has made great breakthroughs. The Convolutional Neural Network(CNN) model can be used to identify targets efficiently and accurately. An open source model——Mask R-CNN, is used for environment detection and has achieved good detection results. In order to further improve the detection accuracy, a method named transfer learning is proposed to retrain the network, making the network more suitable for the perceptive task in the unmanned driving field.
Deep Learning;CNN;Mask R-CNN;Detection
U462.3
A
1671-7988(2019)07-39-02
劉俊生(1993-),重慶理工大學車輛工程學院,碩士研究生,研究方向汽車主動安全。
U462.3
A
1671-7988(2019)07-39-02
10.16638/j.cnki.1671-7988.2019.07.012