張樂 張志梅 劉堃 王國棟
摘要:? 針對目前存在的復(fù)雜交通場景中車輛分割精度不足的問題,本文提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)對圖像中車輛進(jìn)行分割的方法。在VGG16Net基礎(chǔ)上,將全連接層改為卷積層,為獲得更精細(xì)的邊緣分類結(jié)果,減少了部分卷積層,并融合淺層和深層特征,同時,為提高交通環(huán)境下車輛的分割精度,減少其他類別目標(biāo)的干擾,將對車輛目標(biāo)的分割問題改為基于像素的二分類問題,為提高網(wǎng)絡(luò)的訓(xùn)練速度,采用Adam優(yōu)化算法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。實驗結(jié)果表明,與現(xiàn)有的全卷積神經(jīng)網(wǎng)絡(luò)分割效果相比,該網(wǎng)絡(luò)對復(fù)雜交通場景下的車輛分割精度明顯提高。該研究在智能交通方面具有較好的應(yīng)用前景。
關(guān)鍵詞:? 全卷積神經(jīng)網(wǎng)絡(luò); 車輛分割; Adam優(yōu)化算法; 深度學(xué)習(xí)
中圖分類號: TP389.1 文獻(xiàn)標(biāo)識碼: A
隨著科學(xué)技術(shù)的發(fā)展,交通智能化成為當(dāng)今研究的必然趨勢[13],在智能交通系統(tǒng)中的車輛追蹤識別和自動駕駛等方面,車輛分割精細(xì)程度起到關(guān)鍵性作用。將圖像分為背景和車輛子區(qū)域的過程被稱為車輛分割。目前,車輛分割方法主要是基于傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。在基于傳統(tǒng)方法方面,吳忻生等人[4]提出一種結(jié)合最優(yōu)分割雙閾值法和條件隨機場模型等對車輛分割的算法;F. Cloppet等人[5]提出用分水嶺分割算法來分割車輛;A. Zaccarin等人[6]構(gòu)建后驗概率模型并利用動態(tài)場景參數(shù),區(qū)分車輛目標(biāo)與背景。這些傳統(tǒng)方法計算量大、處理過程復(fù)雜,易造成過分割現(xiàn)象,在復(fù)雜環(huán)境下分割精準(zhǔn)率低且效果差;在基于深度學(xué)習(xí)方法方面,J. Long等人[7]提出了一種基于全卷積網(wǎng)絡(luò)(full convolutional network,F(xiàn)CN)的語義分割方法,該方法通過像素級分類實現(xiàn)語義分割;計夢予等人[89]分析了語義分割的常用算法及最新成果;徐國晟等人[1013]對車道線及鐵路場景下的語義分割進(jìn)行研究;高凱珺等人[14]提出使用卷積反卷積神經(jīng)網(wǎng)絡(luò),對無人車夜視圖像進(jìn)行語義分割;V. Badrinarayanan等人[15]通過最大非線性上采樣方法實現(xiàn)語義分割。這些基于深度學(xué)習(xí)的方法,隨著解決的問題越來越復(fù)雜,網(wǎng)絡(luò)復(fù)雜程度及消耗的計算資源增大,訓(xùn)練時間變長。因此,通過分析比較隨機梯度下降法(stochasitc gradient descent,SGD)、monmentum動量法[16]、內(nèi)斯特羅夫加速梯度(nesterov accelerated gradient,NAG)[17]、Adagrad[18]和Adam(adaptive moment estimaton)[19]等優(yōu)化算法優(yōu)缺點后,本文選擇使用收斂速度最快的Adam算法訓(xùn)練網(wǎng)絡(luò),并基于VGG16Net網(wǎng)絡(luò),構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò)。結(jié)合大量車輛樣本數(shù)據(jù)集進(jìn)行訓(xùn)練,提高了在復(fù)雜交通環(huán)境下車輛圖像的分割精度。該研究為智能交通的發(fā)展奠定了理論基礎(chǔ)。
1 基于全卷積神經(jīng)網(wǎng)絡(luò)車輛分割模型
本文以Karen等人[20]提出的VGG16Net模型為基礎(chǔ),構(gòu)建了復(fù)雜環(huán)境下的車輛分割全卷積神經(jīng)網(wǎng)絡(luò)。本文構(gòu)建的基于全卷積網(wǎng)絡(luò)的車輛分割網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。圖1中,Conv表示卷積層,Conv12表示連續(xù)兩個卷積,P表示池化層,F(xiàn)c表示全連接層轉(zhuǎn)換成的卷積層,Dc表示反卷積輸出層,F(xiàn)u表示深層特征與淺層特征融合結(jié)果。
VGG16Net是典型的卷積神經(jīng)網(wǎng)絡(luò),由13層卷積、5層池化和2層全連接組成,具有很好的自然圖像特征空間的表征能力。因此,本文以VGG16Net為基礎(chǔ),按照圖1網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò)。
將VGG16 Net中的兩層全連接層轉(zhuǎn)換為卷積層,直接對最后卷積層輸出的特征圖反卷積,獲得圖像的分割結(jié)果。但由于轉(zhuǎn)換后的卷積層屬于深層卷積層,獲得的特征圖因卷積次數(shù)過多丟失很多細(xì)節(jié)信息,分割結(jié)果粗糙。因此,在此變換基礎(chǔ)上,構(gòu)建跳躍網(wǎng)絡(luò)結(jié)構(gòu),融合深層和淺層網(wǎng)絡(luò)特征(見圖1)。因為網(wǎng)絡(luò)淺層含有更多的細(xì)節(jié)信息,而深層卷積層的特征含有更抽象的語義信息,適當(dāng)?shù)膶⒎淳矸e層的預(yù)測結(jié)果與淺層網(wǎng)絡(luò)輸出的特征圖像進(jìn)行融合,可以得到更為精確的分割結(jié)果。因FCN網(wǎng)絡(luò)模型[7]是對21種類圖像的語義分割,在對基于二分類目標(biāo)分割時,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,對目標(biāo)邊緣、細(xì)節(jié)特征的分割效果并不好。因此,減少卷積層數(shù),改變最后輸出分類個數(shù),并將21種類別的目標(biāo)分割問題轉(zhuǎn)換為基于像素的二分類問題,減少其他特征干擾,提高交通環(huán)境下車輛圖像的分割像素準(zhǔn)確率和類平均準(zhǔn)確率。采用數(shù)據(jù)集對搭建好的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)可用于對車輛圖像的分割。
1.2 全連接層卷積化及網(wǎng)絡(luò)層的融合
為了將卷積層提取的特征用以實現(xiàn)像素級分類,達(dá)到對圖像分割的目的,將VGG16Net最后全卷積層換成卷積層。由于全連接層的權(quán)重矩陣是固定的,導(dǎo)致輸入神經(jīng)網(wǎng)絡(luò)的圖像大小必須是固定的,將全連接層改為卷積層后,輸入圖像大小不必固定,在一定程度上保留了目標(biāo)的特征。實現(xiàn)方式是將全連接層中的每個神經(jīng)元,改為與其輸入維度相同的卷積核卷積操作后的輸出。若有N個輸出,卷積核的個數(shù)也為N,可獲得N個不同的輸出。N標(biāo)著輸出的類別個數(shù),變換后的網(wǎng)絡(luò),通過卷積層的特征圖與輸入的原圖大小并不一致,為使網(wǎng)絡(luò)的最終輸出與輸入大小相同,在全連接層轉(zhuǎn)換為卷積層后,需增加一個上采樣層,或者反卷積層,這樣整個網(wǎng)絡(luò)只有卷積層和池化層,不存在全連接層,可稱為全卷積神經(jīng)網(wǎng)絡(luò)。
通過反卷積或者上采樣等獲得與原圖大小相等的輸出,細(xì)節(jié)信息少,直接用于像素級分類的準(zhǔn)確率不高,所以最后卷積層輸出圖像經(jīng)過反卷積,獲得與淺層網(wǎng)絡(luò)輸出的特征圖等大的圖像,通過跳躍結(jié)構(gòu)與淺層網(wǎng)絡(luò)相融合,再通過反卷積,獲得與輸出圖像相等的圖像。網(wǎng)絡(luò)層的融合增加了豐富的細(xì)節(jié)信息,實驗證明了提高像素級分類的準(zhǔn)確率。
對于機器學(xué)習(xí)中大多數(shù)監(jiān)督學(xué)習(xí)模型,使用合適的優(yōu)化算法得到最小的函數(shù)損失值,以此得到最優(yōu)的權(quán)值。目前,Adam算法是訓(xùn)練速度最快,效果最好,并對超參數(shù)的選擇相當(dāng)魯棒的優(yōu)化算法。在Adam中,動量直接并入梯度一階矩的估計,并且修正從原點初始化的一階矩和二階矩的估計。因此,本文采用Adam優(yōu)化算法訓(xùn)練網(wǎng)絡(luò)參數(shù)。
2 實驗驗證
2.1 數(shù)據(jù)集
本文采用Pascal VOC2012數(shù)據(jù)集和基于青島交通監(jiān)控視頻采用的Pascal VOC數(shù)據(jù)集的格式,制作VehicleDataSet數(shù)據(jù)集。這是由于Pascal VOC2012數(shù)據(jù)集中包括的車輛數(shù)據(jù)集只有約700張,訓(xùn)練時數(shù)據(jù)量少,交通場景不豐富,為獲得更好的訓(xùn)練后的網(wǎng)絡(luò)模型,本文制作了VehicleDataSet數(shù)據(jù)集。VehicleDataSet數(shù)據(jù)集共有1 000張圖像,包括光照強烈的白天、光照弱的傍晚、不同角度下的車輛以及車輛稀疏、擁堵等各種不同場景,VehicleDataSet數(shù)據(jù)集中的車輛圖像如圖2所示。
本實驗采用Ubuntu1404操作系統(tǒng),深度學(xué)習(xí)框架采用基于NVIDIA GTX 970 GPU硬件平臺上搭建的TensorFlow。網(wǎng)絡(luò)在訓(xùn)練過程中,首先使用VGG16Net預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型作為實驗的微調(diào)模型,用于初始化本文構(gòu)建的網(wǎng)絡(luò)模型前10層網(wǎng)絡(luò)參數(shù),即第3次池化層之前的網(wǎng)絡(luò)參數(shù),同時使用Pascal VOC2012數(shù)據(jù)集和VehicleDataSet數(shù)據(jù)集對所有網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并使用Adam更新網(wǎng)絡(luò)權(quán)值,直到網(wǎng)絡(luò)收斂。
對訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,將1幅任意大小的圖像輸入已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)中,通過前向傳遞的方式,對圖像每個像素點進(jìn)行預(yù)測分類,通過對每個像素的分類,實現(xiàn)對整張圖像中的目標(biāo)分割。
2.2 分割結(jié)果評價指標(biāo)
本文提出的對車輛分割的方法,是對圖像進(jìn)行像素級分類,即對每個像素點進(jìn)行分類。其性能評估方法包括:像素準(zhǔn)確率、類平均準(zhǔn)確率和平均區(qū)域重合度(mean IU,intersection over union)3種,平均IU表示預(yù)測像素正確的交集,除以預(yù)測像素和原來像素的并集。各性能評估方式定義如下:
2.3 實驗結(jié)果及分析
在復(fù)雜的交通環(huán)境下,基于本文構(gòu)建的全卷積神經(jīng)網(wǎng)絡(luò),對2分類和21分類的分割結(jié)果進(jìn)行比較。實驗結(jié)果表明,對于不完整的車輛,21分類網(wǎng)絡(luò)與2分類網(wǎng)絡(luò)相比,分割效果并不好,如車輛細(xì)節(jié)和邊緣輪廓分割不準(zhǔn)確,且當(dāng)環(huán)境變的復(fù)雜,如光照不足、有陰影遮擋車輛、車輛數(shù)密集等,2分類網(wǎng)絡(luò)的分割準(zhǔn)確率比21分類網(wǎng)絡(luò)分割準(zhǔn)確率高。不同分割種類的分割結(jié)果如圖3所示。
對于2分類全卷積神經(jīng)網(wǎng)絡(luò)和21分類全卷積神經(jīng)網(wǎng)絡(luò),不同訓(xùn)練數(shù)據(jù)集車輛分割情況如表1所示。由表1可以看出,在不同訓(xùn)練樣本條件下,2分類網(wǎng)絡(luò)比21分類網(wǎng)絡(luò)對車輛的分割精度有明顯提高,而且隨著樣本數(shù)的增加,像素準(zhǔn)確率、類平均準(zhǔn)確率和平均IU均有所提高。對于2分類和21分類的分割網(wǎng)絡(luò)模型,采用2分類分割算法的平均IU可以達(dá)到90%,比21分類網(wǎng)絡(luò)模型對車輛目標(biāo)的平均IU值提高4%。
使用相同數(shù)據(jù)集微調(diào)各種不同全卷積神經(jīng)網(wǎng)絡(luò),由相同數(shù)據(jù)集的分割結(jié)果可以看出,文獻(xiàn)[7]中FCN模型隨著融合次數(shù)的增加,分割精度在上升,證明進(jìn)行淺層與深層的融合在一定程度上能提高分割準(zhǔn)確率。本文針對交通環(huán)境下車輛分割問題,減少深層卷積層,兩次融合增加了分割結(jié)果中的噪聲,導(dǎo)致在車輛邊緣部分分割效果并不好,在減少深層網(wǎng)絡(luò)卷積層的基礎(chǔ)上,只進(jìn)行1次深層特征與淺層特征融合,得到最優(yōu)分割結(jié)果。不同模型分割結(jié)果如圖4所示。
由圖4可以看出,一定程度地增加訓(xùn)練樣本的容量,可以提高全卷積神經(jīng)網(wǎng)絡(luò)對目標(biāo)分割的準(zhǔn)確率,對網(wǎng)絡(luò)的中深層特征層與淺層特征層適當(dāng)融合,提取的特征更多更細(xì),識別的像素更多更準(zhǔn)確,對目標(biāo)分割的準(zhǔn)確度也會提高。同時,降低網(wǎng)絡(luò)分割目標(biāo)的類別數(shù),一定程度上提高了目標(biāo)分割的準(zhǔn)確率。
使用本文所提出的全卷積神經(jīng)網(wǎng)絡(luò),得到不同環(huán)境下車輛分割可視化后的結(jié)果,其中,復(fù)雜場景分為光照強弱、是否有陰影和擁堵場景等??梢暬能囕v分割結(jié)果如圖5所示。
1) 光照強弱。由于白天到夜晚間的光照不同,且夜間光照弱,車燈具有明顯的反光現(xiàn)象,影響車輛分割。以是否有自然光為標(biāo)準(zhǔn),分為光照弱和一般場景圖像。
2) 是否有陰影。由于車道兩旁建筑物不同,易對行駛的車輛覆上陰影。以是否覆上陰影為標(biāo)準(zhǔn),分為有陰影和一般場景圖像。
3) 擁堵場景。車輛圖像密集,使圖像較為復(fù)雜,若每幅圖像超過10輛車,則將其判定為擁堵場景。
由圖5可以看出,本文提出的算法,在復(fù)雜交通環(huán)境下也能很好實現(xiàn)車輛分割,并且很接近真實的分割圖。
將本文FCN結(jié)果可視化圖和人工標(biāo)記可視化圖進(jìn)行對比,細(xì)節(jié)對比圖如圖6所示。
由圖6可以看出,當(dāng)車輛邊緣有輕微凸起時,對后視鏡和車輪邊緣的分割較平滑,并不理想;當(dāng)有車輛粘連時,粘連部分的分割效果比較差,但對于整體邊緣的分割效果較好。
3 結(jié)束語
本文基于VGG16Net構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò),并將其用于復(fù)雜交通環(huán)境下的車輛分割。研究了把對圖像的分割問題轉(zhuǎn)換成基于像素的二分類問題后對車輛分割結(jié)果的影響,同時研究了深層與淺層融合次數(shù)對分割結(jié)果的影響。實驗結(jié)果表明,對于復(fù)雜環(huán)境中的車輛,適當(dāng)?shù)膶⑸顚泳矸e層與淺層卷積層特征融合,可以提高對車輛的分割準(zhǔn)確率,而過多融合和不融合的分割效果都不佳。對于不同的分割目標(biāo),應(yīng)選擇合適的融合次數(shù)。將目標(biāo)分割問題轉(zhuǎn)換成對像素的二分類問題后,減少了其他目標(biāo)特征的干擾,提高了車輛的分割準(zhǔn)確率,但對于光照弱場景下的車輛及粘連遮擋過多的車輛,分割效果并不好,以后將對此問題進(jìn)一步展開研究。
參考文獻(xiàn):
[1] 王曉, 要婷婷, 韓雙雙, 等. 平行車聯(lián)網(wǎng): 基于ACP的智能車輛網(wǎng)聯(lián)管理與控制[J]. 自動化學(xué)報, 2018, 44(8): 13911404.
[2] Li D M, Deng L B, Cai Z M, et al. Intelligent Transportation System in Macao Based on Deep SelfCoding Learning[J]. IEEE Transactions on Industrial Informatics, 2018, 14(7): 32533260.
[3] Yang Z, Lilian S C, Pun C. Vechicle detection in intelligent transportation systems and its applications under varying environments: A review[J]. Image and Vision Computing, 2018, 69(1): 143154.
[4] 吳忻生, 鄧軍, 戚其豐. 基于最優(yōu)閾值和隨機標(biāo)號法的多車輛分割[J]. 公路交通科技, 2011, 28(3): 125132.
[5] Cloppet F, Boucher A. Segmentation of overlapping/aggregating nuclei cells in bioimages [C]∥19th International Conference on Pattern Recongnition. Tampa, USA: IEEE, 2008: 14.
[6] MartelBrisson N, Zaccarin A. Kernel Based Learning of Cast Shadows from a Physical Model of Light Sources and Surfaces for Low Level Segmentation[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, Alaska, USA: IEEE, 2008: 18.
[7] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 34313440.
[8] 計夢予, 襲肖明, 于治樓. 基于深度學(xué)習(xí)的語義分割方法綜述[J]. 信息技術(shù)與信息化, 2017, 24(10): 137140.
[9] 張新明, 祝曉斌, 蔡強, 等. 圖像語義分割深度學(xué)習(xí)模型綜述[J]. 高技術(shù)通訊, 2017, 27(9): 808815.
[10] 徐國晟, 張偉偉, 吳訓(xùn)成, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的車道線語義分割算法[J]. 電子測量與儀器學(xué)報, 2018, 32(7): 8994.
[11] He Z W, Tang P, Jin W D, et al. Deep semantic segmentation neural networks of railway scene[C]∥37th Chinese Control Conference. Wuhan, China: China Academic Journal Electronic Publishing House, 2018: 90959100.
[12] 吳駿逸, 谷小婧, 顧幸生. 基于可見光/紅外圖像的夜間道路場景語義分割[J]. 華東理工大學(xué)學(xué)報, 2018, 44(6): 111.
[13] 李琳輝, 錢波, 連靜, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的交通場景語義分割方法研究[J]. 通信學(xué)報, 2018, 39(4): 123130.
[14] 高凱珺, 孫韶媛, 姚廣順, 等. 基于深度學(xué)習(xí)的無人車夜視圖像語義分割[J]. 應(yīng)用光學(xué), 2017, 38(3): 421428.
[15] Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoderdecoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 24812495.
[16] Qian N. On the momentum term in gradient descent learning algorithms. Neural Networks[J]. The Official Journal of the International Neural Network Society, 1999, 12(1): 145151.
[17] Nesterov Y E. A method of solving a convex programming problem with the convergence rate o(1/k2)[J]. Doklady ANSSSR (Translated as Soviet. Math. Docl.), 1983, 27(1): 543547.
[18] John L D, Hazan E, Singer Y.Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2010, 12(7): 257269.
[19] Kingma D P, Ba J L. Adam: a method for stochastic optimization[C]∥International Conference on Learning Representations. California, San Diego, USA: SDRS, 2015.
[20] Simonyan K, Zisserman A. Very deep convolutional networks for largescale image recognition[C]∥ International Conference on Learing Representations. California, San Diego, USA: SDRS, 2014: 11501210.