李偉娟 千凱琦 付昱 伍晨俊 劉保山
摘? 要:交通標(biāo)志的識(shí)別對于自動(dòng)駕駛與智能導(dǎo)航具有重要意義,針對已有深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別率不高的問題,提出一種基于ConvNeXt網(wǎng)絡(luò)模型的交通標(biāo)志智能識(shí)別算法。該網(wǎng)絡(luò)以純粹的CNN模型為特點(diǎn),具有更優(yōu)的圖像分類及檢測分割任務(wù)的性能。文中使用GTSRB數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),與MobileNet、ResNet等網(wǎng)絡(luò)進(jìn)行對比測試,測試結(jié)果表明,ConvNeXt網(wǎng)絡(luò)收斂速度最快并且穩(wěn)定,最終交通標(biāo)志的識(shí)別準(zhǔn)確率達(dá)99%以上。實(shí)驗(yàn)結(jié)果表明,該算法準(zhǔn)確率高,具有一定的工程應(yīng)用意義。
關(guān)鍵詞:ConvNeXt網(wǎng)絡(luò);交通標(biāo)志識(shí)別;CNN模型
中圖分類號(hào):TP391.4? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)08-0075-04
Abstract: Traffic sign recognition is of great significance for automatic driving and intelligent navigation, and an intelligent recognition algorithm of traffic signs based on ConvNeXt network model is proposed to solve the problem that the recognition rate of existing deep learning networks is not high. The network features a pure CNN model with better performance for image classification and detection segmentation tasks. In this paper, GTSRB data sets are used for experiments and compared with MobileNet, ResNet, and other networks. The test results show that the ConvNeXt network has the fastest convergence speed and is stable, and the final traffic sign recognition accuracy rate reaches over 99%. Experimental results show that the algorithm has high accuracy and has certain engineering application significance.
Keywords: ConvNeXt network; traffic sign recognition; CNN model
0? 引? 言
交通標(biāo)志的檢測識(shí)別是視覺輔助導(dǎo)航領(lǐng)域不可或缺的一部分,視障人群需要借助外部工具感知周圍復(fù)雜的環(huán)境以及時(shí)了解周圍的指示燈、方向牌、機(jī)動(dòng)車道標(biāo)志、人行道標(biāo)志等交通標(biāo)志,通過交通標(biāo)志的識(shí)別可以為視障人群提供交通指引,從而方便其出行。在現(xiàn)實(shí)場景中,交通標(biāo)志在城市交通中易受惡劣天氣、交通擁堵等影響而導(dǎo)致識(shí)別率低的問題[1]不可避免。因此,對于如何構(gòu)建一個(gè)具有應(yīng)變復(fù)雜場景以及惡劣天氣,同時(shí)具有高準(zhǔn)確率的實(shí)時(shí)檢測交通標(biāo)志的系統(tǒng)具有重大的研究意義。
目前已經(jīng)有很多針對交通標(biāo)志的目標(biāo)識(shí)別算法,比如宋青松等[2]提出一種聚類殘差單次多盒檢測算法(Single Shot multibox Detector, SSD),具有較好的交通標(biāo)志識(shí)別效果;Cao等[3]在LeNet-5卷積神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,采用Gabor作為初始核,選擇Adam作為優(yōu)化算法[4],能夠以較高精度對不同交通標(biāo)志進(jìn)行識(shí)別;Girshick等[5]提出了基于候選區(qū)域的RCNN(Regions with convolutional neural network features)算法,能夠提取多層信息,精準(zhǔn)定位目標(biāo)[6]。雖然,當(dāng)前的算法在交通目標(biāo)識(shí)別方向取得了一定的成果,但由于或者是減少了目標(biāo)框的回歸,導(dǎo)致檢測結(jié)果有較大的定位誤差,存在檢測精度上的劣勢?;蛘呤悄P蛥?shù)量與計(jì)算量過大,推理時(shí)間較長,不滿足交通標(biāo)志識(shí)別的實(shí)時(shí)性要求[7]。因此,為更精準(zhǔn)快速在惡劣環(huán)境、實(shí)時(shí)交通場景中識(shí)別出目標(biāo),本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的交通目標(biāo)識(shí)別系統(tǒng),能夠滿足實(shí)時(shí)性、準(zhǔn)確性較高的需求的同時(shí),更具有魯棒性。
1? 相關(guān)工作
1.1? Faster RCNN算法
該算法主要是通過四個(gè)部分來實(shí)現(xiàn)目標(biāo)檢測的,主要包括用來提取特征的體征提取網(wǎng)絡(luò)、判斷目標(biāo)是否存在以及進(jìn)行預(yù)處理的區(qū)域候選網(wǎng)絡(luò)、將上一級網(wǎng)絡(luò)挑選的特征圖提取出對應(yīng)的語義信息用于送入下一級用于分類任務(wù)的興趣域池化網(wǎng)絡(luò)以及最后進(jìn)行計(jì)算出具體類別的分類網(wǎng)絡(luò)。該算法主要是基于卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)端到端的目標(biāo)檢測模型。
1.2? VGGNet算法
該算法使用多個(gè)小卷積核構(gòu)成的卷積層代替較大的卷積層,兩個(gè)3×3卷積核的堆疊相當(dāng)于5×5卷積核的視野,三個(gè)3×3卷積核的堆疊相當(dāng)于7×7卷積核的視野。這種方式既減少了參數(shù),同時(shí)也相當(dāng)于進(jìn)行了更多的非線性映射,增加了擬合能力,且更多的卷積核使得特征圖的通道數(shù)增多,特征提取更全面。
1.3? MobileNet算法
該算法的基本單元是深度級可分離卷積,本質(zhì)為一種可分解的卷積操作,其可以分解為兩個(gè)更小的操作深度可分離卷積(depthwise convolution)和逐點(diǎn)卷積(pointwise convolution)。具體過程為首先采用depthwise convolution對不同輸入通道分別進(jìn)行卷積,然后采用pointwise convolution將上面的輸出再進(jìn)行結(jié)合,整體效果相當(dāng)于標(biāo)準(zhǔn)卷積,但是大大減少計(jì)算量和模型參數(shù)量。保持模型性能的前提下降低模型大小、提升模型速度。
1.4? ResNet算法
該算法主要模塊使用了殘差連接的子模塊,從而緩解了網(wǎng)絡(luò)層數(shù)的加深會(huì)使梯度消失或者梯度爆炸造成的影響更加明顯[8]的難題。該算法主要是應(yīng)用了添加恒等映射,使得在殘差模塊中,輸入數(shù)據(jù)可以通過殘差連接更迅速地向前傳播。如圖1所示。
1.5? ?ConvNeXt算法
近年來,因?yàn)樯疃葘W(xué)習(xí)中Transformer網(wǎng)絡(luò)的自注意力機(jī)制在計(jì)算機(jī)視覺中大量使用,并且效果比一般CNN算法更佳,因此,文獻(xiàn)[9]提出了ConvNeXt網(wǎng)絡(luò),證明CNN網(wǎng)絡(luò)依然具有潛力。ResNet是CNN中非常具有影響力的一種結(jié)構(gòu),如圖2所示,本文的ConvNeXt網(wǎng)絡(luò)是在ResNet50網(wǎng)絡(luò)的基礎(chǔ)上做出改進(jìn)。與傳統(tǒng)的殘差神經(jīng)網(wǎng)絡(luò)不同,如圖3所示,ConvNeXt模塊采用的是兩頭細(xì)中間粗的結(jié)構(gòu),在輸入時(shí)通道數(shù)為96,中間層通道數(shù)為384,最后輸出時(shí)通道數(shù)不變?nèi)詾?6,實(shí)現(xiàn)了整個(gè)網(wǎng)絡(luò)在識(shí)別精度上明顯優(yōu)于ResNet50網(wǎng)絡(luò)。
注意力機(jī)制作為捕捉特征圖顯著特征、提高卷積神經(jīng)網(wǎng)絡(luò)特征提取能力的新方法[10],其使用越來越頻繁,在2020年提出了一種僅使用純卷積的ConvNeXt網(wǎng)絡(luò),該網(wǎng)絡(luò)主要是學(xué)習(xí)殘差連接網(wǎng)絡(luò)以及移動(dòng)窗口自注意力網(wǎng)絡(luò)進(jìn)而改進(jìn)出的純卷積的神經(jīng)網(wǎng)絡(luò)。整個(gè)網(wǎng)絡(luò)的實(shí)現(xiàn)全部使用現(xiàn)有的技術(shù)和方法,沒有創(chuàng)新結(jié)構(gòu),但是使用先用架構(gòu)模仿搭建移動(dòng)窗口自注意力網(wǎng)絡(luò)搭建出了更優(yōu)化的模型。整個(gè)網(wǎng)絡(luò)達(dá)到了更優(yōu)的結(jié)果。本文提出的交通目標(biāo)檢測網(wǎng)絡(luò)是以該純卷積的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)實(shí)現(xiàn)的。
如圖4所示,網(wǎng)絡(luò)首先對輸入圖像做非重疊卷積,然后送入4個(gè)ConvNeXt Block,其通道數(shù)Dim分別為96、192、384、768,逐次翻倍,并且每個(gè)模塊后帶一個(gè)下采樣,最后通過全局池化和全連接輸出識(shí)別結(jié)果。
2? 特征提取ConvNext網(wǎng)絡(luò)
2.1? 非重疊卷積策略
一般的卷積神經(jīng)網(wǎng)絡(luò)都是由一個(gè)卷積核和最大池化構(gòu)成的下采樣模塊,但基于移動(dòng)窗口自注意力網(wǎng)絡(luò)中直接采用一個(gè)很大的并且各個(gè)特征提取窗口不重疊的卷積核,本網(wǎng)絡(luò)同樣選擇采用以卷積核大小為4步長為4的卷積核用于初始下采樣模塊。
2.2? 數(shù)據(jù)標(biāo)準(zhǔn)化
在研究交通標(biāo)志識(shí)別網(wǎng)絡(luò)時(shí),對于數(shù)據(jù)的正則化一般會(huì)有批歸一化和層歸一化兩種方式,這兩種方式都是為了防止出現(xiàn)梯度消失或梯度爆炸現(xiàn)象使得網(wǎng)絡(luò)當(dāng)前隱藏層的穩(wěn)定性下降。通常在自然語言處理領(lǐng)域,一般采用的是層歸一化方式,在利用卷積神經(jīng)網(wǎng)絡(luò)做特征提取任務(wù)時(shí),會(huì)采用批歸一化的方式,但是在本網(wǎng)絡(luò)中通過對比研究發(fā)現(xiàn),采用層歸一化結(jié)果優(yōu)于批歸一化結(jié)果。
2.3? 減少歸一化層
ResNet50網(wǎng)絡(luò)使用了較多的歸一化層,進(jìn)行數(shù)據(jù)的歸一化,縮小數(shù)據(jù)偏差值,但是移動(dòng)窗口自注意力網(wǎng)絡(luò)使用較少的歸一化層,因此整個(gè)網(wǎng)絡(luò)使用了較少的歸一化層,僅僅在深度可分離卷積層后使用歸一化層,使得整個(gè)網(wǎng)絡(luò)在準(zhǔn)確度上得到了優(yōu)化。
2.4? 下采樣層
對于卷積神經(jīng)網(wǎng)絡(luò)而言,下采樣層的作用就是降低整個(gè)網(wǎng)絡(luò)的計(jì)算量,同時(shí)能夠防止出現(xiàn)過擬合的問題以及可以增大感受野,從而使后面的卷積層可以學(xué)習(xí)到更多的信息。本特征提取網(wǎng)絡(luò)采用了單獨(dú)的下采樣層,該下采樣層是通過在層歸一化之后添加一個(gè)卷積核大小為2,步長為2的卷積層構(gòu)成的,從而實(shí)現(xiàn)降低特征圖大小。如圖5所示。
2.5? 深度可分離卷積
為了降低計(jì)算量和參數(shù)量,本網(wǎng)絡(luò)使用了深度可分離卷積。深度可分離卷積主要是通過保持輸入和輸出的維度相同,并且卷積在通道和空間維度上的可分離實(shí)現(xiàn)計(jì)算量的減少以及空間內(nèi)信息的提取。通過卷積核與通道數(shù)量相等可以實(shí)現(xiàn)當(dāng)輸入一個(gè)三通道的RGB圖片時(shí),經(jīng)過卷積運(yùn)算之后得到對應(yīng)通道的三個(gè)特征圖。
2.6? 激活函數(shù)
在卷積神經(jīng)網(wǎng)絡(luò)中,為了給整個(gè)網(wǎng)絡(luò)添加非線性產(chǎn)生強(qiáng)大的擬合能力,通常會(huì)增加激活函數(shù),一般使用ReLU函數(shù)(Rectified Linear Unit),而在本網(wǎng)絡(luò)使用的是高斯誤差線性單元——GELU函數(shù)(Gaussian Error Linear Unit),與常見的激活函數(shù)不同,高斯誤差線性單元由于其在零點(diǎn)可微性,使得可以處理零均值數(shù)據(jù)以及整個(gè)網(wǎng)絡(luò)性能更優(yōu)化。
2.7? 翻轉(zhuǎn)瓶頸模塊
與一般的瓶頸模塊不同,為了與移動(dòng)窗口自注意力網(wǎng)絡(luò)中多層感知機(jī)模塊相同,本網(wǎng)絡(luò)采用了翻轉(zhuǎn)的瓶頸結(jié)構(gòu),也就是中間粗兩頭細(xì),通過翻轉(zhuǎn)瓶頸結(jié)構(gòu)實(shí)現(xiàn)本網(wǎng)絡(luò)精度的提升。
3? 數(shù)據(jù)集
本網(wǎng)絡(luò)采用的是GTSRB(The German Traffic Sign Recognition Benchmark)數(shù)據(jù)集,屬于德國交通標(biāo)志數(shù)據(jù)集,數(shù)據(jù)集一共分為了43類交通標(biāo)志,其中一共有訓(xùn)練集39 209張,測試集12 630張,圖片大小范圍在15×15到250×250像素之間[11]。由于實(shí)際環(huán)境中標(biāo)志會(huì)受惡劣天氣以及遮擋物的影響而導(dǎo)致實(shí)時(shí)檢測交通標(biāo)志類別時(shí)難度上升。在提供的樣本中考慮到實(shí)際情況的不同提供的樣本大小以及標(biāo)志的區(qū)域大小都不相同,能夠更好地適應(yīng)實(shí)際情況。如圖6所示。
4? 交通目標(biāo)識(shí)別結(jié)果
4.1? 實(shí)驗(yàn)環(huán)境介紹
本次實(shí)驗(yàn)所使用的硬件設(shè)備環(huán)境CPU為AMD Ryzen 5800X 8-Core Processor,顯卡為NVIDIA GeForce RTX 3080 Ti,使用Python 3.7為編程語言,使用交叉熵?fù)p失函數(shù)。本實(shí)驗(yàn)過程采用學(xué)習(xí)率為0.001進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置思路來源于文獻(xiàn)[12]。并且在實(shí)驗(yàn)數(shù)據(jù)處理階段由于樣本大小不一致以及并非正方形,將輸入數(shù)據(jù)進(jìn)行了大小重整為40×40,并經(jīng)過了中心裁剪為32的正方形再進(jìn)行訓(xùn)練。
4.2? 實(shí)驗(yàn)結(jié)果
4.2.1? 評價(jià)指標(biāo)
在進(jìn)行圖像分類與識(shí)別任務(wù)時(shí),大多數(shù)采用的是測試時(shí)的準(zhǔn)確率來作為指標(biāo),進(jìn)行模型的效果評價(jià)。本文也采用該評價(jià)指標(biāo)作為模型效果判斷,并且一般情況下,實(shí)驗(yàn)過程中該評價(jià)指標(biāo)會(huì)隨著迭代次數(shù)的增加進(jìn)行增長,數(shù)值越大模型效果越好。
4.2.2? 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證本文網(wǎng)絡(luò)的性能,在GTSRB數(shù)據(jù)集上訓(xùn)練過程中,每一次迭代結(jié)束后都進(jìn)行一次驗(yàn)證測試,觀察網(wǎng)絡(luò)模型的收斂速度。訓(xùn)練與測試的數(shù)據(jù)如圖7所示。
圖中虛線是訓(xùn)練準(zhǔn)確率,實(shí)線是測試準(zhǔn)確率,黑色是本文網(wǎng)絡(luò)數(shù)據(jù),橙色是ResNet50網(wǎng)絡(luò)數(shù)據(jù)。從圖中可知,本文網(wǎng)絡(luò)迭代速率更快,第一輪訓(xùn)練后準(zhǔn)確率就達(dá)到93%,高于ResNet的71%,并且穩(wěn)定上升,最終保持在96.70%附近;而ResNet50網(wǎng)絡(luò)最終識(shí)別的準(zhǔn)確度保持在95.00%左右,并且有震蕩起伏。通過測試結(jié)果可看出,本文網(wǎng)絡(luò)訓(xùn)練時(shí)收斂速度更快,并且更加穩(wěn)定,最終的準(zhǔn)確率也更高。
4.2.3? 與其他網(wǎng)絡(luò)模型對比實(shí)驗(yàn)
為了檢驗(yàn)本網(wǎng)絡(luò)對于交通標(biāo)志識(shí)別的準(zhǔn)確率,選用了常見的ResNet、MobileNet等網(wǎng)絡(luò)模型進(jìn)行對比,在相同的GTSRB數(shù)據(jù)集下進(jìn)行訓(xùn)練得到結(jié)果如表1所示。
通過表中數(shù)據(jù)可以得出,本網(wǎng)絡(luò)數(shù)據(jù)集上訓(xùn)練的準(zhǔn)確度達(dá)到99.56%,明顯優(yōu)于其他網(wǎng)絡(luò)。
5? 結(jié)? 論
本文提出的網(wǎng)絡(luò)是基于一個(gè)純卷積的神經(jīng)網(wǎng)絡(luò)Convnext的交通標(biāo)志分類識(shí)別網(wǎng)絡(luò),主要是在ResNet50網(wǎng)絡(luò)和Swim-Transformer(Shifted windows Transformer)網(wǎng)絡(luò)的基礎(chǔ)上作出改進(jìn),并且與之相比,本網(wǎng)絡(luò)引入了不重疊卷積結(jié)構(gòu)、倒置瓶頸結(jié)構(gòu)、層歸一化結(jié)構(gòu)以及深度可分離卷積結(jié)構(gòu)等實(shí)現(xiàn)了網(wǎng)絡(luò)計(jì)算量和參數(shù)量的減少以及分類準(zhǔn)確度和速度的提升。研究表明,本網(wǎng)絡(luò)可以實(shí)現(xiàn)較好準(zhǔn)確率的實(shí)時(shí)識(shí)別交通標(biāo)志為視障人群提供交通指引。接下來的工作主要是如何在于如何讓本網(wǎng)絡(luò)實(shí)現(xiàn)能夠在復(fù)雜的環(huán)境下快速檢測出交通標(biāo)志并將其較為準(zhǔn)確的識(shí)別出來。
參考文獻(xiàn):
[1] 郭繼峰,孫文博,龐志奇,等.一種改進(jìn)YOLOv4的交通標(biāo)志識(shí)別算法 [J].小型微型計(jì)算機(jī)系統(tǒng),2022,43(7):1471-1476.
[2] 宋青松,王興莉,張超,等.用于交通標(biāo)志檢測的窗口大小聚類殘差SSD模型 [J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2019,46(10):133-140.
[3] CAO J W,SONG C X,PENG S L,et al. Improved Traffic Sign Detection and Recognition Algorithm for Intelligent Vehicles [J].Sensors,2019,19(18):4021-4021.
[4] 林軼,陳琳,王國鵬,等.改進(jìn)的YOLOv3交通標(biāo)志識(shí)別算法 [J].科學(xué)技術(shù)與工程,2022,22(27):12030-12037.
[5] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.
[6] 郭朦,陳紫強(qiáng),鄧鑫,等.基于YOLOv5l和ViT的交通標(biāo)志檢測識(shí)別方法 [J].科學(xué)技術(shù)與工程,2022,22(27):12038-12044.
[7] 徐兢成,王麗華.基于AlexNet網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法 [J].無線電工程,2022,52(3):470-475.
[8] 張佳達(dá),許學(xué)斌,路龍賓,等.基于深度殘差網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法研究 [J].計(jì)算機(jī)仿真,2022,39(1):143-147.
[9] LIU Z ,MAO H Z,WU C Y,et al. A ConvNet for the 2020s [J/OL].arXiv:2201.03545 [cs.CV].[2022-10-02].https://arxiv.org/abs/2201.03545.
[10] 蔣博文.基于改進(jìn)ResNet模型的圖像分類方法 [J].現(xiàn)代信息科技,2022,6(12):83-85.
[11] 陳立潮,張倩茹,曹建芳,等.復(fù)雜場景下基于復(fù)合膠囊網(wǎng)絡(luò)的交通標(biāo)志識(shí)別 [J].計(jì)算機(jī)工程與設(shè)計(jì),2021,42(9):2627-2633.
[12] 韓建鵬,王春生,鞏梨.基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別算法研究 [J].農(nóng)業(yè)裝備與車輛工程,2022,60(5):33-38.
作者簡介:李偉娟(2001—),女,漢族,山東菏澤人,本科在讀,研究方向:通信工程;千凱琦(2002—),男,漢族,河南焦作人,本科在讀,研究方向:通信工程。