【歡迎引用】 王云航. 基于深度學(xué)習(xí)的交通標(biāo)志檢測與識別方法研究[J]. 汽車文摘, 2024(XX): XX-XX.
【Cite this paper】 WANG Y H. Research on Detection and Recognition Methods of Traffic Signs Based on Deep Learning[J]. Automotive Digest(Chinese), 2024(XX): XX-XX.
【摘要】為克服交通標(biāo)志檢測與識別中交通標(biāo)志目標(biāo)小、尺寸多樣、獲取相關(guān)特征信息困難且易受到復(fù)雜背景干擾等挑戰(zhàn),基于YOLOv5s網(wǎng)絡(luò)提出一種基于深度學(xué)習(xí)的交通標(biāo)志檢測與識別方法。針對當(dāng)前交通標(biāo)志識別算法在背景復(fù)雜的小目標(biāo)識別方面存在的問題,將置換注意力機制嵌入YOLOv5s模型主干網(wǎng)絡(luò)末端的C3層,提出了一種基于注意力機制的交通標(biāo)志檢測與識別算法,以提高對關(guān)鍵區(qū)域的聚焦能力,有效消除背景噪聲干擾。針對目前目標(biāo)檢測算法在處理尺寸多變的交通標(biāo)志圖像時存在特征融合局限性的問題,提出了加權(quán)特征融合網(wǎng)絡(luò)算法。該算法使主干網(wǎng)絡(luò)中包含豐富語義信息的同尺寸淺層特征圖,分別與深層的中等和大目標(biāo)檢測層進行加權(quán)融合,以增強多尺寸特征融合能力。實驗結(jié)果表明,改進后算法在交通標(biāo)志檢測數(shù)據(jù)集CCTSDB 2021上,相較于原YOLOv5s方法,精確度和召回率分別提升了0.5個百分點和3.6個百分點,平均精度提升了2.8個百分點,檢測速度達到123.46 幀/s。因此,提出的算法能夠有效提高交通標(biāo)志檢測和識別的準(zhǔn)確性,同時保持原有的檢測速度。
關(guān)鍵詞:小目標(biāo)檢測;交通標(biāo)志識別;YOLOv5s;置換注意力機制;加權(quán)特征融合
中圖分類號:TP391.41;TN911.73 文獻標(biāo)識碼:A ?DOI: 10.19822/j.cnki.1671-6329.20240075
Research on Detection and Recognition Methods of Traffic Signs Based on Deep Learning
Wang Yunhang
(School of Automotive Studies, Tongji University, Shanghai 201804)
【Abstract】 In order to overcome the challenges of traffic sign detection and recognition, such as small targets, diverse sizes, difficulty in obtaining relevant feature information, and susceptibility to complex background interference, traffic signs are detected and recognized. a deep learning method for traffic sign detection and recognition is proposed based on the YOLOv5s network. Addressing the issue of current traffic sign recognition algorithms struggling to identify small targets in complex backgrounds, we have integrated a shuffle attention mechanism into the C3 layer at the end of the YOLOv5s backbone network. This integration introduces a traffic sign detection and recognition algorithm that relies on an attention mechanism. This enhances the ability to focus on key areas and effectively eliminates background noise interference. To address the limitations of feature fusion in current object detection algorithms when dealing with traffic signs of varying sizes in images, we propose a weighted feature fusion network algorithm. This algorithm performs weighted fusion of shallow feature maps containing rich semantic information in the backbone network with medium and large target detection layers, enhancing the fusion ability of multi-size features. Experimental results on the traffic sign detection dataset CCTSDB 2021 show that the enhanced algorithm achieved a 0.5 percentage points increase in precision, a 3.6 percentage points increase in recall, and an average precision improvement of 2.8 percentage points compared to the original YOLOv5s method. Additionally, the detection speed reached 123.46 frame/s. Therefore, the proposed algorithm effectively enhances the accuracy of traffic sign detection and recognition while maintaining a original detection speed.
Key words: Small object detection, Traffic sign recognition, YOLOv5s, Shuffle attention mechanism, Weighted feature fusion
0 引言
交通標(biāo)志檢測任務(wù)旨在準(zhǔn)確識別圖像或視頻中的交通標(biāo)志類別及其位置。這項技術(shù)被廣泛應(yīng)用于自動駕駛和輔助駕駛等領(lǐng)域,是智能交通系統(tǒng)重要的組成部分,對于交通標(biāo)志的準(zhǔn)確檢測具有重要的研究意義和實用價值。然而,由于實際環(huán)境中的交通標(biāo)志受采集條件的影響,往往呈現(xiàn)目標(biāo)小、背景復(fù)雜、尺寸變化多樣等特點,導(dǎo)致識別困難甚至誤判,可能對車輛的行車安全造成嚴(yán)重影響。因此,實時、快速地識別交通標(biāo)志成為交通任務(wù)中的重點和難點之一。
國內(nèi)外已有許多關(guān)于交通標(biāo)志檢測識別的研究,并取得了一定成果。交通標(biāo)志檢測可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法2大類。傳統(tǒng)檢測方法主要利用顏色、形狀特征或2者融合進行交通標(biāo)志的檢測。Akatsuka等[1]提出一種閾值分割算法,通過在RGB顏色空間中設(shè)定不同顏色的閾值范圍,標(biāo)記交通標(biāo)志的紅色、黃色和藍(lán)色等特定顏色,從而實現(xiàn)了對交通標(biāo)志的檢測。Barnes等[2]引入徑向?qū)ΨQ檢測法,該方法利用點與點的對稱性,將圓形映射為點的集中聚集,突出圖像中的圓對稱區(qū)域,以實現(xiàn)對交通標(biāo)志的粗定位。湯凱等[3]提出了一種多特征協(xié)同方法,結(jié)合顏色特征、形狀特征和尺度特征,并采用支持向量機(Support Vector Machine, SVM)對融合特征進行分類,從而獲得交通標(biāo)志的檢測結(jié)果。然而,該方法在處理小尺度曲率直方圖時容易受到邊緣噪聲的干擾,導(dǎo)致尺度較小的交通標(biāo)志難以被正確檢測到。Qian等[4]將基于顏色的分割方法和模板匹配方法的優(yōu)點結(jié)合起來,提出了一種新的幾何形狀特征表達方法,即多級鏈碼直方圖(Multi-level Chain Code Histogram, MCCH),用于交通標(biāo)志的識別。He等[5]利用改進的局部二值模式(Local Binary Patterns, LBP)進行局部特征提取,并采用離散小波變換的低頻系數(shù)作為全局信息,然后將這2種特征級聯(lián)起來進行交通標(biāo)志識別。然而,傳統(tǒng)的交通標(biāo)志檢測方法對特征提取依賴手工操作,魯棒性較差,無法滿足交通標(biāo)志檢測對實時性和精確性的要求。
2014年,首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測[7],自此以后,基于深度學(xué)習(xí)的方法開始廣泛應(yīng)用于交通標(biāo)志檢測。深度學(xué)習(xí)的目標(biāo)檢測算法主要分為2個方向:二階段檢測和一階段檢測。二階段檢測算法包括R-CNN(Regions with CNN features)及其改進版本、Fast R-CNN[8]、Faster R-CNN[9]等。一階段檢測算法包括YOLO(You Only Look Once)系列[10-13]和SSD(Single Shot multibox Detetor)[14-15]等,目標(biāo)檢測發(fā)展?fàn)顩r如圖1所示。
Yang等[17]基于Faster R-CNN框架引入了注意力網(wǎng)絡(luò),以便快速搜索所有可能的感興趣區(qū)域,并根據(jù)顏色特征將其分為3類。然后,另外一個區(qū)域提取網(wǎng)絡(luò)從一組錨框中生成最終的候選區(qū)域。Jin等[18]在SSD框架的基礎(chǔ)上,引入了特征融合層,并在融合后將SE(Squeeze and Excitation)模塊添加到特征提取層,極大地提高了對小型交通標(biāo)志的識別率。YOLO算法于2016年首次提出,其最大的貢獻在于采用S×S網(wǎng)格代替?zhèn)鹘y(tǒng)的目標(biāo)區(qū)域,通過一次回歸同時輸出目標(biāo)的坐標(biāo)和類別概率。Zhang等[19]提出了一種改進的YOLOv2算法,用于交通標(biāo)志識別。為了減少計算量,在網(wǎng)絡(luò)的中間層引入了多個1×1卷積層,并減少了頂部的卷積層。同時,為了檢測小型交通標(biāo)志,采用更密集的網(wǎng)格劃分圖像,以獲得更精細(xì)的特征圖。Sichkar等[20]首先使用YOLOv3將交通標(biāo)志根據(jù)形狀分為4類進行定位,然后使用另一個卷積神經(jīng)網(wǎng)絡(luò)對定位到的交通標(biāo)志進行準(zhǔn)確的分類。在GTSRB數(shù)據(jù)集上進行試驗平均精確度(mean Average Precision, mAP)達到了97.22%。Liu等[21]在 YOLOv5 網(wǎng)絡(luò)中引入了MobileNetV2作為主干網(wǎng)絡(luò),使整個模型的參數(shù)數(shù)量減少了60%,同時mAP提升了0.13百分點。張上等[22]通過對YOLOv5網(wǎng)絡(luò)進行模型裁剪和運算參數(shù)壓縮,并在模型中嵌入了坐標(biāo)注意力機制(Coordinate Attention, CA)和混合域注意力模塊(Convolutional Block Attention Module, CBAM),從而使網(wǎng)絡(luò)的平均精度提升了2.8百分點。
由于交通標(biāo)志檢測中小目標(biāo)占比較大,同時受到背景復(fù)雜和尺寸多樣性因素的影響,本文旨在提高交通標(biāo)志檢測的精度和處理速度,從而提升整體的檢測性能,更好地將交通標(biāo)志檢測用于實際工程應(yīng)用。本文中的算法以YOLOv5s框架為基礎(chǔ)進行改進,改進思路如下:針對當(dāng)前交通標(biāo)志識別算法對于背景復(fù)雜的小目標(biāo)識別效果不佳的問題,提出了一種基于注意力機制的交通標(biāo)志檢測與識別算法。在特征提取主干的C3結(jié)構(gòu)嵌入置換注意力機制(Shuffle Attention,SA)[24],實現(xiàn)同時從空間和通道中增強特征表達。
針對目前目標(biāo)檢測算法在處理圖像中尺寸多變的交通標(biāo)志時存在的特征融合局限性問題,本文提出了加權(quán)特征融合網(wǎng)絡(luò)算法。該算法利用主干網(wǎng)絡(luò)中的同尺寸淺層特征圖,分別與深層的中等和大目標(biāo)檢測層進行加權(quán)融合,以增強多尺寸特征融合能力。
1 YOLOv5s算法
YOLOv5是一種一階段檢測算法,相比于二階段算法,具有出色的實時性能。此外,YOLOv5在一階段檢測算法中表現(xiàn)出較高的檢測精度,特別是在小目標(biāo)檢測方面。該算法提供了4種網(wǎng)絡(luò)模型,分別是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。其中,YOLOv5s具有最簡單的網(wǎng)絡(luò)結(jié)構(gòu)和最快的目標(biāo)檢測速度,而其他3種模型則在此基礎(chǔ)上逐漸增加了網(wǎng)絡(luò)的深度和寬度,雖然提高了準(zhǔn)確性,但檢測速度也隨之降低。因此,本文選擇YOLOv5s算法作為交通標(biāo)志檢測的基礎(chǔ)模型。
YOLOv5s網(wǎng)絡(luò)模型主要由輸入預(yù)處理(Input Preprocessing)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和輸出處理(Head)4個部分組成。輸入預(yù)處理部分采用了自適應(yīng)圖像填充和馬賽克(Mosaic)數(shù)據(jù)增強。Mosaic數(shù)據(jù)增強通過將4張圖片隨機裁剪、旋轉(zhuǎn)、縮放等方式隨機排放組成1張圖像,這種數(shù)據(jù)增強方式能夠有效提高小目標(biāo)檢測精度,同時降低訓(xùn)練資源消耗。此外,還采用了自適應(yīng)錨框設(shè)計,更好地解決了不同數(shù)據(jù)集中目標(biāo)大小不同的問題,為數(shù)據(jù)集提供了更合適的預(yù)設(shè)錨框。主干網(wǎng)絡(luò)主要由Focus結(jié)構(gòu)[25]和C3模塊構(gòu)成,其中Focus結(jié)構(gòu)的切片操作可以在不損失圖像信息的前提下,降低圖像分辨率,而C3模塊則由3個Conv模塊和1個瓶頸(Bottleneck)模塊組成,其中Bottleneck包含2個Conv,實施先降維、后升維操作,以理解和獲取更多詳細(xì)的特征信息。頸部網(wǎng)絡(luò)采用了路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)[26],旨在實現(xiàn)對多尺度目標(biāo)的準(zhǔn)確定位和識別能力。輸出處理的3個分支分別用于大、中、小目標(biāo)的檢測輸出。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2 改進的YOLOv5s算法
在原YOLOv5s算法基礎(chǔ)上進行了改進,在主干網(wǎng)絡(luò)末端的C3層中嵌入置換注意力機制,構(gòu)造特征增強模塊C3SA,如圖3左下角所示。在加權(quán)特征融合階段,將用于檢測中等和大目標(biāo)的輸出頭與主干淺層同尺寸的特征進行加權(quán)融合,(圖3兩條連接WPANet模塊的加粗間斷線)。改進后的YOLOv5s算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
2.1 嵌入注意力機制模塊
在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,注意力機制是提升學(xué)習(xí)性能的重要組成部分。交通標(biāo)志的特征提取關(guān)鍵環(huán)節(jié)在于網(wǎng)絡(luò)的主干部分,因此本文將置換注意力機制嵌入網(wǎng)絡(luò)的主干部分。
在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域,注意力機制主要分為通道注意力和空間注意力2大類。通道注意力強調(diào)不同特征通道的重要性差異,而空間注意力則集中于特征圖中不同位置的信息重要性。盡管CBAM[16]成功地將這2種注意力融合,以此獲得了取得了較好的性能,但是存在計算量大和收斂困難等問題。
SA注意力模塊通過采用洗牌方式同時結(jié)合了通道和空間注意力,見圖4。首先,在每個注意力單元開頭,對輸入的特征圖在通道維度上進行分組,形成多個子特征組,即[X1,…,XG],其中Xk∈ RC/G×H×W(C、H、W、G分別表示通道數(shù)、空間高度、空間、寬度和分組數(shù))。每個分支再進一步沿通道維度劃分為2個部分,即[Xk1]、[Xk2]∈ RC/2G×H×W,分別用于生成通道注意力圖和空間注意力圖,然后,將2條分支按通道數(shù)相加,實現(xiàn)分支的融合,最后,聚合所有的分組子特征,利用“通道置換”(Channel Shuffle)算子,隨機置換不同通道之間的信息,從而實現(xiàn)不同子特征之間的通信,有效結(jié)合通道和空間注意力。
通道注意力機制為了捕獲更豐富的通道信息并平衡計算速度的影響,采用全局平均池化(Global Averaging Pooling, GAP)的方式,計算通道統(tǒng)計量s:
[s=FgpXk1=1H×Wi=1H j=1w Xk1(i,j)] ? ? ? ? ? (1)
式中:s∈RC/2G×1×1;[Fgp]為全局平均池化函數(shù);[Xk1]為子特征Xk的通道注意力分支,[Xk1]∈RC/2G×H×W;C、H、W、G分別為空間高度、空間、寬度和分組數(shù)。
此外,通道注意力為了選擇的精確性及自適應(yīng)性,利用門控機制對[Xk1]進行處理,該機制采用sigmoid激活函數(shù),最終輸出的計算公式如下:
[X'k1=σFc(s)?Xk1=σW1s+b1?Xk1] ? ? ? ? ? (2)
式中:[σ]是激活函數(shù),[Fc(?)]為線性函數(shù),W1∈RC/2G×1×1和b1∈RC/2G×1×1分別用于縮放和移位統(tǒng)計量s。
在空間注意力分支中,采用群范數(shù)(Group Norm, GN)獲取空間特征,然后通過全連接層[Fc(?)]進行線性變換和激活函數(shù)處理以增強這些特征。最終,空間注意力的輸出計算公式如下:
[X'k2=σW2?GNXk2+b2?Xk2] ? ? ? ? ? ? ? ?(3)
式中:W2∈RC/2G×1×1和b2∈RC/2G×1×1是形狀為RC/2G×1×1的參數(shù),GN為群范數(shù),[Xk2]為子特征Xk的空間注意力分支,[Xk2]∈RC/2G×H×W。
最后,將空間和通道2個注意力分支進行連接,使得通道數(shù)與輸入相同,如式(4)所示。利用通道置換算子,使得每個分支的特征信息能夠沿通道跨分支流動。
[X'k=X'k1,X'k2∈RC/G×H×W] ? ? ? ? ? ? ? ? ? ? ? (4)
本文將置換注意力SA模塊嵌入到C3模塊中,進行先降維、后升維卷積操作后,形成特征增強模塊C3SA,如圖5所示。由于關(guān)鍵特征提取在主干部分進行,因此特征增強模塊被放置在主干的末端位置。
2.2 加權(quán)特征融合模塊
在目標(biāo)檢測中,深度網(wǎng)絡(luò)的進一步發(fā)展可以增強模型的語義特征提取能力。然而,隨著網(wǎng)絡(luò)深度增加,輸出特征圖尺寸縮小且圖像細(xì)節(jié)特征有限,對于小目標(biāo)檢測可能存在瓶頸。相反,淺層網(wǎng)絡(luò)能更有效地捕獲豐富的細(xì)節(jié)信息,但缺乏足夠的語義信息,影響模型在物體分類上的準(zhǔn)確性。
為了克服這些限制,學(xué)術(shù)界開始探索結(jié)合深層和淺層特征的方法,以提取更全面且豐富的特征表示。目前流行的多尺度特征融合架構(gòu)包括特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks, FPN)[28]、路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)[26]、加權(quán)雙向特征金字塔網(wǎng)絡(luò)(Bi-directional Feature Pyramid Network, BiFPN)[29],這些架構(gòu)設(shè)計在提升檢測性能方面展現(xiàn)了極大的潛力。
如圖6a所示,F(xiàn)RN通過自頂向下傳遞強語義信息,將深層特征與淺層特征進行融合。然而,F(xiàn)PN結(jié)構(gòu)也存在一些缺陷,它更傾向于關(guān)注相鄰層的特征,而深層特征經(jīng)過多次下采樣傳遞后可能喪失語義信息。為了解決這個問題,PANet同時采用自上而下和自下而上2條路徑進行特征融合(見圖6b)。這種結(jié)構(gòu)縮短信息傳遞的路徑,有效地避免FPN中可能發(fā)生的語義信息喪失情況,但增加了計算開銷。
在2020年,Tan[29]基于PANet提出BiFPN(見圖6c),并帶來以下改進:首先,刪除只有單輸入的節(jié)點,因為這些節(jié)點對特征融合沒有貢獻,只會增加計算量;其次,添加跳躍連接,即在同一水平上從原始輸入到輸出節(jié)點添加額外的邊,以便在不增加太多成本的情況下融合更多特征;再次,將每個由自頂向下和自底向上形成的雙向路徑視為一個網(wǎng)絡(luò)層,對這些網(wǎng)絡(luò)層進行多次重復(fù),實現(xiàn)更高級的特征融合;最后,根據(jù)不同的輸入對最終特征的貢獻度,為每個輸入分配不同的權(quán)重,以調(diào)整不同特征輸入在輸出中的比例,并在網(wǎng)絡(luò)訓(xùn)練中實時地調(diào)整這些權(quán)重。
原始的YOLOv5s模型使用FPN+PAN結(jié)構(gòu)進行頸部網(wǎng)絡(luò)特征融合,形成自頂向下和自底向上的雙向路徑。然而,這種處理方式相對較簡單,特征的融合還有進一步優(yōu)化的空間。受到加權(quán)特征金字塔網(wǎng)絡(luò)的啟發(fā),本節(jié)提出將BiFPN的設(shè)計思想應(yīng)用到Y(jié)OLOv5s的多尺度特征融合部分,提出加權(quán)特征融合網(wǎng)絡(luò)(Weighted Path Aggregation Network, WPANet)。
首先,添加跳躍連接。當(dāng)特征融合層存在多個融合節(jié)點時,在同一層不同的節(jié)點之間添加多條特征傳輸邊。這樣,網(wǎng)絡(luò)能夠在增加少量參數(shù)和計算量的情況下融合更多的特征信息,如圖6d所示的P4標(biāo)注的間斷線。
其次,增加特征融合。在YOLOv5s的設(shè)計中,檢測頭部署在網(wǎng)絡(luò)的深層位置,使其能夠接觸到豐富的語義信息。然而,隨著特征層級的深入,淺層的關(guān)鍵位置信息容易丟失,而這些信息對于提升檢測的準(zhǔn)確性至關(guān)重要。為應(yīng)對這一挑戰(zhàn),本文創(chuàng)新性地將淺層特征與深層的檢測輸出進行緊密融合。特別地,在網(wǎng)絡(luò)的早期階段,主干特征層會產(chǎn)生逐步縮小尺寸的特征圖,其中一些特征圖的大小正好與檢測層的輸出匹配。因此,本文選擇20×20的主干特征圖,與負(fù)責(zé)大尺寸目標(biāo)的檢測層P5融合,以此增強對小型目標(biāo)邊緣信息的捕獲。這種融合策略與BiFPN中消除單一節(jié)點的方法存在顯著的差異(P5標(biāo)注的虛線),見圖6d。
最后,加權(quán)分參。在合并不同分辨率的多尺度特征方面,以往的一些目標(biāo)檢測算法常常將每個層級輸出的特征信息等同對待,并通過上采樣或下采樣的方式將它們的尺寸調(diào)整為一致后再進行相加。然而,近年來的研究發(fā)現(xiàn),不同分辨率的輸入特征對于輸出特征的影響并不相同。為了提高算法的魯棒性和增強網(wǎng)絡(luò)的特征融合能力,本文引入了注意力的思想,為每個層級輸出的特征信息引入了一個超參數(shù)。這種方法使網(wǎng)絡(luò)能夠?qū)W習(xí)到不同層級特征的重要程度,從而更好地優(yōu)化特征的融合過程。對于傳統(tǒng)的PANet,它以簡單的求和方式聚合多尺度特征。
[Pout 4=Conv Ptd 4+Resize Pout 3] ? ? ? ? ? ? (5)
[Pout 5=Conv Ptd5+Resize Pout 4] ? ? ? ? ? ? ? (6)
式中:[Pout3]、[Pout4]、[Pout5]分別代表輸出特征信息,[Ptd4]、[Ptd5]分別代表輸入特征信息,如圖6b所示;Resize使用上采樣或者下采樣來調(diào)整特征圖的分辨率,使得不同輸入尺度的特征圖分辨率相匹配;Conv是對求和后的特征圖使用卷積操作來提取新的特征。
針對WPANet,采用加權(quán)特征融合的方法來整合不同分辨率的輸入特征圖層。不同分辨率的輸入層對應(yīng)的權(quán)重也不同。通過網(wǎng)絡(luò)自動學(xué)習(xí)每個輸入層的權(quán)重參數(shù),可以更好地表示整體特征信息。對于P4和P5輸出部分,分別進行快速歸一化融合,具體計算如下:
[Pout4=Conv w'1?Pin4+w'2?Ptd4+w'3?Resize Pout3w'1+w'2+w'3+?] ?(7)
[Pout 5=Conv w'1?Pin 5+w'2?Ptd5+w'3?Resize Pout4w'1+w'2+w'3+?] ?(8)
式中:[Pin4]、[Pin5]分別代表新增輸入特征信息如圖6d虛線所示。[w'1]為當(dāng)前層輸入的權(quán)重;[w'2]為當(dāng)前層中過渡單元輸出的權(quán)重;[w'3]為前一層輸出的權(quán)重;[?]為一個超參數(shù),用于防止梯度消失;Conv表示對整體計算結(jié)果的卷積運算。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集
為了驗證算法效果,本文選用了中國交通標(biāo)志檢測數(shù)據(jù)集2021(CCTSDB)[30]。數(shù)據(jù)集包含16 356張圖片,分辨率在1 000×350至1 024×768之間。圖片覆蓋了各種尺度、光照和噪聲等影響因素的變化,標(biāo)注了強制(Mandatory)、禁止(Prohibitory)和警告(Warning)3大類標(biāo)志(圖7)。在實驗中,按照隨機8∶2的比例將數(shù)據(jù)集劃分為訓(xùn)練集和驗證集。
3.2 實驗環(huán)境
本文實驗使用CCTSDB 2021交通標(biāo)志數(shù)據(jù)集,其中圖像尺寸為640×640。網(wǎng)絡(luò)參數(shù)設(shè)置如下:批量大小(每次輸入神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練的樣本數(shù)量)設(shè)為32,權(quán)重衰減參數(shù)(momentum)設(shè)為0.98,衰減系數(shù)(decay)設(shè)為0.001,訓(xùn)練迭代輪數(shù)設(shè)為200,學(xué)習(xí)速率設(shè)為0.001。計算機設(shè)備采用Linux服務(wù)器,詳細(xì)試驗訓(xùn)練環(huán)境配置參數(shù)如表1所示。
3.3 評價指標(biāo)
常用的交通標(biāo)志檢測與識別方法通常mAP和每秒的檢測幀數(shù)(Frames Per Second, FPS)為主要評價指標(biāo)。其中,mAP用于衡量平均檢測精度,而FPS則代表模型對圖像數(shù)據(jù)的處理速度,F(xiàn)PS值越大表示模型處理圖像的速度越快。在不同閾值的條件下,mAP會有不同的定義形式。在目標(biāo)檢測中,最常見的是mAP@0.5和mAP@[.5:.95]這2個指標(biāo)。本文選用的是mAP@0.5,表示在目標(biāo)檢測任務(wù)中,當(dāng)交并比(IoU)達到0.5時所有類別的平均精度。此外,本文還使用精確度(Precision,P)和召回率(Recall,R)等指標(biāo)作為實驗的輔助評價標(biāo)準(zhǔn),其具體計算公式如下:
[P= TPTP+FP] ? ? ? ? ? ? ? ? ? ? ? ? ? ? (9)
[R= TPTP+FN] ? ? ? ? ? ? ? ? ? ? ? ? ? (10)
[AP= 01PdR] ? ? ? ? ? ? ? ? ? ? ? ? ? ? (11)
[mAP= 1ni=1nAPi] ? ? ? ? ? ? ? ? ? ? ? (12)
式中:P為精度,R為召回率,TP、FP、FN分別為預(yù)測為正樣本且實際為正樣本、預(yù)測為正樣本實際為負(fù)樣本、預(yù)測為負(fù)樣本實際為正樣本,其中n為樣本類別數(shù)量,本文中取值為3。
3.4 消融實驗
本實驗在基于3.2章節(jié)相同環(huán)境配置下,通過在CCTSDB 2021交通標(biāo)志數(shù)據(jù)集上進行200輪訓(xùn)練,對4種網(wǎng)絡(luò)模型(YOLOv5s、YOLOv5s_C3SA、YOLOv5s_WPANet、YOLOv5s_C3SA+WPANet)進行了評估,訓(xùn)練損失函數(shù)的示意如圖8所示。由圖8可知,在訓(xùn)練的初期階段,損失函數(shù)曲線迅速下降。隨著訓(xùn)練次數(shù)達到約40輪,各網(wǎng)絡(luò)模型的損失值逐漸趨于穩(wěn)定,并最終穩(wěn)定在大約0.024的水平。其中,代表YOLOv5s_C3SA+WPAN的橙色損失函數(shù)曲線在整個訓(xùn)練階段基本都位于其他曲線的下方,表現(xiàn)出最優(yōu)的性能。
消融實驗結(jié)果對比如表2所示。根據(jù)表中的不同網(wǎng)絡(luò)模型參數(shù)和測試結(jié)果,可以得出以下結(jié)論:相較于YOLOv5s、YOLOv5s_C3SA和YOLOv5s_WPANet模型,本文提出的YOLOv5s_C3SA+WPANet(即改進后算法)在mAP方面分別提升了2.8個百分點、1個百分點和0.9個百分點。在精確度方面,分別提升了0.5個百分點、0.7個百分點和0.5個百分點;召回率方面分別提升了3.6個百分點、0.6個百分點和1.1個百分點。尤其重要的是,改進后的模型在檢測速度方面基本保持不變,達到了123.46幀/s。這一速度已足夠滿足實際情況下對模型實時性的要求,從而證明了改進后模型的有效性。
為了驗證置換注意力機制的有效性,本文還與其他注意力機制進行了橫向比較。由于置換注意力機制兼具同時處理通道和空間信息的特點,其檢測精度優(yōu)于其他2種機制。前文已經(jīng)提到,輕量化的置換注意力機制在檢測速度方面優(yōu)于混合域注意力機制[24]。本文將置換注意力機制與坐標(biāo)注意力機制(CA)[27],在相同位置以相同形式分別嵌入YOLOv5s模型,進行對比實驗,結(jié)果見表3。嵌入注意力機制的2種算法相比于原YOLOv5s算法,檢測精度均有明顯提升。實驗YOLOv5s_C3SA網(wǎng)絡(luò)模型相對于YOLOv5s_C3CA網(wǎng)絡(luò)模型在檢測精度和檢測速度方面表現(xiàn)出一定優(yōu)勢,而在精確度和召回率方面,分別提升了1.1個百分點和0.4個百分點,因此,本文采用置換注意力機制。
為深入研究改進后的網(wǎng)絡(luò)模型在所有類別上的檢測效果,本文整理了模型在不同類別上的對比結(jié)果,見表4。相對于原始的YOLOv5s網(wǎng)絡(luò)模型,改進后的網(wǎng)絡(luò)模型mAP提升顯著:在強制、禁止和警告標(biāo)志類別上,分別提高了1.9個百分點、3.3個百分點和3個百分點。在精確度方面,與原始模型相比,改進后的網(wǎng)絡(luò)模型在強制標(biāo)志上略微下降了1.5個百分點,在禁止標(biāo)志上提升了3個百分點,而在警告標(biāo)志類別上保持穩(wěn)定。在召回率指標(biāo)上,改進后的網(wǎng)絡(luò)模型在強制、禁止和警告標(biāo)志類別分別提升了3.7個百分點、2.9個百分點和4.1個百分點。通過這些數(shù)據(jù)可以看出,改進后的網(wǎng)絡(luò)模型明顯提升了在各類交通標(biāo)志上的檢測效果。
3.5 與主流算法對比實驗
將經(jīng)過優(yōu)化的網(wǎng)絡(luò)模型Ours與現(xiàn)有主流模型如SSD、Faster R-CNN,以及早期版本的YOLO進行對比。根據(jù)表5中展示的實驗結(jié)果,優(yōu)化后的網(wǎng)絡(luò)模型在檢測速度方面雖比原始的YOLOv5s略微下降,但在平均精度、準(zhǔn)確度和召回率指標(biāo)上均表現(xiàn)出顯著優(yōu)勢。綜合考慮,本文提出的算法能夠更準(zhǔn)確地識別CCTSDB 2021數(shù)據(jù)集中的交通標(biāo)志,進而有助于提升交通的安全水平。此外,改進后的模型能夠滿足實時應(yīng)用場景對實時性的關(guān)鍵要求。
3.6 檢測效果對比
本節(jié)選取了CCTSDB數(shù)據(jù)集中的幾類特殊圖片,包括大霧、雪天、夜晚逆光和雨天夜晚條件下的交通標(biāo)志,進行了識別效果對比,結(jié)果如圖9所示。
在大霧條件下(見圖9a、圖9b),改進后算法相較于原算法(YOLOv5s)在識別禁止標(biāo)志時置信度提高了21%。在雪天環(huán)境下(見圖9c、圖9d),改進后算法相較于原算法在識別警告標(biāo)志時置信度提高了7%。在夜晚逆光的情況下(見9e、圖9f),改進后算法相較于原算法在識別強制標(biāo)志時置信度提高了5%。在雨天夜晚的情況下(見圖9g、圖9h),改進后的算法相較于原算法在識別禁止標(biāo)志時置信度提高了5%。這些結(jié)果表明,即使在特殊復(fù)雜的環(huán)境下,改進后算法仍能夠保持較高的精度,具有一定的魯棒性。
4 結(jié)束語
針對交通標(biāo)志檢測中存在的目標(biāo)小、尺寸多樣等難題,本文在YOLOv5s的基礎(chǔ)上進行了改進。首先,利用特征增強模塊C3SA提高對關(guān)鍵區(qū)域的聚焦能力;其次,采用加權(quán)融合網(wǎng)絡(luò)增強多尺寸特征的融合能力。改進后算法在精度上改善了交通標(biāo)志檢測的效果。通過消融試驗和對比試驗分析,證明了本文改進后算法在檢測精度上有一定的提升,并且檢測速度上能夠達到實時性要求。未來的研究可以圍繞將算法優(yōu)化應(yīng)用于嵌入式工程應(yīng)用中的交通標(biāo)志識別。
參 考 文 獻
[1] AKATSUKA H, IMAI S. Road Signposts Recognition System[J]. SAE Transactions, 1987, 96(1): 936-943.
[2] BARNES N, ZELINSKY A, FLETCHER L S. Real-Time Speed Sign Detection Using the Radial Symmetry Detector[J]. IEEE Transactions on Intelligent Transportation Systems, 2008, 9(2): 322-332.
[3] 湯凱, 李實英, 劉娟, 等. 基于多特征協(xié)同的交通標(biāo)志檢測[J].計算機工程, 2015, 41(3): 211-217.
[4] QIAN R, ZHANG B, YUE Y, et al. Traffic Sign Detection By Template Matching Based on Multi-level Chain Code Histogram[C]// 2015 12th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD). Zhang Jia jie, China: IEEE, 2015.
[5] HE X, DAI B. A New Traffic Signs Classification Approach Based on Local and Global Features Extraction[C]// 2016 6th International Conference on Information Communication and Management (ICICM). Hatfield, UK: IEEE, 2016.
[6] ZOU Z, CHEN K, SHI Z, GUO Y, et al. Object Detection in 20 Years: A Survey[J]. Proceedings of the IEEE, 2023, 111(3): 257-276.
[7] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014.
[8] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile, USA: IEEE, 2015.
[9] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[10] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016.
[11] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017.
[12] REDMON J, FARHADI A. YOLOv3: An Incremental Improvement[J/OL]. arXiv e-prints, 2018[2024-04-26]. https://arxiv.org/pdf/1804.02767.
[13] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[J/OL]. arXiv, 2020[2024-04-25]. https://arxiv.org/abs/2004.10934.
[14] WEI L, DRAGOMIR A, DUMITRU E, et al. SSD: Single Shot MultiBox Detector[C]// 14th European Conference Amsterdam, The Netherlands: ECCV, 2016.
[15] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J/OL]. arXiv[2015-04-10](2024-05-21) https://doi.org/10.48550/arXiv.1409.1556.
[16] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[J/OL]. arXiv[2018-01-18](2024-05-21) https://doi.org/10.48550/arXiv.1807.06521.
[17] YANG T, LONG X, SANGAIAH A K, et al. Deep Detection Network for Real-Life Traffic Sign in Vehicular Networks[J]. Computer Networks, 2018, 13(6): 95-104.
[18] JIN Y, FU Y, WANG W, et al. Multi-Feature Fusion and Enhancement Single Shot Detector for Traffic Sign Recognition[J]. IEEE Access, 2020, 8: 38931-38940.
[19] ZHANG Z, WANG H, ZHANG J, et al. A Vehicle Real-time Detection Algorithm Based on YOLOv2 Framework[C]// Real-Time Image and Video Processing, 2018.
[20] SICHKAR V N, KOLYUBIN S A. Real Time Detection and Classification of Traffic Signs Based on YOLO Version 3 Algorithm[J]. Scientific and Technical Journal of Information Technologies Mechanics and Optics, 2020, 20(3): 418-424.
[21] LIU X, JIANG X K, HU H C, et al. Traffic Sign Recognition Algorithm Based on Improved YOLOv5s[C]//Proceedings of the 2021 International Conference on Control, Automation and Information Sciences (ICCAIS). Xian: IEEE, 2021: 980-985
[22] 張上, 王恒濤, 冉秀康. 基于YOLOv5的輕量化交通標(biāo)志檢測方法[J]. 電子測量技術(shù), 2022, 45(8): 129-135.
[23] 胡昭華, 王瑩. 改進YOLOv5的交通標(biāo)志檢測算法[J].計算機工程與應(yīng)用, 2023, 59(1): 82-91.
[24] ZHANG Q L, YANG Y B. SA-Net: Shuffle Attention for Deep Convolutional Neural Networks[C]//Proceedings of 2021 IEEE International Conference on Acoustics. Toronto, Canada: IEEE, 2021: 2235-2239.
[25] TIAN Z, SHEN C, CHEN H, et al. Focus: Fully Convolutional One-Stage Object Detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 9627-9636.
[26] LIU S, QI L, QIN H, et al. Path Aggregation Network for Instance Segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018.
[27] HOU Q, ZHOU D, FENG J. Coordinate Attention for Efficient Mobile Network Design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA: IEEE, 2021.
[28] LIN T Y, DOLL?R P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: 2017.
[29] TAN M, LE Q V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[C]//Proceedings of the IEEE International Conference on Intelligent Transportation Systems, 2015, 17(7): 2022-2031.
[30] ZHANG J, ZOU X, LI D K, et al. CCTSDB 2021: A More Comprehensive Traffic Sign Detection Benchmark[J]. Human-centric Computing and Information Sciences, 2022, 12: 23.
(責(zé)任編輯 明慧)