基于YOLOv5的道路目標(biāo)檢測算法研究

2023-01-13 11:57:30王玉林焦博文王洪昌于奕軒

計算機工程與應(yīng)用 2023年1期

王鵬，王玉林，焦博文，王洪昌，于奕軒

青島大學(xué) 機電工程學(xué)院，山東青島 266071

近年來，隨著社會科技的不斷發(fā)展，特別是在車輛和交通領(lǐng)域近幾十年取得飛躍性的發(fā)展，伴隨著人工智能與汽車交通之間相互融合，使得汽車交通也不斷向智能化發(fā)展，給人們的日常生活帶來了諸多便利。深度學(xué)習(xí)作為一個實現(xiàn)人工智能的重要方法，其在圖像目標(biāo)檢測、語音識別、文字識別等領(lǐng)域得到十分廣泛的應(yīng)用，而目標(biāo)檢測也被廣泛應(yīng)用于自動駕駛、人臉識別和行人檢測等諸多領(lǐng)域。目標(biāo)檢測也是近十來年一個特別活躍的研究方向，其主要的功能為檢測出圖像視野內(nèi)的所出現(xiàn)的既定目標(biāo)類別和目標(biāo)所在位置[1]。等一系列信息。檢測精度作為目標(biāo)檢測的一個重要評價標(biāo)準(zhǔn)，經(jīng)過許多學(xué)者多年卓有成效的努力，檢測精度也在不斷地提升，但在一些復(fù)雜的交通場景下，檢測準(zhǔn)確度也不盡如人意，例如在擁堵的交通路段由于車輛間彼此距離特別近出現(xiàn)被檢測目標(biāo)相互遮擋，導(dǎo)致在進(jìn)行車輛目標(biāo)檢測時，往往會出現(xiàn)漏檢、重檢、誤檢等諸多問題，造成檢測精度下降問題，此外當(dāng)拍攝視野處于逆光或是目標(biāo)車輛處于光線陰暗環(huán)境之中也會增加目標(biāo)檢測的難度。

隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展，目標(biāo)檢測在汽車行業(yè)內(nèi)也得到廣泛應(yīng)用，經(jīng)過眾多研究者以及科研機構(gòu)的不懈努力，現(xiàn)在自動駕駛領(lǐng)域也眾多較為完備的數(shù)據(jù)集，為自動駕駛的研究發(fā)展提供了寶貴資源，如TUDBrussels Pedestrian[2]、City Persons[3]、KITTI[4]、BDD100K[5]、LyftLevel-5[6]、Apollo Scape[7]、SODA10M[8]等。與此同時目標(biāo)檢測的深度學(xué)習(xí)架構(gòu)和檢測算法也取得快速發(fā)展，目前主流的檢測算法主要分為兩類：一種是以YOLO[9]、SSD[10]為代表的單階段目標(biāo)檢測算法；另一種是以R-CNN[11]、Faster R-CNN[12]等為代表的兩階段目標(biāo)檢測算法。兩階段算法的候選框生成主要是在特征圖上通過卷積操作生成一系列的候選框，然后通過各種選擇算法篩選最終的候選框，雖然這種方法具有較高的檢測精度，但由于其繁重的工作量造成檢測時間比較長，對檢測設(shè)備的算力要求也比較高，往往在實時性要求高、計算速度快、算力受限的邊沿計算應(yīng)用場景中受到很大的限制。相比于兩階段檢測算法單階段檢測算法主要是通過回歸的方式進(jìn)行目標(biāo)檢測，省略了生成大量候選框這一過程，大大提高了檢測速度，但是其就檢測精度而言，其稍慢于兩階段檢測算法一籌。因此檢測精度和檢測時間在目標(biāo)檢測的研究過程中是一種相互矛盾、此消彼長的關(guān)系，所以長期以來眾多學(xué)者一直在研究一種好的檢測方法，在滿足檢測實時性的前提下盡可能提高其檢測準(zhǔn)確度。

本文主要以YOLOv5檢測框架[13]為基礎(chǔ)，針對自動駕駛在復(fù)雜的道路交通場景問題（如：擁堵路段、光線偏暗等）對交通車輛進(jìn)行檢測。為了提高網(wǎng)絡(luò)在道路目標(biāo)檢測任務(wù)中的檢測精度，對網(wǎng)絡(luò)模型融入PANet路徑聚合網(wǎng)絡(luò)和注意力機制，對目標(biāo)框回歸損失函數(shù)IOU算法進(jìn)行優(yōu)化，通過實驗測試可以良好地適應(yīng)于道路車輛的檢測過程并取得良好的檢測結(jié)果。

1 網(wǎng)絡(luò)架構(gòu)

2015年，Redmon等人[9]提出YOLOv1這一經(jīng)典的一階段檢測算法拉開了YOLO檢測家族序幕。近些年來，YOLO系列不斷推陳出新，推出了YOLOv2[14]、YOLOv3[15]、YOLOv4[16]、YOLOv5[13]，其檢測性能也在不斷提升。YOLO將以往Faster R-CNN[12]在目標(biāo)檢測問題中的目標(biāo)分類和目標(biāo)位置回歸兩個問題統(tǒng)一為回歸問題，大大減少了計算算力，并提高了檢測速度，但是YOLO從v1到v5的發(fā)展歷程中，其檢測精度雖然檢測精度也不斷上升，可在某些復(fù)雜場景下進(jìn)行目標(biāo)檢測存在誤差，主要原因是在實際應(yīng)用中當(dāng)輸入圖像的尺寸較大時，對于一些比較小的目標(biāo)感知不到，導(dǎo)致網(wǎng)絡(luò)模型的檢測性能下降。

針對上述問題，本文對原YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了如圖1所示的改進(jìn)，本文在將原有SPP結(jié)構(gòu)改為SPPF結(jié)構(gòu)的基礎(chǔ)上引入一個自底向上的路徑聚合網(wǎng)絡(luò)（PANet），并在FPN和PANet的C3模塊中引入了注意力機制用以增強特征圖中目標(biāo)的感知能力，并且本文又在YOLOv5三個YOLO檢測器的基礎(chǔ)上增加了一個YOLO檢測頭用以提高網(wǎng)絡(luò)整體對行車視野內(nèi)小目標(biāo)的檢測能力。

圖1 改進(jìn)的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of improved YOLOv5

1.1 從SPP到SPPF

在YOLOv5_6.0網(wǎng)絡(luò)結(jié)構(gòu)中，其將原來的SPP結(jié)構(gòu)改為了SPPF結(jié)構(gòu)（如圖2所示），原來SPP使用池化核大小分別為5×5、9×9、13×13，步長為1的最大池化并行的方法對圖像特征進(jìn)一步融合，在一定程度上可以解決多尺度目標(biāo)融合的問題。而SPPF用多個池化核大小為5×5，步長為1的最大池化串行的方法代替了SPP結(jié)構(gòu)中多個最大池化并行方法，其可以到達(dá)與SPP完全相同的計算結(jié)果。通過本文對兩種結(jié)構(gòu)進(jìn)行試驗，即隨機產(chǎn)生一組大小為[8，128，64，64]隨機數(shù)，然后讓其分別通過這兩種結(jié)構(gòu)，并對此過程迭代計算100輪，對其所需的運算速度進(jìn)行計算比較，實驗運算時間如表1所示，可以發(fā)現(xiàn)SPPF運算速度遠(yuǎn)快于SPP，這說明SPPF和SPP兩種結(jié)構(gòu)在具有完全相同的輸出結(jié)果的條件下，SPPF具有更快的運算速度。

圖2 SPP網(wǎng)絡(luò)與SPPF網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structures of SPP and SPPF

表1 SPP與SPPF運算速度對照Table 1 Comparison of SPP and SPPF operation speed

1.2 引入PANet結(jié)構(gòu)

為提高本文模型的整體檢測性能，本文在YOLOv5原有特征金字塔網(wǎng)絡(luò)（FPN）的基礎(chǔ)之上引入了如圖3所示的路徑增強網(wǎng)絡(luò)PANet[17-18]。PANet創(chuàng)建的自底向上的路徑擴充網(wǎng)絡(luò)，其遵循FPN結(jié)構(gòu)的定義方法，生成具有相同空間大小的特征圖的圖層處于相同的網(wǎng)絡(luò)階段。本文以原YOLOv5的主干網(wǎng)絡(luò)和FPN為基礎(chǔ)結(jié)構(gòu)，用{B1,B2,B3,B4}表示主干網(wǎng)絡(luò)的特征級別，用{P1,P2,P3,P4}表示FPN的特征級別。本文從低級別的P1開始進(jìn)行路徑擴充，逐級接近P4，本文使用{N1,N2,N3,N4}來表示對應(yīng)于{P1,P2,P3,P4}的新生成的特征映射，其中P1對N1不進(jìn)行處理。

圖3 PANet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 PANet network structure

如圖4所示，對于每個新生成的特征Ni+1而言，PANet通過將具有高分辨率的特征映射Ni和較低分辨率特征Pi+1在第1個維度上進(jìn)行拼接得到。對每個特征映射Ni先通過一個卷積核大小為3×3，步長為2的卷積層，以減小空間大小。然后通過與特征Pi+1在第1個維度拼接進(jìn)行特征融合。融合后的特征相繼送入圖1中的C3CA模塊和C3模塊進(jìn)行處理，得到生成后續(xù)子網(wǎng)絡(luò)的Ni+1。通過這一迭代過程，直到生成PANet網(wǎng)絡(luò)所有的特征映射。最后，從{N1,N2,N3,N4}中接出4個尺度不同的YOLO檢測頭，對特征圖中不同尺度的目標(biāo)進(jìn)行檢測。

圖4 路徑增強構(gòu)建塊圖示Fig.4 Illustration of path enhancement building blocks

1.3 注意力機制

注意力機制類似于將人在觀察事物時的方式感知和注意力這一行為應(yīng)用到機器學(xué)習(xí)之中，讓計算機去學(xué)習(xí)所接受的圖像中重要和不重要的信息特征，其已經(jīng)被廣泛應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)之中。以往將注意力機制應(yīng)用于一些輕量級網(wǎng)絡(luò)上時，通道注意力可以對模型性能有著比較顯著提升，這是由于其更為關(guān)注特征圖中一些重要的目標(biāo)表征信息，提高了特征提取過程中對目標(biāo)位置信息的關(guān)注度，而丟失了部分不重要的信息，使得在目標(biāo)特征提取過程中減少部分噪聲影響，提高了目標(biāo)檢測精度。目前主流注意力機制主要有：SENet提出的SE attention[19]、CBAM[20]、coordinate attention（CA）[21]等，其中SE模塊采用全局池化的方法計算通道注意力，但其只考慮到了通道間信息的編碼問題而忽視了位置信息的重要性，對于眾多目標(biāo)檢測任務(wù)而言目標(biāo)的位置信息卻十分重要。CBAM作為一種空間與通道相結(jié)合的注意力機制模塊，通過減少通道數(shù)進(jìn)而使用大尺寸卷積來利用位置信息，然而卷積只能感受到捕獲區(qū)域局部特征的相關(guān)性。

CA注意力機制網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其將位置信息嵌入到通道注意力中，不同于通道注意力的方法，其將通道注意力分解為兩個不同方向聚合特征進(jìn)行特征編碼，其好處在于沿一個方向捕獲長程依賴，沿另一個空間方向保留精確的位置信息，將生成的特征圖分別編碼，形成一對方向感知和位置信息的特征圖，獲得方向信息和位置感信息，以增強特征圖中準(zhǔn)確定位和識別感興趣的目標(biāo)。全局池化方法一般用在通道注意力用以編碼空間信息。但位置信息卻難以保存，為了提升注意力模塊對位置信息的長程依賴，CA將全分局池化變?yōu)橐痪S編碼過程。首先，其用池化核大小為(H,1)和(1,W)沿水平和垂直兩個方向?qū)γ總€通道進(jìn)行編碼操作，其中高度h第c個通道的輸出為公式（1）所示，同理在寬度w第c個通道的輸出為公式（2）所示。

圖5 CA注意力機制網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of CA attention mechanism

公式（1）和（2）變換分別沿兩個空間方向聚合特征，生成一對方向感知特征映射。這與產(chǎn)生單一特征向量的通道注意方法中擠壓操作有很大不同。這兩種轉(zhuǎn)換還允許其注意力沿著一個空間方向捕捉長期依賴，并沿著另一個空間方向保留精確的位置信息，這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的對象。

如圖6所示，本文將CA注意力機制融入中C3模塊之中，將其連接到殘差分支中卷積核大小為1×1，步長為2的卷積層之后，其輸入、輸出通道數(shù)設(shè)置為整個模塊輸出通道數(shù)的1/2，縮減比設(shè)為16，然后將其處理后的結(jié)果原C3模塊中的Bottleneck模塊在第1個維度進(jìn)行拼接，其他部分的處理原C3模塊的方法一致，這樣就構(gòu)成了C3CA模塊。在圖1中本文在C3CA模塊之后又連接了一個原C3模塊，主要原因有兩個：（1）原YOLOv5網(wǎng)絡(luò)中在FPN中接入了3個C3模塊，但在本文網(wǎng)絡(luò)中如果接入3個C3模塊會造成網(wǎng)絡(luò)太過龐大，引入大量的訓(xùn)練參數(shù)，增加訓(xùn)練時間和減緩檢測速度。（2）如果本文只使用一個C3CA模塊，不使用C3模塊，通過實驗驗證其檢測精度不是特別理想。因此，本文模型選擇在C3CA模塊之后連接一個C3模塊既可以提高檢測進(jìn)度，也沒有像引入過多C3模塊后導(dǎo)致網(wǎng)絡(luò)過于龐大而嚴(yán)重影響檢測速度。

圖6 C3CA模塊結(jié)構(gòu)Fig.6 Architecture of C3CA module

2 算法優(yōu)化

2.1 IOU算法比較性研究

目前大多數(shù)的目標(biāo)檢測算法還是選用如公式（3），（4）所示原始的目標(biāo)框與預(yù)測框IOU[22]（交并比）方法作為衡量標(biāo)準(zhǔn)，用1-IOU作為其損失回歸的方法，雖然原始的IOU損失解決了如圖7所示的目標(biāo)框與預(yù)測框之間兩個相互獨立變量間相對契合重疊程度的問題，但其也存在著兩個問題：（1）對于兩個框不相交，即IOU=0，此時IOU并不能反映兩個框之間距離的遠(yuǎn)近關(guān)系，而且無法進(jìn)行梯度計算，因此無法繼續(xù)進(jìn)行回歸訓(xùn)練。（2）對于如圖8所示的三種情況，其具有相同的IOU值，但I(xiàn)OU卻不能反映目標(biāo)框與預(yù)測框之間實際是如何相交的。

圖7 IOU示意圖Fig.7 Schematic diagram of IOU

圖8 相同IOU值的不同相交情況示意圖Fig.8 Schematic diagram of different intersections of same IOU value

GIOU損失[23]的提出改善了IOU兩個框可能出現(xiàn)的不相交和相交情況問題，如圖9所示，GIOU在原來IOU的基礎(chǔ)上融入了一個包括目標(biāo)框A與預(yù)測框B的最小矩形C。改進(jìn)后的GIOU算法如公式（5）所示，其中|C(A,B)|表示C的區(qū)域面積減去A∪B的區(qū)域面積，計算|C(A,B)|的面積與C的面積比值，此時GIOU的值域為（-1，1]，通過公式（6）所示GIOU歸損失函數(shù)可知LGIOU∈(0,2)。

圖9 GIOU示意圖Fig.9 Schematic diagram of GIOU

雖然GIOU相比于原始的IOU在目標(biāo)框與預(yù)測框在不相交的情況下具有更快的收斂速度，但當(dāng)兩個目標(biāo)框相交時GIOU則會退化為IOU，并未對目標(biāo)框與預(yù)測框達(dá)到更好的優(yōu)化，使得真實框與預(yù)測框在水平方向和垂直方向收斂性并未得到提升。為優(yōu)化這一問題，研究者又提出了DIOU與CIOU[24]兩種計算策略。如圖10所示，在DIOU中指定目標(biāo)框中點bgt與預(yù)測目標(biāo)框b距離d，c為GIOU中包含目標(biāo)框與預(yù)測框的最小矩形的對角線距離。DIOU回歸損失函數(shù)如公式（7）所示，其中ρ表示目標(biāo)框與預(yù)測框之間的歐式距離，DIOU損失更好地回歸兩個目標(biāo)框之間的距離，提高了其收斂速度。而CIOU損失如公式（8）所示，在原有DIOU的基礎(chǔ)上加入了目標(biāo)框之間的長寬比的一致性，引入橫縱比影響因子αv，其中α用于平衡比例，v用于評價目標(biāo)框之間的長寬比的一致性，計算方法如公式（9）、（10）所示，其中wgt、hgt為目標(biāo)框的寬高，w、h為預(yù)測框的寬高。

圖10 DIOU示意圖Fig.10 Schematic diageram of DIOU

在CIOU中對目標(biāo)框與預(yù)測框的相對寬高情況相對模糊，因此EIOU[25]將CIOU懲罰項比影響因子替換為寬高損失。如公式（11）、（12）所示EIOU損失則包括IOU損失、中心點距離損失和寬高損失三個部分，使用寬高損失讓目標(biāo)框和預(yù)測框?qū)捀卟钭钚。蛊渚哂懈斓氖諗克俣取?/p>

公式（11）中，wgt、hgt為目標(biāo)框的寬高，w、h為預(yù)測框的寬高，cw、ch為能包含目標(biāo)框與預(yù)測框的最小矩形的寬和高。為驗證公式（12）中EIOU損失函數(shù)是否適用于自動駕駛目標(biāo)檢測的需求，本文特此在SODA10M數(shù)據(jù)集進(jìn)行實驗，對上述不同的IOU損失計算方法進(jìn)行實驗，在YOLOv5網(wǎng)絡(luò)中對同一數(shù)據(jù)集使用不同IOU損失函數(shù)訓(xùn)練，將每次訓(xùn)練的epoch設(shè)置為150輪，其回歸損失曲線對比如圖11所示。

圖11 不同IOU方法回歸損失曲線Fig.11 Regression loss curve of different IOU methods

從圖11中可知，EIOU在訓(xùn)練開始時損失誤差是最大，但也能夠在多次迭代訓(xùn)練后其損失誤差可以快速收斂，但相比于其他IOU三種方法而言其最終損失誤差較大。這說明使用EIOU計算目標(biāo)回歸損失可以使損失快速收斂，但沒有將最終的回歸損失降低到更低的水平。

2.2 一種基于CIOU改進(jìn)的ICIOU

通過對不同IOU算法的比較性研究，推測利用交并比（IOU）對目標(biāo)框與預(yù)測框做損失回歸時，在原始IOU上加入過多約束會影響到其收斂性能，針對這一問題，在CIOU的基礎(chǔ)之上進(jìn)行了如公式（13）所示的方法進(jìn)行改進(jìn)。

在公式（13）中，對CIOU中目標(biāo)框與預(yù)測框中心點之間的距離計算中引入了調(diào)節(jié)因子δ，設(shè)計調(diào)節(jié)因子的目的在于當(dāng)IOU值比較大時，IOU自身可以完成目標(biāo)框的回歸任務(wù)，可以降低目標(biāo)框與預(yù)測框之間距離損失的約束作用。因此，本文對調(diào)節(jié)因子δ的選擇進(jìn)行如下處理，由于IOU的值域在[0，1]，取δ=e－5IOU，其與IOU成負(fù)相關(guān)關(guān)系，IOU越大則說明目標(biāo)框的回歸中目標(biāo)框與預(yù)測框間距離調(diào)節(jié)需求越小，因此對目標(biāo)框距離損失乘以δ=e－5IOU來調(diào)節(jié)其對目標(biāo)框距離損失的重要性，反之亦然。通過與之前相同的數(shù)據(jù)集和迭代次數(shù)進(jìn)行實驗，回歸損失曲線對比如圖12所示，改良后ICIOU對目標(biāo)框回歸損失與CIOU相比，ICIOU在相同的訓(xùn)練環(huán)境下具有更好的收斂性能和更小的目標(biāo)框回歸損失誤差。

圖12 ICIOU與CIOU回歸損失曲線Fig.12 Regression loss curve of ICIOU and CIOU

3 實驗分析

3.1 實驗環(huán)境

本文所有實驗均在Ubuntu18.04操作系統(tǒng)下進(jìn)行，深度框架為pytorch1.9、cuda11.1、cudnn8.0.5，硬件配置GPU為NVIDIA GeForce GTX 1080Ti，顯存為11 GB，CPU內(nèi)存為32 GB。

3.2 數(shù)據(jù)集準(zhǔn)備

使用華為諾亞方舟實驗室和中山大學(xué)2021年發(fā)布SODA10M數(shù)據(jù)集[8]對本文模型進(jìn)行訓(xùn)練，該數(shù)據(jù)集擁有1 000萬張圖像支持，其中包括如圖13所示的5 000張圖片的訓(xùn)練集和5 000張圖片的測試集。

圖13 不同場景下SODA10M數(shù)據(jù)集圖片F(xiàn)ig.13 SODA10M dataset images in different scenarios

該數(shù)據(jù)集包括在我國不同的城市的不同天氣條件下（包含晴天、陰天、雨天等），不同時段（包含白天、夜間、黎明、黃昏等）在城市街道、高速公路、鄉(xiāng)村道路、住宅區(qū)等位置場景下對交通道路的圖像信息，并且該數(shù)據(jù)集主要由行車記錄儀進(jìn)行拍攝獲取，地平線保持在圖像的中心，更為符合行車視角。該數(shù)據(jù)集主要對行人、自行車、汽車、卡車、電車、三輪車6類常見交通目標(biāo)進(jìn)行標(biāo)注。在自動駕駛蓬勃發(fā)展的今天該數(shù)據(jù)集相比于其他數(shù)據(jù)集具有較高的多樣性，對自動駕駛系統(tǒng)的發(fā)展具有重要意義，這也是本文選擇該數(shù)據(jù)集作為本文模型訓(xùn)練數(shù)據(jù)集的主要原因之一。實驗通過對原始輸入圖像水平翻轉(zhuǎn)、縮放、平移、明暗度調(diào)整、Mosaic數(shù)據(jù)增強等方法進(jìn)行處理，保證模型訓(xùn)練擁有足夠的數(shù)據(jù)，并且在本文模型的主干網(wǎng)絡(luò)中使用YOLOv5所給出的預(yù)訓(xùn)練權(quán)重進(jìn)行遷移學(xué)習(xí)來增強檢測器的泛化能力。

3.3 實驗結(jié)果分析

對本文改良的ICIOU與CIOU在YOLOv5l模型在SODA10M數(shù)據(jù)集下同時訓(xùn)練150輪，且其圖像輸入大小均為640×640進(jìn)行訓(xùn)練驗證，最終實驗結(jié)果如表2所示。

表2 COIU與ICIOU實驗結(jié)果Table 2 Experimental results of COIU and ICIOU

在表2中，原始CIOU的mAP為50.1%，而本文提出的ICIOU的mAP達(dá)到了50.9%，且在圖12中也顯示出ICIOU相比于CIOU對目標(biāo)框的回歸損失的收斂性和最終回歸損失誤差均有一定的提升。這說明改良的ICIOU計算方法可以提升目標(biāo)框的回歸損失，在一定程度上能夠提高檢測精度，而且當(dāng)目標(biāo)框與預(yù)測框的IOU達(dá)到一定程度時對IOU算法本身添加過多約束條件會影響其回歸效果，因此當(dāng)IOU變大時，在IOU損失計算中可以適當(dāng)減輕其他損失計算的約束效果，增強原有IOU的作用影響，從而在一定程度上減小目標(biāo)框的回歸損失，提高平均檢測精度。

與此同時，也嘗試將公式（13）中的δ取δ=e－10IOU、δ=e－2IOU、δ=e－IOU、δ=1－IOU、δ=1－IOU2、δ=sqrt(1－IOU2)等不同的取值方式下，對檢測精度以及目標(biāo)框回歸損失的影響，實驗設(shè)置δ=e－5IOU完全一樣，當(dāng)ICIOU調(diào)節(jié)因子δ取不同的值時回歸損失曲線如圖14（a）所示，其實驗所得的mAP如表3所示。根據(jù)圖14（a），當(dāng)ICIOU的調(diào)節(jié)因子δ取不同的值時模型的回歸損失收斂情況基本類似，在整個訓(xùn)練過程中目標(biāo)框的損失誤差也能完成逐漸收斂，達(dá)到預(yù)期的收斂目標(biāo)。但通過表3的實驗可知，將調(diào)節(jié)因子取δ=e－10IOU、δ=e－5IOU、δ=e－2IOU、δ=1－IOU、δ=1－IOU2時，mAP是高于CIOU的，其中法對最終的訓(xùn)練檢測結(jié)果有著一定的影響。為更好地分析δ=e－5IOU與δ=1－IOU2的具體性能，將兩者的目標(biāo)框損失收斂過程放在同一幅圖中進(jìn)行比較（如圖14（b）所示），可以看出δ=e－5IOU的目標(biāo)框回歸損失略低于δ=1－IOU2，兩者結(jié)果相差并不大，但δ=1－IOU2的檢測精度更高，因此在訓(xùn)練本文網(wǎng)絡(luò)模型時，ICIOU所使用的調(diào)節(jié)因子δ選擇了δ=1－IOU2。

表3 不同調(diào)節(jié)因子在SODA10M數(shù)據(jù)集下的實驗結(jié)果Table 3 Experimental results of different adjustment factors under SODA10M dataset

圖14 不同調(diào)節(jié)因子回歸損失曲線Fig.14 Regression loss curve with different adjustment factors

為驗證本文模型在道路目標(biāo)檢測的性能，在SODA10M數(shù)據(jù)集下分別對模型大小不同的YOLOv5網(wǎng)絡(luò)和本文模型進(jìn)行訓(xùn)練，其圖像輸入尺寸為640×640，針對各種大小不同YOLOv5模型，訓(xùn)練驗證結(jié)果如表4所示。

由表4中的實驗結(jié)果表明，本文模型在SODA10M數(shù)據(jù)集下得到的mAP為68.2%，AR為55.7%，相比于YOLOv5本文模型mAP提高了15.4個百分點，AR提高了14.9個百分點。而每張圖片的推理時間本文模型需54.6 ms，比YOLOv5x檢測的檢測速度慢，這是由于本文模型比YOLOv5網(wǎng)絡(luò)整體更為龐大，因此每張圖片的計算量也更大，所以造成檢測速度較為緩慢。而相比于YOLOv5s、YOLOv5m、YOLOv5l的檢測精度，本文模型的檢測效果更為顯著，但本文模型的檢測速度卻遠(yuǎn)慢于這些網(wǎng)絡(luò)，這是由于本文模型的整體網(wǎng)絡(luò)結(jié)構(gòu)更深、計算量更龐大的影響，因此造成整個網(wǎng)絡(luò)的檢測速度也遠(yuǎn)慢于YOLOv5s、YOLOv5m、YOLOv5l等模型。在自動駕駛的道路目標(biāo)檢測問題之中，本文模型大幅提高了目標(biāo)的檢測精度，可以更加準(zhǔn)確地檢測出視野中的目標(biāo)及其位置。

表4 不同模型訓(xùn)練結(jié)果對比Table 4 Training results comparison of different models

與此同時，為檢驗本文所改進(jìn)網(wǎng)絡(luò)模型在道路目標(biāo)檢測的性能，本文使用SODA10M數(shù)據(jù)集也在不同的目標(biāo)檢測算法模型中與之前相同的實驗方法進(jìn)行實驗，其實驗結(jié)果如表5所示。

表5 不同算法實驗結(jié)果對比Table 5 Experimental results comparision of different algorithms

從表5中的實驗結(jié)果可知，兩階段目標(biāo)檢測算法Faster R-CNN的檢測精度明顯由于YOLOv3、YOLOX等單階段目標(biāo)檢測算法，但是其每張圖像的檢測時間卻長達(dá)71.9 ms，無法滿足自動駕駛場景下檢測的實時性要求，如果應(yīng)用于自動駕駛中會出現(xiàn)較強的延時問題出現(xiàn)，造成一定的安全隱患。YOLOv3-SPP和YOLOv3的檢測精度與YOLOv5檢測精度相差不大，但檢測時間卻快了不少，這是由于兩者之間的參數(shù)量的差別所導(dǎo)致的。而YOLOX對每張圖像的檢測時間僅用21.69 ms，檢測精度達(dá)到68.2%，可謂YOLO算法的又一巔峰之作。本文所改進(jìn)后算法模型在道路目標(biāo)檢測任務(wù)中仍然可以達(dá)到68.2%的檢測精度，雖然每張圖像的推理時間長達(dá)54.6 ms，但在自動駕駛道路目標(biāo)檢測任務(wù)中也可以基本滿足檢測任務(wù)的實時性檢測要求，而且檢測精度也得到了較大提升，使得檢測精度得以保障。

由于SODA10M數(shù)據(jù)集圖片實際寬為1 920，高為1 080，而之前實驗輸入圖片的尺寸為640×640，則當(dāng)圖片輸入網(wǎng)絡(luò)時圖像尺寸會壓縮1 920/640倍，同理圖像中的被檢測目標(biāo)也會被壓縮同樣的倍數(shù)，這對于一些圖像中的小目標(biāo)而言就被壓縮得更小，這會影響到一些小目標(biāo)的檢測效果。因此，在實驗中放大圖像的輸入尺寸進(jìn)行訓(xùn)練檢測研究其影響效果，將圖像輸入尺寸設(shè)置為之前的1.25倍（800×800），其他設(shè)置與之前實驗的相同，實驗結(jié)果如表6所示。

表6 不同輸入尺寸檢測結(jié)果對比Table 6 Detection results comparison for different input sizes

由表6中可知，當(dāng)把圖像尺寸設(shè)為800×800后，網(wǎng)絡(luò)模型的mAP提高到了72.0%，比輸入圖像大小為640×640時提高了3.8個百分點，而且每個類別目標(biāo)的檢測準(zhǔn)確度也均有所提升。雖然檢測精度的提升是實驗所期待的效果，但是每張圖片的檢測速度卻為67.3 ms，相比于圖像輸入尺寸640×640時，每張圖像的推理速度僅慢了12.7 ms，檢測速度僅僅慢了0.23倍，這是因為將圖像輸入尺寸放大1.25倍時，則圖像的面積則會放大到原來的1.56倍，因此造成檢測時間也會有所增加，同時這說明適當(dāng)提高輸入圖片的尺寸也可提升目標(biāo)的檢測精度。在實際應(yīng)用中如果車輛在慢速行駛時，對視野內(nèi)的目標(biāo)需要較高的檢測精度時可以適當(dāng)放大圖像的輸入尺寸以提高網(wǎng)絡(luò)模型檢測精度，而車輛在較高速度行駛時，需提高視野內(nèi)目標(biāo)檢測的推理速度時，則需要適當(dāng)減小圖像的輸入尺寸以提高模型的推理時間。最終YOLOv5與本文模的檢測效果對比如圖15所示，從最終的檢測效果來看本文模型明顯具有檢測更加，對遮擋和一些微小目標(biāo)也具有良好的檢測效果，整體網(wǎng)絡(luò)的魯棒性能也得到了不錯的改善。

圖15 檢測效果對比圖Fig.15 Comparison chart of detection effect

4 結(jié)束語

本文基于YOLOv5網(wǎng)絡(luò)模型改進(jìn)了一種在自動駕駛場景下適用于不同的道路環(huán)境目標(biāo)檢測的算法模型，本文所改進(jìn)的模型在檢測任務(wù)中提高了目標(biāo)檢測精度，這符合自動駕駛場景下目標(biāo)檢測需要較高檢測精度的工作需求。本文模型在原YOLOv5模型的基礎(chǔ)上融入了自底向上的PANet網(wǎng)絡(luò)結(jié)構(gòu)，增加了一個YOLO檢測頭，并在網(wǎng)絡(luò)中使用CA注意力機制可以有效地捕捉目標(biāo)的方向信息與位置信息，顯著提升了整體網(wǎng)絡(luò)模型對小目標(biāo)和一些遮擋的檢測性能。本文改進(jìn)的ICIOU提高了目標(biāo)框回歸損失，同時也在一定程度上提高了檢測精度，通過這一系列的改進(jìn)使得整體網(wǎng)絡(luò)模型更滿足于自動駕駛的工作環(huán)境需求。從最后的檢測結(jié)果來看，本文模型相較于YOLOv5網(wǎng)絡(luò)檢測精度有著顯著提升，并且本文模型也提高了整體網(wǎng)絡(luò)的魯棒性，具有更好的檢測性能和目標(biāo)分辨能力，這也是未來自動駕駛領(lǐng)域的重要發(fā)展方向之一。