基于改進(jìn)YOLOv5s 的工件識別檢測算法*

2024-04-14 07:37:38苗鴻賓蘇赫朋申光鵬

制造技術(shù)與機床 2024年4期

余浪苗鴻賓② 蘇赫朋申光鵬

（①中北大學(xué)機械工程學(xué)院，山西太原 030051；②山西省深孔加工工程技術(shù)研究中心，山西太原 030051）

為實現(xiàn)智能化工業(yè)生產(chǎn)的發(fā)展，結(jié)合深度學(xué)習(xí)[1]以及機器學(xué)習(xí)[2]等技術(shù)到工業(yè)生產(chǎn)流程當(dāng)中得到了越來越多的應(yīng)用，如何實現(xiàn)工業(yè)的自動化生產(chǎn)也越來越成為智能制造領(lǐng)域的研究熱點。工業(yè)自動化生產(chǎn)中對目標(biāo)工件進(jìn)行智能化裝配、無序分揀和自動化維修等過程中需對目標(biāo)工件進(jìn)行準(zhǔn)確的識別檢測，傳統(tǒng)的對工件的識別與檢測方法主要有基于圖像Hu 矩[3]、Blob 特征[4]、Sobel 算子[5]等模板匹配算法，但這些檢測算法受環(huán)境因素影響較大，魯棒性差，檢測精度不高，并不能夠滿足實時的高精度工件識別檢測要求。

近年來，隨著智能化技術(shù)的不斷發(fā)展，如何利用神經(jīng)網(wǎng)絡(luò)模型對工件進(jìn)行準(zhǔn)確地識別越來越成為制造領(lǐng)域內(nèi)的研究熱點。蘇維成等[6]提出基于改進(jìn)Tiny-YOLOv3 算法的工件識別，通過在特征提取網(wǎng)絡(luò)中增加Ghost 模塊、SE 模塊和SPP 結(jié)構(gòu)3 個網(wǎng)絡(luò)模塊，并用卷積層代替池化層來改進(jìn)Timy-YOLOv3模型，改進(jìn)后的模型對小目標(biāo)工件檢測準(zhǔn)確率達(dá)到84.8%，平均精度均值達(dá)到94.9%，同時減小了網(wǎng)絡(luò)模型的大小；張宇廷等[7]結(jié)合機器視覺與Faster-RCN 的識別檢測算法到Delta 機器人上，提高了對工件的識別平均精確度；崔新霞等[8]以YOLOv3 網(wǎng)絡(luò)作為基本框架開展機器人工件識別方法研究，通過對數(shù)據(jù)集進(jìn)行增強處理，改進(jìn)YOLOv3 的損失函數(shù)，并應(yīng)用空間金字塔池化層進(jìn)行YOLOv3 中特征金字塔網(wǎng)絡(luò)改進(jìn)，改進(jìn)后的網(wǎng)絡(luò)平均檢測準(zhǔn)確率均值達(dá)到 98.05%，檢測每張圖片的時間為137 ms。以上基于深度學(xué)習(xí)的工件識別與檢測雖然均取得了較好的檢測效果，但大多只適用于工件無遮擋的情況，并且存在檢測模型普遍較大、檢測速度較慢等問題。

基于此，本文提出基于改進(jìn)YOLOv5s 的工件識別檢測算法，在特征融合網(wǎng)絡(luò)中添加CBAM 注意力機制，利用加權(quán)雙向特征金字塔Bi-FPN 結(jié)構(gòu)進(jìn)行特征融合，并通過采用α-IoU 作為邊界框回歸損失函數(shù)，提高邊界框回歸精度以及模型的收斂效果，以解決工件遮擋識別檢測定位問題、網(wǎng)絡(luò)模型速度慢和網(wǎng)絡(luò)大小問題，為智能生產(chǎn)線上目標(biāo)工件的識別檢測問題提供解決方案。

1 YOLOv5 算法

隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展，YOLOv5算法基于其對目標(biāo)進(jìn)行檢測定位的精度高以及速度快的優(yōu)點，在工件識別檢測領(lǐng)域也得到了越來越多的應(yīng)用。相比于傳統(tǒng)的目標(biāo)檢測方法，深度學(xué)習(xí)技術(shù)具有更強的特征提取能力以及更快的特征檢測速度。目前對于目標(biāo)的識別與檢測常用到的網(wǎng)絡(luò)模型主要包括基于兩階段檢測的Faster R-CNN 檢測算法[9]和基于一階段檢測的YOLO 系列算法[10]。相比于兩階段的檢測，一階段的檢測算法在進(jìn)行檢測的過程中只需要將圖像輸入到網(wǎng)絡(luò)中，然后直接輸出對象的位置坐標(biāo)值和類別概率，與兩階段的檢測算法相比，雖然其精度相對較低，但檢測速度有了顯著提高，更適用于實時性要求高的檢測系統(tǒng)。

YOLOv5 算法是YOLO 系列算法之一[11]，YOLOv5 包括YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 四種結(jié)構(gòu)，它們之間的主要區(qū)別在于特征提取深度和寬度的不同。YOLOv5 算法在檢測目標(biāo)的過程中將整個圖像作為網(wǎng)絡(luò)的輸入，然后在輸出層中直接返回目標(biāo)邊界框的類別及其位置信息。YOLOv5 算法以CSPDarknet53 作為主干網(wǎng)絡(luò)，在頸部網(wǎng)絡(luò)中采用路徑聚合PANET 網(wǎng)絡(luò)結(jié)構(gòu)，以及以多尺度特征融合預(yù)測的方式提取圖像特征。YOLOv5是在YOLOv4 基礎(chǔ)上進(jìn)行的改進(jìn)，與YOLOv4 相比，YOLOv5 網(wǎng)絡(luò)不僅實現(xiàn)了更快以及更高精度的檢測，同時也顯著減小了網(wǎng)絡(luò)模型的尺寸大小。在YOLOv5的四種結(jié)構(gòu)中，YOLOv5s 是模型參數(shù)最小、檢測速度最快、最簡單的版本，由于自動生產(chǎn)線上需對目標(biāo)工件進(jìn)行實時準(zhǔn)確的識別檢測，對其檢測的實時性有著較高的要求，因此本文選用YOLOv5s 模型作為研究對象，通過對YOLOv5s 算法進(jìn)行改進(jìn)，以達(dá)到對目標(biāo)工件的檢測要求。YOLOv5s 算法結(jié)構(gòu)如圖1 所示。

圖1 YOLOv5s 算法結(jié)構(gòu)

2 YOLO v5s 算法的改進(jìn)

2.1 Anchor Boxes 的聚類分析

為了使得模型在運算的過程中能夠快速地收斂、加快計算的速度以及提高檢測精度，在目標(biāo)識別檢測的過程中提出Anchor Boxes 的設(shè)計。在Faseter RCNN 和SSD 中對于Anchor Boxes 的聚類分析設(shè)計主要通過人工進(jìn)行設(shè)計，針對性差，受人的主觀性影響較大。原YOLOv5s 算法中對于Anchor Boxes的計算是通過k-means 算法[12]由COCO 數(shù)據(jù)集聚類得到的，避免了模型訓(xùn)練時進(jìn)行過多的盲目尋找，加快了模型訓(xùn)練的收斂速度，最后得出9 種不同大小的Anchor Boxes，分別用于3 種不同尺度上的特征檢測，每個尺度特征圖上分別有3 個Anchor Boxes。

k-means 聚類算法在聚類計算Anchor Boxes 的過程之中主要依據(jù)曼哈頓距離、歐氏距離等作為距離度量，但這些度量方法并不適用于本文對工件的識別檢測，因此本文對k-means 聚類算法進(jìn)行改進(jìn)，采用如下的距離公式來度量邊框之間的相似度。

式中：X為真實框；Y為聚類框；Iarea為X與Y之間的交集；Uarea為X與Y之間的并集。

同時由于在采集圖像的過程中不可避免地會存在干擾的異常點而造成最終聚類出來的結(jié)果出現(xiàn)較大偏差，因此本文首先引入DBSCAN 算法對異常點進(jìn)行處理。DBSCAN 算法能夠有效地檢測出數(shù)據(jù)集中的異常點，提高Anchor Boxes 的聚類效果。

本文通過改進(jìn)k-means 聚類算法得到不同的聚類簇數(shù)k值，對于k的取值再結(jié)合平均交并比Avg IoU 作為目標(biāo)函數(shù)做進(jìn)一步分析。取值k=1～15，分別得到對應(yīng)的Avg IoU 值，如圖2 所示。

圖2 改進(jìn)k-means 聚類分析結(jié)果

由圖2 可知：隨著k值的不斷增大，Avg IoU值也在不斷增大，但增長的趨勢隨著k值的不斷增大在不斷地減緩。隨著k值的不斷增加，預(yù)測出來的結(jié)果會更好，但同時也會增加模型的計算量以及產(chǎn)生過多的冗余Anchor Boxes 導(dǎo)致模型的收斂速度降低。觀察圖2 中的曲線走勢可知，在k值等于9之后的曲線增長速度大幅降緩，k值在等于9 與k值等于15 之間的Avg IoU 差值并不是很大，所以本文選擇k=9 作為k的最終取值。由此根據(jù)本文的數(shù)據(jù)集進(jìn)行重新聚類得出最終的9 個聚類中心的維度分別為(18,15)(38,42)(84,66)(88,163)(142,128)(186,244)(226,212)(246,412)(322,346)。

2.2 引入CBAM 注意力機制

針對在工件在堆疊以及遮擋的復(fù)雜環(huán)境下能夠準(zhǔn)確地識別目標(biāo)工件、提高工件的檢測效果，本文給系統(tǒng)的主干網(wǎng)絡(luò)卷積層間引入注意力機制CBAM模塊[13]。

注意力機制是一種模仿人類注意力的深度學(xué)習(xí)優(yōu)化策略，目的是將計算資源分配給更重要的任務(wù)，并解決信息超載的問題。CBAM 注意力機制具有尺度小、不會占用太多內(nèi)存的特征，同時CBAM 注意力機制通過在通道和空間2 個維度上進(jìn)行獨立的運算，大大提高了對圖片注意力信息的提取效果。選擇在網(wǎng)絡(luò)結(jié)構(gòu)中添加CBAM 注意力機制，相比于添加其他注意力機制能夠達(dá)到更好的特征提取效果，同時也不會明顯地增加網(wǎng)絡(luò)模型的大小。CBAM結(jié)構(gòu)如圖3 所示。

圖3 CBAM 結(jié)構(gòu)

2.3 特征金字塔結(jié)構(gòu)的改進(jìn)

在原YOLOv5s 算法中的特征提取網(wǎng)絡(luò)采用的是PAN 網(wǎng)絡(luò)，相比于FPN 網(wǎng)絡(luò)多了一條自下向上的特征融合路徑。本文的研究對象的是工件圖像，若直接采用PAN 網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)，最終達(dá)到的檢測效果并不佳。因此，本文選擇采用Bi-FPN[14]網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)。Bi-FPN 網(wǎng)絡(luò)是一種雙向跨尺度連接和加權(quán)特征融合結(jié)構(gòu)，一種加權(quán)雙向特征金字塔提取網(wǎng)絡(luò)，可以進(jìn)行多尺度的特征融合。Bi-FPN 原理圖如圖4 所示。

圖4 特征提取模塊Bi-FPN 原理圖

Bi-FPN 減少了一些不必要層的結(jié)點連接，同時給各個層賦予了不同權(quán)重去進(jìn)行特征融合，加速了網(wǎng)絡(luò)模型訓(xùn)練中的收斂速度，相較于PAN 網(wǎng)絡(luò)具有更好的特征提取能力。

2.4 引入α-IoU 損失函數(shù)

為了獲得精準(zhǔn)的工件位置信息，需引入定位損失函數(shù)IoU。IoU 表示的是檢測框與真實框之間的位置關(guān)系，其損失函數(shù)的計算方式如下：

式（2）表示的是真實框Bgt與預(yù)測框B之間的交并比關(guān)系，IoU 的值越大表示預(yù)測結(jié)果更好。

在IoU 損失的計算中，當(dāng)預(yù)測框與真實框不相交時IoU 始終等于0，以及當(dāng)預(yù)測框與真實框的交并比相同時，預(yù)測框與真實框的相對位置存在不同的情況，這時將不能準(zhǔn)確的反向傳播反映預(yù)測區(qū)域框與真實區(qū)域框的相對位置關(guān)系，所以需對IoU 損失進(jìn)行優(yōu)化。G-IoU、D-IoU、C-IoU 是對IoU 損失的不同改進(jìn)，G-IoU 解決了預(yù)測框與真實框不相交時的問題，但當(dāng)預(yù)測框處于真實框內(nèi)部時也存在損失值不變、不能反向傳播位置損失的問題，D-IoU通過計算預(yù)測框與真實框的中心距離解決了G-IoU存在的問題，同時提高了網(wǎng)絡(luò)模型的回歸速度。YOLOv5s 采用C-IoU 作為位置損失函數(shù)，C-loU 在D-IoU 的基礎(chǔ)上增加了對長寬比的考慮，使得預(yù)測框與真實框的長寬比更接近，預(yù)測框更加接近真實框。所以本文選擇采用在C-loU 的基礎(chǔ)上進(jìn)行改進(jìn)的α-IoU[15]作為預(yù)測框的位置損失函數(shù)，其計算如下：

式中：w和h表示預(yù)測檢測框的寬和高，α的不同取值大小可實現(xiàn)不同的預(yù)測框的回歸效果。多次測試表明，當(dāng)α等于3 時，α-IoU 損失相比于C-IoU有著更佳的檢測效果，且不會增加過多的訓(xùn)練時間，所以本文選擇將α設(shè)置為3。

3 實驗驗證與對比分析

3.1 數(shù)據(jù)采集與預(yù)處理

基于深度學(xué)習(xí)來實現(xiàn)對目標(biāo)的識別與檢測中，數(shù)據(jù)集起著重要的作用，它在很大程度上影響著檢測模型的檢測效果。本文采集包含6 種不同的類型工件圖像共1 200 張，同時為增強模型的魯棒性以及避免訓(xùn)練的模型出現(xiàn)過擬合現(xiàn)象，本文對采集到的目標(biāo)圖像進(jìn)行旋轉(zhuǎn)、鏡像、增加噪聲、改變亮度和對比度等方式進(jìn)行數(shù)據(jù)增強處理，最后將圖像數(shù)據(jù)集從1 200 張圖像增加到3 000 張圖像，并按照9∶1 的比例將圖像數(shù)據(jù)集分成2 700 張訓(xùn)練集和300 張測試集。

3.2 實驗環(huán)境

本文選擇基于Windows 10 系統(tǒng)，使用Pytorch的深度學(xué)習(xí)架構(gòu)進(jìn)行實驗，具體的配置見表1，訓(xùn)練參數(shù)見表2。

表1 訓(xùn)練平臺配置參數(shù)

表2 訓(xùn)練參數(shù)設(shè)置表

3.3 實驗結(jié)果與分析

本文將改進(jìn)的YOLOv5s 算法與原YOLOv5s 算法分別進(jìn)行訓(xùn)練實驗，并記錄每一次訓(xùn)練過程中的Loss值。Loss值的收斂速度以及最終的收斂狀態(tài)是否穩(wěn)定是評判模型性能的關(guān)鍵指標(biāo)之一，本文訓(xùn)練得出的損失曲線如圖5 所示。

圖5 損失曲線

由圖5 可知，改進(jìn)后的網(wǎng)絡(luò)模型有更快的收斂速度和更好的訓(xùn)練效果。

3.4 改進(jìn)前后的算法性能對比

為了對本文改進(jìn)前后的算法性能進(jìn)行對比評估，在進(jìn)行工件識別檢測的過程中記錄正確檢測出的工件數(shù)量TP，被錯誤檢測的工件數(shù)量FP以及沒有被檢測出的工件數(shù)量FN，然后通過計算目標(biāo)的平均準(zhǔn)確率AP對算法進(jìn)行評價。AP計算公式如下：

式中：P(r)表示一條P-R曲線，AP是對P和R的綜合考慮，適用于對單個工件進(jìn)行檢測評價，也可以用來衡量模型的檢測性能。AP的值越高，則該模型的檢測效果越好。同時計算平均準(zhǔn)確率均值mAP，即AP值在所有工件類型上的均值，用于評價模型對檢測所有工件種類的綜合性能。計算結(jié)果見表3。

表3 YOLOv5s 改進(jìn)前后算法的檢測結(jié)果對比

由表3 的計算結(jié)果可知，改進(jìn)后的YOLOv5s算法mAP值相較于原YOLOv5s 算法從90.90%提升到96.93%，提升了6.03%；速度從15.6 fps 提升到29.3 fps，提升了13.7 fps，也說明了改進(jìn)的YOLOv5s算法有著更好的檢測性能。

實驗檢測效果如圖6 所示，分別是利用改進(jìn)前后的YOLOv5s 算法進(jìn)行檢測的結(jié)果對比。從檢測效果對比可知，改進(jìn)后的YOLOv5s 算法檢測結(jié)果更接近目標(biāo)工件，未出現(xiàn)較大的圖像邊緣偏差，同時對于堆疊的工件圖像能夠更加準(zhǔn)確地檢測出受遮擋的工件，具有更高的檢測準(zhǔn)確度和檢測精度。

圖6 檢測效果圖

3.5 不同檢測算法的性能對比

要實現(xiàn)對目標(biāo)的準(zhǔn)確識別檢測，現(xiàn)如今也有著很多優(yōu)秀的檢測算法，例如Faster R-CNN 算法和SSD 算法。所以為了對本文改進(jìn)的YOLOv5s 算法進(jìn)行更加全面的評測，本文再利用Faster R-CNN 算法和SSD 算法對工件進(jìn)行檢測作為對比，并以mAP值和檢測速度作為評價指標(biāo)，得到的實驗結(jié)果見表4。

表4 不同算法的檢測結(jié)果對比表

從表4 可以得出，無論是檢測的mAP值還是檢測的速度值，相比于其他檢測算法，本文改進(jìn)的YOLOv5s 算法都有著更好的檢測效果，這是因為本文通過改進(jìn)k-means 聚類算法對Anchor boxes 進(jìn)行重新聚類，避免了產(chǎn)生過多的冗余Anchor boxes，同時對原YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn)，提升了網(wǎng)絡(luò)對工件特征的提取能力，提升了工件的識別檢測效果以及檢測速度。由此可見，本文改進(jìn)的YOLOv5s 算法在保證了檢測準(zhǔn)確性的同時也提高了檢測速度，能夠較好地完成工件的識別檢測任務(wù)。

4 結(jié)語

為實現(xiàn)在智能化生產(chǎn)的過程中對目標(biāo)工件進(jìn)行準(zhǔn)確的識別檢測，本文提出一種基于改進(jìn)YOLOv5s 的工件識別檢測算法以提高對工件的識別檢測效果。首先，通過改進(jìn)k-means 聚類算法對Anchor Boxes 進(jìn)行重新聚類，以減少冗余候選框的數(shù)量，加快模型計算速度，以及通過引入CBAM注意力機制在通道與空間兩個維度上提取特征圖的注意力信息，有效抑制背景信息干擾，提升對圖像特征的提取效率以及檢測的準(zhǔn)確率。其次，使用多尺度特征融合網(wǎng)絡(luò) Bi-FPN，實現(xiàn)高效的加權(quán)特征融合和雙向跨尺度連接，加快檢測速度，同時使用a-IoU 損失作為位置的損失函數(shù)來提升模型的收斂速度和邊界框的定位精度。最后，通過對SSD算法、Faster R-CNN 算法、原YOLOv5s 算法以及改進(jìn)的YOLOv5s 算法進(jìn)行對比實驗，實驗結(jié)果表明，改進(jìn)后的YOLOv5s 算法對工件的檢測準(zhǔn)確性和檢測速度都有了明顯的提升，具有較好的工件識別檢測效果，可用于工業(yè)自動化生產(chǎn)線上智能化裝配以及工件無序分揀中對工件的識別檢測。