秦法波,張媛,朱磊,楊曉靜,高振清
輕量化對抗增強(qiáng)的物流違規(guī)操作識別方法
秦法波,張媛,朱磊,楊曉靜,高振清
(北京印刷學(xué)院 機(jī)電工程學(xué)院,北京 102600)
針對復(fù)雜強(qiáng)噪背景下物流違規(guī)操作難以有效識別的問題,提出一種輕量化對抗增強(qiáng)的物流違規(guī)操作檢測方法。以YOLOv5為基礎(chǔ)框架,提出輕量化的GhostC3模塊,運用對抗學(xué)習(xí)的思想提出輕量對抗模塊,將原有結(jié)構(gòu)中的C3模塊修改為輕量化的GhostC3模塊,Conv模塊修改為輕量對抗模塊,并將定位損失修改為CIOU損失。通過實驗驗證可知,本文方法針對復(fù)雜強(qiáng)噪背景下物流違規(guī)操作具有優(yōu)異的檢測效果,其中本文方法相較于YOLOv5方法的檢測平均精度均值提高了1.69%,模型參數(shù)量降低了45.14%,檢測速度提高了2.46%。本文提出的方法具有參數(shù)量低、檢測速度快和精度高等特點,針對復(fù)雜強(qiáng)噪背景下物流違規(guī)操作的檢測具有一定的先進(jìn)性和實用性,充分滿足物流違規(guī)操作檢測需求。
物流;計算機(jī)視覺;目標(biāo)檢測;YOLOv5
2021年全年郵政行業(yè)完成業(yè)務(wù)的總量為13 698億元,比上年增長25.1%[1]。隨著物流業(yè)的發(fā)展,包裹在物流作業(yè)中損壞、破損等問題尤為嚴(yán)重,而造成這一現(xiàn)象的直接原因便是物流活動中的違規(guī)操作。物流違規(guī)操作為是指在包裹在攬收、中轉(zhuǎn)、倉儲以及配送等整個物流環(huán)節(jié)中,作業(yè)人員對包裹進(jìn)行野蠻作業(yè)的行為,其中較為常見的物流違規(guī)操作有足踢、拋扔和踩踏。物流違規(guī)操作的發(fā)生會增加包裹內(nèi)物品損壞的風(fēng)險,其中違規(guī)操作為在快遞方面尤為凸顯,據(jù)《快遞服務(wù)體驗式調(diào)查報告》顯示,物流違規(guī)操作在快遞行業(yè)十分普遍,其中至少16.1%的快遞件出現(xiàn)不同程度的損傷[2]。2021年12月郵政業(yè)用戶申訴情況通告顯示,快遞服務(wù)申訴的主要問題中快件損毀占申訴總量的21.8%[3]。
目前,物流違規(guī)操作的識別主要有2種技術(shù)路線:第1種為基于傳感器集群的識別方法;第2種是基于視頻和圖像的識別方法。基于傳感器集群的物流違規(guī)操作識別方法是將慣性和振動等傳感器內(nèi)置于包裹中,通過開發(fā)專用硬件[4-6]和云平臺[7-9]對違規(guī)操作進(jìn)行分析處理,具有代表性的有丁奧等[10]提出的基于加速度分布特征的快遞暴力分揀識別方法,有效對包裹的違規(guī)操作進(jìn)行了識別及分類,對包裹全流程監(jiān)測具有重要意義。但是該類方法在進(jìn)行識別時,專用的檢測終端的固定安裝方式相對煩瑣并且需要占用包裝容積,同時,由于專用檢測終端一般需鋰電池供電,對航空等運輸方式的安全有不利影響,因此,基于傳感器集群的快遞異常行為識別方法存在一定弊端。近年來,基于視頻和圖片對目標(biāo)行為進(jìn)行檢測的方法得到迅速發(fā)展,并被廣泛應(yīng)用于農(nóng)業(yè)、醫(yī)療、工業(yè)制造等諸多領(lǐng)域。針對物流違規(guī)操作的識別,已有學(xué)者進(jìn)行了深入的研究。吳鵬勃等[11]提出的基于LSTM+Attention和MobileSSD模型的快遞暴力分揀檢測系統(tǒng)可通過姿態(tài)數(shù)據(jù)進(jìn)行行為識別。尚淑玲等[12]利用小波包分析方法,對采集的物流分揀的圖像行為特征進(jìn)行有效的提取,為物流暴力分揀識別提供依據(jù)。鄧秀琴等[13]針對物流違規(guī)操作提出一種基于計算機(jī)視覺的暴力分揀行為識別方法,但以上視頻和圖像識別方法在復(fù)雜的物流環(huán)境中存在檢測效果和穩(wěn)定性較低、模型參數(shù)量高、檢測速度慢等問題。因此針對上述問題,輕量且迅速的物流違規(guī)操作檢測方法具有重要的理論和實際意義。
本文針對物流違規(guī)操作問題以YOLOv5網(wǎng)絡(luò)為主要框架提出一種面向復(fù)雜強(qiáng)噪背景的輕量對抗檢測方法,克服物流違規(guī)操作檢測成本高和檢測精度差的問題,有效降低人工干預(yù)工作量。本文首先介紹YOLOv5模型的網(wǎng)絡(luò)結(jié)構(gòu);其次闡述網(wǎng)絡(luò)的改進(jìn)與優(yōu)化,并且進(jìn)行模型訓(xùn)練與實驗結(jié)果分析;最后總結(jié)全文的工作內(nèi)容并對取得的實驗結(jié)果進(jìn)行分析。
YOLO系列算法[14-17]是典型的一階段算法,具有簡便、迅速以及適用性廣等特點。YOLOv5在YOLO系列算法的基礎(chǔ)上做了一系列的改進(jìn),性能得到了進(jìn)一步的提升,YOLOv5網(wǎng)絡(luò)模型如圖1所示,主要包含輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、特征融合端(Neck)和預(yù)測端(Head)等4個部分。
在輸入端,YOLOv5主要運用Mosaic數(shù)據(jù)增強(qiáng)方法、自適應(yīng)錨框計算、自適應(yīng)縮放圖片。其中Mosaic數(shù)據(jù)增強(qiáng)是指通過隨機(jī)縮放、裁剪以及排布的方法將隨機(jī)選擇的若干個圖片組合,提高了模型的泛化能力,防止過擬合的出現(xiàn)。在網(wǎng)絡(luò)模型訓(xùn)練過程中,網(wǎng)絡(luò)會自動計算適合當(dāng)前數(shù)據(jù)集的最佳錨框,通過聚類的錨框可以更快得到準(zhǔn)確的預(yù)測框。為方便進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練和滿足不同數(shù)據(jù)集圖片尺寸的要求,自適應(yīng)縮放圖片是將原圖片縮放到統(tǒng)一尺寸,再輸入到網(wǎng)絡(luò)中訓(xùn)練。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5在主干網(wǎng)絡(luò)部分應(yīng)用Conv模塊、C3結(jié)構(gòu)、SPPF池化金字塔結(jié)構(gòu)。Conv模塊是卷積層、BN(Batch Normalization)層和激活函數(shù)的組合,在整個網(wǎng)絡(luò)中具有重要作用。Bottleneck模塊是C3模塊中的一個重要殘差部件,在一定程度上降低了模型的計算參數(shù)量并且提高了特征提取的效率。C3模塊是指含有3個Conv模塊BottleneckCSP(Bottleneck Cross Stage Partial)結(jié)構(gòu),具有加深網(wǎng)絡(luò)結(jié)構(gòu)的作用。C3結(jié)構(gòu)輸入的特征圖經(jīng)過2條路線拼接(Concat)后再經(jīng)過Conv模塊得到輸出的特征圖。SPPF池化金字塔結(jié)構(gòu)對主干網(wǎng)絡(luò)具有擴(kuò)大網(wǎng)絡(luò)感受野的作用,其結(jié)構(gòu)是將輸入特征圖進(jìn)行連續(xù)的最大池化下采樣,最后將輸出的特征圖拼接。
輸入的圖片經(jīng)過主干網(wǎng)絡(luò)后,為滿足下游任務(wù)中不同尺度目標(biāo)的要求,特征融合端采用特征金字塔結(jié)構(gòu)(Feature Pyramid Networks,F(xiàn)PN)和路徑聚合網(wǎng)絡(luò)結(jié)構(gòu)(Path Aggregation Network, PAN)。FPN是將高層特征圖與低層特征圖的特征進(jìn)行融合,PAN網(wǎng)絡(luò)是在FPN的基礎(chǔ)上改進(jìn)而來,其增加了一條自下向上的特征融合方案,使不同層次的語義信息能夠更好的融合。特征融合端對圖像中不同尺度目標(biāo)的檢測效果具有大幅度的提升,使網(wǎng)絡(luò)既可以學(xué)習(xí)到深層次的語義特征,又可以學(xué)習(xí)到圖像整體的物體分布信息。Yolov5在輸出端采用GIOU函數(shù)作為定位損失的損失函數(shù),并且在檢測的后處理過程中,使用非極大值抑制的方法(Non Maximum Suppression,NMS)對目標(biāo)框篩選,有效提高了模型的檢測能力。
為解決傳統(tǒng)的卷積操作得到的特征圖中部分通道獲取的信息冗余,參考Ghostnet網(wǎng)絡(luò)[18]提出一種輕量化的GhostC3模塊。由于在訓(xùn)練過程中部分通道未學(xué)習(xí)到非常有價值的特征,為解決通道信息冗余,并且盡可能使用更少的參數(shù)量獲取含有更多信息的特征圖。將C3結(jié)構(gòu)中的Conv模塊更改為Ghostconv模塊,其結(jié)構(gòu)如圖2所示。
圖2 Ghost卷積模塊
給定輸入特征圖∈R,Conv模塊如式(1)所示,將輸入特征圖通過函數(shù)conv得到輸出特征圖;而Ghostconv模塊如式(2)所示,將輸入特征圖通過函數(shù)conv經(jīng)過縮放因子降低通道數(shù)去除冗余通道,再通過式(3)的線性運算得到全新特征圖。其中y是中第個特征圖,函數(shù)φ是指第個線性運算,Y是輸出特征集合的元素。將降低通道數(shù)的捷徑(Shortcut)特征圖和線性運算得到的特征圖拼接得到最終的特征圖。
如圖3所示,將Bottleneck模塊中的Conv模塊更改為Ghostconv模塊,并應(yīng)用于GhostC3模塊。其中,Bottleneck模塊步距(Stride)設(shè)置為1,輸入的特征圖經(jīng)過2個Ghostconv模塊與其自身進(jìn)行相加得到輸出特征圖。同時,將C3模塊更改為GhostC3模塊,并且將輸出時的Conv模塊更改為Ghostconv模塊,其中更改后的GhostC3模塊Backbone中GhostC3使用捷徑(Shortcut),Neck中GhostC3不使用捷徑(Shortcut)。
圖3 Bottleneck模塊和GhostC3模塊
為提高網(wǎng)絡(luò)的強(qiáng)噪聲數(shù)據(jù)下的檢測能力,引入對抗學(xué)習(xí)的思想,其中生成的對抗網(wǎng)絡(luò)[19](Generative Adversarial Network,GAN)主要包含如圖4所示的生成器(Generator,G)和鑒別器(Discriminator,D)兩部分。生成器和鑒別器之間形成對抗,并且生成器和鑒別器可以是任何非線性映射的函數(shù)。
圖4 生成對抗網(wǎng)絡(luò)結(jié)構(gòu)
生成對抗網(wǎng)絡(luò)生成器負(fù)責(zé)將隨機(jī)服從高斯分布的噪聲生成為分布近似于實際樣本的數(shù)據(jù)();鑒別器負(fù)責(zé)判斷輸入的特征in是真實樣本還是生成器生成的樣本。其中生成器要不斷及時優(yōu)化生成的數(shù)據(jù),使真實數(shù)據(jù)分布real和生成數(shù)據(jù)分布fake盡可能相似,以達(dá)到鑒別器無法鑒別出真實數(shù)據(jù)和生成數(shù)據(jù)的目的。鑒別器目的是提升自身的鑒別能力,更好地識別真實和虛假數(shù)據(jù)的區(qū)別,因此其優(yōu)化公式見式(4)。
為提高網(wǎng)絡(luò)的在高噪聲圖片的檢測效果引入通道注意力模塊[20],通道注意力模塊可以獲取特征圖不同通道間的重要程度。在網(wǎng)絡(luò)訓(xùn)練的過程中,通道注意力模塊會增大存在重要語義信息的通道權(quán)重,降低冗余信息通道的權(quán)重。通道注意力模塊如圖5所示,由全局平均池化(Global Average Pooling,GAP)、若干個全連接層(Fully Connected Layer,F(xiàn)C)和激活函數(shù)組成。
為增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力并提升網(wǎng)絡(luò)的抗噪能力,結(jié)合對抗學(xué)習(xí)思想和通道注意力模塊,提出一種如圖6所示的輕量化對抗模塊(Lightweight Adversarial Conv,LAconv)。將Backbone和Neck中的Conv模塊修改為LAconv模塊,將Ghostconv模塊中的線性變換作為生成器G,將通道注意力模塊作為鑒別器D。輕量化對抗模塊中運用生成器G的線性變換生成類似于真實特征圖的虛假特征圖,然后與降低通道的真實特征圖拼接,輸入至通道注意力模塊,將通道注意力模塊作為鑒別器來鑒別生成數(shù)據(jù)的真?zhèn)危咝纬蓪龟P(guān)系。
圖6 輕量對抗模塊
YOLOv5的損失函數(shù)由分類損失(Classification Loss)、定位損失(Localization Loss)和置信度損失(Confidence Loss)3個部分組成。其中分類損失和置信度損失使用二值交叉熵?fù)p失(Binary CrossEntropy Loss,BCELoss),定位損失G使用GIOU(Generalized Intersection Over Union,)損失[21]。GIOU損失(見式(8)—(9))取代了IOU (Intersection Over Union,)損失,解決了預(yù)測框和真實框不相交時損失無法回傳的問題,不僅關(guān)注重疊區(qū)域,還關(guān)注其他非重合區(qū)域,能更好地反映兩者的重合度。但是,GIOU損失在預(yù)測框和真實框沒有很好的對齊時,會導(dǎo)致最小外接框的面積增大,從而使GIOU的值變小,不利于模型訓(xùn)練。
為解決上述定位損失的缺點,將GIOU損失G調(diào)整為CIOU(Complete Intersection Over Union,)損失C[22](見式(10)—(13))。具體調(diào)整如下,首先將GIOU中的懲罰項最小外接矩形修改為如式(10)所示的最小化真實框和預(yù)測框中心點的歐式距離(,gt),并加入最小包圍2個邊界框的對角線長度的平方進(jìn)行修正。同時,加入能夠同時包含預(yù)測框和真實框的最小閉包區(qū)域的對角線距離。并且,為了充分地考慮橫縱比對預(yù)測的影響,加入如式(13)—(14)所示的懲罰項,其中g(shù)tgt分別代表預(yù)測框的寬和高,分別代表目標(biāo)框的寬和高。通過上述的調(diào)整,定位損失充分考慮了橫縱比與預(yù)測框和真實框的關(guān)系,并且提高了網(wǎng)絡(luò)模型的收斂速度和平均精度。
YOLOv5網(wǎng)絡(luò)本身具有檢測速度快、適用性廣的特點,以YOLOv5網(wǎng)絡(luò)為主要框架,如圖7所示將C3模塊修改為GhostC3模塊、Conv模塊修改為LAconv模塊,并且修改定位損失函數(shù)為CIOU損失函數(shù)。改進(jìn)后的網(wǎng)絡(luò)具有檢測效果優(yōu)異、推理迅速、輕量化的特點,滿足復(fù)雜高噪物流環(huán)境下違規(guī)操作的檢測。
實驗所使用的處理環(huán)境的顯卡為NVDIA Tesla K80,CPU為3個Xeon E5–2678 v3處理器,操作系統(tǒng)為Ubuntu 18.04,深度學(xué)習(xí)框架為Pytorch架構(gòu)。具體配置見表1。
表1 硬件環(huán)境配置
Tab.1 Experimental environment configuration
訓(xùn)練時采用SGD優(yōu)化器優(yōu)化網(wǎng)絡(luò),使用Mosaic數(shù)據(jù)增強(qiáng),調(diào)整批量大小為64,初始學(xué)習(xí)率設(shè)置為0.001,動量為0.937,權(quán)重衰減系數(shù)為0.000 5,迭代次數(shù)設(shè)置為300,模型深度系數(shù)為0.33,寬度系數(shù)為0.5。
3.2.1 數(shù)據(jù)集采集
為驗證模型效果,使用物流違規(guī)操作數(shù)據(jù)進(jìn)行驗證。因物流違規(guī)操作數(shù)據(jù)在真實物流環(huán)境下采集困難,實驗所需數(shù)據(jù)集[23]是由本文作者使用TP–LINK高清攝像頭模擬物流違規(guī)操作行為,包含足踢、拋扔和踩踏3類常見的物流違規(guī)操作行為,其中足踢指用腳踢包裹以至導(dǎo)致包裹發(fā)生位移或變形;拋扔是指包裹從高于地面30 cm處被人為拋落;踩踏是指包裹被人為踩踏并發(fā)生形變。數(shù)據(jù)集共包含圖片1 215張,其中足踢344張,拋扔531張,踩踏340張。為盡可能模擬真實物流環(huán)境,調(diào)用Opencv庫將獲取的數(shù)據(jù)集處理為如圖8所示的霧天、高曝光、黑夜場景,其中每個動作下的每類場景數(shù)量占比相同。
圖8 數(shù)據(jù)集示意圖
Fig.8 Schematic diagram of data set
3.2.2 數(shù)據(jù)標(biāo)注
不同類別的圖片數(shù)據(jù)使用Labelimg數(shù)據(jù)標(biāo)注工具進(jìn)行標(biāo)注,其中物流違規(guī)操作分為3類,分別是足踢、拋扔、踩踏。其中類別0代表足踢,標(biāo)簽為Kick;類別1代表拋扔,標(biāo)簽為Throw;類別2代表踩踏,標(biāo)簽為Trample。按照表2示例標(biāo)注后的文件分別代表標(biāo)注的類別、經(jīng)過規(guī)一化操作的人工標(biāo)注框的中心點坐標(biāo)、標(biāo)注框?qū)挾群透叨?,最終將數(shù)據(jù)集按8∶2隨機(jī)分配為訓(xùn)練集和測試集,得到實驗所需數(shù)據(jù)集。
表2 數(shù)據(jù)標(biāo)注示例
Tab.2 Example of data annotation
準(zhǔn)確率(Precision,)、召回率(Recall,)是衡量模型訓(xùn)練結(jié)果的重要指標(biāo)。準(zhǔn)確率為真實存在違規(guī)操作且被預(yù)測出存在異常行為違規(guī)操作的預(yù)測框占所有預(yù)測框的比例,召回率為真實存在違規(guī)操作且被預(yù)測出存在違規(guī)操作的預(yù)測框占人工標(biāo)注框的比例。和的計算式分別見式(14)—(15),其中P表示正類被識別為正類的樣本個數(shù),P表示正類被識別為負(fù)類的樣本個數(shù),N表示負(fù)類被識別為負(fù)類的樣本個數(shù)。
平均精度(Average Precision,P)、平均精度均值(Mean Average Precision,mAP)是衡量目標(biāo)檢測模型優(yōu)劣的重要指標(biāo),其計算式分別見式(16)—(17)。式中P為PR曲線圍成的面積,其中PR曲線代表的是精準(zhǔn)率與召回率的關(guān)系,mAP為足踢、拋扔和踩踏3類平均精度的均值。
3.4.1 消融實驗
為驗證網(wǎng)絡(luò)修改的有效性,將網(wǎng)絡(luò)的改進(jìn)依次對比,見表3。其中,Base為未改進(jìn)的YOLOv5基礎(chǔ)版本;改進(jìn)1為將C3模塊修改為GhostC3模塊;改進(jìn)2為將Conv模塊修改為LAconv模塊;改進(jìn)3為將GIOU損失函數(shù)修改為CIOU損失函數(shù)。由表4可知,本文方法的平均精度均值較高且值為96.1%,參數(shù)量最小為3.67×106,檢測時間較短為19.8 ms。改進(jìn)1相較于Base版本的平均精度均值降低了1.6%,參數(shù)量降低了1.98×106,檢測時間降低了3.6 ms;改進(jìn)2相較于Base版本的平均精度均值提高了2.1%,參數(shù)量降低了1.02×106,檢測時間增加了2.6 ms;改進(jìn)3相較于Base版本的平均精度均值提高了0.6%,參數(shù)量降低相同,檢測時間增加了0.3 ms;本文方法相較于Base版本的平均精度均值提高1.6%,參數(shù)量降低了3.02×106,檢測時間降低了0.5 ms。由此綜合可見,本文所提出的檢測方法明顯優(yōu)于Base版本和其他改進(jìn)方法,本文方法針對復(fù)雜高噪聲圖片有效提高了算法效果。
表3 消融實驗對比
Tab.3 Comparison of ablation experiment
3.4.2 對比實驗
為更好地展示改進(jìn)后網(wǎng)絡(luò)模型的優(yōu)勢,采用相同的違規(guī)操作數(shù)據(jù)集在相同的實驗環(huán)境下進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果如圖9和表4所示。
圖9 實驗結(jié)果對比
1)在識別精度方面。本文方法檢測的平均精度均值為96.1%,比YOLOv3–tiny[17]、YOLOx–tiny[24]、YOLOv3[17]、YOLOv3–spp[17,25]、SSD[26]、Centernet[27]、YOLOv5的平均精度均值分別高出14.3%、3.5%、6.7%、5.8%、7%、5.7%、1.6%。
表4 實驗結(jié)果對比
Tab.4 Comparison of experimental results
2)在參數(shù)量大小方面。本文方法的參數(shù)量為3.67×106,比YOLOv3–tiny、YOLOx–tiny、YOLOv3、YOLOv3–spp、SSD、Centernet、YOLOv5的參數(shù)量分別低了1.17×106、4.6×106、54.67×106、55.45×106、20.86×106、28.04×106、3.02×106。
3)在檢測時間方面。本文方法單張圖片的檢測速度為19.8 ms,比YOLOv3、YOLOv3–spp、SSD、Centernet、YOLOv5的檢測時間分別低了62.5、68.5、73.2、59、0.5 ms,比YOLOv3–tiny、YOLOx–tiny的檢測時間略高了6.9、5.7 ms。
4)在單類違規(guī)操作的識別精度方面。如表4所示,本文方法足踢檢測的平均精度均值比YOLOv3–tiny、YOLOx–tiny、YOLOv3、YOLOv3–spp、SSD、Centernet的平均精度均值分別高了15.7%、5.6%、8.9%、6.9%、9.6%、5.4%,但比YOLOv5的平均精度均值略低了2.3%。本文方法拋扔檢測的平均精度均值比YOLOv3–tiny、YOLOx–tiny、YOLOv3、YOLOv3–spp、SSD、Centernet、YOLOv5的平均精度均值分別高了18.8%、3.2%、4.6%、4.3%、9.3%、6.9%、5.4%。本文方法踩踏檢測的平均精度均值比YOLOv3–tiny、YOLOv3、YOLOv3–spp、SSD、Centernet的平均精度均值分別高了6.7%、5%、4.5%、0.3%、3%。
經(jīng)過本文方法與YOLOv3–tiny、YOLOx–tiny、YOLOv3、YOLOv3–spp、SSD、Centernet、YOLOv5等方法在平均精度均值、單張圖片檢測時間、模型參數(shù)量和單類違規(guī)操作識別精度方面的對比,得出本文方法的平均精度均值最高,為96.1%,單類違規(guī)操作識別精度除足踢外普遍高于其他算法,參數(shù)量最小且值為3.67×106,且單張圖片檢測速度為19.8 ms,略高于YOLOv3–tiny、YOLOx–tiny的檢測速度。因此,本文的網(wǎng)絡(luò)結(jié)構(gòu)在面向復(fù)雜高噪圖片取得了優(yōu)異的檢測效果,在保證平均精度均值提高的前提下,有效降低了模型參數(shù)量和檢測時間。
3.4.3 檢測結(jié)果分析
為更好地驗證模型的效果,如圖10選取測試集中不同復(fù)雜環(huán)境圖片進(jìn)行測試。其中圖10a為霧天異常行為的檢測效果,左圖為YOLOv5算法檢測時出現(xiàn)誤檢現(xiàn)象,將墻角檢測為異常行為,右圖為本文算法有效檢測并定位出異常操作的位置。圖10b為高曝光下異常行為的檢測效果,本文算法(右圖)準(zhǔn)確識別出異常行為,并且預(yù)測框的位置更加準(zhǔn)確,檢測效果明顯高于YOLOv5算法(左圖)的。圖10c是黑夜下異常行為的檢測效果,本文算法檢測精度略高于YOLOv5算法的。故本文提出的輕量對抗的方法減少了誤檢,提高了檢測能力。
圖10 檢測結(jié)果
物流違規(guī)操作檢測是物流環(huán)境安全監(jiān)測領(lǐng)域重要的研究課題。本文以YOLOv5為主要框架,提出了GhostC3模塊和LAconv模塊,修改定位損失函數(shù)為CIOU損失函數(shù),應(yīng)用于物流違規(guī)操作檢測。經(jīng)過實驗驗證,在提出輕量化模塊和對抗學(xué)習(xí)的思想加持下,本文方法在復(fù)雜高噪的環(huán)境下仍具有優(yōu)異的檢測效果。本文方法的平均精度均值、參數(shù)量和推理速度均優(yōu)于YOLOv5的,能夠有效解決物流違規(guī)操作行為無法識別、識別困難的問題,有效提高了檢測效果,減少了人工干預(yù)檢測的成本。
[1] 中華人民共和國中央人民政府官網(wǎng). 中華人民共和國2021年國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計公報[EB/OL]. (2022-02-28)[2022-07-08]. http://www.gov.cn/index. htm.
The Official Website of the State Council of the People's Republic of China. Announcement of National Economic and Social Development of the People's Republic of China in 2021[EB/OL]. (2022-02-28)[2022-07-08]. http://www.gov.cn/index.htm.
[2] 中國消費者協(xié)會官網(wǎng). 快遞服務(wù)體驗式調(diào)查報告[EB/OL]. (2017-06-08)[2022-07-08]. https://www.cca.cn/.
The Official Website of the China Consumers Association. Investigation Report on Package Service[EB/OL]. (2017-06-08)[2022-07-08]. https://www.cca.cn/.
[3] 國家郵政業(yè)安全中心官網(wǎng). 國家郵政局關(guān)于2021年12月郵政業(yè)用戶申訴情況的通告[EB/OL]. (2022-01-30)[2022-07-08]. http://www.yzyaqzx.cn/.
The Official Website of the State Post Bureau Safety Supervision Center. Notice of the State Post Bureau on the Appeal of the Users of the Post Industry in December 2021[EB/OL]. (2022-01-30)[2022-07-08]. http://www.yzyaqzx.cn/.
[4] 李立鵬, 田園, 董志祥, 等. 基于MCU的物流狀態(tài)監(jiān)測裝置的研究與設(shè)計[J]. 天津科技, 2017, 44(2): 62-65.
LI Li-peng, TIAN Yuan, DONG Zhi-xiang, et al. Research and Design of Logistics Condition Monitoring Device Based on MCU[J]. Tianjin Science & Technology, 2017, 44(2): 62-65.
[5] WANG F, LOU W, GUO M, LU Y. Intelligent Logistics Monitoring Microsystem Based on STM32[J]. Key Engineering Materials, 2015, 645/646: 896-899.
[6] 張小紅, 羅科干, 陶賢露, 等. 一種基于穿戴式MEMS傳感器狀態(tài)識別的多部位PDR算法[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版), 2021, 46(12): 1791-1801.
ZHANG Xiao-hong, LUO Ke-gan, TAO Xian-lu, et al. A Multi-position PDR Algorithm Based on Wearable MEMS Sensors State Recognition[J]. Geomatics and Information Science of Wuhan University, 2021, 46(12): 1791-1801.
[7] 王以忠, 王明銀, 張銳, 等. 用于物流運輸過程監(jiān)測的振動測量系統(tǒng)[J]. 現(xiàn)代電子技術(shù), 2011, 34(13): 133-135.
WANG Yi-zhong, WANG Ming-yin, ZHANG Rui, et al. Vibration Measuring System for Monitoring Transportation Process in Logistics[J]. Modern Electronics Technique, 2011, 34(13): 133-135.
[8] CHUANG C H, LEE D H, CHANG W J, et al. Real-time Monitoring via Patch-type Piezoelectric Force Sensors for Internet of Things Based Logistics[J]. IEEE Sensors Journal, 2017, 17(8): 2498-2506.
[9] ANG H, YAN F, LIU T, et al. Design of Multi-sensor Monitoring System for Logistics Yard[J]. Wireless Personal Communications, 2017, 97: 5483-5494.
[10] 丁奧, 張媛, 朱磊, 等. 基于加速度分布特征的快遞暴力分揀識別方法[J]. 包裝工程, 2020, 41(23): 162-171.
DING Ao, ZHANG Yuan, ZHU Lei, et al. Recognition Method for Rough Handling of Express Parcels Based on Acceleration Distribution Features[J]. Packaging Engineering, 2020, 41(23): 162-171.
[11] 吳蓬勃, 張金燕, 王帆, 等. 快遞暴力分揀行為視覺識別系統(tǒng)[J]. 包裝工程, 2021, 42(15): 245-252.
WU Peng-bo, ZHANG Jin-yan, WANG Fan, et al. Visual Recognition System of Violent Sorting Behavior in Express Delivery[J]. Packaging Engineering, 2021, 42(15): 245-252.
[12] 尚淑玲. 基于計算機(jī)視覺的物流暴力分揀行為識別[J]. 計算機(jī)仿真, 2013, 30(12): 430-433.
SHANG Shu-ling. Logistics Sorting Violence Behavior Recognition Based on Computer Vision[J]. Computer Simulation, 2013, 30(12): 430-433.
[13] 鄧秀琴, 何鵬志, 倪衛(wèi)紅, 等. 一種基于計算機(jī)視覺的暴力分揀行為識別方法[J]. 供應(yīng)鏈管理, 2021, 2(6): 109-116.
DENG Xiu-qin, HE Peng-zhi, NI Wei-hong, et al. An Identification Method of Violent Sorting Behavior in the Express Delivery Industry Based on Computer Vision[J]. Supply Chain Management, 2021, 2(6): 109-116.
[14] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2017: 6517-6527.
[15] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[C]// IEEE Conference on Computer Vision & Pattern Recognition, 2017: 6517-652.
[16] REDMON J, FARHADI A. Yolov3: An Incremental Improvement[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2018.
[17] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[18] HAN K, WANG Y, TIAN Q, et al. Ghostnet: More Features from cheap operations[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 658-666.
[19] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative Adversarial Networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[20] HU J, SHEN L, SUN G. Squeeze-and-Excitation Networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[21] REZATOFIGHI H, TSOI N, GWAK J Y, et al. Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 658-666.
[22] ZHENG Zhao-hui, WANG Ping, LIU Wei, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression Distance-IoU loss: Faster and better learning for bounding box regression[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 12993-13000.
[23] BIGC229. Beijing Institute of Graphic Communication[EB/OL].(2017-06-08)[2022-07-08].https://github.com/BIGC-229/.
[24] GE Zheng, LIU Song-tao, WANG Feng, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. 2021: arXiv: 2107.08430. https://arxiv.org/abs/2107.08430
[25] HE Kai-ming, ZHANG Xiang-yu, REN Shao-qing, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[26] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[C]// Proceedings of European Conference on Computer Vision. Heidelberg: Springer, 2016: 21-37.
[27] DUAN K, BAI S, XIE L, et al. Centernet: Keypoint Triplets for Object Detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 6569-6578.
Recognition Method of Improper Operation in Logistics with Lightweight and Enhanced Countermeasures
QIN Fa-bo, ZHANG Yuan, ZHU Lei, YANG Xiao-jing, GAO Zhen-qing
(School of Mechanical and Electrical Engineering, Beijing Institute of Graphic Communication, Beijing 102600, China)
The work aims to propose a method of detecting improper operations in logistics with lightweight and enhanced countermeasures in view of the difficulty in effectively identifying improper operations in logistics under the background of complex and strong noise. Based on YOLOv5, the lightweight GhostC3 module was offered, and the lightweight countermeasure module was proposed with the idea of countermeasure learning. The C3 module in the original structure was changed into the lightweight GhostC3 module, the Conv module was changed into the LAconv module, and the positioning loss was changed into CIOU loss. Finally, through experimental verification, the method proposed had an excellent detection effect against improper operations under the background of complex and strong noise. Compared with YOLOv5, the average detection accuracy of the method proposed increased by 1.69%, the number of model parameters decreased by 45.14%, and the detection speed was improved by 2.46%. The method proposed has the characteristics of a low number of parameters, fast detection speed, and high accuracy. It is advanced and practical for the detection of improper operations in logistics under the background of complex and strong noise, and fully meets the detection needs of improper operations in logistics.
logistics; computer vision; object detection; YOLOv5
TP391.4
A
1001-3563(2023)09-0265-10
10.19554/j.cnki.1001-3563.2023.09.032
2022?07?08
北京市教育委員會科技/社科計劃項目資助(KZ202210015020);北京印刷學(xué)院校級項目(Ee202204)
秦法波(1999—),男,碩士生,主攻視頻圖像識別。
朱磊(1982—),男,博士,講師,主要研究方向為物流安全檢測。
責(zé)任編輯:曾鈺嬋