劉東旭 劉曉群
河北建筑工程學(xué)院 河北 張家口 075000
煙包主要作用保護(hù)香煙,其主要缺陷體現(xiàn)在包裝破損、劃痕等,其多為表面缺陷。現(xiàn)如今,人工目測(cè)的方法是主流趨勢(shì),人們大都選擇此種方法進(jìn)行質(zhì)量檢查,耗費(fèi)了大量人力物力,對(duì)檢測(cè)人員提出較高要求[1]。不能出現(xiàn)漏檢誤檢的情況?;诖饲闆r,機(jī)器學(xué)習(xí)為此提供了前提,近些年來(lái)機(jī)器學(xué)習(xí)的蓬勃發(fā)展,與工業(yè)的交叉研究給異常檢測(cè)帶來(lái)更多新的解決方案。
目前,數(shù)據(jù)集的重建技術(shù)是圖像異常檢測(cè)領(lǐng)域活躍的研究方向。圖像異常檢測(cè)是機(jī)器學(xué)習(xí)文獻(xiàn)中一個(gè)不斷發(fā)展的研究領(lǐng)域,其目標(biāo)是區(qū)分?jǐn)?shù)據(jù)集中的正常樣本和異常樣本。在圖像異常檢測(cè)領(lǐng)域,數(shù)據(jù)集是最重要也是最困難的,缺乏足夠的異常樣本會(huì)導(dǎo)致模型無(wú)法適用于真實(shí)工業(yè)場(chǎng)景,來(lái)自不同視覺(jué)應(yīng)用的許多問(wèn)題是異常檢測(cè),包括制造缺陷檢測(cè),醫(yī)學(xué)圖像分析和視頻監(jiān)控[2]。數(shù)據(jù)集的缺少,這在實(shí)際應(yīng)用中受到了諸多限制,因此數(shù)據(jù)集的重建成為圖像異常檢測(cè)研究的重點(diǎn),目前異常檢測(cè)主要用到GAN,one class classification和卷積神經(jīng)網(wǎng)絡(luò)(CNN),比如用到的PCA、OC-SVM,還有傳統(tǒng)machine learning做理論基礎(chǔ)的深度模型結(jié)構(gòu)等。本文提出使用DR?M重建數(shù)據(jù)集,重構(gòu)異常嵌入方法(DR?M)由重構(gòu)子網(wǎng)絡(luò)和判別子網(wǎng)絡(luò)組成。其重建數(shù)據(jù)集的DR?M方法在所有MVTec類(lèi)中定量結(jié)果最好,并且其重建的數(shù)據(jù)集可以很好的模擬真實(shí)異常數(shù)據(jù)。本文基于DR?M,首先設(shè)計(jì)了檢測(cè)平臺(tái)的架構(gòu),然后重建了異常煙包數(shù)據(jù)集并用YOLOv5進(jìn)行測(cè)驗(yàn)。
在實(shí)踐中,異常的出現(xiàn)可能會(huì)有很大差異,在質(zhì)量控制等應(yīng)用中,存在異常的圖像很少見(jiàn),手動(dòng)注釋可能過(guò)于耗時(shí)。這導(dǎo)致訓(xùn)練集高度不平衡,通常只包含無(wú)異常圖像。因此,最近投入了大量精力來(lái)設(shè)計(jì)穩(wěn)健的表面異常檢測(cè)方法,這些方法最好需要最少的人工注釋監(jiān)督。重構(gòu)方法,例如自動(dòng)編碼器[3]和GAN[4],已經(jīng)被廣泛探索,因?yàn)樗鼈兡軌驅(qū)W習(xí)強(qiáng)大的重構(gòu)子空間,僅使用無(wú)異常圖像。依靠在訓(xùn)練中未觀察到的異常區(qū)域的較差重建能力,然后可以通過(guò)對(duì)輸入圖像與其重建之間的差異進(jìn)行閾值化來(lái)檢測(cè)異常。然而,確定是否存在與正常外觀沒(méi)有顯著差異的異常仍然具有挑戰(zhàn)性,因?yàn)檫@些異常通常可以很好地重建。因此,最近的改進(jìn)考慮了從通用網(wǎng)絡(luò)提取的深度特征和專(zhuān)門(mén)用于無(wú)異常圖像的網(wǎng)絡(luò)之間的差異。區(qū)分也可以表述為與深層子空間內(nèi)的非異常紋理的密集聚類(lèi)的偏差,因?yàn)樾纬蛇@樣一個(gè)緊湊的子空間可以防止異常被映射到接近無(wú)異常的樣本。生成方法的一個(gè)共同缺點(diǎn)是它們僅從無(wú)異常數(shù)據(jù)中學(xué)習(xí)模型,并且沒(méi)有針對(duì)判別異常檢測(cè)進(jìn)行明確優(yōu)化,因?yàn)樵谟?xùn)練時(shí)無(wú)法獲得正例(即異常)??梢钥紤]使用合成異常來(lái)訓(xùn)練判別分割方法,但這會(huì)導(dǎo)致對(duì)合成外觀的過(guò)度擬合,并導(dǎo)致學(xué)習(xí)到的決策邊界無(wú)法很好地推廣到真實(shí)異常。
數(shù)據(jù)集的建造是缺陷檢測(cè)的重中之重,本文對(duì)數(shù)據(jù)集模擬應(yīng)用了DR?M技術(shù)。在高速傳送帶上進(jìn)行較為精確的缺陷檢測(cè)是檢測(cè)的關(guān)鍵,本文針對(duì)煙包缺陷檢測(cè),提出了一種適用于缺陷檢測(cè)的方法,即YOLOv5,因此對(duì)煙包缺陷檢測(cè)的模擬數(shù)據(jù)集技術(shù)進(jìn)行研究是很有必要的。本文在原有方法的前提下,對(duì)煙包缺陷檢測(cè)的高速檢測(cè)進(jìn)行研究,提出了一種更具預(yù)見(jiàn)性的缺陷檢測(cè)算法。本次算法設(shè)計(jì)主要有兩個(gè)內(nèi)容,包括圖像預(yù)處理和YOLOv5算法。
在圖像預(yù)處理方面,由于數(shù)據(jù)集的缺少,且流行方法對(duì)模擬數(shù)據(jù)集的過(guò)擬合,會(huì)導(dǎo)致后續(xù)實(shí)驗(yàn)進(jìn)行雖然順利卻無(wú)法適用于日常工業(yè)檢測(cè)的需求,DR?M能較好地重建異常,且在MVTec數(shù)據(jù)集中的9個(gè)中達(dá)到最高 AUROC,DR?M比之前最好的最先進(jìn)方法高出2.5 %,后續(xù)用YOLOv5來(lái)實(shí)現(xiàn),YOLOv5先將從DR?M獲得的缺陷圖片進(jìn)行增強(qiáng)處理,再人工標(biāo)注分類(lèi),隨機(jī)把訓(xùn)練圖片送到Y(jié)OLOv5網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到最好的權(quán)重?cái)?shù)據(jù)模型,最后對(duì)測(cè)試的圖片進(jìn)行預(yù)測(cè)與分析。
用于實(shí)驗(yàn)的香煙均屬于山東中煙旗下品牌的泰山,為保證研究的可靠性,選擇正常無(wú)缺陷的樣本用DR?M模擬真實(shí)異常數(shù)據(jù)集。流行方法會(huì)導(dǎo)致對(duì)合成外觀的過(guò)度擬合,導(dǎo)致學(xué)習(xí)到的決策邊界無(wú)法很好的模擬真實(shí)異常。該網(wǎng)絡(luò)由一個(gè)重建子網(wǎng)絡(luò)和一個(gè)判別子網(wǎng)絡(luò)組成。重建子網(wǎng)絡(luò)被形容為一個(gè)編碼器解碼器結(jié)構(gòu),其作用主要將圖像的局部模式轉(zhuǎn)換為更接近正常樣本分布的模式。訓(xùn)練后的網(wǎng)絡(luò)從模擬器獲得人為破壞的版本并重建原始圖像,假設(shè)相鄰像素之間是獨(dú)立的,使用基于補(bǔ)丁的SSIM,如:
H是I的高度,W是I的寬度,Np是I中的像素?cái)?shù),Ir網(wǎng)絡(luò)輸出的重建圖像。λ為損失平衡超參數(shù),因此重建損失為:
判別子網(wǎng)類(lèi)似于U-Net,子網(wǎng)絡(luò)輸入 Ic 被定義為重建子網(wǎng)絡(luò)輸出 Ir 和輸入圖像 I 的通道級(jí)連接。判別子網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)適當(dāng)?shù)木嚯x度量,網(wǎng)絡(luò)輸出一個(gè)與重建子網(wǎng)輸入圖像 I 大小相同的異常分?jǐn)?shù) mapMo。Lseg應(yīng)用于判別子網(wǎng)絡(luò)輸出,以提高對(duì)困難示例進(jìn)行準(zhǔn)確分割的魯棒性。考慮到兩個(gè)子網(wǎng)絡(luò)的分割和重建目標(biāo),用于訓(xùn)練 DR?M 的總損失為:
其中:Ma和M分別是ground truth和輸出異常分割掩碼。
在最近提出的具有挑戰(zhàn)性的MVTEC異常檢測(cè)數(shù)據(jù)集[3]上對(duì)DR?m進(jìn)行了評(píng)估,該數(shù)據(jù)集已被建立為評(píng)估無(wú)監(jiān)督地表異常檢測(cè)方法的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集。 我們?cè)诘孛娈惓z測(cè)和定位的任務(wù)上對(duì)DRém進(jìn)行了評(píng)估。 MVTEC數(shù)據(jù)集包含15個(gè)具有不同異常集的對(duì)象類(lèi),從而能夠?qū)Φ乇懋惓z測(cè)方法進(jìn)行綜合評(píng)價(jià)。
對(duì)于評(píng)估,使用異常檢測(cè)中的標(biāo)準(zhǔn)度量,AUROC。圖像級(jí)AUROC用于異常檢測(cè),基于像素的AUROC用于評(píng)估異常定位[5,24,17,26]。 然而,AUROC不能很好地反映地表異常檢測(cè)的精度,因?yàn)橹挥幸恍〔糠窒袼厥钱惓5?。其原因是,假?yáng)性率由先驗(yàn)的非常高的非異常像素?cái)?shù)量所支配,因此盡管有假陽(yáng)性檢測(cè),假陽(yáng)性率仍保持較低。因此,我們還報(bào)告了像素平均精度度量(AP),它更適合于高度不平衡的類(lèi),特別是對(duì)于精度起重要作用的地表異常檢測(cè)。
YoloV5是一個(gè)單級(jí)檢測(cè)器和基于區(qū)域的目標(biāo)檢測(cè)網(wǎng)絡(luò)。Yolo將對(duì)象檢測(cè)重新定義為回歸問(wèn)題,從而提高處理速度。最近,YoloV5已應(yīng)用于實(shí)時(shí)人員搜索[5],還應(yīng)用于蘋(píng)果收獲機(jī)器人的視覺(jué)系統(tǒng)。YoloV5具有3個(gè)主要組件:主干、頭部和檢測(cè)。主干是一個(gè)CNN,它以不同的粒度收集和塑造圖像特征。YoloV5實(shí)現(xiàn)了中心和尺度預(yù)測(cè)(CSP)瓶頸來(lái)制定圖像特征。頭部是一系列層,用于組合圖像特征,以將它們轉(zhuǎn)發(fā)到預(yù)測(cè)過(guò)程。 YoloV5還實(shí)現(xiàn)了PA-NET用于特征聚合。檢測(cè)是一個(gè)利用頭部特征并采取框和類(lèi)預(yù)測(cè)步驟的過(guò)程。YoloV5架構(gòu)的示意圖如圖1所示。
圖1 YoloV5架構(gòu)概述
由Input、Prediction、Neck和Backbone 四部分組成YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)。Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算、自適應(yīng)圖片縮放,隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)排布都包括在其輸入端,以上所說(shuō)的數(shù)據(jù)增強(qiáng)方法,因其在小數(shù)據(jù)集上效果不錯(cuò),常被應(yīng)用在小數(shù)據(jù)集上。YOLOv5的自適應(yīng)錨框計(jì)算將初始值嵌入代碼,而之前的YOLO系列都是通過(guò)單獨(dú)程序計(jì)算初始錨框的值。在自適應(yīng)圖片縮放,YOLOv5的作者認(rèn)為在實(shí)際生活中縮放填充的不均勻黑邊會(huì)造成信息冗余的問(wèn)題,作者對(duì)此進(jìn)行了改進(jìn),使得對(duì)原始圖像自適應(yīng)的添加最少的黑邊。
Backbone包含F(xiàn)ocus結(jié)構(gòu)和CSP結(jié)構(gòu)。Focus結(jié)構(gòu)中關(guān)鍵點(diǎn)是切片操作。早在YOLOv4主干網(wǎng)絡(luò)中就出現(xiàn)CSP結(jié)構(gòu),但YOLOv4只在主干網(wǎng)絡(luò)中使用,YOLOv5在這方面有所改進(jìn)。
Neck是特征金字塔網(wǎng)絡(luò)(FPN)和路徑聚合網(wǎng)絡(luò)(PAN)的組合。 FPN和PAN的結(jié)合通過(guò)增強(qiáng)較小感受野的淺層特征,提高了檢測(cè)精度。
本文主要研究了在真實(shí)工業(yè)情況下的煙包缺陷檢測(cè),包括應(yīng)用DR?M的數(shù)據(jù)集的模擬和用Yolov5的異常檢測(cè)。DR?M由一個(gè)重建子網(wǎng)絡(luò)和一個(gè)判別子網(wǎng)絡(luò)組成。重建子網(wǎng)絡(luò)主要將圖像的局部模式轉(zhuǎn)換為更接近正常樣本分布的模式。判別子網(wǎng)自動(dòng)學(xué)習(xí)適當(dāng)?shù)木嚯x度量,以生成更接近工業(yè)場(chǎng)景的缺陷圖片。利用模擬好的數(shù)據(jù)集送入Yolov5中。智能缺陷檢測(cè)是當(dāng)下工業(yè)發(fā)展的必然趨勢(shì),對(duì)異常缺陷檢測(cè)的研究有助于提高工廠效率,使其快速剔除有缺陷的煙包。缺陷檢測(cè)的研究與發(fā)展,可以將人工智能更好地運(yùn)用在工業(yè)場(chǎng)景,將DR?M,Yolov5應(yīng)用在缺陷檢測(cè)能大大提高檢測(cè)速度。