莊昌乾,李璟文
(1.江南大學(xué) 理學(xué)院,江蘇 無錫 214122;2.江西盛泰光學(xué)有限公司,江西 新余 336600)
自動化缺陷檢測對于先進制造中產(chǎn)品的質(zhì)量控制至關(guān)重要,現(xiàn)已被廣泛應(yīng)用于檢測各種產(chǎn)品生產(chǎn)過程中的異常和缺陷[1-2]。印刷塑料標(biāo)簽作為一種獨特的標(biāo)識和質(zhì)量指標(biāo),展現(xiàn)了商品的信息、制造商的設(shè)計理念,也代表了產(chǎn)品的質(zhì)量。但由于生產(chǎn)設(shè)備參差不齊、生產(chǎn)工藝標(biāo)準(zhǔn)不同、操作人員誤操作等外部因素,在實際制造過程中,塑料標(biāo)簽表面可能會出現(xiàn)各種類型的缺陷。一些最常見的缺陷包括異物、重影、劃痕、墨點、指紋、線條缺失。這些缺陷不可避免地會影響產(chǎn)品的質(zhì)量和外觀,因此在制造過程中檢測和識別這些缺陷,從而確保產(chǎn)品的整體質(zhì)量是非常必要的。
目前,最常見的檢測方法仍依賴人工篩選[3]。然而,這種方法不僅勞動強度大,而且容易受到主觀因素、疲勞程度和檢驗員經(jīng)驗的影響,導(dǎo)致誤檢漏檢現(xiàn)象頻繁發(fā)生,整體準(zhǔn)確率和效率較低。此外,另一個明顯的缺點是,這種技術(shù)從根本上難以與自動化制造過程無縫銜接與兼容。
機器視覺是一種更好的缺陷檢測方法,該方法依靠高速相機采集樣本圖像,通過算法進行圖像處理,從而識別和分類各種缺陷[4-6]。目前,大多數(shù)研究都局限于基于經(jīng)典圖像處理方法(如振幅閾值、圖像去噪與增強、圖像分割和特征提取)的決策算法[6]。另一類缺陷檢測依賴于基于頻譜的算法,它將圖像信息轉(zhuǎn)換到頻域(例如Gabor變換,傅里葉變換等)[7]。該方法在發(fā)現(xiàn)紋理特征背景下的瑕疵具有一定的優(yōu)勢,已應(yīng)用于織物瑕疵檢測。然而,由于塑料標(biāo)簽缺陷的復(fù)雜性,單幅圖像中可能存在多個、多種缺陷,使用傳統(tǒng)的圖像處理技術(shù)對多尺度缺陷進行定位和識別具有很大的挑戰(zhàn)性。
隨著計算機視覺的快速發(fā)展,深度學(xué)習(xí)模型開始被應(yīng)用于工業(yè)產(chǎn)品檢測。到目前為止,已經(jīng)有許多基于不同網(wǎng)絡(luò)模型和算法的目標(biāo)檢測器用于缺陷檢測[8-10]。這些檢測器主要分為單階段和雙階段檢測器。其中,基于雙階段檢測算法的典型模型有:Region-CNN (R-CNN)[8]、Fast Region-based CNN (Fast R-CNN)[9]、Faster Region-based CNN (Faster R-CNN)[10]。在這些方法中,涉及兩個階段(即generating candidate regions和classifying proposal regions),這通常需要較長的處理時間。另一方面,單階段檢測器只需要通過一次神經(jīng)網(wǎng)絡(luò),并在短時間內(nèi)預(yù)測所有邊界框及其類別概率,因此更適合有實時需求的場景。最常見的單階段檢測器有YOLO[11-15]、SSD[16]、和CornerNet[17]。其中,YOLO是一種非常先進的目標(biāo)檢測器,因為它能夠?qū)崟r檢測物體,并具有良好的精度和魯棒性,已在許多工業(yè)場景中用于缺陷檢測。例如,在文獻[18]中,作者展示了一個多注意力深度學(xué)習(xí)網(wǎng)絡(luò),以解決紡織圖像中多個和多尺度缺陷共存的問題。在文獻[19]中,作者開發(fā)了一個基于YOLO-v3的端到端缺陷檢測模型。在文獻[20]中,作者展示了一種改進的MS-YOLOv5網(wǎng)絡(luò),該網(wǎng)絡(luò)采用多流網(wǎng)絡(luò),旨在提高對鋁表面缺陷的識別,對7種類型缺陷的總體準(zhǔn)確率達到87.4%,且檢測性能沒有明顯的不平衡。盡管研究人員在表面缺陷檢測方面進行了大量的研究,但很少有人嘗試解決工業(yè)應(yīng)用中對塑料標(biāo)簽物瑕疵缺陷的高精度、高效率檢測需求的日益增長。
此外,基于深度學(xué)習(xí)的缺陷檢測技術(shù)的另一個難點在于,它們往往需要大量帶注釋的訓(xùn)練樣本,而這些樣本本身數(shù)量較少,或收集起來很耗時。在某些情況下,特別是在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型時,缺陷樣本較少,可用的數(shù)量遠(yuǎn)遠(yuǎn)不能滿足需求。缺陷樣本的不足已成為各種自動化缺陷檢測系統(tǒng)設(shè)計和部署的瓶頸。最近的一些研究嘗試采用few-short learning,即從極其有限的訓(xùn)練樣本中學(xué)習(xí)來解決這一問題[21-22]。然而,它們的性能相當(dāng)有限,離實際應(yīng)用還很遙遠(yuǎn)。解決缺陷樣本不足的一種最直接的方法是使用數(shù)據(jù)增強方法來豐富數(shù)據(jù)集的數(shù)量和多樣性,從而訓(xùn)練出更好的缺陷檢測網(wǎng)絡(luò)模型。
因此,在本文的工作中,為了克服現(xiàn)有塑料標(biāo)簽缺陷檢測方法的局限性,并解決可用缺陷樣本不足的問題,我們使用單階段檢測器(即YOLOv5)進行缺陷檢測,并使用生成對抗網(wǎng)絡(luò)(GAN,generative adversarial network)進行數(shù)據(jù)增強和缺陷樣本合成。由于傳統(tǒng)的GAN在合成缺陷圖像時存在局限性,因此,我們采用了一種專門用于生成形狀不規(guī)則、分布隨機且尺寸不同缺陷樣本的Defect-Gan,通過模擬缺陷生成(defacement)和缺陷圖像重建(restoration)的過程,我們可以巧妙地利用大量的正常樣本來生成具有高保真度和多樣性的缺陷樣本。通過使用擴增數(shù)據(jù)集訓(xùn)練目標(biāo)檢測器,并對網(wǎng)絡(luò)的超參數(shù)進行優(yōu)化,可以顯著提高目標(biāo)檢測器的準(zhǔn)確率和精度。此外,為了模擬該方法在實際生產(chǎn)中的應(yīng)用場景,我們設(shè)計并定制了一臺半自動的圖像采集機械平臺用于采集圓柱樣品表面的印刷標(biāo)簽,以及一個自主開發(fā)的圖像處理和統(tǒng)計分析軟件。本文所開發(fā)的方法和平臺可以很容易地推廣并應(yīng)用到其他工業(yè)質(zhì)量控制和缺陷檢測系統(tǒng)中。
自2016年首次亮相以來,YOLO已經(jīng)有了很大的發(fā)展和升級。即使最新的版本是YOLOv7(仍在更新中),YOLOv5仍然被認(rèn)為是迄今為止最受歡迎的實時目標(biāo)檢測算法之一,由于其在卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域的最佳優(yōu)化策略,它在精度、效率和識別模型等方面都優(yōu)于其他目標(biāo)檢測算法。YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)圖可分為Input、Backbone、Neck、Head四部分,如圖1所示。
圖1 YOLOv5架構(gòu)
具體來說,YOLOv5的Input主要包括三種策略:馬賽克數(shù)據(jù)增強(mosaic data enhancement)、自適應(yīng)錨點計算(adaptive anchor calculation)和自適應(yīng)圖像縮放(adaptive image scaling)。首先,采用馬賽克數(shù)據(jù)增強算法[23],通過翻轉(zhuǎn)、裁剪、縮放等操作,對4張缺陷圖片進行隨機拼接,提高模型訓(xùn)練效率,增強網(wǎng)絡(luò)的魯棒性。為了適應(yīng)不同的數(shù)據(jù)集,YOLOv5在輸入上集成了自適應(yīng)錨幀計算。因此,當(dāng)使用不同的數(shù)據(jù)集進行訓(xùn)練時,初始錨盒的計算可以自動執(zhí)行和更新。
YOLOv5的Backbone主要使用Focus結(jié)構(gòu)和CSP(cross-stage particle network)結(jié)構(gòu),通過多次卷積和池化操作從輸入圖像中提取不同維度的特征圖。采用Bottleneck CSP,將基礎(chǔ)層的特征圖分成兩部分,再通過CSP進行合并,減少了計算量。最后,SPP(spatial pyramid pooling)結(jié)構(gòu)從不同尺度提取特征,生成三尺度特征圖,以提高檢測精度[24-26]。
在Neck中,YOLOv5使用FPN(feature pyramid network)和PAN(pixel aggregation network)來融合特征層,并在三個不同尺度的特征層上實現(xiàn)預(yù)測。其中FPN[27]是一個自頂向下的結(jié)構(gòu),它將高層特征通過上采樣和底層特征做融合得到進行預(yù)測的特征圖。PAN[28]是一個自底向上的特征融合層,對FPN進行補充,并將底層的定位特征傳遞上去。這兩種方法都有助于增強特征融合能力,增強定位的可移植性,提高檢測精度。
作為最后的檢測步驟,Head用于檢測物體的位置和類別。在Precision中,使用GIoU作為邊界框的損失函數(shù),表示為:
(1)
(2)
式中,A、B為GT框(the ground truth box)和預(yù)測框,C為A、B的最小閉合框。IoU由預(yù)測框與GT框的交互作用定義,它代表了預(yù)測的邊界框和GT在目標(biāo)區(qū)域的大小。GIoU是減去C框中與A和B不重疊的面積之比得到的值。因此,GIoU越大,性能就越好。
足量的注釋數(shù)據(jù)集在基于深度學(xué)習(xí)的目標(biāo)檢測和目標(biāo)分類中至關(guān)重要。缺乏缺陷樣本會導(dǎo)致訓(xùn)練過程過擬合、檢測精度差、泛化能力差等問題。然而,在某些情況下,很難獲得用于訓(xùn)練模型的足夠數(shù)據(jù)集。為了解決這一問題,可以采用數(shù)據(jù)增強算法來提高網(wǎng)絡(luò)的泛化能力。在本節(jié)中,我們展示了兩種合成圖像生成方法(即生成缺陷圖像的傳統(tǒng)方法和基于深度學(xué)習(xí)的Defect-GAN方法)。
生成缺陷圖像最直接的方法是使用傳統(tǒng)技術(shù),包括幾何變換(例如,旋轉(zhuǎn)、翻轉(zhuǎn)、平移)、顏色空間變換(例如,隨機改變圖像的色調(diào)、飽和度、亮度和對比度)、Kernel濾波器、隨機擦除、混合圖像和復(fù)制/粘貼[29]。
本工作中使用的第二種方法是使用GAN自動合成缺陷樣品[30-32]。其基本思想是將兩個神經(jīng)網(wǎng)絡(luò)結(jié)合起來,同時訓(xùn)練一個生成器來生成逼真的假圖像,以及一個鑒別器來區(qū)分生成的圖像和真實的圖像。
圖2 GAN架構(gòu)
生成器(G,generator)將一個固定長度的隨機向量作為輸入,并學(xué)習(xí)模擬生成原始數(shù)據(jù)集包含的缺陷樣本。然后將生成的樣本和原始數(shù)據(jù)集的樣本輸入鑒別器(D,discriminator),鑒別器學(xué)習(xí)區(qū)分合成圖像和真實圖像。生成器的目標(biāo)是創(chuàng)建與原始圖像盡可能相似的樣本圖像,從而欺騙鑒別器,使其相信合成樣本是真實的。因此,生成器和鑒別器可以被認(rèn)為是在進行極大極小值的博弈,其中生成器的目標(biāo)是最大化鑒別器將生成的圖像標(biāo)記為真實樣本的概率,鑒別器的目標(biāo)是最小化將真實數(shù)據(jù)標(biāo)記為真實樣本的概率。
迄今為止,研究者已經(jīng)提出了許多不同的GAN架構(gòu)[33-40],用于面部表情編輯、圖像修補、風(fēng)格翻譯、超分辨率等。其中包括用于生成人臉圖像的StyleGan2[33],用于圖像到圖像轉(zhuǎn)換任務(wù)的pix2pixGan[34],將黑白照片轉(zhuǎn)換為彩色,以及用于擴大生物醫(yī)學(xué)圖像數(shù)據(jù)集的CycleGAN[35]。然而,這些方法在用于生成高保真缺陷樣本時存在局限性。在最近的另一篇文章中,作者提出了Defect-GAN[36],它是專門為生成缺陷樣本而設(shè)計的。在這個體系結(jié)構(gòu)中,通過模擬缺陷生成(即在正常樣本上生成缺陷)和缺陷圖像重建(即將缺陷樣本恢復(fù)到正常樣本)的過程,我們可以巧妙地利用大量的正常樣本來生成缺陷樣本。Defect-Gan的結(jié)構(gòu)如圖3所示。
生成器采用了一個編碼器-解碼器幀,它首先對輸入圖像進行編碼,步幅為4,然后將其解碼為原始大小。此外,由于塑料標(biāo)簽上的一些缺陷通常具有復(fù)雜且不規(guī)則的形狀,且具有隨機變化,因此使用傳統(tǒng)的GAN建模具有困難。為了緩解這種情況,我們采用了一種自適應(yīng)噪聲引入機制,該機制結(jié)合了隨機性來模擬缺陷內(nèi)的隨機變化。有了這樣的配置,我們可以生成更真實的缺陷樣本,提高保真度和多樣性。判別器的主要架構(gòu)沿用了StarGan[37],它使用PatchGan[34]和一個分類指標(biāo)來預(yù)測生成的缺陷類別來區(qū)分假樣本和真實樣本。
在數(shù)學(xué)上,D和G使用極小極大博弈來生成與現(xiàn)實圖像難以區(qū)分的圖像,我們采用的對抗性損失為[37]:
Ex,c[log(1-Dsrc(d(x,c)))]
(3)
其中:G生成一個圖像d(x,c),條件是輸入圖像x和目標(biāo)缺陷標(biāo)簽c,而x試圖區(qū)分真實和虛假的圖像。Dsrc(x)為D給出的源的概率分布。
(4)
(5)
前者是對D進行優(yōu)化,將真實的缺陷樣本分類到目標(biāo)類別,后者是對G進行優(yōu)化,生成目標(biāo)類別c的缺陷樣本。因此,通過最小化對抗和分類損失,我們可以在目標(biāo)類別中生成真實的樣本圖像。
在本節(jié)中,我們將簡要描述用于評估模型性能的指標(biāo)。我們使用精度P(定義為正確分類的缺陷產(chǎn)品占分類器所劃分的所有缺陷產(chǎn)品的比例)和召回率R(定義為正確分類的缺陷產(chǎn)品占缺陷產(chǎn)品數(shù)量的比例)來計算模型的平均精度(mAP,mean average precision):
(6)
式中,N表示N個分類,AP表示平均準(zhǔn)確率,計算方法如下:
(7)
(8)
(9)
其中:TP為真正例,表示本文算法提取的缺陷與人工標(biāo)注的缺陷相符合。類似的,F(xiàn)P為假正例,表示本文算法能提取到缺陷,而實際無缺陷;FN為假反例,表示本文算法未提取到缺陷,而實際有缺陷。此外,利用精準(zhǔn)率-召回率曲線(PR曲線)和F1分?jǐn)?shù)來評估我們的模型性能。其中PR曲線是精準(zhǔn)率與召回率的關(guān)系圖,精確率和召回率是一對相互矛盾的指標(biāo),一般來說高精準(zhǔn)率往往意味著低召回率,反之亦然。為了獲得優(yōu)秀的模型,需要綜合P和R,因此曲線越靠近圖的右上角,說明模型的性能越好。但一般來說,算法之間的PR曲線彼此交錯,很難分辨優(yōu)劣,所以實際中常用F1分?jǐn)?shù)來衡量。F1定義為:
(10)
現(xiàn)實場景中涉及塑料標(biāo)簽種類繁多。在我們的初步研究中,我們將主要針對印刷在圓柱表面上的半透明塑料標(biāo)簽。它主要有六種不同的缺陷類型,即異物、重影、劃痕、墨點、線條缺失、指紋。由于基材的透明性,事實上,其中一些缺陷很難通過簡單的人工檢查來識別。當(dāng)檢查人員經(jīng)過幾個小時的操作后出現(xiàn)視覺疲勞時,情況會變得更糟。在本節(jié)中,我們首先介紹自動采集樣本圖像的實驗設(shè)置。我們的裝置主要由機械平臺、光學(xué)照明、圖像采集、圖像處理與缺陷檢測與顯示五個模塊組成,如圖4(a~e)所示。
為了模擬真實的工業(yè)檢測場景,該物體被放置在定制的機械臺上,可以同時進行一維平移和360度旋轉(zhuǎn)。具體地說,該物體被放置在可旋轉(zhuǎn)的支架上,如圖4(c)所示。當(dāng)物體被傳送到指定位置時,編碼器提供一個基于距離的觸發(fā)信號。為了用線掃描相機(Linea2,Dalsa,Canada)獲得圓柱形物體上標(biāo)簽的清晰2D圖像,物體的旋轉(zhuǎn)速度和掃描速率必須完美同步。當(dāng)物體到達指定位置時,旋轉(zhuǎn)電機單元開始旋轉(zhuǎn)圓柱形物體。同時將圖像通過GigE接口發(fā)送給計算機,然后重構(gòu)成展開的塑料標(biāo)簽二維圖像,如圖4(d)所示。物體旋轉(zhuǎn)與相機之間的精確同步是在水平軸和垂直軸上獲得可重復(fù)分辨率和相同分辨率的關(guān)鍵。為了保障采集的標(biāo)簽圖像不失真,同軸度必須得到保證。最后,自主開發(fā)的圖形用戶界面(GUI,graphical user interface)上可對樣本進行圖像的自動采集、處理和統(tǒng)計分析,如圖4(e)所示。當(dāng)用戶從GUI界面發(fā)出“采集圖像”的請求時,平臺開始旋轉(zhuǎn),并同時打開線掃光源進行照明。在界面上展示了原始圖像、檢測到的缺陷以及不同缺陷的實時更新和直方圖。在我們的初步研究中,我們發(fā)現(xiàn),即便使用半自動化的處理,采集足夠的樣本圖像也是一個耗時的過程,當(dāng)需要大量缺陷圖像時,該方法仍有一定的局限性。事實上,正如我們將在下面的工作中展示的那樣,通過使用數(shù)據(jù)增強,可以方便地合成缺陷圖像。此外,需要說明的是,根據(jù)樣品的特性和檢驗要求,光學(xué)照明可以采用不同的配置。特別是為了突出塑料表面的輕微劃痕,可采用低角度照明。此外,通過在光源前安裝偏振濾光片,我們可以避免來自反射表面的眩光。在圖5中,我們展示了通常出現(xiàn)在塑料標(biāo)簽上的六種主要缺陷類型。
圖4 5個模塊示意圖
圖5 塑料標(biāo)簽的6種主要缺陷類型
原始數(shù)據(jù)集是使用圖4所示的裝置獲得的343張圖像(512×512像素),其中共包括6種類型的缺陷(即墨點、指紋、異物、重影、劃痕和線條缺失)??紤]到樣本不足,我們采用傳統(tǒng)數(shù)據(jù)增強方法和生成對抗網(wǎng)絡(luò)Defect-GAN進行數(shù)據(jù)增強,相應(yīng)的圖像和注釋數(shù)量如表1所示。
表1 每個數(shù)據(jù)集中圖像和注釋的數(shù)量 個
圖像處理和分析的計算機環(huán)境定義如下:CPU,Intel(R)Core (TM)i7-11700KF@3.60GHz 8-core CPU;GPU,NVIDIA GeForce RTX3060Ti;SSD,1TB;pro-gramming languages,Python3.9;Framework,Pytorch 1.7.1;deep learning accelerator,CUDA 11.0 and CUDNN 11.1;IDE:Spider 3.9。
在這項工作中,訓(xùn)練前的參數(shù)設(shè)置如下:image size:512×512;learning rate:0.001;Optimizer:stochastic gradient descent (SGD);momentum,0.937;weight decay:0.005;batch size:64;epoch:600。
為了可視化YOLOv5在數(shù)據(jù)增強后的提升,我們分別給出了原始數(shù)據(jù)集訓(xùn)練的YOLOv5模型,以及傳統(tǒng)增強和GAN增強后的YOLOv5模型的度量曲線。目標(biāo)檢測算法利用訓(xùn)練損失和驗證損失來判斷模型是否穩(wěn)定。YOLOv5的損失可以進一步分為box_loss、obj_loss和cls_loss,它們是算法進行目標(biāo)預(yù)測效果的指標(biāo)。如圖6所示,用原始數(shù)據(jù)集訓(xùn)練的模型,曲線不僅不穩(wěn)定,而且不收斂。相比之下,當(dāng)使用增強數(shù)據(jù)集訓(xùn)練時,模型在100次迭代后變得穩(wěn)定并且變化最小,并且在兩種情況下,mAP都有很大的改進。
此外,我們還比較了不同網(wǎng)絡(luò)模型的F1_curve和PR_curve。如圖7(a~c)所示,我們繪制了F1_curve,這是一個同時考慮了模型的準(zhǔn)確性和召回率的度量。曲線越高,模型的性能越好。我們可以看到,在所有類別的數(shù)據(jù)增強后,YOLOv5的F1_curve變得更高。為了評估目標(biāo)檢測器在各種閾值下的性能,我們還繪制了P_R曲線,如圖7(d~f)所示。值得注意的是,我們可以看到,使用GAN增強數(shù)據(jù)集訓(xùn)練的YOLOv5所包圍的區(qū)域比使用原始數(shù)據(jù)集和傳統(tǒng)增強數(shù)據(jù)集訓(xùn)練的YOLOv5所包圍的區(qū)域要大,這表明模型獲得了明顯的增強。
前三列是box loss,objectness loss,和classification loss。右邊的兩列是訓(xùn)練過程中的precision和recall,以及驗證過程中的mAP。圖6 訓(xùn)練和驗證過程的輸出
第一、第二和第三列分別對應(yīng)原始數(shù)據(jù)集、傳統(tǒng)增強后和GAN增強后的結(jié)果。圖7 YOLOv5下不同數(shù)據(jù)集的F1_curve和PR_curve比較
最后,利用不同的網(wǎng)絡(luò)模型進行實際檢測分類的結(jié)果如圖8所示。圖中的標(biāo)簽顯示了分類結(jié)果及其置信度分?jǐn)?shù)。第一行是用原始數(shù)據(jù)集(方案1)訓(xùn)練的YOLOv5對每個缺陷的檢測結(jié)果,第二行和第三行分別是用傳統(tǒng)數(shù)據(jù)增強方法(方案2)和Defect-GAN生成對抗網(wǎng)絡(luò)(方案3)訓(xùn)練的YOLOv5對每個標(biāo)簽缺陷的檢測結(jié)果。從圖8中可以清楚地看到,使用方案1時未發(fā)現(xiàn)的一些缺陷在使用方案2和方案3時可被發(fā)現(xiàn)。此外,對于已識別的缺陷,方案3的置信度評分普遍高于方案1和方案2,這表明分類精度有所提高。結(jié)果表明,方案3檢測性能最好,幾乎所有缺陷類型都能被準(zhǔn)確識別和分類。
圖8 使用原始數(shù)據(jù)集訓(xùn)練模型(方案1),經(jīng)過傳統(tǒng)增強(方案2)和GAN(方案3)增強后,同一數(shù)據(jù)集的實際檢驗和分類結(jié)果
為了使實驗結(jié)果更加直觀,我們在表2中列出了三個主要性能指標(biāo)。可以很好地觀察到,與使用原始數(shù)據(jù)集相比,使用合成圖像訓(xùn)練模型的精度、召回率和mAP都得到了提高。當(dāng)采用生成對抗網(wǎng)絡(luò)合成的數(shù)據(jù)進行訓(xùn)練后,檢測器的mAP已經(jīng)超達到99.5%,可以滿足絕大多數(shù)工業(yè)應(yīng)用場景的需求。我們的實驗證明,為了達到預(yù)期的性能,有足夠的的數(shù)據(jù)是很重要的。此外,Defect-GAN能夠生成具有高保真度和多樣性的缺陷圖像,從而提高目標(biāo)檢測器的精度。本工作的實驗結(jié)果也證實了Defect-GAN在缺陷合成的保真度、多樣性和可轉(zhuǎn)移性方面的優(yōu)越性,尤其適用于工業(yè)質(zhì)量控制和缺陷檢測。
表2 方案1、2、3性能比較
此外,為了進一步驗證YOLOv5在工業(yè)缺陷檢測方面的優(yōu)越性和適用性,我們將其性能與Faster-RCNN算法進行了比較。實驗結(jié)果如圖9所示??梢钥闯?,在每個數(shù)據(jù)集的檢測結(jié)果中,YOLOv5在整體性能上優(yōu)于Faster RCNN。特別是在原始數(shù)據(jù)集上訓(xùn)練模型時,mAP從48.6%提高到71.7%,達到了23.1%的顯著提高。同樣,當(dāng)模型使用合成數(shù)據(jù)集訓(xùn)練時,分別有20.6%和16.1%的改善。
圖9 使用兩種不同算法(YOLOv5和Faster RCNN)時mAP對比圖
總之,在本文中,我們研究并開發(fā)了一個用于圓柱表面塑料標(biāo)簽的自動檢測和分類平臺。我們的主要結(jié)論是,通過數(shù)據(jù)增強合成缺陷圖像可以顯著提高目標(biāo)檢測器的準(zhǔn)確性和泛化能力。我們選擇YOLOv5作為目標(biāo)檢測器,因為它具有良好的效率、精度和魯棒性。針對實際中缺陷樣本不足的問題,我們探究了兩種數(shù)據(jù)增強方法。通過使用傳統(tǒng)的數(shù)據(jù)增強方法和Defect-GAN網(wǎng)絡(luò)訓(xùn)練模型,整體精度得到了很大的提高。所展示的數(shù)據(jù)增強方法可以合成具有良好多樣性和保真度的缺陷圖像,能夠解決網(wǎng)絡(luò)訓(xùn)練過程中樣本不足的問題,從而提高預(yù)測和分類精度。我們相信合成數(shù)據(jù)的生成可以推廣到數(shù)據(jù)集有限的其他場景,因此特別適用于需要實時缺陷檢測和分類的工業(yè)應(yīng)用。
在后續(xù)研究中,我們將繼續(xù)提高超小目標(biāo)檢測算法的精度和泛化能力,并進一步開發(fā)復(fù)雜的集成軟件,用于各種工業(yè)場景下的實時缺陷檢測和質(zhì)量控制。