基于改進Unet的食品包裝盒圖像分割

2024-06-17 13:26:58周陽賀福強聶文豪陳其梅

軟件工程 2024年6期

周陽賀福強聶文豪陳其梅

摘?要：

本文針對工業(yè)生產(chǎn)現(xiàn)場的復(fù)雜背景對印刷品缺陷檢測造成的影響，以及為了更加精準(zhǔn)地檢測食品包裝盒圖像上的小目標(biāo)，提出了一種基于改進Unet的語義分割算法，將前景圖像從復(fù)雜的圖像中提取出來，采用VGG16作為Unet網(wǎng)絡(luò)的主干提取部分，提取高層的全局特征信息；引入了注意力機制提高圖像分割的精確度和細節(jié)保留能力。經(jīng)改進的Unet模型的評價指標(biāo)IoU、mIoU、PA、F1＼|score分別為99.45%、99.60%、99.83%、99.72%，相比原Unet模型，各項指標(biāo)分別提升了1.73百分點、1.24百分點、0.53百分點、0.87百分點，能夠更加精準(zhǔn)地分割食品包裝盒與傳送帶背景的邊緣，為后續(xù)的缺陷檢測提供了精準(zhǔn)的數(shù)據(jù)支持。

關(guān)鍵詞：食品包裝盒；圖像分割；Unet；注意力機制

中圖分類號：TP391.4??文獻標(biāo)志碼：A

0?引言（Introduction）

在工業(yè)智能化的背景下，對印刷品表面質(zhì)量檢測技術(shù)是促使印刷行業(yè)印品質(zhì)量的檢測智能化的核心，需要通過算法識別并定位印刷品的缺陷。在工業(yè)生產(chǎn)場景中，印刷品的檢測要滿足高效需求，通常使用蜂窩眼傳送帶輸送印刷品，由于傳送速度較快，蜂窩眼傳送帶紋理和顏色的干擾會使某些印刷品的邊界難以識別，加大了檢測難度。為了實時快速、準(zhǔn)確地在線檢測印刷品的質(zhì)量缺陷，需要將印刷品的前景圖像從生產(chǎn)現(xiàn)場的復(fù)雜背景環(huán)境中分割出來，保證后續(xù)產(chǎn)品質(zhì)量缺陷檢測的精度。隨著深度學(xué)習(xí)的迅速發(fā)展，有許多學(xué)者將語義分割應(yīng)用于不同的領(lǐng)域，并取得了很多成果。ZHANG等［1］針對混凝土裂縫檢測算法實現(xiàn)復(fù)雜、泛化能力弱及像素精度較低等問題，提出了一種基于Unet的改進方法CrackUnet，采用名為廣義骰子損失（generalized?dice?loss）的新?lián)p失函數(shù)進行像素級裂縫自動檢測。SINGH等［2］針對衛(wèi)星圖像提取植被和城市的問題，在Deep?Unet使用兩種超像素分割算法FAAGKFCM和SLIC?Superpixel對圖像進行預(yù)處理，建立基于衛(wèi)星圖像的不同垃圾填埋場分類映射并繪制土地覆被圖。BOUGOURZI等［3］提出了PAtt＼|Unet和DAtt＼|Unet架構(gòu)，提高了肺葉圖像內(nèi)?Covid＼|19?感染的分割性能。

目前，工業(yè)場景下使用更多的是基于傳統(tǒng)的方法進行圖像的分割，需要根據(jù)每種產(chǎn)品圖像的特性設(shè)計分割的算法，本文針對這個問題在Unet的基礎(chǔ)上做了改進，使用VGG16網(wǎng)絡(luò)取代Unet的下采樣來提取圖像特征，并且引入了注意力機制，使網(wǎng)絡(luò)可以自適應(yīng)地學(xué)習(xí)到每個通道的重要性，幫助模型提高分割精度、減少背景干擾、處理多目標(biāo)場景、增強細節(jié)信息及適應(yīng)不同尺度的圖像，從而提高分割模型的性能和效果。

1?網(wǎng)絡(luò)模型（Network?model）

1.1?Unet模型結(jié)構(gòu)[HJ1.5mm]

Unet模型是由德國弗萊堡大學(xué)的Olaf?Ronneberger等提出的，通常用于生物醫(yī)學(xué)領(lǐng)域的圖像分割。Unet模型的結(jié)構(gòu)優(yōu)美（圖1），是一個呈對稱分布的“U”形結(jié)構(gòu)。Unet模型具有對稱的編碼器和解碼器結(jié)構(gòu)，編碼器就是圖1中左邊的部分，能夠?qū)訉訅嚎s圖像的分辨率并提取圖像特征信息，而解碼器是圖1中右邊的部分，將壓縮圖像層層還原并與每層相同分辨率的圖像進行融合，得到更全面的上下文和位置信息。

當(dāng)圖像被輸入Unet模型中，先經(jīng)過編碼器，即主干特征提取網(wǎng)絡(luò)，該過程會對輸入圖像進行兩次3×3的卷積，提取有效的特征層，并對特征層使用ReLU非線性激活函數(shù)和通過2×2的最大池化maxpooling進行下采樣，然后重復(fù)對特征層進行上述操作3次，共計執(zhí)行4次下采樣，最終會得到5個有效特征層。通過對模型最底層的有效特征層執(zhí)行上采樣操作，會生成一個新的特征層，將這個新的特征層與主干特征提取網(wǎng)絡(luò)的第四層特征拼接，實現(xiàn)特征的融合。對通過兩次3×3的卷積得到的特征層執(zhí)行上采樣操作，并將其與主干特征提取網(wǎng)絡(luò)的第三層特征層進行拼接，再進行特征融合，重復(fù)這個過程兩次，共計執(zhí)行4次上采樣，得到了與原始輸入圖像相同尺寸的特征圖，然后進行兩次3×3的卷積后，再使用1×1的卷積將通道數(shù)調(diào)整為類別數(shù)，得到最終的預(yù)測結(jié)果。

1.2?改進主干特征提取網(wǎng)絡(luò)

Unet模型的主干提取部分網(wǎng)絡(luò)較淺，是由幾個卷積和最大池化層構(gòu)成的，在提取淺層特征信息時有一定的優(yōu)勢，但是可能無法提取到高層的全局特征信息［4］，因此本文考慮在主干提取網(wǎng)絡(luò)部分使用VGG16網(wǎng)絡(luò)進行特征的提?。?］，可以得到更高層抽象的特征信息。VGG16網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

本文使用VGG16作為主干提取網(wǎng)絡(luò)進行下采樣，對比原本的Unet主干提取網(wǎng)絡(luò)，將主干提取網(wǎng)絡(luò)下采樣中的兩次卷積調(diào)整為3次卷積，增強了網(wǎng)絡(luò)的非線性變換能力，大大提高了網(wǎng)絡(luò)對高層抽象特征的提取，同時減少了特征圖在下采樣過程中的信息損失，提高了Unet模型對圖像細節(jié)和邊緣的保留能力，得到的結(jié)果有清晰的細節(jié)和完整的邊緣信息。

1.3?CBAM與SE注意力機制

注意力機制是一種讓模型學(xué)習(xí)和關(guān)注重要信息的方法，它可以讓模型將注意力集中于圖像中的重要區(qū)域或特征［6＼|7］，進而提高分割模型的準(zhǔn)確性和精度。CBAM模塊（Convolutional?Block?Attention?Module）由通道注意力模塊（Channel?Attention?Module）和空間注意力模塊（Spatial?Attention?Module）組成［8］，CBAM注意力機制結(jié)構(gòu)如圖3所示，它能夠自動識別并賦予重要性權(quán)重給特征圖中關(guān)鍵的通道和空間位置，提高整個Unet模型對空間和通道注意力的學(xué)習(xí)能力，從而增強Unet模型的特征表示能力和整體性能，CBAM注意力機制的公式如下：

SE（Squeeze＼|and＼|Excitation）是一種注意力機制模塊［9］，用于神經(jīng)網(wǎng)絡(luò)模型的特征表示能力，通過學(xué)習(xí)自適應(yīng)地分配不同的特征圖通道權(quán)重［圖4（a）］，提高模型對不同通道的關(guān)注能力。

首先，第一步的?Fsq壓縮機制是將通道全局平均池化，將輸入的特征圖壓縮成1×1×C的特征向量[WTHX]Z[WTBZ]［圖4（b）］，這個特征向量包含了上下文信息，能夠表示每個通道的重要性，降低了對通道的依賴性，壓縮機制的公式如下：

其次，通過Fex激勵機制將特征向量[WTHX]Z[WTBX]中的上下文信息捕獲通道依賴性，這一機制包含由兩個全連接層構(gòu)成的門控結(jié)構(gòu)，最后得到權(quán)重s，用來描述特征圖x中不同通道特征圖的權(quán)重，激勵機制的公式如下：

其中：S是計算得到的權(quán)重，[WTHX]Z[WTBX]是壓縮機制得到的特征向量，W是網(wǎng)絡(luò)學(xué)習(xí)得到的權(quán)重，W1和W2是兩個全連接層，δ是ReLU非線性激活函數(shù)，σ是sigmoid激活函數(shù)。

最后，將生成的權(quán)重S與輸入特征x對應(yīng)通道相乘得到SE注意力機制的特征圖x～，將激勵機制生成的自適應(yīng)權(quán)重應(yīng)用到輸入特征圖的每個通道中，使模型能夠關(guān)注更重要的特征，提高了Unet模型的性能。

1.4?改進的Unet模型結(jié)構(gòu)

改進的Unet模型框架如圖5所示，在主干特征提取階段使用VGG16的部分網(wǎng)絡(luò)，將Unet模型的兩次卷積換成3次卷積，有更多的卷積層意味著能夠提取更豐富的特征，在跳躍連接到解碼器之前加入CBAM注意力機制模塊，在輸出卷積前加入SE注意力機制模塊，讓模型關(guān)注圖像中的重要細節(jié)信息，特別是食品包裝盒的紋理、形狀和邊界等細節(jié)信息，讓Unet模型中編碼器部分捕獲到的低級和高級語義信息能更好地與解碼器中的特征融合，使得上采樣后的圖像能夠保留更多的原始特征信息，最終實現(xiàn)對不同食品包裝盒與蜂窩孔傳送帶（背景）的準(zhǔn)確可靠分割。

2?實驗與分析（Experiment?and?analysis）

2.1?實驗準(zhǔn)備

本文使用自制的食品包裝盒圖像分割數(shù)據(jù)集，在生產(chǎn)線上采集食品包裝盒圖像，圖像使用labelme進行標(biāo)注，將圖片中的像素點分別劃分為兩類，分別是Print（印刷品）和Background（背景）。如圖6所示，食品包裝盒圖像數(shù)據(jù)集共400張圖片，包含不同的食品包裝盒圖像，如圖6（a）至圖6（d）所示，分別為刺梨汁、棗仁安神膠囊、黃連上清片和仙靈骨葆片的包裝盒圖像，圖像的大小、邊緣和顏色各不相同，通過鏡像、旋轉(zhuǎn)、裁剪、對比度增強等方法實現(xiàn)數(shù)據(jù)增強，將數(shù)據(jù)集擴充至1?000張。

本文實驗的硬件參數(shù)配置如表1所示，模型訓(xùn)練使用隨機梯度下降SGD（Stochastic?Gradient?Descent）作為優(yōu)化器，初始學(xué)習(xí)率為1×10-4，使用在voc2007數(shù)據(jù)集上訓(xùn)練的權(quán)重作為初始權(quán)值，在其基礎(chǔ)上訓(xùn)練食品包裝盒數(shù)據(jù)集的改進Unet模型，訓(xùn)練模型共訓(xùn)練100輪。

2.2?評價指標(biāo)

本文采用像素準(zhǔn)確率（Pixel?Accuracy，PA）、交并比（Intersection?over?Union，IoU）、平均交并比（Mean?Intersection?over?Union，mIoU）及F1＼|score（F1）對模型的圖像分割性能進行評判。其中，PA是指預(yù)測正確的像素數(shù)量占整個圖像的像素數(shù)量的比例，分?jǐn)?shù)越高，代表圖像整體的分割效果越好，但是PA只關(guān)注像素級別的準(zhǔn)確性，忽略了類別的平衡性和分割的細節(jié)，其公式如下：

IoU是指預(yù)測食品包裝盒分割模板和真實標(biāo)注模板的交集與并集之比，分?jǐn)?shù)越高，代表預(yù)測的分割模板與真實標(biāo)注模板的重疊程度越好，意味著模型能夠更好地捕捉到食品包裝盒的邊界和形狀，模型分割精度也越高，但IoU忽略了像素級別的準(zhǔn)確性和類別的平衡性，其公式如下：

IoU=TPTP+FP+FN[JZ）][JY]（6）

mIoU是平均計算所有類別的IoU，如果模型在某些類別上的分割結(jié)果較差，就會降低mIoU值，因此可以對不同類別的分割結(jié)果做整體評估。

F1是準(zhǔn)確率（Precision）和召回率（Recall）的調(diào)和平均數(shù)，能夠平衡預(yù)測的準(zhǔn)確性和對正類別的識別能力，其公式如下：

2.3?消融實驗

將CBAM注意力機制與SE注意力機制加入原Unet模型中，可以讓模型將注意力集中于圖像中的重要區(qū)域或特征，提高分割模型的準(zhǔn)確性和精度，同時采用VGG16網(wǎng)絡(luò)作為核心的特征提取網(wǎng)絡(luò)，替換Unet原有的主干網(wǎng)絡(luò)，并引入了兩種注意力機制進行模型的訓(xùn)練和分析。實驗結(jié)果如表2所示，引入兩種注意力機制的模型的各項指標(biāo)均高于原Unet模型；加入CBAM注意力機制的模型的IoU、mIoU、PA及F1指標(biāo)相比原Unet模型，分別提升了1.89百分點、1.03百分點、0.43百分點、0.73百分點；加入SE注意力機制的模型的IoU、mIoU、PA及F1指標(biāo)相比原Unet模型，分別提升了0.98百分點、0.68百分點、0.28百分點、0.49百分點；而將兩種注意力機制一起加入原Unet模型后，其IoU、mIoU、PA及F1指標(biāo)分別提升了1.73百分點、1.24百分點、0.53百分點、0.87百分點，說明在模型中引入注意力機制的有效性。

為了驗證改進的Unet模型的性能，將其與基線Unet模型對比。如圖7所示，圖7（a）、圖7（b）、圖7（c）分別表示為訓(xùn)練損失、驗證損失和mIoU的對比，結(jié)果顯示改進的Unet模型在這三個指標(biāo)上的性能都遠高于基線模型，說明改進的Unet模型的有效性。

2.4?對比實驗

為了驗證本文提出的改進的Unet模型的分割性能，本文選取3種典型的語義分割算法DeepLabv3+、原Unet和PSPNet，將以上3種算法與改進的Unet模型算法進行圖像分割結(jié)果的對比，結(jié)果如圖8（a）至圖8（d）所示。從圖中可以看出，4種語義分割算法都能夠大致分割出食品包裝盒的主體部分，但DeepLabv3+、原Unet、PSPNet對離傳送帶最近的包裝盒的邊緣出現(xiàn)了過分割或者欠分割的問題，在圖8（a）至圖8（c）中，DeepLabv3+、原Unet、PSPNet對食品包裝盒與背景連接的轉(zhuǎn)角處出現(xiàn)將背景識別為包裝盒而把包裝盒識別為背景的情況，而改進的Unet模型只在圖8（d）中對靠近背景的邊緣分割出現(xiàn)分割分界線不夠明確的結(jié)果，對其他的食品包裝盒包括邊緣密集的轉(zhuǎn)角處都能很精細地分割出來。

通過測試集計算，得到了不同網(wǎng)絡(luò)的IoU、mIoU、PA及F1指標(biāo)對照如表3所示，改進的Unet的IoU、mIoU、PA以及F1指標(biāo)分別為99.45%、99.60%、99.83%、99.72%，高于其他3種模型，相較于原Unet模型，上述4項指標(biāo)分別提升了1.73百分點、1.24百分點、0.53百分點、0.87百分點。綜上所述，本文提出的改進Unet模型能夠更加完整地分割食品包裝盒及精準(zhǔn)地分割包裝盒邊緣，為后續(xù)的缺陷檢測提供了精準(zhǔn)的數(shù)據(jù)支持。

3?結(jié)論（Conclusion）

對印刷品進行表面質(zhì)量檢測之前，先將其從復(fù)雜背景環(huán)境中分割出來，能夠提高后續(xù)缺陷檢測的精度并降低計算成本。針對傳統(tǒng)算法必須對不同的對象使用不同的分割算法而導(dǎo)致效率低下的問題，本文提出了改進的Unet模型，在原Unet模型中將特征提取部分修改為VGG16的部分網(wǎng)絡(luò)，并采用了CBAM注意力機制和SE注意力機制，使模型能夠區(qū)分不同目標(biāo)之間的邊界，捕捉目標(biāo)區(qū)域的細節(jié)信息，從而提高分割的精確度和細節(jié)保留能力，解決了其他模型對食品包裝盒和背景分割效果不好的問題。改進的Unet模型的評價指標(biāo)IoU、mIoU、PA、F1指標(biāo)分別為99.45%、99.60%、99.83%、99.72%，高于其他模型，實現(xiàn)了將食品包裝盒從復(fù)雜背景中分割出來，降低了下一步食品包裝盒缺陷檢測時的計算成本，同時解決了對缺陷進行識別與定位時存在的背景干擾問題。

參考文獻（References）

［1］?ZHANG?L?X，SHEN?J?K，ZHU?B?J.?A?research?on?an?improved?Unet＼|based?concrete?crack?detection?algorithm［J］.?Structural?health?monitoring，2021，20（4）：1864＼|1879.

［2］?SINGH?N?J，NONGMEIKAPAM?K.?Semantic?segmentation?of?satellite?images?using?deep＼|Unet［J］.?Arabian?journal?for?science?and?engineering，2023，48（2）：1193＼|1205.

［3］?BOUGOURZI?F，DISTANTE?C，DORNAIKA?F，et?al.?PDAtt＼|Unet：pyramid?Dual＼|Decoder?Attention?Unet?for?Covid＼|19?infection?segmentation?from?CT＼|scans［J］.?Medical?image?analysis，2023，86：102797.

［4］?殷金平.?基于深度學(xué)習(xí)的地質(zhì)裂縫識別方法研究與實現(xiàn)［D］.?大慶：東北石油大學(xué)，2022.

［5］?胡駿，陸興華，林檉莼，等.?改進的VGG16在水稻稻瘟病圖像識別中的應(yīng)用［J］.?計算機應(yīng)用，2023，43（S2）：196＼|200.

［6］?劉穎，孫海江，趙勇先.?基于注意力機制的復(fù)雜背景下紅外弱小目標(biāo)檢測方法研究［J］.?液晶與顯示，2023，38（11）：1455＼|1467.

［7］?GUO?Y?Y，AGGREY?S?E，YANG?X，et?al.?Detecting?broiler?chickens?on?litter?floor?with?the?YOLOv5＼|CBAM?deep?learning?model［J］.?Artificial?intelligence?in?agriculture，2023，9：36＼|45.

［8］?孫凌輝，趙麗科，李琛，等.?融入CBAM的Res＼|UNet高分辨率遙感影像語義分割模型［J］.?地理空間信息，2024，22（2）：68＼|70.

［9］?LI?K，HUANG?W，HU?G?Y，et?al.?Ultra＼|short?term?power?load?forecasting?based?on?CEEMDAN＼|SE?and?LSTM?neural?network［J］.?Energy?and?buildings，2023，279：112666.

作者簡介：

周?陽（1998＼|），男，碩士生。研究領(lǐng)域：機器視覺，缺陷檢測。

賀福強（1975＼|），男，博士，副教授。研究領(lǐng)域：機器視覺與模式識別。

聶文豪（1976＼|），男，本科，高級工程師。研究領(lǐng)域：印刷技術(shù)。

陳其梅（1977＼|），女，本科，高級工程師。研究領(lǐng)域：印刷技術(shù)。