陳 亮,白文濤
(沈陽(yáng)理工大學(xué) 自動(dòng)化與電氣工程學(xué)院 沈陽(yáng)110159)
輪胎生產(chǎn)過(guò)程中,受工藝技術(shù)及生產(chǎn)設(shè)備等因素的影響,會(huì)形成一些影響輪胎質(zhì)量的瑕疵,常見(jiàn)瑕疵有:雜質(zhì),胎側(cè)氣泡,胎肩氣泡,簾線彎曲、交叉,帶束層重疊、散線、缺線,單根胎稀,多根胎稀,零度散線,子口開線、散線等。
目前,輪胎缺陷的檢測(cè)和分類主要利用X射線成像技術(shù)得到輪胎內(nèi)部X光片,通過(guò)人工肉眼觀察圖像,確定輪胎有無(wú)缺陷并對(duì)缺陷進(jìn)行分類。受操作者工作經(jīng)驗(yàn)、工作狀態(tài)及其他主觀因素的影響,該方法檢測(cè)速度較慢,檢測(cè)準(zhǔn)確性不穩(wěn)定。隨著市場(chǎng)經(jīng)濟(jì)及道路交通快速發(fā)展,輪胎需求量飛速增長(zhǎng),這種檢測(cè)方法不僅不能滿足市場(chǎng)需求,甚至嚴(yán)重制約了我國(guó)輪胎工業(yè)的發(fā)展,成為我國(guó)輪胎產(chǎn)業(yè)升級(jí)的瓶頸。
近年來(lái),隨著人工智能和深度學(xué)習(xí)的飛速發(fā)展,國(guó)內(nèi)外學(xué)者開始利用深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行輪胎缺陷檢測(cè)。卞國(guó)龍等[1]使用卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地提取輪胎X射線圖像特征,并用現(xiàn)有訓(xùn)練模型對(duì)瑕疵特征進(jìn)行分類。文獻(xiàn)[2-3]嘗試使用濾波器去噪、圖像增強(qiáng)等傳統(tǒng)圖像處理技術(shù)應(yīng)用于輪胎缺陷檢測(cè),但僅限于算法的應(yīng)用,并沒(méi)有根據(jù)輪胎X射線圖像和瑕疵特征改善模型或檢測(cè)方法。吳則舉等[4]提出了一種基于U-Net的帶束層分割算法,能夠快速精確分割帶束層,但局限于帶束層缺陷檢測(cè)。Tan M等[5]提出了一種模型復(fù)合縮放方法,該方法通過(guò)找到最佳的網(wǎng)絡(luò)深度、寬度和圖像分辨率參數(shù)來(lái)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),但沒(méi)有考慮到輪胎X射線圖像缺陷不明顯及有效特征向量提取困難的問(wèn)題。丁哲等[6]對(duì)傳統(tǒng)的特征提取方法進(jìn)行了改進(jìn),可以更好地提取到多層特征向量,但沒(méi)有考慮輪胎X射線圖像瑕疵信息與背景信息高度相關(guān)的特點(diǎn)。這些方法通常具有識(shí)別精度差、速度慢、預(yù)標(biāo)注工作量大及網(wǎng)絡(luò)模型訓(xùn)練費(fèi)時(shí)費(fèi)力的缺點(diǎn),難以滿足工業(yè)生產(chǎn)的需求。
針對(duì)這種情況,本文結(jié)合輪胎質(zhì)量檢測(cè)過(guò)程和目標(biāo)檢測(cè)算法的研究現(xiàn)狀,提出一種基于Efficient-Net的深度學(xué)習(xí)卷積網(wǎng)絡(luò)模型,將提取到的輪胎X光圖像瑕疵特征輸入改進(jìn)后的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)模型,以提升網(wǎng)絡(luò)對(duì)輪胎瑕疵多維度的魯棒性,并在檢測(cè)過(guò)程中,利用無(wú)缺陷圖像,提出一種結(jié)合背景特征信息的檢測(cè)算法,進(jìn)一步提高模型的檢測(cè)精度。
輪胎X射線圖像缺陷檢測(cè)需較快的速度和較高的準(zhǔn)確性才能滿足工業(yè)生產(chǎn)需求,故本文采用同時(shí)考慮速度和準(zhǔn)確性的Efficient-Net卷積神經(jīng)網(wǎng)絡(luò)作為特征提取模型;該模型可通過(guò)極少的參數(shù)量獲得較快的速度,且在各類數(shù)據(jù)集上獲得較高的識(shí)別精度,模型性能對(duì)比見(jiàn)表1所示。
表1 模型性能對(duì)比
為使網(wǎng)絡(luò)模型獲得更好的精度,通常采取對(duì)網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度和輸入圖像分辨率三者之一進(jìn)行改變(放大或縮小)的方法,如Yolo-v3到Y(jié)olo-v5;但這種只從某一維度進(jìn)行擴(kuò)展的方法易使模型飽和,造成大量資源占用的同時(shí)仍不能提高識(shí)別精度和檢測(cè)效率。實(shí)際上,深度學(xué)習(xí)網(wǎng)絡(luò)模型的各個(gè)維度間密切相關(guān),例如,隨著圖像分辨率的增大,為避免梯度爆炸和梯度消失現(xiàn)象,需要更深、更寬的網(wǎng)絡(luò);這表明當(dāng)擴(kuò)展網(wǎng)絡(luò)模型時(shí)需統(tǒng)一籌劃各個(gè)維度,而不是單獨(dú)考慮其中之一。因此,網(wǎng)絡(luò)模型的擴(kuò)展問(wèn)題可看作網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度和圖像分辨率的不同組合優(yōu)化問(wèn)題,可表示為
(1)
深度:d=αφ寬度:w=βφ分辨率:r=γφs.t.α·β2·γ2≈2α≥1,β≥1,γ≥1
(2)
式中α、β和γ通過(guò)小型網(wǎng)絡(luò)搜索確定。用戶可根據(jù)實(shí)驗(yàn)環(huán)境及硬件配置設(shè)定適當(dāng)?shù)臄U(kuò)展系數(shù)φ,用于控制模型擴(kuò)展。具體放縮過(guò)程如下。
步驟1:首先固定擴(kuò)展系數(shù)φ為1,保證至少有兩倍以上的可用資源,在式(2)約束條件下進(jìn)行網(wǎng)格搜索,得到使網(wǎng)絡(luò)獲得最佳效果的值(α=1.2,β=1.1,γ=1.15)。
步驟2:在步驟1的基礎(chǔ)上使用式(2),通過(guò)選取不同的擴(kuò)展系數(shù)φ對(duì)基線網(wǎng)絡(luò)進(jìn)行擴(kuò)展。
Efficient-Net根據(jù)不同尺寸的圖像構(gòu)建了8個(gè)模型,通過(guò)不斷調(diào)整三個(gè)維度的系數(shù)來(lái)達(dá)到最佳精度。本實(shí)驗(yàn)根據(jù)輪胎瑕疵圖像的尺寸選擇Efficient-Net-B3。
卷積神經(jīng)網(wǎng)絡(luò)深層次特征具有一定的抽象性,感受野較大,是一種全局信息,在經(jīng)過(guò)一系列卷積操作后,丟失了許多細(xì)節(jié)信息,而淺層特征是一種局部信息,在圖像細(xì)節(jié)上表征能力更強(qiáng)。輪胎X光瑕疵尺度和比例變化范圍大,瑕疵位置較為隱蔽,因此需深層與淺層相結(jié)合,融合多層特征圖和多尺度信息。傳統(tǒng)的目標(biāo)檢測(cè)網(wǎng)絡(luò)模型往往只采用特征提取網(wǎng)絡(luò)產(chǎn)生的最后一層特征圖,對(duì)細(xì)節(jié)信息處理能力不夠,對(duì)于氣泡、雜質(zhì)等較小的瑕疵識(shí)別效果較差。因此,本文采用深度特征融合(多尺度)技術(shù)來(lái)獲取更全面、更有代表性的瑕疵特征向量。
傳統(tǒng)FPN網(wǎng)絡(luò)模型結(jié)構(gòu)包含三條路線,分別是由下至上、由上至下以及橫向連接,如圖1所示[8]。
圖1 FPN模型結(jié)構(gòu)
由下至上:這一過(guò)程類似于網(wǎng)絡(luò)的前向傳播過(guò)程。在Efficient-Net網(wǎng)絡(luò)模型中,使用的特征提取網(wǎng)絡(luò)是加權(quán)雙向特征金字塔網(wǎng)絡(luò),且只保留了具有多輸入來(lái)源的特征節(jié)點(diǎn),使用卷積3~7階段的最后一層特征圖進(jìn)行特征融合,從而構(gòu)成特征金字塔。
由上至下:這一過(guò)程一般通過(guò)線性差值或反池化的方法將頂層的特征圖放大到和上一階段的特征圖一樣大。采用線性差值的方法可極大保留包含深度特性有利于特征分類的語(yǔ)義信息,再與由下至上過(guò)程中包含大量空間信息的高分辨率特征圖(有利于定位)進(jìn)行融合,從而得到具有準(zhǔn)確的空間位置信息和較強(qiáng)烈的語(yǔ)義信息的特征圖,大大加強(qiáng)對(duì)細(xì)小特征的檢測(cè)識(shí)別能力。
橫向連接:這一過(guò)程將由下至上和由上至下兩個(gè)過(guò)程生成的相同大小的特征圖進(jìn)行融合。由上至下過(guò)程會(huì)產(chǎn)生混疊效應(yīng),因此,在特征圖融合后需采用適當(dāng)大小的濾波器對(duì)每個(gè)融合結(jié)果進(jìn)行濾波。
本文在FPN的基礎(chǔ)上對(duì)其結(jié)構(gòu)做進(jìn)一步優(yōu)化,融合了每層的原始特征圖,得到雙向特征金字塔網(wǎng)絡(luò)(Two-way Feature Pyramid Networks,TWFPN),可以在不增加額外計(jì)算量的同時(shí)融合更多的特征。由于在特征融合后,每層特征分辨率對(duì)融合后特征的貢獻(xiàn)度不同,因此在特征融合階段引入權(quán)重。此外,由于直接相加融合得到的特征圖可能會(huì)產(chǎn)生噪聲,為抑制噪聲,融合后再經(jīng)過(guò)一個(gè)濾波器大小為3、步長(zhǎng)為1的卷積層對(duì)其進(jìn)行平滑處理。TWFPN的結(jié)構(gòu)如圖2所示。
圖2 TWFPN模型結(jié)構(gòu)
與ImageNet、MNIST和其他數(shù)據(jù)集相比,在輪胎X射線圖像中,需要檢測(cè)的目標(biāo)缺陷高度融合于背景信息中且沒(méi)有較大的顏色差異,其皆為輪胎內(nèi)部鋼絲線、帶束層等結(jié)構(gòu)在X光下呈現(xiàn)出來(lái)的紋理特征[9]。瑕疵位置一般是圖像中特征值突變的區(qū)域,背景是特征值在平均值附近上下緩慢波動(dòng)的紋理。圖3為帶束層開線和正常輪胎X光圖片,帶束層開線的定義是相鄰簾線之間的距離大于任意相鄰5條簾線之間距離的平均值。
圖3 帶束層開線和正常圖片
輪胎X光圖像中瑕疵出現(xiàn)的位置在很大程度上決定了缺陷的種類。0度散線僅存在于0度帶速層,因此該瑕疵只會(huì)出現(xiàn)在胎冠區(qū)域;開線常見(jiàn)于子口和帶速層,因此該類瑕疵檢測(cè)重點(diǎn)區(qū)域?yàn)閹鴮蛹白涌谔?;氣泡類瑕疵可能?huì)出現(xiàn)在輪胎內(nèi)部各處,但由于胎冠和趾口區(qū)域紋理復(fù)雜、強(qiáng)度較高,受氣泡影響較小,而存在于胎側(cè)和胎肩區(qū)域的氣泡對(duì)輪胎質(zhì)量影響較大,是檢測(cè)的重點(diǎn)區(qū)域;胎稀是由于鋼絲間距過(guò)大造成的,因此該瑕疵具有方向水平、細(xì)長(zhǎng)延伸的特征。
綜上所述,在輪胎X射線圖像中,瑕疵的種類及其危害程度與其出現(xiàn)的位置高度關(guān)聯(lián),且某些瑕疵的判定需緊密結(jié)合背景信息。若輪胎X射線圖像某個(gè)區(qū)域中瑕疵越明顯,則該瑕疵的特征向量與背景特征圖中對(duì)應(yīng)位置的特征向量差別越大;反之越小。因此,在設(shè)計(jì)輪胎X射線圖像缺陷檢測(cè)模型時(shí),背景特征是十分關(guān)鍵的因素。針對(duì)該特點(diǎn),本文嘗試對(duì)Efficient-Net目標(biāo)檢測(cè)模型的檢測(cè)流程進(jìn)行改進(jìn),融合背景特征信息,進(jìn)一步提升模型的魯棒性和實(shí)用性。
在標(biāo)注缺陷樣本時(shí),不僅需要準(zhǔn)確標(biāo)注瑕疵種類及位置,還要再收集一些不包含任何瑕疵的圖片作為正向樣本。在Efficient-Net網(wǎng)絡(luò)模型訓(xùn)練完畢后,將待測(cè)圖片集與正向樣本集同時(shí)輸入到檢測(cè)模型中,基于Efficient-Net融合背景信息的檢測(cè)方法原理如圖4所示。
圖4 融合背景信息的檢測(cè)方法原理圖
使用改進(jìn)的檢測(cè)算法進(jìn)行缺陷檢測(cè)的具體步驟如下。
(1)通過(guò)Efficient-Net模型中的卷積網(wǎng)絡(luò)對(duì)瑕疵樣本進(jìn)行特征提取以獲得缺陷特征圖,對(duì)正向樣本進(jìn)行特征提取以獲得背景特征圖。
(2)將獲得的缺陷特征圖和背景特征圖分別輸入到TWFPN網(wǎng)絡(luò)中,并進(jìn)行3次融合處理。TWFPN網(wǎng)絡(luò)模型在寬度上指數(shù)級(jí)增長(zhǎng),在深度上線性增加。網(wǎng)絡(luò)寬度縮放方式見(jiàn)式(3),網(wǎng)絡(luò)深度縮放方式見(jiàn)式(4)。
Wtwfpn=64×1.35φ
(3)
Dtwfpn=2+φ
(4)
(3)通過(guò)快速歸一化融合實(shí)現(xiàn)加權(quán)特征融合,表達(dá)式為
(5)
式中:wi為特征圖權(quán)重;Ii為特征圖向量;O為融合后的特征向量。
激活函數(shù)選用線性整流函數(shù)(Rectified Linear Unit,RELU),可確保wi≥0,其分布范圍為[0,1],其值表示該層的貢獻(xiàn)度。結(jié)合圖3,以第6層為例,獲取中間狀態(tài)值的公式為
(6)
獲取輸出值的公式為
(7)
(4)計(jì)算瑕疵特征向量與背景特征向量間的差異度。一般而言,瑕疵特征越明顯,其特征向量與背景特征向量間的相似度越低,反之亦然。本文采用余弦相似度的方法進(jìn)行相似度計(jì)算。
假設(shè)存在向量a和b,其中a=(a1,a2,…,an),b=(b1,b2,…,bn),則向量a和b間的余弦相似度的計(jì)算公式為[10]
(8)
為校正概率值,需將余弦值的取值范圍控制在[0,1]之間。換算公式為
(9)
式中cosθ′為調(diào)整取值范圍后的余弦值。
(5)將經(jīng)TWFPN融合后的瑕疵特征向量輸入到分類和定位網(wǎng)絡(luò)中,通過(guò)歸一化指數(shù)函數(shù)Softmax操作后可得到一組概率值。本文檢測(cè)6種主要瑕疵類型,再加上正向樣本的概率值,這組概率值的個(gè)數(shù)為7,可用維度為[300×7]的多維矩陣P表示,通過(guò)定位網(wǎng)絡(luò)可以得到更精確的位置坐標(biāo)信息。利用相似度對(duì)概率進(jìn)行重排名,計(jì)算公式為
Pnew=α·P+(1-α)(1-cosθ′)
(10)
式中α為修正因子,取值范圍在[0,1]間。當(dāng)瑕疵特征與背景特征相似度高時(shí)抑制概率值;當(dāng)瑕疵特征與背景特征相似度低時(shí)提升概率值。
將某輪胎工廠的輪胎X光瑕疵原始圖像共20000張(包含胎稀、簾線彎曲、帶束層開線、雜質(zhì)、胎側(cè)泡、胎肩泡六類瑕疵)按照7∶3的比例劃分為訓(xùn)練集和測(cè)試集。通過(guò)實(shí)驗(yàn)室自主研發(fā)的標(biāo)注軟件標(biāo)注訓(xùn)練集圖片中存在的瑕疵種類及瑕疵所在位置和大小。在相同實(shí)驗(yàn)環(huán)境下,將標(biāo)注后的訓(xùn)練集分別投入ResNet、Faster-RCNN及Efficient-Net-B3網(wǎng)絡(luò)模型訓(xùn)練,選取不同擴(kuò)展系數(shù)φ和修正因子α,并將TWFPN融入檢測(cè)模型做對(duì)比實(shí)驗(yàn)。表2為實(shí)驗(yàn)環(huán)境配置。
表2 實(shí)驗(yàn)環(huán)境配置
實(shí)驗(yàn)采用在機(jī)器學(xué)習(xí)目標(biāo)檢測(cè)領(lǐng)域中常用的全類平均正確率(mean Average Precision,mAP)作為模型的評(píng)價(jià)指標(biāo)[11],mAP是將6種類別瑕疵檢測(cè)的正確精度進(jìn)行綜合加權(quán)平均而得到的,其值越趨近于1模型性能越好。
將輪胎瑕疵樣本訓(xùn)練集投入算法ResNet、Faster-RCNN及實(shí)驗(yàn)搭建的Efficient-Net-B3+TWFPN檢測(cè)模型中訓(xùn)練,圖5~圖7分別為三種模型的損失曲線。由圖7可以看出,當(dāng)?shù)螖?shù)達(dá)到200時(shí),Efficient-Net-B3+TWFPN檢測(cè)模型達(dá)到收斂且損失值穩(wěn)定在0.5附近;而另外兩種算法(圖5、圖6)仍然波動(dòng)劇烈。從損失曲線對(duì)比可以看出,基于Efficient-Net的算法模型對(duì)輪胎X光瑕疵樣本的識(shí)別更高效。
圖5 ResNet損失曲線圖
圖6 Faster-RCNN損失曲線圖
圖7 Efficient-Net-B3+TWFPN損失曲線圖
表3為Efficient-Net-B3網(wǎng)絡(luò)模型選擇不同的擴(kuò)展系數(shù)φ時(shí)在輪胎X射線圖像測(cè)試集上的檢測(cè)結(jié)果。φ值為4時(shí),模型獲得最高mAP指標(biāo)為82.0%;當(dāng)φ值繼續(xù)增加時(shí),會(huì)出現(xiàn)過(guò)度擬合現(xiàn)象,且模型的內(nèi)存需求和計(jì)算量大大增加,導(dǎo)致mAP指標(biāo)不再增長(zhǎng)。
固定φ為4,將TWFPN融入Efficient-Net-B3,模型的mAP指標(biāo)從82.0%提高到84.2%,測(cè)試集檢測(cè)結(jié)果見(jiàn)表4所示。
表3 不同擴(kuò)展系數(shù)的識(shí)別精度 %
表4 融合TWFPN模型的識(shí)別精度 %
由式(10)可知,修正因子α用來(lái)調(diào)節(jié)原概率值和相似度占新概率值的比重,α越小,說(shuō)明最終結(jié)果越側(cè)重于背景特征的影響;α越大,說(shuō)明最終結(jié)果越側(cè)重于瑕疵特征的影響。分別比較當(dāng)α為0.2、0.5、0.8時(shí)模型的檢測(cè)性能,結(jié)果如表5所示。
表5 不同修正因子的識(shí)別精度 %
由表5可以看出,當(dāng)修正因子α為0.5時(shí),模型獲得最佳檢測(cè)性能,mAP指標(biāo)可達(dá)到86.1%,在原有的基礎(chǔ)上提升了1.9%。
將測(cè)試集投入ResNet和Faster-RCNN檢測(cè)模型中,六種缺陷識(shí)別精度及mAP指標(biāo)如圖8所示。
圖8 三種算法識(shí)別精度
由圖8可以看出,本文設(shè)計(jì)的輪胎X光片瑕疵檢測(cè)模型較當(dāng)前兩種主流算法識(shí)別精度高、網(wǎng)絡(luò)訓(xùn)練收斂速度快。
結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)模型Efficient-Net和輪胎X光圖像瑕疵檢測(cè)方法,針對(duì)輪胎X射線圖像瑕疵特征不明顯、維度變化范圍大的特點(diǎn),提出了一種雙向特征提取網(wǎng)絡(luò)(TWFPN)并將其融入Efficient-Net網(wǎng)絡(luò)模型,提升其對(duì)瑕疵細(xì)節(jié)和形狀變化的魯棒性;同時(shí)結(jié)合輪胎瑕疵和背景紋理的高度相似性,在檢測(cè)過(guò)程中,利用無(wú)瑕疵圖片提取背景特征向量,與瑕疵特征向量作對(duì)比得到新的概率值。通過(guò)對(duì)某輪胎廠提供的6種缺陷樣本進(jìn)行檢測(cè),實(shí)驗(yàn)結(jié)果顯示模型在輪胎瑕疵檢測(cè)中取得了較好的效果,mAP指標(biāo)得到明顯提升,具有良好的應(yīng)用前景。