劉浩翰,王鈺濤,賀懷清,孫鋮
(中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)
軸承套圈溝道是精度很高的工作表面,表面粗糙度(本文特指Ra值)可達0.02 μm,圓度可達0.50 μm,其工作表面的紋理對軸承壽命及振動的影響很大,一些情況下采用輪廓儀或圓度儀進行評價已經(jīng)不能適應(yīng)特殊要求。例如,工作表面的表面粗糙度小于0.05 μm后與軸承振動的相關(guān)性已經(jīng)很差,甚至?xí)谀承﹫龊铣霈F(xiàn)負相關(guān),即隨著表面粗糙度的降低,軸承壽命和振動反而變差。
近年來,軸承行業(yè)對軸承工作表面的視覺評價方法進行了很多研究,但還未形成統(tǒng)一的標(biāo)準(zhǔn),通常是各公司以圖譜的形式控制質(zhì)量,無法直接在線檢查及實時反饋。國外某些著名軸承企業(yè)雖然在20年前就開始了視覺識別質(zhì)量控制和光學(xué)分揀,但應(yīng)用層面仍主要采用傳統(tǒng)的人工檢測方法[1],依靠操作人員手感及目測的方式進行表面缺陷的判斷與分類,效率低且主觀因素較強,容易導(dǎo)致漏檢和較高的錯誤率。
憑借客觀標(biāo)準(zhǔn)性和高效性優(yōu)勢,計算機視覺技術(shù)逐步應(yīng)用于工業(yè)生產(chǎn)中的圖像自動分類,其核心的圖像識別算法在具有明顯特征的數(shù)據(jù)集中可以達到較高的準(zhǔn)確度。常用方法有LBP特征提取算法[2]、HOG特征提取算法[3]和Haar特征提取算法[4],其在實際應(yīng)用中往往是針對特定數(shù)據(jù)集人為設(shè)計適合其特征的方法,由于人為設(shè)計難以涵蓋所有缺陷特征信息[5],此類算法所構(gòu)建的模型復(fù)雜多變且效果不穩(wěn)定。
深度學(xué)習(xí)的發(fā)展為圖像自動分類提供了解決契機[6-11],其利用多層卷積神經(jīng)網(wǎng)絡(luò)對大量數(shù)據(jù)集進行學(xué)習(xí)并通過訓(xùn)練提取特征,能夠緩解復(fù)雜特征圖像分類識別中建模困難的窘境。針對軸承溝道表面缺陷數(shù)據(jù)細節(jié)豐富,特征不突出,類間差異小,難以精確分類的特點,本文使用殘差塊作為主要特征計算方法,在深層網(wǎng)絡(luò)中融入Inception模塊[12]進行特征降維和拼接以獲取更多的圖像細節(jié)特征,在特征計算中引入批量標(biāo)準(zhǔn)化(Batch Normalization,BN)[13]進行數(shù)據(jù)正則化處理來加速模型收斂,并采用軸承溝道表面缺陷數(shù)據(jù)集進行了驗證,以實現(xiàn)軸承溝道表面缺陷的高精度分類。
殘差網(wǎng)絡(luò)模型[14]中殘差塊的提出有效緩解了深層次網(wǎng)絡(luò)模型訓(xùn)練中梯度消失、模型退化的問題,近年來成為圖像分類的主流模型,但是對于類間差別小圖像的分類效果仍有待提升。網(wǎng)絡(luò)層次加深的同時,模型的訓(xùn)練時間也隨之加長,內(nèi)部數(shù)據(jù)分布偏移現(xiàn)象加劇,故考慮在每層特征計算后對數(shù)據(jù)進行正則化處理來減少數(shù)據(jù)分布偏移的影響,使用歸一化方法加快收斂速度。同時,在深層次模型訓(xùn)練中,語義的宏觀表達能力增強,而對于軸承溝道表面缺陷數(shù)據(jù)集來說,豐富的細節(jié)特征對缺陷分類精度有重要影響,故在后期模型訓(xùn)練中考慮使用不同尺度的卷積計算進行特征融合,以此提升網(wǎng)絡(luò)訓(xùn)練模型的精度。
殘差網(wǎng)絡(luò)模型為多個殘差模塊的堆疊結(jié)構(gòu),殘差單元結(jié)構(gòu)如圖1所示,殘差模塊改變了固有的堆疊網(wǎng)絡(luò)結(jié)構(gòu),增加了恒等映射,這樣通過殘差的計算緩解了深層次網(wǎng)絡(luò)梯度消失的問題。對于圖像差別細微、類間區(qū)別微小的軸承溝道表面缺陷數(shù)據(jù)集,殘差網(wǎng)絡(luò)模型雖然比較適合,但并不能通過簡單的加深網(wǎng)絡(luò)提升精度。
圖1 殘差單元結(jié)構(gòu)Fig.1 Structure of residual unit
通過多次網(wǎng)絡(luò)數(shù)量和參數(shù)的調(diào)整試驗,在深度增加的同時進行圖像特征的融合,改進ResNet網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖2所示,其包括4個(殘差+BN)部分和2個(Inception+BN)部分,能夠在不過度增加層數(shù)、參數(shù)的同時保證準(zhǔn)確率。模型訓(xùn)練時在每次特征計算后加入BN正則化減緩數(shù)據(jù)分布偏移現(xiàn)象。在前期的特征計算中,殘差模塊中恒等映射的特殊結(jié)構(gòu)可以很好緩解梯度消失的現(xiàn)象,進行網(wǎng)絡(luò)的堆疊計算。越到網(wǎng)絡(luò)深層,特征越抽象,而且每個特征所涉及的感受野也更大,故將Inception模塊放入網(wǎng)絡(luò)的較深層次,采用不同大小的卷積核進行特征計算以盡可能保證圖像的細節(jié)信息參與最終的分類計算,保證訓(xùn)練精度。
圖2 改進的ResNet模型Fig.2 Improved ResNet model
1.2.1 殘差模塊+BN
為增強模型的穩(wěn)定性并加快訓(xùn)練速度,同時解決內(nèi)部數(shù)據(jù)分布偏移的問題,使用批量標(biāo)準(zhǔn)化操作將每層結(jié)果數(shù)據(jù)進行處理,即
(1)
(2)
通過(2)式,特征值分布會重新拉回至標(biāo)準(zhǔn)正態(tài)分布,使特征值落于激活函數(shù)對于輸入的敏感區(qū)間,避免梯度消失并加快收斂。加入BN正則化后的殘差模塊內(nèi)部結(jié)構(gòu)如圖3所示。
圖3 殘差+BN模塊Fig.3 Residual+BN module
1.2.2 Inception模塊+BN
隨著網(wǎng)絡(luò)模型深度的增加,原始圖像經(jīng)過計算得到的特征則更加抽象,因此在網(wǎng)絡(luò)的深層計算中引入Inception模塊。如圖4所示,每個Inception模塊由前攝入層、并行處理層和過濾拼接層組成。前攝入層為常規(guī)的卷積計算;并行處理層包括1×1卷積、3×3卷積、5×5卷積和2×2最大池化這4個分支,每次卷積計算后同樣進行BN正則化處理送入下層激活計算;過濾拼接層進行不同尺度卷積核計算后得到特征值的計算融合。采用不同規(guī)模、大小的卷積核計算,增加了網(wǎng)絡(luò)的寬度和對尺寸的適應(yīng)性,不同支路的感受野不同,因此計算后的特征值擁有了多尺度的特征信息。
圖4 Inception+BN模塊Fig.4 Inception+BN module
工業(yè)原始數(shù)據(jù)的實際采集過程困難且數(shù)據(jù)量有限,需進行數(shù)據(jù)預(yù)處理后才能輸入改進ResNet模型進行缺陷分類。本文進行的數(shù)據(jù)預(yù)處理主要分為圖像缺陷區(qū)域檢測與提取、滑窗裁剪、數(shù)據(jù)增強3個步驟,如圖5所示。
試驗數(shù)據(jù)采集于國內(nèi)某精密軸承生產(chǎn)企業(yè),采集場景如圖6所示。由于套圈表面鏡面反光嚴重,不利于圖像采集,故采用D700同軸光源,在同軸燈中裝置一塊45°半透半反玻璃,將高亮度、高密度的LED陣列排列在線路板上構(gòu)成一個面光源,面光源發(fā)出的光線經(jīng)過透鏡后映照在半透半反玻璃上,光線經(jīng)全反射垂直照在被測物體上,從被測物體上反射的光線垂直向上穿過半透半反玻璃進入30萬像素的工業(yè)相機攝像頭。這樣既消弭了反光,又防止了圖像中出現(xiàn)攝像頭的倒影,從而捕獲明晰的圖像用于進一步的剖析和處理。
圖6 數(shù)據(jù)采集Fig.6 Data collection
軸承溝道表面缺陷樣本共有1 230張圖像,其中短絲類267張、砂輪花類533張、正常類428張,各類別的原始圖像如圖7所示,原始圖像分辨率為640×480(單位為像素,下同)。
圖7 軸承溝道表面缺陷的原始圖像Fig.7 Original image of bearing raceway surface defects
缺陷部分在整幅原始圖像中的占比極小,需要進行缺陷區(qū)域提取。本文采用選擇性搜索的候選區(qū)域算法[15]將每幅圖像相似度高的區(qū)域進行依次劃分、合并,相似度計算中考慮了顏色、紋理、尺度和空間交疊這4個指標(biāo)。
2.2.1 顏色
(3)
(4)
s(rt)=s(ri)+s(rj),
(5)
式中:C為用區(qū)域的L1范數(shù)歸一化后的向量;rt=ri∪rj;s()為區(qū)域的像素尺寸;下標(biāo)i,j為區(qū)域索引號。
2.2.2 紋理
(6)
式中:t為求得的導(dǎo)數(shù)值。
2.2.3 尺寸
尺寸用于優(yōu)先合并小區(qū),其定義為
(7)
式中:s為整張圖像的像素級尺寸。
2.2.4 空間交疊
空間交疊用于優(yōu)先合并被包含進其他區(qū)域的區(qū)域,其定義為
(8)
式中:Bij為能夠包含ri和rj的最小矩形框。
2.2.5 區(qū)域間最終相似度
將上述4個相似度以線性組合的方式組合在一起作為最終相似度。經(jīng)選擇性搜索算法進行的短絲缺陷區(qū)域檢測效果如圖8所示,圖中紅框為從原始圖像中提取到的重點區(qū)域,由圖可知原始的短絲集中缺陷區(qū)域被成功檢測并提取。
圖8 短絲缺陷區(qū)域檢測及提取Fig.8 Detection and extraction of short wire defect area
對原始圖像集中缺陷區(qū)域檢測提取后,進行選定分辨率規(guī)格(100×120)的滑動窗口裁剪并進行精確分類以保證數(shù)據(jù)集的質(zhì)量。
如圖9所示,短絲類的特征為表面被明顯勾起,有片狀的凸起;砂輪花類的特征為表面有小孔形態(tài)的壓痕且小孔分布較為稠密;正常類的表面特征為表面平滑,紋理順暢,色澤過渡平滑且均勻。
圖9 滑動窗口裁剪后的軸承溝道表面缺陷圖像Fig.9 Surface defect image of bearing raceway after cutting of sliding window
深度學(xué)習(xí)的優(yōu)勢在于從大量數(shù)據(jù)中進行特征學(xué)習(xí)來不斷優(yōu)化模型,大規(guī)模且優(yōu)質(zhì)的數(shù)據(jù)是深度學(xué)習(xí)的基礎(chǔ),但從工業(yè)生產(chǎn)中獲得的圖像數(shù)據(jù)集有限,故需要進行數(shù)據(jù)集擴充。
使用數(shù)據(jù)增強方法對原始圖片進行灰度化處理、旋轉(zhuǎn)平移、顏色通道變更、銳化增強、高斯模糊等組合操作,進行數(shù)據(jù)集的擴充。數(shù)據(jù)增強后的數(shù)據(jù)集包含各類圖像共7 380張,其中短絲類1 602張、砂輪花類3 210張、正常類2 568張。短絲類圖像經(jīng)過數(shù)據(jù)增強后的部分圖像數(shù)據(jù)如圖10所示。
圖10 短絲類缺陷的部分圖像增強數(shù)據(jù)Fig.10 Some image enhancement data of short wire defects
原始軸承溝道表面缺陷數(shù)據(jù)集經(jīng)過數(shù)據(jù)預(yù)處理后送入改進ResNet網(wǎng)絡(luò)進行模型的訓(xùn)練與優(yōu)化。將預(yù)處理后的數(shù)據(jù)集劃分為5 905張訓(xùn)練集圖像(短絲類1 282張、砂輪花類2 568張、正常類2 055張)和1 475張測試集圖像(短絲類320張、砂輪花類642張、正常類513張)。試驗使用的深度學(xué)習(xí)框架為Tensorflow,Tensorflow-gpu版本為1.5,編程語言為Python,操作系統(tǒng)為Windows10,GPU配置為GeForce RTX 2060。
選用LeNet5模型與殘差網(wǎng)絡(luò)模型進行對比分析,評價指標(biāo)為準(zhǔn)確率、精確率、召回率和綜合評價指標(biāo),各指標(biāo)計算公式為
(9)
(10)
(11)
(12)
式中:Faccuracy為準(zhǔn)確率,代表分類正確的樣本數(shù)占總樣本數(shù)的比例;CTP為真正例,實際為正預(yù)測為正;CTN為真反例,實際為負預(yù)測為負;CFP為假正例,實際為負但預(yù)測為正;CFN為假反例,實際為正但預(yù)測為負;Fprecision為精確率,代表正確預(yù)測為正的數(shù)量占預(yù)測為正的所有樣本數(shù)量的比例;Frecall為召回率,代表正確預(yù)測為正占實際為正的樣本數(shù)量比例;F1為綜合評價指標(biāo),是精確率和召回率的調(diào)和平均值。
模型訓(xùn)練過程如圖11所示,圖中橫坐標(biāo)為訓(xùn)練的迭代次數(shù),縱坐標(biāo)為相應(yīng)指標(biāo)的數(shù)值,其中train acc,train loss分別代表模型訓(xùn)練時的準(zhǔn)確率和損失值;val acc,val loss分別代表在測試數(shù)據(jù)集中驗證模型效果時的準(zhǔn)確率和損失值。由圖11可知:LeNet5模型在訓(xùn)練和驗證過程中的損失值一直維持在較高水平,準(zhǔn)確率不高;改進ResNet模型的曲線更為平緩,準(zhǔn)確率最高,收斂性也優(yōu)于LeNet5和ResNet模型。
圖11 各模型的訓(xùn)練過程Fig.11 Training process of each model
各模型的評價指標(biāo)對比結(jié)果見表1,由表可知:LeNet5模型的各項指標(biāo)數(shù)值在91%左右,ResNet模型和改進ResNet模型的各項指標(biāo)均超過96%;與ResNet模型相比,改進ResNet模型各項指標(biāo)(達到98.84%)均高于ResNet,這是由于改進ResNet模型加入了BN正則化的數(shù)據(jù)處理過程,使得loss值更快下降到相對穩(wěn)定的較低水平,低于0.2且模型收斂性最好。在后期訓(xùn)練過程中,Inception模塊的引入使得原始圖像的細節(jié)特征不易丟失,準(zhǔn)確率更高。
表1 各模型的評價指標(biāo)Tab.1 Evaluation indexes of each model
為驗證改進ResNet模型的魯棒性,選取相似的鋼材表面缺陷數(shù)據(jù)集NEU-CLS進行效果驗證,該數(shù)據(jù)集收集了熱軋鋼帶的軋制氧化皮、斑塊、開裂、點蝕、內(nèi)含物、劃痕這6種典型表面缺陷,如圖12所示。該數(shù)據(jù)集包括1 800個灰度圖像,每類缺陷各300個樣本。本文模型多次試驗的準(zhǔn)確率均不低于98.02%,算法通用性較強。
圖12 熱軋鋼帶表面缺陷示意圖Fig.12 Diagram of surface defects of hot rolled steel strip
綜上,針對軸承溝道表面缺陷數(shù)據(jù)集分類問題,改進ResNet模型的各項指標(biāo)最優(yōu),模型平均準(zhǔn)確率可達到98%以上且收斂性更好。
針對軸承溝道表面缺陷圖像數(shù)據(jù)集差別細微的特點,提出適合此類數(shù)據(jù)特征的改進ResNet模型。與其他解決同類問題的模型相比,改進ResNet模型有效提高了軸承溝道表面缺陷圖像的分類準(zhǔn)確率。若應(yīng)用到實際生產(chǎn),可以實現(xiàn)軸承溝道表面缺陷圖像的實時高精度分類。
在下一步工作中,將針對軸承廠家提供的第2批數(shù)據(jù)進行分類試驗,進一步優(yōu)化網(wǎng)絡(luò)來實現(xiàn)更高的精度及更好的泛化性。