摘" 要: 文中提出一種基于深度擴張可分離卷積和注意力機制的殘差網絡模型(DWAtt?ResNet),通過實驗對比表明,該模型在鎢礦石雙能X射線圖像數(shù)據(jù)集上準確率、[F1]分數(shù)、AUC值和AP值均優(yōu)于ConvNeXt、DenseNet121和EfficientNet_b4等主流的圖像分類模型。通過消融實驗表明,該模型準確率達到87.4%,計算量為2.7 GFLOPs,參數(shù)量為16.95M,相比ResNet50準確率提高3%,計算量降低1.42 GFLOPs,參數(shù)量降低6.56M,準確率提升的同時,效率大幅提升,更適合工業(yè)生產的礦石快速分揀需求。
關鍵詞: 鎢礦石; 雙能X射線; 圖像分類; ResNet50; 深度擴張可分離卷積; 注意力機制
中圖分類號: TN911.73?34; TP399" " " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)13?0087?06
Dual energy X?ray image sorting method based on improved ResNet50 for tungsten ore
LIU Zhifeng, ZENG Lingfeng, PENG Fangwei, WEI Zhenhua, ZHANG Huanyu
(School of Information Engineering, East China University of Technology, Nanchang 330013, China)
Abstract: A residual network model based on depthwise separable dilated convolutions and attention mechanism (DWAtt?ResNet) is proposed. Comparative experiments show that the proposed model outperforms mainstream image classification models of ConvNeXt, DenseNet121 and EfficientNet_b4 in terms of accuracy rate, [F1]?score, AUC (area under ROC curve) value and AP (average precision) value on the dual energy X?ray image dataset of tungsten ore. Ablation experiments show that the accuracy rate of the proposed model reaches 87.4%, with a computational load of 2.7 GFLOPs and a parameter quantity of 16.95M. In comparison with ResNet50, its accuracy rate increases by 3%, its computational load decreases by 1.42 GFLOPs, and its parameter quantity decreases by 6.56M. Its efficiency is improved significantly while its accuracy rate is improved, which makes it more suitable for the rapid sorting needs of industrial production ores.
Keywords: tungsten ore; dual energy X?ray; image classification; ResNet50; depthwise separable dilated convolution; attention mechanism
0" 引" 言
鎢因其卓越的高熔點(3 422 ℃)、高密度(19.25 g/cm3)、超強硬度(7.5 Mohs)以及優(yōu)良的耐腐蝕性和耐磨性,已成為全球眾多工業(yè)領域中不可或缺的珍貴金屬[1],這些特性使得鎢在制造業(yè)、軍事工業(yè)、航空航天業(yè)等多個領域得到廣泛應用,為我國工業(yè)發(fā)展奠定了堅實的基礎。X射線成像技術憑借其對物質的穿透能力揭示物體內部結構,能夠更好地鑒別鎢礦石特征[2]。同時,隨著深度學習技術的發(fā)展,其在圖像處理和分類任務中展現(xiàn)出強大的能力,為鎢礦石圖像分類提供了新的解決方案。
目前,鎢礦石的分選方法主要有人工篩選、重選法、浮選法、電選法等[3]。實際應用中,多項研究展示了不同技術在提高鎢礦石分選效率和準確率方面的潛力。文獻[4]通過跳汰分離技術對白鎢礦樣品進行研究,發(fā)現(xiàn)在調整床厚度、水流量和清除操作頻率的條件下,低品位白鎢礦的回收率可以超過80%。文獻[5]則介紹了一種平板高梯度磁選機,控制磁選機內磁場強度的大小,實現(xiàn)了黑鎢礦石的有效分選。文獻[6]在研究白鎢礦浮選的過程中,將常用的加溫浮選改為常溫浮選工藝,采用CK?5為白鎢礦捕收劑,水玻璃與CF為脈石抑制劑時,能有效提高白鎢粗礦的回收率。
進一步地,文獻[7]提出結合模糊支持向量機(FSVM)和D?S證據(jù)理論的多特征鎢礦石分類方法,通過有效融合不同特征的信任度,提高了分類的準確性。文獻[8]通過構建鎢礦石圖像數(shù)據(jù)集,并提出了一種優(yōu)化的深度學習模型,顯著提高了礦石檢測的準確率和速度。文獻[9]采用遷移學習方法,解決了鎢礦石與圍巖廢石的識別問題,展示了遷移學習在鎢礦石分選中的應用潛力。
此外,文獻[10]設計的黑鎢礦石分選系統(tǒng)和文獻[11]設計的自動化選礦系統(tǒng)均利用了機器視覺技術,通過圖像處理技術實現(xiàn)了礦石的快速識別和分類,進一步證明了深度學習和機器視覺技術在提高鎢礦石分選效率和準確率方面的有效性。
1" DWAtt?ResNet網絡模型
1.1" 深度擴張可分離卷積
深度可分離卷積[12]通過將標準卷積分解為深度卷積和逐點卷積兩步,從而顯著減少計算量和參數(shù)數(shù)量。具體來說,深度可分離卷積首先對每個通道單獨進行深度卷積,然后通過逐點卷積(1×1卷積)將不同通道的信息整合起來。其運算式如式(1)、式(2)所示:
[y(i,j,k)=c=1Cinx(i+s,j+t,c)?w(s,t,c,k)] (1)
[Z(i,j,k)=c=1Ciny(i,j,c)?wc,k] (2)
式中:[y(i,j,k)]是輸出特征圖的第[k]個通道的[(i,j)]位置的值;[Cin]表示輸入數(shù)據(jù)的通道數(shù);[x(i+s,j+t,c)]是輸入特征圖的第[c]個通道的[(i+s,j+t)]位置的值;[w(s,t,c,k)]是卷積核的第[k]個通道與輸入通道[c]的對應權重,[s]和[t]分別表示卷積核在水平和豎直方向的偏移;“[?]”代表卷積操作;[Z(i,j,k)]是輸出特征圖的第[k]個通道的[(i,j)]位置的值;[y(i,j,c)]是深度卷積輸出特征圖的第[c]個通道的[(i,j)]位置的值;[wc,k]是逐點卷積的權重。
擴張卷積[13]在卷積核中引入了空洞,可以使卷積核感知更遠位置的像素信息,通過調整空洞的大小,可以改變卷積核感受野的大小,更好地獲取全局特征信息。
深度擴張可分離卷積在提高或者保持模型準確率的同時,既能減少計算成本和參數(shù)量,又可以擴大感受野,提高網絡模型的感知能力。
1.2" CBAM注意力機制
CBAM是混合注意力機制[14],結構如圖1所示。CBAM從通道和空間兩個階段對網絡模型進行優(yōu)化。對輸入的特征圖[F(H×W×C)]分別使用最大池化和平均池化處理,將得到的兩個特征圖傳送到MLP結構,即由卷積和ReLU激活函數(shù)構成的模塊。
將MLP輸出的特征圖相加后經過Sigmoid激活函數(shù)處理,再與輸入特征圖結合生成第一階段的通道注意力特征圖[MC],其運算公式為:
[MC=σMLP(AvgPool(F))+MLP(MaxPool(F))] (3)
式中:[σ]表示Sigmoid激活函數(shù);MLP表示由卷積和ReLU函數(shù)構成的神經網絡;AvgPool表示平均池化;MaxPool表示最大池化。
將第一階段的輸出[MC]作為第二階段空間注意力的輸入,首先對通道方向做平均和最大池化,然后將兩個特征圖拼接后使用一個7×7卷積對其進行操作,再經過標準化和激活函數(shù)生成空間注意力特征圖[MS],最后結合[MC]得到該模塊最終的輸出,其運算公式為:
[MS=σf(7×7)AvgPool(MC);MaxPool(MC)] (4)
式中[f7×7]表示7×7卷積。
1.3" DWAtt?ResNet網絡模型結構
ResNet50的殘差結構可以解決模型在訓練過程中的梯度消失和梯度爆炸問題[15],參數(shù)量和計算量雖然比一些更深的網絡模型少,但在一些移動設備和嵌入式系統(tǒng)中,它的參數(shù)量和計算量仍然較大,可能導致模型部署困難。其次,在處理一些復雜特征的提取時仍然存在局限性。
在ResNet50中替換深度擴張可分離卷積和引入注意力機制可以有效解決上述缺點,因此本文提出了一種基于深度擴張可分離卷積和注意力機制的殘差網絡模型DWAtt?ResNet。該模型由Sconv Block、DWAttRes Block和分類層三個模型組成,其模型結構如圖2所示。
Sconv Block模塊主要由三個3×3卷積垂直堆疊而成,并且在卷積之間應用了標準化和Hswish激活函數(shù),將由該卷積塊得到的特征圖經過最大池化處理,與原始網絡7×7卷積相比,可以更好地獲取圖像中的淺層細致特征,并且具有更少的參數(shù)量。應用Hswish激活函數(shù)可以更好地提高模型的非線性表達能力,如式(5)所示。
[f(x)=x?ReLU6(x+3)6] (5)
式中:[x]表示激活函數(shù)的輸入;[ReLU6(x+3)]表示[min(max(x+3,0),6)]。
DWAttRes Block作為該網絡的主干特征圖提取模塊,主要由深度擴張可分離卷積、殘差連接和注意力機制構成,將原始殘差結構中的3×3卷積用3×3的深度擴張可分離卷積替換,并且在殘差結構后面加入注意力機制模塊。同時,與原始的ResNet50相比,還加深了模型的深度,原始網絡是由16個殘差結構垂直堆疊,此模型在這個基礎上增加了兩個模塊,這樣可以使模型提取更高級別的特征,增加模型的表達能力。
2" 鎢礦石雙能X射線圖像數(shù)據(jù)集
鎢礦石圖像數(shù)據(jù)集來源于江西南部的某礦山采集的原始鎢礦石,利用雙能X射線透射已標注的高品位和低品位鎢礦石,獲取原始bin文件,使用ImageJ軟件解析bin文件后獲取了215張原始鎢礦石圖像。其中,高品位125張,低品位90張。由于一些不可抗拒條件的限制,原始鎢礦石數(shù)據(jù)集過小,無法滿足深度學習所需要的數(shù)據(jù)量,一定程度上影響了最終的識別準確率。
為了避免數(shù)據(jù)集過小影響模型訓練的問題,對原始鎢礦石數(shù)據(jù)集采用數(shù)據(jù)增強的方法來擴充數(shù)據(jù)。首先,將原始鎢礦石數(shù)據(jù)集按照70%、15%、15%的比例劃分為訓練集、驗證集和測試集,然后對其分別應用數(shù)據(jù)增強,從而避免數(shù)據(jù)混合重復的情況。在本研究中,使用了水平翻轉、垂直翻轉、隨機旋轉、高斯模糊、高斯噪聲、隨機亮度、隨機調整對比度、彈性變換、超像素組合、Cutout和Mixup數(shù)據(jù)增強方法,增強前后部分圖像示例如圖3所示。
通過這些數(shù)據(jù)增強方法使鎢礦石數(shù)據(jù)集達到4 081張,訓練集圖像包含3 278張,驗證集圖像包含339張,測試集圖像包含404張,每組數(shù)據(jù)集圖像都是獨立不重復的。
3" 實" 驗
3.1" 對比實驗結果
為了保證模型訓練的穩(wěn)定性,實驗參數(shù)見表1。
表1" 模型訓練超參數(shù)設置
[參數(shù)名 具體配置 學習率 0.000 1 學習率策略 CosineAnnealingLR 損失函數(shù) Cross Entropy 優(yōu)化器 Adam Epochs 100 Batch size 8 隨機種子數(shù) 42 輸入圖像大小 224×224 ]
實驗比較和評估了所提的DWAtt?ResNet模型和其他五種主流的圖像分類模型的性能,包括ConvNeXt[16]、DenseNet121[17]、EfficientNet_B4[18]、Inception_v3[19]和MobileNet_v2[20],訓練過程可視化如圖4所示。
圖4中展示了6種卷積神經網絡模型在訓練集和驗證集上的準確率曲線,其中,橫坐標Epochs是模型迭代次數(shù),縱坐標Accuracy是準確率。
從圖4中可看出,DWAtt?ResNet模型在驗證集上呈現(xiàn)出最佳的驗證準確率曲線,并且達到了最高的準確率水平,為了全面評價模型的性能,還需要考慮其他指標。根據(jù)在測試集的準確率、精確度、召回率、[F1]分數(shù)、AUC值和AP值指標對這些模型進行全面的評估比較,對比結果見表2,表中指標均為高品位、低品位分類的平均值。本文提出的DWAtt?ResNet模型在所有分類模型中的評估指標均為最優(yōu)。
為了更加直觀地表現(xiàn)各模型的分類性能,將模型在測試集中所判斷的結果可視化,即繪制混淆矩陣,如圖5所示,行是真實類別,列則對應于模型預測出的類別,在這些混淆矩陣中,顏色的深度代表數(shù)值的大小,顏色越深,相應位置的數(shù)值越大,即有更多樣本歸入了這一類別,在矩陣左上角和右下角的深色區(qū)域表示正確分類的高數(shù)值,而右上角和左下角的顏色如果較深,則表示誤分類的高數(shù)值。
3.2" 消融實驗
為了驗證DWAtt?ResNet相比于ResNet50在提高分選準確率和效率上的有效性,進行消融實驗,驗證DWAtt?ResNet各個改進部分是否對鎢礦石圖像分類的準確率、計算量、參數(shù)量等方面有所提升。
由前文1.3節(jié)已知,DWAtt?ResNet改進可以簡要概括為以下四點:
1) ResNet50第一個卷積塊中的7×7卷積替換為3個3×3卷積;
2) 把原始殘差結構中的卷積用深度擴張可分離卷積替換;
3) 將ResNet50的16個殘差結構增加到18個;
4) 引入注意力機制模塊。
結合改進過程,通過以下五種方式在擴充后的鎢礦石圖像數(shù)據(jù)集中進行消融實驗。
方式1:單ResNet50進行訓練。
方式2:將ResNet50中的7×7卷積替換為3個3×3卷積。
方式3:在方式2的基礎上把原始殘差結構中的卷積用深度擴張可分離卷積替換。
方式4:在方式3的基礎上增加模型深度,將16個殘差結構增加到18個。
方式5:在方式4的基礎上引入CBAM注意力機制。
消融實驗結果見表3。
表3中的結果表明:使用ResNet50進行訓練(方式1),模型準確率最低的同時,計算量和參數(shù)量也較大,在本研究分類任務中結果最差;用三個3×3卷積替換7×7卷積(方式2)可以略微提高準確性,但增加了計算量;經過進一步優(yōu)化,通過用深度擴張可分離卷積代替普通卷積(方式3),準確率與ResNet50相當,但是模型計算量和參數(shù)量大幅降低,表明模型效率顯著提高;進一步增加模型的深度(方式4)帶來了額外的性能改進;而引入CBAM注意力機制(方式5)進一步將模型準確率提高到87.4%,同時[F1]分數(shù)為87%,計算量為2.7 GFLOPs,參數(shù)量為16.95M。相比未改進的ResNet50,準確率提高了3%,計算量降低1.42 GFLOPs,參數(shù)量降低6.56M。準確率提升的同時,效率大幅提升,更適合工業(yè)生產的礦石快速分揀需求。
由此可見,DWAtt?ResNet在保持適度計算量和參數(shù)量的同時實現(xiàn)了高準確率,在本研究分類任務中顯示出最優(yōu)的結果。
4" 結" 語
本文提出一種基于深度擴張可分離卷積和注意力機制的殘差網絡模型(DWAtt?ResNet)。通過實驗表明,DWAtt?ResNet的準確率要優(yōu)于目前主流分類模型,同時相比未改進的ResNet50,在模型準確率提升的同時,效率大幅提升,更適合工業(yè)生產的礦石快速分揀需求,為礦石加工提供了便利和支持,具有很好的應用價值。
注:本文通訊作者為劉志鋒。
參考文獻
[1] 劉希星.國內鎢及鎢合金的研究新進展[J].世界有色金屬,2019(15):142?144.
[2] 王冬陽,張雄杰,胡斌,等.基于曲線擬合的雙能X射線透射的金屬識別研究[J].有色金屬工程,2022,12(2):85?91.
[3] 謝光彩,廖德華,陳向,等.黑鎢礦選礦技術研究進展[J].中國資源綜合利用,2014,32(5):39?41.
[4] BAEK S H, JEON H S. Application of jig separation for pre?concentration of low?grade scheelite ore [J]. Materials transactions, 2018, 59(3): 494?498.
[5] 鄭永明,陳祿政,曾劍武,等.平板高梯度磁選機分選黑鎢礦的試驗研究[J].中國鎢業(yè),2016,31(4):41?44.
[6] 王龍,祁忠旭,孫大勇,等.湖南某低品位白鎢礦加溫浮選改常溫浮選試驗研究[J].礦業(yè)研究與開發(fā),2023,43(7):205?211.
[7] 胡發(fā)煥,劉國平,胡瑢華,等.基于模糊支持向量機和D?S證據(jù)理論的鎢礦石初選方法[J].光子學報,2017,46(7):171?178.
[8] 楊文龍,郭明鈺.輕量級注意力X射線礦石檢測方法[J].電子測量技術,2022,45(18):71?79.
[9] 王李管,陳斯佳,賈明滔,等.基于深度學習的黑鎢礦圖像識別選礦方法[J].中國有色金屬學報,2020,30(5):1192?1201.
[10] 肖繼偉.基于機器視覺的黑鎢礦石智能分選系統(tǒng)研究與設計[D].長沙:湖南大學,2019.
[11] 王芳.基于機器視覺的黑鎢礦石初選系統(tǒng)研究[D].贛州:江西理工大學,2020.
[12] MEHTA S, RASTEGARI M, SHAPIRO L G, et al. ESPNetv2: A light?weight, power efficient, and general purpose convolutional neural network [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 9190?9200.
[13] LIU Q H, KAMPFFMEYER M, JENSSEN R, et al. Dense dilated convolutions′ merging network for land cover classification [J]. IEEE transactions on geoscience and remote sensing, 2020, 58(9): 6309?6320.
[14] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heiderburg, Germany: Springer, 2018: 3?19.
[15] WANG J Y, CUI Y, Lü Y M. An iron ore identification method based on improved bilinear network [C]// 2023 International Annual Conference on Complex Systems and Intelligent Science (CSIS?IAC). New York: IEEE, 2023: 421?426.
[16] LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the 2020s [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 11976?11986.
[17] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2261?2269.
[18] TAN M X, LE Q V. EfficientNet: Rethinking model scaling for convolutional neural networks [C]// International Conference on Machine Learning. New York: PMLR, 2019: 6105?6114.
[19] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2818?2826.
[20] SANDLER M, HOWARD A G, ZHU M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 4510?4520.