宋泰年 秦偉偉 梁卓 王魁 劉剛
摘 要:為解決彈載終端環(huán)境下深度卷積神經(jīng)網(wǎng)絡模型體積較大、 運算硬件要求高的問題, 構(gòu)建了一種基于改進雙通道注意力機制的輕量化網(wǎng)絡結(jié)構(gòu)。 針對網(wǎng)絡輕量化會犧牲分類準確率的問題, 以輕量化網(wǎng)絡結(jié)構(gòu)MobileNetV2為基準網(wǎng)絡架構(gòu), 引入自主設計的注意力模塊, 設計了基于SPP-DCAM模塊的MobileNetV2網(wǎng)絡架構(gòu), 使卷積層學習的顯著特征圖的權(quán)重增加, 以提升其分類準確率; 設計的空間信息與通道信息并聯(lián)輸入, 通過定義1×1和3×3的小卷積在保證結(jié)構(gòu)輕量化的基礎上減少了計算量和計算復雜度。 最后, 在cifar-100圖像分類數(shù)據(jù)集進行實驗對比。 結(jié)果表明: 相對于改進MobileNetV2, 在參數(shù)量和計算復雜度基本不變的基礎上, 分類精度優(yōu)于傳統(tǒng)的VGG16, ResNet18和DenseNet卷積網(wǎng)絡, 綜合性能更強, 更適合彈載計算資源有限情況下的快速分類。
關鍵詞: MobileNetV2; 注意力機制; 圖像分類; 卷積神經(jīng)網(wǎng)絡;? 輕量化網(wǎng)絡; 人工智能
中圖分類號: TJ760; TP183? 文獻標識碼:??? A? 文章編號: 1673-5048(2021)05-0081-05
0 引? 言
近年來, 卷積神經(jīng)網(wǎng)絡發(fā)展迅猛, 取得了豐碩的成果。 在軍事應用方面, 卷積神經(jīng)網(wǎng)絡被用來識別并檢測軍事目標, 但是在彈載終端環(huán)境中, 對于網(wǎng)絡以及硬件的要求較高, 需要網(wǎng)絡在保證識別準確率的基礎上保持輕量化且嵌入性能好。 隨著AlexNet[1]在ImageNet大型數(shù)據(jù)集上的分類準確率實現(xiàn)質(zhì)的飛越后, 卷積神經(jīng)網(wǎng)絡朝著復雜化趨勢發(fā)展, 卷積層數(shù)也越來越多。 代表性網(wǎng)絡有2014年提出的VGG[2]和GoogLeNet[3], 兩者分別增加卷積神經(jīng)網(wǎng)絡的深度和寬度以提升網(wǎng)絡性能。 2015年, 何愷明團隊創(chuàng)新性地提出ResNet網(wǎng)絡[4], 首次引入殘差的概念, 利用殘差來傳遞信息, 有效緩解了網(wǎng)絡因深度增加而導致的過擬合以及梯度消失問題, 這一網(wǎng)絡也為后續(xù)輕量化的發(fā)展提供了思路。 隨后, 研究人員將注意力機制引入卷積神經(jīng)網(wǎng)絡中, 2017年的SENet[5]借鑒注意力機制的思想, 賦予不同特征圖以不同的權(quán)重, 提升了網(wǎng)絡的學習能力。 后來提出的注意力模塊都借鑒了這一思想并在SENet的基礎上加以改進研究。 如CBAM模塊[6]在通道注意力的基礎上又對空間注意力加以研究, 使得網(wǎng)絡設計趨向于簡單、 快捷、 可移植。 輕量化研究方面的典型網(wǎng)絡MobileNetV2[7]在逐點卷積和深度卷積的基礎上, 引入倒殘差結(jié)構(gòu)和線性瓶頸結(jié)構(gòu), 使得網(wǎng)絡結(jié)構(gòu)大幅減小, 速度也進一步提升。 李慧慧等人將MobileNetV2網(wǎng)絡模型與傳統(tǒng)的Hough變換相結(jié)合, 在識別任務中表現(xiàn)較優(yōu), 能夠在擁有較低參數(shù)量和計算量的情況下提高準確率[8]。 楊國亮等人在MobileNetV2網(wǎng)絡的基礎上, 借鑒DenseNet密集連接的思想, 利用特征復用的特點, 在提高網(wǎng)絡性能的同時縮減網(wǎng)絡規(guī)模[9]。 畢鵬程等人在MobileNetV2瓶頸層的基礎上改進步長模塊, 使得網(wǎng)絡準確率提升的情況下復雜度和計算量進一步減小[10]。 任坤等人選擇MobileNetV2網(wǎng)絡作為目標檢測的骨干網(wǎng)絡, 并引入通道注意力機制, 實現(xiàn)特征增強, 在保證算法輕量化的同時有效提升網(wǎng)絡的檢測性能[11]。
本文以MobileNetV2輕量化網(wǎng)絡為基礎,? 設計了一種通道空間雙協(xié)同注意力模塊, 通過賦予提取的特征以更大的權(quán)重, 在保證網(wǎng)絡輕量化的基礎上增加其識別準確率。 在cifar-100標準數(shù)據(jù)集上, 通過對比不同典型卷積神經(jīng)網(wǎng)絡和不同注意力模塊來驗證網(wǎng)絡的有效性。
1 MobileNetV2網(wǎng)絡及注意力機制介紹
1.1 MobileNetV2網(wǎng)絡
隨著卷積神經(jīng)網(wǎng)絡的飛速發(fā)展, 其結(jié)構(gòu)越來越復雜, 體積越來越大, 計算量也日益變大, 對硬件資源的需求逐漸變多。 在資源受限的平臺上無法部署訓練, 所以研究方向為輕量化、 高速化[12]。 一種方法是將訓練好的網(wǎng)絡進行壓縮, 得到相對小的模型; 另一種方法是設計小型模型進行訓練, 而MobileNetV2網(wǎng)絡就是具有代表性的輕量型網(wǎng)絡。
航空兵器 2021年第28卷第5期
宋泰年, 等: 面向輕量化網(wǎng)絡的改進雙通道注意力機制圖像分類方法
MobileNetV2在網(wǎng)絡中引入了倒殘差結(jié)構(gòu)和線性瓶頸結(jié)構(gòu)。? 傳統(tǒng)的殘差結(jié)構(gòu)是先降低維度再將其升高, 而倒殘差結(jié)構(gòu)采用相反的順序, 先利用一層1×1的逐點卷積提升維度, 再利用3×3的深度卷積來代替3×3標準卷積, 能夠?qū)⒂嬎懔看蠓档停?進而提升網(wǎng)絡模型的效果。 線性瓶頸結(jié)構(gòu)是設計1×1逐點卷積降低維度并同輸入相加, 去除最后一層的激活函數(shù)ReLU, 用線性激活函數(shù)來替代, 以改進信息損失嚴重的問題。 此外, 在網(wǎng)絡中引入了擴張系數(shù)用于控制網(wǎng)絡的大小。 其瓶頸結(jié)構(gòu)如圖1所示。
表1為圖1中瓶頸圖上每一層的輸入輸出關系, 其中: k為輸入通道數(shù); h, w分別為輸入的高和寬; s為步長; t為擴張系數(shù); ?k′ 為輸出通道數(shù)。
1.2 注意力機制
當增加深度和寬度在卷積神經(jīng)網(wǎng)絡中的改進效果已經(jīng)不明顯時, 研究者們把研究方向放在注意力機制上。 注意力機制首先應用于自然語言處理中。 在圖像分類中, 注意力機制通過增加部分特征圖的權(quán)重, 讓卷積神經(jīng)網(wǎng)絡選擇性地重視一些特征圖, 抑制一些特征圖。 目前, 在這方面已經(jīng)開展大量研究。 SENet注意力設計了一種通道模塊, 引入壓縮和激勵兩個過程, 利用全局平均池化將空間壓縮為1×1×C的特征圖, 再經(jīng)過兩個全連接層對不同特征圖賦予不同權(quán)重。 CBAM模塊在通道注意力的基礎上關注了空間注意力, 在通道和空間注意力上利用全局平均池化和全局最大池化進行權(quán)重重置, 結(jié)果證明比單通道注意力機制效果更好。 除此之外, CBAM還探索了通道空間注意力的排列順序?qū)Ψ诸愋Ч挠绊憽?最近提出的ECANet模塊[13]在SENet模塊的基礎上, 避免了通道維度的降低, 同時通過增加一維卷積的數(shù)量, 實現(xiàn)了局部跨信道交互的覆蓋率, 分類準確率有一定提升。
2 基于SPP-DCAM模塊的MobileNetV2網(wǎng)絡架構(gòu)
2.1 改進的網(wǎng)絡結(jié)構(gòu)
針對彈載終端環(huán)境下對于深度卷積神經(jīng)網(wǎng)絡輕量化和準確率兩方面的要求, 以MobileNetV2為基準, 在保證其輕量化的基礎上加入自主設計的注意力機制結(jié)構(gòu)來提升網(wǎng)絡的分類準確率。 在通道注意力及空間注意力的設計過程中, 采用小卷積塊來保證網(wǎng)絡對于計算量的要求, 并且設計不同尺寸的卷積塊來提取特征圖的多尺度信息, 設計空洞率不同的卷積塊使網(wǎng)絡注意全局特征, 將設計好的注意力模塊加入MobileNetV2網(wǎng)絡結(jié)構(gòu)中。
本文提出了一種新的通道和空間注意力模塊SPP-DCAM, 其構(gòu)成如圖2所示。 首先, 輸入卷積層提取的特征圖, 并行進入通道和空間模塊; 然后, 在通道注意力模塊里經(jīng)過空間金字塔池化層[14], 提取多尺度語義信息, 進入多層感知機, 在激活函數(shù)的作用下, 得到重新分配權(quán)重后的特征圖; 在空間注意力模塊中, 設計不同尺度的空洞卷積增大感受野, 得到語義全面的空間特征圖; 最后, 將兩個模塊生成的特征圖融合生成提取特征圖。
由于MobileNetV2引入倒殘差結(jié)構(gòu)和線性瓶頸結(jié)構(gòu), 使其計算量大大降低。 本文引入自主設計的注意力模塊來提升其分類準確率。 改進后的網(wǎng)絡結(jié)構(gòu)如表2所示。 將設計好的注意力模塊融入網(wǎng)絡結(jié)構(gòu)的第3,? 5,? 6,? 7層, 在保證網(wǎng)絡尺寸及計算量不改變的基礎上增加識別準確率。
2.2 通道注意力增強模塊
通道注意力如圖3所示, 當輸入的特征圖為XK∈RH×W×C 時, 經(jīng)過空間金字塔池化對全局信息在空間維度進行H×W壓縮, 壓縮為1×1×C的通道特征圖, 映射生成相對應的權(quán)重信息。 空間金字塔結(jié)構(gòu)自適應平均地將輸入特征圖存入3個尺度。 將3個通道的輸出重新調(diào)整為3個1維向量, 融合后生成1維注意圖。
在空間金字塔池化層中提取1維注意力圖之后, 為了賦予不同通道以不同權(quán)重。 在后面接兩個全連接層, 采用sigmoid函數(shù)將輸出歸一化到(0, 1)的范圍。 經(jīng)過SPP池化層和兩個全連接層后的輸出為
M~=sig(W2ρ(W1M)) (1)
式中: M~為經(jīng)過SPP池化層和兩個全連接層后的輸出; W1和W2分別為第1層和第2層全連接層; M代表經(jīng)過SPP層后生成的1維特征圖; ?ρ 表示ReLU函數(shù)出; ?sig ()為sigmoid函數(shù)。
空間通道注意力機制的輸出為
XK=XK M~ (2)
SPP本質(zhì)上是多個平均池化層, 對于不同尺寸的a×a的特征圖, 通過調(diào)整滑窗大小及步長, 生成固定大小的輸出n×n。 如圖4中由3個平均池化層組成, 對于任意大小的輸入, 提取4×4, 2×2, 1×1的特征向量, 經(jīng)過特征融合統(tǒng)一輸出21維的特征向量。 使輸入圖像的尺寸在不會受到限制的同時又能提取多尺度的語義特征。
2.3 空間注意力增強模塊
為了在增加感受野的基礎上, 突出顯著空間特征, 抑制不重要的特征, 提升網(wǎng)絡的分類準確率, 設計了空間信息與通道信息并聯(lián)輸入, 空間注意力模塊是由2個3×3的空洞卷積和2個1×1卷積組成。
其中, 空間注意力模塊如圖5所示。 首先, 特征圖在經(jīng)過壓縮后分別經(jīng)過2個空洞率為2和3的空洞卷積層,
最后經(jīng)過壓縮生成1維特征圖。 選擇2個空洞卷積層的原因是盡可能增大感受野, 但如果僅選擇空洞率大的卷積塊, 會出現(xiàn)特征語義在空間上不連續(xù)、 提取的特征過于分散的情況, 導致分類準確率不增反降。 因而, 選擇空洞率為2和3的2個尺寸為3×3的空洞卷積塊, 經(jīng)過疊加后可以增加感受野大小, 也能提取到連續(xù)的特征語義。 2個空洞卷積實際感受野的大小為
Fi+1=Fi+(K-1)×Si (3)
式中: Fi+1 為當前層的感受野; Fi 為上一層的感受野; ?Si 為之前所有層的步長的乘積(不包括本層); K為卷積核的大小。 經(jīng)計算可得實際感受野大小為12×12, 用 f 12×12表示。 空間注意力模塊的輸出為
X″K=XK V~ (4)
式中: V~=( f12×12(Aavg ))avg為經(jīng)過空洞卷積之后生成的注意力圖,
Aavg為輸入特征圖經(jīng)過1×1卷積后的輸出。
3 實驗與分析
本文算法的驗證平臺是戴爾R740服務器, 深度學習框架采用pytorch, 驗證環(huán)境為pycharm+anaconda。
利用的數(shù)據(jù)集為cifar-100基準數(shù)據(jù)集, 此數(shù)據(jù)集被廣泛應用在分類算法中以驗證算法的有效性。 數(shù)據(jù)集中有60 000張尺寸為32×32的彩色圖片, 分為100類, 每類包含600張圖片, 這100類從屬于20個超類。 其中, 50 000張用來訓練, 10 000張用來測試。 試驗參數(shù)設置為: 優(yōu)化算法選擇梯度下降法; 批大小為512; 學習初始率為0.1; 訓練批次設定為100; 動量設定為0.9; 迭代次數(shù)設定為300; 權(quán)重衰減為0.000 5。
3.1 與不同卷積神經(jīng)網(wǎng)絡的對比
為驗證設計的網(wǎng)絡性能, 將提出的基于SPP-DCAM模塊的MobileNetV2(SPP-DCAM- MobileNetV2)與不同的經(jīng)典卷積神經(jīng)網(wǎng)絡進行對比。 試驗選取典型的神經(jīng)網(wǎng)絡, 分別為代表增加深度以提升分類效果的VGG16典型網(wǎng)絡; 代表殘差網(wǎng)絡的ResNet18典型網(wǎng)絡; 代表稠密連接網(wǎng)絡的DenseNet[15]卷積網(wǎng)絡。 分類效果及提升效果如表3所示。
由表3可知, 所提出的SPP-DCAM- MobileNetV2卷積神經(jīng)網(wǎng)絡在分類效果上取得良好效果, 準確率有大幅度提升。 在4種網(wǎng)絡中平均提升幅度為0.995%。
3.2 與不同注意力模塊的對比
通過對比在圖像分類方面取得優(yōu)秀成績的SENet和CBAM注意力模塊, 以及最近提出的ECANet模塊來檢驗本文算法的有效性和改進效果。 分類準確率如表4所示。
由表4可知, 在不同卷積神經(jīng)網(wǎng)絡中, 雙注意力機制的CBAM模塊的分類效果要好于單注意力的SENet注意力模塊, 最新提出的ECANet模塊的分類準確率高于CBAM模塊, 而本文提出的SPP-DCAM又比ECANet模塊分類效果更好。
在300次迭代過程中, 4種注意力模塊在4種卷積神經(jīng)網(wǎng)絡中的準確率變化如圖6所示。 可以看出, SPP-DCAM模塊在迭代過程中優(yōu)于其他模塊。
綜合數(shù)據(jù)分析, 證明了SPP-DCAM-MobileNetV2卷積神經(jīng)網(wǎng)絡的有效性和優(yōu)越性, 特別是在分類準確率上有了較大提升。 其主要原因包括兩個方面: 一是通道注意力打破了全局平均池化和全局最大池化的束縛, 將SPP引入了模塊, 提取的特征層次性更強, 權(quán)重分配更加合理, 特征表征能力優(yōu)化明顯; 二是在空間注意力中設計了空洞卷積, 合理選擇了池化塊大小和空洞率大小。 相比于傳統(tǒng)的空間注意力模塊, SPP-DCAM能夠增大感受野, 提取范圍進一步擴大并且兼顧語義連續(xù)性的問題, 達到了一個很好的動態(tài)平衡, 提取的顯著特征圖更加合理。 兩方面的優(yōu)化效果疊加使得本文提出的網(wǎng)絡的分類準確率提升明顯。
3.3 算法復雜度對比
為進一步檢驗本文算法在輕量化網(wǎng)絡方面的優(yōu)勢, 將所提出的網(wǎng)絡結(jié)構(gòu)在cifar-100數(shù)據(jù)集上進行參數(shù)量和計算復雜度對比, 結(jié)果如表5所示。 可以看到, 在增加了注意力模塊的情況下, 既能夠提高分類準確率, 同時也能夠保證網(wǎng)絡參數(shù)量以及計算復雜度變化較小, 使網(wǎng)絡保持輕量化。
參考文獻:
[1] Krizhevsky A,? Sutskever I,? Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM,? 2017,? 60(6): 84-90.
[2] Simonyan K,? Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. (2015-04-10)[2020-12-20].https:∥arxiv.org/pdf/1409.1556.pdf.
[3] Szegedy C,? Liu W,? Jia Y Q,? et al. Going Deeper with Convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),? 2015: 1-9.
[4] He K M,? Zhang X Y,? Ren S Q,? et al. Deep Residual Learning for Image Recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),? 2016: 770-778.
[5] Hu J,? Shen L,? Albanie S,? et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,? 2020,? 42(8): 2011-2023.
[6] Woo S,? Park J,? Lee J Y,? et al. CBAM: Convolutional Block Attention Module[C]∥ European Conference on Computer Vision,? 2018: 3-19.
[7] Sandler M,? Howard A,? Zhu M L,? et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[J].? IEEE/CVF Conference on Computer Vision and Pattern Recognition,? 2018: 4510-4520.
[8] 李慧慧,? 閆坤,? 張李軒,? 等. 基于MobileNetV2的圓形指針式儀表識別系統(tǒng)[J]. 計算機應用, 2021, 41(4): 1214-1220.
Li Huihui,? Yan Kun,? Zhang Lixuan,? et al. Circular Pointer Instrument Recognition System Based on MobileNetV2[J]. Journal of Computer Applications,? 2021, 41(4): 1214-1220. (in Chinese)
[9] 楊國亮,? 李放,? 朱晨,? 等. 改進MobileNetV2網(wǎng)絡在遙感影像場景分類中的應用[J]. 遙感信息,? 2020,? 35(1): 1-8.
Yang Guoliang,? Li Fang,? Zhu Chen,? et al. Application of Improved MobileNetV2 Network in Remote Sensing Image Classification[J]. Remote Sensing Information,? 2020,? 35(1): 1-8.(in Chinese)
[10] 畢鵬程,? 羅健欣,? 陳衛(wèi)衛(wèi),? 等. 面向移動端的輕量化卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)[J]. 信息技術(shù)與網(wǎng)絡安全,? 2019,? 38(9): 24-29.
Bi Pengcheng,? Luo Jianxin,? Chen Weiwei,? et al. Lightweight Convolutional Neural Network Structure for Mobile[J]. Information Technology and Network Security,? 2019,? 38(9): 24-29.(in Chinese)
[11] 任坤,? 黃瀧,? 范春奇,? 等. 基于多尺度像素特征融合的實時小交通標志檢測算法[J]. 信號處理,? 2020,? 36(9): 1457-1463.
Ren Kun,? Huang Long,? Fan Chunqi,? et al. Real-Time Small Traffic Sign Detection Algorithm Based on Multi-Scale Pixel Feature Fusion[J]. Journal of Signal Processing,? 2020,? 36(9): 1457-1463.(in Chinese)
[12] 崔洲涓,? 安軍社,? 張羽豐,? 等. 面向無人機的輕量級Siamese注意力網(wǎng)絡目標跟蹤[J]. 光學學報,? 2020,? 40(19): 132-144.
Cui Zhoujuan,? An Junshe,? Zhang Yufeng,? et al. Light-Weight Siamese Attention Network Object Tracking for Unmanned Aerial Vehicle[J]. Acta Optica Sinica,? 2020,? 40(19): 132-144.(in Chinese)
[13] Wang Q L,? Wu B G,? Zhu P F,? et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),? 2020: 11531-11539.
[14] He K M,? Zhang X Y,? Ren S Q,? et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,? 2015,? 37(9): 1904-1916.
[15] Huang G,? Liu Z,? van der Maaten L,? et al. Densely Connected Convolutional Networks[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),? 2017: 2261-2269.
Improved Dual-Channel Attention Mechanism Image
Classification Method for Lightweight Network
Song Tainian1,? Qin Weiwei1*,? Liang Zhuo2,? Wang Kui1,? Liu Gang1
(1. Rocket Force University of Engineering,? Xian 710025,? China;
2. China Academy of Launch Vehicle Technology,? Beijing 100076,? China)
Abstract: In order to solve the problems of large volume and high hardware requirements of deep convolutional neural network model in missile-borne terminal environment,? a lightweight network structure based on improved dual-channel attention mechanism is constructed. Aiming at the problem that the network lightweight will sacrifice the classification accuracy,? taking the MobileNetV2? lightweight network as the? network basic structure,? the self-designed attention module is introduced,? and the MobileNetV2 network architecture based on SPP-DCAM module is designed to increase the weight of the significant feature map of convolutional layer learning,? so as to improve the classification accuracy. The designed spatial information is input in parallel with channel information. By defining 1×1 and 3×3 small convolution,? the computation amount and computational complexity are reduced on the basis of ensuring the lightweight of the structure. Finally,? an experimental comparison is conducted on the cifar-100 image classification dataset. The results show that?? the classification accuracy of
improved MobileNetV2? is better than that of the traditional VGG16,? ResNet18 and DenseNet convoluted networks with the same number of parameters and computational complexity,? and the comprehensive performance is stronger,? which is more suitable for rapid classification under the condition of limited onboard computational resources.
Key words: MobileNetV2; attention mechanism; image classification; convolutional neural network; lightweight network; artificial intelligence