• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于空間注意力的圖像分類網(wǎng)絡(luò)研究

      2023-06-22 20:47:06徐海燕郝萍萍
      現(xiàn)代信息科技 2023年2期
      關(guān)鍵詞:圖像分類計算機視覺深度學(xué)習(xí)

      徐海燕 郝萍萍

      摘? 要:針對以往的圖像分類方法利用手工提取的特征(或通過神經(jīng)網(wǎng)絡(luò)提取的特征)、空間信息關(guān)注不足等問題,文章提出一種基于空間注意力的圖像分類網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用空間注意力模塊,對深度網(wǎng)絡(luò)提取的視覺特征進行空間約束。利用特征的空間信息,使得網(wǎng)絡(luò)能夠?qū)μ卣髟诳臻g上的重要性加以區(qū)分,從而使其更具判別性。采用CIFAR-10和CIFAR-100測試集分別進行測試,測試結(jié)果表明,該文提出的圖像分類網(wǎng)絡(luò)的圖像分類效果明顯優(yōu)于其他深度學(xué)習(xí)方法。

      關(guān)鍵詞:空間注意力;深度學(xué)習(xí);計算機視覺;圖像分類

      中圖分類號:TP391.4? ? 文獻標(biāo)識碼:A? 文章編號:2096-4706(2023)02-0098-03

      Research on Image Classification Network Based on Spatial Attention

      XU Haiyan, HAO Pingping

      (Shandong Huayu University of Technology, Dezhou? 253034, China)

      Abstract: Aiming at the problems of traditional image classification methods, such as using manually extracted features (or features extracted through neural networks), insufficient attention to spatial information, this paper proposes an image classification network based on spatial attention. The network uses the spatial attention module to spatial constrain on the visual features extracted by the depth network. Using the spatial information of features, the network can distinguish the importance of features in space, thus making them more discriminative. Test with CIFAR-10 and CIFAR-100 test sets respectively, test results show that the proposed image classification network is superior to other depth learning methods in image classification.

      Keywords: spatial attention; deep learning; computer vision; image classification

      0? 引? 言

      圖像分類任務(wù)研究圖像類別預(yù)測,是計算機視覺中的一項基礎(chǔ)任務(wù),同時也是機器理解世界的重要途徑。傳統(tǒng)的圖像分類方法主要利用手工設(shè)計的特征(例如:尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)[1]、方向梯度直方圖(Histogram of Oriented Gradient, HOG)[2]等)以及傳統(tǒng)的分類器(例如:支持向量機[3]、K-近鄰[4])等方法實現(xiàn)圖像分類。這些方法在面對簡單的圖像分類問題時是行之有效的,但是在面對海量圖像數(shù)據(jù)時,實際的實驗效果不能令人滿意。

      近年來,通過深度神經(jīng)網(wǎng)絡(luò)(例如視覺幾何群網(wǎng)絡(luò)(Visual Geometry Group, VGG)[5]、ResNet[6])自動學(xué)習(xí)圖像中的特征能夠取得優(yōu)異的分類效果。VGG和ResNet可以作為自動提取視覺特征的網(wǎng)絡(luò),在多種視覺任務(wù)(例如目標(biāo)檢測、實例分割、語義分割、圖像分類)中已經(jīng)證明其效果明顯優(yōu)于傳統(tǒng)手工提取特征。VGG網(wǎng)絡(luò)通常有16層,而ResNet由于其殘差模塊的設(shè)計,能夠解決網(wǎng)絡(luò)過深時對訓(xùn)練梯度的影響,達到更深的網(wǎng)絡(luò)層數(shù),例如,ResNet能夠達到101層、152層,這使得ResNet對于大型的視覺任務(wù)仍具有良好的性能。常見的卷積神經(jīng)網(wǎng)絡(luò)[7]有LeNet[8]、VGG、GoogLeNet[9]和ResNet。注意力機制由Google團隊于2017年提出,并將其應(yīng)用于自然語言處理(Natural Language Processing, NLP)[10]領(lǐng)域?;谶@種為特征分配權(quán)重的思想,一些基于注意力的模型相繼提出,如融合了通道注意力的SE-Net、圖注意力神經(jīng)網(wǎng)絡(luò)(Graph Attention Neural Network, GANN)[11]等。深度神經(jīng)網(wǎng)絡(luò)能夠在視覺任務(wù)中取得優(yōu)秀成果的主要原因是其提取的特征更具有判別性,這種極具判別性的信息和圖像內(nèi)容的空間位置具有緊密的聯(lián)系,例如圖像分類任務(wù)中,“貓”和“狗”的圖像是能夠區(qū)分開來的。區(qū)分的主要依據(jù)是圖像中“貓”和“狗”所處的區(qū)域,而不是圖像中的背景或其他區(qū)域。然而,普通的深度神經(jīng)網(wǎng)絡(luò)對所提取圖像的空間信息關(guān)注不足,不能很好地描述不同空間位置信息的重要性。因此,本文提出一種基于空間注意力的圖像分類網(wǎng)絡(luò),該網(wǎng)絡(luò)通過空間注意力機制對特征圖計算空間注意力系數(shù),并將該系數(shù)重新作用于視覺特征上,得到具有空間重要性區(qū)別的特征,更有助于圖像分類。通過實驗可知,基于空間注意力的圖像分類網(wǎng)絡(luò)能夠獲得更優(yōu)的圖像分類效果。

      1? 基于空間注意力的圖像分類網(wǎng)絡(luò)

      基于空間注意力的圖像分類網(wǎng)絡(luò)在傳統(tǒng)深度網(wǎng)絡(luò)的基礎(chǔ)上增加了空間約束,通過在空間層面上學(xué)習(xí)圖像中各個區(qū)域位置的權(quán)重信息,能夠獲得更具有判別性的圖像特征。

      如圖1所示,基于空間注意力的圖像分類網(wǎng)絡(luò)主要包括三部分:(1)圖像特征提取部分;(2)空間注意力特征融合部分;(3)特征分類部分。接下來依次介紹各個模塊。

      圖像特征提取部分的輸入為RGB圖像,通過ResNet提取RGB圖像的視覺特征,表示為X,其維度為C×H×W,其中H和W分別表示特征圖的高和寬,C表示通道數(shù),即特征圖的深度。對于特征圖X,輸入空間注意力模塊(Spatial attention)??臻g注意力模塊首先對輸入的特征圖X沿著通道進行最大池化[12](Maxpool)和平均池化(Avgpool)。圖2為最大池化示意圖,最大池化是對固定區(qū)域求最大值。圖3為平均池化示意圖,平均池化是對固定區(qū)域求平均值。

      將池化后的特征圖串聯(lián)起來,通過卷積操作,合并為一個注意力系數(shù)矩陣M,將M輸入激活函數(shù),得到最終的注意力系數(shù)矩陣MS,將MS與特征圖X相乘:

      (1)

      得到經(jīng)過空間注意力約束后的特征圖XS。最后將特征圖XS經(jīng)過池化,得到向量LS,輸入全連接網(wǎng)絡(luò),得到對圖像類別的預(yù)測:

      (2)

      其中,g(g)表示Softmax激活函數(shù),Wg表示全連接層g的參數(shù),y表示類別預(yù)測的概率。最后,利用交叉熵損失對模型分類進行約束:

      (3)

      其中, 表示圖像在數(shù)據(jù)集中的類別標(biāo)簽。模型通過反向傳播更新參數(shù)。

      2? 實驗分析

      通過基于空間注意力的圖像分類網(wǎng)絡(luò)在CIFAR-10和CIFAR-100公開數(shù)據(jù)集上的實驗數(shù)據(jù)呈現(xiàn),給出了數(shù)據(jù)集的基本信息以及基于空間注意力的圖像分類網(wǎng)絡(luò)和其他圖像分類方法對比的實驗結(jié)果。

      2.1? 數(shù)據(jù)集介紹

      CIFAR-10數(shù)據(jù)集[13]總共包含10個類別(飛機、貓、狗、青蛙、鳥類等),每個類別包含6 000張圖像,其中CIFAR-10數(shù)據(jù)集的下載地址為https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz。

      CIFAR-100數(shù)據(jù)集[13]總共包含100個類別,CIFAR1-100數(shù)據(jù)集對每張圖像標(biāo)注了細粒度的類別標(biāo)簽和粗粒度的類別標(biāo)簽,共包含20個粗粒度類別。該數(shù)據(jù)集的下載地址為https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz。

      2.2? 基于空間注意力的圖像分類網(wǎng)絡(luò)的分類表現(xiàn)

      本文采用的主干網(wǎng)絡(luò)為ResNet網(wǎng)絡(luò),將ResNet網(wǎng)絡(luò)與空間注意力機制相結(jié)合,得到基于空間注意力的圖像分類網(wǎng)絡(luò)。在CIFAR-10和CIFAR-100數(shù)據(jù)集上進行訓(xùn)練和測試,并且與傳統(tǒng)方法和基于深度學(xué)習(xí)的方法(VGG)進行對比。表1為CIFAR-10數(shù)據(jù)集分類結(jié)果,表2為CIFAR-100數(shù)據(jù)集分類結(jié)果。

      表1展示基于空間注意力的圖像分類網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上與其他方法平均準確率的對比,其中,Practical Bayesian為傳統(tǒng)的貝葉斯方法,沒有利用卷積神經(jīng)網(wǎng)絡(luò),平均準確率為90.5%。VGG-16是卷積神經(jīng)網(wǎng)絡(luò)的早期模塊,網(wǎng)絡(luò)層數(shù)為16,實現(xiàn)92.22%的準確率。ResNet-18相對于VGG-16加入了殘差塊的設(shè)計,平均準確率為93.02%,ResNet-50相對于ResNet-18網(wǎng)絡(luò)更深,取得了93.62%的優(yōu)良效果。Ours(backbone-ResNet-18)表示基于空間注意力的分類網(wǎng)絡(luò)采用的主干(backbone)網(wǎng)絡(luò)為ResNet-18,Ours(backbone-ResNet-50)同理。由于空間注意力模塊的加入,Ours(backbone-ResNet-18)的平均準確率為94.34%,相對于ResNet-18提升了1.32%,而Ours(backbone-ResNet-50)的平均準確率為95.01%,相對于ResNet-50提升了1.39%。

      表2展示基于空間注意力的圖像分類網(wǎng)絡(luò)在CIFAR-100數(shù)據(jù)集上與其他方法平均準確率的對比,其中,VGG-16獲得65.45%的平均準確率,ResNet-18的平均準確率為68.25%。ResNet-50相對于ResNet-18網(wǎng)絡(luò)更深,取得了70.01%的優(yōu)良效果。由于空間注意力模塊的加入,Ours(backbone-ResNet-18)的平均準確率為70.45%,相對于ResNet-18提升了2.20%。而Ours(backbone-ResNet-50)的平均準確率為72.63%,相對于ResNet-50提升了2.62%。

      3? 結(jié)? 論

      本文提出基于空間注意力的圖像分類網(wǎng)絡(luò),利用空間注意力模塊,對深度網(wǎng)絡(luò)提取的視覺特征進行空間約束。由于考慮了特征的空間信息,使得網(wǎng)絡(luò)能夠?qū)μ卣髟诳臻g上的重要性加以區(qū)分,得到更具判別性的特征,更有利于圖像分類。實驗結(jié)果表明,基于空間注意力的圖像分類網(wǎng)絡(luò)解決了以往方法對特征的空間信息關(guān)注不足的問題,所取得的圖像分類效果明顯優(yōu)于其他深度學(xué)習(xí)方法。

      參考文獻:

      [1] 林陶,黃國榮,郝順義,等.尺度不變特征轉(zhuǎn)換算法在圖像特征提取中的應(yīng)用 [J].計算機應(yīng)用,2016,36(6):1688-1691+1698.

      [2] D?NIZ O,BUENO G,SALIDO J,et al. Face recognition using histograms of oriented gradients [J].Pattern recognition letters,2011,32(12):1598-1603.

      [3] 王周春,崔文楠,張濤.基于支持向量機的長波紅外目標(biāo)分類識別算法 [J].紅外技術(shù),2021,43(2):153-161.

      [4] CUNNINGHAM P,DELANY S J. K-nearest neighbour classifiers-a tutorial [J].ACM Computing Surveys (CSUR),2021,54(6):1-25.

      [5] MEI Y J,JIN H R,YU B,et al. Visual geometry group-UNet: deep learning ultrasonic image reconstruction for curved parts [J].The Journal of the Acoustical Society of America,2021,149(5):2997-3009.

      [6] WU Z,SHEN C,VAN DEN HENGEL A. Wider or deeper: Revisiting the resnet model for visual recognition [J].Pattern Recognition,2019,90:119-133.

      [7] 陳鑫華,錢雪忠,宋威.基于輕量級特征融合卷積網(wǎng)絡(luò)的圖像分類算法 [J].計算機工程,2021,47(11):268-275.

      [8] EL-SAWY A,EL-BAKRY H,LOEY M. CNN for handwritten arabic digits recognition based on LeNet-5 [C]//International conference on advanced intelligent systems and informatics.[S.I.]:Cham,2016:566-575.

      [9] ANAND R,SHANTHI T,NITHISH M S,et al. Face recognition and classification using GoogleNET architecture [C]//Soft computing for problem solving. Singapore:Springer,2020:261-269.

      [10] ZHANG Y,TENG Z Y.Natural language processing [M].Cambridge:Cambridge University Press,2021.

      [11] 鮑鵬,徐昊.基于圖注意力時空神經(jīng)網(wǎng)絡(luò)的在線內(nèi)容流行度預(yù)測 [J].模式識別與人工智能,2019,32(11):1014-1021.

      [12] 王宇航,周永霞,吳良武.基于高斯函數(shù)的池化算法 [J].計算機應(yīng)用,2022,42(9):2800-2806.

      [13] 徐海燕.基于通道相似度注意力的圖像分類研究 [J].信息技術(shù)與信息化,2021(11):78-80.

      作者簡介:徐海燕(1993.08—),女,漢族,山東德州人,助教,碩士研究生,研究方向:計算機視覺、圖像分類、推薦系統(tǒng)研究;郝萍萍(1977.12—),女,漢族,山東德州人,副教授,碩士研究生,研究方向:計算機網(wǎng)絡(luò)技術(shù)、物聯(lián)網(wǎng)技術(shù)。

      收稿日期:2022-10-10

      基金項目:2021年山東華宇工學(xué)院校級科研項目(2021KJ17)

      猜你喜歡
      圖像分類計算機視覺深度學(xué)習(xí)
      基于云計算的圖像分類算法
      機器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
      基于錨點建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
      危險氣體罐車液位計算機視覺監(jiān)控識別報警系統(tǒng)設(shè)計
      計算機視覺在交通領(lǐng)域的應(yīng)用
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      基于計算機視覺的細小顆粒團重量測量的研究
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      一種基于引導(dǎo)濾波和MNF的高光譜遙感圖像分類方法
      贵州省| 平乡县| 新泰市| 海林市| 南康市| 舞阳县| 广西| 新建县| 汪清县| 天祝| 乌鲁木齐市| 滨海县| 邢台市| 云龙县| 富民县| 黑山县| 水城县| 青海省| 来宾市| 甘南县| 龙州县| 昌江| 文昌市| 阳信县| 宜兰市| 彰化市| 鹿邑县| 南涧| 西平县| 屏南县| 宜良县| 石泉县| 满城县| 梁河县| 合肥市| 济阳县| 明星| 丘北县| 白城市| 禄丰县| 盘锦市|