吳忠粱
摘要:針對細粒度圖像識別領(lǐng)域中識別率不高、難以定位到圖像中具有表征性的局部區(qū)域的問題,提出一種基于多區(qū)域融合的可變形卷積網(wǎng)絡算法,該算法采用新型的卷積計算方式,根據(jù)越靠近邊緣的部位越發(fā)包含更多圖像上下文信息的原理,對圖像給定多個中心并劃分權(quán)重區(qū)域。在主流數(shù)據(jù)集上的實驗結(jié)果表明,提出的基于多區(qū)域的可變形卷積網(wǎng)絡結(jié)構(gòu)在細粒度圖像識別上的表現(xiàn)相比其他主流算法都有了一定的提升,并且相比于原始的可變形卷積網(wǎng)絡和v2版本的可變形卷積模型也有了性能上的優(yōu)化。
關(guān)鍵詞:細粒度圖像識別;局部表征性;多區(qū)域可變形卷積網(wǎng)絡;圖像上下文信息;區(qū)域劃分
中圖分類號:TP301? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)17-0193-03
開放科學(資源服務)標識碼(OSID):
Fine-grained Image Classification Research Fused with Deformable Convolutional Network
WU Zhong-liang
(School of Information Engineering, East China University of Technology, Nanchang 30013,China)
Abstract: Aiming at the problem that the recognition rate is not high in the field of fine-grained image recognition and it is difficult to locate the characteristic local area in the image, a multi-region-based deformable convolution network algorithm is proposed, which uses a new convolution calculation method. According to the principle that the parts closer to the edge contain more image context information, multiple centers are given to the image and weighted regions are divided. Experimental results on mainstream data sets show that the performance of the proposed multi-region-based deformable convolutional network structure in fine-grained image recognition has a certain improvement compared with other mainstream algorithms, and compared to the original deformable The convolutional network and the v2 version of the deformable convolution model have also been optimized in performance.
Key words: fine-grained image recognition; local representation; multi-region deformable convolutional network; image context information; region partition
1 引言
在計算機視覺領(lǐng)域中,圖像分類任務通常分為粗粒度圖像分類和細粒度圖像分類,其中細粒度圖像分類要求識別出某一基類下的數(shù)百種子類,包括識別不同種類的鳥[1],車[2],寵物[3],花[4],飛行器[5]等,而粗粒度圖像分類只需要識別出圖像中目標的基本類別?,F(xiàn)如今細粒度圖像分類這一任務具有非常迫切的研究需求,并且其應用非常廣泛,例如生態(tài)多樣性的保護、自動駕駛以及癌癥檢測等。
相比一般的圖像識別,細粒度圖像識別難度較大。一方面,由于部分目標在外觀上只存在細微的差異,例如鳥類在形狀,背部顏色和紋理特征上的細微差異,而這種細微的局部的差異恰恰是細粒度圖像分類的關(guān)鍵所在。另一方面,這些細微且局部的差異常常存在于一些具有區(qū)分性的目標和部位上。因此,本文從聚焦于圖像中具有明顯表征性的部位出發(fā),通過改進現(xiàn)有的較為流行的神經(jīng)網(wǎng)絡算法的采樣計算方式,使得算法能進一步捕獲到圖像的局部細微特征,從而提升細粒度圖像識別的準確率。
2融合可變形卷積的細粒度圖像識別
2.1 可變形卷積網(wǎng)絡
傳統(tǒng)的卷積操作一般使用固定尺寸的卷積核對輸入圖像進行特征提取,其感受野范圍固定,而可變形卷積網(wǎng)絡[6](Deformable Convolutional Network,DCN)通過引入偏移量使感受野更加匯聚于表征性區(qū)域,提升了網(wǎng)絡對圖像紋理變化的適應能力,但DCN的一大問題是不太適用于圖像表征性區(qū)域以外的部分,導致捕獲的特征摻雜部分冗余信息。然而隨后的v2版本可變形卷積網(wǎng)絡[7](Deformable Convolutional Networkv2,DCNv2)則在原DCN的基礎(chǔ)上對每個采樣點引入偏移量以及不同的權(quán)重,使得對于圖像的特征提取更加全面準確。圖1給出了表示標準卷積與各種DCN采樣方式的對比(以3×3模板為例),其中的DCN包含了尺度變化、伸縮及旋轉(zhuǎn)等變形方式。
然而DCNv2僅僅通過引入權(quán)重帶來的效果提升比較有限,這是由于現(xiàn)有的損失函數(shù)難以監(jiān)督模型對無關(guān)緊要的區(qū)域設置較小的權(quán)重。盡管DCNv2相比DCN更加聚焦于表征性區(qū)域,但依然有小部分有效區(qū)域被忽略,這對于細粒度圖像分類任務來說至關(guān)重要,可能導致最具區(qū)分性的部位特征的丟失,從而無法準確完成分類任務。
2.2 基于多區(qū)域融合的可變形卷積網(wǎng)絡
基于上述對DCN缺陷的闡述,本文提出一種基于多區(qū)域融合的DCN,同時設定一種新的卷積計算方式,既適用標準卷積網(wǎng)絡也適用DCN類網(wǎng)絡模型。首先,由于各采樣點及其周圍的點之間都有一定的關(guān)聯(lián)性,應當保留采樣點鄰域內(nèi)像素信息,便于充分發(fā)揮圖像上下文信息的價值。如圖2所示,若輸入圖像尺寸為8?8,卷積模板尺寸為3?3,某一采樣點為Xn,其周圍8鄰域內(nèi)各像素點一次為Xn1, Xn2, Xn3, Xn4, Xn5, Xn6, Xn7, Xn8,整幅圖像從里至外依次劃分區(qū)域分別為region1,region2,region3,region4…,新的卷積采樣點計算方式為:在采樣點的8鄰域內(nèi)選擇與采樣點梯度最大(即像素值相差最大)的4個點,然后對四個點根據(jù)其各自與采樣點的梯度值作為對應的權(quán)重,并將該權(quán)重與原先鄰域點的值對應作乘加運算,得到的值作為更新后的采樣點的值,再將其輸入至下一步的卷積運算過程。計算方式用式(1)表示如下,其中updated_SampleValue表示更新后的采樣值,gradienti表示梯度值最大的幾個鄰域點,N表示變量i的取值范圍,Xnj表示某采樣點的8鄰域內(nèi)的像素值。
[updated_SampleValue=i=14gradientiNXnj? ? j∈[1,8]]? ? (1)
在圖像中,區(qū)域劃分如圖2所示,經(jīng)過以上區(qū)域劃分后,圖像被分成了具有不同權(quán)值不同中心的小區(qū)域,各區(qū)域?qū)煌臋?quán)值。由于圖像中目標的邊界區(qū)域包含了部分背景區(qū)域的信息,因此為了更凸顯目標主體,需要降低圖像背景干擾信息的影響,類似于DCNv2給每個采樣點賦予不同權(quán)值,將整幅圖像中除主目標以外的區(qū)域也相對目標主體加入相應的權(quán)重劃分,圖片中的不同區(qū)域在參與計算時也應該具有不同的權(quán)重。然而由于輸入圖像時目標位置不確定,因此本文方法在特征圖上設定多個中心,將整幅特征圖分為4個區(qū)域?qū)哟?,為了更好地融合不同塊的邊界信息,每個區(qū)域之間有重疊,在每一個區(qū)域中,越靠近中心的部分權(quán)值越大,越靠近邊緣的權(quán)值越小。最終在進行卷積計算時,每個采樣點的權(quán)值為當前采樣點所在塊的權(quán)值以及每個采樣位置的權(quán)值之乘積。由于在較深的卷積層中,已經(jīng)學習到了主要目標的特征,大部分背景區(qū)域已經(jīng)被摒棄了,因此該權(quán)值設置同時也會應用在region1、region3以及region4區(qū)域?qū)哟紊系木矸e層,計算方式依舊同式(1)所示。
3 實驗
3.1 實驗設置與數(shù)據(jù)集簡介
本文的實驗配置為:CPU(i7-9700H),內(nèi)存大小為32G,操作系統(tǒng)版本為Ubuntu 16.04,圖形處理器為英偉達公司出品的RTX2070顯卡,Python版本為3.6.4,集成開發(fā)環(huán)境為Anaconda3內(nèi)置的spyder,深度學習框架tensorflow版本為1.8.1。首先搭建好本文整個的算法框架,隨后加載好在ImageNet大型圖像識別數(shù)據(jù)集上訓練好的預訓練模型,該預訓練模型的主干網(wǎng)絡采用的是ResNet-101。本文實驗選擇Adam優(yōu)化器對算法模型的權(quán)重衰減進行優(yōu)化,設置初始學習率為0.005,每經(jīng)過10個epoch對學習率進行調(diào)整,每個epoch送入模型的訓練批量數(shù)目為50,同時設置學習率降低的閾值為0.0001。實驗時對于各類數(shù)據(jù)集均取其80%作為訓練組,10%作為模型驗證組,10%作為測試組。
本文采用細粒度圖像識別中常用的數(shù)據(jù)集CUB-2000-2011[8]、FGVC-aircraft[9]和 Stanford-cars[10]進行實驗,其中CUB-200-2011 數(shù)據(jù)集由200種不同角度、不同姿勢、不同背景的鳥類圖像組成,每一類所提供的樣本數(shù)量不同,總共 11788 張圖像數(shù)據(jù),該數(shù)據(jù)集給出了樣本的標簽信息,目標標注框信息以及目標局部不為標注信息,以及多種分類屬性信息。FGVC-aircraft 數(shù)據(jù)集包括由 102 類不同飛機的圖像組成,每一類飛機含有不同拍攝角度的100張圖像,總共10200個樣本數(shù)據(jù)。提供的標注信息有l(wèi)abel和目標邊界框,不包含局部定位。Stanford-cars 數(shù)據(jù)集由 196 類汽車圖像組成,每一類提供的樣本數(shù)據(jù)不一,總共16185 張圖像,與FGVC-aircraft 數(shù)據(jù)集一樣,數(shù)據(jù)集只提供了標簽和目標標記框信息。同時將本文方法與DCN[6]算法、DCNv2[7]算法以及一般的圖像識別中較為流行的Faster RCNN[11]算法及RANet[12]算法分別在三大數(shù)據(jù)集上進行了比較實驗。
3.2 實驗結(jié)果與分析
表1給出的是本文提出的多區(qū)域可變形卷積方式與其他主流的圖像識別算法在數(shù)據(jù)集CUB-200-2011、 FGVC-aircraft以及Stanford-cars上的識別結(jié)果比較,可以看出,僅通過改變神經(jīng)網(wǎng)絡卷積采樣方式同時不大幅改變整體模型結(jié)構(gòu)的情況下,本文提出的多區(qū)域可變形卷積在各大數(shù)據(jù)集上相比于幾大主流的細粒度圖像識別算法具有更優(yōu)的分類性能,譬如本文方法在最具挑戰(zhàn)性的鳥類細粒度圖像識別數(shù)據(jù)集上,比Faster RCNN[10]算法識別正確率提高了5%,比RANet[11]算法提高了3%,更重要的是,與原始的可變形卷積網(wǎng)絡DCN[6]以及v2版本的可變形卷積模型DCNv2相比同樣也有1%、2%的提升,這是由于改進后的可變形卷積網(wǎng)絡的每個卷積核都能夠提取到大量的鄰近的圖像上下文信息,這對細粒度圖像分類算法來說能夠更加精確地捕獲到圖像的局部特征。另一方面,由于越小的區(qū)域內(nèi)的信息相似度越高,據(jù)此算法通過融合多區(qū)域權(quán)重,并加深每種區(qū)域的劃分密度,使得識別準確率逐步提升。
圖3給出了在本文方法下的圖像區(qū)域熱點圖及其權(quán)值可視化效果,明確展示了相似度極高類別圖像的區(qū)分性區(qū)域。這更加說明本文提出的多區(qū)域可變形卷積獲取到更加多的相鄰區(qū)域信息,并能夠準確定位到圖像中對目標識別具有重要貢獻的部位。
4結(jié)論
本文針對細粒度圖像識別領(lǐng)域中識別率不高、算法難以定位到圖像中具有表征性的局部區(qū)域的問題,在分析當前主流的可變形卷積網(wǎng)絡DCN的原理與結(jié)構(gòu)的基礎(chǔ)上,指出了DCN在對圖像感受野的具體范圍上尚有缺陷,由此提出一種基于多區(qū)域融合的可變形卷積網(wǎng)絡的細粒度圖像識別算法,該算法采用新型的卷積計算方式,根據(jù)越靠近邊緣的部位越發(fā)包含更多圖像上下文信息的原理,通過對圖像給定多個中心及區(qū)域,并對圖像不同區(qū)域進行權(quán)重劃分。在三大主流的數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的基于多區(qū)域的可變形卷積網(wǎng)絡結(jié)構(gòu)在細粒度圖像識別上的表現(xiàn)相比其他主流算法都有了一定的提升,并且相比于原始的可變形卷積網(wǎng)絡和v2版本的可變形卷積模型也有了性能上的提高,本文算法對于圖像目標的感受野范圍更加靈活,同時改進后的模型體量相較之前基本無差別,這對于模型的訓練益處較大。此外由于本文提出的基于多區(qū)域的可變形卷積網(wǎng)絡算法在細粒度圖像識別問題上表現(xiàn)優(yōu)良,因此具有一定的研究價值與實用意義。
參考文獻:
[1] Wah C,Branson S,Welinder P,et al.The caltech-UCSD birds200-2011 dataset[EB/OL].2011.
[2] Krause J,Stark M,Jia D,et al.3D object representations for fine-grained categorization[C]//2013 IEEE International Conference on Computer Vision Workshops.December 2-8,2013,Sydney,NSW,Australia.IEEE,2013:554-561.
[3] Omkar M Parkhi, Andrea Vedaldi, Andrew Zisserman, and CV Jawahar.Cats and dogs. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012:3498-3505.
[4] Maria Elena Nilsback and Andrew Zisserman. Automated ?ower classi?cation over a large number of classes. Sixth Indian Conference on Computer Vision, Graphics & Image Processing, 2008:722-729.
[5] Maji S,Rahtu E,Kannala J,et al.Fine-grained visual classification of aircraft[EB/OL].2013.
[6] Dai J F,Qi H Z,Xiong Y W,et al.Deformable convolutional networks[EB/OL].2017:arXiv:1703.06211[cs.CV].https://arxiv.org/abs/1703.06211.
[7] Zhu X Z,Hu H,Lin S,et al.Deformable ConvNets V2:more deformable,better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:9300-9308.
[8] Catherine W, Steve B, Peter W,et.al. The Caltech-UCSD Birds-200-2011 Dataset. Technical Report,2011.
[9] Maji S,Rahtu E,Kannala J,et al.Fine-grained visual classification of aircraft[EB/OL].2013.
[10] Krause J,Stark M,Jia D,et al.3D object representations for fine-grained categorization[C]//2013 IEEE International Conference on Computer Vision Workshops.December 2-8,2013,Sydney,NSW,Australia.IEEE,2013:554-561.
[11] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[12] Fu J L,Zheng H L,Mei T.Look closer to see better:recurrent attention convolutional neural network for fine-grained image recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:4476-4484.
【通聯(lián)編輯:唐一東】