基于混合特征提取的細(xì)粒度圖像識(shí)別方法

2023-10-21 06:49:14李明峰邵琳鈺蔡昌利

南昌大學(xué)學(xué)報(bào)(工科版) 2023年3期

李明峰,邵琳鈺,蔡昌利

(1.上海理想信息產(chǎn)業(yè)(集團(tuán))有限公司,上海 201200; 2.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876)

圖像識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù)和重要研究方向。隨著相關(guān)研究的不斷深入,更具挑戰(zhàn)性的細(xì)粒度圖像識(shí)別任務(wù)受到了越來(lái)越多的關(guān)注。細(xì)粒度圖像識(shí)別的目標(biāo)是準(zhǔn)確地區(qū)分一個(gè)大類下的多個(gè)子類別,例如區(qū)分圖1中3種形態(tài)十分相似的鳥類。相較于一般的圖像識(shí)別任務(wù),細(xì)粒度圖像識(shí)別具有類間差異小、類內(nèi)差異大的特點(diǎn)。具體來(lái)說(shuō),類間差異小是指,不同子類的對(duì)象具有相似性,需要通過(guò)一些關(guān)鍵的區(qū)域(以鳥類為例,如鳥嘴、翅膀、爪子等部分區(qū)域)來(lái)加以區(qū)分,然而標(biāo)注關(guān)鍵區(qū)域會(huì)增加額外的標(biāo)注成本;類內(nèi)差異大是指,同一個(gè)子類中,由于姿勢(shì)、背景、光線以及拍攝角度等因素的不同,對(duì)象之間差別相對(duì)較大。細(xì)粒度圖像識(shí)別的實(shí)際應(yīng)用非常廣泛,如圖1中提到的鳥類分類[1],以及針對(duì)零售商品[2]、車輛[3]、真菌[4]等對(duì)象的分類任務(wù),并且很多工業(yè)缺陷分類與醫(yī)學(xué)計(jì)算機(jī)體層攝影(computed tomography,CT)圖像分類任務(wù)也可以歸為細(xì)粒度圖像識(shí)別問(wèn)題。

(a) 鉤嘴鳥 (b) 黑腳信天翁 (c) 鳳頭海雀

針對(duì)上述提到的細(xì)粒度圖像識(shí)別問(wèn)題的特點(diǎn)和難點(diǎn),目前已經(jīng)進(jìn)行了大量的研究工作。早期的細(xì)粒度圖像識(shí)別算法[5-7]主要基于包含強(qiáng)監(jiān)督信息的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,除了圖像的類別信息之外,還需要使用額外的人工標(biāo)注信息(如針對(duì)鳥嘴翅膀等關(guān)鍵區(qū)域的標(biāo)注點(diǎn)以及對(duì)象標(biāo)注框等)。然而標(biāo)注需要一定的專家知識(shí)以及額外的標(biāo)注成本,制約了方法的實(shí)際應(yīng)用,例如在CT圖像中準(zhǔn)確地標(biāo)注病變部位需要專業(yè)的醫(yī)生。

近年來(lái),基于弱監(jiān)督信息的細(xì)粒度圖像識(shí)別方法[8-20]的識(shí)別能力已經(jīng)逐漸超過(guò)基于強(qiáng)監(jiān)督信息的方法,并成為細(xì)粒度圖像識(shí)別問(wèn)題研究的主流方向。這類方法只需要圖像標(biāo)注信息,減少了對(duì)于額外標(biāo)注信息的需求,降低了實(shí)際應(yīng)用難度。最新的研究主要集中在以下方向:1)模型結(jié)構(gòu)優(yōu)化,Lin等[8]首先提出了基于雙支路網(wǎng)絡(luò)B-CNN的特征提取器,近期的許多工作基于它進(jìn)行了改進(jìn)[12-13]。此外,部分研究使用Transformer網(wǎng)絡(luò)代替CNN[14-16],如Dosovitskiy等[14]提出了用于圖像分類的ViT方法,He等[15]則進(jìn)一步設(shè)計(jì)了專用于細(xì)粒度圖像分類的Transformer網(wǎng)絡(luò)TransFG。Wang等[17]則關(guān)注了中間層特征對(duì)性能的影響。部分模型引入了注意力機(jī)制,如Sun等[18]提出壓縮多激勵(lì)(OSME)模塊來(lái)學(xué)習(xí)多個(gè)注意區(qū)域特征,然后在度量學(xué)習(xí)框架中應(yīng)用多注意多類約束(MAMC)進(jìn)行分類,Ji等[19]基于二叉樹結(jié)構(gòu)搭建注意力網(wǎng)絡(luò)模型,這些方法有效地提升了識(shí)別精度,但復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)也極大地增加了訓(xùn)練開銷。2)網(wǎng)絡(luò)流程優(yōu)化,如Zhou等[9]提出了LIO,將自我監(jiān)督整合到傳統(tǒng)框架中來(lái)針對(duì)對(duì)象進(jìn)行查看。Chang等[20]從損失函數(shù)入手,保持網(wǎng)絡(luò)結(jié)構(gòu)不變,設(shè)計(jì)了MC-loss方法,Chen等[21]提出的解構(gòu)-重構(gòu)學(xué)習(xí)(destruction and construction learning,DCL)直接將訓(xùn)練圖像進(jìn)行區(qū)域打亂,增強(qiáng)局部細(xì)節(jié),并使用了一種對(duì)抗損失來(lái)區(qū)分原始圖像和破壞圖像,然而這些方法是非端到端的,訓(xùn)練過(guò)程中涉及大量的圖片裁剪和放大操作,大大增加了訓(xùn)練難度。已有研究主要依靠設(shè)計(jì)復(fù)雜網(wǎng)絡(luò)或者流程來(lái)捕獲精細(xì)特征,沒(méi)有考慮訓(xùn)練過(guò)程對(duì)該問(wèn)題的重要性,本文針對(duì)細(xì)粒度圖像識(shí)別類內(nèi)差異大、類間差異小的問(wèn)題開展研究,提出了更為有效的訓(xùn)練方式以及網(wǎng)絡(luò)模型。

Mixup[22]被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域的網(wǎng)絡(luò)正則化以及數(shù)據(jù)增強(qiáng)方向。通過(guò)混合數(shù)據(jù)來(lái)生成虛擬樣本,從而達(dá)到擴(kuò)充數(shù)據(jù)的效果,能夠有效改善過(guò)擬合問(wèn)題,提升模型對(duì)于圖像識(shí)別的性能和魯棒性。并且生成的虛擬樣本往往能夠包含多個(gè)類別的特征信息。受此方法啟發(fā),本文提出將模型中間層輸出的特征圖進(jìn)行混合,借助Mixup思想提取類間和類內(nèi)的特征信息。

非局部(Non-local,NL)模塊通常被用來(lái)捕獲圖像不同位置的依賴關(guān)系以及生成注意力權(quán)重[23-24]。最新的研究將其應(yīng)用于細(xì)粒度圖像識(shí)別領(lǐng)域,如劉洋等[25]將非局部模塊與Navigator進(jìn)行結(jié)合,加強(qiáng)模型的全局信息感知能力; Ye等[26]通過(guò)NL模塊將具有不同的感受野的深層神經(jīng)元與多個(gè)淺層神經(jīng)元相關(guān)聯(lián),使深層可以從淺層中學(xué)習(xí)到更具區(qū)分性的多尺度特征。然而,多尺度特征融合增大了訓(xùn)練開銷,且模塊的遷移性較差。

針對(duì)細(xì)粒度圖像識(shí)別問(wèn)題類內(nèi)差異大、類間差異小的問(wèn)題,本文引入Mixup思想來(lái)比較不同的圖像,從而提高模型對(duì)圖像的辨別能力[27-28],突出不同類別的區(qū)分性特征和相同類別的共有特征。并在需要混合的網(wǎng)絡(luò)中間層后加入NL模塊捕獲特征信息?？紤]到Mixup方式在獲取特征信息的同時(shí),也帶來(lái)了噪聲和歧義,因此,本文設(shè)計(jì)了與訓(xùn)練過(guò)程耦合的多損失函數(shù)來(lái)優(yōu)化該問(wèn)題。

1 網(wǎng)絡(luò)模型

本文的網(wǎng)絡(luò)模型總體架構(gòu)如圖2所示,首先,設(shè)計(jì)混合非局部增強(qiáng)(MixupNon-local,MNL)網(wǎng)絡(luò),通過(guò)Mixup混合NL模塊提取的網(wǎng)絡(luò)中間層特征,然后通過(guò)Adaptor在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整多損失函數(shù)提升模型魯棒性,下文將詳細(xì)介紹模型的設(shè)計(jì)流程。

圖2 網(wǎng)絡(luò)總體架構(gòu)Fig.2 Overall structure of the network

1.1 Mixup

Mixup是計(jì)算機(jī)視覺(jué)中常用的數(shù)據(jù)增強(qiáng)方法,其主要思想如下。

如圖3所示,對(duì)于任意的2個(gè)標(biāo)記數(shù)據(jù)樣本(xi,yi)和(xj,yj),其中xi、xj為圖像樣本,yi、yj為對(duì)應(yīng)標(biāo)簽的one-hot表示,通過(guò)線性插值混合2個(gè)樣本,從而創(chuàng)建新的虛擬訓(xùn)練樣本,公式表示如下:

圖3 Mixup生成虛擬樣本Fig.3 Generate virtual samples by Mixup

(1)

(2)

其中λ∈[0,1]。

通過(guò)Mixup方法混合不同的樣本,可以擴(kuò)充訓(xùn)練樣本數(shù)量,且生成的樣本能夠讓模型通過(guò)對(duì)比進(jìn)行訓(xùn)練學(xué)習(xí),能夠直接優(yōu)化細(xì)粒度圖像識(shí)別中類內(nèi)差異大、類間差異小的問(wèn)題。

但是原始的Mixup僅考慮了底層特征信息,忽視了深層的語(yǔ)義特征信息。而底層特征的混合會(huì)產(chǎn)生歧義,容易影響高層語(yǔ)義特征的學(xué)習(xí)。因此,本文提出對(duì)卷積神經(jīng)網(wǎng)絡(luò)中不同深度的中間層特征圖進(jìn)行混合,從而更好地獲取特征信息。

同時(shí),考慮到直接對(duì)網(wǎng)絡(luò)中間層的輸出進(jìn)行混合,缺少了對(duì)特征的提取和保存,容易導(dǎo)致訓(xùn)練欠擬合。因此,首先在骨干網(wǎng)絡(luò)需要進(jìn)行混合的中間層之后插入NL模塊,通過(guò)混合NL模塊的輸出結(jié)果,指導(dǎo)其提取和保存類內(nèi)與類間的特征信息。

1.2 NL模塊

本節(jié)詳細(xì)介紹了NL模塊的結(jié)構(gòu)、功能及其在骨干網(wǎng)絡(luò)中的應(yīng)用。

在神經(jīng)網(wǎng)絡(luò)中,卷積運(yùn)算通常只能提取局部相關(guān)性,使網(wǎng)絡(luò)很難捕獲大范圍或者全局中不同位置的聯(lián)系。而NL模塊可以很好地獲取全局中不同位置之間的依賴關(guān)系,聯(lián)系多個(gè)相關(guān)的區(qū)域特征,且不會(huì)改變輸入特征的維度,其結(jié)構(gòu)如圖4(b)所示。因此,我們?cè)诠歉删W(wǎng)絡(luò)(以ResNet-50為例)的多個(gè)瓶頸(Bottleneck)(ResNet的基本組成結(jié)構(gòu),其結(jié)構(gòu)如圖4(c)所示)之間插入多個(gè)NL模塊,提升網(wǎng)絡(luò)對(duì)于不同尺度全局依賴關(guān)系的獲取能力,并用于保存類內(nèi)和類間的特征信息。插入NL模塊后的骨干網(wǎng)絡(luò)總體結(jié)構(gòu)如圖4(a)所示。

圖4 ResNet-50+5NL模塊結(jié)構(gòu)圖Fig.4 Architecture of ResNet-50+5NL module

結(jié)合文獻(xiàn)[26]中的定義,對(duì)于第l個(gè)Bottleneck模塊,Hl、Wl和Cl分別表示其輸出特征圖的高度、寬度和通道數(shù)。將特征表示為Xl∈RHlWl×Cl(粗體大寫字母表示矩陣,所有非粗體字母表示標(biāo)量。特征的上標(biāo)表示相應(yīng)層的索引)。為了獲取特征Xl中局部位置之間的全局依賴關(guān)系,首先通過(guò)3個(gè)可學(xué)習(xí)的變換函數(shù)θ(·)、φ(·)和g(·)對(duì)Xl進(jìn)行特征變換,將其投影到新的特征空間中。然后,通過(guò)函數(shù)f(·,·)計(jì)算θ(Xl)和φ(Xl)的相關(guān)性以獲得全局的依賴關(guān)系,再經(jīng)過(guò)softmax函數(shù)將其轉(zhuǎn)換為注意力權(quán)重。將生成的注意力權(quán)重與g(Xl)相乘,獲得最終的全局依賴關(guān)系,最后,通過(guò)變換函數(shù)z(·)將結(jié)果投影到原本的特征空間并與特征Xl疊加,FNL(Xl)的具體計(jì)算過(guò)程如下:

FNL(Xl)=Xl+z(f(θ(Xl),φ(X))g(Xl))

(3)

式中:θ(·)、φ(·)、g(·)和z(·)通常實(shí)現(xiàn)為1×1卷積,θ(·)、φ(·)、g(·)對(duì)特征X做降維處理,z(·)將結(jié)果復(fù)原到原本的特征維度,以保證與特征X的維度一致性。f(·,·)函數(shù)為嵌入高斯函數(shù),公式如下:

f(θ(X),φ(X))=eθ(Xl)Tφ(Xl)

(4)

1.3 MNL模塊

本節(jié)中將Mixup思想與NL模塊相結(jié)合,提出了本文模型的主要結(jié)構(gòu)——MNL模塊,結(jié)構(gòu)如圖5所示。

圖5 MNL模塊結(jié)構(gòu)圖Fig.5 Overall structure of MNL module

首先,選取2個(gè)樣本(xi,yi)和(xj,yj),xi、xj為圖像樣本,yi、yj為其對(duì)應(yīng)標(biāo)簽的one-hot表示,將xi、xj分別輸入網(wǎng)絡(luò)中。根據(jù)骨干網(wǎng)絡(luò)不同尺度卷積層的特征提取能力,我們選擇了N個(gè)不同深度的中間特征層,并在每個(gè)特征層后插入與之匹配的NL模塊,編號(hào)為NLm,其中m∈[1,N]。在訓(xùn)練階段,隨機(jī)選取一個(gè)NL模塊,如NLM,2個(gè)圖像樣本經(jīng)過(guò)NLM后的輸出特征分別為:

(5)

(6)

層后的輸出特征,θM(·)表示NLM中的θ(·)函數(shù),φM(·)、gM(·)同理。

(7)

其中λ由生成器(Generator)模塊產(chǎn)生,參考Chen等[28]的設(shè)置,在實(shí)驗(yàn)中Generator會(huì)針對(duì)每個(gè)批次從Beta分布中采樣混合參數(shù)λ以完成特征的混合:

λ～Beta(β,β)

λ=max(λ,1-λ)

(8)

(9)

式中:p(·;φ)為MNL模型的分類器,φ為分類器參數(shù)。分類器由全局平均池化層(global average pooling,GAP)、全連接層(fully connected layer)以及Softmax層組成。

對(duì)于訓(xùn)練過(guò)程中的每一個(gè)批次的數(shù)據(jù),都會(huì)隨機(jī)選取NL模塊并進(jìn)行特征混合,以保證不同深度的NL模塊都能夠?qū)W到對(duì)應(yīng)不同尺度的特征信息。

1.4 多損失函數(shù)

本質(zhì)上,訓(xùn)練過(guò)程中通過(guò)Mixup方式生成的虛擬樣本分類任務(wù)相比原任務(wù)更加復(fù)雜。增強(qiáng)的任務(wù)與原目標(biāo)任務(wù)實(shí)際上并不相同,即訓(xùn)練過(guò)程與測(cè)試過(guò)程并不完全匹配。因此,本文提出了MNL+Adaptor架構(gòu),通過(guò)設(shè)計(jì)與訓(xùn)練過(guò)程耦合的多損失函數(shù)來(lái)優(yōu)化Mixup帶來(lái)的問(wèn)題,其中Adaptor模塊負(fù)責(zé)在訓(xùn)練過(guò)程中調(diào)節(jié)增強(qiáng)任務(wù)與目標(biāo)任務(wù)的權(quán)重。

如圖2所示,模型的損失由2部分組成,即輸入的2個(gè)批次經(jīng)過(guò)MNL模塊的預(yù)測(cè)損失LMNL以及各自的預(yù)測(cè)損失Li和Lj,總損失函數(shù)如下:

Lt=αLMNL+(1-α)Li+Lj

(10)

式中:α由Adaptor模塊產(chǎn)生。Adaptor內(nèi)部實(shí)現(xiàn)為與訓(xùn)練步數(shù)s相關(guān)的函數(shù)f(s),f(·)可由一個(gè)或多個(gè)遞減函數(shù)組成和實(shí)現(xiàn),本文中選取了指數(shù)函數(shù),f(s)公式如下:

(11)

式中:S為總訓(xùn)練步數(shù);a為外部參數(shù),用于調(diào)整變化速率。

在訓(xùn)練開始時(shí),α=1,Adaptor模塊控制模型以虛擬任務(wù)為主要任務(wù),隨著訓(xùn)練過(guò)程的進(jìn)行,α逐漸趨于0,Adaptor模塊將訓(xùn)練任務(wù)重心偏向于目標(biāo)任務(wù),降低Mixup帶來(lái)的影響。

1.5 訓(xùn)練流程

首先,將成對(duì)的數(shù)據(jù)分別輸入插入了NL模塊的骨干網(wǎng)絡(luò);接著在MNL模塊中,通過(guò)Mixup將NL提取的網(wǎng)絡(luò)中間層特征進(jìn)行混合,并分別計(jì)算原始預(yù)測(cè)與混合預(yù)測(cè)的損失函數(shù);然后通過(guò)Adaptor動(dòng)態(tài)調(diào)整多個(gè)損失之間的權(quán)重,得到混合的預(yù)測(cè)損失,最后通過(guò)反向傳播更新骨干網(wǎng)絡(luò)的參數(shù)。

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)選用ResNet-50作為骨干網(wǎng)絡(luò),并在其res2模塊與res3模塊中分別插入2個(gè)和3個(gè)NL模塊。訓(xùn)練和測(cè)試過(guò)程中,將輸入圖像的大小統(tǒng)一調(diào)整為448×448,為了權(quán)衡模型收斂與NL模塊收斂的速度,訓(xùn)練過(guò)程只選取了第一、三、五個(gè) NL模塊進(jìn)行混合。論文的方法使用PyTorch框架實(shí)現(xiàn),訓(xùn)練使用4張Tesla V100-SXM2 GPU,批次大小設(shè)置為64。適當(dāng)提高批次的大小有利于提升算法的魯棒性。Beta分布的超參數(shù)β設(shè)置為0.75,初始學(xué)習(xí)率設(shè)置為0.001,每20個(gè)訓(xùn)練輪數(shù)(epoch)學(xué)習(xí)率乘以下降系數(shù)0.1,使用Adam作為網(wǎng)絡(luò)優(yōu)化器,共訓(xùn)練120個(gè)epoch。

2.2 性能評(píng)估

本文在CUB-200-2011[1]和Stanford Cars[3]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。表1為數(shù)據(jù)集的詳細(xì)信息。

表1 細(xì)粒度數(shù)據(jù)集詳情Tab.1 Statistics of fine-grained datasets

其中,CUB-200-2011包含200個(gè)鳥類子類別,由5 994張訓(xùn)練圖像和5 794張測(cè)試圖像組成。Stanford Cars包含了196個(gè)汽車類別,由8 144張訓(xùn)練圖片和8 041張測(cè)試圖片組成。我們?cè)?個(gè)數(shù)據(jù)集上將本文方法與多個(gè)細(xì)粒度圖像識(shí)別方法進(jìn)行對(duì)比,結(jié)果如表2、表3所示。

表2 在CUB-200-2011數(shù)據(jù)集上的細(xì)粒度分類結(jié)果Tab.2 Fine-grained classification results on the CUB-200-2011 dataset

表3 在Stanford Cars數(shù)據(jù)集上的細(xì)粒度分類結(jié)果Tab.3 Fine-grained classification results on the Stanford Cars dataset

首先,依據(jù)是否有區(qū)域標(biāo)注將方法分為2類,并且為了更好地對(duì)比,本文給出了每種方法使用的骨干網(wǎng)絡(luò)。論文提出的MNL+Adaptor模型在CUB-200-2011和Stanford Cars上分別達(dá)到了87.4%與93.8%的top1識(shí)別精度,相較于基于強(qiáng)監(jiān)督信息的方法(如FACN和PA-CNN等)有明顯提升,并超過(guò)大量基于弱監(jiān)督信息的算法。在使用相同骨干網(wǎng)絡(luò)(ResNet-50)的情況下,MNL模型的識(shí)別精度優(yōu)于多個(gè)最新的方法(如MCL和CNL等),并且與同樣針對(duì)NL模塊進(jìn)行改進(jìn)的CNL方法相比,論文模型保留了NL模塊即插即用的優(yōu)點(diǎn),無(wú)須對(duì)骨干網(wǎng)絡(luò)模型進(jìn)行大量修改,可以動(dòng)態(tài)地調(diào)整NL模塊的嵌入。

2.3 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證算法的有效性,我們?cè)贑UB-200-2011數(shù)據(jù)集上研究了論文模型中不同模塊對(duì)預(yù)測(cè)性能的影響。表4中展示了模型各個(gè)模塊或方法對(duì)模型預(yù)測(cè)的top1、top5準(zhǔn)確率以及模型參數(shù)量與計(jì)算復(fù)雜度的影響。

表4 在CUB-200-2011上的消融實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of ablation on CUB-200-2011

從性能角度分析,與作為基線的ResNet-50網(wǎng)絡(luò)模型相比,在ResNet-50中嵌入NL模塊提高了1.05%的top1準(zhǔn)確率。只使用Mixup對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)提高了1.23%的top1準(zhǔn)確率并提高了1.21%的top5準(zhǔn)確率。而將Mixup數(shù)據(jù)增強(qiáng)方法與NL模塊進(jìn)行簡(jiǎn)單的結(jié)合后,雖然依舊能夠提高性能,但是提升效果并不明顯。這是由于插入的NL模塊的參數(shù)是隨機(jī)初始化的,沒(méi)有加載預(yù)訓(xùn)練參數(shù),而Mixup方法對(duì)原始圖像進(jìn)行增強(qiáng)經(jīng)過(guò)網(wǎng)絡(luò)的層層傳播,只能隱式地訓(xùn)練NL模塊,并不能直接指導(dǎo)NL模塊的參數(shù)學(xué)習(xí),導(dǎo)致結(jié)合的效率低下。而論文提出的MNL主體結(jié)構(gòu)在基線上提升了2.3%的top1準(zhǔn)確率,更加有效地訓(xùn)練了NL模塊,提取并保存了類內(nèi)與類間特征信息。此外,基于論文方法部分對(duì)于Mixup方法弊端的分析,論文提出的與訓(xùn)練過(guò)程耦合的損失函數(shù)使模型識(shí)別精度達(dá)到了87.42%,有效地改善了訓(xùn)練過(guò)程。

從復(fù)雜度角度分析,相比于ResNet-50,本文方法在提升性能的同時(shí)增加了參數(shù)量與計(jì)算量,但該增加量主要來(lái)自于NL模塊,證明本文提出的方法在不增加額外參數(shù)量的情況下有效發(fā)揮了NL模塊的性能。同時(shí),相比于大型網(wǎng)絡(luò)ResNet-101,本文方法在參數(shù)量與計(jì)算量更少的情況下達(dá)到了更高的性能。

2.4 熱力圖對(duì)比分析

為了直觀地分析各個(gè)模塊對(duì)于模型性能的影響,在本節(jié)中使用Grad-CAM方法可視化了不同情況下模型的關(guān)注區(qū)域。通過(guò)熱力圖可以解釋模型的分類依據(jù),并分析每個(gè)模型的優(yōu)缺點(diǎn)。如圖6所示,從CUB-200-2011中選取了黑腳信天翁和黑背信天翁2個(gè)類別的部分圖片進(jìn)行可視化,由于這2種類別有著很高的相似度,因此能夠更好地展示模型提取細(xì)粒度特征的性能。

圖6 不同模型的熱力圖分析Fig.6 Heatmap comparison of different models

嘴部的白色圓環(huán)是黑腳信天翁的顯著特征,并且頭部也是區(qū)分其與黑背信天翁的主要部位。相比于ResNet-50,Mixup、MNL以及MNL+Adaptor均對(duì)該位置有更高的關(guān)注,并且ResNet-50的高響應(yīng)注意力中包含了更多的背景區(qū)域,覆蓋了更大的范圍。而Mixup的高響應(yīng)注意力多次出現(xiàn)在了尾部等非關(guān)鍵區(qū)域,說(shuō)明在對(duì)原始圖片進(jìn)行混合時(shí),圖片關(guān)鍵區(qū)域發(fā)生疊加可能會(huì)影響圖片的概念,比如頭尾重疊等等。而MNL網(wǎng)絡(luò)通過(guò)混合網(wǎng)絡(luò)中間層經(jīng)過(guò)NL模塊處理過(guò)的特征圖,有效地緩解了這一問(wèn)題。在方法部分我們提出,引入了Mixup思想的任務(wù)相較于原任務(wù)更加復(fù)雜,通過(guò)熱力圖可以發(fā)現(xiàn),損失函數(shù)中加入的Adaptor雖然并不能使MNL模型對(duì)于關(guān)鍵部位的識(shí)別更加集中,但卻能夠降低模型對(duì)于翅膀、身體以及尾巴等非關(guān)鍵部位的關(guān)注度,減少M(fèi)ixup引入的噪聲和歧義,改善模型的訓(xùn)練過(guò)程。

3 結(jié)論

本文引入了Mixup思想來(lái)提升細(xì)粒度圖像識(shí)別的準(zhǔn)確率,提出了基于混合特征提取的細(xì)粒度圖像識(shí)別方法。相較于傳統(tǒng)的Mixup方式,本文首先設(shè)計(jì)了MNL網(wǎng)絡(luò)架構(gòu),通過(guò)混合不同深度的網(wǎng)絡(luò)中間層的輸出特征來(lái)指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,并在網(wǎng)絡(luò)中插入多個(gè)NL模塊來(lái)進(jìn)一步提取和保存不同尺度的類內(nèi)和類間特征信息,顯式地優(yōu)化了類內(nèi)差異大、類間差異小的問(wèn)題。同時(shí),MNL保留了NL模塊即插即用的優(yōu)勢(shì),能夠與各種基準(zhǔn)網(wǎng)絡(luò)進(jìn)行結(jié)合,具有很好的可遷移性。此外,本文設(shè)計(jì)了Adaptor模塊進(jìn)一步優(yōu)化MNL,通過(guò)在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整多損失函數(shù)的比重,減少了Mixup帶來(lái)的噪聲和歧義,合理控制了訓(xùn)練任務(wù)的復(fù)雜度。論文在多個(gè)公開的數(shù)據(jù)集上實(shí)驗(yàn)并驗(yàn)證了MNL+Adaptor模型架構(gòu)的有效性。