• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      細(xì)粒度視覺分類:深度成對特征對比交互算法

      2023-11-16 00:51:02郭鑫平
      計(jì)算機(jī)與生活 2023年11期
      關(guān)鍵詞:細(xì)粒度集上向量

      汪 敏,趙 鵬,郭鑫平,閔 帆

      1.西南石油大學(xué) 電氣信息學(xué)院,成都 610500

      2.西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610500

      3.西南石油大學(xué) 人工智能研究所,成都 610500

      卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在視覺識別領(lǐng)域取得了巨大的成功[1-2]。細(xì)粒度視覺分類(fine-grained visual categorization,F(xiàn)GVC)旨在識別各種特定類別的子類別,如不同種類的鳥、狗、飛機(jī)以及汽車等[3]。由姿勢、視角、光照、遮擋和背景干擾引起的高類內(nèi)和低類間視覺差異使細(xì)粒度圖像分類成為一項(xiàng)極具挑戰(zhàn)性的任務(wù)[4]。將普通圖像識別領(lǐng)域性能優(yōu)越的經(jīng)典CNN模型直接應(yīng)用于細(xì)粒度圖像識別會導(dǎo)致模型性能的顯著下降[5]。圖1舉例給出了普通圖像識別與細(xì)粒度識別的區(qū)別。圖1(a)展示了普通圖像識別問題。通常的圖像識別,是為了區(qū)分不同的大類,類別之間存在顯著差異。因此經(jīng)典CNN模型能夠取得優(yōu)異性能。圖1(b)展示了細(xì)粒度圖像識別。其中赫爾曼海鷗、灰背鷗、銀鷗以及加州海鷗均屬于鳥類這一大類。然而,它們分屬于不同的子類別,類別之間具有極其相似的外部特征。這給CNN模型識別帶來了巨大挑戰(zhàn)。

      圖1 普通圖像識別與細(xì)粒度圖像識別的區(qū)別Fig.1 Difference between ordinary image recognition and fine-grained image recognition

      深度FGVC 方法主要分為強(qiáng)監(jiān)督方法和弱監(jiān)督方法。強(qiáng)監(jiān)督方法采用額外的人工標(biāo)注信息,如目標(biāo)邊界框和特殊部位關(guān)鍵點(diǎn),來獲取目標(biāo)物體的空間位置和細(xì)微差異。Zhang等人[6]通過使用特殊部位標(biāo)注信息對小語義信息進(jìn)行建模,并在分類子網(wǎng)絡(luò)中引入新的部件語義信息,完成多個語義部分的定位和整個對象的識別。Krause 等人[7]設(shè)計(jì)了基于共同分割和對齊的細(xì)粒度識別網(wǎng)絡(luò),雖然不需要使用部分注釋,但依據(jù)目標(biāo)對象標(biāo)注框所訓(xùn)練的模型具有更好的識別效果。Wang等人[8]構(gòu)建了一個基于補(bǔ)丁關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu),通過三元組建模具有區(qū)分性的語義信息,并自動挖掘具有區(qū)別的三元組信息進(jìn)行分類。

      雖然借助差異性的部件標(biāo)注信息,通過精細(xì)設(shè)計(jì)挖掘差異信息的網(wǎng)絡(luò)結(jié)構(gòu),可以實(shí)現(xiàn)更高精度的分類性能,但人工標(biāo)注成本昂貴,不符合現(xiàn)實(shí)研究以及工業(yè)應(yīng)用的需求。因此僅使用類別標(biāo)簽的弱監(jiān)督方法成為近年來研究的新趨勢。Lin等人[9]設(shè)計(jì)了一種雙線性的CNN模型,通過兩個子網(wǎng)絡(luò)相互協(xié)作,完成圖像的差異性特征提取和區(qū)域定位,最后將兩種特征經(jīng)過外積的形式聯(lián)合用于細(xì)粒度分類。Ji等人[10]提出了一種注意力神經(jīng)網(wǎng)絡(luò)的樹結(jié)構(gòu)模型,通過樹結(jié)構(gòu)對細(xì)粒度特征由粗到細(xì)進(jìn)行差異性建模,以實(shí)現(xiàn)更優(yōu)性能的分類。Zhang 等人[11]構(gòu)建了一個多尺度三支網(wǎng)絡(luò),將原始圖像經(jīng)過定位和拆分,生成更細(xì)微更具判別力的補(bǔ)丁,有效提升了經(jīng)典網(wǎng)絡(luò)的識別性能,但相應(yīng)的模型結(jié)構(gòu)也更復(fù)雜。此外,Chen等人[12]提出了基于圖像拼接方法對補(bǔ)丁間關(guān)系進(jìn)行建模的破壞構(gòu)建學(xué)習(xí)(destruction and construction learning,DCL)。Yang 等人[13]提出了基于自我監(jiān)督機(jī)制的導(dǎo)航學(xué)習(xí)網(wǎng)絡(luò)(navigator-teacher-scrutinizer neural network,NTS-Net)等。這些方法均顯著提升了經(jīng)典CNN 模型在細(xì)粒度識別領(lǐng)域的性能,但伴隨而至的是網(wǎng)絡(luò)模型更復(fù)雜,所需的訓(xùn)練成本更高。

      鑒于以上分析,由于細(xì)粒度圖像類間信息差異小而類內(nèi)信息差異大,現(xiàn)有一些方法僅使用單輸入單輸出的模式無法挖掘更具差異的信息部位以及更具代表性的公共特征,進(jìn)而影響模型的分類性能。因此,提出了一種深度成對特征對比交互算法(deep pairwise feature contrast interactive fine-grained classification,PCI)。

      首先,PCI 構(gòu)建了正對和負(fù)對輸入,基于典型CNN模型提取深度成對細(xì)粒度特征。成對細(xì)粒度深度特征之間包含共同、差異特征。

      其次,建立深度成對特征交互機(jī)制。通過成對特征的全局信息學(xué)習(xí)、深度對比、深度自適應(yīng)交互提取特征對之間的共同、差異特征,實(shí)現(xiàn)正對共同特征、負(fù)對差異特征的自適應(yīng)交互學(xué)習(xí)。

      最后,建立成對特征對比學(xué)習(xí)機(jī)制,用對比損失約束正對、負(fù)對特征之間的相似性,增大正對之間的相似性并減小負(fù)對之間的相似性。以此解決細(xì)粒度圖像類內(nèi)方差大、類間方差小的難題。

      本文的主要貢獻(xiàn)包括以下三方面:

      (1)設(shè)計(jì)雙輸入雙輸出的網(wǎng)絡(luò)結(jié)構(gòu),建立了對比機(jī)制、特征自適應(yīng)學(xué)習(xí)策略,依據(jù)成對圖像對比推理,顯著提升模型細(xì)粒度識別能力。

      (2)構(gòu)建正負(fù)對學(xué)習(xí)策略,設(shè)計(jì)成對細(xì)粒度對比損失函數(shù),以對比學(xué)習(xí)的方式解決細(xì)粒度圖像類內(nèi)方差大而類間方差小的問題。

      (3)在具有挑戰(zhàn)性的細(xì)粒度數(shù)據(jù)集CUB-200-2011、Stanford Dogs、Stanford Cars 和FGVC-Aircraft上與近年來20 種頂會論文算法對比,對比結(jié)果表明了所提方法的先進(jìn)性與有效性。

      1 相關(guān)工作

      1.1 細(xì)粒度圖像分類

      FGVC旨在實(shí)現(xiàn)更精細(xì)化的子類之間的區(qū)分,是一項(xiàng)極具挑戰(zhàn)性的研究課題。在其發(fā)展過程中,根據(jù)有無使用更加精細(xì)的標(biāo)注(邊界框或特殊關(guān)鍵點(diǎn)等)將FGVC方法分為強(qiáng)監(jiān)督方法和弱監(jiān)督方法。強(qiáng)監(jiān)督方法使用額外的人工標(biāo)注信息使CNN模型關(guān)注類別之間更加細(xì)致的差異,從而提升模型的識別能力。經(jīng)典的強(qiáng)監(jiān)督學(xué)習(xí)方法包括基于部分區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(part-based region-based convolutional neural network,Part-based R-CNN)[14]、全卷積注意力定位網(wǎng)絡(luò)(fully convolutional attention localization network,F(xiàn)CAN)[15]、姿勢歸一化卷積神經(jīng)網(wǎng)絡(luò)(pose normalized deep convolutional nets,PN-CNN)[16]、部分堆疊卷積神經(jīng)網(wǎng)絡(luò)(part-stacked convolutional neural network,Part-Stacked CNN)[17]等。其中,Part-based R-CNN[14]采取的方式為構(gòu)造一個全局特征檢測器和一個局部特征檢測器,通過對局部特征檢測器施加更加精細(xì)的標(biāo)注以強(qiáng)制使CNN 關(guān)注類別之間細(xì)微的差異特征。FCAN[15]則提出了一種強(qiáng)化學(xué)習(xí)框架,可優(yōu)化適應(yīng)不同細(xì)粒度域的局部判別區(qū)域。PN-CNN[16]提出了更接近于人類專家系統(tǒng)的神經(jīng)架構(gòu),首先利用網(wǎng)絡(luò)估計(jì)出目標(biāo)的邊界信息,依據(jù)邊界對局部語義信息進(jìn)行整合分類。Part-stacked CNN[17]構(gòu)建了部分堆疊的CNN架構(gòu),建模與對象部分的細(xì)微差異,明確解釋了細(xì)粒度識別過程。然而,精細(xì)標(biāo)注導(dǎo)致的昂貴標(biāo)簽代價(jià)阻礙了強(qiáng)監(jiān)督方法的適用性。

      弱監(jiān)督方法僅依靠類別標(biāo)簽進(jìn)行分類,這是近年來的主要趨勢。Gao 等人[18]通過自通道交互(selfchannel interaction,SCI)和對比通道交互(contrastive channel interaction,CCI)兩個模塊挖掘特征通道間的互補(bǔ)信息和差異信息,其中SCI模塊用于挖掘自身通道間特征信息并進(jìn)行加權(quán),CCI模塊用于挖掘差異通道間的信息并進(jìn)行加權(quán)判斷。Chang 等人[19]設(shè)計(jì)了互通道損失充分挖掘通道特征的多樣性和差異性,通過將通道特征劃分成屬于不同類別的特征組,并施加多樣性約束以定位細(xì)微差異特征。Zhang等人[20]通過結(jié)合專家系統(tǒng)解決細(xì)粒度分類問題,通過引入約束使專家產(chǎn)生不同的預(yù)測分布,從而迫使模型關(guān)注不同的細(xì)粒度特征。Xu等人[21]建立空間注意力機(jī)制使模型注意更具差異性和信息量的區(qū)域。

      1.2 對比學(xué)習(xí)

      對比學(xué)習(xí)的基本思想是將原始數(shù)據(jù)映射到一個特征空間中,其中正對的相似性最大化,而負(fù)對的相似性最小化[22]。其作為一種無監(jiān)督的手段,被廣泛應(yīng)用于表示學(xué)習(xí)[23]。其中正對和負(fù)對的構(gòu)建方式也不盡相同。Sharma等人[24]使用聚類的結(jié)果作為偽標(biāo)簽來構(gòu)建正對與負(fù)對。更為簡單的方法是直接利用數(shù)據(jù)增強(qiáng)的方法來構(gòu)建數(shù)據(jù)對,即正對由同一張圖像的兩種不同的數(shù)據(jù)增強(qiáng)方式構(gòu)成,除此之外都為負(fù)對[25]。在三元組損失中通過設(shè)置錨點(diǎn),最小化錨點(diǎn)與正對的距離,同時(shí)最大化錨點(diǎn)與負(fù)對的距離。對比損失極大優(yōu)化了特征表示的結(jié)果[26]。

      最近的對比學(xué)習(xí)被應(yīng)用于深度圖像聚類任務(wù)。Li等人[27]將對比學(xué)習(xí)引入了無監(jiān)督聚類任務(wù),通過在特征級向量上施加對比損失增大正對間的相似性同時(shí)減小負(fù)對間的相似性。Dang等人[28]根據(jù)深度特征矩陣行與列不同的性質(zhì)差異設(shè)計(jì)了雙重對比學(xué)習(xí)進(jìn)行深度聚類。通過對行與列施加對比學(xué)習(xí),深度模型可以自適應(yīng)地將正對拉近,而將負(fù)對推開。

      從人類深度對比細(xì)粒度圖像的視角出發(fā),本文創(chuàng)新性地設(shè)計(jì)了雙輸入雙輸出網(wǎng)絡(luò)模型,提出了成對對比約束損失,構(gòu)建了正負(fù)對深度特征構(gòu)建、深度特征成對交互以及成對特征對比策略。

      2 網(wǎng)絡(luò)框架

      2.1 問題定義

      將單個圖像實(shí)例對象表示為,i∈[1,n],p∈Y表示實(shí)例所屬類別,訓(xùn)練集與測試集具有相同的類別Y={1,2,…,k},n為訓(xùn)練集樣本總數(shù)。骨干CNN模型用f(?)表示,f(?)由L層卷積層和一個全連接層組成,即f(?)的深度為L。將實(shí)例經(jīng)過f(?)的卷積層后輸出的深度特征用∈RC×H×W表示,C、H、W分別表示深度特征的通道數(shù)量、高和寬。f(?)中第l層輸出的深度特征表示為。fl(?)表示f(?)第l層卷積層,1 ≤l≤L。將經(jīng)過f(?)的輸出預(yù)測標(biāo)簽用y∈Y表示,將真實(shí)標(biāo)簽用y*∈Y表示。

      2.2 網(wǎng)絡(luò)框架概述

      PCI網(wǎng)絡(luò)結(jié)構(gòu)由正負(fù)對構(gòu)建及深度特征提取、深度成對特征對比交互、成對特征對比學(xué)習(xí)三部分組成。圖2展示了網(wǎng)絡(luò)的總體框架。

      正負(fù)對構(gòu)建及深度特征提取由正負(fù)對構(gòu)建、成對深度特征提取兩部分組成。正負(fù)對構(gòu)建保證輸入包含同類組成的正對和異類組成的負(fù)對。這使模型能同時(shí)學(xué)習(xí)同類對之間的共同特征和異類對之間的差異特征。詳細(xì)的正負(fù)對構(gòu)建以及成對深度特征提取過程見3.1節(jié)。

      深度成對特征對比交互模擬人類深度對比交互的過程。它由全局信息向量學(xué)習(xí)、門向量學(xué)習(xí)、深度成對特征交互三部分組成。全局信息向量融合了成對特征的全局信息。門向量學(xué)習(xí)對比了成對特征的共同、差異特征。深度成對特征交互利用門向量所學(xué)習(xí)的對比信息自適應(yīng)交互正負(fù)對深度特征。詳細(xì)的深度成對特征對比交互過程見3.2節(jié)。

      成對特征對比學(xué)習(xí)對深度交互后的特征施加對比約束,從特征映射角度增大正對特征的相似性和減小負(fù)對特征的相似性。其能夠與深度成對特征對比交互有機(jī)結(jié)合,增強(qiáng)模型的泛化性能。詳細(xì)的成對特征對比學(xué)習(xí)見3.3節(jié)。

      3 深度成對特征對比交互算法

      本章將詳細(xì)介紹正負(fù)對構(gòu)建以及深度特征提取、深度成對特征對比交互、成對特征對比學(xué)習(xí)三個模塊。

      3.1 正負(fù)對構(gòu)建以及深度特征提取

      將來自于同類的兩張圖像定義為正對,將來自于不同類的兩張圖像定義為負(fù)對,即:

      其中,p與q分別表示樣本屬于第p類和第q類,n為訓(xùn)練集樣本總數(shù)。

      將圖像對(,)輸入深度為L層的CNN 模型f(?),經(jīng)過每一層卷積,會生成對應(yīng)層的深度特征。將第l層卷積層輸出的深度特征表示為RC×H×W,即:

      其中,fl(?)表示f(?)的第l層卷積層,C、H、W分別表示深度特征的通道數(shù)量、高和寬。該對特征將用于深度成對特征對比交互,模仿人類深度對比成對圖像的過程。

      3.2 深度成對特征對比交互

      本節(jié)將闡述深度成對特征對比交互的過程,其分為三部分,包括全局信息向量學(xué)習(xí)、門向量學(xué)習(xí)、深度成對特征交互。

      (1)全局信息向量學(xué)習(xí):全局信息向量將成對特征的信息融合為一個特征向量,并映射到高維特征空間。

      其中,MLP(?)為一個兩層神經(jīng)網(wǎng)絡(luò)映射函數(shù)(multilayer perceptron,MLP)。目的是將全局信息向量映射到更高維度的向量空間作為全局信息的通道表示。全局信息向量M是從圖像對所提取的特征中自適應(yīng)學(xué)習(xí)并映射,它融合了兩者特征的通道信息。這有效借鑒了人類的行為,在對比判斷過程中會同時(shí)接受兩張圖像信息。

      (2)差異性門向量生成:差異性門向量為全局信息向量與自信息向量通過對比的方式生成。它包含了成對深度特征對比后的特征信息,具有細(xì)粒度特征選擇性。

      基于獲得的全局信息向量M,PCI 繼續(xù)模仿人類的行為,深度對比兩張圖像的異同。即PCI將所學(xué)得的全局信息向量M分別與代表各自特征的自信息向量進(jìn)行對比。受注意力交互網(wǎng)絡(luò)(attentive pairwise interaction network,API-Net)[5]的啟發(fā),本文采用通道乘積的方法進(jìn)行對比,使全局信息向量M分別與自信息向量相乘,再經(jīng)過一個Sigmoid(Sig)函數(shù)以生成各自的差異性門向量g∈RC,即:

      圖3 深度特征交互Fig.3 Deep feature interaction

      (3)深度特征交互:深度特征交互利用差異性門向量的選擇信息,將選擇后的對比特征自適應(yīng)交互,以生成共同或差異特征。深度特征交互過程如圖3所示。

      首先,門向量為成對深度特征經(jīng)過對比后自適應(yīng)產(chǎn)生。它們分別代表了圖像對的不同特征信息,將各自的特征通過各自的門向量以選取對比過后的特征,即。

      其次,為了將對比選取后的特征信息施加在原特征上進(jìn)行交互,本文采用了相加求和的方式,這樣做可以放大原本的特征信息。但PCI 網(wǎng)絡(luò)需要同時(shí)適應(yīng)正對與負(fù)對兩種情況,即在正對的情況下需放大共同特征,在負(fù)對情況下需突出差異特征。因此在交互的過程中不能直接相加求和。因此,在交互時(shí)引入了兩個可訓(xùn)練的參數(shù)α和β,并使它們通過Tanh 函數(shù)。目的是利用Tanh(T)將兩個可訓(xùn)練參數(shù)映射到正負(fù)數(shù)空間。從而模擬正負(fù)對完全不同的特征交互方式,使網(wǎng)絡(luò)在訓(xùn)練過程可以自適應(yīng)調(diào)節(jié)這兩個參數(shù)以同時(shí)適應(yīng)正負(fù)對兩種情況。成對深層特征交互的過程如式(5)所示:

      3.3 成對特征對比學(xué)習(xí)

      考慮深度成對特征交互,模型完成了成對細(xì)粒度圖像的深度對比。進(jìn)一步,本文優(yōu)化損失函數(shù),將對比約束與交叉熵?fù)p失有機(jī)融合,提升模型分類性能。模型以端到端的方式訓(xùn)練。在正對與負(fù)對上施加的對比約束,使正對之間的相似性增大、負(fù)對之間的相似性減小。

      優(yōu)化后的總損失函數(shù)為:

      其中,Lce為分類任務(wù)中常用的交叉熵?fù)p失函數(shù),λ為可調(diào)節(jié)超參數(shù),Lcon為對比損失。

      sp,q利用余弦相似度衡量了特征對之間的相似性。在網(wǎng)絡(luò)訓(xùn)練過程中,若成對圖像為正對,Lcon會增大正對之間的相似性;若成對圖像為負(fù)對,Lcon則會減小負(fù)對之間的相似性。因此,在分類損失Lce和對比損失Lcon的共同作用下,PCI 會自適應(yīng)執(zhí)行深度成對特征對比交互過程,提取差異性的特征或公共特征,從而提高模型的細(xì)粒度識別能力。

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 數(shù)據(jù)集和評價(jià)指標(biāo)

      實(shí)驗(yàn)數(shù)據(jù)集:為驗(yàn)證所提出方法PCI 的有效性,在四個最富有挑戰(zhàn)性的細(xì)粒度數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn),即CUB-200-2011[29]、FGVC-Aircraft[30]、Stanford Cars[31]、Stanford Dogs[32]。使用官方的訓(xùn)練和測試劃分訓(xùn)練集和測試集,詳細(xì)的類別信息以及拆分信息統(tǒng)計(jì)見表1。

      表1 數(shù)據(jù)集的訓(xùn)練集與測試集信息Table 1 Datasets information of training and testing

      實(shí)驗(yàn)評價(jià)指標(biāo):為驗(yàn)證所提出的細(xì)粒度分類算法PCI 的性能,采用分類任務(wù)中廣泛使用的精度(accuracy,Acc)作為評價(jià)指標(biāo),如式(9)所示:

      其中,TP(true positive)表示真實(shí)值是Positive,模型認(rèn)為是Positive 的數(shù)量;TN(true negative)表示真實(shí)值是Negative,模型認(rèn)為是Negative 的數(shù)量;FP(false positive)表示真實(shí)值是Negative,模型認(rèn)為是Positive 的數(shù)量;FN(false negative)表示真實(shí)值是Positive,模型認(rèn)為是Negative的數(shù)量。

      4.2 訓(xùn)練和測試

      (1)訓(xùn)練:采用在ImageNet[33]數(shù)據(jù)集上預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)(residual network,ResNet)[34]作為骨干網(wǎng)絡(luò)。在訓(xùn)練時(shí),每次從訓(xùn)練集中隨機(jī)采樣N個類別,每個類別采樣2 張圖像,每批次組成批量即Batch-Size=2N的訓(xùn)練數(shù)據(jù),按照3.1 節(jié)中所示的正負(fù)對配對的方式進(jìn)行配對訓(xùn)練并計(jì)算對比損失和交叉熵?fù)p失。使用反事實(shí)注意力學(xué)習(xí)(counterfactual attention learning,CAL)[35]中建議的弱監(jiān)督數(shù)據(jù)增強(qiáng)方法,即首先將原始圖像縮放為512×512,再使用隨機(jī)裁剪將圖像裁剪為448×448 大小,并使用隨機(jī)反轉(zhuǎn)以增強(qiáng)數(shù)據(jù)。采用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化器。SGD 的初始學(xué)習(xí)率為0.001,動量為0.9,權(quán)重衰減為5E-4。此外,采用余弦下降方法調(diào)整學(xué)習(xí)率,在整個訓(xùn)練過程僅使用類別標(biāo)簽。

      (2)測試:表2 和表3 中shuffle=True 和shuffle=False表示同一模型在兩種不同配對方式下的測試結(jié)果。PCI為雙輸入雙輸出的網(wǎng)絡(luò)結(jié)構(gòu),在測試集上進(jìn)行兩種配對方式的測試以驗(yàn)證其性能。第一種為隨機(jī)打亂整個測試數(shù)據(jù)集,即在加載數(shù)據(jù)集的時(shí)候?qū)huffle設(shè)置為True,此時(shí)整個數(shù)據(jù)集的配對方式完全隨機(jī)。第二種為不打亂測試數(shù)據(jù)集,使用測試數(shù)據(jù)集默認(rèn)的順序進(jìn)行測試,即在加載數(shù)據(jù)集的時(shí)候?qū)huffle 設(shè)置為False,此時(shí)配對方式按照數(shù)據(jù)集默認(rèn)的順序配對,不隨機(jī)打亂整個數(shù)據(jù)集。為驗(yàn)證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,在隨機(jī)配對測試的時(shí)候采取計(jì)算10次求均值的方式。

      表2 PCI與對比算法在4個數(shù)據(jù)集上的Top-1分類準(zhǔn)確率比較Table 2 Comparison of Top-1 classification accuracy between PCI algorithm and other algorithms on 4 datasets 單位:%

      表3 本文算法在4個數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 3 Ablation studies of proposed algorithm on 4 datasets 單位:%

      4.3 實(shí)驗(yàn)結(jié)果及對比分析

      (1)對比基線:為驗(yàn)證所提出算法PCI 的有效性和先進(jìn)性,同時(shí)選取了強(qiáng)監(jiān)督算法和弱監(jiān)督算法進(jìn)行對比實(shí)驗(yàn)。強(qiáng)監(jiān)督算法包括SPDA-CNN(semantic part detection and abstraction CNN)[6]、PA-CNN(part annotations CNN)[7]、FCAN(fully convolutional attention localization network)[15]、PN-CNN(pose normalized CNN)[16]、MGCNN(multiple granularity descriptors CNN)[36]等性能優(yōu)越的算法。弱監(jiān)督算法包括API-Net(attentive pairwise interaction network)[5]、B-CNN(bilinear CNN)[9]、ACNet(attention convolutional network)[10]、DCL(destruction and construction learning)[12]、NTS-Net(navigatorteacher-scrutinizer neural network)[13]、CIN(channel interaction networks)[18]、MC-Loss(mutual-channel loss)[19]、DFL-CNN(discriminative filter bank CNN)[37]、FT(finetuned)[38]、Cross-X[39]、PCA(progressive co-attention)[40]、PC(pairwise confusion)[41]、Max-Ent(maximumentropy)[42]、MAMC(multi-attention multi-class)[43]和SEF(semantically enhanced feature)[44]等性能優(yōu)越的算法。

      表2展示了所提出的方法PCI在CUB-200-2011、Stanford Dogs、FGVC-Aircraft以及Stanford Cars四個細(xì)粒度數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中符號“—”表示當(dāng)前方法在對應(yīng)的數(shù)據(jù)集上未進(jìn)行實(shí)驗(yàn),表中對比算法結(jié)果嚴(yán)格引用自原論文。

      從表2 可以看出,shuffle 為True 時(shí),在CUB-200-2011、Stanford Dogs、FGVC-Aircraft 以 及Stanford Cars 數(shù)據(jù)集上所提出模型PCI 的精度分別為84.3%、84.0%、90.8%、92.1%。在CUB-200-2011 數(shù)據(jù)集上PCI 的性能超過了強(qiáng)監(jiān)督算法MG-CNN(↑1.3 個百分點(diǎn))和PA-CNN(↑1.5個百分點(diǎn)),并超過了弱監(jiān)督算法PC(↑4.1個百分點(diǎn))、B-CNN(↑0.2個百分點(diǎn))、MaxEnt(↑3.9 個百分點(diǎn))以及FT(↑0.2 個百分點(diǎn))。在Stanford Dogs 數(shù)據(jù)集上超過了算法B-CNN(↑1.9個百分點(diǎn))、PC(↑10.6 個百分點(diǎn))和MaxEnt(↑10.4個百分點(diǎn))。在FGVC-Aircraft 數(shù)據(jù)集上超過了強(qiáng)監(jiān)督算法MG-CNN(↑4.2 個百分點(diǎn)),弱監(jiān)督算法BCNN(↑6.7 個百分點(diǎn))、FT(↑2.3 個百分點(diǎn))、PC(↑7.4 個百分點(diǎn))以及MaxEnt(↑6.9 個百分點(diǎn))。在Stanford Cars 數(shù)據(jù)集上PCI 測試精度超過了B-CNN(↑0.8個百分點(diǎn))和FT(↑0.4個百分點(diǎn))。

      從表2 可以看出,shuffle 為False 時(shí),即整個測試集配對按照數(shù)據(jù)集默認(rèn)順序進(jìn)行。此時(shí),PCI 在CUB-200-2011、Stanford Dogs、FGVC-Aircraft 以及Stanford Cars 數(shù)據(jù)集上的測試精度分別為92.5%、94.1%、96.7%、96.9%。此時(shí),PCI 在4 個細(xì)粒度視覺分類數(shù)據(jù)集上的測試精度均優(yōu)于當(dāng)前最先進(jìn)的算法。它們分別是在CUB-200-2011 數(shù)據(jù)集上的PCA(88.3%)、Stanford Dogs數(shù)據(jù)集上的FCAN(88.9%)和Cross-X(88.9%)、FGVC-Aircraft 數(shù)據(jù)集上的DCL(93.0%)和API-Net(93.0%)以及Stanford Cars數(shù)據(jù)集上的API-Net(94.8%)。PCI 此時(shí)的精度分別超過了PCA(↑4.2 個百分點(diǎn))、FCAN(↑5.2 個百分點(diǎn))和Cross-X(↑5.2 個百分點(diǎn))、DCL(↑3.7 個百分點(diǎn))和API-Net(↑3.7個百分點(diǎn))、API-Net(↑2.1個百分點(diǎn))。

      (2)對不同的強(qiáng)監(jiān)督細(xì)粒度分類算法進(jìn)行實(shí)驗(yàn)分析:所提出PCI算法在兩種配對方式的情況下均優(yōu)于強(qiáng)監(jiān)督算法PA-CNN[7]以及MG-CNN[36]。例如,在CUB-200-2011 數(shù)據(jù)集上與PA-CNN[7]相比較,此時(shí)PCI的性能在兩種情況下分別提高了1.5個百分點(diǎn)和9.7個百分點(diǎn),具有明顯的提升。PA-CNN[7]采用了部分標(biāo)注框,通過分割和對齊網(wǎng)絡(luò)設(shè)計(jì)以促使模型更具競爭力。在FGVC-Aircraft數(shù)據(jù)集上與MG-CNN[36]相比較,此時(shí)PCI 的性能分別提升了4.2 個百分點(diǎn)和10.1 個百分點(diǎn),具有明顯的提升。MG-CNN 采用多分支構(gòu)建多粒度網(wǎng)絡(luò)結(jié)構(gòu),在使用標(biāo)注框時(shí)網(wǎng)絡(luò)性能更好。與強(qiáng)監(jiān)督算法比較,PCI的優(yōu)勢在于不使用更精細(xì)化的標(biāo)注而取得更優(yōu)異的性能,并且不額外增大模型的參數(shù)量。PCI在shuffle為True時(shí)在Stanford Dogs數(shù)據(jù)集上的性能弱于FCAN[15],這是因?yàn)榇藭r(shí)測試集隨機(jī)進(jìn)行配對,而不同的對比對象會影響模型的預(yù)測性能,從而影響模型提取差異特征的能力。這與人類對比過程一致。如表2所示。

      (3)對不同的弱監(jiān)督細(xì)粒度分類算法進(jìn)行實(shí)驗(yàn)分析:所提出方法PCI 在數(shù)據(jù)集CUB-200-2011、Stanford Dogs、FGVC-Aircraft和Stanford Cars上精度達(dá)到最高,分別為92.5%、94.1%、96.7%、96.9%。在CUB-200-2011數(shù)據(jù)集上與性能最優(yōu)異的弱監(jiān)督算法PCA[40]相比,提高了4.2 個百分點(diǎn)。PCA 同樣引入了尋找共同特征的機(jī)理,并設(shè)計(jì)注意力擦除模塊以促使模型關(guān)注更加多樣性的特征。在FGVC-Aircraft數(shù)據(jù)集上與性能最優(yōu)異的弱監(jiān)督算法DCL[12]和API-Net[5]相比,提升了3.7個百分點(diǎn)。DCL依據(jù)破壞和重建建模圖像補(bǔ)丁關(guān)系,并引入對抗攻擊的思想以學(xué)習(xí)細(xì)粒度特征。API-Net同樣從成對圖像中學(xué)習(xí),但其只對模型最后一層特征做對比約束和交互,這無法在訓(xùn)練過程中有效對比中間層的深度特征,并學(xué)習(xí)它們之間的關(guān)系。另外與多分支網(wǎng)絡(luò)相比較,如NTSNet[13]雖然不需要使用額外標(biāo)簽,但其在構(gòu)建具有差異性提取能力的網(wǎng)絡(luò)時(shí)需要多個分支網(wǎng)絡(luò)進(jìn)行協(xié)同合作,這促使推理模型更大,訓(xùn)練成本增大。而PCI僅需要成對的圖像進(jìn)行深度對比交互學(xué)習(xí)就可以實(shí)現(xiàn)共同特征與差異特征的提取,模型更加簡化。如表2所示。

      綜上分析,實(shí)驗(yàn)結(jié)果和分析表明所提出的PCI算法能夠在細(xì)粒度數(shù)據(jù)集上達(dá)到優(yōu)異的表現(xiàn)性能。所提出的深度成對特征對比交互算法能夠顯著優(yōu)化模型的泛化性能,提高模型的細(xì)粒度視覺識別能力。

      4.4 可視化實(shí)驗(yàn)分析

      為直觀表示PCI 所提取的細(xì)粒度圖像對之間的細(xì)微特征,采用類激活圖(Grad-Cam)[45]對特征進(jìn)行了可視化??梢暬瘜Ρ鹊幕€為ResNet-50[34]和APINet[5]。

      從圖4 可以看出,ResNet-50、API-Net 以及本文方法PCI 都能定位到目標(biāo)所在空間位置。但與普通圖像識別不同,細(xì)粒度圖像的目標(biāo)更加細(xì)微,背景更加復(fù)雜,同類之間的特征差異更小。這使模型即使定位到目標(biāo)卻不能準(zhǔn)確判斷目標(biāo)類別。因此,這時(shí)需要模型關(guān)注更細(xì)微的特征,如同類之間的共同特征,異類之間的差異特征。所提出的算法遵循這一思想,從實(shí)驗(yàn)結(jié)果和可視化可以看出,本文方法PCI能夠更多地關(guān)注細(xì)粒度圖像的共同特征和差異特征。

      (1)正對共同特征:正對圖像,由于背景與姿勢的差異,應(yīng)使模型關(guān)注它們之間的共同特征。圖4中第一行和第二行為兩對不同的正對圖像。從圖4 可以看出,API-Net與PCI均比基礎(chǔ)ResNet-50關(guān)注到更多的共同特征。但API-Net 在背景較為復(fù)雜而目標(biāo)較為精細(xì)的情況下不能關(guān)注到足夠的共同特征。圖4(b)第一行中,API-Net 僅關(guān)注了鳥的尾部特征,而沒有捕捉到鳥的身體特征。圖4(b)第二行中,處于飛行和靜止中的兩張同類鳥的圖像,因?yàn)樽藙莺捅尘暗牟煌顾鼈兊奶卣骶哂忻黠@的差異。這時(shí)候應(yīng)該更關(guān)注它們之間相同的特征,如紅色的嘴、白色的頭部等。而API-Net 沒有很好地關(guān)注到這些共同特征。與之相比,從圖4(c)中可以看出,PCI 更多地注意到兩幅圖像的共同特征,如紅色的嘴等。

      (2)負(fù)對差異特征:對于負(fù)對圖像,由于類別之間細(xì)微的差異,模型應(yīng)關(guān)注它們之間的差異特征。圖4 中第三行和第四行為兩對不同負(fù)對圖像??梢钥闯鯝PI-Net 與PCI 都比基礎(chǔ)ResNet-50 關(guān)注到更多的差異特征。但某些情況下,API-Net沒有關(guān)注到足夠的差異特征,如第三行中鳥的爪子和嘴巴。與之對比,從圖4(c)中可以看出,PCI 更多地關(guān)注到了差異性特征,爪子和嘴巴等。

      4.5 消融實(shí)驗(yàn)

      (1)PCI 的有效性:表3 詳細(xì)列出與基礎(chǔ)模型ResNet-50[34]相比,引入PCI 算法后,在4 個數(shù)據(jù)集上都顯著提升了基礎(chǔ)骨干模型的細(xì)粒度識別性能。

      shuffle 為True 時(shí),引入PCI 后在CUB-200-2011、Stanford Dogs、FGVC-Aircraft、Stanford Cars 上識別精度分別提升了6.1 個百分點(diǎn)、14.1 個百分點(diǎn)、9.6 個百分點(diǎn)、0.4個百分點(diǎn)。shuffle為False時(shí),引入PCI后在CUB-200-2011、Stanford Dogs、FGVC-Aircraft、Stanford Cars數(shù)據(jù)集上識別精度分別提升了14.3個百分點(diǎn)、24.2 個百分點(diǎn)、15.5 個百分點(diǎn)、5.2 個百分點(diǎn)。綜上分析,消融實(shí)驗(yàn)對比結(jié)果表明了PCI 的有效性,它顯著提升了經(jīng)典CNN模型在細(xì)粒度識別中的性能。

      shuffle為False的性能整體上優(yōu)于為True時(shí)的性能,說明圖像配對的不同將會影響模型的預(yù)測能力,這與人類對比判別一致,不同的對比對象將會產(chǎn)生不同的判斷結(jié)果。shuffle 為True 時(shí)每次的配對都是隨機(jī)的,此時(shí)整個數(shù)據(jù)集的配對方式主要為負(fù)對,模型更多依據(jù)提取差異特征進(jìn)行推理。shuffle為False時(shí)每次的配對為默認(rèn)順序,此時(shí)整個數(shù)據(jù)集的配對方式主要為正對,模型更多依據(jù)提取共同特征進(jìn)行推理。因此,F(xiàn)alse時(shí)的性能優(yōu)于True時(shí)的性能,說明模型提取共同特征的能力整體上優(yōu)于提取差異特征的能力。但兩種情況下相較于原模型,PCI均帶來了性能的提升,因此PCI是有效的。

      (2)錯誤案例分析:在探索配對方式對PCI 性能的影響過程中,對于差異較大的負(fù)對,PCI 可以輕易判別正確。然而,對于差異過于細(xì)微的類別,PCI 無法有效識別。如圖5中13、14類別,人類的肉眼也很難通過對比進(jìn)行區(qū)分。

      圖5 成對分類錯誤案例分析Fig.5 Case analysis of pairwise misclassification

      圖5(a)表明,對于人類肉眼無法辨識的類別,PCI也會發(fā)生識別錯誤。圖5(a)這幅圖像為負(fù)對,但它們之間具有極為相似的外部特征。生物學(xué)上它們屬于同一種鳥類下面的兩個不同分支,它們的真實(shí)標(biāo)簽分別為13 和14。但PCI 將第一幅圖像預(yù)測為14,顯然PCI在對比交互的過程中沒有區(qū)分出這一對圖像的細(xì)微差異,從而將它們預(yù)測為了一類。

      圖5(b)表明,正對深度對比提取共同特征有利于細(xì)粒度圖像識別。圖5(a)中配對分類錯誤的圖像與它的同類組成正對,從圖5(b)中可以發(fā)現(xiàn),PCI 將兩幅圖像都預(yù)測正確,這印證了PCI可以通過深度對比提取更多的共同特征。

      圖5(c)表明,負(fù)對深度對比提取差異特征有利于細(xì)粒度圖像識別。圖5(a)中配對分類錯誤的圖像與另一類與其外觀差異較大的圖像組成負(fù)對。從圖5(c)中可以看出,PCI將兩幅圖像都預(yù)測正確。這證明PCI 能夠通過對比提取異類之間的差異特征。消融實(shí)驗(yàn)的結(jié)果驗(yàn)證了PCI深度對比的過程,通過深度對比成對圖像的特征從而區(qū)分一對細(xì)粒度圖像。

      (3)可解釋性推理:PCI 根據(jù)人類對比交互過程而設(shè)計(jì),因此具有一定的解釋能力。在判斷一對同類圖像,PCI注意到的更多是它們的共同特征。如圖4(c)中第二行所示,提取到了共同的鳥嘴和頭部等。在判斷一對異類圖像時(shí),PCI則提取區(qū)分于它們的差異特征。如圖4(c)中第四行所示,提取到了異類之間具有區(qū)分性的鳥嘴和鳥爪等。同樣,圖5 中,對于同一張圖像,在其與差異較小的負(fù)對進(jìn)行同時(shí)預(yù)測時(shí)(圖5(a)),此時(shí)將其預(yù)測為14類,置信度為0.864 9。將其與差距較大的負(fù)對進(jìn)行同時(shí)預(yù)測時(shí),此時(shí)將其預(yù)測為13類,置信度為0.922 2(圖5(c))。0.864 9的置信度弱于0.922 2,兩種不同情況的推理差異說明PCI確實(shí)是通過如人類一樣進(jìn)行深度對比來推理的,這反過來解釋了模型的判斷過程。

      5 結(jié)束語

      受人類會深入對比兩張圖像的特征進(jìn)而區(qū)分細(xì)粒度圖像的啟發(fā),設(shè)計(jì)了深度成對特征對比交互算法(PCI),從成對深度特征對比學(xué)習(xí)的角度解決細(xì)粒度圖像存在的固有問題,有效提升了細(xì)粒度識別精度。

      其中,正負(fù)對構(gòu)建模擬了現(xiàn)實(shí)中既包含同類對也包含異類對的場景,保證模型輸入更合理。深度成對特征對比交互模擬人類深度對比兩張細(xì)粒度圖像的過程,能夠有效對比兩張圖像的共同和差異特征并進(jìn)行深度的交互。成對特征對比學(xué)習(xí)對成對圖像施加對比約束,和深度成對對比交互過程有機(jī)融合,增強(qiáng)模型提取共同特征和差異特征的能力。

      未來的研究工作主要包括以下三部分:

      (1)進(jìn)一步優(yōu)化深度對比交互過程,提高辨別差異更細(xì)微特征的能力。

      (2)將成對深度對比交互應(yīng)用于其他圖像處理領(lǐng)域,如語義分割和行為識別等。

      (3)將深度對比交互過程應(yīng)用于基于注意力的深度模型,如Transformer。

      猜你喜歡
      細(xì)粒度集上向量
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      向量的分解
      細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
      聚焦“向量與三角”創(chuàng)新題
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      復(fù)扇形指標(biāo)集上的分布混沌
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      向量垂直在解析幾何中的應(yīng)用
      太康县| 光泽县| 崇义县| 集贤县| 余姚市| 津南区| 沁阳市| 治县。| 沂水县| 沂南县| 吉木萨尔县| 郎溪县| 东安县| 天台县| 余干县| 湖南省| 鄂托克前旗| 莱西市| 浦江县| 香港| 友谊县| 玛纳斯县| 永昌县| 吉水县| 商南县| 万州区| 宝山区| 托克逊县| 巫溪县| 信丰县| 成都市| 穆棱市| 平利县| 阜阳市| 观塘区| 榆社县| 中山市| 临朐县| 丹凤县| 宁强县| 赣州市|