• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合顯著性和非局部模塊的細(xì)粒度圖像分類算法凌晨

      2024-03-10 00:00:00張榮福楊紫葉高顧昱趙富強(qiáng)
      光學(xué)儀器 2024年6期
      關(guān)鍵詞:數(shù)據(jù)增強(qiáng)深度學(xué)習(xí)顯著性

      關(guān)鍵詞:細(xì)粒度圖像分類;顯著性;數(shù)據(jù)增強(qiáng);深度學(xué)習(xí)

      中圖分類號(hào):TP 183 文獻(xiàn)標(biāo)志碼:A

      引言

      隨著神經(jīng)網(wǎng)絡(luò)深度和參數(shù)的增加,以及計(jì)算設(shè)備功能的日益強(qiáng)大,深度學(xué)習(xí)在許多領(lǐng)域取得了重大的突破。對(duì)于圖像分類任務(wù)來(lái)說(shuō),優(yōu)秀的分類模型以及大量且優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)集是提升分類準(zhǔn)確率的關(guān)鍵。當(dāng)訓(xùn)練樣本過(guò)少時(shí),模型往往會(huì)趨于過(guò)擬合,模型的泛化性能會(huì)降低[1]。特別是對(duì)于類內(nèi)差異大,類間差異小的細(xì)粒度圖像分類任務(wù)來(lái)說(shuō),收集大量帶有強(qiáng)監(jiān)督信息的訓(xùn)練數(shù)據(jù)的成本是高昂的。因此,對(duì)原有數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)可在一定程度上解決數(shù)據(jù)量不足的問(wèn)題。但僅僅進(jìn)行數(shù)據(jù)增強(qiáng)已不能滿足當(dāng)今復(fù)雜的細(xì)粒度圖像分類任務(wù),將數(shù)據(jù)增強(qiáng)與后續(xù)細(xì)粒度圖像分類算法相結(jié)合則可進(jìn)一步提升相應(yīng)性能。

      近年來(lái),多種先進(jìn)的數(shù)據(jù)增強(qiáng)方法和細(xì)粒度圖像分類算法被陸續(xù)提出。Devries等[2]提出了數(shù)據(jù)增強(qiáng)方法Couout,在訓(xùn)練中隨機(jī)選擇訓(xùn)練圖片的一個(gè)區(qū)域,并將其裁剪掉,不保留任何信息,進(jìn)而迫使模型學(xué)習(xí)圖像的全局信息,而不是僅僅關(guān)注于局部,這是一種類似于Dropout[3]的正則化方法。Mixup[4]的研究人員則從鄰近風(fēng)險(xiǎn)最小化出發(fā),引入不同類別的關(guān)系,減小了模型對(duì)原始樣本分布之外數(shù)據(jù)的不適應(yīng)性,增加了模型對(duì)抗的魯棒性。該方法直接將訓(xùn)練樣本中2個(gè)隨機(jī)樣本的全部區(qū)域進(jìn)行像素級(jí)線性插值,然后將生成的虛擬樣本作為訓(xùn)練樣本,其新標(biāo)簽也使用相同的方法及比例進(jìn)行插值來(lái)獲得。但這種方式得到的圖片是模糊且不自然的,在需要關(guān)注局部特征的細(xì)粒度圖像分類場(chǎng)合下是不適用的。Attentive CutMix[5]是一種兩階段的混合方法,它先將一張樣本經(jīng)過(guò)預(yù)訓(xùn)練的熱力圖模型,得到樣本的熱力圖,并選出一定數(shù)量的熱力值高的塊,再將其覆蓋到另外一張樣本的相應(yīng)位置。Takahashi等[6]提出的RICAP則沒(méi)有局限于1張或2張樣本,而是裁剪訓(xùn)練集中隨機(jī)4張樣本的部分,然后將裁剪得到的部分拼接為一張訓(xùn)練樣本,最終樣本的尺寸與原始樣本的尺寸相同,其標(biāo)簽是與4個(gè)樣本的面積成比例的比率混合類標(biāo)簽。與像素點(diǎn)混合的增強(qiáng)方法相比,RICAP有3個(gè)不同點(diǎn):空間上混合圖像,部分使用圖像,不會(huì)創(chuàng)建原始數(shù)據(jù)集中不存在的特征。該方法使新樣本里包含的信息更為豐富,其標(biāo)簽也更加平滑,是一種適用于深層次的卷積神經(jīng)網(wǎng)絡(luò)的增強(qiáng)方法,但該方法所裁剪的區(qū)域均為隨機(jī)選擇,會(huì)存在所得到的區(qū)域是背景而不包含任何信息的情況,因此該數(shù)據(jù)增強(qiáng)方法也有一定的局限性。

      由于帶有強(qiáng)監(jiān)督信息的訓(xùn)練數(shù)據(jù)獲取較困難,因此基于強(qiáng)監(jiān)督信息的細(xì)粒度圖像分類方法在實(shí)際中難以應(yīng)用,目前主流的研究方向是基于弱監(jiān)督信息的方法。Lin等[7]提出的B-CNN是一種雙線性模型,使用2個(gè)并列的基于卷積的模型作為特征提取器,對(duì)局部的對(duì)應(yīng)特征進(jìn)行提取并交互,以捕獲細(xì)節(jié)特征。Fu等[8]提出的RACNN將卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合,用注意力機(jī)制提取局部信息,使網(wǎng)絡(luò)既能關(guān)注到整體也能關(guān)注到局部。Wang等[9]在細(xì)粒度圖像分類中,通過(guò)學(xué)習(xí)一組卷積過(guò)濾器來(lái)捕獲特定類的塊,而不需要額外的部分或邊界框注釋,有效地提升了細(xì)粒度圖像分類效果。但以上方法主要依靠復(fù)雜的網(wǎng)絡(luò)或者流程來(lái)捕獲精細(xì)特征,并未對(duì)訓(xùn)練數(shù)據(jù)做任何處理。

      顯著性圖saliency map[10]為每個(gè)像素點(diǎn)對(duì)模型分類結(jié)果的影響,是一種數(shù)據(jù)驅(qū)動(dòng)的注意力機(jī)制,可表示模型對(duì)圖像某個(gè)區(qū)域感興趣。Li等[11]通過(guò)邊界移除機(jī)制優(yōu)化了圖像邊界選擇,然后使用隨機(jī)游走排序來(lái)制定像素級(jí)顯著性圖。Zhang等[12]認(rèn)為網(wǎng)絡(luò)的淺層無(wú)法獲取到全局信息,所以關(guān)注于網(wǎng)絡(luò)中多層特征的提取,引入了空間注意力和通道注意力機(jī)制,將深層次的全局語(yǔ)義信息提供給淺層,提出了一種以漸進(jìn)方式選擇性地整合多層次上下文信息的注意力引導(dǎo)網(wǎng)絡(luò)。得益于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),顯著性圖的計(jì)算僅需要一個(gè)反向傳播,對(duì)其計(jì)算梯度絕對(duì)值后,根據(jù)RGB三通道生成的灰度圖得到顯著性圖。

      非局部模塊non-local[13]與注意力機(jī)制相似,通過(guò)計(jì)算各點(diǎn)的相似度來(lái)得到權(quán)重,再通過(guò)對(duì)應(yīng)點(diǎn)的特征值加權(quán)映射輸出就能得到該點(diǎn)與不同位置點(diǎn)的依賴關(guān)系,即全局信息。得益于非局部模塊的殘差連接,該模塊可插入到網(wǎng)絡(luò)的各個(gè)結(jié)構(gòu)中而不用調(diào)整其維度大小,在深層和淺層中都可以學(xué)習(xí)到多尺度特征,但非局部模塊對(duì)高維特征的學(xué)習(xí)更加有效。劉晶晶等[14]發(fā)現(xiàn)非局部模塊比堆疊的卷積在位置關(guān)系的計(jì)算上更有優(yōu)勢(shì),可以直接獲得大范圍的關(guān)系,將其應(yīng)用在音頻處理中,降低模型的誤差。Mei等[15]在單圖像超分辨中提出了一種動(dòng)態(tài)稀疏的非局部稀疏注意力模式,保留了非局部操作的長(zhǎng)程建模能力和稀疏表征的魯棒性和高效性,使模型不再關(guān)注噪聲大,信息少的區(qū)域。

      對(duì)于細(xì)粒度圖像分類任務(wù)而言,帶有判別性特征的訓(xùn)練數(shù)據(jù)越豐富,模型識(shí)別判別性特征越精確,細(xì)粒度圖像分類的準(zhǔn)確率越高。本文提出的融合顯著性和非局部模塊的細(xì)粒度圖像分類算法,將顯著性圖與RICAP數(shù)據(jù)增強(qiáng)算法進(jìn)行了結(jié)合,將圖片的顯著性區(qū)域裁剪保留并拼接,使模型所獲得的訓(xùn)練圖像的內(nèi)容更加豐富,且都是其顯著的帶有判別性特征的區(qū)域,并將非局部模塊插入到ResNet-50[16]的高維特征層中獲得全局信息,使模型將全局特征和局部特征聯(lián)系起來(lái),引導(dǎo)模型同時(shí)識(shí)別不同類別的特征,解決了所增強(qiáng)圖片信息分布太廣而模型對(duì)局部特征獲取能力不足的問(wèn)題,進(jìn)而提高細(xì)粒度圖像分類的準(zhǔn)確率。

      1本文方法

      本文提出的細(xì)粒度圖像分類方法融合了顯著性和非局部模塊。首先對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),即隨機(jī)選擇4張圖片計(jì)算其顯著性,再將顯著性部分按照裁剪模板裁剪拼接成一張圖片供模型訓(xùn)練,以保證模型所得到的訓(xùn)練數(shù)據(jù)包含豐富信息的同時(shí)又可以引導(dǎo)模型對(duì)全局特征的關(guān)注??紤]到訓(xùn)練數(shù)據(jù)可能會(huì)存在顯著性區(qū)域分布過(guò)于廣泛的情況,容易影響高層語(yǔ)義特征的學(xué)習(xí),所以將非局部模塊融合到模型中,以構(gòu)建高層全局語(yǔ)義特征的聯(lián)系,實(shí)現(xiàn)對(duì)圖片中各個(gè)尺度、各個(gè)位置的特征都能夠識(shí)別。

      1.2非局部模塊嵌入

      細(xì)粒度圖像分類算法的關(guān)鍵在于對(duì)判別性特征的識(shí)別,卷積操作可以對(duì)局部判別性特征進(jìn)行提取,但本文所提的增強(qiáng)方法得到的圖片為顯著性區(qū)域的拼接,其特征豐富且分散。為緩解訓(xùn)練數(shù)據(jù)顯著性區(qū)域分布過(guò)大,強(qiáng)化模型對(duì)高層語(yǔ)義特征的融合,本方法提出將非局部模塊嵌入到瓶頸模塊之間,在獲取特征圖全局中不同位置的依賴關(guān)系的同時(shí)不會(huì)引入太多計(jì)算量。瓶頸模塊如圖4(a)所示,非局部模塊由圖4(b)所示,ResNet-50網(wǎng)絡(luò)剩余結(jié)構(gòu)如圖4(c)和(d)所示,本文所提網(wǎng)絡(luò)模型架構(gòu)如圖5所示。

      模型階段越靠后,其特征圖的尺度越小,語(yǔ)義特征信息越豐富,為了使所嵌入的非局部模塊能聯(lián)合到不同尺度以及不同深度的特征信息,本文模型使用3個(gè)非局部模塊來(lái)進(jìn)行特征聯(lián)合。同時(shí)為保證非局部模塊所處理的特征圖語(yǔ)義信息豐富且尺寸不至于過(guò)小,本文模型將非局部模塊嵌入到模型的stage3中。所以模型的前部?jī)A向于對(duì)細(xì)節(jié)特征的提取,后部?jī)A向于對(duì)所提取特征的聯(lián)合并精煉,從而更適用于細(xì)粒度圖像分類任務(wù)。

      2實(shí)驗(yàn)與分析

      為驗(yàn)證本方法的有效性,在Stanford Cars,CUB-200-2011這2個(gè)細(xì)粒度圖像分類基準(zhǔn)數(shù)據(jù)集上進(jìn)行了分類準(zhǔn)確率的實(shí)驗(yàn),并對(duì)比了多個(gè)細(xì)粒度圖像分類算法與數(shù)據(jù)增強(qiáng)算法,同時(shí)還進(jìn)行了消融實(shí)驗(yàn)與熱力圖分析以驗(yàn)證本方法各模塊的必要性與可解釋性。

      2.1實(shí)驗(yàn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

      Stanford Cars共有196個(gè)類別,包含8144張訓(xùn)練圖片和8041張測(cè)試圖片。CUB-200-2011包含200類共11788張圖片。以上數(shù)據(jù)集的圖片均為RGB圖像。實(shí)驗(yàn)中以Top-1準(zhǔn)確率(Top-1 accuracy)為評(píng)估指標(biāo)[18]。

      2.2實(shí)驗(yàn)設(shè)置與環(huán)境

      將所提出的方法與先進(jìn)的數(shù)據(jù)增強(qiáng)方法(以ResNet-50為骨干模型)和細(xì)粒度圖像分類算法作比較,分別為Cutout,Mixup,RICAP,Gridmask,F(xiàn)Mix,SaliencyMix[19]和B-CNN,RA-CNN,MC-Loss[20],CNL[21]。以上方法的超參數(shù)均設(shè)置為其文獻(xiàn)公布代碼的默認(rèn)值,且在相同基線模型、相同數(shù)據(jù)集上的各項(xiàng)參數(shù)設(shè)置完全相同,均使用SGD作為優(yōu)化器來(lái)更新參數(shù)和優(yōu)化模型,對(duì)數(shù)據(jù)的預(yù)處理也僅做了隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)及歸一化,未引入其他數(shù)據(jù)增強(qiáng)方法。訓(xùn)練過(guò)程中批量大小為32,迭代次數(shù)為200,均在一張顯存為24G的NVIDIA GeForceRTX3090GPU上進(jìn)行,基于PyTorch深度學(xué)習(xí)框架。

      2.3實(shí)驗(yàn)結(jié)果與分析

      如表1所示,本文所提方法的分類準(zhǔn)確率均優(yōu)于所對(duì)比的6種數(shù)據(jù)增強(qiáng)方法及4種細(xì)粒度圖像分類算法,在Stanford Cars和CUB-200-2011上分別達(dá)到了94.01%和85.97%的Top-1分類準(zhǔn)確率。Cutout,Gridmask,RICAP,F(xiàn)Mix,SaliencyMix這5種方法是基于裁剪的增強(qiáng)方法:Cutout,Gridmask會(huì)直接使樣本產(chǎn)生無(wú)意義區(qū)域;RICAP,F(xiàn)Mix,SaliencyMix產(chǎn)生的樣本雖然全是有意義的區(qū)域,但在拼接圖片時(shí)會(huì)丟失掉部分原圖,使樣本上下文信息不齊全。Mixup則是進(jìn)行全局的像素級(jí)混合,容易使圖片產(chǎn)生混淆區(qū)域,加大了模型對(duì)圖片的理解難度,且對(duì)關(guān)鍵部位的定位能力也有所損失。B-CNN雖然對(duì)2個(gè)分支網(wǎng)絡(luò)的信息進(jìn)行了交互,但其缺少不同深度信息的提取與交流。RA-CNN所使用的循環(huán)卷積網(wǎng)絡(luò)能夠不斷聚焦圖像的顯著區(qū)域,但是缺少特征圖層級(jí)的語(yǔ)義信息的聚合。MC-Loss則是只改動(dòng)了Loss函數(shù),未對(duì)網(wǎng)絡(luò)的特征提取能力和理解能力進(jìn)行加強(qiáng)。CNL是對(duì)非局部模塊做了修改使其更適應(yīng)細(xì)節(jié)特征識(shí)別,但對(duì)訓(xùn)練數(shù)據(jù)未做任何處理。而本文所提方法中的增強(qiáng)方式不會(huì)出現(xiàn)混淆區(qū)域,其拼接的區(qū)域全是經(jīng)過(guò)顯著性定位后的顯著區(qū)域,經(jīng)此增強(qiáng)后,訓(xùn)練數(shù)據(jù)的判別性區(qū)域不再集中,能夠迫使模型對(duì)全局進(jìn)行關(guān)注。并且與其他細(xì)粒度圖像分類方法相比,本文提出的將3個(gè)非局部模塊嵌入到模型的stage3中的方法簡(jiǎn)單有效,既有全局特征的聚合,又有深度信息的相互交流。

      2.4消融實(shí)驗(yàn)

      為驗(yàn)證本方法所提出各個(gè)模塊的有效性,在CUB-200-2011數(shù)據(jù)上進(jìn)行了消融實(shí)驗(yàn),結(jié)果見(jiàn)表2。在基線模型中添加本文提出的增強(qiáng)方法后,準(zhǔn)確率提升了1.34%,并且隨著非局部模塊的添加,模型的準(zhǔn)確率進(jìn)一步增加,在stage3添加了3個(gè)非局部模塊后,準(zhǔn)確率又提升了0.78%。這說(shuō)明本文所提出的數(shù)據(jù)增強(qiáng)方法與插入的非局部模塊都是有效且必要的。這是因?yàn)榻?jīng)本文提出的增強(qiáng)方法處理后,增強(qiáng)后的圖片顯著性區(qū)域分布廣泛,模型可以學(xué)習(xí)到更豐富的信息,非局部模塊又能夠?qū)⑻卣鲌D中各個(gè)區(qū)域聯(lián)系起來(lái),使模型對(duì)各個(gè)區(qū)域的特征都有所關(guān)注,兩者互補(bǔ)。值得注意的是非局部模塊都是從各個(gè)階段的右邊開(kāi)始嵌入并計(jì)算個(gè)數(shù),且在ResNet-50的stage3階段添加非局部模塊的性能都優(yōu)于在stage2階段添加,這是因?yàn)榉蔷植磕K更適用于對(duì)高維特征圖的注意力計(jì)算。

      2.5樣本可解釋性分析

      使用Grad-CAM[22]即類激活圖對(duì)本方法進(jìn)行可解釋性分析,如圖6所示,以找出模型對(duì)圖像聚焦的區(qū)域[23]。

      對(duì)激活圖分析可知,經(jīng)過(guò)本方法訓(xùn)練后的模型能夠?qū)D片各個(gè)區(qū)域的特征進(jìn)行識(shí)別。與原始圖片相比,盡管有些顯著區(qū)域所激活的大小發(fā)生了變化,但被激活區(qū)域的形狀與原始圖片相同,高亮區(qū)域的連續(xù)性也沒(méi)有被打破,說(shuō)明模型對(duì)所增強(qiáng)圖片的信息仍然能夠正確理解,且特征提取的能力沒(méi)有減弱。同時(shí),增強(qiáng)后圖片的4個(gè)顯著性區(qū)域都能夠被激活,說(shuō)明模型對(duì)各個(gè)顯著性區(qū)域的鑒別不會(huì)丟失,并且模型的注意力能夠覆蓋更大的范圍。這也進(jìn)一步證明了本方法的優(yōu)越性。

      3結(jié)論

      本文將顯著性與非局部模塊相結(jié)合來(lái)提升細(xì)粒度圖像的分類準(zhǔn)確率,提出了融合顯著性和非局部模塊的細(xì)粒度圖像分類算法,通過(guò)裁剪及拼接4張訓(xùn)練圖片的顯著性區(qū)域?yàn)?張圖片,來(lái)使訓(xùn)練數(shù)據(jù)包含的信息更加豐富,并在ResNet-50的瓶頸模塊中融合3個(gè)非局部模塊,以加強(qiáng)模型對(duì)特征圖中所有鑒別性特征區(qū)域的關(guān)注。實(shí)驗(yàn)結(jié)果表明,本方法在Stanford Cars和CUB-200-2011數(shù)據(jù)集上的分類準(zhǔn)確率均高于對(duì)比的增強(qiáng)方法與細(xì)粒度圖像算法,證明了該方法的有效性與優(yōu)越性。

      猜你喜歡
      數(shù)據(jù)增強(qiáng)深度學(xué)習(xí)顯著性
      基于卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)煙霧探測(cè)算法研究
      基于深度網(wǎng)絡(luò)的車輛前后端圖像識(shí)別方法研究
      基于雙卷積神經(jīng)網(wǎng)絡(luò)的鐵路集裝箱號(hào)OCR
      基于顯著性權(quán)重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      基于視覺(jué)顯著性的視頻差錯(cuò)掩蓋算法
      基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究
      一種基于顯著性邊緣的運(yùn)動(dòng)模糊圖像復(fù)原方法
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      論商標(biāo)固有顯著性的認(rèn)定
      五寨县| 韶山市| 胶州市| 承德市| 元谋县| 祥云县| 泽州县| 宣武区| 湟源县| 富锦市| 当雄县| 水城县| 高邮市| 长丰县| 宁河县| 泸水县| 汶上县| 乌什县| 明光市| 武功县| 体育| 贡觉县| 凭祥市| 弋阳县| 武邑县| 珲春市| 青神县| 南川市| 青冈县| 论坛| 霍邱县| 金湖县| 项城市| 威宁| 石河子市| 嘉善县| 安塞县| 威远县| 天柱县| 锡林郭勒盟| 靖远县|