• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      模態(tài)不變性特征學(xué)習(xí)和一致性細(xì)粒度信息挖掘的跨模態(tài)行人重識別

      2023-01-31 01:20:30石林波李華鋒張亞飛謝明鴻
      模式識別與人工智能 2022年12期
      關(guān)鍵詞:細(xì)粒度行人語義

      石林波 李華鋒 張亞飛 謝明鴻

      行人重識別[1]是判斷跨相機視角拍攝的行人圖像是否為同一人的技術(shù).受視角、姿態(tài)、光照、背景變化影響,行人重識別是一個具有挑戰(zhàn)性的任務(wù).目前大多數(shù)研究[2-7]針對可見光相機捕捉的行人圖像進行匹配,這是一個單模態(tài)行人重識別問題.然而,在智能監(jiān)控系統(tǒng)中,只有可見光攝像機是不夠的.因為當(dāng)光線不足(如晚上)時,很難從可見光圖像(Visible Image,VI)中提取具有判別性的行人信息.先進的監(jiān)控系統(tǒng)能在光照不足時自動從可見光模式切換到紅外模式以捕獲行人的紅外圖像(Infrared Image,IR),獲取行人有效的外觀信息.

      由于成像原理不同,可見光圖像和紅外圖像存在嚴(yán)重的模態(tài)差異.因此,相比單模態(tài)行人重識別,紅外-可見光跨模態(tài)行人重識別是一個極具挑戰(zhàn)性的問題.

      跨模態(tài)行人重識別的目的是將來自一個模態(tài)的查詢圖像(Query)與來自另一個模態(tài)的圖像庫(Gallery)進行匹配,在現(xiàn)實場景的視頻監(jiān)控中較重要.相比單模態(tài)行人重識別,跨模態(tài)行人重識別面臨的挑戰(zhàn)是巨大的模態(tài)差異.因此,如何較好地緩解模態(tài)差異是跨模態(tài)行人重識別研究的一個難點.

      目前,跨模態(tài)行人重識別中緩解模態(tài)差異的方法大致分為3類:基于模態(tài)互轉(zhuǎn)的方法[8-15]、基于度量學(xué)習(xí)的方法[16-18]和基于特征對齊的方法[19-26].

      基于模態(tài)互轉(zhuǎn)的方法旨在通過一種合理的方式生成當(dāng)前圖像在另一個模態(tài)下的圖像,將跨模態(tài)行人重識別問題轉(zhuǎn)化為單模態(tài)行人重識別問題,在一定程度上緩解模態(tài)間的差異.為了進行模態(tài)互轉(zhuǎn),Wang等[8-10]提出變分自編碼器的模態(tài)互轉(zhuǎn)方法,利用變分自編碼器將紅外圖像轉(zhuǎn)換為可見光圖像,將可見光圖像轉(zhuǎn)換為紅外圖像.Fan等[11]提出基于生成對抗的模態(tài)互轉(zhuǎn)方法,將行人可見光圖像和紅外圖像通過CycleGAN(Cycle-Generative Adversarial Networks)[12]轉(zhuǎn)為對應(yīng)的紅外圖像和可見光圖像,把圖像統(tǒng)一在相同的模態(tài)下.Liu等[13]構(gòu)建頻譜感知特征增強網(wǎng)絡(luò),將VI圖像轉(zhuǎn)換為灰度光譜圖像,利用灰度光譜圖像代替VI圖像同IR圖像進行相互檢索.Li等[14]提出XIV-ReID(X-Infrared-Visible ReID),引入X模態(tài)的方法,將VI圖像經(jīng)過一個輕量型生成器轉(zhuǎn)換得到X模態(tài)圖像,這是一個介于VI模態(tài)和IR模態(tài)的中間模態(tài),可用于縮小模態(tài)差異.Wang等[15]提出DPJD(Dual-Path Image Pair Joint Discriminant Model),使用模態(tài)編碼器和屬性編碼器生成圖像的模態(tài)編碼和屬性編碼,再交換編碼生成與原始圖像模態(tài)不同的圖像.

      基于度量學(xué)習(xí)的方法關(guān)鍵在于如何設(shè)計合理的度量方法或損失函數(shù),使同一行人的相同模態(tài)和不同模態(tài)圖像間的距離盡可能小,不同行人的相同模態(tài)和不同模態(tài)圖像間的距離盡可能大.Gao等[16]設(shè)計EAT(Enumerate Angular Triplet)損失和CMKD(Cross-Modality Knowledge Distillation)損失,EAT損失限制不同嵌入特征之間的內(nèi)角,獲得角度可分離的公共特征空間,CMKD損失用于在特定的特征提取階段結(jié)束時縮小不同模態(tài)特征之間的距離,提升跨模態(tài)行人重識別任務(wù)的有效性.Wang等[17]提出DPAN+CMDC Loss(Dual-Path Attention Network and Cross-Modality Dual-Constraint Loss),建立行人特征圖的局部特征之間的空間依賴關(guān)系,增強網(wǎng)路的特征提取能力,同時,還提出跨模態(tài)雙約束損失,為嵌入空間中的每個類分布添加中心和邊界約束,促進類內(nèi)的緊湊性,增強類間的可分離性.Hu等[18]提出DMiR(Adversarial Decoupling and Modality-Invariant Representation Learning),求解光譜依賴信息,優(yōu)化身份信息,進一步探索跨模態(tài)行人潛在的光譜不變但具有判別性的身份表示.

      基于特征對齊的方法主要思想是如何約束特征提取網(wǎng)絡(luò)提取不同模態(tài)下圖像的共有特征.為了提取共有特征,Hao等[19]設(shè)計雙對齊(空間對齊和模態(tài)對齊)特征嵌入方法,利用行人局部特征輔助特征網(wǎng)絡(luò)提取細(xì)粒度相機的不變信息,再引入分布損失函數(shù)和相關(guān)性損失函數(shù),對齊VI模態(tài)和IR模態(tài)的嵌入特征.Park等[20]提出CMAlign,互換局部的VI圖像特征和IR圖像特征,約束互換后的特征在其行人類別的判斷上無差別,通過這種互換思想約束網(wǎng)絡(luò)提取兩個模態(tài)的共有特征.Chen等[21]研究神經(jīng)特征搜索方法,在身份損失和三元組約束下,自動在空間和通道兩個維度上選擇兩個模態(tài)的行人共有特征.Wu等[22]提出雙流特征提取網(wǎng)絡(luò)(VI模態(tài)流和IR模態(tài)流),先使用雙流結(jié)構(gòu)分別提取VI圖像特征和IR圖像特征,再將兩個模態(tài)流的特征通過共享參數(shù)的網(wǎng)絡(luò)獲取共有特征.

      綜上所述,基于模態(tài)互轉(zhuǎn)的方法、基于度量學(xué)習(xí)的方法和基于特征對齊的方法旨在像素級或特征級上對齊不同模態(tài)的特征.盡管這些方法取得不錯效果,但主要關(guān)注如何緩解模態(tài)差異,未充分考慮行人的細(xì)粒度信息,因此,提取的行人特征判別性不強,效果還有待進一步改善.

      為了獲取更有判別性的行人信息,一些行人重識方法開始關(guān)注行人局部特征的提取.姿態(tài)信息是定位人體不同局部部位的一個重要線索,因此近年來涌現(xiàn)一些基于姿態(tài)信息的行人重識別方法,利用姿態(tài)信息將輸入的行人圖像劃分成不同部分.Su等[27]提出PDC(Pose-Driven Deep Convolutional Model),精準(zhǔn)使用人體局部信息,并將整個人體和局部身體部分轉(zhuǎn)換為標(biāo)準(zhǔn)化和同源狀態(tài),更好地實現(xiàn)特征嵌入.Zheng等[28]通過姿態(tài)估計生成一個 PoseBox 結(jié)構(gòu),再通過仿射變換將行人與標(biāo)準(zhǔn)姿態(tài)對齊,通過 PoseBox融合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)架構(gòu),減少姿態(tài)估計誤差和信息丟失的影響.此外,Tay等[29]提出屬性注意網(wǎng)絡(luò),將衣服顏色、頭發(fā)、背包等基于物理外觀的屬性融入基于分類的人員重識別的框架中,增強行人特征表示.Wang等[30]使用關(guān)節(jié)點模型提取人體14個局部語義特征,再利用這些局部語義特征建立關(guān)節(jié)點高階關(guān)系信息和高階人類拓?fù)潢P(guān)系信息,讓網(wǎng)絡(luò)學(xué)習(xí)具有魯棒性的特征.

      上述方法雖然在一定程度上挖掘行人局部信息,但存在兩個主要的問題:1)需要引入外部網(wǎng)絡(luò)或?qū)傩孕畔?不是端到端的學(xué)習(xí)過程,不利于在現(xiàn)實環(huán)境中進行部署.2)未考慮不同模態(tài)細(xì)粒度信息語義不一致的問題,導(dǎo)致其無法直接應(yīng)用到跨模態(tài)行人重識別任務(wù)中.基于上述分析,在緩解模態(tài)差異的同時挖掘行人的細(xì)粒度信息,有助于網(wǎng)絡(luò)獲取更有判別性的行人特征,提升跨模態(tài)行人重識別方法的性能.

      為此,本文提出模態(tài)不變性特征學(xué)習(xí)和一致性細(xì)粒度信息挖掘的跨模態(tài)行人重識別方法,可在挖掘細(xì)粒度信息的同時緩解模態(tài)差異.方法的總體框架主要由模態(tài)不變性特征學(xué)習(xí)(Modal Invariance Feature Learning,MIFL)模塊和語義一致的細(xì)粒度信息挖掘(Semantically Consistent Fine-Grained Infor-mation Mining,SCFIM)模塊組成.MIFL模塊利用視覺Transformer網(wǎng)絡(luò)[31]提取模態(tài)信息.同時,提出模態(tài)混淆損失,利用該損失訓(xùn)練模態(tài)混淆分類器.該分類器混淆模態(tài)信息和身份信息,約束特征提取網(wǎng)絡(luò)在特征提取階段只提取行人模態(tài)不變性特征而忽略模態(tài)信息.SCFIM模塊對特征圖進行通道分組和水平分塊,充分挖掘行人細(xì)粒度信息.同時,引入語義一致性損失,約束網(wǎng)絡(luò)提取到的不同模態(tài)同一行人的細(xì)粒度信息是語義一致的.語義一致的行人細(xì)粒度信息更具有判別性,有助于提升網(wǎng)絡(luò)的行人重識別性能.在兩個具有挑戰(zhàn)性的紅外-可見光跨模態(tài)行人重識別數(shù)據(jù)集(SYSU-MM01、RegDB)上的實驗驗證本文方法的有效性和優(yōu)越性.

      1 模態(tài)不變性特征學(xué)習(xí)和一致性細(xì)粒度信息挖掘的跨模態(tài)行人重識別方法

      1.1 網(wǎng)絡(luò)架構(gòu)

      在一個批次訓(xùn)練數(shù)據(jù)(Batch)中,x(j,i)表示第j個行人的第i個訓(xùn)練樣本,j={1,2,…,B},B表示在一個批次訓(xùn)練數(shù)據(jù)中行人身份的個數(shù),i={1,2,…,Q},Q表示在一個批次訓(xùn)練數(shù)據(jù)中每個行人身份抽取的樣本個數(shù).

      為了緩解紅外-可見光兩個模態(tài)之間的差異并提取豐富的語義一致的細(xì)粒度行人特征,本文提出模態(tài)不變性特征學(xué)習(xí)和一致性細(xì)粒度信息挖掘的跨模態(tài)行人重識別方法,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.

      本文方法主要包括模態(tài)不變性特征學(xué)習(xí)模塊(MIFL)和語義一致的細(xì)粒度信息挖掘模塊(SCFIM).MIFL模塊采用層數(shù)為N的視覺Transformer網(wǎng)絡(luò)(ET)提取模態(tài)信息,并利用模態(tài)信息訓(xùn)練一個模態(tài)混淆分類器.該分類器在模態(tài)混淆損失的約束下,迫使模型學(xué)習(xí)模態(tài)不變性特征.SCFIM模塊采用ResNet50作為骨干網(wǎng)絡(luò),并將骨干網(wǎng)絡(luò)(前2個塊(EL)參數(shù)不共享,后3個塊(ER)參數(shù)共享)提取的特征復(fù)制一份,一份經(jīng)過廣義平均池化(Generalized-Mean,Gem)[32]后輸入MIFL模塊,學(xué)習(xí)模態(tài)不變性特征,另一份經(jīng)過通道分組和水平分塊兩個操作挖掘細(xì)粒度信息.

      此外,引入語義對齊損失,約束網(wǎng)絡(luò)提取到的不同模態(tài)同一行人的細(xì)粒度信息是語義一致的.兩個模塊聯(lián)合后訓(xùn)練特征提取網(wǎng)絡(luò),使網(wǎng)絡(luò)提取不受模態(tài)影響、包含豐富細(xì)粒度信息、語義一致的行人特征.

      圖1 本文方法的總體框架Fig.1 Overall framework of the proposed method

      1.2 模態(tài)不變性特征學(xué)習(xí)模塊

      為了緩解模態(tài)差異,本文設(shè)計模態(tài)不變性特征學(xué)習(xí)模塊(MIFL).

      假設(shè)輸入圖像為xi(i={vi,ir}),

      Mvi∈RHT×WT×CT,Mir∈RHT×WT×CT

      分別表示xvi和xir經(jīng)過EL得到的VI特征圖和IR特征圖,其中,HT、WT表示特征圖的高、寬,CT表示特征圖的通道.將特征圖在HT×WT維度上進行矩陣形狀變換操作后得到特征

      Hvi∈R(HTWT)×CT,Hir∈R(HTWT)×CT.

      將Hvi和Hir送入ET學(xué)習(xí),得到2個模態(tài)的模態(tài)信息mvi∈RdT和mir∈RdT,獲得模態(tài)信息的過程可表示為

      mi=ET(reshape(EL(xi))),

      (1)

      其中,EL表示卷積塊(ResNet50共享參數(shù)的2個塊),ET表示層數(shù)為N的視覺Transformer網(wǎng)絡(luò),reshape(·)表示矩陣形狀變換操作,xi表示輸入圖像,mi表示模態(tài)信息,i={vi,ir}表示VI模態(tài)或IR模態(tài).訓(xùn)練時,最小化如下?lián)p失函數(shù):

      (2)

      得到模態(tài)信息后,利用模態(tài)信息訓(xùn)練模態(tài)混淆分類器,約束EL和ER在特征提取階段只提取模態(tài)不變性特征,達到將模態(tài)信息從特征圖中去除的目的.具體地,圖像xi經(jīng)過EL和ET得到模態(tài)信息mi,xi經(jīng)過EL和ER得到的特征圖再經(jīng)過Gem池化得到身份信息fi.將模態(tài)信息mi和身份信息fi送入模態(tài)混淆分類器,模態(tài)混淆分類器把mi分到VI模態(tài)類或IR模態(tài)類,把fi分到既不是VI模態(tài)也不是IR模態(tài)的第3個類.在損失的約束下,EL和ER在特征提取階段忽略對模態(tài)信息的提取,因此EL和ER最終提取的是不包含模態(tài)信息的模態(tài)不變性特征.訓(xùn)練時,使用如下?lián)p失函數(shù):

      (3)

      IR模態(tài)圖像的標(biāo)簽形式為

      1.3 語義一致的細(xì)粒度信息挖掘模塊

      1.3.1細(xì)粒度信息挖掘

      行人擁有的細(xì)粒度信息越豐富,就越具有判別性.為了挖掘行人的細(xì)粒度信息,本文構(gòu)建圖1所示的細(xì)粒度信息挖掘(Fine-Grained Information Mi-ning,FIM).將經(jīng)過EL和ER得到的行人特征圖Fi∈RHR×WR×CR先在通道維度上分成L組,得到

      M={M1,M2,…,ML}∈RHR×WR×(CR/L),

      再將每組在水平維度上分成K塊,得到

      P={P1,P2,…,Pk}∈R(HR/K)×WR×(CR/L),

      共得到L×K個細(xì)粒度塊.該過程表示如下:

      P=SH(SC(Fi)),

      其中,Fi(i={vi,ir})表示特征圖,SC(·)表示在通道維度上的分組操作,SH(·)表示在水平維度上的分塊操作.

      L×K個細(xì)粒度塊經(jīng)過Gem池化、1×1卷積層、BN層和ReLU層得到細(xì)粒度特征向量p(l,k)∈RdR,l={1,2,…,L}表示第l個通道分組,k={1,2,…,K}表示第k個水平塊.為了使得到的細(xì)粒度特征向量具有判別性,對其進行身份損失和中心三元組損失[33]約束.身份損失約束如下:

      (4)

      中心三元組損失約束如下:

      其中,g表示優(yōu)化閾值,‖·‖2表示歐氏距離,

      1.3.2語義一致性約束

      對每個細(xì)粒度塊進行身份損失和中心三元組損失約束后,細(xì)粒度塊可具有一定的判別性,但仍存在兩個潛在問題:1)多個細(xì)粒度塊可能表示重復(fù)的信息,2)相同行人不同模態(tài)的細(xì)粒度塊表示的特征語義可能不一致.若不解決這兩個問題,會導(dǎo)致方法對細(xì)粒度信息挖掘不充分,對行人重識別的準(zhǔn)確性也會產(chǎn)生負(fù)面影響.為此,本文引入語義一致性約束(Semantic Consistency Constraint,SCC),結(jié)構(gòu)如圖2所示.

      圖2 語義一致性約束結(jié)構(gòu)圖Fig.2 Semantic consistency constraint structure

      拼接每個通道分組的水平塊,得到

      Tl=[p(i,1);p(i,2);…;p(i,K)]∈RdR,

      再對Tl(l={1,2,…,L})進行身份損失Lcg(使拼接后的水平塊具有判別性)和語義分類損失Lde.在語義分類器中,設(shè)計一個固定的L分類標(biāo)簽,標(biāo)簽類別數(shù)與通道分組數(shù)是對應(yīng)的,目的是約束相同的通道分組關(guān)注行人相同的細(xì)粒度信息.對Tl進行的兩個損失如下:

      Lcg=CE(Wcg(Tl),yd),

      (6)

      Lde=CE(Wde(Tl),yl),

      (7)

      其中,Wcg(·)表示通道分組的身份分類器,yd表示身份標(biāo)簽,Wde(·)表示語義分類器,yl(l={1,2,…,L})表示一個固定的分類標(biāo)簽,具體的標(biāo)簽形式為y1=[1 0 … 0],y2=[0 1 … 0],…,yL=[0 0 … 1].

      最后,將Tl(l={1,2,…,L})按通道分組順序拼接,表示為

      T=[T1;T2;…;TL]∈R(L×K)×dR.

      針對T定義一個與式(5)定義相同的中心三元組損失,記為L′tri.在測試階段,T作為行人相似性度量的信息.

      1.4 總損失

      綜合MIFL模塊和SCFIM模塊,本文方法的總損失為

      L=Lid+Ltri+Lcg+λ1L′tri+λ2Lde+

      ω(Lm+Lc),

      (8)

      值得注意的是,損失函數(shù)Lm和Lc與其它損失函數(shù)不同,網(wǎng)絡(luò)在最開始時不能較好地學(xué)習(xí)身份信息和模態(tài)信息,如果不對損失函數(shù)Lm和Lc的權(quán)重進行調(diào)整,方法在反向傳播更新網(wǎng)絡(luò)參數(shù)時會出現(xiàn)梯度爆炸情況.因此本文提出動態(tài)訓(xùn)練策略,從模型訓(xùn)練的初始階段到最終階段逐漸增加損失函數(shù)Lm和Lc,優(yōu)化權(quán)重ω,具體計算如下:

      其中,t表示方法的迭代次數(shù),E(Lt-1)表示前一次方法迭代損失的平均值.

      為了方便理解,本文方法具體步驟如算法1所示.

      算法1模態(tài)不變性特征學(xué)習(xí)和一致性細(xì)粒度信息挖掘的跨模態(tài)行人重識別

      輸出訓(xùn)練好的網(wǎng)絡(luò)參數(shù)EL和ER

      初始化EL,ET,ER,Wm,Wc,Wid,Wcg,Wde

      foriter=1,2,…,Iterationdo

      #Iteration表示模型訓(xùn)練時的最大迭代次數(shù)

      #模態(tài)不變性特征學(xué)習(xí)

      最小化式(2)更新ET和Wm

      最小化式(3)更新EL,ER,ET和Wc

      # 語義一致的細(xì)粒度信息挖掘

      最小化式(4)和式(5)更新EL,ER和Wid

      最小化式(6)和式(7)更新EL,ER,Wcg和Wde

      end for

      2 實驗及結(jié)果分析

      2.1 實驗設(shè)置

      本文選擇SYSU-MM01[22]、RegDB[34]數(shù)據(jù)集進行實驗.

      SYSU-MM01數(shù)據(jù)集是一個由4個可見光攝像機和2個紅外光攝像機拍攝而成的數(shù)據(jù)集,有室內(nèi)和室外兩種環(huán)境.訓(xùn)練集包含395個行人身份,其中可見光圖像22 258幅,紅外光圖像11 909幅.測試集包含96個行人身份.在測試階段,查詢圖像(Query)由96個行人身份的3 903幅紅外光圖像組成,圖像庫(Gallery)由在96個行人身份中隨機抽樣的301幅單搜索(Single-Shot)圖像或3 010幅多搜索(Multi-shot)圖像組成.SYSU-M01數(shù)據(jù)集有全搜索(All-Search)和室內(nèi)搜索(Indoor-Search)兩種不同的測試模式.在All-Search模式下,Gallery的照片包含所有可見光攝像機拍攝的照片,在Indoor- Search模式下,Gallery的照片只包含來自室內(nèi)可見光攝像機拍攝的照片.在每個測試模式下都有Single-Shot和Multi-shot兩種設(shè)置.

      RegDB數(shù)據(jù)集的圖像由一個雙相機系統(tǒng)收集而成,包括一個可見光相機和一個紅外光相機,包含412個行人身份的8 240幅圖像.每個行人身份包含10幅可見光圖像和10幅紅外光圖像.隨機選擇206個行人身份的圖像作為訓(xùn)練集,剩下的206個行人身份圖像作為測試集.測試模式包含根據(jù)可見光圖像查找紅外圖像和根據(jù)紅外圖像查找可見光圖像兩種模式.

      為了與現(xiàn)有方法進行公平對比,所有實驗均遵循現(xiàn)有跨模態(tài)行人重識別方法中的常見評估設(shè)置[23,35].

      在測試過程中,SYSU-M01數(shù)據(jù)集上只有將可見光圖像作為Gallery,將紅外圖像作為Query這一種測試方式.RegDB數(shù)據(jù)集上有兩種測試方式[35].1)可見光圖像作為Query,紅外圖像作為Gallery,即可見光圖像查找紅外圖像(visible2infrared).2)紅外圖像作為Query,可見光圖像作為Gallery,即紅外圖像查找可見光圖像(infrared2visible).

      在2個公共數(shù)據(jù)集上,都采用Rank-1,Rank-10,Rank-20和平均精度(Mean Average Precision,mAP)評價方法性能.

      2.2 實驗細(xì)節(jié)

      本文與文獻[23]和文獻[24]一樣,都采用在ImageNet數(shù)據(jù)庫[36]上進行預(yù)訓(xùn)練過的ResNet50[37]作為骨架網(wǎng)絡(luò).ResNet50的5個塊提取特征的通道數(shù)分別為64,256,512,1 024,2 048.提取模態(tài)特征使用層數(shù)為N的視覺Transformer網(wǎng)絡(luò),本文N=4.在SCFIM模塊中,通道分為L=4組,水平分為K=6塊.網(wǎng)絡(luò)輸入圖像的尺寸統(tǒng)一為288×144.

      訓(xùn)練時采用隨機裁剪、隨機水平翻轉(zhuǎn)進行數(shù)據(jù)增強,裁剪前先對圖像四周使用0值進行擴充(擴充的具體值為10像素),再隨機裁剪288×144的區(qū)域(如圖3中紅色虛線所示),裁剪后圖像有50%的概率進行隨機水平翻轉(zhuǎn).數(shù)據(jù)增強的可視化過程如圖3所示.

      訓(xùn)練數(shù)據(jù)的批次大小(Batchsize)設(shè)為96,對于每個批次,在VI模態(tài)中隨機選取6個行人身份,每個行人身份選取8幅圖像,IR模態(tài)進行同樣選取.

      本文采用Pytorch1.7學(xué)習(xí)框架,在NVIDIA RTX3090 GPU平臺完成實驗.采用隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化策略優(yōu)化網(wǎng)絡(luò),動量(Momentum)設(shè)定為0.9,初始學(xué)習(xí)率設(shè)為0.01,每經(jīng)過20代學(xué)習(xí)率衰減0.1,共訓(xùn)練60代.

      具體代碼發(fā)布在https://github.com/YafeiZhang-KUST/CMReID.

      圖3 數(shù)據(jù)增強示例Fig.3 Example of data enhancement

      2.3 對比實驗結(jié)果

      本節(jié)選取如下方法進行對比實驗,對比各方法在2個公共數(shù)據(jù)集上的性能,驗證本文方法的有效性.具體對比方法如下.

      1)基于模態(tài)互轉(zhuǎn)的方法:JSIA-ReID(Joint Set-Level and Instance-Level Alignment ReID)[9],AlignGAN(Alignment GAN)[10],XIV-ReID[14],DPJD[15],Hi-CMD(Hierarchical Cross-Modality Disentangle-ment)[38].

      2)基于度量學(xué)習(xí)的方法:EAT+CMKD[16],DPAN+CMDC Loss[17],DMiR[18],cmGAN(Cross-Modality Generative Adversarial Network)[39],CPN(Cyclic Projection Network)[40],DFLN-ViT(Discri-minative Feature Learning Network Based on a Visual Transformer)[41].

      3)基于特征對齊的方法:CMAlign[20],AGW (Attention Generalized Mean Pooling with Weighted Triplet Loss)[23],DDAG(Dynamic Dual-Attentive Aggregation Learning Method)[24],FBP-AL(Flexible Body Partition Model Based Adversarial Learning Method)[42],MAGC(Multi-hop Attention Graph Con- volution Network)[43],CMDSF(Cross-Modality Disen- tanglement and Shared Feedback)[44],DML(Dual Mutual Learning)[45].

      各方法在RegDB數(shù)據(jù)集上的實驗結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值,-表示原文獻未提供數(shù)據(jù).

      表1 各方法在RegDB數(shù)據(jù)集上的實驗結(jié)果對比Table 1 Experimental result comparison of different methods on RegDB dataset %

      在visible2infrared模式下,本文方法的Rank-1和mAP(對比實驗中最重要的兩個性能指標(biāo))達到最優(yōu)值,比次優(yōu)方法DFLN-ViT分別提升3.02%和8.95%.

      在infrared2visible模式下,本文方法的Rank-1和mAP也達到最優(yōu)值,比DFLN-ViT分別提升3.21%和8.61%.

      為了進一步驗證本文方法的有效性,在大數(shù)據(jù)集SYSU-MM01上進行對比實驗,結(jié)果如表2(All-Search模式)和表3(Indoor-Search模式)所示,表中黑體數(shù)字表示最優(yōu)值,-表示原文獻未提供數(shù)據(jù).

      由表2和表3可見,本文方法在All-Search模式下Rank-1和mAP達到最優(yōu)值,在Indoor-Search模式下,Single-Shot設(shè)置下的Rank-1與Multi-shot設(shè)置下的Rank-1和mAP也達到最優(yōu)值.

      分析表1~表3可知本文方法性能較優(yōu)的原因如下.

      1)在緩解模態(tài)差異方面,相比其它方法,本文方法創(chuàng)新有效.本文利用一個視覺Transformer提取模態(tài)信息,再設(shè)計模態(tài)混淆分類器(兩層卷積層加上一層全連接層),將模態(tài)信息和ResNet50提取的身份信息送入模態(tài)混淆分類器.模態(tài)混淆分類器把模態(tài)信息分到VI模態(tài)類或IR模態(tài)類,把身份信息分到既不是VI模態(tài)也不是IR模態(tài)的第3個類.在損失約束下,ResNet50在特征提取階段忽略對模態(tài)信息的提取,因此,ResNet50最終提取的是不包含模態(tài)信息的模態(tài)不變性特征.

      2)本文的SCFIM模塊不僅挖掘行人的細(xì)粒度信息,同時也保證挖掘信息的一致性,最終達到提升行人判別性的效果.

      3)本文方法對特征不僅在水平層面上采用PCB(Beyond Part Models)[46]進行分塊,而且還進行通道上的分組,特征劃分的粒度更細(xì),使網(wǎng)絡(luò)提取行人更具判別性的特征.

      綜上所述,本文方法在兩個公共數(shù)據(jù)集上取得良好效果,并且在RegDB數(shù)據(jù)集上的實驗結(jié)果驗證本文方法的優(yōu)越性,在SYSU-MM01數(shù)據(jù)集上的實驗結(jié)果驗證本文方法的有效性.

      表2 各方法在SYSU-MM01數(shù)據(jù)集上All-Search模式下的實驗結(jié)果對比Table 2 Experimental results comparison of different methods in All-Search mode on SYSU-MM01 dataset %

      表3 各方法在SYSU-MM01數(shù)據(jù)集上Indoor-Search模式下的實驗結(jié)果對比Table 3 Experimental results comparison of different methods in Indoor-Search mode on SYSU-MM01 dataset %

      2.4 消融實驗結(jié)果

      為了驗證MIFL模塊和SCFIM模塊的有效性,將它們逐個加入基線網(wǎng)絡(luò)中.其中,SCFIM模塊由細(xì)粒度信息挖掘(FIM)和語義一致性約束(SCC)兩部分組成.

      本文在SYSU-MM01、RegDB數(shù)據(jù)集上進行消融實驗.在SYSU-MM01數(shù)據(jù)集上,消融實驗在All-Search模式的Single-Shot設(shè)置下進行.在RegDB數(shù)據(jù)集上,消融實驗在visible2infrared模式下進行.

      實驗對比如下方法.1)Baseline(基線方法).使用ResNet50作為主干網(wǎng)絡(luò),身份損失和中心三元組損失作為損失函數(shù).2)Baseline+MIFL.3)Baseline+MIFL+FIM.4)Baseline+MIFL+FIM+SCC.

      4種方法的消融實驗結(jié)果如表4所示.在SYSU-MM01數(shù)據(jù)集上,相比Baseline,Baseline+MIFL的Rank-1和mAP分別提升7.32%和8.03%,這意味著MIFL達到緩解模態(tài)差異的作用.

      加入FIM之后,Rank-1和mAP分別提升12.19%和9.75%,說明FIM達到挖掘行人細(xì)粒度信息的目的.加入SCC之后,Rank-1和mAP再次提升5.48%和4.8%,說明SCC確實起到約束行人細(xì)粒度語義一致性的作用.在RegDB數(shù)據(jù)集上也能得到類似的實驗結(jié)果.

      總之,消融實驗表明,本文方法的每個模塊在緩解模態(tài)差異或提升特征的辨別性方面都起到有效作用.

      表4 各方法在2個數(shù)據(jù)集上的消融實驗結(jié)果Table 4 Ablation experiment results of different methods on 2 datasets %

      為了直觀驗證本文方法的有效性,利用Grad-CAM(Visual Explanations from Deep Networks via Gradient-Based Localization)可視化方法[47],在SYSU-MM01數(shù)據(jù)集上生成熱圖,具體如圖4所示,圖中顏色越深表示網(wǎng)絡(luò)對該區(qū)域越關(guān)注.

      圖4 各模塊生成的熱圖對比Fig.4 Comparison of heat maps generated by different modules

      由圖4可看出,相比Baseline,Baseline+MIFL加深對模態(tài)不變性特征的學(xué)習(xí),但此時網(wǎng)絡(luò)只關(guān)注行人少部分區(qū)域.加上FIM后,網(wǎng)絡(luò)關(guān)注行人更多的細(xì)粒度信息,但存在多個細(xì)粒度塊關(guān)注相同區(qū)域的情況和網(wǎng)絡(luò)在兩個模態(tài)下關(guān)注的行人局部區(qū)域是不同的問題,即語義不一致.再加上SCC后可看出,網(wǎng)絡(luò)關(guān)注的行人細(xì)粒度信息變多且關(guān)注的局部區(qū)域相同.這表明加上SCC可解決網(wǎng)絡(luò)在兩個模態(tài)下關(guān)注信息冗余和行人語義不一致的問題.

      為了進一步驗證本文方法的有效性,隨機選擇3個查詢實例,根據(jù)計算的余弦相識度得分,選擇前10個檢索結(jié)果,綠色框表示檢索正確的圖像,紅色框表示檢索錯誤的圖像.

      由于SYSU-MM01數(shù)據(jù)集上有多個檢索模式,本文任選其中一個,即選擇在All-Search模式的Single-Shot設(shè)置下進行,值得注意的是,該模式下正確的檢索圖像最多為4幅,具體檢索結(jié)果如圖5所示.

      RegDB數(shù)據(jù)集只有2種檢索模式,在2種模式下正確檢索圖像最多均為10幅,具體檢索結(jié)果分別如圖6所示.

      從圖5和圖6的可視化結(jié)果分析可得,依次加上MIFL、FIM、SCC模塊后,檢索的正確圖像逐漸變多,由此再次證實本文方法的有效性.

      從近期工作[48-51]中可知,行人重識別網(wǎng)絡(luò)提取的特征圖中的特征通道與行人圖像的局部區(qū)域之間存在對應(yīng)關(guān)系.特征圖是由輸入圖像或前一層的特征圖利用不同卷積核進行特征映射得到的,不同的卷積核可關(guān)注行人圖像不同的區(qū)域,因此特征圖中不同的特征通道對行人局部區(qū)域的關(guān)注程度不同.本文對通道進行劃分,就能從特征層面關(guān)注行人的不同局部信息,因此對通道劃分是合理的.

      對特征進行通道和水平層面劃分的優(yōu)勢在于PCB僅從人體不同空間區(qū)域的視角將身體劃分成頭部、軀干等不同的部分,而通道劃分是從特征的視角對通道進行分組,從而使網(wǎng)絡(luò)關(guān)注不同的人體區(qū)域.將兩者結(jié)合能更充分挖掘局部信息.

      為了驗證通道劃分的優(yōu)勢,將ResNet50最后一層輸出特征的2 048個特征通道分別劃分為2組、4組和8組.同時,在SYSU-MM01數(shù)據(jù)集的 All-Search模式下進行實驗,結(jié)果如表5所示,表中PCB表示僅進行水平層面的劃分,CDi表示將特征通道劃分為i(i=2,4,8)組,黑體數(shù)字表示最優(yōu)值.

      圖5 各模塊在SYSU-MM01數(shù)據(jù)集上的檢索結(jié)果Fig.5 Retrieval results of different modules on SYSU-MM01 dataset

      (a)visible2infrared

      表5 通道劃分對性能的影響Table 5 Effect of channel segmentation on performance

      由表5可見,當(dāng)通道分組數(shù)為4時,方法性能最優(yōu).原因是不進行通道劃分或通道分組數(shù)為2時,網(wǎng)絡(luò)在通道層面關(guān)注的局部區(qū)域偏少,而分組數(shù)為8時,會強制網(wǎng)絡(luò)關(guān)注不重要的細(xì)粒度信息,都會造成性能的下降.

      2.5 參數(shù)分析

      在SYSU-MM01數(shù)據(jù)集的All-Search模式的Single-Shot 設(shè)置下分析式(8)中λ1和λ2對方法性能的影響.

      λ1影響三元組損失L′tri在總損失中的占比.設(shè)置λ1=0,0.1,0.2,…,1.0,2.0,Rank-1、mAP與λ1的關(guān)系如圖7(a)所示,當(dāng)λ1=0.3時,Rank-1值最高,因此,將λ1設(shè)置為0.3.

      λ2影響語義一致性損失Lde對總損失的貢獻.設(shè)置λ2=0.1,0.2,…,1.0,2.0,3.0,Rank-1、mAP與λ2的關(guān)系如圖7(b)所示.當(dāng)λ2=0時,方法失去語義一致性損失的約束,導(dǎo)致性能較低,隨著該損失占比逐步變大時,性能逐漸提升,當(dāng)λ2=2時,性能最優(yōu).因此,將λ2設(shè)置為2.

      (a)λ1

      3 結(jié) 束 語

      為了解決跨模態(tài)行人重識別中存在的模態(tài)差異問題和細(xì)粒度信息挖掘不充分的問題,本文提出模態(tài)不變性特征學(xué)習(xí)和一致性細(xì)粒度信息挖掘的跨模態(tài)行人重識別方法,側(cè)重于提取模態(tài)不變性的語義一致的細(xì)粒度特征.具體地,使用模態(tài)不變性特征學(xué)習(xí)模塊去除特征圖中的模態(tài)信息,緩解模態(tài)差異,在使用語義一致的細(xì)粒度信息挖掘模塊挖掘行人細(xì)粒度信息的同時保持挖掘的語義一致性.在兩個公共的紅外-可見光跨模態(tài)數(shù)據(jù)集(SYSU-MM01和Reg-DB)上的實驗表明,本文方法性能較優(yōu).此外,本文方法是一種端到端的網(wǎng)絡(luò),不需要借助例如關(guān)節(jié)點提取、GAN這樣的外部網(wǎng)絡(luò).這不僅大幅降低網(wǎng)絡(luò)的復(fù)雜性,而且還有利于在現(xiàn)實場景中進行部署.今后將在提升特征的判別性方面上進行進一步探索.

      猜你喜歡
      細(xì)粒度行人語義
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      細(xì)粒度的流計算執(zhí)行效率優(yōu)化方法
      語言與語義
      路不為尋找者而設(shè)
      揚子江(2019年1期)2019-03-08 02:52:34
      基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      我是行人
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      瑞昌市| 海宁市| 工布江达县| 汝州市| 清涧县| 桐庐县| 临朐县| 阳东县| 巩留县| 西盟| 杨浦区| 内江市| 塔河县| 毕节市| 漾濞| 铅山县| 柳江县| 呼图壁县| 咸阳市| 棋牌| 图木舒克市| 安溪县| 金溪县| 龙州县| 宜川县| 青海省| 彰化县| 浏阳市| 栖霞市| 临城县| 德格县| 龙川县| 钟祥市| 西平县| 江阴市| 都江堰市| 金川县| 江津市| 建宁县| 景东| 深水埗区|