• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      視頻行人重識別研究進(jìn)展

      2020-07-16 09:58:02李夢靜吉根林
      關(guān)鍵詞:特征提取行人特征

      李夢靜,吉根林

      (南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210023)

      視頻行人重識別(又叫行人再識別)是指在不同攝像頭拍攝的行人視頻中檢索特定行人的技術(shù),即給定一個(gè)行人視頻,跨攝像頭檢索該行人,得到其在其它攝像頭下的視頻. 這種針對特定人的視頻檢索具有重要的研究意義,在失蹤者定位、犯罪跟蹤和行人視頻檢索等方面有著廣泛的應(yīng)用.

      行人重識別問題的研究最早可以追溯到跨攝像頭多目標(biāo)跟蹤問題上,2005年,文獻(xiàn)[1]提出了當(dāng)目標(biāo)行人在某個(gè)攝像頭視頻丟失之后,如何將其在其它攝像頭視頻中再次匹配的問題. 2006年,文獻(xiàn)[2]第一次提出了行人重識別的概念,將其從跨攝像頭多目標(biāo)跟蹤問題中抽離出來,作為一個(gè)獨(dú)立的問題進(jìn)行研究. 早期的行人重識別研究使用傳統(tǒng)方法,例如提取手工設(shè)計(jì)的特征. 2014年以后,深度學(xué)習(xí)得到了迅猛發(fā)展,學(xué)者們試圖將深度學(xué)習(xí)技術(shù)應(yīng)用在了行人重識別領(lǐng)域,獲得了更好的效果.

      根據(jù)輸入數(shù)據(jù)的不同,行人重識別可以分為圖像行人重識別和視頻行人重識別,這兩者既有相同點(diǎn)也有不同點(diǎn),相同點(diǎn)是它們都面臨著攝像頭本身的低分辨率、拍攝場景的多樣性、物體遮擋、光照變化等等問題帶來的挑戰(zhàn). 不同點(diǎn)是相比于圖像,視頻數(shù)據(jù)中蘊(yùn)含的信息更多,視頻中包含了行人的運(yùn)動信息和時(shí)間信息,數(shù)據(jù)量更多、計(jì)算量更大,更復(fù)雜,且視頻數(shù)據(jù)存在高度冗余,如何提取具有鑒別力的部分也更值得研究. 與圖像行人重識別相比,視頻行人重識別的研究工作較少,但是視頻行人重識別更接近真實(shí)應(yīng)用,自2016年以后,越來越多的學(xué)者開始關(guān)注視頻行人重識別問題,提出了各種不同的解決方法.

      1 視頻行人重識別的處理過程

      一般來說,視頻行人重識別問題處理過程主要分為3個(gè)階段:(1)視頻數(shù)據(jù)預(yù)處理:將視頻按幀切分成圖像序列,利用行人檢測技術(shù)得到行人檢測框,并處理圖像噪聲、光照變化等問題;(2)特征提取:提取描述行人外觀的有區(qū)別的、穩(wěn)定的特征;(3)距離度量:找到更有效的行人相似性度量方法,建立一個(gè)新的特征空間,使相同行人的特征距離更小,不同行人的特征距離更大.

      視頻行人重識別傳統(tǒng)處理過程如圖1所示. 訓(xùn)練視頻首先經(jīng)過預(yù)處理,再進(jìn)行特征提取和距離度量,最后通過損失函數(shù)反饋訓(xùn)練,不斷迭代,直到獲得較好的特征學(xué)習(xí)模型. 在檢索過程中,檢索視頻和多個(gè)候選視頻分別進(jìn)行預(yù)處理,然后輸入到已訓(xùn)練完成的特征提取模型中,得到每個(gè)視頻的特征,再利用合適的距離度量方法計(jì)算檢索視頻與每個(gè)候選視頻之間的距離. 最后按照距離的大小,輸出所有候選視頻的排序結(jié)果.

      2 特征提取方法

      特征提取方法主要分為基于手工設(shè)計(jì)的特征提取和基于深度學(xué)習(xí)的特征提取. 如表1所示,基于手工設(shè)計(jì)的特征主要有顏色特征[3-4]、光流特征和屬性特征[5],其中前兩者屬于視覺特征,容易被周圍環(huán)境干擾,而屬性特征屬于中層語義特征,更具有魯棒性. 隨著深度學(xué)習(xí)的發(fā)展,2016年以后使用深度學(xué)習(xí)模型提取特征成為主流.

      表1 行人特征分類Table 1 Pedestrian feature classification

      基于深度學(xué)習(xí)的特征主要有:(1)時(shí)空特征,視頻中含有豐富的時(shí)空信息. 空間信息指圖像的每一幀不同位置具有的特征,時(shí)間信息指視頻不同幀之間的聯(lián)系,空間信息與時(shí)間信息是互補(bǔ)的. 如果缺少信息的任何一部分,行人的信息就不能得到充分的表達(dá). (2)局部特征,早期特征提取模型都是一幅圖像提取一個(gè)特征,不考慮一些局部信息,隨著行人重識別數(shù)據(jù)集越來越復(fù)雜,全局特征并不能得到很好的效果,提取更加復(fù)雜的局部特征成為一個(gè)新的解決方法. 詳細(xì)的特征提取方法特點(diǎn)及應(yīng)用整理如表2所示.

      2.1 時(shí)空特征提取

      提取時(shí)空特征的方法可以分為3類:(1)額外給CNN(Convolutional Neural Network)輸入光流等動態(tài)光流特征[6-8];(2)先提取幀級空間特征,再將所有幀特征輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中提取時(shí)間特征[9-11]或是利用時(shí)間匯聚或者權(quán)重學(xué)習(xí)得到時(shí)間特征[12-14];(3)將視頻看作三維數(shù)據(jù),通過3D CNN等方法提取時(shí)空特征[15-16].

      2017年,Zhou等[13]利用CNN網(wǎng)絡(luò)提取每幀圖像的空間特征,然后提出了一種時(shí)態(tài)注意模型TAM(Temporal Attention Model)來提取時(shí)間特征. 2019年,Chen等[10]提出了一種聯(lián)合關(guān)注時(shí)空特征聚合網(wǎng)絡(luò)(Joint Attentive spatial-temporal Feature aggregation Network,JAFN),同時(shí)學(xué)習(xí)質(zhì)量感知模型和框架感知模型,利用CNN學(xué)習(xí)空間特征,同時(shí)引入LSTM(Long-Short Time Memory)學(xué)習(xí)時(shí)間特征.

      上面兩種方法都是先提取幀級空間特征,再利用LSTM網(wǎng)絡(luò)或者注意力機(jī)制生成視頻級的時(shí)間特征,都是直接在高層特征上建立時(shí)間連接,因此無法捕獲圖像局部細(xì)節(jié)上的時(shí)間信息. 為了解決這個(gè)問題,Li等[15]受3D卷積神經(jīng)網(wǎng)絡(luò)在動作識別領(lǐng)域得到的成功所啟發(fā),提出了雙流M3D(Multi-Scale 3D)卷積神經(jīng)網(wǎng)絡(luò)將多個(gè)多尺度三維卷積層插入到二維CNN網(wǎng)絡(luò)中,同時(shí)提取時(shí)間和空間信息.

      2.2 局部特征提取

      局部特征是特征提取模型自動關(guān)注視頻的某些局部區(qū)域. 相比于全局特征,局部特征對光照變化的魯棒性更強(qiáng),且能減弱遮擋的影響. 提取局部特征的主要方法有:(1)人工將圖像劃分成塊,根據(jù)人體固有的特點(diǎn),將圖像劃分成頭、上身、下身幾個(gè)部分;(2)提取人體骨架關(guān)鍵點(diǎn),利用注意力機(jī)制關(guān)注局部身體部位處的特征;(3)構(gòu)建人體部位特征鄰接圖,對不同部位特征之間的關(guān)系進(jìn)行建模.

      Liu等[17]提出一種新的時(shí)空特征混合模型,首先將人體水平分割成N個(gè)部分,包括頭部、腰部、腿部等信息. 然后整合每個(gè)部分的特征,以實(shí)現(xiàn)對每個(gè)人更有鑒別力的表達(dá). 2019年,文獻(xiàn)[18]認(rèn)為行人身份信息主要表現(xiàn)在軀干、肘部、手腕、膝蓋、腳踝等身體部位. 首先檢測人體關(guān)鍵點(diǎn),然后獲取行人圖像中人體關(guān)節(jié)的重要系數(shù)矩陣,根據(jù)系數(shù)矩陣通過注意力機(jī)制整合CNN得到的圖像外觀特征.

      這兩種方法忽略了人體各部位之間的相關(guān)性,而人的各個(gè)部位之間的關(guān)系有助于降低復(fù)雜情況(如遮擋、不對齊和雜亂背景)的影響. 為了利用各部位之間的關(guān)系,Wu等[19]提出了一種新穎的自適應(yīng)圖表示學(xué)習(xí)方案,首先利用位姿對齊連接和特征關(guān)聯(lián)連接來構(gòu)造一個(gè)自適應(yīng)結(jié)構(gòu)感知鄰接圖,利用該鄰接圖對圖節(jié)點(diǎn)間的內(nèi)在關(guān)系進(jìn)行建模. 自適應(yīng)地捕獲行人身體部位特征之間的內(nèi)在關(guān)聯(lián)結(jié)構(gòu)信息,并進(jìn)一步傳遞互補(bǔ)的上下文信息,豐富行人外觀特征表示.

      表2 特征提取方法特點(diǎn)及應(yīng)用Table 2 Characteristics and application of feature extraction methods

      2.3 特征融合

      特征融合分為兩類:(1)多特征融合:對同一個(gè)視頻提取多種特征,例如顏色、光流、時(shí)空等等,然后將多種特征融合作為最終行人特征;(2)多幀融合:視頻本質(zhì)上屬于圖像序列,常規(guī)方法是對每一幀提取一個(gè)特征,再將多幀的特征融合,得到視頻級特征.

      多特征融合:早期的特征提取采用低級特征,2016年,文獻(xiàn)[7]利用顏色和光流信息來捕獲圖像和運(yùn)動信息,Zheng等[46]將顏色直方圖與SURF(Speeded Up Robust Feature)特征相結(jié)合提取特征,但隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得巨大成功,研究者們開始使用深度學(xué)習(xí)來學(xué)習(xí)更具鑒別力的特征. 將手工特征與深度學(xué)習(xí)得到的特征相融合,2017年,Li等[47]將手工設(shè)計(jì)的局部特征與PCN(PCA-based Convolutional Network)生成的深度特征進(jìn)行融合. 2018年,Sun等[22]利用孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)深度特征,將光流特征與深度特征進(jìn)行融合作為行人特征描述符.

      多幀融合:從幀級特征到視頻級特征,必然的方法就是進(jìn)行多幀特征融合,最簡單的方法是將所有幀的重要性視為相同,將所有幀級特征進(jìn)行平均池化得到視頻級特征,但是顯然因?yàn)楣庹铡⒄趽醯纫蛩氐挠绊?不同的幀等提供的有用信息是不一樣的. 基于這樣一個(gè)事實(shí),文獻(xiàn)[48]提出一種時(shí)域注意方法,其中采用一個(gè)全卷積的時(shí)間注意模型來生成注意力分?jǐn)?shù),它代表每一幀的重要性. Ouyang等[49]利用深度強(qiáng)化學(xué)習(xí)剔除質(zhì)量差、誤導(dǎo)和混淆的幀,從視頻中挑選出具有代表性的幀,再進(jìn)行多幀融合. 文獻(xiàn)[50]提出的視頻協(xié)方差方法還研究了視頻幀之間的相關(guān)性,利用相關(guān)性對多幀特征進(jìn)行整合,提升了特征表示的鑒別力.

      3 距離度量方法

      距離度量階段的任務(wù)是定義一個(gè)距離度量函數(shù)計(jì)算兩個(gè)特征向量之間的距離,通過最小化網(wǎng)絡(luò)的度量損失,得到一個(gè)最優(yōu)的特征空間,使得相同行人的視頻之間的距離盡可能小,不同行人視頻之間的距離盡可能大. 傳統(tǒng)的距離度量學(xué)習(xí)方法有LMNN[51]、KISSME[52]、XQDA[53]、LFDA[54].

      行人視頻是由不同相機(jī)拍攝的,光照變化、視角變化都會使視頻間產(chǎn)生較大的差異,可以觀察到:(1)同一個(gè)人的不同視頻之間存在嚴(yán)重差異;(2)每個(gè)視頻內(nèi)的不同幀或步行周期之間也存在較大差異. 兩種差異都會對行人視頻之間的匹配帶來不利影響. 2018年,Zhu等[55]提出了一種同步的視頻內(nèi)和視頻間的距離度量學(xué)習(xí)方法SI2DL. 如圖2所示,該方法首先將單個(gè)視頻內(nèi)距離拉近,然后拉近類內(nèi)距離,同時(shí)推遠(yuǎn)類間距離,從而使得不同行人的視頻分開.

      相似地,為了減少視頻內(nèi)特征的差異,2019年,Zhang等[56]引入“均值-體”的概念,定義一個(gè)視頻內(nèi)的損失,以解決同一視頻時(shí)空特征之間的變化,然后結(jié)合視頻內(nèi)損失和孿生損失來提高訓(xùn)練速度.

      在實(shí)際應(yīng)用時(shí),視頻數(shù)據(jù)是一個(gè)流式數(shù)據(jù),圖像幀是不斷加入原有的數(shù)據(jù)中的,這就要求損失函數(shù)不僅能夠計(jì)算最終特征向量之間的距離,還要在新的數(shù)據(jù)加入時(shí),對原有距離進(jìn)行更新. 2019年,Navaneet等[57]提出了排名損失. 它可以在新數(shù)據(jù)加入時(shí),確保距離度量的質(zhì)量在不斷改善,并防止由于質(zhì)量差的幀加入而導(dǎo)致的退化.

      4 視頻行人重識別研究面臨的挑戰(zhàn)

      雖然近幾年視頻行人重識別取得了重大的發(fā)展,但是還是面臨著許多挑戰(zhàn),在真實(shí)場景下,行人重識別問題會遇到跨攝像頭導(dǎo)致的姿態(tài)變化、遮擋、光照變化等問題.

      4.1 行人不對齊且姿態(tài)變化

      行人重識別數(shù)據(jù)集中普遍存在的一個(gè)關(guān)鍵問題就是圖像對之間的不對齊,如圖3所示,由于背景雜波和位置不對齊,直接比較未對齊的圖像對效果非常差. 另一個(gè)問題就是姿態(tài)的變化,如圖4所示,人體的姿態(tài)總是根據(jù)相機(jī)的不同視角、行走路徑、行為等發(fā)生變化,這個(gè)問題顯著降低模型的性能.

      針對這兩個(gè)問題,近幾年,姿態(tài)估計(jì)對齊方法[58-59]得到了廣泛的應(yīng)用. Chen等[60]針對圖像不對齊的問題提出了基于位置引導(dǎo)的空間轉(zhuǎn)換子網(wǎng)絡(luò)STSN(pose-guided Spatial Transformer Sub-Network). STSN首先對輸入圖像的各種轉(zhuǎn)換參數(shù)進(jìn)行回歸,然后使用仿射變換將圖像轉(zhuǎn)換為對齊的圖像. 針對姿態(tài)變化的問題,提出了一種新的訓(xùn)練策略,稱為關(guān)鍵幀選擇,它可以選擇具有最大轉(zhuǎn)換貢獻(xiàn)值的幀作為關(guān)鍵幀,然后用這些關(guān)鍵幀來訓(xùn)練網(wǎng)絡(luò),從而減少姿態(tài)變化的影響.

      上述方法的缺點(diǎn)是需要額外的姿態(tài)標(biāo)注. Wu等[61]提出了一種半監(jiān)督的方法,將訓(xùn)練好的姿態(tài)估計(jì)模型直接應(yīng)用到行人重識別數(shù)據(jù)集上,避免了在行人重識別數(shù)據(jù)集上標(biāo)注姿態(tài)的麻煩.

      4.2 遮擋問題

      現(xiàn)實(shí)場景中,行人的任何部分都可能被其他行人或環(huán)境物體(如車和指示牌)遮擋,如圖5所示,這會導(dǎo)致行人外觀的巨大變化.

      相比于基于圖像的行人重識別,視頻行人重識別已經(jīng)弱化了遮擋的影響,因?yàn)橐话銇碚f視頻中只有一部分圖像幀存在遮擋問題. 但這顯然不能得到很好的效果. 后來,學(xué)者們提出了基于注意力機(jī)制的方法,2017年,Zhou等[13]提出通過時(shí)間注意模型自動選擇出視頻中最具鑒別力的幀,對質(zhì)量好的幀進(jìn)行特征提取. 同年,Xu等[62]設(shè)計(jì)了注意力時(shí)間池化從圖像序列中選擇信息幀. 2018年,Li等[14]同樣使用時(shí)間注意模型從所有幀中提取有用的信息.

      雖然這些方法一定程度上解決了部分遮擋的問題,但是丟棄遮擋圖像的方法并不理想,一方面,丟棄幀的剩余可見部分可能存在有用的信息;另一方面,丟棄幀中斷了視頻的時(shí)間信息. 針對以上的問題,2019年,Hou等[63]提出時(shí)空補(bǔ)全網(wǎng)絡(luò)STCnet(Spatial-Temporal Completion network),試圖恢復(fù)被遮擋部分的外觀來解決部分遮擋的問題.

      4.3 光照變化

      突然的光照變化會嚴(yán)重降低行人重識別模型的性能,因?yàn)楝F(xiàn)有的大部分解決方法十分依賴顏色特征,而光照變化會帶來圖像顏色的巨大變化,如圖6所示.

      2010年,Farenzena等[64]遵循水平垂直對稱原則對人體輪廓進(jìn)行分割,并從每個(gè)分割的身體部位積累局部顏色特征,在對數(shù)色度空間中,通過考慮不同光照條件下的顏色分布,建立了基于顏色的不變特征. 2014年,Ma等[65]提出了生物協(xié)方差描述符(gBiCov)來處理光照變化,該方法使用了Gabor濾波器來增強(qiáng)模型對光照變化的魯棒性,然后使用協(xié)方差描述符計(jì)算相鄰尺度下特征的相似性,大部分光照變化帶來的影響會被協(xié)方差矩陣吸收. 文獻(xiàn)[66]使用Retinex算法對圖像進(jìn)行預(yù)處理. 通過考慮光照變化和顏色感知來生成一致的彩色圖像. 它消除了陰影區(qū)域,產(chǎn)生具有增強(qiáng)色彩信息的圖像.

      處理光照變化的一類方法就是提取對光照變化具有魯棒性的特征;第二類在正常圖像和光照變化圖像之間建立一種聯(lián)系,通過協(xié)方差矩陣等方法處理兩者之間的不同;第三類就是采用合適的方法對視頻進(jìn)行預(yù)處理,使顏色變化平緩.

      4.4 跨模態(tài)檢索

      現(xiàn)有大多數(shù)行人重識別模型單獨(dú)關(guān)注圖像或視頻行人重識別問題. 事實(shí)上,從圖像到視頻的行人重識別在失蹤者定位、犯罪跟蹤和行人視頻檢索等方面具有重要的意義. 在圖像-視頻行人重識別任務(wù)中,由于圖像與視頻存在著巨大的跨模態(tài)差異,如何融合圖像特征與視頻特征,以及如何在外觀圖像特征與時(shí)空視頻特征之間進(jìn)行準(zhǔn)確的匹配是該問題的關(guān)鍵挑戰(zhàn).

      針對融合問題,2018年,文獻(xiàn)[67]提出了3種融合方案,包括早期融合,乘積規(guī)則融合和自適應(yīng)查詢的后期融合,并分析了3種時(shí)期融合的效果. 早期的融合方案將手工特征KDES和深度特征結(jié)合起來并反饋到SVM模型中,基于乘積規(guī)則融合方案根據(jù)乘積計(jì)算相似度融合特征,而后期的融合方案則是通過計(jì)算特征的得分曲線評估一個(gè)特征的有效性,并在融合時(shí)分配不同的權(quán)重. 實(shí)驗(yàn)表明,在3種融合方案中,后兩種延遲融合方案效果優(yōu)于第一種. 2019年,他們在特征提取階段添加了GOG特征和ResNet學(xué)習(xí)到的深度學(xué)習(xí)特征[68],提升了特征的表達(dá)能力.

      針對匹配問題,2018年,Zhu等[69]通過學(xué)習(xí)圖像與視頻間的異構(gòu)字典將圖像和視頻特征轉(zhuǎn)化為具有相同維數(shù)的編碼系數(shù),再利用編碼系數(shù)進(jìn)行匹配. Wang等[70]學(xué)習(xí)了一種圖像到視頻的距離度量方式來完成兩者之間的匹配,此方法在MARS-P2S數(shù)據(jù)集上Rank-1只有55.25%,還有很大的提升空間,值得進(jìn)一步研究.

      5 實(shí)驗(yàn)數(shù)據(jù)集與評價(jià)標(biāo)準(zhǔn)

      5.1 實(shí)驗(yàn)數(shù)據(jù)集介紹

      為了使研究場景更加接近真實(shí)情況,人們采集了若干視頻行人重識別數(shù)據(jù)集,為了解決特定應(yīng)用場景下的行人重識別問題,學(xué)者們也收集了一些針對特定問題的數(shù)據(jù)集. 數(shù)據(jù)集信息如表3所示. 最常用的 4個(gè)數(shù)據(jù)集如下,

      (1)PRID2011數(shù)據(jù)集[71]于2011年發(fā)表,由兩個(gè)攝像頭拍攝,A相機(jī)下有385組行人序列,B相機(jī)下有749組行人序列,每個(gè)序列長度大約是100到150幀,但是只有200人同時(shí)在兩個(gè)相機(jī)下出現(xiàn)過.

      (2)iLIDS-VID數(shù)據(jù)集[72]于2014年發(fā)表,拍攝于機(jī)場到達(dá)大廳. 它由300個(gè)隨機(jī)采樣的人的600個(gè)圖像序列組成,每個(gè)人在兩個(gè)攝像機(jī)視圖中都有一對圖像序列. 每個(gè)圖像序列的長度可變,從23到192不等,平均數(shù)量為73. 該數(shù)據(jù)集存在嚴(yán)重的遮擋問題,極具挑戰(zhàn)性.

      (3)Mars數(shù)據(jù)集[73]于2016年發(fā)表,拍攝于清華大學(xué)校園,是第一個(gè)可以用于深度學(xué)習(xí)的大型視頻行人重識別數(shù)據(jù)集. 它由6臺攝像機(jī)拍攝,總共有1261個(gè)不同的行人,20715個(gè)圖像序列,每個(gè)行人至少被 2個(gè)攝像機(jī)捕獲.

      (4)DuckMTMC-VideoReID數(shù)據(jù)集拍攝于杜克大學(xué),是多攝像頭跟蹤數(shù)據(jù)集DukeMTMC的子集,包括702個(gè)用于訓(xùn)練的身份,702個(gè)用于測試的身份,以及408個(gè)干擾項(xiàng). 總共有2 196個(gè)視頻用于訓(xùn)練,2 636個(gè)視頻用于測試.

      除此之外,一些針對特定問題的數(shù)據(jù)集如下:

      (1)EgoReID數(shù)據(jù)集[74]的視頻為可穿戴相機(jī)或手機(jī)等拍攝的第一人稱視角視頻,具有自我運(yùn)動、模糊、視角扭曲等特點(diǎn). 其中包含900個(gè)不同的行人,10 200個(gè)視頻.

      (2)Motion-ReID數(shù)據(jù)集[75]專門為長期場景中的行人重識別問題收集,拍攝于辦公樓,由兩個(gè)獨(dú)立的監(jiān)控?cái)z像頭拍攝,一共收集了30個(gè)人的240個(gè)視頻片段,每個(gè)行人在兩個(gè)攝像機(jī)下記錄的間隔時(shí)間較長,至少一周.

      (3)HLVID數(shù)據(jù)集[76]針對監(jiān)控視頻中普遍存在的分辨率低問題收集,拍攝于公共交通道路,由兩個(gè)攝像頭拍攝,總共包含200個(gè)不同行人,每個(gè)視頻長度從56到236不等,平均長度為126. 其中,高分辨率圖像分辨率范圍從44*120到173*258,平均分辨率為105*203;低分辨率圖像分辨率范圍從8*19到19*31,平均分辨率為11*21.

      (4)CGVID數(shù)據(jù)集[77]針對現(xiàn)實(shí)應(yīng)用中既存在彩色視頻又存在灰度單色視頻的問題收集,拍攝于武漢大學(xué),由兩個(gè)攝像頭拍攝,總共包含200個(gè)不同行人的52 723幅圖像,每個(gè)視頻長度從58到262不等,平均長度為130.

      表3 視頻行人重識別實(shí)驗(yàn)數(shù)據(jù)集Table 3 Video-based person re-identification data sets

      5.2 評價(jià)標(biāo)準(zhǔn)

      評價(jià)行人重識別方法的性能指標(biāo)主要有兩個(gè),一是累計(jì)匹配曲線CMC(Cumulative Match Characteristic)曲線;二是mAP(mean Average Precision).

      CMC曲線:反映的是top-k的擊中概率,主要用來評估排序結(jié)果的正確率. 具體含義是指,在候選視頻中檢索查詢視頻,前k個(gè)結(jié)果中包含正確匹配結(jié)果的比例. 如圖7所示,它表示在所有的查詢視頻中,30%的查詢視頻返回的top-1結(jié)果是正確的. 計(jì)算方式如下:

      式中,|P|為查詢集的大小,即P={p1,p2,…,p|P|},pi為查詢集中的第i個(gè)人,一一計(jì)算其與候選集gi∈G的距離(G={g1,g2,…,gn}),并進(jìn)行排序. 正確的目標(biāo)記為gpi,其在排序中的位置記為r(gpi),I(gpi)為示性函數(shù).

      mAP:是每一個(gè)查詢視頻結(jié)果與正確結(jié)果的匹配程度,與CMC曲線不同的是,它更加重視結(jié)果的排序,即正確的結(jié)果位置越前越好. 計(jì)算公式如下:

      式中,AP為平均準(zhǔn)確率,實(shí)際上就是CMC曲線與坐標(biāo)軸的面積. 每次查詢的結(jié)果對應(yīng)一個(gè)AP,mAP是總的查詢結(jié)果AP的算術(shù)平均值.

      6 未來研究問題

      在實(shí)際生活中存在拍攝視頻分辨率差距大、彩色視頻與灰色視頻混雜或者行人更換服飾等現(xiàn)象,現(xiàn)有的大部分視頻行人重識別研究大多假定不存在上述現(xiàn)象,在實(shí)際應(yīng)用中有一定的局限性. 為了進(jìn)一步拓展視頻行人重識別技術(shù)的應(yīng)用場景,未來仍有三個(gè)問題值得進(jìn)一步研究.

      6.1 尺度失配

      在實(shí)際生活中,由于某些相機(jī)質(zhì)量差或者行人與攝像頭之間的距離太遠(yuǎn),通常會導(dǎo)致采集的行人視頻為低分辨率視頻,從而導(dǎo)致視頻中有用信息的丟失,所以在低分辨率和高分辨率的視頻之間進(jìn)行重識別是未來的一個(gè)研究問題.

      現(xiàn)有的方法十分依賴圖像的顏色特征,而且需要先檢測行人,所以行人輪廓是非常重要的,但低分辨率圖像無法提供高質(zhì)量的像素,行人輪廓模糊,且行人服裝與背景混為一體. 針對這些問題,2017年,Zheng等[78]首先對圖像進(jìn)行預(yù)處理,消除圖像之間的混色差異,從而使同一個(gè)人的色彩特征相等,雖然行人輪廓信息丟失,但人的頭部、夾克等某些寬區(qū)域的顏色和垂直位置并沒有發(fā)生明顯的變化. 因此將人的圖像分成這些大的區(qū)域,并從每個(gè)區(qū)域提取顏色特征.

      上述方法解決了處理低分辨率的問題,但是沒有考慮低分辨率圖像與高分辨率圖像之間的匹配問題. 2019年,Ma等[76]提出了一種基于半耦合映射的集對集距離學(xué)習(xí)方法SMDL(Semi-coupled Mapping based set-to-set Distance Learning),發(fā)現(xiàn)高分辨率圖像與低分辨率圖像之間的映射關(guān)系,得到的映射矩陣可以補(bǔ)償?shù)头直媛蕡D像的損失信息.

      6.2 成像風(fēng)格失配

      現(xiàn)實(shí)場景中,因?yàn)橄鄼C(jī)故障或者相機(jī)為灰色模式會導(dǎo)致采集的行人視頻為灰色單色視頻,顏色信息會大量丟失,這需要采取有效的方法在彩色和灰度視頻之間進(jìn)行行人重識別,稱之為CGVPR 任務(wù)(Color to Gray Video Person Re-identification). 為了解決CGVPR 任務(wù),2020年,Ma等[77]認(rèn)為同一個(gè)人的彩色和灰度視頻之間存在著內(nèi)在關(guān)系,提出了一種基于非對稱視頻內(nèi)投影的半耦合字典對學(xué)習(xí)方法SDPL(Semi-coupled Dictionary Pair Learning),該方法分別學(xué)習(xí)一對視頻內(nèi)投影矩陣、一對彩色和灰度視頻字典以及半耦合映射矩陣. 學(xué)習(xí)到的字典對和映射矩陣可以一起彌合真彩色和灰度視頻的特征之間的差距.

      6.3 長時(shí)視頻行人重識別

      現(xiàn)有的行人重識別方法依賴視頻中行人的外觀特征,如顏色特征,所以大多假設(shè)行人短時(shí)間內(nèi)沒有顯著的外貌變化,不能解決行人換裝的問題. 然而,在許多現(xiàn)實(shí)場景中,行人可能在長時(shí)間間隔后重新出現(xiàn)在監(jiān)控視頻里,但是衣著不一樣. 由于著裝的改變,利用行人的外觀特征進(jìn)行視頻之間的匹配不再適用. 2018年,Zhang等[75]認(rèn)為同一個(gè)人即使換裝,但步態(tài)、身體動作等特征不會發(fā)生變化,提出一種基于動態(tài)線索的精細(xì)運(yùn)動編碼模型,從視頻中提取行人的動態(tài)運(yùn)動模式,根據(jù)運(yùn)動模式的不同來區(qū)別不同的行人,一定程度上解決了這個(gè)問題,但還值得更深入的研究.

      7 結(jié)論

      本文探討了視頻行人重識別的處理過程,詳細(xì)描述了處理過程中最重要的兩個(gè)階段:特征提取和距離度量. 介紹了視頻行人重識別現(xiàn)有實(shí)驗(yàn)數(shù)據(jù)集和評價(jià)標(biāo)準(zhǔn),然后提出了該研究領(lǐng)域目前面臨的四大挑戰(zhàn),包括姿態(tài)變化、遮擋、光照變化、跨模態(tài)檢索等,給出了相應(yīng)的解決方案,并展望了視頻行人重識別未來的研究問題.

      猜你喜歡
      特征提取行人特征
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      路不為尋找者而設(shè)
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      抓住特征巧觀察
      我是行人
      Bagging RCSP腦電特征提取算法
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      神木县| 保山市| 西峡县| 衡水市| 定州市| 永德县| 通榆县| 虹口区| 镇远县| 丹东市| 从化市| 布拖县| 江华| 宾阳县| 平舆县| 永嘉县| 舞钢市| 萝北县| 南充市| 中西区| 杭锦旗| 安阳县| 久治县| 车险| 新闻| 仲巴县| 当雄县| 酒泉市| 墨竹工卡县| 天峻县| 修文县| 江门市| 宁晋县| 察雅县| 德保县| 崇礼县| 永靖县| 广元市| 乳山市| 武威市| 崇仁县|