• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的行人再識(shí)別技術(shù)研究綜述

      2020-09-29 06:56:04魏文鈺楊文忠馬國(guó)祥
      計(jì)算機(jī)應(yīng)用 2020年9期
      關(guān)鍵詞:攝像機(jī)行人模態(tài)

      魏文鈺,楊文忠*,馬國(guó)祥,黃 梅

      (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046;2.新疆大學(xué)軟件學(xué)院,烏魯木齊 830046)

      0 引言

      隨著“平安城市”建設(shè)的大力推進(jìn),人們?cè)谏鐣?huì)治安管理方面投入了大量的人力、物力,以預(yù)防、控制、打擊破壞社會(huì)穩(wěn)定的違法犯罪行為的發(fā)生。其中,智能監(jiān)控系統(tǒng)作為社會(huì)治安管理系統(tǒng)中不可缺少的一部分,為維護(hù)社會(huì)的安全穩(wěn)定發(fā)揮了巨大作用?!捌桨渤鞘小钡慕ㄔO(shè)要求城市具備強(qiáng)大可靠的智能監(jiān)控系統(tǒng),這需要先進(jìn)科學(xué)技術(shù)的支撐,以確保在追蹤不法犯罪分子的過(guò)程中能提供明確可靠的線索。

      一般來(lái)講,一個(gè)完備的視頻監(jiān)控系統(tǒng)應(yīng)該具備3 個(gè)部分[1]:行人檢測(cè)、行人追蹤、行人檢索,其中,行人檢索即為行人再識(shí)別(person Re-identification,Re-id)。如圖1 所示,行人再識(shí)別[1]是一種利用計(jì)算機(jī)相關(guān)技術(shù)來(lái)進(jìn)行跨攝像機(jī)視圖中特定行人身份匹配的技術(shù),其中淺灰色框匹配圖片為同一身份的正確匹配,深灰色框匹配圖片為不同身份的錯(cuò)誤匹配。行人再識(shí)別屬于圖像檢索的子問(wèn)題,但其與圖像檢索不同的是,行人再識(shí)別檢索的目標(biāo)是特定行人,它是為了在社會(huì)治安管理方面搜索、追蹤特定行人而興起的一項(xiàng)圖像檢索技術(shù)。

      對(duì)于跨攝像機(jī)的行人檢索技術(shù)來(lái)說(shuō),其存在著許多與其他計(jì)算機(jī)視覺(jué)技術(shù)不同的難點(diǎn)與挑戰(zhàn)(如圖2 所示),包括:1)低分辨率:受攝像機(jī)等成像設(shè)備的限制,實(shí)際場(chǎng)景中得到的行人圖像大多是分辨率較低的模糊圖像;2)跨攝像機(jī)問(wèn)題:由于復(fù)雜多變的攝像機(jī)環(huán)境,不同的攝像機(jī)提供的行人圖像會(huì)存在巨大差異,這些差異包括光照不同、行人姿態(tài)不同、背景不同、成像風(fēng)格不同等;3)遮擋問(wèn)題:在實(shí)際視頻監(jiān)控中,目標(biāo)行人難免會(huì)受到車輛、欄桿、其他行人等遮擋物的遮擋,導(dǎo)致目標(biāo)行人圖像不完整;4)檢測(cè)不準(zhǔn)確:經(jīng)過(guò)目標(biāo)檢測(cè)方法處理過(guò)后得到的行人再識(shí)別數(shù)據(jù)集中的行人圖像,會(huì)存在行人檢測(cè)不準(zhǔn)確而導(dǎo)致的行人圖像部分缺失、錯(cuò)位等問(wèn)題;5)標(biāo)注困難:在實(shí)際待檢索的目標(biāo)域上難以獲取有標(biāo)注的數(shù)據(jù)進(jìn)行模型訓(xùn)練。針對(duì)這些挑戰(zhàn)與困難,研究者們將行人再識(shí)別技術(shù)從傳統(tǒng)的手工設(shè)計(jì)的方法,發(fā)展到現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)等深度學(xué)習(xí)方法,已經(jīng)較為成熟了,且目前的算法在常用的公開(kāi)數(shù)據(jù)集[2-3]上的首位準(zhǔn)確率(Rank-1)已經(jīng)達(dá)到90%以上。但為了達(dá)到更高的再識(shí)別準(zhǔn)確率,使行人再識(shí)別技術(shù)可以更好地運(yùn)用在實(shí)際的復(fù)雜場(chǎng)景中,對(duì)于該技術(shù)的發(fā)展還有待進(jìn)一步研究。

      圖1 行人再識(shí)別任務(wù)示意圖Fig.1 Schematic diagram of person re-identification task

      圖2 行人再識(shí)別任務(wù)中的挑戰(zhàn)Fig.2 Challenges in person re-identification task

      根據(jù)數(shù)據(jù)源的不同,本文將現(xiàn)有的行人再識(shí)別方法分為圖像行人再識(shí)別、視頻行人再識(shí)別、跨模態(tài)行人再識(shí)別,并基于這3 類基于深度學(xué)習(xí)的行人再識(shí)別技術(shù)進(jìn)行詳細(xì)介紹,大致描繪一個(gè)該技術(shù)從發(fā)展初期到現(xiàn)今的發(fā)展歷程,介紹各類方法的主要思想并進(jìn)行簡(jiǎn)單總結(jié)。此外,本文進(jìn)行了相關(guān)數(shù)據(jù)集介紹和一些優(yōu)秀方法的性能比較,最后概覽全文得出總結(jié)與展望。

      1 圖像行人再識(shí)別

      以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為代表的深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)研究領(lǐng)域大放異彩,包括人臉識(shí)別[4-5]、物體檢測(cè)[6-7]、目標(biāo)跟蹤[8-9]等方面,都取得了不錯(cuò)的效果。在2014 年之后,大量文獻(xiàn)采用深度學(xué)習(xí)的方法來(lái)解決行人再識(shí)別問(wèn)題,不僅實(shí)現(xiàn)了同一行人不變特征的魯棒表示,還實(shí)現(xiàn)了端到端的行人再識(shí)別系統(tǒng),這些方法不再使用復(fù)雜的度量算法,僅僅使用簡(jiǎn)單的歐氏距離或余弦距離就可以得到較高的匹配準(zhǔn)確率。這些深度學(xué)習(xí)方法的性能在很大程度上超過(guò)了早期基于手工特征的行人再識(shí)別方法,很快占領(lǐng)了該研究領(lǐng)域的半壁江山,此后的研究將繼續(xù)在該技術(shù)上進(jìn)一步進(jìn)行研究探索。

      基于深度學(xué)習(xí)的行人再識(shí)別技術(shù)自發(fā)展以來(lái),對(duì)用于圖像方法的研究要多于用于視頻的方法,同時(shí)一些用于圖像的方法也可以擴(kuò)展到視頻行人再識(shí)別數(shù)據(jù)集,以完成視頻序列的行人再識(shí)別任務(wù)。本文將圖像行人再識(shí)別方法根據(jù)數(shù)據(jù)源是否有標(biāo)簽分為有監(jiān)督方法和無(wú)監(jiān)督方法兩大類,下面將就此兩大類展開(kāi)詳細(xì)介紹。

      1.1 有監(jiān)督方法

      在機(jī)器學(xué)習(xí)中,有監(jiān)督方法通常被認(rèn)為是使用有標(biāo)簽的訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行監(jiān)督訓(xùn)練,該類方法在行人再識(shí)別研究領(lǐng)域即為使用有ID 標(biāo)簽的行人圖片來(lái)訓(xùn)練行人再識(shí)別模型;隨后用訓(xùn)練好的模型從行人圖片中提取出行人不變特征,再對(duì)這些特征進(jìn)行距離度量計(jì)算,從而判斷出哪些行人圖片屬于同一身份,哪些行人圖片屬于不同身份。現(xiàn)有的有監(jiān)督圖像行人再識(shí)別方法可以分為基于特征學(xué)習(xí)的方法和基于度量學(xué)習(xí)的方法?;谔卣鲗W(xué)習(xí)的方法著重學(xué)習(xí)行人的不變特征表示,基于度量學(xué)習(xí)的方法著重利用度量損失函數(shù)學(xué)習(xí)行人之間的相似度,但是這些方法都共有一個(gè)目的,即對(duì)不同攝像機(jī)下的同一行人進(jìn)行正確的同類匹配。

      1.1.1 基于特征學(xué)習(xí)的方法

      行人圖像中既包含全局信息也包含局部信息,若從抽取的特征類型進(jìn)行分類,特征學(xué)習(xí)可以分為全局特征學(xué)習(xí)和局部特征學(xué)習(xí)。以往的特征學(xué)習(xí)方法[10-13]只考慮從行人圖像的全局信息中抽取行人不變特征,但這對(duì)姿態(tài)變化、視角變化、行人檢測(cè)不準(zhǔn)確等問(wèn)題較為敏感,從而影響檢索精度?,F(xiàn)在大多數(shù)性能好的行人再識(shí)別方法[14-18]以抽取行人局部特征并結(jié)合行人全局特征的方法來(lái)獲取行人判別信息,以克服各種跨攝像機(jī)檢索的困難。根據(jù)局部特征區(qū)域的生成方式,可以將局部特征學(xué)習(xí)方法分為以下三類[16]:1)根據(jù)先驗(yàn)知識(shí)[19-21]如姿態(tài)估計(jì)、關(guān)鍵點(diǎn)定位等來(lái)定位局部區(qū)域;2)使用注意力機(jī)制的方法[14,22-24]提取感興趣的局部區(qū)域;3)將深度特征映射分割為預(yù)定義條狀[16-19,25-26]。這三類局部特征學(xué)習(xí)的方法將幫助模型提取出有效魯棒的行人特征表示。

      文獻(xiàn)[19]提出一種基于姿態(tài)的深度卷積模型(Pose-driven Deep Convolutional model,PDC)結(jié)構(gòu),其由兩部分組成:特征嵌入子網(wǎng)(Feature Embedding sub-Net,F(xiàn)EN)和特征加權(quán)子網(wǎng)(Feature Weighting sub-Net,F(xiàn)WN)。FEN 通過(guò)姿態(tài)估計(jì)算法[27]得到14個(gè)人體關(guān)鍵點(diǎn)進(jìn)而得到人體6個(gè)身體局部區(qū)域,然后使用FWN 對(duì)不同局部區(qū)域加權(quán)融合得到全局與局部特征。文獻(xiàn)[20]將人體結(jié)構(gòu)信息融入到CNN 框架中,使用文獻(xiàn)[28]的算法來(lái)定位人體關(guān)鍵點(diǎn),得到7 個(gè)人體局部區(qū)域,最后使用特征融合方法合并不同區(qū)域的特征向量。文獻(xiàn)[21]為了獲得更加精確的人體局部特征,利用Deeper Cut方法[29]來(lái)估計(jì)定位對(duì)姿態(tài)變化、攝像機(jī)視角變化具有魯棒性的14個(gè)人體關(guān)鍵點(diǎn),然后根據(jù)這些關(guān)鍵點(diǎn)得到3個(gè)人體局部區(qū)域(如圖3所示),在訓(xùn)練階段,將這3個(gè)部分區(qū)域和全局圖像輸入網(wǎng)絡(luò)中,提取出4個(gè)特征描述符,并將它們串聯(lián)起來(lái),最后得到全局-局部對(duì)齊描述符(Global-Local-Alignment Descriptor,GLAD)??偟膩?lái)說(shuō),利用先驗(yàn)知識(shí)來(lái)定位人體局部區(qū)域雖然可以學(xué)習(xí)到具有語(yǔ)義信息的局部特征,但是會(huì)引入額外的誤差,影響提取到的局部特征的質(zhì)量,從而影響行人檢索算法的性能。

      圖3 關(guān)鍵點(diǎn)定位示意圖[21]Fig.3 Schematic diagram of located keypoints[21]

      注意力機(jī)制模型在一些具有挑戰(zhàn)性的序列數(shù)據(jù)識(shí)別和建模任務(wù)上表現(xiàn)出了優(yōu)異的性能,包括標(biāo)題生成[30]、隱式情感分析[31]和動(dòng)作識(shí)別[32]等。簡(jiǎn)而言之,它與人類處理視覺(jué)信息的方式類似,基于注意力機(jī)制的算法傾向于選擇性地集中于一部分信息,同時(shí)忽略其他感知信息,因此該方法在行人再識(shí)別中可用于自適應(yīng)地定位行人圖像的辨別性局部區(qū)域。文獻(xiàn)[22]提出了一個(gè)端到端的比較性注意力網(wǎng)絡(luò)(Comparative Attention Network,CAN),該網(wǎng)絡(luò)以長(zhǎng)短時(shí)記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)為基本架構(gòu),融入了時(shí)間信息,可以通過(guò)多次“觀察”比較行人外觀后,學(xué)習(xí)圖像中哪些局部區(qū)域與待識(shí)別的行人相關(guān),并自動(dòng)集成不同局部區(qū)域的信息,以確定一對(duì)圖像是否屬于同一個(gè)人。針對(duì)細(xì)粒度的行人分析任務(wù),文獻(xiàn)[23]提出了一種基于多方向注意力模塊的網(wǎng)絡(luò)架構(gòu)HP-Net(HydraPlus-Net),該網(wǎng)絡(luò)能夠從低層到語(yǔ)義層捕獲多個(gè)注意力特征,并加入了注意力特征的多尺度選擇,以此豐富了行人圖像的最終特征表示。深度學(xué)習(xí)模型由于有大量的參數(shù)而導(dǎo)致算法效率不高,文獻(xiàn)[24]提出了輕量級(jí)(參數(shù)少)的注意力網(wǎng)絡(luò)架構(gòu)HA-CNN(Harmonious Attention CNN),該網(wǎng)絡(luò)能同時(shí)學(xué)習(xí)任意行人圖像中的硬區(qū)域級(jí)注意力和軟像素級(jí)注意力,以得到行人不變性特征表示。文獻(xiàn)[14]提出了在卷積神經(jīng)網(wǎng)絡(luò)中將非局部運(yùn)算與二階統(tǒng)計(jì)量相結(jié)合的觀點(diǎn),設(shè)計(jì)了一種二階非局部注意(Second-Order Non-local Attention,SONA)模型,通過(guò)非局部操作對(duì)特征映射中的位置相關(guān)性進(jìn)行建模,可以將卷積操作捕獲的局部信息集成到模型中,為行人再識(shí)別任務(wù)提供了良好的判別特征。注意力機(jī)制在很多行人再識(shí)別方法中都非常有效,但是使用該方法抽取的局部特征區(qū)域缺乏語(yǔ)義信息,不便于理解和解釋。

      圖像特征分割是基于局部特征學(xué)習(xí)的行人再識(shí)別技術(shù)中常用的方法,該方法一般將經(jīng)過(guò)深度網(wǎng)絡(luò)的特征映射橫向切分為幾個(gè)不重疊的預(yù)定義的條狀或塊狀區(qū)域,分別進(jìn)行局部特征學(xué)習(xí)。文獻(xiàn)[25]提出了一種基于局部特征學(xué)習(xí)的卷積基線網(wǎng)絡(luò)(Part-based Convolutional Baseline,PCB)。如圖4 所示,PCB 以整幅圖像作為基線網(wǎng)絡(luò)ResNet-50 輸入,將所得的特征映射在卷積層上均勻劃分為p個(gè)部分,經(jīng)過(guò)Softmax 多分類損失函數(shù)訓(xùn)練得到p個(gè)分類器。該文獻(xiàn)還提出細(xì)化局部分區(qū)的池化方法(Refined Part Pooling,RPP),目的是為了重新分配每個(gè)局部區(qū)域內(nèi)的離群點(diǎn),加強(qiáng)每個(gè)局部區(qū)域內(nèi)部的一致性。圖像特征分割方法一般假設(shè)不同的圖像中行人是對(duì)齊的,但這種假設(shè)顯然不符合數(shù)據(jù)集中的實(shí)際情況,基于此問(wèn)題,文獻(xiàn)[26]提出AlignedReID 方法執(zhí)行局部區(qū)域?qū)R。首先共同學(xué)習(xí)全局特征和局部特征,然后在學(xué)習(xí)局部特征的網(wǎng)絡(luò)分支中,用動(dòng)態(tài)規(guī)劃求最小路徑來(lái)對(duì)齊局部特征。為了緩解行人圖像錯(cuò)位而引起的離群值問(wèn)題,文獻(xiàn)[16]使用空間金字塔池化網(wǎng)絡(luò)(Horizontal Pyramid Matching,HPM),在不同金字塔尺度進(jìn)行全局平均池化和全局最大池化的融合操作,將最后的特征圖劃分為多個(gè)水平條,然后獨(dú)立地對(duì)不同尺度的水平條進(jìn)行分類操作。還有一些文獻(xiàn)[17-18]也采用類似的金字塔池化方法抽取圖像的局部特征,都取得了不錯(cuò)的效果。圖像特征分割作為局部特征學(xué)習(xí)的方法之一,在行人再識(shí)別的深度學(xué)習(xí)方法中取得了很好的行人檢索效果。但是該類方法增加了訓(xùn)練模型的難度,降低了訓(xùn)練效率。同時(shí),很多方法沒(méi)有考慮到每個(gè)局部區(qū)域之間的漸進(jìn)線索[17],從而忽略了空間上下文信息,這將嚴(yán)重影響錯(cuò)位行人圖像的匹配精度。

      圖4 PCB模型示意圖[25]Fig.4 Schematic diagram of PCB model[25]

      單一的全局特征學(xué)習(xí)或局部特征學(xué)習(xí)都會(huì)丟失代表行人不變特性的部分信息,因此,作為行人再識(shí)別深度學(xué)習(xí)方法中的主流方法,基于特征學(xué)習(xí)的方法常以局部特征作為對(duì)全局特征的補(bǔ)充,兩者結(jié)合共同表示行人判別特征,這在一定程度上大大提升了行人特征的魯棒性。但是,由于行人所在的復(fù)雜環(huán)境,常使得攝像機(jī)得到的行人圖像存在遮擋問(wèn)題,而這類問(wèn)題會(huì)因?yàn)橐脒^(guò)多噪聲,嚴(yán)重影響特征學(xué)習(xí)方法的行人檢索性能。此外,實(shí)際場(chǎng)景中不準(zhǔn)確的行人檢測(cè)算法也會(huì)影響特征學(xué)習(xí)方法所提取特征的魯棒性。因此,特征學(xué)習(xí)的方法需要考慮更多復(fù)雜的實(shí)際監(jiān)控場(chǎng)景,以便提取出更能應(yīng)對(duì)多種復(fù)雜環(huán)境的、更為魯棒的行人不變特征表示。

      1.1.2 基于度量學(xué)習(xí)的方法

      基于深度學(xué)習(xí)的度量學(xué)習(xí)方法不同于早期的距離度量方法[33-34]需要設(shè)計(jì)復(fù)雜的度量算法來(lái)衡量特征之間的相似性,度量學(xué)習(xí)以損失函數(shù)的形式藏匿于網(wǎng)絡(luò)結(jié)構(gòu)中,測(cè)試階段中查詢集和候選集之間的相似度度量任務(wù)僅僅需要簡(jiǎn)單的余弦距離或歐氏距離來(lái)完成。度量學(xué)習(xí)在傳統(tǒng)的度量距離(歐氏距離、余弦距離、馬氏距離等)的基礎(chǔ)上,設(shè)計(jì)出在深度網(wǎng)絡(luò)的可導(dǎo)的度量損失函數(shù),經(jīng)過(guò)大量樣本訓(xùn)練來(lái)減小該損失進(jìn)而優(yōu)化其參數(shù),從而達(dá)到使同類樣本距離變小、異類樣本距離變大的目的。

      常見(jiàn)的度量學(xué)習(xí)損失函數(shù)有對(duì)比損失[35]、三元組損失[36-38]、四元組損失[39]、中心損失[40]等,其中,最為常用的是三元組損失。對(duì)比損失一般使用在Siamese網(wǎng)絡(luò)中,文獻(xiàn)[38]為了解決一些網(wǎng)絡(luò)難以區(qū)分正樣本和難分負(fù)樣本的問(wèn)題,提出了一種使用匹配門函數(shù)的Siamese 網(wǎng)絡(luò)來(lái)增強(qiáng)局部特征的細(xì)節(jié)信息,該網(wǎng)絡(luò)就是通過(guò)對(duì)比損失函數(shù)進(jìn)行優(yōu)化的。文獻(xiàn)[36]第一次將三元組損失函數(shù)模型使用在圖像檢索任務(wù)中,由于行人再識(shí)別是一種特殊的圖像檢索任務(wù),隨后就有一些工作將三元組損失使用在行人再識(shí)別任務(wù)中。為了提取能克服姿態(tài)變化、視角變化的行人特征表示,文獻(xiàn)[38]使用了一種多通道CNN 模型,學(xué)習(xí)行人的全局特征和局部特征,同時(shí)使用改進(jìn)的三元組損失函數(shù)來(lái)進(jìn)一步增強(qiáng)所學(xué)特征的辨別能力。由于三元組損失函數(shù)在度量學(xué)習(xí)的應(yīng)用研究中,產(chǎn)生了很多相關(guān)變體[41-43],所以文獻(xiàn)[38]就對(duì)這些變體進(jìn)行性能對(duì)比,然后提出自己改進(jìn)的三元組損失,即難分樣本采樣損失(Triplet Loss with batch Hard mining,TriHard Loss),該方法采用難分正樣本和難分負(fù)樣本以及固定樣本組成的三元組進(jìn)行三元組損失函數(shù)的計(jì)算。實(shí)驗(yàn)證明,難分樣本采樣損失的性能要優(yōu)于其他三元組損失的性能。文獻(xiàn)[39]認(rèn)為,傳統(tǒng)的三元組損失在測(cè)試集上泛化性能較差,原因是類內(nèi)間距依然很大,因此在三元組損失的基礎(chǔ)上提出了四元組損失。該方法以四張圖片作為輸入,引入一種在線邊緣難分樣本挖掘方法,自適應(yīng)地選擇難分樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練。分類模型中單一的Softmax 損失僅僅只會(huì)將不同身份的人進(jìn)行歸類,卻沒(méi)有考慮視角變化、空間錯(cuò)位所引起的類內(nèi)差異,因此,文獻(xiàn)[40]將多種損失函數(shù)結(jié)合起來(lái),使用在一個(gè)分類模型中,來(lái)學(xué)習(xí)行人的聯(lián)合深度特征。這些損失函數(shù)包括Softmax 損失、中心損失、類內(nèi)中心損失,其中,中心損失將同一行人的特征進(jìn)行集中,旨在減少類內(nèi)差距;類內(nèi)中心損失則使不同類間的距離最大化,旨在進(jìn)一步擴(kuò)大類間距離。

      度量學(xué)習(xí)的最終目的是縮小類內(nèi)距離、增大類間距離,并在訓(xùn)練階段學(xué)習(xí)行人之間的相似度度量,因此,度量學(xué)習(xí)的訓(xùn)練目標(biāo)與測(cè)試方式是一致的。度量學(xué)習(xí)側(cè)重于學(xué)習(xí)相似度度量,使用的是標(biāo)簽的弱監(jiān)督信息;特征學(xué)習(xí)則側(cè)重于學(xué)習(xí)行人不變特征,使用的是標(biāo)簽的強(qiáng)監(jiān)督信息,因此度量學(xué)習(xí)可用于大規(guī)模數(shù)據(jù)集的模型訓(xùn)練。此外,度量學(xué)習(xí)方法需要在網(wǎng)絡(luò)訓(xùn)練前隨機(jī)選擇樣本組成多元組,這一過(guò)程無(wú)疑會(huì)增加計(jì)算量,降低模型訓(xùn)練效率。近幾年一些行人再識(shí)別深度學(xué)習(xí)模型已經(jīng)將兩種方法融合在一起,聯(lián)合優(yōu)化兩種學(xué)習(xí)任務(wù),以獲取超越單一模型框架的性能。

      1.2 無(wú)監(jiān)督方法

      在實(shí)際的應(yīng)用場(chǎng)景中,待檢索的目標(biāo)域多為無(wú)標(biāo)簽的數(shù)據(jù),且標(biāo)注工作異常困難。但是現(xiàn)有的深度學(xué)習(xí)行人再識(shí)別方法需要大量數(shù)據(jù)來(lái)進(jìn)行有監(jiān)督訓(xùn)練才可以達(dá)到更好的效果。因此,為了解決目標(biāo)域數(shù)據(jù)集標(biāo)簽難以獲取的問(wèn)題,一些無(wú)監(jiān)督的行人再識(shí)別方法被提出。現(xiàn)有的無(wú)監(jiān)督行人再識(shí)別方法可以根據(jù)是否跨域劃分為兩類(如圖5所示):1)單域無(wú)監(jiān)督行人再識(shí)別方法:利用聚類[44-45]或行人軌跡片段[46-47]的方法來(lái)進(jìn)行目標(biāo)域上的無(wú)監(jiān)督模型訓(xùn)練;2)跨域無(wú)監(jiān)督行人再識(shí)別方法:利用有標(biāo)簽的源域數(shù)據(jù)來(lái)輔助訓(xùn)練用于目標(biāo)域的深度模型。這些無(wú)監(jiān)督行人再識(shí)別方法由于缺乏真實(shí)有效的監(jiān)督信息,因此在算法性能上和有監(jiān)督方法還存在一定差距。

      圖5 無(wú)監(jiān)督方法示意圖Fig.5 Schematic diagram of unsupervised methods

      1.2.1 單域無(wú)監(jiān)督方法

      單域無(wú)監(jiān)督行人再識(shí)別方法大多不借助源域的輔助信息,僅僅在目標(biāo)域上利用處理后的無(wú)標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練行人再識(shí)別模型,基于此,有些工作采用聚類的方法[44-45]進(jìn)行無(wú)標(biāo)簽數(shù)據(jù)的處理。文獻(xiàn)[44]提出了無(wú)監(jiān)督的非對(duì)稱度量學(xué)習(xí)方法CAMEL(Clustering-based Asymmetric MEtric Learning),該方法旨在通過(guò)聯(lián)合學(xué)習(xí)非對(duì)稱度量和最優(yōu)聚類,來(lái)學(xué)習(xí)每個(gè)攝像機(jī)圖像的特征,然后將不同攝像機(jī)的特征映射到一個(gè)共享空間中進(jìn)行特征對(duì)齊,從而可以獲得更好的跨圖像匹配性能。文獻(xiàn)[45]提出了一種自底向上聚類(Bottom-Up Clustering,BUC)的方法將CNN 提取的特征進(jìn)行聚類,最大化身份的多樣性,同時(shí)保持每個(gè)身份中的相似性,在此過(guò)程中,利用身份多樣性和相似性來(lái)學(xué)習(xí)判別特征。為了減少跨域方法中對(duì)源域的依賴,還有一些方法[46-48]利用行人軌跡片段來(lái)實(shí)現(xiàn)無(wú)監(jiān)督行人再識(shí)別。文獻(xiàn)[46-47]提出的TAUDL(Tracklet Association Unsupervised Deep Learning) 和 UTAL(Unsupervised Tracklet Association Learning)可以從行人圖像中自動(dòng)生成的行人軌跡片段中提取行人判別信息,即用跨攝像機(jī)的行人軌跡片段關(guān)聯(lián)學(xué)習(xí),找到最有可能是同一個(gè)人的跨攝像機(jī)視圖軌跡片段。文獻(xiàn)[48]對(duì)之前行人軌跡片段的方法[46-47]進(jìn)行擴(kuò)展,提出無(wú)監(jiān)督圖關(guān)聯(lián)(Unsupervised Graph Association,UGA)框架,其中包括單攝像機(jī)特征學(xué)習(xí)和跨攝像機(jī)特征學(xué)習(xí)。在單攝像機(jī)學(xué)習(xí)中應(yīng)用多分支分類器來(lái)對(duì)每個(gè)攝像機(jī)內(nèi)圖像各自進(jìn)行分類,在跨攝像機(jī)學(xué)習(xí)中建立一個(gè)跨攝像機(jī)圖來(lái)關(guān)聯(lián)行人軌跡片段,從而學(xué)習(xí)行人的跨視圖不變特性。

      由于單域無(wú)監(jiān)督方法的模型訓(xùn)練和測(cè)試在同一數(shù)據(jù)域中,沒(méi)有涉及到其他數(shù)據(jù)域,因此這類方法的系統(tǒng)實(shí)施過(guò)程會(huì)較為容易;但是,本就缺乏監(jiān)督信息的無(wú)監(jiān)督方法,在沒(méi)有借助其他輔助信息的情況下,將更難達(dá)到有監(jiān)督方法的性能水平。就此而言,如何縮小單域無(wú)監(jiān)督方法和有監(jiān)督方法的性能差距,將會(huì)是研究者們的一個(gè)極大挑戰(zhàn)。

      1.2.2 跨域無(wú)監(jiān)督方法

      目前大多數(shù)的無(wú)監(jiān)督行人再識(shí)別的研究重點(diǎn)放在跨域無(wú)監(jiān)督行人再識(shí)別,此類方法旨在如何以無(wú)監(jiān)督的方式將預(yù)先訓(xùn)練好的模型從源域有效地傳遞到目標(biāo)域[49]。一般情況下,直接將在源域中訓(xùn)練的模型應(yīng)用到目標(biāo)域,由于兩個(gè)域之間存在一定差異,會(huì)導(dǎo)致效果不理想,而無(wú)監(jiān)督的跨域方法會(huì)減小這種域差異,使得源域的模型也可以有效地用于無(wú)標(biāo)簽的目標(biāo)域。文獻(xiàn)[50]提出的PUL(Progressive Unsupervised Learning)方法,使用預(yù)訓(xùn)練的模型從未標(biāo)記的目標(biāo)域訓(xùn)練集中提取圖像特征,然后使用K-means 聚類算法對(duì)這些特征聚類,再?gòu)倪@些類中選擇可靠的樣本對(duì)原始模型進(jìn)行微調(diào),隨后使用這個(gè)新模型來(lái)提取特征,并開(kāi)始另一次迭代訓(xùn)練。如此迭代學(xué)習(xí)可以使得模型最終從不可靠的聚類結(jié)果中提取出可靠的特征信息。文獻(xiàn)[51]提出的ARN(Adaptation and Reidentification Network)框架利用數(shù)據(jù)集之間的信息來(lái)學(xué)習(xí)域不變特性,通過(guò)域不變特性來(lái)進(jìn)行跨域行人匹配。為了提高CNN 模型在源域上提取判別特征的能力,文獻(xiàn)[52]提出一種聚類和動(dòng)態(tài)采樣(Clustering and Dynamic Sampling,CDS)方法,利用行人屬性來(lái)加強(qiáng)源域模型的訓(xùn)練,然后對(duì)目標(biāo)域樣本進(jìn)行迭代聚類,動(dòng)態(tài)選擇目標(biāo)域中的信息樣本對(duì)源域模型進(jìn)行微調(diào)(Fine-tuning)。

      還有一些工作采用了無(wú)監(jiān)督域適應(yīng)的方法來(lái)處理跨域行人再識(shí)別任務(wù)。近年來(lái),無(wú)監(jiān)督域適應(yīng)(Unsupervised Domain Adaptation,UDA)[53-54]是機(jī)器學(xué)習(xí)領(lǐng)域所研究的一個(gè)熱點(diǎn),該類問(wèn)題的任務(wù)是在有標(biāo)簽的源域數(shù)據(jù)集上訓(xùn)練的模型應(yīng)用在另一個(gè)任務(wù)相關(guān)卻特征分布不同的目標(biāo)域數(shù)據(jù)集[53]。然而,現(xiàn)有的無(wú)監(jiān)督域自適應(yīng)方法大多基于跨域類標(biāo)簽相同的假設(shè),而不同的Re-id 數(shù)據(jù)集的人身份是完全不同的。因此,許多無(wú)監(jiān)督域適應(yīng)方法[53-54]不能直接用于行人再識(shí)別任務(wù)。一些行人再識(shí)別的域適應(yīng)方法[55-58]采用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[59]來(lái)對(duì)不同數(shù)據(jù)集之間的樣本進(jìn)行圖像遷移,即將源域圖像轉(zhuǎn)換為目標(biāo)域圖像的樣式風(fēng)格并保持人物身份不變,然后使用轉(zhuǎn)換后的圖像來(lái)訓(xùn)練模型。

      生成對(duì)抗網(wǎng)絡(luò)[59]是一種強(qiáng)大的生成式模型(如圖6 所示),其中蘊(yùn)含了博弈思想:生成器以隨機(jī)噪聲為輸入生成可以以假亂真的虛假樣本來(lái)干擾鑒別器的判斷,判別模型以真實(shí)樣本和生成樣本為輸入來(lái)判斷該樣本是真是假,這兩者在各自任務(wù)的驅(qū)使下相互博弈,不斷進(jìn)行迭代優(yōu)化,從而達(dá)到最優(yōu)的模型性能,以生成高質(zhì)量的虛假樣本。文獻(xiàn)[55]提出了數(shù)據(jù)集之間的行人遷移模型PTGAN(Person Transfer Generative Adversarial Network),使用了與CycleGAN[60]相似的網(wǎng)絡(luò)結(jié)構(gòu),可以有效減小數(shù)據(jù)集之間的域差異。文獻(xiàn)[55]為了解決領(lǐng)域自適應(yīng)問(wèn)題只考慮了域間的攝像機(jī)差異,而文獻(xiàn)[56]不僅考慮了域之間的攝像機(jī)差異性,還考慮了域內(nèi)不同攝像機(jī)間的差異性,其使用基于CycleGAN[60]所提出的CamStyle(Camera Style)方法來(lái)訓(xùn)練兩兩相機(jī)之間的轉(zhuǎn)換模型,同時(shí)采用了標(biāo)簽平滑正則化(Label Smooth Regularization,LSR),減小有噪聲的生成樣本所帶來(lái)的過(guò)擬合風(fēng)險(xiǎn)。這些使用CycleGAN[60]的跨域行人再識(shí)別方法在遷移過(guò)程中確保了相機(jī)風(fēng)格改變、行人身份不變。然而,CamStyle 方法[56]使用多達(dá)28 個(gè)CycleGAN[60]模型來(lái)訓(xùn)練多個(gè)攝像機(jī)對(duì)之間的樣式轉(zhuǎn)換,因此該方法復(fù)雜度高,訓(xùn)練模型困難?;诖?,文獻(xiàn)[57]提出了基于StarGAN[61]的多攝像機(jī)遷移GAN(multi-Camera Transfer GAN,CTGAN),該方法只需要訓(xùn)練一個(gè)GAN 模型,就可以將源數(shù)據(jù)集中的圖像轉(zhuǎn)換為目標(biāo)數(shù)據(jù)集中每個(gè)攝像機(jī)的樣式,并使用SCDA(Selective Convolutional Descriptor Aggregation)方法[62]去除背景噪聲,保留有用的深度特征。在以往基于GAN 的跨域方法中,域轉(zhuǎn)移后得到的圖像一般只具有一種或者幾種預(yù)定義的樣式,文獻(xiàn)[58]為了改進(jìn)這一缺陷,提出了一種實(shí)例引導(dǎo)上下文生成圖像的方法,通過(guò)設(shè)計(jì)一個(gè)成對(duì)的條件GAN 即CRGAN(Context Rendering GAN),實(shí)現(xiàn)了用一個(gè)源域的行人圖像來(lái)生成具有目標(biāo)域中N中背景的N張圖像,用這種方法得到的新數(shù)據(jù)集不僅有標(biāo)簽信息(來(lái)自源域的行人ID 標(biāo)簽),而且具有目標(biāo)域中豐富的樣式信息,以此可以對(duì)無(wú)標(biāo)簽的目標(biāo)域?qū)崿F(xiàn)有監(jiān)督Re-id 模型訓(xùn)練。GAN 技術(shù)在行人再識(shí)別領(lǐng)域除了可以用于跨域無(wú)監(jiān)督方法之外,還可以用于單純的數(shù)據(jù)增強(qiáng)[63]、學(xué)習(xí)行人不變特性[64]等。

      除了使用GAN 方法,文獻(xiàn)[65]提出了一種聯(lián)合屬性信息和身份信息的深度學(xué)習(xí)框架TJ-AIDL(Transferable Joint Attribute-Identity Deep Learning),可以同時(shí)學(xué)習(xí)全局的身份信息與局部的屬性信息,該模型可以被轉(zhuǎn)移到任何無(wú)標(biāo)簽的目標(biāo)域中進(jìn)行行人再識(shí)別的無(wú)監(jiān)督域適應(yīng)任務(wù)。文獻(xiàn)[66]也同樣利用屬性信息來(lái)豐富行人特征,以促進(jìn)實(shí)現(xiàn)行人再識(shí)別的無(wú)監(jiān)督域適應(yīng)任務(wù)。

      與單域無(wú)監(jiān)督方法相比,跨域無(wú)監(jiān)督方法的研究涉及廣泛,且由于GAN 技術(shù)的興起,越來(lái)越多的工作更傾向于研究跨域無(wú)監(jiān)督方法。在兩種無(wú)監(jiān)督方法中,由于跨域方法借助了源域的輔助信息,大多數(shù)跨域方法可以取得更好的無(wú)監(jiān)督算法性能,但是跨域方法過(guò)于依賴源域和目標(biāo)域之間的相似性,這降低了跨域無(wú)監(jiān)督模型的魯棒性。

      雖然有監(jiān)督的行人再識(shí)別技術(shù)在最近的研究中已經(jīng)逐漸趨向于穩(wěn)定,但是無(wú)監(jiān)督的行人再識(shí)別技術(shù)由于缺乏有效的監(jiān)督信息,其性能遠(yuǎn)不如有監(jiān)督學(xué)習(xí)的方法。為了減少對(duì)標(biāo)注數(shù)據(jù)的依賴,使搭建好的行人再識(shí)別模型高效地部署在實(shí)際應(yīng)用場(chǎng)景中,無(wú)監(jiān)督技術(shù)還有待進(jìn)一步的研究和發(fā)展。

      圖6 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.6 Schematic diagram of generative adversarial network structure

      2 視頻行人再識(shí)別

      近年來(lái),隨著數(shù)據(jù)量的增加,基于視頻的行人再識(shí)別研究越來(lái)越多?;趫D像的行人再識(shí)別方法只能從單個(gè)圖像中獲取有限的信息,并且在解決單個(gè)圖像中遮擋、姿態(tài)變化和攝像機(jī)視角等問(wèn)題上效果有限。相比之下,基于視頻的行人的再識(shí)別比單個(gè)圖像包含更多的信息。由于圖像序列通常包含豐富的時(shí)間信息,因此更適合在復(fù)雜的環(huán)境和較大的幾何變化下對(duì)行人進(jìn)行再識(shí)別,而且基于視頻序列的方法更符合實(shí)際監(jiān)控系統(tǒng)中的行人再識(shí)別任務(wù)的需求,這樣會(huì)避免一些監(jiān)控視頻的預(yù)處理過(guò)程。

      早期的基于視頻的行人再識(shí)別技術(shù)使用一些手工設(shè)計(jì)特征的方法[67-69],雖然這些方法提取的特征可解釋性強(qiáng),但卻忽略了行人視頻序列中的大量信息,使得行人檢索精度不高。最近幾年,基于深度學(xué)習(xí)的視頻行人再識(shí)別方法[70-76]被提出。文獻(xiàn)[70]提出了一種用于深度視頻的基本方法RCN(Recurrent Convolutional Network),其利用CNN 從連續(xù)的視頻幀中提取特征,然后利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)將時(shí)間序列中的上下文信息合并到每個(gè)視頻幀中,并采用最大池化或平均池化操作獲得最終的序列特征表示。文獻(xiàn)[71]提出一種時(shí)間注意力機(jī)制模型TAM(Temporal Attention Model)來(lái)提取表示視頻中特定行人的判別幀。此外,還采用RNN 模型SRM(Spatial Recurrent Model)從六個(gè)方向結(jié)合上下文信息,增強(qiáng)行人特征映射中每個(gè)行人的位置表示。文獻(xiàn)[72]提出了ASTPN(Attentive Spatial-Temporal Pooling Network)架構(gòu),其中引入了時(shí)間建模中的共享注意力矩陣,實(shí)現(xiàn)了幀選擇過(guò)程中的查詢集與候選集視頻序列之間的信息交換,在這種情況下,判別幀可以根據(jù)其注意力權(quán)重來(lái)進(jìn)行行人特征對(duì)齊。文獻(xiàn)[73]提出了同時(shí)學(xué)習(xí)視頻內(nèi)距離和視頻間距離的方法,使視頻的特征表達(dá)更加緊湊,并借此區(qū)分不同行人的視頻序列。在實(shí)際監(jiān)控視頻中,常有噪聲視頻片段的干擾,導(dǎo)致行人再識(shí)別算法性能顯著下降,針對(duì)該問(wèn)題,文獻(xiàn)[74]提出了一種新的基于視頻的自適應(yīng)加權(quán)(Self-Paced Weighting,SPW)身份識(shí)別方法,該方法首先使用一種離群點(diǎn)檢測(cè)的方法來(lái)評(píng)估視頻子序列的噪聲程度,然后采用加權(quán)距離的方法對(duì)兩個(gè)不同身份的圖像序列進(jìn)行距離測(cè)量。在最新的工作中,文獻(xiàn)[75]為了解決跨攝像機(jī)檢索任務(wù)中的視圖偏差問(wèn)題,提出了一種深度非對(duì)稱度量學(xué)習(xí)(Deep Asymmetric Metric learning,DAM)方法,該方法將所提出的非對(duì)稱距離度量學(xué)習(xí)損失函數(shù)嵌入到一個(gè)雙流卷積網(wǎng)絡(luò)中,用于聯(lián)合學(xué)習(xí)特定視圖和特定特征的轉(zhuǎn)換,以解決基于視頻的行人再識(shí)別中的視圖偏差問(wèn)題。由于該模型框架中的運(yùn)動(dòng)特征依賴于光流,而光流被廣泛應(yīng)用于運(yùn)動(dòng)建模,并且需要考慮計(jì)算的成本,因此對(duì)于在線視頻處理,該方法仍然不夠有效。為了解決基于視頻的行人再識(shí)別任務(wù)中標(biāo)注成本高等問(wèn)題,文獻(xiàn)[76]首次提出并研究了行人再識(shí)別中的弱監(jiān)督問(wèn)題,將弱監(jiān)督的行人再識(shí)別問(wèn)題轉(zhuǎn)化為一個(gè)多實(shí)例多標(biāo)簽(Multi-Instance Multi-Label,MIML)學(xué)習(xí)問(wèn)題,開(kāi)發(fā)了一種跨視圖多標(biāo)簽多實(shí)例(Cross-View Multi-Instance Multi-Label,CV-MIML)學(xué)習(xí)方法,該方法能夠利用視頻片段內(nèi)的類似實(shí)例來(lái)進(jìn)行內(nèi)部對(duì)齊,并且通過(guò)將分布原型嵌入到MIML 中來(lái)捕獲不同相機(jī)視圖之間的潛在匹配實(shí)例,最后將該方法嵌入到深度神經(jīng)網(wǎng)絡(luò)中,形成端到端的深度跨視圖多標(biāo)簽多實(shí)例學(xué)習(xí)模型。

      與基于單幀圖像的人像識(shí)別方法相比,基于視頻的行人再識(shí)別方法具有更多的時(shí)空信息、運(yùn)動(dòng)信息和更多的外觀線索,可以在某種程度上提高匹配性能,因而受到關(guān)注?,F(xiàn)有的許多基于圖像的方法也可以擴(kuò)展到基于視頻的方法中,但由于基于視頻的方法的輸入是行人圖像序列,這將大大增加計(jì)算量,影響了計(jì)算效率。因此,在此后的行人再識(shí)別研究中,在致力于提高檢索精度的同時(shí),也需要考慮計(jì)算成本,使一個(gè)更快更高效的行人再識(shí)別方法能更好地應(yīng)用在實(shí)際視頻監(jiān)控系統(tǒng)中,以維護(hù)社會(huì)安全穩(wěn)定。

      3 跨模態(tài)行人再識(shí)別

      現(xiàn)有的大多數(shù)行人再識(shí)別方法的處理數(shù)據(jù)都集中在可見(jiàn)光相機(jī)采集的同一類型數(shù)據(jù)上,并將行人再識(shí)別任務(wù)作為一個(gè)單模態(tài)數(shù)據(jù)匹配問(wèn)題。然而,在實(shí)際生活應(yīng)用中,僅用可見(jiàn)光相機(jī)采集的單模態(tài)行人數(shù)據(jù)會(huì)出現(xiàn)畫(huà)質(zhì)模糊、分辨率低、光照變化大等問(wèn)題,這將影響可見(jiàn)光相機(jī)捕捉的行人圖像的質(zhì)量,導(dǎo)致實(shí)際應(yīng)用中檢索精度不高。為了克服實(shí)際情況中復(fù)雜多變的環(huán)境對(duì)行人檢索精度的影響,引入了多模態(tài)行人數(shù)據(jù)(如圖7 所示),包括常見(jiàn)的可見(jiàn)光相機(jī)采集的RGB 圖像、低/高分辨率圖像[77-78]、紅外(Infra-Red,IR)圖像[79-80]、深度圖像[81]、文本描述[82]、素描圖像[83]。文獻(xiàn)[77]針對(duì)跨分辨率的行人圖像匹配問(wèn)題提出了SING(Super-resolution and Identity joiNt learninG)方法,通過(guò)增強(qiáng)低分辨率圖像中的有效局部信息,從而解決了跨分辨率行人匹配中的信息量差異問(wèn)題。文獻(xiàn)[78]提出對(duì)比中心損失(Contrastive Center Loss,CCL)方法,使深度模型在不受分辨率差異影響的情況下,從不同分辨率的圖像中學(xué)習(xí)行人特征。針對(duì)紅外圖像數(shù)據(jù)和可見(jiàn)光圖像數(shù)據(jù)的跨模態(tài)行人再識(shí)別,文獻(xiàn)[79]提出端到端對(duì)齊生成對(duì)抗網(wǎng)絡(luò)AlignGAN,其可以聯(lián)合利用像素對(duì)齊和特征對(duì)齊,緩解跨模態(tài)數(shù)據(jù)的變化,學(xué)習(xí)跨模態(tài)行人圖像的不變特征。文獻(xiàn)[80]提出一種雙級(jí)差異減小方法D2RL(Dual-level Discrepancy Reduction Learning),將不同模態(tài)的圖像紅外圖像和RGB 圖像轉(zhuǎn)換為統(tǒng)一模態(tài)以減小模態(tài)差異,再通過(guò)減小特征差異來(lái)處理外觀上的不同。對(duì)于行人深度圖像,文獻(xiàn)[81]利用深度圖像和RGB 圖像之間的內(nèi)在聯(lián)系,采用一個(gè)深度跨模態(tài)網(wǎng)絡(luò)將特征表示進(jìn)行跨模態(tài)轉(zhuǎn)移,以便從兩種模態(tài)的數(shù)據(jù)中提取出相似的行人特征。針對(duì)文本描述和行人圖像的匹配的問(wèn)題,文獻(xiàn)[82]提出一種基于身份感知的兩階段深度學(xué)習(xí)框架。該框架在第一階段有效地篩選出容易出現(xiàn)的錯(cuò)誤匹配,作為第二階段網(wǎng)絡(luò)訓(xùn)練的起點(diǎn),在第二階段使用聯(lián)合注意力機(jī)制的CNN-LSTM 結(jié)構(gòu)共同優(yōu)化匹配結(jié)果??紤]到在實(shí)際情況下,圖像數(shù)據(jù)并不是隨時(shí)都可以獲得,文獻(xiàn)[83]提出了素描行人再識(shí)別模型,并創(chuàng)建了素描行人再識(shí)別數(shù)據(jù)集。對(duì)于該模型,文獻(xiàn)中提出了一種深度對(duì)抗學(xué)習(xí)架構(gòu),用來(lái)共同學(xué)習(xí)行人判別特征和域不變特征。

      圖7 跨模態(tài)行人再識(shí)別Fig.7 Cross-modal person re-identification

      行人再識(shí)別技術(shù)作為當(dāng)今社會(huì)維護(hù)公共生命財(cái)產(chǎn)安全的重要科技手段之一,應(yīng)當(dāng)涉及到監(jiān)控系統(tǒng)中各種模態(tài)數(shù)據(jù),并形成一套完善的多模態(tài)行人再識(shí)別體系,以更好地保障社會(huì)的安全穩(wěn)定??缒B(tài)行人再識(shí)別涉及到兩種及兩種以上類型的行人數(shù)據(jù),這給行人匹配帶來(lái)了一定的難度,但同時(shí)也豐富了行人的模態(tài)信息,更加貼合實(shí)際監(jiān)控情況。相較于單模態(tài)行人再識(shí)別,跨模態(tài)行人再識(shí)別的研究起步較晚,技術(shù)發(fā)展不夠成熟,因此如何將多模態(tài)的行人信息整合起來(lái)進(jìn)行行人匹配,將是以后基于深度學(xué)習(xí)行人再識(shí)別技術(shù)的一個(gè)研究重點(diǎn)和難點(diǎn)。

      4 常用數(shù)據(jù)集

      深度學(xué)習(xí)技術(shù)的研究需要依賴大量數(shù)據(jù)來(lái)訓(xùn)練模型,數(shù)據(jù)樣本越多、采集環(huán)境越貼近實(shí)際情況,越有利于開(kāi)發(fā)強(qiáng)魯棒性的行人再識(shí)別模型。自從行人再識(shí)別任務(wù)被提出以來(lái),許多用于該研究領(lǐng)域的數(shù)據(jù)集也相繼被公布,這些數(shù)據(jù)集的規(guī)模、模態(tài)、檢測(cè)方法也不盡相同。根據(jù)數(shù)據(jù)類型不同,現(xiàn)有的行人再識(shí)別數(shù)據(jù)集可以分為單幀圖片數(shù)據(jù)集、視頻序列數(shù)據(jù)集、多模態(tài)數(shù)據(jù)集。對(duì)于這三類中一些常見(jiàn)的數(shù)據(jù)集,本文做了簡(jiǎn)單的對(duì)比總結(jié),具體見(jiàn)表1所示。

      表1 行人再識(shí)別數(shù)據(jù)集Tab.1 Datasets of person re-identification

      現(xiàn)在大部分行人再識(shí)別技術(shù)都是基于單幀RGB 圖像進(jìn)行實(shí)驗(yàn)研究的,因此已發(fā)布的該類數(shù)據(jù)集較多,其規(guī)模、環(huán)境復(fù)雜度也相對(duì)較大。較早發(fā)布的數(shù)據(jù)集,如:VIPeR[84]、GRID[85]、CUHK01[86]等不僅人物數(shù)量少、圖片數(shù)少,且大都用手工標(biāo)注的方法檢測(cè)行人。隨著深度學(xué)習(xí)的發(fā)展,小規(guī)模數(shù)據(jù)已經(jīng)無(wú)法滿足深度學(xué)習(xí)模型的訓(xùn)練要求,于是提出了CUHK03[10,87]、Market-1501[2]等大規(guī)模數(shù)據(jù)集,且采用了自動(dòng)檢測(cè)提取行人的方法DPM(Deformable Part Model),降低了數(shù)據(jù)采集的難度。2018年公布的MSMT17[60]數(shù)據(jù)集采用了更加先進(jìn)、準(zhǔn)確的目標(biāo)檢測(cè)方法Faster RCNN[88]對(duì)更多行人進(jìn)行圖像數(shù)據(jù)采集,其包含了更豐富的場(chǎng)景信息,更加接近實(shí)際情況,因此對(duì)行人再識(shí)別算法的魯棒性要求也更高。

      基于視頻的行人再識(shí)別數(shù)據(jù)集比較常見(jiàn)的有PRID-2011[89]、iLIDS-VID[90]、MARS[91],這些數(shù)據(jù)集包含的人數(shù)分別是200、300、1 261,所有視頻的平均序列長(zhǎng)度分別為100幀、73幀、58幀。其中,MARS是包含人數(shù)、視頻序列數(shù)、相機(jī)數(shù)最多的數(shù)據(jù)集,且采用了較為先進(jìn)的自動(dòng)檢測(cè)方法DPM+GMMCP(Generalized Maximum Multi Clique Problem),但是該數(shù)據(jù)集平均序列長(zhǎng)度短、相機(jī)場(chǎng)景單一,不夠接近真實(shí)的復(fù)雜場(chǎng)景。2018 年發(fā)布了現(xiàn)有規(guī)模最大的視頻數(shù)據(jù)集LVreID[92],其包含了3個(gè)室內(nèi)相機(jī)和12個(gè)室外相機(jī),共有3 772人的14 943個(gè)視頻序列,且平均序列長(zhǎng)度為200 幀,這意味著可以在長(zhǎng)序列視頻片段中捕捉到更豐富的行人信息。LVreID 使用更快、更精確的檢測(cè)算法Faster RCNN[88]進(jìn)行包圍框檢測(cè),生成了更高質(zhì)量的行人視頻序列數(shù)據(jù)。

      由于對(duì)多模態(tài)的研究工作較少,因此不同類型的跨模態(tài)數(shù)據(jù)集也相應(yīng)較少。CAVIAR[93]是2011 年提出的唯一一個(gè)用于跨分辨率行人再識(shí)別研究的真實(shí)數(shù)據(jù)集,其中所涵蓋的圖像分辨率在17×39~72×144不等。后來(lái)對(duì)跨分辨率行人再識(shí)別的研究[77-78]所使用的數(shù)據(jù)集都是從VIPeR[84]、CUHK03[87]、Market-1501[2]等現(xiàn)有的數(shù)據(jù)集中創(chuàng)建的虛擬數(shù)據(jù)集,其規(guī)模大小都與這些現(xiàn)有的數(shù)據(jù)集相同。SYSU-MM01[94]是2017年發(fā)布的可見(jiàn)光-紅外跨模態(tài)行人數(shù)據(jù)集,其包含6個(gè)攝像頭拍攝的圖像,包括2個(gè)在戶外黑暗環(huán)境下工作紅外攝像機(jī)和4個(gè)白天工作的可見(jiàn)光攝像機(jī),可見(jiàn)光攝像機(jī)又包含2個(gè)戶內(nèi)場(chǎng)景和2個(gè)戶外場(chǎng)景。另一個(gè)同年發(fā)布的紅外數(shù)據(jù)集RegDB[95]含412人,其中每個(gè)人有10張來(lái)自可見(jiàn)光攝像機(jī)的圖像和10張來(lái)自紅外攝像機(jī)的圖像。深度圖像是表示場(chǎng)景中每個(gè)點(diǎn)與攝像機(jī)之間的距離的圖像,可以包含行人的外觀、骨架結(jié)構(gòu)等信息。BIWI RGBDID[96]是由RGB-D攝像機(jī)采集的可用于行人再識(shí)別研究的深度圖像數(shù)據(jù)集,其包含50個(gè)訓(xùn)練集序列和56個(gè)測(cè)試集序列,共有50個(gè)行人。該數(shù)據(jù)集包括RGB圖像、行人分割圖、深度圖像和骨架結(jié)構(gòu)信息。RobotPKURGBD-ID[97]是使用Microsoft Kinect SDK 與Kinect 傳感器一起收集的深度圖像行人數(shù)據(jù)集,包含180個(gè)90人的視頻序列。該數(shù)據(jù)集同樣由RGB圖像、行人分割圖、深度圖像和骨架結(jié)構(gòu)信息組成。SketchRe-ID[83]是2018 年發(fā)布的一個(gè)行人素描數(shù)據(jù)集,其包括200個(gè)行人,每個(gè)行人有一張來(lái)自素描畫(huà)家的素描圖像和兩張來(lái)自不同可見(jiàn)光攝像機(jī)的RGB圖像。目前進(jìn)行素描行人再識(shí)別的研究較少,因此這是現(xiàn)有的唯一一個(gè)用于素描行人再識(shí)別研究的數(shù)據(jù)集。行人再識(shí)別數(shù)據(jù)集隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其規(guī)模越來(lái)越大,所包含的攝像機(jī)數(shù)也越來(lái)越多,也更能代表實(shí)際監(jiān)控系統(tǒng)的復(fù)雜場(chǎng)景,但數(shù)據(jù)集的發(fā)展不能僅僅止步于此。首先,深度學(xué)習(xí)技術(shù)日益更新,模型也日益復(fù)雜,所需要的訓(xùn)練數(shù)據(jù)量也更加龐大,因此,創(chuàng)建規(guī)模更大的數(shù)據(jù)集來(lái)輔助模型的研究和訓(xùn)練是深度學(xué)習(xí)技術(shù)的發(fā)展要求,也是必要條件;其次,實(shí)際監(jiān)控系統(tǒng)的環(huán)境千變?nèi)f化,數(shù)據(jù)模態(tài)也多種多樣,應(yīng)用場(chǎng)景也不盡相同,但現(xiàn)有的數(shù)據(jù)集并不能很好地代表生活中的復(fù)雜環(huán)境。因此,需要對(duì)輔助行人再識(shí)別技術(shù)發(fā)展的數(shù)據(jù)集有所創(chuàng)新,使之盡可能地包括更多攝像機(jī)場(chǎng)景,以便于后續(xù)能開(kāi)發(fā)出一套適用于各種實(shí)際復(fù)雜場(chǎng)景的完備智能監(jiān)控系統(tǒng)。

      5 算法性能比較

      由于跨模態(tài)方法所涉及的數(shù)據(jù)集種類較多,而且跨模態(tài)方法相對(duì)較少,因此本文僅對(duì)基于RGB 圖像的行人再識(shí)別方法進(jìn)行了性能比較,其中包括用于單幀圖像數(shù)據(jù)的方法比較和用于視頻數(shù)據(jù)的方法比較。

      5.1 用于單幀圖像的方法

      表2 所示為近幾年的一些基于圖像的行人再識(shí)別方法比較,所涉及的測(cè)試數(shù)據(jù)集是Market-1501[2]和DukeMTMCreID[3],所使用的準(zhǔn)確度評(píng)估方法是Rank-1 和mAP(mean Average Precision)。Rank-1 表示所有查詢圖片所匹配的第一張圖像的平均準(zhǔn)確率,mAP 表示所有查詢圖片的每個(gè)查詢圖片與候選集匹配的平均精度求和再取平均的值。表中前20項(xiàng)數(shù)據(jù)是有監(jiān)督的方法性能比較,其中除了前文介紹方法外,還增加了其他文獻(xiàn)中的一些方法來(lái)進(jìn)行性能比較,包括:IDE(ID-disciminative Embedding)[1]、BoW(Bag-of-Words)+KISSME(Keep It Simple and Straightforward MEtric)[2]、Pyramid-Net[17]、PPS (Part Power Set)[18]、AANet (Attribute Attention Network)[98]、Auto-ReID[99]、OSNet(Omni-Scale Network)[100]、DG-Net(Discriminative and Generative Network)[101]、MHN(Mixed High-order attention Network)[102]、Multi-Scale[103]、UMFL(Unified Multifaceted Feature Learning) -enabled ABD(Attentive But Diverse)[104]、SCR(Spatial and Channel partition Representation network)[105]。后15 項(xiàng)數(shù)據(jù)是無(wú)監(jiān)督的方法性能比較,其中除了前文介紹方法外,也增加了其他文獻(xiàn)中的一些方法,包括:BoW(Bag-of-Words)[2]、HHL(Hetero-Homogeneous Learning)[106]、ECN(E:Exemplar-invariance.C:Camera-invariance.N:Neighborhood-invariance)[107]。

      表2 圖像行人再識(shí)別方法性能比較 單位:%Tab.2 Performance comparison of image-based person re-identification methods unit:%

      在有監(jiān)督的方法中,2016年以來(lái)日漸崛起的深度學(xué)習(xí)方法使行人再識(shí)別方法發(fā)展到了一個(gè)新的高度,直至2019 年,在Market-1501數(shù)據(jù)集上的Rank-1最高已達(dá)到95.7%,2020年最新的方法[105]在DukeMTMC-reID 數(shù)據(jù)集上的Rank-1 也已達(dá)到90%以上,其中最優(yōu)秀的幾個(gè)方法大都采用局部特征學(xué)習(xí)的方法來(lái)學(xué)習(xí)跨攝像機(jī)行人的不變特性。然而在局部特征學(xué)習(xí)的方法中,注意力機(jī)制和圖像特征分割的方法是近兩年來(lái)使用較多效果較好的方法,在這些方法的模型中,也會(huì)結(jié)合使用驗(yàn)證損失或分類損失,使模型的復(fù)雜度上升,使算法的性能更優(yōu)。行人局部特征作為全局特征的輔助信息,可以在很大程度上提高行人檢索精度,因此,在以后的行人再識(shí)別研究中,如何獲取更魯棒、更具判別能力的行人局部特征將是一個(gè)重要的研究思路。

      在無(wú)監(jiān)督的方法中,GAN 在近兩年受到極大歡迎,使用該方法可以從目標(biāo)域到源域進(jìn)行圖像風(fēng)格遷移,生成具有目標(biāo)域相機(jī)風(fēng)格的行人圖片,從而減小不同數(shù)據(jù)域之間的差距。GAN 技術(shù)的發(fā)展使得無(wú)監(jiān)督行人再識(shí)別技術(shù)有了極大的突破。除此之外,行人軌跡片段(tracklet)的方法也推動(dòng)了無(wú)監(jiān)督行人再識(shí)別技術(shù)的發(fā)展,表2 中所示的最好的方法UGA[48]所使用的就是該類方法,在Market-1501和DukeMTMC-reID的Rank-1 已分別達(dá)到87.2%和75.0%,已經(jīng)可以媲美一些有監(jiān)督深度學(xué)習(xí)方法。相較于有監(jiān)督的行再識(shí)別技術(shù),無(wú)監(jiān)督方法的研究難度大,但實(shí)用性更強(qiáng),因此無(wú)監(jiān)督行人再識(shí)別技術(shù)還有很大的發(fā)展空間。

      5.2 用于視頻的方法

      表3 所示的是近幾年基于視頻序列的方法性能比較,所涉及的視頻數(shù)據(jù)集是PRID-2011[89]和iLIDS-VID[90],所使用的準(zhǔn)確度評(píng)估方法是Rank-1 和Rank-5。Rank-1 表示所有查詢序列所匹配的第一段序列的平均準(zhǔn)確率,Rank-5 表示所有查詢序列所匹配的前五段序列的平均準(zhǔn)確率。表中共有13 項(xiàng)數(shù)據(jù),除了前文所提到的一些方法外,也增加了其他文獻(xiàn)中的一些方法,包括:TDL(Top-push Distance Learning)[108]、GAN+Keypoint[109]、QAN(Quality Aware Network)[110]、STMP(Spatial and Temporal Mutual Promotion)[111]、CSA(Competitive Snippetsimilarity Aggregation)[112]、M3D (Multi-scale 3D deep convolutional neural network)[113]、GLTR(Global-Local Temporal Representations)[114]。

      表3 視頻行人再識(shí)別方法性能比較 單位:%Tab.3 Performance comparison of video-based person re-identification methods unit:%

      由表3 可以看出,深度學(xué)習(xí)的方法遠(yuǎn)遠(yuǎn)領(lǐng)先于傳統(tǒng)手工特征的方法。神經(jīng)網(wǎng)絡(luò)模型可以同時(shí)從視頻序列中提取空間信息和時(shí)間信息,并以各種各樣的損失函數(shù)作為度量手段,實(shí)現(xiàn)了高效的跨攝像機(jī)追蹤方法。2019 年出現(xiàn)的M3D[113]和GLTR[114]方法在PRID-2011 和iLIDS-VID 的Rank-5 均達(dá)到了100.0%,這些突破令人驚嘆,但同時(shí)也提高了技術(shù)研究難度,后續(xù)的研究將需要在規(guī)模更大、場(chǎng)景更復(fù)雜、更符合實(shí)際情況的數(shù)據(jù)集中尋找突破,但是更大規(guī)模的視頻數(shù)據(jù)也意味著需要更多的計(jì)算量,這將對(duì)硬件設(shè)備有了更高的要求。此外,如何把視頻行人再識(shí)別部署到一個(gè)完整的跨攝像機(jī)追蹤系統(tǒng),也將是未來(lái)行人再識(shí)別研究的一個(gè)重要部分。

      6 總結(jié)與展望

      行人再識(shí)別任務(wù)自提出以來(lái)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn),其對(duì)于維護(hù)社會(huì)安全穩(wěn)定具有重大意義。該技術(shù)發(fā)展至今,雖然已在現(xiàn)有的數(shù)據(jù)集上達(dá)到了很好的性能,但是行人再識(shí)別技術(shù)在很多方面還存在一些問(wèn)題,對(duì)于未來(lái)在該領(lǐng)域的研究,本文展開(kāi)以下幾個(gè)方面的討論:

      1)姿態(tài)變化、視角變化。由于行人再識(shí)別任務(wù)的特殊性,不同攝像機(jī)下的行人姿態(tài)變換和相機(jī)視角變化一直以來(lái)都是該任務(wù)的研究重點(diǎn)。最近的方法大都采用局部特征學(xué)習(xí)的方法來(lái)解決這一問(wèn)題,利用局部特征和全局特征的互補(bǔ)性,學(xué)習(xí)更魯棒的行人不變特征表示。未來(lái)研究將需要解決更多相機(jī)視角、更為復(fù)雜場(chǎng)景下的姿態(tài)變化、視角變化,因此如何克服這些變換學(xué)習(xí)到強(qiáng)大的行人不變性特征將有待進(jìn)一步研究。

      2)行人遮擋。遮擋類問(wèn)題不僅是行人再識(shí)別研究中一大難點(diǎn),也是其他計(jì)算機(jī)視覺(jué)任務(wù)(如:人臉識(shí)別、行人檢測(cè)等)中的難點(diǎn)。被遮擋的行人由于丟失大量信息而導(dǎo)致提取特征不完整從而影響再識(shí)別效果。但是目前對(duì)于遮擋行人再識(shí)別的研究較少,如果此遮擋問(wèn)題在行人再識(shí)別中有了更進(jìn)一步的研究,那對(duì)整體行人再識(shí)別技術(shù)的發(fā)展都會(huì)有一個(gè)更大的推動(dòng)。

      3)不準(zhǔn)確的行人檢測(cè)框。在進(jìn)行行人再識(shí)別之前,需要將行人從監(jiān)控視頻中檢測(cè)出來(lái),這將依賴于行人檢測(cè)算法的準(zhǔn)確度。但是在復(fù)雜的真實(shí)場(chǎng)景中,總會(huì)出現(xiàn)一些行人檢測(cè)偏差,這會(huì)嚴(yán)重影響后續(xù)的行人檢索精度。對(duì)于此類問(wèn)題,文獻(xiàn)[26]提出了局部特征對(duì)齊的方法,使相對(duì)應(yīng)的局部特征進(jìn)行對(duì)齊,提高匹配準(zhǔn)確率,這種方法也可以解決行人遮擋類問(wèn)題;但是,若將檢測(cè)任務(wù)和再識(shí)別任務(wù)集成到一個(gè)統(tǒng)一的框架中,是否也是此類問(wèn)題的一個(gè)解決思路,這將有待研究。

      4)規(guī)模更大的數(shù)據(jù)集。深度學(xué)習(xí)依賴于大量數(shù)據(jù)進(jìn)行模型訓(xùn)練,且一個(gè)規(guī)模大、周期長(zhǎng)、場(chǎng)景多、環(huán)境復(fù)雜的數(shù)據(jù)集更符合實(shí)際情況?,F(xiàn)有的行人再識(shí)別數(shù)據(jù)集還存在一定的局限性,為了將所研究的行人再識(shí)別技術(shù)更好地應(yīng)用于實(shí)際監(jiān)控系統(tǒng)中,需要?jiǎng)?chuàng)建規(guī)模更大的數(shù)據(jù)集來(lái)輔助行人再識(shí)別技術(shù)研究。雖然GAN 技術(shù)可以對(duì)目前的數(shù)據(jù)集進(jìn)行一定程度上的擴(kuò)充,但是由于GAN 生成的圖像質(zhì)量不高,無(wú)法真正代替真實(shí)的圖片數(shù)據(jù),因此創(chuàng)建規(guī)模更大的真實(shí)數(shù)據(jù)集也是一個(gè)待解決的任務(wù)。

      5)無(wú)監(jiān)督方法。數(shù)據(jù)標(biāo)注問(wèn)題是實(shí)際研究中難以避免的問(wèn)題,一般的有監(jiān)督方法需要依賴標(biāo)注好的信息來(lái)監(jiān)督深度模型的訓(xùn)練,但數(shù)據(jù)標(biāo)注工作將花費(fèi)大量財(cái)力物力,因此標(biāo)注工作異常困難。針對(duì)此類問(wèn)題,一些無(wú)監(jiān)督方法被提出,此類方法不需要目標(biāo)域有標(biāo)注信息,而是借助聚類、軌跡片段、無(wú)監(jiān)督域適應(yīng)等方法實(shí)現(xiàn)無(wú)標(biāo)注目標(biāo)域上的行人再識(shí)別技術(shù)。由于缺乏監(jiān)督信息,因此無(wú)監(jiān)督方法與有監(jiān)督方法還存在一定差距,其在現(xiàn)有數(shù)據(jù)集上的準(zhǔn)確率也有待提高。

      6)跨模態(tài)行人再識(shí)別。單一的RGB 模態(tài)的圖像數(shù)據(jù)很容易受到光照等因素的影響,且不同相機(jī)采集的圖像分辨率也不同,因此單一模態(tài)的行人圖像數(shù)據(jù)將限制行人再識(shí)別精度的進(jìn)一步提高??缒B(tài)行人再識(shí)別技術(shù)由于引入多模態(tài)數(shù)據(jù),更加符合實(shí)際生活中智能監(jiān)控系統(tǒng)的設(shè)備多樣性。但是該類技術(shù)的研究還不完善,算法性能有待提高。因此,利用深度學(xué)習(xí)技術(shù)來(lái)捕捉不同模態(tài)數(shù)據(jù)之間行人不變特征將是一個(gè)更具挑戰(zhàn)性的問(wèn)題。

      7)跨攝像機(jī)追蹤系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)。行人再識(shí)別獨(dú)立于單攝像機(jī)下的行人檢測(cè)、行人追蹤等技術(shù),是智能監(jiān)控系統(tǒng)研究的一個(gè)分支。將這三項(xiàng)技術(shù)結(jié)合起來(lái),才能實(shí)現(xiàn)一個(gè)完整的跨攝像機(jī)追蹤系統(tǒng)。未來(lái)的研究需要將這三者有效結(jié)合,實(shí)現(xiàn)一個(gè)完備且高效的視頻監(jiān)控系統(tǒng)。

      猜你喜歡
      攝像機(jī)行人模態(tài)
      毒舌出沒(méi),行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      路不為尋找者而設(shè)
      看監(jiān)控?cái)z像機(jī)的4K之道
      我是行人
      攝像機(jī)低照成像的前世今生
      新安訊士Q6155-E PTZ攝像機(jī)
      國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
      如何消除和緩解“攝像機(jī)恐懼癥”
      新聞前哨(2015年2期)2015-03-11 19:29:25
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
      由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
      辽阳市| 昌平区| 罗城| 红河县| 云龙县| 虹口区| 仁化县| 罗山县| 响水县| 府谷县| 巴彦淖尔市| 萨迦县| 宁夏| 资阳市| 新巴尔虎右旗| 神农架林区| 嘉义市| 长岭县| 三明市| 罗田县| 开江县| 禄丰县| 定兴县| 绍兴县| 弋阳县| 会昌县| 莱芜市| 三台县| 青神县| 延吉市| 奉化市| 芮城县| 塘沽区| 盐池县| 凌海市| 宜兰市| 攀枝花市| 谷城县| 阜宁县| 丰县| 定边县|