王素玉,肖 塞
(北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)
行人重識(shí)別也稱行人再識(shí)別,是圖像檢索任務(wù)中的一個(gè)子問題[1].它的主要目標(biāo)是確定一個(gè)特定的人是否出現(xiàn)在由不同攝像機(jī)拍攝到的視頻中.查詢線索可以是圖像、視頻序列,甚至是文本描述[2].旨在彌補(bǔ)固定的攝像頭的視覺局限,并可與行人檢測(cè)/行人跟蹤技術(shù)相結(jié)合,廣泛應(yīng)用于智能視頻監(jiān)控、智能安保等領(lǐng)域.隨著智慧城市的建設(shè),安防需求與日俱增,智能化監(jiān)控系統(tǒng)迎來重大發(fā)展機(jī)遇.作為其中不可或缺的一環(huán),行人重識(shí)別成為學(xué)術(shù)界、工業(yè)界的熱點(diǎn)研究方向.
簡(jiǎn)單來說,行人重識(shí)別任務(wù)可分解為特征提取和特征匹配2個(gè)過程.由于攝像頭存在拍攝點(diǎn)位不同[3]、分辨率不同[4]、光照變化[5]、姿態(tài)變化[6]、遮擋[7]和異構(gòu)[8]等問題,使得行人重識(shí)別面臨挑戰(zhàn).
因此,如何更好地提取更具判別性的特征表示和設(shè)計(jì)更優(yōu)秀的度量學(xué)習(xí)損失函數(shù)成為行人重識(shí)別任務(wù)的關(guān)鍵.早期行人重識(shí)別的研究工作主要集中在基于手工特征[9-10]和距離度量[11]的方法.由于行人重識(shí)別面臨跨設(shè)備拍攝圖像存在較大差異的問題,傳統(tǒng)方法難以取得較好效果.文獻(xiàn)[1]對(duì)深度學(xué)習(xí)時(shí)代之前的行人重識(shí)別算法進(jìn)行了全面的綜述.
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的行人重識(shí)別算法取得一系列優(yōu)秀的成果.根據(jù)使用的數(shù)據(jù)和訓(xùn)練策略的不同,行人重識(shí)別算法可分為基于監(jiān)督學(xué)習(xí)和基于弱監(jiān)督學(xué)習(xí)2類方法.目前,大部分的工作集中在監(jiān)督學(xué)習(xí)方面.早期的工作將行人重識(shí)別看作一個(gè)多分類問題,只利用了全局特征.后來,又有學(xué)者提出使用全局特征和局部特征相結(jié)合的方法解決遮擋問題,提取更加具有判別性的特征表示.隨著生成對(duì)抗網(wǎng)絡(luò)和注意力機(jī)制的提出,行人圖像的特征提取方法也得到很大改進(jìn),提高了模型的魯棒性和泛化能力.與此同時(shí),對(duì)于特征度量學(xué)習(xí)算法的改進(jìn)也在進(jìn)行,通過設(shè)計(jì)更好的度量損失函數(shù)使行人重識(shí)別算法更準(zhǔn)確地識(shí)別相同的人并區(qū)分不同的人.
最新的基于監(jiān)督學(xué)習(xí)的方法在一些常用的基準(zhǔn)上已經(jīng)超過了人類水平,但是研究場(chǎng)景和實(shí)際應(yīng)用之間仍存在很大的差距.為了更貼合真實(shí)場(chǎng)景,也有一些學(xué)者使用基于弱監(jiān)督學(xué)習(xí)的方法并取得了較好效果.
基于弱監(jiān)督學(xué)習(xí)方法的行人重識(shí)別算法主要分為半監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法.在真實(shí)場(chǎng)景中,行人重識(shí)別任務(wù)的數(shù)據(jù)標(biāo)注成本十分昂貴.同時(shí),基于監(jiān)督學(xué)習(xí)的方法泛化能力較差.因此,使用少量標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)行人重識(shí)別和無監(jiān)督學(xué)習(xí)行人重識(shí)別具有重大的研究意義和價(jià)值.對(duì)于無監(jiān)督學(xué)習(xí)的方法,主流的策略是采用標(biāo)簽估計(jì).對(duì)于半監(jiān)督學(xué)習(xí)方法,根據(jù)數(shù)據(jù)構(gòu)成的差異可分為少量的樣本有標(biāo)簽和每個(gè)樣本有少量標(biāo)簽2類.
以下,將根據(jù)行人重識(shí)別算法的特點(diǎn),分別進(jìn)行總結(jié)和分析.
在深度學(xué)習(xí)框架下, 基于監(jiān)督學(xué)習(xí)的行人重識(shí)別算法通常包含特征提取、特征度量和排序優(yōu)化3個(gè)組件.相關(guān)的研究主要集中在各個(gè)環(huán)節(jié)的優(yōu)化設(shè)計(jì)方面.特征表示學(xué)習(xí)的研究集中于更加有效的特征提取網(wǎng)絡(luò);深度度量學(xué)習(xí)的研究集中于度量損失函數(shù)的設(shè)計(jì);排名優(yōu)化的研究通過對(duì)結(jié)果序列的優(yōu)化提高準(zhǔn)確率.
對(duì)于行人重識(shí)別任務(wù),特征表示學(xué)習(xí)的主要任務(wù)是如何從行人圖像中提取更具判別性的特征表示.根據(jù)特征提取策略的不同,可將行人重識(shí)別算法模型分為分類模型和驗(yàn)證模型.
分類模型一般是將實(shí)例損失[12]作為損失函數(shù).驗(yàn)證模型每次輸入2張圖像,使用孿生網(wǎng)絡(luò)提取特征表示[13]并進(jìn)行特征融合,然后計(jì)算二分類損失,但是這種方法的計(jì)算開銷較大,也可以將2種模型結(jié)合使用以增強(qiáng)圖像特征表示的魯棒性[14].
根據(jù)提取特征的不同,現(xiàn)有方法主要分為全局特征表示學(xué)習(xí)、局部特征表示學(xué)習(xí)和序列特征表示學(xué)習(xí).近年來,基于輔助特征表示學(xué)習(xí)和使用注意力機(jī)制的方法得到廣泛關(guān)注,其中一些方法取得較好效果.
1.1.1 全局特征表示學(xué)習(xí)
全局特征表示學(xué)習(xí)為每個(gè)行人圖像提取一個(gè)全局的特征表示,如圖1所示.由于早期的研究都是將行人重識(shí)別看作圖像分類問題,因此,早期的方法大多都使用全局特征表示學(xué)習(xí)方法.
圖1 表示學(xué)習(xí)的3種特征Fig.1 Three types of feature representation learning
文獻(xiàn)[12]提出了一個(gè)判別性身份嵌入方法,將行人重識(shí)別視為一個(gè)多分類問題,每個(gè)行人作為一個(gè)單獨(dú)的類別.文獻(xiàn)[13]提出了一種同時(shí)學(xué)習(xí)全局特征和相似性度量的方法,計(jì)算一對(duì)圖像的相似度.為了在全局特征學(xué)習(xí)中提取細(xì)粒度特征進(jìn)行學(xué)習(xí),文獻(xiàn)[15]使用小型卷積核進(jìn)行特征提取,提取行人圖像中細(xì)粒度的特征.文獻(xiàn)[16]提出了一種多尺度深度特征表示學(xué)習(xí)模型.該模型能夠?qū)W習(xí)不同尺度下的全局特征表示,并自適應(yīng)地進(jìn)行匹配.文獻(xiàn)[17]設(shè)計(jì)了一個(gè)輕量級(jí)網(wǎng)絡(luò)進(jìn)行全尺度特征學(xué)習(xí),使用深度可分離卷積減少網(wǎng)絡(luò)的參數(shù)量[18-20],加速網(wǎng)絡(luò)訓(xùn)練.
1.1.2 局部特征表示學(xué)習(xí)
在真實(shí)場(chǎng)景中,攝像頭拍攝的行人圖像存在遮擋、角度變化、背景變化等問題,見圖2.因此,這些噪聲區(qū)域會(huì)對(duì)全局特征造成極大的干擾.同時(shí),由于行人姿態(tài)變化,在多個(gè)攝像頭下檢測(cè)到的圖像幀姿態(tài)不一致的問題也會(huì)使全局特征無法匹配.目前,主流的趨勢(shì)都是將全局特征與局部特征相結(jié)合使用以期實(shí)現(xiàn)更好的效果.
圖2 不同攝像頭拍攝的數(shù)據(jù)存在較大差異Fig.2 Differences in data taken by different cameras
通過人體姿態(tài)估計(jì)或粗略水平分割方法劃分行人身體部位,然后從行人圖像中該區(qū)域或人體部件提取局部特征,再與行人全局特征相融合,對(duì)遮擋、姿態(tài)變化具有魯棒性[21].
對(duì)于局部特征表示學(xué)習(xí)方法的研究,圖像劃分方式主要分為2類:水平分割[21-22]和姿態(tài)估計(jì)[23].
文獻(xiàn)[21]提出了基于部件的卷積基線(part-based convolutional baseline,PCB)模型.該模型采用統(tǒng)一的分割策略,將所有行人圖像固定平均分割為6個(gè)部分并提取局部特征.同時(shí),為了解決不同圖像同一圖像塊不能良好對(duì)齊的問題,設(shè)計(jì)了精細(xì)局部池化(refined part pooling,RPP)模塊進(jìn)行對(duì)齊,增強(qiáng)了塊內(nèi)的一致性,進(jìn)一步提高了性能.
文獻(xiàn)[23]提出了一個(gè)姿態(tài)驅(qū)動(dòng)的深度卷積(pose-driven deep convolution,PDC)模型,通過采用人體姿態(tài)估計(jì)的方法進(jìn)行圖像分割以解決行人姿態(tài)變化的問題.首先,對(duì)行人圖像的14個(gè)關(guān)鍵點(diǎn)進(jìn)行檢測(cè)并定位,再基于關(guān)鍵點(diǎn)信息進(jìn)行局部特征提??;然后,用仿射變換使得相同的關(guān)鍵點(diǎn)對(duì)齊.
人體姿態(tài)估計(jì)方法提供了良好的局部特征,但是行人重識(shí)別任務(wù)的數(shù)據(jù)集和人體姿態(tài)估計(jì)任務(wù)的數(shù)據(jù)集存在較大差異.因此,使用人體姿態(tài)估計(jì)數(shù)據(jù)集訓(xùn)練的姿態(tài)檢測(cè)器進(jìn)行關(guān)鍵點(diǎn)檢測(cè)時(shí),很容易出現(xiàn)錯(cuò)檢,產(chǎn)生噪聲數(shù)據(jù),對(duì)識(shí)別結(jié)果存在很大影響.雖然水平分割方法實(shí)現(xiàn)靈活,但是當(dāng)遮擋區(qū)域較大或背景噪聲較大時(shí),效果并不理想.
1.1.3 序列特征表示學(xué)習(xí)
基于視頻的行人重識(shí)別也是行人重識(shí)別領(lǐng)域的熱點(diǎn)研究方向.通常,在視頻行人重識(shí)別數(shù)據(jù)集中, 每個(gè)行人通過多個(gè)視頻序列表示,每個(gè)視頻序列由多幀圖像構(gòu)成.基于視頻序列的方法與基于圖像的方法最主要的不同點(diǎn)就是這類方法不僅考慮了圖像的內(nèi)容信息,還考慮了幀與幀圖像之間的運(yùn)動(dòng)信息和時(shí)序信息,例如步態(tài)特征[24]等,并且基于視頻的行人重識(shí)別任務(wù)更接近真實(shí)場(chǎng)景的應(yīng)用.
文獻(xiàn)[25]提出了在無約束的跟蹤序列中時(shí)序信息是不可靠的.如圖3所示,為了自動(dòng)地、準(zhǔn)確地提取時(shí)序特征,針對(duì)基于視頻的行人重識(shí)別設(shè)計(jì)了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的模型[26].
文獻(xiàn)[27]提出了一種對(duì)空間信息和時(shí)序信息加權(quán)的孿生CNN結(jié)構(gòu).文獻(xiàn)[28]設(shè)計(jì)了一種循環(huán)特征聚合網(wǎng)絡(luò),聚合視頻幀級(jí)行人特征表示,并通過長短期記憶(long short-term memory,LSTM)人工神經(jīng)網(wǎng)絡(luò),融合時(shí)序信息生成特征表示[29].該網(wǎng)絡(luò)將多個(gè)視頻幀的行人特征和時(shí)空信息結(jié)合在一起,增強(qiáng)了視頻的特征表示學(xué)習(xí).最終的特征融合了單幀圖像的內(nèi)容特征和幀與幀之間的運(yùn)動(dòng)特征,而這個(gè)特征用于代替前面單幀方法的圖像特征來訓(xùn)練網(wǎng)絡(luò).
圖3 基于RNN的針對(duì)視頻數(shù)據(jù)的行人重識(shí)別系統(tǒng)[26]Fig.3 Person ReID system for video data based on RNN[26]
文獻(xiàn)[30]中提出了一個(gè)基于區(qū)域的適應(yīng)性質(zhì)量估計(jì)網(wǎng)絡(luò) (adaptive region-based quality estimation network,RQEN).文中指出當(dāng)單幀圖像遇到遮擋等情況的時(shí)候,可以用多幀的圖像信息彌補(bǔ),直接誘導(dǎo)網(wǎng)絡(luò)對(duì)圖像幀進(jìn)行質(zhì)量判斷,降低質(zhì)量差的圖像幀的權(quán)重.如圖4所示,可以看出通過降低被遮擋圖像的權(quán)重,得到的特征圖擁有更完整的行人信息.
圖4 不同融合方法的熱圖[30]Fig.4 Heat maps of different fusion methods[30]
文獻(xiàn)[31]提出了使用時(shí)空注意力(spatial-temporal attention, STA)方法,將每幀圖像水平分割為4個(gè)局部區(qū)域,得到每幀圖像的每個(gè)局部區(qū)域的二維得分矩陣.首先,通過最大得分得到更具判別性的特征圖;然后,通過使用得分矩陣進(jìn)行加權(quán)融合得到全局特征圖;最后,通過使用全局平均池化將2個(gè)特征圖融合,得到擁有更魯棒的視頻級(jí)特征的特征圖.
文獻(xiàn)[32]提出了一個(gè)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(spatial-temporal graph convolutional network,STGCN).將行人的結(jié)構(gòu)信息,也就是圖像塊信息,作為圖節(jié)點(diǎn)信息.該網(wǎng)絡(luò)包含2個(gè)圖卷積分支:空間分支用來提取人體的結(jié)構(gòu)信息;時(shí)間分支是從相鄰幀中挖掘判別線索.通過聯(lián)合優(yōu)化2個(gè)分支,模型提取了與外觀信息互補(bǔ)的魯棒時(shí)空信息.
文獻(xiàn)[33]提出了一個(gè)基于圖的網(wǎng)絡(luò)框架多粒度超圖(multi-granular hypergraph, MGH)模型,通過在多個(gè)粒度對(duì)時(shí)空依賴性進(jìn)行建模,提高提取視頻表征的能力.
文獻(xiàn)[34]提出了一個(gè)全局引導(dǎo)互惠學(xué)習(xí)(global-guided reciprocal learning, GRL)框架,解決大多數(shù)基于序列特征的重識(shí)別算法過度關(guān)注每幀圖像中的顯著區(qū)域而忽略了細(xì)粒度特征的問題.
1.1.4 輔助特征表示學(xué)習(xí)
輔助特征表示學(xué)習(xí)通過提取行人圖像中的語義信息增強(qiáng)重識(shí)別效果或通過生成對(duì)抗網(wǎng)絡(luò)方法來增強(qiáng)特征表示學(xué)習(xí).
文獻(xiàn)[35]提出了一個(gè)聯(lián)合學(xué)習(xí)行人身份信息和屬性信息的框架.文獻(xiàn)[36]利用對(duì)每張圖像全局的自然語言描述,以及對(duì)圖像局部描述的短語信息分別進(jìn)行句子與短語和圖像與圖像塊之間關(guān)系的學(xué)習(xí),挖掘全局和局部圖像-語言之間的關(guān)聯(lián),加強(qiáng)特征表示學(xué)習(xí)能力,提高識(shí)別準(zhǔn)確率.
隨著生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[37]的提出,其在行人重識(shí)別領(lǐng)域也得到了廣泛關(guān)注.在行人重識(shí)別任務(wù)中時(shí)常會(huì)面臨訓(xùn)練數(shù)據(jù)不夠用、數(shù)據(jù)存在偏差的問題.數(shù)據(jù)不夠用的問題主要集中在采集困難、標(biāo)注成本昂貴和難樣本數(shù)據(jù)量極少等.數(shù)據(jù)存在偏差的問題主要是:同一個(gè)身份的不同圖像,姿態(tài)存在偏差;跨攝像機(jī)之間的圖像,風(fēng)格存在偏差;不同地域之間存在偏差等.基于生成對(duì)抗網(wǎng)絡(luò)的方法,可以緩解上述這些問題,比如:生成行人圖像,增加數(shù)據(jù)量,或者對(duì)行人圖像進(jìn)行風(fēng)格轉(zhuǎn)換,減少數(shù)據(jù)偏差.
文獻(xiàn)[38]提出了異常標(biāo)簽正則化(label smoothing regularization for outliers,LSRO)方法,首次將生成方法應(yīng)用于行人重識(shí)別任務(wù).通過生成對(duì)抗網(wǎng)絡(luò)生成圖像,改進(jìn)了特征表示學(xué)習(xí).文獻(xiàn)[39]提出的Posetransfer方法通過加入從MARS[25]數(shù)據(jù)集中提取的行人姿態(tài)對(duì)生成對(duì)抗網(wǎng)絡(luò)進(jìn)行約束,提高了生成行人圖像的質(zhì)量,并生成了具有新的姿態(tài)的行人圖像.為了解決行人圖像數(shù)據(jù)采集時(shí)行人正對(duì)、側(cè)對(duì)和背對(duì)攝像頭造成的數(shù)據(jù)差異,文獻(xiàn)[40]設(shè)計(jì)了一種姿態(tài)歸一化生成對(duì)抗網(wǎng)絡(luò)(pose-normalized GAN,PN-GAN),生成額外的不同姿態(tài)的行人圖像,增強(qiáng)了特征提取模型對(duì)姿態(tài)變化的魯棒性.
為了解決攝像機(jī)間圖像風(fēng)格偏差的問題,文獻(xiàn)[41]提出了相機(jī)風(fēng)格自適應(yīng)方法,通過CycleGAN[42]增強(qiáng)數(shù)據(jù)集,但是CycleGAN生成的圖像存在圖像偽影、噪聲以及對(duì)不同風(fēng)格要分別匹配的問題.文獻(xiàn)[43]提出了一種均一化風(fēng)格生成的方法UnityGAN,將所有相機(jī)風(fēng)格遷移至相近的區(qū)域,取得了較好效果.
與降低圖像序列中被遮擋圖像幀的融合權(quán)重的方法不同,文獻(xiàn)[44]使用生成對(duì)抗網(wǎng)絡(luò)補(bǔ)全被遮擋的人體部件,再進(jìn)行重識(shí)別任務(wù).
1.1.5 注意力機(jī)制在行人重識(shí)別任務(wù)中的使用
近年來,注意力機(jī)制因?yàn)槠淞己玫男Ч粡V泛用于增強(qiáng)特征表示學(xué)習(xí).文獻(xiàn)[45]提出了和諧注意力卷積神經(jīng)網(wǎng)絡(luò)(harmonious attention CNN, HA-CNN),聯(lián)合學(xué)習(xí)“軟”像素注意力和“硬”區(qū)域注意力,并用于學(xué)習(xí)全局特征和局部特征,最后將二者相結(jié)合,提高了識(shí)別的準(zhǔn)確率.軟注意力機(jī)制可以通過通道注意力、空間域注意力和混合域模型(將空間域和通道注意力混合)3種方式實(shí)現(xiàn).
壓縮和激勵(lì)網(wǎng)絡(luò)(squeeze-and-excitation networks, SENet)[46]是一種典型的通道注意力網(wǎng)絡(luò).針對(duì)行人重識(shí)別問題,文獻(xiàn)[47]設(shè)計(jì)了一個(gè)完全注意力模塊.完全注意力模塊解決了SENet會(huì)丟失空間結(jié)構(gòu)特征信息的問題,并且與SENet一樣,可以用于不同的骨干網(wǎng)絡(luò),提高識(shí)別能力.文獻(xiàn)[48]提出了一種屬性注意力網(wǎng)絡(luò)(attribute attention network, AANet).如圖5所示,AANet重點(diǎn)關(guān)注行人局部區(qū)域的人體屬性信息,將人體屬性與行人全局特征相結(jié)合,得到行人屬性注意力.
圖5 AANet提取的屬性注意力熱圖[48]Fig.5 Attribute attention heat map of AANet[48]
圖6 在行人重識(shí)別中3種廣泛使用的損失函數(shù)Fig.6 Three kinds of widely used loss functions in the person ReID
為了更好地利用全局結(jié)構(gòu)信息,文獻(xiàn)[49]提出了一個(gè)有效關(guān)系感知全局注意力(relation-aware global attention,RGA)模塊,可以使網(wǎng)絡(luò)提取更具判別性的特征信息.文獻(xiàn)[50]提出了一種混合高階注意力網(wǎng)絡(luò)(mixed high-order attention network,MHN).空間域和通道注意力是一階注意力,提取的特征信息較為粗糙,高階注意力可以提取特征圖之間細(xì)微的差別,提高模型提取高階表征的能力,從而提高識(shí)別準(zhǔn)確率.同樣,該模塊可以與任何行人重識(shí)別網(wǎng)絡(luò)結(jié)合使用.
在行人重識(shí)別任務(wù)中,注意力機(jī)制使模型傾向于關(guān)注更高相關(guān)性、冗余的細(xì)節(jié)特征信息,而忽略了低相關(guān)性的特征,導(dǎo)致模型不夠魯棒.為了解決這個(gè)問題,文獻(xiàn)[51]提出了一種多樣性正則化/頻譜值差分正交正則化機(jī)制,包括特征空間正交正則化和權(quán)重正交正則化兩部分.特征空間正交正則化有助于減少直接學(xué)習(xí)到的特征的相關(guān)度.權(quán)重正交正則化能夠增加濾波器的多樣性以增強(qiáng)學(xué)習(xí)能力和泛化能力.
度量學(xué)習(xí)旨在使用一個(gè)通過從數(shù)據(jù)中學(xué)習(xí)獲得的最優(yōu)距離度量方程,度量樣本之間的相似性[52].深度度量學(xué)習(xí)是度量學(xué)習(xí)的一種方法,目標(biāo)是學(xué)習(xí)一個(gè)從原始特征到嵌入空間的映射,使同類別對(duì)象在嵌入空間中的距離較近,不同類別之間的距離較遠(yuǎn).距離計(jì)算方程一般使用歐氏距離和余弦距離.在基于深度學(xué)習(xí)方法的行人重識(shí)別任務(wù)中,損失函數(shù)代替了傳統(tǒng)度量學(xué)習(xí)的作用來指導(dǎo)特征表示學(xué)習(xí).
在行人重識(shí)別任務(wù)中廣泛使用的損失函數(shù)主要分為:實(shí)例損失、驗(yàn)證損失和三元組損失.同時(shí),近年提出的在線匹配實(shí)例損失和圓損失也取得不錯(cuò)的效果.
1.2.1 實(shí)例損失和驗(yàn)證損失
如圖6(a)所示,實(shí)例損失是將行人重識(shí)別任務(wù)當(dāng)作一個(gè)圖像分類問題[12],把每個(gè)行人當(dāng)作一個(gè)單獨(dú)的類別.測(cè)試時(shí),對(duì)于輸入圖像xi和標(biāo)簽yi,預(yù)測(cè)概率p(yi|xi)通過SoftMax函數(shù)歸一化編碼,然后使用交叉熵函數(shù)
(1)
計(jì)算實(shí)例損失.式中n代表每批訓(xùn)練樣本的數(shù)量.
如圖6(b)所示,在行人重識(shí)別任務(wù)中,驗(yàn)證損失對(duì)一對(duì)行人圖像計(jì)算對(duì)比損失[53]或二分類損失[54].對(duì)比損失的公式為
(2)
式中:dij表示2個(gè)輸入樣本xi和xj;δij為一個(gè)二進(jìn)制標(biāo)簽標(biāo)識(shí)(如果xi和xj是同一個(gè)類別,則δij=1,反之δij=0).
二分類驗(yàn)證損失區(qū)分每個(gè)圖像對(duì)中的正類和負(fù)類.通常差分特征fij=(fi-fj)2,其中fi和fj分別為xi和xj的嵌入特征.
驗(yàn)證模型將差分特征分為正類和負(fù)類,使用p(δij|fij)代表xi和xj,被認(rèn)為是δij的概率,并使用交叉熵函數(shù)計(jì)算,公式為
Lval(i,j)=-δijlg(p(δij|fij))-
(1-δij)lg(1-p(δij|fij))
(3)
通常,為了提高識(shí)別準(zhǔn)確率,身份損失和驗(yàn)證損失會(huì)結(jié)合使用[52].
1.2.2 三元組損失
三元組損失將行人重識(shí)別模型的訓(xùn)練過程視為一個(gè)檢索排序問題.三元組損失的基本思想是:正樣本對(duì)之間的特征距離與負(fù)樣本對(duì)之間的特征距離的差小于預(yù)先定義的閾值[55].如圖6(c)所示,通常一個(gè)三元組損失包括一個(gè)錨點(diǎn)樣本xa,一個(gè)來自同一個(gè)類別的正樣本xp和一個(gè)來自其他類別的負(fù)樣本xn.樣本之間的距離d使用歐氏距離函數(shù)計(jì)算.三元組損失的公式為
Ltriplet(xa,xp,xn)=max(ρ+dap-dan,0)
(4)
為了解決三元組損失存在正樣本之間距離無法控制和簡(jiǎn)單三元組過多導(dǎo)致判別性差的問題,基本的思路是選擇難樣本進(jìn)行計(jì)算三元組損失[55-56].
基于序列特征的行人重識(shí)別算法在計(jì)算三元組損失時(shí)大多基于序列特征,序列特征由多幀圖像特征融合生成.文獻(xiàn)[57]提出了一個(gè)新的集合-感知三元組損失,將序列特征建模為一個(gè)集合,通過三元組損失優(yōu)化集合之間的距離.
1.2.3 在線實(shí)例匹配損失
為了解決端到端的行人重識(shí)別任務(wù)只有少量樣本存在少量標(biāo)簽分類損失無法訓(xùn)練的問題,在文獻(xiàn)[58]中提出了一種使用記憶存儲(chǔ)機(jī)制的在線實(shí)例匹配損失.記憶存儲(chǔ)庫{vk,k=1,2,…,c}存儲(chǔ)實(shí)例的特征,其中c是類號(hào).在線實(shí)例匹配損失的公式為
(5)
1.2.4 圓損失(circle loss)
針對(duì)三元組損失優(yōu)化缺乏靈活性和收斂狀態(tài)不明確的問題,文獻(xiàn)[60]提出了一種圓損失函數(shù).三元組損失的目標(biāo)是最大化類內(nèi)相似度sp和最小化類間相似度sn,也就是減小正樣本之間距離,增大負(fù)樣本之間距離,即減小(sn-sp).在圓損失中使用2個(gè)自適應(yīng)權(quán)重進(jìn)行調(diào)整,其公式為
(6)
排序優(yōu)化主要對(duì)檢索到的圖像序列進(jìn)行優(yōu)化.一般來說,在行人重識(shí)別任務(wù)的測(cè)試階段,對(duì)于每張查詢圖像,會(huì)對(duì)行人圖像候選集中所有圖像進(jìn)行相似度排名,然后選擇前10名作為檢索結(jié)果.排序優(yōu)化對(duì)提高模型的檢索性能起到至關(guān)重要的作用.給定一個(gè)初始的查詢排序列表,可以通過自動(dòng)挖掘候選集之間的相似度[61]或者人工交互[62]優(yōu)化排名順序,使正樣本的排名更高.
重排序的基本思想是利用查詢結(jié)果之間的相似度對(duì)初始排序列表進(jìn)行優(yōu)化.在文獻(xiàn)[61]中提出了一種使用k個(gè)相互近鄰編碼(k-reciprocal)的方法挖掘相似度信息的重排序方法,初始排序列表.由于其實(shí)現(xiàn)簡(jiǎn)單和效果明顯,被廣泛用于當(dāng)前先進(jìn)的方法,但是,它的計(jì)算開銷較大,并不適用于實(shí)際應(yīng)用.
行人重識(shí)別任務(wù)的數(shù)據(jù)集規(guī)模越來越大,數(shù)據(jù)的標(biāo)注成本隨之升高,在現(xiàn)實(shí)應(yīng)用中數(shù)據(jù)難以擴(kuò)展.基于弱監(jiān)督學(xué)習(xí)方法的行人重識(shí)別算法可以很好地緩解這個(gè)問題.弱監(jiān)督學(xué)習(xí)方法可分為基于無監(jiān)督學(xué)習(xí)和基于半監(jiān)督學(xué)習(xí)2類.目前,先進(jìn)的基于有監(jiān)督學(xué)習(xí)方法在單一數(shù)據(jù)集上的識(shí)別能力已經(jīng)超越了人類,然而,并不能很好地泛化到其他數(shù)據(jù)集,并且基于弱監(jiān)督學(xué)習(xí)的方法更貼合實(shí)際的應(yīng)用場(chǎng)景,得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.
無監(jiān)督學(xué)習(xí)可以通過未標(biāo)注的數(shù)據(jù)解決行人重識(shí)別任務(wù).在無監(jiān)督學(xué)習(xí)方法中,標(biāo)簽估計(jì)方法十分流行[63-64].
文獻(xiàn)[63]中提出了動(dòng)態(tài)圖匹配(dynamic graph matching, DGM)方法,采用迭代的方式,每次迭代生成一個(gè)二部圖,估計(jì)標(biāo)簽并學(xué)習(xí)區(qū)分矩陣.如圖7所示,通過不斷迭代,標(biāo)簽準(zhǔn)確率提高,矩陣區(qū)分度更顯著.
圖7 動(dòng)態(tài)圖匹配[63]Fig.7 Dynamic graph matching[63]
對(duì)于端到端的無監(jiān)督學(xué)習(xí)行人重識(shí)別,文獻(xiàn)[64]采用自步學(xué)習(xí)(self-paced learning)方法,逐步地挖掘可靠標(biāo)簽.首先,使用其他有標(biāo)記的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,再對(duì)無標(biāo)簽數(shù)據(jù)集提取特征后使用K-means算法聚類計(jì)算中心特征;然后,將每類距離中心特征小于閾值的樣本選出來,設(shè)置為偽標(biāo)簽,再使用有偽標(biāo)簽的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練.文獻(xiàn)[65]提出了一種軟多標(biāo)簽學(xué)習(xí)方法來為未標(biāo)注數(shù)據(jù)集生成偽標(biāo)注,再進(jìn)行行人重識(shí)別訓(xùn)練.
文獻(xiàn)[66]提出了一個(gè)用于異構(gòu)多任務(wù)無監(jiān)督行人重識(shí)別的可遷移聯(lián)合屬性-身份深度學(xué)習(xí)(transferable joint attribute-identity deep learning,TJ-AIDL)模型.與其他基于無監(jiān)督的方法為行人生成身份偽標(biāo)注不同, TJ-AIDL模型增加了語義屬性標(biāo)簽,將行人屬性特征學(xué)習(xí)和身份識(shí)別的分支網(wǎng)絡(luò)結(jié)合訓(xùn)練.
文獻(xiàn)[67]提出一個(gè)基于圖像塊的無監(jiān)督學(xué)習(xí)方法.相比整張行人圖像,圖像塊的特征更容易挖掘標(biāo)簽信息,因此,可通過挖掘圖像塊相似度來學(xué)習(xí)更具鑒別性的圖像塊特征.
大多數(shù)無監(jiān)督學(xué)習(xí)算法通過測(cè)量特征相似度生成偽標(biāo)簽,而沒有考慮不同攝像機(jī)之間的分布差異,導(dǎo)致不同攝像機(jī)之間的標(biāo)簽計(jì)算精度下降.為了解決這一問題,文獻(xiàn)[68]提出新的攝像機(jī)內(nèi)相似度偽標(biāo)記生成方法,將樣本相似度計(jì)算分解為相機(jī)內(nèi)和相機(jī)間的2個(gè)階段.
半監(jiān)督學(xué)習(xí)通過利用一部分較少的標(biāo)注數(shù)據(jù)和另一部分未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練.根據(jù)場(chǎng)景的不同可以分為:每個(gè)行人存在較少標(biāo)注和少量行人存在標(biāo)注.
針對(duì)每個(gè)行人存在較少標(biāo)注的問題,文獻(xiàn)[69]提出了一種逐步一次性學(xué)習(xí)(exploit the unknown gradually, EUG)方法.從未標(biāo)記的視頻跟蹤片段中逐步選擇少量候選樣本來擴(kuò)充已標(biāo)注的跟蹤片段數(shù)據(jù)集.
對(duì)于只有少量行人存在標(biāo)注的問題,文獻(xiàn)[70]提出了一種迭代的學(xué)習(xí)方法,先使用少量有標(biāo)注數(shù)據(jù)訓(xùn)練模型,再通過多視角聚類方法對(duì)無標(biāo)注數(shù)據(jù)進(jìn)行聚類生成偽標(biāo)簽.之后,使用有標(biāo)注數(shù)據(jù)和帶有偽標(biāo)簽的無標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),更新網(wǎng)絡(luò)參數(shù).整個(gè)過程迭代交替進(jìn)行.
近年來,基于弱監(jiān)督方法的行人重識(shí)別算法性能得到了顯著提高,但相較基于有監(jiān)督學(xué)習(xí)的方法仍有較大差距.目前,學(xué)術(shù)界對(duì)弱監(jiān)督行人重識(shí)別算法的研究相對(duì)較少,發(fā)展還不夠完善.如何通過領(lǐng)域自適應(yīng)的方法,將從有標(biāo)簽源數(shù)據(jù)集上學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到無標(biāo)簽?zāi)繕?biāo)數(shù)據(jù)集上,實(shí)現(xiàn)更高性能的弱監(jiān)督算法,將是相關(guān)研究的重點(diǎn)所在.
目前,在行人重識(shí)別領(lǐng)域已經(jīng)有大量的公共數(shù)據(jù)集發(fā)布,并且存在人數(shù)增多、數(shù)據(jù)規(guī)模增大、圖像分辨率增大的趨勢(shì).新的基準(zhǔn)更具挑戰(zhàn)性,這將促進(jìn)行人重識(shí)別領(lǐng)域的發(fā)展.
在行人重識(shí)別任務(wù)中數(shù)據(jù)集分為圖像數(shù)據(jù)集和視頻數(shù)據(jù)集2類.廣泛使用的圖像數(shù)據(jù)集包括:VIPeR[71]、iLIDS[72]、GRID[73]、PRID-2011[74]、CUHK-03[54]、Market-1501[75]、Duke-MTMC[38]、Airport[76]、MSMT-17[77].視頻數(shù)據(jù)集包括:PRID-2011[74]、iLIDS-VID[78]、MARS[25]、Duke-Video[69]、Duke-Tracklet[79]、LPW[30]、LS-VID[80].詳細(xì)數(shù)據(jù)如表1和表2所示.
考慮到數(shù)據(jù)規(guī)模和挑戰(zhàn)難度等因素,大多數(shù)相關(guān)工作使用Market-1501、Duke-MTMC和MSMT-17數(shù)據(jù)集作為測(cè)試基準(zhǔn).其中,MSMT-17數(shù)據(jù)集數(shù)據(jù)擁有更復(fù)雜的場(chǎng)景和背景且規(guī)模龐大, 因而更具挑戰(zhàn)性.
表1 圖像數(shù)據(jù)集
表2 視頻數(shù)據(jù)集
Market-1501數(shù)據(jù)集是行人重識(shí)別領(lǐng)域的經(jīng)典數(shù)據(jù)集,在清華大學(xué)校園中采集,夏天拍攝,在2015年構(gòu)建并公開.它包括由6個(gè)攝像頭(其中5個(gè)高清攝像頭和1個(gè)低清攝像頭)拍攝到的1 501個(gè)行人、32 668個(gè)檢測(cè)到的行人矩形框.每個(gè)行人至少由2個(gè)攝像頭捕獲到,并且在一個(gè)攝像頭中可能具有多張圖像.訓(xùn)練集有751人,包含12 936張圖像,平均每個(gè)人有17.2張訓(xùn)練數(shù)據(jù);測(cè)試集有750人,包含19 732張圖像,平均每個(gè)人有26.3張測(cè)試數(shù)據(jù).3 368張查詢圖像的行人檢測(cè)矩形框是人工繪制的,而測(cè)試集中的行人檢測(cè)矩形框則是使用行人檢測(cè)器檢測(cè)得到的.手工標(biāo)記的檢測(cè)框非常完美,然而在實(shí)際的行人重識(shí)別系統(tǒng)中使用目標(biāo)檢測(cè)算法得到行人標(biāo)記框;因此,Market-1501的測(cè)試集更貼合實(shí)際應(yīng)用.在CVPR2018會(huì)議上,提出了一個(gè)新的更接近真實(shí)場(chǎng)景、涵蓋了多場(chǎng)景多時(shí)段的大型數(shù)據(jù)集MSMT-17.該數(shù)據(jù)集是目前行人重識(shí)別任務(wù)中較為困難的數(shù)據(jù)集.相比以往發(fā)布的數(shù)據(jù)集,MSMT-17包含更多的行人、圖像數(shù)(檢測(cè)框)、攝像頭數(shù),見表1.
MSMT-17的圖像擁有復(fù)雜的場(chǎng)景和背景,由高達(dá)15個(gè)放置在不同位置的攝像頭拍攝.以往的數(shù)據(jù)集大多由戶外攝像頭采集,而MSMT-17包含12個(gè)戶外攝像頭和3個(gè)室內(nèi)攝像頭采集的圖像.MSMT-17數(shù)據(jù)集的圖像擁有復(fù)雜的光照變化,采集人員在1個(gè)月里選擇了具有不同天氣條件的4 d.每天采集3 h的視頻,涵蓋了早上、中午、下午3個(gè)時(shí)間段,比以前的數(shù)據(jù)集能更好地模擬真實(shí)場(chǎng)景,但帶來了嚴(yán)重的照明變化.MSMT-17數(shù)據(jù)集使用了更可靠的行人檢測(cè)算法,與手工標(biāo)注和傳統(tǒng)行人檢測(cè)器相比,速度更快,準(zhǔn)確度更高且更容易實(shí)現(xiàn).由于復(fù)雜的背景和場(chǎng)景變化、光照變化,使得MSMT-17更具挑戰(zhàn)性.目前,最先進(jìn)的行人重識(shí)別算法在MSMT-17數(shù)據(jù)集上仍有很大的進(jìn)步空間.MARS數(shù)據(jù)集包含1 261個(gè)行人和大約20 000個(gè)跟蹤片段,與基于圖像的數(shù)據(jù)集相比,它提供了豐富的視覺信息.
行人重識(shí)別任務(wù)常用的評(píng)價(jià)指標(biāo)是累計(jì)匹配曲線(cumulative matching characteristics,CMC)和平均準(zhǔn)確率(mean average precision, mAP).
CMC-k表示在Rank-k的檢索結(jié)果中出現(xiàn)正確匹配的概率(k為人為選取的值,一般來說k=1,5,10).然而CMC-k僅在候選集中存在1個(gè)正確匹配時(shí)是準(zhǔn)確的,因?yàn)樗谠u(píng)價(jià)過程中只考慮第1個(gè)匹配.然而,在行人重識(shí)別任務(wù)中,行人圖像由多個(gè)相機(jī)拍攝得到,因此,累計(jì)匹配曲線并不能反映模型在多攝像頭網(wǎng)絡(luò)中的識(shí)別能力.
mAP最初被廣泛用于圖像檢索問題.mAP用多個(gè)真值標(biāo)簽來衡量模型的平均檢索能力,可以很好地反映模型對(duì)于難樣本的識(shí)別能力.
隨著嵌入式人工智能思想的提出,考慮到模型的效率和復(fù)雜性,網(wǎng)絡(luò)參數(shù)大小和每秒浮點(diǎn)運(yùn)算次數(shù)(floating-point operatings per second, FLOPs)也被作為評(píng)價(jià)指標(biāo)[17,81].
對(duì)于圖像數(shù)據(jù)集,在Market-1501、Duke-MTMC和MSMT-17數(shù)據(jù)集上的最新進(jìn)展見表3.對(duì)于視頻數(shù)據(jù)集,在MARS和Duke-Video數(shù)據(jù)集上的最新進(jìn)展見表4.
從表3中可以看出,基于有監(jiān)督學(xué)習(xí)方法的行人重識(shí)別模型在圖像數(shù)據(jù)集上已經(jīng)取得較好結(jié)果.在Market-1501數(shù)據(jù)集上已經(jīng)超過了人類水平.其中效果最好的UnityStyle的Rank-1已經(jīng)達(dá)到98.5%.
PersonNet是最早使用深度學(xué)習(xí)方法的行人重識(shí)別模型,但早期的深度學(xué)習(xí)模型提取特征的能力較差.PDC和PCB模型都是采用全局特征與局部特征相結(jié)合的方法,可以看出采用水平分割方法提取局部特征的PCB模型的效果較好.LSRO方法首次將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于行人重識(shí)別任務(wù)中.Posetransfer和PN-GAN采用生成對(duì)抗網(wǎng)絡(luò)解決行人姿態(tài)變化的問題,取得較好效果.UnityStyle采用生成對(duì)抗網(wǎng)絡(luò)解決攝像機(jī)間圖像風(fēng)格偏差的問題.HA-CNN、AANet、MHN、ABDNet和RGA-SC使用了注意力機(jī)制的行人重識(shí)別算法,從結(jié)果可以看出,普遍取得了較好效果.OSNet設(shè)計(jì)了一個(gè)輕量級(jí)網(wǎng)絡(luò)進(jìn)行全尺度特征學(xué)習(xí),采用深度可分離卷積加速網(wǎng)絡(luò)訓(xùn)練,在減小網(wǎng)絡(luò)參數(shù)量的同時(shí),也得到了很好的效果.圓損失通過改進(jìn)網(wǎng)絡(luò)的度量方法,取得較好效果.其中,FastReID[83]是一個(gè)開源的行人重識(shí)別算法庫,采用模塊化設(shè)計(jì),集成了大量的行人重識(shí)別算法,如圖8所示.
表3 Market-1501、 Duke-MTMC、 MSMT-17數(shù)據(jù)集結(jié)果
表4 MARS、 Duke-Video數(shù)據(jù)集結(jié)果
圖8 FastReID庫的流水線[83]Fig.8 Pipeline of FastReID library[83]
與基于圖像數(shù)據(jù)集的模型相比,基于視頻的行人重識(shí)別模型較少.隨著深度學(xué)習(xí)技術(shù)不斷進(jìn)步,有監(jiān)督學(xué)習(xí)在視頻數(shù)據(jù)上的識(shí)別準(zhǔn)確度不斷提高.其次,空間和時(shí)間建模是提升視頻表示特征學(xué)習(xí)的關(guān)鍵.在STA網(wǎng)絡(luò)[31]、STGCN[32]和全局-局部時(shí)間表征(global-local temporal representations, GLTR)[80]網(wǎng)絡(luò)中都使用了時(shí)空聚合策略來提升基于視頻行人重識(shí)別算法的性能.
綜合圖像和視頻數(shù)據(jù)集上的最新進(jìn)展,發(fā)現(xiàn)在小規(guī)模的數(shù)據(jù)上,性能已經(jīng)達(dá)到飽和,但是,在大規(guī)模數(shù)據(jù)集(例如MSMT-17和LS-VID)上仍存在很大的改進(jìn)空間.
隨著智慧城市的發(fā)展,行人重識(shí)別得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.目前,行人重識(shí)別算法在小規(guī)模數(shù)據(jù)集下的應(yīng)用取得突破性的進(jìn)展,但仍存在以下問題值得進(jìn)一步研究.
1) 多域通用.不同數(shù)據(jù)集之間存在很大的域間隙,模型的泛化能力較差.現(xiàn)有的方法大多采用領(lǐng)域適應(yīng)的方法進(jìn)行跨數(shù)據(jù)集訓(xùn)練,效果不太理想.另外,行人重識(shí)別任務(wù)還存在異構(gòu)數(shù)據(jù)的問題.在實(shí)際場(chǎng)景中,行人圖像可能從多種異構(gòu)模式中獲取.例如:圖像分辨率差異較大;查詢圖和圖庫包含多模態(tài)數(shù)據(jù)(可見光、熱力圖、深度圖、文本描述).一個(gè)好的行人重識(shí)別系統(tǒng)應(yīng)該能夠自動(dòng)處理上述問題.未來在這個(gè)方向的工作能夠促進(jìn)行人重識(shí)別算法在現(xiàn)實(shí)場(chǎng)景的適用性.
2) 快速重識(shí)別和模型輕量化.為了在龐大的圖庫中更快地實(shí)現(xiàn)檢索,采用哈希的方法被廣泛研究.另外,設(shè)計(jì)一個(gè)輕量級(jí)模型也是研究重點(diǎn).目前,主要的策略是模型剪枝和知識(shí)蒸餾.
3) 少量人為標(biāo)注.隨著數(shù)據(jù)集規(guī)模的增大,標(biāo)注成本也隨之升高,因此,使用少量人為標(biāo)注數(shù)據(jù)的行人重識(shí)別算法也是未來研究的重點(diǎn).除了弱監(jiān)督學(xué)習(xí)方法,自動(dòng)標(biāo)注的方法也可以是未來的重點(diǎn).