王楠 吳健 盧杏堅(jiān) 鐘震宇 黃凱
學(xué)術(shù)研究
一種針對(duì)復(fù)雜場(chǎng)景的行人再識(shí)別優(yōu)化方法*
王楠 吳健 盧杏堅(jiān) 鐘震宇 黃凱
(廣東省科學(xué)院智能制造研究所/廣東省現(xiàn)代控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510070)
針對(duì)室外場(chǎng)景中,因攝像頭角度不統(tǒng)一、室外光照多變等因素導(dǎo)致行人難識(shí)別的問題,提出一種針對(duì)復(fù)雜場(chǎng)景的行人再識(shí)別優(yōu)化方法。通過在ResNet的淺層嵌入實(shí)例-批歸一化層和空間變換網(wǎng)絡(luò),引入Mish激活函數(shù),構(gòu)建改進(jìn)的ResNet-50特征提取骨干網(wǎng)絡(luò),建立面向復(fù)雜場(chǎng)景的行人再識(shí)別模型。經(jīng)在MSMT17數(shù)據(jù)集上驗(yàn)證,rank-1和分別達(dá)到79.8%、58.5%,說明了該算法的有效性。
復(fù)雜場(chǎng)景;行人再識(shí)別;實(shí)例-批歸一化;空間變換網(wǎng)絡(luò);Mish激活函數(shù)
公共安全是國家安全的重要組成部分,安防監(jiān)控系統(tǒng)的規(guī)?;占?,構(gòu)建了良好的社會(huì)治安防控體系。安防監(jiān)控系統(tǒng)中大量的監(jiān)控設(shè)備帶來海量視頻數(shù)據(jù),傳統(tǒng)基于人工的視頻分析方式耗時(shí)費(fèi)力,已無法滿足高效、快速處理的實(shí)際需求。隨著計(jì)算機(jī)視覺技術(shù)快速發(fā)展,其在眾多領(lǐng)域大放異彩[1-3],尤其在公共安全的識(shí)別、定位、檢測(cè)等方面,取得了令人矚目的成績(jī)。其中人臉識(shí)別、指紋識(shí)別為最典型的應(yīng)用,但多適用于支付、銀行、門禁等近距離約束場(chǎng)景,在跨域遠(yuǎn)距離監(jiān)控系統(tǒng)中難以應(yīng)用。
行人再識(shí)別技術(shù)是近年來提出的更具挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù),旨在對(duì)處于不同位置且不同監(jiān)控?cái)z像頭里的指定人員進(jìn)行身份信息檢索。行人再識(shí)別技術(shù)以整個(gè)行人的特征作為相似性度量的依據(jù),且行人特征不受面部遮擋、低頭或背對(duì)攝像頭的影響,識(shí)別準(zhǔn)確率更高,可應(yīng)用于行人查找、追蹤等領(lǐng)域,能顯著提升破案?jìng)刹椤⑿腥俗粉櫟刃?,?duì)維護(hù)公共安全和社會(huì)穩(wěn)定具有重要意義。
近年來,許多專家學(xué)者對(duì)行人再識(shí)別技術(shù)開展相關(guān)研究。FARENZNA等采用將人體分為多個(gè)小部塊的方式進(jìn)行行人再識(shí)別研究[4]。PEDAGADI等利用局部線性判定分析方法進(jìn)行行人再識(shí)別[5]。魯臣等采用串聯(lián)多個(gè)特征層的方式,將最后深層特征和淺層特征利用特征層融合的機(jī)制提取行人圖像特征[6]。潘少明等采用圖卷積神經(jīng)網(wǎng)絡(luò)的行人再識(shí)別方法,將一個(gè)域的數(shù)據(jù)信息遷移到目標(biāo)域的數(shù)據(jù)中,提升了模型跨域能力[7]。陳瑩等基于深度學(xué)習(xí)框架,提出一種困難樣本的三元組損失的行人再識(shí)別網(wǎng)絡(luò),以身份和屬性標(biāo)簽的方法獲得更多行人判別[8]。
盡管以上專家學(xué)者利用行人再識(shí)別技術(shù)在公共安全領(lǐng)域做了很多探索并取得一定成效,但當(dāng)前方法存在2個(gè)問題限制了其在實(shí)際場(chǎng)景的應(yīng)用。1)光照干擾。在實(shí)際場(chǎng)景下,跨域遠(yuǎn)距離監(jiān)控系統(tǒng)通常由多個(gè)攝像頭獲取監(jiān)控圖像,不同地點(diǎn)的攝像頭可能處于不同的光照亮度下,導(dǎo)致獲取的圖像具有不同的光照強(qiáng)度,給檢測(cè)模型帶來一定誤差,影響檢測(cè)精度。2)角度多變。為監(jiān)控特定區(qū)域,同一地點(diǎn)的攝像頭可能有不同的安裝角度,導(dǎo)致圖像中的人物存在視覺畸變現(xiàn)象和圖像特征差異性大的問題,使跨域遠(yuǎn)距離監(jiān)控系統(tǒng)因誤判而丟失目標(biāo)。
針對(duì)上述問題,本文提出一種針對(duì)復(fù)雜場(chǎng)景的行人再識(shí)別方法。首先,采用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法生成背景復(fù)雜的行人圖像,增加網(wǎng)絡(luò)對(duì)復(fù)雜場(chǎng)景的魯棒性;然后,設(shè)計(jì)基于實(shí)例-批歸一化(instance- batch normalization, IBN)[9]的行人圖像矯正網(wǎng)絡(luò)和基于空間變換網(wǎng)絡(luò)(spatial transformer network, STN)[10]的行人特征空間變換網(wǎng)絡(luò),提升網(wǎng)絡(luò)的外觀變化適應(yīng)性和空間不變性;接著,采用Mish激活函數(shù)優(yōu)化網(wǎng)絡(luò)激活函數(shù);最后,構(gòu)建改進(jìn)的ResNet行人再識(shí)別模型進(jìn)行訓(xùn)練。
MSMT17數(shù)據(jù)集包含15個(gè)攝像頭(室外12個(gè)、室內(nèi)3個(gè));覆蓋一個(gè)月內(nèi)不同的天氣;每天采樣3 h,涵蓋早、中、晚3個(gè)時(shí)段;共采集4101個(gè)行人,其中訓(xùn)練集包括1 041個(gè)行人,測(cè)試集包括3 060個(gè)行人。該數(shù)據(jù)集具有如下特點(diǎn):行人和攝像頭數(shù)量多;場(chǎng)景和背景更加復(fù)雜;光照變化更為復(fù)雜;較接近真實(shí)場(chǎng)景。因此,本文選擇MSMT17數(shù)據(jù)集作為訓(xùn)練集和測(cè)試集。
為提高數(shù)據(jù)的魯棒性和多樣性,采用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法對(duì)行人再識(shí)別數(shù)據(jù)集進(jìn)行背景復(fù)雜化。隨機(jī)選取4幅行人圖像,分別對(duì)這些圖像作如下4種操作:
1)亮度增強(qiáng)。考慮到室外場(chǎng)景的光照變化,對(duì)圖像進(jìn)行整體的亮度提升。
2)隨機(jī)旋轉(zhuǎn)。設(shè)置隨機(jī)旋轉(zhuǎn)角度為10°~60°,隨機(jī)翻轉(zhuǎn)圖像。
3)水平翻轉(zhuǎn)。通過水平翻轉(zhuǎn)圖像的方式改變圖像的特征分布。
4)縮放。減小原始圖像尺寸,使數(shù)據(jù)多樣化。
將處理后的4幅圖像進(jìn)行拼接,形成Mosaic增強(qiáng)后的圖像。圖像增強(qiáng)前后對(duì)比圖如圖1所示。
圖1 圖像增強(qiáng)前后對(duì)比圖
針對(duì)室外復(fù)雜場(chǎng)景下光照變化導(dǎo)致行人衣著顏色改變、行人姿態(tài)多樣等特點(diǎn),設(shè)計(jì)基于IBN的行人圖像矯正網(wǎng)絡(luò)和基于STN的行人特征空間變換網(wǎng)絡(luò),引入Mish激活函數(shù),重構(gòu)基于IBN和STN改進(jìn)的ResNet-50特征提取骨干網(wǎng)絡(luò),增強(qiáng)網(wǎng)絡(luò)對(duì)行人外觀變化的抗干擾能力,提高網(wǎng)絡(luò)在跨域場(chǎng)景下的魯棒性。基于改進(jìn)的ResNet行人再識(shí)別模型結(jié)構(gòu)如圖2所示。
在訓(xùn)練階段,利用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng);以訓(xùn)練集為輸入,STN自適應(yīng)調(diào)整行人異常姿態(tài);STN提取的特征輸入改進(jìn)的ResNet-50特征提取骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)由5個(gè)模塊組成,均嵌入IBN模塊,以提升網(wǎng)絡(luò)因光照變化而引發(fā)的外觀變化的適應(yīng)性;用Mish激活函數(shù)代替殘差模塊中的ReLU激活函數(shù),解決負(fù)輸入失效問題。
圖2 基于改進(jìn)的ResNet行人再識(shí)別模型結(jié)構(gòu)
行人再識(shí)別模型因行人姿態(tài)和視角不同可能出現(xiàn)行人特征無法匹配的現(xiàn)象,導(dǎo)致其難以在室外真實(shí)場(chǎng)景下部署。圖3(a)為同一行人在同一攝像頭下表現(xiàn)出雙腿打開/交叉、打電話/低頭、手部彎曲等姿態(tài);圖3(b)為一個(gè)行人由遠(yuǎn)到近的視角變化。因STN具有平移不變性和旋轉(zhuǎn)不變性的特點(diǎn),故本文利用STN自適應(yīng)(旋轉(zhuǎn)、平移、縮放等)調(diào)整行人姿態(tài)異常,并基于ResNet-50網(wǎng)絡(luò),構(gòu)建基于STN的行人特征空間變換網(wǎng)絡(luò)。
圖3 行人姿態(tài)和視角變化
基于STN的行人特征空間變換網(wǎng)絡(luò)由定位網(wǎng)絡(luò)(Localization net)、網(wǎng)絡(luò)生成器(Grid generator)、采樣器(Sampler)3個(gè)基本模塊構(gòu)成,如圖2所示。
然后,在網(wǎng)絡(luò)生成器中,根據(jù)式(2)得到優(yōu)化后的輸入圖像:
在室外真實(shí)場(chǎng)景下,光照隨時(shí)間變化,不同強(qiáng)度的光照照射在行人身上,會(huì)發(fā)生不同程度的“變色”現(xiàn)象,如圖4所示。
圖4 室外光照變化引發(fā)的“變色”現(xiàn)象
行人外觀變化會(huì)影響行人再識(shí)別模型的準(zhǔn)確度。此外,當(dāng)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集有較大的外觀差異時(shí),模型性能也會(huì)顯著下降。如數(shù)據(jù)集中目標(biāo)光線強(qiáng)烈,訓(xùn)練得到的模型學(xué)習(xí)了光線強(qiáng)烈的特征,在模型對(duì)光線昏暗的數(shù)據(jù)進(jìn)行測(cè)試時(shí),測(cè)試效果較差。為此,本文提出基于IBN的行人圖像矯正網(wǎng)絡(luò),提升模型對(duì)圖像外觀變化的適應(yīng)性。
嵌入IBN的殘差模塊如圖5所示。
圖5 嵌入IBN的殘差模塊
首先,經(jīng)過卷積層的特征向量被平分為2組;然后,分別經(jīng)過IN層和BN層再拼接在一起,以提升模型的學(xué)習(xí)能力和泛化能力??紤]室外真實(shí)場(chǎng)景下,行人再識(shí)別數(shù)據(jù)集中的數(shù)據(jù)存在跨域問題,將IBN層嵌入到ResNet網(wǎng)絡(luò),用于提升模型在外觀變化下的適應(yīng)能力。
相比于Sigmoid、ReLU、Tanh這3種激活函數(shù),Mish激活函數(shù)能在一定程度上解決梯度消失問題;而且相比于ReLU激活函數(shù),Mish激活函數(shù)存在一小段負(fù)區(qū)間,解決了負(fù)輸入失效問題。
Mish激活函數(shù)表達(dá)式為
Mish激活函數(shù)沒有上界有下界,沒有上界避免了由于封頂而導(dǎo)致的飽和問題;有下界有助于加快訓(xùn)練過程,且具有較好的光滑性,可提升泛化能力和優(yōu)化能力,提高結(jié)果質(zhì)量。因此,本文使用Mish激活函數(shù)代替殘差模塊中的ReLU激活函數(shù),提高模型的泛化能力。
實(shí)驗(yàn)在Linux系統(tǒng)Visual Studio Code環(huán)境下,基于pytorch深度學(xué)習(xí)框架,采用python語言編程完成。實(shí)驗(yàn)平臺(tái)硬件配置:英特爾i7-7700HQ處理器、Nvidia GeForce GTX2080、AOC顯示器。本文基于改進(jìn)的ResNet行人再識(shí)別模型的超參數(shù)設(shè)置如表1所示。
表1 基于改進(jìn)的ResNet行人再識(shí)別模型的超參數(shù)設(shè)置
基于改進(jìn)的ResNet行人再識(shí)別模型性能評(píng)價(jià)指標(biāo)主要包括rank-和平均精度均值(mean average precision, mAP),其中rank-表示排序前位中含有正確行人的概率。
在單目標(biāo)分類任務(wù)中,通常給定查詢圖像,然后在測(cè)試集中通過距離度量函數(shù)計(jì)算圖像相似度。計(jì)算公式為
式中,為標(biāo)簽為真,預(yù)測(cè)為真的數(shù)量;為標(biāo)簽為真,預(yù)測(cè)為假的數(shù)量;為該類別圖像數(shù)量;為查詢類別的數(shù)量;為平均準(zhǔn)確率(average precision, AP);為精確率(precision)。
3.3.1 復(fù)雜光照條件下的實(shí)驗(yàn)結(jié)果分析
為驗(yàn)證本文方法的實(shí)用性,采用多重粒度網(wǎng)絡(luò)(multiple granularity network, MGN)、ResNet-50+ CircleLoss這2種常用的行人再識(shí)別方法與本文提出的方法進(jìn)行對(duì)比測(cè)試。此外,考慮到MSMT17測(cè)試集中圖像光照的多變性,首先,對(duì)MSMT17測(cè)試集中過暗的圖像進(jìn)行亮度增強(qiáng),過亮的圖像進(jìn)行亮度消減,處理流程如圖6所示;然后,采用基于改進(jìn)的ResNet行人再識(shí)別模型進(jìn)行測(cè)試,測(cè)試結(jié)果如表2所示。
圖6 MSMT17測(cè)試集光照處理流程圖
表2 3種方法測(cè)試結(jié)果
由表2可知,經(jīng)過光照處理后,本文基于改進(jìn)的ResNet行人再識(shí)別模型的rank-1和分別比未經(jīng)過光照處理的實(shí)驗(yàn)高0.8%和0.7%,說明本文方法對(duì)光照變化復(fù)雜的場(chǎng)景具有一定的作用。
3.3.2 復(fù)雜光照條件下的綜合對(duì)比分析
為綜合對(duì)比本文基于改進(jìn)的ResNet行人再識(shí)別模型對(duì)光照干擾和角度變化的處理效果,采用MGN、ResNet-50+CircleLoss兩種常用的行人再識(shí)別方法進(jìn)行對(duì)比分析,測(cè)試結(jié)果如表3所示。
表3 2種方法測(cè)試結(jié)果
由表3可知:經(jīng)過光照、異常姿態(tài)處理后的數(shù)據(jù)集作為基于改進(jìn)的ResNet行人再識(shí)別模型的測(cè)試數(shù)據(jù)集,rank-1分別高于MGN和ResNet-50+CircleLoss方法2.9%和3.5%;分別高于MGN和ResNet-50+ CircleLoss方法6.4%和8.3%。
由此可以得出結(jié)論,本文方法對(duì)于光照干擾和角度變化下的復(fù)雜場(chǎng)景具有一定的改善效果。
本文提出基于改進(jìn)的ResNet行人再識(shí)別模型,在ResNet的淺層嵌入IBN和STN,提升網(wǎng)絡(luò)的外觀變化適應(yīng)性和空間不變性;采用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法模擬復(fù)雜背景,增加數(shù)據(jù)集的多樣性;同時(shí)使用Mish激活函數(shù)替換ReLU激活函數(shù)。在MSMT17數(shù)據(jù)集上rank-1和分別達(dá)到79.8%和58.5%,驗(yàn)證了算法的有效性。
[1] 雷歡,吳亮生,焦?jié)申?等.果園環(huán)境中成熟楊梅自動(dòng)檢測(cè)方法研究[J].自動(dòng)化與信息工程,2021,42(3):9-14,26.
[2] HUANG K, LEI H, JIAO Z, et al. Recycling Waste Classifica-tion Using Vision Transformer on Portable Device[J]. Sustaina-bility, 2021,13(21):11572.
[3] 游青山,冉霞.基于機(jī)器視覺的礦井作業(yè)人員行為監(jiān)測(cè)及違章識(shí)別系統(tǒng)[J].自動(dòng)化與信息工程,2021,42(4):20-24.
[4] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features [C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010:2360-2367.
[5] PEDAGADI S, ORWELL J, VELASTIN S, et al. Local fisher discriminant analysis for pedestrian re-identification [C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2013.
[6] 賈熹濱,魯臣,Siluyele Ntazana,等.行人再識(shí)別中的多尺度特征融合網(wǎng)絡(luò)[J].北京工業(yè)大學(xué)學(xué)報(bào),2020,46(7):788-794.
[7] 潘少明,王玉杰,種衍文.基于圖卷積神經(jīng)網(wǎng)絡(luò)的跨域行人再識(shí)別[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,48(9):44-49.
[8] 陳巧媛,陳瑩.基于困難樣本三元組損失的多任務(wù)行人再識(shí)別[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2019,31(7):1156-1165.
[9] ULYANOV D, VEDALDI A, LEMPITSKY V. Instance nor-malization: The missing ingredient for fast stylization[J]. arXiv preprint arXiv:1607.08022, 2016.
[10] JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial transformer networks[J]. Advances in neural information processing systems, 2015,28:2017-2025.
[11] WEI L, ZHANG S, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification[C]//2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:79-88.
[12] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778.
A Pedestrian Re-identification Optimization Method for Complex Scenes
Wang Nan Wu Jian Lu Xingjian Zhong Zhenyu Huang Kai
(Institute of Intelligent Manufacturing, Guangdong Academy of Science/Guangdong Key Laboratory of Modern Control Technology, Guangzhou 510070, China)
Aiming at the problem that it is difficult to recognize pedestrians in outdoor scenes due to different camera angles and changeable outdoor lighting, an optimization method for pedestrian re- identification in complex scenes is proposed. By embedding the instance-batch normalization layer and spatial transformer network in the shallow layer of ResNet, introducing the mish activation function, building an improved ResNet-50 feature extraction backbone network, and establishing a pedestrian re- identification model for complex environment. Verified on MSMT17 data set, rank-1 and map reach 79.8% and 58.5% respectively, which shows the effectiveness of the algorithm.
complex scene; pedestrian re-identification; instance-batch normalization; spatial transformer network; Mish activation function
廣東省重點(diǎn)領(lǐng)域研發(fā)計(jì)劃項(xiàng)目(2018B010108006)
王楠,女,1989年生,碩士研究生,高級(jí)工程師,主要研究方向:機(jī)器視覺、深度學(xué)習(xí)。E-mail: n.wang@giim.ac.cn
黃凱(通信作者),男,1995年生,碩士研究生,主要研究方向:機(jī)器視覺、人工智能。E-mail: 2111904371@mail2.gdut.edu.cn
S225
A
1674-2605(2021)06-0005-06
10.3969/j.issn.1674-2605.2021.06.005