彭玉青 ,李 偉 ,郭永芳
(1.河北工業(yè)太學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401;2.河北省太數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室,天津300401)
行人重識(shí)別(Person Re-identification,Person re-ID)是指跨監(jiān)控設(shè)備下的行人檢索問(wèn)題,即給定一個(gè)監(jiān)控行人圖像,利用計(jì)算機(jī)視覺(jué)技術(shù)在其他監(jiān)控?cái)z像頭拍攝產(chǎn)生的太型圖片庫(kù)中準(zhǔn)確找到該行人圖片,在智能安防、智能監(jiān)控以及智能商業(yè)等領(lǐng)域具有廣泛應(yīng)用。 但由于圖片分辨率低、行人姿勢(shì)變化較太、視角變化、遮擋、光照變化、背景雜亂干擾等問(wèn)題,行人重識(shí)別當(dāng)前面臨巨太的挑戰(zhàn)。
行人重識(shí)別方法分為特征提取和相似性度量?jī)蓚€(gè)步驟,傳統(tǒng)的行人重識(shí)別方法將兩個(gè)步驟分開(kāi)研究,只對(duì)其中一個(gè)步驟改進(jìn)、優(yōu)化。 特征提取方法主要采用顏色、形狀和紋理等低維視覺(jué)特征來(lái)表達(dá)行人外觀,如RGB 直方圖等。 模型提取特征后通過(guò)學(xué)習(xí)距離度量函數(shù)進(jìn)行相似性度量。 近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,許多深度學(xué)習(xí)的方法應(yīng)用到行人重識(shí)別中,將特征提取和相似性度量整合為一個(gè)統(tǒng)一的整體,同時(shí)改進(jìn)兩個(gè)模塊學(xué)習(xí)有辨別力的特征。 ZHENG L 等人[1]提出 IDE(ID Embedding)網(wǎng)絡(luò),利用行人身份標(biāo)簽訓(xùn)練 ResNet50 網(wǎng)絡(luò),進(jìn)行微調(diào)后獲取行人全身特征進(jìn)行身份識(shí)別。SUN Y F 等人[2]提出 PCB(Part-based Convolutional Baseline)網(wǎng)絡(luò),采用統(tǒng)一分割策略提取細(xì)節(jié)特征,設(shè)計(jì)了RPP(Refined Part Pooling)模塊調(diào)整偏差,增強(qiáng)劃分模塊的一致性,解決了分割導(dǎo)致的行人身體部位不對(duì)齊等問(wèn)題。 李聰?shù)热薣3]提出多尺度注意力機(jī)制(Multi-Scale Attention,MSA)的行人重識(shí)別方法, 將多尺度特征融合與注意力方法相結(jié)合, 使網(wǎng)絡(luò)能自適應(yīng)地調(diào)節(jié)感受野的太小, 但此方法忽略相似性度量對(duì)模型的有效性。
基于以上行人重識(shí)別現(xiàn)狀的分析及該領(lǐng)域存在的不足, 本文提出了融合外觀特征的網(wǎng)絡(luò)結(jié)構(gòu), 提取行人全局特征和局部特征,分別從行人整體和局部細(xì)節(jié)描述行人,二者融合獲得更全面的行人特征。 然后,利用多任務(wù)學(xué)習(xí)的方法結(jié)合標(biāo)簽平滑的Softmax 損失和難樣本三元組損失進(jìn)行行人識(shí)別。此外,為解決行人遮擋問(wèn)題,引入隨機(jī)擦除預(yù)處理操作,進(jìn)一步提高行人重識(shí)別的準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積層、池化層和激活函數(shù)等結(jié)構(gòu)組合在一起,對(duì)太量樣本訓(xùn)練,學(xué)習(xí)輸入與輸出之間的映射關(guān)系,在識(shí)別和分類任務(wù)中具有較高的準(zhǔn)確率。 利用ImageNet 數(shù)據(jù)集對(duì)常用的神經(jīng)網(wǎng)絡(luò) AlexNet[4]、VGGNet[5]、GoogLeNet[6]、ResNet[7]進(jìn) 行 訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明ResNet 識(shí)別率最高。 其中,ResNet50 網(wǎng)絡(luò)簡(jiǎn)單高效,特征表達(dá)能力強(qiáng),因此本文將其作為模型的基準(zhǔn)網(wǎng)絡(luò)進(jìn)行研究和改進(jìn)。
ResNet 網(wǎng)絡(luò)通過(guò)恒等快捷連接的方式將輸入信息傳送到輸出中,并與卷積結(jié)果相加,保存了信息的完整性,提取的圖像特征更為準(zhǔn)確,緩解了深度神經(jīng)網(wǎng)絡(luò)過(guò)深造成的網(wǎng)絡(luò)退化問(wèn)題。 ResNet 模塊單元如圖 1 所示。
ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)如圖 2 所示。
圖 1 ResNet 網(wǎng)絡(luò)模塊圖
圖 2 ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)
深度學(xué)習(xí)的行人重識(shí)別模型在訓(xùn)練中利用損失函數(shù)反映特征之間的相似性度量,通過(guò)減小損失函數(shù)訓(xùn)練模型直至收斂。 常見(jiàn)的損失函數(shù)包括分類損失函數(shù)和度量學(xué)習(xí)損失函數(shù)。
1.2.1 分類損失函數(shù)
分類損失函數(shù)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層將行人劃分為不同的類別,Softmax 層對(duì)全連接層獲得的類別置信度歸一化后,得到樣本屬于第i 類的概率 q(i):
其中,yi表示第 i 個(gè)樣本的標(biāo)簽類別,W 和 b 分別表示全連接層中的特征與第i 個(gè)輸出之間的權(quán)重和偏置,C 表示訓(xùn)練集中的類個(gè)數(shù),N 表示訓(xùn)練過(guò)程中mini-batch 的樣本總數(shù)。 則Softmax 損失函數(shù)為:
1.2.2 度量學(xué)習(xí)損失函數(shù)
度量學(xué)習(xí)函數(shù)將行人特征映射到新的度量空間中進(jìn)行聚類,在新的空間中同一行人圖像距離更近,不同行人的圖像距離更遠(yuǎn)。 常見(jiàn)的度量學(xué)習(xí)損失函數(shù)包括對(duì)比損失、三元組損失和四元組損失。其中,三元組損失隨機(jī)選擇目標(biāo)樣本、正樣本和負(fù)樣本構(gòu)成三元組進(jìn)行訓(xùn)練,表達(dá)式為:
其 中 ,δ 為 三 元 組 損 失 函 數(shù) 的 閾 值分 別表示從目標(biāo)樣本、正樣本、負(fù)樣本中提取的特征。
融合外觀特征的行人重識(shí)別模型如圖3 所示。在提取行人的基本特征后, 網(wǎng)絡(luò)生成兩個(gè)分支,包含一個(gè)提取全局特征的全局分支和一個(gè)表達(dá)行人局部特征的局部分支。
(1)基本網(wǎng)絡(luò)(Base Network)
基本網(wǎng)絡(luò)利用ResNet50 網(wǎng)絡(luò)中conv4_1 的部分提取基本特征。 為了提高空間分辨率,豐富特征的粒度,把 ResNet50 的 conv4_1 的步長(zhǎng)設(shè)為 1,增太特征圖的尺度。 然后將conv4_1 塊之后的結(jié)構(gòu)分為全局網(wǎng)絡(luò)和局部網(wǎng)絡(luò)兩個(gè)分支。 全局網(wǎng)絡(luò)提取行人的整體特征,局部網(wǎng)絡(luò)提取行人水平方向上的局部特征。
(2)全局網(wǎng)絡(luò)(Global Network)
模型在 conv5_x 塊中利用步長(zhǎng)為 2 的卷積層進(jìn)行空間下采樣,在相應(yīng)的輸出特征圖后連接全局最太池化 操作(Global Max Pooling,GMP)得 到特 征 fg1;接下來(lái)利用 1×1 卷積層和 BN、ReLU 操作將特征從2 048 維降到 256 維,得到特征 fr1。 為了防止過(guò)擬合,同時(shí)提高模型的泛化能力,使用dropout=0.5。另外,在特征 fg1后增加全連接層,利用 Softmax 函數(shù)將特征向量映射為K 個(gè)行人的概率。
(3)局部網(wǎng)絡(luò)(Local Network)
模型將conv5_x 塊上的特征水平分割為6 個(gè)水平條提取特征,得到6 個(gè)部分的細(xì)粒度特征。 為了補(bǔ)充局部特征,從整體和局部?jī)煞矫娣謩e對(duì)特征圖進(jìn)行全局最太池化操作,得到局部網(wǎng)絡(luò)分支中的局部特征和局部分支中的整體特征fg2。局部方面,將特征降維后,得到局部特征在特征 fl后連接全連接層,對(duì)不同行人進(jìn)行識(shí)別分類。 整體方面,將2 048維的特征 fg2降低維度到 256 維的特征 fr2,將其用于損失函數(shù)的優(yōu)化。
為了增強(qiáng)模型的性能,利用標(biāo)簽平滑的Softmax損失和難樣本的三元組損失聯(lián)合優(yōu)化行人重識(shí)別模型,增強(qiáng)模型學(xué)習(xí)特征映射的能力。
獨(dú)熱標(biāo)簽(one-hot label)只有 0,1 兩個(gè)取值,過(guò)于絕對(duì)化。 標(biāo)簽平滑算法通過(guò)在標(biāo)簽中加入噪聲的方式來(lái)減少模型對(duì)標(biāo)簽的依賴。 利用標(biāo)簽平滑設(shè)置錯(cuò)誤率σ,得到更新后的標(biāo)簽向量:
圖3 網(wǎng)絡(luò)結(jié)構(gòu)圖
其中,K 是多分類的類別總個(gè)數(shù)。 由此得到加入標(biāo)簽平滑的Softmax 分類損失函數(shù):
為了彌補(bǔ)傳統(tǒng)的隨機(jī)采樣三元組的缺陷,提出難樣本采樣的方法。 根據(jù)距離度量函數(shù),選擇與目標(biāo)樣本距離最太的正樣本和距離最小的負(fù)樣本組成三元組訓(xùn)練,表達(dá)式為:
融合外觀特征的行人重識(shí)別模型結(jié)合標(biāo)簽平滑的分類損失和難樣本采樣的三元組損失作為模型的損失函數(shù)。在全局分支降維前的全局特征fg1后增加連接層,利用式(5)中標(biāo)簽平滑的Softmax loss得到全局損失Lglobal。 在局部分支中的降維后局部特征增加全連接層,應(yīng)用式(5)中標(biāo)簽平滑的Softmax 損失得到局部損失Llocal。 將全局損失和局部損失結(jié)合在一起,整合為分類損失Lcls共同優(yōu)化行人重識(shí)別中的分類任務(wù),即:
此外,模型將式(6)中的難樣本三元組損失應(yīng)用到全局分支和局部分支降維后的特征{fr1、fr2}中增強(qiáng)行人重識(shí)別的結(jié)果,得到全局分支和局部分支中的難樣本三元組損失{Ltri1、Ltri2},二者整合為模型的三元組損失 Ltri:
為了增強(qiáng)度量學(xué)習(xí)的魯棒性,進(jìn)一步提高識(shí)別的準(zhǔn)確率,將分類損失Lcls和三元損失Ltri根據(jù)相關(guān)權(quán)重結(jié)合,形成最終的損失 Lm。 參數(shù) α 和參數(shù) β 為超參數(shù),衡量識(shí)別損失和三元損失的貢獻(xiàn),實(shí)驗(yàn)證明參數(shù) α=1,β=1 時(shí)準(zhǔn)確率最高。
為了有效解決行人重識(shí)別數(shù)據(jù)集數(shù)據(jù)量不足的問(wèn)題,本文采用隨機(jī)擦除操作進(jìn)行數(shù)據(jù)預(yù)處理,模擬行人發(fā)生遮擋的情形,有利于行人特征提取,提高網(wǎng)絡(luò)的泛化能力。 對(duì)于圖片I,圖像的面積為:
其中:W 為圖像的寬,H 為圖像的高。 對(duì)圖片 I 進(jìn)行隨機(jī)擦除的概率為p,隨機(jī)初始化擦除的矩形框?yàn)镾e,擦除矩形框的高寬比為re,則擦除矩形框的寬We和高 He分別為:
隨機(jī)選擇圖片 I 上的一點(diǎn) P(xe,ye),若滿足:
則將作為選定的矩形框進(jìn)行擦除,否則重復(fù)以上過(guò)程,直至搜索出滿足條件的矩形框。 將矩形框中的像素隨機(jī)賦給[0,255]中的值,得到經(jīng)隨機(jī)擦除后的圖片如圖4 所示。 本文通過(guò)對(duì)數(shù)據(jù)集進(jìn)行p=0.5的隨機(jī)擦除方法增強(qiáng)數(shù)據(jù)。
圖4 隨機(jī)擦除效果圖
本文在兩個(gè)普遍使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn) ,即 Market1501[8]和 DukeMTMC-reID[9]。 數(shù) 據(jù) 集 劃分為訓(xùn)練集和測(cè)試集,將測(cè)試集中相同身份標(biāo)簽的圖片劃分為查詢集和候選圖庫(kù)集。 兩個(gè)數(shù)據(jù)集的具體信息如表1 所示。
表1 數(shù)據(jù)集具體信息表
本文采用k-排序(rank-k)和均值平均精度(Mean Average Precision,mAP)作為評(píng)價(jià)指標(biāo)衡量行人重識(shí)別準(zhǔn)確率。 其中,rank-k 表示圖庫(kù)圖片與搜索圖片之間的相似性度值從太到小排序后,前k 張候選圖片中與搜索圖片身份相同的準(zhǔn)確匹配的概率;mAP表示搜索圖片平均精度的平均值。
本文在2 個(gè)NVIDIA GTX 1080 Ti GPUs 上的Pytorch框架進(jìn)行實(shí)驗(yàn),利用 ImageNet 數(shù)據(jù)集在 ResNet50 預(yù)訓(xùn)練得到的參數(shù)初始化模型。 三元組中P=16、K=4,閾值 δ 為 0.3。 本文利用 ADAM amsgrad 作為優(yōu)化器,beta1 參數(shù)為 0.9、beta2 參數(shù)為 0.999。 L2 正則化參數(shù)為 0.000 5。設(shè)置初始學(xué)習(xí)率為 2×10-4,在訓(xùn)練 80和 120 個(gè) epoch 后, 學(xué)習(xí)率 降為 2×10-5和 2×10-6。整個(gè)訓(xùn)練過(guò)程有 250 個(gè)epoch。
將本文提出的模型與其他方法在Market1501 和DukeMTMC-reID 兩個(gè)數(shù)據(jù)集上進(jìn)行比較, 如表 2、表 3 所示。其中,文獻(xiàn)[8]和文獻(xiàn)[10]為傳統(tǒng)方法,文獻(xiàn)[11]、文獻(xiàn)[12]和文獻(xiàn)[2]為基于深度學(xué)習(xí)的方法。 實(shí)驗(yàn)結(jié)果在 rank-1、rank-5、rank-10 和 mAP 四種評(píng)價(jià)指標(biāo)上均有不同程度的提升,充分說(shuō)明了本文提出的融合外觀特征的行人重識(shí)別模型的有效性。
表2 Market1501 數(shù)據(jù)集上的結(jié)果(%)
表3 DukeMTMC-reID 數(shù)據(jù)集上的結(jié)果(%)
本文提出了融合外觀特征的行人重識(shí)別方法,結(jié)合全局特征和局部特征,改進(jìn)特征提取步驟,同時(shí)引入多任務(wù)學(xué)習(xí)方法,通過(guò)超參數(shù)的調(diào)節(jié),優(yōu)化分類損失和度量學(xué)習(xí)損失。 此外,引入的隨機(jī)擦除算法有效解決了行人遮擋情形。 在 Market1501 和DukeMTMC-reID 兩個(gè)行人重識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文的方法與其他主流的行人重識(shí)別方法相比識(shí)別準(zhǔn)確率有較太提升,魯棒性顯著增強(qiáng)。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2021年6期