王振學,許喆銘,雪洋洋,郎叢妍,李尊,魏莉莉
北京交通大學計算機與信息技術學院,北京 100044
車輛重識別是智能交通系統的一部分。其從查詢集中任選一幅車輛圖像作為查詢對象,旨在從圖庫集中檢索出由不同角度攝像機拍攝的與查詢對象相同的車輛圖像。該任務應用于車輛檢索(Liu等,2020)、交通流分析(Jiang等,2018)和車輛跟蹤(Xu等,2020)等智能交通系統研究領域中,已成為當前計算機視覺和多媒體分析領域的熱門研究課題之一。
早期的車輛重識別方法(Liu等,2016b;Jeng和Chu,2013)主要關注于手工設計的底層特征,諸如顏色和紋理等,并設計一定的計算規(guī)則進行車輛重識別任務的研究。此類方法側重于對車輛圖像某方面特征的抽取,對特定任務表現出不錯的識別性能。然而這些底層特征容易受到外界環(huán)境的干擾,例如光照、遮擋和視角變化等,使這類算法的識別精度受限。隨后,一些算法(Liu等,2016c;Liu等,2018a)根據車牌是車輛身份唯一標識這一特性,通過檢測圖像中車牌的位置,將車牌字符從整幅圖像中分割出來,并進一步根據車牌號進行車輛重識別。此類方法在一定程度上緩解了早期方法對手工設計底層特征的依賴。然而,由于車牌像素模糊以及車牌被偽造、遮擋和涉及隱私安全等諸多方面因素,給搜索目標車輛帶來極大挑戰(zhàn)。
受益于神經網絡強大的自主學習能力及對區(qū)分力特征的表征能力,深度卷積神經網絡(Wang等,2017;Zhou和Shao,2018)在車輛重識別任務上得到了廣泛運用,推動了車輛重識別技術的進一步發(fā)展。其中,一些算法考慮從車輛的局部位置中提取關鍵信息。He等人(2019a)利用局部正則化方法,選擇性地關注更有區(qū)分力的關鍵區(qū)域,例如年檢標志粘貼的位置、車內的掛飾等,忽略其他不相關的信息。Liu等人(2018a)將整個圖像水平分割成3個部分,并從3個重疊的局部區(qū)域中提取相應的區(qū)域特征。Chen等人(2020)提出一個專注于不同部位的注意力網絡,通過預測不同視角下對象車輛的掩膜,提取對應部分的判別特征。潘海鵬等人(2021)提出一種基于注意力與多尺度融合學習的車輛重識別方法,在多尺度下提取并融合淺層細節(jié)信息和深層語義信息。相比于早期對車輛重識別算法的研究,上述方法大幅提升了研究領域的整體識別性能,但在車輛重識別任務中會遇到類內差異性、類間相似性、分辨率低和遮擋等多項挑戰(zhàn),如圖1所示,即相機拍攝角度的不同會導致同一輛車在不同視角下形成自身差別,不同車輛在相同視角下因外觀相同產生類間相似,或視角被物體遮擋使得拍攝的圖像不完整等,這使得現有方法未能充分對多尺度上下文信息進行有效地抽取,不能充分表征與運用豐富的細粒度特征,使這些挑戰(zhàn)影響了最終車輛重識別的精度。
圖1 車輛重識別任務中的挑戰(zhàn)
為了緩解上述問題,本文提出一種融合全局與空間多尺度上下文信息的車輛重識別方法(global and spatial multi-scale contexts fusion for vehicle re-identification,GSMC),利用全局與多尺度空間上下文信息,對判別特征進行有效的選擇優(yōu)化。GSMC包含全局上下文特征選擇和多尺度空間上下文特征選擇兩個模塊。前者首先對車輛判別特征進行劃分,然后根據每個部分對最終識別任務不同的貢獻程度,動態(tài)地學習其對應的權重度量因子,并以此優(yōu)化車輛判別特征。而后者從多尺度思想出發(fā),對得到的判別特征通過下采樣的方式獲得多尺度特征,然后選擇性地集成來自多級特征的空間上下文信息,提升模型對于車輛空間位置特征的感知能力。通過兩個模塊的相互協作,使GSMC能夠分別從全局與空間局部方面獲得強判別力的上下文信息。本文主要貢獻如下:1)提出一種融合全局與空間多尺度上下文信息的車輛重識別方法,同時優(yōu)化全局與空間局部上下文信息,獲得更加魯棒的特征表示。2)設計全局上下文特征選擇及多尺度空間上下文特征選擇兩個模塊。同時考慮圖像的全局及多尺度空間上下文信息,學習車輛圖像的前景特征響應圖,以生成強判別力的車輛識別特征。3)在公開數據集VehicleID及VeRi-776(vehicle re-idendification-776)上進行實驗,驗證了提出的GSMC在車輛重識別問題上的性能優(yōu)于主流算法的性能。
隨著深度學習技術在各領域的應用與發(fā)展,基于深度學習的車輛重識別方法備受關注。按照學習方法的不同,車輛重識別方法分為基于表征學習的方法和基于度量學習的方法。
基于表征學習的方法在訓練網絡時未考慮圖像間的相似度,將車輛重識別任務看做分類問題。例如,Shen等人(2017)將車輛圖像和其時空信息構造為一個狀態(tài),利用鏈式馬爾可夫模型,生成多條候選的視覺—空間—時間路徑,之后使用孿生卷積神經網絡計算候選路徑中近鄰圖像之間的相似程度,最后使用長短期記憶網絡,以該條候選路徑作為先驗知識,判斷該查詢對是否具有相同的ID(identity),有效規(guī)范車輛重識別的結果。Khorramshahi等人(2019)為了解決車輛視角變化帶來的影響,對車輛的關鍵部位定義并將關鍵點分為4組,使用注意力機制提取車輛具有辨別力的局部特征。Wang等人(2017)提出一個包含方向不變特征嵌入和時空正則化兩個模塊的方法,首先選取車身上具有辨識性的20個候選區(qū)域,得到車輛關鍵點對應的映射圖,再基于車輛的4個面,將這些關鍵點聚合成4個候選區(qū)域掩碼,利用原始的輸入圖像和生成的候選區(qū)域掩碼,可以獲得一個全局特征和4個局部特征。最后,這些特征通過特征聚合模塊進行融合,輸出一個方向不變特征向量。在時空正則化模塊中,利用時空信息對檢索結果進一步優(yōu)化。
基于度量學習的方法旨在通過網絡模型學習出圖像間的相似度。例如,Liu等人(2016a)設計了一個雙分支的混合差分網絡,將輸入的車輛圖像映射到具有可區(qū)分性的特征空間,同時考慮到傳統三元組損失的不足,提出了成對簇損失函數,縮小正樣本對之間的距離并增大負樣本對之間的距離。構建了一個真實監(jiān)控場景下高質量的車輛重識別數據集VeRi-776,并使用車輛的外觀特征和額外的時空信息作為輸入,送入有兩個網絡輸入的孿生網絡,度量輸入圖像之間的相似性。Chu等人(2019)將車輛重識別分為相似視角和不同視角,通過執(zhí)行空間內約束與跨空間約束,可以在相似視角圖像干擾下檢索不同視角的圖像。
為了學習到更有區(qū)分性的特征映射空間,許多工作聯合這兩種學習方法一起優(yōu)化網絡,用于獲得更具判別力的特征作為最終的特征表示,從而進一步提高算法性能。Zhou和Shao(2017)設計了一個XVGAN(cross-view generative adversarial network),采用對抗學習方案從單幅圖像生成多個視角下的車輛圖像或特征,可以在一定程度上解決視角變化的挑戰(zhàn),但是可能很難區(qū)分外觀非常相似的不同車輛。Zhou和Shao(2018)使用視圖感知注意力模型獲取車輛在多個視角下的局部特征,再利用對抗訓練方法,設計了一個多視角生成網絡,可以從輸入圖像的單角度特征推斷生成一個包含多角度信息的車輛特征,以實現全方位的外觀特征對比。
一些研究重點關注車輛的關鍵區(qū)域,從車輛局部區(qū)域獲得更具區(qū)分性的特征。Chen等人(2019)設計了一種先分割后聚合的PRN(partition and reunion network),將特征圖分別在空間和通道維度上進行了4等分割,并將最后的全連接層輸出的子特征向量進行拼接,作為交叉熵損失函數的輸入,通過這種先分割再聚合的訓練策略,該模型不使用額外的標注信息就可以捕捉到豐富的車輛局部特征,但是缺少對不同尺度大小關鍵區(qū)域的選擇。Qian等人(2019)用水平劃分的方式獲得局部特征,可以有效抵消水平視角變化引起的不利影響,同時,在車輛屬性標簽的監(jiān)督下從特征圖中提取全局特征,幫助訓練網絡。邱銘凱和李熙瑩(2021)提出一個基于細節(jié)感知的判別特征學習模型,設計了一個指導式的車輛局部特征提取流程,將局部特征與骨干網絡提取的全局特征聯合作為車輛特征。Liu等人(2018a)使用劃分的方式進行分塊,從一系列局部區(qū)域中提取特征,同時學習全局外觀和局部區(qū)域的特征,但未考慮不同部分對最終的重識別結果的重要程度不同。
不同于上述研究,本文方法不僅為提取的特征動態(tài)地分配權重度量因子,而且考慮對多尺度特征融合,更好地實現前景目標與背景的分離,以提升模型性能。
圖2展示了GSMC的整體網絡結構,包含全局上下文特征選擇和多尺度空間上下文特征選擇兩個模塊。此外,引入基于規(guī)則劃分模塊以獲得局部特征(圖2右上角)。給定一幅車輛圖像,GSMC首先采用預訓練好的基礎網絡提取其初始化的車輛特征。類似于主流算法(Chen等,2020;Khorramshahi等,2019),GSMC利用ResNet-50-ibn-a(Pan等,2018)作為特征提取的基礎網絡。不同于原始ResNet-50-ibn-a,GSMC去除了基礎網絡的全連接層及最后一個池化層。對于ResNet-50-ibn-a最后一個卷積層輸出的特征,其編碼了豐富的高層語義信息,能夠較好地捕捉到車輛的全局與局部信息,因此,在此判別力特征之上,GSMC首先設計一個全局上下文特征選擇模塊,對判別特征進行規(guī)則劃分,從整體上學習每個部分的重要性分數,以此增強特征響應大的關鍵區(qū)域,提取具有判別力的細節(jié)特征。針對優(yōu)化后的全局特征,受多尺度思想的啟發(fā),GSMC進一步設計一個多尺度空間上下文特征選擇模塊,對優(yōu)化后的特征采用多尺度劃分,選擇性地集成來自多級特征的空間上下文信息,獲得可以區(qū)分前景與背景的特征響應圖,去除噪聲以及冗余信息的影響。通過兩個模塊的相互協作,使GSMC能夠分別從全局與空間局部方面獲得強判別力的上下文信息,不僅可以挖掘車輛不同部位的細粒度判別信息,也可以從多尺度的空間特征中學習到前景特征,獲得更加魯棒的特征表示。
圖2 融合全局與多尺度空間上下文信息的車輛重識別模型的整體框架結構示意圖
ci=P(Conv1×1(xi))
(1)
式中,P表示全局平均池化(global average pooling) 操作,Conv1×1(·)代表1×1的卷積函數。此外,為了度量每個部分特征的重要度,本模塊連結N個部分學習到的特征權重因子,并采用全局歸一化操作,通過各部分權重值之間的相互交流,更新對應部分生成的權重值。該更新過程可表示為
(2)
(3)
式中,=表示拼接函數,⊕表示殘差機制中的對應元素相加操作。
(4)
(5)
式中,⊙表示數乘操作。該模塊利用多尺度特征之間的信息交互,能夠自適應地為車輛分配較大的權重來增強前景的效果,為背景賦予較小的權重來減弱噪聲等信息的干擾,以選擇更加魯棒的空間上下文信息。
為了獲得細粒度特征空間,得到更有區(qū)分力的特征表示,最終特征F可以表示為
(6)
(7)
(8)
考慮到交叉熵損失函數雖然可以減小類間差異,但不擅長于使同一類的特征變得更加緊湊,不足以有效地學習魯棒的特征表示。因此,利用三元組損失函數(Hermans等,2017)Lt在特征空間拉近正樣本對的類內距離,增大負樣本對的類間距離,進一步提高車輛重識別性能。最終的損失函數可以表示為
L=Ls+L′s+Lt
(9)
通過多個損失函數的聯合優(yōu)化,可以增強模型的學習能力,引導網絡學習更好的特征嵌入空間,在訓練階段生成車輛更具判別力的特征表示。
實驗采用在ImageNet數據集(Deng等,2009)上預訓練的ResNet-50(Pan等,2018)作為基礎網絡。在模型訓練過程中,為了使模型具有較快的收斂速度,在前5個epoch內使用預熱學習策略保持模型的穩(wěn)定。訓練參數設置如下:epoch為50,學習率為0.000 1,且在第15個和第40個epoch時衰減,優(yōu)化器為Adam,動量為0.9,批處理大小為64,車輛圖像尺寸為256 × 256像素。對于每個批處理,訓練樣本來自16輛不同ID(類別)的車輛,每個ID包括4幅隨機選擇的圖像。
為了驗證提出模型的有效性,在主流的公開數據集VehicleID(similar vehicles)(Liu等,2016a)和VeRi-776(Liu等,2016;Liu等,2018a)上進行實驗,采用rank-1,rank-5和mAP(mean average precision)評價指標評測模型的性能。rank-1和rank-5分別表示結果列表中排名前1和前5個結果的檢索準確率,mAP表示平均準確率。
VehicleID數據集由多個視角互不重疊的監(jiān)控攝像頭在白天拍攝的車輛圖像組成,每輛車的拍攝視角只有前視和后視,共221 763幅26 267輛車的圖像,平均每輛車8.44幅圖像,其中10 319輛車的90 196幅圖像標注了車型等信息。數據集中的車輛共7種顏色,250種型號。數據集分為訓練集與測試集。訓練集包含13 134輛車的110 178幅車輛圖像。測試集根據車輛圖像的數目又分為小規(guī)模、中等規(guī)模和大規(guī)模測試子集,候選集由每個ID的1幅車輛圖像組成,剩余的圖像構成查詢集,每個子集包含的車輛ID數分別為800、1 600和2 400個。由于候選集中只包含每個ID的1幅車輛圖像,因此只使用rank-1與rank-5作為該數據集的性能評價指標。
VeRi-776數據集是在VeRi(Liu等,2016c)數據集上擴充標注后得到的,數據集中的車輛圖像由218個不同位置的攝像頭在不同環(huán)境中拍攝,圖像具有不同的視角、遮擋和光照等。數據集包括776輛車的近50 000幅圖像,其中,576輛車的37 778幅圖像作為訓練集,200輛車的11 579幅圖像作為測試集。數據集中所有圖像都標注了車輛ID、車型以及車輛顏色,共9種車型,10種顏色。此外,標注了所有車輛的軌跡、時空關系和各相機之間距離。選擇rank-1、rank-5和mAP作為該數據集的性能評價指標。
為驗證本文算法的性能,在兩個公共車輛重識別數據集上與VAMI(viewpoint-aware attentive multi-view inference)(Zhou和Shao,2018)、AAVER(adaptive attention model for vehicle re-identification)(Khorramshahi等,2019)、PNVR(part-regularized near-duplicate vehicle re-identification)(He等,2019a)、RAM(region-aware deep model)(Liu等,2018a)和SPAN + CPDM(semantics-guided part attention network + co-occurrence part-attentive distance metric)(Chen等,2020)等主流算法進行比較。
3.3.1 VehicleID數據集實驗結果
在VehicleID數據集上,選擇大規(guī)模測試子集進行實驗,因為其含有更多難以區(qū)分的車輛圖像,在該測試集上的準確度能更加充分地反映網絡模型的魯棒性和泛化能力。實驗時,Baseline模型同時使用標簽平滑的交叉熵損失函數和三元組函數,以ResNet-50-ibn-a為基礎網絡。表1為本文模型與主流車輛重識別方法在3個測試子集上的對比結果。相比于主流方法和Baseline,本文模型在大規(guī)模測試子集上取得了最優(yōu)的結果, rank-1和rank-5指標分別為75.0%和90.9%。與使用了多視角學習方法的VAMI相比,本文方法在大規(guī)模測試子集上的評測結果rank-1和rank-5分別提高了27.7%和20.7%。AAVER方法可以將全局特征與通過使用自適應關鍵點和方向的注意力機制獲得的細節(jié)特征進行融合,但是忽略了不同尺度下的細節(jié)信息,致使學習到的局部特征較少。與AAVER方法相比,本文提出的融合全局與空間多尺度上下文信息的車輛重識別方法可以得到更多的細粒度判別特征,rank-1和rank-5指標分別提高了11.5%和5.3%。與沿空間維度、通道維度劃分的PRN相比,本文方法不僅可以得到每個部分的重要程度,還可以避免背景對全局特征造成的影響,在VehicleID大規(guī)模測試子集上的rank-1與rank-5分別提高了3.5%和2.5%。SAN通過水平劃分的方式提取全局上下文信息,以學習有效的特征嵌入,但是忽略了不同部分的重要程度。與SAN相比,本文方法在大規(guī)模測試子集上的rank-1與rank-5分別提升了0.6%和2.3%。通過實驗分析可知,本文模型在不需要額外標注信息的條件下,利用全局上下文特征選擇模塊和多尺度空間上下文特征選擇模塊可以明顯提升車輛重識別的效果,不僅能獲取車輛不同部位的重要度,而且可以區(qū)分前景目標與背景,增強特征的魯棒性。值得注意的是,對于VehicleID數據集,候選集中每個ID只有1幅車輛圖像,因此,重排序是不適用的。
表1 VehicleID 數據集上與主流方法性能對比
3.3.2 VeRi-776數據集實驗結果
表2為本文GSMC模型與主流算法在VeRi-776數據集上的性能比較結果。可以看出,提出模型的性能優(yōu)于使用額外非視覺特征的方法FACT + SNN + STR(fusion of attributes and color features+ siamese neural network+spatio-temporal relations)(Liu等,2016c)、OIFE+ST(orientation invariant feature embedding+spatial temporal regularization)(Wang等,2017)、RAM(Liu等,2018a)和解決跨視角偏差的方法VAMI(Zhou和Shao,2018)、PNVR(He等,2019a)和AAVER(Khorramshahi等,2019)。與同樣使用全局上下文信息的RAM(Liu等,2018a)相比,本文方法在沒有引入車輛額外信息的條件下,mAP、rank-1和rank-5指標分別提升了2.3%、3.0%和1.0%。與結合了全局特征和全局上下文特征等的SAN相比,本文方法通過提出的多尺度空間上下文特征選擇模塊,mAP、rank-1和rank-5指標分別提升了16.1%、7.7%和4.1%。與性能第2的PNVR相比,提出的模型的mAP和rank-1指標分別實現了 + 3.1%和 + 2.0%的明顯增益。特別地,當使用Re-ranking(Zhong等,2017)作為VeRi-776數據集的后處理步驟時,在k-互反編碼(Zhong等,2017)重排序算法處理之后,mAP從77.6%增加到80.8%,模型的整體識別性能明顯提升。實驗結果表明,提出的模型不僅可以對每個局部特征進行學習,得到每個局部區(qū)域的重要性分數,而且可以整合不同尺度的特征,對特征進行選擇,避免背景或遮擋對全局特征造成影響,可以有效抵消水平視角變化帶來的不利影響。通過實驗性能的對比,證明了本文模型的有效性。
表2 不同方法在VeRi-776 數據集上的性能對比
為了證明提出模型的各子模塊的有效性,在基于交叉熵損失和三元組損失聯合優(yōu)化的Baseline網絡的基礎上,通過逐步添加全局上下文特征選擇模塊和多尺度空間上下文特征選擇模塊,在VeRi-776數據集上構建消融實驗,得到各模塊對算法的提升效果。此外,為了進一步證明這兩個模塊的有效性,增加了使用通道維和空間維注意力機制的消融實驗。實驗結果表明,得益于所提模塊能夠更有效地選擇車輛關鍵特征,本文方法的mAP、rank-1和rank-5指標分別提升了5.6%、2.1%和0.6%。不同模塊組合得到的實驗結果如表3所示。其中,第1行是本文的Baseline網絡框架,GCS(global contextual selection module)表示全局上下文特征選擇模塊,MSCS(multi-scale spatial contextual selection module)表示多尺度空間上下文特征選擇模塊,PART(part based partition module)表示基于規(guī)則劃分模塊、Attention表示基于通道維和空間維的注意力機制。
表3 不同模塊組合得到的實驗結果
3.4.1 全局上下文特征選擇模塊
將加入全局上下文特征選擇模塊的模型與Baseline相比,由表3第3行與第1行可得,mAP、rank-1和rank-5指標分別提高了0.9%、1.8%和0.8%。從表3第4行與第5行可以看出,基于多尺度空間上下文特征選擇模塊引入全局上下文特征選擇模塊后,mAP、rank-1和rank-5指標又分別提高了2.0%、0.7%和0.2%。這些結果都證明了全局上下文選擇模塊的有效性,可以學習到細粒度的判別信息。
圖3是4組加入全局上下文特征選擇模塊前后的特征注意力熱圖。每組左列是原始車輛圖像,中間列是加入該模塊前的注意力熱圖,右列是經過該模塊后輸出的注意力熱圖,顏色越深代表權重越大,對識別車輛身份越重要。通過該模塊使網絡可以自動關注重要的區(qū)域,提高車輛重識別的性能。在不使用額外標注信息的情況下,該模塊能夠有效捕捉豐富的局部特征,對全局特征進行細節(jié)上的補充。
圖3 進入全局上下文特征選擇模塊前后的特征注意力熱圖
3.4.2 多尺度空間上下文特征選擇模塊
在實驗的訓練階段,使用帶有ID注釋的車輛圖像進行訓練,通過損失函數進行監(jiān)督,獲取能夠區(qū)分前景與背景的分類器。特征響應值越接近1,表示前景特征的概率越大;越接近0,表示背景的概率越大。在測試階段,多尺度空間上下文特征選擇模塊可直接預測輸入車輛圖像的前景特征響應圖,而無需通過人工標注。通過比較表3第4行與Baseline的實驗結果,使用了多尺度空間上下文特征選擇模塊的網絡在mAP、rank-1和rank-5上分別提高了1.0%、1.2%和0.6%。將表3第5行與第3行的結果對比,可以看出,該模塊在mAP指標上增加了2.1%。這些都表明該模塊對特征進行了過濾選擇,為車輛特征分配了較大的權重來增強前景的效果,為背景賦予較小的權重來減小背景的影響,獲得車輛更加魯棒的全局特征描述。圖4顯示了4組使用多尺度空間上下文特征選擇模塊生成車輛圖像的前景特征響應圖??梢钥吹?,使用該模塊可以準確地檢測到車的部分。
圖4 由多尺度空間上下文特征選擇模塊得到的車輛前景特征響應圖
除了比較不同模塊對車輛重識別實驗結果的影響外,使用規(guī)則劃分的方法驗證實驗效果,該方法可以對每一個局部特征而不是利用整幅圖像的全局特征進行分類學習。比較表3第6行與第5行的實驗結果,該方法的mAP、rank-1和rank-5指標又分別提高了3.1%、1.1%和0.2%,相比較于Baseline,在各評價指標上有了很大的性能提升。
本文探討了車輛識別任務面臨的挑戰(zhàn),提出了一個新穎有效的車輛重識別網絡。全局上下文特征選擇模塊動態(tài)地學習不同部分對應的權重度量因子,有效選擇對車輛識別貢獻大的關鍵區(qū)域,對判別特征進行優(yōu)化。多尺度空間上下文特征選擇模塊自適應地為車輛分配較大的權值來增強前景對重識別準確率的影響,為背景賦予較小的權重去除冗余信息,旨在將前景目標與背景進行分離,選擇出車輛特征,提升模型對于車輛空間位置特征的感知能力,獲得車輛更加魯棒的全局特征描述。在兩個公開數據集上與主流車輛重識別算法相比,通過消融實驗和對比實驗,本文方法可以明顯提升實驗效果,證明了本文方法的有效性。
本文算法利用車輛的視覺信息提取車輛的細粒度特征,未來希望進一步將局部區(qū)域之間的空間幾何結構關系、車輛的屬性信息(如顏色、車型等)融合到模型中,進一步提升算法各方面的性能。