李 博
重慶警察學(xué)院 刑事科學(xué)技術(shù)系,重慶401331
基于監(jiān)控視頻資料的客觀性、完整性、連貫性、實(shí)時性、可回溯性、不可避免性等特點(diǎn)和優(yōu)勢,視頻監(jiān)控已成為實(shí)現(xiàn)社會公共安全的最重要技術(shù)手段之一,廣泛應(yīng)用于社會各領(lǐng)域?;谟?jì)算機(jī)視覺技術(shù)的監(jiān)控信息智能化處理已成為視頻監(jiān)控系統(tǒng)發(fā)展應(yīng)用的必然趨勢。其中,具有人臉識別功能的視頻監(jiān)控已取得廣泛應(yīng)用,然而在實(shí)際監(jiān)控場景中,由于成像設(shè)備自身硬件因素,復(fù)雜的成像環(huán)境因素,視頻信號壓縮編碼、通信傳輸、存儲等環(huán)節(jié)出現(xiàn)的失真、丟失、干擾等因素,使得視頻往往呈現(xiàn)復(fù)雜的質(zhì)量問題,且攝像頭更多捕獲的是行人的頭頂、側(cè)臉或全身影像,往往無法抓拍到行人清晰的正面照,難以達(dá)到直接檢測和識別目標(biāo)人臉的條件,直接和單純依靠人臉識別技術(shù)的應(yīng)用往往難以發(fā)揮作用,從而造成大量有價(jià)值的視頻資料被閑置。作為人臉識別技術(shù)的重要補(bǔ)充,跨鏡行人追蹤(Person Re-Identification,Re-ID,又稱為行人重識別、行人再識別)技術(shù)應(yīng)運(yùn)而生,主要解決跨攝像頭、跨場景下行人的識別與檢索。該技術(shù)能夠根據(jù)行人的穿著、體態(tài)、發(fā)型、運(yùn)動特征,以及相關(guān)的交通工具、攜帶物品等信息認(rèn)知行人,在實(shí)際應(yīng)用中對無法獲取清晰人臉的行人進(jìn)行跨攝像頭連續(xù)跟蹤,增強(qiáng)數(shù)據(jù)的時空連續(xù)性,從而有效解決跨時空、跨設(shè)備、跨場景的視頻人像目標(biāo)檢索、定位、軌跡跟蹤,從而成為計(jì)算機(jī)視覺、人工智能研究的重要方向,更成為智能安防、智能尋人、智能商業(yè)等應(yīng)用領(lǐng)域中的重要技術(shù)。
跨鏡行人追蹤解決的主要內(nèi)容包括行人檢測、行人分割、骨架關(guān)鍵點(diǎn)檢測、行人跟蹤、動作識別、行人屬性結(jié)構(gòu)化、跨鏡追蹤及行人再識別。不同于臉部識別等其他視覺識別問題,運(yùn)用深度學(xué)習(xí)算法解決跨鏡行人追蹤僅僅取得了有限的成功,通常在小數(shù)據(jù)集上(如VIPeR[1])表現(xiàn)較好,而在大型數(shù)據(jù)集上(如Μarket1501[2]),跨鏡行人追蹤效果僅取得了較小的提升。缺少大量標(biāo)記訓(xùn)練集對模型進(jìn)行學(xué)習(xí)訓(xùn)練是導(dǎo)致這一問題的重要原因。在已經(jīng)公布的跨鏡行人追蹤數(shù)據(jù)集上,數(shù)據(jù)集的大小也非常有限:CUHΚ03 數(shù)據(jù)集[3]有1 360 個標(biāo)記樣本,Μarket1501有1 501個。相比之下,用于臉部識別的LFW數(shù)據(jù)集[4]有5 749個標(biāo)記樣本。面對不充分的訓(xùn)練樣本,學(xué)習(xí)從一個更大的數(shù)據(jù)集上遷移特征表達(dá)變得至關(guān)重要,遷移學(xué)習(xí)成為解決這一困境的重要技術(shù)方向。
對于任一個跨鏡行人追蹤數(shù)據(jù)集,遷移學(xué)習(xí)可以通過訓(xùn)練較大的數(shù)據(jù)資源獲得更好效果。ImageNet 數(shù)據(jù)集[5]包括了上千物體類別的上萬張圖像,常被作為模型預(yù)訓(xùn)練的輔助數(shù)據(jù)集用于視覺識別任務(wù)中。盡管如此,從ImageNet到跨鏡行人追蹤數(shù)據(jù)集的遷移學(xué)習(xí)仍然存在諸多阻礙:ImageNet的物體分類任務(wù)不同于跨鏡行人追蹤的驗(yàn)證問題,跨鏡行人追蹤模型的輸入是監(jiān)視視頻中行人的檢測圖像,存在差別較大的寬高比和較低的目標(biāo)分辨率。因此跨鏡行人追蹤模型與在ImageNet上出色的分類模型,在網(wǎng)絡(luò)結(jié)構(gòu)上存在較大差異,比如,有更小的濾波器,網(wǎng)絡(luò)結(jié)構(gòu)更淺,這些模型是從零開始訓(xùn)練跨鏡行人追蹤數(shù)據(jù)集,并不適合從ImageNet 上做遷移學(xué)習(xí)。針對訓(xùn)練樣本不足的問題,研究如何從一個更大的數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí)特征表達(dá)是深度跨鏡行人追蹤模型的實(shí)現(xiàn)難點(diǎn)。
為此,本文以一個已在大型數(shù)據(jù)集上訓(xùn)練好的模型作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),針對跨鏡行人追蹤模型,修改最后的損失度量層,優(yōu)化三元組損失函數(shù),再做兩步微調(diào),使得到的新模型能夠適應(yīng)新的數(shù)據(jù)集。該方法優(yōu)勢在于利用先進(jìn)的現(xiàn)有網(wǎng)絡(luò)模型,不必完全從零開始訓(xùn)練模型,能夠在較少的迭代次數(shù)中得到比較良好的效果,提高了實(shí)驗(yàn)效率。
本文改進(jìn)了深度跨鏡行人追蹤的網(wǎng)絡(luò)結(jié)構(gòu),提出針對從大數(shù)據(jù)集ImageNet到跨鏡行人追蹤數(shù)據(jù)集遷移的特征表示,提出在ImageNet 上優(yōu)化標(biāo)準(zhǔn)的殘差網(wǎng)絡(luò)(ResNet)層結(jié)構(gòu),同時基于三元組訓(xùn)練網(wǎng)絡(luò)框架,改進(jìn)三元組損失函數(shù),進(jìn)一步提高學(xué)習(xí)特征的判別力。相比傳統(tǒng)算法中只要求類內(nèi)特征距離小于類間距離的三元組損失函數(shù),改進(jìn)的損失函數(shù)進(jìn)一步要求類內(nèi)的特征距離小于預(yù)設(shè)的閾值,從而保證特征空間形成的簇不會太大,更有利于模型的優(yōu)化。在訓(xùn)練目標(biāo)階段,與現(xiàn)存的深度跨鏡行人追蹤模型相比,本文提出了分兩步微調(diào)的策略,進(jìn)一步提高了傳統(tǒng)卷積層一步微調(diào)策略的效果。
本文提出的深度跨鏡行人追蹤模型的總體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)主要分為兩部分:傳統(tǒng)的ResNet-50模型[6]和針對目標(biāo)任務(wù)的改進(jìn)的三元組損失層。
圖1 三元組訓(xùn)練網(wǎng)絡(luò)框架
在三元組樣本訓(xùn)練網(wǎng)絡(luò)[7-8]中,來自第i 個三元組的三張圖像表示為Ii=<Iio,Ii+,Ii->,其中Iio和Ii+來自同一行人,Ii-來自另一行人。通過三個共享參數(shù)集w,如權(quán)重、偏置等的卷積神經(jīng)網(wǎng)絡(luò),將三元組Ii從原始圖像空間映射到一個學(xué)習(xí)的特征空間,Ii表示為?w( Ii)=<?w( Iio),?w( Ii+),?w( Ii-)>。每一個圖中的卷積神經(jīng)網(wǎng)絡(luò)是一個多通道卷積神經(jīng)網(wǎng)絡(luò)模型,能夠同時提取行人整個身體和身體局部特征。當(dāng)卷積神經(jīng)網(wǎng)絡(luò)模型被改進(jìn)的三元組損失函數(shù)訓(xùn)練時,學(xué)習(xí)的特征空間滿足?w( Iio)和?w( Ii+)之間的距離不僅小于?w( Iio)和?w( Ii-)之間的距離,同時小于一個預(yù)設(shè)的閾值。改進(jìn)損失函數(shù)的目的是在學(xué)習(xí)到的特征空間中,拉近同一目標(biāo)行人的距離,加大不同行人間的距離。
由于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù),本文使用在ImageNet 上訓(xùn)練好的ResNet-50 模型[6]作為基礎(chǔ)網(wǎng)絡(luò)來做預(yù)訓(xùn)練。與其他網(wǎng)絡(luò)不同,殘差網(wǎng)絡(luò)增加了一定層數(shù)之后,并未出現(xiàn)性能退化,反而性能有了一定程度的提升,殘差網(wǎng)絡(luò)有著更低的收斂損失,也沒有產(chǎn)生過高的過擬合問題。殘差網(wǎng)絡(luò)在淺層時并未表現(xiàn)出更多優(yōu)勢,說明殘差網(wǎng)絡(luò)必須要配合較深的深度才能發(fā)揮其結(jié)構(gòu)優(yōu)勢,與“平整”網(wǎng)絡(luò)拉開性能差距。
傳統(tǒng)的殘差結(jié)構(gòu)單元中殘差的表達(dá)式可統(tǒng)一寫為y=F( x,{Wi} )+Wsx,其中x 和y 分別是層的輸入和輸出向量。函數(shù)F( x,{Wi} )表示要學(xué)習(xí)的殘差映射,Ws是方矩陣,如圖2 中的例子[6],當(dāng)殘差用于兩層全連接層的時候,F(xiàn)=W2σ(W1x ),其中σ 表示修正線性單元(Rectified Linear Unit,ReLU),通過簡化標(biāo)記偏置被省略。殘差單元的輸出由多個卷積層級聯(lián)的輸出和輸入元素間相加,保證卷積層輸出和輸入元素維度相同,再經(jīng)過ReLU 激活后得到,將這種結(jié)構(gòu)級聯(lián)起來,就得到了ResNet。
圖2 殘差網(wǎng)絡(luò)的結(jié)構(gòu)單元
為克服訓(xùn)練模型中產(chǎn)生的過擬合現(xiàn)象,刪除了原網(wǎng)絡(luò)結(jié)構(gòu)中的softmax層,增加了新的dropout策略。即針對三元組結(jié)構(gòu),同一批次的圖像將隨機(jī)失活相同的隨機(jī)節(jié)點(diǎn),調(diào)整過的模型將繼承ResNet-50 模型卷積層的參數(shù),而后面的層將在初始化后重新訓(xùn)練權(quán)重和偏置,這樣可以在數(shù)據(jù)量較小的情況下,訓(xùn)練深層卷積神經(jīng)網(wǎng)絡(luò)。
2.2.1 改進(jìn)的三元組損失函數(shù)
本文使用三元組例子訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),得到一個三元組Ii=<Iio,Ii+,Ii->,這個網(wǎng)絡(luò)結(jié)構(gòu)將Ii映射到一個特征學(xué)習(xí)空間,得到?w( Ii)=<?w( Iio),?w( Ii+),?w( Ii-)>,三元組圖像Iio、Ii+、Ii-之間的相似度使用L2 范式?w( Iio)、?w( Ii+)、?w( Ii-)距離度量。原始的三元組損失函數(shù)要求距離( ?w( Iio),?w( Ii-))比( ?w( Iio),?w( Ii+))大于一個預(yù)設(shè)值,即滿足以下約束:
式中τ1為負(fù)數(shù)。由于損失函數(shù)沒有設(shè)定( ?w( Iio),?w( Ii+))應(yīng)該有多近,屬于同一個行人的實(shí)例在學(xué)習(xí)的特征空間中,可能有一個相對較大的類內(nèi)距離來構(gòu)成一個巨大的簇。顯然,這不是理想的結(jié)果,這必然會降低跨鏡行人追蹤的表現(xiàn)。
基于以上的問題,本文算法在原始的三元組損失函數(shù)中增加了一個新的限定條件,從而使得( ?w( Iio),?w( Ii+))之間的距離要小于第二個邊緣值τ2,且τ2將遠(yuǎn)小于|τ1|。將這個聲明轉(zhuǎn)化成等式,得到:
這個改進(jìn)的損失函數(shù)目標(biāo)使得在學(xué)習(xí)特征空間中,將同一個人的實(shí)例拉得更近,同時將來自不同人的實(shí)例推得更遠(yuǎn)。
綜上,本文改進(jìn)的三元組損失函數(shù)定義為:
其中,N 是三元組訓(xùn)練樣本的數(shù)量,β 是平衡類間和類內(nèi)的約束權(quán)重,距離函數(shù)d( ?,?)是L2范式距離:
2.2.2 訓(xùn)練算法
結(jié)合改進(jìn)的三元組損失函數(shù),本文使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法來訓(xùn)練提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型。式(3)的導(dǎo)數(shù)計(jì)算如下:
根據(jù)dn( Iio,Ii+,Ii-,w )和dp( Iio,Ii+,w )的定義,可以得到它們的梯度為:
算法1 基于三元組的隨機(jī)梯度下降算法
2.3.1 階段性的遷移學(xué)習(xí)
在現(xiàn)存的跨鏡行人追蹤研究中,基于有監(jiān)督學(xué)習(xí)的樣本存在兩種情況:超過1 000 個目標(biāo)身份的跨鏡行人追蹤數(shù)據(jù)集,如CUHΚ03和Μarket1501,以及少于1 000個身份的小數(shù)據(jù)集,如VIPeR?,F(xiàn)有深度跨鏡行人追蹤模型通常針對大型數(shù)據(jù)集從頭訓(xùn)練,沒有使用遷移學(xué)習(xí),而對于小數(shù)據(jù)集,模型通常在大型數(shù)據(jù)集上做預(yù)訓(xùn)練,再在小的目標(biāo)數(shù)據(jù)集上做微調(diào),稱其為基于單步微調(diào)策略的單階段遷移學(xué)習(xí)方法。對于一個大型的跨鏡行人追蹤數(shù)據(jù)集,遷移學(xué)習(xí)應(yīng)是階段性的,如ImageNet到跨鏡行人追蹤數(shù)據(jù)集,而二階段的遷移學(xué)習(xí)是用于目標(biāo)數(shù)據(jù)集較小時,如ImageNet 到大的跨鏡行人追蹤數(shù)據(jù)集再到小的跨鏡行人追蹤數(shù)據(jù)集。在每個階段,本文提出了一個分兩步微調(diào)的策略,對比卷積層的單步微調(diào)能更高效地進(jìn)行遷移學(xué)習(xí)。
2.3.2 分兩步微調(diào)
分兩步微調(diào)策略基于兩階段的小數(shù)據(jù)集,假設(shè)有一個大的跨鏡行人追蹤數(shù)據(jù)集源S 和一個小的目標(biāo)數(shù)據(jù)集T ,分別有N 和N 獨(dú)特的行人身份標(biāo)識。對于一個原始的用S 訓(xùn)練的模型,目標(biāo)是從S 到T 遷移學(xué)習(xí)特征表達(dá)。原始網(wǎng)絡(luò)的Softmax ID 分類層不能被再利用,因?yàn)镹 和N 的身份沒有交疊。原始的N 節(jié)點(diǎn)的Softmax層因此被一個三元組損失層代替。在微調(diào)的第一步,首先凍結(jié)其他所有層,只訓(xùn)練新加入的三元組損失層和修改原始參數(shù)的全連接層。凍結(jié)網(wǎng)絡(luò)的其他部分對這個階段的訓(xùn)練非常重要:若不凍結(jié)其他層,損失層和全連接層的隨機(jī)初始化的參數(shù)將會反傳不好的梯度到基礎(chǔ)的網(wǎng)絡(luò),“垃圾梯度”不利于模型的改進(jìn)。在損失層和全連接層完全訓(xùn)練好,使得從S 學(xué)到的特征可以很好地驗(yàn)證身份標(biāo)識之后。微調(diào)的第二步是使用目標(biāo)數(shù)據(jù)集T ,同時微調(diào)損失層、全連接層和其他所有網(wǎng)絡(luò)部分。
本文在5個跨鏡行人追蹤數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),其中包括兩個大的數(shù)據(jù)集和三個小的數(shù)據(jù)集,每個數(shù)據(jù)集中每個行人有多張由不同或相同的攝像機(jī)捕捉的圖像。
CUHΚ03數(shù)據(jù)集[3]:包括了1 467個行人的14 096張圖像。由10個攝像頭采集自5個不同的場景,組成5對。數(shù)據(jù)集分別提供了標(biāo)準(zhǔn)的200個訓(xùn)練和測試切片,100個被隨機(jī)選擇的身份作為測試數(shù)據(jù),另外100 個用來評估,剩余1 267個作為訓(xùn)練樣本。在訓(xùn)練和測試過程中,對有兩個攝像機(jī)的數(shù)據(jù)集,隨機(jī)選擇一張來自攝像機(jī)A的圖像作為測試圖像,一張來自同一個行人的由攝像機(jī)B拍攝的圖像作為訓(xùn)練圖像。對于多攝像機(jī)的數(shù)據(jù)集,一張被選擇作為測試圖像,剩余的作為訓(xùn)練圖像。訓(xùn)練圖像集對于每一個行人包含一張圖像。
Μarket1501數(shù)據(jù)集[2]:包含了32 668張檢測圖像,采集自清華大學(xué)的6個不同的攝像頭。
VIPeR 數(shù)據(jù)集[1]:包含兩個攝像機(jī)的632 個行人,一個行人的每一對圖像是在不同的視角、姿勢、光照條件下由兩個攝像機(jī)拍攝得到。由于其較大的成像差異和圖像變化,成為跨鏡行人追蹤課題最具有挑戰(zhàn)性的數(shù)據(jù)集之一。
PRID2011數(shù)據(jù)集[9]:由兩個靜態(tài)監(jiān)視攝像機(jī)記錄得到,攝像機(jī)A 和B 分別包含385 和749 個行人,其中200個行人在兩個視角中都有出現(xiàn)。
CUHΚ01數(shù)據(jù)集[10]:包含在校園環(huán)境中由兩個不同攝像機(jī)視角拍攝的971 個行人。攝像機(jī)A 拍攝一個行人的正面或背面視角,攝像機(jī)B 拍攝行人的側(cè)面視角,每個行人在兩個攝像機(jī)中分別有4張圖像。
實(shí)驗(yàn)中使用累計(jì)匹配特征(Cumulated Μatching Characteristics,CΜC)來評估跨鏡行人追蹤方法。在CΜC下,跨鏡行人追蹤被視為一個排序問題,對于給定的一張或一組目標(biāo)圖片,將候選數(shù)據(jù)庫中的圖片按照與目標(biāo)圖片的相似度進(jìn)行排序。CMC(k)表示的意思是,匹配正確的圖片在相似度從大到小排序序列的前k 個(包括第k 個)中出現(xiàn)的概率。Rank1 表示在候選數(shù)據(jù)庫中,對圖片的相似度從大到小排序后,匹配正確的圖片出現(xiàn)在第一位的數(shù)量占總個數(shù)的百分比,Rank5表示匹配正確的圖片出現(xiàn)在前5 位的數(shù)量占總個數(shù)的百分比,以此類推。從而可知,隨著候選數(shù)據(jù)庫的擴(kuò)大,能匹配正確的行人圖片難度不斷提高,Rank1的值下降。因而,在理想的情況下,Rank1 值越大,追蹤匹配準(zhǔn)確率越好。
實(shí)驗(yàn)使用Caffe 深度學(xué)習(xí)框架[11]來實(shí)現(xiàn)本文方法。應(yīng)用三元組損失計(jì)算方法時,隨機(jī)選擇一張圖像,再從另一個攝像頭隨機(jī)選擇一張相匹配的圖像作為一組圖片,組成正樣本對,再隨機(jī)選擇另一個行人,重復(fù)操作,并以此為基本單位的多組圖片組成一個小批次輸入到網(wǎng)絡(luò)當(dāng)中。實(shí)驗(yàn)中每個批次16 張圖片,在每個小批次中隨機(jī)選擇8個行人,每個行人2張圖片,因而每個批次中將得到112個三元組。
每組圖片在經(jīng)過ResNet-50 基本網(wǎng)絡(luò)的處理后,得到兩個1 000 維度的向量所表示的特征。原始的學(xué)習(xí)率設(shè)置為0.001,每迭代40 000 次將乘以0.1。對于從ImageNet 到大型跨鏡行人追蹤數(shù)據(jù)集(CUHΚ03 和Μarket1501)的分兩步遷移學(xué)習(xí),每一步網(wǎng)絡(luò)分別被訓(xùn)練迭代約20 000~150 000次。
為減少過擬合問題,在跨鏡行人追蹤數(shù)據(jù)集上進(jìn)行數(shù)據(jù)擴(kuò)大,對于每一張訓(xùn)練圖像,圍繞圖片的中心進(jìn)行二維的隨機(jī)變化以得到5張擴(kuò)充圖像。
實(shí)驗(yàn)中,式(3)的參數(shù)τ1,τ2,β 被分別設(shè)置成-1,0.01,0.002。
3.3.1 損失函數(shù)選擇實(shí)驗(yàn)
為更客觀驗(yàn)證本文對三元損失函數(shù)的改進(jìn),在實(shí)驗(yàn)中結(jié)合了不同的損失函數(shù):Softmax ID 分類(Softmax ID Classification,SID)、成對驗(yàn)證(Pairwise Verification,PV)、三元組損失(Triplet Loss,TL),以及它們的組合共7種方法。這些方法都曾被應(yīng)用到現(xiàn)存的跨鏡行人追蹤模型中,僅SID 未和PV 聯(lián)合過。使用在ImageNet 上預(yù)訓(xùn)練的基本網(wǎng)絡(luò),然后在Μarket1501上做測試。
表1的實(shí)驗(yàn)結(jié)果表明:在單獨(dú)使用時,3個函數(shù)性能相差不大,SID 較優(yōu);當(dāng)SID 和PV 或者TL 聯(lián)合使用時,表現(xiàn)提升明顯。但當(dāng)沒有SID,PV 和TL 的結(jié)合比單個函數(shù)效果降低。可見,從ImageNet上遷移信息,損失函數(shù)的設(shè)計(jì)是非常關(guān)鍵的。
表1 在Μarket1501數(shù)據(jù)集上比較不同損失函數(shù)的選擇 %
3.3.2 兩階段微調(diào)對比實(shí)驗(yàn)
首先對本文采用的兩階段微調(diào)方法的效果進(jìn)行對比實(shí)驗(yàn)。
表2實(shí)驗(yàn)結(jié)果顯示了在VIPeR數(shù)據(jù)集上,本文進(jìn)行分兩階段微調(diào)效果明顯,在Rank1、Rank5、Rank10、Rank20上都有顯著的提升。
表2 在VIPeR數(shù)據(jù)集上比較兩種微調(diào)方法 %
3.3.3 在大數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)與近年提出的DLC、XQDA、ΜLAPG、DNS、Siamese LSTΜ、Gated S-CNN、CAN 等幾種典型算法進(jìn)行比較,用Rank1 準(zhǔn)確度作為評估指標(biāo)。在CUHΚ03 和Μarket1501 兩個大數(shù)據(jù)集上,在ImageNet上做分兩步微調(diào)預(yù)訓(xùn)練,本文模型結(jié)果與其他深度跨鏡行人追蹤模型和沒有深度網(wǎng)絡(luò)的跨鏡行人追蹤模型分別比較。
實(shí)驗(yàn)結(jié)果如表3 所示,本文模型表現(xiàn)優(yōu)異,在兩個大的數(shù)據(jù)集上,基于深度學(xué)習(xí)的結(jié)果最好。值得注意的是,對比算法中基于人為設(shè)計(jì)的特征表示模型優(yōu)勢不明顯。這是由于本文模型選擇的基礎(chǔ)網(wǎng)絡(luò)(ResNet-50)和訓(xùn)練的目標(biāo)(三元組損失函數(shù)),可以遷移從ImageNet上學(xué)習(xí)到的特征表示,相反,比較的模型中沒有遷移從其他輔助資源上學(xué)習(xí)得到的信息。
表3 在CUHΚ03和Μarket1501數(shù)據(jù)集上的Rank1對比%
3.3.4 在小數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在3 個小的數(shù)據(jù)集上,用兩階段的微調(diào)策略,如ImageNet到CUHΚ03數(shù)據(jù)集和Μarket1501,再到VIPeR或PRID 或CUHΚ01,各種算法的比較結(jié)果如表4 所示。值得注意的是,比較算法中,基于模型手動提取特征的方法要么只有一種特征,要么使用多個基本網(wǎng)絡(luò)進(jìn)行特征融合,其他深度學(xué)習(xí)模型雖然使用了遷移學(xué)習(xí),但都是單階段和單步微調(diào)。
表4 在VIPeR、PRID和CUHΚ01數(shù)據(jù)集上的Rank1對比%
實(shí)驗(yàn)結(jié)果可以看出,本文模型達(dá)到了較好效果,尤其隨著樣本數(shù)的增加,如在CUHΚ01 數(shù)據(jù)集上,本文算法的優(yōu)勢提升更明顯。
相比于人臉識別,跨鏡行人追蹤在實(shí)際應(yīng)用場景下的數(shù)據(jù)更加復(fù)雜,由于不同成像設(shè)備之間的差異,同時行人兼具剛性和柔性的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,對跨鏡追蹤算法提出了更嚴(yán)苛要求,有待從底層特征選擇融合等不同視角開展深度研究[27-28]。本文通過深度遷移學(xué)習(xí),研究在跨鏡行人追蹤問題中標(biāo)記樣本數(shù)量過小的問題,如何將其他經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)作為基礎(chǔ)網(wǎng)絡(luò),再做預(yù)處理,如何對跨鏡行人追蹤的結(jié)果合理排序,如何進(jìn)一步提高算法的精度等問題有待進(jìn)一步研究。