劉 穎,武陽陽,李 娜
(1.西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121;2.西安郵電大學(xué) 電子信息現(xiàn)場勘驗應(yīng)用技術(shù)公安部重點實驗室,陜西 西安 710121;3.西安郵電大學(xué) 陜西省無線通信與信息處理技術(shù)國際聯(lián)合研究中心,陜西 西安 710121)
隨著社會對公共安防問題的重視提升,智能視頻分析在安防領(lǐng)域中發(fā)揮著越來越重要的作用。在監(jiān)控視頻中,行人往往是安防事件的主體,若能在海量的監(jiān)控視頻中有效地利用好行人屬性信息,便會提升安防應(yīng)對能力,減少人力成本。屬性信息是指可以表征行人外觀的特征,包括性別、身高和衣著等信息。對屬性的研究通常分為兩個方向:其一,使用屬性作為中間特征表示層,用于輔助其他任務(wù)的實現(xiàn)。例如,通過屬性進行目標檢測[1]或利用屬性識別提升人臉驗證功能[2],目前屬性多用于行人檢測[3-5]、行人重識別[6-11]和行為識別[12-13]等任務(wù)中;其二,是專注于自然場景下攝像頭中行人屬性信息的識別[14-16]。傳統(tǒng)的屬性識別是通過先提取手工標注的特征,如顏色、紋理特征等,再利用支持向量機或馬爾可夫隨機場等分類器,進行屬性分類。隨著深度學(xué)習(xí)的快速發(fā)展,越來越多的學(xué)者把深度學(xué)習(xí)運用到行人屬性識別的領(lǐng)域,已成為目前該領(lǐng)域的主流研究方法。然而,在復(fù)雜的監(jiān)控視頻中有效地識別出屬性的細粒度特征,對于計算機視覺而言是一項極具挑戰(zhàn)性的任務(wù)[17-18]。
行人屬性識別方法主要分為基于傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)的兩類方法。傳統(tǒng)方法包括特征提取和分類器兩個重要組成部分。如文獻[19]選取了顏色特征、紋理特征以及方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征,通過機器學(xué)習(xí)中的K臨近算法(K-Nearest Neighbor,KNN)對特征進行分類。傳統(tǒng)機器學(xué)習(xí)的主要缺點是在訓(xùn)練前需要進行特征工程,增加了工作量,也不能保證特征選取的合理性。深度學(xué)習(xí)網(wǎng)絡(luò)可以自動學(xué)習(xí)圖像的特征,從而進行端到端的分類學(xué)習(xí),應(yīng)對復(fù)雜監(jiān)控場景下行人外觀變化,改善傳統(tǒng)機器學(xué)習(xí)應(yīng)用于行人屬性識別中存在的問題。將深度學(xué)習(xí)和傳統(tǒng)機器學(xué)習(xí)相結(jié)合,可在馬爾可夫隨機場下訓(xùn)練核、帶高斯核的馬爾可夫隨機場以及帶隨機森林的馬爾可夫隨機場進行屬性識別[20]?,F(xiàn)有的基于深度學(xué)習(xí)的行人屬性識別分法大多采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),雖然該網(wǎng)絡(luò)能更有效地提取出屬性的細粒度特征,但是不能對屬性和行人圖像連續(xù)性建模,因此,識別準確度較高的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)架構(gòu)被提出。
通過總結(jié)基于深度學(xué)習(xí)的行人屬性識別領(lǐng)域中已有的研究進展,分析對比不同算法的優(yōu)缺點。介紹常用的行人屬性識別數(shù)據(jù)庫及評價指標,并對行人屬性識別技術(shù)的發(fā)展趨勢進行展望,指出該領(lǐng)域的未來研究方向。
基于深度學(xué)習(xí)的行人屬性識別方法大致可分為常規(guī)網(wǎng)絡(luò)、部件分割、注意力機制和序列檢測等4類。下面介紹4類方法的基本原理。
基于常規(guī)網(wǎng)絡(luò)的方法是行人屬性識別方法中最基礎(chǔ)的方法,該類方法比傳統(tǒng)機器學(xué)習(xí)方法的識別率明顯提高。常用的卷積神經(jīng)網(wǎng)絡(luò)有LeNet[21]、AlexNet[22]、計算機視覺組[23](Visual Geometry Group,VGG)、ResidualNetwork[24]、GoogleNet[25]和Dense Network[26]等。這些網(wǎng)絡(luò)有很強的特征表示能力,圖像的不同特征可以由多個不同的卷積核提取出來。圖1為一個簡單的行人屬性識別過程。將監(jiān)控場景中提取的行人樣本輸入端到端的CNN中提取圖像特征,輸出的特征向量長度與需要識別的屬性數(shù)目相同,經(jīng)過交叉熵損失函數(shù)對網(wǎng)絡(luò)參數(shù)進行更新與訓(xùn)練,最后輸出多個行人屬性標簽。
圖1 行人屬性識別過程
DeepSAR和DeepMAR兩個對比網(wǎng)絡(luò)均共享主干網(wǎng)絡(luò),包含5個卷積層和3個全連接層[27]。DeepSAR網(wǎng)絡(luò)被用于單獨預(yù)測每個屬性,DeepMAR網(wǎng)絡(luò)則考慮到屬性之間的關(guān)聯(lián)性,利用帶有權(quán)重的交叉熵損失函數(shù)進行預(yù)測,其計算表達式為
(1)
其中:
He[28]等人采用殘差網(wǎng)絡(luò)[24]作為共享網(wǎng)絡(luò),使用自適應(yīng)加權(quán)的損失函數(shù)進行所有屬性的預(yù)測任務(wù),其計算表達式為
(2)
其中:λj為第j個屬性的權(quán)重值;Ii為訓(xùn)練的第i個圖像;Lij為第i個圖像的第j個屬性的真實標簽;φi(Ii;Θ)為經(jīng)過網(wǎng)絡(luò)操作Θ.<·>的每個圖像的屬性預(yù)測,Θ為神經(jīng)網(wǎng)絡(luò)參數(shù)。每K次迭代更新權(quán)重,但關(guān)鍵問題是很難衡量哪個任務(wù)最重要。損失函數(shù)的改進說明新的損失函數(shù)對于行人屬性識別任務(wù)是很有必要的。
上述方法均是采用將整幅圖像輸入到基礎(chǔ)網(wǎng)絡(luò)中提取屬性特征,并沒有考慮到圖像中的復(fù)雜背景對行人細粒度特征的影響,依然沒有解決根本問題。Zhou等[29]考慮到了這個問題,將弱監(jiān)督目標檢測技術(shù)引入到行人屬性識別任務(wù)中,該方法不僅可以預(yù)測屬性的存在性標簽,還可以對屬性進行定位,為進一步的識別提供位置信息。
基于部件分割的方法是將行人分成幾個部位進行識別,從而可以更好地提取顏色和紋理特征[30]。Zhu等[31]將整個行人圖像分成15部分,分別送入到同一個CNN提取特征,采用相應(yīng)的局部部分進行特征融合,從而判斷是否具有某個屬性。例如,對于頭發(fā)屬性的判斷,只需要選擇肩以上的部分特征融合即可。
該類方法主要是結(jié)合局部和全局特征識別屬性的細粒度特征?;诓考指畹男腥藢傩宰R別網(wǎng)絡(luò)訓(xùn)練流程如圖2所示。行人屬性識別的焦點集中在圖像中行人區(qū)域的部分,把行人圖像分割后,輸入到局部特征提取網(wǎng)絡(luò)中,再和全局網(wǎng)絡(luò)提取的特征融合訓(xùn)練,以達到抑制嘈雜背景干擾的目的,提高行人屬性識別的準確率。
圖2 基于部件分割的行人屬性識別網(wǎng)絡(luò)訓(xùn)練流程
Zhang等[32]提出了一種用于深度屬性建模的部件對齊網(wǎng)絡(luò),用poslets[33]檢測出可能的行人部位,然后將網(wǎng)絡(luò)提取的所有特征疊加起來,為每個屬性訓(xùn)練一個線性支持向量機(Support Vector Machine,SVM)分類器,一定程度上緩解了遮擋問題。文獻[34]則對人體姿勢進行估計,產(chǎn)生人體關(guān)鍵點。根據(jù)人體關(guān)鍵點信息,利用卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)的產(chǎn)生邊界框,將身體全局圖像轉(zhuǎn)換為部分區(qū)域圖像,全局特征和不同的局部特征相結(jié)合可學(xué)習(xí)到強大的特征表示。端到端的局部和全局的卷積神經(jīng)網(wǎng)絡(luò)[35]強調(diào)了位置和邊緣信息,此方法的目的主要是讓背景和目標分離,只關(guān)注行人,減少背景對行人特征提取的影響。此外,還有將部件和序列檢測結(jié)合起來進行行人屬性識別的方法,在幾個常用行人屬性識別數(shù)據(jù)集上實驗,也都取得了不錯的識別效果[36-38]。
基于注意力機制的方法就是關(guān)注于感興趣的區(qū)域,選擇一個具有代表性的局部特征進行下一步的跟蹤。
細粒度特征在很多任務(wù)中可見,如圖像識別、語義分割等,人們會針對于自己的問題從各個方向?qū)ふ医鉀Q辦法。文獻[39-41]是從特征融合角度進行改進的方法。現(xiàn)階段,深度學(xué)習(xí)已成為特征提取的首選方法。在實際問題中,圖像的細粒度特征分布復(fù)雜,劃分的部件不一定適合其他圖像,這樣實現(xiàn)起來的效果肯定會不理想。文獻[42-46]從網(wǎng)絡(luò)結(jié)構(gòu)上關(guān)注行人的細粒度屬性。如Liu[42]等人為解決圖像多尺度的問題提出HPNet網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠捕捉從低級到高層語義級的多個關(guān)注點,主要過程是先用主網(wǎng)絡(luò)(M-net)提取全局特征,再用多方向注意網(wǎng)絡(luò)(AF-net)提取多個分支的不同語義特征,最后進行特征融合。
卷積神經(jīng)網(wǎng)絡(luò)雖然在識別性能上有明顯提高,但還是存在一些客觀問題。例如,訓(xùn)練樣本中數(shù)據(jù)的類別不平衡,將會使網(wǎng)絡(luò)模型的效果下降,考慮到這一不可忽視的問題,Sarafianos等[45]使用注意力聚合機制進行行人屬性識別,通過引入網(wǎng)絡(luò)對不同層的信息聚合幫助模型學(xué)習(xí)到更多具有判別性的特征,并且對屬性的不平衡進一步研究,用帶有加權(quán)變量的focal損失函數(shù)在處理屬性不平衡上有著更好的性能。還有一些將空間注意、標簽注意和行人注意聯(lián)合起來學(xué)習(xí)的基于注意力的行人屬性分析[47]也取得了不錯的結(jié)果。
利用深度學(xué)習(xí)找到對應(yīng)位置上的屬性識別方法,是屬于多標簽分類的問題,而多標簽分類問題表現(xiàn)出很強的標簽依賴關(guān)系[48]。使用RNN可以顯式地建模標簽依賴關(guān)系,利用長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)可在一定程度上減輕RNN存在的梯度消失問題。LSTM的結(jié)構(gòu)如圖3所示。LSTM單元接收上一時刻的輸出隱藏狀態(tài)和當前輸入,通過輸入門、遺忘門以及輸出門更新狀態(tài),并輸出當前結(jié)果。其中:遺忘門決定上一時刻的信息是否需要遺忘;輸入門決定當前時刻的信息是否需要保留;輸出門用于控制有多少信息從憶單元傳遞到下一時刻的隱藏狀態(tài)。
圖3 LSTM單元結(jié)構(gòu)
因此,有方法采用基于CNN-LSTM的編碼-解碼框架,建立屬性與LSTM模型之間的相互依賴性和相關(guān)性。此方法用于行人屬性識別任務(wù)上的過程如圖4所示。
圖4 基于序列預(yù)測的行人屬性識別過程
Wang[49]等提出將CNN和LSTM結(jié)合,為了充分挖掘?qū)傩陨舷挛男畔⒑蛯傩灾g的關(guān)系,采用序列對序列模型處理此問題。首先,把給定的行人分割成m條水平帶,形成區(qū)域序列,然后利用LSTM網(wǎng)絡(luò)以順序的方式編碼。此方法在PETA數(shù)據(jù)集上取得了85.67%的識別準確率。Zhao[37]等則是先把屬性按位置分組,比如頭部屬性包括發(fā)長、眼鏡和帽子等,再采用人體關(guān)鍵點檢測技術(shù),融合全局和局部特征,利用LSTM對屬性組中的空間和語義相關(guān)性進行建模。該混合框架在PETA數(shù)據(jù)集上取得了86.7%的識別率。為了更好地利用屬性的空間相關(guān)性,Xin等[46]采用了(Convolutional Long Short-Term Memory ,ConvLSTM)網(wǎng)絡(luò),相比于LSTM,此網(wǎng)絡(luò)在建立時空關(guān)系上有更好的效果。通過卷積神經(jīng)網(wǎng)絡(luò)提取特征圖,再將提取的特征映射逐個組地輸入到ConvLSTM中,并產(chǎn)生基于屬性的注意力映射。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法能夠很好地利用屬性標簽和時間相關(guān)性對行人圖像特征建模,但其識別準確率還有待提高。
行人屬性識別方法性能的評估,需要在行人屬性數(shù)據(jù)集上分析比較。數(shù)據(jù)集在行人屬性識別中發(fā)揮著重要的作用,常用的行人屬性識別數(shù)據(jù)集有PETA(PEdesTrian Attribute)、RAP、PA-100K和Market-1501。下面介紹以上4個數(shù)據(jù)集以及衡量屬性識別效果的常用評價指標,并對部分方法在PETA和RAP數(shù)據(jù)集中的實驗結(jié)果進行分析對比。
PETA[19]數(shù)據(jù)集是2014年發(fā)布,由10個公開的小規(guī)模數(shù)據(jù)集構(gòu)成,數(shù)據(jù)集圖像如圖5(a)所示。整個數(shù)據(jù)集由19 000幅圖像組成,分辨率從17×39到169×365不等,共包含8 705個人,每個行人樣本分為61個二進制和4個多類屬性,其中,訓(xùn)練集有9 500個圖像,1 900張用于驗證和7 600張用于測試。但是,PETA數(shù)據(jù)集中一個人的樣本僅通過隨機選取注釋一次,共享相同的屬性,導(dǎo)致其他一些屬性被忽略。雖然這種方法在一定程度上是合理的,但并不十分適用于視覺感知檢測。
RAP[50]數(shù)據(jù)集來自真實的室內(nèi)監(jiān)視場景,數(shù)據(jù)集包含26個攝像頭拍攝的圖像,如圖5(b)所示,其包含41 585個樣本,分辨率范圍從36×92到344×554不等,其中,有33 268幅圖像用于訓(xùn)練,剩下的用于測試。每個樣本圖像含有69個二進制屬性和3個多類別屬性,共72個細粒度屬性。此數(shù)據(jù)集對不同身體部位進行標注,對屬性的標注比較詳細。
PA-100K[42]數(shù)據(jù)集由598個真實的室外監(jiān)控攝像頭采集到的圖像構(gòu)成,如圖5(c)所示,其包括100 000幅行人圖像,分辨率從50×100到758×454不等,目前是行人屬性識別的最大數(shù)據(jù)集。整個數(shù)據(jù)集被隨機分成訓(xùn)練、驗證和測試集,比例為8∶1,由26個屬性組成,標簽為0或1,分別表示是否存在相應(yīng)的屬性。
Market-1501[51]數(shù)據(jù)集是由清華大學(xué)一家超市前的6個攝像頭收集,如圖5(d)所示。在這個數(shù)據(jù)集中有1 501個行人和32 668個帶注釋的邊界框。訓(xùn)練集有751個人,12 936張圖片,測試集有750人,19 732張圖像,分別對應(yīng)于12 936和19 732幅圖像。此數(shù)據(jù)集中的每個圖像都帶有27個屬性的注釋。
圖5 4個數(shù)據(jù)集的行人圖像示例
由行人屬性識別的數(shù)據(jù)集可知,來自實真實監(jiān)控攝像頭下的行人圖像的背景是很復(fù)雜的,除了圖像的分辨率低等問題,還有姿勢大幅度變化、光線變化、遮擋以及視角變化等復(fù)雜環(huán)境中非可控因素,如圖6所示。圖6(a)中行人姿勢變化容易導(dǎo)致屬性漏檢或誤撿。圖6(b)中光線變化導(dǎo)致拍攝過程中視圖顏色對比度差別大,容易錯誤識別屬性。圖6(c)中行人明顯存在部分遮擋的情況,容易混淆目標。圖6(d)由于拍攝視角的變化,行人所在位置不在整個圖像的正中央,行人不是圖像的主體,這就要求行人檢測框能夠靈活、準確地檢測出行人。圖6(e)是攝像機分辨率低,無法提取更多的細粒度特征,這種情況下需要對圖像清晰化處理。
圖6 復(fù)雜環(huán)境中的非可控因素
衡量行人屬性識別能力的兩個指標為基于標簽的評價指標[20]和基于樣本的評價指標[53]?;跇撕灥脑u價方式是先分別計算每個屬性正樣本和負樣本識別對的比例,再將二者平均作為每一個屬性的準確度,所有樣本的平均精度作為評價指標。但是,此評價準則獨立地對待每個屬性,忽略了在多屬性識別問題中屬性間的相關(guān)性。
基于樣本的評價方式是根據(jù)每個樣本對分對屬性和分錯屬性的關(guān)系,分別計算準確率、精確率、召回率和F1-score等4個評價標準。
基于常規(guī)網(wǎng)絡(luò)、基于注意力機制、基于部件識別和基于序列檢測等4類行人屬性識別方法的技術(shù)和特點,如表1所示。
表1 4類行人屬性識別方法的特點總結(jié)
表2對比了文獻[27]、文獻[37]、文獻[44]和文獻[52]等4種方法的各個評價指標。由表2可以看出,文獻[37]方法平均精度值表現(xiàn)最好,該方法將部件分割和序列檢測結(jié)合起來,在PETA和RAP這兩個數(shù)據(jù)集上表現(xiàn)較均衡。在所有的評估標準中,4種方法在PETA數(shù)據(jù)集上的識別率比RAP數(shù)據(jù)集上的略高一些。不同場景下的數(shù)據(jù)集,存在明顯差異,因此,需要提出適合于不同場景數(shù)據(jù)集的算法。
表2 典型方法性能對比結(jié)果
對基于深度學(xué)習(xí)的行人屬性方法以及近幾年的研究熱點進行了綜述,并分析對比了基于常規(guī)網(wǎng)絡(luò)、部件分割、注意力機制以及序列檢測等4類方法的優(yōu)缺點,表明雖然行人屬性識別技術(shù)在幾個大規(guī)模的數(shù)據(jù)集上取得了進展,但仍有一些實際性問題需要解決。因此,對行人屬性識別方法未來研究方向展望如下。
1)基于深度學(xué)習(xí)的行人屬性識別方法的數(shù)據(jù)集標注很重要?,F(xiàn)有的數(shù)據(jù)集標注存在標注不明和標注錯誤的現(xiàn)象,將會影響行人屬性識別技術(shù)的發(fā)展。如果在標注中考慮到位置信息,對不同位置的屬性進行詳細標注,利用人體部位信息,設(shè)計出更合適的網(wǎng)絡(luò),將會提升識別效果。
2)深度學(xué)習(xí)模型雖然能使算法精度得到提升,但針對于細粒度屬性的識別,還需要設(shè)計特定行人屬性識別網(wǎng)絡(luò)架構(gòu)。無論是基于部件的方法還是注意力方法,都是希望在屬性特定位置上識別出來,這些位置信息將會回傳給屬性識別網(wǎng)絡(luò),怎樣去融合這些結(jié)構(gòu),需要更多的研究。而加深深度神經(jīng)網(wǎng)絡(luò),雖然性能得到提升,但是計算量的增加和模型參數(shù)更新時的繁瑣問題,勢必影響訓(xùn)練時的效率,仍需找到高速、有效的算法彌補上述不足。