• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于ResNet50和通道注意力機(jī)制的行人多屬性協(xié)同識(shí)別方法

      2022-08-25 02:12:14李嘉鋒
      測(cè)控技術(shù) 2022年8期
      關(guān)鍵詞:行人注意力標(biāo)簽

      卓 力,袁 帥,李嘉鋒,2

      (1.北京工業(yè)大學(xué) 信息學(xué)部,北京 100124;2.北京工業(yè)大學(xué) 計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124)

      在現(xiàn)實(shí)生活中,人們往往借助于離散且精確的屬性,例如服裝樣式、性別、胖瘦、發(fā)型等,來識(shí)別一個(gè)行人。行人屬性可以對(duì)行人的外觀進(jìn)行精細(xì)表征,因此行人多屬性識(shí)別在行人再識(shí)別、智能化視頻監(jiān)控等諸多領(lǐng)域,均受到了研究者們的廣泛關(guān)注。但是,由于應(yīng)用場(chǎng)景的不確定性,受行人攜帶物的遮擋、圖像分辨率低等復(fù)雜因素的影響,行人多屬性識(shí)別面臨著巨大的技術(shù)挑戰(zhàn)。

      傳統(tǒng)的基于人工設(shè)計(jì)特征的行人多屬性識(shí)別普遍采用的是“特征提取+分類器”的框架,如何高效準(zhǔn)確地對(duì)行人的外觀特征進(jìn)行表達(dá)并設(shè)計(jì)合適的分類器是其中的關(guān)鍵所在。Layne等[1]針對(duì)行人的服裝樣式、性別、發(fā)型等手工標(biāo)注了21種屬性,分別訓(xùn)練每一種屬性的分類器,并且在訓(xùn)練過程中,選取來源于不同角度攝像頭下的行人圖像,可有效對(duì)抗視角變化。Zhu等[2]引入了APiS數(shù)據(jù)庫,人工標(biāo)注了13個(gè)屬性注釋,主要針對(duì)的是混合場(chǎng)景下的行人屬性識(shí)別,采用 AdaBoost分類器和KNN(K-Nearest Neighbors,K最近鄰)分類器分別對(duì)二值屬性和多值屬性進(jìn)行識(shí)別。Gray等[3]采用局部特征集合的方法,將8個(gè)顏色通道和亮度通道的特征進(jìn)行組合得到特征表示,用于屬性識(shí)別。這些研究工作常常依賴設(shè)計(jì)者的先驗(yàn)知識(shí)或者經(jīng)驗(yàn)為每個(gè)屬性單獨(dú)設(shè)計(jì)特征,由于特征的表達(dá)能力有限,區(qū)分能力不足,因此識(shí)別性能有待于進(jìn)一步提升。同時(shí),由于需要為每個(gè)屬性的識(shí)別設(shè)計(jì)專門的分類器,因此算法的實(shí)現(xiàn)復(fù)雜度高且參數(shù)冗余。由于無法充分利用屬性之間的內(nèi)在關(guān)聯(lián)關(guān)系,導(dǎo)致屬性的識(shí)別準(zhǔn)確率低,難以滿足實(shí)際應(yīng)用的需求。

      近年來,深度學(xué)習(xí)在圖像分類、目標(biāo)檢測(cè)和語義分割等諸多領(lǐng)域取得了巨大成功。相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)具有更優(yōu)秀的模型泛化能力。學(xué)者們將深度學(xué)習(xí)應(yīng)用于行人屬性識(shí)別中,相繼提出了多種行人屬性識(shí)別方法。Sudowe等[4]提出一種聯(lián)合訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,僅利用屬性之間的依賴關(guān)系,不使用行人姿態(tài)、上下文等信息進(jìn)行屬性識(shí)別。Li等[5]提出了單屬性識(shí)別模型和多屬性聯(lián)合識(shí)別的深度學(xué)習(xí)模型(DeepMAR)。Li等認(rèn)為屬性間具有相關(guān)性,一個(gè)屬性有助于其他屬性的識(shí)別,因此將多個(gè)屬性聯(lián)合訓(xùn)練,使用簡(jiǎn)單的CNN模型同時(shí)識(shí)別多個(gè)屬性。Wang等[6]提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的聯(lián)合遞歸學(xué)習(xí)(Joint Recurrent Learning,JRL)模型,通過挖掘?qū)傩陨舷挛男畔⒓皩傩蚤g相互關(guān)系來提高識(shí)別準(zhǔn)確率。Wang等設(shè)計(jì)了一個(gè)新的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu),將行人之間的上下文信息及行人個(gè)體內(nèi)部屬性關(guān)聯(lián)在一起建模,學(xué)習(xí)一個(gè)統(tǒng)一的網(wǎng)絡(luò)架構(gòu),用于行人屬性預(yù)測(cè)。Sarfraz等[7]提出視點(diǎn)敏感行人屬性(View-Sensitive Pedestrian Attribute,VeSPA)模型,該模型采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合視圖預(yù)測(cè)和視圖特定屬性預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,視圖敏感的屬性推理能夠更好地對(duì)屬性進(jìn)行預(yù)測(cè)。Bekele等[8]提出了多屬性殘差網(wǎng)絡(luò)模型(Multi-Attribute Residual Network,MAResNet),該模型將多屬性優(yōu)化與改進(jìn)的殘差卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,在代價(jià)函數(shù)中優(yōu)化類不平衡。除此之外,模型訓(xùn)練過程中不涉及任何數(shù)據(jù)擴(kuò)充和預(yù)訓(xùn)練。Fang等[9]提出一種聯(lián)合分層多任務(wù)學(xué)習(xí)算法來學(xué)習(xí)屬性之間的關(guān)系。首先根據(jù)屬性的空間位置和語義關(guān)系,將屬性分為局部屬性和全局屬性;之后分別利用不同的CNN模型,以多任務(wù)的方式對(duì)兩組屬性進(jìn)行分類。Tan等[10]提出了一個(gè)聯(lián)合學(xué)習(xí)框架,以類似多任務(wù)的方式同時(shí)學(xué)習(xí)3種注意機(jī)制,以提取互補(bǔ)和相關(guān)的特征用于屬性識(shí)別。He等[11]提出了一種基于屬性的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Network,MTCNN)分組方法,該方法充分利用了屬性間的空間相關(guān)性,并保證了每個(gè)屬性的獨(dú)立性。同時(shí),提出了一種新的在線批量加權(quán)損失模型,以縮小屬性間的性能差異,提高模型的平均識(shí)別精度。Tang等[12]提出了一種屬性定位模塊(Attribute Localization Module,ALM),用于自適應(yīng)地發(fā)現(xiàn)最具區(qū)分性的區(qū)域,并在多個(gè)尺度上學(xué)習(xí)每個(gè)屬性的區(qū)域特征。此外,還引入了一種特征金字塔結(jié)構(gòu),利用高級(jí)語義指導(dǎo)來增強(qiáng)低層的屬性定位。Jia等[13]分析了常用的行人屬性識(shí)別數(shù)據(jù)集PETA和RAP的缺陷,即在訓(xùn)練集和測(cè)試集中存在大量相同的行人身份,會(huì)導(dǎo)致現(xiàn)有數(shù)據(jù)集上最先進(jìn)方法的性能被高估,并對(duì)數(shù)據(jù)集進(jìn)行了修正,得到了PETAzs和RAPzs兩個(gè)數(shù)據(jù)集。王林等[14]提出了一種多級(jí)注意力跳躍連接網(wǎng)絡(luò)(Multi-Level Attention Skip Connection Net,MLASC-Net),該網(wǎng)絡(luò)使用敏感注意力模塊篩選行人圖像關(guān)鍵信息,多級(jí)跳躍連接結(jié)構(gòu)保留淺層的細(xì)粒度信息,用多尺度金字塔模塊更全面地集成不同尺度和抽象層次的屬性信息,并利用自適應(yīng)加權(quán)損失層加快模型的收斂速度,最終實(shí)現(xiàn)對(duì)行人屬性的預(yù)測(cè)。

      與傳統(tǒng)基于人工設(shè)計(jì)特征的行人屬性識(shí)別方法相比,這類方法利用深度學(xué)習(xí)強(qiáng)大的特征表達(dá)能力和上下文信息提取能力,直接從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)層次式的特征表示,通過構(gòu)建一個(gè)多層神經(jīng)網(wǎng)絡(luò),使機(jī)器能夠?qū)W習(xí)隱含在數(shù)據(jù)內(nèi)部的關(guān)系,可以對(duì)目標(biāo)實(shí)現(xiàn)從細(xì)節(jié)紋理到局部塊再到高層語義的層次化遞進(jìn)表達(dá),獲得更具魯棒性、表達(dá)能力更強(qiáng)的特征,因此獲得了遠(yuǎn)超過傳統(tǒng)方法的性能。

      與現(xiàn)有的“特征提取+分類器”的思路不同,本文基于“特征提取+回歸”的思路,提出了一種行人多屬性協(xié)同識(shí)別方法。該方法通過對(duì)多個(gè)行人屬性標(biāo)簽進(jìn)行組合編碼,充分挖掘行人屬性特征之間的內(nèi)在關(guān)聯(lián)關(guān)系,可以在一個(gè)統(tǒng)一的框架下同時(shí)對(duì)行人的多種屬性進(jìn)行準(zhǔn)確識(shí)別。除此之外,本文使用改進(jìn)的基于Sigmoid交叉熵?fù)p失函數(shù)和實(shí)時(shí)在線數(shù)據(jù)增強(qiáng)策略來平衡各種屬性數(shù)據(jù)量不均衡的差異,進(jìn)而提升識(shí)別效果。在PETA[15]和RAP[16]兩個(gè)公共數(shù)據(jù)集上的識(shí)別平均準(zhǔn)確度(Mean Accuracy,mA)分別達(dá)到了84.08%和88.12%,并在RAP數(shù)據(jù)集上獲得了目前最優(yōu)的識(shí)別性能。

      1 提出的行人多屬性協(xié)同識(shí)別方法

      1.1 行人多屬性識(shí)別整體框架

      本文方法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在模型訓(xùn)練階段,網(wǎng)絡(luò)輸入的是歸一化后的帶有屬性標(biāo)簽組合向量的行人圖像,通過訓(xùn)練,建立圖像的深度特征與屬性標(biāo)簽組合向量之間的映射關(guān)系模型。在測(cè)試階段,模型輸入的是行人圖像,輸出的則是二進(jìn)制標(biāo)簽組合向量,分別對(duì)應(yīng)行人的不同屬性標(biāo)簽預(yù)測(cè)結(jié)果。整個(gè)網(wǎng)絡(luò)框架包括深度特征提取、行人屬性二進(jìn)制標(biāo)簽組合編碼和回歸共3個(gè)核心部分,這3個(gè)部分納入到一個(gè)統(tǒng)一的網(wǎng)絡(luò)框架下加以實(shí)現(xiàn)。其中深度特征提取部分采用的是基于通道注意力機(jī)制的ResNet50作為主干網(wǎng)絡(luò)?;貧w部分則由3個(gè)全連接層(FC)組成,用于將提取到的深度特征映射為二進(jìn)制標(biāo)簽組合向量。

      圖1 提出的行人多屬性識(shí)別網(wǎng)絡(luò)架構(gòu)

      全連接層網(wǎng)絡(luò)(Fully Connected Network,F(xiàn)CN)映射模型在提出的多屬性識(shí)別方法中發(fā)揮著重要的作用。首先,多個(gè)全連接層組合能夠更好地?cái)M合復(fù)雜的關(guān)聯(lián)關(guān)系,建立行人圖像深度特征與標(biāo)簽組合向量之間的映射模型;其次,通過全連接層可以進(jìn)一步增強(qiáng)圖像特征的區(qū)分能力,提升識(shí)別性能。

      1.2 基于通道注意力機(jī)制的ResNet50網(wǎng)絡(luò)

      1.2.1 ResNet50網(wǎng)絡(luò)

      ResNet網(wǎng)絡(luò)是He等[17]于2015年提出的,如圖2所示。主要貢獻(xiàn)是解決了隨著CNN深度加深而分類精度下降的問題,通過提出的殘差學(xué)習(xí)思想加速了CNN訓(xùn)練過程,有效避免了梯度消失和梯度爆炸問題。

      圖2 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)[17]

      He等利用殘差學(xué)習(xí)的思想,提出了一個(gè)恒等映射的Shortcut Connections結(jié)構(gòu),如圖3所示。其中x為輸入,F(xiàn)(x)為殘差映射,H(x)為理想映射,H(x)=F(x)+x。通過將擬合殘差映射F(x)轉(zhuǎn)變?yōu)閿M合理想映射H(x),可以把輸出變?yōu)檩斎牒蜌埐钣成涞寞B加,使得網(wǎng)絡(luò)對(duì)輸入x和輸出H(x)之間的變動(dòng)更加敏感。

      圖3 Shortcut Connections結(jié)構(gòu)示意圖

      為了構(gòu)建更深的網(wǎng)絡(luò)結(jié)構(gòu),He等還提出了Bottleneck結(jié)構(gòu),如圖4所示。為了適應(yīng)更深的網(wǎng)絡(luò)結(jié)構(gòu),Bottleneck結(jié)構(gòu)中增加了1×1卷積,目的是降低輸入的維度。ResNet-50/101/152網(wǎng)絡(luò)中均使用了Bottleneck結(jié)構(gòu)。

      圖4 Bottleneck結(jié)構(gòu)示意圖

      近年來ResNet網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用到各種計(jì)算機(jī)視覺任務(wù)中,均取得了突出的性能。本文選擇ResNet50作為主干網(wǎng)絡(luò),并引入通道注意力機(jī)制,提取圖像的深度特征。

      1.2.2 通道注意力機(jī)制

      注意力機(jī)制借鑒人類的選擇性認(rèn)知機(jī)制,從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息加以增強(qiáng),同時(shí)抑制無關(guān)信息。

      為了提高ResNet50網(wǎng)絡(luò)的特征提取與表達(dá)能力,在ResNet50網(wǎng)絡(luò)中添加通道注意力機(jī)制(Squeeze-and-Excitation Network,SENet)[18],用于提升深度特征的表達(dá)能力。

      通道注意力機(jī)制的核心思想是對(duì)分類任務(wù)有用的特征通道進(jìn)行加強(qiáng),對(duì)無用的特征通道進(jìn)行抑制。通道注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其實(shí)現(xiàn)過程如下:首先對(duì)輸入特征進(jìn)行壓縮操作Fsq(·)即全局平均池化,獲取全局感受野;然后進(jìn)行激勵(lì)操作Fex(·,w),即兩個(gè)全連接操作,預(yù)測(cè)各通道的重要性,使用Sigmoid激活函數(shù)輸出各通道的權(quán)重;最后通過乘法操作Fscale(.)對(duì)每個(gè)特征通道進(jìn)行加權(quán),完成在通道維度上對(duì)原始特征的重標(biāo)定。

      圖5 通道注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)

      通道注意力機(jī)制嵌入到殘差模塊中的示意圖如圖6所示。

      圖6 通道注意力機(jī)制嵌入到殘差模塊中的示意圖[18]

      1.3 構(gòu)建行人圖像屬性標(biāo)簽組合向量

      對(duì)行人的原有屬性標(biāo)簽進(jìn)行整理,編碼組合,得到一個(gè)行人二進(jìn)制屬性標(biāo)簽組合向量。通過這種方式,每幅圖像的多個(gè)屬性標(biāo)簽將由一個(gè)向量來代替。

      假設(shè)需要轉(zhuǎn)換的圖像有N張,每一張圖像對(duì)應(yīng)的屬性有L個(gè),包含性別、年齡范圍、攜帶物、服裝類型等。將每個(gè)行人圖像樣本用xi(i=1,2,…,N)表示,對(duì)應(yīng)的屬性向量為yi。每個(gè)標(biāo)簽向量yi中包含的屬性值為yi,l,yi,l∈[0,1](l=1,2,…,L)。根據(jù)原有的屬性標(biāo)注,如果行人圖像樣本xi包含這個(gè)屬性,則對(duì)應(yīng)的yi,l=1,否則yi,l=0。

      在PETA數(shù)據(jù)集中,共包含61個(gè)二值屬性和4個(gè)多分類屬性標(biāo)注。將4個(gè)多分類屬性標(biāo)簽按照二值化的形式進(jìn)行處理,每一個(gè)多分類屬性可進(jìn)一步拆分為11個(gè)二分類屬性標(biāo)簽。將上述屬性拆分整理后,每一張行人圖像樣本將得到一個(gè)61+11×4=105維的二進(jìn)制屬性標(biāo)簽組合向量,且每個(gè)屬性標(biāo)簽在標(biāo)簽向量中的位置是固定的,如表1所示。

      表1 PETA數(shù)據(jù)集的105個(gè)屬性標(biāo)簽順序

      RAP數(shù)據(jù)集的標(biāo)簽組合向量采用同樣的處理方式,每張圖像樣本將對(duì)應(yīng)著一個(gè)92維的標(biāo)簽組合向量。

      下面以常用的行人屬性公共數(shù)據(jù)集PETA中的一張行人圖像(如圖7所示)作為示例,來介紹行人圖像二進(jìn)制屬性標(biāo)簽組合向量的構(gòu)建過程。

      圖7 PETA數(shù)據(jù)集中行人圖像的屬性標(biāo)簽組合示例

      編碼時(shí),按照表1所示的屬性標(biāo)簽順序,逐一與圖7的屬性標(biāo)注內(nèi)容進(jìn)行對(duì)比,該屬性是哪一種標(biāo)簽,則將標(biāo)簽組合向量中相應(yīng)位置處的數(shù)值置為1,該屬性的其余標(biāo)簽置為0。對(duì)圖7的標(biāo)簽進(jìn)行編碼后,得到一個(gè)105維的二進(jìn)制屬性標(biāo)簽組合向量。

      1.4 損失函數(shù)設(shè)計(jì)

      行人的屬性往往是相互關(guān)聯(lián)的,例如長發(fā)、長裙、高跟鞋等屬性往往與女性相關(guān)。為了充分利用屬性之間的關(guān)聯(lián)關(guān)系,將行人屬性標(biāo)簽進(jìn)行組合編碼,在一個(gè)統(tǒng)一的框架下同時(shí)識(shí)別行人的多個(gè)屬性。為此,在屬性識(shí)別過程中需要對(duì)各屬性的損失進(jìn)行綜合考慮。采用Sigmoid交叉熵?fù)p失函數(shù)對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練[5],計(jì)算公式為

      (1)

      式中,yn,l為樣本xn是否擁有第l個(gè)屬性的真實(shí)標(biāo)簽;pn,l為帶有第l個(gè)屬性的第n個(gè)樣本輸出概率,計(jì)算公式為

      pn,l=1/(1+exp(-xn,l))

      (2)

      式中,xn,l為帶有第l個(gè)屬性的第n個(gè)樣本。然而在實(shí)際訓(xùn)練時(shí),數(shù)據(jù)集中的樣本分布并不十分均衡,例如V領(lǐng)、太陽鏡、下身衣服為紫色等屬性的正樣本數(shù)量遠(yuǎn)低于性別男女、長發(fā)等屬性。為解決這一問題,引入了樣本屬性加權(quán)因子wl來綜合考慮每個(gè)屬性的損失值。wl表示第l個(gè)屬性損失值的權(quán)重,加入樣本屬性加權(quán)因子后的損失函數(shù)值可表示為

      (3)

      式中,wl的計(jì)算公式為

      wl=exp(-pl/σ2)

      (4)

      式中,pl為訓(xùn)練集中第l個(gè)屬性正樣本所占的比例;σ為一個(gè)調(diào)諧參數(shù),實(shí)驗(yàn)中該值設(shè)為1。

      2 實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證提出方法的有效性,在PETA和RAP兩個(gè)最具代表性的行人屬性識(shí)別公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。下面介紹實(shí)驗(yàn)結(jié)果,并對(duì)結(jié)果進(jìn)行分析。

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      PETA和RAP是兩個(gè)最常用的行人屬性識(shí)別數(shù)據(jù)集。其中PETA數(shù)據(jù)集[15]由10個(gè)用于行人再識(shí)別的小型數(shù)據(jù)集組成,共包含19000幅圖像,涉及8705個(gè)行人,圖像樣本多從行人再識(shí)別數(shù)據(jù)集中的正樣本中獲得,圖像分辨率從17像素×39像素到169像素×365像素不等,行人圖像是基于人的身份標(biāo)注的,即對(duì)同一人的圖像樣本進(jìn)行相同屬性集的標(biāo)注,共包含61個(gè)二進(jìn)制屬性標(biāo)注和4個(gè)多類屬性,多分類屬性為11個(gè)不同的顏色類別屬性,因此識(shí)別起來更具挑戰(zhàn)性。PETA數(shù)據(jù)集的部分示例圖像如圖8(a)所示。

      RAP數(shù)據(jù)集[16]是從一個(gè)購物中心實(shí)際監(jiān)控場(chǎng)景的數(shù)據(jù)中收集整理出來的,該數(shù)據(jù)集包含的行人圖像數(shù)量大、屬性注釋豐富。為了進(jìn)一步研究屬性識(shí)別,對(duì)視點(diǎn)、遮擋樣式和身體部位這3個(gè)環(huán)境和語境因素進(jìn)行了明確的標(biāo)注。該數(shù)據(jù)集總共包含41585幅行人圖像,圖像大小在36像素×92像素到344像素×554像素之間,行人圖像是基于人的實(shí)例(Person Instance,PI)標(biāo)注,共包含72個(gè)細(xì)粒度屬性(69個(gè)二進(jìn)制屬性和3個(gè)多類屬性)。RAP數(shù)據(jù)集的部分示例圖像如圖8(b)所示。

      圖8 行人屬性數(shù)據(jù)集中行人圖像樣本

      本文將行人圖像大小歸一化為224像素×224像素,歸一化后的每幅圖像均對(duì)應(yīng)著一個(gè)行人屬性標(biāo)簽組合向量,用于訓(xùn)練網(wǎng)絡(luò)模型。為了降低訓(xùn)練樣本數(shù)量不足對(duì)網(wǎng)絡(luò)訓(xùn)練性能的影響,采取在線數(shù)據(jù)增強(qiáng)的策略,例如平移、隨機(jī)旋轉(zhuǎn)、縮放等,增加各類屬性樣本的數(shù)量,以提升網(wǎng)絡(luò)訓(xùn)練的性能。

      2.2 參數(shù)設(shè)置與評(píng)價(jià)指標(biāo)

      基于Keras框架實(shí)現(xiàn)了所設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),硬件平臺(tái)配置為:Intel?CoreTMi5-4590 CPU @ 3.30 GHz、NVIDIA GeForce GTX 1080Ti 11 GB GPUs。在網(wǎng)絡(luò)訓(xùn)練中,本文采用Adam算法優(yōu)化網(wǎng)絡(luò),初始學(xué)習(xí)率(init_lr)為0.0001,PETA數(shù)據(jù)集和RAP數(shù)據(jù)集的batch size大小設(shè)置為32,開始訓(xùn)練75個(gè)epochs,網(wǎng)絡(luò)訓(xùn)練使用了數(shù)據(jù)增強(qiáng)方法,并采用“預(yù)訓(xùn)練+細(xì)調(diào)”策略。為了與其他方法進(jìn)行公平對(duì)比,在訓(xùn)練過程中,參照文獻(xiàn)中的數(shù)據(jù)集劃分方式,以相同的比例對(duì)數(shù)據(jù)集進(jìn)行了劃分[15-16]。具體地說,將PETA數(shù)據(jù)集中的圖像按照5∶1∶4的比例進(jìn)行了劃分,訓(xùn)練集中包括了9500張圖像,驗(yàn)證集中包括了1900張圖像,測(cè)試集中包含了7600張圖像[15];將RAP數(shù)據(jù)集的圖片按照8∶2的比例進(jìn)行劃分,訓(xùn)練集和測(cè)試集分別包含33268和8317張圖片[16]。訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò)模型,測(cè)試集則用于測(cè)試網(wǎng)絡(luò)模型屬性識(shí)別的性能。

      采用mA[15]作為行人屬性識(shí)別性能的評(píng)判指標(biāo)。對(duì)于每一個(gè)行人屬性,分別計(jì)算正樣本和負(fù)樣本的分類識(shí)別的精確度,然后取平均值作為該屬性的最終識(shí)別精度。之后將選定的所有行人屬性識(shí)別精度的平均值作為本文算法的最終識(shí)別率,也就是平均準(zhǔn)確度。mA的計(jì)算公式為

      (5)

      式中,N為樣本數(shù)目;L為進(jìn)行訓(xùn)練的屬性個(gè)數(shù);Pi為測(cè)試樣本中第i個(gè)屬性的正樣本的數(shù)目;TPi為測(cè)試樣本中第i個(gè)屬性的正標(biāo)簽被預(yù)測(cè)正確的數(shù)目[19];Ni為測(cè)試樣本中第i個(gè)屬性的負(fù)樣本的數(shù)目;TNi為測(cè)試樣本中第i個(gè)屬性的負(fù)標(biāo)簽被預(yù)測(cè)正確的數(shù)目。

      2.3 通道注意力機(jī)制對(duì)識(shí)別性能的影響

      采用SENet來提升深度特征的表達(dá)能力。為了驗(yàn)證通道注意力機(jī)制對(duì)識(shí)別性能的影響,對(duì)比了對(duì)ResNet50網(wǎng)絡(luò)添加與不添加SENet模塊得到的屬性識(shí)別性能。

      在PETA和RAP數(shù)據(jù)集上,ResNet50網(wǎng)絡(luò)與注意力模塊相結(jié)合得到的105個(gè)屬性識(shí)別性能(mA)對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。需要說明的是,為了對(duì)比通道注意力機(jī)制對(duì)識(shí)別性能的影響,表2中實(shí)驗(yàn)數(shù)據(jù)未使用圖1中所示的全連接層,而是由網(wǎng)絡(luò)直接輸出二進(jìn)制標(biāo)簽組合向量。

      表2 PETA和RAP數(shù)據(jù)集上采用通道注意力機(jī)制得到的識(shí)別性能對(duì)比結(jié)果 單位:%

      從表2中可以看出,與未采用通道注意力機(jī)制相比,ResNet50網(wǎng)絡(luò)與該注意力機(jī)制結(jié)合后,能夠顯著提升識(shí)別精度,PETA和RAP數(shù)據(jù)集的識(shí)別精度分別提升了1.67%和2.73%。這說明SENet可以對(duì)重要的特征通道進(jìn)行增強(qiáng),并對(duì)無關(guān)的特征通道進(jìn)行抑制,從而提升深度特征的表達(dá)能力。

      2.4 全連接組合網(wǎng)絡(luò)對(duì)識(shí)別性能的影響

      如圖1所示,采用一個(gè)包含3個(gè)全連接層的網(wǎng)絡(luò)對(duì)深度特征與二進(jìn)制標(biāo)簽組合向量進(jìn)行回歸,建立深度特征與組合向量之間的映射模型,實(shí)現(xiàn)多屬性的協(xié)同識(shí)別。但是,全連接層過多會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)冗余、過擬合、模型運(yùn)算時(shí)間增加、訓(xùn)練效率低等一系列問題。因此,如何確定網(wǎng)絡(luò)結(jié)構(gòu)至關(guān)重要為此,本文進(jìn)行了全連接層組合實(shí)驗(yàn)。在PETA和RAP數(shù)據(jù)集上,分別采用不同的全連接網(wǎng)絡(luò)結(jié)構(gòu)得到的多屬性識(shí)別性能(mA)對(duì)比實(shí)驗(yàn)結(jié)果,如表3所示。表3中數(shù)據(jù)均采用基于SENet的ResNet50網(wǎng)絡(luò)提取深度特征,區(qū)別在于采用了不同的全連接網(wǎng)絡(luò)結(jié)構(gòu)。表3中第2列數(shù)據(jù)表示各個(gè)全連接層的神經(jīng)元數(shù)目,PETA和RAP數(shù)據(jù)集最后一層全連接層的神經(jīng)元數(shù)目分別為105和92。

      表3 不同全連接網(wǎng)絡(luò)結(jié)構(gòu)對(duì)識(shí)別性能的影響 單位:%

      由表3可以看出,對(duì)于兩個(gè)數(shù)據(jù)集來說,采用3層結(jié)構(gòu),各層神經(jīng)元數(shù)目分別為1024、128和105/92時(shí),可以獲得最優(yōu)的識(shí)別性能。原因在于PETA和RAP數(shù)據(jù)集的規(guī)模有限,全連接層數(shù)目多,模型參數(shù)隨之增加,網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)了過擬合現(xiàn)象,導(dǎo)致識(shí)別準(zhǔn)確率下降。因此,通過大量的對(duì)比實(shí)驗(yàn)確定了網(wǎng)絡(luò)層數(shù)和各層神經(jīng)元數(shù)目。實(shí)驗(yàn)結(jié)果表明,這種配置可以在網(wǎng)絡(luò)規(guī)模和性能之間達(dá)到很好的折中。

      2.5 消融實(shí)驗(yàn)

      設(shè)計(jì)了消融實(shí)驗(yàn),以驗(yàn)證通道注意力機(jī)制、全連接層網(wǎng)絡(luò)映射模型等組件的作用。ResNet50網(wǎng)絡(luò)作為基準(zhǔn)方法(Baseline),在此基礎(chǔ)上依次增加通道注意力機(jī)制(ResNet50-SENet)和通道注意力機(jī)制+全連接層網(wǎng)絡(luò)映射模型(ResNet50-SENet-FCN)。各種組合在PETA和RAP數(shù)據(jù)集上識(shí)別性能(mA)實(shí)驗(yàn)結(jié)果如表4所示。

      表4 不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)識(shí)別性能的影響 單位:%

      由表4可知,通道注意力機(jī)制能夠增強(qiáng)行人圖像特征的表達(dá)能力,在PETA和RAP數(shù)據(jù)集上的識(shí)別性能分別提升了1.67%和2.75%。而全連接層網(wǎng)絡(luò)映射模型則可以進(jìn)一步提升識(shí)別性能,在PETA和RAP數(shù)據(jù)集上的識(shí)別性能又分別提升了0.21%和0.38%。而將通道注意力機(jī)制和全連接層網(wǎng)絡(luò)映射模型添加到ResNet50網(wǎng)絡(luò)中能夠獲得最優(yōu)的實(shí)驗(yàn)性能,在PETA和RAP數(shù)據(jù)集上分別達(dá)到了90.2%和88.13%。

      2.6 本文方法與其他方法的比較

      為了驗(yàn)證提出的行人多屬性識(shí)別方法的性能,在PETA和RAP兩個(gè)最常用的公共行人屬性識(shí)別數(shù)據(jù)集上,將其與8種基于深度學(xué)習(xí)的行人屬性識(shí)別方法進(jìn)行了對(duì)比實(shí)驗(yàn),對(duì)比方法包括ACN[4]、DeepMAR[5]、JRL[6]、VeSPA[7]、MAResNet[8]、JLPLS-PAA[10]等。

      為了進(jìn)行公平的比較,統(tǒng)計(jì)了上述實(shí)驗(yàn)結(jié)果中相同的屬性識(shí)別結(jié)果。每種方法均選擇了PETA數(shù)據(jù)集的35個(gè)屬性標(biāo)簽作為研究對(duì)象,這些屬性包括視頻監(jiān)控中最重要的15種屬性[20]和20種識(shí)別難度較大的屬性[21],覆蓋行人的所有身體部位和屬性的不同流行度,這35個(gè)屬性標(biāo)簽詳見文獻(xiàn)[15]。RAP數(shù)據(jù)集選出了51個(gè)屬性標(biāo)簽作為研究對(duì)象,這51個(gè)屬性標(biāo)簽詳見文獻(xiàn)[16]。

      表5為在PETA和RAP數(shù)據(jù)集上分別采用不同的方法得到的屬性識(shí)別性能(mA)對(duì)比結(jié)果。

      表5 PETA和RAP數(shù)據(jù)集采用不同方法得到的屬性識(shí)別精度對(duì)比結(jié)果 單位:%

      從表5可以看出,與目前的幾種基于深度學(xué)習(xí)的行人屬性識(shí)別方法相比,在RAP數(shù)據(jù)集上,本文方法的識(shí)別準(zhǔn)確率最高,可達(dá)88.12%,比目前識(shí)別準(zhǔn)確率最高的ALM方法提高了6.25%。但是在PETA數(shù)據(jù)集上,本文方法的識(shí)別精度比MLASC-Net、JRL和ALM等方法分別低了1.2%、1.59%和2.22%,主要原因如下。

      ① 本文方法采用的SENet+ResNet50網(wǎng)絡(luò)架構(gòu)比較簡(jiǎn)單。而MLASC-Net方法使用ResNet50提取特征并與敏感注意力模塊、多級(jí)跳躍連接結(jié)構(gòu)、多尺度金字塔模塊和自設(shè)計(jì)損失函數(shù)共同作用進(jìn)行屬性識(shí)別;JRL方法采用的是基于RNN的編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu);ALM方法設(shè)計(jì)了一種屬性定位模塊,用于自適應(yīng)發(fā)現(xiàn)最具區(qū)分性的區(qū)域,并在多個(gè)尺度上學(xué)習(xí)每個(gè)屬性的區(qū)域特征。此外,使用一種特征金字塔結(jié)構(gòu),利用高級(jí)語義指導(dǎo)來增強(qiáng)低層的屬性定位,網(wǎng)絡(luò)結(jié)構(gòu)均比較復(fù)雜。

      ② PETA數(shù)據(jù)集是由多個(gè)小數(shù)據(jù)集合并得到的,場(chǎng)景復(fù)雜多變,每個(gè)小數(shù)據(jù)集標(biāo)注的屬性標(biāo)簽不統(tǒng)一,姿態(tài)改變、遮擋等因素也會(huì)導(dǎo)致屬性標(biāo)簽信息不完整。而本文方法需要對(duì)屬性標(biāo)簽進(jìn)行編碼組合,標(biāo)簽信息不完整、不統(tǒng)一在一定程度上會(huì)導(dǎo)致屬性識(shí)別的準(zhǔn)確率下降。

      RAP數(shù)據(jù)集的行人圖像分辨率相對(duì)較高,行人屬性標(biāo)簽完整、統(tǒng)一、準(zhǔn)確、場(chǎng)景單一,因此在該數(shù)據(jù)集上本文方法的性能遠(yuǎn)超過其他方法。

      綜上,本文方法比較適合于行人屬性標(biāo)簽比較完整、統(tǒng)一、描述準(zhǔn)確的應(yīng)用場(chǎng)合,不僅網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,而且屬性識(shí)別準(zhǔn)確率高。

      2.7 屬性識(shí)別效果

      利用訓(xùn)練好的模型,隨機(jī)對(duì)PETA數(shù)據(jù)庫中的一張行人圖像進(jìn)行了屬性預(yù)測(cè),輸出了預(yù)測(cè)置信度最高的10個(gè)屬性標(biāo)簽,如圖9所示。可以看出,本文方法能對(duì)行人多個(gè)屬性同時(shí)進(jìn)行準(zhǔn)確識(shí)別。

      圖9 在PETA上對(duì)10個(gè)屬性進(jìn)行識(shí)別

      對(duì)數(shù)據(jù)集中的所有屬性都進(jìn)行了識(shí)別,發(fā)現(xiàn)“上衣是否V領(lǐng)”“皮鞋”“背包”等4個(gè)屬性的識(shí)別準(zhǔn)確率較低。而 “年齡在31~45歲”“年齡在46~60歲”“上身著休閑裝”“下身著休閑裝”“無附件”等5個(gè)屬性的識(shí)別準(zhǔn)確率較高。具體如表6所示。

      表6 PETA數(shù)據(jù)集中識(shí)別準(zhǔn)確較高和較低的屬性

      經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),識(shí)別準(zhǔn)確率較高的5個(gè)屬性標(biāo)注率較高。相應(yīng)地,識(shí)別準(zhǔn)確率較低的屬性標(biāo)注率較低。這是因?yàn)闃?biāo)注率高,則意味著樣本數(shù)量比較多,因此訓(xùn)練出的網(wǎng)絡(luò)模型具有良好的識(shí)別能力和泛化性能。而標(biāo)注率低,則由于數(shù)據(jù)量不足,導(dǎo)致模型的泛化能力較差,識(shí)別準(zhǔn)確性較低。

      3 結(jié)束語

      本文針對(duì)行人屬性識(shí)別準(zhǔn)確率低的問題,提出了一種基于ResNet50和通道注意力機(jī)制的行人多屬性協(xié)同識(shí)別方法。該方法將行人的原有屬性標(biāo)簽進(jìn)行整理,編碼組合,得到一個(gè)行人二進(jìn)制屬性標(biāo)簽組合向量。每幅圖像的多個(gè)屬性標(biāo)簽由一個(gè)組合向量來代替,通過這種方式,將數(shù)據(jù)集中的所有屬性標(biāo)簽利用起來,有助于網(wǎng)絡(luò)充分挖掘行人屬性之間的內(nèi)在聯(lián)系,提升屬性識(shí)別性能;通過基于ResNet50和通道注意力機(jī)制的網(wǎng)絡(luò)對(duì)輸入的圖像提取特征,再使用一個(gè)包含3個(gè)全連接層的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)圖像深度特征與二進(jìn)制屬性標(biāo)簽組合向量進(jìn)行回歸,這樣不僅可以建立深度特征與屬性標(biāo)簽組合向量之間的映射模型,實(shí)現(xiàn)多屬性的協(xié)同識(shí)別,而且該FCN結(jié)構(gòu)能夠增強(qiáng)特征的表達(dá)能力,提升網(wǎng)絡(luò)模型的屬性識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文方法在RAP數(shù)據(jù)集上可以獲得最優(yōu)的識(shí)別性能。

      本文方法適合于行人屬性標(biāo)簽比較統(tǒng)一、描述準(zhǔn)確的應(yīng)用場(chǎng)合,而在行人屬性標(biāo)簽描述不準(zhǔn)確的場(chǎng)合實(shí)驗(yàn)性能有待提高。在未來的工作中,還將通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、調(diào)整超參數(shù)、設(shè)計(jì)新的注意力機(jī)制和損失函數(shù)等方式來改進(jìn)算法,提高行人屬性的識(shí)別精度,并進(jìn)一步將行人屬性特征應(yīng)用于行人再識(shí)別中。

      猜你喜歡
      行人注意力標(biāo)簽
      讓注意力“飛”回來
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      路不為尋找者而設(shè)
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      我是行人
      A Beautiful Way Of Looking At Things
      標(biāo)簽化傷害了誰
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      利川市| 吴江市| 新干县| 当雄县| 宁河县| 河南省| 板桥市| 固始县| 密山市| 大邑县| 浙江省| 西丰县| 临汾市| 长宁县| 乳山市| 绍兴市| 凤阳县| 灵石县| 昭苏县| 定兴县| 墨竹工卡县| 开化县| 镇原县| 东乌珠穆沁旗| 桦甸市| 文成县| 宜昌市| 天津市| 翼城县| 日喀则市| 邢台市| 牙克石市| 建湖县| 司法| 封开县| 新干县| 甘泉县| 万州区| 兰坪| 东乌| 绥德县|