• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的行人屬性多標(biāo)簽識(shí)別

    2018-09-03 06:05:46李亞鵬萬遂人
    關(guān)鍵詞:行人標(biāo)簽卷積

    李亞鵬 萬遂人

    (東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院,南京 210096)

    引言

    行人屬性如性別、年齡、服飾、攜帶品等,作為行人的外部軟生物特征應(yīng)用在監(jiān)控領(lǐng)域,已經(jīng)吸引了大量的關(guān)注。例如,行人屬性作為有用的線索已經(jīng)被用來進(jìn)行人物檢索[1-2]、人物識(shí)別[3-6]、面部驗(yàn)證[7]和人物再識(shí)別[8],并且在智能視頻監(jiān)控場景和基于視頻的商業(yè)智能應(yīng)用中顯示出巨大的潛力。在許多現(xiàn)實(shí)世界的監(jiān)控場景下,攝像機(jī)通常安裝在遠(yuǎn)處以覆蓋廣泛的區(qū)域,因此被捕獲的行人圖像分辨率較低,難以獲得高質(zhì)量的臉部圖像。然而,在這種場景下的行人屬性依然有很高的應(yīng)用潛力,因?yàn)橄鄬?duì)于傳統(tǒng)的生物識(shí)別技術(shù),行人屬性已經(jīng)顯示出多個(gè)優(yōu)點(diǎn),比如光照不變性和對(duì)比不變性。

    行人屬性分類面臨著3個(gè)主要的挑戰(zhàn)。第一,由于服裝外觀的多樣,照明條件的差異和相機(jī)視角的不同,導(dǎo)致嚴(yán)重的類內(nèi)差異。第二,行人屬性具有復(fù)雜的局部特征,這意味著一些屬性只能在某些確定的或不確定的局部身體區(qū)域被識(shí)別。例如,長頭發(fā)和頭肩部位最相關(guān),書包可能以不確定的高度出現(xiàn)在圖像的左邊或者右邊。因此,提取行人屬性是非常困難的。第三,行人屬性分類是多標(biāo)簽分類問題,而不是多類分類問題,因?yàn)樾腥藢傩圆皇峭耆嗷ヅ懦獾摹?/p>

    當(dāng)前的行人屬性識(shí)別方法主要集中在兩個(gè)應(yīng)用場景:自然場景和監(jiān)控場景。許多研究人員非常注意自然場景屬性識(shí)別,并在目標(biāo)識(shí)別、人臉識(shí)別等方面取得巨大成功。例如,自然場景中的屬性識(shí)別首先由Ferrari等提出[9]。他們提出了一種概率生成模型來學(xué)習(xí)低級(jí)視覺屬性,如“條紋”和“斑點(diǎn)”。 Siddiquie等對(duì)不同查詢屬性之間的相關(guān)性進(jìn)行明確的建模,并生成了檢索列表[10]。 Kumar等探索比較面部特征,并通過二分類器進(jìn)行面部驗(yàn)證[11]。

    監(jiān)控場景中的屬性識(shí)別也有一些開創(chuàng)性的研究。 Layne等首先使用支持向量機(jī)(SVM)來識(shí)別屬性(如“性別”,“背包”),并用其促進(jìn)行人再識(shí)別[12-13]。為了解決混合場景中的屬性識(shí)別問題,朱建清等引入行人數(shù)據(jù)庫(APiS),并使用增強(qiáng)算法來識(shí)別屬性[14]。鄧玉斌等構(gòu)建了行人屬性數(shù)據(jù)庫[15](PETA),利用SVM和馬爾可夫隨機(jī)場識(shí)別屬性。 然而,這些方法都是使用手工特征,并不能有效地代表監(jiān)視場景中的圖像。 另外,屬性之間的關(guān)系被忽略,這對(duì)屬性識(shí)別任務(wù)非常重要。 例如,長發(fā)特征的女性比男性的概率更高,所以頭發(fā)長度可以幫助識(shí)別性別。

    受到深度學(xué)習(xí)在不同傳統(tǒng)計(jì)算機(jī)視覺任務(wù)上的突出表現(xiàn)的啟發(fā),一些研究人員開始用深度卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行行人屬性分類。李黨偉等提出了可用于學(xué)習(xí)不同屬性間相關(guān)性的卷積神經(jīng)網(wǎng)絡(luò)模型(DeepMAR),與傳統(tǒng)手工特征方法相比,在行人屬性識(shí)別精度上取得了更好的結(jié)果[16]。朱建清等提出了一個(gè)多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)模型(MLCNN)來進(jìn)行行人屬性識(shí)別[17]。Hiroshi等通過異構(gòu)學(xué)習(xí)和稀有率方法提高在數(shù)據(jù)集不平衡情況下的屬性識(shí)別率[18]。在行人屬性多標(biāo)簽識(shí)別任務(wù)中,大部分行人屬性數(shù)據(jù)集都存在樣本屬性分布失衡的問題。受Levi等[19]在研究年齡和性別問題所使用模型的啟發(fā),本研究使用了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)行人屬性多標(biāo)簽分類。該模型以AlexNet[20]為基礎(chǔ),削減了兩個(gè)卷積層和一個(gè)全連接層,并做了一些改動(dòng)。該卷積神經(jīng)網(wǎng)絡(luò)模型使用Sigmoid交叉熵?fù)p失函數(shù),并通過加入正樣本比例指數(shù)因子來應(yīng)對(duì)樣本屬性分布失衡的問題。通過在PETA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,取得了良好的識(shí)別效果。

    1 材料和方法

    1.1 方法

    卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一種經(jīng)典模型,能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)并提取特征,其泛化能力顯著優(yōu)于傳統(tǒng)方法。本課題采用深度卷積神經(jīng)網(wǎng)絡(luò)的方法,研究行人屬性多標(biāo)簽分類識(shí)別。

    1.2 Sigmoid交叉熵?fù)p失函數(shù)

    Sigmoid函數(shù)是一種S型函數(shù),可以將神經(jīng)網(wǎng)絡(luò)輸出端的分類得分轉(zhuǎn)換為相應(yīng)的輸出概率,如式(1)所示,pn,l為第n個(gè)樣本第l個(gè)屬性的輸出概率。對(duì)于擁有多個(gè)屬性的多標(biāo)簽分類,需要綜合考慮所有屬性的損失,整體的Sigmoid交叉熵?fù)p失函數(shù)如式(2)所示。在數(shù)據(jù)集中,由于各個(gè)屬性的分布不平衡比較嚴(yán)重,各個(gè)屬性正樣本在所有樣本中所占比例差異也很大。例如,戴帽子屬性要比性別屬性的正樣本比例少很多,因?yàn)楝F(xiàn)實(shí)中的行人通常也是不帶帽子的居大多數(shù)。為了應(yīng)對(duì)屬性的嚴(yán)重不平衡分布,提高損失函數(shù)對(duì)模型的優(yōu)化能力,在綜合考慮每個(gè)屬性的損失值時(shí)引入了正樣本比例指數(shù)因子wl。wl表示第l個(gè)屬性損失值的權(quán)重,正樣本比例越小,該屬性損失值越大。此時(shí)損失函數(shù)值可以由式(3)求出。pl是訓(xùn)練集中第l個(gè)屬性正樣本所占的比例。實(shí)驗(yàn)過程中,式(4)中σ參數(shù)的值取1。實(shí)驗(yàn)中還測(cè)試了wl因子對(duì)識(shí)別精度的影響。

    pn,l=1/(1+exp(-xn,l))

    (1)

    (1-yn,l)ln(1-pn,l))

    (2)

    (1-yn,l)ln(1-pn,l))

    (3)

    wl=exp(-pl/σ2)

    (4)

    1.3 網(wǎng)絡(luò)結(jié)構(gòu)

    本研究使用的模型具有3個(gè)卷積層和2個(gè)全連接層組成,模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

    圖1 卷積網(wǎng)絡(luò)模型結(jié)構(gòu)流程Fig.1 The structure chart of the CNN net model

    首先,將圖像大小調(diào)整為256×256,在訓(xùn)練時(shí)采用隨機(jī)剪裁策略以擴(kuò)充數(shù)據(jù)集,剪裁尺寸為227×227,剪裁后的圖片大小與剪裁前的圖片相差不大,一般不會(huì)造成圖片信息的損失。網(wǎng)絡(luò)參數(shù)采用高斯分布初始化,標(biāo)準(zhǔn)差為0.01。3個(gè)卷積層和2個(gè)全連接層的詳細(xì)定義如下:

    1)conv1包含96個(gè)濾波器,核尺寸為7×7,步長為3,填充數(shù)為1。通過卷積層conv1得到96個(gè)大小為75×75的特征圖。然后通過ReLU激活函數(shù),再通過pooling層降采樣,pooling層的核尺寸大小為3×3,步長為2,得到輸出為96×37×37。

    2)conv2包含256個(gè)濾波器,核尺寸為5×5,步長為1,填充數(shù)為2。通過卷積層conv1得到256個(gè)大小為37×37的特征圖。然后通過ReLU激活函數(shù),再通過pooling層降采樣,pooling層的核尺寸大小為3×3,步長為2,得到輸出為256×18×18。

    3)conv3包含384個(gè)濾波器,核尺寸為3×3,步長為1,填充數(shù)為1。通過卷積層conv1得到384個(gè)大小為18×18的特征圖。然后通過ReLU激活函數(shù),再通過pooling層降采樣,pooling層的核尺寸大小為2×2,步長為2,得到輸出為384×9×9。

    4)全連接層fc4將卷積層conv3得到的384×9×9的輸出特征進(jìn)行全連接,神經(jīng)元個(gè)數(shù)為512。通過dropout層drop4控制訓(xùn)練時(shí)工作的神經(jīng)元個(gè)數(shù),以抑制過擬合。

    5)全連接層fc5將全連接層fc4得到的512的輸出進(jìn)行全連接,神經(jīng)元個(gè)數(shù)為1。

    最后,loss層將fc5得到的結(jié)果通過Sigmoid函數(shù)進(jìn)行概率計(jì)算,得到預(yù)測(cè)標(biāo)記,與真實(shí)標(biāo)記相比計(jì)算損失,并對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。

    1.4 算法驗(yàn)證

    本實(shí)驗(yàn)所使用的數(shù)據(jù)集為PETA dataset[15]。PETA中的所有圖像都在當(dāng)前流行的行人再識(shí)別數(shù)據(jù)庫中收集,PETA數(shù)據(jù)集包含19 000張圖片,分辨率最小為17×39,最大為169×365。19 000張圖片中共包含有8 705個(gè)行人,每個(gè)行人用61個(gè)二分類屬性標(biāo)簽和4個(gè)多分類屬性標(biāo)簽進(jìn)行標(biāo)。PETA中的圖像在背景、照明和視角上具有很大的差異。 PETA中的一些圖像已經(jīng)在圖2中顯示。廣泛采用的實(shí)驗(yàn)方案是將數(shù)據(jù)集隨機(jī)分為3個(gè)部分:訓(xùn)練集包含9 500張圖像,驗(yàn)證集包含1 900張圖像,測(cè)試集包含7 600張圖像。

    圖2 PETA數(shù)據(jù)集中的行人圖像Fig.2 The pedestrian images in PETA

    如果一張圖片中出現(xiàn)了某個(gè)屬性,那么這張圖片對(duì)于該屬性為正樣本,否則為負(fù)樣本。例如,一張圖片上的行人戴了帽子而沒有戴眼鏡,則對(duì)于帽子屬性,該圖片為正樣本,對(duì)于眼鏡屬性,該圖片為負(fù)樣本。本研究從65類屬性標(biāo)簽中選取10類屬性標(biāo)簽進(jìn)行實(shí)驗(yàn)。

    訓(xùn)練網(wǎng)絡(luò)時(shí),采用隨機(jī)梯度下降法(SGD)優(yōu)化網(wǎng)絡(luò),初始學(xué)習(xí)率為0.001,參數(shù)weight decay設(shè)置為0.005,batch大小為100,訓(xùn)練20 000個(gè)epoch,momentum為0.9,訓(xùn)練結(jié)束時(shí)的最小學(xué)習(xí)率為0.000 001。

    為了驗(yàn)證本研究網(wǎng)絡(luò)結(jié)構(gòu)的性能,實(shí)驗(yàn)時(shí)使用了PETA數(shù)據(jù)集上經(jīng)常使用的行人屬性分類方法ikSVM[13]做對(duì)比。訓(xùn)練時(shí),通過增加正樣本數(shù)目或負(fù)樣本數(shù)目使正負(fù)樣本比例平衡來為每個(gè)屬性訓(xùn)練一個(gè)ikSVM分類器。

    2 結(jié)果

    本研究所用的深度卷積網(wǎng)絡(luò)模型所得到的實(shí)驗(yàn)結(jié)果是通過使用Caffe[21]深度學(xué)習(xí)框架獲得的。Caffe由伯克利AI研究所(BAIR)和社區(qū)貢獻(xiàn)者開發(fā),是一個(gè)以表達(dá)、速度和模塊化為基礎(chǔ)的深度學(xué)習(xí)框架。實(shí)驗(yàn)中,在對(duì)10類屬性標(biāo)簽識(shí)別時(shí),將多標(biāo)簽多類分類轉(zhuǎn)化為對(duì)每個(gè)標(biāo)簽中單個(gè)類別的二分類任務(wù)。PETA的基本評(píng)估標(biāo)準(zhǔn)是計(jì)算每個(gè)屬性的平均識(shí)別精度。ikSVM算法取得的結(jié)果是在Matlab上實(shí)驗(yàn)得到的。ikSVM算法和本研究使用網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果如表1所示。

    為了更好地分析實(shí)驗(yàn)結(jié)果,將表1的結(jié)果圖像化顯示, 如圖3所示,橫軸表示屬性(按正樣本比例排序),縱軸表示識(shí)別精度。從實(shí)驗(yàn)中可以看出,使用傳統(tǒng)手工設(shè)計(jì)特征算法ikSVM在行人屬性多標(biāo)簽分類識(shí)別任務(wù)中,10類屬性標(biāo)簽平均識(shí)別精度達(dá)到0.819。本研究所用的卷積網(wǎng)絡(luò)結(jié)構(gòu)在行人屬性多標(biāo)簽分類識(shí)別任務(wù)中,識(shí)別結(jié)果有了明顯的提高,10類屬性標(biāo)簽平均識(shí)別精度達(dá)到0.852,在損失函數(shù)中加入正樣本比例權(quán)重因子后,識(shí)別精度有了更進(jìn)一步的提高,平均識(shí)別精度達(dá)到0.892。

    表1 10類屬性標(biāo)簽識(shí)別精度Tab.1 The recognition accuracy of 10 classes of attributes

    注:表中mA代表平均精度,第2列為屬性正樣本在數(shù)據(jù)集中所占比例,第3列為ikSVM算法取得的精度,第4列和第5列分別表示在訓(xùn)練時(shí)參數(shù)wl均取0.1和按式(3)取值時(shí)獲得的精度。

    Note:mA represents mean accuracy, the 2nd column shows the ratio of positive samples, the 3rd column shows the accuracy obtained by the ikSVM algorithm when allwlassigned with 0.1, the 4th column shows accuracy whenwlassigned with values according to formula (3). And the 4th and 5th columns indicate that the accuracy obtained when the parameter wlis taken as 0.1 or assigned by formula (3), respectively.

    圖3 實(shí)驗(yàn)結(jié)果的圖形化Fig.3 The image of experimental results

    3 討論

    本研究分別使用深度卷積神經(jīng)網(wǎng)絡(luò)模型和ikSVM[13]算法對(duì)行人屬性進(jìn)行了分類識(shí)別。ikSVM是一種基于SVM和傳統(tǒng)手工設(shè)計(jì)特征的方法。用來訓(xùn)練ikSVM分類器的特征向量具有2 784個(gè)維度,包括8個(gè)顏色通道(RGB、HSV和YCbCr),以及在亮度通道上使用Gabor濾波器和Schmid濾波器獲得的21個(gè)紋理通道。深度卷積網(wǎng)絡(luò)模型直接從原始圖像像素中提取抽象特征,通過逐層卷積,在高層提取出表征能力很強(qiáng)的特征,并將高層特征用于分類。

    從識(shí)別精度上可以看出,與傳統(tǒng)手工設(shè)計(jì)特征訓(xùn)練的分類器ikSVM相比,本研究模型在大部分屬性上取得了更高的識(shí)別精度。但在某些屬性上ikSVM算法識(shí)別精度超過了本研究沒有改進(jìn)損失函數(shù)的網(wǎng)絡(luò),這是由于兩者的學(xué)習(xí)機(jī)制不同所導(dǎo)致的,ikSVM是針對(duì)每個(gè)屬性訓(xùn)練的單獨(dú)分類器,而本研究模型是對(duì)10類屬性聯(lián)合訓(xùn)練的分類器。同時(shí)可以看出,訓(xùn)練過程中在損失函數(shù)中增加正樣本比例指數(shù)因子wl,以增大正樣本比例較少屬性的損失值,從而增大對(duì)于樣本比例失衡的懲罰,使網(wǎng)絡(luò)模型的屬性識(shí)別精度有了明顯的提高,并且都超過了ikSVM,在應(yīng)用中可以考慮將這一因子作為提高網(wǎng)絡(luò)性能的一項(xiàng)重要因素。

    由圖3可見,由于數(shù)據(jù)集中的某些屬性(如accessoryHat、accessorySunglasses、personalLess60)正負(fù)樣本比例嚴(yán)重不平衡,會(huì)對(duì)識(shí)別精度造成影響,比如對(duì)于眼鏡這一屬性,正樣本比例只有0.029,一個(gè)沒有經(jīng)過學(xué)習(xí)直接把樣本劃分為負(fù)類的分類器就能獲得0.971的準(zhǔn)確度。所以,造成了在屬性正負(fù)樣本比相對(duì)均衡處,識(shí)別精度比屬性正負(fù)樣本比例失衡處明顯降低,降低范圍在0.163~0.224之間,這說明加入wl來平衡屬性樣本比例失衡所造成影響的能力有限,后續(xù)研究可以考慮同時(shí)加入正負(fù)樣本比例指數(shù)因子。在正負(fù)樣本分布相對(duì)比較平衡的屬性上(如personalMale、personalLess30、personalLess45),改進(jìn)損失函數(shù)后網(wǎng)絡(luò)模型仍取得了更高的識(shí)別精度,這說明改進(jìn)后深度卷積神經(jīng)網(wǎng)絡(luò)有更強(qiáng)的特征提取和表征能力,能明顯提高行人屬性分類精度。

    4 結(jié)論

    本研究主要探討了深度學(xué)習(xí)的方法在行人屬性多標(biāo)簽分類識(shí)別中的應(yīng)用。使用了一個(gè)擁有3個(gè)卷積層和2個(gè)全連接層的深度卷積神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練所用的數(shù)據(jù)集為標(biāo)注好的PETA行人屬性數(shù)據(jù)集,通過在caffe深度學(xué)習(xí)框架中進(jìn)行學(xué)習(xí)訓(xùn)練,與傳統(tǒng)手工設(shè)計(jì)特征訓(xùn)練的分類器相比取得了更好的分類識(shí)別精度。為了平衡屬性樣本比例失衡對(duì)模型性能造成的影響,在損失函數(shù)中增加了正樣本比例指數(shù)因子,使網(wǎng)絡(luò)模型的性能有了明顯的提高。未來如果繼續(xù)增加網(wǎng)絡(luò)的深度,擴(kuò)充訓(xùn)練數(shù)據(jù)集,優(yōu)化損失函數(shù),預(yù)計(jì)網(wǎng)絡(luò)的性能會(huì)有進(jìn)一步的提升。

    猜你喜歡
    行人標(biāo)簽卷積
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    毒舌出沒,行人避讓
    意林(2021年5期)2021-04-18 12:21:17
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    路不為尋找者而設(shè)
    無懼標(biāo)簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    我是行人
    標(biāo)簽化傷害了誰
    基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
    承德县| 利川市| 太保市| 遂宁市| 渑池县| 义马市| 册亨县| 天水市| 外汇| 嫩江县| 怀柔区| 乌拉特前旗| 吐鲁番市| 大宁县| 常州市| 乳山市| 汕头市| 喜德县| 汪清县| 南安市| 亳州市| 当涂县| 兖州市| 濮阳县| 中牟县| 苍山县| 扎囊县| 富源县| 黑水县| 临武县| 肥东县| 南通市| 内丘县| 富宁县| 湖北省| 兴隆县| 通河县| 庄浪县| 广西| 沧源| 祁东县|