• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      行人檢測的深度稀疏自編碼網(wǎng)絡(luò)*

      2019-06-19 12:34:32趙莎莎范志旭
      計(jì)算機(jī)與生活 2019年6期
      關(guān)鍵詞:編碼器行人深度

      崔 鵬,趙莎莎,范志旭

      哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150080

      1 引言

      目標(biāo)檢測問題可看作一種分類問題,需要把目標(biāo)從背景中識別出來并精準(zhǔn)定位。行人檢測比檢測其他物體如汽車、人臉更加困難[1],因?yàn)槿梭w是非剛性、高度的鏈接,不僅受到光照的變化、遮擋、視覺上的扭曲,還有不同的姿勢姿態(tài)。另外,由于人體穿著的多樣性,行人不能僅利用紋理和顏色信息特有的優(yōu)勢去檢測。

      特征提取對于檢測器的設(shè)計(jì)起著至關(guān)重要的作用,近年來,國內(nèi)外研究人員設(shè)計(jì)出多種特征描述符。Dalal等人[2]提出梯度方向直方圖(histogram of oriented gradient,HOG)去提取人體形狀的輪廓信息,能對光照、尺度、方向有很好的適應(yīng)性,因此得到廣泛的應(yīng)用。隨后,一些研究者在HOG的基礎(chǔ)上設(shè)計(jì)新的檢測器[3-4]。Dollár等人[5]首先引入積分通道(integral channel features,ICF),結(jié)合6個(gè)梯度方向直方圖通道、梯度幅度通道等,得到有效的特征。為了提高魯棒性,相繼提出聚合通道特征如ACF(aggregate channel feature)[6]、LDCF(locally decorrelated channel features)和 Spatial Pooling[7]等,將通道分塊,并將每個(gè)塊中的像素求和作為特征值。還有矩形特征如ChnFtrs、Squares ChnFtrs[8]、Informed Haar、NNNF(nor-neighboring and neighboring features)[9]等考慮一階或更高階矩形特征。隨著強(qiáng)大的并行計(jì)算架構(gòu)的出現(xiàn),深度神經(jīng)網(wǎng)絡(luò)正在迅速革新機(jī)器學(xué)習(xí)和人工智能的世界[10-11],文獻(xiàn)[12]設(shè)計(jì)的無監(jiān)督深度學(xué)習(xí)方法,是第一個(gè)使用卷積網(wǎng)絡(luò)來檢測行人。深度堆棧網(wǎng)絡(luò)代替原始特征,提高系統(tǒng)的判別能力,同時(shí)保留可變形部分模型的優(yōu)點(diǎn),即對姿態(tài)和部分遮擋的魯棒性,Ouyang等人[13]構(gòu)建一個(gè)能夠執(zhí)行特征提取、部件變形處理和遮擋處理的可判別網(wǎng)絡(luò)。Hosang等人[14]使用有監(jiān)督的深度學(xué)習(xí)方法,適應(yīng)圖像分類設(shè)計(jì)的網(wǎng)絡(luò)來檢測行人。這種方法在檢測精度方面具有良好的結(jié)果,改進(jìn)了基于手工特征提取的最新方法的性能。

      以上研究中的深度網(wǎng)絡(luò)方法可以達(dá)到不錯(cuò)的性能,但需要昂貴的設(shè)備如GPU及大量的訓(xùn)練圖像。此外,直接對圖像進(jìn)行學(xué)習(xí),會(huì)消耗大量的時(shí)間,并影響分類器的性能。在文獻(xiàn)[15]中,作者將額外特征(包含前面提到的ICF通道、邊緣通道特征等)輸入到卷積神經(jīng)網(wǎng)絡(luò)中,從而提升檢測性能,但是不同通道整合的特征維數(shù)大,訓(xùn)練CNN(convolutional neural networks)的計(jì)算成本昂貴。自動(dòng)編碼器作為常用的深度網(wǎng)絡(luò)結(jié)構(gòu),可以捕捉圖像的重要信息,學(xué)習(xí)到表示行人信息的主要特征,降低時(shí)間復(fù)雜度。在此啟發(fā)下,本文提出了一種基于深度稀疏自編碼網(wǎng)絡(luò)(deep sparse auto-encoder network,DSAEN)方法,將行人信息特征結(jié)合到深度學(xué)習(xí)的檢測框架中來學(xué)習(xí)行人圖像的主要特征。

      本文的組織結(jié)構(gòu)為:第2章講述自動(dòng)編碼器的理論方法;第3章詳細(xì)描述了基于深度稀疏自編碼網(wǎng)絡(luò)的行人檢測方法;第4章介紹實(shí)驗(yàn)應(yīng)用的數(shù)據(jù)庫、性能評估指標(biāo)以及各種算法的對比實(shí)驗(yàn);第5章對全文進(jìn)行總結(jié),并對下一步的研究方向加以展望。

      2 自動(dòng)編碼器

      常用的深度網(wǎng)絡(luò)結(jié)構(gòu)有深度置信網(wǎng)絡(luò)(deep belief networks,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和自動(dòng)編碼器(auto-encoders,AE)[16]。AE接受一些輸入x并嘗試將其復(fù)制到輸出y。它具有三層,一個(gè)大小為n的可見層,一個(gè)節(jié)點(diǎn)為d的隱含層和一個(gè)具有n個(gè)節(jié)點(diǎn)的重構(gòu)層[17]。設(shè)x∈Rn為輸入向量,h∈Rn為隱含層的輸出,x?∈Rn為x的重構(gòu)。當(dāng)dn時(shí),執(zhí)行一個(gè)過完備表示。隱含層和重建層的輸出可以用下面的公式計(jì)算:

      其中,f(?)是非線性激活函數(shù),W和b是編碼過程中的權(quán)重矩陣和維度為d的偏置矢量,W′和b′是解碼的權(quán)重矩陣和n維偏置矢量。參數(shù)(W、W′、b和b′)可以通過反向傳播算法最小化目標(biāo)函數(shù)來估計(jì)。

      3 基于深度稀疏自編碼網(wǎng)絡(luò)的行人檢測方法

      傳統(tǒng)的網(wǎng)絡(luò)以整幅圖像作為輸入[18],導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)時(shí)間長,并且目標(biāo)函數(shù)不能使數(shù)據(jù)有效地收斂,從而影響檢測器的性能。本文提出的DSAEN在輸入層后加了一層感興趣層,提取出充分表示行人信息的混合特征。通過網(wǎng)絡(luò)得到的特征輸入到線性核函數(shù)的SVM分類器中進(jìn)行訓(xùn)練。檢測時(shí),通過訓(xùn)練好的檢測器對測試圖像進(jìn)行判斷,最后采用非極大抑制算法(non-maximum suppression,NMS)[19]對行人的位置精確定位。

      3.1 感興趣層的設(shè)計(jì)

      目前,大部分行人檢測技術(shù)是通過描述局部圖像區(qū)域特征而設(shè)計(jì),沒有充分利用行人的固有屬性。事實(shí)上,行人的一些固有屬性可以進(jìn)一步提高檢測器性能。NNNF利用行人圖像固有的外觀屬性,設(shè)計(jì)出側(cè)向內(nèi)部差異特征(side-inner difference features,SIDF)和對稱相似性特征(symmetrical similarity features,SSF),充分表示了圖像信息。本節(jié)在NNNF的基礎(chǔ)上進(jìn)行改進(jìn),并將跨通道特征融合到特征設(shè)計(jì)中。

      如圖1所示,用矩形表示兩個(gè)目標(biāo),目標(biāo)1(圖中第一行)中間有一條直線,而目標(biāo)2(圖中第二行)沒有,如果用相鄰特征表示目標(biāo),得到的特征值相同,不能區(qū)分開目標(biāo),而圖中的非相鄰特征為不同的值,因此可以正確地區(qū)分這兩個(gè)目標(biāo)。將這種非相鄰特征應(yīng)用到行人圖像中,如圖2,圖像中標(biāo)注的非相鄰區(qū)域可以觀察到行人與背景之間、行人輪廓與內(nèi)部之間的差異以及行人的外觀對稱性。

      Fig.1 Difference between nor-neighboring and neighboring features圖1 非相鄰特征與相鄰特征的區(qū)別

      Fig.2 Application of nor-neighboring features in pedestrian images圖2 非相鄰特征在行人圖像中的應(yīng)用

      對于SIDF,非相鄰的兩個(gè)區(qū)域在同一水平位置,而尺寸、距離、比例關(guān)系可以呈現(xiàn)多樣性,圖3為SIDF可能存在的形式。假設(shè)圖3(a)為標(biāo)準(zhǔn)的矩形區(qū)域塊,圖3(b)~(e)為相對于圖3(a)做出的改變。

      Fig.3 Different types of SIDF圖3 不同類型的SIDF

      假設(shè)SIDFf(A,B)由兩個(gè)塊A和B組成。A和B的像素?cái)?shù)目由NA和NB表示,每個(gè)通道中像素和由SA和SB表示。通過式(3)計(jì)算側(cè)向內(nèi)部差異特征f(A,B)。

      SSF是根據(jù)行人的對稱性而設(shè)計(jì)的,如圖2中的對稱區(qū)域,兩個(gè)區(qū)域有相似的特征,塊A和A′的對稱相似性特征f(A,A′)的表達(dá)式如式(4)。

      其中,fA和fA′表示塊A和A′的特征,fA=SA/NA。

      在文獻(xiàn)[9]中提出的對稱特征是單一的以90°為對稱軸,如圖2的對稱區(qū)域標(biāo)注,而實(shí)際場景中,人的行為具有多樣性,本文增加兩種對稱軸線,分別為45°和135°,以滿足圖4的情況。為了消除行人形變的影響,引入隨機(jī)池來表示塊特征,對稱塊A和A′分別由四個(gè)子區(qū)域隨機(jī)組成,每個(gè)子區(qū)域的面積應(yīng)大于塊的一半,塊的特征由子區(qū)域隨機(jī)池得到的特征表示。Stochastic pooling為基于概率的隨機(jī)池化,是對塊中元素值賦予權(quán)重概率,如果區(qū)域內(nèi)只有一個(gè)非零元素,則概率為1,取不到元素為零的值,沒有考慮元素的順序。因此,增加元素排序影響因子,其計(jì)算過程如下:

      Fig.4 Application of different symmetry axes in image symmetry information extraction圖4 不同對稱軸在圖像對稱性信息提取的應(yīng)用

      步驟1對池化區(qū)域的元素進(jìn)行去重排序,確保相同元素具有相同的概率值。

      步驟2加入排序影響因子,計(jì)算如下:

      其中,α為超參數(shù),ri代表xi在塊中排序的索引值,n為塊中元素個(gè)數(shù)。

      步驟3計(jì)算元素權(quán)重概率。

      步驟4從有關(guān)p的多項(xiàng)式分布取樣,得到xi。

      圖5為本文改進(jìn)的隨機(jī)池化方法的計(jì)算示意圖。對稱塊A和A′的尺寸允許在合理范圍內(nèi)變化,其范圍從6×6個(gè)像素到10×10個(gè)像素,f(A,A′)轉(zhuǎn)化為式(8)計(jì)算。

      在具有多通道類型的行人檢測器中,如HOG+LUV,不同的通道包含不同類型的信息。目前流行的聚合通道主要是分開捕獲各個(gè)通道中的信息特征,一次只在一個(gè)通道中接收矩形的響應(yīng),就會(huì)丟失一些信息。為了解決這個(gè)問題,本文提出一種跨通道的特征,通過比較同一矩形在不同通道中的響應(yīng)來捕獲這些有價(jià)值的信息。這兩個(gè)矩形之間的響應(yīng)差異被記為特征值,如式(9)。不同通道的特征應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理以使其具有可比性。為了生成跨通道的矩形,首先在模型區(qū)域中隨機(jī)生成一個(gè)矩形,然后為它分配不同的通道索引。如圖6,對測試圖像,計(jì)算同一區(qū)域位置在不同通道下的特征。

      其中,S(A)和Y(A)分別為塊A在不同通道下的特征值。

      Fig.5 Schematic diagram of calculation of improved stochastic pooling method圖5 改進(jìn)的隨機(jī)池化方法的計(jì)算示意圖

      Fig.6 Feature representation of same region in same image under different channels圖6 同一圖像同一區(qū)域在不同通道下的特征表示

      3.2 基于深度稀疏自編碼網(wǎng)絡(luò)的訓(xùn)練過程

      圖7 描述了本文的深度稀疏自編碼網(wǎng)絡(luò)的結(jié)構(gòu),上節(jié)得到的混合特征作為DSAEN網(wǎng)絡(luò)感興趣層的輸出,可以減少網(wǎng)絡(luò)學(xué)習(xí)的復(fù)雜度。隨后由四個(gè)自動(dòng)編碼器的隱含層組成,在所提出的系統(tǒng)中,自編碼網(wǎng)絡(luò)用作特征學(xué)習(xí)。

      Fig.7 Architecture of deep sparse auto-encoder圖7 深度稀疏自編碼網(wǎng)絡(luò)結(jié)構(gòu)圖

      給定混合特征樣本集{x1,x2,…,xn},其中xi∈Rn,第一層隱含層h1=δ(W1xi+b1),W1∈Rn×s為在第一層中學(xué)習(xí)的權(quán)重矩陣,s為第一層編碼器隱含層節(jié)點(diǎn)的數(shù)量,b1為偏置值。δ(?)是非線性激活函數(shù),其經(jīng)典的有ReLU、S形或正切型雙曲線函數(shù)。ReLU函數(shù)可以避免在使用S或正切雙曲線函數(shù)時(shí)遇到的梯度消失問題[20]。此外,即使不需要預(yù)訓(xùn)練,使用ReLU函數(shù)也能有效地訓(xùn)練深度自編碼網(wǎng)絡(luò)。但是,當(dāng)x<0時(shí),其值為0,易出現(xiàn)一些“死”節(jié)點(diǎn)。因此,使用改進(jìn)的ReLU作為激活函數(shù),定義如式(10)所示。

      改進(jìn)的ReLU函數(shù)增加一個(gè)很小的常數(shù)項(xiàng)α。從而解決無效節(jié)點(diǎn)的問題,適合利用數(shù)據(jù)中的稀疏性,生成稀疏表示。第一個(gè)自編碼器的輸出值為:

      其中,y1為第一個(gè)解碼器的輸出,W1、b1分別為第一個(gè)編碼器(即第一層隱含層)與解碼器之間的權(quán)重矩陣與偏置值。第一層隱含層的輸出h1被用作第二層的輸入。以此類推,第四層隱含層的輸出為h4=δ(W4h3+b4)。其中W4∈Rm×q和b4分別是第四層的權(quán)重矩陣和偏置值。網(wǎng)絡(luò)最后的輸出為:

      混合特征是相關(guān)的并且存在某種潛在結(jié)構(gòu),類似主成分分析算法,自動(dòng)編碼網(wǎng)絡(luò)試圖學(xué)習(xí)較低維度的相關(guān)性數(shù)據(jù)。DSAEN的學(xué)習(xí)是通過更新其參數(shù)來實(shí)現(xiàn)的,即θ={W,b},其中,W為各層之間的權(quán)重矩陣,b為各層之間的偏置矢量,用于輸入特征最小化目標(biāo)函數(shù)。以第1個(gè)自編碼器為例,描述其訓(xùn)練與微調(diào)過程。傳統(tǒng)的損失函數(shù)以均方誤差為準(zhǔn)則,該方法是在輸出為正態(tài)分布的假設(shè)條件下推導(dǎo)出的,存在一定的局限性。因此采用交叉熵為損失函數(shù),其定義如式(13)所示。

      由于DSAEN具有高靈活性,需要進(jìn)行適當(dāng)?shù)脑O(shè)置,以確保其學(xué)習(xí)到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)??紤]兩個(gè)問題:第一,不是所有的特征都同樣重要;第二,稀疏性迫使DSAEN通過選擇關(guān)鍵的特征來找到一個(gè)緊湊的、共享的和高層次的特征。因此,為了避免過度擬合和增強(qiáng)DSAEN的泛化能力,在訓(xùn)練過程中加入權(quán)重衰減項(xiàng)J和稀疏正則化項(xiàng)S。大權(quán)值會(huì)導(dǎo)致高度的非平滑彎曲映射。權(quán)重衰減保持權(quán)重小,因此映射平滑,減少過度擬合。同樣,稀疏性有助于選擇最相關(guān)的特征以增強(qiáng)泛化。

      γ和β分別為對權(quán)重衰減和稀疏化的參數(shù)調(diào)節(jié)。J懲罰傾向于減小權(quán)重W={W1,W1}的量級。

      稀疏自編碼器試圖執(zhí)行式(18)中的約束,其中ρ是近似為零的稀疏參數(shù)。每個(gè)隱含的神經(jīng)元應(yīng)有約為0.05的平均激活值。為了滿足這個(gè)約束,隱含單元的激活必須接近0。因此,優(yōu)化目標(biāo)添加一個(gè)額外的懲罰項(xiàng),由式(19)所示,~ρj與ρ顯著偏離。利用式(20)中的Kullback-Leibler散度作為懲罰項(xiàng),激活稀疏的隱含層單元。

      因此,要解決式(21)中目標(biāo)函數(shù)的優(yōu)化問題。

      隱含層單元數(shù)為表示行人信息的最佳特征數(shù)量。自動(dòng)編碼器試圖通過使輸入節(jié)點(diǎn)等于輸出節(jié)點(diǎn)來學(xué)習(xí)最優(yōu)參數(shù)。在每個(gè)輸入節(jié)點(diǎn)之后,根據(jù)目標(biāo)函數(shù)的梯度下降法確定網(wǎng)絡(luò)的參數(shù)W和b,并通過反向傳播步驟來調(diào)整權(quán)重和偏置。繼續(xù)訓(xùn)練,直至達(dá)到最大迭代次數(shù)的閾值或式(21)降低到最小代價(jià)值。

      通過網(wǎng)絡(luò)第四層隱含的節(jié)點(diǎn)得到的特征即學(xué)習(xí)到的表示行人信息的主要特征。

      3.3 時(shí)間復(fù)雜度分析

      在具有d層的CNN中,N個(gè)樣本的時(shí)間復(fù)雜度可以用式(22)計(jì)算。

      其中,nl-1和nl分別是第l層中輸入映射數(shù)量和核數(shù)量,sl和ml分別是卷積核的空間大小和輸出特征映射的空間大小。

      4 實(shí)驗(yàn)和結(jié)果

      4.1 數(shù)據(jù)庫和實(shí)驗(yàn)環(huán)境

      本文采用加州理工學(xué)院行人數(shù)據(jù)庫(Caltech)[21]和INRIA數(shù)據(jù)庫。Caltech是一個(gè)大規(guī)模,具有挑戰(zhàn)性的數(shù)據(jù)庫,已經(jīng)成為衡量行人檢測器性能的標(biāo)準(zhǔn)。其包含大約10 h的車輛駕駛的街道視頻。視頻內(nèi)容的分辨率和采樣率分別為640×480和30 frame/s。共分成11個(gè)子數(shù)據(jù)集,前6個(gè)為訓(xùn)練集,后5個(gè)為測試集。為了避免使用非常相似的幀,對測試集進(jìn)行重新采樣,使得每30幀一個(gè)圖像用于評估。每次實(shí)驗(yàn),從訓(xùn)練樣本中選取2 000個(gè)正樣本,800個(gè)負(fù)樣本,從測試集選取3 500個(gè)正樣本,1 500個(gè)負(fù)樣本,共5 500個(gè)正樣本,2 300個(gè)負(fù)樣本。INRIA行人數(shù)據(jù)庫中的樣本在服裝、視角等因素變化大,環(huán)境比較復(fù)雜,更符合實(shí)際場景中的行人,包含正樣本3 552個(gè)(1 213個(gè)行人左右反射),負(fù)樣本1 218張,從所有正樣本中選取3 000張,負(fù)樣本選擇1 218張,共4 218張圖像進(jìn)行實(shí)驗(yàn)。這些圖像都被規(guī)范為128×64的尺寸。進(jìn)行10次實(shí)驗(yàn),每次從正負(fù)樣本中隨機(jī)選取40%用于訓(xùn)練,60%用于測試,最后取實(shí)驗(yàn)結(jié)果的平均值。圖8為兩個(gè)數(shù)據(jù)庫的部分正樣本。實(shí)驗(yàn)使用Intel Core i3-2310M處理器,8 GB內(nèi)存,Intel HD Graphics 3000顯卡,在Matlab2016a環(huán)境下進(jìn)行。

      Fig.8 Pedestrian sample example圖8 行人數(shù)據(jù)庫部分樣本

      4.2 感興趣層設(shè)計(jì)分析

      在實(shí)驗(yàn)中,每個(gè)樣本共選擇6 321個(gè)特征,其中包含2 553個(gè)非相鄰特征和3 768個(gè)HOG特征和局部紋理特征(local binary pattern,LBP)。在非相鄰特征中,包含1 085個(gè)SIDF,830個(gè)對稱特征,638個(gè)跨通道特征,通道選擇LUV顏色通道、梯度通道特征和LBP特征。所選特征比例約為17%、13%、10%、60%。將這種特征設(shè)計(jì)記為NNFHL(nor-neighboring feature and HOG and LBP)。

      本文在感興趣層中的特征提取算法NNFHL及現(xiàn)有的其他特征提取算法檢測結(jié)果如表1所示。利用文獻(xiàn)[21]中提出的對數(shù)平均漏檢率來評估檢測器性能,其是通過對在10-2到100范圍內(nèi)的對數(shù)空間中的9個(gè)誤檢率(false positive per image,F(xiàn)PPI)相對應(yīng)的漏檢率進(jìn)行平均計(jì)算得到。從表中可以看出,混合的多通道特征比單一通道特征更能充分描述圖像的重要信息,降低了檢測器的漏檢率。與流行的Checkerboards[22]、SpatialPooling等多通道特征相比,增加非相鄰特征能減少漏檢率,NNFHL特征旨在捕捉行人的一些特定特征,并為其他特征提供補(bǔ)充信息,與HOG和LBP特征相結(jié)合,能提升檢測器性能。為進(jìn)一步評估算法的高效性,采用檢測錯(cuò)誤權(quán)衡(detection error tradeoff,DET)線來衡量以上幾種算法的檢測性能。DET曲線的橫坐標(biāo)代表誤報(bào)率,縱坐標(biāo)代表漏檢率,能反映出檢測器的整體性能水平。從圖9可以觀察到,NNFHL算法在測試子集上都取得了最好的結(jié)果。

      Table1 Statistics of detection results of different feature extraction algorithms表1 不同特征提取算法的檢測結(jié)果統(tǒng)計(jì)表

      4.3 網(wǎng)絡(luò)參數(shù)設(shè)計(jì)分析

      本節(jié)對網(wǎng)絡(luò)中的調(diào)節(jié)參數(shù)進(jìn)行設(shè)置,在網(wǎng)絡(luò)的訓(xùn)練過程中存在5個(gè)參數(shù),分別為Relu函數(shù)中的α、β、γ、ρ以及實(shí)驗(yàn)的迭代次數(shù)。分別從INRIA和Caltech數(shù)據(jù)庫中選取3組驗(yàn)證集進(jìn)行實(shí)驗(yàn),在求最小化目標(biāo)函數(shù)的過程中,對實(shí)驗(yàn)的迭代次數(shù)進(jìn)行約束,一定的迭代數(shù),會(huì)使總的誤差和減小,但迭代數(shù)過大,也會(huì)使誤差變大,誤差與迭代次數(shù)的變化過程如圖10所示。表2為DSAEN網(wǎng)絡(luò)中的調(diào)節(jié)參數(shù)設(shè)置值。

      Fig.9 Comparison of DET curves of various feature extraction algorithms圖9 多種特征提取算法的DET曲線對比

      Fig.10 Curves of iteration times and errors圖10 迭代次數(shù)與誤差的變化曲線圖

      Table2 DSAEN network parameter setting表2DSAEN網(wǎng)絡(luò)參數(shù)設(shè)置

      4.4 整體性能分析

      為了證明本文方法的有效性,與手工特征提取方法如HOG+LBP+PCA+SVM[23]、HOG+SVM、Checkerboards、SpatialPooling、ACF、NNNF 以及深度學(xué)習(xí)方法如四層卷積神經(jīng)網(wǎng)絡(luò)、Deepparts進(jìn)行實(shí)驗(yàn)比較。通過圖11的結(jié)果所示,傳統(tǒng)的手工特征提取方法HOG+SVM在INRIA庫上漏檢率達(dá)到50%左右,對于更復(fù)雜的環(huán)境,如Caltech,漏檢率更高。對單一特征進(jìn)行補(bǔ)充與擴(kuò)展后,能有效地降低漏檢率,如ACF、DPM(deformable part model)。深度學(xué)習(xí)方法CNN漏檢率在INRIA與Caltech數(shù)據(jù)庫上分別降到21.6%和23.1%,DSAEN平均漏檢率在INRIA上僅為12.1%,在Caltech上為14.3%,除了結(jié)構(gòu)復(fù)雜的深度網(wǎng)絡(luò)外,這是所有比較方法中效果最好的。

      對圖12的曲線呈現(xiàn)情況進(jìn)行分析,傳統(tǒng)的手工提取特征方法,如HOG+SVM,存在一些冗余特征,對分類器有一定的影響。在HOG+LBP+PCA方法中,PCA實(shí)現(xiàn)了對混合特征的降維,并保留主要的信息,提高了檢測率,但是PCA能有效地學(xué)習(xí)線性數(shù)據(jù),而現(xiàn)實(shí)生活中的數(shù)據(jù)往往是非線性的。經(jīng)典的深度學(xué)習(xí)方法CNN由于直接對整幅圖像進(jìn)行卷積學(xué)習(xí),圖像背景的復(fù)雜性導(dǎo)致部分行人沒有被檢測出來,其性能受到一定的影響。根據(jù)行人圖像特點(diǎn)設(shè)計(jì)出的更為復(fù)雜深度網(wǎng)絡(luò)[24]雖然學(xué)習(xí)了數(shù)據(jù)的潛在結(jié)構(gòu),一定程度上提高了精確率,但是時(shí)間復(fù)雜度高,需要GPU設(shè)備的支持。從表3可以看出,深度學(xué)習(xí)的方法與手工特征提取方法相比,運(yùn)行時(shí)間(每幅圖像平均運(yùn)行時(shí)間(second/figure,s/f))顯著增加。DSAEN在效率與時(shí)間上都達(dá)到了很好的效果。

      Fig.11 Comparison of lb(average miss rate)between DSAEN and other advanced methods圖11 DSAEN和其他先進(jìn)方法的對數(shù)平均漏檢率對比

      Fig.12 Comparison of DET curves between DSAEN and other advanced methods圖12DSAEN和其他先進(jìn)方法的DET曲線比較

      Table3 Comparison of running time between DSAEN and other methods表3 DSAEN與其他方法運(yùn)行時(shí)間的比較(s/f)

      在INRIA和Caltech數(shù)據(jù)庫上進(jìn)行測試,其檢測結(jié)果如圖13所示。

      5 結(jié)束語

      Fig.13 Pedestrian detection results on INRIAand Caltech databases圖13 在數(shù)據(jù)庫INRIA與Caltech上的行人檢測結(jié)果

      本文將特征設(shè)計(jì)融入到深度網(wǎng)絡(luò),提出了一種基于深度稀疏自編碼網(wǎng)絡(luò)的行人檢測方法,相對于傳統(tǒng)的對整幅圖像直接訓(xùn)練,加入了一層感興趣層,根據(jù)行人圖像固有的屬性,通過改進(jìn)的非相鄰和相鄰特征,捕捉行人與背景、行人內(nèi)部差異的信息,作為其他特征的補(bǔ)充,從而得到具有判別性的特征,隨后通過基于交叉熵的損失函數(shù)與改進(jìn)的ReLU函數(shù)來學(xué)習(xí)稀疏自編碼網(wǎng)絡(luò),獲取少量的表示圖像內(nèi)在結(jié)構(gòu)的有效特征。與現(xiàn)有的方法在INRIA和Caltech數(shù)據(jù)庫上進(jìn)行驗(yàn)證,該方法的平均漏檢率在INRIA與Caltech上分別降低到12.1%和14.3%,相對于復(fù)雜的深度網(wǎng)絡(luò)方法,不需要GPU也可以快速達(dá)到同樣的效果。在接下來的研究中,以此為基礎(chǔ),結(jié)合新的方法,研究如何處理更加復(fù)雜的環(huán)境比如行人被遮擋或者非站立的姿勢等難題。

      猜你喜歡
      編碼器行人深度
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      深度理解一元一次方程
      路不為尋找者而設(shè)
      深度觀察
      深度觀察
      基于FPGA的同步機(jī)軸角編碼器
      深度觀察
      我是行人
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      墨玉县| 交城县| 新晃| 锡林浩特市| 遂川县| 成安县| 镇安县| 宿松县| 阿瓦提县| 芦溪县| 九台市| 屏边| 泗阳县| 锦屏县| 抚宁县| 那曲县| 永新县| 杭锦后旗| 汾阳市| 九龙坡区| 新河县| 南靖县| 巴东县| 青阳县| 阿坝县| 西吉县| 石家庄市| 二连浩特市| 临夏市| 武清区| 奈曼旗| 鲁山县| 枝江市| 东兴市| 洪湖市| 遂川县| 高陵县| 雷山县| 雅安市| 松潘县| 鹤庆县|