張 媛,臧 坤,華志超,李 巖,安婷婷,章國寶
(1.江蘇省特種設(shè)備安全監(jiān)督檢驗(yàn)研究院無錫分院,江蘇 無錫 214174)(2.東南大學(xué)自動(dòng)化學(xué)院,江蘇 南京 210096)
隨著人們生活水平的提高,電梯在住宅中的普及程度越來越高,電梯的出現(xiàn)為人們上下樓帶來了極大地方便。另一方面,由于養(yǎng)狗的愛好在社會(huì)上廣泛流行,越來越多的人會(huì)將狗帶進(jìn)電梯[1],這一行為不僅會(huì)對(duì)電梯中乘客的安全構(gòu)成極大地威脅,而且會(huì)影響電梯的清潔衛(wèi)生,給電梯的管理帶來很大的麻煩。目前,我國電梯監(jiān)控的智能化程度相對(duì)較低,電梯轎廂中的情況需要人為主動(dòng)地查看才能獲知,電梯管理效率較低[2]。將計(jì)算機(jī)圖像處理技術(shù)應(yīng)用到電梯視頻監(jiān)控中能夠極大地提高電梯管理系統(tǒng)的智能化水平,并且該技術(shù)在電梯的超載檢測[3]、人數(shù)統(tǒng)計(jì)[4]、異常行為檢測[5]等方面都取得了實(shí)用化進(jìn)展。然而,針對(duì)電梯中狗的檢測算法研究比較少見。因此,為了方便管理人員對(duì)電梯的管理,研究一種能夠自動(dòng)檢測電梯轎廂中狗的算法是很有必要的。
電梯轎廂中的狗的檢測屬于目標(biāo)檢測的范疇,其技術(shù)難點(diǎn)主要集中在如何精準(zhǔn)地提取目標(biāo)特征并訓(xùn)練出目標(biāo)識(shí)別的分類器模型。文獻(xiàn)[6]很好地表征了目標(biāo)的特征,建立了高效的形變目標(biāo)檢測模型,并通過多分辨率下的推理機(jī)制遞歸地去除搜索區(qū)域中非目標(biāo)部分的位移,取得了良好的效果。文獻(xiàn)[7]通過提取圖片的前景和背景信息來定位目標(biāo),對(duì)基于視頻的快速目標(biāo)檢測具有較高的時(shí)效性。文獻(xiàn)[8]提出了梯度方向直方圖(HOG),通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度信息來構(gòu)成特征,對(duì)光照變化及梯度特征的少量偏移具有穩(wěn)定性。此外,將深度學(xué)習(xí)應(yīng)用到計(jì)算機(jī)視覺的研究中,能夠獲取更深層次的概念抽象特征[9-10]。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種有監(jiān)督的前饋神經(jīng)網(wǎng)絡(luò)[11],對(duì)于大型圖像處理有出色表現(xiàn),但時(shí)間和空間代價(jià)都較高,不適合用于實(shí)時(shí)的視頻圖像處理系統(tǒng)。而由多層稀疏自編碼器[12]構(gòu)成的棧式自編碼器在提取更深層次抽象特征的同時(shí)能夠降低特征的維數(shù),在滿足識(shí)別率要求的基礎(chǔ)上具有較高的實(shí)時(shí)性。
根據(jù)電梯轎廂的特定環(huán)境,本文提出一種能夠?qū)崟r(shí)檢測電梯轎廂中是否存在狗的算法,使用基于 HOG 特征和棧式自編碼網(wǎng)絡(luò)(SAE)的特征模型來對(duì)目標(biāo)進(jìn)行表征。將HOG特征提供的紋理信息作為目標(biāo)特征的深度學(xué)習(xí)網(wǎng)絡(luò)模型的底層,由k個(gè)編碼器組抽象出目標(biāo)的分類特征,構(gòu)成棧式自編碼器,提取具有結(jié)構(gòu)性和層次性的高層次抽象特征。本文運(yùn)用多高斯分布模型更新電梯背景來確定待檢測區(qū)域,能夠提高系統(tǒng)對(duì)運(yùn)動(dòng)目標(biāo)和環(huán)境的魯棒性,且算法具有良好的時(shí)間效率和空間效率。
基于HOG和棧式自編碼的狗識(shí)別分類器訓(xùn)練的算法流程如圖1所示。
圖1 狗識(shí)別分類器訓(xùn)練算法流程
具體算法步驟如下:
1)讀入電梯中狗圖片,并對(duì)圖像進(jìn)行預(yù)處理,通過背景差分算法獲取待處理區(qū)域。
2)對(duì)待檢測區(qū)域進(jìn)行HOG特征提取,得到梯度方向直方圖即特征描述符。
3)將步驟2)的HOG特征作為神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)行訓(xùn)練,此過程為無監(jiān)督學(xué)習(xí)。
4)通過前向傳播預(yù)測網(wǎng)絡(luò)的輸出和使用反向傳播算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),反復(fù)迭代優(yōu)化網(wǎng)絡(luò),此過程為有監(jiān)督學(xué)習(xí)。
5)將目標(biāo)檢測測試樣本圖像的HOG特征作為棧式自編碼網(wǎng)絡(luò)的輸入,學(xué)習(xí)并提取抽象特征。
6)將最深層編碼特征作為Softmax分類器的輸入進(jìn)行Softmax回歸分類,獲得狗識(shí)別分類器,并統(tǒng)計(jì)識(shí)別準(zhǔn)確率。
在對(duì)視頻采集的轎廂圖像進(jìn)行灰度化、二值化和濾波等預(yù)處理后,采用背景差分算法分割出圖像中的運(yùn)動(dòng)區(qū)域從而獲得待檢測狗的位置。背景差分算法[13]的關(guān)鍵是確定背景模型以及根據(jù)環(huán)境變化對(duì)背景模型進(jìn)行更新。其基本公式如下:
(1)
式中:Bt(x,y)為檢測出的運(yùn)動(dòng)區(qū)域;BKGt(x,y)為背景圖像;It(x,y)為當(dāng)前圖像值;τ為一個(gè)預(yù)定義的閾值。針對(duì)本文的應(yīng)用場景中電梯門會(huì)經(jīng)常性關(guān)閉開啟,引起背景發(fā)生頻繁的規(guī)律性變化,采用多高斯背景模型[14],通過更新背景模型提高模型的魯棒性和實(shí)時(shí)性,提高識(shí)別率。多高斯分布模型通過以下3個(gè)參數(shù)來更新背景模型實(shí)現(xiàn)差分檢測。
權(quán)重:
(2)
均值:
(3)
方差:
(4)
本文后續(xù)采用陰影消除算法去除區(qū)域中的陰影,獲得更準(zhǔn)確完整的運(yùn)動(dòng)區(qū)域,進(jìn)一步提高運(yùn)動(dòng)目標(biāo)檢測的準(zhǔn)確率。最后對(duì)結(jié)果圖像進(jìn)行形態(tài)學(xué)閉運(yùn)算后分割出待檢測區(qū)。
HOG特征對(duì)光照變化及梯度特征的少量偏移具有穩(wěn)定性,對(duì)于電梯這種光照變化平緩、背景較為簡單的應(yīng)用場景具有較好的適用性,本文提取HOG特征的流程如圖2所示。
圖2 HOG特征提取流程
通過對(duì)數(shù)法Gamma標(biāo)準(zhǔn)化改善轎廂內(nèi)局部圖像的亮度,減少光照因素的影響。Gamma標(biāo)準(zhǔn)化后計(jì)算出像素點(diǎn)的特征梯度,并構(gòu)建成選定大小的梯度單元格,形成梯度方向直方圖。本文將8×8的像素點(diǎn)構(gòu)建成一個(gè)單元格,對(duì)每個(gè)單元格構(gòu)建梯度方向直方圖,以此減少狗姿態(tài)和外形的變化對(duì)檢測結(jié)果的影響。采用9個(gè)塊的直方圖來統(tǒng)計(jì)像素的梯度信息,從而獲得描述該單元格的9個(gè)特征向量。將單元格沿梯度方向360°分成9個(gè)方向塊,如圖3所示。
圖3 梯度方向統(tǒng)計(jì)直方圖
對(duì)單元格中的特征進(jìn)行歸一化,減少光照和背景對(duì)比度對(duì)梯度值的影響。采用滑動(dòng)窗口機(jī)制,對(duì)圖像特征進(jìn)行遍歷,滑動(dòng)步長為兩個(gè)單元格,即一個(gè)滑動(dòng)窗口包含2×2個(gè)單元格,因此每個(gè)單元格中有36個(gè)特征向量。通過滑動(dòng)窗口機(jī)制能充分得到表征圖像的總特征。
1.4.1棧式自編碼網(wǎng)絡(luò)
實(shí)現(xiàn)狗特征學(xué)習(xí)的關(guān)鍵是建立合適的特征模型來描述其形狀、紋理、方向變化等特征以及抽象特征。自編碼器是一種盡可能復(fù)現(xiàn)輸入信號(hào)的無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),能較好地描述輸入數(shù)據(jù)的本質(zhì)特征,自編碼器試圖實(shí)現(xiàn)一個(gè)恒等函數(shù),使得輸出趨近于輸入:
(5)
(6)
(7)
(8)
采用梯度下降法計(jì)算總代價(jià)函數(shù)J(θ(l))的最小值,梯度下降算法中每一次迭代都對(duì)參數(shù)進(jìn)行更新。其更新規(guī)則如下。
(9)
(10)
式中:α為學(xué)習(xí)速率。采用反向傳導(dǎo)算法來計(jì)算偏導(dǎo)數(shù)。第nl層(輸出層)每個(gè)單元的殘差為:
(11)
對(duì)于第2至第l層(隱藏層)的殘差為:
(12)
最后計(jì)算偏導(dǎo)數(shù)為:
(13)
(14)
獲得偏導(dǎo)數(shù)之后,再采用梯度下降算法更新權(quán)值,獲取網(wǎng)絡(luò)的最優(yōu)化參數(shù)。 最后將多個(gè)自編碼器連接,將前一層學(xué)習(xí)的特征作為后一層的輸入,形成棧式自動(dòng)編碼器,棧式自編碼網(wǎng)絡(luò)相較于HOG特征之類的淺層結(jié)構(gòu)的特征具有更好的表達(dá)能力,同時(shí)能夠降低特征的維數(shù),適用于資源配置不高、需要實(shí)時(shí)監(jiān)控識(shí)別目標(biāo)的應(yīng)用。另一方面,HOG特征也可以解決無監(jiān)督學(xué)習(xí)特征提取的盲目性。自編碼結(jié)構(gòu)如圖4所示。
通過自編碼器棧每層的非監(jiān)督學(xué)習(xí),棧式自編碼網(wǎng)絡(luò)獲得了較好的初始值。在這個(gè)初始特征的基礎(chǔ)使用梯度下降法進(jìn)行有監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)微調(diào),可以使網(wǎng)絡(luò)參數(shù)收斂到一個(gè)較好的局部極值點(diǎn)。最后得到第l層編碼特征為:
圖4 自編碼器結(jié)構(gòu)
H(l)=σ(W(l,1)H(l-1)+b(l,1))
(15)
式中:H(0)為樣本輸入;W(l,1)和b(l,1)分別為第l層的自編碼器的權(quán)重矩陣和偏置向量參數(shù);H(k)是最深層(第k層)的編碼特征,是對(duì)輸入圖像的更高階抽象表示。要實(shí)現(xiàn)目標(biāo)識(shí)別分類器,還需要在特征學(xué)習(xí)基礎(chǔ)上增加通過監(jiān)督學(xué)習(xí)訓(xùn)練的狗目標(biāo)分類器。分類器的訓(xùn)練樣本是自編碼器棧的輸出特征H(k),在已知輸入圖像類標(biāo)記的監(jiān)督下,采用Softmax分類器作為網(wǎng)絡(luò)頂層的邏輯分類。網(wǎng)絡(luò)所有層的參數(shù)可利用梯度下降算法進(jìn)行微調(diào),從而達(dá)到最優(yōu)的識(shí)別效果。
1.4.2Softmax分類器
Softmax回歸模型是logistic回歸模型的一種拓展形式,可用來解決多分類問題,是一種監(jiān)督學(xué)習(xí)算法。Softmax分類器的假設(shè)函數(shù)f(x)在輸入特征為X=H(k)時(shí)如下:
(16)
(17)
式中:P(i)表示輸入為X=X(i)的概率向量;y(i)為二維列向量,輸入為正樣本時(shí)取(1,0)T,負(fù)樣本取 (0,1)T;F為范數(shù)。加入權(quán)重衰減項(xiàng)(λ>0)后,代價(jià)函數(shù)變?yōu)閲?yán)格的凸函數(shù),借助梯度下降法可以保證J(θ)收斂到全局最優(yōu)解。
本文中狗識(shí)別的樣本庫和測試庫是基于電梯監(jiān)控視頻得到的。在圖片庫中選取了300幅不同姿態(tài)、顏色、大小、背景的電梯中狗的圖片作為正樣本,負(fù)樣本由不同背景的不包含狗的300張電梯圖像組成。樣本圖像的大小為320像素×320像素,將8×8個(gè)相鄰的像素點(diǎn)劃分為一個(gè)單元格,將2×2的相鄰單元格劃分為一個(gè)單元塊,一個(gè)單元塊中有4×9個(gè)特征向量。采用的滑動(dòng)窗口大小與單元塊相同,滑動(dòng)步長為一個(gè)單元格,一共可以得到39×39個(gè)單元塊,因此整幅圖的特征值數(shù)為:39×39×4×9=54 756。
在算法設(shè)計(jì)中,對(duì)網(wǎng)絡(luò)參數(shù)的初始化均選用較小的隨機(jī)數(shù)以保證網(wǎng)絡(luò)參數(shù)不對(duì)稱,使用最快下降算法設(shè)置合適的搜索起點(diǎn)。同時(shí),學(xué)習(xí)過程進(jìn)行多次反復(fù)迭代,并將前一次迭代學(xué)習(xí)得到的最優(yōu)網(wǎng)絡(luò)參數(shù)作為后一次迭代的網(wǎng)絡(luò)參數(shù)初始值,使學(xué)習(xí)算法具有自我完善的功能。此外,網(wǎng)絡(luò)其余的參數(shù)也會(huì)對(duì)分類的效果產(chǎn)生影響,本文經(jīng)過多次實(shí)驗(yàn)確定,最終網(wǎng)絡(luò)的參數(shù)見表1。
網(wǎng)絡(luò)的層數(shù)對(duì)分類器的準(zhǔn)確性也有較大影響,網(wǎng)絡(luò)越深會(huì)有更好的識(shí)別效果但會(huì)降低算法的性能,同時(shí)隱藏層節(jié)點(diǎn)過多會(huì)增加學(xué)習(xí)的時(shí)間,過少則不能訓(xùn)練出足夠的特征。經(jīng)過多次實(shí)驗(yàn)驗(yàn)證,隱藏層為2-3層時(shí)擁有較好的實(shí)驗(yàn)結(jié)果。本次實(shí)驗(yàn)最終選取的網(wǎng)絡(luò)結(jié)構(gòu)是隱藏節(jié)點(diǎn)數(shù)為30,隱藏層層數(shù)為3層,此時(shí)有最優(yōu)的識(shí)別效果。
本文共選取147張大小為320像素×320像素的圖片進(jìn)行識(shí)別測試。其中83張為電梯中包含狗的圖片,64張為不含狗的電梯背景圖片。將實(shí)驗(yàn)結(jié)果與SVM、CNN等算法進(jìn)行比較,識(shí)別性能見表2。
從表中數(shù)據(jù)可以發(fā)現(xiàn),相比傳統(tǒng)的棧式自編碼神經(jīng)網(wǎng)絡(luò),結(jié)合了HOG特征的HOG-SAE算法會(huì)少量增加識(shí)別時(shí)間,但具有更高的識(shí)別率。因?yàn)镠OG-SAE構(gòu)建了一種深層模型,多層的非線性結(jié)構(gòu)使其具有較強(qiáng)的特征表達(dá)能力,和BP神經(jīng)網(wǎng)絡(luò)及SVM分類器相比,該算法在具有更好的識(shí)別效果的同時(shí)也不失時(shí)間效率。大量實(shí)驗(yàn)表明,本文提出的基于電梯監(jiān)控視頻的檢測狗的算法具有較好的識(shí)別效果,且算法實(shí)時(shí)性較高。
表2 不同算法的識(shí)別性能
本文提出了一種基于HOG特征及棧式自編碼網(wǎng)絡(luò)的特征分類器,并將其應(yīng)用到電梯監(jiān)控視頻中狗的檢測中。實(shí)驗(yàn)結(jié)果表明,本文所提出的基于電梯監(jiān)控視頻的檢測轎廂中狗存在的算法具有良好的識(shí)別效果及較高的算法實(shí)時(shí)性,且對(duì)空間配置要求不高,實(shí)用性比較高。下一步工作將嘗試提高特征模型的泛化能力,將其應(yīng)用于更復(fù)雜多變的場景。
參考文獻(xiàn):
[1]萬林. 電梯設(shè)備安全性評(píng)估的研究[D]. 南京:東南大學(xué), 2016.
[2]潘洋, 張振江. 電梯智能化設(shè)計(jì)研究分析[J]. 科技資訊, 2014, 12(14):37.
[3]張雷, 呂瀟, 張莉. 機(jī)器視覺技術(shù)在電梯智能檢測中的應(yīng)用[J]. 制造業(yè)自動(dòng)化, 2014(16): 71-73.
[4]應(yīng)俊. 基于計(jì)算機(jī)視覺的電梯轎廂內(nèi)人數(shù)統(tǒng)計(jì)研究[D]. 杭州:杭州電子科技大學(xué), 2013.
[5]湯一平, 陸海峰. 基于計(jì)算機(jī)視覺的電梯內(nèi)防暴力智能視頻監(jiān)控[J]. 浙江工業(yè)大學(xué)學(xué)報(bào), 2009, 37(6):591-597.
[6]PEDERSOLI M, VEDALDI A, GONZALEZ J. A coarse-to-fine approach for fast deformable object detection[J]. Pattern Recognition, 2015, 48(5):1844-1853.
[7]ROSENFELD A, WEINSHALL D. Extracting foreground masks towards object recognition[C]//Computer Vision (ICCV). Barcelona, Spain:International Conference on Computer Vision, 2011:1371-1378.
[8]劉威, 段成偉, 遇冰,等. 基于后驗(yàn)HOG特征的多姿態(tài)行人檢測[J]. 電子學(xué)報(bào), 2015, 43(2):217-224.
[9]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7):1527-1554.
[10] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313:504-507.
[11] HINTON G E, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6):82-97.
[12] 王雅思, 姚鴻勛, 孫曉帥,等. 深度學(xué)習(xí)中的自編碼器的表達(dá)能力研究[J]. 計(jì)算機(jī)科學(xué), 2015, 42(9):56-60.
[13] 吳晶. 面向運(yùn)動(dòng)目標(biāo)檢測的背景差分算法改進(jìn)與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué), 2012.
[14] 高凱亮, 覃團(tuán)發(fā), 陳躍波,等. 一種混合高斯背景模型下的像素分類運(yùn)動(dòng)目標(biāo)檢測方法[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011, 47(2):195-200.