曾賢灝
(蘭州工業(yè)學(xué)院計算機與人工智能學(xué)院 甘肅省蘭州市 730050)
移動物體檢測作為目標(biāo)檢測的一個重要分支,就實用價值而言,它廣泛的應(yīng)用于、視頻監(jiān)控、智能車輛等領(lǐng)域;就研究價值而言,目標(biāo)檢測不管是在角度、姿態(tài)、燈光、部分遮擋等方面都會引起很大的變化,隨著計算機及人工智能領(lǐng)域?qū)σ曨l移動目標(biāo)檢測需求的不斷提升,傳統(tǒng)的經(jīng)典目標(biāo)檢測方法遇到了瓶頸,不能夠精確的檢測視頻移動目標(biāo)信息以及對其進行動作預(yù)測分析,在深度學(xué)習(xí)下,目標(biāo)檢測的效果要比傳統(tǒng)手工特征檢測效果好太多。本文提出一種基于深度學(xué)習(xí)的方法對移動物體進行檢測,能夠滿足一般用戶對視頻移動目標(biāo)檢測識別的需求,同時還能對目標(biāo)的行為進行預(yù)測分析。
近幾年來,目標(biāo)檢測算法取得了很大的突破。比較流行的有基于Region Proposal 的R-CNN 系算法(R-CNN,F(xiàn)ast R-CNN, Faster R-CNN 等),它們是two-stage 的,需要先算法產(chǎn)生目標(biāo)候選框,也就是目標(biāo)位置,然后再對候選框做分類與回歸。還有Yolo,SSD這類one-stage 算法,其僅僅使用一個卷積神經(jīng)網(wǎng)絡(luò)CNN 直接預(yù)測不同目標(biāo)的類別與位置。第一種方法準(zhǔn)確度高一些,但是速度慢,第二種算法速度快,但是準(zhǔn)確性要低一些?;径季哂懈呷哂喽?、高時間復(fù)雜度,影響目標(biāo)檢測性能,而邊框回歸方法[2]可以提高目標(biāo)檢測的準(zhǔn)確性,因此在邊框回歸方法的基礎(chǔ)上提出基于前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,F(xiàn)NN)的目標(biāo)定位技術(shù)。
為了將移動目標(biāo)分割出來,將移動目標(biāo)檢測區(qū)域L 進行等間隔劃分,將區(qū)域平均劃分為K 行K 列,將區(qū)域中能夠劃分出K 行或K 列的概率用向量Pk表示,記為
本文用2 種邊界概率表示方法對劃分的行列進行表示。一種是利用可能性邊界劃分的概率大小計算移動目標(biāo)邊界框的行或列,行概率表示為列概率表示為為手動標(biāo)記邊界,因此第一種邊界概率P={pX, py}的期望T={tX, ty}。tX, ty分別計算如下:
第二種表示利用邊界概率代替行的上下邊界框及左右邊界概率:分別為邊界概率表示為P={pt, pb, pl, pr},具體關(guān)系可以表示如下:
基于FNN 的移動目標(biāo)定位模型框架如圖1 所示。
圖1:定位模型框架
圖1 的輸入是尺寸為w×h 的圖像I 的相應(yīng)兩個顏色通道圖,輸入尺寸為w×h×3。前饋神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。圖2 的主要作用是降維,通過8 個卷積層將原始圖像I 和要搜索的移動物體所在區(qū)域K 進行映射,得到特征映射圖,特征映射圖的大小為特征映射圖中的M 映射區(qū)域被裁剪掉。
對于定位而言,需要定位4 個點,可以讓標(biāo)簽y 的形式形同(K,x1,y1,x2,y2,x3,y3,x4,y4)K 為是否有該類圖像,如果有4 個點的數(shù)據(jù)才有效,否則無效,但是點的意義要講順序,比如點1 是頭頂,點2 是腳,順序不一樣容易導(dǎo)致輸出結(jié)果錯誤。相當(dāng)于網(wǎng)絡(luò)多輸出實現(xiàn)定位點輸出。本文模型將被劃分成2 個不同分支,分別為X 分支和Y 分支,2 個分支中經(jīng)過池化降維后最終生成相應(yīng)的邊界概率,經(jīng)過運算得到行和列。如圖1 所示在X 分支中先對X 方向上的特征由最大池化層池化降維后得到相應(yīng)的映射特征圖,再將所得池化后特征圖輸入完全連接層整合,最后搜索區(qū)域通過sigmoid 函數(shù)輸出。對于分支Y 則先通過最大池化層池化[4]得到相應(yīng)特征映射,再把獲取的特征圖作為連接層的輸入,傳輸?shù)酵耆B接層,完成映射樣本標(biāo)記空間,最后由sigmoid 函數(shù)輸出判斷區(qū)域K 以及邊界的概率(pt, pb)。與X 分支不同的是在池化時匯集方式不同及輸出的邊界概率不同。X、Y 分支的最大匯集公式為:
本文所提出的視頻目標(biāo)定位檢測算法流程如圖3 所示。
候選邊界一般有2 種生成方法。 第1 種為滑動窗口法。將所有可能的圖像邊界情況詳盡的列舉出來。即在圖像中的每一個尺度和每一個像素位置進行遍歷,逐一判斷當(dāng)前窗口是否為人臉目標(biāo)。這種思路看似簡單,實則計算開銷巨大。第2 種方法為區(qū)域提案法,先預(yù)測目標(biāo)可能出現(xiàn)的區(qū)域,在每個位置同時預(yù)測目標(biāo)邊界和objectness 得分,這樣可以減少過多的幀,而且具有相對較高的召回率。因此本文對第2 種方法進行改進。
在目標(biāo)定位檢測算法流程中,對于給定迭代次數(shù)的邊框改進選擇方法,預(yù)先給定的候選邊界將會生成這一條邊界所對應(yīng)的置信度而該置信度可表明檢測目標(biāo)的可能出現(xiàn)區(qū)域。
輸入:集合中每個單元所對應(yīng)的數(shù)組
輸出:集合中數(shù)組的極大值
圖2:網(wǎng)絡(luò)模型結(jié)構(gòu)
圖3:目標(biāo)定位檢測算法流程
圖4:卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
為了表明移動目標(biāo)的行為動作與空間和時間的特征有關(guān)聯(lián)性,必須將時空網(wǎng)絡(luò)相融合。首先要進行神經(jīng)網(wǎng)絡(luò)特征圖像的匹配。若匹配不成功則要將比較大的要素圖樣進行再采樣。時空融合方法描述公式為:
表1:目標(biāo)搜索準(zhǔn)確率表
圖5:自然查詢模型結(jié)構(gòu)
圖6:級聯(lián)分類器框架
公式4 說明2 個神經(jīng)網(wǎng)絡(luò)的2 個特征圖融合為1 個新的特征圖。合并后特征空間為H×W×D,其中,H 為特征要素圖的高度,W 為特征要素圖的寬度,D 為特征要素圖的通道數(shù)。公式5 為利用sum 方法收斂d 通道特征圖的像素點(i,j),其中1 ≤i ≤H,1 ≤j ≤W,1 ≤d ≤D。
本文設(shè)計的移動目標(biāo)識別總體框架主要包括3 個模塊:特征提取,特征的融合,目標(biāo)識別。在該框架中,根據(jù)神經(jīng)網(wǎng)絡(luò)特點,通過時間軸將2D 卷積神經(jīng)網(wǎng)絡(luò)擴展成3D 卷積神經(jīng)網(wǎng)絡(luò)時,連接層會損失部分圖像特征信息,可通過改變光流圖像輸入來改善,這是因為光流圖像被添加到該模型的輸入中時,處理的為靜止圖像,這樣圖像魯棒性得到相應(yīng)提升,同時還可以補償光流特性。
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。圖4 所示卷積神經(jīng)網(wǎng)絡(luò)模型共包含有3 個卷積層,2 個池化層,1 個完全連接層、丟失層。網(wǎng)絡(luò)卷積層使用核心數(shù)分別是60,140,230。3D 卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以同時卷積水平和垂直維度,還可以將時間維度空間維度融入3D 卷積[6]。池化層使用的匯集方法為最大池法。3D 匯集內(nèi)核的大小分別為2×2×2,空間和時間的深度為3,時間和空間的跨度為1×1×1。
本文提出的自然查詢模型框架如圖5 所示。
圖5 中簡化模型結(jié)構(gòu)簡單,分3 層,包含4 部分:第1 層卷積神經(jīng)網(wǎng)絡(luò)CNNglobal,第2 層1 個GRU 循環(huán)單元GRUquest,第3層1 個自嵌入層和1 個自預(yù)測層。簡化后原始模型為:
由上式(6)可得簡化后SGRC 模型與LRCN 模型相類似,在LRCN 模型中,隨機梯度下降用于優(yōu)化整個圖像標(biāo)記的數(shù)據(jù)集,所以在SGRC 模型中也用隨機梯度下降進行優(yōu)化,參數(shù)的權(quán)重矩陣的值被設(shè)置為Wlocal=0。
先對用戶輸入的圖片進行查詢確定相應(yīng)于圖片的候選邊界,通過運算輸出最優(yōu)候選邊界,再通過查找最大置信度得分確定查詢物體目標(biāo)邊界。
所謂的級聯(lián)是指包括許多級別的分類器,并且只有前一級別的樣本可以進入后一級。 因此,可以在前幾個階段快速消除許多非目標(biāo)樣本,從而為更像目標(biāo)區(qū)域的檢測節(jié)省了大量時間。如圖6 所示。
將本文算法實驗結(jié)果與傳統(tǒng)CAFFE 算法、LRCN 算法、SGRC(無空間轉(zhuǎn)移)算法進行對比,結(jié)果如表1 所示。
由表1 可以看出:基于CAFFE 方法搜索精度比較低,LRCN算法其次,SGRC(無空間轉(zhuǎn)移)算法較好,本文算法準(zhǔn)確率最高。這是因為CAFFE 方法、基于ImageNet,ReferIt 數(shù)據(jù)集,其特點為如果目標(biāo)文本注釋中若出現(xiàn)不在數(shù)據(jù)集ImageNet 中的標(biāo)簽詞,最終的搜索可能會找不到目標(biāo)。LRCN 算法采用循環(huán)卷積結(jié)構(gòu),沒有更好的表達能力,本文算法基于時間空間融合方法提取特征,通過級聯(lián)分類器剔除非有效目標(biāo),有效提高了移動物體檢測的準(zhǔn)確性和效率。
本文提出了一種基于深度學(xué)習(xí)的移動目標(biāo)檢測技術(shù),充分利用FNN 獲取圖像特征,經(jīng)過運算得到特征映射,通過迭代得到候選邊框,對候選邊框進行非最大抑制優(yōu)化,篩選出目標(biāo)可能區(qū)域,結(jié)合了時間空間融合技術(shù),采用級聯(lián)分類器進行訓(xùn)練,利用自然查詢模型算法完成目標(biāo)搜索。實驗結(jié)果取得了較好的檢測準(zhǔn)確率。