摘要:隨著人工智能技術(shù)的飛速發(fā)展,汽車自動(dòng)駕駛、無(wú)人零售商店等應(yīng)用正在轉(zhuǎn)變?yōu)楝F(xiàn)實(shí),視頻目標(biāo)檢測(cè)是人工智能領(lǐng)域中的一個(gè)研究熱點(diǎn),當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)已取得許多進(jìn)展,本文對(duì)當(dāng)前主流目標(biāo)檢測(cè)技術(shù)進(jìn)行總結(jié),指出以區(qū)域提名為思想和以端到端學(xué)習(xí)為思想的兩大深度學(xué)習(xí)目標(biāo)檢測(cè)方法,同時(shí),重點(diǎn)分析各自的優(yōu)勢(shì)和缺點(diǎn)。
關(guān)鍵詞:目標(biāo)檢測(cè);區(qū)域提名;端到端;深度學(xué)習(xí)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要應(yīng)用之一,深度學(xué)習(xí)算法在目標(biāo)檢測(cè)方面已經(jīng)取得了重大進(jìn)展[1]。目標(biāo)檢測(cè)可以概述為一個(gè)分類問(wèn)題,目的為識(shí)別圖像中存在的所有物體對(duì)象,并且能夠獲取對(duì)象的確切位置。
本文總結(jié)了當(dāng)前主流的目標(biāo)檢測(cè)算法,重點(diǎn)分析以區(qū)域提名為思想和以端到端學(xué)習(xí)為思想的兩大目標(biāo)檢測(cè)方法,指出各自的優(yōu)勢(shì)和缺點(diǎn),最后分析當(dāng)下目標(biāo)檢測(cè)面臨的問(wèn)題和發(fā)展趨勢(shì)。
1 基于區(qū)域提名的目標(biāo)檢測(cè)
區(qū)域提名,即為確定圖像中物體對(duì)象所在位置而預(yù)先提出候選區(qū)域的方法。當(dāng)前主流的基于區(qū)域提名的目標(biāo)檢測(cè)算法有:RCNN、SPPNet、Fast RCNN、Faster RCNN等。
1.1 RCNN
Ross Girshick于2014年提出的RCNN算法為深度學(xué)習(xí)轉(zhuǎn)向目標(biāo)檢測(cè)領(lǐng)域的首次突破,并且獲得年度最優(yōu)目標(biāo)檢測(cè)算法[2]。RCNN改變了目標(biāo)檢測(cè)的傳統(tǒng)思想,后續(xù)許多文獻(xiàn)均以此作為改進(jìn)。以下為其主要算法步驟:
1)區(qū)域提名:從原始圖片中使用選擇性搜索算法提取大概2000個(gè)候選區(qū)域;
2)歸一化處理:所有候選框均被縮放成統(tǒng)一的尺度,原文為227×227;
3)特征提?。和ㄟ^(guò)預(yù)先訓(xùn)練好的CNN網(wǎng)絡(luò)提取候選框的特征表示;
4)分類及回歸:特征層之后銜接兩個(gè)全連接層,用SVM作分類,并使用線性回歸微調(diào)邊框的大小與位置。
RCNN雖然在目標(biāo)檢測(cè)mAP結(jié)果上有了新的提升,但存在候選框數(shù)量眾多且重復(fù)計(jì)算導(dǎo)致計(jì)算量大、SVM模型需進(jìn)一步優(yōu)化、算法各個(gè)步驟的中間數(shù)據(jù)需單獨(dú)保存致使硬盤占用大、檢測(cè)運(yùn)行速度極為緩慢等的缺點(diǎn)。
1.2 SPPNet
SPPNet為基于RCNN改進(jìn)的具有更快速度的目標(biāo)檢測(cè)算法[2],其提出了一種空間金字塔池化層,主要是為了解決RCNN中候選框需被縮放成統(tǒng)一大小而導(dǎo)致物體拉伸變形嚴(yán)重的問(wèn)題。其對(duì)RCNN的改進(jìn)主要體現(xiàn)在步驟2)與步驟3),SPPNet將步驟2)中候選區(qū)域邊長(zhǎng)縮放至長(zhǎng)、寬的最短邊,即固定了長(zhǎng)、寬的最短邊長(zhǎng)度;對(duì)于步驟3)則在CNN的卷積層與全連接層中間添加了空間金字塔池化層。而其他方面仍與RCNN一致,故依然存在不少的缺點(diǎn)。
1.3 Fast RCNN
針對(duì)RCNN和SPPNet存在的缺點(diǎn),Ross Girshick于2015年提出了Fast RCNN[2],主要的改進(jìn)地方為:首先通過(guò)CNN得到整張圖片的特征層,之后把所有候選框投影至1)得到的特征層,這樣可以共享特征層,以達(dá)到節(jié)省計(jì)算的目的;此外,使用一種稱為RoIPooling的簡(jiǎn)化SPP層,用以提取特征層上各個(gè)候選框的固定維度的特征表示;在分類及回歸方法上,則不再使用SVM模型,而改為用SoftMax作分類,以多任務(wù)學(xué)習(xí)的方式同時(shí)進(jìn)行分類和回歸。
Fast RCNN不再需要額外硬盤存儲(chǔ)訓(xùn)練和測(cè)試各步驟的中間值,其測(cè)試速度相較于RCNN提高了213倍,相較于SPPNet提高了將近10倍。
1.4 Faster RCNN
雖然SPPNet和Fast RCNN的出現(xiàn)大大降低了目標(biāo)檢測(cè)的運(yùn)行時(shí)間,但所采取的區(qū)域提名方法仍然是速度提升的瓶頸。針對(duì)該問(wèn)題,F(xiàn)aster RCNN[2]直接利用RPN網(wǎng)絡(luò)提取候選框,區(qū)域提名、分類、回歸等操作一起共用卷積特征,進(jìn)一步提升了速度。
2 基于端到端學(xué)習(xí)的目標(biāo)檢測(cè)
端到端學(xué)習(xí)為無(wú)需預(yù)先提取區(qū)域候選框的一類目標(biāo)檢測(cè)方法。目前該方法的代表為YOLO[3]、SSD[3]。
2.1 YOLO
YOLO簡(jiǎn)化了目標(biāo)檢測(cè)的整個(gè)流程,視頻幀圖像被縮放至統(tǒng)一尺度大小的圖像,分為S×S個(gè)格子,每個(gè)格子需要預(yù)測(cè)B個(gè)包含物體的矩形框的信息和C個(gè)類別的歸屬概率值,每個(gè)矩形框包含4維坐標(biāo)信息和1維目標(biāo)置信度,則每個(gè)格子輸出5×B+C維向量。YOLO整合了目標(biāo)判定和識(shí)別,運(yùn)行速度有了極大的提高。
YOLO的優(yōu)勢(shì)在于檢測(cè)速度快、背景誤檢率比RCNN等要低、支持對(duì)非自然圖像的檢測(cè);但是存在的缺點(diǎn)有:物體定位誤差大、落入同一格子的兩個(gè)物體只能檢測(cè)得其一。
2.2 SSD
由于YOLO網(wǎng)絡(luò)的S×S網(wǎng)格的粗糙劃分導(dǎo)致了回歸的目標(biāo)位置誤差較大,SSD借鑒了區(qū)域提名的思想作出改進(jìn),使用與Faster RCNN類似的RPN網(wǎng)絡(luò),不同的是SSD在CNN的多個(gè)特征層上使用RPN之后再作分類和邊框回歸,原圖上小物體的檢測(cè)也能有較準(zhǔn)確的檢測(cè)結(jié)果。
與YOLO相比,SSD仍能保持快速的檢測(cè)速度,并且改進(jìn)了小物體的定位精確度。
3 結(jié)語(yǔ)
隨著數(shù)據(jù)類別和容量的不斷增大,如何設(shè)計(jì)泛化能力更強(qiáng)的有效卷積神經(jīng)網(wǎng)絡(luò)將會(huì)是一個(gè)難點(diǎn),此外,融合不同層之間的特征,形成更有效的特征表示也是亟待解決的。
本文重點(diǎn)分析以區(qū)域提名為思想和以端到端學(xué)習(xí)為思想的兩大目標(biāo)檢測(cè)方法,前者優(yōu)點(diǎn)在于檢測(cè)效果更佳,而后者的運(yùn)行速度更快。盡管目標(biāo)檢測(cè)仍有許多需要完善的地方和挑戰(zhàn),但當(dāng)前深度學(xué)習(xí)技術(shù)已使目標(biāo)檢測(cè)邁入新的發(fā)展道路。
參考文獻(xiàn):
[1]盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):117.
[2]萬(wàn)維.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法研究及應(yīng)用[D].電子科技大學(xué),2015.
[3]張慧,王坤峰,王飛躍.深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中的應(yīng)用進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2017,8(43):117.
作者簡(jiǎn)介:李美玲(1988),女,廣東廉江人,本科,主要從事通信工程和樓宇智能化工程技術(shù)的教學(xué)工作。