• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的監(jiān)控視頻中多類別車輛檢測(cè)

      2019-07-31 12:14:01徐子豪黃偉泉王胤
      計(jì)算機(jī)應(yīng)用 2019年3期
      關(guān)鍵詞:深度學(xué)習(xí)

      徐子豪 黃偉泉 王胤

      摘 要:針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法在交通監(jiān)控視頻的車輛檢測(cè)中易受視頻質(zhì)量、拍攝角度、天氣環(huán)境等客觀因素影響,預(yù)處理過(guò)程繁瑣、難以進(jìn)行泛化、魯棒性差等問(wèn)題,結(jié)合空洞卷積、特征金字塔、焦點(diǎn)損失,提出改進(jìn)的更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)和單階段多邊框檢測(cè)檢測(cè)器(SSD)兩種深度學(xué)習(xí)模型進(jìn)行多類別車輛檢測(cè)。首先從監(jiān)控視頻中截取的不同時(shí)間的851張標(biāo)注圖構(gòu)建數(shù)據(jù)集;然后在保證訓(xùn)練策略相同的情況下,對(duì)兩種改進(jìn)后的模型與原模型進(jìn)行訓(xùn)練;最后對(duì)每個(gè)模型的平均準(zhǔn)確率進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,與原Faster R-CNN和SSD模型相比,改進(jìn)后的Faster R-CNN和SSD模型的平均準(zhǔn)確率分別提高了0.8個(gè)百分點(diǎn)和1.7個(gè)百分點(diǎn),兩種深度學(xué)習(xí)方法較傳統(tǒng)方法更適應(yīng)復(fù)雜情況下的車輛檢測(cè)任務(wù),前者準(zhǔn)確度較高、速度較慢,更適用于視頻離線處理,后者準(zhǔn)確度較低、速度較快,更適用于視頻實(shí)時(shí)檢測(cè)。

      關(guān)鍵詞:深度學(xué)習(xí);車輛檢測(cè);空洞卷積;特征金字塔;焦點(diǎn)損失

      中圖分類號(hào): TP301.6

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1001-9081(2019)03-0700-06

      Abstract: Since performance of traditional machine learning methods of detecting vehicles in traffic surveillance video is influenced by objective factors such as video quality, shooting angle and weather, which results in complex preprocessing, hard generalization and poor robustness, combined with dilated convolution, feature pyramid and focal loss, two deep learning models which are improved Faster R-CNN (Faster Regions with Convolutional Neural Network) and SSD (Single Shot multibox Detector) model were proposed for vehicle detection. Firstly, a dataset was composed of 851 labeled images captured from the surveillance video at different time. Secondly, improved and original models were trained under same training strategies. Finally, average accuracy of each model were calculated to evaluate. Experimental results show that compared with original Faster R-CNN and SSD, the average accuracies of the improved models improve 0.8 percentage points and 1.7 percentage points respectively. Both deep learning methods are more suitable for vehicle detection in complicated situation than traditional methods. The former has higher accuracy and slower speed, which is more suitable for video off-line processing, while the latter has lower accuracy and higher speed, which is more suitable for video real-time detection.

      Key words: deep learning; vehicle detection; dilated convolution; feature pyramid; focal loss

      0 引言

      隨著經(jīng)濟(jì)和城鎮(zhèn)化建設(shè)的快速發(fā)展,我國(guó)各城市的道路和車輛總量不斷增長(zhǎng),交管部門的管理壓力與日俱增。雖然高清監(jiān)控?cái)z像頭已經(jīng)在絕大多數(shù)路口部署,但每日產(chǎn)生的視頻量也越來(lái)越龐大,通過(guò)人工進(jìn)行視頻實(shí)時(shí)監(jiān)控或離線處理既費(fèi)時(shí)又費(fèi)力,而且容易延誤和遺漏,所以亟須尋找一種自動(dòng)化方法輔助人工進(jìn)行監(jiān)控處理,這也是智能交通系統(tǒng)的核心[1-4] 。

      交通監(jiān)控視頻中蘊(yùn)含豐富的信息,是智能交通監(jiān)控系統(tǒng)的重要數(shù)據(jù)來(lái)源。監(jiān)控視頻可以應(yīng)用在車輛違法行為判斷、跨攝像頭車輛追蹤、分時(shí)段分車道車流量統(tǒng)計(jì)等實(shí)際場(chǎng)景,而車輛檢測(cè)則是車輛行為分析和智能交通監(jiān)控的重要基礎(chǔ)。

      我國(guó)的相關(guān)管理部門一直在積極改進(jìn)交通視頻監(jiān)控系統(tǒng),但由于視頻監(jiān)控系統(tǒng)建設(shè)時(shí)間以及監(jiān)控需求不同,監(jiān)控視頻的分辨率、攝像角度、攝像方向都有很大差異,加之不同的時(shí)間、天氣,如:夜間車輛燈光、惡劣天氣的能見(jiàn)度、大風(fēng)帶來(lái)的攝像頭抖動(dòng)等因素都會(huì)嚴(yán)重影響視頻質(zhì)量。這些因素使得獲取到的視頻質(zhì)量良莠不齊,而傳統(tǒng)車輛檢測(cè)方法[5-9] 應(yīng)對(duì)復(fù)雜場(chǎng)景往往表現(xiàn)較差,好的表現(xiàn)更依賴于好的視頻質(zhì)量和簡(jiǎn)單場(chǎng)景,這是車輛檢測(cè)在實(shí)際應(yīng)用上表現(xiàn)不佳的重要原因。

      近幾年,深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)領(lǐng)域不斷取得突破[10],一些基本任務(wù)也都有了優(yōu)秀的解決方案,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法也在眾多檢測(cè)算法中異軍突起,其準(zhǔn)確率遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)檢測(cè)算法,魯棒性也更強(qiáng)。深度學(xué)習(xí)方法使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)擺脫了傳統(tǒng)機(jī)器學(xué)習(xí)方法預(yù)處理及構(gòu)造特征的繁瑣過(guò)程,同時(shí)大幅降低了因角度、遮擋等因素造成的誤檢和漏檢,對(duì)復(fù)雜場(chǎng)景的適應(yīng)性更強(qiáng)。目前,深度學(xué)習(xí)的目標(biāo)檢測(cè)方法主要分為以文獻(xiàn)[11]和文獻(xiàn)[12]為代表的單階段模型和以文獻(xiàn)[13]為代表的兩階段模型兩大類。

      本文將更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Regions with CNN, Faster R-CNN)、單階段多邊框檢測(cè)檢測(cè)器(Single Shot multibox Detector, SSD)等深度學(xué)習(xí)的目標(biāo)檢測(cè)模型引入到交通監(jiān)控視頻中進(jìn)行多類別車輛檢測(cè),并在基本模型基礎(chǔ)上嘗試使用更佳的骨干網(wǎng)絡(luò)作特征提取,同時(shí)融合進(jìn)空洞卷積[14]、特征金字塔[15]、焦點(diǎn)損失函數(shù)[16]等對(duì)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行優(yōu)化。本文基于獲取的監(jiān)控視頻構(gòu)建了多類別車輛檢測(cè)數(shù)據(jù)集,并以此為基礎(chǔ)對(duì)不同模型的檢測(cè)效果、應(yīng)用場(chǎng)景進(jìn)行比較分析。實(shí)驗(yàn)結(jié)果顯示經(jīng)過(guò)上述方法改進(jìn)的模型效果好于基礎(chǔ)模型,單階段模型準(zhǔn)確度較低,但速度較快,而兩階段模型準(zhǔn)確度較高,速度較慢,所以對(duì)于在線監(jiān)控可以選擇速度更快的單階段模型,而離線處理可以選擇準(zhǔn)確度更高的兩階段模型。

      1 相關(guān)研究

      視頻流的本質(zhì)是一幀幀圖像,而需要檢測(cè)的目標(biāo)往往是視頻中運(yùn)動(dòng)的物體,所以一種簡(jiǎn)單又實(shí)用的思路是利用視頻圖像中背景基本不動(dòng)而前景持續(xù)運(yùn)動(dòng)的特點(diǎn),通過(guò)比較幀間像素點(diǎn)強(qiáng)度的變化和相關(guān)性判斷運(yùn)動(dòng)區(qū)域,這個(gè)區(qū)域即為檢測(cè)的運(yùn)動(dòng)物體。應(yīng)用這種思路并普遍使用的檢測(cè)方法有:幀差法[17]、光流法[18]等。這類方法雖然計(jì)算速度快,但沒(méi)有完整利用單幀圖像的整體信息,難以擴(kuò)展到多類別檢測(cè),準(zhǔn)確率較低,魯棒性也較差。另一種研究思路[19]是將視頻流分成一幀幀圖像處理,將視頻中的目標(biāo)檢測(cè)轉(zhuǎn)變成圖像中的目標(biāo)檢測(cè)任務(wù),這種思路雖然計(jì)算速度較慢,但充分利用了圖像信息,準(zhǔn)確性更高,魯棒性更強(qiáng),應(yīng)用更廣。

      1.1 傳統(tǒng)方法

      在深度學(xué)習(xí)熱潮興起前,計(jì)算機(jī)視覺(jué)領(lǐng)域的研究者們通常使用傳統(tǒng)目標(biāo)檢測(cè)算法完成這一任務(wù)。傳統(tǒng)方法的步驟主要分為三步:候選區(qū)域提取、區(qū)域特征提取、特征分類。因?yàn)閭鹘y(tǒng)方法計(jì)算速度快,所以候選區(qū)域提取常采用貪心的滑動(dòng)窗口策略,使用不同尺寸的滑動(dòng)窗口對(duì)圖片進(jìn)行逐行掃描,每個(gè)窗口區(qū)域使用人為劃定或特征提取算法進(jìn)行特征提取,文獻(xiàn)[20-24]詳述了多種常用的特征提取算法。最后將特征向量送入預(yù)先訓(xùn)練好的分類器進(jìn)行分類,統(tǒng)計(jì)每個(gè)窗口的分類結(jié)果整合成最終的檢測(cè)結(jié)果。比較經(jīng)典并且推廣到實(shí)際應(yīng)用中的算法有:文獻(xiàn)[25]進(jìn)行的人臉識(shí)別,文獻(xiàn)[26]進(jìn)行的行人重識(shí)別等,同樣類似的方法也曾被應(yīng)用在視頻中的車輛檢測(cè)[27]。

      1.2 深度學(xué)習(xí)方法

      自從2012年文獻(xiàn)[28]提出深度學(xué)習(xí)分類模型開(kāi)始,基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型成為了圖像識(shí)別與檢測(cè)領(lǐng)域的首選之一。首先使用深度學(xué)習(xí)方法進(jìn)行目標(biāo)檢測(cè)并取得很大進(jìn)展的方法是2013 年文獻(xiàn)[29]提出的OverFeat,該方法開(kāi)始嘗試使用CNN提取圖片特征,利用多尺度滑動(dòng)窗口算法進(jìn)行檢測(cè),取得了很好的效果。

      2014年文獻(xiàn)[30]提出的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Regions with CNN, R-CNN)完整地將CNN融合進(jìn)目標(biāo)檢測(cè)任務(wù)中,成為深度學(xué)習(xí)進(jìn)行目標(biāo)檢測(cè)的奠基之作。R-CNN利用文獻(xiàn)[31]提取約2000個(gè)候選框,每個(gè)候選框通過(guò)CNN進(jìn)行特征提取,結(jié)合多個(gè)二分類支持向量機(jī)(Support Vector Machine, SVM)實(shí)現(xiàn)候選區(qū)域目標(biāo)的多分類,最后利用非極大值抑制(Non-Maximum Suppression, NMS)算法和框回歸對(duì)候選框進(jìn)行篩選融合和微調(diào)。R-CNN在檢測(cè)準(zhǔn)確度上大大超過(guò)了傳統(tǒng)方法,但由于流程復(fù)雜,模型需要多階段訓(xùn)練,預(yù)測(cè)一張圖速度過(guò)慢,這些因素導(dǎo)致R-CNN無(wú)法真正進(jìn)行實(shí)際應(yīng)用。2015年文獻(xiàn)[32]在R-CNN的基礎(chǔ)上主要針對(duì)候選框特征重復(fù)提取的問(wèn)題進(jìn)行改進(jìn),提出了Fast R-CNN,它在速度和精度上較R-CNN有了很大提升。Fast R-CNN只對(duì)圖片通過(guò)CNN進(jìn)行一次前向運(yùn)算提取特征,利用特征圖坐標(biāo)對(duì)應(yīng)關(guān)系將提取的2000個(gè)候選框映射到底層特征圖中,并且利用提出的感興趣區(qū)域(Regions of Interest, ROI)池化結(jié)構(gòu)有效解決了特征圖上不同尺寸的候選框需要縮放到同一尺寸的問(wèn)題。這一操作減少了大量重復(fù)的運(yùn)算,大大提高了檢測(cè)速度。同時(shí),F(xiàn)ast R-CNN不再使用多個(gè)SVM進(jìn)行分類,而是在特征向量后直接連接Softmax層和全連接層作框分類和框回歸,將分類損失和邊框回歸損失結(jié)合進(jìn)行統(tǒng)一訓(xùn)練,這一操作簡(jiǎn)化了模型訓(xùn)練流程,提高了訓(xùn)練速度。在此之后,為了解決候選框提取這一時(shí)間瓶頸,在Fast R-CNN的主網(wǎng)絡(luò)中附加了區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network, RPN)在高層特征圖上進(jìn)行候選框提取,RPN的引入真正實(shí)現(xiàn)了一個(gè)網(wǎng)絡(luò)的端到端目標(biāo)檢測(cè),它在檢測(cè)速度上獲得了更進(jìn)一步的提升,同時(shí)結(jié)合各種訓(xùn)練策略,F(xiàn)aster R-CNN的檢測(cè)準(zhǔn)確率在各大數(shù)據(jù)集上也取得了當(dāng)時(shí)最高的結(jié)果。

      上述系列方法進(jìn)行目標(biāo)檢測(cè)時(shí)雖然整合在一個(gè)網(wǎng)絡(luò)中實(shí)現(xiàn)了端到端訓(xùn)練和預(yù)測(cè),但網(wǎng)絡(luò)結(jié)構(gòu)實(shí)際是將區(qū)域提取和目標(biāo)檢測(cè)分成兩階段進(jìn)行計(jì)算,檢測(cè)速度經(jīng)過(guò)不斷優(yōu)化雖然有了大幅度提高,但即時(shí)在GPU上進(jìn)行運(yùn)算,最快速度也很難達(dá)到10fps每秒10幀。為了使目標(biāo)檢測(cè)算法可以應(yīng)用到視頻中進(jìn)行實(shí)時(shí)檢測(cè),需要在保證準(zhǔn)確率的前提下,繼續(xù)提高單張圖片的目標(biāo)檢測(cè)速度,YOLO(You Only Look Once)[11]、SSD[12]等算法將區(qū)域提取和區(qū)域分類整合到單階段進(jìn)行計(jì)算。YOLO預(yù)先將圖片分為若干柵格,以這些柵格區(qū)域?yàn)楹蜻x區(qū)域進(jìn)行框回歸,網(wǎng)絡(luò)主干仍為CNN結(jié)構(gòu),直接輸出框回歸以及對(duì)應(yīng)框分類的結(jié)果,而SSD則是在多個(gè)CNN的底層特征圖上進(jìn)行框回歸和分類,其檢測(cè)精度要高于YOLO。單階段網(wǎng)絡(luò)減少了RPN的計(jì)算,更接近于純粹的圖像分類網(wǎng)絡(luò),在檢測(cè)精度沒(méi)有很大損失的前提下,其檢測(cè)速度提升到了40fps每秒40幀以上,已經(jīng)可以滿足視頻檢測(cè)的需求。

      目前,單階段和兩階段模型仍是目標(biāo)檢測(cè)領(lǐng)域的兩大分支。對(duì)于單階段模型,在YOLO和SSD的基礎(chǔ)上,研究者們提出了一系列模型[33-36],旨在提高檢測(cè)精度。在Faster R-CNN的基礎(chǔ)上,原作者又對(duì)其進(jìn)行細(xì)節(jié)優(yōu)化,并且將分割任務(wù)融合進(jìn)模型中,提出了Mask R-CNN[37]。也有一些其他工作分別從特征圖的前后關(guān)聯(lián)和損失函數(shù)入手進(jìn)行優(yōu)化,這些改進(jìn)也可以與上述的主流模型進(jìn)行融合提升檢測(cè)效果。

      2 算法設(shè)計(jì)

      本文算法將監(jiān)控視頻當(dāng)成一幀幀圖像進(jìn)行圖像中的車輛檢測(cè),以Faster R-CNN和SSD這兩類模型框架作為基礎(chǔ),結(jié)合空洞卷積、特征金字塔、焦點(diǎn)損失進(jìn)行改進(jìn),下面對(duì)每部分進(jìn)行介紹。

      2.1 Faster R-CNN整體結(jié)構(gòu)

      Faster R-CNN的整體結(jié)構(gòu)是在一個(gè)主干的特征提取CNN中引入RPN結(jié)構(gòu)進(jìn)行候選區(qū)域提取,篩選得到固定數(shù)量的候選框進(jìn)行目標(biāo)分類和框回歸,最后經(jīng)過(guò)NMS進(jìn)行框融合以及框位置精修得到最終的檢測(cè)結(jié)果。圖1展示了以文獻(xiàn)[38]提出的VGG為骨干網(wǎng)絡(luò)的Faster R-CNN的整體結(jié)構(gòu)。

      對(duì)于一張輸入圖片,首先經(jīng)過(guò)特定骨干網(wǎng)絡(luò)VGG頭部的部分層計(jì)算得到某一層的高層特征圖,RPN在特征圖上進(jìn)行滑窗計(jì)算,通過(guò)預(yù)先設(shè)置不同面積及尺寸目標(biāo)框的方式實(shí)現(xiàn)候選框位置的預(yù)估,同時(shí)對(duì)每個(gè)預(yù)估框進(jìn)行分類和框回歸,這里的分類是判斷框范圍內(nèi)的圖像是前景還是背景的二分類,框坐標(biāo)

      回歸是對(duì)包含前景的框的位置進(jìn)行修正。不同大小的目標(biāo)框經(jīng)過(guò)ROI池化層調(diào)整成相同長(zhǎng)度的特征向量,最后經(jīng)過(guò)全連接層連接進(jìn)行多分類和框回歸。多分類是指目標(biāo)框前景物體的準(zhǔn)確分類的各類別得分,框回歸是對(duì)框位置的再次修正。

      在本文改進(jìn)的Faster R-CNN結(jié)構(gòu)中,為了獲得更好的特征提取效果,本文算法使用不同層數(shù)的文獻(xiàn)[39]提出的Resnet代替原始Faster R-CNN中的VGG結(jié)構(gòu)。

      2.2 SSD整體結(jié)構(gòu)

      SSD的整體結(jié)構(gòu)是在一個(gè)主干的特征提取CNN中的多個(gè)高層特征圖上直接回歸候選區(qū)域的位置,并對(duì)每個(gè)位置框進(jìn)行分類,其中預(yù)先設(shè)置的候選框區(qū)域依舊與Faster R-CNN的設(shè)置方法類似,以不同面積及尺寸的錨點(diǎn)在特征圖上的每個(gè)像素點(diǎn)上密布不同大小的多個(gè)目標(biāo)框。圖2展示了以VGG為骨干特征提取網(wǎng)絡(luò)的SSD的整體結(jié)構(gòu)。

      輸入圖片首先經(jīng)過(guò)VGG頭部的若干卷積層和池化層進(jìn)行前向計(jì)算,之后分別連接全連接層、卷積層、池化層,取編號(hào)為Conv6、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2層的特征圖。在這些特征圖上直接進(jìn)行框回歸和多分類,框回歸依舊是對(duì)預(yù)設(shè)框坐標(biāo)的修正,多分類將背景單獨(dú)算為附加的一類與前景k個(gè)類別一同計(jì)算,得到(k+1)個(gè)類別的得分。最后利用NMS算法進(jìn)行框融合。

      在本文改進(jìn)的SSD結(jié)構(gòu)中,為了獲得更好的特征提取效果,并保證運(yùn)算速度,使用相對(duì)輕量的Inception[40]代替原始SSD中的VGG結(jié)構(gòu)。

      2.3 改進(jìn)方法

      除了改進(jìn)Faster R-CNN和SSD的骨干網(wǎng)絡(luò)以提高其特征提取的能力外,本文在基礎(chǔ)的Faster R-CNN中加入空洞卷積進(jìn)行優(yōu)化,在基礎(chǔ)的SSD中加入特征金字塔和焦點(diǎn)損失進(jìn)行優(yōu)化。下面對(duì)每一項(xiàng)方法進(jìn)行介紹。

      2.3.1 空洞卷積

      具體而言,卷積核在進(jìn)行一般卷積運(yùn)算時(shí),是與特征圖的相鄰像素點(diǎn)作乘法運(yùn)算,而空洞卷積運(yùn)算允許卷積核與固定間隔l的像素點(diǎn)作乘法運(yùn)算,這樣在不增加額外運(yùn)算量的同時(shí),增大感受野。而對(duì)于分辨率較高的圖像,相鄰像素間的冗余信息相對(duì)較多,可以利用空洞卷積進(jìn)行優(yōu)化。為此,本文主要將空洞卷積引入到Faster R-CNN中的RPN對(duì)特征圖的卷積運(yùn)算中。

      2.3.2 特征金字塔

      最簡(jiǎn)單的特征金字塔結(jié)構(gòu)可以依靠堆疊多個(gè)經(jīng)過(guò)縮放的不同大小的同一張圖片實(shí)現(xiàn),而在各種CNN網(wǎng)絡(luò)結(jié)構(gòu)中,其前向傳播的計(jì)算過(guò)程將原始圖片逐步變成更小的特征圖,即自底向上的結(jié)構(gòu),這是一種CNN都具備的原生金字塔。本文在基礎(chǔ)SSD結(jié)構(gòu)中加入自頂向下結(jié)構(gòu)和橫向連接,使其同時(shí)利用低層特征高分辨率和高層特征強(qiáng)語(yǔ)義信息,更兼顧位置信息和語(yǔ)義信息,提高SSD的檢測(cè)能力。自頂向下結(jié)構(gòu)通過(guò)上采樣對(duì)高層特征圖逐層進(jìn)行放大,相當(dāng)于自底向上結(jié)構(gòu)的逆過(guò)程運(yùn)算,橫向連接將兩次計(jì)算中相同大小的特征圖逐像素相加進(jìn)行融合。

      圖3展示了在圖2基礎(chǔ)上添加的金字塔結(jié)構(gòu),Conv6層到Conv11_2層是CNN的前向計(jì)算過(guò)程,即原始的自底向上結(jié)構(gòu),從Conv11_2通過(guò)一次次上采樣計(jì)算生成對(duì)應(yīng)大小相同的特征圖,直到Up_Conv6,這個(gè)結(jié)構(gòu)即自頂向下結(jié)構(gòu)。Conv10_2層會(huì)與Conv11_2上采樣得到的特征圖進(jìn)行融合得到Up_Conv10_2,其他層也依次通過(guò)這一操作進(jìn)行融合,這個(gè)計(jì)算過(guò)程即橫向連接。最后再對(duì)融合后的各層進(jìn)行框坐標(biāo)回歸和分類預(yù)測(cè)。本文將其應(yīng)用在網(wǎng)絡(luò)的最后3個(gè)特征圖上。

      2.3.3 焦點(diǎn)損失

      多分類任務(wù)常用的目標(biāo)損失函數(shù)是交叉熵?fù)p失。假設(shè)任務(wù)中有n個(gè)樣本,分類目標(biāo)有C類,交叉熵CE定義如下:

      針對(duì)類別不平衡現(xiàn)象,可以針對(duì)不同類別引入一個(gè)權(quán)重因子α削弱大數(shù)量類別對(duì)損失值的影響:

      針對(duì)難分樣本問(wèn)題,一個(gè)樣本的預(yù)測(cè)概率越高,模型對(duì)該樣本的識(shí)別力越強(qiáng),該樣本成為易分樣本,反之則為難分樣本??梢砸灶A(yù)測(cè)概率為基礎(chǔ),引入一個(gè)權(quán)重因子β削弱易分樣本對(duì)損失值的影響, β定義如下:

      本文將上述定義的多類別焦點(diǎn)損失應(yīng)用到SSD模型中,并對(duì)不同的α和γ取值進(jìn)行實(shí)驗(yàn)。

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      實(shí)驗(yàn)數(shù)據(jù)集由從監(jiān)控視頻中截取的不同時(shí)間的圖像組成,經(jīng)過(guò)人為篩選剔除掉前后變化較小的圖像,總計(jì)圖像851張,劃分訓(xùn)練集681張,驗(yàn)證集170張圖片。由于各段視頻的分辨率不同,獲取的圖像大小有1080×720和1920×1080兩種。根據(jù)實(shí)際應(yīng)用場(chǎng)景,本文將車輛類型分為四類:汽車(car)、公交車(bus)、出租車(taxi)、卡車(truck),各種類目標(biāo)標(biāo)注數(shù)量如表1所示。

      3.2 模型訓(xùn)練

      在訓(xùn)練前,對(duì)所有圖片進(jìn)行水平翻轉(zhuǎn)、對(duì)比度增強(qiáng)、飽和度增強(qiáng)、色彩變換等操作進(jìn)行圖像增強(qiáng)。所有模型使用Tensorflow框架實(shí)現(xiàn),在Nvidia1080顯卡上訓(xùn)練300個(gè)周期。對(duì)于Faster R-CNN類模型,圖片統(tǒng)一縮放到1280×720輸入網(wǎng)絡(luò),初始化學(xué)習(xí)率為0.001,每隔100個(gè)周期下降到之前的1/10,梯度更新方法采用帶有動(dòng)量的小批量隨機(jī)梯度下降,動(dòng)量因子為0.9。對(duì)于SSD類模型,圖片統(tǒng)一縮放到500×500輸入網(wǎng)絡(luò),初始化學(xué)習(xí)率為0.001,每隔10個(gè)周期下降到之前的0.95倍,梯度更新采用RMSProp優(yōu)化器,動(dòng)量因子為0.9。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      本文使用平均準(zhǔn)確率(Mean Average Precision, MAP)作為檢測(cè)準(zhǔn)確性的評(píng)估指標(biāo),框匹配閾值設(shè)為0.5,該指標(biāo)綜合考慮了定位精度與分類準(zhǔn)確率。同時(shí)為了比較模型進(jìn)行實(shí)時(shí)處理的能力,本文在接入視頻流的條件下,對(duì)每個(gè)模型處理單張圖片的速度進(jìn)行了測(cè)試,結(jié)果如表2所示。

      實(shí)驗(yàn)結(jié)果顯示本文改進(jìn)的網(wǎng)絡(luò)在不影響檢測(cè)速度的情況下,提高了檢測(cè)精度。其中,使用空洞卷積的不同骨干網(wǎng)絡(luò)的Faster RCNN模型的MAP值提高了0.5個(gè)百分點(diǎn)~1.2個(gè)百分點(diǎn),平均提高0.8個(gè)百分點(diǎn),而使用特征金字塔和焦點(diǎn)損失改進(jìn)的SSD模型的MAP值提高了1.9個(gè)百分點(diǎn)。本文也對(duì)焦點(diǎn)損失中不同的α和β取值對(duì)模型的影響作了測(cè)試,其中α=0.75, β=0.75時(shí),MAP值最高,全部結(jié)果如表3所示。

      對(duì)比每一類的檢測(cè)結(jié)果可以發(fā)現(xiàn),由于總類別數(shù)不是很大,且前三類樣本數(shù)足夠多,所以Faster R-CNN類模型對(duì)前三類的識(shí)別已經(jīng)達(dá)到很高的水平,改進(jìn)后的模型在前三類的準(zhǔn)確率比改進(jìn)前模型略有提高。MAP值的提高主要在于卡車這一類的準(zhǔn)確率提高,這是因?yàn)樵擃惖臉颖驹跀?shù)據(jù)集中相對(duì)較少,相比其他三類,模型對(duì)于這一類的學(xué)習(xí)難度是較高的,所以其準(zhǔn)確率相對(duì)較低。改進(jìn)后的模型在卡車類的識(shí)別上平均提高2.9個(gè)百分點(diǎn),因?yàn)榭ㄜ嚇颖緮?shù)相對(duì)較大,空洞卷積減少了相鄰冗余像素對(duì)特征的干擾,從而提高了檢測(cè)準(zhǔn)確性。

      改進(jìn)后的SSD模型MAP值提升了1.9個(gè)百分點(diǎn),每一類的準(zhǔn)確率都提升明顯,其中特征金字塔結(jié)構(gòu)融合了更多高層信息,提升了模型的特征提取能力,焦點(diǎn)損失增強(qiáng)了模型對(duì)難分的、準(zhǔn)確率較低的樣本的識(shí)別度,結(jié)果顯示這些改進(jìn)針對(duì)每一類都有明顯效果。

      此外,本文使用開(kāi)源的MSCOCO目標(biāo)檢測(cè)數(shù)據(jù)集[41]對(duì)改進(jìn)后的模型進(jìn)行評(píng)估,全部結(jié)果如表4所示。結(jié)果顯示,不同的改進(jìn)后的Faster R-CNN模型的MAP平均提高0.8個(gè)百分點(diǎn),改進(jìn)后的SSD模型的MAP值提高1.5個(gè)百分點(diǎn)。

      對(duì)比各模型的處理速度可以發(fā)現(xiàn)本文的改進(jìn)措施基本沒(méi)有引入過(guò)多的運(yùn)算量,其中,空洞卷積和焦點(diǎn)損失屬于計(jì)算的變化,與原模型相比并未有多余計(jì)算,而特征金字塔結(jié)構(gòu)屬于附加結(jié)構(gòu),雖引入了多余運(yùn)算,但本質(zhì)上只是若干次上采樣和矩陣求和運(yùn)算,也并不會(huì)引起運(yùn)算速度的大幅降低。

      實(shí)現(xiàn)結(jié)果也顯示,兩階段的Faster R-CNN模型運(yùn)算準(zhǔn)確率高于單階段的SSD模型,但速度明顯慢于SSD模型。在實(shí)驗(yàn)運(yùn)行環(huán)境中,最快的Faster R-CNN模型每秒最多檢測(cè)6幀圖像,而SSD模型每秒可以檢測(cè)40幀圖像。常見(jiàn)的視頻流一般是每秒25幀圖像,所以SSD類模型完全可以應(yīng)用在交通視頻的實(shí)時(shí)檢測(cè)中,若想將Faster R-CNN接入實(shí)時(shí)視頻流檢測(cè),則需要每隔幾幀圖像檢測(cè)一幀,所以由于Faster R-CNN精度更高,其更適用于離線處理。

      4 結(jié)語(yǔ)

      本文將深度學(xué)習(xí)模型引入交通監(jiān)控視頻的車輛檢測(cè)中,并對(duì)常用的Faster R-CNN和SSD兩種模型進(jìn)行改進(jìn),實(shí)驗(yàn)結(jié)果顯示改進(jìn)后的模型在不影響檢測(cè)速度的情況下提高了檢測(cè)準(zhǔn)確性,取得了很好的效果。

      本文的改進(jìn)模型可以在更大型的數(shù)據(jù)集上進(jìn)行更深入的實(shí)驗(yàn),對(duì)于每項(xiàng)改進(jìn)措施在模型中的應(yīng)用,也可以進(jìn)行更多的實(shí)驗(yàn)。同時(shí),本文的工作也為后續(xù)車輛跟蹤、車流統(tǒng)計(jì)等更具體的應(yīng)用奠定了基礎(chǔ)。

      參考文獻(xiàn) (References)

      [1] WANG F-Y. Agent-based control for networked traffic management systems [J]. IEEE Intelligent Systems, 2005, 20(5): 92-96.

      [2] ROSSETTI R J F, FERREIRA P A F, BRAGA R A M, et al. Towards an artificial traffic control system [C]// Proceedings of the 2008 11th International IEEE Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE, 2008: 14-19.

      [3] 趙娜,袁家斌,徐晗.智能交通系統(tǒng)綜述[J].計(jì)算機(jī)科學(xué),2014,41(11):7-11.(ZHAO N, YUAN J B, XU H. Survey on intelligent transport system [J]. Computer Science, 2014, 41(11): 7-11.)

      [4] 劉小明,何忠賀.城市智能交通系統(tǒng)技術(shù)發(fā)展現(xiàn)狀及趨勢(shì)[J].自動(dòng)化博覽,2015(1):58-60.(LIU X M, HE Z H. Development and tendency of intelligent transportation systems in China [J]. Automation Panorama, 2015(1): 58-60.)

      [5] MICHALOPOULOS P G. Vehicle detection video through image processing: the autoscope system [J]. IEEE Transactions on Vehicular Technology, 1991, 40(1): 21-29.

      [6] SUN Z, BEBIS G, MILLER R. On-road vehicle detection using Gabor filters and support vector machines [C]// Proceedings of the 2002 14th International Conference on Digital Signal Processing. Piscataway, NJ: IEEE, 2002: 1019-1022.

      [7] Bochum R U, TZOMAKAS C, von SEELEN W. Vehicle detection in traffic scenes using shadows [J]. American Journal of Surgery, 1998, 130(5): 585-589.

      TZOMAKAS C, von SEELEN W. Vehicle detection in traffic scenes using shadows [EB/OL]. [2018-07-02].http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=EB25161C6B0FFE3581F4DF3532E6DE28?doi=10.1.1.45.3234&rep=rep1&type=pdf.

      [8] TSAI L-W, HSIEH J-W, FAN K-C. Vehicle detection using normalized color and edge map [J]. IEEE Transactions on Image Processing, 2007, 16(3): 850-864.

      [9] 宋曉琳,鄔紫陽(yáng),張偉偉.基于陰影和類Haar特征的動(dòng)態(tài)車輛檢測(cè)[J].電子測(cè)量與儀器學(xué)報(bào),2015,29(9):1340-1347.(SONG X L, WU Z Y, ZHANG W W. Dynamic vehicle detection based on shadow and Haar-like feature[J]. Journal of Electronic Measurement and Instrumentation, 2015, 29(9): 1340-1347.)

      [10] LeCUN Y, BENGIO Y, HINTON G. Deep learning [J]. Nature, 2015, 521(7553): 436-444.

      [11] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 779-788.

      [12] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.

      [13] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

      [14] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. (2016-04-30) [2018-07-29]. https://arxiv.org/pdf/1511.07122v3.pdf.

      [15] LIN T-Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017, 1(2): 4.

      LIN T-Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection [EB/OL]. [2018-07-11]. https://arxiv.org/pdf/1612.03144.pdf.

      [16] LIN T-Y, GOYALP, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 2999-3007.

      [17] ZHAN C, DUAN X, XU S, et al. An improved moving object detection algorithm based on frame difference and edge detection [C]// Proceedings of the 4th International Conference on Image and Graphics. Washington, DC: IEEE Computer Society, 2007: 519-523.

      [18] HORN B K P, SCHUNCK B G. Determining optical flow [J]. Artificial Intelligence, 1981, 17(1/2/3): 185-203.

      [19] HAN X, ZHANG D Q, YU H H. System and method for video detection and tracking: U.S. Patent Application 13/720,653 [P]. 2014-06-19.

      [20] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

      [21] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.

      PAPAGEORGIOU C P, OREN M, POGGIO T. A general framework for object detection [C]// Proceedings of the 6th International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 1998: 555-562.

      [22] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005,1: 886-893

      [23] OJALA T, PIETIKINEN M, HARWOOD D. A comparative study of texture measures with classification based on featured distribution [J]. Pattern Recognition, 1996, 29(1): 51-59.

      [24] NG P C, HENIKOFF S. SIFT: predicting amino acid changes that affect protein function [J]. Nucleic Acids Research, 2003, 31(13): 3812-3814.

      [25] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.【和21重復(fù)??

      [26] CHEN P-H, LIN C-J, SCHLKOPF B. A tutorial on v-support vector machines [J]. Applied Stochastic Models in Business and Industry, 2005, 21(2): 111-136.

      [27] 劉操,鄭宏,黎曦,等.基于多通道融合HOG特征的全天候運(yùn)動(dòng)車輛檢測(cè)方法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2015,40(8):1048-1053.(LIU C, ZHENG H, LI X, et al. A method of moving vehicle detection in all-weather based on melted multi-channel HOG feature [J]. Geomatics and Information Science of Wuhan University, 2015, 40(8): 1048-1053.)

      [28] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 2012 Advances in Neural Information Processing Systems. Piscataway, NJ: IEEE, 2012: 1097-1105.

      [29] SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks [EB/OL]. (2014-02-24) [2018-07-28]. https://arxiv.org/pdf/1312.6229v4.pdf.

      [30] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 580-587.

      [31] UIJLINGS J R R, van de SANDE K E A, GEVERS T, et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.

      [32] GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448.

      [33] JEONG J, PARK H, KWAK N. Enhancement of SSD by concatenating feature maps for object detection [EB/OL]. (2017-05-26) [2018-07-29]. https://arxiv.org/pdf/1705.09587v1.pdf.

      [34] FU C-Y, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector [EB/OL]. (2017-01-23) [2018-07-28]. https://arxiv.org/pdf/1701.06659v1.pdf.

      [35] REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6517-6525.

      [36] REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. (2018-04-08) [2018-07-30]. https://arxiv.org/pdf/1804.02767v1.pdf.

      [37] HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 2980-2988.

      [38] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10) [2018-07-25]. https://arxiv.org/pdf/1409.1556v6.pdf.

      [39] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.

      [40] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2016: 2818-2826.

      [41] LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 740-755.

      猜你喜歡
      深度學(xué)習(xí)
      從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
      面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      基于自動(dòng)智能分類器的圖書(shū)館亂架圖書(shū)檢測(cè)
      搭建深度學(xué)習(xí)的三級(jí)階梯
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
      考試周刊(2016年94期)2016-12-12 12:15:04
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      五莲县| 牙克石市| 徐水县| 西城区| 海林市| 双城市| 蒙山县| 隆林| 潼南县| 滕州市| 保靖县| 六盘水市| 阳信县| 方正县| 潼南县| 庄浪县| 南澳县| 青海省| 阿图什市| 遂宁市| 三明市| 清镇市| 益阳市| 渑池县| 云和县| 城固县| 区。| 滨州市| 河北区| 泸水县| 宕昌县| 兴安盟| 当阳市| 顺义区| 日土县| 平遥县| 德化县| 大田县| 花垣县| 阳曲县| 宣武区|