• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DCNN的井下行人監(jiān)測方法研究*

    2019-09-03 07:23:10張應團鄭嘉祺
    計算機與數(shù)字工程 2019年8期
    關鍵詞:網絡結構卷積神經網絡

    張應團 李 濤 鄭嘉祺

    (西安郵電大學計算機學院 西安 710061)

    1 引言

    行人檢測是一種能夠通過輸入圖片或視頻幀來判斷其是否存在行人,并將行人的位置信息表現(xiàn)出來的技術,它在智能視頻監(jiān)控領域、車輛輔助駕駛領域以及人體行文分析領域中的第一步[1]。傳統(tǒng)目標檢測的方法一般“三步走”:第一,在被檢測的圖像上劃分出一些候選的區(qū)域。第二,對這些區(qū)域進行特征提取。第三,使用已經訓練好的分類器模型進行分類[2]。利用傳統(tǒng)的目標檢測方法設計一個能夠適應目標的形態(tài)多樣性、光照變化多樣性、背景多樣性等影響的特征并不是那么容易,但是分類好壞的決定性因素就在于特征的提取。傳統(tǒng)目標檢測方法中常用的特征有尺度不變特征變換(Scale-invariant feature transform,SIFT)[3]、方向梯度直方圖(Histogram ofOriented Gradient,HOG)[4]。常用的分類器主要有SVM、Adaboost等。近幾年在圖像識別和視頻監(jiān)控領域中,深度學習和神經網絡大顯身手。深度學習是近十年來人工智能領域取得的最重要的突破之一[5],它在語音識別、自然語言處理、計算機視覺、圖像處理與視頻分析、多媒體等諸多領域都取得了巨大的成功[6]。

    圖像分類方面,2012年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC,ImageNet Large Scale Visual Recognition Competition)上,由Geoffrey Hinton教授和他的學生Krizhevsky首次提出使用卷積神經網絡來處理ILSVRC分類任務,將Top-5 error降低到了15.3%,而使用傳統(tǒng)方法的第二名top-5 error高達26.2%[7],卷積神經網絡第一次在圖像處理中展現(xiàn)了其強大的實力。2014年,來自Facebook的科學家Ross B.Girshick使用Region Proposal加上CNN(Convolutional Neural Network)代替?zhèn)鹘y(tǒng)目標檢測使用的滑動窗口加手工設計特征,設計了R-CNN(Region-Convolutional Neural Network)框架,使得目標檢測取得巨大突破。R-CNN在PASCAL VOC2007上的檢測結果從DPM HSC的34.3%直接提升到了 66%mAP(mean Average Precision)[8]。2015年何凱明等在Spatial Pyramid Pooling in Deep ConvolutionalNetworks for VisualRecognition論文中提出了SPP-NET[9],它優(yōu)化了R-CNN的檢測流程,大大提高了R-CNN的速度。Ross B.Girshick教授又提出了Fast R-CNN,它在SPP-NET的基礎上加入了多任務損失函數(shù),在訓練過程中直接使用softmax代替SVM分類,提高了訓練和測試的速度和便捷性[10]?;诨貧w的目標檢測算法代表是YOLO目標檢測系統(tǒng)。

    2 YOLO目標檢測系統(tǒng)

    YOLO方法是在2016年CVPR(IEEE Conference on Computer Vision and Pattern Recognition,IEEE國際計算機視覺與模式識別會議)上提出的一種目標檢測方法。YOLO系統(tǒng)的理論基礎就是卷積神經網絡。其最大的不同就是它將物體檢測的框架設計成了一個回歸問題,YOLO系統(tǒng)將目標檢測所需要的各個部分全部放入到了一個神經網絡當中,神經網絡使用整幅圖像的特征去預測每一個范圍框的參數(shù),同時也能夠預測整個圖片里包含的所有目標種類的范圍框。也就是說只需要使系統(tǒng)“看”一次圖像,就能夠得出目標的種類以及它所在圖片的位置,因此這個方法才取名YOLO(You Only Look Once)[11]。YOLO系統(tǒng)的設計能夠讓訓練成為端對端的并且速度非常快,同時又能夠滿足較高的平均檢準率(mean Average Precision,mAP)。

    YOLO系統(tǒng)的網絡包含卷積層和全連接層。卷積層負責提取圖像的特征,全連接層負責輸出范圍框的中心點坐標及長寬和檢測概率。YOLO的網絡結構借鑒了GoogLeNet的圖像分類模型,去掉了GoogLeNet中起始模型(Inception Module)里的預先層(Previous Layer)[12],只簡單地在3*3卷積層后面接了一個1*1的卷積層來降低特征空間。整個網絡結構包含24個卷積層和2個全連接層。

    圖1 YOLO基本網絡結構示意圖

    YOLO的最大優(yōu)勢是它的檢測速度非???,這受益于將檢測問題轉換為了回歸問題,所以它不需要太復雜的結構。以上述結構為例,在Titan X GPU上檢測的檢測速率能夠達到45幀每秒。

    目前最快最好的檢測方法FastR-CNN比較容易誤將圖像中的背景區(qū)域檢測成物體,因為它檢測的范圍比較小。YOLO的背景誤差要比Fast R-CNN小一半多。雖然YOLO在檢測的速度上已經非??炝耍窃跈z測精度上仍然落后于目前最好的檢測系統(tǒng)。因為其強烈的空間約束,導致YOLO在對小目標和多重目標上的檢測精度還不夠好。

    3 YOLO的改進及測試

    雖然新版本的YOLO性能表現(xiàn)良好,其檢測速度和精度都有了提升,然而在井下的環(huán)境中,光照環(huán)境差、背景單調、檢測目標較為單一、且監(jiān)控視頻數(shù)據(jù)為單通道、圖片噪聲比較大,如果直接使用YOLO檢測系統(tǒng)來對井下環(huán)境的目標進行檢測,會導致精確度不高,而且檢測效果非常差,如圖2,使用原YOLO系統(tǒng)無法檢測出井下環(huán)境中的人。

    圖2 使用原YOLO系統(tǒng)的檢測結果

    3.1 改進的思想

    礦井下的環(huán)境與自然光場景下有著極大的不同,所以訓練集必須要符合井下的環(huán)境要求。局限于YOLO的缺陷,其檢測小目標和多重目標的效果較差,針對這一點,調整其網絡結構來改進最后網絡的檢測結果。所以本文對YOLO的改進主要包含兩個方面,一是選擇新數(shù)據(jù)集重新訓練模型,二是改進其網絡結構。

    2016年12月YOLO在其官網上發(fā)布了新版本YOLOv2[13],在新版本中對原有的YOLO系統(tǒng)進行了許多改進。所以本文的改進是基于新版本的YOLO系統(tǒng)的。

    3.1.1 數(shù)據(jù)集的選擇

    數(shù)據(jù)集選擇井下的監(jiān)控視頻轉換生成的圖片集。真實生產環(huán)境的圖片可以減小由于網絡泛化能力對檢測結果帶來的影響。這樣訓練出的神經網絡模型在應用時能夠直接作為實際應用的模型,不用再做更多的調整。

    3.1.2 網絡結構上的改進

    YOLO對于臨近物體的檢測效果不好,對于圖片細節(jié)上的處理還有待于提高,調整其網絡結構,能夠使其更好的保存網絡的細節(jié)特征。

    在深度神經網絡中,網絡的層數(shù)越深,其提取的特征就越抽象,圖像的語義信息就越清晰。所以如果能夠結合來自深層的語義信息和來自淺層的表征信息作為網絡的最后輸出,在理論上就能夠提升原YOLO網絡中對于細節(jié)上的處理。

    原YOLO系統(tǒng)的網絡結構共包含22個卷積層,通過大量的實驗發(fā)現(xiàn),提取第8層卷積層的特征與輸出結合效果最好。在此基礎上,根據(jù)如上的改進思想,本文提出了二種改進方案:

    方案一:先卷積后下采樣,考慮到卷積后生成的特征圖經過采樣會丟掉一部分原有的信息,因此交換卷積層和下采樣層的順序,即在原YOLO網絡結構中的第8個卷積層后的下采樣層后再添加一個下采樣層,然后再接一個卷積層,這時的卷積后的輸出特征圖大小直接就為13*13,再與網絡最后的輸出相加作為整個系統(tǒng)最后的輸出。方案一的網絡結構如圖3所示。

    方案二:考慮到采樣對于特征圖信息的損失,在此方案中,仍然在第8層卷積層后的下采樣層添加一個卷積核大小為1*1,數(shù)量為30的卷積層,不再添加下采樣層,這時此卷積層的輸出特征圖大小為26*26。然后將原網絡的輸出特征圖大小由13*13調整為26*26與新添加層的輸出匹配,最后將這兩層的結果相加作為整個檢測系統(tǒng)的輸出。本文中將大小為13*13的特征圖調整為26*26所采用的方法為反卷積的方法[21]。方案二的網絡結構如圖4所示。

    圖3 方案一的網絡結構

    圖4 方案二的網絡結構

    其中Deconv Layer為反卷積層[14],目的是擴大特征圖的大小。

    3.2 網絡的訓練

    為了對比兩種網絡結構與原網絡結構的結果,在訓練中兩個方案與原網絡除網絡結構和訓練次數(shù)外,訓練過程以及其他訓練相關參數(shù)的設定都是相同的。

    3.2.1 網絡的預訓練

    本文所采用的預訓練模型與原YOLO系統(tǒng)的預訓練模型一致,都是在ImageNet上經過20萬次訓練的模型。

    3.2.2 訓練數(shù)據(jù)集處理

    訓練集采用正通煤礦副井底進車側的監(jiān)控視頻,經過轉換篩選共生成數(shù)據(jù)集11605張圖片。網絡的輸入是靜態(tài)二維的圖片信息,攝像頭采集到的視頻需要預先處理成格式化的圖片,以符合網絡輸入端的需求。

    首先對攝像頭采集到的原始圖片進行預處理,對其進行統(tǒng)一縮放到416*416像素,縮放之后對人體輪廓信息損失不大,但有效地減小了網絡的計算量,然后每張圖片都利用LabelImg工具進行人工標注,標注后每張圖片會生成對應xm l文件,深度網絡需要的數(shù)據(jù)量非常巨大,于是使用Data Augmentation[15]技術對圖片進行了擴增。

    數(shù)據(jù)集的構成采用VOC數(shù)據(jù)集分割的基本思想,將全部數(shù)據(jù)集的百分之五十設定為驗證集,剩下百分之五十中的一半設定為訓練集,另一半設定為測試集。所以最終的數(shù)據(jù)集分為驗證集共5800張圖片,測試集共2900張圖片,訓練集共2900張圖片。

    3.2.3 損失函數(shù)的設計

    網絡中最后一層的輸出負責預測目標種類的概率和范圍框的坐標和長寬。首先對范圍框的長寬與圖片的長寬進行歸一化處理,使得范圍框的長寬取值在0~1之間。同樣將范圍框中的坐標通過柵格的偏移也歸一化到了0~1之間。最后一層的激活函數(shù)選擇了線性激活函數(shù),其他層使用弱矯正函數(shù)作為激活函數(shù)(式(1))。最后使用誤差平方和的方式來優(yōu)化輸出的結果。

    選擇誤差平方和的原因是它簡單,但是用它無法達到最佳的檢測效果,因為把范圍框的位置誤差和類別誤差放到一起優(yōu)化本身就是不合理的。而且將圖片劃分為n*n的柵格后,有些柵格里不包含任何的目標,這些置信度為0的柵格的梯度更新的范圍會非常大,這樣就會以壓倒性的優(yōu)勢覆蓋掉包含物體的柵格梯度的更新,這就會導致模型非常不穩(wěn)定,而且有極大可能造成網絡的發(fā)散。

    圖5 大小范圍框敏感性曲線圖

    從上式可以看出,只有當柵格里存在待檢測目標時,才會對分類錯誤進行懲罰,也只有當某個范圍框對某個物體檢測負責的時候,才會對范圍框的位置參數(shù)進行懲罰。

    3.2.4 其他訓練參數(shù)的設定

    1)訓練次數(shù)的設定

    原網絡訓練了45000次,每次訓練8張圖片(batch size=8)??紤]到改進后網絡結構相比于原來更加復雜,所以方案一訓練了50000次,方案二訓練了60000次。

    2)學習率的設定

    學習率是負梯度的權重。在訓練中,學習率在開始時會選擇一個較小的值,因為若從較大的學習率開始,通常會因為其帶來的不穩(wěn)定的梯度導致模型發(fā)散。

    3)動量(momentum)的設定

    動量是上一次更新值的權重,它能夠使得網絡的權值更新更加平緩,使得學習過程更為穩(wěn)定、迅速。動量設定為0.9。

    3.3 測試網絡結果及對比分析

    搭建Caffe深度學習框架并配置好所有訓練參數(shù)后,開始網絡的訓練。本文所使用的GPU型號為GTX980ti,平均每個模型的訓練時間約為32h。訓練完成后,對每個模型進行測試,得到其mAP值,然后根據(jù)mAP值來做模型的效果對比。

    本文以VOC2007計算mAP為標準,當范圍框與真實值的IOU達到0.5以上,就認為是已經檢測出結果。表1為原YOLO與二種方案的mAP值對比。

    表1 mAP值對比

    由表1可看出,原YOLO在訓練到35000次左右開始收斂,最大的mAP值能夠達到0.818167。方案一的性能明顯比原YOLO好,其mAP值最高達到了0.906555,說明方案一的改進是有效的。方案二的mAP值最高,達到0.908375,方案二在精度上是所有方案里最高的。

    雖然精度上方案二最高,但是通過FPS對比可以發(fā)現(xiàn),原YOLO的FPS能夠達到50.2,由于方案二在原來的基礎上添加了一層網絡,其FPS能夠達到40.0,比原來的速度稍低,而方案二的網絡最為復雜,并且其中加入了反卷積,所以它的FPS只有6.2左右,這樣的速度是無法滿足實時檢測的。

    通過以上分析,在滿足實時檢測速度的前提下,本文選擇了方案一中mAP值最高的模型(訓練了47500次后的模型)作為整個井下行人檢測系統(tǒng)的最終神經網絡模型。圖6、圖7為此模型與原YOLO訓練次數(shù)為35000次在單張圖片上的檢測效果對比。

    圖6 原YOLO測試結果

    圖7 方案二測試結果

    4 結語

    本文通過結合煤礦企業(yè)井下行人檢測的需求與深度學習網絡的優(yōu)勢,提出了一種采用深度卷積神經網絡YOLO方法。本文對YOLO的網絡結構和損失函數(shù)進行了改進,雖然其檢測速度很快,但是其精度可以再提升。在后續(xù)的工作當中,應該將重點放在不損失速度的條件下,通過不斷的設計和實驗新模型,使得其精度能夠進一步提升。

    猜你喜歡
    網絡結構卷積神經網絡
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    神經網絡抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標跟蹤算法
    基于神經網絡的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    基于互信息的貝葉斯網絡結構學習
    知識網絡結構維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
    滬港通下A+ H股票網絡結構演化的實證分析
    復雜網絡結構比對算法研究進展
    復數(shù)神經網絡在基于WiFi的室內LBS應用
    阿拉善盟| 兴海县| 乃东县| 镇巴县| 霍林郭勒市| 廉江市| 盐源县| 尉犁县| 富锦市| 四子王旗| 高淳县| 霍山县| 济阳县| 历史| 张家口市| 鹿泉市| 会理县| 慈溪市| 翁源县| 澎湖县| 榆中县| 黄龙县| 中山市| 三穗县| 阳东县| 文山县| 河源市| 马山县| 和政县| 贞丰县| 广昌县| 报价| 若尔盖县| 定南县| 恩施市| 泰宁县| 革吉县| 青海省| 岳普湖县| 潮安县| 长顺县|