• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于YOLOv4的車輛與行人檢測網(wǎng)絡設計

    2023-05-31 09:13:50譚光興岑滿偉蘇榮鍵
    計算機仿真 2023年4期
    關鍵詞:尺度卷積深度

    譚光興,岑滿偉,蘇榮鍵

    (廣西科技大學電氣與信息工程學院,廣西 柳州 545616)

    1 引言

    隨著機器視覺和人工智能的不斷發(fā)展,自動駕駛技術已成為當今汽車發(fā)展的研究熱點,其中前方道路的障礙物檢測技術是自動駕駛汽車所面臨的挑戰(zhàn)。車輛和行人是汽車正常行駛時前方常見的障礙物,實現(xiàn)對車輛和行人的準確且實時檢測已成為目標檢測技術領域的研究熱點[1]。考慮到設備平臺資源有限,目標檢測系統(tǒng)不宜占用較大內(nèi)存,要求檢測系統(tǒng)輕量、實時且精準。

    如今,基于深度學習的目標檢測算法不斷發(fā)展,已經(jīng)成為對車輛和行人檢測主流的方法,主要分為two-stage和one-stage兩種目標檢測網(wǎng)絡。two-stage目標檢測網(wǎng)絡主要是基于侯選區(qū)域的檢測算法,Girshick等[2]最早提出R-CNN網(wǎng)絡,先產(chǎn)生侯選區(qū)域,再對侯選區(qū)域進行分類和回歸。之后提出Fast-RCNN[3],使用感興趣區(qū)域池化結構對候選區(qū)域進行尺度同一化以及引入多任務損失函數(shù),提升網(wǎng)絡性能。Girshick等[4]基于區(qū)域侯選網(wǎng)絡結構,再次提出Faster-RCNN網(wǎng)絡。He等[5]提出Mask-RCNN算法,通過引入Mask分支和RoIAlign結構,取得較好地檢測能力。雖然two-stage目標檢測網(wǎng)絡精度高,但檢測速度相對較慢,實時性較差。one-stage目標檢測網(wǎng)絡是基于回歸思想,采用端到端的檢測方法,直接產(chǎn)生目標物的位置坐標和類別概率。Redmon等[6]提出YOLOv1算法,將整張圖像送入網(wǎng)絡訓練,在輸出層完成對目標物的分類和定位,檢測速度得到提升。Liu等[7]提出SSD算法,引入先驗框進行回歸,并結合多尺度特征來提高目標物的檢測能力。Redmon等[8]提出YOLOv2算法,使用K-Means聚類出先驗框進行檢測。隨后再次提出YOLOv3[9],采用Darknet-53作為主干網(wǎng)絡,采用特征金字塔結構,融合多尺度特征進行檢測。Bochkovskiy等[10]提出YOLOv4算法,該網(wǎng)絡匯集目前主流的優(yōu)化技巧以及復雜的網(wǎng)絡結構,能夠精準地檢測目標物,在YOLO系列算法中較為先進的。但是YOLOv4網(wǎng)絡參數(shù)量和模型體積龐大,占用較大內(nèi)存,難以在運算能力較弱的嵌入式設備實時地檢測目標物。

    在設備計算資源有限的情況下,目標檢測網(wǎng)絡需要綜合考慮檢測精度和檢測速度兩者問題。針對YOLOv4的不足之處,本文對其算法進行輕量化,用MobileNetV1輕量化網(wǎng)絡替換主干網(wǎng)絡,進一步將網(wǎng)絡中的標準卷積替換為深度可分離卷積,減少模型參數(shù)量;為彌補精度損失的降低,構建與各預測層特點相適應的特征增強模塊,借助跨深度卷積和空洞卷積結構來改善各預測層對車輛和行人尺度變化的適應能力。改進后的MobileNetV1-YOLOv4網(wǎng)絡模型具有參數(shù)量少、體積小、速度快的優(yōu)點,在精度上有一定地提升,提高了對小目標的檢測能力。

    2 網(wǎng)絡模型分析

    2.1 YOLOv4網(wǎng)絡結構

    YOLOv4[10]網(wǎng)絡結構可以看成四個模塊組成:特征提取模塊、空間金字塔池化模塊、路徑聚合網(wǎng)絡模塊以及預測模塊。相比YOLOv3的Darknet53主干網(wǎng)絡,YOLOv4融入交叉階段部分連接(Cross State Partial, CSP)[11],設計出CSPDarknet53特征提取結構,增強網(wǎng)絡學習能力,也降低計算復雜度。加入空間金字塔池化模塊(Spatial Pyramid Pooling, SPP)[12],融合局部和全局特征,增大網(wǎng)絡感受野;為改善深層網(wǎng)絡丟失淺層網(wǎng)絡信息的問題,引入路徑聚合網(wǎng)絡(Path Aggregation Network, PANet)[13];預測模塊結構上沒有變化,依舊采用Yolo Head1、Yolo Head2、Yolo Head3檢測頭對不同尺度進行預測,得出最后的類別、置信度和預測邊框信息。以輸入尺寸為416×416,目標類別數(shù)為20的YOLOv4網(wǎng)絡結構如圖1所示。

    圖1 YOLOv4網(wǎng)絡結構

    在損失函數(shù)方面,YOLOv4使用CIOU作為目標邊界框回歸損失函數(shù),避免出現(xiàn)預測框和真實框沒有重疊部分而無法優(yōu)化IOU損失的問題。CIOU綜合考慮預測框和真實框的重疊面積、中心點距離以及長寬比,優(yōu)化預測框回歸精度和速度,損失函數(shù)如式(1)所示

    (1)

    其中

    (2)

    (3)

    式中的p2(b,bgt)表示為預測框的中心點b與真實框的中心點bgt的歐氏距離,c表示為包圍真實框和預測框的最小外接矩形的對角線距離。α是用來協(xié)調(diào)比例參數(shù),υ是用來衡量長寬比一致性的參數(shù),wgt、hgt表示真實框的寬高,w、h表示預測框的寬高。

    2.2 MobileNet網(wǎng)絡結構

    MobileNet[14]是考慮專門將網(wǎng)絡模型使用在嵌入式設備或者移動設備上,所提出的一種輕量化的網(wǎng)絡模型,其核心思想是采用深度可分離卷積結構。相比標準卷積,深度可分離卷積結構主要分為深度卷積(Depthwise Convolution)結構和點卷積(Pointwise Convolution)結構。深度卷積(DW)對輸入特征的每個通道分別用卷積核進行卷積,大幅度地減少卷積計算量;點卷積(PW)通過1×1卷積核整合深度卷積后的特征圖信息,使每張的輸出特征圖信息都能包含每張輸入特征圖信息。標準卷積和深度可分離卷積的結構對比如圖2所示。

    圖2 標準卷積和深度可分離卷積的結構

    圖2中DK和1為卷積核的尺寸大小,M和N分別為網(wǎng)絡的輸入通道數(shù)和輸出通道數(shù),通過圖2的結構對比,能夠計算出標準卷積的參數(shù)量為DK×DK×M×N,深度可分離卷積的參數(shù)量為DK×DK×1×M+1×1×M×N。由此可知深度可分離卷積和標準卷積的參數(shù)量之比為:

    (4)

    表1 MobileNetV1網(wǎng)絡結構

    3 改進的MobileNetV1-YOLOv4算法設計

    3.1 模型輕量化設計

    針對YOLOv4網(wǎng)絡參數(shù)量過多、模型體積龐大,占用較大內(nèi)存的問題,本文提出基于MobileNetV1-YOLOv4的車輛和行人檢測網(wǎng)絡,采用深度可分離卷積思想對模型進行輕量化。本文首先采用MobileNetV1來作為YOLOv4的主干網(wǎng)絡,初步模型記為MobileNetV1-YOLOv4a,之后再進行深度網(wǎng)絡輕量化,即將PANet和Yolo Head結構中的3×3標準卷積替換成為深度可分離卷積,模型記為MobileNetV1-YOLOv4。將YOLOv4和兩種輕量化模型進行參數(shù)比較,統(tǒng)一輸入尺寸為416×416×3,在本文中檢測對象具體為為Car、Bus、Motorbike、Bicycle、Person,所以類別數(shù)為5,對比結果如表2所示。

    表2 模型參數(shù)對比

    由表2可知,YOLOv4模型在參數(shù)量和模型體積方面都十分龐大。通過對比后兩者模型可以發(fā)現(xiàn),僅使用MobileNetV1作為主干網(wǎng)絡,網(wǎng)絡參數(shù)量和模型體積就減少很多; 而進一步深度網(wǎng)絡輕量化的模型在參數(shù)量和模型體積上大幅度較少,體積為46.88MB,參數(shù)量為12.28Million,相比YOLOv4模型,在參數(shù)量和體積上減少80.80%。因此,在整個YOLOv4網(wǎng)絡模型中,本文將深層網(wǎng)絡中的所有標準卷積全部替換成深度可分離卷積,構建MobileNetV1-YOLOv4網(wǎng)絡。

    3.2 特征增強模塊

    為提高對車輛和行人尺度變化的魯棒性,增大特征圖的感受野,提高網(wǎng)絡對目標的檢測能力,本文對MobileNetV1-YOLOv4進行改進,在預測層前引入特征增強模塊,取消SPP模塊以及之后的Concat結構,減少模型參數(shù)量。借鑒RFB模塊的空洞卷積思想,利用不同大小和數(shù)量的標準卷積以及不同膨脹率的空洞卷積,構建多支路、多層卷積并行的特征增強模塊,增強語義信息,幫助預測層提高對目標不同尺度的檢測能力,同時提高對小目標的檢測能力。

    對于13×13尺度的特征增強模塊1,建立四條輸入通路和一條跨連接通路Shortcut,每條通路使用1×1卷積核將輸入通道數(shù)從1024降維成256;其次每個通道采用不同數(shù)量和大小的卷積核進行跨深度卷積;接著分別經(jīng)過膨脹率為1、2、3、5的空洞卷積,使每個通路獲得不同的感受野大小,最后級聯(lián)各支路,通道數(shù)仍為1024,豐富了語義特征信息,提高13×13尺度預測層對大目標的檢測能力。為降低參數(shù)量,提高網(wǎng)絡檢測速度,將3×3和5×5卷積核拆分成3×1、1×3和1×5、5×1的卷積核。特征增強模塊1結構如圖3所示。

    圖3 特征增強模塊1結構

    26×26尺度的預測層是檢測中間尺度的目標,在特征增強模塊2中,采用了較小膨脹率的空洞卷積,第三、四通路使用3×1、1×3和1×3、3×1不同順序的條形卷積,避免重復性地提取特征,同時條形卷積結構對車輛和行人檢測更加敏感,其結構如圖4所示。

    圖4 特征增強模塊2結構

    52×52尺度的預測層是主要是檢測小目標的,該層擁有邊緣、顏色等語義信息。考慮到淺層網(wǎng)絡增大感受野會降低檢測小目標的能力[15],本文設置膨脹率都為1,通過階梯狀的卷積層來提高淺層語義信息,增強網(wǎng)絡特征表征力,其結構如圖5所示。

    圖5 特征增強模塊3結構

    考慮特征增強模塊加入不同的位置是否對檢測精度有影響,做了對比實驗。分別考慮將特征增強模塊加入在PANet網(wǎng)絡前和網(wǎng)絡后,對比網(wǎng)絡的模型體積和檢測精度的高低,結果如表3所示。

    表3 加入不同位置的特征增強模塊實驗對比

    由表3可知,針對本文的車輛和行人檢測,將特征增強模塊融入到PANet網(wǎng)絡后,精確度更高。故本文將三個特征增強模塊分別融入到三個預測層前,改進的網(wǎng)絡模型結構如圖6所示,其中DW+PW為深度可分離卷積模塊,其余網(wǎng)絡中卷積核為3×3的標準卷積已經(jīng)全部替換成深度可分離卷積。

    圖6 改進后的網(wǎng)絡模型結構

    4 實驗分析

    4.1 實驗數(shù)據(jù)及環(huán)境配置

    本文研究對象為Car、Bus、Motorbike、Bicycle、Person。實驗所采用的訓練數(shù)據(jù)是PASCAL VOC 2007和VOC 2012的train+val數(shù)據(jù)集,考慮Bus、Motorbike、Bicycle對象在VOC數(shù)據(jù)集中樣本較少,從COCO2014數(shù)據(jù)集中選取了部分,然后轉(zhuǎn)換為VOC格式。測試數(shù)據(jù)采用VOC2007test數(shù)據(jù)集,選取符合要求的車輛和行人數(shù)據(jù),共有2734張圖片。訓練數(shù)據(jù)集總共8937張,標注對象共有24715個。在實驗數(shù)據(jù)加載階段,統(tǒng)一輸入尺寸為416×416,對讀取的圖片進行數(shù)據(jù)增強的隨機預處理,如圖片翻轉(zhuǎn)、縮放或色域變換等,豐富數(shù)據(jù)。

    本實驗在PC機Win10系統(tǒng)下進行操作,深度學習框架為Pytoch1.2,編程語言為Python3.7。在CPU為Inter(R) Xeon(R) Gold 6130,內(nèi)存為32G, GPU為NVIDIA RTX 2080Ti的服務器對網(wǎng)絡進行訓練。

    4.2 實驗結果分析

    本次實驗使用精度評價指標AP(Average Precision )、mAP(Mean Average Precision)、模型體積以及網(wǎng)絡推理速度評價指標FPS(frame per second)來對網(wǎng)絡性能進行評估。其中AP值代表某一類目標的平均分類精確率,mAP是對本文五個類別的AP求均值,稱作為平均精確率均值。為驗證本文算法的檢測能力,與Faster-RCNN、YOLOv4、MobileNetV1-YOLOv4網(wǎng)絡進行對比,其中Faster-RCNN輸入尺寸為1000×600,其余網(wǎng)絡輸入尺寸為416×416,在NVIDIA GTX1080的GPU上,對比目標精度AP、模型體積、檢測速度FPS、平均精準率均值mAP,結果如表4和表5所示。

    表4 算法對車輛和行人的檢測AP結果(%)

    表5 算法對模型大小、FPS、mAP檢測結果

    由表4和表5可知, MobileNetV1-YOLOv4網(wǎng)絡相比Faster-RCNN網(wǎng)絡有著較高的檢測精度,相比YOLOv4網(wǎng)絡,雖然目標檢測精度略有降低,但模型大小減少了80.79%,檢測速度提升近1.22倍,表明深度可分離卷積模塊在精度損失較小的情況下,能大幅度降低網(wǎng)絡參數(shù)量,提升網(wǎng)絡的目標檢測速度。本文在MobileNetV1-YOLOv4算法基礎上進一步改進,在預測層網(wǎng)絡前加入三個與不同尺度特點相適應的特征增強模塊。在單類別目標上的檢測精度均得到提升,mAP為86.32%,相比改進前的網(wǎng)絡mAP提高1.29%,表明特征增強模塊能增強語義信息,有效提高對車輛和行人的檢測能力;模型大小進一步減小,僅為45.28MB,相比YOLOv4模型體積減少為81.44%;檢測速度為44FPS,相比YOLOv4網(wǎng)絡提升91.30%。改進后的網(wǎng)絡在檢測速度和模型體積方面優(yōu)于YOLOv4模型,檢測精度優(yōu)于改進前的MobileNetV1-YOLOv4網(wǎng)絡,故本文算法更符合設備平臺對目標檢測精度和速度的綜合要求。

    將MobileNetV1-YOLOv4網(wǎng)絡和本文算法對實際場景中的車輛和行人檢測結果進行對比,如圖7所示。圖7的左邊一列是MobileNetV1-YOLOv4檢測結果,右邊一列是本文算法的檢測結果。通過實驗對比發(fā)現(xiàn),MobileNetV1-YOLOv4在道路環(huán)境下漏檢了尺度較小的車輛和行人,而本文算法通過特征增強后能夠檢測出較小目標,精度得到提升且定位更準確,體現(xiàn)出本文算法精度高以及對車輛和行人尺度變化有較好的魯棒性。

    圖7 MobileNetV1-YOLOv4與本文算法對比

    5 結語

    考慮在計算資源有限的設備平臺上,需要兼顧目標檢測精度和檢測速度兩方面,因此本文提出了一種融入特征增強模塊的MobileNetV1-YOLOv4車輛和行人檢測網(wǎng)絡。將YOLOv4網(wǎng)絡模型中的主干網(wǎng)絡替換成MobileNetV1,對路徑聚合網(wǎng)路和預測層網(wǎng)絡進行輕量化,使得參數(shù)量和模型體積大幅度減少,相比YOLOv4網(wǎng)絡,模型推理速度得到大幅度提升。在MobileNetV1-YOLOv4網(wǎng)絡的三個預測層前,分別加入與不同尺度特點相適應的特征增強模塊,利用跨深度卷積和空洞卷積結構,能夠充分利用多尺度信息,豐富網(wǎng)絡深度語義信息,構造出不同大小的感受野,提高網(wǎng)絡的檢測性能和適應目標尺度變化的能力。實驗結果表明,本文算法相比MobileNetV1-YOLOv4原網(wǎng)絡在檢測速度損失較少的情況下,檢測精度提高1.29%,提高了對小目標的檢測性能,對尺度變化大的目標具有較好的魯棒性,滿足實時高效的檢測要求。

    猜你喜歡
    尺度卷積深度
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    深度理解一元一次方程
    財產(chǎn)的五大尺度和五重應對
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    深度觀察
    深度觀察
    深度觀察
    基于傅里葉域卷積表示的目標跟蹤算法
    宇宙的尺度
    太空探索(2016年5期)2016-07-12 15:17:55
    9
    永城市| 特克斯县| 航空| 马关县| 奇台县| 高雄市| 清徐县| 珲春市| 光山县| 逊克县| 隆化县| 宁城县| 大化| 工布江达县| 崇仁县| 呼图壁县| 青铜峡市| 措勤县| 敦化市| 马鞍山市| 南昌县| 江永县| 鄂托克旗| 天台县| 七台河市| 滨海县| 仁布县| 开化县| 上饶市| 宝应县| 上栗县| 庆元县| 泽普县| 观塘区| 西丰县| 叙永县| 鹤岗市| 惠安县| 湘阴县| 梧州市| 浦北县|