• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于特征金字塔SSD的行人檢測算法

      2021-12-23 07:21:52李福進孟路達
      關(guān)鍵詞:先驗行人卷積

      李福進,孟路達

      (華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063210)

      引言

      汽車在給人們帶來出行便利的同時,不僅帶來了交通擁堵問題,也帶來嚴峻的安全問題。全球每年有120萬人死于交通事故中,平均每25 s就有一人死于車禍。此外,無人駕駛技術(shù)逐漸走入人們的生活中,已經(jīng)成為目前最受關(guān)注的人工智能研究方向之一。無論從何種角度,無人駕駛技術(shù)都是一項充滿挑戰(zhàn)性的研究工作。在無人駕駛技術(shù)中,對行人檢測是尤其重要的板塊,與無人駕駛技術(shù)的安全性緊密相連[1]。由于現(xiàn)實生活中環(huán)境背景復(fù)雜多樣,場景光照強弱不一,行人之間相互遮擋等問題都是影響行人檢測的因素。在無人駕駛技術(shù)環(huán)境下,怎樣使得行人處于安全的環(huán)境下,是一項具有挑戰(zhàn)性的工作。目標(biāo)檢測是計算機視覺領(lǐng)域的一個重要發(fā)展方向,目標(biāo)檢測算法主要分為2類:一種是傳統(tǒng)的目標(biāo)檢測算法,對圖像中的每個區(qū)域進行特征提取,然后使用分類器對圖像進行分類的方法;另一種是不需人工提取設(shè)計特征的基于深度學(xué)習(xí)的目標(biāo)檢測算法[2]。

      自深度學(xué)習(xí)方法,尤其是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的興起,使得目標(biāo)檢測技術(shù)快速精準?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法可以分為2類;一類是基于候選區(qū)域的兩階段算法,以SPP-NET,FASTER-RCNN為代表,首先提取候選區(qū)域,再進行分類和定位,這種算法檢測精度高,但是檢測速度較慢;另一類是基于回歸的一階段目標(biāo)檢測算法,以YOLO[3],SSD[4]為代表,該算法直接輸出邊界框的位置及其類別,這種算法檢測速度快,可以達到實時檢測的目的,但精度略低。

      為了調(diào)高SSD算法在無人駕駛行人檢測中的精度與速度,使用MobileNet[5]代替VGG-16網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),減小模型體積,顯著降低了計算量,提高檢測速度。該研究加入特征金字塔結(jié)構(gòu)[6],使各個特征層之間信息流動,增強語義信息,從而提高檢測精度。

      1 SSD網(wǎng)絡(luò)

      1.1 網(wǎng)絡(luò)結(jié)構(gòu)

      SSD目標(biāo)檢測算法是一種典型的直接通過回歸的單階段目標(biāo)檢測算法,識別網(wǎng)絡(luò)為VGG-16網(wǎng)絡(luò),將VGG-16網(wǎng)絡(luò)中的全連接層改為卷積層,并添加4層具有不同感受野的卷積特征圖,在這些特征層中獲取不同大小和長寬比例的先驗框(default box),類似于Faster R-CNN的anchors機制,然后預(yù)測先驗框中目標(biāo)的種類與位置。

      SSD算法采用難樣本挖掘方式(hard negative mining)過濾多余的負樣本框,使正負樣本比例接近3:1,保持樣本平衡,然后利用卷積層提取特征后直接進行分類和回歸,最后使用非極大值抑制法對冗余的檢測框進行剔除。

      1.2 先驗框生成與匹配原則

      由于卷積神經(jīng)網(wǎng)絡(luò)不同層有著不同的感受野,也就是每個特征圖上每一個單元對應(yīng)輸入圖像的尺寸大小不同。假設(shè)用m個特征圖做預(yù)測,每個特征圖會設(shè)置6個大小不同的錨框,如圖1所示,則每個特征圖中錨框大小計算公式如下:

      圖1 錨框設(shè)置原理圖

      (1)

      其中,Smin取為0.2,Smax取為0.9,表示最小尺度為0.2,最大尺度為0.9。錨框的高度與寬度計算公式為:

      (2)

      其中,ar∈{1,2,3,1/2,1/3},是錨框的寬高比。當(dāng)ar=1時,額外添加了一個默認框,其尺寸為:

      (3)

      匹配原則如下:

      (1)每個真值框和初始框的交并比(IOU)最大的先驗框進行匹配。與真值框匹配的先驗框,稱為正樣本,反之稱為負樣本。通常一幅圖片中的目標(biāo)非常少,所以真值框很少,但是先驗框又很多,負樣本相對正樣本會很多,極其不平衡。

      (2)未匹配的先驗框,真值框與某個先驗框的IOU大于某個閾值,則匹配。為了正負樣本比例接近1∶3,采用難樣本挖掘方式濾掉多余負樣本。

      1.3 SSD局限性

      SSD網(wǎng)絡(luò)中利用多尺度特征圖預(yù)測目標(biāo)檢測,但如果想要保障檢測的性能,需要使每一層特征圖都必須足夠復(fù)雜,才能檢測和精準定位行人。為此,可以通過引入特征金字塔方式,使各特征層信息流動,豐富語義信息,從而更精準地檢測行人。

      2改進的SSD網(wǎng)絡(luò)

      2.1 網(wǎng)絡(luò)結(jié)構(gòu)

      如圖2所示改進的SSD網(wǎng)絡(luò)使用MobileNet作為主干網(wǎng)絡(luò),圖3是分解過程示意圖。

      圖2 改進的SSD網(wǎng)絡(luò)結(jié)構(gòu)圖

      圖3 深度可分離卷積示意圖

      圖2中改進的SSD網(wǎng)絡(luò)使用MobileNet作為主干網(wǎng)絡(luò)。MobileNet模型是基于深度可分解的卷積,將標(biāo)準卷積分解成一個深度卷積和一個點卷積(1×1卷積核)。圖3中標(biāo)準卷積輸入P的維度是(DP,DP,M),標(biāo)準卷積核K(DK,DK,M,N)則得到輸出G的維度(DG,DG,N),則計算量為DK·DK·M·DP·DP·N?,F(xiàn)在將卷積核進行分解,首先對各個通道進行卷積操作,對得到的輸出再進行1×1的卷積。計算量為DK·DK·M·DF·DF + M·N·DP·DP,計算量大大減少,為原來的1/D2K+1/N。

      2.2 特征金字塔

      在SSD網(wǎng)絡(luò)特征層中進行預(yù)測時,淺層特征層的目標(biāo)空間位置更豐富,深層特征層的語義信息更豐富。為更精準地檢測行人,因此引入特征金子塔結(jié)構(gòu)。如圖4所示,左側(cè)是從圖2中選取的6種尺寸(1,1)、(3,3)、(5,5)、(10,10)、(19,19)和(38,38)的特征層組成自上向下金子塔結(jié)構(gòu)。將語義信息更豐富的高層特征圖上采樣,保證與下一特征圖大小相同,再經(jīng)過1×1的卷積核,將通道數(shù)升為512,提高檢測結(jié)果,然后將相鄰特征圖融合,從而生成新的特征圖,使信息更加充分,便于檢測,最后送入softmax層進行預(yù)測分類與回歸。

      圖4 特征金字塔結(jié)構(gòu)

      2.3 損失函數(shù)

      訓(xùn)練過程中總的目標(biāo)損失函數(shù)是由用于分類的損失Lconf用于回歸的損失Lloc加權(quán)和??傮w損失函數(shù)公式:

      (4)

      位置損失函數(shù)如下:

      (5)

      (6)

      (7)

      置信度損失函數(shù)公式如下:

      (8)

      3實驗

      3.1 數(shù)據(jù)增強

      數(shù)據(jù)增強是指通過平移、反轉(zhuǎn)等手段從現(xiàn)有數(shù)據(jù)中產(chǎn)生新數(shù)據(jù)的方法。具體進行以下操作:

      (1)輸入原視圖像;

      (2)采用一個圖像塊,使其與目標(biāo)有不同的重疊比;

      (3)隨機抽取一個圖像塊;

      (4)每個抽取的圖像塊設(shè)置為固定大小314×314,并以0.5的概率隨機水平翻轉(zhuǎn)。

      3.2 平臺搭建

      實驗配置為:intel i7-8700CPU,64位Ubuntu16.04 LTS操作系統(tǒng),Nvidia GeforceGTX1060GPU,實驗框架為Tensorflow深度學(xué)習(xí)框架。為檢測算法的性能,該項研究使用PASCAL VOC2007和MSCOCO數(shù)據(jù)集進行訓(xùn)練和測試,其中VOC數(shù)據(jù)集包括4個大類,20種小類別的目標(biāo)。MSCOCO數(shù)據(jù)集包括80種類的目標(biāo)。

      該項研究將已經(jīng)訓(xùn)練好的SSD模型作為預(yù)訓(xùn)練模型,使用隨機梯度下降算法更新參數(shù),在訓(xùn)練集上迭代8萬步,設(shè)置初始學(xué)習(xí)率為0.001,權(quán)值衰減項為0.000 5,動量項為0.9。

      圖5為訓(xùn)練過程中的損失函數(shù)值,通過曲線可以看到在起始階段,網(wǎng)絡(luò)損失值偏高,隨著迭代次數(shù)的增加,經(jīng)改進的SSD網(wǎng)絡(luò)在迭代次數(shù)為4萬次時趨于收斂,改進的SSD網(wǎng)絡(luò)保持收斂性能,魯棒性能較強,未發(fā)生過擬合現(xiàn)象。

      圖5 訓(xùn)練過程中損失函數(shù)值

      3.3 PASCAL VOC2007

      使用VOC2007訓(xùn)練集訓(xùn)練提出的模型。設(shè)置bachisize為16,再前50K次迭代中,學(xué)習(xí)率為0.001,接著以0.000 1和0.000 01的學(xué)習(xí)速率各訓(xùn)練30K次。

      訓(xùn)練結(jié)束后,在PASCAL VOC2007測試集(4 950張圖片)上進行測試(IOU=0.5),行人檢測的P-R曲線如圖6所示,由圖6中可以看出,隨著召回率的升高,精確度整體上要高于傳統(tǒng)SSD算法。

      圖6 行人的P-R曲線對比

      VOC2007數(shù)據(jù)集上測試結(jié)果如表1所示,傳統(tǒng)的SSD網(wǎng)絡(luò)在不同層的特征圖進行預(yù)測,特征沒有融合,信息語義缺乏,檢測精度低。該項研究加入特征金字塔,高底層間信息流動,檢測精度比傳統(tǒng)SSD提高了8.3%。并且使用70 000張圖片測試實驗實時性,計算fps。將MobileNet作為SSD主干網(wǎng)絡(luò),減少模型體積,在提高檢測精度的同時,加快了檢測速度。

      表1 PASCAL VOC 2007檢測結(jié)果(顯卡:GTX1060)

      3.4 MS COCO

      為進一步驗證該項研究方法的可行性,在COCO數(shù)據(jù)集上進行訓(xùn)練,并從驗證集隨機抽取5 000張行人圖像作為測試集對模型進行評估。不同IOU閾值下檢測進度如表2所示。

      表2 COCO數(shù)據(jù)集檢測結(jié)果

      從表2中可以看出,該實驗方法要比SSD在各個閾值下的精度都要有所提高,閾值為0.5時,平均精度提升5.2%;閾值為0.7時,平均精度提升4.2%;閾值為0.9時,平均精度提升2.5%。閾值為0.5~0.9時平均精度提升4.4%。

      4結(jié)論

      使用基于深度可分解卷積的MobileNet代替?zhèn)鹘y(tǒng)的VGG-16網(wǎng)絡(luò)作為SSD的主干網(wǎng)絡(luò)提取特征,減小模型體積,顯著降低了計算量,引入特征金字塔結(jié)構(gòu),增加特征層的復(fù)雜程度,豐富特征層信息,在PASCAL VOC2007和MS COCOD的實驗表明,實驗方法比SSD檢測算法檢測更加精準、快速,在無人駕駛技術(shù)環(huán)境下,為行人的安全性提供了更好的保障。

      猜你喜歡
      先驗行人卷積
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      路不為尋找者而設(shè)
      揚子江(2019年1期)2019-03-08 02:52:34
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      我是行人
      基于自適應(yīng)塊組割先驗的噪聲圖像超分辨率重建
      基于平滑先驗法的被動聲信號趨勢項消除
      先驗的廢話與功能的進路
      将乐县| 隆化县| 松溪县| 盈江县| 永昌县| 永济市| 闸北区| 新郑市| 会理县| 腾冲县| 甘洛县| 麻栗坡县| 二手房| 丰台区| 星座| 西乌| 普定县| 美姑县| 禹城市| 富锦市| 大宁县| 丰原市| 天祝| 金山区| 高清| 泸州市| 义乌市| 孝义市| 甘泉县| 仙游县| 固原市| 花垣县| 闻喜县| 绥滨县| 大姚县| 友谊县| 天台县| 丁青县| 南木林县| 云林县| 闵行区|