• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      嵌入注意力機(jī)制的輕量級(jí)鋼筋檢測(cè)網(wǎng)絡(luò)

      2022-09-25 08:43:08李姚舜劉黎志
      計(jì)算機(jī)應(yīng)用 2022年9期
      關(guān)鍵詞:注意力鋼筋預(yù)測(cè)

      李姚舜,劉黎志

      (智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室(武漢工程大學(xué)),武漢 430205)

      0 引言

      隨著大數(shù)據(jù)和人工智能(Artificial Intelligence,AI)技術(shù)的廣泛應(yīng)用,社會(huì)各領(lǐng)域均向著智慧化方向發(fā)展,例如“智慧城市”“智慧圖書館”“智慧工地”等[1],其中的理念就是將現(xiàn)有的機(jī)器人、大數(shù)據(jù)、人工智能等高新技術(shù)植入到工業(yè)設(shè)備中。

      目標(biāo)檢測(cè)是一種常見的工業(yè)場(chǎng)景分析模塊,隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)被廣泛研究。近年來,基于錨點(diǎn)(Anchor)框的Anchor-Based 檢測(cè)器已成為目標(biāo)檢測(cè)的主流。一些基于RPN(Region Proposal Network)的二階段目標(biāo)檢測(cè)框架,如RCNN(Region-CNN)[2]、Fast R-CNN(Fast Region-CNN)[3]、Faster R-CNN(Faster Region-CNN)[4]和Mask RCNN(Mask Region-CNN)[5]不斷更新目標(biāo)檢測(cè)的最高精度,但這些方法必須依賴強(qiáng)大的GPU 算力。隨后出現(xiàn)了SSD(Single Shot MultiBox Detector)[6]、DSSD(Deconvolutional Single Shot Detector)[7]、YOLO(You Only Look Once)系列[8-11]、RetinaNet[12]等一階段的模型,由于其檢測(cè)速度可以同時(shí)滿足靜態(tài)圖片及實(shí)時(shí)視頻需要,在業(yè)界應(yīng)用十分廣泛。盡管如此,它們?nèi)匀恍枰罅康挠?jì)算開銷和運(yùn)行內(nèi)存來保持良好的檢測(cè)性能。

      隨著FPN(Feature Pyramid Network)[13]和Focal Loss[12]的提出,學(xué)術(shù)界的注意力轉(zhuǎn)向到Anchor-Free 的檢測(cè)方法。Anchor-Free 檢測(cè)器取消了Anchor 框的設(shè)置,將目標(biāo)檢測(cè)看作對(duì)象關(guān)鍵點(diǎn)的預(yù)測(cè)。通常包括兩種檢測(cè)方法:一種是首先定位幾個(gè)預(yù)定義的或自學(xué)習(xí)的關(guān)鍵點(diǎn),然后綁定對(duì)象的空間范圍,這種檢測(cè)器稱為基于關(guān)鍵點(diǎn)的檢測(cè)方法[14-16];另一種使用對(duì)象的中心點(diǎn)或區(qū)域來定義目標(biāo)范圍,然后預(yù)測(cè)中心點(diǎn)到對(duì)象邊界的4 個(gè)距離,這種檢測(cè)器稱為基于中心點(diǎn)的檢測(cè)方法[17-18]。Anchor-Free 檢測(cè)器消除了與Anchor 相關(guān)的超參數(shù),簡(jiǎn)化了編碼過程,通過一定的訓(xùn)練可以取得與Anchor-Based 檢測(cè)器相似的性能,在泛化能力方面更具潛力;但是Anchor-Free 檢測(cè)器訓(xùn)練時(shí)間長(zhǎng)、訓(xùn)練過程不穩(wěn)定,并且在檢測(cè)精度上仍然有一定的瓶頸,無法較好地應(yīng)用在生產(chǎn)和實(shí)踐過程中。

      雖然神經(jīng)網(wǎng)絡(luò)模型在各領(lǐng)域都取得了不錯(cuò)的進(jìn)展,但是人們發(fā)現(xiàn)其在實(shí)踐中經(jīng)常有難以預(yù)測(cè)的錯(cuò)誤,這對(duì)于要求可靠性較高的系統(tǒng)很危險(xiǎn)[19],因此引起了對(duì)神經(jīng)網(wǎng)絡(luò)可解釋性的關(guān)注。Itti 等[20]提出了圖像的顯著性圖,在此基礎(chǔ)上發(fā)展而來的顯著性目標(biāo)檢測(cè),通過輸出不同網(wǎng)絡(luò)層的顯著性圖,可以看到神經(jīng)網(wǎng)絡(luò)關(guān)注的圖像位置,從而解釋了神經(jīng)網(wǎng)絡(luò)為什么能看到目標(biāo)[21-22]。此外,注意力機(jī)制(Attention Mechanism)也可提高神經(jīng)網(wǎng)絡(luò)的可解釋性,近幾年來在圖像、自然語言處理等領(lǐng)域中,注意力機(jī)制都取得了重要的突破,有益于提高模型的性能。Hu 等[23]提出的SENet(Squeezeand-Excitation Network)成功地將注意力機(jī)制應(yīng)用到了計(jì)算機(jī)視覺領(lǐng)域,贏得了最后一屆ImageNet 2017 競(jìng)賽分類任務(wù)的冠軍。Li 等[24]將軟注意力機(jī)制融合進(jìn)網(wǎng)絡(luò)提出了SKNet(Selective Kernel Network),使網(wǎng)絡(luò)可以獲取不同感受野的信息,提高了網(wǎng)絡(luò)的泛化能力。在后續(xù)的研究過程中,Woo等[25]提出了一種輕量的注意力模塊CBAM(Convolutional Block Attention Module),該模塊在通道和空間維度上進(jìn)行注意力權(quán)重推測(cè),相比SENet 只關(guān)注通道的注意力機(jī)制可以取得更好的效果。Vaswani 等[26]在2017 年首次提出了基于自注意力的Transformer 模型,使用編碼器和解碼器的堆疊自注意層和點(diǎn)向全連接層,并使用注意力替換了原來Seq2Seq 模型中的循環(huán)結(jié)構(gòu),避免了重復(fù)和卷積。Parmar 等[27]把Transformer 模型推廣到具有易于處理的似然性的圖像生成序列建模公式中,最先使用完整的Transformer 做圖像生成的工作。Dosovitskiy 等[28]提出了ViT(Vision Transformer),將純Transformer 模型直接應(yīng)用于圖像輸入,驗(yàn)證了基于Transformer 的體系結(jié)構(gòu)可以在基準(zhǔn)分類任務(wù)上取得有競(jìng)爭(zhēng)力的結(jié)果。Carion 等[29]提出了一種用于目標(biāo)檢測(cè)的DETR(DEtection TRansformer)模型,將目標(biāo)檢測(cè)任務(wù)視為一種圖像到集合的問題。給定一張圖像,模型必須預(yù)測(cè)所有目標(biāo)的無序集合,每個(gè)目標(biāo)基于類別表示,并且周圍各有一個(gè)緊密的邊界框。在定位圖像中的目標(biāo)以及提取特征時(shí),相比傳統(tǒng)的計(jì)算機(jī)視覺模型,DETR 使用更為簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),提供了一個(gè)真正的端到端深度學(xué)習(xí)解決方案。與DETR 范式不同,Beal 等[30]將ViT 與RPN 進(jìn)行結(jié)合,即將CNN 主干替換為Transformer,組成 ViT-FRCNN(Vision Transformer-Faster Region-CNN),用于處理復(fù)雜的視覺任務(wù)(例如目標(biāo)檢測(cè))。上述基于注意力機(jī)制的目標(biāo)檢測(cè)框架,雖然達(dá)到了一定的檢測(cè)效果,但在檢測(cè)小目標(biāo)和檢測(cè)精度上與其他的CNN 框架還有一定的差距,框架中包含的全連接結(jié)構(gòu)使網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量大幅增加,不僅增加了訓(xùn)練難度,同時(shí)還大幅降低了檢測(cè)速度,因此暫時(shí)無法部署到實(shí)際生產(chǎn)過程中。

      在智慧工地的應(yīng)用中,有一項(xiàng)必不可少的工作就是鋼筋數(shù)量檢測(cè),由于鋼筋本身價(jià)格較昂貴,且在實(shí)際使用中數(shù)量很多,誤檢和漏檢都需要人工在大量的標(biāo)記點(diǎn)中找出,所以對(duì)檢測(cè)精度要求非常高,目前的鋼筋檢測(cè)仍為人工盤點(diǎn)。文獻(xiàn)[31-32]中提出可利用傳統(tǒng)的圖像處理技術(shù),對(duì)輸入圖像進(jìn)行預(yù)處理,并結(jié)合面積、形態(tài)等因素進(jìn)行匹配計(jì)數(shù),但在密集或有遮擋的情況下效果表現(xiàn)不佳。為進(jìn)一步提高鋼筋計(jì)數(shù)效率和精度,文獻(xiàn)[33-34]中提出利用神經(jīng)網(wǎng)絡(luò)算法開展鋼筋識(shí)別研究,在檢測(cè)效率上顯著提高,但是精度稍顯劣勢(shì)。Zhu 等[35]提出了一 種SWDA(Strong-Weak Distribution Alignment)的數(shù)據(jù)增強(qiáng)方法,首先將每根鋼筋的位置進(jìn)行裁剪,然后輸入全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)模型以獲得語義掩碼,最后利用3 個(gè)FCN 模型對(duì)鋼筋端面進(jìn)行高質(zhì)量的語義分割和組合,雖然取得了較好的準(zhǔn)確率,但這種多階段的網(wǎng)絡(luò)設(shè)計(jì)模型較大,且要求輸入的圖片清晰度較高,因此,如何在不降低檢測(cè)精度的前提下來減少網(wǎng)絡(luò)的參數(shù)和模型大小成為一個(gè)亟待解決的問題。

      文 獻(xiàn)[36]中指出利用殘差網(wǎng)絡(luò)(Residual Network,ResNet)可以有效解決神經(jīng)網(wǎng)絡(luò)的梯度彌散、爆炸以及網(wǎng)絡(luò)退化的問題,使得輸入的信息能夠在網(wǎng)絡(luò)中傳播得更遠(yuǎn),也可以提升網(wǎng)絡(luò)的性能。由于深層網(wǎng)絡(luò)的感受野比較大,語義信息表征能力強(qiáng),但是特征圖的分辨率低,幾何信息的表征能力弱;低層網(wǎng)絡(luò)的感受野比較小,幾何細(xì)節(jié)信息表征能力強(qiáng),雖然分辨率高,但是語義信息表征能力弱。使用金字塔池化可以融合高低層特征,使得網(wǎng)絡(luò)最終的語義信息特征和空間信息特征都比較好[37]。在YOLOv3 基礎(chǔ)上,本文結(jié)合ResNet、FPN、注意力機(jī)制重新設(shè)計(jì)了一種嵌入注意力機(jī)制的輕量級(jí)鋼筋檢測(cè)網(wǎng)絡(luò)RebarNet。與其他鋼筋檢測(cè)網(wǎng)絡(luò)相比,它具有更小的模型尺寸、更少的可訓(xùn)練參數(shù)、更快的推理速度,并且沒有降低檢測(cè)精度。

      1 YOLOv3模型

      在YOLOv3 網(wǎng)絡(luò)中,32 倍下采樣的13×13 尺寸的特征圖具有大的感受野,適合檢測(cè)大目標(biāo)的物體;16 倍下采樣的26×26 尺寸的特征圖適合檢測(cè)中等大小目標(biāo)的物體;8 倍下采樣的52×52 尺寸的特征圖具有較小的感受野,適合檢測(cè)小目標(biāo)[10]。YOLOv3 模型采用Darknet-53 作為骨干網(wǎng)絡(luò),極大地提高了算法的穩(wěn)定性及目標(biāo)檢測(cè)的準(zhǔn)確率,其結(jié)構(gòu)細(xì)節(jié)如圖1 所示。

      圖1 Darknet-53結(jié)構(gòu)Fig.1 Structure of Darknet-53

      YOLOv3 將目標(biāo)檢測(cè)看做目標(biāo)中心點(diǎn)、目標(biāo)寬高的預(yù)測(cè),并設(shè)置Anchor 先驗(yàn)框。YOLOv3 模型對(duì)于特征圖上每個(gè)點(diǎn)共預(yù)測(cè)5 個(gè)數(shù)值:該點(diǎn)右下角存在目標(biāo)中心的概率p、目標(biāo)中心相對(duì)于當(dāng)前特征點(diǎn)的橫坐標(biāo)偏移量cx、縱坐標(biāo)偏移量cy、目標(biāo)寬高相對(duì)于Anchor 框?qū)捀叩谋壤禂?shù)tx、ty。預(yù)測(cè)過程如圖2 所示。

      圖2 特征圖預(yù)測(cè)過程示意圖Fig.2 Schematic diagram of feature map prediction process

      圖2 中黑線框表示預(yù)測(cè)框,w、h表示預(yù)測(cè)框的寬高,設(shè)Anchor 先驗(yàn)框的寬高為Awidth、Aheight,比例系數(shù)tx、ty與w、h之間的轉(zhuǎn)換參見式(1)、(2):

      2 RebarNet

      2.1 可行性分析

      為了能夠檢測(cè)不同尺寸、方向的物體,幫助模型快速收斂,YOLOv3 在COCO 數(shù)據(jù)集上利用K-Means 聚類,為每個(gè)檢測(cè)通道設(shè)置了3個(gè)Anchor先驗(yàn)框(僅包含寬高),如表1所示。

      利用Python語言對(duì)訓(xùn)練集圖片中的鋼筋寬高進(jìn)行統(tǒng)計(jì),所有寬高均歸一化至416×416大小,對(duì)應(yīng)的散點(diǎn)圖如圖3所示。

      根據(jù)圖3 所示,鋼筋寬度主要分布在10~40 像素,高度主要分布在10~50 像素,鋼筋的寬高分布比較緊湊,出現(xiàn)異常的寬高值比較少。結(jié)合表1 的Anchor 先驗(yàn)框分析,鋼筋的寬高主要分布在YOLOv3 的52×52 檢測(cè)通道中,由此考慮是否可以僅利用YOLOv3 的52×52 檢測(cè)通道對(duì)鋼筋圖像進(jìn)行檢測(cè)。為驗(yàn)證這一猜想,本文統(tǒng)計(jì)了訓(xùn)練集和驗(yàn)證集共250 幅圖像在YOLOv3 檢測(cè)過程中,共36 802 根鋼筋真實(shí)(Ground True,GT)框的分布情況,其中,包含94.72%(34 859)的鋼筋GT 分布在52×52 的檢測(cè)小目標(biāo)通道中,僅有5.28%(1 943)的GT 分布在26×26 的檢測(cè)中等目標(biāo)通道中,而在檢測(cè)大目標(biāo)的13×13 通道中沒有GT 出現(xiàn)??梢?3×13、26×26 的檢測(cè)通道對(duì)于鋼筋圖像的檢測(cè)幾乎沒有貢獻(xiàn),可以嘗試僅保留52×52 的檢測(cè)通道。

      表1 YOLOv3設(shè)置Anchor框Tab.1 Anchors of YOLOv3

      圖3 鋼筋寬高分布情況Fig.3 Distribution of width and height of rebar

      為了驗(yàn)證52×52 的通道的檢測(cè)效果,本文首先根據(jù)鋼筋的不同數(shù)量級(jí)從小到大選取了6 張圖片,如圖4(a)所示;然后將圖片依次輸入訓(xùn)練完成的YOLOv3 網(wǎng)絡(luò)中進(jìn)行檢測(cè),并將52×52 檢測(cè)通道的顯著性圖映射回原圖;最后輸出52×52檢測(cè)通道的熱力圖(Heatmap),如圖4(b)所示。

      圖4 不同鋼筋檢測(cè)網(wǎng)絡(luò)52×52通道的HeatmapFig.4 Heatmap of 52×52 channel in different rebar detection networks

      熱力圖中,顏色越亮的位置,表示該處的權(quán)重值越大,也就意味著網(wǎng)絡(luò)更多地注意到了該位置,該處存在目標(biāo)的可能性更大。分析圖4(b)可以發(fā)現(xiàn),YOLOv3 網(wǎng)絡(luò)的52×52 檢測(cè)通道的熱力圖所有亮度均一致,表示每一個(gè)像素點(diǎn)的權(quán)重分布相同,即網(wǎng)絡(luò)認(rèn)為鋼筋背景和前景具有同樣的重要性,可以推測(cè)網(wǎng)絡(luò)僅僅是在盲目地搜索目標(biāo)。

      為進(jìn)一步驗(yàn)證注意力機(jī)制在目標(biāo)檢測(cè)中的有效性,本文在YOLOv3 網(wǎng)絡(luò)中加入CBAM 注意力模塊[25]并重新訓(xùn)練模型。為了不影響Darknet-53 網(wǎng)絡(luò)預(yù)訓(xùn)練參數(shù)的加載,僅在Darknet-53 網(wǎng)絡(luò)的第一層和最后一層卷積中加入CBAM 模塊。然后將圖4(a)中的圖片依次輸入網(wǎng)絡(luò)中進(jìn)行檢測(cè),最后再次輸出52×52 檢測(cè)通道的Heatmap,如圖4(c)所示。

      分析圖4(c),加入CBAM 注意力模塊之后,52×52 檢測(cè)通道的權(quán)重分布比之前更加集中于鋼筋中心點(diǎn)的位置,由此說明加入注意力模塊之后,網(wǎng)絡(luò)更加能注意到鋼筋目標(biāo)的位置,而并不是盲目地搜索。但是圖4(c)中的網(wǎng)絡(luò)也僅僅更多地注意到了小部分鋼筋目標(biāo),仍然有大多數(shù)的鋼筋目標(biāo)被忽略,說明該通道的權(quán)重分布仍然有提升的空間。據(jù)此可以推測(cè),如果能夠設(shè)計(jì)更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步調(diào)整網(wǎng)絡(luò)在檢測(cè)鋼筋圖像時(shí)的權(quán)重分布,使得權(quán)重更多地集中于鋼筋目標(biāo)的位置,就能夠提升52×52 通道的檢測(cè)效果。

      基于上述實(shí)驗(yàn)的結(jié)果,本文結(jié)合ResNet[36]、FPN[13]和注意力機(jī)制[23-25]設(shè)計(jì)了一個(gè)嵌入注意力機(jī)制的輕量級(jí)鋼筋檢測(cè)網(wǎng)絡(luò)RebarNet。

      2.2 骨干網(wǎng)絡(luò)

      為了簡(jiǎn)化模型的大小而不顯著降低模型的檢測(cè)精度,本文利用殘差塊ResidualBlock 作為網(wǎng)絡(luò)的基本單元。

      ResidualBlock 組成如下:首先利用BasicBlock_1 和BasicBlock_2 作為特征提取模塊,其中BasicBlock_2 包含一個(gè)步長(zhǎng)為2 的卷積操作,用于對(duì)特征圖進(jìn)行2 倍下采樣;然后利用1×1 大小、步長(zhǎng)為2 的卷積對(duì)BasicBlock_1 輸出的特征圖進(jìn)行2 倍下采樣,將輸出的特征圖與BasicBlock_2 輸出的特征圖進(jìn)行殘差跳連,以延長(zhǎng)網(wǎng)絡(luò)記憶特征的距離;然后利用1×1、3×3 的卷積對(duì)前述特征圖進(jìn)行特征提?。蛔詈笤谀┪蔡砑油ǖ雷⒁饬Γ–hannel Attention,CA)和空間注意力(Spatial Attention,SA)模塊[25],調(diào)整特征圖分配權(quán)重。

      ResidualBlock 會(huì)對(duì)輸入特征圖進(jìn)行2 倍下采樣處理。YOLOv3 網(wǎng)絡(luò)中52×52 尺寸的檢測(cè)通道,是對(duì)輸入特征圖進(jìn)行8 倍下采樣后的結(jié)果。2.1 節(jié)的分析表明,仍有少量的GT框分布于26×26 尺寸的檢測(cè)通道中,因此本文在骨干網(wǎng)絡(luò)的設(shè)計(jì)過程中,包含了4 個(gè)ResidualBlock 模塊,即對(duì)輸入特征圖進(jìn)行24=16 倍下采樣,避免了26×26 通道中的信息丟失。前一個(gè)ResidualBlock 輸出的特征圖經(jīng)過1×1 大小、步長(zhǎng)為2的卷積進(jìn)行2 倍下采樣處理后,與后一個(gè)ResidualBlock 輸出的特征圖進(jìn)行殘差跳連,從而延長(zhǎng)ResidualBlock 模塊記憶特征的距離。整個(gè)骨干網(wǎng)絡(luò)共包含3 次模塊間跳連過程。

      為了使最終輸出的52×52 檢測(cè)通道的特征圖包含26×26檢測(cè)通道的信息,此處將16 倍下采樣后的26×26 尺寸的特征圖進(jìn)行2 倍上采樣(Upsample)處理,得到52×52 尺寸的特征圖,與8 倍下采樣后得到的52×52 尺寸的特征圖進(jìn)行特征金字塔融合,以增大網(wǎng)絡(luò)的感受野,最后輸出52×52 尺寸的特征圖。將得到的特征圖再次利用1×1、3×3 的卷積進(jìn)行特征提取,并對(duì)輸出的特征圖添加通道注意力和空間注意力模塊[23],調(diào)整特征圖分配權(quán)重,最后輸出52×52 尺寸的特征圖用于檢測(cè)鋼筋。骨干網(wǎng)絡(luò)的結(jié)構(gòu)如圖5 所示。

      圖5 本文模型的骨干網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Backbone structure of the proposed model

      利用本文網(wǎng)絡(luò)重新訓(xùn)練鋼筋數(shù)據(jù)集至模型擬合,輸出52×52 檢測(cè)通道的熱力圖如圖4(d)所示。

      分析圖4(d)可以發(fā)現(xiàn),本文網(wǎng)絡(luò)更多地聚焦到了鋼筋中心點(diǎn)所在的位置,抑制了無關(guān)的背景特征,可見網(wǎng)絡(luò)提取鋼筋特征的能力增強(qiáng)。結(jié)合圖4、5 進(jìn)行分析,本文網(wǎng)絡(luò)相比添加了CBAM 模塊后的Darknet-53 網(wǎng)絡(luò)更能關(guān)注到圖像中鋼筋的位置,是否可以推測(cè)本文網(wǎng)絡(luò)檢測(cè)鋼筋的性能得到了一定的提升,后續(xù)3.3 節(jié)將驗(yàn)證此推論。

      每個(gè)特征點(diǎn)對(duì)應(yīng)3 個(gè)Anchor 先驗(yàn)框,因此骨干網(wǎng)絡(luò)輸出大小為52×52×(5×3),每個(gè)特征點(diǎn)輸出3 個(gè)預(yù)測(cè)框。后處理部分首先對(duì)輸出的52×52×3=8112 個(gè)預(yù)測(cè)框進(jìn)行置信度篩選,然后對(duì)篩選出來的預(yù)測(cè)框進(jìn)行非極大值抑制(Non-Maximum Suppression,NMS)[37]處理,刪去重復(fù)的預(yù)測(cè)框,最后將預(yù)測(cè)框映射回原圖進(jìn)行輸出。

      RebarNet 網(wǎng)絡(luò)檢測(cè)鋼筋的流程如圖6 所示。

      圖6 RebarNet網(wǎng)絡(luò)檢測(cè)鋼筋流程Fig.6 Flowchart of rebar detection by RebarNet network

      本文選取了EfficientDet(Scalable and Efficient Object Detection)[38]、SSD(Single Shot MultiBox Detector)[6]、CenterNet[18]、RetinaNet[12]、Faster RCNN(Faster Region-CNN)[4]、YOLOv3[10]、YOLOv4[11]、YOLOv5m(YOLOv5s 模型的檢測(cè)精度偏低,適合檢測(cè)大物體;YOLOv5l模型和YOLOv5x模型的參數(shù)量過大,鋼筋檢測(cè)的速度不理想,因此本文選取了YOLOv5m 做對(duì)比實(shí)驗(yàn))等8個(gè)經(jīng)典的目標(biāo)檢測(cè)網(wǎng)絡(luò)與本文網(wǎng)絡(luò)做對(duì)比。各模型的參數(shù)量、訓(xùn)練占用顯存以及訓(xùn)練模型權(quán)重比較如表2所示。

      表2 模型參數(shù)量對(duì)比Tab.2 Comparison of model parameters

      分析表2 可知,本文提出的網(wǎng)絡(luò)包含的參數(shù)量最少,較YOLOv3、YOLOv4 模型減少了約95%,較YOLOv5m 模型減少了84%,參數(shù)量的大幅減少,使得訓(xùn)練模型訓(xùn)練所占用的GPU 顯存也大幅減少。模型參數(shù)減少意味著訓(xùn)練過程所需時(shí)間同樣會(huì)減少,后續(xù)的3.2 節(jié)的實(shí)驗(yàn)將證實(shí)此推論。

      2.3 損失函數(shù)

      本文網(wǎng)絡(luò)的損失函數(shù)由兩個(gè)部分組成:一部分是預(yù)測(cè)框位置與真實(shí)框位置帶來的誤差損失LOSSLocation;另一部分是目標(biāo)置信度帶來的交叉熵?fù)p失LOSSClassification。

      LOSSLocation包括:預(yù)測(cè)框中心點(diǎn)(x,y)相對(duì)于特征圖上對(duì)應(yīng)位置的 偏移量損 失,采用二元交叉熵(BinaryCrossEntropyLoss,BCELoss)進(jìn)行計(jì)算;預(yù)測(cè)框?qū)捀呦鄬?duì)于Anchor 先驗(yàn)框的比例損失,采用MSE(Mean Square Error)均方誤差進(jìn)行計(jì)算。LOSSLocation參見式(3)。

      LOSSClassification包括:預(yù)測(cè)框正樣本相對(duì)于GT 的置信度損失,采用BCELoss 進(jìn)行計(jì)算;預(yù)測(cè)框負(fù)樣本相對(duì)于GT 的置信度損失,此處考慮到訓(xùn)練集中負(fù)樣本中的難易檢測(cè)樣本不平衡,采用Focal Loss[12]計(jì)算損失,對(duì)其中的易分負(fù)樣本進(jìn)行懲罰。LOSSClassification參見式(4)。

      2.4 模型評(píng)價(jià)指標(biāo)

      衡量模型的性能指標(biāo)為:TrainTime、FPS(Frames Per Second)、mAP(mean Average Precision)及 Accuracy。TrainTime 為訓(xùn)練1 個(gè)epoch 的平均時(shí)間,F(xiàn)PS 為模型每秒可連續(xù)檢測(cè)圖片的數(shù)量,用來評(píng)價(jià)模型的檢測(cè)速度。下面重點(diǎn)分析mAP 及Accuracy 這兩個(gè)評(píng)價(jià)指標(biāo)。

      2.4.1 mAP

      mAP 是用于目標(biāo)檢測(cè)模型的性能評(píng)價(jià)指標(biāo),通過計(jì)算Precision-Recall 曲線下的面積,得到每個(gè)類別的AP(Average Precision)值,所有類別的AP求均值便得到mAP,mAP計(jì)算參見式(5):

      其中n為訓(xùn)練集中類別的個(gè)數(shù),由于鋼筋檢測(cè)中n=1,即mAP=AP。

      交并比(Intersection Over Union,IOU)是度量預(yù)測(cè)框與GT 的重疊程度的指標(biāo),用于衡量邊界框是否正確標(biāo)識(shí)了目標(biāo)在圖像中的位置,其計(jì)算參見式(6):

      其中:Bp表示預(yù)測(cè)框,Bgt表示真實(shí)框。一般認(rèn)為若IOU>0.5,則表示預(yù)測(cè)框正確標(biāo)識(shí)了目標(biāo)在圖像中的位置。

      圖像目標(biāo)檢測(cè)任務(wù)的Precision(P)的計(jì)算參見式(7);Recall(R)的計(jì)算參見式(8):

      TP(True Positive)表示Bp與Bgt的IOU>0.5 的Bp的數(shù)量,每個(gè)Bgt只計(jì)算一次;FP(False Positive)表示表示Bp與Bgt的IOU<0.5 的Bp的數(shù)量,或者檢測(cè)到同一個(gè)Bgt多余的數(shù)量;FN(False Negative)表示沒有檢測(cè)到的Bgt的數(shù)量。將訓(xùn)練得到的網(wǎng)絡(luò)模型用于預(yù)測(cè)驗(yàn)證集Val,對(duì)大于置信度閾值0.5 的Bp經(jīng)過NMS算法[26]處理后,將得到的有效預(yù)測(cè)框集合BVal按置信度進(jìn)行排序。對(duì)集合BVal中的每一個(gè)Bp確定其是TP還是FP,然后根據(jù)Pascal Voc2010的規(guī)定的算法計(jì)算AP。

      2.4.2 Accuracy

      鋼筋點(diǎn)數(shù)問題的關(guān)鍵在于點(diǎn)數(shù)是否準(zhǔn)確,即識(shí)別出的鋼筋數(shù)量和實(shí)際數(shù)量的差距,本文設(shè)置了Accuracy(A)評(píng)價(jià)指標(biāo),對(duì)鋼筋檢測(cè)的準(zhǔn)確性進(jìn)行評(píng)價(jià),計(jì)算參見式(9):

      其中:n為鋼筋圖像的數(shù)量,Ri為第i張圖像中的鋼筋的實(shí)際數(shù)量,PRi為第i張圖像通過模型識(shí)別的數(shù)量,|Ri-PRi|為Ri與PRi計(jì)數(shù)差異的絕對(duì)值。

      3 實(shí)驗(yàn)及分析

      本文實(shí)驗(yàn)采用Pytorch 框架進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)修改和量化的操作,操作系統(tǒng)為Windows 10,GPU 顯存為6 GB。

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文數(shù)據(jù)集來自“智能盤點(diǎn)-鋼筋數(shù)量AI 識(shí)別大賽(https://www.datafountain.cn/competitions/332/datasets),數(shù)據(jù)集劃分及用途如表3 所示。

      表3 數(shù)據(jù)集劃分及用途Tab.3 Partition and usage of dataset

      分析表3 可知,Train 數(shù)據(jù)集中僅有225 張圖片,為提高模型的魯棒性,本文采用翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪等數(shù)據(jù)增強(qiáng)的方式在訓(xùn)練過程中擴(kuò)充數(shù)據(jù)集。數(shù)據(jù)增強(qiáng)方式如圖7所示。

      圖7 數(shù)據(jù)增強(qiáng)Fig.7 Data augmentation

      經(jīng)過上述方式的隨機(jī)數(shù)據(jù)增強(qiáng)后,訓(xùn)練集可擴(kuò)充至原有大小的4~5 倍,可極大提高網(wǎng)絡(luò)的健壯性。

      3.2 評(píng)價(jià)結(jié)果

      為了驗(yàn)證所提網(wǎng)絡(luò)的有效性,本文基于Pytorch 框架實(shí)現(xiàn)各個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò),并將Train 數(shù)據(jù)集分別在各個(gè)網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,訓(xùn)練過程中設(shè)置BatchSize=5,統(tǒng)計(jì)訓(xùn)練過程中的TrainTime指標(biāo)。本文將不同網(wǎng)絡(luò)訓(xùn)練得到的收斂模型用于Val 數(shù)據(jù)集、Test 數(shù)據(jù)集檢測(cè),統(tǒng)計(jì)檢測(cè)過程中的mAP、Accuracy、FPS指標(biāo)。統(tǒng)計(jì)結(jié)果如表4 所示。

      表4 不同網(wǎng)絡(luò)的評(píng)測(cè)指標(biāo)Tab.4 Evaluation indexes of different networks

      分析TrainTime結(jié)果可知,本文所提網(wǎng)絡(luò)訓(xùn)練所需時(shí)間短于大多數(shù)網(wǎng)絡(luò),大致與CenterNet 網(wǎng)絡(luò)相近,從而驗(yàn)證了2.2 節(jié)中網(wǎng)絡(luò)訓(xùn)練時(shí)間縮短的推論。

      從衡量網(wǎng)絡(luò)整體性能的mAP值可以發(fā)現(xiàn),EfficientDet、SSD、CenterNet、RetinaNet 和Faster RCNN 在鋼筋檢測(cè)過程中錯(cuò)誤較多,mAP值處于0.7 以下;YOLOv3 表現(xiàn)良好,mAP達(dá)到了0.889;YOLOv4 相比YOLOv3提高了2.5 個(gè)百分點(diǎn);YOLOv5m 模型的mAP值最高達(dá)到了0.931,而本文提出網(wǎng)絡(luò)的mAP值雖然沒有超過YOLOv5m,但與其僅相差0.4 個(gè)百分點(diǎn),幾乎達(dá)到了一致的檢測(cè)效果。

      進(jìn)一步比較Accuracy指標(biāo)可以發(fā)現(xiàn),本文網(wǎng)絡(luò)與YOLOv5m 的Accuracy指標(biāo)表現(xiàn)最優(yōu),與mAP檢測(cè)結(jié)果一致。此處結(jié)果說明了本文所提網(wǎng)絡(luò)在檢測(cè)效果上滿足要求,同時(shí)驗(yàn)證了2.2 節(jié)中鋼筋檢測(cè)性能提升的推論。

      分析FPS指標(biāo)可知,本文提出的網(wǎng)絡(luò)相比其他檢測(cè)網(wǎng)絡(luò)在鋼筋檢測(cè)速度上有極大提升。除了YOLOv5m 以外,其他模型的檢測(cè)速度均在50 FPS 以下。雖然YOLOv5m 的mAP檢測(cè)指標(biāo)比本文網(wǎng)絡(luò)略優(yōu)0.4 個(gè)百分點(diǎn),但是本文網(wǎng)絡(luò)的檢測(cè)速度達(dá)到了106.8 FPS,是YOLOv5m 檢測(cè)速度的1.8 倍,對(duì)生產(chǎn)環(huán)境中的使用更加友好。

      3.3 檢測(cè)效果

      為驗(yàn)證各網(wǎng)絡(luò)在實(shí)際生產(chǎn)環(huán)境中的檢測(cè)效果,本文在Test 數(shù)據(jù)集中按不同鋼筋數(shù)量級(jí)選取了6 張圖片,如圖8(a)所示。本文將圖8(a)中圖片依次輸入9 個(gè)檢測(cè)網(wǎng)絡(luò)中,輸出檢測(cè)后的結(jié)果如圖8(b)~(j)所示,圖片中用矩形框包圍的部分表示網(wǎng)絡(luò)檢測(cè)出來的鋼筋目標(biāo)位置,圖片左上角的數(shù)字為網(wǎng)絡(luò)檢測(cè)出的實(shí)際數(shù)量。

      分析圖8(b)~(j)可見,在鋼筋數(shù)量、圖片光線、角度不同的情況下,YOLOv3、YOLOv4、YOLOv5m、本文網(wǎng)絡(luò)相比其他模型有更高的檢測(cè)精度,更低的誤檢、漏檢率,其中,YOLOv5m、本文網(wǎng)絡(luò)的檢測(cè)效果最優(yōu),兩者相差不大,這里同時(shí)驗(yàn)證了3.2 節(jié)中對(duì)應(yīng)網(wǎng)絡(luò)的評(píng)價(jià)結(jié)果,并且進(jìn)一步驗(yàn)證了本文所提網(wǎng)絡(luò)在實(shí)際檢測(cè)過程中的有效性。

      圖8 Test數(shù)據(jù)集上的鋼筋實(shí)際檢測(cè)效果Fig.8 Actual detection effect on Test dataset

      4 結(jié)語

      本文基于YOLOv3 模型,結(jié)合ResNet、FPN、注意力機(jī)制等技術(shù),提出了一種嵌入注意力機(jī)制的輕量級(jí)鋼筋檢測(cè)網(wǎng)絡(luò)RebarNet。實(shí)驗(yàn)結(jié)果表明,本文所提網(wǎng)絡(luò)在不降低檢測(cè)精度的前提下,訓(xùn)練速度更快、模型文件更小,極大提升了檢測(cè)速度,對(duì)于智慧工地的鋼筋檢測(cè)應(yīng)用有著推動(dòng)的作用;但是該網(wǎng)絡(luò)對(duì)于鋼筋數(shù)量比較密集、光線不夠明亮的圖片,檢測(cè)效果仍然存在一定的誤差。下一步將對(duì)模型結(jié)構(gòu)進(jìn)行繼續(xù)改進(jìn),進(jìn)一步提高模型精度,使其能適應(yīng)更多的環(huán)境,在生產(chǎn)實(shí)踐中真正發(fā)揮作用。

      猜你喜歡
      注意力鋼筋預(yù)測(cè)
      無可預(yù)測(cè)
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測(cè)卷(A卷)
      選修2-2期中考試預(yù)測(cè)卷(B卷)
      D10mm熱軋帶肋鋼筋五切分生產(chǎn)工藝開發(fā)
      山東冶金(2022年1期)2022-04-19 13:40:24
      讓注意力“飛”回來
      截鋼筋
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      不必預(yù)測(cè)未來,只需把握現(xiàn)在
      A Beautiful Way Of Looking At Things
      這批沒收鋼筋該如何處置
      新民市| 怀仁县| 临猗县| 武宣县| 雅江县| 汉中市| 桓仁| 韶关市| 肃宁县| 新化县| 巩留县| 扎兰屯市| 衡阳县| 拉孜县| 密云县| 伊春市| 巍山| 彩票| 岳普湖县| 涿州市| 湖州市| 旌德县| 定南县| 南城县| 秭归县| 宜阳县| 许昌市| 安福县| 涟源市| 黔东| 金堂县| 肥东县| 克什克腾旗| 资兴市| 来宾市| 安阳市| 吉木乃县| 和田市| 色达县| 遂溪县| 澄城县|