• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多層注意力機(jī)制的口罩佩戴檢測算法改進(jìn)?

      2024-01-29 02:23:56陳冠宇鐘海蓮
      電子器件 2023年6期
      關(guān)鍵詞:口罩注意力卷積

      周 蕾,陳冠宇,鐘海蓮

      (1.淮陰工學(xué)院計算機(jī)與軟件工程學(xué)院,江蘇 淮安 223003;2.淮陰工學(xué)院化學(xué)工程學(xué)院,江蘇 淮安 223003)

      當(dāng)今全球傳染病流行趨勢上升,人們佩戴口罩已經(jīng)成為一種常見的行為,人們自覺佩戴好口罩可以有效保護(hù)自身健康安全,減少被病毒感染機(jī)會。目前,用于口罩自動檢測的方法主要是淺層學(xué)習(xí)算法(如支持向量機(jī)和淺層神經(jīng)網(wǎng)絡(luò))和深度學(xué)習(xí)算法,淺層學(xué)習(xí)算法特征提取能力有限,對小目標(biāo)檢測精度低[1]。基于深度學(xué)習(xí)的目標(biāo)檢測方法是當(dāng)前研究的主流方法,主要分為一階段(one-stage)算法和兩階段(twostage)算法[2]。兩階段算法典型代表有R-CNN、Fast R-CNN、Faster R-CNN,具有準(zhǔn)確率高,檢測時間長的特點(diǎn);一階段算法的典型代表有YOLO 系列和SSD 算法,相比兩階段算法,雖然精度會受一點(diǎn)影響,但運(yùn)行速度快,可以滿足實(shí)際應(yīng)用需求。

      目前口罩佩戴檢測算法在公共衛(wèi)生、安全、出行等方面應(yīng)用廣泛,且取得了較好的檢測效果。比如在公共場所、交通樞紐等人員聚集的地方,通過口罩檢測算法檢測出未佩戴口罩的人員,有助于加強(qiáng)疫情防控;在企事業(yè)單位、學(xué)校等場所,通過口罩檢測算法檢測出未佩戴口罩的人員,有助于管理人員進(jìn)出;在公共交通工具上,通過口罩檢測算法檢測出未佩戴口罩的乘客,有助于加強(qiáng)交通出行的安全保障。

      1 相關(guān)工作

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種深度學(xué)習(xí)模型,它利用卷積運(yùn)算對輸入數(shù)據(jù)進(jìn)行過濾,可以提取與識別視覺特征,常用于計算機(jī)視覺和自然語言處理等領(lǐng)域。目標(biāo)檢測是計算機(jī)視覺的一個重要任務(wù),代表算法有:①R-CNN(Region-based Convolutional Neural Networks)系列算法[3],通過先提取候選區(qū)域,然后對每個候選區(qū)域進(jìn)行分類和回歸來檢測圖像中的目標(biāo);②SSD(Single Shot MultiBox Detector)算法[4],使用一個單獨(dú)的深度神經(jīng)網(wǎng)絡(luò)模型來直接預(yù)測目標(biāo)的類別和位置,通過多層特征融合來檢測不同大小的目標(biāo);③RetinaNet:通過引入Focal Loss 和ResNet 等技術(shù),解決了在大規(guī)模目標(biāo)檢測任務(wù)中正負(fù)樣本不平衡的問題,提高了檢測性能;④YOLO(You Only Look Once)系列算法[5],使用一個單獨(dú)的深度神經(jīng)網(wǎng)絡(luò)模型來直接預(yù)測目標(biāo)的類別和位置。

      目前有很多學(xué)者對口罩識別目標(biāo)檢測算法開展了相關(guān)研究工作。Singh 等[6]使用了兩種不同的網(wǎng)絡(luò),即YOLOv3 和Faster R-CNN,進(jìn)行人臉口罩佩戴檢測,該模型使用計算機(jī)視覺技術(shù)實(shí)現(xiàn)自動化檢測,無需人工干預(yù),但對于不同的場景和光照條件,模型的魯棒性有待進(jìn)一步提高;Nagrath 等[7]提出了一種名為SSDMNV2 的模型用來實(shí)現(xiàn)人臉口罩佩戴檢測,該模型實(shí)驗(yàn)了不同卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)的SSD 模型的性能,同時用輕量級網(wǎng)絡(luò)MobileNetV2進(jìn)行分類預(yù)測,使得模型具有較小的體積和內(nèi)存占用,適合移動設(shè)備上的實(shí)時應(yīng)用,可以在保持高準(zhǔn)確率的情況下具有較快的檢測速度,但是在一些復(fù)雜場景下可能會存在漏檢和誤檢的情況,需要進(jìn)行進(jìn)一步優(yōu)化和改進(jìn);Jiang 等[8]提出了SE-YOLOv3 人臉口罩佩戴檢測器,通過在DarkNet53 中引入SE 模塊整合通道之間的關(guān)系,使網(wǎng)絡(luò)關(guān)注更重要的特征,同時采用更能描述預(yù)測框與真實(shí)框差異的GIOU 損失,以提高邊框回歸的穩(wěn)定性。相對于一些輕量級算法,SE-YOLOv3 的計算量和參數(shù)量較大,需要更高的計算資源和更大的存儲空間;Yu 等[9]提出了一種基于改進(jìn)YOLOv4 的人臉口罩佩戴檢測算法,該算法使用改進(jìn)的CSPDarkNet53 網(wǎng)絡(luò)來降低網(wǎng)絡(luò)計算成本,提高網(wǎng)絡(luò)學(xué)習(xí)能力,使用自適應(yīng)圖片縮放算法減少計算量,引入改進(jìn)的PANet 結(jié)構(gòu)使網(wǎng)絡(luò)獲得更多的語義特征信息;Wu 等[10]提出了一種新的口罩檢測框架FMD-YOLO,采用Im-ResNet-101 網(wǎng)絡(luò)作為主干特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了層次卷積結(jié)構(gòu),變形卷積和非局部機(jī)制,能夠最大化地提取特征,使用增強(qiáng)的路徑聚合網(wǎng)絡(luò)En-PAN 使高層語義信息和低層細(xì)節(jié)信息充分融合,提高網(wǎng)絡(luò)的魯棒性,同時在推理階段采用Matric NMS 方法提高了檢測效率和準(zhǔn)確性。

      以上研究者提出的算法在一般場景下已經(jīng)有了較好的檢測效果,但對于小目標(biāo)檢測場景下的精度還有待提高。針對上述問題,本文提出了一種改進(jìn)YOLOX 的口罩佩戴檢測方法,該方法通過在算法中添加多層注意力機(jī)制,采用DIoU(Distance-IoU)損失函數(shù)和DW 卷積使模型達(dá)到更好的效果。

      2 YOLOX 目標(biāo)檢測算法

      YOLOX 是一個基于YOLOv3 改進(jìn)的目標(biāo)檢測算法,由Megvii AI 團(tuán)隊(duì)于2021 年提出。YOLOX 通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和數(shù)據(jù)增強(qiáng)等方面來提升檢測精度和速度,并實(shí)現(xiàn)了高效的多尺度特征融合,從而適用于多種復(fù)雜場景下的目標(biāo)檢測任務(wù)。

      YOLOX 使用的主干特征提取網(wǎng)絡(luò)為CSPDarknet[11]。CSPDarkNet 網(wǎng)絡(luò)在YOLOV4 中首先提出,整個網(wǎng)絡(luò)由殘差卷積構(gòu)成,通過增加深度,使用跳躍連接,來提高準(zhǔn)確率,緩解深度增加帶來的梯度消失問題。

      CSPDarkNet 使用CSPNet 網(wǎng)絡(luò)結(jié)構(gòu)將原來的殘差塊(如圖1(a)所示)拆分成兩部分,一部分繼續(xù)進(jìn)行原來殘差塊的堆疊,另一部分則像一個殘差邊一樣,經(jīng)過少量處理直接連接到最后,如圖1(b)所示。

      圖1 CSPnet 網(wǎng)絡(luò)結(jié)構(gòu)

      CSPNet 網(wǎng)絡(luò)結(jié)構(gòu)的引入可以在減少模型計算量和提高運(yùn)行速度的同時,不降低模型的精度。

      CSPDarkNet 使用Focus 結(jié)構(gòu)對檢測圖片進(jìn)行切片操作來減少參數(shù),提高速度。具體操作為:在一張圖片中每隔一個像素取一個值,從而獲得了四個獨(dú)立的特征層,然后進(jìn)行拼接,這樣通道數(shù)就擴(kuò)充為原來的四倍,原圖片從原來的RGB 三通道數(shù)變?yōu)槭ǖ罃?shù),然后將新圖片用于接下來的卷積操作,具體結(jié)構(gòu)如圖2 所示。

      圖2 Focus 網(wǎng)絡(luò)結(jié)構(gòu)

      為了提高網(wǎng)絡(luò)的感受野,在主干網(wǎng)絡(luò)中還用到了SPP 模塊,主要通過不同大小的卷積核進(jìn)行最大池化操作。另外,該網(wǎng)絡(luò)的激活函數(shù)選取了SiLU 激活函數(shù),該激活函數(shù)具有平滑和非單調(diào)的特點(diǎn),具體公式為:

      YOLOX 的主干網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,可以看出,網(wǎng)絡(luò)從CSPDarkNet 的中間層、中下層、底層的各個位置提取到了三個有效特征層作為構(gòu)建特征加強(qiáng)網(wǎng)絡(luò)FPN 的輸入。在FPN 部分,為了進(jìn)一步加強(qiáng)提取有效特征,YOLOX 算法從結(jié)合不同尺度的特征層入手,通過使用PANet 結(jié)構(gòu),將前面獲得的有效特征層通過上采樣和下采樣來實(shí)現(xiàn)特征融合,最終得到特征加強(qiáng)網(wǎng)絡(luò)輸出的三個有效特征層。

      圖3 YOLOX 網(wǎng)絡(luò)結(jié)構(gòu)圖

      YOLOX 在速度和精度上都表現(xiàn)優(yōu)異,在實(shí)際應(yīng)用中得到了廣泛的應(yīng)用。在COCO 數(shù)據(jù)集上,其mAP 在YOLOv5 的基礎(chǔ)上提升了3 個點(diǎn)以上,同時運(yùn)行速度也比較快,可以達(dá)到實(shí)時檢測的要求。

      3 多層注意力機(jī)制

      Swin Transformer[12]是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,它在計算機(jī)視覺任務(wù)中取得了很好的性能表現(xiàn),特別是在圖像分類、目標(biāo)檢測和語義分割等方面。Swin Transformer 中的注意力機(jī)制與傳統(tǒng)的注意力機(jī)制有些不同,但是仍然屬于注意力機(jī)制的范疇。

      3.1 傳統(tǒng)注意力機(jī)制

      傳統(tǒng)的注意力機(jī)制通過將輸入的Query、Key、Value 向量分別進(jìn)行矩陣乘法,并使用softmax 函數(shù)將乘積矩陣進(jìn)行歸一化,得到每個Query 向量對所有Key 向量的加權(quán)和作為輸出,本質(zhì)是通過計算一個關(guān)注度得分,來決定每個位置對于整體的重要性。

      傳統(tǒng)注意力機(jī)制可以實(shí)現(xiàn)對輸入序列的全局建模,但計算復(fù)雜度較高,每個Query 向量需要計算與所有Key 向量的相似度,并根據(jù)相似度權(quán)重對Value向量進(jìn)行加權(quán)匯聚。這種方法的計算復(fù)雜度為O(N2),其中N為輸入向量的長度。當(dāng)輸入向量很長時,計算復(fù)雜度將非常高,導(dǎo)致模型運(yùn)算速度緩慢。

      3.2 Swin Transformer 中的注意力機(jī)制

      Swin Transformer 中同時使用了窗口多頭注意力模塊(Windows Multi-head Self-Attention,W-MSA)和移動窗口多頭力模塊(Shift Windows Multi-head Self-Attention,SW-MSA),圖4 為兩個連續(xù)的Swin Transformer 模塊結(jié)構(gòu)。

      圖4 兩個連續(xù)的Swin Transformer 模塊結(jié)構(gòu)

      由圖4 可知,Swin Transformer 模塊由正則化層、多頭自注意力、前饋網(wǎng)絡(luò)層和殘差連接組成。其中左邊使用的是W-MSA,右邊使用SW-MSA。模塊首先將輸入的圖片進(jìn)行Layer Normalization(LN)正則化,主要作用是進(jìn)行批量正則化處理,對輸入數(shù)據(jù)進(jìn)行歸一化處理,從而保證輸入層數(shù)據(jù)分布的規(guī)則性,隨后進(jìn)入W-MSA 模塊,將輸入圖片拆分成多個窗口,在每個窗口內(nèi)進(jìn)行注意力計算,最后將不同窗口的注意力矩陣拼接在一起,形成最終的注意力矩陣;接下來再經(jīng)過LN 正則化之后進(jìn)入SW-MSA 模塊,采用移動窗口的方式進(jìn)行注意力計算。

      W-MSA 模塊和SW-MSA 模塊對于注意力計算的方式比較如圖5 所示。

      圖5 W-MSA 和SW-MSA 計算注意力方式對比

      圖5 左邊為W-MSA 模塊,該模塊相較于傳統(tǒng)MSA 而言,是將所有的像素劃分為多個窗口,然后在窗口內(nèi)部計算每個像素與其他像素的相關(guān)性,每個窗口內(nèi)的特征僅能與該窗口內(nèi)的其他特征進(jìn)行相似度計算并進(jìn)行加權(quán),這種方法的優(yōu)點(diǎn)是可以顯著降低計算量,但缺點(diǎn)也很明顯,缺少窗口間的信息交互,使得僅使用窗口自注意力層來構(gòu)建網(wǎng)絡(luò)時,特征提取能力較差,導(dǎo)致最終的特征提取效果下降。為了克服這一限制,Swin Transformer 提出了SW-MSA。圖5 右側(cè)圖片是左圖向右向下移動兩個單位后的結(jié)果,這時窗口之間具有重疊部分,基于移動后的窗口可以重新計算注意力,使相鄰特征可以計算相似度并完成信息關(guān)聯(lián),從而實(shí)現(xiàn)了窗口與窗口之間的交互[13]。SW-MSA 的窗口移動機(jī)制能夠幫助網(wǎng)絡(luò)更好地捕捉局部信息和全局信息的關(guān)聯(lián)性,從而提高特征的表達(dá)能力。

      4 口罩佩戴檢測改進(jìn)算法YOLO-l-sd

      YOLOX 算法目前有多個版本,它們的區(qū)別主要在于模型大小和檢測精度之間的權(quán)衡。本文在YOLOX-l 算法上進(jìn)行改進(jìn),相較其他版本,YOLOX-l的參數(shù)量多,因此精度也更高。具體改進(jìn)包括:①在CSPDarkNet 主干網(wǎng)絡(luò)中加入Swin Transformer 網(wǎng)絡(luò)結(jié)構(gòu),利用注意力機(jī)制優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高特征提取效果。②將BN(Batch Normal)修改為LN(Layer Normal),優(yōu)化計算量,提升了數(shù)據(jù)處理效果。③替換普通卷積為DW 卷積,DW 卷積所使用的參數(shù)量相對較少,可以有效提升網(wǎng)絡(luò)的計算速度。

      改進(jìn)后的網(wǎng)絡(luò)圖如圖6 所示。

      圖6 特征網(wǎng)絡(luò)改進(jìn)

      4.1 骨干網(wǎng)絡(luò)修改

      YOLOX 所使用的主干特征提取網(wǎng)絡(luò)為CSPDarkNet53,通過在骨干網(wǎng)絡(luò)多個stage 中使用殘差連接以及通道分割來提高網(wǎng)絡(luò)的效率和準(zhǔn)確性。CSPDarkNet53 的骨干網(wǎng)絡(luò)包含5 個stage,每個stage 包含若干個CSPBlock。每個CSPBlock 又包含基礎(chǔ)卷積層、空間金字塔池化(Spatial Pyramid Pooling,SPP)層以及殘差連接。SPP 層可以在不增加計算量的情況下提取多尺度的特征,可以從不同尺度的特征圖中提取特征,通過不同池化核大小的最大池化進(jìn)行特征提取,來提高網(wǎng)絡(luò)的感受野。由于檢測任務(wù)需要利用多尺度信息,因此對SPP 結(jié)構(gòu)進(jìn)行了保留。

      本文使用Swin Transformer 的有效特征層對YOLOX 的主干網(wǎng)絡(luò)進(jìn)行修改,將YOLOX 中的CSPBlock 替換為Swin Transformer Block,進(jìn)一步提升網(wǎng)絡(luò)的提取效果。Swin Transformer Block 利用自注意力機(jī)制在特征之間進(jìn)行關(guān)聯(lián)和交互,能夠更好地捕捉特征之間的關(guān)系,進(jìn)而提高特征表達(dá)能力,從而提高檢測的準(zhǔn)確性。此外,還在SPP 之后加入SW-MSA注意力機(jī)制來提升特征的表達(dá)能力和區(qū)分度。具體改進(jìn)如圖7 所示。

      圖7 對骨干網(wǎng)絡(luò)的主要改進(jìn)圖

      ①圖7(a)是CSPLayer 結(jié)構(gòu),其將輸入的特征圖分為兩個分支,左邊的分支經(jīng)過LN 正則化進(jìn)行標(biāo)準(zhǔn)化處理,再通過SW-MSA 注意力機(jī)制更好地提取特征,最后將兩個分支合并輸出到下一分支網(wǎng)絡(luò)。②圖7(b)為SPP 模塊,用來增加網(wǎng)絡(luò)的感受野,結(jié)構(gòu)中同樣增加了SW-MSA 注意力模塊。首先將輸入的特征層進(jìn)行基礎(chǔ)卷積,然后分別通過5×5,9×9,13×13 全局平均池化三個分支和一個不變分支,再將四個分支的結(jié)果相加后進(jìn)行卷積,在SPP 與特征融合最后結(jié)果的特征層后面加上SW-MSA 注意力機(jī)制,提高特征提取效果,減少計算量。

      4.2 修改正則化方法

      BN 是一種在深度學(xué)習(xí)中常用的技術(shù),主要用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,可以將輸入數(shù)據(jù)的分布進(jìn)行歸一化,從而加速訓(xùn)練過程并提高模型的泛化能力。BN 是對神經(jīng)網(wǎng)絡(luò)的每一層輸入數(shù)據(jù)分布的均值和方差進(jìn)行歸一化處理。具體來說,對于一個輸入數(shù)據(jù),先計算該batch 的均值和方差,再用這些統(tǒng)計值對數(shù)據(jù)進(jìn)行歸一化。這樣可以使數(shù)據(jù)分布更加平均,從而提高訓(xùn)練速度和模型的穩(wěn)定性,避免梯度爆炸和梯度消失的問題。但BN 存在一些缺點(diǎn),例如對小批量數(shù)據(jù)的效果不好,因?yàn)樾∨繑?shù)據(jù)的均值和方差統(tǒng)計可能會出現(xiàn)偏差。此外,BN 會增加計算量,特別是在大型神經(jīng)網(wǎng)絡(luò)中,計算代價可能會很高。

      LN 是一種用于深度學(xué)習(xí)中的正則化方法,它類似于BN,但不是在小批量上進(jìn)行歸一化,而是對每個樣本單獨(dú)進(jìn)行歸一化。在LN 中,假設(shè)一個張量x∈Rm×n,包括m個樣本,每個樣本n個特征,對于每個樣本xi,LN 將它的所有特征維度按照均值和方差進(jìn)行歸一化,公式如下:

      式中:μi和σi分別表示樣本xi在所有特征維度上的均值和方差,ε是一個很小的常數(shù),用于避免分母為0。

      由于BN 的一個缺點(diǎn)是需要較大的batch size才能合理預(yù)估訓(xùn)練數(shù)據(jù)的均值和方差,本文選用參數(shù)量較大的YOLOX-l 模型,采用BN 可能會導(dǎo)致內(nèi)存不足,而LN 不依賴于batch 的大小和輸入sequence 的深度,更為適合該模型。

      4.3 采用DW 卷積

      DW 卷積(Depthwise Convolution)是一種深度可分離卷積的變種卷積操作,通常用于深度學(xué)習(xí)模型的輕量化或加速,在減少模型參數(shù)和計算量的同時,提高模型的感受野和學(xué)習(xí)能力。DW 卷積的計算過程可以分為深度卷積和逐點(diǎn)卷積兩個部分。在深度卷積中,DW 卷積首先對輸入數(shù)據(jù)的每個通道分別進(jìn)行卷積,即針對每個通道都使用一個卷積核進(jìn)行卷積操作。因此,如果輸入數(shù)據(jù)共有C個通道,那么深度卷積部分會使用C個卷積核進(jìn)行卷積。這個過程可以看做是對每個通道進(jìn)行一維卷積操作。在逐點(diǎn)卷積中,DW 卷積使用一個1×1 的卷積核對每個通道的結(jié)果進(jìn)行融合,即將所有通道的結(jié)果按元素相加并得到一個新的輸出結(jié)果。這個過程可以看做是對每個通道進(jìn)行一維逐點(diǎn)卷積操作。

      與普通卷積相比,DW 卷積的卷積核只在每個輸入通道上進(jìn)行卷積操作,因此參數(shù)數(shù)量遠(yuǎn)遠(yuǎn)少于普通卷積;DW 卷積具有更少的卷積核數(shù)量和更小的卷積核大小,因此需要更少的計算量。將普通卷積替換為DW 卷積,可以在保持參數(shù)和計算量較少的情況下,達(dá)到與普通卷積相似或更好的準(zhǔn)確率。

      4.4 損失函數(shù)的選擇

      損失函數(shù)主要用于度量預(yù)測框與真實(shí)框之間的差異,以此優(yōu)化模型的參數(shù)。選擇不同的損失函數(shù)會影響網(wǎng)絡(luò)模型預(yù)測框的精度,以下介紹兩種改良的損失函數(shù)。

      ①完全交并比(Complete Intersection Over Union,CIOU)

      CIOU 是一種改進(jìn)的IOU。IOU 用于計算預(yù)測框和真實(shí)框的交疊率,即它們的交集和并集的比值,最理想情況是完全重疊,這時比值為1。IOU 的計算公式為:

      式中:A表示預(yù)測框,B表示真實(shí)框,A∩B表示A和B的交集,A∪B表示A和B的并集。

      CIOU 還考慮了目標(biāo)框的長寬比例和中心點(diǎn)之間的距離,在某些情況下比IOU 更加準(zhǔn)確。CIOU的計算公式為:

      式中:IOU 表示兩個邊界框的交并比,ρ是一個懲罰項(xiàng),用于懲罰邊界框中心點(diǎn)之間的距離,C1和C2分別表示兩個邊界框的對角線長度,ˉC表示這兩個對角線長度的平均值。

      ②距離交并比(Distance Intersection Over Union,DIOU)

      DIOU 也是一種改進(jìn)的IOU 方法,它在CIOU 的基礎(chǔ)上增加了重疊部分的面積懲罰項(xiàng),以進(jìn)一步提高預(yù)測框與真實(shí)框之間重疊度的準(zhǔn)確性。DIOU 的計算公式為:

      式中:d代表預(yù)測框和真實(shí)框兩個中心點(diǎn)距離的平方,c代表兩個框的最小外接矩形對角線長度。如果兩個框完美重疊,d=0,IOU =1,DIOU =1-0 =1。如果兩個框相距很遠(yuǎn),趨近于1,IOU =0,DIOU =0-1 =-1。

      5 實(shí)驗(yàn)與結(jié)論

      5.1 實(shí)驗(yàn)環(huán)境

      本文所述實(shí)驗(yàn)均在Windows10 操作系統(tǒng)下進(jìn)行。環(huán)境配置為python3.6.13,torch1.2.0,torchvision0.4.0,硬件環(huán)境為RTX 2080 Ti(11GB)×1,4 vCPU Intel(R)Xeon(R)Silver 4110 CPU@2.10GHz,16GB 內(nèi)存。

      5.2 數(shù)據(jù)集

      數(shù)據(jù)集的質(zhì)量是保證深度學(xué)習(xí)模型訓(xùn)練結(jié)果的重要因素。本文數(shù)據(jù)集為自制數(shù)據(jù)集,通過網(wǎng)絡(luò)爬蟲等方法收集網(wǎng)絡(luò)公開的圖片,一共收集了4 050張圖片,數(shù)據(jù)集按照8 ∶1 ∶1 的比例分為訓(xùn)練集、測試集和驗(yàn)證集。數(shù)據(jù)集包含了多個場景下佩戴口罩的人臉圖片,數(shù)據(jù)集中人臉分辨率最大為1 536×1 876,最小為20×40,涵蓋了人臉出現(xiàn)在攝像頭拍攝圖像中的大多數(shù)可能尺寸,保證了網(wǎng)絡(luò)對小尺度人臉的識別需求。

      5.3 評價指標(biāo)

      目標(biāo)檢測的評價指標(biāo)主要包括精度(Precision),召回率(Recall),平均精度(AP),平均精度均值(mAP)。

      ①精度

      精度是指檢測結(jié)果中正確檢測的目標(biāo)框數(shù)量與所有檢測到的目標(biāo)框數(shù)量的比例。即,算法檢測出來的所有目標(biāo)框中,正確框的數(shù)量占總檢測框數(shù)量的比例。精度計算公式為:

      式中:TP 為被模型預(yù)測為正類的正樣本;TN 為被模型預(yù)測為負(fù)類的負(fù)樣本;FP 為被模型預(yù)測為正類的負(fù)樣本;FN 為被模型預(yù)測為負(fù)類的正樣本。精度越高,表示算法檢測出的目標(biāo)框中正確率越高,具有更好的檢測準(zhǔn)確性。

      ②召回率

      召回率是指在所有真實(shí)目標(biāo)框中,被算法正確檢測出的目標(biāo)框的比例。在目標(biāo)檢測任務(wù)中,召回率衡量的是算法對于真實(shí)目標(biāo)框的檢測能力,即算法能夠檢測到多少真實(shí)目標(biāo)框。召回率計算公式為:

      式中:TP 為被模型預(yù)測為正類的正樣本;FN 為被模型預(yù)測為負(fù)類的正樣本。召回率越高,表示算法能夠檢測到更多的真實(shí)目標(biāo)框,具有更好的檢測能力。

      ③平均精度AP

      平均精度是評價模型檢測能力的主要指標(biāo)之一。AP 是通過計算不同召回率下的精度值,再將這些精度值在召回率的范圍內(nèi)進(jìn)行平均得到的一個指標(biāo)。一般來說,平均精度越高,表示模型的檢測效果越好。

      平均精度均值是不同類別的平均精度的平均值。對于一個具有n個類別的目標(biāo)檢測模型,其mAP 可以表示為所有類別AP 的平均值:

      式中:N表示所有類別數(shù)量。

      ④F1

      F1 是精確率和召回率的調(diào)和平均值,計算公式如下:

      式中:FN 表示預(yù)測錯誤的樣本數(shù)量;TP 為被模型預(yù)測為正類的正樣本;FN 為被模型預(yù)測為負(fù)類的正樣本;FP 為被模型預(yù)測為正類的負(fù)樣本。

      5.4 損失函數(shù)對比分析

      CIOU 是一種改進(jìn)的IOU 損失函數(shù),它通過綜合考慮預(yù)測框和真實(shí)框的中心點(diǎn)、寬度、高度和長寬比等因素來計算損失;DIOU 也是一種改進(jìn)的IOU損失函數(shù),它通過綜合考慮預(yù)測框和真實(shí)框之間的距離、中心點(diǎn)、寬度、高度和長寬比等因素來計算損失。

      為比較使用不同損失函數(shù)的模型效果,實(shí)驗(yàn)對CIOU 和DIOU 進(jìn)行了實(shí)驗(yàn),最終的Loss 曲線如圖8所示。

      圖8 不同損失函數(shù)Loss 曲線圖

      圖8 中,(a)為CIOU 損失函數(shù)圖像,(b)為DIOU損失函數(shù)圖像。由圖可知,兩種損失函數(shù)數(shù)值下降速度相仿,(b)圖的訓(xùn)練損失與驗(yàn)證損失曲線相比(a)圖更加貼合,曲線更加平滑,收斂效果更好,因此選取DIOU 作為本文提出的YOLO-l-sd 模型的損失函數(shù)。

      5.5 消融實(shí)現(xiàn)結(jié)果分析

      為了驗(yàn)證各個注意力模塊對YOLOX-l 檢測效果的影響,在數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。在損失函數(shù)都采用DIOU 的基礎(chǔ)上,模型加入SW-MSA 注意力和DW 卷積模塊的消融實(shí)驗(yàn),結(jié)果如表1 所示。

      表1 消融實(shí)驗(yàn)結(jié)果

      對比發(fā)現(xiàn),經(jīng)過加入DW 卷積后,AP 降低了0.68%,但召回率提升了0.99%,精度提升了1.05%。而加入SW-MSA 注意力機(jī)制以后算法相較于原本的算法,AP 提升了0.36%,召回率提升了5.24%,精度提升了0.93%;在SW-MSA 基礎(chǔ)上加入DW 卷積后,AP 提高了0.32%,召回率提高了0.22%,精度提升了1.52%。經(jīng)過綜合對比,相較于原始的YOLOX-l,YOLO-l-sd 的AP 提升了0.68%,召回率提升了5.46%,精度提升了2.45%。

      ①遮擋目標(biāo)檢測效果對比

      圖9(a)為YOLOX-l 的檢測結(jié)果,圖9(b)為YOLOX-l-sd 的檢測結(jié)果,可以看出,在遮擋目標(biāo)檢測中,YOLOX-l 出現(xiàn)了漏檢,而YOLOX-l-sd 可以正常檢出。

      圖9 遮擋目標(biāo)檢測結(jié)果對比

      ②小目標(biāo)檢測效果對比

      圖10(a)為YOLOX-l 的檢測結(jié)果,圖10(b)為YOLOX-l-sd 的檢測結(jié)果,YOLOX-l-sd 算法的檢測精度要比原始算法平均提高了3%左右。

      圖10 小目標(biāo)檢測結(jié)果對比

      通過對比實(shí)驗(yàn)可以看出,文章提出的YOLOX-lsd 算法在召回率、精確率、F1 和mAP 等指標(biāo)上相比原始算法均有不同程度的提高,對小目標(biāo)與遮擋目標(biāo)的檢測效果也有了明顯的提升。

      6 結(jié)論

      為了提高小目標(biāo)和遮擋目標(biāo)場景下口罩佩戴目標(biāo)檢測的效果,文章對YOLOX 算法進(jìn)行了改進(jìn),替換普通卷積為DW 卷積,在CSPDarkNet 主干網(wǎng)絡(luò)中引入 Swin Transformer 多 層注意力機(jī)制,在CSPLayer、SPP 模塊中添加SW-MSA 注意力模塊,將SPP 模塊BN 正則化方法修改為LN,同時采用DIOU 損失函數(shù)來提高網(wǎng)絡(luò)精確度。實(shí)驗(yàn)結(jié)果表明,文章提出的YOLOX-l-sd 算法有效提升了佩戴口罩目標(biāo)檢測算法的性能,與原始算法相比,模型的檢測精度提高了2.45%。在未來的工作中,將繼續(xù)優(yōu)化模型,研究佩戴口罩的人臉分類網(wǎng)絡(luò),進(jìn)一步研究密集人群中佩戴口罩人臉識別問題。

      猜你喜歡
      口罩注意力卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
      戴口罩的苦與樂
      意林(2020年9期)2020-06-01 07:26:22
      因?yàn)橐粋€口罩,我決定離婚了
      海峽姐妹(2020年4期)2020-05-30 13:00:08
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      霧霾口罩
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      要戴口罩的霧霾天
      A Beautiful Way Of Looking At Things
      长岛县| 张北县| 齐河县| 子洲县| 梁山县| 固原市| 普格县| 玉龙| 阆中市| 霍城县| 新乐市| 渑池县| 象山县| 钦州市| 石景山区| 酉阳| 宕昌县| 阜康市| 梅州市| 连南| 甘泉县| 天全县| 上虞市| 长乐市| 明光市| 广德县| 巩留县| 老河口市| 若尔盖县| 南昌市| 孟州市| 交口县| 澜沧| 通江县| 垣曲县| 凤翔县| 嘉祥县| 扶风县| 达拉特旗| 昌都县| 图们市|