謝斌紅,袁 帥,龔大立
1.太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024
2.精英數(shù)智科技股份有限公司,太原 030000
煤礦作為一個(gè)高危行業(yè),其生產(chǎn)安全問題一直以來都備受各級(jí)政府高度重視。隨著數(shù)字化技術(shù)的發(fā)展和智慧礦山政策的不斷推進(jìn),深度學(xué)習(xí)技術(shù)在煤礦安全防護(hù)中具有巨大的發(fā)展?jié)摿Α⒂?jì)算機(jī)視覺與傳統(tǒng)煤礦行業(yè)結(jié)合,在提升工作效率、改善生產(chǎn)環(huán)境、保障生產(chǎn)安全方面具有重要的研究價(jià)值和社會(huì)意義。
行人檢測作為目標(biāo)檢測的一個(gè)子任務(wù),其旨在利用計(jì)算機(jī)視覺技術(shù)識(shí)別視頻圖像中人員的精確位置。目前煤礦井下行人目標(biāo)檢測主要存在遮擋嚴(yán)重和監(jiān)控視頻質(zhì)量低等問題。遮擋一直都是行人檢測的難點(diǎn),行人目標(biāo)檢測中的遮擋主要分為兩種類型:一類是被檢測行人之間的相互遮擋,另一類是待檢測的行人被干擾物體遮擋[1]。前一類行人之間的遮擋和粘連,往往會(huì)引入大量的干擾信息,導(dǎo)致更多的虛檢;而后一類行人被干擾物體的遮擋,會(huì)造成目標(biāo)信息的缺失,進(jìn)而導(dǎo)致漏檢。由于煤礦生產(chǎn)環(huán)境的特殊性,井下人員密集程度較低,遮擋問題普遍存在于待檢測行人被大型設(shè)備的遮擋,例如皮帶、鉆機(jī)和變電器等。被遮擋行人在檢測時(shí)缺少完整的特征,對(duì)檢測的精確度產(chǎn)生了較大的影響。
對(duì)于遮擋下的行人檢測,現(xiàn)階段主要有基于傳統(tǒng)目標(biāo)檢測技術(shù)和基于深度學(xué)習(xí)的兩種解決方法。
傳統(tǒng)的人員目標(biāo)檢測方法包含HOG+SVM法[2]、Harr特征法[3]、LBP特征法[4]和積分通道特征等,針對(duì)行人遮擋情況的處理方式,傳統(tǒng)檢測方法分為兩類思路:一是基于部件處理的遮擋行人檢測,對(duì)檢測目標(biāo)進(jìn)行分部處理,利用未被遮擋的部分來預(yù)測行人的實(shí)際位置。Wu和Nevatia[5]設(shè)計(jì)了Edgelet特征,建立了行人圖像與構(gòu)建特征之間的關(guān)系,運(yùn)用此特征在腿部或者其他局部被遮擋的情況下也能夠檢測到行人。二是基于特殊遮擋分類器的行人檢測,針對(duì)常見的遮擋物訓(xùn)練特定的分類器,以此緩解遮擋的影響。Mathias和Benenson根據(jù)該思想提出了Franken-classifiers[6]方法,將分類器針對(duì)每種不同的遮擋物和不同的遮擋等級(jí)進(jìn)行區(qū)分,該方法可有效處理形變和遮擋;Felzenszwalb等則改進(jìn)HOG特征提出了DPM[7],該模型融合了密集特征圖的線性濾波器來增加對(duì)目標(biāo)形變的魯棒性。
兩類傳統(tǒng)方法的遮擋行人檢測都能夠在一定程度上減輕遮擋對(duì)算法帶來的干擾,但前一類方法雖思想簡單,易于實(shí)現(xiàn),但較難充分利用未遮擋部分的部件,且對(duì)不同區(qū)塊之間的權(quán)重占比難以把握,如何正確消除遮擋區(qū)域帶來的影響仍是難題;后一類方法實(shí)現(xiàn)過于復(fù)雜,訓(xùn)練各類分類器費(fèi)時(shí)費(fèi)力,同時(shí)模型泛化能力較差,隨著場景變換其魯棒性也會(huì)有較強(qiáng)的波動(dòng)。
借鑒傳統(tǒng)算法對(duì)于遮擋處理的思想,深度學(xué)習(xí)算法對(duì)遮擋問題的處理也分為兩種思路:一是將部件模型與深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,綜合部分檢測器分?jǐn)?shù)處理遮擋。Ouyang等[8]運(yùn)用此思想,將行人檢測、形變處理、遮擋處理和分類多種能力聯(lián)合在一起,提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。但當(dāng)有遮擋和大變形時(shí),部分探測器難以整合分部模型的各類分?jǐn)?shù)。為了解決部分探測器不完善的問題,他們又提出了基于改進(jìn)受限玻爾茲曼機(jī)網(wǎng)絡(luò)(RBM)的概率模型[9],通過將部件可見性建模成隱變量,使其模型能在可見性得分不準(zhǔn)的情況下得到較為準(zhǔn)確的整體檢測;Tian等[10]則在分部檢測器的啟發(fā)之下提出了基于R-CNN的DeepParts,由不同的分布檢測器組成深度部分檢測器,增強(qiáng)其檢測的魯棒性;Zhang等[11]則提出使用部件檢測器結(jié)合注意力機(jī)制[12],在R-CNN的模型算法中增加了一個(gè)額外的注意力機(jī)制來處理不同的遮擋類型,引導(dǎo)探測器更加關(guān)注未被遮擋的身體部分。Zhou等[13]在部件檢測器上采用了多標(biāo)簽的學(xué)習(xí)方法,改善部件檢測器之間的相關(guān)性以此來改進(jìn)檢測器的性能。
另一類基于深度學(xué)習(xí)處理遮擋問題的思路則是基于優(yōu)化函數(shù)的方式,結(jié)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn),通過優(yōu)化損失函數(shù)來減少遮擋帶來的干擾。Wang等[14]在Faster R-CNN的基礎(chǔ)上對(duì)損失函數(shù)進(jìn)行優(yōu)化,提出Repulsion Loss,使預(yù)測框?qū)τ谡鎸?shí)目標(biāo)框的距離更小,并增加周圍非目標(biāo)框的距離,從而減少遮擋對(duì)行人檢測的影響。
綜上所述,盡管基于CNN的行人檢測算法在不同程度上取得較好效果,但這類算法仍存在以下局限性:(1)大多數(shù)的算法只采用了卷積神經(jīng)網(wǎng)絡(luò)的最后一層特征,未能有效利用卷積網(wǎng)絡(luò)中不同層的圖像特征[15];(2)部件模型與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,其算法的提取特征工程過于復(fù)雜,且不同場景下的泛化能力較差,難以滿足實(shí)際應(yīng)用場景需求;(3)基于優(yōu)化損失函數(shù)方式更多適用于行人與行人之間相互遮擋的情況,對(duì)于非目標(biāo)遮擋物遮擋行人的檢測場景,其提升效果不明顯。
針對(duì)當(dāng)前算法存在的不足,本文將YOLOv4目標(biāo)檢測算法引入到煤礦井下行人檢測復(fù)雜場景中,并借鑒殘差密集網(wǎng)絡(luò)提取特征過程的連續(xù)記憶(continuous memory,CM)機(jī)制[16],通過加入殘差密集塊來減少在特征提取過程中由于網(wǎng)絡(luò)深度增加而導(dǎo)致的特征信息丟失問題,利用卷積網(wǎng)絡(luò)中的多層特征,將更多的全局信息與局部信息融合,以此來解決因目標(biāo)遮擋而導(dǎo)致被檢測人員特征不足的問題。
當(dāng)行人被遮擋時(shí),從全局圖像中提取的特征都無法充分表征目標(biāo),因此不論是傳統(tǒng)方法還是深度學(xué)習(xí)方法的遮擋行人檢測,其主要思想都試圖從未被遮擋的局部圖像中提取到更多特征信息來預(yù)測行人位置。傳統(tǒng)的深度學(xué)習(xí)模型網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)單一,每一層的特征輸入都來自于上一層的輸出,且會(huì)隨著網(wǎng)絡(luò)深度的增加導(dǎo)致局部信息出現(xiàn)丟失,進(jìn)而影響對(duì)遮擋行人的預(yù)測。本文在YOLOv4算法的基礎(chǔ)上加以改進(jìn),針對(duì)局部信息在逐層提取過程中出現(xiàn)丟失的問題,在CSPDarknet-53特征提取網(wǎng)絡(luò)中引入了殘差密集塊(residual dense block,RDB),實(shí)現(xiàn)特征的跨層傳遞。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。殘差密集塊內(nèi)的每一層都能夠接收到前層特征的直接傳遞,同時(shí)殘差密集塊之間也形成了特征傳遞的連續(xù)記憶機(jī)制(CM),這種機(jī)制使相鄰RDB之間的各層能夠跨模塊直接傳遞不同層級(jí)之間的特征,從信息流通角度來看,這種連續(xù)記憶機(jī)制通過將特征不斷地跨層融合,連續(xù)的連接保證了低級(jí)和高級(jí)特征信息存儲(chǔ)和記憶,使特征提取過程中易丟失的信息得以保留。融合全部的密集信息特征后,有效的局部特征能夠更加準(zhǔn)確地預(yù)測被遮擋行人的信息。
圖1 RDB-YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of RDB-YOLOv4 network
YOLOv4模型由Bochkovskiy等[17]提出,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,該模型在保持原有YOLO目標(biāo)檢測結(jié)構(gòu)的基礎(chǔ)上使用了多種優(yōu)化策略,在特征提取網(wǎng)絡(luò)中采用CSPDarknet-53結(jié)構(gòu),將基礎(chǔ)層的特征提取過程分割為兩部分,分割形成的梯度流豐富了其梯度組合,減小特征提取過程中的計(jì)算量。特征融合階段使用SPP模塊和PAN的方式進(jìn)一步提高特征融合的能力,損失函數(shù)則采用CIOU_Loss進(jìn)一步將預(yù)測框與目標(biāo)框之間的長寬比、重疊面積和中心距離等因素考慮在內(nèi)。
圖2 YOLOv4算法結(jié)構(gòu)Fig.2 Structure of YOLOv4 algorithm
更深層的卷積神經(jīng)網(wǎng)絡(luò),具有更強(qiáng)的特征表達(dá)和逐層學(xué)習(xí)的能力,但深層網(wǎng)絡(luò)帶來的梯度不穩(wěn)定和計(jì)算量驟增的問題嚴(yán)重影響其網(wǎng)絡(luò)性能。對(duì)此CSPDarknet-53在Darknet-53的基礎(chǔ)上融合了CSPNet跨階段局部網(wǎng)絡(luò)的特點(diǎn),通過跨階段的分層結(jié)構(gòu)將梯度流進(jìn)行分割,從而達(dá)到豐富梯度流,減小計(jì)算量的目的。CSPDarknet-53由5個(gè)CSP模塊共同構(gòu)成主干結(jié)構(gòu)。單個(gè)CSP模塊(交叉階段部分連接)結(jié)構(gòu)如圖3所示。CSP模塊將基礎(chǔ)層的特征映射劃分成了兩部分,通過分開梯度流,使梯度流在不同的網(wǎng)絡(luò)路徑中進(jìn)行傳播,再通過跨階段層次結(jié)構(gòu)將這兩部分拼接。經(jīng)過上述變換后,傳播的梯度信息產(chǎn)生較大的相關(guān)差異,在減少計(jì)算量的同時(shí)能保持準(zhǔn)確性。
圖3 CSP模塊結(jié)構(gòu)圖Fig.3 Structure diagram of CSP module
Zhang等[16]針對(duì)圖像超分辨率問題,提出殘差密集網(wǎng)絡(luò)(residual dense net)來利用原始圖像的分層特征為重構(gòu)提供更多線索。本文借鑒了殘差密集網(wǎng)絡(luò)中提取多層特征的方式,采用多個(gè)殘差密集塊(RDB)來改進(jìn)原特征提取網(wǎng)絡(luò),使圖像的有效特征能夠在特征提取過程中直接傳遞至深層并融合,改善了層與層之間的信息交流方式,減少了特征提取過程中的信息丟失問題。
殘差密集塊結(jié)構(gòu)示意圖如圖4所示。每個(gè)殘差密集塊內(nèi)包含密集連接和局部的殘差連接,使得塊內(nèi)的每一個(gè)卷積層都可以直接訪問所有的后續(xù)層,有效信息直接傳遞,同時(shí)不同于密集網(wǎng)絡(luò)(DenseNet)中將每一個(gè)密集塊的輸出直接拼接,在RDB中利用1×1的卷積層自適應(yīng)地融合不同層的特征,形成局部特征融合(LFF)。第a個(gè)殘差密集塊的表達(dá)式為:
圖4 殘差密集塊結(jié)構(gòu)圖Fig.4 Structure diagram of residual dense block
其中,F(xiàn)a0為殘差密集塊的初始輸入,F(xiàn)a1,Fa2,…,Fan為該殘差塊內(nèi)不同層的特征,σ為ReLU激活函數(shù),W則表示卷積層的權(quán)重,F(xiàn)an,LF表示為1×1卷積處理后融合的局部特征。公式(1)表達(dá)了不同層特征密集連接的過程。公式(2)則將局部特征融合后與淺層特征進(jìn)行殘差連接,得到該殘差密集塊的最終特征。殘差密集塊與塊之間的特征也遵循這樣連接方式,上一個(gè)RDB的輸出可以直接訪問下一個(gè)RDB的各層,傳遞需要保留的信息,形成狀態(tài)的連續(xù)傳遞。最終將多個(gè)殘差密集塊輸出的結(jié)果用1×1的卷積層自適應(yīng)融合,利用3×3的卷積層做進(jìn)一步的特征提取,得到該尺度下的特征信息。
整個(gè)RDB-YOLOv4特征提取網(wǎng)絡(luò)模型共分為5組CSP卷積層模塊。以608×608圖像大小為例。在原網(wǎng)絡(luò)中,YOLOv4針對(duì)76×76、38×38、19×19三個(gè)分辨率進(jìn)行多尺度預(yù)測。由于深層網(wǎng)絡(luò)中包含較豐富的語義信息,提取到的特征更具有代表性,同時(shí)為了避免大量殘差密集連接帶來的計(jì)算復(fù)雜度,故本文只對(duì)38×38和19×19兩個(gè)分辨率大小的卷積過程改進(jìn)為殘差密集塊。原始圖像以RGB三通道圖像輸入至RDB-YOLOv4網(wǎng)絡(luò)模型中,利用3×3步長為2的卷積核對(duì)其進(jìn)行卷積操作。將卷積后的特征圖依次送入5個(gè)CSP模塊中,其中對(duì)304×304、152×152、76×76圖像大小進(jìn)行卷積拼接操作的為原YOLOv4的CSP模塊,每個(gè)CSP模塊中殘差塊的數(shù)量分別為1、2、8,卷積層之間呈線性連接;38×38、19×19圖像大小的特征圖則進(jìn)入改進(jìn)后的CSP殘差密集模塊,其數(shù)量分別為8、4,殘差密集塊內(nèi)的不同卷積層通過1×1卷積自適應(yīng)的保存密集連接后的信息,以此來提取局部密集特征。再將融合后的局部密集特征與淺層特征進(jìn)行殘差連接,輸出得到該殘差密集塊的最終特征信息。
淺層卷積特征感受野較小,缺乏足夠的語義信息,但通常包含較多的位置信息,而深層特征雖然對(duì)位置信息不夠敏感,但因其感受野較大,蘊(yùn)含了豐富的語義信息。為了克服采用單一尺度特征預(yù)測帶來的局限性,YOLOv4中采用SPP+PANet結(jié)構(gòu)對(duì)深、淺層特征進(jìn)行融合,使其融合深淺層后的語義信息特征和空間信息特征都得到表達(dá)。
本文基于YOLOv4算法模型,將提取到的低、中、高三個(gè)層次的特征信息采用PANet[18]的結(jié)構(gòu)來進(jìn)行多尺度特征融合:高層次的特征圖通過卷積操作將512個(gè)通道數(shù)減少為3×(4+1+類別數(shù)),即18個(gè);同理中、低層次的特征圖也分別對(duì)其通道數(shù)減少至18個(gè),相同通道數(shù)的高、中、低層次特征圖融合后在此基礎(chǔ)上進(jìn)行回歸,計(jì)算預(yù)測框與真實(shí)框的IOU(交并比)并通過Soft-NMS[19](軟非極大抑制)刪除低于閾值的預(yù)測框,實(shí)現(xiàn)對(duì)井下行人的預(yù)測。
本文在Keras(Tensorflow backend)框架下完成對(duì)RDB-YOLOv4網(wǎng)絡(luò)模型訓(xùn)練和驗(yàn)證?;?4位的Windows操作系統(tǒng),開發(fā)語言為Python3.6版本。硬件環(huán)境:CPU處理器為Intel?Core?i7-8565 CPU@3.4 GHz,內(nèi)存8.00 GB,GPU處理器為GeForce RTX 1080Ti的獨(dú)立顯卡。
為了驗(yàn)證RDB-YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)的可行性及對(duì)井下有遮擋行人檢測方面性能的有效性,本文采用了兩類數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):(1)標(biāo)準(zhǔn)數(shù)據(jù)集VOC2007;(2)煤礦井下行人數(shù)據(jù)集。兩種數(shù)據(jù)集的具體數(shù)量如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental data set
標(biāo)準(zhǔn)數(shù)據(jù)集VOC2007:VOC2007數(shù)據(jù)集中圖像具有較為復(fù)雜的背景,能夠表示現(xiàn)實(shí)中的真實(shí)場景。VOC2007數(shù)據(jù)集包含20個(gè)類別,而本實(shí)驗(yàn)只針對(duì)行人目標(biāo)進(jìn)行檢測,故通過數(shù)據(jù)清洗提取了該數(shù)據(jù)集中所有標(biāo)注類別為Person類的標(biāo)注圖像作為數(shù)據(jù)集。
煤礦井下行人數(shù)據(jù)集:該數(shù)據(jù)集取自某煤礦井下監(jiān)控視頻,符合煤礦井下實(shí)際工作狀況。受大型設(shè)備遮擋、拍攝角度局限等影響,井下員工在不同工作場景下均具有難以檢測的問題,以此作為實(shí)驗(yàn)數(shù)據(jù)集更能凸顯本文網(wǎng)絡(luò)在檢測精確度和檢測效率上的優(yōu)越性。
煤礦井下行人數(shù)據(jù)集采用YOLO_Mark標(biāo)注工具進(jìn)行標(biāo)注。目前主流的訓(xùn)練方法是在Imagenet數(shù)據(jù)集[20]進(jìn)行模型的預(yù)訓(xùn)練,然后再在PASCAL VOC或其他數(shù)據(jù)集上進(jìn)行微調(diào)。由于預(yù)訓(xùn)練過程需要耗費(fèi)大量的時(shí)間,本文直接加載RDB-YOLOv4模型在PASCAL VOC數(shù)據(jù)集和井下行人數(shù)據(jù)集上,并通過兩階段的訓(xùn)練方式進(jìn)行訓(xùn)練。整個(gè)訓(xùn)練過程初始輸入圖像大小為608×608,第一階段凍結(jié)模型前249層網(wǎng)絡(luò)層,初始學(xué)習(xí)率為0.000 1,訓(xùn)練輪次(epoch)為80次,batch_size設(shè)置為4。第二階段訓(xùn)練所有的網(wǎng)絡(luò)層,初始學(xué)習(xí)率為0.000 01,輪次設(shè)置為60次,batch_size保持不變。兩階段訓(xùn)練過程均采用學(xué)習(xí)率衰減函數(shù)和提前終止機(jī)制(early stopping),學(xué)習(xí)率衰減為余弦退火衰減法下降方式,并輔以提前終止機(jī)制(early stopping)防止訓(xùn)練過擬合,使損失值始終保持在全局最小值區(qū)域。
為了驗(yàn)證改進(jìn)模型檢測效果的有效性和可行性,本文在VOC行人數(shù)據(jù)集中進(jìn)行了Repulsion Loss[14]算法、CenterNet-Keypoint[21]算法、CenterNet-Triplets[22]算法、CenterPoint-3D[23]算法和YOLOv4算法實(shí)驗(yàn),并參考了其他文獻(xiàn)[24]在VOC行人數(shù)據(jù)集上的檢測結(jié)果,將RDBYOLOv4與當(dāng)前優(yōu)異的目標(biāo)檢測算法進(jìn)行測試比較,結(jié)果表明本文算法與當(dāng)前主流目標(biāo)檢測算法相比,其平均精度(AP)有所提高,具體結(jié)果如表2所示。
表2 PASCAL VOC行人數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Experimental results of PASCAL VOC 2007 pedestrian data set
本文算法的平均精確度(AP)普遍高于對(duì)比的單階段和雙階段算法。Faster R-CNN平均精確度為79.1%,SSD512是基于高斯金字塔結(jié)構(gòu)的單階段目標(biāo)檢測算法,其平均精確度為80.2%,兩種算法平均精確度均低于本文算法。Repulsion Loss是基于優(yōu)化損失函數(shù)的方式解決行人間自遮擋問題的檢測算法,由于VOC行人數(shù)據(jù)集中也存在大量行人間遮擋現(xiàn)象,所以本文算法平均精確度相較于Repulsion Loss提升不明顯,Repulsion Loss平均精確度為93.97%,本文的算法較其提高0.3個(gè)百分點(diǎn)。CenterNet-Keypoint、CenterNet-Triplets、YOLOv4都是基于回歸思想的最新檢測算法,RDB-YOLOv4整體的平均精度對(duì)比CenterNet-Keypoint提高3.21個(gè)百分點(diǎn),比CenterNet-Triplets提高了1.23個(gè)百分點(diǎn),比YOLOv4算法提高了約2.74個(gè)百分點(diǎn),同時(shí)雖然增長了對(duì)單幅圖像的處理速度,但依然滿足實(shí)時(shí)監(jiān)測的要求。CenterPoint-3D是延續(xù)CenterNet-Keypoint思想的3D目標(biāo)檢測算法,檢測效果依賴于深度信息和旋轉(zhuǎn)角度的有效學(xué)習(xí),本文的算法較其提高了2.14個(gè)百分點(diǎn)。
圖5為RDB-YOLOv4和YOLOv4在VOC行人數(shù)據(jù)集中的實(shí)驗(yàn)效果對(duì)比圖。第一組對(duì)比實(shí)驗(yàn)中,與YOLOv4預(yù)測效果相比,RDB-YOLOv4模型能夠檢測出更多目標(biāo)數(shù)量。第二組對(duì)比實(shí)驗(yàn)中,由于汽車對(duì)檢測行人造成了嚴(yán)重遮擋,YOLOv4在檢測過程中只檢測出了1位行人,出現(xiàn)了漏檢情況,而RDB-YOLOv4檢測出所有目標(biāo)行人,表明改進(jìn)后的模型能有效改善因遮擋物而導(dǎo)致的行人漏檢問題。
圖5 兩種模型檢測效果對(duì)比圖Fig.5 Comparison in detection effects of two models
使用煤礦井下行人數(shù)據(jù)集在相同實(shí)驗(yàn)環(huán)境下,重新對(duì)各類算法進(jìn)行訓(xùn)練實(shí)驗(yàn),并通過相同的測試集對(duì)其模型進(jìn)行評(píng)估。本文提出的RDB-YOLOv4模型在煤礦井下行人數(shù)據(jù)集上檢測效果P-R曲線如圖6所示,測試集平均精確度AP50為98.56%。
圖6 RDB-YOLOv4 P-R曲線圖Fig.6 P-R curve of RDB-YOLOv4
各算法的實(shí)驗(yàn)結(jié)果如表3所示,為保證預(yù)測框的精準(zhǔn)性,井下行人數(shù)據(jù)集采用不同IOU閾值的平均精度AP50、AP75作為其評(píng)價(jià)指標(biāo),其中AP50為常用指標(biāo),而在工程應(yīng)用中通常要求IOU達(dá)到0.75,即AP75為嚴(yán)格測試指標(biāo)。
表3 井下行人數(shù)據(jù)集平均精確度(AP)Table 3 Mean accuracy of underground pedestrian data set(AP)
由表3實(shí)驗(yàn)結(jié)果可知,RDB-YOLOv4模型在平均精度(AP)這一評(píng)價(jià)指標(biāo)上相較于其他對(duì)比算法有所提升。在IOU閾值為0.75時(shí),RDB-YOLOv4平均精度為90.36%,分別高于目標(biāo)檢測算法CenterNet-Keypoint、CenterNet-Triplets和YOLOv4平均精度4.97個(gè)百分點(diǎn)、2.44個(gè)百分點(diǎn)、1.63個(gè)百分點(diǎn),高于處理行人自遮擋的檢測算法Repulsion Loss平均精度0.62個(gè)百分點(diǎn),高于CenterPoint-3D平均精度4.86個(gè)百分點(diǎn);當(dāng)IOU閾值為0.5時(shí),RDB-YOLOv4算法平均精度為98.56%,較CenterNet-Keypoint、CenterNet-Triplets、YOLOv4提高了4.73個(gè)百分點(diǎn)、3.16個(gè)百分點(diǎn)、3.5個(gè)百分點(diǎn),較Repulsion Loss提高了2.4個(gè)百分點(diǎn),較CenterPoint-3D提高了4.54個(gè)百分點(diǎn)。實(shí)驗(yàn)表明本文模型綜合殘差密集網(wǎng)絡(luò)能夠提取到更豐富的行人基本結(jié)構(gòu)特征,對(duì)井下被大型設(shè)備遮擋的行人具有較好的檢測效果。同時(shí),由于融合了殘差密集塊的YOLOv4網(wǎng)絡(luò)增加了特征提取的復(fù)雜程度和計(jì)算代價(jià),檢測速度較CenterNet-Keypoint、CenterNet-Triplets和YOLOv4算法減慢了約0.03~0.04 s/frame,平均檢測速度為0.12 s/frame。但對(duì)比Repulsion Loss算法,由于主干網(wǎng)絡(luò)的差異,RDB-YOLOv4檢測速度上仍遠(yuǎn)快于Repulsion Loss。CenterPoint-3D因加入了3DCNN模塊,同時(shí)要對(duì)旋轉(zhuǎn)角度和深度信息進(jìn)行學(xué)習(xí),RDB-YOLOv4算法對(duì)比其檢測速度仍具有領(lǐng)先性。綜合而言,在略微犧牲檢測速度的情況下,RDB-YOLOv4模型對(duì)比當(dāng)前主流目標(biāo)檢測模型在平均檢測精度上具有優(yōu)勢(shì),從而驗(yàn)證了本文模型在提升檢測精度的同時(shí)沒有造成過多的時(shí)間成本代價(jià),具備對(duì)井下有遮擋行人檢測的有效性和應(yīng)用價(jià)值。
對(duì)比在公開數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn),RDB-YOLOv4在煤礦井下行人數(shù)據(jù)集中測試的平均精度更高,其主要原因?yàn)閮牲c(diǎn):(1)井下行人數(shù)據(jù)集為特定工作場景,多數(shù)訓(xùn)練集和測試集均取自同一工作地點(diǎn),其圖像背景更為單一。在淺層特征提取時(shí),相似的紋理和圖案信息減少了檢測過程中誤識(shí)別的概率。(2)井下行人數(shù)據(jù)集由于其場景的特殊性,出現(xiàn)人與人之間互相遮擋而造成的誤檢和漏檢情況要遠(yuǎn)少于VOC2007數(shù)據(jù)集。
為了更直觀地展示本文算法的實(shí)驗(yàn)效果,圖7挑選了4組改進(jìn)前后的YOLOv4算法在井下行人數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果。從第一組對(duì)比實(shí)驗(yàn)可以看出,與YOLOv4算法相比,本文算法在行人被設(shè)施嚴(yán)重遮擋后依然可以檢測出圖中行人;在第二組對(duì)比實(shí)驗(yàn)中存在目標(biāo)與目標(biāo)之間遮擋、目標(biāo)與非目標(biāo)之間遮擋的干擾情況,YOLOv4算法雖檢測出被設(shè)備部分遮擋的行人,卻漏檢了被他所遮擋住的行人,本文算法提取到相互遮擋的兩人之間不同的特征,完整檢測出圖中的兩個(gè)人;第三組和第四組對(duì)比實(shí)驗(yàn)均為不同場景下多檢測目標(biāo),YOLOv4算法在被遮擋人只露出部分特征的情況下均出現(xiàn)了漏檢情況,而RDB-YOLOv4算法能檢測出的目標(biāo)數(shù)量更完整,這表明本算法在實(shí)際應(yīng)用中具有可行性,達(dá)到了預(yù)期效果。
圖7改進(jìn)的YOLOv4與YOLOv4檢測效果對(duì)比Fig.7 Comparison of improved YOLOv4 and YOLOv4 detection results
以YOLOv4算法為基礎(chǔ),RDB-YOLOv4算法利用殘差網(wǎng)絡(luò)和密集網(wǎng)絡(luò)在特征提取上的特點(diǎn),淺層與深層特征的直接結(jié)合以形成連續(xù)的記憶機(jī)制(CM),以此來減少特征提取中由于網(wǎng)絡(luò)深度增加而導(dǎo)致的逐層信息丟失的問題。實(shí)驗(yàn)結(jié)果表明,RDB-YOLOv4算法在VOC2007數(shù)據(jù)集和井下行人數(shù)據(jù)集中的平均檢測精度(AP)均有提升且較為穩(wěn)定。該算法能有效減少井下被遮擋行人在目標(biāo)檢測中易出現(xiàn)漏檢、誤檢的問題,在實(shí)際應(yīng)用中具有良好的檢測效果和使用價(jià)值。但本文算法針對(duì)目標(biāo)之間相互遮擋的檢測不夠精準(zhǔn),同時(shí)在井下光照環(huán)境復(fù)雜情況下,檢測效果也有待提高。后續(xù)研究將著眼于這些不足,進(jìn)一步進(jìn)行算法優(yōu)化,提高模型的魯棒性。