李政謙 劉 暉
(北京華電天仁電力控制技術(shù)有限公司 北京 100039)
佩戴安全帽是一項(xiàng)防止腦部損傷的措施。研究表明,在建筑工地及巡檢現(xiàn)場中,有接近90%的腦損傷是因?yàn)闆]有正確地佩戴安全帽引起[1],有必要對相關(guān)人員的安全帽佩戴進(jìn)行檢測,降低相關(guān)事故發(fā)生率。
早期,施工及巡檢現(xiàn)場通常會有專責(zé)的安全監(jiān)督人員對工人們的安全帽佩戴情況進(jìn)行檢測,但這種方式難以全方位監(jiān)督,無法保證監(jiān)督的有效性。因此,相關(guān)單位為了能夠?qū)崟r(shí)監(jiān)督施工及巡檢現(xiàn)場并降低監(jiān)督成本,存在安全帽佩戴檢測的實(shí)際需求。
一般的目標(biāo)檢測方法僅需在圖片上判斷是否存在檢測目標(biāo),并獲得目標(biāo)數(shù)量,標(biāo)記目標(biāo)位置。對于安全帽佩戴檢測算法,在此基礎(chǔ)上還要求針對動態(tài)視頻實(shí)時(shí)識別、深度優(yōu)化,達(dá)到較高的識別跟蹤精度;對光線、陰天等不同環(huán)境適應(yīng)性強(qiáng),且不受人員眼鏡、胡須、發(fā)型、表情等遮擋影響;也不受到人員正面、背面、側(cè)面、跑動、低頭等不同姿態(tài)影響。近年來,研究人員在基于傳感器與基于圖像處理等兩種檢測方式上對安全帽佩戴檢測做了很多具有創(chuàng)新性的研究工作。
基于傳感器的識別主要通過定位技術(shù)來采集人、材、機(jī)的位置信息,提供給安全識別系統(tǒng)進(jìn)行綜合風(fēng)險(xiǎn)評價(jià)[2-5]。由于定位精度不高以及大量的設(shè)備投入并且存在一定程度的健康隱患,傳感器識別技術(shù)在實(shí)際現(xiàn)場中很難進(jìn)行推廣。
研究人員也嘗試通過圖形處理進(jìn)行安全帽檢測,主要分為對安全帽的形狀特征[6]、顏色特征[7-9]、邊緣特征[10]、特征表示和分類器相結(jié)合[11]等四類進(jìn)行檢測。但基于圖像處理的安全帽檢測需要手動構(gòu)建大量的特征,檢測速度慢、準(zhǔn)確率低等問題使得其不適用于復(fù)雜性較高的施工及巡檢現(xiàn)場。
由于傳統(tǒng)目標(biāo)檢測算法存在以上缺點(diǎn),無法達(dá)到安全帽佩戴檢測實(shí)際需求,基于深度學(xué)習(xí)的檢測算法依靠其網(wǎng)絡(luò)簡單、檢測速度快準(zhǔn)確性高等特點(diǎn)超過傳統(tǒng)檢測算法,成為當(dāng)前安全帽佩戴檢測方面的主流算法。
(1) 檢測速度fps(Frames per second):每秒能夠檢測的圖片數(shù)量。
(2) 交并比IOU(Intersection over Union):預(yù)測邊框與實(shí)際邊框的交集和并集的比值。
(1)
式中:Bp為預(yù)測邊框;Bg為實(shí)際邊框。
(3) 準(zhǔn)確率P(Precision):
(2)
式中:TP是預(yù)測正確的正樣本的數(shù)量;FP是將負(fù)樣本預(yù)測成正樣本的數(shù)量。
(4) 召回率R(Recall):
(3)
式中:FN是將正樣本預(yù)測為負(fù)樣本的數(shù)量。
(5) 平均準(zhǔn)確率AP(average precision):
(4)
式中:t是在不同IOU下曲線的召回率,比如當(dāng)t=0.7時(shí),只有IOU≥0.7才被認(rèn)為是正樣本。
(6) 平均準(zhǔn)確率均值mAP(mean average precision):
(5)
式中:N為種類數(shù)量。
基于深度學(xué)習(xí)的目標(biāo)檢測算法可分為基于分類的目標(biāo)檢測算法和基于回歸的目標(biāo)檢測算法。基于分類的目標(biāo)檢測算法也稱為兩階段目標(biāo)檢測(two-stage),首先針對圖像中目標(biāo)物體位置,預(yù)先提出候選區(qū)域,然后微調(diào)候選區(qū)并輸出檢測結(jié)果。
文獻(xiàn)[13]提出的R-CNN(Regions with CNN features)是將卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于目標(biāo)檢測的開端,如圖1所示,其首先是利用選擇性搜索(Selective Search)[14]生成2 000個(gè)候選區(qū)域并轉(zhuǎn)換成指定大小,然后送入CNN模型中得到一個(gè)特征向量,最后使用SVM進(jìn)行分類并得到目標(biāo)區(qū)域。
圖1 R-CNN流程圖
其在PASCAL VOC 2010數(shù)據(jù)集上準(zhǔn)確率達(dá)到了53.7%,與之前各算法相比獲得了巨大的提升,但仍然存在著計(jì)算時(shí)間長、無效計(jì)算多、占用空間大等缺點(diǎn)。隨后文獻(xiàn)[15]提出了空間金字塔池化層(Spatial Pyramid Pooling,SPP)解決R-CNN中重復(fù)卷積的問題。同年Girshick提出的Fast R-CNN[16]修正了R-CNN和SPP-net的缺點(diǎn),比如減少了訓(xùn)練步驟且不再將特征保存在磁盤,提高了速度和準(zhǔn)確性。但Fast R-CNN在提取區(qū)域候選框時(shí)仍使用Selective Search算法,檢測速度仍然較慢。因此,以上算法對安全帽等小目標(biāo)的識別準(zhǔn)確率及檢測速度并不能很好地滿足工程使用,直到文獻(xiàn)[17]提出了Faster R-CNN,研究人員開始大量使用并改進(jìn)該方法應(yīng)用于安全帽檢測領(lǐng)域。
Faster R-CNN算法用候選區(qū)域生成網(wǎng)絡(luò)(RPN)代替了選擇性搜索算法,提高了算法的檢測速度和準(zhǔn)確率。Faster R-CNN流程如圖2所示,首先,提取照片的特征。然后使用CNN方法對整幅圖像進(jìn)行處理,利用幾個(gè)卷積層和最大池化層生成卷積特征圖。特征圖被后續(xù)RPN層和全連接層共享。然后使用區(qū)域生成網(wǎng)絡(luò)(RPN)生成候選區(qū)域。之后進(jìn)入ROI池化層,收集輸入的特征圖和候選區(qū)域并池化為固定大小,送入全連接層。最后是Fast R-CNN檢測器,它利用候選區(qū)域和相應(yīng)的被提取的特征對候選區(qū)域是否是戴安全帽的工人進(jìn)行分類。
圖2 Faster R-CNN流程圖
Faster R-CNN能夠很好地處理復(fù)雜環(huán)境,可以自動學(xué)習(xí)特征,無須手動建立各種人體姿態(tài)模型,相比上文模型其擁有更高的準(zhǔn)確率和檢測速度,滿足了各種建筑工地的實(shí)際安全監(jiān)控要求。
在安全帽檢測領(lǐng)域研究中,文獻(xiàn)[18]使用Faster R-CNN+ZFNet的組合搭建了安全帽檢測系統(tǒng),該系統(tǒng)能夠?qū)崟r(shí)識別監(jiān)控視頻中的人員和頭盔,mAP高達(dá)90.3%,每幅圖像的檢測時(shí)間高達(dá)27幀/秒。Fang等[19]提出了一種基于快速R-CNN的遠(yuǎn)場監(jiān)控檢測方法,從25個(gè)不同建筑工地的遠(yuǎn)場監(jiān)控視頻中隨機(jī)選擇了超過10萬幅建筑工人圖像幀,實(shí)驗(yàn)結(jié)果表明,該方法檢測精度高,能有效地檢測不同施工現(xiàn)場條件下施工人員的安全帽佩戴情況,有利于改進(jìn)安全檢查和監(jiān)督。王悅[20]改進(jìn)Faster R-CNN的算法訓(xùn)練過程同時(shí)對YOLO、SSD相關(guān)深度學(xué)習(xí)檢測算法進(jìn)行測試對比,獲得了更高的準(zhǔn)確率。王忠玉[21]通過分層預(yù)測特征金字塔的多層特征改進(jìn)了Faster R-CNN,設(shè)計(jì)了一種安全帽佩戴檢測算法(FMP-net),其效果優(yōu)于Faster R-CNN和SSD等算法。2019年,文獻(xiàn)[22]使用了EspiNet V2模型,改進(jìn)了Faster R-CNN的CNN部分,獲得了一個(gè)6層(4卷積)的簡單CNN網(wǎng)絡(luò),減少了一定的參數(shù)量。該模型能夠從低角度和移動攝像機(jī)拍攝且存在一定遮擋的情況下獲得88.8%的mAP。徐守坤等[23]通過在Faster R-CNN增加錨點(diǎn)以及使用多尺度訓(xùn)練來增強(qiáng)不同尺寸目標(biāo)在檢測送的魯棒性,同時(shí)增加在線困難樣本挖掘策略用以防止正負(fù)樣本不均衡問題,最后采用多部件結(jié)合方法剔除誤檢目標(biāo)。Wang等[24]研究了建筑工地在有遮擋、重疊以及工人衣著反光等情況,使用改進(jìn)后的Faster R-CNN對目標(biāo)進(jìn)行檢測,獲得了較高的檢測精度。
由于Faster R-CNN仍然存在檢測速度較慢的情況,Dai等[25]在此基礎(chǔ)上設(shè)計(jì)出了R-FCN,基于區(qū)域的全卷積網(wǎng)絡(luò)(region-based fully convolutional network,R-FCN)是一種利用全卷積網(wǎng)絡(luò)進(jìn)行目標(biāo)分類識別的網(wǎng)絡(luò),它適用于復(fù)雜背景中廣泛存在的小目標(biāo)的識別。其流程圖如圖3所示。
圖3 R-FCN流程圖
首先輸入圖像經(jīng)過一個(gè)全卷積網(wǎng)絡(luò)(ResNet),然后一方面在最后一個(gè)卷積層后面添加特殊的卷積層生成位置敏感得分圖(position-sensitive score map),另一方面全卷積網(wǎng)絡(luò)的某個(gè)卷積層輸出作為RPN網(wǎng)絡(luò)的輸入,RPN網(wǎng)絡(luò)最后生成ROI。最后的ROI池化層將前面的得分圖和ROI作為輸入,并輸出類別信息。R-FCN在整幅圖像上共享計(jì)算,減少了參數(shù)冗余,并利用位置敏感得分圖,解決了圖像分類平移不變性和目標(biāo)檢測平移變化之間的矛盾,在ImageNet上取得了較好的識別分類結(jié)果。
在安全帽檢測領(lǐng)域研究中,文獻(xiàn)[26]使用基于區(qū)域的全卷積網(wǎng)絡(luò)(R-FCN)進(jìn)行深度學(xué)習(xí),R-FCN是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和轉(zhuǎn)移學(xué)習(xí)技術(shù)的對象檢測算法之一。對來自ImageNet的1 089幅人體和安全帽圖像進(jìn)行學(xué)習(xí),測量人體和安全帽的mAP分別為0.86和0.83。Wang等[27]提出了一種基于區(qū)域全卷積網(wǎng)絡(luò)(R-FCN)的多類檢測器來實(shí)現(xiàn)對多目標(biāo)的檢測和定位。然后根據(jù)檢測結(jié)果對工人或設(shè)備進(jìn)行二次分析,識別出違規(guī)類型和缺陷類型。
盡管經(jīng)過多次改良,兩階段檢測算法大幅提高了檢測準(zhǔn)確率與速度,但由于兩階段檢測存在提取候選區(qū)域的過程,檢測速度難以滿足部分現(xiàn)場需求,因此研究人員開發(fā)出單階段(one-stage)算法,將整個(gè)檢測過程簡化為一次端對端的檢測。
文獻(xiàn)[28]提出YOLO(You Only Look Once)算法,使用回歸的思想來處理物體檢測(object detection)問題,用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對輸入的圖片進(jìn)行卷積運(yùn)算,進(jìn)而降低圖片數(shù)據(jù)的維度,進(jìn)行特征提取,能夠直接預(yù)測邊界框(bounding box)的位置以及類別。結(jié)構(gòu)上將多步檢測優(yōu)化為統(tǒng)一檢測,提高了模型的運(yùn)行速度,既可以直接學(xué)習(xí)圖像的全局信息,也可以端對端訓(xùn)練。圖4所示為YOLO的流程圖。
圖4 YOLO流程圖
但YOLO存在兩點(diǎn)不足之處,一是定位不準(zhǔn)確,二是和基于分類的檢測方法相比召回率較低。
在安全帽檢測領(lǐng)域研究中,劉君等[29]設(shè)計(jì)了一種改進(jìn)的YOLO網(wǎng)絡(luò)結(jié)構(gòu),將RPN檢測算法融入到Y(jié)OLO算法中,并借鑒R-FCN算法,去掉一個(gè)全連接層,在卷積層上進(jìn)行滑動窗口操作,采用先池化再卷積的方法,以減少圖片特征丟失。該模型在準(zhǔn)確率與檢測速度上都取得滿意的結(jié)果。Hung等[30]提出了一種基于YOLO算法的實(shí)時(shí)防護(hù)裝備圖像檢測方法,并為此建立一個(gè)建筑工地6種常見防護(hù)設(shè)備的圖像數(shù)據(jù)庫。實(shí)驗(yàn)表明該模型在準(zhǔn)確率上較好的檢測結(jié)果,未來將在檢測速度上加以優(yōu)化。
2016年Redmon等[31]引入了一個(gè)先進(jìn)的實(shí)時(shí)目標(biāo)檢測系統(tǒng)YOLOv2,其網(wǎng)絡(luò)結(jié)構(gòu)參照SSD和YOLO的網(wǎng)絡(luò)結(jié)構(gòu),為了解決YOLO在物體定位方面不夠準(zhǔn)確,并且召回率較低等缺點(diǎn),YOLOv2增加了批量正則化(Batch Normalization),使用了K-means聚類產(chǎn)生的錨點(diǎn)代替Faster R-CNN和SSD手工設(shè)計(jì)的錨點(diǎn)、高分辨率分類器(High Resolution Classifier)并使用Darknet-19為基礎(chǔ)模型進(jìn)行特征提取。YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 YOLOv2流程圖
在安全帽檢測領(lǐng)域研究中,2018年方明等[32]通過在以YOLOv2為基礎(chǔ)的模型中加入密集塊,實(shí)現(xiàn)了多層特征的融合以及淺層低語義信息與深層高語義信息的兼顧,提高了網(wǎng)絡(luò)對于小目標(biāo)檢測的敏感性,利用Mobilenet中的輕量化網(wǎng)絡(luò)結(jié)構(gòu)對網(wǎng)絡(luò)進(jìn)行壓縮,使模型的大小縮減為原來的十分之一,增加了模型的可用性。結(jié)果顯示:該模型的檢測準(zhǔn)確率為87.42%,稍遜色于YOLOv3,但是其檢測速度提升顯著達(dá)到148幀/s。文獻(xiàn)[33]通過改進(jìn)YOLOv2的網(wǎng)絡(luò)結(jié)構(gòu)來提高檢測速度,并使用強(qiáng)化連接來降低計(jì)算復(fù)雜度,使多層功能重用和融合。利用Tiny-YOLO-Density實(shí)現(xiàn)了電力施工現(xiàn)場違法行為監(jiān)測系統(tǒng)[34]。
在YOLOv2基礎(chǔ)上,2018年Redmon等[35]提出了YOLOv3算法,采用殘差網(wǎng)絡(luò)模型Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)代替了YOLOv2的Darknet-19,通過53個(gè)卷積層和5個(gè)最大池化層來提取特征,使用批量歸一化和dropout去除操作來防止過擬合,損失函數(shù)使用logistic代替了softmax等等。YOLOv3預(yù)檢測系統(tǒng)采用了多尺度訓(xùn)練,使用分類器多次執(zhí)行檢測任務(wù),將模型應(yīng)用于圖像的多個(gè)位置和比例,例如輸入為416×416像素時(shí)會融合13×13、26×26、52×52像素三個(gè)特征層。因此YOLOv3適用于小目標(biāo)檢測,其結(jié)構(gòu)圖如圖6所示。
圖6 YOLOv3流程圖
在安全帽檢測領(lǐng)域研究中,王秋余[36]提出基于YOLO的半監(jiān)督學(xué)習(xí)安全帽佩戴識別算法,實(shí)現(xiàn)了在保持準(zhǔn)確率不變的情況對樣本標(biāo)注與收集工作的簡化,并提高了小目標(biāo)的準(zhǔn)確率與模型的泛化能力,適用于施工現(xiàn)場工程需求的實(shí)時(shí)識別。該模型在一般場景條件視頻流的建筑工人與安全帽檢測準(zhǔn)確率在85.7%至93.7%之間。文獻(xiàn)[37]使用虛擬世界圖像集對YOLOv3進(jìn)行訓(xùn)練,所獲得的性能比僅使用少量真實(shí)圖像對現(xiàn)有網(wǎng)絡(luò)進(jìn)行微調(diào)以適應(yīng)當(dāng)前場景要高得多。文獻(xiàn)[38]研究了YOLO相關(guān)算法,建立基于YOLOv3的最優(yōu)模型,將深度殘差網(wǎng)絡(luò)技術(shù)與基于YOLOv3檢測算法的多尺度卷積特征相結(jié)合,結(jié)合多尺度檢測訓(xùn)練,調(diào)整訓(xùn)練過程中的損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,在滿足檢測速度的前提下,提高了安全帽佩戴檢測精度。施輝等[39]基于圖像金字塔結(jié)構(gòu)改進(jìn)原模型,融合連接不同層次的特征圖,得到3組預(yù)測特征圖進(jìn)行預(yù)測。在安全帽佩戴檢測任務(wù)中,檢測準(zhǔn)確率達(dá)到了92.13%,檢測速率提高到62幀/s,均高于原模型,準(zhǔn)確率相對Faster R-CNN較差,但檢測速度大幅提升。林俊等[40]針對未佩戴安全帽單類檢測問題,修改了分類器,將輸出修改為18維度的張量?;赮OLOv3在ImageNet上的預(yù)訓(xùn)練模型,平均檢測速度達(dá)到了35幀/s,但在重疊目標(biāo)上會出現(xiàn)漏檢現(xiàn)象。楊莉瓊等[41]提出一種將YOLOv3與HOG、SVM相結(jié)合的安全帽檢測方法,該方法對建筑工地上的識別有較高的準(zhǔn)確率。文獻(xiàn)[42]在目標(biāo)維度聚類、多尺度檢測、密集連接三個(gè)方面優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)并提出基于OpenPose算法施工人員姿態(tài)估計(jì)輔助的安全帽佩戴檢測方法,在干擾測試集中仍取得90.2%的準(zhǔn)確率和86.8%的召回率。但人體姿態(tài)估計(jì)模型檢測時(shí)間相對較長是作者之后需要解決的問題。文獻(xiàn)[43]以YOLOv3全回歸深度神經(jīng)網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),利用Densenet在模型參數(shù)和技術(shù)成本上的優(yōu)勢,代替YOLOv3網(wǎng)絡(luò)的主干進(jìn)行特征提取,形成YOLO-Densebackbone卷積神經(jīng)網(wǎng)絡(luò),改進(jìn)的算法檢測準(zhǔn)確率相對于原算法提高了2.44%。文獻(xiàn)[44]使用Kalman濾波和Hungarian匹配算法跟蹤人員軌跡,配合YOLOv3實(shí)現(xiàn)安全帽檢測,獲得了18幀/s的檢測速度和89%的準(zhǔn)確率。文獻(xiàn)[45]提出了一種基于YOLOv3模型的新型自動實(shí)時(shí)檢測方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崟r(shí)檢測未正確佩戴頭盔行為,且漏檢率低。
由于YOLO在定位精度上存在不足,提出SSD(Single Shot MultiBoxDetector)算法[46],采用VGG16作為基礎(chǔ)模型,增加了卷積層來獲取更多的特征圖,在此基礎(chǔ)上提出了特征金字塔結(jié)構(gòu),算法流程如圖7所示,輸入的圖片經(jīng)過CNN提取特征,抽取特征圖后生成錨框(default box),將生成的所有錨框都集合起來,置入到極大值抑制中,最后輸出結(jié)果。
圖7 SSD流程圖
在安全帽檢測領(lǐng)域研究中,文獻(xiàn)[47]采用谷歌發(fā)布的Inception模塊來替代原SSD中額外的VGG16層,同時(shí)改進(jìn)了SSD的輸出層,提高了SSD對視頻幀中小目標(biāo)的識別性能。文獻(xiàn)[48]分別訓(xùn)練了基于SSD的檢測模型,首先通過人臉識別檢測出現(xiàn)的人,再對行人區(qū)域進(jìn)行安全帽檢測。這種檢測方法在檢測準(zhǔn)確率與速度上都有很好的效果,使系統(tǒng)更具可靠性和實(shí)時(shí)性。李小偉[49]將SSD算法和Mobilenet網(wǎng)絡(luò)融合來獲得更加高效的目標(biāo)檢測網(wǎng)絡(luò),取得了mAP為89.4%的成績。文獻(xiàn)[50]為了更好地檢測小尺度的安全帽,將提出的逆向顯著檢測(RPA)集成到SSD框架中,將上下文信息有選擇地傳播回底層。實(shí)驗(yàn)結(jié)果表明,該模型在不同的輸入條件下均能獲得良好的性能。文獻(xiàn)[51]提出了改進(jìn)的Mobilenet-SSD模型作為目標(biāo)檢測模型,并對訓(xùn)練后的模型進(jìn)行了評價(jià),保證了模型的泛化。文獻(xiàn)[52]提出了一種有效的安全帽佩戴檢測系統(tǒng)。該系統(tǒng)基于SSD和一種新型的安全帽精密檢測模塊,并建立了一個(gè)適用于電站場景下的安全帽磨損檢測的圖像數(shù)據(jù)集。結(jié)果表明,該系統(tǒng)在檢測安全帽方面明顯優(yōu)于原始的SSD檢測器。并且檢測速度能達(dá)到21幀/s。
文獻(xiàn)[53]深入研究了現(xiàn)有的基于RCNN的兩階段檢測器與YOLO、SDD等單階段檢測器,發(fā)現(xiàn)類別不平衡是影響檢測效果的深層原因。對于單階段檢測器,這會導(dǎo)致分類器容易把生成的所有bbox歸類為背景,而原有的損失函數(shù)交叉熵?fù)p失(CE)容易導(dǎo)致分類器訓(xùn)練失敗,檢測準(zhǔn)確率較差。而兩階段檢測器檢測效果更好則是因?yàn)镽PN的錨點(diǎn)會進(jìn)行二分類,相對提高了準(zhǔn)確率,進(jìn)而提高了檢測精度。可以將原先訓(xùn)練回歸任務(wù)慣用的交叉熵誤差:
CE(pt)=-αtlog(pt)
(6)
改為FL(focal loss)來解決類別不平衡的問題。其中:
FL(pt)=-αt(1-pt)γlog(pt)
(7)
相比于原交叉熵誤差增加了權(quán)重系數(shù),使得類別少的檢測部分權(quán)重大幅提升,進(jìn)而提高了檢測精度。
RetinaNet本質(zhì)上是Resnet+FPN[54]+兩個(gè)FCN[55]子網(wǎng)絡(luò)。RetinaNet的流程圖如圖8所示。主干網(wǎng)絡(luò)作者使用ResNet-50與ResNet-101。同時(shí)使用FPN來強(qiáng)化ResNet中的多尺度特征,獲得具有較強(qiáng)尺度和信息的特征圖。最后在特征圖集合上,分別使用了兩個(gè)FCN子網(wǎng)絡(luò)來完成目標(biāo)框類別分類與位置回歸任務(wù)。
圖8 Retinanet流程圖
在安全帽檢測領(lǐng)域研究中,文獻(xiàn)[56]使用RetinaNet作為檢測算法,對快速移動物體的安全帽佩戴情況進(jìn)行檢測,在測試集上實(shí)現(xiàn)了72.3%的mAP,處理速度為14幀/s。
隨著近年來隨著深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測算法逐漸應(yīng)用到實(shí)際工程,安全帽識別的準(zhǔn)確率與檢測速度也有一定提升。所介紹的各檢測模型在VOC2007及COCO數(shù)據(jù)集上的檢測性能如表1所示。總體來看,在現(xiàn)有的應(yīng)用于安全帽檢測的模型中,Retinanet的mAP最高,Tiny YOLO的檢測速度最快,而YOLOv3兼顧了檢測準(zhǔn)確率與速度,綜合性能較高。本節(jié)總結(jié)了一些亟待解決的問題并討論了未來安全帽檢測算法可能的研究方向。
表1 各目標(biāo)檢測算法的檢測性能
(1) 當(dāng)前檢測算法多數(shù)基于有監(jiān)督學(xué)習(xí),大量使用手動標(biāo)記的特征,耗時(shí)耗力。且過于依賴訓(xùn)練數(shù)據(jù),使用現(xiàn)場安全帽佩戴檢測訓(xùn)練集訓(xùn)練出來的算法只針對單一場景,泛化能力較弱。
(2) 準(zhǔn)確率與檢測速度不能同時(shí)滿足使用條件,檢測精度高的模型檢測速度慢,如Retinanet,而檢測速度快的模型檢測精度低,如Tiny YOLO,無法既快又準(zhǔn)地滿足工程需求。
(3) 由于安全帽佩戴檢測需要對光線、陰天等不同環(huán)境適應(yīng)性強(qiáng),且不受人員遮擋及姿態(tài)影響,但當(dāng)前的檢測模型對小目標(biāo)、有重疊干擾等復(fù)雜場景的識別準(zhǔn)確率不夠,這導(dǎo)致在實(shí)際工程應(yīng)用上,安全帽佩戴檢測效果并不盡如人意。
(4) 深度學(xué)習(xí)憑借其深層網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)W習(xí)到復(fù)雜的特征,但如何準(zhǔn)確定位目標(biāo)位置仍是難點(diǎn),目前普遍采用的矩形框表示方法會包含一定量的背景區(qū)域,對施工現(xiàn)場等復(fù)雜場景并不完全適用。
(1) 無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。手動繪制大量的邊界框非常耗時(shí),為了減輕這一負(fù)擔(dān),可以集成無監(jiān)督對象發(fā)現(xiàn)[57]、多實(shí)例學(xué)習(xí)[58]和深度神經(jīng)網(wǎng)絡(luò)預(yù)測[59],充分利用圖像級監(jiān)督,將對象類別標(biāo)簽分配到相應(yīng)的對象區(qū)域,細(xì)化對象邊界。此外,弱注釋[60]也有助于通過適當(dāng)?shù)淖⑨屌?shí)現(xiàn)高質(zhì)量的檢測器。
(2) 深度學(xué)習(xí)和在線學(xué)習(xí)的融合。安全帽檢測由于數(shù)據(jù)集不斷增長,其實(shí)質(zhì)上是一個(gè)在線學(xué)習(xí)問題。訓(xùn)練時(shí)如何避免陷入局部極小值、梯度消失等問題仍值得研究。
(3) 3D對象檢測。隨著三維傳感器(激光雷達(dá))的應(yīng)用,可以利用額外的深度信息更好地理解二維圖像,并將圖像級知識擴(kuò)展到現(xiàn)實(shí)世界。多視圖表示[61]和三維候選網(wǎng)絡(luò)[62]能獲得更好的邊界結(jié)果。文獻(xiàn)[63]構(gòu)建了一種新的3D目標(biāo)檢測算法(DSGN),檢測精度要高于其他模型10%以上。
(4) 記憶時(shí)間信息。跨幀的時(shí)間信息對于分析不同對象的行為起著重要的作用,使模型不僅包含當(dāng)前時(shí)間步長輸入信息(幀),還包含以前時(shí)間步長(幀)的激活值??梢允褂脮r(shí)空管[64]、光流法[65]和LSTM[66],從根本上對連續(xù)幀之間的對象關(guān)聯(lián)進(jìn)行建模。
本文對基于深度學(xué)習(xí)的目標(biāo)檢測算法在安全帽佩戴檢測領(lǐng)域的研究情況進(jìn)行了詳細(xì)的綜述,首先介紹了傳統(tǒng)的基于傳感器及基于圖像處理的安全帽檢測方法近年來發(fā)展情況,之后介紹了兩階段檢測(R-CNN、faster R-CNN、R-FCN)以及單階段檢測(YOLO、YOLOv2、YOLOv3、SSD、Retinanet)的算法流程和研究發(fā)展情況,最后對現(xiàn)階段檢測算法亟待解決的問題加以總結(jié),并提出了幾個(gè)未來有希望發(fā)展的方向。這篇綜述對深度學(xué)習(xí)在安全帽檢測領(lǐng)域的應(yīng)用和發(fā)展具有一定意義。