佘宏彥 安長(zhǎng)智 高佰靈 梁理
(1.湖南華菱湘潭鋼鐵有限公司,湖南 湘潭 411101;2.北京中泰創(chuàng)安科技有限公司,北京 100085;3.華菱漣源鋼鐵有限公司安全環(huán)保部,湖南 婁底 417000)
在中國(guó)經(jīng)濟(jì)快速發(fā)展和新型城鎮(zhèn)化的大力推進(jìn)下,中國(guó)建筑行業(yè)正逐步出現(xiàn)規(guī)模化、結(jié)構(gòu)功能多元化、生產(chǎn)流程復(fù)雜化、施工現(xiàn)場(chǎng)管理的新特點(diǎn)。以往粗放的管理方式,存在著人員頻繁調(diào)動(dòng),施工管理混亂,資金利用率低,重大安全事故頻發(fā)等問(wèn)題,已經(jīng)不適應(yīng)安全管理的整體要求。如何提高對(duì)工程建設(shè)工地安全風(fēng)險(xiǎn)的監(jiān)測(cè)、重特事故的發(fā)生、“三違”的防治,是當(dāng)前安全管理的難題。于是,“智慧工地”應(yīng)運(yùn)而生,利用智能化的監(jiān)管方式,通過(guò)對(duì)施工現(xiàn)場(chǎng)的安全巡查,及時(shí)發(fā)現(xiàn)安全隱患,時(shí)刻繃緊安全生產(chǎn)的生命底線(xiàn)。
在安全生產(chǎn)中,人是最重要的,也是最靈活的、最具活力的因素。智能工地要解決的問(wèn)題有:如何利用智能化的方式有效、準(zhǔn)確地掌控施工人員的安全狀況,這也是施工現(xiàn)場(chǎng)安全管理的關(guān)鍵所在。而在工地上,設(shè)置了電子警示線(xiàn),工人們穿上了安全帽和制服,就可以在一定程度上保障他們的人身安全,減少他們的安全隱患。因此,本論文重點(diǎn)研究了智能樓宇中的人員關(guān)聯(lián)監(jiān)測(cè)算法,以確保安全生產(chǎn)。通過(guò)人工智能對(duì)監(jiān)控視頻進(jìn)行分析,利用深度學(xué)習(xí)技術(shù)對(duì)施工工地施工人員進(jìn)行實(shí)時(shí)抓拍,24 h實(shí)時(shí)監(jiān)測(cè)、預(yù)警施工人員站位不合理、未佩戴安全帽、未穿戴工作服等危險(xiǎn)行為,實(shí)現(xiàn)規(guī)范施工管理、減少安全隱患、節(jié)省人力投入,為建筑施工安全生產(chǎn)保駕護(hù)航。1安全帽監(jiān)測(cè)算法
REN S等[1]于2015年提出了Faster-RCNN算法,該方法基于RPN候選框生成算法,在此基礎(chǔ)上大大加快了對(duì)目標(biāo)任務(wù)的監(jiān)測(cè)。在Faster-RCNN模式下,頭盔的配戴判定過(guò)程如下:輸入頭盔的試驗(yàn)圖片,將整幅圖片錄入CNN,進(jìn)行特征提取,再通過(guò)RPN進(jìn)行編輯,生成一組Anchor box,再對(duì)其進(jìn)行裁剪、篩選,最終判定anchors是前景,還是基礎(chǔ),即對(duì)象、非對(duì)象,因此,這是一個(gè)二分類(lèi);同時(shí),另一條“bounding box regression”會(huì)對(duì)anchor box進(jìn)行修改,以產(chǎn)生更加精確的proposal(注:更精確的是,在所有連接層中,同樣的box regression),并將推薦窗口映射到CNN的上一個(gè)卷積feature map;然后,RoI pooling層中的每一RoI[2]生成一個(gè)固定尺寸的feature映射;最后,對(duì)分類(lèi)概率和邊界回歸(SmoothL1 Loss)進(jìn)行聯(lián)合訓(xùn)練(Softmax Loss,SmoothL1 Loss)。Faster-RCNN的具體描述見(jiàn)圖1、圖2。
圖1 Faster-RCNN結(jié)構(gòu)詳解
圖2 Faster-RCNN網(wǎng)絡(luò)組成
從上面的兩張圖[1]可以看出,F(xiàn)aster-RCNN由下面幾部分組成:
1)數(shù)據(jù)集,image input;
2)基于卷積層的CNN等基本網(wǎng)絡(luò),從特征中抽取特征,得到feature map;
3)在RPN層中,通過(guò)卷積層提取的featuremap上用3×3的slide window遍歷整個(gè)feature map,在遍歷的過(guò)程中,每個(gè)window中心都會(huì)根據(jù)rate,scale(1∶2,1∶1,2∶1)產(chǎn)生9個(gè)anchors,然后將所有anchors進(jìn)行二次劃分(前景或背景),并輸出300個(gè)更準(zhǔn)確的ROIs。然后,用ROI pooling將通過(guò)卷積層feature映射的全部連接層的輸入維度進(jìn)行固定;
4)通過(guò)RPN的輸出rois映射到ROIpooling[3]的feature map上進(jìn)行bbox回歸并對(duì)其進(jìn)行分類(lèi)。
YOLO有最小的網(wǎng)絡(luò),最小的速率和最精確的AP。不過(guò),如果是以大數(shù)據(jù)量的目標(biāo)來(lái)測(cè)試,YOLO在執(zhí)行速率上表現(xiàn)得更為出色,YOLO的模型只有十幾兆左右,而且速度很快,在線(xiàn)上環(huán)境中運(yùn)行也能起到很好的作用,能實(shí)現(xiàn)低延遲、實(shí)時(shí)監(jiān)測(cè)的效果。
首先,進(jìn)行Mosaic數(shù)據(jù)增強(qiáng)(9),先讀出4個(gè)圖像,再對(duì)4個(gè)圖像進(jìn)行翻轉(zhuǎn)、縮放、色域變化等,再沿4個(gè)方向進(jìn)行排列,最終完成圖像和方塊的拼接。YOLO算法中,在不同的數(shù)據(jù)集上,都會(huì)有一個(gè)固定長(zhǎng)寬的框架。在網(wǎng)絡(luò)訓(xùn)練中,通過(guò)對(duì)原始錨框的分析,將預(yù)測(cè)框和實(shí)際框groundtruth進(jìn)行對(duì)比,得到不同的結(jié)果,再進(jìn)行反向更新,對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行迭代。將原來(lái)的608×608×3的圖象錄入Focus結(jié)構(gòu),再將其分割為304×304×12的特征圖,再對(duì)32個(gè)卷積核進(jìn)行卷積,最終生成304×304×32的特征圖。接著,采用FPN+PAN(PAN)的方法,將上層的特征進(jìn)行上采樣,進(jìn)行數(shù)據(jù)的傳遞和融合,得到相應(yīng)的預(yù)報(bào)結(jié)果。在YOLO中,利用CIOU_Loss來(lái)預(yù)測(cè)目標(biāo)Bounding box的損耗。
本文在安全帽監(jiān)測(cè)試驗(yàn)中引入了SSD算法[4],見(jiàn)圖3。首先將頭盔監(jiān)測(cè)圖象(像素大小為300×300)輸入,并在VGG16網(wǎng)絡(luò)中加入相應(yīng)的特征映射;接著,將VGG16的FC6和FC7分別轉(zhuǎn)化為卷積,并將其與Conv6、Conv7相對(duì)應(yīng);移除所有Dropout和FC8;添加Atrous(hole)算法;將Pool5的變換從2×2-S2到3×3-S1;接著,從Conv4_3、Conv7、Conv8_2、Conv10_2、conv11_2層中的featuremap,在各個(gè)點(diǎn)上分別構(gòu)建6個(gè)bbox,并分別對(duì)bbox進(jìn)行監(jiān)測(cè)和分類(lèi);利用不同feature映射的bbox,利用NMS(NMS)對(duì)bbox進(jìn)行抑制,生成最終bbox集,也就是最終bbox集。
圖3 SSD模型
SSD算法采用了多尺度特性映射(maps),SSD算法采用了conv4_3、conv_7、conv8_2、conv8_2、conv9_2、conv10_2、conv11_2等多種feature maps。由于底層feature map的感知范圍較小,而上層的感知范圍較大,因此使用不同的feature map可以實(shí)現(xiàn)多尺度的目標(biāo),而SSD中的Defalut box[1]與Fasterrcnn中的anchor機(jī)理類(lèi)似。就是預(yù)設(shè)一些目標(biāo)預(yù)選框,后續(xù)通過(guò)softmax分類(lèi)+bounding box regression[5]獲得真實(shí)目標(biāo)的位置。不同規(guī)模的feature映射使用了不同的Default boxes。我們選擇了38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256,在conv4_3后面的feature map默認(rèn)box為4,我們得到了38×38×4=5 776個(gè)box;同樣地,我們也可以把每臺(tái)機(jī)器人的數(shù)目設(shè)置為6、6、6、4、4,這樣我們就能得到832個(gè)盒子,并把它們放進(jìn)NMS組件[6],得到最后的監(jiān)測(cè)結(jié)果。
針對(duì)安全帽監(jiān)測(cè),我們通過(guò)現(xiàn)場(chǎng)實(shí)時(shí)監(jiān)控系統(tǒng)采集的影像,構(gòu)建了1 500張圖片的數(shù)據(jù)集,對(duì)1 500幅圖像進(jìn)行了標(biāo)記、訓(xùn)練,最后對(duì)100幅圖像進(jìn)行了安全帽監(jiān)測(cè)實(shí)驗(yàn)。基于所構(gòu)建的圖片數(shù)據(jù)集,我們分別利用上述3種算法進(jìn)行了實(shí)驗(yàn),得出訓(xùn)練模型,并利用100張相同的圖像進(jìn)行模型的測(cè)試,具體實(shí)驗(yàn)結(jié)果如表1。如表所示,通過(guò)性能對(duì)比,我們可以看到,針對(duì)安全帽監(jiān)測(cè)數(shù)據(jù)集,SSD具有最高的mAP(mean Average Precision)和精確率(Precision),F(xiàn)aster-RCNN具有最高的召回率(Recall)。此外,利用YOLOv5算法得出的模型可以達(dá)到21幀/s的速率,基本滿(mǎn)足實(shí)時(shí)監(jiān)測(cè)的需要。
表1 YOLOv5、SSD、Faster-RCNN算法性能對(duì)比
圖4—圖6是安全帽監(jiān)測(cè)的實(shí)際測(cè)試樣圖。
圖4 SSD測(cè)試樣圖
圖5 Faster-RNN測(cè)試樣圖
圖6 YOLOv5測(cè)試樣圖
從圖中可以看到,針對(duì)實(shí)際場(chǎng)景下的安全帽監(jiān)測(cè),上述3種算法均正確監(jiān)測(cè)出了安全帽的佩戴情況,將未正確佩戴安全帽的標(biāo)記為不同的顏色。參照表1提供的對(duì)比性能,我們發(fā)現(xiàn)Faster-RCNN的精準(zhǔn)度雖然是最高的,但是算法執(zhí)行速度比較慢,不能滿(mǎn)足視頻實(shí)時(shí)監(jiān)測(cè)的效果,YOLOv5正好相反,速度比較快但是監(jiān)測(cè)精準(zhǔn)度略低于其他兩種方法,SSD結(jié)合了兩者之長(zhǎng)。從理論上講,SSD借鑒了YOLO將探測(cè)轉(zhuǎn)換為regression的原理,并參考了Faster-RCNN中的anchor,但其anchor并沒(méi)有像YOLO那樣對(duì)每一個(gè)點(diǎn)進(jìn)行細(xì)化,而是使用了柵格,生成了一個(gè)anchor。SSD采用多層次特性,使得每個(gè)層次的anchor都有差異,從而產(chǎn)生了更多的超參數(shù),從而提高了訓(xùn)練的難度。
本文對(duì)復(fù)雜工地環(huán)境下的安全帽視頻AI監(jiān)測(cè)算法進(jìn)行了研究,詳細(xì)介紹了現(xiàn)有的3種經(jīng)典目標(biāo)監(jiān)測(cè)算法Faster-RCNN,SSD和YOLO的相關(guān)網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建了實(shí)際場(chǎng)景下的安全帽圖片數(shù)據(jù)訓(xùn)練集和測(cè)試集,并利用實(shí)驗(yàn)的方式對(duì)3種算法的性能進(jìn)行了比較。綜合考慮安全帽現(xiàn)場(chǎng)監(jiān)測(cè)的精度和算法執(zhí)行速度,可以得出YOLOv5更適合復(fù)雜工地環(huán)境中的安全帽實(shí)時(shí)監(jiān)測(cè)。