陳金鵬, 孫浩, 2, 3, 東輝, 2, 范龍翔, 4, 李晨, 姚立綱, 2
(1. 福州大學(xué)機(jī)械工程及自動(dòng)化學(xué)院, 福建 福州 350108; 2. 福建省高端裝備制造協(xié)同創(chuàng)新中心, 福建 福州 350001;3. 福州大學(xué)智能制造仿真研究院, 福建 福州 350108; 4. 福建(泉州)哈爾濱工業(yè)大學(xué)工程技術(shù)研究院, 福建 泉州 362011)
常規(guī)煙火識(shí)別通常借助傳感器, 檢測(cè)火焰燃燒導(dǎo)致的顆粒物濃度、 溫度等理化參數(shù)變化. 盡管傳統(tǒng)檢測(cè)方法及相應(yīng)的商業(yè)化傳感器已廣泛應(yīng)用, 但在方法的智能化、 覆蓋面和成本等方面仍有待創(chuàng)新. 基于深度學(xué)習(xí)的煙火檢測(cè)具有智能程度高、 覆蓋面廣、 成本低和抗干擾性強(qiáng)等優(yōu)點(diǎn). 在實(shí)際應(yīng)用中, 普通相機(jī)即可實(shí)現(xiàn)煙火形態(tài)的高精度識(shí)別與檢測(cè), 在野外等特殊工況中具有重要應(yīng)用價(jià)值.
基于深度學(xué)習(xí)圖像識(shí)別算法能自我學(xué)習(xí)和有效提取復(fù)雜圖像特征, 且很多時(shí)候比手工篩選特征更能表達(dá)事物本質(zhì). 文獻(xiàn)[4]通過(guò)分別使用Dense-SIFT字典學(xué)習(xí)、 深度學(xué)習(xí)和傳統(tǒng)方法, 對(duì)樓宇等高大空間煙火檢測(cè)效果進(jìn)行對(duì)比. 其結(jié)果表明, 所用深度學(xué)習(xí)算法在隱層不多的情況下, 達(dá)到甚至超過(guò)傳統(tǒng)算法效果. 其他相關(guān)研究工作[5-7]分別使用AlexNet、 GoogleNet、 VGG、 Inception、 ResNet最新模型, 對(duì)早期火焰與煙霧進(jìn)行識(shí)別; 其識(shí)別精度相較于一般傳統(tǒng)算法得到較大提高, 但工作重點(diǎn)是煙火圖像分類, 而未給出煙火目標(biāo)檢測(cè)解決方案.
本研究提出基于深度學(xué)習(xí)煙火檢測(cè)方法, 使用YOLOv3把目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為回歸問(wèn)題, 對(duì)網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù)進(jìn)行改進(jìn), 預(yù)測(cè)邊界框可靠性以提高物體識(shí)別精度. 研究結(jié)論有利于促進(jìn)新型高端安防設(shè)備研制和智能巡檢機(jī)器人研發(fā), 為提升社會(huì)公共火情防控和快速搶險(xiǎn)救災(zāi)能力提供了工程探索.
YOLOv3包含特征提取網(wǎng)絡(luò)Darknet-53和3個(gè)預(yù)測(cè)層, 可直接預(yù)測(cè)物體位置及類別[8]. YOLOv3采用多尺度特征融合進(jìn)行預(yù)測(cè), 保留顆粒度特征, 有效增強(qiáng)對(duì)不同大小物體及被遮擋物體檢測(cè)效果. 特征提取網(wǎng)絡(luò)引入Residual連接, 降低模型復(fù)雜度并減少參數(shù)數(shù)量, 能有效解決深層網(wǎng)絡(luò)梯度消失問(wèn)題并強(qiáng)化收斂效果. 全卷積網(wǎng)絡(luò)Darknet53由53個(gè)卷積層組成, 激活函數(shù)采用LeakyRelu, 卷積層間通過(guò)Residual連接將原始數(shù)據(jù)跳過(guò)某些層而直接傳到之后的網(wǎng)絡(luò)層.
目標(biāo)檢測(cè)任務(wù)通常面向復(fù)雜度高、 待檢測(cè)目標(biāo)差異大等場(chǎng)景, 因此, 在采集數(shù)據(jù)時(shí)應(yīng)考慮以下幾個(gè)方面: 1)目標(biāo)所在場(chǎng)景: 面對(duì)煙火檢測(cè)環(huán)境十分復(fù)雜, 包括光照不同, 建筑物遮擋等, 為讓模型適應(yīng)各種復(fù)雜場(chǎng)景, 在數(shù)據(jù)采集時(shí), 應(yīng)盡可能多地在數(shù)據(jù)集中融入多變環(huán)境因素. 2)目標(biāo)本身多樣性: 同類目標(biāo)本身也會(huì)隨著拍攝角度不同而發(fā)生很大變化. 因此, 在進(jìn)行實(shí)地采集時(shí), 應(yīng)考慮到實(shí)際應(yīng)用中各種不同視角, 使模型從多方面認(rèn)識(shí)、 學(xué)習(xí)目標(biāo). 如圖1所示, 通過(guò)數(shù)據(jù)增強(qiáng)Mosaic算法對(duì)圖片進(jìn)行色域調(diào)節(jié)、 縮放、 剪切和角度變換, 并將四張圖片合并處理為一張, 豐富檢測(cè)物體背景. 盡管亮度、 形態(tài)發(fā)生細(xì)微改變, 但本質(zhì)上這些物體依然是火焰與煙霧.
(a) 原圖 (b) 數(shù)據(jù)增強(qiáng)圖圖1 數(shù)據(jù)增強(qiáng)前后對(duì)比Fig.1 Comparison of raw graphic data with the image data after augmentation
常規(guī)物體檢測(cè)器難以有效防止誤定位. 通過(guò)高斯建模, 可預(yù)測(cè)邊界框置信度, 獲取邊界框可靠性信息, 從而提高算法精度[9]. YOLOv3算法輸出邊界框坐標(biāo)信息分別為tx、ty、tw、th, 邊界框可靠性通過(guò)對(duì)參數(shù)tx、ty、tw和th進(jìn)行高斯分布函數(shù)建模求得.給定測(cè)試輸入x, 輸出高斯模型y, 高斯參數(shù)如下所示:
p(y|x)=N(y;μ(x),Σ(x))
(1)
(2)
圖2 高斯YOLOv3算法預(yù)測(cè)框輸出[9]Fig.2 Components in the prediction box of Gaussian YOLOv3[9]
(3)
三是在資金監(jiān)督檢查環(huán)節(jié),將統(tǒng)籌整合涉農(nóng)資金的使用管理作為各級(jí)各類監(jiān)督檢查、審計(jì)的重點(diǎn),定期不定期開展巡察、督查、檢查、審計(jì),確保資金管理使用規(guī)范、安全、高效。2016年試點(diǎn)工作開展以來(lái),贛州市開展涉農(nóng)扶貧資金相關(guān)督查、檢查、審計(jì)等達(dá)15次。
(4)
因?yàn)橹粚?duì)邊界框坐標(biāo)高斯建模, 所以僅需重新設(shè)計(jì)邊界框坐標(biāo)損失函數(shù), 而目標(biāo)和類別損失函數(shù)保持不變. 重新設(shè)計(jì)的邊界框損失函數(shù)如下:
(5)
(6)
(7)
(8)
ωscale=2-wG×hG
(9)
Cr=σ(Object)×σ(Classi)×(1-Uncertainyaver)
(10)
其中: Cr表示高斯YOLOv3檢測(cè)標(biāo)準(zhǔn);σ(Object)是目標(biāo)分?jǐn)?shù);σ(Classi)是第i類物體分?jǐn)?shù). Uncertainyaver為邊界框坐標(biāo)不確定性平均值, 定位不確定性值介于0和1之間, 如果目標(biāo)分?jǐn)?shù)和類別分?jǐn)?shù)一定時(shí), 定位不確定性越高, 則邊界框可靠性越低.
常規(guī)目標(biāo)檢測(cè)器不能有效防止假陽(yáng)例(誤定位)(false positive, FP), 在實(shí)際應(yīng)用中, 由于火災(zāi)類型復(fù)雜且場(chǎng)景干擾多, 因此火災(zāi)檢測(cè)容易產(chǎn)生FP. 然而, FP對(duì)自動(dòng)巡檢滅火平臺(tái)非常危險(xiǎn), 易引起過(guò)度反應(yīng). 例如意外制動(dòng)、 闖入火災(zāi), 這將導(dǎo)致自動(dòng)巡檢滅火平臺(tái)發(fā)生錯(cuò)誤報(bào)警、 碰撞甚至爆炸事故.
在此應(yīng)用高斯參數(shù)設(shè)計(jì)損失函數(shù)從而建立YOLOv3邊界框模型, 可預(yù)測(cè)邊界框定位可靠性, 利用邊界框置信度函數(shù)計(jì)算損失, 提高預(yù)測(cè)框的定位精度. 這對(duì)于減少FP和防止自動(dòng)巡檢滅火平臺(tái)事故極為重要.
在YOLOv3特征提取網(wǎng)絡(luò)Darknet中增加SE-Net[10]結(jié)構(gòu), 如圖3所示. SE-Net結(jié)構(gòu)由Squeeze、 Excitation兩部分構(gòu)成, 提升模型對(duì)channel特征的敏感性, 構(gòu)建特征通道之間的相互依賴關(guān)系. 其中, SE-Net的Squeeze操作是通過(guò)Global Pooding將一張?zhí)卣鲌D轉(zhuǎn)換為一個(gè)數(shù), 這個(gè)數(shù)具備全局感受野. 對(duì)全局特征進(jìn)行Excitation操作, Excitation操作中兩個(gè)全連接層起到減少參數(shù)和學(xué)習(xí)各channel間關(guān)系的作用, 從而獲得不同channel權(quán)重.
圖3 改進(jìn)YOLOv3網(wǎng)格結(jié)構(gòu)Fig.3 Improved YOLOv3 network configuration
特征提取網(wǎng)絡(luò)Darknet53是YOLOV3算法準(zhǔn)確預(yù)測(cè)出結(jié)果的關(guān)鍵, 其中Residual層融合多層特征. 因此, 本研究將SE-Net結(jié)構(gòu)嵌入到Darknet53網(wǎng)絡(luò)多個(gè)Residual層中, 并指定全局平均池化channel值為Residual層輸出特征圖通道數(shù), 得到SE-Residual子結(jié)構(gòu), 從而擴(kuò)大特征圖對(duì)全局信息的感知范圍.
除此之外, 為充分獲取圖片局部特征信息, 將金字塔池化(spatial pyramid pooling, SPP)塊[11]加入至網(wǎng)絡(luò)結(jié)構(gòu), SPP由四個(gè)并行分支構(gòu)成, 分別是5×5, 9×9, 13×13的最大池化層和一個(gè)Residual層. 通過(guò)以上改進(jìn)使網(wǎng)絡(luò)模型獲取更多局部特征, 增強(qiáng)特征圖感受野, 使模型能更好區(qū)分火焰之間微小差異. 有利于解決樣本中類別不均衡和待檢測(cè)目標(biāo)大小差異較大問(wèn)題, 豐富特征表達(dá)能力.
實(shí)驗(yàn)數(shù)據(jù)集主要通過(guò)互聯(lián)網(wǎng)圖片、 公開數(shù)據(jù)集/視頻及自制視頻截取獲取, 通過(guò)數(shù)據(jù)增強(qiáng)處理后, 共獲取12 500張圖片. 數(shù)據(jù)集分類為火焰與煙霧兩類, 其中煙霧包括室內(nèi)外黑色煙霧和白色煙霧, 火焰包括室內(nèi)外白天火焰和黑夜火焰, 以提高數(shù)據(jù)集泛化能力和不同場(chǎng)景識(shí)別精度.
對(duì)圖片中包含火焰及煙霧區(qū)域進(jìn)行標(biāo)注為fire及smoke即可, 選用標(biāo)注格式為PASAL VOC, 利用隨機(jī)函數(shù)將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測(cè)試集, 其中訓(xùn)練集和測(cè)試集圖片數(shù)量比例為4∶1, 在訓(xùn)練集中再細(xì)分為訓(xùn)練集和驗(yàn)證集比例為9∶1.
本研究算法遷移COCO預(yù)訓(xùn)練網(wǎng)絡(luò). 遷移學(xué)習(xí)策略凍結(jié)前端特征提取網(wǎng)絡(luò), 根據(jù)訓(xùn)練集/測(cè)試集對(duì)剩余網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào). 通過(guò)遷移學(xué)習(xí)方法能有效提高數(shù)據(jù)泛化能力, 減少訓(xùn)練時(shí)間. SGD動(dòng)量設(shè)置為0.9, IOU閾值為0.5, 初始學(xué)習(xí)率為0.001.
實(shí)驗(yàn)基于Ubuntu18.04系統(tǒng), 以Pytorch作為開發(fā)框架, 計(jì)算采用NVIDIA GeForce GTX 2070Ti和Intel i7-9750H, 內(nèi)存大小為16 G. 數(shù)據(jù)集檢測(cè)樣本如圖4所示. 應(yīng)用遷移學(xué)習(xí)對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練(見(jiàn)圖5), 可知網(wǎng)絡(luò)迭代次數(shù)至200之后, 損失值趨于平緩.
圖4 火災(zāi)檢測(cè)樣本Fig.4 Detected samples in the fire dataset
(a) Loss 曲線 (b) mAP@0.5 曲線圖5 改進(jìn)算法Fig.5 The improved algorithm
表1 目標(biāo)檢測(cè)結(jié)果分類
火災(zāi)檢測(cè)算法通常以真陽(yáng)例(true positive, TP)率, 即在所有火災(zāi)圖片中檢測(cè)到含火災(zāi)圖片的比例作為性能評(píng)價(jià)指標(biāo). 除TP外, 樣本還可被分為FP、 真陰例(true negative, TN)和假陰例(false negative, FN), 具體詳見(jiàn)表1.
卷積神經(jīng)網(wǎng)絡(luò)火災(zāi)檢測(cè)算法指標(biāo)評(píng)價(jià)采用漏檢率、 誤檢率、 準(zhǔn)確率、 AP、 mAP, 計(jì)算公式為:
(11)
(12)
(13)
本研究算法與基礎(chǔ)YOLOv3算法對(duì)比(消融實(shí)驗(yàn))詳見(jiàn)表2. 算法檢測(cè)各性能指標(biāo)(漏檢率、 誤檢率和準(zhǔn)確率)對(duì)比詳見(jiàn)表3. 算法平均精度和檢測(cè)時(shí)間對(duì)比詳見(jiàn)表4.
表2 消融實(shí)驗(yàn)
表3 算法檢測(cè)性能對(duì)比
表4 算法平均精度和檢測(cè)時(shí)間對(duì)比
綜上實(shí)驗(yàn)結(jié)果可知, 數(shù)據(jù)增強(qiáng)后算法在mAP方面提高了1.3%, 查準(zhǔn)率為96.63%. 并且, 在數(shù)據(jù)增強(qiáng)基礎(chǔ)上對(duì)YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn), YOLO v3_數(shù)據(jù)增強(qiáng)_改進(jìn)結(jié)構(gòu)算法相對(duì)YOLO v3_數(shù)據(jù)增強(qiáng)算法在mAP方面提高了2.7%, 查準(zhǔn)率為97.12%. 此外, 該算法對(duì)比YOLO v3_數(shù)據(jù)增強(qiáng)_改進(jìn)結(jié)構(gòu)在mAP方面提高了1.5%, 而相對(duì)傳統(tǒng)YOLOv3提高了5.5%, 查準(zhǔn)率為97.84%. 消融實(shí)驗(yàn)結(jié)果表明, 在數(shù)據(jù)增強(qiáng)基礎(chǔ)上, 對(duì)損失函數(shù)進(jìn)行改進(jìn)后, 算法在mAP上提高了2.3%. 在YOLOv3添加數(shù)據(jù)增強(qiáng)算法而損失函數(shù)保持不變條件下, 分別對(duì)添加SPP、 SE-Net和SPP+SE-Net網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比, 改進(jìn)后算法在mAP上分別提高了1.6%、 2.2%與2.7%. 通過(guò)實(shí)驗(yàn)分析可知, 因?yàn)闊熿F形態(tài)具有多樣性, 更容易受到天空背景、 環(huán)境光照度、 色調(diào)等因素影響, 算法對(duì)火焰識(shí)別精度整體比煙霧高.
研究基于YOLOv3模型結(jié)構(gòu)分析, 改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)以增強(qiáng)網(wǎng)絡(luò)對(duì)局部信息的理解, 使模型能夠更好區(qū)分火焰間微小差異, 有利于解決樣本中存在類別不均衡和待檢測(cè)目標(biāo)大小差異等問(wèn)題. 改進(jìn)YOLOv3損失函數(shù), 預(yù)測(cè)邊界框可靠性, 減少負(fù)樣本. 為提高數(shù)據(jù)集泛化能力, 對(duì)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng)處理. 以實(shí)際煙火現(xiàn)場(chǎng)圖片為對(duì)象, 完成煙火識(shí)別過(guò)程計(jì)算. 依據(jù)不同拍攝角度、 光照條件下自制火焰和煙霧數(shù)據(jù)集測(cè)試結(jié)果, 本研究提出的改進(jìn)YOLOv3算法平均精度較基礎(chǔ)算法提高了5.5%. 研究結(jié)論有利于促進(jìn)視覺(jué)巡檢機(jī)器人、 自動(dòng)化安防系統(tǒng)等智能裝備的研制, 為提升公共火情防控和快速搶險(xiǎn)救災(zāi)能力提供了工程探索與方法儲(chǔ)備.
福州大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年3期