摘" 要: 現(xiàn)有研究普遍針對特定類別的火災煙霧制定模型算法來提高火災識別的準確度,并沒有對火災進行精確分類。在發(fā)生火災時,明確火災類別對于后續(xù)火災的撲滅與救援活動有指導作用。對此,文中開展了四種標準火實驗,建立四種基本類型火災(木材熱解陰燃火、棉繩陰燃火、聚氨酯泡沫火、正庚烷油火)的視頻圖像數(shù)據(jù)集,并提出一種基于優(yōu)化C3D卷積網(wǎng)絡(luò)的視頻火災煙霧分類模型,為提升模型特征提取能力引入雙重SE注意力模塊,采用全局平均池化層(GAP)替代傳統(tǒng)的全連接層,減少模型參數(shù)、防止過擬合,提升模型魯棒性。實驗結(jié)果表明,優(yōu)化后的C3D模型在識別火災煙霧類型方面準確率達到98.9%,相比原始模型準確率提升了9.28%,同時模型參數(shù)數(shù)量減少了64.39%,這為火災煙霧監(jiān)測與預警提供了重要的應用價值。
關(guān)鍵詞: 深度學習; 煙霧分類; C3D; 注意力機制; 火災識別; 準確度
中圖分類號: TN911.73?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)05?0053?06
Video fire smoke classification method based on optimized C3D"by dual attention mechanism
ZHU Jiazhe1, HE Hao1, YANG Shulin2, YANG Zhi1, HUANG Dongmei1
(1. College of Energy Environment and Safety Engineering, China Jiliang University, Hangzhou 310018, China;
2. Ningbo Siterwell Import and Export Co., Ltd., Ningbo 315000, China)
Abstract: The existing studies generally focus on specific categories of fire smoke and develop model algorithms to improve the accuracy of fire identification, but do not classify fires accurately. In the event of a fire, the clear fire category has a guiding effect on the subsequent fire suppression and rescue activities. In this paper, four standard fire experiments are carried out to establish video image data sets of four basic types of fires (wood pyrolysis smold fire, cotton rope smold fire, polyurethane foam fire, and n?heptane oil fire), and a video fire smoke classification model based on optimized C3D (Convolutional 3D) convolutional network is proposed. A dual SE (squeeze and excitation) attention module is introduced to improve the feature extraction capability of the model. A global average pooling (GAP) layer is adopted to replace the traditional full connection layer, which reduces model parameters, prevents overfitting, and improves the robustness of the model. The experimental results show that the accuracy rate of the optimized C3D model in identifying the types of fire smoke is 98.9%, which is 9.28% higher than that of the original model. In addition, the number of the model parameters is reduced by 64.39%. To sum up, the research can provide important application value for fire smoke monitoring and early warning.
Keywords: deep learning; smoke classification; C3D; attention mechanism; fire identification; accuracy rate
0" 引" 言
近年來,隨著深度學習的快速發(fā)展,圖像火災識別技術(shù)也取得了顯著的進展。深度學習算法的出現(xiàn)為火災識別帶來了新的可能性,其強大的特征提取和分類能力使得火災圖像的識別變得準確和高效[1]。為了能更好地提高圖像識別的準確率和速度,國內(nèi)外學者做了大量的實驗與研究,如文獻[2]將動態(tài)閾值灰度分割和殘差網(wǎng)絡(luò)遷移學習相結(jié)合,減少了語義信息的丟失,提高了預測精度。文獻[3]利用Capsule Network提升了在火災和煙霧上的識別準確率。文獻[4]改進了YOLOv3?SPP算法,將解耦頭、Focus模塊、無錨框檢測機制和SimOTA加入算法中,利用無人機拍攝的森林火災圖像對其進行訓練與評估。文獻[5]在YOLOv7?small模型中引入部分卷積(PConv)和協(xié)同注意力(CA)機制,提高模型的檢測速度和特征提取能力,將SIoU作為損失函數(shù),加速模型的收斂,提高精度。文獻[6]采用多尺度檢測技術(shù)拓寬檢測范圍,融合深層語義信息,提出了一種基于改進YOLOv4?minor算法的輕量級目標識別技術(shù),用于精確高效地檢測船舶火災。文獻[7]改進ResNet50模型與InceptionV3模型,并將其融合提高了模型識別火災的準確率。文獻[8]將連續(xù)5個空間變換網(wǎng)絡(luò)(STN)引入Resnet18模型的第一個卷積層前,并與遷移技術(shù)相結(jié)合提高了模型特征提取能力,提升了火災圖像檢測準確率。文獻[9?13]通過減少模型的參數(shù)數(shù)量來縮短模型的訓練時間,從而提高模型的魯棒性和泛化能力。
綜上所述,現(xiàn)有的火災檢測研究中,大多數(shù)工作集中在對靜態(tài)圖像火災煙霧的分析上,而對視頻數(shù)據(jù)中的動態(tài)火災煙霧分類的研究相對較少。鑒于此,本文對經(jīng)典的C3D(Convolutional 3D)模型進行了優(yōu)化,通過引入全局平均池化層(Global Average Pooling, GAP)替代傳統(tǒng)的全連接層,有效減少了模型的參數(shù)數(shù)量,增強了模型的魯棒性。此外,還引入雙重SE(Squeeze?and?Excitation)注意力模塊,以進一步提升模型的特征提取能力。最終,利用實驗室拍攝的火災煙霧視頻影像對優(yōu)化后的C3D模型進行訓練和評估。實驗結(jié)果表明,所提出的優(yōu)化模型在視頻火災煙霧分類任務上取得了顯著的性能提升,為火災煙霧的實時監(jiān)測和早期預警提供了一種有效的技術(shù)手段。
1" 模型建立
1.1" 雙重注意力機制
當前,有不少學者通過引入SE注意力機制提高了模型特征提取能力[14?18]。雙重注意力機制是以SE注意力機制為基礎(chǔ),由五維的sSE(Spatial Squeeze and Channel Excitation)模塊和cSE(Channel Squeeze and Spatial Excitation)模塊并聯(lián)組成。sSE模塊用于提高模型在通道上的特征提取能力;cSE模塊用于提高模型在空間上的特征提取能力。雙重注意力機制結(jié)構(gòu)如圖1所示。
sSE模塊通過學習輸入特征圖通道之間的關(guān)系,動態(tài)地調(diào)整特征圖權(quán)重,從而在通道上增強重要特征的表示,抑制不重要特征的表示,它主要由空間壓縮(Spatial Squeeze)和通道激勵(Channel Excitation)兩部分組成。sSE模塊首先對輸入特征圖進行空間壓縮(Spatial Squeeze),將輸入特征圖[U]進行全局平均池化降低特征圖的空間維度,使其從[[C,D,H,W]]轉(zhuǎn)換成[[C,1,1,1]]。計算公式如式(1)所示:
[zk=1H×Wi=1Hj=1Wuki, j] (1)
式中:[zk]為全局特征;[H]為輸入特征的高;[W]為輸入特征圖的寬;[uk(i, j)]為[k]通道第[i]行第[j]列像素的特征值。
然后再進行通道激勵,它將空間壓縮后的特征圖用一個小型的全連接神經(jīng)網(wǎng)絡(luò)來學習每個通道的權(quán)重,全連接神經(jīng)網(wǎng)絡(luò)包含兩個全連接層和兩個激活函數(shù)。計算公式如式(2)所示:
[Sc=Fexz,W=σW2δW1z] (2)
式中:[Sc]為計算所得權(quán)重;[σ]為Sigmoid激活函數(shù);[δ]為ReLU激活函數(shù);[W1]、[W2]為權(quán)重矩陣。再通過[Fscale]進行逐元素相乘,從而使得模型能夠自適應地調(diào)整每個通道的權(quán)重。計算公式如式(3)所示:
[FscaleUc,Sc=UcSc] (3)
cSE模塊通過學習輸入特征圖空間上的關(guān)系,動態(tài)地調(diào)整特征圖的權(quán)重,從而在空間上增強重要特征的表示,抑制不重要特征的表示,它主要由通道壓縮(Channel Squeeze)和空間激勵(Spatial Excitation)兩部分組成。cSE模塊首先將輸入特征圖進行通道壓縮。它是將輸入特征圖[U]通過一個1×1×1的卷積層對輸入特征圖進行通道壓縮,得到一個通道數(shù)為1的特征圖。計算公式如式(4)所示:
[q=Wsq?U] (4)
式中[Wsq]為權(quán)重矩陣。
然后再進行空間激勵,它將通道壓縮后的特征圖進行Sigmoid激活,得到通道權(quán)重。將其與輸入特征圖相乘,完成空間激勵,增強空間重要特征的表示并抑制不重要特征的表示。
最后將sSE模塊和cSE模塊產(chǎn)生的新特征圖通過Max函數(shù)進行融合,以此完成特征圖在通道和空間上的整合和激勵。
1.2" 優(yōu)化C3D卷積網(wǎng)絡(luò)
C3D作為視頻卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)簡單,能有效地捕捉空間和時間特征,是目前常用的視頻分類模型。模型通常包含8個3×3×3卷積層、5個2×2×2最大池化層、2個全連接層和1個Softmax層。但模型仍存在特征提取不充分、參數(shù)量大、訓練時間長等問題,針對這些問題對模型進行優(yōu)化。
首先,將傳統(tǒng)的全連接層替換為全局平均池化層(GAP)。GAP通過聚合特征圖中所有像素的信息來捕捉全局上下文,這樣不僅顯著減少了模型的參數(shù)數(shù)量,而且可以簡化計算流程,從而提高了模型的運行效率,有利于提升模型在面對新樣本時的泛化能力。
其次,在模型的Softmax層前引入雙重注意力機制。包括空間注意力機制和通道注意力機制,增強模型對輸入數(shù)據(jù)的處理能力??臻g注意力機制幫助模型根據(jù)任務需求動態(tài)地聚焦于輸入數(shù)據(jù)中的關(guān)鍵區(qū)域;而通道注意力機制則關(guān)注于特征通道之間的相互作用。這兩種機制的結(jié)合可以使得模型更加靈活地關(guān)注到對當前任務最有用的信息。優(yōu)化后的C3D模型如圖2所示。
2" 實驗數(shù)據(jù)和實驗環(huán)境
2.1" 火災視頻數(shù)據(jù)集
本文依照GB 4715—2005中開展的四種測試火,將火災煙霧視頻數(shù)據(jù)集分為木材熱解陰燃火、棉繩陰燃火、聚氨酯泡沫火、正庚烷油火四類。本數(shù)據(jù)集所包含的火災煙霧視頻均在實驗室條件下進行的火災實驗中采集得到,如圖3所示。
本文采用了??低暰W(wǎng)絡(luò)攝像機(分辨率為500萬像素,幀率為20 f/s)進行火災煙霧視頻的錄制。通過調(diào)整攝像機的錄制角度,捕捉不同視角下的火災煙霧情況。這樣的數(shù)據(jù)采集方法提高了視頻數(shù)據(jù)的多樣性,有助于更全面地分析火災煙霧的動態(tài)特性。由于實驗室拍攝條件資源有限,所以對原始火災煙霧視頻數(shù)據(jù)實施了包括剪切、位移、鏡像、銳化以及調(diào)整明暗度和對比度等在內(nèi)的數(shù)據(jù)增強技術(shù),增強后的數(shù)據(jù)集涵蓋了159個棉繩陰燃、103個正庚烷油、103個聚氨酯泡沫以及102個木材熱解陰燃煙霧視頻,如表1所示。
將增強后的視頻利用OpenCV庫對增強后的視頻數(shù)據(jù)集進行數(shù)據(jù)預處理,通過每隔4幀抽取1幀圖像,并將其尺寸壓縮至高128像素、寬171像素。隨后,將這些視頻幀按照8∶2的比例劃分為訓練集和測試集,并保存至預設(shè)的文件夾中以便于后續(xù)的模型訓練和評估。在將視頻幀輸入模型之前,進一步對128×171尺寸的視頻幀進行隨機裁剪,以生成大小為112×112的圖像。此外,采用滑動窗口技術(shù)連續(xù)選取16幀圖像作為模型輸入,使得模型輸入尺寸統(tǒng)一為3×16×112×112,其中,3代表顏色通道數(shù)(RGB),16為選取的幀數(shù),112×112是單幀圖像的尺寸。通過這一系列的預處理步驟,確保了模型輸入的一致性和標準化,為訓練和測試階段的順利進行奠定了基礎(chǔ)。
2.2" 訓練環(huán)境
本文實驗采用Featurize平臺提供的在線GPU實驗室作為實驗平臺環(huán)境。實驗使用的編程語言為Python,版本號為3.10.12。在硬件配置方面,實驗室使用了NVIDIA A4000 GPU,具備16.9 GB的顯存,以及6核Intel Xeon E5?2680 v4 CPU。實驗平臺運行的操作系統(tǒng)為Linux,版本號為5.4.0?91?generic。在軟件框架方面,選擇使用PyTorch框架進行實驗,其版本為2.0.1,并搭配了CUDA 11.8版本。這樣的配置為實驗提供了強大的計算能力和高效的開發(fā)環(huán)境,確保了實驗的順利進行。
3" 實驗結(jié)果與分析
在模型參數(shù)優(yōu)化方面,通過將傳統(tǒng)的全連接層替換為全局平均池化層,顯著降低了模型的參數(shù)量。原始的C3D模型包含的總參數(shù)量為78 409 573個,而經(jīng)過優(yōu)化后的C3D模型,總參數(shù)量減少至27 921 413個。這一改進將模型在參數(shù)數(shù)量上減少了64.39%,在運行所需總內(nèi)存上減少了27.9%,從而減輕了模型的計算負擔,提高了模型訓練效率,同時有助于防止過擬合,提升模型在未見數(shù)據(jù)上的泛化能力。具體參數(shù)如表2所示。
在模型識別準確率方面,通過在C3D模型的Softmax層前引入雙重注意力機制,顯著增強了模型在通道和空間兩個維度上的特征提取能力。原始的C3D模型在驗證集上區(qū)分火災煙霧類型的準確率最高為90.5%,而經(jīng)過優(yōu)化后的C3D模型在驗證集上區(qū)分火災煙霧類型的最高準確率提升至98.9%,在識別火災煙霧類型準確率方面相較于原始模型提升了9.28%,模型損失函數(shù)值也趨近收斂。模型在驗證集上的準確率和訓練集上損失函數(shù)值隨訓練次數(shù)的變化趨勢如圖4所示。
為了評估優(yōu)化后的C3D模型在火災煙霧分類任務中的性能,將其與部分現(xiàn)有模型進行了比較,并對這些模型及其參數(shù)和性能進行了匯總,如表3所示。
由表3可知,在火災煙霧類型的識別準確率上,優(yōu)化后的C3D模型的性能超越ResNet3D、R2Plus1D以及原始C3D模型,其準確度高達98.9%,在四種模型中是最高的。這一結(jié)果凸顯了優(yōu)化模型在處理視頻火災煙霧分類任務時的優(yōu)越性。除了準確率的顯著提升外,優(yōu)化后的C3D模型在運行時的內(nèi)存需求僅為498.22 MB,并且總參數(shù)量控制在27 921 413個。在對比的四種模型中,優(yōu)化后的C3D模型在內(nèi)存使用和參數(shù)數(shù)量上均為最低。這一特點使得優(yōu)化后的C3D模型更適合在資源受限的設(shè)備上部署,尤其是在需要實時處理大量視頻數(shù)據(jù)的火災監(jiān)測系統(tǒng)中,低內(nèi)存占用和參數(shù)量的減少對于實現(xiàn)快速、高效的火災煙霧識別尤為重要。這不僅在識別精度上取得了突破,同時也在資源消耗上實現(xiàn)了優(yōu)化,確保了模型的高效性和實用性。圖5展示了優(yōu)化模型下正庚烷油池煙霧和木材陰燃煙霧的檢測效果。
4" 結(jié)" 論
本文提出了一種基于雙重注意力機制的優(yōu)化C3D卷積網(wǎng)絡(luò)的視頻火災煙霧分類模型,通過引入雙重SE注意力模塊,并且采用全局平均池化層替代傳統(tǒng)全連接層的方法,強化了模型特征提取能力,減少了模型參數(shù)量,提升了模型泛化能力和魯棒性。
通過在自制火災煙霧數(shù)據(jù)集上的訓練比較,發(fā)現(xiàn)優(yōu)化后的C3D模型較原始模型在參數(shù)數(shù)量上減少了64.39%,且在識別火災煙霧類型準確率方面提升了9.28%。
將優(yōu)化后的C3D模型與現(xiàn)有的ResNet3D、R2Plus1D模型在自制火災煙霧數(shù)據(jù)集上進行訓練比較,發(fā)現(xiàn)優(yōu)化后的C3D模型在準確率、總參數(shù)量以及運行所需總內(nèi)存上都優(yōu)于以上兩種。
注:本文通訊作者為何豪。
參考文獻
[1] LI P, ZHAO W. Image fire detection algorithms based on convolutional neural networks [J]. Case studies in thermal engineering, 2020, 19: 100625.
[2] LI H, SUN P. Image?based fire detection using dynamic threshold grayscale segmentation and residual network transfer learning [J]. Mathematics, 2023, 11(18): 3940.
[3] ALAM R K, ALI H, IJAZ U B, et al. Fire and smoke detection using capsule network [J]. Fire technology, 2022, 59(2): 581?594.
[4] 祖鑫萍,李丹.基于無人機圖像和改進YOLOv3?SPP算法的森林火災煙霧識別方法[J].林業(yè)工程學報,2022,7(5):142?149.
[5] ZHU J T, ZHANG J D, WANG Y K, et al. Fire detection in ship engine rooms based on deep learning [J]. Sensors (Basel, Switzerland), 2023, 23(14): 6552.
[6] WU H F, HU Y L, WANG W J, et al. Ship fire detection based on an improved YOLO algorithm with a lightweight convolutional neural network model [J]. Sensors, 2022, 22(19): 7420.
[7] 熊衛(wèi)華,任嘉鋒,吳之昊,等.基于混合卷積神經(jīng)網(wǎng)絡(luò)的火災識別研究[J].計算機技術(shù)與發(fā)展,2020,30(7):81?86.
[8] 陳跨越,王保云.基于改進Resnet18網(wǎng)絡(luò)的火災圖像識別[J].河南師范大學學報(自然科學版),2024,52(4):101?112.
[9] 章李剛,黃磊,孫星,等.改進Inception算法火災圖像識別領(lǐng)域應用[J].科技通報,2023,39(9):113?118.
[10] ANWER S, SAMAR A M, AKSHAY V, et al. FireNet?v2: Improved lightweight fire detection model for real?time IoT applications [J]. Procedia computer science, 2023, 218: 2233?2242.
[11] 王偉峰,張寶寶,王志強,等.基于深度學習的視頻火災識別方法研究[J].現(xiàn)代電子技術(shù),2022,45(14):84?88.
[12] 楊其睿.基于改進的DenseNet深度網(wǎng)絡(luò)火災圖像識別算法[J].計算機應用與軟件,2019,36(2):258?263.
[13] SIDDIQUE L A, JUNHAI R, REZA T, et al. Analysis of real?time hostile activity detection from spatiotemporal features using time distributed deep CNNs, RNNs and attention?based mechanisms [C]// 5th IEEE International Conference on Image Processing Applications and Systems. New York: IEEE, 2022: 1?6.
[14] 徐玉珍,鄒中華,劉宇龍,等.基于多尺度卷積神經(jīng)網(wǎng)絡(luò)和雙注意力機制的V2G充電樁開關(guān)管開路故障信息融合診斷[J/OL].中國電機工程學報:1?12[2024?05?14].https://doi.org/10.13334/j.0258?8013.pcsee.232309.
[15] LIU L Z, WU K, WANG K, et al. SEU2?Net: Multi?scale U2?Net with SE attention mechanism for liver occupying lesion CT image segmentation [J]. PeerJ computer science, 2024, 10: e1751.
[16] 尚俊平,張冬陽,席磊,等.基于多尺度特征融合和注意力機制的辣椒病害識別模型[J].河南農(nóng)業(yè)大學學報,2024,58(6):1021?1033.
[17] SUN C, ZHOU X, ZHANG M, et al. SE?vision transformer: Hybrid network for diagnosing sugarcane leaf diseases based on attention mechanism [J]. Sensors, 2023, 23(20): 8529.
[18] 梁金幸,趙鑒福,周亞同,等.基于改進YOLOv5s網(wǎng)絡(luò)模型的火災圖像識別方法[J].傳感器與微系統(tǒng),2024,43(1):157?161.
基金項目:浙江省“尖兵”“領(lǐng)雁”研發(fā)攻關(guān)計劃項目:工業(yè)企業(yè)安全生產(chǎn)智能防控關(guān)鍵技術(shù)?工業(yè)企業(yè)火災災變機理與感知預警處置一體化技術(shù)研究及應用(2024C03252);2024年度應急管理研發(fā)攻關(guān)科技項目:基于時空AI的火災圖像特征挖掘機類型辨識方法研究(2024YJ007)
作者簡介:朱家哲(1998—),男,浙江湖州人,碩士研究生,研究方向為圖像火災識別及分類方法。
何" 豪(1989—),男,河南洛陽人,博士研究生,講師,研究方向為火災圖像識別及安全檢測技術(shù)。
陽書林(1989—),男,湖南益陽人,工程師,研究方向為火災探測技術(shù)。
楊" 智(2001—),男,湖北赤壁人,碩士研究生,研究方向為工業(yè)火災復合煙顆粒機制。
黃冬梅(1984—),女,布依族,貴州龍里人,博士研究生,教授,主要從事火災機理研究。