李 海,孫 鵬
(1.中國民用航空飛行學(xué)院民航安全工程學(xué)院,四川 德陽 618307;2.中國民用航空飛行學(xué)院民機(jī)火災(zāi)科學(xué)與安全工程四川省重點(diǎn)實(shí)驗(yàn)室,四川 德陽 618307;3.中國刑事警察學(xué)院公安信息技術(shù)與情報(bào)學(xué)院,遼寧 沈陽 110035)
火災(zāi)事故作為常見的事故之一,對人們的生命安全和財(cái)產(chǎn)安全具有嚴(yán)重的威脅。據(jù)原應(yīng)急管理部消防救援局發(fā)布的2020年全國火災(zāi)情況顯示,2020年全年全國消防救援隊(duì)共接報(bào)25.2 萬起火災(zāi)事件,死亡1 183人,受傷775 人,直接財(cái)產(chǎn)損失40.09 億元[1]。如何有效識別火災(zāi)是火災(zāi)事故預(yù)防關(guān)注的重要問題之一,由于視頻圖像具有高度真實(shí)性、易傳輸、易保存、抗干擾能力強(qiáng)等優(yōu)勢,火災(zāi)圖像識別逐漸成為火災(zāi)預(yù)防領(lǐng)域的研究熱點(diǎn)之一。
截至目前,國內(nèi)外學(xué)者在火災(zāi)圖像識別方面已進(jìn)行大量研究,并取得重要突破。文獻(xiàn)[2]針對復(fù)雜圖像中火災(zāi)區(qū)域的檢測問題,提出1 種改進(jìn)的密集連接的卷積網(wǎng)絡(luò)(DenseNet)深度神經(jīng)網(wǎng)絡(luò)架構(gòu);文獻(xiàn)[3]針對火災(zāi)圖像識別特征問題,提出1 種基于火焰尖角特征的火災(zāi)圖像識別算法;文獻(xiàn)[4]針對火災(zāi)圖像識別特征問題,提出1 種基于張量對象特征提取的多線性主成分分析(MPCA) 深度學(xué)習(xí)算法;文獻(xiàn)[5]基于大規(guī)?;馂?zāi)圖像數(shù)據(jù)集,以及地面實(shí)況復(fù)雜度圖像是根據(jù)人類檢測火災(zāi)存在或不存在所需的時(shí)間來量化的圖片,提出4 種基于火災(zāi)探測特性的圖像復(fù)雜度度量和1 個(gè)基于圖像復(fù)雜度評估圖像火災(zāi)檢測算法性能的新方法;文獻(xiàn)[6]提出基于參數(shù)優(yōu)化的隨機(jī)子空間-支持向量機(jī)(RS-SVM)分類器模型彌補(bǔ)過擬合和確定局部極值的不足,具有良好的可靠性和穩(wěn)定性,提高火災(zāi)預(yù)報(bào)的準(zhǔn)確性;文獻(xiàn)[7]針對森林火災(zāi)圖像識別中遇到的漏檢和誤檢等問題,提出1 種基于K-Means聚類下樣本熵值判別算法;文獻(xiàn)[8]針對人為選擇支持向量機(jī)(SVM)參數(shù)具有盲目性以及參數(shù)對其分類能力影響較大的特點(diǎn),提出基于改進(jìn)果蠅優(yōu)化算法-支持向量機(jī)(FOA-SVM)的火災(zāi)圖像識別模型;文獻(xiàn)[9]針對火災(zāi)圖像識別特征問題,基于迭代算法-支持向量機(jī)(Adaboost-SVM)集成算法提出1種新的基于Gabor濾波和局部二值模式(LBP)的多尺度局部紋理特征提取方法;文獻(xiàn)[10]針對礦井下傳統(tǒng)火災(zāi)識別方法準(zhǔn)確率較低的問題,提出1 種基于改進(jìn)FOASVM火災(zāi)圖像識別融合算法;文獻(xiàn)[11]為以更少的參數(shù)提取更高級別的特征,提出1 種用于深度偽造檢測的輕量級三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)模型;文獻(xiàn)[12]提出1 個(gè)火控的耦合卷積神經(jīng)網(wǎng)絡(luò)模型(FC-MSPCNN),并提供1 個(gè)在有效脈沖周期內(nèi)控制放電和放電神經(jīng)元的參數(shù)設(shè)置方法;文獻(xiàn)[13]提出1 種使用卷積神經(jīng)網(wǎng)絡(luò)的語義火災(zāi)圖像分割方法;文獻(xiàn)[14]基于機(jī)器視覺的火災(zāi)/煙霧檢測方法進(jìn)行完整的調(diào)查和分析;文獻(xiàn)[15-16]針對火災(zāi)火焰識別算法復(fù)雜和對環(huán)境要求高的特點(diǎn)提出基于圖像特征的火災(zāi)火焰識別方法,針對傳統(tǒng)火災(zāi)探測中靈敏度不高、響應(yīng)慢的問題,提出1 種基于特征融合的圖像型火災(zāi)探測方法。
上述研究在各個(gè)方面均取得較好的效果,但也存在一些不足,具體表現(xiàn)如下:1)火災(zāi)圖像識別過程中使用淺層深層特征、火焰形狀特征的尖角特征、張量對象特征、支持向量機(jī)等,而并未使用直接表征火災(zāi)信息的顏色特征;2)模型訓(xùn)練過程中圖像樣本量較少;3)基于紋理特征的分類與回歸樹(CART)進(jìn)行火災(zāi)圖像的識別樣本量少,同時(shí)紋理特征表征火災(zāi)圖像的效果低于顏色特征;4)基于卷積神經(jīng)網(wǎng)絡(luò)對火災(zāi)圖像庫進(jìn)行訓(xùn)練的模型識別精度較高,但是隨著樣本數(shù)據(jù)量的增多,運(yùn)算負(fù)荷急劇增加。
綜上所述,為研究適合火災(zāi)圖像識別的最優(yōu)顏色特征組合以及后續(xù)基于圖像多維特征融合提高火災(zāi)圖像識別準(zhǔn)確率,本文基于火災(zāi)圖像顏色特征融合CART決策樹進(jìn)行火災(zāi)圖像方法的識別研究,研究結(jié)果對提高火災(zāi)圖像識別準(zhǔn)確率具有現(xiàn)實(shí)意義。
本文基于常見的3 種色彩模式(Lab、RGB、HSV),利用偏色因子[17]及偏色因子間方差var[18-21]來表征常規(guī)場景與火災(zāi)場景下圖像顏色特征。偏色因子及其方差var計(jì)算過程(以RGB色彩模式為例)如式(1)~(8)所示:
式中:r,g,b為分別為RGB色彩模式的紅、綠、藍(lán)分量信息;dr,dg,db是RGB色彩模式下圖像各通道信息平均值;M,N為圖像的像素維數(shù);mr,mg,mb為RGB圖像各個(gè)分量信息偏色平均值;kr,kg,kb為3 個(gè)分量偏色因子;var為偏色因子方差。
決策樹(decision tree)是1 類常見的有監(jiān)督機(jī)器學(xué)習(xí)預(yù)測模型,是對象屬性與對象值之間的映射關(guān)系。常見的決策樹算法有ID3 算法、C4.5 算法、CART算法,其中C4.5 算法繼承ID3 算法的優(yōu)點(diǎn),其計(jì)算過程中基于信息增益率來選擇屬性,而CART算法主要使用基尼指數(shù)(Gini index)來選擇劃分屬性。CART決策樹具體算法流程如圖1所示。對于決策樹算法,最關(guān)鍵是如何選擇最優(yōu)劃分屬性,而CART決策樹使用基尼指數(shù),其克服ID3 算法與C4.5 算法分別用信息增益和信息增益率選擇屬性時(shí)偏向選擇取值多的屬性的不足。
圖1 CART決策樹算法流程Fig.1 Algorithm process of CART decision tree
1.2.1 信息增益
信息熵(information entropy)是決策樹算法計(jì)算過程中度量樣本集合純度的1 種指標(biāo)。設(shè)對于任意的集合D,第k類樣本所占的比例為pk(k=1,2,…,),則集合D的信息熵Ent(D)計(jì)算過程如式(9)所示:
信息熵Ent(D)的值越小,表示集合D的純度越高。
考慮到樣本數(shù)越多的分支結(jié)點(diǎn)的影響越大,計(jì)算用屬性a 對樣本集D進(jìn)行劃分所獲得的信息增益(information gain),其計(jì)算過程如式(10)所示。設(shè)a 有V個(gè)可能值{a1,a2,…,av},若使用a 對樣本進(jìn)行劃分,則會產(chǎn)生V個(gè)分支點(diǎn),其中第v個(gè)分支點(diǎn)包含集合中所有在屬性a 上取值為Dv的樣本,根據(jù)式(9)計(jì)算出Dv的信息熵,再考慮到不同的分支結(jié)點(diǎn)所包含的樣本數(shù)不同,給分支結(jié)點(diǎn)賦予權(quán)重
對于信息增益Gain(D,a)而言,其值越大,則表示屬性a 來對分類劃分的純度提升越大。
1.2.2 信息增益率
信息增益率是為了減少信息增益準(zhǔn)則對可取值數(shù)目較大的屬性有所偏好的不利影響,從而來選擇最優(yōu)的劃分屬性。增益率Gain_ratio(D,a)的定義如式(11)所示:
1.2.3 基尼指數(shù)
基尼指數(shù)的計(jì)算過程如式(12)所示:
式中:Gini(D)表示從數(shù)據(jù)集中隨機(jī)抽取2 個(gè)樣本,其類別標(biāo)記不一致的概率,Gini(D)越小,則數(shù)據(jù)集的純度越高。
屬性a 的基尼指數(shù)計(jì)算過程如式(13)所示:
因此,選擇基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性,即a*=,A表示a 的集合。
一次優(yōu)化特征是指在Lab、RGB、HSV3 種色彩模式下,分別進(jìn)行特征的隨機(jī)組合,第1 次尋找最優(yōu)組合特征。二次優(yōu)化特征是指針對Lab、RGB、HSV 3 種色彩模式下優(yōu)化的一次優(yōu)化特征,基于混合疊加原理組成的新組合特征。本文方法的具體過程如圖2所示。
圖2 方法流程Fig.2 Flow chart of method
步驟1:收集火災(zāi)圖像與非火災(zāi)圖像樣本集。
步驟2:基于Lab、RGB、HSV3 種色彩模式提取火災(zāi)與非火災(zāi)樣本庫顏色特征數(shù)據(jù),即Ka、Kb1、Var1;Kr、Kg、Kb2、Var2;Kh、Ks、Kv、Var3。
步驟3:首先在Lab、RGB、HSV色彩模式下分別基于粗略決策樹、中等決策樹、精細(xì)決策樹尋找一次優(yōu)化特征,然后基于混合疊加原理組合為二次優(yōu)化組合特征。
步驟4:基于步驟3 尋找的最優(yōu)組合特征以及樣本圖像進(jìn)行CART決策樹模型的訓(xùn)練,并進(jìn)行驗(yàn)證準(zhǔn)確度與測試準(zhǔn)確度計(jì)算。
步驟5:依據(jù)步驟4 的測試準(zhǔn)確度數(shù)據(jù)判斷其大小是否滿足火災(zāi)圖像識別精度要求,如果不滿足要求,調(diào)整分裂數(shù)數(shù)量,優(yōu)化CART參數(shù)或更換訓(xùn)練樣本集,直至找到測試準(zhǔn)確度最高的CART決策樹模型。
為了驗(yàn)證本文方法的有效性,使用自建數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn),自建數(shù)據(jù)庫圖像源于Canon EOS80D相機(jī)拍攝的模擬真火場景以及網(wǎng)上森林火災(zāi)圖像。圖像庫總計(jì)7 775張,其中火災(zāi)圖像3 777 張,非火災(zāi)圖像3 998 張,并按3 :1 的比例隨機(jī)分為訓(xùn)練集和測試集?;馂?zāi)圖像包括基于紅色背景、綠色背景、藍(lán)色背景在晴天自然光、陰天自然光、暗箱無光3 種光照條件下所拍攝的火災(zāi)場景,各400 張,共計(jì)1 600 張,以及400 張?jiān)从诨ヂ?lián)網(wǎng)的森林火災(zāi)圖像中隨機(jī)抽取的177 張圖像,總計(jì)3 777 張;非火災(zāi)圖像包括基于紅色背景、綠色背景、藍(lán)色背景在晴天自然光、陰天自然光、暗箱無光3 種光照條件下所拍攝的常規(guī)場景,各400 張,共計(jì)1 600 張,以及隨機(jī)拍攝的日出、日落、校園外景、教學(xué)樓內(nèi)室等398 張非火災(zāi)場景圖像,總計(jì)3 998 張。
2.2.1 Lab 色彩模式下優(yōu)化組合特征
為研究各種組合特征預(yù)測火災(zāi)圖像的的優(yōu)劣性,采用數(shù)理統(tǒng)計(jì)方法對3 個(gè)特征進(jìn)行排列組合,總計(jì)7 組表1為Lab 色彩模式下顏色特征指標(biāo)編碼及3 種決策樹精度大小分布,Lab 色彩模式下顏色特征組合預(yù)測火災(zāi)圖像精度大小分布如圖3所示。結(jié)合表1和圖3可以看出,Lab 色彩模式下“Kb1 +Var1” (6號特征)特征組合預(yù)測精度最高。
圖3 Lab色彩模式下火災(zāi)圖像識別精度大小Fig.3 Accuracy of fire image recognition in Lab color mode
表1 Lab色彩模式下特征編號及決策樹精度大小分布Table 1 Feature number and size distribution of decision tree accuracy in Lab color mode
2.2.2 RGB色彩模式下優(yōu)化組合特征
為了研究各種組合特征預(yù)測火災(zāi)圖像的優(yōu)劣性,采用數(shù)理統(tǒng)計(jì)方法對4 個(gè)特征進(jìn)行組合,總計(jì)15 組(M=。表2為RGB色彩模式下顏色特征指標(biāo)編碼及3種決策樹精度大小分布,RGB色彩模式下顏色特征組合預(yù)測火災(zāi)圖像精度大小分布如圖4所示。結(jié)合表2和圖4可以看出,RGB色彩模式下“Kg+Kb2 +Var2”特征(14 號特征)組合預(yù)測精度最好。
圖4 RGB色彩模式下火災(zāi)圖像識別精度大小Fig.4 Accuracy of fire image recognition in RGB color mode
表2 RGB色彩模式下特征編號及決策樹精度大小分布Table 2 Feature number and size distribution of decision tree accuracy in RGB color mode
2.2.3 HSV色彩模式下優(yōu)化組合特征
為了研究各種組合特征預(yù)測火災(zāi)圖像的優(yōu)劣性,采用數(shù)理統(tǒng)計(jì)方法對4 個(gè)特征進(jìn)行組合,總計(jì)15 組(M=。表3為HSV色彩模式下顏色特征指標(biāo)編碼及3種決策樹精度大小分布,HSV色彩模式下顏色特征組合預(yù)測火災(zāi)圖像精度大小分布如圖5所示。結(jié)合表3和圖5可以看出,HSV色彩模式下“Kh +Ks+Kv” (11 號特征)特征組合預(yù)測精度最好。
圖5 HSV色彩模式下火災(zāi)圖像識別精度大小Fig.5 Accuracy of fire image recognition in HSV color mode
表3 HSV色彩模式下特征編號及決策樹精度大小分布Table 3 Feature numbers and size distribution of decision tree accuracy in HSV color mode
綜上所述,本文選用Lab、RGB、HSV3 種色彩模式下的優(yōu)化特征構(gòu)建決策樹,特征組合為“Kb1 +Var1 +Kg+Kb2 +Var2 +Kh +Ks+Kv”。
針對上文數(shù)據(jù)集和最優(yōu)特征組合,應(yīng)用CART決策樹方法提取決策樹。表4為不同類型樹與CART決策樹準(zhǔn)確度對比結(jié)果,由表4可知,對于驗(yàn)證準(zhǔn)確度而言,子空間KNN集成樹驗(yàn)證準(zhǔn)確度最高,可達(dá)90.92%,其次為CART決策樹,驗(yàn)證準(zhǔn)確度達(dá)90.54%,其他決策樹和集成樹驗(yàn)證準(zhǔn)確度均低于子空間KNN 集成樹與CART決策樹;對于測試準(zhǔn)確度而言,CART決策樹準(zhǔn)確度最高,可達(dá)84.50%,而其他決策樹和集成樹測試準(zhǔn)確度均低于CART決策樹。表5為CART決策樹不同交叉折數(shù)下火災(zāi)圖像識別準(zhǔn)確度對比結(jié)果,由表6可以看出,9 折交叉驗(yàn)證測試準(zhǔn)確度最高,可達(dá)86.47%,交叉驗(yàn)證折數(shù)越高,驗(yàn)證準(zhǔn)確度也呈現(xiàn)螺旋式增長態(tài)勢,但是測試準(zhǔn)確度不會隨交叉驗(yàn)證折數(shù)的增長而增長。
表4 不同類型樹與CART決策樹識別準(zhǔn)確度對比Table 4 Comparison of recognition accuracy between different types of trees and CART decision tree
表5 CART決策樹在不同交叉折數(shù)下識別精度對比Table 5 Comparison of recognition accuracy of CART decision tree under different cross fold numbers
1)3 種色彩模式下的顏色特征對于火災(zāi)圖像識別表征效果較好,在Lab 色彩模式下最優(yōu)顏色特征組合為“Kb1 +Var1”,其驗(yàn)證準(zhǔn)確度為74.5%;在RGB色彩模式下最優(yōu)顏色特征組合為“Kg+Kb2 +Var2”,其驗(yàn)證準(zhǔn)確度為78.8%;在HSV色彩模式下最優(yōu)顏色特征組合為“Kh +Ks+Kv”,其驗(yàn)證準(zhǔn)確度為83.9%。
2)不同類型決策樹和集成樹對于火災(zāi)圖像識別的驗(yàn)證準(zhǔn)確度與測試準(zhǔn)確度差異較大,子空間KNN集成樹對火災(zāi)圖像識別的驗(yàn)證準(zhǔn)確度最高,但其測試準(zhǔn)確度較低;而CART決策樹對于火災(zāi)圖像識別的驗(yàn)證準(zhǔn)確度次之,同時(shí)CART決策樹對于火災(zāi)圖像的測試準(zhǔn)確度最高,這反映出子空間KNN集成樹訓(xùn)練模型存在過擬合現(xiàn)象,泛化能力較弱,其原因是驗(yàn)證準(zhǔn)確度與測試準(zhǔn)確度相差較大。
3)除子空間KNN集成樹外,與其他決策樹模型相比,CART決策樹的驗(yàn)證準(zhǔn)確度與測試準(zhǔn)確度均最高,同時(shí)驗(yàn)證準(zhǔn)確度與測試準(zhǔn)確度之差也明顯最小,這也表明CART決策樹模型的泛化能力較好。
4)考慮顏色特征最優(yōu)組合的CART決策樹火災(zāi)圖像識別方法為火災(zāi)圖像多維特征融合識別提供基礎(chǔ),其重在考慮顏色特征對于火災(zāi)圖像識別的貢獻(xiàn)度?;馂?zāi)圖像的特征還包括紋理特征、多邊形特征等,這些特征對于火災(zāi)圖像識別均具有一定的貢獻(xiàn)度,在后續(xù)的研究中還要從紋理特征、多邊形特征、多特征融合等角度出發(fā),基于機(jī)器學(xué)習(xí)等方法進(jìn)行火災(zāi)圖像識別方法的研究,從識別精度及效率等方面優(yōu)化火災(zāi)圖像識別效能,為火災(zāi)事故預(yù)防提供方法基礎(chǔ)。
中國安全生產(chǎn)科學(xué)技術(shù)2023年1期