摘 要:基于視頻分析的火焰識別能夠克服傳統(tǒng)火焰識別方法的局限性(輻射范圍小、易受環(huán)境影響且響應(yīng)速度慢)。本文融合火焰識別的靜態(tài)特征和動態(tài)特征,采用卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)模型,并在模型中加入對比學(xué)習(xí),增強模型學(xué)習(xí)特征的能力。試驗結(jié)果表明,本文提出的CNN-LSTM融合模型能夠取得更好的識別效果。
關(guān)鍵詞:火焰識別;卷積神經(jīng)網(wǎng)絡(luò);長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò);對比學(xué)習(xí)
中圖分類號:TP 391" " " " 文獻標(biāo)志碼:A
原油集輸站庫主要是將油井采出的油、水、氣混合物進行收集、暫存和初步處理并輸送到指定容器或裝置的生產(chǎn)過程。安全生產(chǎn)是集輸站庫的首要任務(wù),其中火災(zāi)是威脅集輸站庫安全的首要危險因素。為了最大程度地保護人民生命財產(chǎn)安全,火災(zāi)的早期發(fā)現(xiàn)和及時預(yù)警具有舉足輕重的作用。前期的火災(zāi)預(yù)防和發(fā)現(xiàn)通過溫感、煙感、光感等傳感器采集環(huán)境數(shù)據(jù),這些探測技術(shù)存在輻射范圍較小、響應(yīng)速度較慢且易受環(huán)境中粉塵、水霧或溫度變化影響等特點[1],導(dǎo)致應(yīng)用場景有限、工作模式單一且抗干擾能力較差。
隨著視頻監(jiān)控系統(tǒng)的廣泛使用和數(shù)字圖像處理技術(shù)的飛速發(fā)展,基于視頻分析的火焰檢測技術(shù)受到越來越多的關(guān)注?;谝曨l分析的火焰識別技術(shù)通過識別視頻畫面中的火焰和煙霧圖像進行報警。與傳統(tǒng)的探測技術(shù)相比,該方法具有探測范圍廣、抗干擾能力強和響應(yīng)速度快等特點。然而一些識別算法經(jīng)常會把路燈、車燈誤判為火焰,產(chǎn)生誤報。本文采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)2種深度學(xué)習(xí)模型,并引入對比學(xué)習(xí)等技術(shù),以提供火焰識別的正確率。
1 火焰識別研究現(xiàn)狀
1.1 基于傳統(tǒng)圖像處理的視頻火焰識別方法
首次提出視頻火焰檢測技術(shù)的是美國的Simon教授。他通過分析視頻中火焰的亮度來識別飛機貨艙的火焰。早期研究人員主要分析視頻的靜態(tài)特征,如顏色、文理等。有學(xué)者在RGB空間分析了煙霧像素R、G、B這3個顏色通道的分布規(guī)律,并結(jié)合HSI模型中I分量的變化,建立了煙霧檢測的決策規(guī)則。也有學(xué)者在Lab空間對煙霧視頻序列進行了特征研究,并通過K-means聚類算法實現(xiàn)了煙霧的識別與分離。還有學(xué)者將圖像進行分塊處理,通過小波變換和灰度共生矩陣提取煙霧特征,然后通過BP神經(jīng)網(wǎng)絡(luò)識別火災(zāi)。吳愛國等[2]采用區(qū)域分割算法提取亮點區(qū)域,并在該基礎(chǔ)上進一步提取疑似區(qū)域的邊界鏈碼,最終通過計算各區(qū)域的圓形度來識別是否發(fā)生火災(zāi)。
對火焰的識別方法包括CALLE等人結(jié)合隱馬爾可夫模型和火焰的閃爍、顏色特征進行火焰識別。分析火焰燃燒過程中不規(guī)則運動的特征,提出一種通過片段運動矢量與閾值關(guān)系識別火焰的方法。將最佳質(zhì)量傳遞光流法作為低維描述,以單隱層神經(jīng)網(wǎng)絡(luò)作為分類器,最終將煙霧、白色背景和相似顏色背景火焰進行了準(zhǔn)確分類的方法等。
1.2 以機器學(xué)習(xí)為技術(shù)核心的視頻火焰識別方法
機器學(xué)習(xí)的相關(guān)算法取得了迅速、長足的發(fā)展,由此衍生出的利用人工神經(jīng)網(wǎng)絡(luò)、支持向量機和決策樹等模型的溫濕度探測、煙霧探測和火焰識別方法也有了相應(yīng)的應(yīng)用場景。BYOUNG CHUL KO[3]等人融合了顏色特征和火焰的運動特征,采用支持向量機進行火焰圖像識別。主要方法是提取火焰的面積方差比、圓形度、相關(guān)性和角度數(shù),將其作為支持向量機的輸入特征向量組,采用修正核函數(shù)的方法對火焰圖片進行訓(xùn)練,提高了火焰圖像的分類精度。
目前,深度學(xué)習(xí)理論取得飛速發(fā)展,并迅速應(yīng)用到各領(lǐng)域。如前學(xué)者于2016年提出使用9層分類網(wǎng)絡(luò)進行煙霧及有火探測,并最終實現(xiàn)了相似火焰分類,于2018年將卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)進行微調(diào),從而提高了網(wǎng)絡(luò)識別煙霧及有火的能力。ZHANG提出的[4]先由全局圖像級分類器分出火災(zāi)圖片,再由下一級分類器檢測出火災(zāi)的具體位置,屬于一種級聯(lián)式林火卷積神經(jīng)網(wǎng)絡(luò)監(jiān)測方法,最終的識別準(zhǔn)確率可達97%和90%。孫琛等人[5]使用滑窗法進行火災(zāi)定位,單獨設(shè)計了融合滑動窗口的殘差卷積神經(jīng)網(wǎng)絡(luò)火災(zāi)識別方法,最終取得的識別效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)的識別效果。
2 基于CNN-LSTM融合模型的火焰識別方法
火焰特征主要包括靜態(tài)特征和動態(tài)特征,其中靜態(tài)特征包括色彩、紋理等,動態(tài)特征包括邊緣跳躍頻率等。其中,靜態(tài)特征的提取精度會影響動態(tài)特征的表達。本文將卷積神經(jīng)網(wǎng)絡(luò)作為靜態(tài)特征提取模型,采用LSTM提取火焰的時序動態(tài)特征,通過視頻分析完成火焰識別,實現(xiàn)框架如圖1所示。本文采用CNN提取視頻中每幀圖像的圖像特征,然后將每幀圖像特征作為LSTM的輸入,提取火焰的動態(tài)特征。此外,為了提供火焰識別正確率、降低誤報率,本文將對比學(xué)習(xí)引入模型,以增強特征表達能力。
2.1 基于CNN的火焰圖像特征提取模型
隨著網(wǎng)絡(luò)層數(shù)的增加,卷積神經(jīng)網(wǎng)絡(luò)會造成訓(xùn)練速度降低和模型難以收斂的問題,甚至?xí)霈F(xiàn)網(wǎng)絡(luò)退化和信息丟失。HE等人提出的ResNet網(wǎng)絡(luò)能夠有效解決上述問題,并被廣泛應(yīng)用。本文將ResNet-50網(wǎng)絡(luò)作為基礎(chǔ)框架,并對激活函數(shù)、歸一化等進行了改進。原始ResNet采用的ReLU激活函數(shù)在激活值為負值的條件下沒有任何輸出,從而導(dǎo)致神經(jīng)元停止更新,成為死節(jié)點。這不僅會影響神經(jīng)網(wǎng)絡(luò)的收斂速度,還會降低神經(jīng)網(wǎng)絡(luò)的性能。本文采用LeakyReLU激活函數(shù),能夠使負值區(qū)間內(nèi)的梯度較小,防止出現(xiàn)死節(jié)點。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該模型分為6個部分,包括輸入模塊、輸出模塊和殘差模塊等,結(jié)構(gòu)為卷積層49層,全連接層1層,采用最大池化對模型進行降采樣。
2.2 基于LSTM的火焰時序特征提取模型
LSTM是深度學(xué)習(xí)技術(shù)的一個組成部分,作為一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),LSTM在處理時序數(shù)據(jù)方面具有得天獨厚的優(yōu)勢,能夠解決RNN神經(jīng)網(wǎng)絡(luò)由加長訓(xùn)練時間及增多網(wǎng)絡(luò)層數(shù)導(dǎo)致的梯度爆炸或消失問題,并在長周期依賴方面效果較好。因此,本文將LSTM作為時序特征提取模型。
LSTM的基本單元包括5個部分,即輸入門、輸出門、遺忘門、狀態(tài)輸入和狀態(tài)輸出。LSTM模型通過輸入門、輸出門、遺忘門3個門控單元對信息進行篩選,即完成對信息的選擇性記憶。作為LSTM的核心,記憶細胞主要負責(zé)信息存儲和傳遞,包括1個線性單元和1個非線性單元。線性單元是簡單的加法器,將上一時刻和當(dāng)前時刻的記憶細胞相加;非線性單元包括Sigmoid函數(shù),主要負責(zé)控制信息流動。輸入門控制信息的輸入,通過Sigmoid函數(shù)對輸入信息進行歸一化處理,然后與Sigmoid函數(shù)的輸出點乘,將獲得的輸出結(jié)果加入核心的記憶細胞中。遺忘門控制信息的遺忘,通過Sigmoid函數(shù)對上一刻和當(dāng)前記憶細胞的輸入進行歸一化處理,然后與Sigmoid函數(shù)的輸出點乘,將獲得的輸出結(jié)果從核心的記憶細胞中減去。輸出門控制信息的輸出,通過Sigmoid函數(shù)對輸入信息進行歸一化處理,然后與Sigmoid函數(shù)的輸出點乘,將獲得的輸出結(jié)果作為當(dāng)前時刻的輸出。
基于LSTM的火焰時序特征提取模型方法主要是對視頻中的每幀圖像序列進行圖像幀特征提取,將其作為CNN網(wǎng)絡(luò)的輸入,并提取CNN網(wǎng)絡(luò)輸出的時序幀特征,將其作為LSTM模型的輸入。通過LSTM捕捉圖像中的動態(tài)特征及特征之間的依賴關(guān)系,以提高火焰識別的正確率,進而提高火焰特征識別的準(zhǔn)確率。
基于LSTM的火焰時序特征提取模型方法具體操作步驟如下。
首先,計算遺忘門。遺忘門決定保留信息的重要程度。遺忘門的輸入是上一時刻的輸出ht-1和當(dāng)前時刻的輸入xt,然后采用 Sigmoid激活函數(shù)進行值的傳遞。具體如公式(1)所示。
ft=σ(Wf xt+Ufht-1+bf) " (1)
其次,計算輸入門。輸入門決定記憶單元狀態(tài)里保存哪些信息。該步驟主要包括2個方面。一是計算輸入門的值it,二是計算候選狀態(tài)。具體如公式(2)所示。
=tanh(Wicxt+Ucht-1+bc) " (2)
再次,更新細胞的狀態(tài)。剔除舊的信息,增加新信息。具體如公式(3)所示。
Ct=it·+ft·Ct-1 " (3)
最后,計算記憶單元的輸出和輸出門的輸出,如公式(4)、公式(5)所示。
ot=σ(Woxt+Uoht-1+VoCt+bO) " (4)
ht=ot·tanh(Ct) " (5)
式中:xt為t時刻的輸入變量;W、U、V為權(quán)重矩陣;b為偏項;σ為激活函數(shù)。
2.3 對比學(xué)習(xí)模型設(shè)計
對比學(xué)習(xí)是自監(jiān)督學(xué)習(xí)的一種,其核心思想是縮短2個正樣本之間的距離,拉大負樣本之間的距離,從而得到更好的表示。對比學(xué)習(xí)的主要研究內(nèi)容是正、負樣本的選擇。在計算機視覺領(lǐng)域,常用旋轉(zhuǎn)、裁切和縮放等實現(xiàn)正樣本數(shù)據(jù)增強。然而,由于LSTM模型的輸入是已經(jīng)提取好的特征,無法直接實現(xiàn)這些操作。本文借鑒SimCSE模型的對比學(xué)習(xí)方法,實現(xiàn)batch內(nèi)的對比學(xué)習(xí)。本文修改了LSTM模型的損失函數(shù),增加對比學(xué)習(xí)模型的損失函數(shù),具體如公式(6)~公式(8)所示。
LOSSTotal=LOSSsample+0.2×LOSScontrast " "(6)
(7)
(8)
式中:LOSSTotal為總的損失函數(shù);LOSSsample為樣本損失函數(shù);LOSScontrast為對比學(xué)習(xí)的損失函數(shù);f(xi)為深度學(xué)習(xí)模型;f '(xi)為dropout之后的第二次結(jié)果;xi為輸入的樣本特征;yi為第i個樣本的標(biāo)簽。
3 試驗和結(jié)果討論
3.1 數(shù)據(jù)集
本文使用的煙霧與火焰檢測算法數(shù)據(jù)集主要來自袁非牛實驗室(http://staff.ustc.edu.cn/~yfn/vsd.html)、韓國啟明大學(xué)CVPR試驗室(http://cvpr.kmu.ac.kr/)和土耳其畢爾肯大學(xué)實驗室(Bilkent University,http://signal.ee.bilkent.edu.tr/Visi Fire/Demo/Sample Clips.html),還有部分來源于網(wǎng)絡(luò)。
3.2 評估標(biāo)準(zhǔn)
本文試驗主要采用準(zhǔn)確率(Acc)、靈敏度(Sen)和特異度(Spe)3個指標(biāo)評價火焰識別模型的效果。
準(zhǔn)確率(Acc)表示分類器對正、負樣本都能夠進行正確分類的能力,如公式(9)所示。
(9)
式中:TP即True Positive,代表正樣本被正確識別的數(shù)量值,其中分類器預(yù)測結(jié)果與實際樣本均為正樣本;FP即 Positive,代表誤報的負樣本數(shù)量值,其中分類器預(yù)測結(jié)果與實際樣本分別為正樣本、負樣本;TN即True Negative,代表負樣本被正確識別的數(shù)量值,其中分類器預(yù)測結(jié)果與實際樣本均為負樣本;FN即 Negative,代表漏報的正樣本數(shù)量值,其中分類器預(yù)測結(jié)果與實際樣本分別為負樣本、正樣本。
靈敏度(Sen)表示分類器準(zhǔn)確檢測正樣本的能力,如公式(10)所示。
(10)
特異度(Spe)表示分類器準(zhǔn)確檢測負樣本的能力,如公式(11)所示。
(11)
3.3 試驗結(jié)果
本文試驗包括7類不同形態(tài)的火焰視頻和3類非火焰視頻。從連續(xù)的視頻中獲取15幀,將其作為LSTM的輸入數(shù)據(jù),用以判斷是否為火焰。其中火焰序列1400幀,非火焰序列960幀。將本試驗與文獻[6]算法進行比較來驗證模型的有效性,比較結(jié)果見表1。由表1可見,本文提出的CNN-LSTM融合模型在準(zhǔn)確率上均優(yōu)于文獻[6]提出的算法。
4 結(jié)語
本文提出了一種基于CNN-LSTM融合的視頻火焰識別算法.該算法采用CNN提取視頻幀的特征,采用LSTM獲取視頻的時序特征,并改進損失函數(shù),增加對比學(xué)習(xí)的損失。試驗結(jié)果表明,本文提出的火焰識別方法優(yōu)于對比方法。該方法能夠應(yīng)用于集輸站庫的安全檢測,提升集輸站庫的安全水平。
參考文獻
[1]MARTIN,MUELLER,PETER,et al.Optical flow estimation
for flame detection in videos[J].IEEE transactions on image processing,
2013,22(7):2786-97.
[2]吳愛國,李明,陳瑩.大空間圖像型火災(zāi)探測算法的研究[J].計算機測量與控制,2006(7):869-871.
[3]BYOUNG CHUL KO,CHEONG K H,NAM J Y.Fire
detection based on vision sensor and support vector machines[J].Fire safety journal,2009,44(3):322-329.
[4]ZHANG X H ,JIANG L Q,YANG D X,et al.Urine sediment
recognition method based on multi-view deep residual learning
in microscopic image[J].Journal of medical systems,2019,43(11):325.
[5]孫琛.基于視頻圖像的火災(zāi)檢測算法研究與設(shè)計[D].濟南:山東大學(xué),2018.
[6]孫灝能.基于機理與學(xué)習(xí)融合的火焰檢測算法研究[D].遼寧:東北大學(xué),2020.