陳浩霖 高尚兵 相林 蔡創(chuàng)新 汪長(zhǎng)春
摘要模型的效率在計(jì)算機(jī)視覺中變得越來越重要.本文通過研究用于火焰檢測(cè)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提出了幾個(gè)關(guān)鍵的優(yōu)化方案,以提高模型效率和檢測(cè)效果.第一,提出一種由多卷積組合結(jié)構(gòu)構(gòu)建的主干網(wǎng)絡(luò)(FIRE-Net),它能高效地從多個(gè)尺度上提取豐富的火焰特征;第二,提出一種改進(jìn)的加權(quán)雙向特征金字塔網(wǎng)絡(luò)(BiFPN-mini)以快速地實(shí)現(xiàn)多尺度特征融合;第三,提出一種新的注意力機(jī)制(FIRE-Attention),讓檢測(cè)器對(duì)火焰特征更敏感.基于上述優(yōu)化,本文開發(fā)出了一種全新的火焰檢測(cè)器FIRE-DET,它在硬件資源有限的條件下能夠取得比現(xiàn)有基于深度學(xué)習(xí)的火焰檢測(cè)方法更高的檢測(cè)效率.FIRE-DET模型在自建數(shù)據(jù)集上進(jìn)行訓(xùn)練后,最終對(duì)火焰檢測(cè)的準(zhǔn)確率和幀率分別達(dá)到97%和85 FPS.實(shí)驗(yàn)結(jié)果表明,與主流算法相比,本文火焰檢測(cè)模型檢測(cè)性能更優(yōu).本文為解決火焰探測(cè)問題提供了一個(gè)更通用的解決方案.
關(guān)鍵詞特征提取;特征融合;注意力機(jī)制;火焰檢測(cè)
中圖分類號(hào)
TP391.41
文獻(xiàn)標(biāo)志碼
A
收稿日期
2021-11-12
資助項(xiàng)目
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2018YFB1004904);江蘇省高校自然科學(xué)研究重大項(xiàng)目(18KJA520001);2021年淮陰工學(xué)院研究生科技創(chuàng)新計(jì)劃項(xiàng)目(HGYK202122)
作者簡(jiǎn)介
陳浩霖,男,碩士生,研究方向?yàn)樯疃葘W(xué)習(xí)及計(jì)算機(jī)視覺.1007256512@qq.com
高尚兵(通信作者),男,博士,教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、模式識(shí)別和數(shù)據(jù)挖掘.luxiaofen_2002@126.com
0 引言
火災(zāi)的發(fā)生會(huì)威脅人類的生命安全,如:2019年9月6日至2020年1月14日,澳大利亞森林火災(zāi)燃燒面積達(dá)1 860萬hm2,傷亡人數(shù)34人,死于火災(zāi)的動(dòng)物超過10億只[1];2020年3月30日,四川省涼山州西昌市經(jīng)久鄉(xiāng)發(fā)生森林火災(zāi),造成19名消防戰(zhàn)士犧牲.為了預(yù)防火災(zāi),我國(guó)在“十三五”全國(guó)森林防火規(guī)劃建設(shè)期間,全國(guó)規(guī)劃投入森林防火資金450.95億元,其中中央建設(shè)投資和財(cái)政經(jīng)費(fèi)分別投入189.89 億元和185.44億元.
火焰是火災(zāi)中最明顯的特征之一,因此基于圖像處理提取火焰特征是常用的檢測(cè)火災(zāi)的方法.目前該類方法主要分為基于傳統(tǒng)圖像處理的火焰檢測(cè)、基于傳統(tǒng)機(jī)器學(xué)習(xí)的火焰檢測(cè)和基于深度學(xué)習(xí)的火焰檢測(cè).近年火焰檢測(cè)的方法具體有:
1)基于傳統(tǒng)圖像處理的火焰檢測(cè)方法,使用手工提取的火焰特征識(shí)別火焰.如:張慧珍等 [2] 提出一種基于超像素分割并結(jié)合閃頻特征進(jìn)行判斷識(shí)別火焰的方法;Gong等 [3] 通過計(jì)算圖像每幀火焰區(qū)域的質(zhì)心,然后通過提取火焰的空間變異性、形狀變異性和面積變異性等特征檢測(cè)火焰.
2)基于傳統(tǒng)機(jī)器學(xué)習(xí)的火焰檢測(cè)方法,更注重特征的提取,特征可解釋性較強(qiáng).如:Ko等[4]提出基于模糊有限自動(dòng)機(jī)的火焰檢測(cè)算法;Gunay等[5]提出一種基于熵函數(shù)的在線自適應(yīng)決策融合框架;Dimitropoulos 等[6]利用火焰的先驗(yàn)知識(shí),提取火焰候選區(qū)域,然后使用兩類SVM分類器對(duì)候選區(qū)域進(jìn)行分類.
3)基于深度學(xué)習(xí)的火焰檢測(cè)方法,通過自動(dòng)學(xué)習(xí)特征(卷積特征)檢測(cè)火焰,無需設(shè)計(jì)指定特征,學(xué)習(xí)獲得的特征只有計(jì)算機(jī)理解.如:Kim等[7]將連續(xù)幀中邊界框內(nèi)的匯總特征由Long Short-Term Memory(LSTM)在短期時(shí)間序列中判斷是否存在火并進(jìn)行分類,然后將大多數(shù)連續(xù)的短期決策合并在一起,長(zhǎng)期投票決定最終結(jié)果;Aslan等[8]提出一種基于視覺的深度卷積生成對(duì)抗性神經(jīng)網(wǎng)絡(luò)火焰檢測(cè)方法;Zhang等[9]提出一種有效的非對(duì)稱編譯碼U形結(jié)構(gòu)ATT-Squeeze-Net來鑒別森林火災(zāi);Dunnings等[10]提出一種基于超像素分割結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)的火焰檢測(cè)方法.
基于傳統(tǒng)圖像處理的火災(zāi)檢測(cè)所依靠的特征和判定閾值規(guī)則是人為設(shè)定的,往往泛化能力略顯不足.基于傳統(tǒng)機(jī)器學(xué)習(xí)的火焰檢測(cè)同樣是利用人工提取特征,只是在最后的檢測(cè)時(shí)利用機(jī)器學(xué)習(xí)分類算法進(jìn)行火焰分類,依然無法避免人工特征工程的缺點(diǎn).基于深度學(xué)習(xí)的火焰檢測(cè),可以避免人工特征工程的繁雜,利用計(jì)算機(jī)自動(dòng)提取特征,能夠?qū)崿F(xiàn)端到端的實(shí)時(shí)輸出,并且能夠保證檢測(cè)精度和泛化能力,這就擁有了很好的智能性.但復(fù)雜的模型會(huì)降低模型的檢測(cè)效率,所以本文利用深度學(xué)習(xí)方法中單步檢測(cè)的框架實(shí)現(xiàn)火焰檢測(cè).
現(xiàn)有的目標(biāo)檢測(cè)器主要根據(jù)它們是否具有區(qū)域建議步驟,分為單步檢測(cè)(One-Stage Detectors)[11-15]和雙步檢測(cè)(Two-Stage Detectors)[15-20].雖然雙步檢測(cè)器往往更靈活和更準(zhǔn)確,但單步檢測(cè)器通常被認(rèn)為更簡(jiǎn)單和更高效.在本文中,主要以單步檢測(cè)器的設(shè)計(jì)為主體,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)使其獲得更高的效率和精度.深度卷積神經(jīng)網(wǎng)絡(luò)自提出起就被廣泛應(yīng)用于圖像領(lǐng)域的分類、檢測(cè)和分割等任務(wù)中.近些年,在深度卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域任務(wù)中出現(xiàn)了一系列優(yōu)化的方法:
1)主干網(wǎng)絡(luò):現(xiàn)有的單步檢測(cè)的主干網(wǎng)絡(luò)主要使用CenterNet[20]、DarkNet52[11]和EfficientNet[21]等,可以分為兩種類型:一種是輕量型的,其目標(biāo)在于開發(fā)出一種微型的主干網(wǎng)絡(luò)并且能擁有較好的特征提取效果,如EfficientNet;另一種是重量型的,在特征提取上具有較好的效果,如DarkNet52.雖然重量型的網(wǎng)絡(luò)在多目標(biāo)檢測(cè)過程中表現(xiàn)出優(yōu)異的效果,但是在面對(duì)火焰目標(biāo)時(shí)會(huì)出現(xiàn)魯棒性低的情況,這是由于火焰非結(jié)構(gòu)化、形態(tài)特異性高的特性決定的.因此本文提出一種輕量型主干網(wǎng)絡(luò)使其獲得更高的效率和精度.
2)特征融合網(wǎng)絡(luò):融合多尺度特征是目標(biāo)檢測(cè)的主要難點(diǎn)之一.早期的檢測(cè)器通常直接將骨干網(wǎng)絡(luò)中提取的金字塔特征進(jìn)行預(yù)測(cè).特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[22]作為其開創(chuàng)性工作之一,提出了一種自頂向下的多尺度特征組合路徑;PANet[23]在FPN的基礎(chǔ)上增加了一個(gè)自下而上的路徑聚合網(wǎng)絡(luò);NAS-FPN[24]利用神經(jīng)結(jié)構(gòu)搜索來自動(dòng)設(shè)計(jì)特征網(wǎng)絡(luò)拓?fù)洌罱珺iFPN[25]利用簡(jiǎn)單的雙向特征融合網(wǎng)絡(luò)并進(jìn)行加權(quán)融合.BiFPN雖然性能更好,但面對(duì)火焰檢測(cè)速度仍有不足.因此本文改進(jìn)了BiFPN模塊,提升輸出特征對(duì)火焰語義的抽象程度與魯棒性.
3)注意力機(jī)制:注意力機(jī)制是近年提出的一種新觀念.注意力機(jī)制主要分為兩種:一種是通道注意力機(jī)制,另外一種是空間注意力機(jī)制.SENet[26]最早提出通道注意力機(jī)制,為每個(gè)通道加上一個(gè)權(quán)重,目的是為了體現(xiàn)每個(gè)通道的重要程度;CBAM[27]則在通道注意力機(jī)制的基礎(chǔ)上增加了空間注意力機(jī)制,體現(xiàn)特征圖中每個(gè)位置的重要程度.傳統(tǒng)的注意力機(jī)制是無監(jiān)督的,它通過網(wǎng)絡(luò)的反饋計(jì)算獲得自適應(yīng)的注意力矩陣,所以它會(huì)生成一些背離預(yù)期的結(jié)果,這是我們所不愿看見的.因此本文提出了一種監(jiān)督式的空間注意力機(jī)制,通過檢測(cè)器的標(biāo)簽值生成一組二值圖像標(biāo)簽來監(jiān)督獲得的注意力矩陣.
基于上述分析,本文提出了一種基于FIRE-DET的快速火焰檢測(cè)方法.主要的貢獻(xiàn)如下:
1)提出了一種Multi-Conv模塊,并通過Multi-Conv模塊建立FIRE-Net網(wǎng)絡(luò),并將其作為主干網(wǎng)絡(luò)提取多個(gè)尺度的火焰特征,增強(qiáng)特征提取效果.
2)受BiFPN網(wǎng)絡(luò)的啟發(fā),本文將主干網(wǎng)絡(luò)提取的特征進(jìn)行雙向連接融合,提取出含有多個(gè)尺度的特征,而不是單尺度特征.
3)提出一種監(jiān)督式的空間注意力機(jī)制Fire-Attention,通過檢測(cè)器的標(biāo)簽值生成一組二值圖像標(biāo)簽來監(jiān)督獲得的注意力矩陣.
1 本文方法
1.1 FIRE-DET模型
FIRE-DET檢測(cè)器是由主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)、注意力機(jī)制和檢測(cè)頭構(gòu)成的一種端到端的深度卷積神經(jīng)網(wǎng)絡(luò),并遵循了單步檢測(cè)器的結(jié)構(gòu).FIRE-DET檢測(cè)器的整體架構(gòu)如圖1所示.FIRE-DET的主干網(wǎng)絡(luò)是FIRE-Net,是由Multi-Conv模塊建立的輕量級(jí)網(wǎng)絡(luò),可獲取輸入圖像多個(gè)尺度的特征{P 1,P 2,P 3};FIRE-DET的特征融合網(wǎng)絡(luò)是BiFPN-mini,BiFPN-mini將主干網(wǎng)絡(luò)提取的多個(gè)尺度的特征{P 1,P 2,P 3}進(jìn)行融合;FIRE-DET中提出了一種注意力機(jī)制FIRE-Attention,對(duì)融合后的特征進(jìn)行反饋調(diào)節(jié),增強(qiáng)檢測(cè)器對(duì)火焰特征的敏感性;FIRE-DET中使用現(xiàn)有的檢測(cè)有YOLO head預(yù)測(cè)對(duì)象和對(duì)象位置.
1.2 FIRE-Net網(wǎng)絡(luò)
1.2.1 深度卷積模塊
一個(gè)卷積層i可以定義為一個(gè)函數(shù):y=f i(x (h,w,c)),其中f是算子,y是輸出張量,x是輸入張量,具有張量形狀h,w,c,其中h和w是空間維度,c是通道維度.兩個(gè)算子連續(xù)作用于一個(gè)輸入張量可以定義為
y=f 2(f 1(x (h,w,c)))=f 2⊙ f 1(x (h,w,c)),
一個(gè)卷積模塊的結(jié)構(gòu)可以被表示為
N=f k⊙…⊙f 2⊙f 1(x)=⊙j=1…kf j(x (h,w,c)).(1)
在實(shí)踐中,卷積模塊層通常被劃分為多個(gè)階段,每個(gè)階段中的所有層共享相同的體系結(jié)構(gòu).因此,本文可以將卷積模塊定義為
N=⊙j=1,…,kf j(x (h,w,c)).(2)
圖2為具有代表性的卷積模塊.圖2a為傳統(tǒng)的卷積塊,由卷積歸一化與激活函數(shù)構(gòu)成.傳統(tǒng)卷積模塊可以表示為
g 1(x)=reluBN(Conv(x (h,w,c))),(3)
其中,Conv是特征處理的卷積操作,BN為歸一化操作,relu為激活函數(shù),g 1是傳統(tǒng)卷積模塊的算子.圖2b顯示了經(jīng)典的殘差卷積塊,由兩種傳統(tǒng)卷積塊組合構(gòu)成.殘差卷積塊可以表示為
g 2(x)=g 1⊙g 1(x (h,w,c))+x (h,w,c).(4)
1.2.2 Muti-Conv模塊
傳統(tǒng)的Conv Block在感受野上受到限制,未能融合不同感受野的信息,所以Res Block增加一個(gè)Conv Block的路徑來擴(kuò)展網(wǎng)絡(luò)的感受野,如圖2b所示.本文發(fā)現(xiàn)Res Block比Conv Block獲得了更好的準(zhǔn)確性,但仍然不能適應(yīng)檢測(cè)火焰的計(jì)算.如果卷積的路徑只有一條,那么它獲得的感受野比較有限,所以本文首先增加了卷積的路徑數(shù),然后將每次卷積的結(jié)果融合后輸出,以避免特征損失,最后減少卷積的通道數(shù),以提高模型的效率.通過上述優(yōu)化,本文將新的特征網(wǎng)絡(luò)命名為Multi-Conv Block,如圖2c所示.Multi-Conv卷積塊可以表示為
g 3(x)=g 1⊙g 1(x (h,w,c))+g 1⊙g 1(x (h,w,c))+
g 1⊙g 1(x (h,w,c))+g 1(x (h,w,c))+
g 1(x (h,w,c))+g 1(x (h,w,c)).(5)
1.2.3 構(gòu)建FIRE-Net網(wǎng)絡(luò)
由于本文的模型主要用于火焰檢測(cè),因此提出針對(duì)火焰檢測(cè)的特征提取網(wǎng)絡(luò).為了增加提取火焰的有效性,本文還提出一個(gè)新的主干骨網(wǎng)絡(luò),稱為FIRE-Net.該網(wǎng)絡(luò)通過增加卷積的路徑與卷積核的大小,提高網(wǎng)絡(luò)對(duì)火焰特征的提取.表1中每一行描述了一個(gè)線性層,每層中介紹了算子f i、輸入分辨率h i×w i和輸出通道C i.
雖然FIRE-Net的Muti-Conv模塊結(jié)構(gòu)復(fù)雜,但是FIRE-Net網(wǎng)絡(luò)通道數(shù)減少至Darknet53層結(jié)構(gòu)的1/4,并且下采樣次數(shù)減少一半,使網(wǎng)絡(luò)參數(shù)變少.最終模型變得更小,但由于Muti-Conv模塊多卷積路徑的特點(diǎn),使模型對(duì)火焰特征提取的能力仍有提升.網(wǎng)絡(luò)以512×512大小的圖像作為輸入進(jìn)行3次最大池化和Muti-Conv操作,在FIRE-Net中第1次使用Muti-Conv采用1、9、27三種卷積核提取特征,第2次使用Muti-Conv采用1、3、9三種卷積核提取特征,第3次使用Muti-Conv采用1、3兩種卷積核提取特征.這樣設(shè)置卷積核基于以下原因:1)使用卷積核1的主要目的是形成一種無監(jiān)督的注意力機(jī)制,讓網(wǎng)絡(luò)自動(dòng)調(diào)整網(wǎng)絡(luò);2)本文模型的輸入圖像像素大小為512×512,若使用2的等比數(shù)列感受野過小,若使用4的等比數(shù)列會(huì)導(dǎo)致感受野過大,所以本文卷積核為3的等比數(shù)列中的值.FIRE-Net的性能與最先進(jìn)的分類器相比,其浮點(diǎn)運(yùn)算更少,表明網(wǎng)絡(luò)結(jié)構(gòu)能更好地利用處理器,使其更有效地檢測(cè),從而更快獲取火焰特征.
1.3 BiFPN-mini網(wǎng)絡(luò)
多尺度特征融合旨在聚集不同分辨率的特征.形式上,給定一個(gè)多尺度特征序列Pin=(Pin l1,Pin l2,…),其中P li表示(l i+1)倍下采樣后的特征圖,本文的目標(biāo)是找到一個(gè)可以有效聚合不同特征的變換h,并輸出一個(gè)新特征列表:Pout=h(Pin).
圖3a為傳統(tǒng)的自上而下的FPN,需要5個(gè)尺度的特征Pin=(Pin l1,Pin l2,…,Pin l5),其中Pin l1表示分辨率為輸入圖像1/2的特征級(jí)別.例如,如果輸入分辨率為512×512,則Pin ?l1代表的2倍下采樣后分辨率為256×256的特征圖 (512÷21=256),而Pin l5代表16倍下采樣后分辨率為32×32.FPN自上而下的多尺度特征融合方法可以表示為
pout 5=Conv(pin 5),
pout 4=Conv(pin 4+Resize(pin 5)),
…
pout 1=Conv(pin 1+Resize(pin 2)).(6)
如圖3a中傳統(tǒng)的自上而下的FPN本質(zhì)上受到單向信息流的限制,所以BiFPN提出了刪除那些只有一條輸入邊的節(jié)點(diǎn)形成簡(jiǎn)化的雙向網(wǎng)絡(luò),且從原始輸入到輸出節(jié)點(diǎn)添加額外的邊融合更多的特征,如圖3b所示.為了提高模型效率,本文提出幾種跨尺度連接的優(yōu)化方法:首先,沿用BiFPN雙向輸入的思想,但是并不是刪除單向節(jié)點(diǎn),而是為單向節(jié)點(diǎn)增加不同尺度輸入而形成雙向網(wǎng)絡(luò);其次,減少特征融合網(wǎng)絡(luò)的輸入,以便降低成本.本文將新特性網(wǎng)絡(luò)命名為簡(jiǎn)化版雙向特性金字塔網(wǎng)絡(luò)(BiFPN-mini),如圖3c所示.BiFPN-mini定義如下:
ptd 5=Conv(pin 5+Resize(Resize(pin 5))),
ptd 3=Conv(pin 3+Resize(ptd 5)),
ptd 1=Conv(pin 1+Resize(ptd 3)),
pout 1=Conv(pin 1+ptd 1+Resize(Resize(ptd 1))),
pout 3=Conv(pin 3+ptd 3+Resize(pout 1)),
pout 5=Conv(pin 5+ptd 1+Resize(pout 3)).(7)
1.4 FIRE-Attention網(wǎng)絡(luò)
注意力機(jī)制的主要作用是增強(qiáng)目標(biāo)的特征.注意力機(jī)制主要分為通道注意力機(jī)制、空間注意力機(jī)制和混合注意力機(jī)制等.
如圖4通道注意力機(jī)制主要作用是將特征圖每個(gè)通道與不同權(quán)重進(jìn)行相乘,可以忽略無關(guān)通道信息而關(guān)注重點(diǎn)通道信息.空間注意力機(jī)制的作用是將特征圖每個(gè)位置的特征與不同權(quán)重進(jìn)行相乘,可以忽略無關(guān)空間信息而關(guān)注重點(diǎn)空間信息.通道注意力機(jī)制與空間注意力機(jī)制更關(guān)注區(qū)域或者通道,而且注意力是確定性的注意力,學(xué)習(xí)完成后直接可以通過網(wǎng)絡(luò)生成.注意力是可微的,可以微分的注意力就可以通過神經(jīng)網(wǎng)絡(luò)算出梯度,并且通過反向傳播來學(xué)習(xí)獲得注意力的權(quán)重.
傳統(tǒng)的注意力機(jī)制是無監(jiān)督的,它通過網(wǎng)絡(luò)的反饋計(jì)算獲得自適應(yīng)的注意力矩陣.因?yàn)樗菬o監(jiān)督的,所以會(huì)生成一些背離預(yù)期的結(jié)果.針對(duì)這個(gè)問題,本文提出一種監(jiān)督式的空間注意力機(jī)制FIRE-Attention,通過檢測(cè)器的標(biāo)簽值生成一組二值圖像標(biāo)簽來監(jiān)督獲得的注意力矩陣.
FIRE-DET模型的損失函數(shù)在YOLO-head的損失函數(shù)的基礎(chǔ)上增加了FIRE-DET模型中FIRE-Attention的損失值.圖5的右圖為圖像分割的注意力圖.
為了提高圖像分割網(wǎng)絡(luò)提取的注意力圖的準(zhǔn)確性,將BiFPN-mini網(wǎng)絡(luò)輸出的特征圖進(jìn)行反卷積,與卷積后得到的注意力圖和火焰對(duì)象的二值圖像通過將圖像與圖像長(zhǎng)寬1/4大小的卷積核進(jìn)行平均卷積,來獲取類似人眼關(guān)注事物的注意力圖像之間定義一個(gè)損失函數(shù),如圖6所示.
損失函數(shù)(L)計(jì)算如下:
z(i,j)=∑k,jm(i+k,j+l)n(k,j),
L=max(x,0)-x×z+log(1+e-abs(x)),(8)
其中m為火焰目標(biāo)二值圖像,n為均值濾波,x為圖像分割網(wǎng)絡(luò)輸出的注意力圖,i和j分別代表圖像的x軸與y軸坐標(biāo),k和l分別代表卷積核的x軸與y軸坐標(biāo),z為火焰目標(biāo)二值圖像進(jìn)行均值濾波處理后的特征圖.將圖像分割網(wǎng)絡(luò)輸出的3個(gè)注意力圖,分別與標(biāo)記火焰的二值圖像使用上述損失函數(shù)進(jìn)行反饋計(jì)算,并將L與YOLO-head損失函數(shù)的和作為FIRE-DET模型的損失函數(shù),可以使網(wǎng)絡(luò)的損失函數(shù)快速下降并達(dá)到收斂.
2 實(shí)驗(yàn)與分析
2.1 火焰數(shù)據(jù)集
由于火災(zāi)檢測(cè)研究尚處于初始階段,目前沒有較為完整和權(quán)威的公開火災(zāi)視頻數(shù)據(jù)庫.本文中的訓(xùn)練數(shù)據(jù)集是通過收集互聯(lián)網(wǎng)上的圖,然后根據(jù)PASCAL VOC的格式進(jìn)行手工標(biāo)注圖片中的目標(biāo)得到的,將其中火焰區(qū)域標(biāo)注為fire,未標(biāo)注的區(qū)域?yàn)楸尘埃畧D7為實(shí)驗(yàn)用的火焰場(chǎng)景的圖片.火焰數(shù)據(jù)中含有小目標(biāo)、多目標(biāo)和類火焰數(shù)據(jù).在研究過程中使用的數(shù)據(jù),可聯(lián)系筆者獲?。?/p>
2.2 實(shí)驗(yàn)過程
本文實(shí)驗(yàn)所用機(jī)器的基本配置為 GPU:GTX 1080 Ti,CPU:i5-7500,內(nèi)存16 GB,操作系統(tǒng)為Window10,使用深度學(xué)習(xí)中的 tensorflow框架.對(duì)模型使用動(dòng)量為0.9、權(quán)重衰減為1e-8的Adam優(yōu)化器進(jìn)行訓(xùn)練,并使用裁剪、縮放、翻轉(zhuǎn)與增減對(duì)比度增強(qiáng)數(shù)據(jù).
在實(shí)驗(yàn)過程中,在遵循控制變量的原則下,各算法都在相同環(huán)境、相同訓(xùn)練集中訓(xùn)練100個(gè)周期,然后進(jìn)行檢測(cè)實(shí)驗(yàn)驗(yàn)證FIRE-DET模型的魯棒性.為了驗(yàn)證本文提出的貢獻(xiàn)點(diǎn)和合理性,還進(jìn)行了消融實(shí)驗(yàn)與分析.
2.3 評(píng)價(jià)指標(biāo)
在模式識(shí)別任務(wù)中,真陽性和假陽性的定義如表2所示.如果預(yù)測(cè)框與地面真值框之間的交并比(IOU)> 0.5,則預(yù)測(cè)框?yàn)椤罢骊栃浴保═P),否則,它是“假陽性”(FP).由于圖像中沒有預(yù)測(cè)到物體的每一部分都被認(rèn)為是背景,所以測(cè)量“真陰性”(TN)是非必要的,故文中只測(cè)量“假陰性”(FN)作為模型遺漏的對(duì)象(圖8).預(yù)測(cè)的邊界框是紅色的,火焰目標(biāo)的真實(shí)框是綠色的.
準(zhǔn)確率(A)表示預(yù)測(cè)正確的樣本在所有樣本中占的比例,一般準(zhǔn)確率越高分類器越好.此外,精確度(P)和召回率(R)也是算法評(píng)價(jià)的兩個(gè)重要指標(biāo).在分類任務(wù)中,一個(gè)類的精確度是真陽性數(shù)除以預(yù)測(cè)并標(biāo)記為屬于陽性類的元素總數(shù).召回率的定義是真陽性數(shù)除以實(shí)際屬于陽性類的元素總數(shù).準(zhǔn)確率、精確度和召回率的定義如下:
A=TP+TNTP+TN+FP+TN,(9)
P=TPTP+FP,(10)
R=TPTP+FN.(11)
2.4 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中用到的驗(yàn)證數(shù)據(jù)集來源如表3所示,圖9是在驗(yàn)證數(shù)據(jù)集下使用FIRE-DET模型對(duì)火焰進(jìn)行檢測(cè)后的部分效果圖.由于模型的魯棒性與數(shù)據(jù)增強(qiáng)的優(yōu)點(diǎn),因而對(duì)不同形態(tài)和不同顏色(圖9a—c))的火焰檢測(cè)效果較好.由于模型本身采用中心點(diǎn)預(yù)測(cè)的方法,減少了回歸過程中的震蕩幅度,并且在特征提取網(wǎng)絡(luò)中使用Muti-Conv結(jié)構(gòu)構(gòu)建了FIRE-Net網(wǎng)絡(luò)結(jié)合BiFPN-mini提取多尺度特征,提升了檢測(cè)器對(duì)火焰特征的提取效果,所以對(duì)于火焰形態(tài)較小的目標(biāo)(圖9d—f)),該模型亦能夠有效地提供更精確的定位.對(duì)擁有多個(gè)目標(biāo)的圖像(圖9g—i)也能快速檢測(cè).在面對(duì)類火焰的對(duì)象該模型也不會(huì)產(chǎn)生虛檢(圖9j—l)),這是因?yàn)槟P椭蠪IRE-Attention結(jié)構(gòu)能通過監(jiān)督的方式抑制模型對(duì)非火焰物體誤檢的概率.FIRE-DET模型對(duì)不同場(chǎng)景下不同長(zhǎng)寬比的火焰展現(xiàn)出了較高的適應(yīng)性,同時(shí)對(duì)類火焰對(duì)象不易產(chǎn)生誤檢,表明本方法對(duì)火焰和非火焰視頻擁有良好的檢測(cè)效果和魯棒性.
本文將FIRE-DET與先進(jìn)的檢測(cè)器對(duì)比它們的準(zhǔn)確率、精確率、召回率和檢測(cè)速度(FPS),以驗(yàn)證目標(biāo)測(cè)器的性能,結(jié)果如表4所示,可以發(fā)現(xiàn)FIRE-DET檢測(cè)器比其他的檢測(cè)器效率更高.YOLOv4-tiny擁有極快的檢測(cè)速度并可以部署于移動(dòng)設(shè)備上,但其在其他評(píng)估指標(biāo)中表現(xiàn)欠佳;Faster R-CNN方法對(duì)火焰檢測(cè)的效果不好;Dunnings等[10]的方法中雖然檢測(cè)效果好,但是檢測(cè)速度較低.
本文方法保持較快的速度和較高的準(zhǔn)確度,主要是因?yàn)榛贔IRE-DET模型的火焰檢測(cè)方法,采用FIRE-Net增加模型的感受野,并且通過BiFPN-mini網(wǎng)絡(luò)融合多尺度的特征加強(qiáng)了檢測(cè)特征的語義信息,因而對(duì)不同場(chǎng)景下不同長(zhǎng)寬比的火焰
目標(biāo)的檢測(cè),該模型亦能夠有效地提供更精確的定位.同時(shí),
模型中FIRE-Attention能提高檢測(cè)模型的魯棒性,減少檢測(cè)過程中假陽性發(fā)生概率.實(shí)驗(yàn)結(jié)果表明,本文模型檢測(cè)準(zhǔn)確率高達(dá)97.42%,檢測(cè)速度為85 FPS.基于FIRE-DET模型的檢測(cè)方法檢測(cè)準(zhǔn)確率、召回率和檢測(cè)速度均優(yōu)于其他模型.
另外,本文對(duì)提出的FIRE-DET網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn),如表5中α表示FIRE-Net網(wǎng)絡(luò)、β表示BiFPN-min網(wǎng)絡(luò)、γ表示FIRE-Attention網(wǎng)絡(luò),實(shí)驗(yàn)中將YOLOv4作為對(duì)照組.在第1組實(shí)驗(yàn)中將FIRE-Net網(wǎng)絡(luò)加入實(shí)驗(yàn)中,在添加FIRE-Net網(wǎng)絡(luò)后的模型比對(duì)照組模型的精確度提高了約9個(gè)百分點(diǎn),且檢測(cè)速度提高了1倍,這主要是因?yàn)镸uti-Conv提高了模
型對(duì)火焰特征的提取效果,其次是因?yàn)镕IRE-Net網(wǎng)絡(luò)僅使用了3次下采樣,提高了檢測(cè)速度.第2組實(shí)驗(yàn)在第1組實(shí)驗(yàn)的基礎(chǔ)上添加了FIRE-Attention網(wǎng)絡(luò),再次提高了模型的檢測(cè)準(zhǔn)確率,這是由于增加了監(jiān)督式的注意力機(jī)制,但是也降低了模型的效率.第3組實(shí)驗(yàn)在第2組實(shí)驗(yàn)的基礎(chǔ)上添加了BiFPN-mini網(wǎng)絡(luò),使模型的檢測(cè)速度達(dá)到了85 FPS,比第2組實(shí)驗(yàn)的檢測(cè)效率提高了1倍.結(jié)果表明,F(xiàn)IRE-DET模型通過FIRE-Net網(wǎng)絡(luò)與FIRE-Attention網(wǎng)絡(luò)可以增加特征提取效果,提高模型檢測(cè)的準(zhǔn)確率和檢測(cè)效率,而BiFPN-mini能加快模型的檢測(cè)速度.
3 結(jié)論
為了提高在自然場(chǎng)景下對(duì)火焰檢測(cè)的檢測(cè)速度,本文從模型檢測(cè)效率出發(fā),結(jié)合注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)在特征提取上的優(yōu)勢(shì),提出了一種基于FIRE-DET的火焰檢測(cè)方法.在主干網(wǎng)絡(luò)中利用多個(gè)卷積核進(jìn)行卷積提高模型感受野,在特征融合網(wǎng)絡(luò)中利用簡(jiǎn)單的雙向結(jié)構(gòu)提取更多的特征,最后利用提出的注意力機(jī)制提升模型的準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明,在面對(duì)小目標(biāo)、多形態(tài)和多目標(biāo)時(shí),本文模型均能準(zhǔn)確預(yù)測(cè).本文模型和現(xiàn)有主流的檢測(cè)模型相比,在檢測(cè)準(zhǔn)確率和速率上表現(xiàn)更佳,達(dá)到預(yù)期實(shí)驗(yàn)效果.FIRE-DET在消融實(shí)驗(yàn)中也體現(xiàn)了FIRE-Net、BiFPN-mini和FIRE-Attention的優(yōu)點(diǎn),F(xiàn)IRE-Net、FIRE-Attention可以提高模型的準(zhǔn)確率,BiFPN-mini可以提高模型的檢測(cè)速度.本文的檢測(cè)方法受限于檢測(cè)數(shù)據(jù)集,在未來的工作中,將對(duì)小樣本數(shù)據(jù)集訓(xùn)練的問題進(jìn)行深入研究,進(jìn)一步提高模型的檢測(cè)效果.
參考文獻(xiàn)
References
[1] 張志,許文浩.澳大利亞2019—2020森林火災(zāi)對(duì)我國(guó)應(yīng)急管理體系建設(shè)的啟示[J].中國(guó)應(yīng)急救援,2020(2):18-22
ZHANG Zhi,XU Wenhao.Emergency management system in China:lessons learned from Australia 2019-2020 bushfires[J].China Emergency Rescue,2020(2):18-22
[2] 張慧珍,嚴(yán)云洋,劉以安,等.基于超像素分割與閃頻特征判別的視頻火焰檢測(cè)[J].數(shù)據(jù)采集與處理,2018,33(3):512-520
ZHANG Huizhen,YAN Yunyang,LIU Yian,et al.Video flame detection based on super pixel segmentation and flash frequency feature discrimination[J].Journal of Data Acquisition & Processing,2018,33(3):512-520
[3] Gong F M,Li C T,Gong W J,et al.A real-time fire detection method from video with multifeature fusion[J].Computational Intelligence and Neuroscience,2019,2019:1939171
[4] Ko B C,Ham S J,Nam J Y.Modeling and formalization of fuzzy finite automata for detection of irregular fire flames[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(12):1903-1912
[5] Gunay O,Toreyin B U,Kose K,et al.Entropy-functional-based online adaptive decision fusion framework with application to wildfire detection in video[J].IEEE Transactions on Image Processing,2012,21(5):2853-2865
[6] Dimitropoulos K,Barmpoutis P,Grammalidis N.Spatio-temporal flame modeling and dynamic texture analysis for automatic video-based fire detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2015,25(2):339-351
[7] Kim B,Lee J.A video-based fire detection using deep learning models[J].Applied Sciences,2019,9(14):2862-2881
[8] Aslan S,Güdükbay U,Treyin B U,et al.Deep convolutional generative adversarial networks for flame detection in video[C]∥Computational Collective Intelligence,2020:807-815
[9] Zhang J M,Zhu H Q,Wang P Y,et al.ATT squeeze U-net:a lightweight network for forest fire detection and recognition[J].IEEE Access,2021,9:10858-10870
[10] Dunnings A J,Breckon T P.Experimentally defined convolutional neural network architecture variants for non-temporal real-time fire detection[C]∥2018 25th IEEE International Conference on Image Processing (ICIP).October 7-10,2018,Athens,Greece.IEEE,2018:1558-1562
[11] Redmon J,F(xiàn)arhadi A.YOLOv3:an incremental improvement [J].arXiv e-print,2018,arXiv:1804.02767
[12] Bochkovskiy A,Wang C Y,Liao H Y Mark.YOLOv4:optimal speed and accuracy of object detection[J].arXiv e-print,2020,arXiv:2004.10934
[13] Jiang Z C,Zhao L Q,Li S Y,et al.Real-time object detection method based on improved YOLOv4-tiny[J].arXiv e-print,2020,arXiv:2011.04244
[14] Ge Z,Liu S T,Wang F,et al.YOLOX:exceeding YOLO series in 2021[J].arXiv e-print,2021,arXiv:2107.08430
[15] 陳西江,安慶,班亞.優(yōu)化EfficientDet深度學(xué)習(xí)的車輛檢測(cè)[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,13(6):653-660
CHEN Xijiang,AN Qing,BAN Ya.Optimized EfficientDet deep learning model for vehicle detection [J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(6):653-660
[16] 梅舒歡,閔巍慶,劉林虎,等.基于Faster R-CNN的食品圖像檢索和分類[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,9(6):635-641
MEI Shuhuan,MIN Weiqing,LIU Linhu,et al.Faster R-CNN based food image retrieval and classification[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2017,9(6):635-641
[17] 金嘯宇,尹嬙,倪軍,等.一種基于場(chǎng)景合成和錨點(diǎn)約束的SAR目標(biāo)檢測(cè)網(wǎng)絡(luò)[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,12(2):210-215
JIN Xiaoyu,YIN Qiang,NI Jun,et al.SAR target detection network based on scenario synthesis and anchor constraint[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2020,12(2):210-215
[18] He K M,Gkioxari G,Dollr P,et al.Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2980-2988
[19] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149
[20] Zhou X Y,Wang D Q,Krhenbühl P.Objects as points [J].arXiv e-print,2019,arXiv:1904.07850
[21] Tan M X,Le Q V.EfficientNet:rethinking model scaling for convolutional neural networks[J].arXiv e-print,2019,arXiv:1905.11946
[22] Lin T Y,Dollr P,Girshick R,et al.Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:936-944
[23] Liu S,Qi L,Qin H F,et al.Path aggregation network for instance segmentation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:8759-8768
[24] Ghiasi G,Lin T Y,Le Q V.NAS-FPN:learning scalable feature pyramid architecture for object detection[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:7029-7038
[25] Tan M X,Pang R M,Le Q V.EfficientDet:scalable and efficient object detection[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:10778-10787
[26] Hu J,Shen L,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023
[27] Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[M]∥Computer Vision — ECCV 2018.Cham:Springer International Publishing,2018:3-19
FIRE-DET:an efficient flame detection model
CHEN Haolin1,2 GAO Shangbing1,2 XIANG Lin1 CAI Chuangxin1 WANG Changchun1
1Faculty of Computer and Software Engineering,Huaiyin Institute of Technology,Huaian 223001
2Laboratory for Internet of Things and Mobile Internet Technology of Jiangsu Province,Huaiyin Institute of Technology,Huaian 223001
Abstract In view of the increasing concern on model efficiency in computer vision,this paper proposed several optimization schemes to improve the flame detection models in model efficiency as well as the detection performance.A backbone network (FIRE-Net) was constructed from a multi-convolution combined structure,which can efficiently extract rich flame features from multiple scales.Then an improved weighted bidirectional feature pyramid network (BiFPN-mini) was used to quickly achieve multi-scale feature fusion.In addition,a new attention mechanism (FIRE-Attention) was proposed to make the detector more sensitive to flame characteristics.The above optimizations were combined to develop a new flame detector abbreviated as FIRE-DET,which was then trained on self-built dataset and tested on internet videos.The experimental results showed that the FIRE-DET outperformed mainstream algorithms by its flame recognition accuracy of 97% and frame rate of 85 FPS,thus provides a more common solution to solve the flame detection.
Key words feature extraction;feature fusion;attention mechanism;flame detection