孫 鈺 脫小倩 蔣 琦 張海燕 陳志泊 宗世祥 駱有慶
(1. 北京林業(yè)大學信息學院 北京 100083; 2. 北京林業(yè)大學林學院 北京 100083;3. 北京航空航天大學網(wǎng)絡(luò)空間安全學院 北京 100191)
害蟲識別是蟲害預(yù)測預(yù)報的首要工作,對害蟲綜合治理具有重要意義(陳梅香等, 2015)。鉆蛀性害蟲以林木為寄主蛀食成孔洞或隧道,直接危害林木主干和主梢生長,輕則阻礙林木養(yǎng)分、水分傳導(dǎo),重則導(dǎo)致林木枯萎死亡(馮國民, 2011; 高曉兵, 2010; 王曉園, 2011)。目前,蟲害監(jiān)測一般利用人工或圖像識別技術(shù)監(jiān)測成蟲(Yaoetal., 2012; 孫鈺等, 2018; 張怡, 2017),然而鉆蛀性害蟲幼蟲在取食階段對寄主的危害更早也更嚴重,傳統(tǒng)監(jiān)測方法難以發(fā)現(xiàn)隱蔽生活的幼蟲,早期預(yù)警能力有限。隨著聲音識別技術(shù)不斷發(fā)展,利用幼蟲鉆蛀振動信號進行蟲害監(jiān)測,具有高效、簡單、成本低、預(yù)警時間早等優(yōu)勢,應(yīng)用前景廣闊(卜宇飛等, 2017; 韋雪青等, 2010; 祁驍杰, 2016)。
國內(nèi)外基于聲音識別技術(shù)對害蟲進行偵聽監(jiān)測,研究對象多聚焦于木材檢疫害蟲(許小芳等, 2011)、倉儲害蟲(郭敏等, 2001; Njorogeetal., 2016)、水果害蟲(Hansenetal., 1988)、林業(yè)鉆蛀性害蟲(Mankinetal., 2008)等隱蔽性活動的害蟲。在偵聽監(jiān)測過程中,由于鉆蛀振動信號在樹干-空氣界面會大幅衰減,因此不宜使用麥克風直接采集傳播至空氣中的聲音(婁定風等, 2013),而需將壓電式振動傳感器嵌入樹干直接偵聽(Mankinetal., 2011)。目前,采集鉆蛀振動信號的典型儀器是美國AEC公司搭配SP-1L接觸式探頭的便攜式聲音探測儀AED-2000/2010L。在國外,Herriick等(2012)采用AED探測儀對密閉和開放環(huán)境下的紅棕象甲(Rhyncophorusferrugineuss)幼蟲鉆蛀振動進行研究,發(fā)現(xiàn)在至少5~10 cm的距離內(nèi)能檢測到所有齡期的幼蟲;Dosunmu等(2014)采用AED探測儀利用Raven和DAVIS程序分析紅棕象甲鉆蛀振動的時頻特征,實現(xiàn)了紅棕象甲幼蟲的識別;Mankin等(2016)采用AED探測儀在果園環(huán)境下對紅棕象甲和蛀犀金龜(Orycteselegans)幼蟲的鉆蛀振動進行研究,發(fā)現(xiàn)其脈沖特征相差較大,實現(xiàn)了2種幼蟲的識別;Njoroge 等(2017)在裝滿谷物的密閉玻璃罐中采用AED探測儀錄制米象(Sitophilusoryzae)成蟲的鉆蛀振動,研究了密封貯藏對害蟲活動和死亡率的影響;Mankin等(2018)采用AED探測儀在疑似被南美硬木鋸天牛(Mallodondasystomus)侵害的鱷梨(Perseaamericana)樹上進行測試,從11株樹中正確識別所有4株被侵害樹木,僅誤報1株健康樹木。在國內(nèi), 祁驍杰(2016)對楊(Populus)樹木段中不同數(shù)量的光肩星天牛(Anoplophoraglabripennis)幼蟲脈沖進行研究,發(fā)現(xiàn)脈沖個數(shù)與幼蟲數(shù)量存在線性關(guān)系; 卜宇飛等(2016)采用AED探測儀對7種蛀干害蟲鉆蛀振動進行研究,總結(jié)了害蟲時域、頻域特征的基本規(guī)律,證明了構(gòu)建聲音偵聽系統(tǒng)的實用性; 卜宇飛等(2017)還采用AED探測儀對2種天牛的4類行為特征進行探索,發(fā)現(xiàn)取食鉆蛀振動脈沖時間短、振幅大且頻率高,可用于實際的聲音偵聽中。也有研究者使用美國農(nóng)業(yè)部Mankin團隊錄制的昆蟲聲音庫,實現(xiàn)了基于梅爾倒譜系數(shù)和矢量量化的昆蟲聲音自動鑒別識別(竺樂慶等, 2010),且探索了基于梅爾倒譜系數(shù)和混合高斯模型的昆蟲聲音自動識別方法(竺樂亦等, 2012),均獲得較高識別精度。
鉆蛀振動信號經(jīng)傳感器錄制后被保存為音頻格式,可使用聲音識別技術(shù)進行分類。聲音識別的一個重要任務(wù)是關(guān)鍵詞檢測,即對聲音信號中目標關(guān)鍵詞進行識別。關(guān)鍵詞檢測與害蟲鉆蛀振動識別類似,均以音頻中的短脈沖為識別對象。傳統(tǒng)關(guān)鍵詞檢測是基于隱馬爾可夫模型實現(xiàn)的(陳玉平等, 2008),隨著以深度學習為代表的人工智能技術(shù)迅速發(fā)展,將其應(yīng)用于聲音識別領(lǐng)域也取得了重大突破。Chen等(2014)使用深度神經(jīng)網(wǎng)絡(luò)進行關(guān)鍵詞檢測,與隱馬爾可夫模型相比識別性能提高了45%;Sainath等(2015)和Sun等(2016)分別將卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)用于關(guān)鍵詞檢測,相比深度神經(jīng)網(wǎng)絡(luò)識別性能分別提高27%~44%和67.6%;利用谷歌公開的語音識別數(shù)據(jù)集(Google speech commands dataset),Tang等(2018)研究深度殘差學習和空洞卷積在關(guān)鍵詞檢測的應(yīng)用,設(shè)計的ResNet15變體網(wǎng)絡(luò)得到了95.8%的精度; Zeng等(2019)使用DenseNet網(wǎng)絡(luò)提取局部特征和時間序列特征,得到了96.6%為精度。
本研究針對園林場景中側(cè)柏(Platycladusorientalis)和臭椿(Ailanthusaltissima)混交種植的情況,使用壓電式傳感器監(jiān)測主要蛀干害蟲雙條杉天牛(Semanotusbifasciatus)和臭椿溝眶象(Eucryptorrhynchusbrandti)幼蟲蛀干取食發(fā)出的振動,使用聲音識別技術(shù)構(gòu)建鉆蛀振動識別模型,設(shè)計并訓練輕量級神經(jīng)網(wǎng)絡(luò),自動識別雙條杉天牛鉆蛀和臭椿溝眶象鉆蛀振動,以期為提高鉆蛀性害蟲的早期預(yù)警能力提供技術(shù)支撐。
害蟲鉆蛀振動信號采集在實驗室隔音箱內(nèi)進行,采集工具為搭配SP-1L探頭的AED-2010L便攜式聲音探測儀(圖1)。SP-1L探頭為壓電式傳感器探頭(壓電晶體諧振頻率40 kHz,前置放大器帶寬1~50 kHz,放大倍數(shù)40 dB),通過直徑6 mm金屬探針嵌入樹干,直接耦合鉆蛀振動。AED-2010L主機連接錄音筆,設(shè)置采樣頻率為44.1 kHz,采樣精度為16 bit,錄制害蟲鉆蛀振動信號。
圖1 鉆蛀振動采集環(huán)境與工具Fig.1 The environment and tools for the boring vibration collection
從林場采集25段長約30 cm的健康側(cè)柏木段,分成3組并于3月下旬分別接入不同數(shù)量的雙條杉天牛雌雄成蟲,以飼養(yǎng)初孵幼蟲;采集6段長約1 m的健康臭椿木段,分成2組并于7月下旬分別接入不同數(shù)量的臭椿溝眶象幼蟲。于木段中間位置鉆孔,每隔5~7天在適宜溫度的時間段內(nèi)(9、10、11時)利用AED-2010L便攜式聲音探測儀采集害蟲鉆蛀振動信號(卜宇飛, 2016; 祁驍杰, 2016)。每投音頻時長約90 s,保存為.wav格式。當幼蟲進入老熟階段停止進食,害蟲鉆蛀振動信號采集結(jié)束。害蟲鉆蛀實驗室環(huán)境下,害蟲鉆蛀振動信號主要分布在10 kHz內(nèi)(圖2),具有持續(xù)時間短、能量集中等特點(卜宇飛等, 2017)。
整理各木段音頻,將其分為雙條杉天牛鉆蛀振動、臭椿溝眶象鉆蛀振動和無鉆蛀振動3類。雙條杉天牛和臭椿溝眶象鉆蛀振動的訓練、測試集以各木段為單位進行劃分,選取具有代表性的3段雙條杉天牛和2段臭椿溝眶象木段,將其所有音頻作為測試集,其余木段的音頻作為訓練集,所有木段采集到的無鉆蛀振動音頻以3∶2比例隨機劃分為訓練集和測試集。最終數(shù)據(jù)集音頻的劃分數(shù)量及提取用于訓練的對數(shù)梅爾聲譜數(shù)量如表1所示,其中測試集中無鉆蛀振動的對數(shù)梅爾聲譜數(shù)量指進入第2分支檢測出的數(shù)量。
表1 數(shù)據(jù)集劃分數(shù)量Tab.1 Number of data sets divided
提取對數(shù)梅爾聲譜作為神經(jīng)網(wǎng)絡(luò)學習的音頻特征(Kahletal., 2018)。對害蟲鉆蛀振動信號的預(yù)處理包括端點檢測、時間規(guī)整和提取對數(shù)梅爾聲譜。害蟲鉆蛀振動信號短時能量較高,具有間隔、短促、尖銳(卜宇飛等, 2016)的特性,首先對害蟲鉆蛀振動信號進行端點檢測獲取鉆蛀振動信號片段,然后利用時間規(guī)整算法將信號片段規(guī)整至統(tǒng)一時長,最后經(jīng)過時頻變換和對數(shù)操作提取對數(shù)梅爾聲譜。
圖2 害蟲鉆蛀振動信號波形和聲譜Fig.2 Waveform and spectrogram of insect boring vibration signals
圖3 預(yù)處理示意Fig.3 The diagram of pretreatment
1.3.1 端點檢測 端點檢測是指從一段包含有效片段的連續(xù)音頻中找到能量較高的有效片段起止端點,本研究采用基于短時能量的單參數(shù)雙門限方法(黎煊等, 2018)對采集到的害蟲鉆蛀振動信號進行端點檢測。以200個采樣點(4.54 ms)為1幀,計算每幀的短時能量,與設(shè)定的低門限閾值(T1)和高門限閾(T2)進行比較,確定有效音頻片段的端點(邢亞從, 2011)。在端點檢測時,一般選取音頻樣本前導(dǎo)無話段計算高、低門限閾值,本研究隨機選取5 s無鉆蛀振動的音頻信號代替前導(dǎo)無話段進行計算。如圖 3端點檢測部分所示,紅色豎線為害蟲鉆蛀振動脈沖的起始位置,綠色豎線為該脈沖的結(jié)束位置,單參數(shù)雙門限端點檢測可有效檢測出害蟲鉆蛀脈沖。
1.3.2 時間規(guī)整 端點檢測后的信號長度不一,無法滿足神經(jīng)網(wǎng)絡(luò)輸入層要求,需要利用時間規(guī)整算法將信號片段規(guī)整至統(tǒng)一時長。經(jīng)試驗探索,本研究將長短不一的有效音頻片段規(guī)整至0.5 s。以端點檢測到的起始點向前5幀位置作為時間規(guī)整的起始點,向后0.5 s位置作為時間規(guī)整的終點,端點檢測出的有效片段長度多于0.5 s則拆分,少于0.5 s則前后延長。如圖3時間規(guī)整部分所示,在端點檢測基礎(chǔ)上,將有效音頻片段規(guī)整至統(tǒng)一時長片段。
1.3.3 提取對數(shù)梅爾聲譜 對規(guī)整后時長0.5 s的信號進行預(yù)加重(竺樂慶等, 2012)(預(yù)加重因子為0.95),以200點為1幀、0.8的幀移重疊比例進行分幀,對分幀信號加漢寧窗以增加幀左右兩端的連續(xù)性,再以1 024點的長度對每幀信號作短時傅里葉變換,使用64組梅爾濾波器組濾波并進行取對數(shù)操作,最后得到對數(shù)梅爾聲譜作為神經(jīng)網(wǎng)絡(luò)最終的輸入特征。對數(shù)梅爾聲譜的特征維度由信號的幀數(shù)和梅爾濾波器組的個數(shù)決定,如圖3提取對數(shù)梅爾聲譜部分所示,本研究得到的對數(shù)梅爾聲譜特征維度為109×64。信號的幀數(shù)計算方法如下:
Lhop=?Nfft×(1-Poverlap)」;
(1)
式中:?」表示向下取整;「?表示向上取整;Lhop為每次幀移的步幅;Nfft為短時傅里葉變換長度;Povertap為幀移重疊比例;Nframe為幀數(shù);Lsig為信號長度。
設(shè)計面向2種蛀干害蟲鉆蛀振動識別的輕量級卷積神經(jīng)網(wǎng)絡(luò)InsectFrames(圖4a),以維度(109,64)的對數(shù)梅爾聲譜為輸入,主體部分由4層卷積組成,在全連接層前接全局平均池化以防止過擬合。
圖4 InsectFrames網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of InsectFrames
在卷積部分設(shè)計2種卷積塊結(jié)構(gòu)和2種中間層維度。卷積塊結(jié)構(gòu)為: 1) ConvBlock1(圖 4b), 卷積核尺寸為3×3,步長為1,每層卷積后引入ReLU激活函數(shù)實現(xiàn)網(wǎng)絡(luò)的非線性變換。連接批量歸一化層避免梯度消失,同時加快收斂速度,批量歸一化后接步長為2的最大池化層實現(xiàn)降維。2) ConvBlock2(圖4c), 同樣設(shè)置卷積核尺寸為3×3,每層卷積后引入ReLU激活函數(shù),連接批量歸一化層。與ConvBlock1不同的是,ConvBlock2未采用最大池化策略,而是在卷積過程中設(shè)置步長為2,直接進行降維操作。為了對比中間層維度對識別結(jié)果的影響,每種卷積塊結(jié)構(gòu)分別對應(yīng)2種輸出維度: 1) 4層卷積的輸出維度n1—n4分別設(shè)置為[8,16,32,64]; 2) 4層卷積的輸出維度n1—n4分別設(shè)置為[16,32,64,128]。
綜上,本研究基于InsectFrames提出4種具有不同卷積結(jié)構(gòu)的網(wǎng)絡(luò)變體結(jié)構(gòu)InsectFrames_1—4(表2),如InsectFrames_1卷積結(jié)構(gòu)采用ConvBlock1提取特征并降維,4層卷積對應(yīng)的輸出通道分別設(shè)為[8,16,32,64]; InsectFrames_4卷積結(jié)構(gòu)采用ConvBlock2提取特征并降維,4層卷積對應(yīng)的輸出通道分別設(shè)為[16,32,64,128]。
表2 InsectFrames 4種變體結(jié)構(gòu)Tab.2 Four different variant structures of InsectFrames
本研究設(shè)計的識別模型首先經(jīng)過訓練,通過深度學習有監(jiān)督地優(yōu)化模型參數(shù)至算法收斂,然后在測試集上評估4種模型準確率。
圖5 害蟲鉆蛀振動識別流程Fig.5 Recognition process of insect boring vibration
在訓練階段(圖5a),預(yù)處理提取訓練集音頻的對數(shù)梅爾聲譜輸入到卷積神經(jīng)網(wǎng)絡(luò)中,通過前向傳播預(yù)測類別,利用損失函數(shù)計算預(yù)測類別與真實類別之間的誤差,再通過網(wǎng)絡(luò)反向傳播進行參數(shù)更新,經(jīng)多次迭代完成模型訓練。模型訓練過程中,采用Adam算法進行優(yōu)化; 設(shè)置初始學習率為0.001,并以余弦衰減方式進行衰減,直至0.000 001停止; 以32個音頻為1個批次,最多迭代50次; 使用交叉熵函數(shù)(cross entropy function)作為損失函數(shù)。
在測試階段(圖5b),將未參與訓練的測試集音頻輸入到訓練完畢的模型,測試模型在新數(shù)據(jù)上的分類準確率。在測試過程中,為了節(jié)約計算資源并提高識別精度,進行端點檢測時設(shè)計了2個分支: 1) 當端點檢測未檢測出信號片段時(即當前音頻的能量偏低),音頻直接被判定為無鉆蛀振動類; 2) 當端點檢測檢測出信號片段時,將信號片段轉(zhuǎn)化為對數(shù)梅爾聲譜,并輸入到已訓練好的卷積神經(jīng)網(wǎng)絡(luò)進行分類預(yù)測,此時待識別音頻得到多個片段的預(yù)測分類結(jié)果,利用多數(shù)投票的方法進行預(yù)測結(jié)果匯聚,得票高的類別被認為是該音頻的預(yù)測類別。
本研究訓練模型采用的硬件平臺為Intel CoreTMi7-6700K CPU(32 GB內(nèi)存)以及GeForce GTX 1080 Ti(12 GB顯存); 軟件為Ubuntu 16.04 LTS 64位操作系統(tǒng),Lasagne (Raffeletal., 2016)深度學習開源框架。
害蟲識別一般以單音頻為單位進行,為了避免CPU與GPU之間的數(shù)據(jù)傳輸,本研究以音頻分類的平均精度(average accuracy)以及在CPU上測試的平均識別時間(average recognition time of CPU)作為害蟲鉆蛀振動識別的評價指標。待測音頻輸入網(wǎng)絡(luò)模型前需經(jīng)預(yù)處理轉(zhuǎn)化為對數(shù)梅爾聲譜,該過程是音頻識別的基礎(chǔ)工作,與識別方法的選擇無關(guān)。
由表 3可知,單個音頻的平均預(yù)處理時間均為1.8 s左右,在整個害蟲識別過程中時間占比較大。在圖像分類問題中表現(xiàn)優(yōu)異的ResNet18網(wǎng)絡(luò)用于害蟲鉆蛀振動識別能夠達到88.89%的平均識別準確率,但由于ResNet18具有相對復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),單個音頻的CPU平均識別時間為229.612 s。廣泛應(yīng)用于昆蟲聲音識別領(lǐng)域的混合高斯模型(Gaussian mixture model, GMM)時間效率極高,是4種網(wǎng)絡(luò)變體識別速度的15~60倍,但在此數(shù)據(jù)集上的識別精度僅為61.81%。本研究測試了4種變體結(jié)構(gòu)簡單的卷積神經(jīng)網(wǎng)絡(luò)(InsectFrames_1—4),其中在卷積過程中直接實現(xiàn)降維的InsectFrames_3、InsectFrames_4識別精度能夠達到90.28%和93.75%,與GMM、ResNet18相比識別精度有所提高; 改變特征降維方式,設(shè)置2×2最大池化步長為2,對應(yīng)的InsectFrames_1、InsectFrames_2 的識別精度能夠達到92.36%和95.83%,與在卷積過程實現(xiàn)降維的策略相比均提高2.08%,具有更加明顯的識別優(yōu)勢。圖6 為識別性能最好的InsectFrames_2測試結(jié)果的混淆矩陣,其中有3個雙條杉天牛鉆蛀振動音頻錯分為臭椿溝眶象類,1個臭椿溝眶象鉆蛀振動音頻錯分為雙條杉天牛類,2個無鉆蛀振動音頻被錯分為雙條杉天牛類。
表3 識別結(jié)果Tab.3 Identification results
圖6 InsectFrames_2測試結(jié)果的混淆矩陣Fig.6 The confusion matrix of InsectFrames_20: 雙條杉天牛類 S. bifasciatus;1:臭椿溝眶象類E.brandti; 2:無鉆蛀振動類 No boring vibration.
當前廣泛應(yīng)用于蟲聲識別領(lǐng)域的GMM以及在圖像分類領(lǐng)域性能較好的ResNet18用于害蟲鉆蛀振動識別的精度僅為61.81%和88.89%,而且ResNet18運算開銷過高,在CPU上平均識別時間是4種網(wǎng)絡(luò)變體的170~2 000多倍。而本研究實現(xiàn)的4種基于輕量級神經(jīng)網(wǎng)絡(luò)的鉆蛀振動識別模型InsectFrames_1—4的測試集平均精度均能達到90%以上,采用最大池化降維且中間層特征維度較高的InsectFrames_2模型具有最佳識別性能,平均精度能夠達到95.83%,CPU平均識別時間為1.334 s,可利用鉆蛀振動有效區(qū)分2種鉆蛀性幼蟲,為蟲情監(jiān)測預(yù)警提供技術(shù)支持。
傳統(tǒng)蟲聲識別領(lǐng)域廣泛應(yīng)用的GMM為無監(jiān)督學習,主要由數(shù)據(jù)驅(qū)動實現(xiàn)聚類,在不同類型的昆蟲(儲糧害蟲、蛀干害蟲、土壤昆蟲、植物昆蟲等)識別中表現(xiàn)優(yōu)異;但雙條杉天牛、臭椿溝眶象均屬林業(yè)鉆蛀性害蟲,鉆蛀振動信號特征相似度較高,利用GMM難以精準區(qū)分。ResNet18采用殘差結(jié)構(gòu)優(yōu)化深層網(wǎng)絡(luò),可解決網(wǎng)絡(luò)在深度增加過程中的退化問題,同時增加模型的表示能力,在相對復(fù)雜的圖像分類任務(wù)中性能優(yōu)異,對于鉆蛀振動特征相似的2類害蟲也能取得較高識別精度。但鉆蛀振動信號特征相對較少,ResNet18網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且參數(shù)較多,所以時間效率偏低,無法真正應(yīng)用于蟲聲識別。本研究實現(xiàn)的4種輕量級神經(jīng)網(wǎng)絡(luò)模型很好解決了鉆蛀振動信號特征相對較少且相似性高的問題。
由于最大池化策略能夠?qū)ι弦粚拥妮敵鲆刖植科揭撇蛔冃?,且可有效保留圖像紋理特征,采用最大池化策略的InsectFrames_1和InsectFrames_2網(wǎng)絡(luò)相較在卷積過程中直接實現(xiàn)降維策略的網(wǎng)絡(luò)具有更好的識別能力,但同時增加了運算量,耗時增加約2倍,時間效率相對較低。4層卷積輸出維度為[16,32,64,128]的InsectFrames_2能夠獲取更多的中間特征用于學習,在試驗中得到最好的識別結(jié)果。InsectFrames_2網(wǎng)絡(luò)結(jié)構(gòu)簡單、泛化能力強,在CPU上單個音頻平均識別時間約1.3 s,能夠滿足正常害蟲監(jiān)測預(yù)警的時效要求,適用于蛀干害蟲的鉆蛀振動識別。
基于輕量級卷積神經(jīng)網(wǎng)絡(luò)的鉆蛀振動識別方法,可高效識別出信號特征相似度較高的2種蛀干害蟲,將其應(yīng)用于林間蟲害監(jiān)測和防治領(lǐng)域,能夠提高監(jiān)測效率,降低監(jiān)測成本,為林業(yè)蛀干害蟲監(jiān)測提供新的研究思路和技術(shù)支撐。未來將探索在含噪森林環(huán)境中更多種類鉆蛀性幼蟲的自動識別技術(shù),提升對隱蔽鉆蛀性林業(yè)害蟲的早期預(yù)警能力。