楊雨欣,于 紅,楊宗軼,涂 萬(wàn),張 鑫,林遠(yuǎn)山
(1 大連海洋大學(xué)信息工程學(xué)院,遼寧 大連 116023;2 大連市智慧漁業(yè)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116023;3 設(shè)施漁業(yè)教育部重點(diǎn)實(shí)驗(yàn)室(大連海洋大學(xué)),遼寧 大連 116023;4 遼寧省海洋信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116023)
精準(zhǔn)養(yǎng)殖是魚(yú)類(lèi)養(yǎng)殖的新趨勢(shì)[1],魚(yú)類(lèi)行為識(shí)別為精準(zhǔn)養(yǎng)殖提供技術(shù)支持[2]。目前,魚(yú)類(lèi)行為監(jiān)測(cè)主要采用計(jì)算機(jī)視覺(jué)技術(shù)量化和識(shí)別魚(yú)類(lèi)的多種行為[3-5]。趙夢(mèng)等[6]將SKNet注意力機(jī)制與YOLOv5融合,構(gòu)成了關(guān)注像素級(jí)信息的特征提取網(wǎng)絡(luò),有效增強(qiáng)了檢測(cè)效果;韋思學(xué)等[7]提出通道非降維雙重注意力機(jī)制ECBAM,對(duì)降維操作進(jìn)行了優(yōu)化,進(jìn)一步提高了識(shí)別精度。然而,在規(guī)?;?、集約化等更為復(fù)雜的養(yǎng)殖環(huán)境中,計(jì)算機(jī)視覺(jué)方法仍有局限性[8],研究者考慮到聲波在水中衰減小且不受水體渾濁影響、傳播范圍更廣,開(kāi)始將深度學(xué)習(xí)引入聲音識(shí)別領(lǐng)域[9]。Kong等[10]提出了在大規(guī)模AudioSet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練音頻神經(jīng)網(wǎng)絡(luò)(PANNs),并證明可以將神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移到其他音頻相關(guān)任務(wù),但網(wǎng)絡(luò)提取聲音特征能力受限;Desplanques等[11]提出利用1D卷積神經(jīng)網(wǎng)絡(luò)融合Res2Net和SE模塊以聚合聲音不同層次的特征,增強(qiáng)特征通道相互依賴性,但難以處理聲音細(xì)節(jié)特征。在魚(yú)類(lèi)行為識(shí)別領(lǐng)域中,同樣可使用聲學(xué)特征[12-13]。Meng等[14]提出將魚(yú)類(lèi)攝食音頻轉(zhuǎn)換為聲音特征信息,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型對(duì)魚(yú)的攝食強(qiáng)度進(jìn)行分類(lèi),但CNN對(duì)魚(yú)類(lèi)細(xì)粒度聲音信息提取能力有限;胥婧雯等[15-16]采用能對(duì)魚(yú)類(lèi)聲音特征進(jìn)行細(xì)粒度分類(lèi)的ResNet網(wǎng)絡(luò),實(shí)現(xiàn)低維細(xì)節(jié)特征與高維語(yǔ)義特征融合,但樣本種類(lèi)較少,且深度殘差網(wǎng)絡(luò)中有大量冗余層、網(wǎng)絡(luò)提取關(guān)鍵信息少。
基于以上分析,可用神經(jīng)網(wǎng)絡(luò)增強(qiáng)魚(yú)類(lèi)聲音特征提取[17],識(shí)別魚(yú)類(lèi)行為,但現(xiàn)有魚(yú)類(lèi)聲音數(shù)據(jù)和識(shí)別模型存在不足[18-19]。本研究首先開(kāi)展魚(yú)類(lèi)行為聲音信號(hào)數(shù)據(jù)采集,然后提出基于Mel聲譜圖與改進(jìn)SEResNet的魚(yú)類(lèi)行為識(shí)別模型TAP-SEResNet,通過(guò)Mel聲譜圖對(duì)頻率特征進(jìn)行非線性映射,提升網(wǎng)絡(luò)對(duì)魚(yú)類(lèi)聲音高級(jí)語(yǔ)義特征提取能力;通過(guò)融合時(shí)序聚合池化層TAP,使SEResNet保留最佳聲音特征信息。以上改進(jìn)使SEResNet在復(fù)雜養(yǎng)殖環(huán)境下魚(yú)類(lèi)行為識(shí)別的準(zhǔn)確率與F1值的性能指標(biāo)得到顯著提升。
1.1.1 試驗(yàn)對(duì)象與環(huán)境
本試驗(yàn)在大連海洋大學(xué)魚(yú)類(lèi)行為學(xué)實(shí)驗(yàn)室進(jìn)行,試驗(yàn)系統(tǒng)共3個(gè)養(yǎng)殖池,養(yǎng)殖池直徑60 cm,高度60 cm,養(yǎng)殖水深40 cm,如圖1所示。
圖1 魚(yú)類(lèi)行為數(shù)據(jù)采集系統(tǒng)
以虹鱒魚(yú)(Oncorhynchus mykiss)為試驗(yàn)對(duì)象,選取體長(zhǎng)8~10 cm、平均規(guī)格10 g,共30條,養(yǎng)殖水溫保持15~18℃,密度9.2 kg/m3,pH為6.5~6.9,溶氧質(zhì)量濃度12±2 mg/L,將虹鱒魚(yú)按數(shù)量均分為3個(gè)養(yǎng)殖池以保持最適養(yǎng)殖魚(yú)群密度,均經(jīng)過(guò)1個(gè)月的養(yǎng)殖適應(yīng)期。每天定量投喂兩次[20],投喂時(shí)間分別為早上10:00和下午18:00。在飼料投喂時(shí)段,通過(guò)攝像頭觀察魚(yú)類(lèi)行為,采集魚(yú)群攝食、游泳和跳躍聲音信號(hào),試驗(yàn)期間保持室內(nèi)安靜。
為采集魚(yú)類(lèi)不同行為的聲音信號(hào),使用水下聲學(xué)測(cè)量系統(tǒng),水聽(tīng)器型號(hào)為AQH20k-1062,采樣頻率20~20 000 Hz,覆蓋魚(yú)類(lèi)發(fā)聲頻率范圍。為避免水聽(tīng)器撞擊水箱壁造成雜音,將鉛錘垂直放置于養(yǎng)殖池水面下方10 cm的位置,水聽(tīng)器綁在鉛錘上固定在養(yǎng)殖池中央。另一端連接計(jì)算機(jī)存儲(chǔ)數(shù)據(jù),存儲(chǔ)為wav格式。為實(shí)時(shí)觀察魚(yú)類(lèi)行為且不妨礙魚(yú)類(lèi)正常生活,攝像頭(??低暰W(wǎng)絡(luò)攝像機(jī))架設(shè)在高于水面30 cm的養(yǎng)殖水箱旁,同時(shí)連接計(jì)算機(jī)。
1.1.2 數(shù)據(jù)集構(gòu)建
虹鱒魚(yú)是一種具有商業(yè)價(jià)值且養(yǎng)殖廣泛的魚(yú)類(lèi),其跳躍行為對(duì)于魚(yú)類(lèi)健康監(jiān)測(cè)和養(yǎng)殖環(huán)境改進(jìn)有重要意義[21]。經(jīng)過(guò)分析[22],將魚(yú)群行為分為“Feed” “Swim” “Jump”三種,采集聲音信號(hào),聲音頻譜圖如圖2所示。其中,“Feed”表示攝食行為,“Swim”表示游泳行為,“Jump”表示跳躍行為,紅色虛線表示跳躍軌跡。
圖2 魚(yú)類(lèi)行為數(shù)據(jù)集劃分
為了保證聲音包含一個(gè)完整周期的行為信息,每個(gè)行為采集時(shí)長(zhǎng)為120 s。由于魚(yú)類(lèi)行為聲音時(shí)長(zhǎng)短,將采集到的聲音信號(hào)按照每段2 s進(jìn)行人工切分并編號(hào);另設(shè)一組噪聲對(duì)照組同步采集背景噪聲,以便獲取環(huán)境噪聲。收集不同時(shí)間段的試驗(yàn)數(shù)據(jù)并重復(fù)進(jìn)行上述采集過(guò)程,采集虹鱒魚(yú)攝食聲音信號(hào)樣本300個(gè),游泳聲音信號(hào)樣本420個(gè),跳躍聲音信號(hào)樣本300個(gè),共計(jì)樣本1 020個(gè)。訓(xùn)練、驗(yàn)證、測(cè)試集按照7∶2∶1比例隨機(jī)劃分。
1.2.1 聲音特征提取
魚(yú)類(lèi)聲音信號(hào)是非穩(wěn)態(tài)信號(hào),在時(shí)域中難以看出其特性,需要將每幀信號(hào)進(jìn)行傅立葉變換得到相應(yīng)頻譜圖,以分析聲音特征。目前,聲音特征提取常用方法為聲譜圖(Spectrogram)[23]、Mel頻率倒譜系數(shù)(MFCC)[24]和Mel聲譜圖(Mel spectrogram)[25]等。聲譜圖能夠捕捉頻率變化,但對(duì)于非穩(wěn)態(tài)聲音信息處理能力不足,丟失部分細(xì)節(jié)時(shí)域信息。Mel頻率倒譜系數(shù)具有較強(qiáng)特征表達(dá)能力,但是通過(guò)離散余弦變換轉(zhuǎn)換為較低維度的特征向量時(shí),壓縮過(guò)多頻率尺度,致使識(shí)別準(zhǔn)確率不高。
Mel聲譜圖通過(guò)應(yīng)用Mel濾波器對(duì)音頻信號(hào)進(jìn)行傅里葉變換,將能量非線性映射到頻域梅爾刻度上,提取出魚(yú)類(lèi)聲音中的重要頻率特征,在頻率軸上對(duì)音頻信號(hào)進(jìn)行有效壓縮,提高聲音信息分辨能力;在保留魚(yú)類(lèi)聲音關(guān)鍵信息的同時(shí)降低特征維度,能更完整地提取魚(yú)類(lèi)細(xì)粒度聲音信息。因此,為了精準(zhǔn)表示魚(yú)類(lèi)行為聲音特征,選擇高分辨率、特征表示較好的Mel聲譜圖特征提取方法,提取不同魚(yú)類(lèi)行為Mel聲譜圖特征如圖3所示。魚(yú)類(lèi)攝食行為聲音信號(hào)含有斷斷續(xù)續(xù)的峰值波動(dòng),因此Mel聲譜圖呈現(xiàn)出明顯的魚(yú)類(lèi)攝食強(qiáng)度變化;游泳行為聲音是連續(xù)的波動(dòng)信號(hào)且強(qiáng)度較弱,因此Mel聲譜圖特征微弱,呈現(xiàn)出較為明顯的周期性特征;跳躍行為聲音為短暫的脈沖信號(hào),因此Mel聲譜圖持續(xù)時(shí)間短,信號(hào)振幅大。
圖3 不同魚(yú)類(lèi)行為的Mel聲譜圖
1.2.2 TAP-SEResNet框架設(shè)計(jì)
由于真實(shí)養(yǎng)殖環(huán)境下存在各種刺激源,飼料投放、水流變化等外部條件刺激將導(dǎo)致魚(yú)類(lèi)產(chǎn)生不同的聲音響應(yīng),因此魚(yú)類(lèi)聲音數(shù)據(jù)具有復(fù)雜性和多樣性,對(duì)魚(yú)類(lèi)的行為識(shí)別必須具有較高的抗混淆能力與精準(zhǔn)性。ResNet網(wǎng)絡(luò)[26]中的殘差結(jié)構(gòu)能夠有效降低魚(yú)類(lèi)聲音特征之間的相關(guān)性,增強(qiáng)模型對(duì)于差異化特征的感知能力,避免關(guān)鍵信息逐層消失;SENet[27]能夠?qū)︳~(yú)類(lèi)聲音中的關(guān)鍵特征進(jìn)行加權(quán)計(jì)算,增強(qiáng)模型對(duì)于魚(yú)類(lèi)細(xì)粒度聲音的特征提取和區(qū)分能力。因此,SEResNet對(duì)于魚(yú)類(lèi)聲音能夠高效提取特征、關(guān)注重要信息,可滿足魚(yú)類(lèi)行為識(shí)別要求。
TAP-SEResNet基于SEResNet,其模型結(jié)構(gòu)如圖4所示。TAP-SEResNet由SEResNet、TAP、全連接層和Softmax分類(lèi)器構(gòu)成。輸入Mel聲譜圖信息,首先經(jīng)過(guò)SEResNet的殘差連接,得到魚(yú)類(lèi)原始聲音特征,通過(guò)嵌入的SE注意力機(jī)制模塊進(jìn)行關(guān)鍵特征加權(quán)計(jì)算,學(xué)習(xí)魚(yú)類(lèi)聲音關(guān)鍵信息,并和原始特征相加;針對(duì)養(yǎng)殖環(huán)境中頻率波動(dòng)大、特征差異小的魚(yú)類(lèi)細(xì)粒度聲音信息提取困難問(wèn)題,通過(guò)融合TAP,提升對(duì)魚(yú)類(lèi)聲音信息的特征提取能力,最后將深層聲音特征提供給全連接層整合信息,經(jīng)過(guò)Softmax分類(lèi)器輸出魚(yú)類(lèi)行為識(shí)別結(jié)果。
圖4 TAP-SEResNet結(jié)構(gòu)圖
1.2.3 TAP模塊
針對(duì)養(yǎng)殖環(huán)境下復(fù)雜多樣的魚(yú)類(lèi)行為聲音信息,SEResNet的殘差結(jié)構(gòu)和SE注意力機(jī)制能夠有效提取魚(yú)類(lèi)聲音深層細(xì)粒度特征,但是殘差網(wǎng)絡(luò)中聲音特征尺寸過(guò)度壓縮會(huì)導(dǎo)致關(guān)鍵信息丟失。為保留最佳魚(yú)類(lèi)聲音特征信息同時(shí)不丟失背景信息,提出TAP模塊。TAP通過(guò)融合池化區(qū)域的最大值和平均值,兼顧魚(yú)類(lèi)聲音信號(hào)的局部關(guān)鍵信息和整體背景信息,從而強(qiáng)化空間信息,提升空間感知能力,提供更豐富、全面的特征表達(dá)。時(shí)序聚合池化層TAP結(jié)構(gòu)如圖5所示。
圖5 時(shí)序聚合池化層TAP結(jié)構(gòu)圖
設(shè)魚(yú)類(lèi)行為聲音經(jīng)過(guò)卷積處理后的特征向量為ht,沿著總時(shí)間維度t,同時(shí)進(jìn)行平均池化μ和最大池化f(x)。平均池化能提供區(qū)域內(nèi)特征的整體趨勢(shì)和背景信息;最大池化則能夠捕捉輸入?yún)^(qū)域內(nèi)的最顯著特征,保留重要局部細(xì)節(jié)和去除冗余信息。最后將池化后的魚(yú)類(lèi)聲音特征信息進(jìn)行拼接操作,得到融合后的向量E,計(jì)算如公式(1)~(4)所示:
ht=(h1,h2,...,ht)
(1)
(2)
f(x)=max(0,hi)
(3)
E=[μ,f(x)]
(4)
式中:hi(i=1,2,...,t)是特征向量分量;max表示取特征向量最大值;[,]表示拼接操作。
1.3.1 試驗(yàn)平臺(tái)與模型訓(xùn)練參數(shù)
本研究試驗(yàn)環(huán)境為Intel Core 17-9700 CPU 3.00 GHz 3.00處理器,RTX3090顯卡,32GB內(nèi)存,操作系統(tǒng)為Windows10,運(yùn)行環(huán)境Python3.8,開(kāi)源深度學(xué)習(xí)框架Pytorch版本為1.13.1。訓(xùn)練參數(shù)設(shè)置batch_size為32,epoch為100。
1.3.2 評(píng)估指標(biāo)
本研究所提模型評(píng)估采用準(zhǔn)確率、F1值作為模型性能評(píng)價(jià)指標(biāo),分類(lèi)評(píng)估采用精確率、召回率和F1值作為分類(lèi)性能評(píng)價(jià)指標(biāo)。
準(zhǔn)確率(Accuracy,Ac)反映的是被預(yù)測(cè)為正確魚(yú)類(lèi)行為樣本數(shù)與樣本總數(shù)的比值,即是模型正確識(shí)別各種魚(yú)類(lèi)行為的概率;精確率(Precison,Pr)反映的是在特定魚(yú)類(lèi)行為下,正確分類(lèi)樣本在所有預(yù)測(cè)為該魚(yú)類(lèi)行為樣本中所占的比例;召回率(Recall,Re)反映的是正確分類(lèi)的魚(yú)類(lèi)行為占所有該行為總樣本的比例;F1值(F1-score,F1)作為分類(lèi)器的綜合指標(biāo),是精確率和召回率的調(diào)和平均數(shù)。計(jì)算如公式(5)~(8)所示:
(5)
(6)
(7)
(8)
式中:TTP(True Positives)為在正樣本中預(yù)測(cè)出正確魚(yú)類(lèi)行為的樣本數(shù);FFN(False Negatives)為在正樣本中預(yù)測(cè)出錯(cuò)誤魚(yú)類(lèi)行為的樣本數(shù);FFP(False Positives)為在負(fù)樣本中預(yù)測(cè)出正確魚(yú)類(lèi)行為的樣本數(shù);TTN(True Negatives)為在負(fù)樣本中預(yù)測(cè)出錯(cuò)誤魚(yú)類(lèi)行為的樣本數(shù)。
為驗(yàn)證時(shí)序聚合池化層TAP對(duì)SEResNet改進(jìn)的有效性,設(shè)計(jì)消融試驗(yàn)內(nèi)容如下:分別在有池化層TAP和無(wú)池化層TAP條件下進(jìn)行了魚(yú)類(lèi)行為識(shí)別對(duì)比試驗(yàn)。試驗(yàn)結(jié)果如表1所示,加入TAP模塊后模型的準(zhǔn)確率、F1值分別提升3.23%、4.33%,表明所提模塊有效。通過(guò)融合TAP模塊對(duì)SEResNet模型進(jìn)行改進(jìn),結(jié)合最大值和平均值,保留魚(yú)類(lèi)聲音信號(hào)的局部關(guān)鍵信息和整體背景信息,使魚(yú)類(lèi)細(xì)粒度聲音完整提取,減少有效信息丟失,提升模型性能,可更好滿足魚(yú)類(lèi)行為識(shí)別要求。
表1 消融試驗(yàn)
2.2.1 特征提取方法對(duì)比
為驗(yàn)證Mel聲譜圖對(duì)于魚(yú)類(lèi)聲音特征提取的有效性,設(shè)計(jì)對(duì)比試驗(yàn)內(nèi)容如下:在TAP-SEResNet的基礎(chǔ)上與目前常用的聲音特征提取方法聲譜圖[23]和Mel頻率倒譜系數(shù)[24]進(jìn)行對(duì)比。試驗(yàn)結(jié)果如表2所示,Mel聲譜圖相比其他方法準(zhǔn)確率分別提升8.36%、0.97%,F1值分別提升8.8%、0.47%。由分析可得,聲譜圖處理非穩(wěn)態(tài)聲音信息能力不足,Mel頻率倒譜系數(shù)壓縮過(guò)多頻率尺度,影響模型準(zhǔn)確性。Mel聲譜圖在頻率軸上有效壓縮魚(yú)類(lèi)聲音信號(hào),增強(qiáng)聲音信息特征提取和分辨能力,與Mel頻率倒譜系數(shù)和聲譜圖相比,更適用于提取魚(yú)類(lèi)聲音信息,明顯優(yōu)于其他方法。
表2 特征提取方法對(duì)比
2.2.2 模型對(duì)比試驗(yàn)
為驗(yàn)證TAP-SEResNet在魚(yú)類(lèi)行為識(shí)別的有效性,與先進(jìn)聲音識(shí)別模型進(jìn)行對(duì)比試驗(yàn),對(duì)比模型分別是:Kong等[10]通過(guò)遷移學(xué)習(xí)方法,提出聲音識(shí)別網(wǎng)絡(luò)PANNs-CNN14;Desplanques等[11]通過(guò)結(jié)合Res2Net模塊和SE注意力機(jī)制并使多層特征聚合,提出語(yǔ)音識(shí)別網(wǎng)絡(luò)ECAPA-TDNN;胥婧雯等[15]通過(guò)結(jié)合MFCC和ResNet,提出魚(yú)類(lèi)行為識(shí)別網(wǎng)絡(luò)MFCC+ResNet。試驗(yàn)結(jié)果如表3所示,與其他方法相比,TAP-SEResNet準(zhǔn)確率分別提升5.32%、2.80%和1.64%,F1值分別提升5.93%、1.96%和2.00%。經(jīng)分析可得,PANNs-CNN14通過(guò)將神經(jīng)網(wǎng)絡(luò)用于音頻任務(wù),學(xué)習(xí)聲音特征,但是CNN對(duì)聲音信息提取能力有限;ECAPA-TDNN通過(guò)在1D卷積網(wǎng)絡(luò)基礎(chǔ)上融合Res2Net和SE模塊以聚合聲音不同層次的特征,但是對(duì)噪聲和環(huán)境變化比較敏感;MFCC+ResNet通過(guò)將殘差模塊中的最大池化替換為平均池化,多維度學(xué)習(xí)魚(yú)類(lèi)聲音特征,但是深度殘差網(wǎng)絡(luò)含有大量冗余層,有效聲音信息提取不夠。TAP-SEResNet通過(guò)融合TAP模塊保留更多的魚(yú)類(lèi)行為聲音關(guān)鍵特征,同時(shí)不丟失聲音背景信息,促進(jìn)SEResNet對(duì)魚(yú)類(lèi)細(xì)粒度聲音信息進(jìn)行有效提取,達(dá)到最優(yōu)識(shí)別性能。
表3 不同模型與TAP-SEResNet的性能對(duì)比
為驗(yàn)證TAP-SEResNet對(duì)魚(yú)類(lèi)行為識(shí)別的分類(lèi)性能,識(shí)別結(jié)果和歸一化混淆矩陣如表4和圖6所示。
表4 TAP-SEResNet魚(yú)類(lèi)行為識(shí)別結(jié)果
圖6 魚(yú)類(lèi)行為識(shí)別歸一化混淆矩陣
由表4數(shù)據(jù)分析可得,“Feed”行為由于聲音信息較豐富,分類(lèi)效果最好,評(píng)估指標(biāo)均在98%以上;“Feed”和“Jump”魚(yú)類(lèi)行為識(shí)別精確率均達(dá)到98%以上,“Feed”和“Swim”魚(yú)類(lèi)行為識(shí)別召回率均達(dá)到99%以上,3個(gè)魚(yú)類(lèi)行為識(shí)別F1值均達(dá)到89%以上,模型整體準(zhǔn)確率為91.15%。由圖6可知,歸一化混淆矩陣的左上到右下的對(duì)角線表示每個(gè)分類(lèi)的識(shí)別準(zhǔn)確率,對(duì)角線外區(qū)域表示錯(cuò)誤分類(lèi)區(qū)域,“Feed”和“Jump”分類(lèi)精確率均達(dá)到98%,穩(wěn)定性好。故TAP-SEResNet通過(guò)融合TAP模塊,增強(qiáng)模型分類(lèi)性能,試驗(yàn)結(jié)果表明所提模型改進(jìn)的有效性。然而本算法仍具有局限性,由于魚(yú)類(lèi)游泳行為動(dòng)作幅度小、特征不明顯,游泳行為有效聲音信息較少,故圖6中游泳行為識(shí)別結(jié)果的精確率僅達(dá)到81%,與攝食、跳躍行為識(shí)別結(jié)果相差17%,識(shí)別效果較差,說(shuō)明部分魚(yú)類(lèi)聲音信息仍然無(wú)法高效捕捉和分辨,同時(shí)試驗(yàn)環(huán)境中可能存在影響聲音檢測(cè)的其他干擾因素。
對(duì)比魚(yú)類(lèi)品種識(shí)別[28-29],本研究識(shí)別難度在于魚(yú)類(lèi)行為聲音信息難采集、頻率波動(dòng)大和特征差異小等特點(diǎn)使得目標(biāo)特征信息難以捕捉,聲音關(guān)鍵信息的提取準(zhǔn)確率低;對(duì)比魚(yú)類(lèi)攝食強(qiáng)度量化[30],本研究識(shí)別難度在于真實(shí)養(yǎng)殖環(huán)境通常比較復(fù)雜,魚(yú)類(lèi)行為聲音信息易受環(huán)境噪聲影響且含有多樣性和復(fù)雜性,增加了識(shí)別難度。針對(duì)上述難點(diǎn),TAP-SEResNet識(shí)別模型通過(guò)采用Mel聲譜圖提取聲音特征信息,從而降低了魚(yú)類(lèi)聲音信息提取難度;同時(shí)提出融合TAP模塊加強(qiáng)對(duì)關(guān)鍵特征的提取,從而增強(qiáng)SEResNet對(duì)魚(yú)類(lèi)細(xì)粒度聲音信息的識(shí)別能力。
本研究提出基于Mel聲譜圖和改進(jìn)SEResNet的魚(yú)類(lèi)行為識(shí)別模型TAP-SEResNet,魚(yú)類(lèi)聲音信息由Mel聲譜圖特征提取,通過(guò)融合TAP模塊保留魚(yú)類(lèi)聲音的局部關(guān)鍵信息和整體背景信息,減少關(guān)鍵信息丟失,提高SEResNet模型識(shí)別能力,可為研究魚(yú)類(lèi)行為識(shí)別領(lǐng)域提供技術(shù)支持,有助于養(yǎng)殖過(guò)程中對(duì)魚(yú)類(lèi)行為實(shí)現(xiàn)精準(zhǔn)檢測(cè)。然而,本研究?jī)H在實(shí)驗(yàn)室環(huán)境下進(jìn)行,對(duì)復(fù)雜養(yǎng)殖環(huán)境中含有雜亂背景聲音信息的問(wèn)題,仍需進(jìn)一步研究改進(jìn),同時(shí)還可以針對(duì)魚(yú)類(lèi)聲音特點(diǎn)考慮其他更有效的特征提取方法。
□