基于光流法的魚群攝食狀態(tài)細(xì)粒度分類算法

2021-08-04 05:53:50徐立鴻劉世晶

農(nóng)業(yè)工程學(xué)報(bào) 2021年9期

唐宸，徐立鴻※，劉世晶

（1. 同濟(jì)大學(xué)電子與信息工程學(xué)院，上海 201804；2. 中國水產(chǎn)科學(xué)研究院漁業(yè)機(jī)械儀器研究所，上海 200092）

0 引言

近年來，由于水產(chǎn)養(yǎng)殖產(chǎn)品需求量的日益增長，漁業(yè)養(yǎng)殖技術(shù)受到了越來越多的關(guān)注[1]。研究表明，科學(xué)、合理的餌料投放技術(shù)是確保魚群健康生長的關(guān)鍵[2-3]，實(shí)際養(yǎng)殖過程中可以通過對魚群的攝食狀態(tài)進(jìn)行分類來描述其攝食行為[4-5]，進(jìn)而實(shí)現(xiàn)對魚群攝食過程的實(shí)時監(jiān)控[6-8]。此外，隨著養(yǎng)殖規(guī)模的擴(kuò)大，循環(huán)養(yǎng)殖系統(tǒng)（Recirculating Aquaculture System, RAS）逐漸成為漁業(yè)工廠化養(yǎng)殖的首選方案[9-10]。該系統(tǒng)裝配了水流循環(huán)裝置以確保水流的循環(huán)清潔，能夠最大程度地保證水產(chǎn)養(yǎng)殖的可持續(xù)性[11]。因此，在循環(huán)養(yǎng)殖系統(tǒng)中研究魚群的攝食狀態(tài)分類算法，對在工廠化養(yǎng)殖中精細(xì)地描述魚群的攝食行為、實(shí)現(xiàn)更加精準(zhǔn)的投餌自動控制，具有重大意義。

目前，針對魚群攝食狀態(tài)分類算法的研究，可分為基于聲學(xué)模型和基于視覺模型兩類。如Juell等[12-13]通過聲學(xué)傳感器探測餌料的剩余情況以進(jìn)一步分析魚群當(dāng)前的攝食狀態(tài)；Masaló等[14]則通過聲納技術(shù)直接探測魚群的游動狀態(tài)，然而這些算法大多依賴于價格高昂的聲學(xué)傳感器而無法大規(guī)模應(yīng)用于實(shí)際生產(chǎn)環(huán)境。相比之下，基于視覺模型的算法研究僅使用視頻采集設(shè)備，成本相對較低，此類算法逐漸成為該領(lǐng)域的研究熱點(diǎn)。Atoum等[15]和Li等[16]利用相關(guān)濾波技術(shù)跟蹤單條魚的游動情況進(jìn)而分析魚群整體的攝食狀態(tài)，但這類魚群跟蹤算法較難處理魚群遮擋情況，因此在養(yǎng)殖密度較大的循環(huán)養(yǎng)殖系統(tǒng)中不太適用。另外，從魚群整體角度考慮，Duarte等[17]提出了圖像處理活動系數(shù)（Image Processing Activity Index, IPAI），通過視頻的幀間差值來計(jì)算魚群的游動系數(shù)；Liu等[18]和Zhou等[19]提出了魚群攝食聚集系數(shù)（Flocking Index of Fish Feeding Behavior, FIFFB）和魚群攝食搶食強(qiáng)度（Snatch Intensity of Fish Feeding Behavior, SIFFB）2個系數(shù)來量化魚群的聚集和搶食程度；陳彩文等[20]基于魚群攝食圖像的紋理特征來評估魚群的攝食強(qiáng)度；Zhou等[21]直接采用卷積神經(jīng)網(wǎng)絡(luò)對魚群攝食的圖像進(jìn)行分類；H?kon等[22]提出了雙流循環(huán)神經(jīng)網(wǎng)絡(luò)（Dual Stream Recurrent Network, DSRN）

對魚群的攝食狀態(tài)進(jìn)行分類，DSRN的網(wǎng)絡(luò)結(jié)構(gòu)為VGGNet[23]和ResNet[24]，計(jì)算量大，在實(shí)際使用時計(jì)算機(jī)需裝配GTX1080或更高等級顯卡，不太適用于經(jīng)濟(jì)成本受限的工廠化養(yǎng)殖環(huán)境，而張佳林等[25]提出了變分貝葉斯卷積神經(jīng)網(wǎng)絡(luò)（Variational Auto Encoder Convolutional Neural Network, VAE-CNN）通過提取視頻的變分貝葉斯特征對工廠化養(yǎng)殖環(huán)境的魚群攝食狀態(tài)進(jìn)行分類。

光流法基于視頻相鄰幀計(jì)算光流位移場表征物體的運(yùn)動趨勢，根據(jù)該光流位移場可以計(jì)算物體的運(yùn)動特征，尤其適用于分析視頻內(nèi)物體的運(yùn)動狀態(tài)[26-29]，如Zhao等[27]通過光流法計(jì)算魚群的游動特征，提出了一個動能模型對魚群的聚集和離散程度進(jìn)行建模。由于當(dāng)前對魚群攝食行為的研究大多采用深度學(xué)習(xí)方法，應(yīng)用光流法的研究較為鮮見，因此本研究創(chuàng)新性地將光流法用于提取魚群在視頻相鄰幀間的運(yùn)動特征，進(jìn)而對魚群的攝食狀態(tài)進(jìn)行分類。

綜上，大部分魚群攝食狀態(tài)分類算法都基于實(shí)驗(yàn)室的理想環(huán)境開展研究，導(dǎo)致算法在應(yīng)用時往往存在諸如光照、能見度等條件限制而無法應(yīng)用于復(fù)雜的工廠化養(yǎng)殖環(huán)境。本研究旨在提出一種適用于工廠化循環(huán)養(yǎng)殖系統(tǒng)的魚群攝食狀態(tài)分類算法，首先收集并標(biāo)注了基于水下視角的魚群攝食狀態(tài)細(xì)粒度分類數(shù)據(jù)集，其次通過光流法提取視頻內(nèi)魚群的幀間運(yùn)動特征，然后構(gòu)建一個幀間運(yùn)動特征分類網(wǎng)絡(luò)對該特征進(jìn)行細(xì)粒度分類，最后基于投票策略確定視頻的最終類別，該算法可為精細(xì)化描述魚群的攝食行為，實(shí)現(xiàn)精準(zhǔn)投餌自動控制提供參考。

1 材料與方法

1.1 試驗(yàn)材料與環(huán)境

本研究試驗(yàn)對象為大西洋鮭魚（Salmo salarL.），該魚種具有較強(qiáng)的搶食性，且在不同攝食階段的行為差異較為明顯，試驗(yàn)魚體長約40～45 cm，平均魚體質(zhì)量2 kg左右。試驗(yàn)數(shù)據(jù)采集于山東煙臺的東方海洋科技有限公司（中國）7號養(yǎng)殖車間，車間內(nèi)養(yǎng)殖池池深1.8 m，平均半徑4 m。養(yǎng)殖池水溫保持在15 ℃左右，池內(nèi)溶解氧濃度保持在10～12 mg/L，養(yǎng)殖密度約為7.5條/m3。

該養(yǎng)殖車間配備的投餌裝置為箱式投餌機(jī)，投餌時該機(jī)器會沿著導(dǎo)軌向周圍拋灑餌料。該投餌機(jī)采用定時定量的投餌方式，每日08:00、12:40、20:00進(jìn)行投餌，每次投餌操作并非1次性將餌料全部投出，而是按照投餌1 min、暫停1 min的方式進(jìn)行間隔投餌，該方式有利于魚群在每次投餌時充分?jǐn)z食。

1.2 視頻采集系統(tǒng)方案

視頻采集設(shè)備為水下攝像機(jī)（Hero7，GoPro，美國），視頻圖像分辨率為1 920×1 080像素，幀率為30 Hz。所有視頻均以水下視角采集，4個攝像機(jī)以90°間隔安裝在養(yǎng)殖池四周，通過立桿固定在距池底0.5 m的高度，靠緊池壁，保證拍攝視角水平?；?個位置采集視頻能夠較好的避免單一視角下魚群攝食行為不明顯的情況。整個視頻采集過程中確保視頻的光照一致性，剔除光照過強(qiáng)、過弱的視頻片段。此外，循環(huán)養(yǎng)殖池存在人工增氧行為，增氧過程中采集的視頻片段其畫面內(nèi)容難以分辨，也需剔除。視頻處理依靠基于Python語言的圖像處理庫OpenCV完成。

1.3 數(shù)據(jù)集制作

所采集原始視頻長度均在2～3 min不等，首先將原始視頻按照魚群的未攝食、弱攝食和強(qiáng)攝食進(jìn)行標(biāo)注，其次在原始視頻內(nèi)部按照3 s的長度切分出多條樣本，并對這些樣本進(jìn)行篩選，剔除畫面被異物遮擋、充氧曝氣的噪聲樣本，最后構(gòu)成魚群攝食狀態(tài)細(xì)粒度分類數(shù)據(jù)集。

原始視頻的標(biāo)注參照?verli等[30]提出的魚群攝食狀態(tài)標(biāo)注規(guī)則完成，分為：1）未攝食：魚群對周圍餌料無反應(yīng)，正常巡游；2）弱攝食：魚群開始主動進(jìn)食，但只對周圍餌料有反應(yīng)，游動范圍較??；3）強(qiáng)攝食：魚群開始主動搶食，游動范圍明顯擴(kuò)大。

標(biāo)注工作由5名研究人員同時展開，采取一致性原則，即至少4人對某個視頻樣本標(biāo)注同一類別后該樣本可被確定標(biāo)為對應(yīng)類別，否則將其記為“類別模糊樣本”并直接廢棄。最終，魚群攝食狀態(tài)細(xì)粒度分類數(shù)據(jù)集的單個樣本長度為3 s（90幀），共包含752個視頻樣本，其中未攝食、弱攝食和強(qiáng)攝食類別分別包含311、311和130個樣本，訓(xùn)練集樣本（525個）、驗(yàn)證集樣本（75個）、測試集樣本（152個）按照7:1:2的比例劃分。

考慮到基于水下視角采集視頻的光照情況較差，視頻畫面較暗，以偏藍(lán)綠色調(diào)為主，大部份像素點(diǎn)的像素值都集中在[50，100]區(qū)間內(nèi)，本研究采用直方圖線性變換法，拉寬像素值的分布區(qū)間，增強(qiáng)視頻畫面的亮度和對比度。

2 基于光流法的魚群攝食狀態(tài)細(xì)粒度分類算法構(gòu)建

2.1 光流法提取幀間運(yùn)動特征

本研究采用光流法[31]提取視頻內(nèi)魚群的幀間運(yùn)動特征。光流法在圖像的全局范圍內(nèi)計(jì)算每個像素點(diǎn)在相鄰幀間的偏移量，形成光流位移場。該光流位移場能夠很好地表示循環(huán)養(yǎng)殖池場景中魚群整體的運(yùn)動情況。

光流法依賴于下述3個假設(shè)：1）亮度恒定，目標(biāo)的像素值在相鄰幀間不會發(fā)生變化；2）時間連續(xù)，物體在相鄰幀間的運(yùn)動十分微小；3）空間一致，領(lǐng)域范圍內(nèi)的像素點(diǎn)具有相同的運(yùn)動趨勢?；诹炼群愣僭O(shè)，目標(biāo)的像素值在相鄰幀中保持不變，該等量關(guān)系如式（1）所示：

式中p(x,y,t)表示坐標(biāo)為(x,y)的像素點(diǎn)在t時刻的像素值，pixels；p(x+x',y+y',t+t')表示該像素點(diǎn)在t+t′時刻移動到(x+x′,y+y′)位置后的像素值，pixels。對式（1）進(jìn)行泰勒展開，推導(dǎo)出光流方程如式（2）所示：

式中px為像素值p對位置x的偏導(dǎo)，pixels；py為像素值p對位置y的偏導(dǎo)，pixels；pt為像素值p對時刻t的偏導(dǎo)，pixels/s；u為光流沿x方向的運(yùn)動矢量，pixels/s；v為光流沿y方向的運(yùn)動矢量，pixels/s。

像素點(diǎn)移動的幅值強(qiáng)度（pixels）和相角角度（°）計(jì)算如式（3）和式（4）所示：

式中Px(u,v)為光流位移場中坐標(biāo)為(u,v)的像素點(diǎn)沿水平方向x的偏導(dǎo)，pixels；Py(u,v)為坐標(biāo)為(u,v)的像素點(diǎn)沿垂直方向y的偏導(dǎo)，pixels；mag(u,v)為坐標(biāo)為(u,v)的像素點(diǎn)移動的幅值強(qiáng)度，pixels；ang(u,v)為坐標(biāo)為(u,v)的像素點(diǎn)移動的相角角度，(°)。本研究采用光流法計(jì)算得到視頻相鄰幀的光流位移場后，根據(jù)該光流位移場的水平分量px和垂直分量py計(jì)算每個位置像素點(diǎn)移動的幅值強(qiáng)度（pixels）和相角角度(°)，然后將幅值強(qiáng)度和相角角度分別在最小值至最大值范圍內(nèi)均勻地劃分為多個區(qū)間，并統(tǒng)計(jì)不同區(qū)間內(nèi)的像素點(diǎn)數(shù)量，得到幅值強(qiáng)度和相角角度的區(qū)間分布信息，將該分布信息作為視頻內(nèi)相鄰兩幀的幀間運(yùn)動特征。

對于魚群攝食狀態(tài)細(xì)粒度分類數(shù)據(jù)集中的單個視頻樣本（其包含90幀圖像），采用光流法對視頻內(nèi)所有相鄰幀計(jì)算，可得到89個幀間運(yùn)動特征，由此可將魚群攝食狀態(tài)細(xì)粒度分類數(shù)據(jù)集轉(zhuǎn)化為幀間運(yùn)動特征細(xì)粒度分類數(shù)據(jù)集，幀間運(yùn)動特征細(xì)粒度分類數(shù)據(jù)集共包含66 928個樣本，其中未攝食、弱攝食和強(qiáng)攝食類別分別包含27 79、27 679和11 570個樣本，訓(xùn)練集樣本（46 725個）、驗(yàn)證集樣本（6 675個）、測試集樣本（13 528個）按照7:1:2的比例劃分。

2.2 幀間運(yùn)動特征分類網(wǎng)絡(luò)

本研究提出了1個包含5層全連接層的幀間運(yùn)動特征分類網(wǎng)絡(luò)對光流法提取的幀間運(yùn)動特征進(jìn)行分類，該網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示。

其中，網(wǎng)絡(luò)的輸入層為光流法提取的16維的幀間運(yùn)動特征，輸入層之后為3層隱含層，其激活函數(shù)均采用Relu激活函數(shù)，隱含層節(jié)點(diǎn)數(shù)分別為64、128、64，輸出層有3個節(jié)點(diǎn)分別代表未攝食、弱攝食和強(qiáng)攝食3個類別，并采用Softmax分類函數(shù)預(yù)測類別概率，如式（5）所示：

式中L為對數(shù)損失值；Gi表示類別i對應(yīng)的標(biāo)簽，其中真實(shí)類別標(biāo)簽為1，其余類別標(biāo)簽為0，該損失函數(shù)只會針對標(biāo)簽為1的真實(shí)類別計(jì)算對數(shù)損失值，且預(yù)測概率越小，對數(shù)損失值越大。

該網(wǎng)絡(luò)基于幀間運(yùn)動特征細(xì)粒度分類數(shù)據(jù)集訓(xùn)練，訓(xùn)練集包含46 725個幀間運(yùn)動特征樣本，該數(shù)據(jù)規(guī)模能夠較好的滿足幀間運(yùn)動特征分類網(wǎng)絡(luò)的訓(xùn)練需求，可減小訓(xùn)練過程中出現(xiàn)過擬合的可能性。該網(wǎng)絡(luò)的學(xué)習(xí)率為0.001，迭代次數(shù)為2000次。

2.3 投票策略

魚群攝食狀態(tài)細(xì)粒度分類數(shù)據(jù)集的單個視頻樣本經(jīng)過光流法計(jì)算可得到89個幀間運(yùn)動特征樣本，經(jīng)過幀間運(yùn)動特征分類網(wǎng)絡(luò)分類可得到89個對應(yīng)的分類結(jié)果（未攝食、弱攝食和強(qiáng)攝食），算法后續(xù)根據(jù)這89個分類結(jié)果確定視頻樣本的最終類別。

本研究提出了基于自定義閾值的多數(shù)投票策略，在89個幀間運(yùn)動特征的分類結(jié)果中選擇預(yù)測頻率最高的類別作為視頻樣本最終的候選類別，且額外增加了閾值判斷（閾值可自行設(shè)置為視頻幀總數(shù)量的50%、80%或其他任意值），要求候選類別對應(yīng)的預(yù)測頻率大于閾值時算法才將其預(yù)測為視頻的最終類別，否則將其預(yù)測為“不確定類別”。例如某個視頻樣本的89個幀間運(yùn)動特征在未攝食、弱攝食和強(qiáng)攝食3個類別中分別有48、18、23個預(yù)測樣本，投票閾值設(shè)置為視頻幀總數(shù)量的60%，此時未攝食類別的預(yù)測頻率最高為53.9%，但低于閾值60%，因此算法最終將該視頻樣本預(yù)測為不確定類別。

本研究基于候選類別預(yù)測頻率（R, %）的計(jì)算方法如式（7）所示：

式中m為候選類別的幀間運(yùn)動特征樣本的數(shù)量，Tf為所有類別的幀間運(yùn)動特征樣本的總數(shù)量。

投票閾值和視頻樣本預(yù)測類別的預(yù)測頻率成正比關(guān)系，投票閾值設(shè)置越高，算法最終預(yù)測類別的預(yù)測頻率就越高。因此算法可以通過調(diào)整投票閾值，獲得不同預(yù)測頻率的預(yù)測結(jié)果。

投票閾值的設(shè)定如下：若對魚群攝食狀態(tài)的分類精準(zhǔn)度要求較高，推薦將投票閾值設(shè)置為80%，以高預(yù)測頻率盡可能地保證視頻樣本預(yù)測的正確性；若對魚群攝食狀態(tài)分類結(jié)果的確定性要求較高，推薦將投票閾值設(shè)置為50%，避免大量視頻樣本因預(yù)測頻率不達(dá)標(biāo)而被預(yù)測為不確定類別。

2.4 性能評價指標(biāo)

本研究選取了精準(zhǔn)度（Precision, %）、召回率（Recall, %）、F1得分（F1-score, %）、視頻準(zhǔn)確率（AccuracyV，%）和幀間運(yùn)動特征準(zhǔn)確率（AccuracyF，%）5個評價指標(biāo)來評估算法的最終性能。精準(zhǔn)度、召回率、F1得分用于評價算法在每個類別內(nèi)部的分類效果，視頻準(zhǔn)確率和幀間運(yùn)動特征準(zhǔn)確率用于評價算法在類別間的綜合分類效果。

精準(zhǔn)度表示算法預(yù)測的所有屬于該類別的樣本中預(yù)測正確的比例，召回率表示所有真實(shí)屬于該類別的樣本中被算法正確預(yù)測的比例。如果僅僅關(guān)注精準(zhǔn)度指標(biāo)，則容易出現(xiàn)算法保守預(yù)測的情況（即算法只對極少數(shù)樣本做出預(yù)測，大量正確樣本被遺漏，則會出現(xiàn)精準(zhǔn)度很高但召回率很低的現(xiàn)象）；而僅僅關(guān)注召回率指標(biāo)則容易出現(xiàn)算法暴力召回的情況（即算法將所有類別的樣本全都預(yù)測為某一類別，則會出現(xiàn)精準(zhǔn)度很低但召回率很高的現(xiàn)象）。F1得分則綜合考慮了精準(zhǔn)度和召回率之間的關(guān)系，評估算法性能時能夠避免算法出現(xiàn)保守預(yù)測和暴力召回的情況。視頻準(zhǔn)確率用于衡量算法最終對視頻樣本的分類效果，其以視頻樣本為單位進(jìn)行計(jì)算，其計(jì)算如式（8）所示：

式中Nv為預(yù)測正確的視頻樣本數(shù)量，Tv為所有類別的視頻樣本的總數(shù)量。幀間運(yùn)動特征準(zhǔn)確率用于衡量算法內(nèi)部幀間運(yùn)動特征分類網(wǎng)絡(luò)的分類效果，其以幀間運(yùn)動特征樣本為單位進(jìn)行計(jì)算，其計(jì)算如式（9）所示：

式中Nf為預(yù)測正確的幀間運(yùn)動特征樣本數(shù)量，Tf為所有類別的幀間運(yùn)動特征樣本的總數(shù)量。

3 結(jié)果與分析

3.1 幀間運(yùn)動特征維度選擇

本研究算法在提取視頻內(nèi)魚群的幀間運(yùn)動特征時首先通過光流法計(jì)算得到像素點(diǎn)運(yùn)動的幅值強(qiáng)度和相角角度信息，并將幅值強(qiáng)度和相角角度在最小值至最大值的范圍內(nèi)均勻地劃分為多個區(qū)間，該區(qū)間劃分?jǐn)?shù)量將會影響算法最終的分類效果（表1）。投票閾值設(shè)置為50%，幅值強(qiáng)度和相角角度的區(qū)間劃分?jǐn)?shù)量從4個增加至8個時，算法的幀間運(yùn)動特征準(zhǔn)確率和視頻準(zhǔn)確率均有明顯提升，分別達(dá)94.6%和98.7%；當(dāng)區(qū)間劃分?jǐn)?shù)量從8個增加至16個時，算法的幀間運(yùn)動特征準(zhǔn)確率和視頻準(zhǔn)確率增幅很小，分別為0.3個百分點(diǎn)和0.5個百分點(diǎn)，說明增加區(qū)間劃分?jǐn)?shù)量所帶來的效果提升已趨于飽和?？紤]到區(qū)間劃分越多，特征復(fù)雜度越高，本研究算法最終采用幅值強(qiáng)度和相角角度的8個區(qū)間劃分方案，在保證分類效果的前提下，盡可能地降低幀間運(yùn)動特征的維度。

表1 不同區(qū)間數(shù)量下本研究算法的幀間運(yùn)動特征準(zhǔn)確率和視頻準(zhǔn)確率 Table 1 Inter-frame motion feature accuracy and video accuracy of algorithm proposed in this study under different numbers of ranges

3.2 本研究算法試驗(yàn)結(jié)果分析

本研究算法在投票閾值設(shè)置為50%時未攝食、弱攝食和強(qiáng)攝食類別的的精準(zhǔn)度、召回率和F1得分如表2所示，3個類別的F1得分分別為99.5%、97.6%和95.2%，均在95%以上，說明該算法在50%投票閾值情況下能夠很好地完成魚群攝食狀態(tài)的細(xì)粒度分類任務(wù)。

表2 投票閾值設(shè)置為50%時本研究算法的性能 Table 2 Performances of algorithm proposed in this study when voting threshold is 50%

3.3 其他攝食狀態(tài)分類算法試驗(yàn)結(jié)果對比

為驗(yàn)證魚群攝食狀態(tài)細(xì)粒度分類任務(wù)中時序信息的重要性，本研究與以下3類相關(guān)算法進(jìn)行了對比試驗(yàn)：1）基于紋理特征的算法，參考陳彩文等[20]通過圖像的紋理信息表征魚群的攝食強(qiáng)度，將本研究中通過光流法提取的幀間運(yùn)動特征替換為基于灰度共生矩陣提取的單幀紋理特征。該算法首先通過灰度共生矩陣提取視頻單幀的紋理特征，并訓(xùn)練分類神經(jīng)網(wǎng)絡(luò)對該紋理特征進(jìn)行分類，最后通過投票策略預(yù)測視頻樣本的最終類別。投票閾值設(shè)置為50%時該算法在未攝食、弱攝食和強(qiáng)攝食類別的F1得分分別為90.3%、89.6%和7.3%（表3），此時該算法的視頻準(zhǔn)確率為80.9%（表4），細(xì)粒度分類效果較差；2）單幀卷積神經(jīng)網(wǎng)絡(luò)算法，參考Zhou等[21]直接采用卷積神經(jīng)網(wǎng)絡(luò)對視頻內(nèi)部所有的單幀圖像進(jìn)行分類。該算法直接訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)對視頻內(nèi)部所有的單幀圖像進(jìn)行分類，后續(xù)同樣通過投票策略預(yù)測視頻樣本的最終類別。投票閾值設(shè)置為50%時該算法在未攝食、弱攝食和強(qiáng)攝食類別的F1得分分別為91.6%、86.8%和91.1%（表3），此時該算法的視頻準(zhǔn)確率為89.4%；當(dāng)投票閾值提高至80%時該算法的視頻準(zhǔn)確率大幅下降至62.5%，對比本研究算法91.4%的視頻準(zhǔn)確率，兩者差距明顯（表4）；3）基于水下視角的變分貝葉斯卷積神經(jīng)網(wǎng)絡(luò)分類算法[25]（Variational Auto Encoder Convolutional Neural Network, VAE-CNN）。本研究修改了VAE-CNN算法的網(wǎng)絡(luò)結(jié)構(gòu)，將其從原先的魚群攝食狀態(tài)二分類結(jié)構(gòu)擴(kuò)展到魚群攝食狀態(tài)的細(xì)粒度分類結(jié)構(gòu)，該算法將視頻內(nèi)所有單幀圖像的變分貝葉斯特征進(jìn)行合并作為該視頻樣本的最終特征，并對該特征進(jìn)行分類。投票閾值設(shè)置為50%時未攝食、弱攝食和強(qiáng)攝食類別的F1得分分別為63.4%、64.1%和0（表3）。VAE-CNN算法直接對視頻樣本進(jìn)行分類，無法引入投票策略，因此針對不同投票閾值計(jì)算視頻準(zhǔn)確率的評估方法不適用于該算法。此外，本研究算法的視頻準(zhǔn)確率隨著投票閾值的升高而呈現(xiàn)下降趨勢。投票閾值越高，算法預(yù)測視頻類別時對候選類別預(yù)測頻率的要求就越高，更多的視頻可能因?yàn)楹蜻x類別的預(yù)測頻率未達(dá)到投票閾值而被預(yù)測為不確定類別，即被正確預(yù)測的視頻樣本數(shù)減少。投票閾值從為50%提高至80%時，本研究算法的視頻準(zhǔn)確率呈現(xiàn)下降趨勢，從98.7%降至91.4%（表4）。

表3 投票閾值設(shè)置為50%時不同算法在3種類別的F1得分 Table 3 F1-score of different algorithms in 3 categories when voting threshold is 50%

表4 不同投票閾值下不同算法的視頻準(zhǔn)確率 Table 4 Video accuracy of different algorithms under different voting thresholds

分析以上對比試驗(yàn)結(jié)果，得到以下結(jié)論：

1）基于紋理特征的算法無法對強(qiáng)攝食類別進(jìn)行分類，說明視頻單幀圖像的紋理特征所包含的信息無法解決魚群強(qiáng)、弱攝食狀態(tài)的細(xì)粒度分類問題。本研究算法通過光流法提取幀間運(yùn)動特征的創(chuàng)新方法更加有效。

2）基于單幀CNN的算法在提高投票閾值時視頻準(zhǔn)確率下降明顯，說明該算法在視頻內(nèi)部對很多幀分類錯誤，無法準(zhǔn)確地學(xué)習(xí)魚群強(qiáng)、弱攝食狀態(tài)之間的差異。本研究算法通過光流法提取幀間運(yùn)動特征的創(chuàng)新方法更加有效。

3）VAE-CNN算法的對比試驗(yàn)表明，在魚群攝食狀態(tài)細(xì)粒度分類任務(wù)上，直接合并VAE特征所包含的信息不足以區(qū)分魚群強(qiáng)、弱攝食狀態(tài)之間的差異?？紤]到VAE-CNN算法直接基于視頻樣本訓(xùn)練，本研究中的魚群攝食狀態(tài)細(xì)粒度分類數(shù)據(jù)集僅包含752個視頻樣本，數(shù)據(jù)集規(guī)模過小也會影響VAE-CNN算法的學(xué)習(xí)能力。這也說明了本研究算法能夠很好地解決數(shù)據(jù)集規(guī)模過小的問題，通過光流法提取視頻的幀間運(yùn)動特征將視頻樣本轉(zhuǎn)化為幀間運(yùn)動特征樣本，隱式的擴(kuò)大了訓(xùn)練數(shù)據(jù)的規(guī)模。

4 結(jié) 論

本研究面向工廠化循環(huán)養(yǎng)殖池環(huán)境采集視頻，制作了一個魚群攝食狀態(tài)的細(xì)粒度分類數(shù)據(jù)集，并提出了一種基于光流法特征提取的魚群攝食狀態(tài)細(xì)粒度分類算法，同時對其效果進(jìn)行了驗(yàn)證。驗(yàn)證結(jié)果表明，該算法通過對魚群攝食狀態(tài)的細(xì)粒度分類能夠更精細(xì)地描述魚群的攝食行為，且有以下特點(diǎn)：

1）本研究算法在投票閾值設(shè)置為50%時，視頻準(zhǔn)確率達(dá)98.7%；在投票閾值提高至80%時，視頻準(zhǔn)確率為91.4%。在不同的投票閾值設(shè)置下，算法的視頻準(zhǔn)確率始終在90.0%以上，說明該算法在工廠化循環(huán)養(yǎng)殖池場景中的分類魯棒性較強(qiáng)。

2）較之于基于紋理特征的算法和單幀卷積神經(jīng)網(wǎng)絡(luò)算法對視頻內(nèi)的單幀圖像提取特征，本研究算法提取視頻相鄰幀的幀間運(yùn)動特征在魚群攝食狀態(tài)的細(xì)粒度分類任務(wù)上更加有效。

3）較之于變分貝葉斯卷積神經(jīng)網(wǎng)絡(luò)分類算法（Variational Auto Encoder Convolutional Neural Network, VAE-CNN），本研究算法通過光流法提取視頻內(nèi)部的幀間運(yùn)動特征，將視頻樣本轉(zhuǎn)化為幀間運(yùn)動特征樣本，隱式的擴(kuò)大了數(shù)據(jù)集規(guī)模，解決了視頻數(shù)據(jù)集規(guī)模過小不利于算法訓(xùn)練的問題。

本研究根據(jù)工廠化循環(huán)養(yǎng)殖池中魚群的巡游特點(diǎn)針對性的提出了基于光流法特征提取的魚群攝食狀態(tài)細(xì)粒度分類算法，然而在非工廠化的野外養(yǎng)殖環(huán)境中魚群的巡游特點(diǎn)可能有所不同，本研究的下一步工作將面向野外養(yǎng)殖環(huán)境進(jìn)一步完善當(dāng)前算法。