張雪瑩 張浩林 韓瑩瑩 翁 強(qiáng) 袁崢嶸* 姚 遠(yuǎn)
(1.北京林業(yè)大學(xué)生物科學(xué)與技術(shù)學(xué)院,北京,100083;2.中國(guó)科學(xué)院自動(dòng)化研究所,北京,100190)
野生動(dòng)物作為生態(tài)系統(tǒng)的重要組成部分,與維持生態(tài)平衡與穩(wěn)定息息相關(guān)。由于自然環(huán)境惡化、野生動(dòng)物非法捕獵與交易等問題的存在,使得野生動(dòng)物物種多樣性銳減,瀕危野生動(dòng)物的保護(hù)已經(jīng)成為當(dāng)前社會(huì)關(guān)注的熱點(diǎn)問題。因此,如何開展野生動(dòng)物資源的觀測(cè)與評(píng)估工作,更高效、更準(zhǔn)確地獲取野生動(dòng)物相關(guān)數(shù)據(jù)成為了研究的重點(diǎn)問題。深度學(xué)習(xí)作為一種新興手段,開始逐漸出現(xiàn)在人們的視野中,并不斷被深入研究與使用。近幾年,深度學(xué)習(xí)在動(dòng)物識(shí)別中的應(yīng)用在全球范圍均取得了巨大的進(jìn)展。在其基礎(chǔ)之上,研究學(xué)者實(shí)現(xiàn)了野外條件下的動(dòng)物物種識(shí)別、數(shù)量統(tǒng)計(jì)、行為檢測(cè)、棲息地觀測(cè)等智能化、無(wú)人化工作,不僅節(jié)省了大量人力與時(shí)間,更提高了精確度,具有明顯的優(yōu)勢(shì)。筆者對(duì)此領(lǐng)域已有的研究進(jìn)行歸納總結(jié),并對(duì)深度學(xué)習(xí)在野生動(dòng)物保護(hù)領(lǐng)域應(yīng)用存在的問題及發(fā)展方向做出探討。
人工智能的核心領(lǐng)域是機(jī)器學(xué)習(xí),而深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一門新興技術(shù)[1]。深度學(xué)習(xí)的概念于2006年被Hinton等[2]及其學(xué)生正式提出,并立即引起了巨大的反響。它受到人腦多層神經(jīng)網(wǎng)絡(luò)的啟發(fā)[3],以數(shù)學(xué)和工程為支撐,近年來在自然科學(xué)、交通安全、醫(yī)療診斷等諸多領(lǐng)域逐漸被廣泛應(yīng)用。從人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)3種學(xué)習(xí)方式的關(guān)系上,可以看出深度學(xué)習(xí)在人工智能領(lǐng)域中的重要性及關(guān)鍵性(圖1)。
圖1 人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系
深度學(xué)習(xí)構(gòu)建的是一個(gè)多層網(wǎng)絡(luò),相比淺層機(jī)器學(xué)習(xí),深度學(xué)習(xí)具有強(qiáng)大的特征提取能力,對(duì)圖像、聲音、文本等高維數(shù)據(jù)的識(shí)別與分析有顯著優(yōu)勢(shì)[4]。因此,在計(jì)算機(jī)視覺、自然語(yǔ)言處理、圖像與視頻分析等領(lǐng)域,深度學(xué)習(xí)已經(jīng)成為研究的熱門方向。
常見的深度學(xué)習(xí)網(wǎng)絡(luò)模型有:適用范圍最廣的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN),目前被應(yīng)用較多的AlexNet、VGGNet、ResNet、GoogLeNet、DenseNet等深度學(xué)習(xí)網(wǎng)絡(luò),其基礎(chǔ)都是CNN;適用于處理序列數(shù)據(jù)問題的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),在其基礎(chǔ)之上進(jìn)行優(yōu)化產(chǎn)生了長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、門控循環(huán)單元(Gated Recurrent Unit,GRU)、分層RNN、雙向RNN等常用網(wǎng)絡(luò)模型;生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)、深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)、膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)等。在不同的應(yīng)用環(huán)境下可以根據(jù)功能特性選擇不同的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練(表1)。
表1 典型深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)比
為了提高深度學(xué)習(xí)的效率,各種開源學(xué)習(xí)框架也不斷被提出并應(yīng)用[5]。例如Google研發(fā)的TensorFlow、Facebook的Torch、Microsoft的CNTK、百度的PaddlePaddle等,這些框架主要應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等,它們使深度學(xué)習(xí)的操作更為簡(jiǎn)便高效,達(dá)到了事半功倍的效果。
野生動(dòng)物作為生物多樣性的重要組成部分,其生存發(fā)展?fàn)顩r對(duì)生態(tài)系統(tǒng)的穩(wěn)定與人類自身的發(fā)展密切相關(guān)[6]。近年來,人們投入大量人力物力加強(qiáng)對(duì)生態(tài)環(huán)境的保護(hù),同時(shí)開展重要地區(qū)野生動(dòng)物資源考察統(tǒng)計(jì)及棲息地恢復(fù)等工作,努力維護(hù)野生動(dòng)物物種多樣性,這雖然使部分瀕危物種的生存狀況得到一定程度上的改善,但仍然存在許多客觀問題,導(dǎo)致保護(hù)與治理的結(jié)果并不十分理想[7]。因此,除了對(duì)野生動(dòng)物實(shí)行直接及間接的保護(hù)之外,監(jiān)測(cè)與識(shí)別工作的開展也與野生動(dòng)物保護(hù)有著緊密的聯(lián)系。為了進(jìn)行更深入地分析與研究,人們通過對(duì)野生動(dòng)物進(jìn)行識(shí)別與分類、物種數(shù)量監(jiān)測(cè)、遷徙軌跡跟蹤等途徑獲得其相關(guān)信息,并以此為依據(jù)制定計(jì)策與規(guī)劃,使野生動(dòng)物的保護(hù)具有更強(qiáng)的針對(duì)性與更明確的方向性。
起初人們對(duì)動(dòng)物監(jiān)測(cè)識(shí)別及其生存空間的研究與評(píng)估是通過直接觀測(cè)的傳統(tǒng)方法,觀測(cè)物種的活動(dòng)軌跡并記錄,之后通過實(shí)地調(diào)查與查閱相關(guān)文獻(xiàn)等手段獲取更多相關(guān)數(shù)據(jù),但由于較多客觀影響因素而導(dǎo)致觀測(cè)結(jié)果較為粗糙。19世紀(jì)末,人們用相機(jī)陷阱來拍攝野生動(dòng)物,但需要特定的觸發(fā)條件。直到20世紀(jì)90年代中期,具有紅外傳感器的相機(jī)陷阱開始應(yīng)用于各個(gè)領(lǐng)域。1994年,馬世來等[8]最早于云南省高黎貢山地區(qū)將自動(dòng)感應(yīng)紅外相機(jī)應(yīng)用于野生動(dòng)物的分布研究。21世紀(jì)初期,數(shù)碼相機(jī)與紅外相機(jī)相結(jié)合產(chǎn)生的數(shù)碼紅外相機(jī)誕生,性能得到了進(jìn)一步完善。2010年后,紅外相機(jī)性能不斷提高,價(jià)格不斷下降,因而得到了進(jìn)一步普及,被廣泛應(yīng)用于野生動(dòng)物的種群監(jiān)測(cè)與評(píng)估等保護(hù)工作中[9]。
計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的快速發(fā)展與逐漸完備的地理信息技術(shù)體系加速了人們對(duì)野生動(dòng)物及其棲息地關(guān)系的研究進(jìn)程,進(jìn)而更好地對(duì)物種進(jìn)行保護(hù)。3S技術(shù),包括遙感技術(shù)(remote sensing,RS)、地理信息系統(tǒng)(geography information systems,GIS)和全球定位系統(tǒng)(global positioning systems,GPS),作為新興技術(shù)手段,對(duì)數(shù)據(jù)的提取、處理及分析具有更高的精確度,在野生動(dòng)物保護(hù)、環(huán)境資源調(diào)查與管理等方面發(fā)揮了重要作用。
3S技術(shù)主要利用GPS實(shí)現(xiàn)實(shí)時(shí)定位,通過RS與GIS獲取環(huán)境數(shù)據(jù)并進(jìn)行分析與數(shù)據(jù)更新,并且隨著技術(shù)的不斷發(fā)展,3S技術(shù)也可配合各種分析模型對(duì)物種數(shù)據(jù)進(jìn)行評(píng)價(jià)與預(yù)測(cè)[10]。例如Harrision等[11]、Bian等[12]在3S技術(shù)的支持下結(jié)合各種統(tǒng)計(jì)模型分別對(duì)狼(Canislupus)、駝鹿(Alcesalces)的生存環(huán)境及動(dòng)態(tài)變化進(jìn)行了分析與評(píng)估。宓春榮等[13]將3S獲得的數(shù)據(jù)與物種分布模型結(jié)合,高效獲取了黑頸鶴(Grusnigricollis)與白頭鶴(Grusmonacha)的物種數(shù)據(jù)。盛琪等[14]結(jié)合GIS空間分析技術(shù),使大興安嶺瀕危物種紫貂(Marteszibellina)生境適宜性分級(jí)評(píng)價(jià)的分析結(jié)果更加精確。翟天慶等[15]則將3S技術(shù)與BIOMOD模型結(jié)合,預(yù)測(cè)了朱鹮(Nipponianippon)的物種數(shù)據(jù)變動(dòng),從而制定對(duì)朱鹮保護(hù)的針對(duì)性策略。除此之外,在3S技術(shù)提供如此豐富的基礎(chǔ)數(shù)據(jù)的平臺(tái)上,近年來,無(wú)人機(jī)[16]、GPS項(xiàng)圈[17]等新興技術(shù)的輔助也為野生動(dòng)物的觀測(cè)提供了更加精細(xì)與全面的數(shù)據(jù)。
種群密度作為種群的基本數(shù)量特征,是調(diào)查和保護(hù)野生動(dòng)物的重要依據(jù),與動(dòng)物生存環(huán)境相結(jié)合,用于判斷生態(tài)系統(tǒng)的變化對(duì)種群密度的影響,從而實(shí)施針對(duì)性保護(hù)。目前人們監(jiān)測(cè)野生動(dòng)物的傳統(tǒng)調(diào)查方法主要分為人工監(jiān)測(cè)和智能監(jiān)測(cè)2種。
2.2.1 人工監(jiān)測(cè)
人工監(jiān)測(cè)以定期人工野外調(diào)查獲得相關(guān)數(shù)據(jù)。其中對(duì)哺乳動(dòng)物、鳥類及魚類等野生脊椎動(dòng)物的調(diào)查主要使用樣線法[18]、樣點(diǎn)法、抽樣調(diào)查法、計(jì)數(shù)法、標(biāo)記重捕法[19]等,以動(dòng)物獨(dú)特的天然標(biāo)記作為鑒別依據(jù)[20],再根據(jù)獲得的數(shù)據(jù)估計(jì)動(dòng)物種群數(shù)量及密度的變化參數(shù)。盡管人工監(jiān)測(cè)對(duì)設(shè)備方面要求較低,更為經(jīng)濟(jì),但會(huì)消耗大量的時(shí)間與人力,分揀成本高,且易受環(huán)境條件及其他因素影響,導(dǎo)致效率低、數(shù)據(jù)結(jié)果準(zhǔn)確度低等問題。
2.2.2 智能監(jiān)測(cè)
由于人工監(jiān)測(cè)受時(shí)間環(huán)境等各種因素的限制,動(dòng)物監(jiān)測(cè)也逐漸向智能化發(fā)展,不僅節(jié)省了人力物力財(cái)力,使監(jiān)測(cè)相對(duì)高效,同時(shí)也減少了人類對(duì)動(dòng)物及其棲息地的影響,從而使數(shù)據(jù)更加準(zhǔn)確。智能監(jiān)測(cè)主要包括無(wú)線電遙測(cè)技術(shù)、自動(dòng)感應(yīng)紅外相機(jī)技術(shù)[21]等。無(wú)線電遙測(cè)技術(shù)以目標(biāo)動(dòng)物佩戴發(fā)射器為媒介,通過無(wú)線電波的發(fā)射和接收來跟蹤動(dòng)物軌跡并獲得其活動(dòng)狀態(tài),適合觀察大型動(dòng)物的運(yùn)動(dòng)及繁殖[22]。紅外相機(jī)通過溫差傳感器自動(dòng)拍攝動(dòng)物照片,主要應(yīng)用于陸生獸類。盡管智能監(jiān)測(cè)較人工監(jiān)測(cè)便利許多,但也存在著一些問題,如硬件設(shè)施成本較高,受限于數(shù)據(jù)存儲(chǔ)方式及傳輸速度導(dǎo)致時(shí)間成本大,易受自然環(huán)境影響而造成數(shù)據(jù)傳送、存儲(chǔ)管理、丟失、共享不及時(shí)等[23]。如今,人工智能的出現(xiàn)引發(fā)了動(dòng)物監(jiān)測(cè)與識(shí)別的巨大變革,面對(duì)海量的數(shù)據(jù),信息技術(shù)的發(fā)展趨于將空間數(shù)據(jù)管理轉(zhuǎn)化為分布式存儲(chǔ),并與云端GIS、人工智能等技術(shù)結(jié)合,將成為未來野生動(dòng)物調(diào)查與治理的主要發(fā)展方向。
目前,野生動(dòng)物識(shí)別與分類的方法主要分為2種:一是人眼識(shí)別,雖然相對(duì)準(zhǔn)確,但由于數(shù)據(jù)量極大,人的連續(xù)工作時(shí)間有限,很容易疲勞而產(chǎn)生差錯(cuò),使效率和準(zhǔn)確率降低;二是計(jì)算機(jī)識(shí)別,即以基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)為基礎(chǔ),幫助計(jì)算機(jī)完成對(duì)動(dòng)物的數(shù)據(jù)監(jiān)測(cè)、物種識(shí)別、棲息地觀測(cè)等工作,節(jié)省了大量人力與時(shí)間,具有明顯優(yōu)勢(shì)。
CNN作為一種學(xué)習(xí)效率極高且易于訓(xùn)練的深度學(xué)習(xí)模型,在動(dòng)物識(shí)別中最為常用,并且在不斷進(jìn)步。在CNN基礎(chǔ)之上,人們通過對(duì)卷積層、池化層、全連接層等結(jié)構(gòu)的交替與優(yōu)化,加強(qiáng)對(duì)圖像的特征提取并通過調(diào)整網(wǎng)絡(luò)層數(shù)加強(qiáng)學(xué)習(xí)能力,進(jìn)一步訓(xùn)練提高識(shí)別性能。2014年Chen等[24]研究發(fā)現(xiàn)CNN的學(xué)習(xí)能力明顯優(yōu)于傳統(tǒng)的Bag of visual words(BOW)模型,但通過CNN進(jìn)行野生動(dòng)物物種分類的準(zhǔn)確率僅有38%。2016年,Okafor等[25]在Wild-Anim數(shù)據(jù)集的基礎(chǔ)上,通過減少全連接層中神經(jīng)元的數(shù)量改善CNN架構(gòu),簡(jiǎn)化了識(shí)別流程,并且提高了識(shí)別的效率。Norouzzadeh等[26]在Snapshot Serengeti數(shù)據(jù)集(現(xiàn)存最大的野生動(dòng)物標(biāo)記數(shù)據(jù)集)的基礎(chǔ)上,使用2階段多任務(wù)學(xué)習(xí)的檢測(cè)方式,對(duì)48個(gè)物種進(jìn)行識(shí)別并對(duì)其行為等其他特征進(jìn)行分析,準(zhǔn)確率達(dá)到93.8%以上。Shi等[27]通過構(gòu)建DCNN(Deep Convoluted Neural Network)框架對(duì)40只東北虎個(gè)體進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到93.5%,且較于其他神經(jīng)網(wǎng)絡(luò)大大縮短了運(yùn)行時(shí)間。拉毛杰等[28]基于Darknet-53框架,通過數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)了部分畜牧業(yè)動(dòng)物圖像的識(shí)別,準(zhǔn)確率達(dá)到87.9%。王文成等[29]利用ResNet50網(wǎng)絡(luò)框架對(duì)10種魚類進(jìn)行分類識(shí)別,準(zhǔn)確率達(dá)到93.3%。馬夢(mèng)園[30]利用DCNN網(wǎng)絡(luò)對(duì)70種鱗翅目(Lepidoptera)昆蟲進(jìn)行分類,識(shí)別率達(dá)到了99.8%。Guo等[31]基于Tri-AI技術(shù),對(duì)41種靈長(zhǎng)類動(dòng)物進(jìn)行識(shí)別,準(zhǔn)確率高達(dá)94.1%,該技術(shù)不僅適用于多物種識(shí)別,也可應(yīng)用于夜間數(shù)據(jù)分析。此外,CNN可結(jié)合其他神經(jīng)網(wǎng)絡(luò)架構(gòu),如RNN的LSTM[32]、GAN[33]等,增強(qiáng)特征提取能力,進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高識(shí)別準(zhǔn)確度。以CNN為基礎(chǔ)的動(dòng)物識(shí)別流程見圖2。
圖2 通過CNN進(jìn)行動(dòng)物識(shí)別簡(jiǎn)化流程圖
相對(duì)于靜態(tài)圖像識(shí)別的廣泛應(yīng)用,目前深度學(xué)習(xí)在視頻識(shí)別方面的研究較為欠缺。主要原因?yàn)閳D像識(shí)別、視頻識(shí)別分別處于空間和時(shí)空領(lǐng)域,二者有著很大程度上的不同。視頻中物體通常存在運(yùn)動(dòng)模糊、視頻散焦等問題而導(dǎo)致外觀難以識(shí)別,因此需要層次更深、結(jié)構(gòu)更復(fù)雜的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,以發(fā)掘連續(xù)幀之間觀測(cè)對(duì)象的關(guān)聯(lián),而這些要求導(dǎo)致的巨大計(jì)算量與訓(xùn)練時(shí)間成為難以解決的關(guān)鍵問題。
視頻識(shí)別主要有3種方式:一是利用多張序列融合[34],即利用CNN提取每張圖像特征并輸入到LSTM網(wǎng)絡(luò)中,最后進(jìn)行多分類標(biāo)簽輸出;二是利用雙流架構(gòu)[35],即空間流與時(shí)域運(yùn)動(dòng)流,二者通過多卷積層進(jìn)行分類,最后對(duì)結(jié)果進(jìn)行融合,是目前視頻識(shí)別領(lǐng)域的主流路線;三是利用三維卷積(3D Convolutional Neural Network,3DCNN)的方式[36],需要對(duì)視頻進(jìn)行預(yù)處理,再利用3D的卷積核進(jìn)行特征提取并輸出結(jié)果。
目前,視頻識(shí)別在人體行為識(shí)別、交通、醫(yī)療等方面得到了較為廣泛地應(yīng)用,但在動(dòng)物識(shí)別方面應(yīng)用較少。陳建促[37]通過構(gòu)建包含時(shí)間序列信息的野生動(dòng)物檢測(cè)數(shù)據(jù)集WVDDS(Wildlife Video Detection Datasets)并結(jié)合YOLOv3模型解決了野生動(dòng)物視頻中的遮擋問題。趙凱旋等[38]利用卷積神經(jīng)網(wǎng)絡(luò)精確識(shí)別奶牛個(gè)體,視頻識(shí)別率為93.3%。Nyiringabo[39]利用SSD網(wǎng)絡(luò)(Single Shot Multibox Detector)對(duì)盧旺達(dá)國(guó)家公園的10種動(dòng)物進(jìn)行檢測(cè),精度達(dá)到了82.5%。Ravbar等[40]通過對(duì)蒼蠅視頻進(jìn)行行為識(shí)別,設(shè)計(jì)了一種基于時(shí)空特征的識(shí)別系統(tǒng),可以和CNNs結(jié)合應(yīng)用于其他動(dòng)物視頻識(shí)別中,但仍存在輸入轉(zhuǎn)換(如平移和旋轉(zhuǎn))后的不變性的表達(dá)問題。Schofield等[41]基于CNN對(duì)黑猩猩(Pantroglodytesrerus)進(jìn)行跟蹤監(jiān)測(cè)與識(shí)別,準(zhǔn)確率高達(dá)92.5%,顯示了視頻監(jiān)測(cè)識(shí)別的潛力,但由于其觀測(cè)個(gè)體相對(duì)較少,研究結(jié)果具有一定局限性??梢姡瑢⑸疃葘W(xué)習(xí)應(yīng)用于動(dòng)物視頻識(shí)別仍有很大的發(fā)展空間及應(yīng)用趨勢(shì)。動(dòng)物視頻識(shí)別簡(jiǎn)化流程見圖3。
圖3 動(dòng)物視頻識(shí)別簡(jiǎn)化流程圖
近年來,利用生物聲學(xué)的監(jiān)測(cè)方式也開始在野生動(dòng)物生態(tài)學(xué)中應(yīng)用。人們將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與一系列自動(dòng)記錄裝置結(jié)合,并不斷改進(jìn)分析方法,收集大量的動(dòng)物音頻數(shù)據(jù)進(jìn)行處理,將有效信息提取,從而對(duì)目標(biāo)物種進(jìn)行識(shí)別與檢測(cè)。其原理是將音頻轉(zhuǎn)化為聲譜圖,將圖片識(shí)別算法應(yīng)用于聲音的識(shí)別。Ruff等[42]通過CNN對(duì)5種貓頭鷹(Strigiformes)的叫聲進(jìn)行識(shí)別,節(jié)省了大量時(shí)間與人力,提高了檢測(cè)效率。之后,Ruff等[43]又通過對(duì)系統(tǒng)的進(jìn)一步完善,對(duì)14種鳥類和哺乳類動(dòng)物的音頻片段進(jìn)行檢測(cè),大部分物種的識(shí)別準(zhǔn)確率超過90%,而自動(dòng)檢測(cè)相比手動(dòng)數(shù)據(jù)篩查,減少了近99%的人工工作量。馮郁茜[33]將CNN與LSTM結(jié)合建立雙模態(tài)分類算法,對(duì)鳥鳴聲進(jìn)行特征提取,使鳴聲算法得到進(jìn)一步優(yōu)化,完成了基于鳴聲的物種自動(dòng)分類與數(shù)量統(tǒng)計(jì)工作。
深度學(xué)習(xí)在音頻識(shí)別方面的應(yīng)用雖然在一定程度上解決了如何高效自動(dòng)檢測(cè)目標(biāo)物種的問題,但準(zhǔn)確率仍受物種活躍度及音頻質(zhì)量的影響。此外,對(duì)于自動(dòng)檢測(cè)目標(biāo)物種往往需要大型的聲學(xué)數(shù)據(jù)集,數(shù)據(jù)的收集與處理不僅可能耗費(fèi)大量的時(shí)間,更依賴于計(jì)算機(jī)的性能。如何解決這些問題仍然是人們研究的重點(diǎn)方向,但對(duì)于行跡難以發(fā)現(xiàn)的稀有野生動(dòng)物來說,用相對(duì)較容易獲得的音頻進(jìn)行處理與識(shí)別,不失為監(jiān)測(cè)與保護(hù)的一條新路。
深度學(xué)習(xí)已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域被廣泛應(yīng)用并取得了相當(dāng)顯著的研究成果,但在野生動(dòng)物識(shí)別方面,仍然存在許多難題亟待解決。若針對(duì)以下問題進(jìn)行更深入地探討與研究,有望進(jìn)一步推動(dòng)深度學(xué)習(xí)在動(dòng)物識(shí)別方面的發(fā)展,并加強(qiáng)其在野生動(dòng)物保護(hù)方面的應(yīng)用。
目前,深度學(xué)習(xí)取得的有效成果大部分源于監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)的準(zhǔn)確性往往不如監(jiān)督學(xué)習(xí),但如果想讓人工智能有更進(jìn)一步地發(fā)展,無(wú)監(jiān)督學(xué)習(xí)將起到舉足輕重的作用。在無(wú)監(jiān)督學(xué)習(xí)中,機(jī)器可以自主學(xué)習(xí)沒有人為正確標(biāo)簽的數(shù)據(jù)并進(jìn)行預(yù)測(cè),但所需的巨大的計(jì)算量及深層次的網(wǎng)絡(luò)結(jié)構(gòu)引起欠擬合問題仍有待解決。
一些深度學(xué)習(xí)模型本身存在訓(xùn)練時(shí)間長(zhǎng)、訓(xùn)練難度大、由于存在過多參數(shù)設(shè)計(jì)困難、自身模型過于龐大、樣本利用率低等問題。因此,如何對(duì)參數(shù)進(jìn)行調(diào)整或通過利用不同模型搭建集成模型可以成為解決問題并提高準(zhǔn)確率的方向[25]。除此之外,也可提出全新的算法與設(shè)計(jì),或制造出全新的硬件來配合模型訓(xùn)練,例如Google為Tensorflow設(shè)計(jì)的ASIC芯片TPU取代硬件方面的GPU、Google Deep Mind通過Learning to learn算法[44]調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)使學(xué)習(xí)效率更高等。
數(shù)據(jù)集獲取難易度不同,大部分來源主要為網(wǎng)絡(luò)或人工拍攝整理,由于野生動(dòng)物活動(dòng)隱蔽、位置變動(dòng)快、背景環(huán)境復(fù)雜等客觀原因,可獲取的完整數(shù)據(jù)集較少。若受到光照、氣候條件、捕捉角度、個(gè)體姿態(tài)、部分或完全遮擋等影響,也將造成數(shù)據(jù)質(zhì)量參差不齊,這需要人工或計(jì)算機(jī)進(jìn)行后續(xù)處理,此過程需要大量的時(shí)間和成本,處理的完成度與后續(xù)訓(xùn)練和識(shí)別等工作的順利展開有重要聯(lián)系。同時(shí),訓(xùn)練結(jié)果也受限于數(shù)據(jù)的數(shù)量及質(zhì)量,如果物種數(shù)據(jù)來源不夠廣泛且不具有代表性,訓(xùn)練和測(cè)試的準(zhǔn)確率可能較低。數(shù)據(jù)量與復(fù)雜度的增加也會(huì)對(duì)識(shí)別過程造成一定影響,需要根據(jù)需求改善或改變網(wǎng)絡(luò)參數(shù)與結(jié)構(gòu),因此對(duì)硬件環(huán)境的要求較高,需要更多的資金投入。
針對(duì)于動(dòng)物數(shù)據(jù)集的數(shù)量與質(zhì)量問題,有3種解決方案:一是對(duì)深度學(xué)習(xí)框架性能的提升,包括對(duì)網(wǎng)絡(luò)架構(gòu)的優(yōu)化、識(shí)別速度的提高、識(shí)別準(zhǔn)確度的強(qiáng)化等。目前的識(shí)別學(xué)習(xí)網(wǎng)絡(luò)需要以大量的樣本數(shù)據(jù)為依托進(jìn)行訓(xùn)練,而野生動(dòng)物的數(shù)據(jù)資料往往比較匱乏,因此對(duì)小樣本數(shù)據(jù)進(jìn)行訓(xùn)練并有效識(shí)別可能成為未來的研究方向之一;二是通過數(shù)據(jù)增強(qiáng),例如旋轉(zhuǎn)、翻轉(zhuǎn)、移位、裁剪等增強(qiáng)技術(shù),在無(wú)法獲得更多數(shù)據(jù)的情況下獲得更多的參數(shù),提升學(xué)習(xí)網(wǎng)絡(luò)的性能;三是加強(qiáng)對(duì)野生動(dòng)物資源調(diào)查與評(píng)估的投入,需要大量的資料收集和錄入工作來充實(shí)野生動(dòng)物數(shù)據(jù)庫(kù)中的信息資料。
獲得大批量準(zhǔn)確的帶標(biāo)簽數(shù)據(jù)往往需要耗費(fèi)大量的人力物力財(cái)力,因此如何減少訓(xùn)練所需標(biāo)簽的數(shù)量也成為研究的一個(gè)新方向。He等[45]曾提出對(duì)偶學(xué)習(xí)范式減少訓(xùn)練對(duì)帶標(biāo)簽數(shù)據(jù)的依賴,這對(duì)于標(biāo)記數(shù)據(jù)難以收集的珍稀物種的識(shí)別將會(huì)更為有利。
將深度學(xué)習(xí)與其他技術(shù)結(jié)合,應(yīng)用于野生動(dòng)物識(shí)別與調(diào)查。例如,微軟的AI for Earth項(xiàng)目利用CNN網(wǎng)絡(luò)結(jié)合OpenCV和Caffe框架對(duì)物種識(shí)別分類及監(jiān)測(cè)種群狀況,并使用DNA采樣和GPS項(xiàng)圈跟蹤物種以了解總體種群數(shù)量與其棲息地的關(guān)系。此外還有以下幾種思路:一是直接將衛(wèi)星遙感與深度學(xué)習(xí)結(jié)合進(jìn)行物種識(shí)別。目前比較成功的例子是Yang等[46]利用衛(wèi)星圖像在神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上對(duì)牛羚(Budorcastaxicolor)、布氏斑馬(Equusburchelli)進(jìn)行了自動(dòng)識(shí)別,Sergio等[47]也發(fā)現(xiàn)GPS與衛(wèi)星數(shù)據(jù)在瀕危物種保護(hù)與管理的應(yīng)用不斷增多,人們可以通過這些數(shù)據(jù)對(duì)物種死亡率進(jìn)行調(diào)查并評(píng)估潛在死亡風(fēng)險(xiǎn),甚至可以遠(yuǎn)程追蹤威脅野生動(dòng)物的非法活動(dòng)。二是將GIS空間分析與深度學(xué)習(xí)結(jié)合進(jìn)行分類并評(píng)估。三是基于深度學(xué)習(xí)的無(wú)人機(jī)檢測(cè)方法[48],可以高效地識(shí)別定位目標(biāo)、獲取地物信息。例如,Eikelboom等[49]通過無(wú)人機(jī)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合搭建的半自動(dòng)檢測(cè)方法對(duì)肯尼亞大草原的非洲象(Loxodontaafricana)、長(zhǎng)頸鹿(Giraffacamelopardalis)、平原斑馬(Equusquagga)等物種進(jìn)行檢測(cè),發(fā)現(xiàn)空中觀測(cè)與人工觀測(cè)相比,不僅在效率上有很大提升,其受到飛行速度、物種群體規(guī)模、觀察者狀態(tài)等干擾因素影響極小,精確度會(huì)有所提高。這些方法雖然還在完善之中,但都有望成為對(duì)野生動(dòng)物進(jìn)行監(jiān)測(cè)與保護(hù)的有力技術(shù)支撐。
人工智能的應(yīng)用領(lǐng)域在不斷擴(kuò)大,基于深度學(xué)習(xí)的識(shí)別算法也在不斷進(jìn)步,這個(gè)趨勢(shì)已成為發(fā)展的必然。深度學(xué)習(xí)是一個(gè)十分抽象的領(lǐng)域,但它卻有著不可小覷的上升潛力。研究表明,將人工智能應(yīng)用于動(dòng)物數(shù)據(jù)分析與評(píng)估在國(guó)內(nèi)外均已略顯成效,但在動(dòng)物視頻、音頻識(shí)別方面仍有較大的局限性。相信在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的推動(dòng)下,人工智能將更廣泛地應(yīng)用于野生動(dòng)物資源的監(jiān)測(cè)與識(shí)別,并通過對(duì)野生動(dòng)物的動(dòng)態(tài)變化與棲息地的觀測(cè),對(duì)其生存狀態(tài)做出更完善地評(píng)估,輔助野生動(dòng)物保護(hù)機(jī)構(gòu)更好地進(jìn)行有針對(duì)性的研究與保護(hù)工作,為維護(hù)自然生態(tài)平衡貢獻(xiàn)新的力量。