段淑斐,張雪英,ZHANG Jinglan
(1.太原理工大學(xué) 信息工程學(xué)院,太原 030024;2.昆士蘭科技大學(xué) 工程學(xué)院,澳大利亞 布里斯班4096)
?
通用型自動物種識別算法的對比研究
段淑斐1,張雪英1,ZHANG Jinglan2
(1.太原理工大學(xué) 信息工程學(xué)院,太原 030024;2.昆士蘭科技大學(xué) 工程學(xué)院,澳大利亞 布里斯班4096)
在大數(shù)據(jù)時代,通用型自動物種識別算法的研究對于算法的共享性及可擴(kuò)展性至關(guān)重要。Raven和Song Scope作為通用型自動識別算法的先驅(qū),雖然被廣泛使用,但是沒有采用實時現(xiàn)場監(jiān)測數(shù)據(jù)進(jìn)行深入的對比研究。在細(xì)致挖掘Raven和Song Scope設(shè)計原理的基礎(chǔ)上,提出時間概率自動機(jī)TPA(Timed and Probabilistic Automata),并對Raven、Song Scope和TPA進(jìn)行了實驗對比研究。結(jié)果表明,與Raven和Song Scope相比,TPA的平均準(zhǔn)確率、回溯率及精確度均提高了大約20% .
自動物種識別;時間概率自動機(jī);聲音識別
動物叫聲的檢測與監(jiān)測可用于分析物種多樣性、豐富性,對于環(huán)境保護(hù)來說至關(guān)重要;同時,不同生態(tài)環(huán)境下的動物叫聲狀態(tài)也可作為評判整體環(huán)境健康與否的指標(biāo)[1]。人工分析對于識別單一物種是有效的,但是無法處理大時空尺度中的數(shù)據(jù)集?;诓煌夹g(shù)開發(fā)的自動物種識別軟件對生態(tài)學(xué)研究起著重要的輔助作用,通過減少處理時間來提高效率,極大地促進(jìn)了對野生環(huán)境的監(jiān)測工作,在處理大數(shù)據(jù)時尤其如此。
多數(shù)自動物種識別算法主要是為特定項目服務(wù),即,算法是為特定物種或個體而設(shè)計的。這樣的算法可以高效、快速且相對精確地定位特定物種,但卻很難用于其他物種的識別中。這種模式的自動物種識別算法耗時耗力、成本昂貴,而且可擴(kuò)展性差[2]。因此,在自動物種識別領(lǐng)域中,亟需研究通用型的識別算法。
目前國際上已有一些通用型的識別算法,多數(shù)已以軟件形式商業(yè)化,其中被廣泛認(rèn)可并使用的有:Raven[3]、Song Scope[4]及Avisoft-SASLab Pro。盡管這些軟件對動物叫聲自動識別結(jié)果的可靠性還遠(yuǎn)遠(yuǎn)沒有達(dá)到可以脫離生態(tài)學(xué)家仔細(xì)驗證的程度,然而在一定誤差率的允許范圍內(nèi),它們因處理數(shù)據(jù)的快速性及便捷性被廣泛應(yīng)用于聲音錄制文件的物種識別分類[5-9]。迄今為止,尚未見到對這些軟件進(jìn)行對比研究的報道,特別是它們對實時現(xiàn)場監(jiān)測數(shù)據(jù)處理表現(xiàn)還沒有被挖掘。
筆者旨在對自動物種識別領(lǐng)域中的先進(jìn)軟件Raven和Song Scope進(jìn)行技術(shù)性分析和功能性研究。在此基礎(chǔ)上,提出時間概率自動機(jī)(Timed and Probabilistic Automata, TPA),并將此三者用于實時現(xiàn)場監(jiān)測數(shù)據(jù),對識別結(jié)果進(jìn)行對比分析。
許多動物叫聲具有分層結(jié)構(gòu)。典型的鳥叫結(jié)構(gòu)層次類似于人類語言,由低到高可分為元素、音節(jié)及叫聲[10]。其中,元素是音節(jié)的原子成分,音節(jié)是構(gòu)成叫聲結(jié)構(gòu)的基本組成部分,復(fù)雜的叫聲可以由一種或幾種不同的音節(jié)構(gòu)成。
盡管動物叫聲因地域、季節(jié)、時間或其他因素的影響而不同,然而它們的叫聲結(jié)構(gòu)有一些共有音節(jié)。這些音節(jié)對于動物叫聲的句法分析至關(guān)重要,因此一些學(xué)者嘗試給這些共有音節(jié)進(jìn)行定義。McCallum從鳥類聲音的發(fā)音學(xué)角度出發(fā)進(jìn)行定義[11];Brandes著眼于聲音的自動分析,根據(jù)聲音在時頻譜圖中的離散圖像形狀[12]進(jìn)行定義。仔細(xì)研究這兩種不同的定義方式發(fā)現(xiàn),盡管兩種定義中所用的名詞不同,但所描述的聲學(xué)形狀在時頻譜圖中完全一致,兩種定義方式在一定程度上互相重復(fù)。
鑒于此,在自動物種識別中,為了清晰定義并概括更多的共有音節(jié)、建立通用的動物叫聲音節(jié)庫,筆者結(jié)合McCallum和Brandes的研究,根據(jù)時頻譜圖中音節(jié)的形狀,定義了7種不同的音節(jié)[13],音節(jié)名詞的選用延續(xù)McCallum的定義。圖1所示為動物叫聲音節(jié)定義及代表性物種,此處所列物種均來自澳大利亞昆士蘭州。
圖1 聲學(xué)元素在時頻譜圖中的形狀及代表物種(物種均來自澳大利亞昆士蘭州)Fig.1 Acoustic components in spectrogram and representative species (species come from Queensland, Australia)
2.1 Raven軟件
Raven是由康奈爾鳥類實驗室研發(fā)出品的軟件,主要用于聲音的獲取、可視、測量與分析[3]。Raven可以將聲音文件以波形和時頻譜圖(灰度圖)兩種方式呈現(xiàn),允許用戶使用內(nèi)置的分析工具。軟件專為鳥類叫聲分析設(shè)計,內(nèi)置帶通濾波器執(zhí)行手動或半自動元素分割。Raven的界面直觀且易操作,其聲音播放及片段剪切模塊功能非常強(qiáng)大。使用片段剪切,用戶可以專注于特定聲音片段及頻帶。同時,Raven有兩個檢測器用于目標(biāo)檢測:限定頻帶的能量檢測器和幅值檢測器。限定頻帶的能量檢測器基于時頻譜圖,以信號的背景噪聲估計為基準(zhǔn),將其與特定時間、特定頻帶的信噪比(SNR)閾值進(jìn)行比較;如果超出SNR閾值,則輸出信號。幅值檢測器基于信號波形,檢測波形包絡(luò)的幅值大小;如果超出一定閾值,則輸出信號。對于自動物種識別,幅值檢測器在時域波形圖上進(jìn)行檢測,無法有效區(qū)分重疊聲音信號,因此本文不對幅值檢測器進(jìn)行研究。
限定頻帶的能量檢測器采用SNR為特征參數(shù),主要功能是檢測特定時間、頻帶內(nèi)的聲音片段。聲音片段內(nèi)部的信號既可以是音節(jié),也可以是叫聲結(jié)構(gòu)。Raven不對聲音片段內(nèi)部的信號進(jìn)行形狀及結(jié)構(gòu)分析。因此,在叫聲結(jié)構(gòu)的檢測中,由于 Raven忽略音節(jié)的形狀特征及音節(jié)之間的關(guān)聯(lián)結(jié)構(gòu)信息,其檢測精度偏低。
2.2 Song Scope軟件
Song Scope軟件是由Wildlife Acoustics研發(fā)出品[4]的一款復(fù)雜的數(shù)字信號處理軟件,旨在對野外錄制的音頻文件進(jìn)行快速、簡單的掃描,通過聲音自動識別特定鳥類或其他物種。
較之于Raven的音頻分析功能,Song Scope沒有錄制和回放功能。此外,Song Scope要求按軟件自身要求準(zhǔn)備標(biāo)注訓(xùn)練文件,否則用戶不能播放指定時間、頻帶的音頻。Song Scope的界面也是以波形圖和時頻譜圖為主,用戶界面簡潔,時頻譜圖采用彩色圖形顯示。然而,根據(jù)1996年IBM的研究,相較于灰度圖像,彩色圖像顯示可能潛在影響用戶的感知和對數(shù)據(jù)的解釋[14]。
與Raven不同, Song Scope旨在檢測叫聲結(jié)構(gòu),采用梅爾倒譜系數(shù)(MFCC)與隱馬爾科夫模型(HMM)對聲音進(jìn)行分類。在語音識別中,這種方法已經(jīng)被證明非常有效[15]。Song Scope首先對音節(jié)進(jìn)行分割,然后對音節(jié)進(jìn)行聚類,進(jìn)而形成叫聲結(jié)構(gòu)。然而,由于HMM對參與建模的元素純凈度要求非常高,這種方法對音節(jié)的純凈度非常敏感。如果音節(jié)被非目標(biāo)物種或背景噪聲污染,通過HMM建立的模型就會非常敏感,從而影響識別精度。
3.1 TPA與Raven,Song Scope原理分析與比較
多數(shù)分類工作,特別是鳥類叫聲分類,是對物種內(nèi)的叫聲音節(jié)進(jìn)行模式匹配。當(dāng)兩種叫聲結(jié)構(gòu)擁有相似的頻譜和時間信息時,忽視叫聲結(jié)構(gòu)內(nèi)音節(jié)的關(guān)系信息會導(dǎo)致錯誤分類,因此,音節(jié)的形狀及音節(jié)之間的關(guān)聯(lián)信息對于叫聲結(jié)構(gòu)的精確建模至關(guān)重要。
Raven的限定頻帶能量檢測器可用來檢測音節(jié)及叫聲結(jié)構(gòu),但由于其使用的特征是基于背景噪聲的SNR,對結(jié)構(gòu)內(nèi)部的音節(jié)形狀和音節(jié)之間的關(guān)聯(lián)信息沒有跟蹤識別。
Song Scope在設(shè)計算法時,充分考慮叫聲結(jié)構(gòu)內(nèi)部的音節(jié)關(guān)聯(lián)性,使用HMM對叫聲結(jié)構(gòu)進(jìn)行建模。然而,Song Scope僅使用MFCC作為唯一參數(shù)對所有類型的音節(jié)進(jìn)行表征。對于多樣化的音節(jié)信號,單一參數(shù)表征會降低聚類精確性。HMM是典型的狀態(tài)集合,每個狀態(tài)以頻譜特征的高斯混合形式來表征頻率特性,而時間特性通過狀態(tài)轉(zhuǎn)移概率表征,整個過程是全自動的。但是,訓(xùn)練HMM需要大量數(shù)據(jù),并且生成的模型對狀態(tài)轉(zhuǎn)移概率是動態(tài)的。綜上,Song Scope立足于對叫聲結(jié)構(gòu)的音節(jié)關(guān)聯(lián)信息建模,但僅基于單一參數(shù)MFCC對所有類型的音節(jié)進(jìn)行特征表征。
時間概率自動機(jī)(TPA)著眼于通用型自動物種識別算法,將識別工作分為兩部分:聲學(xué)音節(jié)檢測和物種識別。這種算法使用不同的特征參數(shù)對不同類型的音節(jié)進(jìn)行表征,然后使用概率自動機(jī)對音節(jié)之間的關(guān)聯(lián)信息進(jìn)行建模。TPA打破了單一特征用于所有檢測目標(biāo)(one-feature-fits-all)的局面,使用多重統(tǒng)計特征對多樣化的音節(jié)進(jìn)行檢測,然后使用這些聲學(xué)音節(jié)作為高層次的特征參數(shù)以構(gòu)建TPA模型。
3.2 TPA算法設(shè)計
TPA算法的整體框圖見圖2。整個系統(tǒng)包含兩個過程:訓(xùn)練和識別。其中,訓(xùn)練是半自動的,通過以下處理為叫聲結(jié)構(gòu)識別進(jìn)行參數(shù)配置:
1) 包含目標(biāo)叫聲結(jié)構(gòu)的時頻譜圖由聲學(xué)音節(jié)檢測器處理,檢測出一組與目標(biāo)叫聲結(jié)構(gòu)相關(guān)的音節(jié)。
2) 所有音節(jié)被分組,計算每組音節(jié)參數(shù)的均值和標(biāo)準(zhǔn)差。
3) 基于上一步中的音節(jié)參數(shù)組,使用時間自動機(jī)對音節(jié)間的gap建模。
4) 定義簡化的有限概率自動機(jī),最終用來計算檢測到的音節(jié)序列是否與目標(biāo)叫聲結(jié)構(gòu)匹配。
訓(xùn)練過程結(jié)束后,識別過程是全自動的:
1) 使用音節(jié)檢測器處理時頻譜圖,找出與目標(biāo)叫聲結(jié)構(gòu)相關(guān)的所有類型音節(jié)。
2) 任何不屬于訓(xùn)練過程定義音節(jié)組的音節(jié)全部濾掉。
3) 對保留的音節(jié)使用概率自動機(jī),以識別叫聲結(jié)構(gòu),完成識別工作。
圖2 系統(tǒng)框圖Fig.2 System schematic
為了更加準(zhǔn)確形象地闡述TPA算法設(shè)計,本文以Eastern Whipbird1的叫聲結(jié)構(gòu)為例,對TPA算法思想進(jìn)行說明。Eastern Whipbird1的叫聲結(jié)構(gòu)包含一個whistle和一個click。這對于闡述由不同的聲學(xué)音節(jié)組合而成的復(fù)雜的叫聲結(jié)構(gòu)是很好的例子。TPA狀態(tài)轉(zhuǎn)移圖如圖3所示。
圖3 Eastern Whipbird1的TPA模型Fig.3 The TPA model of Eastern Whipbird 1
whipbird 1叫聲結(jié)構(gòu)的概率由whistle、click及兩者中間的短暫靜默片段gap的概率共同決定,見式(1):
P(whipbird)=P(whistle)P(gap)P(click).
(1)
首先,從前期開發(fā)的聲學(xué)音節(jié)檢測工具箱[13]調(diào)用whistle和click detector檢測whistle和click,輸出為音節(jié)參數(shù)組(s,t,d,l,h)。其中,s代表元件形狀;t代表起始時間;d表示音節(jié)持續(xù)時間;l表示音節(jié)占用的最低頻率;h表示音節(jié)占用的最高頻率。使用輸出音節(jié)參數(shù)對whistle、click和gap(whistle與click之間的短暫靜默片段)進(jìn)行建模。建模之后,應(yīng)用TPA如下。
Step1:whistle篩選?;跉w一化距離Z-score計算每個測試whistle的概率。Z-score由測試樣本集與訓(xùn)練樣本集的均值和標(biāo)準(zhǔn)差計算得到。將測試得到的概率值與訓(xùn)練樣本的概率值進(jìn)行比較。如果測試概率落入訓(xùn)練集的概率范圍,則記為一個確定化的whipbird whistle,得到P(whistle)。濾掉其余無關(guān)的whistle。
Step2: click篩選。與step1一致,得到whipbird click,P(click)。
Step3:gap篩選?;跉w一化距離Z-score計算whipbird whistle與click之間gap的概率。將概率值與訓(xùn)練樣本的概率值進(jìn)行比較。如果測試概率值在訓(xùn)練概率值的最大值與最小值之間,則確定為whipbird的gap,得到P(gap)。根據(jù)這個確定的gap值,一對whistle和click隨之確定,得到P(whipbird)。移除其余無關(guān)的whistle和click。
Step4:框選whipbird叫聲。根據(jù)step1中元件檢測器輸出的參數(shù)組及step3中確定保留的成對whistle和click,確定whipbird叫聲的起始時間與結(jié)束時間、最高頻帶及最低頻帶,采用畫圖函數(shù)框選出whipbird叫聲結(jié)構(gòu)。
圖4是使用TPA算法檢測Eastern Whipbird1叫聲結(jié)構(gòu)的分步檢測輸出圖。圖4-a是Eastern Whipbird1的叫聲結(jié)構(gòu)圖;圖4-b中,紅色框是檢測輸出的whistle信號;圖4-c中,紅線表示檢測輸出的click信號;圖4-d中,紅色框是最終輸出的whipbird1叫聲。這些結(jié)果都顯示在去噪之后的黑白二值時頻譜圖上。
圖4 使用TPA識別Eastern Whipbird1Fig.4 Recognition result of Eastern Whipbird1 by TPA
本次實驗針對通用型自動物種識別算法的對比研究,使用Raven軟件的限定頻帶能量檢測器(以下簡稱Raven)、Song Scope軟件及TPA算法,分別對實驗數(shù)據(jù)中選取的物種設(shè)計識別器進(jìn)行分類識別,并對各個識別器使用混淆矩陣分析,以檢測各個識別器的魯棒性。
4.1 實驗數(shù)據(jù)
實驗采用的數(shù)據(jù)是從澳大利亞昆士蘭科技大學(xué)購買的Samford Valley實時監(jiān)控數(shù)據(jù)。本次實驗采用黎明合唱期(4.00 am—9.00 am)作為測試時間段,測試樣本及訓(xùn)練樣本都從該時期選取。這是由于黎明合唱期的鳥類叫聲數(shù)量多且雜亂,即使是鳥類專家也很難分辨,而自動分析工具可以幫助鳥類專家在精確度可接受的范圍內(nèi)高效識別感興趣的物種。因此,選擇這個時段可以更為準(zhǔn)確有效地測試自動識別算法在高強(qiáng)度噪聲背景下的識別率。
實驗數(shù)據(jù)集采用2010年10月13日—15日的聲音記錄文件。這3 d的聲音文件已經(jīng)被鳥類專家全部標(biāo)記,可作為真值文件驗證Song Scope、Raven及TPA算法。根據(jù)真值文件,在2010年10月14日黎明合唱期間,有46個物種發(fā)聲,形成94種叫聲結(jié)構(gòu)。由于TPA的算法設(shè)計限制(叫聲結(jié)構(gòu)必須含預(yù)定義的音節(jié)類型),實驗從中選取27種可用叫聲結(jié)構(gòu)。這27種叫聲結(jié)構(gòu)又根據(jù)音節(jié)類型劃分為7組。每組選取1種有代表性的叫聲結(jié)構(gòu)進(jìn)行識別對比研究,具體見表1。實驗選用10月14日的數(shù)據(jù)為測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)從10月13日及15日選取。
表1 選取的7種代表性叫聲結(jié)構(gòu)
4.2 實驗結(jié)果與分析
表2-4分別是依據(jù)Raven、Song Scope和TPA三種通用識別算法設(shè)計的不同識別器的混淆矩陣結(jié)
表2 Raven識別器的混淆矩陣
果。其中,數(shù)字1—7表示7組物種;括號里面的數(shù)字表示物種的實際真值數(shù)字;括號外面的數(shù)字表示識別的數(shù)字;假正信號表示識別器檢測到的非真信號。由表2可見,基于Raven建立的識別器對于7種物種的識別率相對較低,特別是5號識別器(Indian Peafowl)的識別率為0。7號物種Lewin’s Honeyeater1對2—6號識別器都造成了影響,產(chǎn)生了大量的混淆輸出。這主要是因為Honeyeater1的叫聲結(jié)構(gòu)是時間上緊密重復(fù)的click諧振,在信號占用頻帶中心,能量高度集中;而Raven使用的是限定頻帶的能量檢測器,特征參數(shù)是基于背景噪聲能量的SNR。Raven使用單一特征參數(shù)的同時忽略叫聲結(jié)構(gòu)內(nèi)部音節(jié)關(guān)系,導(dǎo)致大量的混淆輸出及假正信號,識別器魯棒性很低。
與Raven不同的是,Song Scope雖然也使用單一特征參數(shù)MFCC,但是其設(shè)計充分考慮叫聲結(jié)構(gòu)中音節(jié)之間的關(guān)聯(lián)信息。這對識別工作極有助益。表3中,相較于 Raven,Song Scope識別器之間的混淆輸出及假正信號大大減少。然而,單一的特征參數(shù)不能很好地表征各類音節(jié)。同時,HMM模型對于音節(jié)純度要求高。而實驗采用黎明合唱期5 h的數(shù)據(jù),有大量物種同時發(fā)聲,非目標(biāo)物種的數(shù)量遠(yuǎn)遠(yuǎn)超過目標(biāo)物種;在高強(qiáng)度噪聲的背景下,假正信號及識別器之間的混淆輸出仍然很高。
表3 Song Scope識別器的混淆矩陣
表4 TPA識別器的混淆矩陣
表4說明,基于TPA算法設(shè)計的識別器對于7種物種的識別結(jié)果良好,不同識別器之間的混淆輸出低。其中,3號識別器(Brown Cuckoo-dove1)的識別率最高,幾乎沒有與其他識別器產(chǎn)生混淆;這是因為,Cuckoo叫聲占用頻帶比較低,一般在500 Hz,在頻帶上不與其他物種混疊。而2號識別器(Eastern Yellow Robin2)與7號物種Lewin’s Honeyeater1產(chǎn)生了比較大的混淆輸出;原因是,Robin2與Honeyeater1的叫聲在頻帶上進(jìn)行了混疊,同時,這兩種叫聲結(jié)構(gòu)都具有時間上諧振的特性。相較于Raven和Song Scope, TPA假正信號輸出比較低。
Raven、Song Scope及TPA的整體檢測結(jié)果見表5。與Raven、Song Scope相比,TPA在平均準(zhǔn)確率、回溯率及精確度上都提高了大約20%。Raven表現(xiàn)最差,Song Scope表現(xiàn)居中。
表5 識別統(tǒng)計結(jié)果
通用型自動物種識別算法在環(huán)境監(jiān)測中發(fā)揮著越來越重要的作用。Raven和Song Scope兩種通用型軟件雖然被廣泛使用,但是沒有采用實時現(xiàn)場監(jiān)測數(shù)據(jù)進(jìn)行深入的對比研究。本文在細(xì)致挖掘Raven和Song Scope設(shè)計原理的基礎(chǔ)上,提出時間概率自動機(jī)TPA,并對三者進(jìn)行了實驗對比。
Raven的限定頻帶能量檢測器只考慮錄音片段的信噪比(SNR),片段內(nèi)部聲音元件的形狀及關(guān)系信息被忽略。Song Scope考慮了聲音元件之間的關(guān)系信息,但是僅使用MFCC表征所有類型的聲學(xué)元件。相較于TPA系統(tǒng),Raven和Song Scope會導(dǎo)致假正信號的高輸出。TPA系統(tǒng)不僅使用不同的特征表征元件形狀,同時使用句法模型建立聲學(xué)元件之間的關(guān)系。簡化的概率自動機(jī)基于訓(xùn)練模型的先驗知識,將狀態(tài)轉(zhuǎn)移概率設(shè)置為“1”。與使用HMM算法自動生成的模型比較,狀態(tài)轉(zhuǎn)移概率簡化可以大大縮小訓(xùn)練集的數(shù)量,這種設(shè)計方式可以在很大程度上提高識別率。然而,TPA算法的局限性在于,它只適用于包含預(yù)定義聲學(xué)音節(jié)的叫聲結(jié)構(gòu)。從這個角度來講,TPA的應(yīng)用范圍比Song Scope的要小。
在今后的工作中,預(yù)定義音節(jié)的種類還需要進(jìn)行可持續(xù)擴(kuò)充,相應(yīng)的檢測算法還需要進(jìn)一步設(shè)計。同時,TPA算法的噪聲魯棒性還有待進(jìn)一步提高。
[1] TOWSEY M,PLANITZ B,NANTES A,et al.A toolbox for animal call recognition[J]. Bioacoustics,2012, 21(2):1-19.
[2] BERWICK R C,OKANOYA K,BECKERS G J L,et al.Songs to syntax:the linguistics of birdsong[J].Trends in Cognitive Sciences,2011,15(3):113-121.
[3] CHARIF R A,STRICKMAN L M,WAACK A M.Raven Pro 1.4 User's Manual. The Cornell Lab of Ornithology, NY.[EB/OL].[2013-12-24].http:∥www.birds.cornell.edu/brp/raven/RavenDocumentation.html.
[4] Song Scope 4.0 User’s Manual,2011.Wildlife Acoustics,Inc,USA.[EB/OL].[2013-12-25].http:∥www.wildlifeacoustics.com/images/do-cumentation/Song-Scope-Users-Manual.pdf.
[5] VENIER L A,HOLMES B S,HOLBORN W G,et al.Evaluation of an automated recording device for monitoring forest birds[J].Wildlife Society Bulletin,2012,36(1):30-39.
[6] DEPRAETERE M,PAVOINE S,JIGUETB F,et al.Monitoring animal diversity using acoustic indices:implementation in a temperate woodland[J].Ecological Indicators,2012,13(1):46-54.
[7] 萬鵬威.基于鳥鳴聲的移動式鳥類識別系統(tǒng)研究[D].杭州:中國計量學(xué)院,2014.
[8] 王恩澤.基于鳴聲的鳥類智能識別方法研究[D].楊凌:西北農(nóng)林科技大學(xué),2014.
[9] CROTHERS L,GERING E,CUMMINGS M.Aposematic signal variation predicts male-male interactions in a polymorphic poison frog[J].Evolution,2011,65(2):599-605.
[10] SOMERVUO P,HARMA A,FAGERLUND S.Parametric representations of bird sounds for automatic species recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(6):2252-2263.
[11] MCCALLUM A.Birding by ear,visually[J].Birding,2010,42:50-63.
[12] BRANDES T S.Automated sound recording and analysis techniques for bird surveys and conservation[J].Bird Conservation International,2008,18:163-173.
[13] DUAN S,TOWSEY M,ZHANG J,et al.Acoustic component detection for automatic species recognition in environmental monitoring[C]∥The Seventh International Conference in Intelligent Sensors, Sensor Networks and Information Processing (ISSNIP),2011.
[14] ROGOWITZ B E,TREINISH L A,BRYSON S. How not to lie with visualization[J].Comput Phys,1996,10(3):268-273.
[15] GROβE RUSE M,HASSELQUIST D,HANSSON B,et al.Automated analysis of song structure in complex birdsongs[J].Animal Behaviour,2016,112:39-51.
(編輯:張紅霞)
A Comparative Study about Generic Automated Species Recognition Algorithms
DUAN Shufei1,ZHANG Xueying1,ZHANG Jinglan2
(1.CollegeofInformationEngineering,TaiyuanUniversityofTechnology,Taiyuan030024,China; 2.FacultyofEngineering,QueenslandUniversityofTechnology,Brisbane4096,Australia)
Generic automated species recognition algorithms are critical in the era of big data processing for sharing and scaling. As pioneers, though Raven and Song Scope have been widely used for years, they have not been fully tested and compared on the real world data. On the basis of careful excavation of Raven and Song Scope, this paper proposes a generalized automated species recognition algorithm, timed and probabilistic automata. A comparative study of these three algorithms is conducted upon experiments.Results illustrate that in the average precision, recall and accuracy, TPA is outperformed Raven and Song Scope by approximately 20%.
automated species recognition;timed and probabilistic automata;sound recognition
1007-9432(2016)03-0342-06
2016-01-08
國家自然科學(xué)基金資助項目:基于認(rèn)知機(jī)理的情感語音識別基礎(chǔ)研究(61371193);太原理工大學(xué)第四層次引進(jìn)人才科研啟動基金項目(tyut-rc201405b);太原理工大學(xué)校青年基金項目(2014QN016)
段淑斐(1983-),女,山西清徐人,博士,講師,主要從事聲音信號處理及動物聲音識別研究,(E-mail)15834154405@163.com
張雪英,女,博士,教授,博導(dǎo),主要從事聲音信號處理及語音信號處理研究, (E-mail)zhangxy@tyut.edu.cn
TN912.3
A
10.16355/j.cnki.issn1007-9432tyut.2016.03.013