蔣錦剛,邵小云,萬海波,*,齊家國,2,荊長偉,程天佑
1 浙江大學, 海洋學院, 杭州 310058 2 密歇根州立大學, 全球變化與對地觀測研究中心, 東蘭辛市 48823
基于語譜圖特征信息分割提取的聲景觀中鳥類生物多樣性分析
蔣錦剛1,邵小云1,萬海波1,*,齊家國1,2,荊長偉1,程天佑1
1 浙江大學, 海洋學院, 杭州 310058 2 密歇根州立大學, 全球變化與對地觀測研究中心, 東蘭辛市 48823
聲學手段是監(jiān)測和研究生態(tài)系統(tǒng)生物活動規(guī)律、評價生態(tài)系統(tǒng)健康狀況的一種新方法,聲景觀生態(tài)學也是景觀生態(tài)學的一個新興研究領域。聲景指數(shù)是描述復雜的音頻數(shù)據(jù)生態(tài)學特征的有效方法,但是,單一的聲景指數(shù)并不能有效的指示物種的真實豐度。在充分挖掘音頻文件時頻結(jié)構(gòu)特征的基礎上,將遙感領域常用的面向?qū)ο髨D像分割技術(shù)引入語譜圖分割,并提出了適合于自然界鳥類生物多樣性提取的知識規(guī)則和斑塊統(tǒng)計分析方法。研究實驗在杭州植物園的不同區(qū)域布點采集音頻數(shù)據(jù),研究結(jié)果表明:鳥類的多樣性與地物景觀類型和人類活動影響程度密切相關,鳥類叫聲的中心頻率集中分布在2.5—4.5kHz之間,最低頻率分布在0.67—2.1kHz之間,最高頻率分布在7.6—8.9kHz之間,人類活動較多的區(qū)域,鳥類活動較少且叫聲更短促。此外,該方法提取的斑塊面積周長比參數(shù),可以定量的反映鳥類叫聲的婉轉(zhuǎn)程度。
聲景觀生態(tài)學;音頻文件;傅立葉變換;語譜圖;鳥類多樣性
聲景是指自然景觀中所有聲音的綜合,聲景觀生態(tài)學是景觀生態(tài)學的一個新興研究領域,可以為景觀生態(tài)的綜合特征提供重要的參考信息,同時也是生態(tài)健康的重要指示因子[1]。聲景觀生態(tài)學研究的主要內(nèi)容是研究不同時空尺度下,自然聲響、人類聲響、生態(tài)環(huán)境聲響的耦合與表現(xiàn)特征[2],并從聲音的組成、時空分布、時間變化特征來揭示生態(tài)環(huán)境的多維格局和變化過程。20世紀60年代晚期,加拿大的R. Murray Schafer創(chuàng)立了一個以教育和科研為目的的“世界聲景計劃(World Soundscape Project,WSP)”團隊,首次提出聲景觀生態(tài)學的概念,倡導人類與聲環(huán)境的和諧, 推廣環(huán)境聲音景觀和噪音污染方面的知識[3]。傳統(tǒng)的聲景觀研究與聲景觀生態(tài)學研究存在較大的差異,傳統(tǒng)的聲景觀研究是從生活噪聲、環(huán)境心理學和景觀規(guī)劃的角度為噪聲控制、城市規(guī)劃和建筑設計服務[4- 5]。聲景觀生態(tài)學研究主要從“人類-自然”生態(tài)系統(tǒng)聲音頻率的結(jié)構(gòu)特征、空間分布來進行分析,并認為音頻構(gòu)成來自于生物活動、地球物理過程和人類活動的綜合。在相關研究中,聲音頻率的范圍被分為3個主要組成部分,生物頻譜即:來自于自然界的發(fā)聲生物如鳥類、昆蟲、青蛙等;地球頻譜即:來自于地球表面過程如河流流水、海洋潮汐、沙丘移動、風云雷電等;人類頻譜即:來自于人類活動如車輛行駛、道路建設、人們行走等[1-2,6]。顯然,不同的區(qū)域(如濕地、森林,或城市公園),生態(tài)環(huán)境、生物組成和其音頻特征也是不同的。與此同時,聲景觀生態(tài)特征還存在日變化和季節(jié)變化的特征。目前,聲景觀生態(tài)學的新理論和方法,已被廣泛應用于生態(tài)環(huán)境的各種領域,如城市規(guī)劃、環(huán)境監(jiān)測與管理、生態(tài)系統(tǒng)健康評估、生物多樣性及生物的活動行為規(guī)律等[7-15]。
生物頻譜作為聲景觀理論模型中的3個重要組成部分之一,利用聲音頻譜分析手段進行生物多樣性的監(jiān)測,在國內(nèi)外已有一定的研究。Klaus Riede[16]早在20世紀90年代年就開始利用聲學手段來監(jiān)測亞馬遜雨林的生物多樣性特征,為生物多樣性的聲學調(diào)查開創(chuàng)了先河,國內(nèi)較早開展相關研究的姜仕仁教授[17-18]團隊在本世紀初開始積極探索利用聲學手段研究昆蟲等生物群落結(jié)構(gòu)和多樣性特征。同時,各種聲景指數(shù)是描述復雜的音頻數(shù)據(jù)生態(tài)學特征的有效方法[19]。不同的學者從不同的研究角度提出的聲景特征指數(shù)包括:聲音復雜度指數(shù)(ACI)[20]、歸一化聲景觀指數(shù)(NDSI)、聲音多樣性指數(shù)(ADI)、聲音均勻性指數(shù)(AEI)等[21]。Towsey等[22]人在研究鳥類的多樣性和豐度時,選擇了14種聲景指數(shù),研究發(fā)現(xiàn),單一的聲景指數(shù)并不能有效的指示物種的真實豐度,幾種指數(shù)的有效組合才能全面的表現(xiàn)生物多樣性和豐度。
不同聲景指數(shù)的提出,針對的通常是聲景結(jié)構(gòu)或功能的某一個方面,具有一定的局限性。語譜圖是一種描述聲音時間-頻率-能量譜密度變化的圖像,是聲音分析的重要方法,在以往基于頻譜分析的研究中,分析手段主要為統(tǒng)計分析方法,分析的目標側(cè)重在頻譜特征的復雜性和差異性上,而在圖像的時間-頻率結(jié)構(gòu)特征分析上的方法相對較少。面向?qū)ο蠓诸惣夹g(shù)是遙感圖像分析領域的一種新的分類方法,是圖像紋理和幾何結(jié)構(gòu)信息提取的有效方法,同時,該方法可以融合先驗知識要素參與信息提取。為了充分挖掘音頻文件的時頻結(jié)構(gòu)特征,本文在音頻記錄文件語譜圖繪制的基礎上,將遙感領域常用的面向?qū)ο髨D像分割技術(shù)引入語譜圖分割與圖像幾何結(jié)構(gòu)信息提取,并提出了適合于自然界鳥類生物多樣性提取的知識規(guī)則和斑塊統(tǒng)計分析聚類方法。研究實驗選擇2015年春季在杭州植物園的不同景觀區(qū)域布點采集音頻數(shù)據(jù),通過與“載頻-周期圖”法對比分析表明:該方法對于利用音頻記錄文件研究和分析自然界生物特別是鳥類多樣性和活動規(guī)律是非常有效的,可以為生態(tài)系統(tǒng)多樣性的監(jiān)測、研究和分析提供了一種新的方法。
1.1 時頻結(jié)構(gòu)特征提取流程
生物頻譜、地球頻譜、人類頻譜是聲景分析和劃分的最為經(jīng)典模型,其劃分的物理機理是頻率特征分布的差異,其中,生物聲響的主要頻率分布范圍在較高頻率區(qū)間[1-2]。圖1是一個典型的含有生物聲響的音頻記錄文件波形圖和語譜圖,可以看出聲音頻率和能量的分布主要都集中在高頻區(qū)間,符合上述頻率特征描述。
圖1 聲音信號的波形圖和語譜圖特征Fig.1 The waveform and spectrogram of an acoustic signal
語譜圖的精細分析是挖掘聲景信息和生物多樣性特征最為關鍵的手段,本文提出的一套基于時頻結(jié)構(gòu)特征提取的生物多樣性分析方法流程如圖2所示。
圖2 聲景時頻結(jié)構(gòu)特征提取流程圖Fig.2 The flow chart of soundscape time-frequency structure′s extraction
從圖中可以看出該流程主要分為2個關鍵處理模塊,即:數(shù)字音頻信號處理模塊和面向?qū)ο蟮膱D像分類和統(tǒng)計分析模塊。數(shù)字信號處理模塊中主要涉及的算法有LMS音頻信息濾波增強方法、高通濾波方法和加窗傅里葉變換(FFT)的語譜圖繪制方法;面向?qū)ο蟮膱D像分類和統(tǒng)計分析模塊主要借助遙感圖像處理中的圖像分割、融合技術(shù)提取蘊含生物信息的特征斑塊,并結(jié)合區(qū)域統(tǒng)計手段得出生物信息的數(shù)據(jù)統(tǒng)計特征,具體統(tǒng)計指標包括斑塊大小、斑塊面積周長比、叫聲時長、頻率特征等。根據(jù)上述生物學信息,采用層次聚類算法確定典型鳥類種群類型數(shù)目與特征。
1.2 自適應LMS濾波和高通濾波算法
音頻記錄文件的噪聲干擾普遍存在且不可避免,噪聲的存在給音頻信號中“人類—自然”系統(tǒng)中的各種聲音信息的理解帶來了困難。音頻信號的濾波增強技術(shù)就是在保證減少特征聲音失真度的同時,盡可能多地提取出有效的聲音信號,抑制背景噪聲。自適應濾波法是目前廣泛應用的一種音頻信息濾波增強方法[23],而自適應濾波算法中的最小均方誤差算法(LMS)以其運算簡單、穩(wěn)健且易于實現(xiàn)等優(yōu)點成為了自適應濾波技術(shù)的首選算法[24]。假設v(k)為原始含噪聲的聲音信號,x(k)為v(k)延時后的參考信號,算法的計算迭代過程如下:
y(k)=XT(k)×W(k)
(1)
e(k)=v(k)-y(k)
(2)
W(k+1)=W(k)+2μ×e(k)×X(k)
(3)
(4)
式中,λmax為輸入信號的自相關矩陣R的最大特征值,對于μ的取值,本文參考了文獻[24]提出的方法。
由于采集音頻文件的信息構(gòu)成主要為生物活動、地球物理過程和人類活動的綜合,文件中必然包含多種聲源信息,因此,剔除不相關信息的干擾,也是數(shù)字音頻信號處理模塊必須要考慮的一塊內(nèi)容。根據(jù)前文敘述,鳥類等生物頻譜多分布在高頻率區(qū)間,而地球物理過程和人類活動的頻譜多分布在低頻率區(qū)間。這里在數(shù)字音頻信號處理模塊中加入了高通濾波器模塊,將地球物理過程和人類活動的信息成分濾除。高通濾波器是容許高頻信號通過、但減弱(或減少)頻率低于截止頻率信號通過的濾波器。對于數(shù)字音頻信號,高通濾波在時域中的數(shù)理解釋如下:
y(n)=x(n)-f(n)
(5)
(6)
式中,M為根據(jù)截止頻率而預先設定的時間常量,x(n)為第n幀的輸入,f(n)為第n幀的低通輸出,y(n)為校正后的輸出。
1.3 語譜圖繪制算法
“人類-自然”系統(tǒng)中的各種聲音具有不同的頻率特征,聲景生態(tài)定量分析的關鍵取決于聲波頻譜結(jié)構(gòu)的精細提取。語譜圖是一種描述聲音時間-頻率-能量譜密度變化的圖像,是聲音分析的重要方法,由W.Koenig于1946年提出[25]。繪制語譜圖的關鍵算法包括傅立葉變換、短時傅立葉變換和快速傅立葉變換,傅立葉變換是分析平穩(wěn)信號穩(wěn)態(tài)特性的強有力手段,短時傅立葉變換就是在短時平穩(wěn)的假設下,用穩(wěn)態(tài)分析方法處理非平穩(wěn)信號的一種方法。語音信號是一種典型的非平穩(wěn)信號,但是在極短的時間內(nèi)(10—30ms)內(nèi)聲音信號是符合平穩(wěn)性假設的。短時傅立葉變換是一種基于加窗的傅立葉變換,通過窗口函數(shù)w(n)將分析信號劃分成很多小的間隔(也叫幀)[26],對于信號x(n)的短時傅立葉變換可以被定義為以下公式[27-28]。
(7)
式中,w(n)為窗序列,m是幀同步的時間序列號,信號x(n)的離散時域傅立葉變換為:
(8)
式中,N為幀長(一幀內(nèi)的采樣點數(shù)),進一步進行變換可得:
(9)
(10)
將P(n,k)的值表示為灰度級所構(gòu)成的二維圖像就是語譜圖,語譜圖的dB表示方法是通過10log10(P(n,k))變換得到的,而語譜圖聲壓級分貝值則是通過如下計算方法得到。
Lp(k)=20×log(P(k)/P0)
(11)
式中,P(k)為k中心頻段短時傅立葉后的譜密度,P0為參考聲壓,空氣中為20μpa。由于本文實驗儀器采集的原始數(shù)據(jù)信息為聲壓信號,為了便于理解,語譜圖的能量密度信息采用聲壓級分貝值結(jié)果。
1.4 面向?qū)ο蟮恼Z譜圖分割與特征斑塊提取方法
面向?qū)ο蠓诸惣夹g(shù)是遙感圖像分析領域的一種新的分類方法,該方法面向的分類目標不是單個的圖像像素,而是具有相似特性的斑塊單元,而這一特點正好符合生物的聲響特征在語譜圖上的表現(xiàn)。面向?qū)ο髨D像分類技術(shù)的關鍵算法包括圖像分割和融合算法、特征選擇分析、分類規(guī)則和分類算法等,
圖像分割和融合算法是將整個圖像區(qū)域根據(jù)同質(zhì)性和異質(zhì)性標準分割成若干互不交疊的非空子域的過程,同一區(qū)域內(nèi)部在灰度、紋理、顏色、形狀等上面具有相同或相似的特性。圖像分割可以借助數(shù)學集合的概念進行理解[29]。假設圖像I中具有相同屬性的條件表示為H,圖像分割是將圖像I分割成n個區(qū)域Ri,i=1,2,…,n,要求滿足:
(12)
上式所表述的含義是分割后的圖像要求全覆蓋且互不重疊,相同區(qū)域的像元屬性相似,不同區(qū)域斑塊的像素屬性相異。圖像分割的算法目前有成百上千種,新的算法也在不斷被提出,從圖像分割的數(shù)學原理角度,圖像分割可以分為閾值分割、邊緣檢測、區(qū)域灰度、形狀、紋理分割等類別。由于圖像分割算法多樣,這里將不詳細介紹具體分割融合算法,本文的分割融合過程的實現(xiàn)是在ENVI5.0的FeatureExtraction模塊下實現(xiàn)的。
圖像分割是進行語譜圖特征斑塊提取的第一步,對特征斑塊提取的關鍵是知識規(guī)則的確定,對于聲音文件語譜圖信息中蘊含的生物叫聲、特別是鳥類叫聲的信息,本文在結(jié)合文獻[30- 31]和實際數(shù)據(jù)綜合分析的基礎上提出的知識規(guī)則如下:
鳥類的叫聲是一種非常重要的鳥類行為學特征,不同的鳴叫聲具有不同的行為意義[30],文獻[31]中對鳥類求偶鳴唱句子時長記錄結(jié)果表明,其時長可達7—8s,考慮到有些善鳴唱的鳥類的叫聲可能持續(xù)十幾秒,規(guī)定特征斑塊的時長<15s;
鳥類等生物的叫聲,能夠被傳感器監(jiān)測并記錄,是具有一定的能量信息,根據(jù)人耳正常聽到的輕微聲音分貝值為30—40分貝,規(guī)定斑塊的平均能量>30分貝;
由于采集儀器會受到外界電磁環(huán)境的干擾,語譜圖圖像中會存在電磁等噪聲信息,因此對斑塊大小進行條件設置,規(guī)定斑塊大小>9個像素,這里的像素信息的物理含義是時間頻率的分辨率,與傅立葉分析是參數(shù)有關,本文分析時像素時長為15ms,像素頻率帶寬為43Hz。
提取出來的斑塊數(shù)據(jù)斑塊大小,斑塊形狀復雜程度等等屬性,如何將斑塊的幾何屬性與鳥類生物的叫聲特征聯(lián)系起來是定量分析鳥類生物多樣性需要解決的問題之一,本文提取分析的斑塊屬性包括:斑塊大小、中心頻率、頻率分布特征(分布范圍)、面積周長比、叫聲時長等,結(jié)合圖3來進一步說明各斑塊的幾何屬性對應的生物特征信息。
圖3 斑塊幾何屬性與生物特征信息對應示意圖 Fig.3 Corresponding schematic of patch geometric properties and biometric information
從圖3中可以看出,提取斑塊的幾何屬性對應的鳥類叫聲生物學特性,包括聲音頻率分布、叫聲長短的特點,此外提取斑塊的數(shù)目是鳥類生物叫聲和多樣特性的最直接反映,面積周長比是斑塊復雜程度的參數(shù),參數(shù)值越小,對應鳥類叫聲婉轉(zhuǎn)豐富。就圖3而言,斑塊b的面積周長比要小于斑塊a,從圖中可以看出b斑塊的復雜程度要大于a斑塊,鳥類的叫聲也更婉轉(zhuǎn)。
圖4 采樣點點位分布圖(影像來自IKONOS,空間分辨率1m) Fig.4 Location map of sampling sites (Image from IKONOS satellite data,and the spatial resolution is 1m)A、B點選擇為植物園內(nèi)沿道路較近的區(qū)域,C、D、E點為植物分類區(qū)的林地區(qū)域,F點為經(jīng)濟植物區(qū)的林地區(qū)域
不同鳥類鳴叫聲因種類而有所差異,在前文的鳥類典型叫聲信息提取的基礎上,如何將不同鳥類叫聲信息進行凝煉,得到不同鳥類的種群信息,本文在上述處理的基礎上,提出了利用層次聚類方法進行鳥類叫聲種的聚類。聚類分析的實質(zhì)是建立一種分類方法, 它能夠?qū)⒁慌鷺颖緮?shù)據(jù)按照他們在性質(zhì)上的親密程度在沒有先驗知識的情況下自動進行分類,以便對不同類的樣本進行分析。本文層次聚類主要運用系統(tǒng)聚類方法,其基本思想是:首先,將要分類的n個變量各自看作一類,然后分別計算各個個體之間的對應程度或密切程度??梢杂脙煞N方式來測量:1)采用描述個體對(變量對)之間的接近程度的指標,例如距離,距離越小的個體(變量)越具有相似性。2)采用表示相似程度的指標,例如相關系數(shù),相關系數(shù)越大的個體(變量)越具有相似性。
2.1 試驗研究區(qū)、儀器及材料選擇處理
杭州植物園位于杭州市西湖區(qū)桃源嶺,區(qū)域占地115.6 hm2,根據(jù)不同的功能可分為:觀賞植物區(qū)(專類園),植物分類區(qū),經(jīng)濟植物區(qū),森林公園。觀賞植物區(qū)由木蘭山茶園、杜鵑槭樹園、桂花紫薇園、桃花園、靈峰梅園、百草園、山水園、竹類植物區(qū)等8個專類園組成,園內(nèi)綠樹成蔭,良好的生態(tài)環(huán)境使得園內(nèi)鳥類多樣,為本文方法的研究提供了良好的實驗數(shù)據(jù)采集場地。圖4是本文選擇的植物園內(nèi)6個典型樣點,其中A、B點選擇為植物園內(nèi)沿道路較近的區(qū)域,C、D、E點為植物分類區(qū)的林地區(qū)域,F點為經(jīng)濟植物區(qū)的林地區(qū)域。
實驗記錄聲音文件的儀器選擇美國Wildlife Acoustics公司生產(chǎn)的Song Meter SM2+聲音記錄儀器。該公司是專門從事野外生物聲音采集、記錄和分析的儀器公司,選擇的SM2+款儀器是專門采集記錄鳥類和陸地生物叫聲的儀器,可記錄2路聲音文件,采樣頻率最高可達96kHz,數(shù)據(jù)分辨率16bit??紤]到鳥類晨間鳴叫是鳥類的重要行為之一,實驗采集選擇時間為2015年4月1—14日5:00—7:00,每個地點在每天整點時刻開始自動同步采集記錄聲音數(shù)據(jù),每次采集文件時長為5 min,實驗共收集文件個數(shù)為252個,采集聲音總時長為1260 min。
對于選擇的記錄音頻文件材料,按照前文敘述的處理流程和關鍵算法進行處理計算。數(shù)字信號處理模塊中的LMS濾波增強算法、高通濾波算法和基于傅里葉變換的語譜圖繪制是在MATLAB平臺下編程實現(xiàn),其中,高通濾波的截止頻率的設定為300Hz[32],繪制的語譜圖數(shù)據(jù)保存為TIFF數(shù)據(jù)格式。面向?qū)ο蟮奶卣靼邏K提取是在ENVI5.0的Feature Extraction模塊下實現(xiàn)的,特征斑塊的信息統(tǒng)計是在ArcGIS10.1平臺下進行的。典型斑塊圖斑信息的層次聚類也是在MATLAB平臺下實現(xiàn)的,其中聚類密切程度的指標選擇相關系數(shù)。
2.2 與“載頻-周期圖”法對比分析
“載頻-周期圖”法是由Klaus Riede最早提出來方法,用于研究鳥類的生物多樣性特征,為了對比說明本文提出的方法在鳥類生物多樣性提取和分析上的有效性,這里將本文的方法和“載頻-周期圖”法進行了對比試驗分析。載頻-周期圖”法的處理過程需要通過人為干預,首先需要繪制語譜圖,然后結(jié)合語譜圖的結(jié)構(gòu)特征反復聆聽記錄的聲音文件信息,找出能夠描述特定鳥類叫聲的載頻和周期信息,通過分析載頻-周期的數(shù)據(jù)信息以及繪制載頻-周期圖來研究生物多樣性的規(guī)律。
為了直觀的展現(xiàn)兩種方法的有效性,試驗選取了一段含有豐富鳥類叫聲的1min音頻文件片段,對該聲音文件進行繪制語譜圖,及反復聆聽得出該聲音文件中含有9中鳥類的叫聲(圖5),利用“載頻-周期圖”法得到的鳥類群落結(jié)構(gòu)的信息如圖6(a)所示,圖6(b)為典型的布谷鳥叫聲的頻率-周期特征,其頻率分布集中在692Hz附近,叫聲時長在1.05s附近。
圖5 對比試驗聲音片段數(shù)據(jù)波形圖、語譜圖及典型鳥類叫聲時頻區(qū)域框選Fig.5 The waveform and spectrogram of an acoustic signal and typical bird calls
圖6 基于載頻-周期圖的鳥類群落結(jié)構(gòu)繪制結(jié)果Fig.6 The figure of brid community structure based on frequency-periodogram method
圖7是本文方法得到的鳥類多樣性的結(jié)果,從圖中的結(jié)果可以看出通過語譜圖的斑塊信息提取,特征信息的層次聚類,共得到特征鳥類的信息10種,各種鳥類的斑塊分布圖如圖8所示。
圖7 鳥類群落結(jié)構(gòu)層次聚類結(jié)果Fig.7 The figure of brid community structure using hierarchical clustering method
圖8 基于語譜圖分割的鳥類群落結(jié)構(gòu)繪制結(jié)果Fig.8 The figure of brid community structure using spectrogram segmentation method
表1是兩種不同方法提取的鳥類群落信息的頻率及鳴叫時長結(jié)果,從表中可以看出兩種方法在鳥類的種類特征上存在一個種類的差異,即:“載頻-周期圖”法得到的鳥類群落數(shù)為9中,本文方法得到的鳥類群落數(shù)為10種,兩者的相對誤差在12.5%。在中心頻率提取的最大誤差體現(xiàn)在SN4,相對誤差3.6%,鳴叫時長最大誤差體現(xiàn)在SN9,相對誤差為7.1%。
2.3 試驗區(qū)鳥類多樣性初步分析
圖9選取的是6個采樣點典型聲音片段3維語譜圖圖像,從圖中可以看出6個采樣點中,A、D、E、F采樣點中的聲音強度和斑塊形狀特征最為豐富,反映的生物多樣性信息也最為突出,鳥類叫聲此起彼伏,B、C兩點中的生物叫聲相對較少,在低頻段能量信息較突出,含有人類活動的信息成分。
為了進一步對比分析各采樣點的生物多樣性信息的綜合特征,表2給出了6個典型采樣點的鳥叫聲斑塊信息提取和統(tǒng)計結(jié)果。從表中可以看出,6個實驗樣點中,提取出來的鳥類種群數(shù)量最多的是E點,最少的是C點,反映了各采樣點鳥類多樣性豐度的順序為E>F>D>A>B>C,其中E采樣點為植物分類區(qū)的林地區(qū)域,該處主要為林地地物類型,且離道路和人類活動區(qū)域較遠,是鳥類典型的棲息地。各采樣點的中心頻率分布在2.5—4.5kHz之間,最低頻率分布在0.67—2.1kHz之間,最高頻率分布在7.6—8.9kHz之間。斑塊的面積周長比在3.33—4.46之間,面積周長比越小,反映的是提取斑塊的形狀越復雜,即生物叫聲的規(guī)律越豐富,實驗結(jié)果表明E點的鳥類叫聲更婉轉(zhuǎn)動聽。統(tǒng)計斑塊的叫聲時長在0.43—0.57s之間,不同的時長反映的是不同鳥類叫聲的長短,6個采樣點的統(tǒng)計結(jié)果表明,F點鳥類生物叫聲時間較長,C點生物叫聲時間較短,本實驗的F點為經(jīng)濟植物區(qū)的林地區(qū)域,而C點離道路較近,生物叫聲的長短與所處的景觀類型和人類干擾程度存在一定關系。
表1 兩種不同方法提取的鳥類群落信息頻率及叫聲時長結(jié)果
圖9 不同點位典型聲音片段的3維語譜圖Fig.9 The 3D spectrograms of example soundscape clips at different sites
點位Sites種群個數(shù)Populationsize中心頻率/kHzCenterfrequency最低頻率/kHzMinimumfrequency最高頻率/kHzMaximumfrequency平均面積周長比Meanarea-perimeterratio平均時長/sMeanbirdcallsdurationA273.61.37.63.820.48B232.91.28.73.640.56C222.52.17.64.470.43D314.50.698.74.460.44E383.90.678.93.330.52F354.10.698.83.510.57
隨著數(shù)字錄音、通訊和計算機分析技術(shù)的不斷提高,聲學手段成為了研究人類-自然生態(tài)系統(tǒng)多樣性,生物行為活動規(guī)律的一種特殊手段。如何充分挖掘聲音記錄文件的內(nèi)在信息,為分析研究生態(tài)系統(tǒng)的生物多樣性特征和生物活動規(guī)律服務,是聲音文件分析研究的重要內(nèi)容。本文提出的基于音頻文件時頻結(jié)構(gòu)特征提取的聲景觀中鳥類生物多樣性分析方法,通過將面向?qū)ο髨D像分割技術(shù)引入語譜圖分割,并提出了適合于自然界生物多樣性特別是鳥類叫聲特征提取的知識規(guī)則和斑塊統(tǒng)計分析方法,與經(jīng)典的“載頻-周期圖”法進行對比試驗結(jié)果表明,該方法在提取的種群數(shù)目及種群參數(shù)信息上與經(jīng)典方法保持了較好的一致性,新方法結(jié)合了傳統(tǒng)的數(shù)字信號的處理手段和先進的數(shù)字圖像處理技術(shù),提出的信息參數(shù)更加豐富多樣。同時本文實驗采樣數(shù)據(jù)分析結(jié)果佐證了前人的研究成果,即:本文分析數(shù)據(jù)結(jié)果進一步揭示杭州植物園春季鳥類叫聲的中心頻率集中分布在2.5—4.5kHz之間,最低頻率分布在0.67—2.1kHz之間,最高頻率分布在7.6—8.9kHz之間。根據(jù)監(jiān)測與分析結(jié)果,其鳥類種群的數(shù)目在38種左右。
提取的鳥類種群數(shù)目是鳥類多樣性或豐度的直接證據(jù),鳥類的多樣性與地物類型密切相關。實驗中提取的斑塊數(shù)目表明鳥類最多且最活躍的區(qū)域是E點,該處地物類型為林地,且離人類活動的區(qū)域較遠。斑塊面積周長比這個參數(shù),反映的是生物叫聲的復雜程度,面積周長比越小,其提取斑塊的形狀越復雜,生物叫聲的規(guī)律越婉轉(zhuǎn)豐富。通過實驗采集樣點數(shù)據(jù)的分析結(jié)果可以看出,E點的鳥類叫聲更婉轉(zhuǎn)動聽。斑塊時長反映的是不同鳥類叫聲的長短,采樣點的統(tǒng)計結(jié)果表明,生物叫聲的長短與所處的景觀類型和人類干擾程度存在一定關系,人類活動干擾大的區(qū)域,鳥類活動較少,叫聲時長也更短,其可能原因是鳥類路過該區(qū)域或臨時休憩時發(fā)出的叫聲。
本文提出的基于音頻文件時頻結(jié)構(gòu)特征圖像分割提取與鳥類多樣性分析方法,主要包括數(shù)字音頻信號處理、面向?qū)ο蟮膱D像分類和統(tǒng)計分析兩個主要處理模塊,其中數(shù)字音頻信號處理模塊采用的是經(jīng)典的音頻數(shù)字處理技術(shù),處理過程中人為干預較少,人為因素對后期的結(jié)果影響較小。面向?qū)ο蟮膱D像分類和統(tǒng)計分析模塊的處理中人為參與的過程較多,如分割融合尺度的設定,特征斑塊提取的知識規(guī)則等很多經(jīng)驗性的因素都有可能對結(jié)果造成影響。然而,提取的生物叫聲時間-頻率特征斑塊信息,具有更多的統(tǒng)計分析指標,包括種群數(shù)目、中心頻率、斑塊叫聲的時間長度、斑塊的復雜程度等,可以更加全面的分析生物叫聲的綜合特征,為利用聲學手段研究自然生態(tài)的規(guī)律和特征提供了一種好的方法。
[1] Qi J G, GageSH, JooW, NapoletanoB, BiswasS. Soundscape characteristics of an environment: a new ecological indicator of ecosystem health//JiW, ed. Wetland and Water Resource Modeling and Assessment.New York, USA:CRC Press, 2008: 201- 211.
[2] PijanowskiB C, Farina A, Gage S H, DumyahnS L, Krause B L. What is soundscape ecology? An introduction and overview of an emerging new science.Landscape Ecology, 2011, 26(9): 1213- 1232.
[3] Schafer R M.The New Soundscape.Toronto: BMI Canada Limited, 1969.
[4] 葛堅, 趙秀敏, 石堅韌. 城市景觀中的聲景觀解析與設計. 浙江大學學報: 工學版, 2004, 38(8): 994- 999.
[5] 宋劍瑋, 馬蕙, 馮寅. 聲景觀綜述. 噪聲與振動控制, 2012, (5): 16- 20.
[6] Gage S H, NapoletanoBM, Cooper M C. Assessment of ecosystem biodiversityby acoustic diversity indices.Journal of the Acoustical Society of America, 2001, 109(5): 2430- 2430.
[7] JenningsP, Cain R. A framework for improving urban soundscapes.Applied Acoustics, 2013, 74(2): 293- 299.
[8] RaimbaultM, Dubois D. Urban soundscapes: experiences and knowledge.Cities, 2005, 22(5): 339- 350.
[9] Liu J, Kang J, LuoT, BehmH, CoppackT. Spatiotemporal variability of soundscapes in a multiple functional urban area.Landscape and Urban Planning, 2013, 115: 1- 9.
[10] Rodriguez A, GascA, PavoineS, GrandcolasP, GaucherP, SueurJ. Temporal and spatial variability of animal sound within a neotropical forest.Ecological Informatics, 2014, 21: 133- 143.
[11] FarinaA, PierettiN,PiccioliL. The soundscape methodology for long-term bird monitoring: a Mediterranean Europe case-study.Ecological Informatics, 2011, 6(6): 354- 363.
[12] FarinaA, PierettiN. The soundscape ecology: a new frontier of landscape research and its application to islands and coastal systems.Journal of Marine and Island Cultures, 2012, 1(1): 21- 26.
[13] 李淑玲, 包軍, 王文峰, 白曉杰, 崔衛(wèi)國. 丹頂鶴性活動的聲行為研究. 生態(tài)學報, 2004, 24(3): 503- 509.
[14] 陳敏, 馮江, 李振新, 周江, 趙輝華, 張樹義, 盛連喜. 普氏蹄蝠(Hipposiderospratti)回聲定位聲波、形態(tài)及捕食策略. 應用生態(tài)學報, 2002, 13(12): 1629- 1632.
[15] 扈軍, 葛堅, 李東浩. 基于GIS的聲景觀地圖制作與分析—以杭州柳浪聞鶯公園為例. 浙江大學學報:工學版, 2015, 49(7): 1295- 1304.
[16] Riede K. Monitoring biodiversity: analysis of Amazonian rainforest sounds. Ambio, 1993, 22(8): 546- 548.
[17] 姜仕仁. 杭州植物園秋季夜間昆蟲群落的聲音監(jiān)測. 浙江科技學院學報, 2003, 15(2): 72- 76.
[18] 姜仕仁, 陳水華. 同一生境中強腳樹鶯鳴聲的個體差異及多樣性. 動物學研究, 2006, 27(5): 473- 480.
[19] KastenE P, Gage S H, Fox J, JooW. The remote environmental assessment laboratory′s acoustic library: an archive for studying soundscape ecology.Ecological Informatics, 2012, 12: 50- 67.
[20] PierettiN, Farina A, MorriD.A new methodology to infer the singing activity of an avian community: the Acoustic Complexity Index (ACI). Ecological Indicators, 2011, 11(3): 868- 873.
[21] Villanueva-Rivera L J, PijanowskiB C, Doucette J, PekinB. A primer of acoustic analysis for landscape ecologists.Landscape Ecology, 2011,26(9): 1233- 1246.
[22] Towsey M, Wimmer J, Williamson I, Roe P. The use of acoustic indices to determine avian species richness in audio-recordings of the environment. Ecological Informatics,2014, 21: 110- 19.
[23] 陳素芝, 李英. 一種基于變步長LMS算法的語音增強方法. 聲學技術(shù), 2005, 24(1): 42- 45.
[24] 王瑜琳, 田學隆, 高雪利. 自適應濾波語音增強算法改進及其DSP實現(xiàn). 計算機工程與應用, 2015, 51(1): 208- 212.
[25] Koenig W, Dunn H K, Lacy L Y. The sound spectrograph.The Journal of the Acoustical Society of America, 1946, 18(1): 19- 49.
[26] 李振春,刁瑞,韓文功,劉力輝.線性時頻分析方法綜述. 勘探地球物理進展,2010,33(3): 239- 246.
[27] Schafer R, RabinerL. Design and simulation of a speech analysis-synthesis system based on short-time fourier analysis. IEEE Transactions on Audio and Electroacoustics, 1973, 21(3): 165- 174.
[28] Allen J B, RabinerL R. A unified approach to short-time Fourier analysis and synthesis.Proceedings of the IEEE, 1977, 65(11): 1558- 1564.
[29] 張德豐. 數(shù)字圖像處理(MATLAB版). 北京: 人民郵電出版社, 2009: 250- 260.
[30] 偉利國, 張小超, 吳文彪. 鳥鳴叫聲特征提取方法的研究.遼寧師范大學學報: 自然科學版, 2010, 33(1): 108- 111.
[31] 張憲德, 徐婷婷, 趙婷婷, 萬冬梅, 殷江霞. 配偶選擇中“聽眾效應”及鳴唱對雌性灰文鳥行為的影響.生態(tài)學報, 2016, 36(16), doi: 10.5846/stxb201501290238.
[32] 姜仕仁, 丁平, 諸葛陽, 鄔艷春. 白頭鵯繁殖期鳴聲行為的研究.動物學報, 1996, 42(3): 253- 259.
Bird diversity research using audio record files and the spectrogram segmentation method
JIANG Jingang1,SHAO Xiaoyun1,WAN Haibo1,*,QI Jiaguo1,2,JING Changwei1,CHENG Tianyou1
1OceanCollege,ZhejiangUniversity,Hangzhou310058,China2CenterforGlobalChangeandEarthObservations,EastLansing,MI48823,USA
Soundscape ecology is an emerging area in landscape ecology. Soundscape characteristics can provide information that complements landscape characteristics. The study of soundscapes is based on an understanding of how sound from various biological, geophysical, and anthropogenic sources can be used to understand coupled natural-human dynamics across different spatial and temporal scales. The audio characteristics emitted from an ecosystem provide unique insights into the spatial and temporal patterns of ecosystem responses to human disturbances. The biological composition and the audio characteristics of different parts of the ecological environment, such as wetland, forest, and city parks. Furthermore, the soundscape changes throughout the day and throughout the seasons. Acoustic signal diversity, which refers to the patterns of frequency and temporal use of the acoustic spectrum, reflects biocomplexity and human activities. Previous research divided the soundscape into three primary components within the acoustic frequency spectrum, defined as biophony, anthrophony, and geophony. Biophony is the part of soundscape that consists of the sounds produced by all the organisms in a particular landscape. The biophony composition can be used to indicate community biodiversity. Several sound (or soundscape) diversity indicators have been developed. In this study, we introduced an object-oriented classification approach for analyzing sound diversity using bird communities as a case study. The bird sound characteristics were used to extract a patch index that included the number of patches, the frequency range and standard deviation, and the area-to-perimeter ratio. This approach was able to distinguish between the soundscape scenarios recorded at different locations in Hangzhou Botanical Garden, China.The results showed that bird diversity was closely related to the particular features of different landscapes. The central frequency for birds ranged between 2.5 and 4.5kHz;the lowest frequency was between 0.67 and 2.1kHz, and the highest frequency between 7.6 and 8.9kHz.The stronger the human interference, the shorter the bird songs and calls. In addition, bird sound characteristics quantitatively reflected the complexity of the bird songs and calls using the patch area-to-perimeter ratio parameter..
soundscape ecology; audio record files; Fourier transform; spectrogram; bird diversity
國家自然科學青年基金項目(41401404); 國家“千人計劃”人才資助項目 (188020- 193810101/061); 浙江大學基本科研業(yè)務費資助項目(2014QNA4029)
2015- 11- 05;
2016- 04- 25
10.5846/stxb201511052249
*通訊作者Corresponding author.E-mail: hwan@zju.edu.cn
蔣錦剛,邵小云,萬海波,齊家國,荊長偉,程天佑.基于語譜圖特征信息分割提取的聲景觀中鳥類生物多樣性分析.生態(tài)學報,2016,36(23):7713- 7723.
Jiang J G,Shao X Y,Wan H B,Qi J G,Jing C W,Cheng T Y.Bird diversity research using audio record files and the spectrogram segmentation method.Acta Ecologica Sinica,2016,36(23):7713- 7723.