• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聽覺仿生模型的樂器識(shí)別

      2014-09-15 04:29:02秦曉瑜陳海霞王連明
      關(guān)鍵詞:基底膜毛細(xì)胞濾波器

      張 琳,王 珊,秦曉瑜,陳海霞,王連明

      (1.東北師范大學(xué)應(yīng)用電子技術(shù)研究所,吉林 長(zhǎng)春 130024;2.通化師范學(xué)院物理系,吉林 通化 134000)

      樂器識(shí)別作為聲源識(shí)別的一個(gè)重要分類,是深入研究音頻檢索的基礎(chǔ).傳統(tǒng)的樂器識(shí)別大多是以MFCC和LPCC等作為樂器的聲學(xué)特征[1],采用高斯混合模型、隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行識(shí)別.文獻(xiàn)[2]研究了Mel頻率、delta倒譜系數(shù)和線性預(yù)測(cè)倒譜系數(shù)等聲學(xué)特征,然后用這些特征對(duì)16種西方管弦樂器進(jìn)行了自動(dòng)識(shí)別比較,其中最高的識(shí)別正確率不到80%[3-4].對(duì)于使用不同樂器的獨(dú)奏表演或者不同的音樂片段,基于不同的聲學(xué)特征進(jìn)行識(shí)別,識(shí)別精度往往差別很大,而且不能找到一個(gè)良好的聲學(xué)特征在識(shí)別各種樂器時(shí)均能表現(xiàn)出良好的健壯性.然而,研究發(fā)現(xiàn),人類的聽覺系統(tǒng)在聽音辨物方面有獨(dú)特的優(yōu)勢(shì),對(duì)不同聲音的快速分辨幾乎是穩(wěn)定的,這就啟發(fā)人們?cè)谀承┉h(huán)節(jié)上模仿人類聽覺系統(tǒng)的聽覺機(jī)理的處理機(jī)制,以提高識(shí)別系統(tǒng)對(duì)各種樂器識(shí)別的穩(wěn)定性.

      現(xiàn)有的聽覺模型主要用于語音識(shí)別[5],采用包含時(shí)間信息的三維同步譜和發(fā)放率譜模擬耳蝸核的特征提取功能,并且采用5層自組織特征映射(self-organizing map,SOM)網(wǎng)絡(luò)模擬聽皮層的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),該模型復(fù)雜、計(jì)算量大.

      針對(duì)樂器識(shí)別這一具體應(yīng)用,本文基于文獻(xiàn)研究成果,提出了只提取頻率和強(qiáng)度二維特征的耳蝸背腹側(cè)核(posteroventral cochlear nucleus,PVCN)模型和單層SOM的聽皮層模型,簡(jiǎn)化了模型復(fù)雜度.

      1 聽覺系統(tǒng)生理結(jié)構(gòu)及其數(shù)學(xué)模型

      聽覺系統(tǒng)是對(duì)聲音收集、傳導(dǎo)、處理、綜合的感覺系統(tǒng),一般將聽覺系統(tǒng)劃分為外周聽覺系統(tǒng)和聽覺中樞神經(jīng)系統(tǒng).外周聽覺系統(tǒng)包括外耳、中耳和內(nèi)耳.中樞神經(jīng)系統(tǒng)由下而上依次為耳蝸核、上橄欖復(fù)核、外側(cè)丘系、下丘、內(nèi)側(cè)膝狀體核、聽皮層.基于聽覺系統(tǒng)的生理結(jié)構(gòu),構(gòu)建其數(shù)學(xué)模型并用MATLAB軟件進(jìn)行計(jì)算機(jī)仿真.整個(gè)仿生聽覺系統(tǒng)流程如圖1所示.

      1.1 基底膜和gammatone濾波器模型

      耳蝸對(duì)聲波的分析,是由基底膜的機(jī)械作用完成的.基底膜從功能上看相當(dāng)于一個(gè)頻譜分析儀,它能夠把傳入人耳的聲音信號(hào)在頻域上按頻帶進(jìn)行分解.不同頻率的聲音產(chǎn)生不同的行波,其峰值出現(xiàn)在基底膜的不同位置上(如圖2所示) .圖2中顯示的是展平的耳蝸,其中:a是高頻聲音產(chǎn)生的行波,在狹窄而呈剛性的基底膜基部附近耗散;b是低頻聲音產(chǎn)生的行波能夠一直傳播到蝸頂才消失;c是在基底膜上產(chǎn)生最大振幅的頻率的位置編碼[6].

      圖1 仿生聽覺系統(tǒng)流程圖

      基底膜不同位置對(duì)聲音的響應(yīng)過程相當(dāng)于一個(gè)帶通濾波器,各種研究表明,基于聽覺心理和聽覺生理的gammatone濾波器組模型能很好地模擬基底膜的濾波特性.Gammatone濾波器在時(shí)域上用一個(gè)沖擊響應(yīng)函數(shù)來表示其濾波特性,該gammatone函數(shù)表達(dá)式為

      圖2 基底膜對(duì)不同頻率聲音的反應(yīng)

      其中:n是濾波器階數(shù)(在此n=4);u(t)是單位階躍函數(shù),當(dāng)t<0,u(t)=0(當(dāng)t>0,u(t)=1);f0是中心頻率,單位為 Hz;Ф是初始相位,且Ф=0;B是gammatone濾波器的帶寬且B=b1·ERB(f0),b1=1.019,ERB是等效矩陣帶寬,且 ERB(f0)=24.7+0.108f0.將gammatone函數(shù)進(jìn)行Laplace變換,再?gòu)膕域映射到離散z域,得到8階的z域傳遞函數(shù)[7],則每個(gè)gammatone濾波器由4個(gè)二階的傳遞函數(shù)級(jí)聯(lián)實(shí)現(xiàn).該濾波器中采樣頻率為40kHz.

      1.2 內(nèi)毛細(xì)胞及其Meddis模型

      內(nèi)毛細(xì)胞是將機(jī)械能轉(zhuǎn)化成膜電位極性的聽覺感受器細(xì)胞.每個(gè)內(nèi)毛細(xì)胞含有大約100個(gè)毛狀的靜纖毛,靜纖毛的彎曲導(dǎo)致內(nèi)毛細(xì)胞發(fā)生去極化和超極化,將聲壓轉(zhuǎn)換成神經(jīng)電信號(hào),這一過程是對(duì)聲波幅度進(jìn)行脈沖編碼,脈沖發(fā)放概率與輸入聲波幅度相對(duì)應(yīng).內(nèi)毛細(xì)胞以及與聽覺神經(jīng)相連的突觸區(qū)域有幾個(gè)重要的生理反應(yīng)特性,如半波整流、非線性飽和抑制、短時(shí)自適應(yīng)和快速自適應(yīng)特性等.

      內(nèi)毛細(xì)胞脈沖的發(fā)放概率是聲音刺激的強(qiáng)度的函數(shù),這一級(jí)公認(rèn)的模型是Meddis模型,這一模型與真實(shí)的生理學(xué)實(shí)驗(yàn)結(jié)果非常接近.Meddis模型假定在毛細(xì)胞中存在3個(gè)傳遞神經(jīng)遞質(zhì)的發(fā)放源,且神經(jīng)傳遞素在這3個(gè)發(fā)放源中通過再回收和再綜合處理環(huán)路傳遞信息[8-9].

      則神經(jīng)的發(fā)放概率為:

      (2)—(6)式組成了整個(gè)內(nèi)毛細(xì)胞 Meddis模型,其中k(t)是細(xì)胞膜的滲透性,stim(t)是輸入聲波的瞬時(shí)幅度,q(t)是自由釋放的遞質(zhì)量,c(t)是突觸間隙包含的遞質(zhì)量,w(t)是再生倉庫中的遞質(zhì)量,g,y,x,r,l,h,A 和B 是時(shí)間常數(shù),dt為采樣間隔[8].

      1.3 耳蝸后腹側(cè)核及其PVCN模型

      耳蝸核一般分為3個(gè)子核,分別為前腹側(cè)核(AVCN)、后腹側(cè)核(PVCN)和背側(cè)核(DCN).AVCN中神經(jīng)元主要功能是對(duì)低頻刺激鎖相;DCN的神經(jīng)元主要功能是側(cè)抑制作用;PVCN中主要是建立和振蕩反應(yīng)類型神經(jīng)元.生理學(xué)實(shí)驗(yàn)表明振蕩反應(yīng)類型的神經(jīng)元在刺激過程中不斷發(fā)放,發(fā)放率單調(diào)依賴于刺激的強(qiáng)度,此類神經(jīng)元提取聲音信號(hào)的強(qiáng)度信息.本文為獲取表征聲音信號(hào)強(qiáng)度的發(fā)放率信息,忽略了AVCN和DCN的功能,建立PVCN模型模擬PVCN的功能.

      PVCN模型主要完成對(duì)樂器聲音特征的提取.該P(yáng)VCN模型包含包絡(luò)檢測(cè)、短時(shí)積分和插值3個(gè)步驟.通過包絡(luò)檢測(cè)獲取各通道的平均發(fā)放率,包絡(luò)檢測(cè)功能由一個(gè)低通濾波器實(shí)現(xiàn),其表達(dá)式如(7)式所示.短時(shí)積分由一個(gè)積分器實(shí)現(xiàn),獲取各通道的平均發(fā)放率信息,積分器表達(dá)式如(8)式所示.最后,通過對(duì)各通道的平均發(fā)放率做插值,獲取發(fā)放率譜,該發(fā)放率譜是包含聲音頻率和強(qiáng)度信息的二維特征.

      1.4 聽皮層及其SOM模型

      聽皮層是處理聲音使人產(chǎn)生聽覺的大腦高級(jí)中樞.研究表明,大腦接受外界輸入模式時(shí),將會(huì)分為不同的對(duì)應(yīng)區(qū)域,各區(qū)域?qū)斎肽J骄哂胁煌捻憫?yīng)特征,而且這個(gè)過程是自動(dòng)完成的,這種學(xué)習(xí)被稱為自組織學(xué)習(xí).

      1981年,Kohonen教授提出一種自組織特征映射網(wǎng),簡(jiǎn)稱SOM[10].該網(wǎng)絡(luò)與人大腦中的自組織映射特性非常相似,能將任意維輸入模式在輸出層映射成一維或二維圖形,并保持其拓?fù)浣Y(jié)構(gòu)不變.因此,本文選用SOM網(wǎng)絡(luò)模擬大腦聽皮層的功能.如圖3所示,SOM是一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),輸入層模擬感知外界輸入信息的耳,輸出層(也被稱為競(jìng)爭(zhēng)層)模擬做出響應(yīng)的聽皮層.競(jìng)爭(zhēng)層上的神經(jīng)元以二維形式排列成節(jié)點(diǎn)矩陣.文獻(xiàn)[11]中詳細(xì)描述了自組織算法的具體步驟.

      圖3 SOM的二維網(wǎng)絡(luò)結(jié)構(gòu)

      2 仿真實(shí)現(xiàn)

      本文仿生聽覺系統(tǒng)包含27個(gè)并行通道,用Bark代表一個(gè)臨界頻帶的寬度,則覆蓋的頻率范圍是從1.3到18Bark,對(duì)應(yīng)頻率為133~5400Hz,每路覆蓋2/3Bark.盡管使用更多的通道可以使耳蝸輸出的空間分辨率提高,但是同時(shí)計(jì)算時(shí)間和復(fù)雜度也會(huì)增加.因此,為了平衡空間分辨率和計(jì)算量,本文選擇27個(gè)并行的gammatone濾波器組模擬基底膜的并行頻率通道.在gammatone濾波器模型之后各級(jí)、各通道的輸出將分別被處理.

      內(nèi)毛細(xì)胞Meddis模型包括半波整流和非線性飽和、短時(shí)自適應(yīng)、低通濾波和快速自動(dòng)增益控制.根據(jù)生理學(xué)實(shí)驗(yàn),Meddis模型的各參數(shù)取值:A=5,B=300,g=2000,y=8,l=2500,r=6580,x=66.31,h=50000[8].經(jīng)過 Meddis模型,獲取了各通道脈沖的發(fā)放概率.

      PVCN模型從各通道中提取發(fā)放率譜,該發(fā)放率譜即為本系統(tǒng)的特征矢量.圖1描述了各通道PVCN模型具體的處理流程,圖1(a)為用作包絡(luò)檢測(cè)的低通濾波器,以獲取平均發(fā)放概率信息.圖1(b)是積分器.各通道的積分值被稱為發(fā)放率,最后通過對(duì)各個(gè)通道的發(fā)放率做插值,獲得發(fā)放率譜.

      本文所用素材庫來自于加拿大麥吉爾大學(xué)MUMS庫,挑選在室內(nèi)環(huán)境下采集的吉他、豎琴、小號(hào)、鋼琴、薩克斯、喇叭和小提琴7種樂器的共243個(gè)獨(dú)奏樂曲文件,采樣頻率為44.1kHz,建立本文所用樂器素材庫.將樂器素材庫中的243首樂曲送入如圖1所示的仿生聽覺系統(tǒng),獲得243個(gè)發(fā)放率譜特征矢量,每個(gè)特征矢量均為27維.為直觀的表示不同樂器特征矢量之間的差異,每種樂器任意選取一個(gè)特征矢量,繪制成發(fā)放率譜圖.圖4即為繪制的7種樂器的發(fā)放率譜圖,在每種樂器的發(fā)放率譜圖中,橫軸代表通道,不同通道即為不同中心頻率,縱軸表示發(fā)放率大小.發(fā)放率譜圖是特征矢量的圖形化表示.

      圖4 7種樂器的發(fā)放率譜圖

      3 識(shí)別結(jié)果

      將7種樂器的243個(gè)特征矢量以33%/67%比例分別用作訓(xùn)練樣本和測(cè)試樣本,建立一個(gè)二維的SOM神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行分類識(shí)別.該網(wǎng)絡(luò)輸入層由27個(gè)神經(jīng)元組成,相應(yīng)于特征矢量的維數(shù).競(jìng)爭(zhēng)層是由5×5=25個(gè)神經(jīng)元組成的二維平面陣列.將78個(gè)訓(xùn)練樣本送入網(wǎng)絡(luò),訓(xùn)練結(jié)果如圖5所示.

      圖5中由x軸和y軸組成的二維平面即表示SOM網(wǎng)絡(luò)的競(jìng)爭(zhēng)層,25個(gè)方格代表25個(gè)神經(jīng)元,z軸表示神經(jīng)元突起的高度.神經(jīng)元的突起由樣本重疊形成,表示這些神經(jīng)元在訓(xùn)練中總是被擊中,在競(jìng)爭(zhēng)中獲勝.相反,那些未突起的神經(jīng)元由于未被樣本擊中,在競(jìng)爭(zhēng)中失敗.在二維平面上的7個(gè)神經(jīng)元突起,表示訓(xùn)練樣本被分成了7類,每一個(gè)突起表示一類,即一種樂器.

      最后,將165個(gè)測(cè)試樣本送入SOM網(wǎng)絡(luò)進(jìn)行測(cè)試,測(cè)試結(jié)果如表1所示,平均識(shí)別率在75%以上.

      圖5 訓(xùn)練結(jié)果示意圖

      表1 樂器識(shí)別結(jié)果

      4 結(jié)論與展望

      本文提出了一個(gè)對(duì)于獨(dú)奏樂曲樂器識(shí)別的仿生聽覺系統(tǒng).與以往用數(shù)字信號(hào)處理提取單一樂器聲學(xué)特征并用基于統(tǒng)計(jì)的分類方法來進(jìn)行樂器識(shí)別相比,本文仿生聽覺系統(tǒng)提取的發(fā)放率譜特征在識(shí)別各種樂器時(shí)均能表現(xiàn)出良好的健壯性,平均識(shí)別率在75%以上.實(shí)驗(yàn)證明了本文聽覺仿生系統(tǒng)中PVCN模型提取的二維特征參數(shù)及簡(jiǎn)化的聽皮層SOM模型在樂器識(shí)別中的有效性.

      本文系統(tǒng)也具有一定的局限性,由于PVCN模型積分時(shí)間的限制,只對(duì)每個(gè)樂器1s短時(shí)聲音進(jìn)行特征提取,未能涵蓋樂器不同音域的所有特征.如果采用連續(xù)樂曲聲音進(jìn)行樂器識(shí)別,將會(huì)有效提高識(shí)別率.同時(shí),本文系統(tǒng)為簡(jiǎn)化計(jì)算,只采用了27個(gè)并行通道,覆蓋的頻率范圍僅為133~5400Hz,不能充分利用各類樂器的聲音信息,如果增加通道數(shù)量和擴(kuò)大覆蓋的頻率范圍,會(huì)使識(shí)別率有更大的提高.這也是我們未來的改進(jìn)方向.

      [1]ERONEN A.Comparison of features for musical instrument recognition[J].Workshop on Signal Processing for Audio and Acoustics(WASPAA),2001:19-22.

      [2]SUMIT KUMAR BANCHHOR,ARIF KHAN.Musical instrument recognition using spectrogram and autocorrelation.International Journal of Soft Computing and Engineering[J].2012,2(1):1-4.

      [3]林玉志.基于聲學(xué)特征的樂器識(shí)別研究[D].廣州:華南理工大學(xué),2012.

      [4]鄧見光,潘曉恒,林玉志.基于聲學(xué)特征的樂器識(shí)別綜述[J].東莞理工學(xué)院學(xué)報(bào),2012,19(3):58-64.

      [5]吳璽宏.人工神經(jīng)網(wǎng)絡(luò)聽覺模型及其在說話人識(shí)別中的應(yīng)用[D].北京:北京大學(xué),1995.

      [6]MARK E BEAR,BRRY W CONNORS,MICHAEL A PARADISO.神經(jīng)科學(xué)——探索腦(中文版)第2版[M].北京:高等教育出版社,2004:332-361.

      [7]陳世雄,宮琴,金慧君.用 Gammatone濾波器組仿真人耳基底膜的特性[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2008,48(6):1045-1046.

      [8]MEDDIS R.Simulation of mechanical to neural transduction in the auditory receptor[J].Journal of the Acoustical Society of America,1986,79(3):702-711.

      [9]ALISTAIR MCEWAN,ANDRéVAN SCHAIK.A silicon representation of the meddis inner hair cell model[J].Proceedings of the ICSC Symposia on Intelligent Systems & Application,2000:1544-078.

      [10]TEUVO KOHONEN.The Self-organizing Maps[J].Proceedings of the IEEE,1990,78(9):1464-1480.

      [11]楊占華,楊燕.SOM 神經(jīng)網(wǎng)絡(luò)算法的研究與進(jìn)展[J].2006,32(16):201-203.

      猜你喜歡
      基底膜毛細(xì)胞濾波器
      基于無擾濾波器和AED-ADT的無擾切換控制
      新生小鼠耳蝸基底膜的取材培養(yǎng)技術(shù)*
      幕上毛細(xì)胞星形細(xì)胞瘤的MR表現(xiàn)及誤診分析
      讓永久性耳聾患者有望恢復(fù)聽力的蛋白質(zhì)
      鳥綱類生物雞用于耳蝸毛細(xì)胞再生領(lǐng)域研究進(jìn)展
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      開關(guān)電源EMI濾波器的應(yīng)用方法探討
      電子制作(2018年16期)2018-09-26 03:26:50
      豚鼠耳蝸基底膜響應(yīng)特性的實(shí)驗(yàn)測(cè)試與分析
      如何認(rèn)識(shí)耳蝸內(nèi)、外毛細(xì)胞之間的關(guān)系
      Fibulin-2在診斷乳腺基底膜連續(xù)性的準(zhǔn)確性研究
      灵丘县| 岚皋县| 韶山市| 凯里市| 孟连| 莎车县| 卓资县| 嵩明县| 奇台县| 霸州市| 浙江省| 扶绥县| 东兴市| 台前县| 黄平县| 闽侯县| 海林市| 临城县| 囊谦县| 察隅县| 翁源县| 威海市| 乌兰察布市| 鞍山市| 陈巴尔虎旗| 南皮县| 高唐县| 彩票| 揭西县| 准格尔旗| 千阳县| 剑阁县| 高邑县| 上虞市| 四会市| 洛南县| 拉萨市| 清新县| 巴马| 新丰县| 界首市|