劉雨青,劉艷芳
?
基于時(shí)空域轉(zhuǎn)換的音頻信號(hào)分析與識(shí)別
劉雨青*,劉艷芳
(龍巖學(xué)院信息工程學(xué)院,福建省龍巖市 364000)
音頻信號(hào)的識(shí)別是實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)譜曲的基礎(chǔ),在音樂(lè)的創(chuàng)作中有很重要的實(shí)用價(jià)值。本文通過(guò)對(duì)采集的音頻信號(hào)進(jìn)行時(shí)域分析和頻域分析,實(shí)現(xiàn)音頻信號(hào)端點(diǎn)檢測(cè)和音符識(shí)別。首先,運(yùn)用短時(shí)能量和短時(shí)過(guò)零率兩個(gè)時(shí)域特征對(duì)音頻信號(hào)進(jìn)行端點(diǎn)檢測(cè)和單音符分割;其次,通過(guò)頻域分析,運(yùn)用小波分解和Gabor變換對(duì)分割出的單音信號(hào)進(jìn)行時(shí)-頻轉(zhuǎn)換,去除泛音干擾分量,識(shí)別單音信號(hào)對(duì)應(yīng)的基音頻率;最后,將識(shí)別出的基音頻率匹配到對(duì)應(yīng)的樂(lè)音音符。實(shí)驗(yàn)結(jié)果表明,該方法識(shí)別準(zhǔn)確率較高,誤差較小。
音頻識(shí)別;單音分割;時(shí)頻轉(zhuǎn)換;短時(shí)能量;短時(shí)過(guò)零率;特征提取
隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展及計(jì)算機(jī)在該領(lǐng)域的廣泛深入應(yīng)用,許多音樂(lè)方面作曲人士希望能通過(guò)計(jì)算機(jī)來(lái)自動(dòng)識(shí)別演奏的樂(lè)曲并快速便捷地完成樂(lè)譜創(chuàng)作。音頻信號(hào)的識(shí)別是實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)譜曲的基礎(chǔ),在音樂(lè)的創(chuàng)作中有很重要的實(shí)用價(jià)值。但目前這方面的研究比較少,很多局限在對(duì)樂(lè)音的音效處理和編輯等方面。而在音符錄入方面,一般是使用MIDI鍵盤(pán)通過(guò)簡(jiǎn)單的映射來(lái)實(shí)現(xiàn)[1]。
樂(lè)音信號(hào)首先也是語(yǔ)音信號(hào)的一種,而就目前的語(yǔ)音研究來(lái)說(shuō),其技術(shù)相對(duì)成熟穩(wěn)定,已經(jīng)有很長(zhǎng)的研究歷史,可以從中借鑒和參考[2-6]。1970年,Sundberg和Tjernlund開(kāi)始進(jìn)行樂(lè)音識(shí)別研究,1987年,Dannenberg研發(fā)了一種對(duì)音頻信號(hào)進(jìn)行識(shí)別跟蹤的算法,但局限性析與識(shí)別的研究不多,徐國(guó)慶團(tuán)隊(duì)[1,7-10]是國(guó)內(nèi)較早開(kāi)始研究樂(lè)音識(shí)別的團(tuán)隊(duì),通過(guò)端點(diǎn)檢測(cè)和FFT變化能較有效地識(shí)別單音信號(hào),本文也是在此基礎(chǔ)上進(jìn)行研究。2007年,劉波[11]等人研究出一種語(yǔ)音識(shí)別技術(shù),使用短時(shí)能量和過(guò)零率分析進(jìn)行語(yǔ)音信號(hào)端點(diǎn)檢測(cè)分析。2008年,劉偉[12]利用MATLAB和C語(yǔ)言混合編程,對(duì)音頻信號(hào)特征的提取進(jìn)行精確度方面的完善。2012年,王婷[13]對(duì)音頻信號(hào)識(shí)別算法及交互方式等技術(shù)進(jìn)行研究。
樂(lè)器發(fā)聲從物理學(xué)角度,可以建立其嚴(yán)格的數(shù)學(xué)方程,各種樂(lè)器的每個(gè)音符有其對(duì)應(yīng)的頻率,構(gòu)成音符頻率表,這對(duì)音頻信號(hào)的分析和識(shí)別工作帶來(lái)了極大便利。本文從樂(lè)音的物理特性和音樂(lè)特性研究著手,通過(guò)對(duì)樂(lè)音信號(hào)進(jìn)行時(shí)域分析和頻域分析,提出一套可行的樂(lè)音識(shí)別方法。首先,對(duì)一段連續(xù)的樂(lè)音信號(hào)進(jìn)行歸一化處理和分幀;其次,利用樂(lè)音的時(shí)域特征短時(shí)能量和短時(shí)過(guò)零率來(lái)進(jìn)行端點(diǎn)檢測(cè),從而把單音符分割出來(lái);再次,對(duì)檢測(cè)到的音符進(jìn)行頻域分析,使用離散小波變換進(jìn)行尺度分解,可以將單音符的有效頻率保留在基音頻率附近,去除泛音干擾分量;最后,使用Gabor變換,求得該音符的基音頻率,匹配音符頻率表從而實(shí)現(xiàn)音符識(shí)別。圖1為本文的音頻識(shí)別算法示意圖。
圖1 音頻識(shí)別算法示意圖
本文以鋼琴的樂(lè)音為研究對(duì)象,但研究的結(jié)論有普遍適用意義。因?yàn)槊糠N樂(lè)器的音符都有固定的音符頻率,對(duì)于其他樂(lè)器所演奏的樂(lè)音,可以使用本文提出的端點(diǎn)檢測(cè)和音符識(shí)別算法來(lái)匹配音符頻率從而進(jìn)行樂(lè)音識(shí)別。
鋼琴是一種鍵盤(pán)樂(lè)器,用鍵拉動(dòng)琴槌以敲打琴弦,鋼琴的鍵盤(pán)分為上下兩排黑鍵和白鍵,有7組88鍵,通過(guò)按下琴鍵分別擊打鋼琴的88根鋼弦而振動(dòng)發(fā)聲。鋼琴樂(lè)音由88個(gè)音符A2~c5構(gòu)成,基音音域范圍為27.50Hz(A2)~ 4186.00Hz(c5)。其中含7組完整的八度音 (c1~b4),另外在最低頻大字二組有3個(gè)音(A2、#A2、B2),最高頻小字五組有1個(gè)音C5。音調(diào)越低則頻率越低,音調(diào)越高則頻率越高。鋼琴每相鄰的兩個(gè)鍵的基音頻率比為2的1/12次方,約等于1.059463。
表1為鋼琴各音符所對(duì)應(yīng)的基頻頻率表,一個(gè)音符對(duì)應(yīng)一個(gè)基頻頻率,單位Hz。每個(gè)音符都有對(duì)應(yīng)的基音頻率,其基音頻率決定了音符的音高[10],也是本文識(shí)別音符的依據(jù)。
表1 鋼琴音符頻率表(單位:Hz)
2.1 歸一化處理
計(jì)算機(jī)讀取音頻信號(hào)后,各采樣點(diǎn)對(duì)應(yīng)的幅值有可能分布較廣,須將待處理信號(hào)轉(zhuǎn)換成一標(biāo)準(zhǔn)模式,以便于之后設(shè)置門(mén)限閾值,所以對(duì)各采樣點(diǎn)的幅度值進(jìn)行歸一化處理,即將所有數(shù)據(jù)幅值限制在-1~l之間,歸一化的過(guò)程為:
(2)
其中,為第個(gè)采樣點(diǎn)對(duì)應(yīng)的幅值,為歸一化后第個(gè)采樣點(diǎn)的幅值。
圖2(a)為采集到的樂(lè)音信號(hào)歸一化后得到的原始音頻信號(hào)圖像。
2.2 分幀
樂(lè)音信號(hào)是一種典型的非平穩(wěn)信號(hào),不能用處理平穩(wěn)信號(hào)的信號(hào)處理技術(shù)對(duì)其進(jìn)行分析處理。但它在短時(shí)間內(nèi)頻譜特性保持平穩(wěn),即具有短時(shí)平穩(wěn)特性。因此,在實(shí)際處理時(shí)可以將樂(lè)音信號(hào)分成很小的時(shí)間段,該段就稱(chēng)之為“幀”,幀與幀的非重疊部分稱(chēng)為幀移,幀移是為了防止兩幀間的不連續(xù),而將樂(lè)音信號(hào)分成若干幀的過(guò)程稱(chēng)為分幀。分幀小可以清楚地描繪樂(lè)音信號(hào)的時(shí)變特征,但是計(jì)算量大;分幀大可以減少計(jì)算量,但容易丟失信號(hào)特征[7]。一般取幀長(zhǎng)為10~30,幀移為幀長(zhǎng)的1/2~1/3。在MATLAB環(huán)境中的分幀最常用的方法是使用MATLAB自帶的語(yǔ)音工具箱里的enframe函數(shù):enframe(),其中為樂(lè)音信號(hào),為幀長(zhǎng),為幀移。在本文中幀長(zhǎng)取294(即294個(gè)采樣點(diǎn),約13.33),幀移取98(1/3幀長(zhǎng))。
設(shè)樂(lè)音波形時(shí)域信號(hào)為、分幀處理后得到第幀樂(lè)音信號(hào)為x(m),則x(m) 滿足下式:
其中,為一幀中的某個(gè)采樣點(diǎn),為幀長(zhǎng),為幀移。
2.3 短時(shí)能量
樂(lè)音信號(hào)的能量隨時(shí)間變化較為明顯,幅值在信號(hào)處理中可以等價(jià)為信號(hào)的能量,短時(shí)能量即可理解為該采樣點(diǎn)幅值的平方[14]。一個(gè)音符,從開(kāi)始到結(jié)束,其短時(shí)能量從高到低變化較快,可以由此來(lái)判斷音符的起點(diǎn),劃分出端點(diǎn),并且可以檢測(cè)出無(wú)聲段,無(wú)聲段的短時(shí)能量為0。
在計(jì)算之前,先將信號(hào)通過(guò)一個(gè)一階高通濾波器1-0.9375z-1進(jìn)行預(yù)加重處理以慮除低頻,主要是濾除50Hz的工頻干擾[10]。
設(shè)第幀樂(lè)音信號(hào)x的短時(shí)能量用E表示,其計(jì)算公式如下[11]:
其中,為一幀中的某個(gè)采樣點(diǎn),為幀長(zhǎng)。
圖2(b)為實(shí)驗(yàn)中一段音頻信號(hào)的短時(shí)能量值圖譜。
2.4 短時(shí)過(guò)零率
過(guò)零率可以反映信號(hào)的頻譜特性。當(dāng)離散時(shí)間信號(hào)相鄰兩個(gè)樣點(diǎn)的正負(fù)號(hào)相異時(shí),我們稱(chēng)之為“過(guò)零”,即此時(shí)信號(hào)的時(shí)間波形穿過(guò)了零電平的橫軸。短時(shí)過(guò)零率就是表示一幀樂(lè)音中樂(lè)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)[14]。
設(shè)第幀音頻信號(hào)x的短時(shí)過(guò)零率用Z表示,其計(jì)算公式如下[11]:
式中,為一幀中的某個(gè)采樣點(diǎn),為幀長(zhǎng),sgn[] 是符號(hào)函數(shù),即:
(6)
圖2(c)為實(shí)驗(yàn)中一段音頻信號(hào)的短時(shí)過(guò)零率圖譜。
圖2 音頻信號(hào)圖譜
2.5 端點(diǎn)檢測(cè)和單音符分割
音頻信號(hào)可看成由三部分組成: 樂(lè)音段、中間段、靜音段。單音的能量在持續(xù)期內(nèi)呈一致振蕩衰減,短時(shí)能量和短時(shí)過(guò)零率呈一定的周期規(guī)律,而每個(gè)單音的短時(shí)能量按一定幅度遞減。通過(guò)實(shí)驗(yàn)并且從圖2可看出,運(yùn)用短時(shí)能量比運(yùn)用短時(shí)過(guò)零率能更好的判定音符樂(lè)音段的起始位置。而單音符的靜音段起始位置可以由短時(shí)能量和短時(shí)過(guò)零率共同判斷。
在實(shí)驗(yàn)中,參數(shù)設(shè)置如下:
令數(shù)組1存儲(chǔ)音符樂(lè)音段的起始位置,2存儲(chǔ)音符靜音段的起始位置,數(shù)組存儲(chǔ)各幀計(jì)算所得的短時(shí)能量,數(shù)組存儲(chǔ)各幀的短時(shí)過(guò)零率。設(shè)置狀態(tài)變量,狀態(tài)為0時(shí)代表靜音段,狀態(tài)為1時(shí)代表中間段,狀態(tài)為2時(shí)代表樂(lè)音段。設(shè)置短時(shí)能量高門(mén)限值1,用于判斷該幀是否處于樂(lè)音段,這里取短時(shí)能量最大值的1/4作為1。
對(duì)音頻信號(hào)進(jìn)行逐幀順序檢測(cè),流程為:令初始狀態(tài)為1,若該幀短時(shí)能量小于1且短時(shí)能量和短時(shí)過(guò)零率不為0,則該幀處于中間段,狀態(tài)標(biāo)記為1,繼續(xù)檢測(cè)下一幀;若從第幀開(kāi)始短時(shí)能量大于等于1,則認(rèn)為該幀處于樂(lè)音段,狀態(tài)標(biāo)記為2,記錄下,存入數(shù)組1中,繼續(xù)檢測(cè)下一幀;如果短時(shí)能量仍大于1,則仍處于樂(lè)音段,狀態(tài)標(biāo)記為2,否則狀態(tài)標(biāo)記為1,進(jìn)入中間段;若從第幀開(kāi)始短時(shí)能量或短時(shí)過(guò)零率等于0,則該幀處于靜音段,狀態(tài)標(biāo)記為0,記錄下,存入數(shù)組2中,繼續(xù)檢測(cè)下一幀,所以如果下一幀的短時(shí)能量大于1,則進(jìn)入樂(lè)音段,狀態(tài)標(biāo)記為2,并將幀號(hào)存入數(shù)組1中,否則仍然保持在靜音段,狀態(tài)標(biāo)記為0。圖3為端點(diǎn)檢測(cè)和音符分割的結(jié)果,其中有兩組線,一組表示樂(lè)音段開(kāi)始點(diǎn),即按照數(shù)組1來(lái)劃分,另一組表示靜音段開(kāi)始點(diǎn),按照數(shù)組2來(lái)劃分。圖4為端點(diǎn)檢測(cè)流程圖。
圖3 端點(diǎn)檢測(cè)和單音符分割結(jié)果
圖4 端點(diǎn)檢測(cè)流程圖
通過(guò)時(shí)域分析端點(diǎn)檢測(cè)確定了樂(lè)音端點(diǎn)的起、止位置后,就可以將采集到的音頻信號(hào)分割成一個(gè)個(gè)單音信號(hào),并逐個(gè)對(duì)分割出的單音信號(hào)進(jìn)行頻域分析,得到每個(gè)音符的基頻頻率、音符時(shí)值等數(shù)據(jù),從而識(shí)別出音名和音符性質(zhì),實(shí)現(xiàn)樂(lè)音識(shí)別。
3.1 信號(hào)分解
端點(diǎn)檢測(cè)劃分的單個(gè)音符包含基音和由基音的整數(shù)倍頻率構(gòu)成的泛音,其中基音占有大部分能量,而泛音能量較小。我們必須分解出音符中的基音頻率,對(duì)比鋼琴的音符頻率表,從而識(shí)別出對(duì)應(yīng)音符。基音是由弦的振動(dòng)所形成的聲波當(dāng)中的最低頻率。離散小波變換在中、高頻分解頻率減小迅速,能夠很快地分解出基音所在的低頻帶。
當(dāng)前,在小波分析的研究領(lǐng)域,通常采用多分辨分解和合成的金字塔算法,即Mallat算法。Mallat算法是隨著尺度的不斷加深,在各個(gè)尺度上可以由粗到細(xì)地觀察分解出的高低頻信號(hào)。其基本思想是[15]:對(duì)原始信號(hào)進(jìn)行層分解,分解成一個(gè)分辨率為2的低頻信號(hào)和個(gè)高頻信號(hào)。
原始信號(hào)通過(guò)一母小波進(jìn)行的分解叫一級(jí)分解,尺度=1,得到兩個(gè)分量,低頻分量和高頻分量。信號(hào)可進(jìn)行多級(jí)分解[16]。如果對(duì)信號(hào)的高頻分量不再分解,而對(duì)低頻分量連續(xù)分解,就得到了小波分解的低頻分量。本文實(shí)驗(yàn)采用Daubechies小波對(duì)信號(hào)進(jìn)行分解,分解尺度每增加一級(jí),低頻分量的帶寬就縮小兩倍,分解出的低頻分量和高頻分量長(zhǎng)度相等。
圖5 4階小波分解樹(shù)
小波分解的尺度要適當(dāng)選擇,如果分解尺度過(guò)小,則分解出的低通分量就會(huì)包含較多的倍頻分量,會(huì)造成基音頻率識(shí)別混亂;如果分解尺度過(guò)大,則會(huì)連基音頻率也濾掉。適當(dāng)?shù)目刂菩〔ǖ屯ǚ纸獬叨?,就可以使低通分量只包含基音頻率分量[7]。本文通過(guò)實(shí)驗(yàn),選擇尺度=4較為適合。小波4級(jí)尺度分解即對(duì)原信號(hào)進(jìn)行一級(jí)分解后,對(duì)分解出的低頻分量連續(xù)進(jìn)行3次分解,那么最后得到的低頻系數(shù)即為我們要找的基音頻率分量。=4時(shí)的小波分解樹(shù)如圖5,有。
3.2 Gabor變換
Gabor變換是D. Gabor 1946年提出的。窗口傅里葉變換或短時(shí)傅里葉變換(以下統(tǒng)一簡(jiǎn)稱(chēng)為STFT)能夠完成局部分析的關(guān)鍵是“窗口”,窗口的尺度是局部性程度的表征[17]。當(dāng)窗函數(shù)取為高斯窗時(shí)一般稱(chēng)為Gabor變換。選高斯窗的原因在于:1)高斯函數(shù)的Fourier變換仍是高斯函數(shù),這使得Fourier逆變換也用窗函數(shù)局部化了,同時(shí)體現(xiàn)了頻率域的局部化;2)根據(jù)Heisenberg測(cè)不準(zhǔn)原理,高斯函數(shù)窗口面積已達(dá)到測(cè)不準(zhǔn)原理下界,是時(shí)域窗口面積達(dá)到最小的函數(shù),即Gabor變換是最優(yōu)的STFT。
離散Gabor變換的表達(dá)式如下[18]:
對(duì)小波分解出的各單音低頻信號(hào)進(jìn)行Gabor變換,變換后得到頻域矢量。因?yàn)轭l域矢量是一組復(fù)數(shù)數(shù)組,假設(shè)是第個(gè)復(fù)數(shù)的實(shí)部,是第個(gè)復(fù)數(shù)的虛部,對(duì)頻域矢量做取模運(yùn)算,得各頻率分量幅值:
(8)
當(dāng)取最大值時(shí),對(duì)應(yīng)的該點(diǎn)的頻率值即為所測(cè)單音符對(duì)應(yīng)的基音頻率值。找到該單音符對(duì)應(yīng)的基音頻率后,就可以對(duì)照鋼琴的音符頻率表(表1),識(shí)別出該音符。
計(jì)算每個(gè)音符的時(shí)值,通過(guò)時(shí)值可辨別音符性質(zhì),時(shí)值計(jì)算公式如下:
3.3 頻域分析結(jié)果
在音頻信號(hào)頻域處理階段,利用小波分解保留音頻的基音信號(hào),分離出干擾的泛音信號(hào),能最大程度的保留原始樂(lè)音信號(hào)的能量,再借助Gabor對(duì)基音信號(hào)進(jìn)行頻域轉(zhuǎn)換,實(shí)現(xiàn)對(duì)基音頻率的準(zhǔn)確檢測(cè),從而識(shí)別出單音音符。
通過(guò)多次實(shí)驗(yàn),對(duì)上述提出的端點(diǎn)檢測(cè)方法和DWT&Gabor樂(lè)音音符識(shí)別方法進(jìn)行實(shí)際驗(yàn)證,實(shí)驗(yàn)結(jié)果較為理想。以鋼琴曲《歡樂(lè)頌》為例,曲速96,即每分鐘演奏96個(gè)音符,該曲含63個(gè)音符,通過(guò)實(shí)驗(yàn),能有較好的識(shí)別效果,與實(shí)際樂(lè)譜比對(duì),檢測(cè)到的音符均與其一一對(duì)應(yīng)。如果錄制的曲子含有較大的噪聲,需先去噪,否則會(huì)影響實(shí)驗(yàn)結(jié)果。圖6為63個(gè)音符中第3個(gè)音符和第4個(gè)音符的信號(hào)波幅頻譜圖,橫坐標(biāo)為頻率,縱坐標(biāo)為取摸運(yùn)算后各頻率點(diǎn)對(duì)應(yīng)的幅值,圖中直線即為檢測(cè)到的基音頻率點(diǎn),同時(shí)可計(jì)算出該音符對(duì)應(yīng)的時(shí)值,得出音符性質(zhì)。
圖6 信號(hào)波幅頻譜圖
表2是經(jīng)過(guò)端點(diǎn)檢測(cè)和音符識(shí)別實(shí)驗(yàn)所得到的《歡樂(lè)頌》前1-20個(gè)音符的頻率、時(shí)值統(tǒng)計(jì)表。其中頻率的單位為Hz,時(shí)值的單位為頻率誤差=(測(cè)得頻率-標(biāo)準(zhǔn)頻率)/標(biāo)準(zhǔn)頻率*100,誤差為正數(shù),則表示測(cè)得數(shù)據(jù)大于標(biāo)準(zhǔn)數(shù)據(jù),誤差為負(fù)數(shù),則表示測(cè)得數(shù)據(jù)小于標(biāo)準(zhǔn)數(shù)據(jù)。時(shí)值項(xiàng),其實(shí)際的含義是決定樂(lè)音的延時(shí),用來(lái)區(qū)分是全音符、二分音符、四分音符等,例如:四分音符的標(biāo)準(zhǔn)時(shí)值是625,八分音符的時(shí)值是937.5。
通過(guò)多組樂(lè)曲檢測(cè),所測(cè)得的音名與樂(lè)譜標(biāo)準(zhǔn)音名一一對(duì)應(yīng),且測(cè)得頻率和標(biāo)準(zhǔn)頻率誤差在0.5%以內(nèi),具有較高的準(zhǔn)確度。測(cè)得的音符性質(zhì)與樂(lè)譜標(biāo)準(zhǔn)音符性質(zhì)也全部一一對(duì)應(yīng),但測(cè)得時(shí)值與標(biāo)準(zhǔn)時(shí)值有時(shí)在遇到休止符、附點(diǎn)音符、連音符時(shí)會(huì)出現(xiàn)誤差較大的情況,分析原因可能有以下兩種:(1)單音持續(xù)時(shí)間短,時(shí)值以為單位,彈奏時(shí)難免會(huì)有時(shí)間上的誤差,彈奏者在音符的停頓上沒(méi)控制好,這種情況造成的時(shí)值誤差可正可負(fù)。(2)端點(diǎn)檢測(cè)靜音段的短時(shí)能量或短時(shí)過(guò)零率不一定為0,不為0的原因可能是由于該段含噪聲造成的,造成靜音開(kāi)始點(diǎn)檢測(cè)滯后,這種情況下造成的時(shí)值誤差一定為正。雖然有誤差,但檢測(cè)出的各單音對(duì)應(yīng)的音名、音符性質(zhì)與標(biāo)準(zhǔn)的音名、音符性質(zhì)完全相同,音頻信號(hào)識(shí)別的目的已達(dá)到,識(shí)別效果較為理想。總體來(lái)說(shuō),通過(guò)進(jìn)行多次實(shí)驗(yàn)比對(duì),運(yùn)用本文提到的樂(lè)音識(shí)別方法進(jìn)行檢測(cè),得到的實(shí)驗(yàn)結(jié)果較為理想,所檢測(cè)到的音名和音符性質(zhì)均與樂(lè)譜標(biāo)準(zhǔn)音名和音符性質(zhì)相對(duì)應(yīng)。
表2 音符頻率、時(shí)值統(tǒng)計(jì)表
本文通過(guò)對(duì)樂(lè)音進(jìn)行時(shí)域分析和頻域分析,對(duì)樂(lè)音識(shí)別開(kāi)始了初步探索,初始目標(biāo)樂(lè)音識(shí)別基本實(shí)現(xiàn)。利用樂(lè)音的時(shí)域特征:短時(shí)能量和短時(shí)過(guò)零率,通過(guò)設(shè)定閾值的方式來(lái)進(jìn)行端點(diǎn)檢測(cè),從而把單音符分割出來(lái)。對(duì)于檢測(cè)到的音符,使用離散小波變換進(jìn)行尺度分解,可以將樂(lè)音有效頻率成分保留在基音頻率附近,不含高頻泛音分量,再使用Gabor變換,求得該音符的基音頻率。
本文的選題從作曲人士的實(shí)際需求出發(fā),實(shí)驗(yàn)誤差較小,取得了比較好的檢測(cè)效果。但目前該方法僅對(duì)單聲部旋律有較好的識(shí)別效果,對(duì)于復(fù)雜的和弦樂(lè)音,該方法還無(wú)法檢測(cè)出端點(diǎn),需要再進(jìn)一步研究分割和弦的算法,這成為下一步要解決的主要目標(biāo)。
[1] 徐國(guó)慶, 張彥鐸, 王海暉. 樂(lè)音旋律識(shí)別研究[J]. 武漢: 武漢工程大學(xué)學(xué)報(bào), 2007(2): 60-67.
[2] Wang K C. Time-Frequency feature representation using multi-resolution texture analysis and acoustic activity detector for real-life speech emotion recognition [J]. Sensors, 2015, 15(1): 1458- 1478.
[3] ATTABI Y, DUMOUCHEL P. Anchor models for emotion recognition from speech [J]. IEEE Transactions on Affective Computing, 2013, 4(3): 280-290.
[4] RAMAKRISHNAN S, EMARY I E. Speech emotion recognition approaches in human computer interaction [J]. Telecommunication Systems, 2013, 52(3): 1467-1478.
[5] Campbell J P. Speaker recognition: a tutorial [J]. Proceedings of the IEEE, 1997, 85(9): 1437-1462.
[6] Reynolds D A. An overview of automatic speaker recognition technology[C]. Proceedings of the 2002 IEEE International Conference on Acoustics, Speech and Signal Processing, 2002: 4072- 4075.
[7] 徐國(guó)慶, 楊丹. 小波變換與FFT聯(lián)合識(shí)別樂(lè)音[J]. 重慶: 重慶大學(xué)學(xué)報(bào)(自然科學(xué)版), 2005(12): 50-54.
[8] 徐國(guó)慶, 楊丹, 王彬潔. FRED和DWT在樂(lè)音音符識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2005(18): 190-195.
[9] 徐國(guó)慶, 楊丹, 王彬潔. 樂(lè)音識(shí)別方法及應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2005(4): 968-972.
[10] 徐國(guó)慶. 樂(lè)音識(shí)別技術(shù)研究及應(yīng)用[D]. 重慶: 重慶大學(xué), 2005.
[11] 劉波, 聶明新, 向俊濤. 基于短時(shí)能量和過(guò)零率分析的語(yǔ)音端點(diǎn)檢測(cè)方法研究[J]. 中國(guó)科技論文, 2007: 1-5.
[12] 劉偉. 音樂(lè)音符識(shí)別的方法[D]. 吉林: 吉林大學(xué), 2008.
[13] 王婷. 基于IOS平臺(tái)的樂(lè)音識(shí)別關(guān)鍵技術(shù)研究與設(shè)計(jì)[D]. 中國(guó)海洋大學(xué), 2012.
[14] 趙力. 語(yǔ)音信號(hào)處理[M]. 機(jī)械工業(yè)出版社, 2009.
[15] Chien Jentzune, Wu Chinachen. Discriminant wavelet faces and nearest feature classifiers for face recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(12): 1644-1649.
[16] Zhao Minghua, Li Peng, Liu Zhifang.Face recognition based on wavelet transform weighted modular PCA[C]. Proceedings of IEEE Conference on Image and Signal Processing, 2008: 589-593.
[17] Chan C, Pang G K. Fabric defect detection by Fourier analysis [J]. IEEE Transactions on Industry Applications, 2000, 36(5), 1267-1276.
[18] Mak K L, Peng P, Yiu K F C. Fabric defect detection using multi-level tuned-matched Gabor filters [J]. Journal of Industrial and Management Optimization, 2012, 8(2): 325-341.
Analysis and Recognition of Audio Signal Based on Time-Frequency Transformation
LIU Yuqing*, LIU Yanfang
(Institute of Information Engineering, Longyan University, Longyan Fujian 364000, China)
The recognition of audio signal is the basis of automatic-composing music in computer, thus it has great application value in music creation. In this paper, the time-domain analysis and frequency-domain analysis are carried out for the collected audio signal to realized endpoint detection and notes recognition. Firstly, short-time energy and short-time zero-crossing rate are used in endpoint detection and single note segmentation; secondly, through frequency-domain analysis, the time-frequency transformation of the segmented single note is performed by wavelet decomposition and Gabor transformation. After removing the harmonic interference, the pitch frequency which is corresponding to the single tone is recognized; finally, those recognized pitch frequencies are matched to the music notes. The experimental results indicate that when this method is applied, the accuracy rate of the recognition is high while the error is small.
audio signal recognition; single note segmentation; time-frequency transformation; short-term energy; short-time zero crossing rate; feature extraction
1672-9129(2016)02-0041-06
TP391.42
A
2016-09-10;
2016-09-29。
國(guó)家自然科學(xué)基金面上項(xiàng)目(61379089),龍巖學(xué)院百名青年教師攀登項(xiàng)目(LQ2015031),龍巖學(xué)院協(xié)同創(chuàng)新項(xiàng)目(張凌)。
劉雨青(1990-),女,福建龍巖,龍巖學(xué)院教師,研究生,主要研究方向:信號(hào)處理、多媒體分析、數(shù)據(jù)挖掘;劉艷芳(1987-),女,河南省濮陽(yáng)市,龍巖學(xué)院教師,研究生,主要研究方向:粗糙集與粒計(jì)算、人工智能和機(jī)器學(xué)習(xí)。
(*通信作者電子郵箱lyqfjnu@163.com)