黃英來 任田麗 趙鵬
摘 要:針對樂器音頻信號的識別率低的問題,提出了一種變分模態(tài)分解( VMD)和被粒子群算法(PSO)優(yōu)化的支持向量機(SVM)的樂器音頻信號識別的方法。采用VMD將樂器音頻信號分解成一系列平穩(wěn)的窄帶分量(IMF),并根據(jù)相關系數(shù)重構信號,采用小波去除殘余的噪聲。最后,在分析傳統(tǒng)的聲音特征提取方法基礎上,提取梅爾頻率倒譜系數(shù)(MFCC),用經(jīng)PSO尋優(yōu)參數(shù)的SVM進行音頻信號的分類。實驗結果表明,本文算法的去噪效果明顯優(yōu)于經(jīng)驗模態(tài)分解(EMD)和集合經(jīng)驗模態(tài)分解(EEMD)的分析結果;PSO優(yōu)化后的SVM有效的提高了噪聲環(huán)境下音頻信號分類的正確率。
關鍵詞:變分模態(tài)分解;小波去噪;梅爾頻率倒譜系數(shù);粒子群算法;支持向量機
DOI:10.15938/j.jhust.2018.02.002
中圖分類號: TP391
文獻標志碼: A
文章編號: 1007-2683(2018)02-0006-06
Abstract:Proposing the method that based on the variational mode decomposition (VMD)and particle swarm optimization (PSO)optimized support vector machine (SVM)are used to recognize the audio signals of the musical instruments aiming at the problem of the low recognition rate of musical instruments audio signals. In this paper, firstly, the instrument audio signals are decomposed into a series of stable narrowband components (IMF)by VMD. After decomposition, according to the correlation coefficient we reconstruct the signals, then using the wavelet to remove the residual noises. Finally, based on the analysis of the traditional sound features extraction method, extracting the Mel frequency cepstral coefficients (MFCC)and then SVM whose parameters are optimized by PSO is used to recognize the audio signals. This expserimental results show that the denoising effect of the proposed algorithm in this paper is better than that of empirical mode decomposition (EMD)and ensemble empirical mode decomposition (EEMD); SVM optimized by PSO effectively improve the accuracy of audio signals classification in noisy environment.
Keywords:variational mode decomposition;wavelet denoising; Mel frequency cepstral coefficients; particle swarm optimization; support vector machine
0 引 言
樂器的分類識別[1]是指對待識別音頻信號的音色進行分析,進而識別出樂器種類。樂器識別[2]在音頻的自動檢索和分類的方面發(fā)揮著較大的作用,此工作對于具有較強的音樂功底的人來說較容易較高的識別率,但是大部分的人沒有較強的音樂功底,所以必須教會計算機如何自動識別樂器音頻種類,從而達到準確識別樂器音頻信號的種類和省時省力的目的。
在聲音產(chǎn)生、處理、傳輸過程中都或多或少的摻雜著不同的噪聲,幾乎不存在純凈的噪聲,所以,一般聲音識別[3]系統(tǒng)需要對充滿復雜多樣的噪聲以及信噪比多變得聲音進行去噪[4]、提取特征[5]、分類[6]。
近年來,國內(nèi)外眾多專家學者對聲音去噪采取了很多方法:小波變換、經(jīng)驗模態(tài)分解(empirical mode decomposition , EMD)、獨立分量分析(independent component analysis, ICA)、集合經(jīng)驗模態(tài)分解(ensemble empirical mode decomposition, EEMD)等。其中,傳統(tǒng)的ICA[7]具有相位、幅值、輸出順序不確定性;小波變換存在時域分辨率低;EMD[8]存在模態(tài)混疊和端點效應;EEMD[9]是優(yōu)化后的EMD,雖然其成功解決了EMD的模態(tài)混疊,但是增加了計算量且不能完全去除高斯白噪聲,依然存在端點效應。針對這些算法的各種問題,本文提出了一種基于變分模態(tài)分解(variational mode decomposition, VMD)與小波變換相結合的聲音去噪算法。VMD[10]是由 Dragomiretskiy K提出的克服EMD的模態(tài)混疊的一種完全非遞歸的去噪算法,其運算效率高而且去噪效果更令人滿意。然而VMD無法一步到位的完全實現(xiàn)對聲音信號與噪聲信號的分離,所以根據(jù)經(jīng)VMD分解后的各分量與原始聲音信號的相關系數(shù)來重構信號,之后再用小波變換繼續(xù)去除剩余的噪聲。
目前,最常用的特征參數(shù)主要有線性預測倒譜系數(shù)( linear prediction cepstral coefficent,LPCC )和梅爾頻率倒譜系數(shù)(mel frequency cepstrum coefficent,MFCC)。LPCC[11]不能很好地區(qū)分清音和濁音。而且LPCC 對噪聲敏感,在外界存在干擾時,識別率會大大降低。MFCC[12]主要描述的是聲音信號在頻率域上的能量分布,其能夠較好地模擬人耳聽覺系統(tǒng)的感知能力。因此,本文在對聲音信號去噪后提取聲音特征MFCC。
支持向量機(support vector machine,SVM)在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。一般常用的用于優(yōu)化SVM[13]參數(shù)從而提高識別率的算法有遺傳算法(genetic algorithm,GA)與粒子群算法(particle swarm optimization,PSO)。PSO與GA都致力于在自然特性的基礎上來模擬個體種群的適應性,均利用一定的變換規(guī)則通過搜索空間來求最優(yōu)解。然而,PSO[14]沒有GA的交叉和變異操作,而是根據(jù)自己的速度阿里決定搜索;PSO有記憶,GA[15]沒有記憶;在GA算法中,染色體之間相互共享信息,PSO[16]算法中的粒子僅僅通過當前搜索到最優(yōu)點進行共享信息。所以,在大多數(shù)情況下,PSO[17]可能比GA更快地收斂于最優(yōu)解。本文采用PSO優(yōu)化SVM的參數(shù),從而提高樂器音頻信號分類的正確率。
1 VMD算法
VMD是一種自適應的時頻分析算法,算法不復雜,計算量小。其假設分解后的 每個分量IMF具有不同的中心頻率,其通過不斷迭代來更新各個有限帶寬以及其相應的中心頻率,從而得到若干個時域的模態(tài)分量。VMD自適應地分解聲音信號為若干個分量的過程主要是由變分問題的構造與求解組成。
1.1 變分問題的構造
1)每個模態(tài)經(jīng)過Hilbert變換計算相應的解析信號,從而得到其單邊頻譜如式(1)所示:
3)計算以上解調(diào)信號的梯度的二范數(shù),從而對各個模態(tài)的帶寬進行估計,得到一個變分約束問題如式(3):
1.2 變分問題的求解
1)為了有效的求解上述變分約束問題的最優(yōu)解,VMD算法引入了二次懲罰因子α和拉格朗日乘法算子λt,來把約束性變分問題變?yōu)榉羌s束性變分問題。構成的增廣拉格朗日表達式如式(4)所示:
2 基于VMD和小波去噪的算法
為了減少混合聲音中的有用的樂器音頻信號的損失,經(jīng)過VMD算法重構的聲音是含有少量噪聲的聲音信號。所以,本文提出了基于VMD和小波去噪的算法,從而有效的保留有用的聲音信號,去除噪聲。具體的去噪步驟如下所示:
1)采用VMD算法對含有噪聲的樂器音頻信號進行分解,得到一系列的IMF。
2)計算各個IMF與純凈樂器音頻信號的相關系數(shù),根據(jù)相關系數(shù)最大準則選擇含有少量噪聲的IMF作為主分量,并用主分量重構信號。
3)采用小波[18]對重構的樂器音頻信號進行后續(xù)去噪。其中,本文選擇VisuaShrink閾值準則的軟閾值函數(shù)的小波進行去噪。每個分解尺度采用不同的閾值,閾值T求解公式如式(9)所示:
3 PSO算法
PSO算法的基本思想是通過群體中個體之間的相互協(xié)作和共享信息來搜索最優(yōu)解的。在搜索最優(yōu)解的過程中,全局搜索能力與局部搜索能力的平衡關系對于成功求解最優(yōu)解起著至關重要的作用。
4 實驗結果與分析
本實驗選用二胡、鋼琴、古箏、嗩吶等4種樂器作為樂器識別的種類。本實驗將每個樂器音頻文件切分成長度為1s的音頻文件,本文分別采集這4種樂器各250個樣本。
在預處理過程中,聲音信號加窗處理時采用漢明窗,幀長設置為256個樣本點,幀移設置為128個樣本點。在小波去噪過程中,本實驗采用sym8小波基作為小波分解的基函數(shù),分解層數(shù)為5層。本文提取12維的MFCC特征。本文采用5折交叉驗證的SVM對特征參數(shù)進行訓練與識別,其中,SVM采用徑向基核函數(shù)作為核函數(shù)。
4.1 實驗一:去噪
從二胡、嗩吶、鋼琴、古箏的音頻樣本中隨機取出一個音頻樣本,這個被選擇的音頻樣本如圖1中的源音頻信號所示,向該音頻信號里加入-5dB的高斯白噪聲,圖1中的純凈音頻對應的混合音頻信號如2所示。圖1和圖2的橫坐標均為時間,縱坐標均為幅值。從圖1、2中可以看出,圖1與圖2相差甚遠;當原始聲音信號與高斯白噪聲混合在一起時,原始音頻信號完全被高斯白噪聲污染了,混合音頻信號的時域波形嚴重失真了。
為了驗證VMD[19]算法去噪性能的優(yōu)越性,所以本文分別應用EMD算法,EEMD算法、VMD算法進行該混合音頻信號的去噪實驗。由于EMD算法與EEMD算法都無法確定分解的模態(tài)分量的數(shù)量,所以本文只展示它們的前8階IMF的時域波形圖。
圖3是EMD處理本文的混合信號的前4階IMF時域波形圖,圖4是EMD處理本文的混合信號的5~8階IMF時域波形圖。從圖3、4可以看出,通過EMD分解的前8階IMF對噪聲較為敏感,在分解過程中出現(xiàn)了端點效應。
圖5是EEMD處理本文的混合信號的前4階IMF時域波形圖,圖6是EEMD處理本文的混合信號的5~8階IMF時域波形圖。從圖5、6中可以看出,通過EEMD分解的前8階IMF的過程中也出現(xiàn)了端點效應,使得分解結果失真嚴重。
在利用VMD算法對信號進行變分模態(tài)分解前,必須要確定分解后的模態(tài)數(shù)量(K)。VMD算法對預處理之后的混合音頻信號進行分解得到多個變分模態(tài)分量以及各個分量相對應的中心頻率。由于每個變分模態(tài)分量是以中心頻率的大小來區(qū)分的,所以可以通過觀察對比分析各個模態(tài)分量的中心頻率來確定最適合的K值。本文判定當一次分解后,如果有兩個分量的中心頻率相差小于1000Hz時,則認為是過度分解。本文實驗對該混合音頻信號應用不同的K值來分解,分解后獲得的相應的中心頻率如表1所示。
從表1中可以看出:當K=5時,IMF4與IMF5的中心頻率分別3760.4Hz、4642.6Hz,兩者相差小于1000Hz,過度分解了。所以,本文的VMD分解實驗設置K=4。圖7是混合信號經(jīng)過VMD算法分解后得到的4個IMF的時域波形圖。
本文先分別計算由EMD、EEMD、VMD得到的各個分量與純凈聲音信號的相關系數(shù),然后分別選擇最大的分量分別進行聲音重構。EMD算法選擇第7個IMF進行聲音重構,EEMD算法選擇第6個IMF進行重構聲音,VMD算法選擇第1個IMF進行重構聲音。圖8~10分別是EMD、EEMD、VMD重構的聲音信號在時域的波形圖。
從圖8~10中的各個時域波形圖可以看出:EMD算法重構的聲音信號與原始純凈聲音相差大;EEMD去除噪聲的同時,也去除了大量有用的信息,而且有大量的高斯白噪聲被保存了下來;EEMD算法得到的重構聲音中除了保留了大量的高斯白噪聲,重構聲音的幅值與原始聲音相差較大;VMD算法去除了大部分高斯白噪聲,只余少量噪聲,其重構的聲音波形圖與原始聲音的波形最為相似,波形失真較小。因此,在對樂器音頻信號去噪試驗中, VMD算法比EMD算法和EEMD算法有更好的去噪效果,VMD算法重構的聲音信號的信噪比為2.426dB。
本文通過小波對VMD算法重構的聲音信號去噪后得到的波形圖如圖11所示。
從圖11中可以看出,小波將有用的聲音與高斯白噪聲相互分離,去噪后的波形圖更接近于原始聲音波形,小波后續(xù)去噪后得到的聲音信號的信噪比為4.116dB。
4.2 實驗二:分類
通過實驗一可知,VMD與小波聯(lián)合的去噪方法去噪效果好,所以本文在提取小波去噪后的聲音信號的MFCC特征后,通過用PSO算法優(yōu)化參數(shù)的SVM算法對樂器音頻信號進行分類。
為了驗證被PSO算法優(yōu)化的SVM能更好的提高分類的準確率,本文對比分析用不同分類方法進行樂器音頻信號分類的識別率大小。不同分類方法的識別率如表2所示,從表2可以看出PSO比GA對SVM有更好的優(yōu)化能力;在SVM、被GA優(yōu)化的SVM與被PSO優(yōu)化的SVM這3種分類方法中,本文采取的分類方法獲得了最高的識別率。
5 結 論
本文先利用VMD算法去除樂器音頻信號的大部分噪聲,接著用小波進行后續(xù)去噪,然后提取MFCC[20]特征,最后用被PSO優(yōu)化的SVM進行訓練與識別,從而達到對樂器音頻信號進行樂器種類識別的目的。本文通過仿真實驗分別進行EMD[21]、EEMD[22]與VMD的去噪效果對比分析、音頻種類的識別率的對比分析,從而得出本文的算法適合于樂器音頻信號的分類識別的結論。但是本文的研究對象是單個樂器獨奏的音頻信號,所以對于多個樂器的交響樂信號的處理仍需要后續(xù)的不斷研究。
參 考 文 獻:
[1]SULAM JEREMIAS, ROMANO YANIV, RAMDAS RONEN. Dynamical System Classification with Diffusion Embedding for ECG-Based Person Identification[J]. Signal Processing, 2016(130):403-411.
[2]王琪.西洋樂器的音色識別[D].濟南:山東大學,2015.
[3]REMES U, JUVELA L, BROWN G J, et al. Comparing Human and Automatic Speech Recognition in a Perceptual Restoration experiment[J]. Computer Speech & Language, 2016, 35:14-31.
[4]RAMDAS V, GORTHI S S R K, MISHRA D. Simultaneous Speech Coding and De-noising in a Dictionary Based Quantized CS Framework[J]. International Journal of Speech Technology, 2016, 19(3):509-523.
[5]LI K, WU X, MENG H. Intonation Classification for L2 English Speech Using Multi-distribution Deep Neural Networks[J]. Computer Speech & Language, 2016, 43:18-33.
[6]姚登舉, 詹曉娟, 張曉晶. 一種加權K-均值基因聚類算法[J]. 哈爾濱理工大學學報, 2017, 22(2):112-116.
[7]DU W, LEVINSCHWARTZ Y, FU G S, et al. The Role of Diversity in Complex ICA Algorithms for fMRI Analysis.[J]. Journal of Neuroscience Methods, 2016, 264:129-135.
[8]肖瑛, 殷福亮. 解相關 EMD:消除模態(tài)混疊的新方法[J]. 振動與沖擊, 2015, 34(4):25-29.
[9]WANG X, AN K, TANG L, et al. Short Term Prediction of Freeway Exiting Volume Based on SVM and KNN[J]. International Journal of Transportation Science & Technology, 2015, 4(3):337-352.
[10]LIU Y, YANG G, LI M, et al. Variational Mode Decomposition Denoising Combined the Detrended Fluctuation Analysis[A]. Signal Processing, 2016, 125:349-364.
[11]黃羿博,張秋余,袁占亭,等.融合MFCC和LPCC的語音感知哈希算法[J].華中科技大學學報(自然科學版),2015,43(2):124-128.
[12]王民,曹清菁,贠衛(wèi)國,等.改進MFCC算法在朱鹮鳴聲個體識別中的應用[J].計算機工程與科學,2016,38(5):1052-1056.
[13]ZHANG M, JIAN T, ZHANG X, et al. Intelligent Diagnosis of Short Hydraulic Signal Based on Improved EEMD and SVM with Few Low-dimensional Training Samples[J]. Chinese Journal of Mechanical Engineering, 2016, 29(2):396-405.
[14]陸真,裴東興,劉莉,等.基于改進小波閾值函數(shù)和PSO的語音增強算法[J].激光雜志,2016,37(2):141-145.
[15]劉愛國,薛云濤,胡江鷺,等.基于GA優(yōu)化SVM的風電功率的超短期預測[J].電力系統(tǒng)保護與控制,2015,43(2):90-95.
[16]王廣澤.改進粒子群算法在供應鏈庫存控制中的應用[J]. 哈爾濱理工大學學報, 2016,21(5):90-95.
[17]于桂芹, 李劉東, 袁永峰. 一種結合自適應慣性權重的混合粒子群算法[J]. 哈爾濱理工大學學報, 2016, 21(3):49-53.
[18]楊岳飛, 劉輝, 譚檢平. 帶噪語音信號小波去噪算法研究[J]. 計算機工程與應用, 2015, 51(14):211-213.
[19]ABDOOS A A, MIANAEI P K, GHADIKOLAEI M R. Combined VMD-SVM Based Feature Selection Method for Classification of Power Quality Events[J]. Applied Soft Computing, 2016, 38:637-646.
[20]BORDE P, VARPE A, MANZA R, et al. Recognition of Isolated Words Using Zernike and MFCC Features for Audio Visual Speech Recognition[J]. International Journal of Speech Technology, 2015, 18(2):167-175.
[21]李輝, 李洋, 楊東,等. 基于EMD相關去噪的風電機組振動噪聲抑制及特征頻率提取[J]. 電機與控制學報, 2016, 20(1):73-80.
[22]VOKELJ M, ZUPAN S, PREBIL I. EEMD-based Multiscale ICA Method for Slewing Bearing Fault Detection and Diagnosis[J]. Journal of Sound & Vibration, 2016, 370:394-423.
(編輯:溫澤宇)