周婧 范凌云
摘 要: 為了提高電子音樂(lè)識(shí)別精度,更快從海量電子音樂(lè)中找到用戶(hù)真正需要的電子音樂(lè),提出基于最小二乘支持向量機(jī)的電子音樂(lè)識(shí)別模型。首先收集電子音樂(lè)的數(shù)據(jù),并采用小波分析對(duì)電子音樂(lè)數(shù)據(jù)進(jìn)行去噪處理,然后提取電子音樂(lè)的特征,并對(duì)特征進(jìn)行歸一化處理,最后采用最小二乘支持向量機(jī)對(duì)處理后的電子音樂(lè)數(shù)據(jù)進(jìn)行訓(xùn)練,建立電子音樂(lè)識(shí)別模型。采用具體電子音樂(lè)數(shù)據(jù)對(duì)模型的有效性進(jìn)行驗(yàn)證,結(jié)果表明,與傳統(tǒng)電子音樂(lè)識(shí)別模型相比,支持向量機(jī)對(duì)噪聲數(shù)據(jù)具有良好的魯棒性,可以有效識(shí)別各種類(lèi)型的電子音樂(lè),而且電子音樂(lè)的識(shí)別速度更優(yōu)。
關(guān)鍵詞: 電子音樂(lè); 短時(shí)特征; 特征向量歸一化; 最小二乘支持向量機(jī); 噪聲魯棒性; 識(shí)別速度
中圖分類(lèi)號(hào): TN911?34; TP391.9 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)09?0109?04
Abstract: In order to improve the recognition accuracy of electronic music, quickly find the electronic music needed by user in massive electronic music, an electronic music recognition model based on least square support vector machine is proposed. The electronic music data is acquired, and denoised with wavelet analysis. The characteristic of electronic music is extracted and normalized. The least square support vector machine is used to train the processed electronic music data, and establish the electronic music recognition model. The specific electronic music data is adopted to verify the effectiveness of the model. The results show that, in comparison with the traditional electronic music recognition model, the proposed model based on support vector machine has stronger robustness for noise data, can identify the various types of electronic music effectively, and its recognition speed is faster.
Keywords: electronic music; short?time feature; eigenvector normalization; least square support vector machine; noise robustness; recognition speed
0 引 言
隨著互聯(lián)網(wǎng)快速的發(fā)展,近幾年產(chǎn)生了大量的多媒體數(shù)據(jù),電子音樂(lè)是一種最常用的多媒體數(shù)據(jù)。面對(duì)海量的電子音樂(lè)數(shù)據(jù),如何建立理想的電子音樂(lè)識(shí)別模型,快速、準(zhǔn)確地從中獲得用戶(hù)感興趣、喜歡的電子音樂(lè)是當(dāng)前面臨的一個(gè)挑戰(zhàn)[1?3]。
電子音樂(lè)識(shí)別,顧名思義就是對(duì)電子音樂(lè)進(jìn)行分類(lèi),本質(zhì)上是一種模式分類(lèi)的過(guò)程,該過(guò)程涉及到許多方面的學(xué)科,如心理學(xué)、信號(hào)處理、模式識(shí)別等,是一個(gè)十分復(fù)雜的過(guò)程[4]。在網(wǎng)絡(luò)中的電子音樂(lè)數(shù)據(jù)與現(xiàn)實(shí)生活中的數(shù)據(jù)格式不同,其有自身的特殊格式,因此,有學(xué)者提出基于內(nèi)容的電子音樂(lè)識(shí)別模型,它們提取電子音樂(lè)的均值、自相關(guān)系數(shù)作為特征,然后建立電子音樂(lè)識(shí)別模型,有學(xué)者提出基于MCC的電子音樂(lè)識(shí)別模型[5?6],將電子音樂(lè)的MCC能量作為特征對(duì)電子音樂(lè)內(nèi)容進(jìn)行描述,并采用歐氏距離構(gòu)建電子音樂(lè)識(shí)別的分類(lèi)器[7]。隨后有研究人員提出將MCC、基音頻率作為電子音樂(lè)識(shí)別的特征向量,通過(guò)K最近鄰作為分類(lèi)器,實(shí)現(xiàn)電子音樂(lè)識(shí)別[8]。這些電子音樂(lè)識(shí)別模型均有各自的優(yōu)點(diǎn)和缺陷,如K最近鄰分類(lèi)器的工作速度快,但是電子音樂(lè)識(shí)別精度低,歐氏距離的識(shí)別速度慢[9],近幾年,出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)識(shí)別模型,該模型通過(guò)神經(jīng)網(wǎng)絡(luò)的自動(dòng)、智能學(xué)習(xí)能力對(duì)電子音樂(lè)進(jìn)行分類(lèi),獲得了比較理想的電子音樂(lè)識(shí)別效果,但神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較復(fù)雜,需要同類(lèi)電子音樂(lè)識(shí)別樣本數(shù)量大,而且學(xué)習(xí)過(guò)程中收斂性能差,電子音樂(lè)識(shí)別的效果有待進(jìn)一步改善[10?12]。
針對(duì)當(dāng)前電子音樂(lè)識(shí)別無(wú)法描述電子音樂(lè)的類(lèi)別,存在識(shí)別精度低等難題,為了提高電子音樂(lè)識(shí)別精度,更快地從海量電子音樂(lè)中找到用戶(hù)真正需要的電子音樂(lè),提出基于最小二乘支持向量機(jī)的電子音樂(lè)識(shí)別模型。結(jié)果表明,最小二乘支持向量機(jī)可以有效識(shí)別各種類(lèi)型的電子音樂(lè),而且電子音樂(lè)的識(shí)別速度更優(yōu)。
1 小波分析和最小二乘支持向量機(jī)
1.1 小波分析
小波分析可以對(duì)一維信號(hào)進(jìn)行不同分辨率的分解,將原始信號(hào)進(jìn)行細(xì)化處理,這樣可以去掉其中的噪聲,提高信號(hào)的信噪比,便于信號(hào)的后續(xù)處理。通常情況下選擇Mallat算法對(duì)信號(hào)進(jìn)行分解和重構(gòu),信號(hào)分解形式可以采用式(1)進(jìn)行描述:
1.2 最小二乘支持向量機(jī)
當(dāng)前支持向量機(jī)的類(lèi)型很多,相對(duì)于其他類(lèi)型的支持向量機(jī),最小二乘支持向量機(jī)的學(xué)習(xí)速度更快,而且基于統(tǒng)計(jì)學(xué)習(xí)理論和VC維理論進(jìn)行建模,泛化能力優(yōu)異。
2 最小二乘支持向量機(jī)的電子音樂(lè)識(shí)別模型
2.1 提取特征
電子音樂(lè)信號(hào)的能量隨著時(shí)間的變化發(fā)生相應(yīng)的改變,短時(shí)能量是電子音樂(lè)最常用的一種特性,噪聲的平均能量低,有效的電子音樂(lè)信號(hào)能量高,而且不同音符的能量是不同的,設(shè)語(yǔ)音信號(hào)[{x(n)}]的短時(shí)平均能量為[En,]計(jì)算公式為:
2.2 電子音樂(lè)的分類(lèi)器
電子音樂(lè)一般有很多種類(lèi)型,如流行音樂(lè)、古典音樂(lè)等,而最小二乘支持向量只能設(shè)計(jì)二分類(lèi)的電子音樂(lè)識(shí)別分類(lèi)器,因此采用圖1的方式建立電子音樂(lè)識(shí)別的多分類(lèi)器。
3 仿真實(shí)驗(yàn)
3.1 數(shù)據(jù)來(lái)源
采用Cool Edit Pro軟件采集電子音樂(lè)數(shù)據(jù),并采用Matlab 2014軟件進(jìn)行仿真實(shí)驗(yàn),電子音樂(lè)的類(lèi)型為流行音樂(lè)、民歌、古代器樂(lè)、戲曲,它們的樣本數(shù)量如表1所示。
3.2 電子音樂(lè)識(shí)別模型的具體實(shí)現(xiàn)過(guò)程
首先對(duì)電子音樂(lè)進(jìn)行分幀處理,相鄰幀有一定的重復(fù),保持電子音樂(lè)的短時(shí)平穩(wěn),然后采用小波分析對(duì)電子音樂(lè)信息進(jìn)行去噪處理,然后提取相應(yīng)的特征,并采用式(19)對(duì)特征進(jìn)行預(yù)處理,最后采用訓(xùn)練樣本對(duì)最小二乘支持向量機(jī)進(jìn)行學(xué)習(xí),建立電子音樂(lè)識(shí)別的分類(lèi)器。
3.3 結(jié)果與分析
選擇BP神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),統(tǒng)計(jì)它們的電子音樂(lè)平均識(shí)別精度,如圖2所示。由圖2可知:
1) BP神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)識(shí)別精度低,而且電子音樂(lè)的識(shí)別結(jié)果不穩(wěn)定,這是因?yàn)锽P神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)過(guò)擬合的電子音樂(lè)識(shí)別結(jié)果,導(dǎo)致電子音樂(lè)的識(shí)別誤差大。
2) 相對(duì)BP神經(jīng)網(wǎng)絡(luò),最小二乘支持向量機(jī)的電子音樂(lè)識(shí)別精度明顯提高,這是因?yàn)樽钚《酥С窒蛄繖C(jī)的學(xué)習(xí)性能更優(yōu),建立高精度的電子音樂(lè)識(shí)別模型,有效降低了電子音樂(lè)的識(shí)別誤差。
統(tǒng)計(jì)不同模型的電子音樂(lè)平均識(shí)別時(shí)間,結(jié)果如圖3所示。對(duì)電子音樂(lè)的平均時(shí)間進(jìn)行對(duì)比和分析可知,最小二乘支持向量機(jī)的電子音樂(lè)平均識(shí)別時(shí)間更短,這主要是由于通過(guò)小波分析消除了原始電子音樂(lè)信號(hào)中的噪聲,加快了電子音樂(lè)特征的提取速度,并有利于最小二乘支持向量機(jī)建立電子音樂(lè)的分類(lèi),加快了電子音樂(lè)的建模速度,可以更好地滿(mǎn)足海量電子音樂(lè)的在線檢索要求。
4 結(jié) 論
電子音樂(lè)識(shí)別的研究具有重要實(shí)際價(jià)值,針對(duì)當(dāng)前電子音樂(lè)識(shí)別精度低等難題,提出基于最小二乘支持向量機(jī)的電子音樂(lè)識(shí)別模型,通過(guò)仿真實(shí)驗(yàn)可以得到如下結(jié)論:
1) 通過(guò)小波分析對(duì)電子音樂(lè)數(shù)據(jù)進(jìn)行去噪處理,消除了噪聲對(duì)電子音樂(lè)建模過(guò)程的干擾,提高了電子音樂(lè)數(shù)據(jù)的信噪比,有利于后續(xù)的電子音樂(lè)識(shí)別建模。
2) 提取多種短時(shí)特征,通過(guò)短時(shí)特征對(duì)電子音樂(lè)的類(lèi)型進(jìn)行描述,可以更加有效地區(qū)別電子音樂(lè)的類(lèi)型。
3) 采用最小二乘支持向量機(jī)對(duì)處理后的電子音樂(lè)數(shù)據(jù)進(jìn)行訓(xùn)練,建立電子音樂(lè)識(shí)別模型,能夠描述電子音樂(lè)的內(nèi)容,提高了電子音樂(lè)的識(shí)別精度。
4) 與其他電子音樂(lè)識(shí)別模型相比,本文的電子音樂(lè)識(shí)別模型的執(zhí)行速度更快,可以在短時(shí)間內(nèi)找到用戶(hù)所需要的電子音樂(lè),具有更高的實(shí)際應(yīng)用價(jià)值。
5) 在基于最小二乘支持向量機(jī)的電子音樂(lè)識(shí)別建模過(guò)程中,參數(shù)對(duì)最小二乘支持向量機(jī)的學(xué)習(xí)性能影響很大,這是下一步將要研究的內(nèi)容。
參考文獻(xiàn)
[1] MALLATS G. A theory for multiresolution signal decomposition: the wavelet representation [J]. IEEE transactions on pattern analysis and machine intelligence, 1989, 11(7): 674? 693.
[2] 盧堅(jiān),陳毅松,孫正興,等.語(yǔ)音/音樂(lè)自動(dòng)分類(lèi)中的特征分析[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2002(3):233?237.
LU Jian, CHEN Yisong, SUN Zhengxing, et al. Characteristic analysis in automatic classification of speech/music [J]. Computer aided design and graphics, 2002(3): 233?237.
[3] 田嵐,陸小珊,白樹(shù)忠.基于快速神經(jīng)網(wǎng)絡(luò)算法的非特定人語(yǔ)音識(shí)別[J].控制與決策,2002,17(1):65?68.
TIAN Lan, LU Xiaoshan, BAI Shuzhong. Non?specific human speech recognition based on fast neural network algorithm [J]. Control and decision, 2002, 17(1): 65?68.
[4] 劉海波,李輝,張琨磊.低信噪比下噪聲抑制的語(yǔ)音活動(dòng)檢測(cè)[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(6):1381?1384.
LIU Haibo, LI Hui, ZHANG Kunlei. Speech activity detection of noise suppression under low SNR [J]. Minicomputer system, 2012, 33(6): 1381?1384.
[5] 李杰,周萍,杜志然.短時(shí)TEO能量在帶噪語(yǔ)音端點(diǎn)檢測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(12):144?147.
LI Jie, ZHOU Ping, DU Zhiran. The application of short time TEO energy in noisy speech endpoint detection [J]. Computer engineering and application, 2013, 49(12): 144?147.
[6] 盧堅(jiān),陳毅松,孫正興,等.基于隱馬爾可夫模型的音頻自動(dòng)分類(lèi)[J].軟件學(xué)報(bào),2002(8):1593?1598.
LU Jian, CHEN Yisong, SUN Zhengxing, et al. Audio automatic classification based on Hidden Markov model [J]. Software journal, 2002(8): 1593?1598.
[7] 許琳,王作英.基于HMM的音樂(lè)識(shí)別算法[J].計(jì)算機(jī)工程,2004,30(10):135?136.
XU Lin, WANG Zuoying. HMM based music recognition algorithm [J]. Computer engineering, 2004, 30(10): 135?136.
[8] 王歡良,韓紀(jì)慶,張磊.基于支持向量機(jī)的變異語(yǔ)音分類(lèi)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2003(4):389?393.
WANG Huanliang, HAN Jiqing, ZHANG Lei. Variant speech classification based on support vector machine [J]. Journal of Harbin Institute of Technology, 2003(4): 389?393.
[9] 秦丹,馬光志.基于挖掘技術(shù)的音樂(lè)風(fēng)格識(shí)別系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2005,26(11):3094?3096.
QIN Dan, MA Guangzhi. Style of music recognition system based on mining technology [J]. Computer engineering and design, 2005, 26(11): 3094?3096.
[10] 馬希榮,梁景蓮.基于情感音樂(lè)模版的音樂(lè)檢索系統(tǒng)研究[J].計(jì)算機(jī)科學(xué),2009,36(1):239?241.
MA Xirong, LIANG Jinglian. Research on music retrieval system based on emotional music template [J]. Computer science, 2009, 36(1): 239?241.
[11] 陳功,張雄偉.一種基于灰關(guān)聯(lián)分析的語(yǔ)音/音樂(lè)分類(lèi)方法[J].聲學(xué)技術(shù),2007,26(2):262?267.
CHEN Gong, ZHANG Xiongwei. A speech/music classification method based on grey correlation analysis [J]. Acoustics technology, 2007, 26(2): 262?267.
[12] 張燕,唐振民,李燕萍,等.基于MFCC和 HMM的音樂(lè)分類(lèi)方法研究[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2008(4):112?114.
ZHANG Yan, TANG Zhenmin, LI Yanping, et al. Research on the music classification method based on MFCC and HMM [J]. Journal of Nanjing Normal University (engineering technology edition), 2008(4): 112?114.