呂蘭蘭
摘要:針對(duì)直接采用MFCC作為歌曲中歌聲識(shí)別的特征參數(shù)存在數(shù)據(jù)量大、且所包含的歌手歌唱特征較少的問(wèn)題,提出一種基于MFCC特征聚類變換的歌曲中歌聲的識(shí)別方法。通過(guò)對(duì)MFCC特征進(jìn)行GMM聚類變換,以各個(gè)高斯分布的均值作為SVM分類器的特征參數(shù),利用GMM數(shù)據(jù)描述能力強(qiáng)的特點(diǎn),突出歌手的歌唱特征,降低特征參數(shù)的數(shù)據(jù)量。實(shí)驗(yàn)結(jié)果表明,該方法在歌曲中歌聲識(shí)別上的平均識(shí)別率較標(biāo)準(zhǔn)GMM方法略有提高,且數(shù)據(jù)處理量減少了65.8%。
關(guān)鍵詞:歌曲中歌聲的識(shí)別;MFCC;特征聚類變換;高斯混合模型
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)31-0170-02
Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singers singing characteristics. Aim to this, an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMMs great ability of data description, so as to highlight singers singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .
Key words:singing voice detection;MFCC;feature clustering and transform
1 引言
歌曲中歌聲識(shí)別的任務(wù)是,在歌曲中定位歌手開(kāi)始歌唱以及持續(xù)的片段[1]。歌曲從結(jié)構(gòu)上通常可以劃分為歌手演唱部分和純伴奏部分,其中歌手演唱部分通常是人聲與伴奏音樂(lè)的疊加,而純伴奏部分則不含人聲、純粹由伴奏樂(lè)器的聲音構(gòu)成。目前在歌曲中歌聲識(shí)別方法中,常用的聲學(xué)特征參數(shù)有:線性預(yù)測(cè)系數(shù)(Linear Predict Coefficients,LPC)[1]、感知線性預(yù)測(cè)系數(shù)(Perpetual Linear Predict Coefficients,PLPC)[2]、梅爾頻率倒譜系數(shù)(Mel - Frequency Cepstral Coefficients,MFCC)[3][4]、對(duì)數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients,LFPC)[5]等。而目前在歌曲中歌聲識(shí)別方法中,常用的分類器包括:隱馬爾科夫模型(HMM)[1]、高斯混合模型(GMM)[3][4]、支持向量機(jī)(SVM)[6]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[7]等。文獻(xiàn)[8]的研究結(jié)果表明,在使用同一分類器對(duì)各種聲學(xué)特征進(jìn)行歌曲中的歌聲識(shí)別時(shí),MFCC的識(shí)別效果最好。同時(shí),研究表明,GMM具有較強(qiáng)的數(shù)據(jù)描述能力,但分類能力較弱,而SVM的數(shù)據(jù)描述能力較弱,但分類效果更好[9-10]。因此,本文嘗試采用MFCC作為聲學(xué)特征,提出使用GMM和SVM相結(jié)合的方法來(lái)對(duì)歌曲中的歌唱部分和純伴奏部分進(jìn)行區(qū)分。
MFCC特征參數(shù)不僅可用于話者識(shí)別,還用于語(yǔ)音識(shí)別、語(yǔ)種識(shí)別等,是因?yàn)镸FCC特征參數(shù)中不僅包含說(shuō)話人信息,還包含豐富的語(yǔ)義信息、語(yǔ)種信息等多種信息。因此,直接采用MFCC作為歌曲中歌聲識(shí)別的特征參數(shù),將會(huì)導(dǎo)致特征參數(shù)中含有大量冗余信息、存在數(shù)據(jù)量大的問(wèn)題。同時(shí),特征參數(shù)中包含歌手的演唱特征較少,需要收集大量歌曲樣本,即包含各種歌手演唱的歌曲樣本,才能表征出歌手的演唱特征。同時(shí),訓(xùn)練歌唱GMM模型和伴奏GMM模型都需要較多的訓(xùn)練數(shù)據(jù)。以上這些因素都會(huì)導(dǎo)致數(shù)據(jù)處理量很大。
針對(duì)上述問(wèn)題,本文提出一種對(duì)MFCC特征進(jìn)行聚類變換的歌曲中的歌聲識(shí)別方法。通過(guò)對(duì)MFCC特征進(jìn)行GMM聚類變換,得到各個(gè)單高斯分布的均值作為SVM分類器的特征參數(shù)。既利用了GMM數(shù)據(jù)描述能力強(qiáng)的特點(diǎn),突出歌手歌唱的個(gè)性特征,降低特征參數(shù)的數(shù)據(jù)量;同時(shí)也利用了SVM分類能力強(qiáng)的優(yōu)勢(shì)。
2 對(duì)MFCC特征的聚類變換
2.1 MFCC特征的提取
使用經(jīng)過(guò)人工標(biāo)注的歌曲作為訓(xùn)練數(shù)據(jù),經(jīng)過(guò)預(yù)加重,加漢明窗分幀處理,本文采用的幀長(zhǎng)為20ms。對(duì)每一幀提取13維MFCC及其一階和二階差分作為特征參數(shù),共計(jì)39維。
2.2 基于GMM聚類的特征變換
根據(jù)高斯混合模型(Gaussian Mixture Model, GMM)的定義可知,高斯混合模型是用M個(gè)單高斯分布的概率密度函數(shù)的線性加權(quán)組合來(lái)對(duì)一個(gè)特征數(shù)據(jù)集的統(tǒng)計(jì)分布進(jìn)行描述的。其中,每個(gè)單高斯分布的概率密度函數(shù)可用均值、協(xié)方差及權(quán)重來(lái)表述(m=1,2,...,M)。因此,可以把GMM中的每個(gè)單高斯分布看成一個(gè)類別,那么均值描述了該類數(shù)據(jù)的平均大小,反映了不同特征向量在在特征空間的相對(duì)位置,協(xié)方差描述了數(shù)據(jù)分布的密集程度,權(quán)重描述了屬于該類的數(shù)據(jù)的多少。所以,對(duì)一個(gè)特征數(shù)據(jù)集進(jìn)行GMM的訓(xùn)練過(guò)程,也可以看成是對(duì)該特征數(shù)據(jù)集進(jìn)行GMM聚類的過(guò)程。因此,也可使用GMM聚類對(duì)MFCC特征進(jìn)行特征變換。本文直接采用各個(gè)單高斯類的均值作為GMM聚類后的變換特征。本文采用的高斯混合數(shù)m為256。
3基于SVM的歌曲歌唱部分檢測(cè)
3.1 SVM的訓(xùn)練
根據(jù)人工標(biāo)注將提取出的MFCC特征參數(shù)分為歌唱MFCC特征和純伴奏MFCC特征兩類,分別融合在一起得到歌唱MFCC特征數(shù)據(jù)集和純伴奏MFCC特征數(shù)據(jù)集。首先,對(duì)歌唱MFCC特征數(shù)據(jù)集進(jìn)行GMM聚類,將得到的變換特征向量序列記為{, , ...,},其中,s代表singing,即歌唱部分。并且,將該變換特征向量序列對(duì)應(yīng)的類別全部標(biāo)記為+1。然后,對(duì)純伴奏MFCC特征數(shù)據(jù)集進(jìn)行GMM聚類,將得到的變換特征向量序列記為{, , ...,},其中,i代表instrumental,即純伴奏部分。并且,將該變換特征向量序列對(duì)應(yīng)的類別全部標(biāo)記為-1。最后,用這些數(shù)據(jù)對(duì)SVM進(jìn)行訓(xùn)練,得到支持向量和最優(yōu)分類超平面。本文采用的SVM核函數(shù)是徑向基內(nèi)核。
3.2基于SVM的歌聲/純伴奏的識(shí)別
對(duì)測(cè)試歌曲中的歌聲片段進(jìn)行識(shí)別時(shí),首先對(duì)其分幀,假設(shè)共有T幀,每一幀提取MFCC特征向量,這樣得到一個(gè)初始的MFCC特征向量序列{x1, x2, ..., xT}。對(duì)得到的MFCC特征向量序列{x1, x2, ..., xT}進(jìn)行GMM聚類,將得到的變換特征向量序列記為{, , ...,}。利用前面訓(xùn)練好的SVM進(jìn)行分類,設(shè)分類結(jié)果為{w1,w2,...,wM},其中wm={+1, -1},m=1,2,...,M。以w1為例,如果w1=+1,則意味著所代表的類別中的所有初始MFCC對(duì)應(yīng)的幀均識(shí)別為歌聲幀;如果w1=-1,則意味著所代表的類別中的所有初始MFCC對(duì)應(yīng)的幀均識(shí)別為純伴奏幀。
4 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)中使用的音頻數(shù)據(jù)庫(kù)由60段英文流行歌曲組成,每段長(zhǎng)度為15秒。對(duì)這60段歌曲的歌聲片段和純伴奏片段分別進(jìn)行了手工標(biāo)注,并將標(biāo)注結(jié)果保存在對(duì)應(yīng)的*.lab文件中。具體來(lái)說(shuō),將歌曲的歌聲片段標(biāo)注為singing,而將純伴奏片段標(biāo)注為non-singing。測(cè)試方法為留一交叉檢驗(yàn)。采用基于幀的識(shí)別率來(lái)評(píng)價(jià)識(shí)別效果,計(jì)算公式如下:
表1給出了使用MFCC特征結(jié)合GMM模型和使用MFCC聚類變換特征結(jié)合SVM的識(shí)別結(jié)果。從表1中可以看到,使用MFCC聚類變換特征結(jié)合SVM進(jìn)行識(shí)別,平均識(shí)別率略有提高。同時(shí),平均處理數(shù)據(jù)量大大降低,僅為聚類變換之前的34.2%。
5 結(jié)論
本文采用對(duì)MFCC特征經(jīng)過(guò)GMM聚類后的變換特征,即各個(gè)單高斯分布的均值,作為新的特征參數(shù),并采用SVM作為分類器,進(jìn)行歌曲中歌聲的識(shí)別研究。相對(duì)初始的MFCC特征,變換特征利用GMM數(shù)據(jù)描述能力強(qiáng)的特點(diǎn),突出了歌手歌唱的個(gè)性特征。且變換特征的數(shù)據(jù)量相對(duì)于初始MFCC特征的數(shù)據(jù)量減少了65.8%,有利于提升識(shí)別速度。同時(shí),采用SVM作為分類器,利用了SVM分類能力強(qiáng)的優(yōu)勢(shì),彌補(bǔ)了GMM區(qū)分能力較弱的不足,實(shí)驗(yàn)結(jié)果表明平均識(shí)別率略有提高。
參考文獻(xiàn):
[1] Berenzweig A L, Ellis D P W. Locating singing voice segments within music signals[C]. IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics, 2001:119-122.
[2] Berenzweig A, Ellis D P W. Using Voice Segments to Improve Artist Classification of Music[J]. Proc Aes, 2002:1-8.
[3] Tsai W H, Wang H M. Automatic singer recognition of popular music recordings via estimation and modeling of solo vocal signals[J]. IEEE Transactions on Audio Speech & Language Processing, 2006, 14(1):330-341.
[4] 鄭能恒, 張亞磊, 李霞. 基于模型在線更新和平滑處理的音樂(lè)分割算法[J]. 深圳大學(xué)學(xué)報(bào)(理工版), 2011, 28(3):271-275.
[5] T. L. Nwe, A. Shenoy, and Y. Wang, “Singing voice detection in popular music,” in Proc. 12th Annu. ACM Int. Conf. Multimedia, 2004, pp.324-327.
[6] Maddage N C, Wan K, Xu C, et al. Singing voice detection using twice-iterated composite Fourier transform[C]. IEEE International Conference on Multimedia and Expo. 2004:1347-1350 Vol.2.
[7] Tzanetakis G. Song-specific bootstrapping of singing voice structure[C]. IEEE International Conference on Multimedia and Expo. IEEE, 2004:2027-2030 Vol.3
[8] M. Rocamora and P. Herrera. Comparing audio descriptors for singing voice detection in music audio files. in Proc. of Brazil-ian Symposium on Computer Music, 11th. San Pablo, Brazil, volume 26, page 27-30, 2007.
[9] Wu F, Sun S, Zhang J, et al. Singing voice detection of popular music using beat tracking and SVM classification[C]// Ieee/acis, International Conference on Computer and Information Science. IEEE, 2015:525-528.
[10]王天江,陳剛,劉芳. 一種按節(jié)拍動(dòng)態(tài)分幀的歌曲有歌唱部分檢測(cè)新方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2009, 30(8): 1561-1564.