羅紅霞 羅娜
摘要:音樂風格分類是音樂信息檢索和音樂推薦當中的重要一環(huán),它對音樂風格分類效率的要求越來越高。然而,音樂風格的識別對于非專業(yè)人士而言是比較困難的,因此我們建立了一種基于機器學習的音樂風格識別系統(tǒng),該文研究對象為最具代表性的4類音樂風格,并選取47首爵士風格音樂、47首搖滾風格音樂、42首古典風格音樂以及40首現(xiàn)代風格音樂作為樣本,應用快速傅里葉變換、圖像特征提取,結合機器學習模型,建立了基于支持向量機算法的音樂風格識別系統(tǒng),最終實現(xiàn)了四種音樂風格的同時識別。該模型用于盲測的AUC(受試者工作特征曲線下面積)平均值為0.871,分類的準確率為71.7%。
關鍵詞:支持向量機算法;音樂風格;快速傅里葉變換
中圖分類號:TP391文獻標志碼:A文章編號:1001-2443(2024)02-0123-06
引言
互聯(lián)網(wǎng)時代背景下,音樂信息檢索MIR(Music Information Retrieval)技術是一個結合音樂和計算機領域的新興交叉學科,它在音樂理論與創(chuàng)作、音樂教學與表演中具有重要應用。近三十年來,有眾多非音樂領域工作者運用機器學習與音樂進行學科交叉,在新媒體平臺發(fā)布各類音樂的識別模型操作流程和學術論文。人聲演唱是大眾所接觸到最常見的音樂,它的旋律線條單一、音域較窄,且識別度高。近年來,在音樂平臺榜單中可以看到各類樂器的音樂作品也列入榜單之中,器樂作品的結構特征是隨著音樂風格的不同而不同,國內外眾多學者運用模型支持向量機(SVM)、隱馬爾可夫模型( HMM )、K近鄰(KNN)、隨機森林(RF)、邏輯回歸(LR)、自適應增強(Adaboost)、神經(jīng)網(wǎng)絡(NN)等算法通過模擬人類學習方式進行機器學習,有效地實現(xiàn)器樂作品音樂風格的識別[1]。在上述模型使用中,由于同一個人在不同音域演唱(演奏)不同音樂風格的作品時,多方面的因素會導致研究者在提取音樂信號特征時出現(xiàn)偏差,進而導致音樂風格的識別精度較低。隨著技術的發(fā)展,網(wǎng)絡層級的增加,我們需要找到可以提取人手工定義的特征,且很難觸及的高級別特征,以進一步提高音樂風格的識別精度及效率。
搖滾音樂、爵士音樂、古典音樂、現(xiàn)代音樂在作品形式和內容上均有著鮮明的藝術特色,受作品的時代、題材、社會文化等影響,具備著獨特的表現(xiàn)方式和相對穩(wěn)定的時代風格。這些音樂風格的作品如今也受到了聽眾們的青睞,在音樂播放器的排行榜中,搖滾音樂、爵士音樂、古典音樂都穩(wěn)居前列。在音樂風格分類中,選用特定的一段音樂,從旋律的音量、音調、音色、速度、強度變化等,找到音樂風格的分類精度,從而縮短分類運算時間,以期達到算法的實用性[2,3]。使用頻譜可以將音樂史上存在的任何音樂流派的音響成品當作分析對象,具體地,先過濾掉一切聲音客體以外的形式內容,并以作品音響作為客體對象,以實證、科學、客觀的揭示分析對象的自然物理屬性,而后再去與上述聲音客體以外的形式內容比對、斟酌、遴選并提煉和總結出音樂識別系統(tǒng)所需的內容和結論[4]。目前,特征提取是音樂風格分類研究中的重要參照依據(jù),為了提高分類的性能,有必要對特征進行篩選。選擇重要特征并剔除不顯著的特征,應用快速傅里葉變換、圖像特征提取,結合機器學習模型,建立基于支持向量機算法的音樂風格識別系統(tǒng),可以有效解決模型算法空間和時間的復雜度。
1 研究背景
音樂特征提取在分類任務中起著關鍵作用,它是判斷音樂風格的重要組成部分。當前MIR 技術對信號級的音樂識別已經(jīng)達到了較高精度,但由于數(shù)據(jù)程序繁瑣,且耗時過長,無法便捷、高效的識別各類音樂,因此,近年來音樂識別 CSI ( Cover Song Identification) 已成為學術界的研究熱點。19世紀末和20 世紀初,由于數(shù)字信號處理技術、頻率測量技術以及電子技術的革新,音樂也得到了空前的發(fā)展,各類音樂作品出現(xiàn)了樂隊編制、單旋律無伴奏以及電子音樂等多個版本,這為聽眾提供了更多的新體驗,也為音樂風格的有效區(qū)分個信號分類增加了難度。Juan P B(2007)[5]使用隱馬爾可夫模型( HMM )對非原版作品的測試移位、間隙、交換和節(jié)拍進行檢索,運用Viterbi 算法提取出最為準確的旋律和弦序列,同時使用 NWS ( Needleman-Wunsch-Sellers) 近似字符串匹配算法計算出兩首旋律和弦序列的相似度,以音樂節(jié)拍和音樂調式實現(xiàn)對音樂作品版本的識別。雷文康(2017)[6]通過音樂信號特征(音高、音色、節(jié)奏)與音樂風格流派的語義信息和聲譜圖特征(短時傅里葉變換得到的時頻圖、Mel頻譜圖等)的呈現(xiàn),構建出循環(huán)神經(jīng)網(wǎng)絡的音樂流派分類算法,進一步提高分類準確率。Trabelsi等(2012)[7]佐證Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)是分類研究中的重要特征參數(shù)并將其用于音樂風格的分類。宋揚等(2022)[8]提出用一種融合核主成分分析(Kernel Principal Component Analysis, KPCA)和改進K 近鄰的分類方法,篩選出不顯著的特征,以期提升特征子集的分類效果。在計算機自動分析中,音樂信號的特征表達主要有:能量特征、過零率、幅度特征(時域表達);線性預測編碼、梅爾聲譜圖、頻譜重心等(頻域表達);音高、音調、和弦(音色表達);風格、樂器、情緒(高級表達)。關于音樂識別常用的分類方法是音樂特征的提取和識別分類,一是提取音樂的特征量進行訓練建模;二是利用建好的模型對不同音樂的測試樣本進行識別分類得出預處理結果,音樂樣本的預處理決定了音樂樣本中的具體特征,從而達到最終音樂風格的識別任務。
為找到音樂風格中高級別的特征,我們將對爵士音樂風格、搖滾音樂風格、古典音樂風格和現(xiàn)代音樂風格展開研究。從音樂發(fā)展的角度來看,各時期的音樂風格是相對穩(wěn)定的,能反映出該時期眾音樂家的個人思想觀念、審美情趣、精神氣質等內在特性的外部印記。兩個樂音之間的頻率比決定了兩者之間的音程關系[9]。音樂風格與音程關系的使用間也存在著一定的關系。古典主義時期的音樂為樸素中見崇高,重視真實地描寫現(xiàn)實生活,具有深刻的思想性,其音樂進行有條不紊,富于邏輯性[10]。在音程使用上,其旋律以級進2-3度音程居多,也會出現(xiàn)12-13度的音程,如作品《悲愴奏鳴曲》第二樂章(路德維希·凡·貝多芬)樂譜的音程分析所示(表1)。爵士音樂興盛于20世紀,它是一種典型的美國式的流行音樂文化,眾多學者認為它是一種即興演奏的舞蹈音樂和流行音樂的代名詞[11]。爵士音樂風格作品的音程關系沒有古典音樂風格變化多,通常以平穩(wěn)的旋律進行,如作品《星塵》(路易斯·阿姆斯特朗)中便鮮見跨度較大的音程關系。搖滾樂興起于20世紀50年代中期,主要受到節(jié)奏布魯斯、鄉(xiāng)村音樂和叮砰巷音樂的影響發(fā)展而來[12-13]。早期搖滾樂為黑人音樂節(jié)奏布魯斯的翻唱版,因而節(jié)奏布魯斯是其主要根基,作品的前奏與副歌部分會形成鮮明的音樂對比,它會出現(xiàn)跨度較大的12-13度音程,同時,它還以0-3度的級進音程見多,作品《Paint It Black》(滾石樂隊)的音程均分布在該范圍內,而現(xiàn)代音樂指19世紀末、20世紀中期以非傳統(tǒng)作曲技法,用新的作曲手法、音樂理論、音樂語言創(chuàng)作出來的音樂,該類音樂風格特點多為和聲結構復雜、調性模糊和無調性的音樂作品,以平行音程和平行和弦居多,旋律連接以小跳和級進為主,以復雜的節(jié)拍和改編重拍規(guī)律等方式呈現(xiàn),如《阿根廷舞曲》(阿爾維托·希納斯特拉)。
2 音樂風格識別實現(xiàn)
在同一類風格的音樂作品中,其聲音的頻率、振動、幅度、時間、相位、聲波的譜等參數(shù)具有部分和整體的相似特質、構造細致和非整數(shù)性(關聯(lián)維數(shù))。任何樂音都是一個獨立的生命體,樂音在“產(chǎn)生-成長-衰減-消失”的整個過程中最易為人所察覺的就是音高、音色、音強、聲場造型。為了找到客觀識別音樂風格的描述方法以及四種音樂風格的差異,在本節(jié)中,我們將討論在不同條件和分類器下的音樂風格識別實現(xiàn)的問題。我們對音樂風格識別的實現(xiàn)過程如圖1所示。
由于一首樂曲包含的信息量和數(shù)據(jù)量巨大,直接對全部數(shù)據(jù)進行機器學習等操作所需的硬件設施要求較高。因此,我們經(jīng)過一系列處理,將大數(shù)據(jù)量轉化為可視的圖像后續(xù)進行機器學習,大大減少了工作量,降低了所需的硬件設施要求,可以實現(xiàn)普通用戶的自行操作。我們隨機選取了47首爵士風格音樂、47首搖滾風格音樂、42首古典風格音樂以及40首現(xiàn)代風格音樂作為樣本,用于模型的建立。
2.1 音樂信號的處理
任何波形都可以利用許多正弦波相加來代替,任何聲音都可以分解成若干不同相位、不同振幅、不同頻率的正弦波,這是傅里葉定律。為了能夠對樂曲進行數(shù)據(jù)分析,我們首先使用Python編程語言對音樂文件進行了數(shù)據(jù)處理及轉換。使用readframes返回音樂文件的二進制數(shù)據(jù),根據(jù)聲道數(shù)將讀取的二進制數(shù)據(jù)轉換為一個可以計算的數(shù)組,以便進行后續(xù)的繪圖及處理。此外,利用SciPy提供的fftpack模塊將樂曲的wav文件進行快速傅里葉變換(Fast Fourier Transform, FFT),在非正弦周期函數(shù)中展開傅里葉級數(shù),將傅里葉級數(shù)中每一個正弦分量的振幅和初相角沿著頻率軸畫出頻譜圖。利用傅里葉變換后的數(shù)據(jù),可以計算出樂曲的頻率、幅值、相位等參數(shù),為后續(xù)的音樂風格區(qū)分提供數(shù)據(jù)支撐。
2.2 數(shù)據(jù)處理與繪圖
由于樂曲數(shù)據(jù)量大,需要對數(shù)據(jù)進行一定的處理以方便后續(xù)運算及應用。利用自主編寫的Python程序對數(shù)據(jù)進行處理和繪圖。首先將樂曲的左右聲道數(shù)據(jù)進行分割,獲取兩個聲道的數(shù)據(jù)。隨后,我們分別對快速傅里葉變換前后的音樂數(shù)據(jù)進行圖像的繪制??焖俑道锶~變換前,以時間為x軸參數(shù),x軸為節(jié)奏數(shù)值軸,將全音符作為整數(shù)1,伴隨節(jié)奏值的依次縮小,將得到單位節(jié)奏值遞減圖;以幅值為y軸參數(shù),y軸幅值音數(shù)作為帶寬單位,根據(jù)作品律制及所組成的音階結構的不同,它將用作量化的標準,x軸和y軸將繪制成時間-幅值的折線圖??焖俑道锶~變換后,分別繪制全頻率范圍的頻率-幅值以及頻率-相位的圖像。
此外,為了探究不同頻率的信息是否會給音樂風格的區(qū)分產(chǎn)生巨大影響,我們截取人耳能聽到的20 ~20000 Hz區(qū)段作為原始分析對象。將20 ~20000 Hz的頻率分為低頻(20 ~160 Hz)、中頻(160 ~1280 Hz)、高頻(1280 ~20000 Hz)三個區(qū)段分別進行處理。將數(shù)據(jù)進行可視化,對低頻、中頻、高頻三個區(qū)段的參數(shù)分別繪制折線圖。因此,一首樂曲的單個聲道包含三張不同頻率范圍的頻率-幅值圖像和三張不同頻率范圍的頻率-相位圖像。最終,一首樂曲繪制了共計18張圖像用于后續(xù)圖像特征的提取。
2.3 圖像特征提取
利用圖像嵌入 (image embedding) 對圖像進行降維,將數(shù)據(jù)轉換為固定大小的向量,以便于處理和計算。讀取圖像后使用基于Inception v3的深度神經(jīng)網(wǎng)絡模型評估圖像[15],計算每個圖像的特征向量,每張圖像可以返回2048個相應的特征向量。首先將每首樂曲左右聲道的特征進行合并。即每首樂曲至少包含4096個特征向量用于后續(xù)的機器學習。隨后將每首樂曲對應低頻、中頻、高頻的特征也進行合并,以便于比較分段提取特征值和整體提取特征值的效果。
2.4 機器學習模型
將圖像的特征向量作為每一首樂曲的特征值,建立機器學習模型,對其音樂風格進行區(qū)分。首先我們利用全部的數(shù)據(jù)進行機器學習,用于評估所用特征對于音樂風格分類的區(qū)分貢獻度。我們使用了六種分類器,分別為支持向量機(SVM)、K近鄰(kNN)、隨機森林(RF)、邏輯回歸(LR)、自適應增強(Adaboost)、神經(jīng)網(wǎng)絡(NN)算法。以上模型均采用了5折交叉驗證。使用時間-幅值結合頻率-幅值的特征時,機器學習模型效果最佳(使用AUC值大小作為評判標準)。因此,后續(xù)使用時間-幅值結合頻率-幅值的特征作為訓練對象建立機器學習模型。此外,支持向量機算法對于本問題的分類具有較好的識別效果[15-16]。
隨后,我們比較了六種機器學習方法的分類效果,分別采用分層k折(k=5,10,20)交叉驗證[17]進行訓練。表2展示了六種機器學習模型在不同條件下的AUC值。支持向量機(SVM)是一種用超平面分離屬性空間的機器學習方法,從而最大化不同類或類值的實例之間的邊界。支持向量機最初是為解決二分類問題被提出的,但它具有能夠避免過擬合、保證局部最優(yōu)解為全局最優(yōu)解和較好的泛化性等優(yōu)點,因此也被推廣應用于多分類問題中[18]。在測試的六種分類器中,支持向量機算法綜合表現(xiàn)最佳。根據(jù)結果,選用了支持向量機算法(20折交叉驗證)用于最終模型的建立。
將數(shù)據(jù)按照7:3隨機分為訓練集(train set)與測試集(test set),訓練集用于訓練機器學習模型以得到合適的參數(shù),測試集用于評估建立模型的性能。測試集包含14首爵士風格音樂、14首搖滾風格音樂、13首古典風格音樂以及12首現(xiàn)代風格音樂,不包含在訓練集中。模型的訓練時間(train time)約為80秒,測試時間(test time)約為40秒,可以以很快的速度建立音樂風格識別模型。
A)該機器學習模型對四種音樂風格區(qū)分的ROC曲線及對應的AUC值(測試集) B)該機器學習模型對四種音樂風格區(qū)分的混淆矩陣(測試集)C) 該機器學習模型分別以四種音樂風格的AUC值及分類準確率(訓練集)
Fig 2 Support vector machine algorithm machine learning model effect evaluation. A) The ROC curves and corresponding AUC values (test set) of the machine learning model for distinguishing four music styles B) The confusion matrix (test set) of the machine learning model for distinguishing four music styles C) The machine learning model is based on the AUC value and classification accuracy (training set) of the four music styles
訓練集的AUC(受試者工作特征曲線下面積)平均值為0.831,以不同音樂類型作為target時的AUC值和預測準確率如圖2C所示。而測試集的AUC平均值為0.871,分類的準確率為71.7%,其ROC曲線(受試者工作特征曲線)如圖2A所示,測試集的混淆矩陣如圖2B所示。綜上可以看出,該模型對Rock風格的識別能力最強,這與Rock風格相對于其他風格區(qū)別較大的事實相符合。
2.5 主成分比較
主成分分析方法(PCA, Principal Component Analysis),是一種使用最廣泛的數(shù)據(jù)降維算法。為了進一步評價該基于支持向量機算法的機器學習模型效果,我們將其與無監(jiān)督聚類方法——主成分分析進行了比較。同樣使用時間-幅值結合頻率-幅值作為特征進行分析。如圖3A所示,前兩個主成分僅可達到26.8%的區(qū)分效果。如圖3B所示,四種音樂風格無法被有效區(qū)分。而該文提出的基于支持向量機的機器學習模型可以達到更好的區(qū)分效果。
3 結論
視聽與人的情感過程和神經(jīng)活動密切相關,不同音樂風格可以誘發(fā)個體感受的差異性。不同音樂風格的作品在旋律音高與節(jié)奏之間的依賴方式存在明顯的可量化表示的差異,相同音樂風格的作品在旋律音高與節(jié)奏之間的依賴方式差異小于不同音樂風格的差異[19]。該文建立了一種基于支持向量機算法機器學習模型,用于音樂風格的區(qū)分。該方法針對樂曲時間、頻率和幅值之間的關系,實現(xiàn)高信息量和大數(shù)據(jù)量樂曲的數(shù)據(jù)分析,將其轉化為可視化的圖像并提取圖像特征進行機器學習模型建立。該文建立的支持向量機算法機器學習模型測試集的AUC平均值為0.871,分類的準確率為71.7%。實驗結果表明我們的音樂風格識別系統(tǒng)是可靠的和有效的[20]。從物理學角度,客觀識別音樂風格的描述方法以及四種音樂風格的差異,通過對圖像后續(xù)進行機器學習,將提高音樂識別的效率,同時降低了所需的硬件設施要求,以期讓音樂專業(yè)學生和非音樂專業(yè)學生形成一種較穩(wěn)定的聽覺形態(tài)和感官判斷方法。我們會進一步提高模型的性能,并將其應用到中國戲曲劇種以及唱腔流派等音樂風格區(qū)分問題中。
參考文獻
[1] 倪朝暉.算法作曲理論與實踐[M].成都:西南師范大學出版社,2015: 19.
[2] KOSINA K.Music genre recognition[D].Hagenberg: Technical College of Hagenberg, 2002.
[3] 肖武雄.頻譜音樂的基本原理[M].北京:文化藝術出版社,2014: 204; 211.
[4] Miller Puckeyye. 電子音樂技術[M].北京:人民郵電出版社,2011: 5.
[5] JUAN P B. Audio-based cover song retrieval using approximate chord sequences: Testing shifts,gaps,swaps,and beats[C]. In Prec: Austrian Computer Society ( OCG) ,2007.
[6] 雷文康.基于深度神經(jīng)網(wǎng)絡的音樂流派分類研究 [D].廣州:華南理工大學,2017.
[7] TRABELSII,AYEDDB.On the use of different feature extraction methods for linearandnon-linear kernels[C].2012 6th International Conference on Sciences of Electronics,Technologies of Information and Telecommunications.Sousse,Tunisia:IEEE,2012:797-802.
[8] 宋揚,王海龍,柳林,等.融合KPCA與改進KNN的蒙古族音樂分類方法[J].復旦學報(自然科學版),2022,61(5):573-580+588.
[9] 喻曉雯,張楠,張勇.音樂作品風格流派的神經(jīng)網(wǎng)絡識別方法研究[J].計算機工程與應用,2011,47(27): 246-248.
[10] 蘇珊·菲勒,呂常樂.“新古典主義”在音樂中的不同表現(xiàn)[J].中央音樂學院學報,2007,109(4): 93-97.
[11] 呂東.美國音樂發(fā)展史簡介[J].樂府新聲(沈陽音樂學院學報),1987(1): 43-46.
[12] 周華生.搖滾音樂敘事及終結[J].人民音樂,2009,553(5): 82-85.
[13] 李寧.面向現(xiàn)代音樂作品的視唱練耳教學[J].樂府新聲(沈陽音樂學院學報),2018,36(2): 69-74.
[14] 徐凱,梁志堅,張鐿議,等.基于GoogLeNet Inception-V3模型的電力設備圖像識別[J].高壓電器,2020,56(9):129-135+143.
[15] 李策,李智.粒子群優(yōu)化算法和支持向量機的電子音樂信號分類研究[J].現(xiàn)代電子技術,2020,43(21):51-54.
[16] 陳維華.基于支持向量機(SVM)的音樂情感分類[J].軟件工程,2016,19(12):20-23.
[17] 褚榮燕,王鈺,楊杏麗,等.基于正則化KL距離的交叉驗證折數(shù)K的選擇[J].計算機技術與發(fā)展,2021,31(3):52-57.
[18] 王乃芯. 多分類支持向量機的研究[D].上海:華東師范大學,2020.
[19] 譚學清,何珊.音樂個性化推薦系統(tǒng)研究綜述[J].現(xiàn)代圖書情報技術,2014,250(9):22-32.
[20] 喻曉雯,張楠,張勇.音樂作品風格流派的神經(jīng)網(wǎng)絡識別方法研究[J].計算機工程與應用,2011,47(27):246-248.
Music Style Recognition System Based on Support Vector Machine Algorithm
LUO Hong-xia1, LUO Na2
(1. Department of Drama and Theatre,Zhejiang Conservatory of Music,Hangzhou 310024,China; 2. School of Education, Pingxiang University,Pingxiang 337055,China)
Abstract: Music style classification is an important part of music information retrieval and music recommendation. It requires higher and higher efficiency of music style classification. However, the recognition of music style is relatively difficult for non-professionals, so a music style recognition system has been established based on machine learning. Taking the four most representative music styles as its research object, this paper selected 47 jazz style music, 47 rock style music, 42 classical style music and 40 modern style music as samples, applied fast Fourier transform, image embedding, and combined with the machine learning model to establish a music style recognition system based on the support vector machine algorithm, and finally realized the simultaneous recognition of four music styles. The average value of the AUC (area under the working characteristic curve of the subject) used by this model for blind testing was 0.871, and the classification accuracy rate was 71.7%.
Key words: Support vector machine algorithm; music style; fast Fourier transform
(責任編輯:馬乃玉)