趙一鳴
(榆林學院 藝術(shù)學院, 陜西 榆林 719000)
大數(shù)據(jù)時代,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,對海量數(shù)據(jù)進行挖掘和提煉并轉(zhuǎn)換為有價值信息的技術(shù)逐步變得大眾化、成熟化[1]。而音樂信息檢索和識別也隨著數(shù)字媒體經(jīng)濟的發(fā)展壯大而成為眾多學者研究的熱門領(lǐng)域,進入20世紀以來,美國的學者Krishna A G率先提出了基于改進的高斯模型和KNN分類相結(jié)合算法用于單樂器的音樂配樂識別[2]。來自英國的研究人員Essid S在2012年提出了將梅爾頻率倒譜與支持向量機結(jié)合的分類算法,用于對多種組合樂器的配樂識別,實驗后發(fā)現(xiàn)該算法用于K最近鄰分類算法,將識別準確率提升到了90%[3]。國內(nèi)研究人員沈駿針對中國傳統(tǒng)樂器的配樂識別提出了基于樂器本身特征增強后的特征識別分類算法,并對經(jīng)典的KNN算法與卷積神經(jīng)網(wǎng)絡(luò)算法進行了結(jié)合,該算法可以提高中國傳統(tǒng)樂器的配樂識別,但是準確率為92%,對比Essid S提出的算法略有提升,但是算法執(zhí)行過程中比較耗費資源[4]?;谇叭搜芯康幕A(chǔ)上,考慮到深度學習在圖像識別領(lǐng)域強大的特征提取能力,本文創(chuàng)新性地探索了深度學習的相關(guān)算法在音樂配樂分類識別方面的研究與應用,在經(jīng)典神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入特征值向量,首先對數(shù)據(jù)集樣本進行預處理,結(jié)合特征變化參數(shù),強化特征值,然后,基于改進的神經(jīng)網(wǎng)絡(luò)算法,建立深度監(jiān)督學習后的音樂配樂的分類模型,并對測試樣本進行模型的應用比對測試,實驗證明,改進后算法應用于配樂識別的識別率高達98.4%,明顯優(yōu)于其他經(jīng)典算法。
卷積神經(jīng)網(wǎng)絡(luò)采用人體神經(jīng)組織的結(jié)構(gòu)模式,設(shè)置卷積層以及為其提供關(guān)聯(lián)的下采樣層兩層網(wǎng)絡(luò)關(guān)聯(lián)結(jié)構(gòu)模型[5-6]。其采用一定的規(guī)則連接上下兩層和相鄰的神經(jīng)組織,建立各個層級中強制的、局部的關(guān)聯(lián)關(guān)系,具體如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖
由圖1可知,每個相鄰層級的神經(jīng)元都強制地互相連接,存在關(guān)聯(lián)關(guān)系,該結(jié)構(gòu)在局部空間的輸入濾波功能具有強適應性[7]。其主要包括數(shù)據(jù)輸入層和隱含層,每種隱含層細分為卷積層、采樣層和池化層。算法的核心是卷積和池化,使用監(jiān)督學習的模式構(gòu)建訓練網(wǎng),主要包括前項訓練傳播和反向訓練傳播兩部分,前向訓練傳播對輸入的訓練樣本矩陣進行分層變化,每一層的輸出即為下一層的輸入,最終提取卷積特征矩陣,具體算法如式(1)。
(1)
其中,s(i,j)為特征向量矩陣;輸入數(shù)據(jù)為二維矩陣M×N;wm,n為M×N矩陣的卷積核;wb為偏移向量。在反向訓練傳播過程中,主要通過采用梯度下降算法,計算損失函數(shù),迭代求出最小誤差的極限值,從而達到將訓練樣本的數(shù)據(jù)值與計算后的輸出值無限接近的目的。其中,常用的損失函數(shù)的計算方法如式(2)。
(2)
其中,L代表損失;x代表輸入的數(shù)據(jù)樣本;a代表輸出結(jié)果;y代表標簽項值;n代表樣本數(shù)量。
深度置信網(wǎng)絡(luò)包括隱藏層和可見層,層間采用全連接模式[8-11],其結(jié)構(gòu)如圖2所示。
圖2 深度置信網(wǎng)絡(luò)的結(jié)構(gòu)示意圖
圖中,h代表神經(jīng)元的向量值;w代表隱藏層與可見層之間的連接權(quán)值矩陣。DBN樣本模型訓練用受限波爾茲曼機構(gòu)成神經(jīng)網(wǎng)絡(luò)感知,其模型如式(3)。
(3)
式中,vi和ci分別代表了第i個顯示層和及其對應的顯示神經(jīng)元的偏置;wij代表顯示層與隱藏層之間的神經(jīng)元連接的權(quán)重值;hi代表第j個隱藏層;對應的di代表了隱藏層神經(jīng)元的偏執(zhí)值。式中的θ={wij,ci,di}。
其中,權(quán)重值wij的計算方法為式(4)。
wij=η[Edata(vihj)-Emod(vihj)]
(4)
式中,i和j分別代表可見層節(jié)點數(shù)量以及隱藏層節(jié)點數(shù)量;η代表學習的效率值;同時vi和hj代表指二值變量;Edata和Emod代表訓練的樣本值以及輸出樣本的期望值。
CNN模型應用于特征提取的優(yōu)勢在于計算復雜度低,特征提取速度快。DBN模型的優(yōu)勢在于克服了神經(jīng)網(wǎng)絡(luò)算法中對于數(shù)據(jù)的要求較高、收斂速度非常慢且局部解決最優(yōu)全局差的問題,結(jié)合兩個特征學習算法的優(yōu)勢,本文提出了基于CNN&DBN的特征學習算法提取音樂配樂的特征,完成特征配樂的識別,并經(jīng)過反復的比對試驗、調(diào)優(yōu),最終達到了識別準確率最高。
具體的執(zhí)行模擬過程如圖3所示。
圖3 CNN&DBN的特征學習算法結(jié)構(gòu)示意圖
執(zhí)行的具體步驟如下。
(1) 首先進行輸入數(shù)據(jù)集的預處理,主要是通過音高特征矩陣和常量變化完成噪音過濾和音量校準,預處理后,得到音樂配樂的樣本數(shù)據(jù)集合。
(2) 采用基于CNN模型的改進音樂配樂訓練模型,對樣本進行監(jiān)督性學習訓練,生成訓練特征樣本模型。
(3) 引入原始的測試樣本集合,也需要對測試集合進行降噪處理。處理后的測試結(jié)合,輸入CNN提取的特征樣本模型。提取新的特征向量。
(4) 將提取的特征向量與原始樣本集的分類集合Y組合生成新的輸入樣本集合,并將樣本集合作為輸入集合,輸入到DBN模型中進行訓練,并得出最終的分類訓練結(jié)果。
本文在新的模型算法的研究過程中,基于音樂配樂多音質(zhì)結(jié)合的復音情況,對CNN模型算法進行了適應性的調(diào)整,引入模擬人體的聽覺關(guān)注點搭建了配樂識別分類基準模型,該模型的關(guān)鍵在于由于人的大腦結(jié)構(gòu)特點決定其在聽到音樂時會自動過濾篩選,注意力會關(guān)注在音樂的旋律和主聲音聲部,從而識別出樂器配樂的不同,因此,在本文提出的模型建模的方法中,模擬人腦的操作過程,結(jié)合音樂配樂的樂器特點,引入關(guān)注度模型后,重點對于不同樂器成分對應的波段設(shè)置相對應的特征權(quán)重值。具體的模型執(zhí)行結(jié)構(gòu)如圖4所示。
圖4 基于關(guān)注點網(wǎng)絡(luò)的配樂識別分類基準BNN模型流程圖
如圖4所示,基于關(guān)注點網(wǎng)絡(luò)的BNN模型分為卷積層、卷積層、批量標準化層、Rule函數(shù)層、最大池化層等。其中,池化層部分引入關(guān)注度網(wǎng)絡(luò)和卷積層,從而生成帶有權(quán)重值的特征向量,并對特征向量的和使用Sigmoid函數(shù)獲得識別分類結(jié)果。關(guān)注度網(wǎng)絡(luò)包含了卷積層、全連接層和對應的歸一化函數(shù),其中特征矩陣卷積后會變成適量矩陣rn,每個適量矩陣輸入全連接層會得到關(guān)注度適量vn=fall(rn:θall),設(shè)置θall作為全連接層的非參數(shù),對全部關(guān)注度的矢量的各個分量上使用歸一化函數(shù)記性標準化,并對M個標準化后的適量求和得an,得出關(guān)注度權(quán)重值?n,如式(5)、式(6)。
(5)
(6)
基于關(guān)注點網(wǎng)絡(luò)的BNN模型其流程與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法類似,核心在于卷積層的關(guān)注度因子的引入,該算法中單層卷積的運算次數(shù)以及空間占用情況如式(7)、式(8)。
(7)
(8)
本文選用的數(shù)據(jù)樣本是以3秒的時長,包含各種樂器的音樂配樂片段,而樂器訓練樣本上對每種樂器音樂包含3 120個樣本,共計21 840個配樂樣本。其中樂器選擇670個測試樣本,共計4 690個測試樣本。預處理過程中,首選對樣本降噪后,添加標簽,使用訓練集的模型,測試集與訓練集進行交叉測試,同時也驗證了對于測試樣本配樂的預測能力,最后將預測的配樂標簽與實際配樂分類進行比較,最終的準確率為平均計算值的結(jié)果。
結(jié)合對傳統(tǒng)的分類算法性能的研究,發(fā)現(xiàn)深度學習的樣本訓練過程需要耗費巨大的算力且執(zhí)行時間較長,常規(guī)的實驗環(huán)境極容易造成實驗過程中斷和系統(tǒng)宕機的情況,通常需要約為周甚至月為單位進行比對實驗,才能到達模型平穩(wěn)運行的基本狀態(tài),同時,還要開展其他算法的對比實驗。為了提高性能,本文采用了有限循環(huán)法進行實驗,限制了執(zhí)行周期和循環(huán)次數(shù),經(jīng)過反復測算選擇了執(zhí)行9次循環(huán),實驗主要對測試本文的CNN&DBN的模型與決策樹、最近鄰算法KNN、支持向量機SVM進行了準確率比對實驗,以及隨著循環(huán)次數(shù)的增加對應執(zhí)行準確率的變化比照實驗,結(jié)果發(fā)現(xiàn)在循環(huán)次數(shù)為9時,性能最佳,其結(jié)果如表1和圖5所示。
圖5 不同循環(huán)次數(shù)的各個算法準確率對比圖
表1 不同算法結(jié)果對比
對比其他經(jīng)典算法識別的平均準確率上,由于本文算法結(jié)合了CNN對于特征提取的優(yōu)勢與DBN算法的執(zhí)行效率高的特點,并在CNN算法中引入了關(guān)注度權(quán)重,因此,無論是準確性還是性能兩方面都有極大的提升,明顯高于其他算法。
同時,對比加入關(guān)注度權(quán)重的CNN模型,其配樂識別精度與其他模型對比如表2所示。
表2 不同算法對于各個配樂識別結(jié)果對比
從表2的數(shù)據(jù)可以得出結(jié)論,本文提出的基于CNN&DBN的配樂識別算法,在對各種識別的分數(shù)和整體的精度上,對比其他經(jīng)典模型對于相同數(shù)據(jù)集的應用識別結(jié)果有明顯的提升,尤其是對小提琴的識別提升效果更為明顯,并且本文的模型對比其他模型,配樂整體識別更均勻,有效地改善了不同類別識別效果不均衡的問題。
深度學習與音樂推薦的深度融合在進入智能化、大數(shù)據(jù)時代逐步成為數(shù)據(jù)挖掘和機器學習領(lǐng)域研究的熱點,本文改進了卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行音樂配樂特征向量的識別和提取,并引入深度置信網(wǎng)絡(luò)(DBN)的執(zhí)行的高效性,將CNN提取的特征向量集作為DBN的輸入集,建立了基于CNN&DBN的特征學習算法提取音樂配樂。經(jīng)過實驗比對發(fā)現(xiàn),本文提出的模型在對多種不同類型的復音配樂的識別能力上,展示出了更精準的識別能力和良好的執(zhí)行性能,改進后算法應用于配樂識別的識別率高達98.4%,明顯優(yōu)于其他經(jīng)典算法,實驗數(shù)據(jù)充分說明了本文算法在對音樂配樂識別方面的明顯優(yōu)勢。