李雄飛,馮婷婷,駱 實(shí),張小利
(1.吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130012;2.吉林大學(xué) 軟件學(xué)院,長(zhǎng)春 130012)
近年來利用計(jì)算機(jī)技術(shù)分析音樂情感的特性,以及以樂譜為研究對(duì)象的計(jì)算機(jī)作曲已成為計(jì)算機(jī)音樂的一大重要研究方向[1-5]。計(jì)算機(jī)算法是通過某種策略控制生成音符序列,進(jìn)而組成音樂旋律,最終得到完整樂譜,此類方法需要大量音樂知識(shí)規(guī)則。而以音頻為研究對(duì)象進(jìn)行人工智能(Artificial Intelligence,AI)作曲,可使計(jì)算機(jī)自動(dòng)生成音樂片段的排列組合生成新的音樂音頻?;谝纛l的AI作曲不依賴大量的音樂知識(shí)規(guī)則,又能傳遞給聽眾直觀感受。因此,該類算法比基于樂譜的傳統(tǒng)作曲方法更具有實(shí)用性。本文以音樂音頻作為研究對(duì)象,基于長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)提出一種新的自動(dòng)合成樂曲算法。
在傳統(tǒng)計(jì)算機(jī)作曲方面,神經(jīng)網(wǎng)絡(luò)曾一度被認(rèn)為不能學(xué)習(xí)到音樂的結(jié)構(gòu)并且不適合用來做音樂作曲等研究,為解決該問題,Eck等[6]用了兩個(gè)長(zhǎng)短期記憶(Long short term memory, LSTM)模型來訓(xùn)練學(xué)習(xí)創(chuàng)作藍(lán)調(diào)音樂,一個(gè)用于學(xué)習(xí)和弦,另一個(gè)用于學(xué)習(xí)旋律,和弦網(wǎng)絡(luò)的輸出連接到旋律網(wǎng)絡(luò)作為旋律網(wǎng)絡(luò)的輸入。最終實(shí)驗(yàn)結(jié)果表明,系統(tǒng)能夠?qū)W習(xí)標(biāo)準(zhǔn)的12小節(jié)藍(lán)調(diào)和弦小節(jié)并且生成遵循和弦規(guī)律的音樂。此后,F(xiàn)ranklin[7]也使用LSTM網(wǎng)絡(luò)來學(xué)習(xí)和訓(xùn)練爵士音樂。他們開發(fā)了一種在主歌和副歌三等分的音調(diào)表示方法。在此基礎(chǔ)之上,Liu等[8]又使用了遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)來學(xué)習(xí)了古典音樂,采用由Allan&Williams收集的巴赫的midi片段數(shù)據(jù)集,他們首先驗(yàn)證了神經(jīng)網(wǎng)絡(luò)在重組音樂的能力,將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)重組的音樂片段與原始的巴赫音樂片段進(jìn)行比對(duì),此后進(jìn)一步對(duì)使用神經(jīng)網(wǎng)絡(luò)利用音樂碎片進(jìn)行譜曲,在驗(yàn)證方面,采用多分類的測(cè)試指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行測(cè)試,最終測(cè)試結(jié)果表明,與人類感官有著比較大的差距。
在傳統(tǒng)研究中,梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)在音樂信號(hào)上能夠高效地識(shí)別音調(diào)和頻率,一直被用作分析音樂音頻,Dhanalakshmi等[9]采用MFCC和線性預(yù)測(cè)編碼(Linear predictive coding,LPC)分別作為音頻分類的特征向量,使用支持向量機(jī)通過訓(xùn)練將音頻進(jìn)行場(chǎng)景分類,結(jié)果證明MFCC作為特征向量時(shí)分類精度更高。Mathieu等[10]在GNU (General public licence)通用公共許可協(xié)議下開發(fā)了一個(gè)音頻特征提取的系統(tǒng)YAAFE用于快速提取音頻特征。而AI作曲又是以樂譜為載體進(jìn)行研究,實(shí)質(zhì)的研究為文本挖掘類研究,而本文首次提出以音頻本身作為研究對(duì)象,從MFCC入手,將音頻信號(hào)處理與AI作曲融合,提出了基于LSTM-RNN的音樂音頻自動(dòng)合成算法,驗(yàn)證了AI作曲以音頻為載體的可能性,使得成果更直觀地展現(xiàn)于聽眾。
描述
單一的音符是沒有意義的。從樂理上講,一個(gè)曲子可劃分為若干個(gè)小節(jié),每個(gè)小節(jié)由一系列音符組成,因此,一個(gè)音樂小節(jié)是表達(dá)含義的最基本單位,將這些小節(jié)有機(jī)地組織起來才能體現(xiàn)出音樂情感和含義價(jià)值。著名的例子是莫扎特的圓舞曲《音樂骰子游戲》,他創(chuàng)作了176個(gè)音樂小節(jié),然后將小節(jié)編號(hào)排列為兩個(gè)特別的矩陣圖,用擲骰子的方式來決定演奏的次序,每次擲骰子都是這些音樂片段的重組。本文將這樣的可重復(fù)組合排序的一個(gè)或多個(gè)小節(jié)稱為音樂模式,將大量音樂曲目分解為音樂模式,構(gòu)成音樂模式庫。這樣,基于AI的音樂創(chuàng)作就可分為兩個(gè)步驟:①在大量樂曲上訓(xùn)練音樂模型;②利用音樂模型從音樂模式數(shù)據(jù)庫中抽取音樂模式組成樂曲。
定義1 單位音樂與音樂向量
定義2 前序信息
對(duì)于一段樂曲中任意一個(gè)單位音頻mi,與其有時(shí)間順序的前n(n
可以把合成算法看成是已知前i-1個(gè)單位音樂推測(cè)第i個(gè)單位音樂的問題,其中n
定義3 AI生成音樂
針對(duì)目標(biāo)函數(shù)F,選擇一個(gè)m1后,就音樂序列M=(m1,m2,,…,mn)而言,對(duì)任意02 音頻預(yù)測(cè)和音樂合成
2.1 訓(xùn)練數(shù)據(jù)集組織
選擇一批音頻樂曲用于構(gòu)建訓(xùn)練集。將每個(gè)樂曲分割為單位音樂序列,具體步驟如下。
2.1.1 分割單位音樂
在獲取單位音樂時(shí),旨在保留音樂節(jié)拍的強(qiáng)弱性以及較短的旋律性,因此,若單位時(shí)長(zhǎng)t的取值太小,會(huì)破壞小節(jié)的完整性,則喪失了音樂的強(qiáng)弱節(jié)拍感,若單位時(shí)長(zhǎng)t取值太大,容易保留過多的旋律信息,經(jīng)過試驗(yàn),本文取單位時(shí)長(zhǎng)t=3 s,當(dāng)音樂速度為90~180 節(jié)拍/min時(shí),單位音樂m包含的小節(jié)數(shù)約為2~3小節(jié)。音頻編碼中,編碼流dm與時(shí)長(zhǎng)有著依賴關(guān)系,依據(jù)音樂時(shí)長(zhǎng),將音頻流切割成等單位時(shí)長(zhǎng)的音頻片段序列,式(1)用于切割流數(shù)據(jù)d(t):
d(t)=dm[0:fmrt*t]
(1)
式中:t為單位時(shí)長(zhǎng);fmrt為該音頻文件的采樣頻率;dm[0:fmrt*t]表示對(duì)數(shù)據(jù)流dm的從下標(biāo)0到下標(biāo)fmrt*t的數(shù)據(jù)切片。
2.1.2 特征處理
音樂通過影響人的聽覺感受以傳遞情感信息,實(shí)驗(yàn)表明,人的聽覺感受對(duì)音調(diào)的變化是呈線性變化的。MFCC通過對(duì)頻率和音調(diào)的對(duì)數(shù)關(guān)系轉(zhuǎn)化反映了人耳的音高聽覺特性。在以音頻為載體的音樂情感和場(chǎng)景分類問題的研究結(jié)果表明,MFCC在音樂信號(hào)上能高效地識(shí)別音調(diào)和頻率,可作為音頻分類的特征[9]。因此,本文取MFCC作為單位音樂的特征。
常見的MFCC為39維,由13維靜態(tài)系數(shù)、13維一階差分系數(shù)以及13維二階查分系數(shù)組成,其中差分系數(shù)表示音樂的動(dòng)態(tài)特征,而13維靜態(tài)系數(shù)又是由1維能量特征和12維系數(shù)構(gòu)成。
MFCC的計(jì)算過程為:
(1)對(duì)每一幀信號(hào)做快速傅里葉變換(Fast fourier transform, FFT)計(jì)算幅度頻譜。
(2)將幅度頻譜利用梅爾尺度變換到梅爾域,經(jīng)過等帶寬的梅爾濾波器組濾波之后,將濾波器組的輸出能量進(jìn)行疊加:
(2)
k=1,2,…,K
式中:Sk為第k個(gè)濾波器的對(duì)數(shù)能量輸出;Hk(j)為第k個(gè)三角濾波器的第j個(gè)點(diǎn)對(duì)應(yīng)的權(quán)值;|X(j)|為變換到梅爾尺度上的FFT頻譜幅值;K為濾波器的個(gè)數(shù),一般為24個(gè)。
(3)將濾波器的對(duì)數(shù)能量進(jìn)行離散余弦變化,可以得到MFCC系數(shù):
n=1,2,…,L
(3)
式中:L為MFCC靜態(tài)系數(shù)的維數(shù),一般L≤P,本文取L為13維。
至此,令V(mi)表示第i個(gè)單位音頻mi的音樂向量,則V(mi)=(c1i,c2i,…,cni)稱為單位音樂向量,其中V(mi)∈R,n為單位音樂向量的維數(shù)。
將提取完MFCC的單位音樂向量V進(jìn)行Softmax歸一化,對(duì)于V(mi)中的第k個(gè)元素ck,Softmax歸一化的值為:
(4)
則歸一化后的單位音樂向量表示為V(mi)=(v1i,v2i,…,vni)。
訓(xùn)練樣本表示為(V(pre(mi)),V(mi)),令包含了n首音樂M的數(shù)據(jù)集S={M1,M2,…,Mn},i為單位音頻mi在數(shù)據(jù)集S中的索引。則,對(duì)于該模型來說,輸入是單位音頻mi的前序音樂序列pre(mi),形如[V(m1),V(m2),…,V(mi-1)],輸出是單位音頻mi的相似特征向量h,通過計(jì)算h與數(shù)據(jù)集S中單位音頻的距離確定mi。
該模型目標(biāo)函數(shù)設(shè)為tanh函數(shù),LSTM-RNN模型音樂預(yù)測(cè)問題F(pre(mi);θ)問題可表示為參數(shù)集θ=(W,U)的函數(shù)構(gòu)造問題:
F(pre(mi);W,U)=hi
(5)
hi=oitanh(ci)
(6)
式中:oi表示LSTM模型中的輸出門,令Vi表示第i時(shí)刻的前序信息pre(mi)的音樂向量V(pre(mi)),φ表示sigmoid函數(shù)或tanh函數(shù),則有:
oi=φ(WoVi+Uohi-1)
(7)
(8)
(9)
輸入門Ii和遺忘門fi分別控制新內(nèi)容的輸入和舊內(nèi)容的遺忘:
Ii=φ(WIVi+UIhi-1)
(10)
fi=φ(WfVi+Ufhi-1)
(11)
當(dāng)記憶單元進(jìn)行更新后,隱藏層會(huì)根據(jù)當(dāng)前輸入門得到的計(jì)算結(jié)果計(jì)算當(dāng)前隱藏層hi,如式(6)所示。
至此,當(dāng)W和U確定后,構(gòu)造函數(shù)F也就唯一確定了。在LSTM中通常確定W和U的過程需引入優(yōu)化函數(shù)RMSProp,令θ=(W,U),RMSProp的迭代過程如下:
從訓(xùn)練集中隨機(jī)抽取一批容量為N的樣本{V1,V2,…,VN},以及其相關(guān)的輸出F(Vi;θ)及對(duì)應(yīng)單位音樂mi。計(jì)算梯度θ和誤差并更新r:
(12)
(13)
再根據(jù)r和梯度θ計(jì)算參數(shù)更新量并更新θ:
(14)
θ=θ+Δθ
(15)
式中:ε為學(xué)習(xí)率;δ為數(shù)值穩(wěn)定量;ρ為衰減速率。
由于音樂曲目通常在首尾兩處單位音樂的MFCC與中間主體部分距離相差懸殊,圖1展示了15首音樂的單位音樂特征的相鄰兩向量的距離,因此,分別將首尾部分的2個(gè)單位音頻取出放入集合Sh和St,而其余部分作為樂曲主體放入集合Sb,即,對(duì)于一首時(shí)長(zhǎng)為T的音樂M=(m1,m2,…,mk),k=T/t+1有m1,m2∈Sh;m3,…,mn-2∈Sb;mn-1,mn∈St,則數(shù)據(jù)集S=Sh∪Sb∪St,S共有N=k1+k2+…+kn個(gè)單位音樂。在音樂合成中,首先從集合Sh中隨機(jī)挑選出一條單位音頻m1作為輸入,h作為輸出,然后不斷將算法合成的輸出h與S中的單位音樂向量進(jìn)行相似度匹配,本文中采用的相似度匹配策略是進(jìn)行歐氏距離計(jì)算,距離最近的但為音樂向量即為模型預(yù)測(cè)的下一條單位音樂mi+1,如式(16)和式(17)所示。
mi+1=S[x]
(16)
x=index(min{d(h,m1),d(h,m2),…,d(h,mN)})
(17)
式中:x為單位音樂在數(shù)據(jù)集S中的索引;index為索引函數(shù),取h與S中所有單位音頻m的最短距離所對(duì)應(yīng)的單位音頻索引;N為數(shù)據(jù)集S中的單位音樂總數(shù)。
圖1 相鄰單位音樂向量間距離圖Fig.1 Distance between adjacent units vector
兩個(gè)單位音頻ma、mb之間的歐式距離dab計(jì)算過程如下:
(18)
式中:j表示單位音樂m的n維向量V的第j維向量值。
循環(huán)上述過程直到模型找到一首音樂m∈St,則生成終止,音樂序列生成完畢。
上述算法過程描述如圖2所示。
圖2 算法描述Fig.2 Algorithm description
利用訓(xùn)練得到的LSTM模型可生成一個(gè)全新的音樂序列(m1,m2,…,mn)。接下來是音頻處理工作,在對(duì)音樂進(jìn)行拼接時(shí),相鄰的單位音樂需要對(duì)音頻進(jìn)行平滑處理使完成后的新曲目顯得自然而不突兀,所以平滑處理的結(jié)果直接影響到生成模型最終得到的音樂質(zhì)量。
在音樂兩兩連接時(shí)選取首尾相接處相同長(zhǎng)度,即相同時(shí)間長(zhǎng)度的數(shù)據(jù)流部分,對(duì)數(shù)據(jù)進(jìn)行削弱處理,為保持?jǐn)?shù)據(jù)變化的流暢性,采取對(duì)數(shù)據(jù)進(jìn)行線性削弱處理,其中線性比例系數(shù)的計(jì)算根據(jù)式(19)得到。
(19)
式中:dm為單位音樂m的流數(shù)據(jù);x為當(dāng)前數(shù)據(jù)值在數(shù)據(jù)流dm中的索引;函數(shù)l為dm數(shù)據(jù)流的格式化數(shù)組長(zhǎng)度;y為線性削弱方式,y∈{fadeout,fadein},當(dāng)y=fadeout時(shí),做比例系數(shù)從1至0的線性削弱計(jì)算,相反,當(dāng)y=fadein時(shí),做比例系數(shù)從0至1的線性增強(qiáng)計(jì)算。
根據(jù)式(20)對(duì)數(shù)據(jù)進(jìn)行線性衰減計(jì)算。
(20)
式中:x為當(dāng)前數(shù)據(jù)索引值;s為采樣位數(shù)。
時(shí)間參數(shù)t成為了至關(guān)重要的參數(shù),其決定了播放時(shí)所能聽到的時(shí)間長(zhǎng)度,即平滑處理的數(shù)據(jù)塊的大小。
圖3和圖4分別展示了當(dāng)時(shí)間值為1 s和2 s時(shí)經(jīng)過放大后的響度值,矩形框內(nèi)為銜接點(diǎn)。從圖4看出,當(dāng)時(shí)間值為2 s時(shí),變化范圍略長(zhǎng),依然能明顯感覺到淡入淡出的處理感,使兩首曲子連接松散不夠緊密,從而從聽覺上能很明確地分辨并不是一首音樂,而做音軌響度分析時(shí),從處理后得到的數(shù)據(jù)部分的音軌響度圖可以看到音頻銜接處有明顯的長(zhǎng)段削弱部分,與原始音樂頻率有很大差異。
而圖3所展示的時(shí)間t=1 s時(shí)音樂銜接部分的突兀感減弱而線性變化感也不明顯,在平滑部分得到了比較好的結(jié)果,從聽覺上辨別已經(jīng)不明顯,在平滑部分得到了比較好的處理結(jié)果。
圖3 當(dāng)t=1時(shí)的音軌響度圖Fig.3 Loudness of tracks when t=1
圖4 當(dāng)t=2時(shí)的音軌響度圖Fig.4 Loudness of tracks when t=2
3.1.1 測(cè)試數(shù)據(jù)與參數(shù)設(shè)置
根據(jù)音樂相關(guān)理論,古典音樂的情感通常不是固定的,總是激昂與平緩交替出現(xiàn),這種現(xiàn)象在頻譜上表現(xiàn)為能量的突變,本次實(shí)驗(yàn)根據(jù)這些突變將音樂預(yù)先且分為不同情感段,再根據(jù)不同的情感段產(chǎn)生的單位音樂集生成不同情感的音樂。
實(shí)驗(yàn)數(shù)據(jù)通過采集215首3/4拍,演奏速度為每分鐘60~180節(jié)拍的古典音樂的樂譜,通過專業(yè)的軟件將其輸出為音頻文件,然后將這些音頻文件分割成以3 s為單位時(shí)長(zhǎng)的單位音頻共計(jì)15 158條。根據(jù)本文第1節(jié)的描述,每個(gè)分離后的單位音頻由1~3個(gè)小節(jié)組成,這樣的單位音頻則包含了可被重復(fù)組合的音樂模式。在LSTM-RNN模型中,經(jīng)過多次實(shí)驗(yàn),訓(xùn)練過程中參數(shù)初始化設(shè)置如下:
(1)設(shè)置優(yōu)化函數(shù)RMSProp的全局學(xué)習(xí)率ε=0.001,初始參數(shù)值θ=0.9,數(shù)值穩(wěn)定量δ=108,衰減速率ρ=0.0。
(2)設(shè)置神經(jīng)元連接的斷開率為0.3。
(3)設(shè)置迭代次數(shù)為20次。
3.1.2 測(cè)試實(shí)驗(yàn)
在對(duì)計(jì)算機(jī)作曲領(lǐng)域,很難通過客觀評(píng)價(jià)指標(biāo)去評(píng)價(jià)效果,所以,一般采用主觀法進(jìn)行測(cè)試。例如,Salas等[11]進(jìn)行了基于語言規(guī)則的作曲實(shí)驗(yàn)并在最終測(cè)試時(shí)采用類圖靈測(cè)試,即用戶調(diào)查的方式,他們從實(shí)驗(yàn)結(jié)果中選擇了5首音樂與作曲家創(chuàng)作的5首音樂一同構(gòu)成了測(cè)試問卷,并請(qǐng)26位測(cè)試者參與實(shí)驗(yàn)測(cè)試,請(qǐng)實(shí)驗(yàn)者對(duì)他們播放的音樂進(jìn)行排序。本文將沿用Salas等[11]的測(cè)試方法,將實(shí)驗(yàn)得出的樂曲與人為創(chuàng)作的樂曲交替順序給測(cè)試者播放,并且請(qǐng)測(cè)試者打分,以及評(píng)判喜好,再統(tǒng)計(jì)得出測(cè)試結(jié)果。
本次測(cè)試共有10首測(cè)試音頻,其中5首來自訓(xùn)練曲庫,5首來自模型生成。共24人參與了本次測(cè)試的主觀評(píng)價(jià),其中11位學(xué)過樂器,10位表示喜歡古典音樂。在測(cè)試中,他們只能看到音樂曲目的序號(hào),其他信息不予顯示,測(cè)試者試聽音樂后,根據(jù)主觀判斷進(jìn)行打分(0~5分),0分則表示不好聽,5分則表示非常好聽。測(cè)試網(wǎng)站為http://47.94.96.142:8000/index/。測(cè)試音頻順序列表如表1所示。各首曲子的主觀評(píng)價(jià)直接得分如表2所示。
表1 實(shí)驗(yàn)一測(cè)試音樂順序列表Table 1 Test music list I
表2 實(shí)驗(yàn)一測(cè)試得分及排名結(jié)果Table 2 Rank of test scores(Test I)
考慮到樂理知識(shí)以及主觀喜好的傾向性,將測(cè)試人員的打分進(jìn)行了加權(quán)統(tǒng)計(jì),音樂評(píng)分通過式(21)進(jìn)行計(jì)算。
(21)
式中:αk為基礎(chǔ)權(quán)重;βki為加分權(quán)重;sk為測(cè)試人員對(duì)該曲目的評(píng)分;k∈[1,n]表示測(cè)試人員,i∈[1,m]表示m個(gè)加分權(quán)重項(xiàng)。權(quán)重αk和βki的取值如表3所示。
表3 權(quán)重分值表Table 3 Weight score table
經(jīng)計(jì)算,各首曲子的主觀評(píng)價(jià)得分如表4所示。
通過表2與表4的統(tǒng)計(jì)結(jié)果表明,對(duì)于原始得分較高、排名靠前的曲目,通常是被大眾所喜愛的,所以加權(quán)后對(duì)其沒有造成影響,而群眾認(rèn)知度不高的曲目,在具有樂理基礎(chǔ)以及喜好古典音樂的聽眾與普通測(cè)試者中的得分差異性較大,造成加權(quán)后的得分排名與原始得分排名有了一些差異。
表4 實(shí)驗(yàn)一測(cè)試加權(quán)得分及排名結(jié)果Table 4 Weighted rank and scores(Test I)
結(jié)果顯示,本算法生成的音樂與人工作曲音樂的排名分布相對(duì)均勻,測(cè)試人員不能明確區(qū)分人工音樂和算法音樂,且在測(cè)試人員的打分排名中,模型生成的音樂有一首進(jìn)入了排名的前三,而排在第一和第二的均是大家非常熟悉的音樂,但是得分末位也是來自本算法,證明算法生成的音樂質(zhì)量有差異;另外,該實(shí)驗(yàn)結(jié)果也說明了在音頻處理方面,本實(shí)驗(yàn)所采取的拼接算法并不容易讓人們發(fā)現(xiàn)音樂的拼接點(diǎn),即在音樂拼接平滑處理方面效果較好。
3.2.1 測(cè)試實(shí)驗(yàn)
音樂是極富個(gè)人色彩的作品,為了讓本算法更具有靈活性,本文在3.1節(jié)實(shí)驗(yàn)一的基礎(chǔ)上增加了交互式計(jì)算的部分,在開始生成音樂時(shí),可由使用者指定一個(gè)音樂片段作為開頭,在音樂聲稱中間曲目時(shí)可由使用者決定是否介入人工選擇,如果介入,系統(tǒng)將會(huì)在生成mi時(shí),根據(jù)LSTM的輸出h與數(shù)據(jù)集S中的單位音樂進(jìn)行匹配,將提供與h距離最短的3首單位音樂給使用者進(jìn)行選擇;如果不人工介入,算法默認(rèn)自動(dòng)匹配距離最短的單位音樂。加入人機(jī)交互部分后的算法流程如圖5。
圖5 人機(jī)交互式算法描述Fig.5 Algorithm description
本次實(shí)驗(yàn)選取了2首加入交互式計(jì)算產(chǎn)生的音樂與加入3.1.2節(jié)中的城市音樂列表進(jìn)行對(duì)比測(cè)試,測(cè)試音樂順序列表如表5所示,得分結(jié)果如表6所示。
表5 實(shí)驗(yàn)二測(cè)試音樂順序列表Table 5 Test music list II
表6 實(shí)驗(yàn)二交互式測(cè)試加權(quán)得分及排名結(jié)果Table 6 Weighted rank and scores(Test II)
測(cè)試結(jié)果顯示,加入交互式計(jì)算的效果整體比不加入交互式計(jì)算得到的音樂要好,證明加入交互式計(jì)算可使算法合成音樂的質(zhì)量更趨于穩(wěn)定。
本文以音樂音頻為操作對(duì)象在AI作曲以音頻為載體的方面進(jìn)行了嘗試,借鑒語音信號(hào)處理手段,以MFCC作為特征向量,將音樂曲目看成具有時(shí)間序列特性的音樂片段序列,并以LSTM-RNN作為訓(xùn)練模型進(jìn)行生成訓(xùn)練,該模型不僅能生成新的音樂序列,而且能平滑地將音樂片段拼接為一條完整的音頻,在以音頻為載體而進(jìn)行AI作曲方面做了很好的嘗試,但是模型作曲有長(zhǎng)有短,結(jié)果也參差不齊,作曲質(zhì)量依賴于音頻素材的數(shù)量和質(zhì)量,在加入交互式計(jì)算后得到一些生成質(zhì)量上的提升,但是在如何得到普遍更高質(zhì)量的音樂和算法的適應(yīng)性方面還有待改進(jìn)。
參考文獻(xiàn):
[1] 劉澗泉. 第三種作曲方式——論計(jì)算機(jī)音樂創(chuàng)作的新思維[J]. 中國音樂,2006(3):51-54.
Liu Jian-quan. The third way of composing music on the new thinking of computer music creation[J]. Chinese Music,2006(3):51-54.
[2] Turkalo D M. All music guide to electronica (book review)[J]. Library Journal, 2001,126(13):90.
[3] Hiller L A, Isaacson L M. Experimental music/composition with an electronic computer[M]. New York: McGraw,1959.
[4] Loubet E. The beginnings of electronic music in Japan, with a focus on the NHK studio: the 1970s[J]. Computer Music Journal,1998,22(1):49-55.
[5] Sigtia S, Benetos E, Boulanger-Lewandowski N, et al. A hybrid recurrent neural network for music transcription[C]∥2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),Brisbane,QLD, Australia,2015:2061-2065.
[6] Eck D, Schmidhuber J. A first look at music composition using LSTM recurrent neural networks[M]. Lugano:IDSIA USI-SUPSI Instituto Dalle Molle, 2002.
[7] Franklin J A. Recurrent neural networks for music computation[J]. Informs Journal on Computing,2006,18(3):321-338.
[8] Liu I, Ramakrishnan B. Bach in 2014: music composition with recurrent neural network[J]. Eprint Arxiv, 2014.https//arxiv.org/pdf/1412.3191.pdf.
[9] Dhanalakshmi P, Palanivel S, Ramalingam V. Classification of audio signals using SVM and RBFNN[J]. Expert Systems with Applications,2009,36(3):6069-6075.
[10] Mathieu B, Essid S, Fillon T, et al. YAAFE, an easy to use and efficient audio feature extraction software[C]∥International Society for Music Information Retrieval Conference, Ismir 2010, Utrecht, Netherlands,2010:441-446.
[11] Salas H A G, Gelbukh A, Calvo H. Music composition based on linguistic approach[C]∥Advances in Artificial Intelligence,Mexican International Conference on Artificial Intelligence, Pachuca,Mexico, 2010:117-128.