連志成,程皓楠,張加萬*
(1.天津大學智能與計算學部,天津 300350;2.中國傳媒大學媒體融合與傳播國家重點實驗室,北京 100024)
音頻樂譜比對是一種將音頻信號與對應的樂譜符號進行對齊的方法,是音樂信息檢索(Music Information Retrieval,MIR)領域的重要研究課題之一。隨著數(shù)字音樂的發(fā)展,數(shù)字樂譜和器樂演奏音頻的數(shù)量不斷積累,建立數(shù)字樂譜和真實世界音樂演奏音頻之間的對應和同步關系逐漸成為數(shù)字音樂發(fā)展的關鍵環(huán)節(jié)之一。
近年來,國內(nèi)外研究人員在音樂演奏、音樂分析、音樂教育等領域展開了一系列音頻樂譜比對方法技術的探索。針對不同樂器類型[1]、音樂形式[2]、性能要求[3]以及結(jié)構(gòu)變化[4],提出了多種音頻樂譜比對方法。根據(jù)面向的器樂類型,現(xiàn)有方法可以分為面向通用樂器(或樂器組)演奏的音頻樂譜比對方法和面向特定樂器(或樂器組)演奏的音頻樂譜比對方法[5]。面向通用樂器的音頻樂譜比對方法基于不同器樂演奏場景的音樂共性特征求解音頻到樂譜符號對齊的過程[6,7]。這類方法可以有效應對音樂演奏中固有的真實演奏音樂偏離樂譜的問題,但由于不同樂器的自身特點和演奏方式存在較大差異,面向通用樂器演奏的音頻樂譜比對方法在處理特定樂器時往往存在低精度問題。
在面向特定樂器的音頻樂譜比對方法中,早期研究人員對具有硬起音、易發(fā)音特點的樂器展開探索,在鋼琴[8-12]、小提琴[1]等樂器的音頻樂譜比對中已經(jīng)取得較好的對齊結(jié)果。但是,針對巴松這類發(fā)音較難的軟起音管樂器[13,14](如圖1所示),如何構(gòu)建精準音頻樂譜比對方法,仍是這一領域亟待解決的難題?,F(xiàn)有方法難以實現(xiàn)面向巴松的音頻樂譜對齊高比對精準度,主要面臨以下三方面困難與挑戰(zhàn):
圖1 巴松結(jié)構(gòu)示意圖
(1)軟起音、發(fā)音難等器樂特性。巴松發(fā)音主要為軟起音,這導致音符的起始位置往往難以精準確定[15-18],為音符級高精度音頻樂譜對齊造成障礙。
(2)連音、吐音、顫音等豐富的演奏方式。多樣化的演奏方式是導致巴松音頻樂譜對齊困難的主要原因[19],例如吐音導致的非預期靜默片段和顫音導致的音符內(nèi)頻率周期性變化導致演奏音頻偏離樂譜,從而提升了比對難度。
(3)缺乏曲式完備的巴松音頻數(shù)據(jù)集。巴松演奏音樂的曲式多樣,不同曲式的音樂存在速度、演奏方式上的較大差異。然而現(xiàn)有的巴松音頻樂譜數(shù)據(jù)集相對匱乏,缺乏細致的曲式分類,導致相同方法在不同曲式中的比對結(jié)果精度存在較大差距。
針對上述問題,本文提出了一種由粗到精、逐層細化的分段式音頻樂譜比對方法(如圖2所示)。討論順序大致如下:第2章構(gòu)造了首個由巴松獨奏音頻和對應樂譜組成的包含多曲式分類的BSAMS(Bassoon Solo Audio Midi Score)數(shù)據(jù)集;第3章提出了一種基于DTW(Dynamic Time Warping)的基準點與候選點生成算法,實現(xiàn)音符位置的粗略估計,設計了一種基于SVM(Support Vector Machine)的點對篩選算法,提高了音頻樂譜在音符層次匹配的準確度;第4章通過BSAMS數(shù)據(jù)集對不同類型音樂進行實驗驗證。
圖2 算法整體流程
針對巴松演奏數(shù)據(jù)集相對匱乏且類別不夠全面的問題,本節(jié)設計并構(gòu)建了巴松獨奏音頻和對應MIDI樂譜的BSAMS數(shù)據(jù)集。構(gòu)建的巴松演奏數(shù)據(jù)集應滿足兩方面需求:(1)體現(xiàn)巴松演奏特點。由于巴松的曲目形式豐富,演奏方式多樣,因此需要構(gòu)建一個可以體現(xiàn)巴松演奏特點的數(shù)據(jù)集,同時區(qū)分曲目的形式和速度。(2)音頻與樂譜音符精準對應標注。數(shù)據(jù)集用于音頻樂譜比對方法的研究,要求該數(shù)據(jù)集的巴松獨奏錄音音頻有精準的音符起始點標注以及和樂譜中的音符的對應關系。
為了滿足第一個要求,首先通過對現(xiàn)有巴松演奏曲目的分析和整理,找到巴松演奏的五個重要的音樂片段曲式類別:練習片段、樂曲旋律片段、樂隊片段和協(xié)奏曲片段。因為巴松在交響樂中使用場景居多,樂隊片段占據(jù)相對最主要的部分,可以將樂隊片段進行細分為:中國交響曲目的樂隊片段和外國交響曲目的樂隊片段。本文按照這六個類別劃分,分別找到每個類別中具有代表性的巴松曲目演奏片段,并按照音樂片段的速度快慢和大致的演奏難度為每個片段進行了相應的標簽標注,按照速度分為快速、中速和慢速,其次針對巴松的演奏方式,考慮到研究的重點為巴松的音符級研究,將標簽分類為:連音、吐音、連音和吐音三種演奏方式,并將每個帶有上述演奏方式的曲目分別進行相應的標簽標注。
針對第二個需求,在樂譜方面采用MIDI編曲軟件編寫得到巴松MIDI樂譜。巴松演奏錄音音頻方面,錄制音頻的采樣率為22050 Hz,錄制音頻格式為雙聲道WAV格式。音頻樂譜對齊的標注方式為手工標注,首先標注音頻中每個音符的起始位置,然后提取樂譜中的每個音符,將兩者的一一相互對應關系記錄于文件中。
具體來說,BSAMS數(shù)據(jù)集包含了18個不同的曲目片段和32對音頻樂譜對,共計1118個音符。圖3中的餅狀圖展示了BSAMS數(shù)據(jù)集中的音頻樂譜對的曲目類型分布、速度分布、難度分布。綜上,本文所構(gòu)建數(shù)據(jù)集包含巴松獨奏音階琶音片段、樂曲旋律片段、中國曲目樂隊片段、外國曲目樂隊片段和協(xié)奏曲片段,并具有速度、演奏方式標簽以及音頻樂譜精準對齊標注標簽。本節(jié)構(gòu)建的BSAMS數(shù)據(jù)集滿足了體現(xiàn)巴松特點和用于音符級音頻樂譜比對研究的要求,為后續(xù)展開的算法設計工作提供了良好的數(shù)據(jù)支撐。
圖3 BSAMS數(shù)據(jù)集曲目片段分布統(tǒng)計圖
本節(jié)提出了一種基準點生成算法,將巴松演奏的音頻和樂譜進行粗略的對齊,對于樂譜中的每一個音符,在對應錄音音頻中找到其粗略估計的音符起始位置。首先基于音頻到音頻對齊的思路,基于DTW算法找到MIDI轉(zhuǎn)錄音頻和演奏音頻之間的粗略對齊,以確定演奏音頻中的粗略估計的音符起始位置作為基準點。
首先將MIDI轉(zhuǎn)錄合成為音頻信號,同時基于MIDI協(xié)議標記出合成音頻信號中每個音符的起始時間,基于DTW算法求解兩段音頻之間的時間點對匹配路徑。具體算法流程如下:
(1)初始化MIDI合成音頻的音符起始點時間序列tmidi,每512個采樣點取1幀為音符起始幀,得到音符起始點的幀序列集合nmidi。
(2)經(jīng)DTW算法得到對齊序列p,q,該序列為MIDI合成音頻和演奏音頻之間的非遞減幀序列,對給定的i∈{1,…,F},p[i]與q[i]形成匹配對,F(xiàn)為音頻幀序列的幀數(shù)。
(3)對于每個nmidi[k]找到最大范圍對應的[ik1,ik2],使得p[ik1]=nmidi[k]且p[ik2]=nmidi[k]作為給定MIDI合成音頻幀對應的匹配下標范圍,其中k為給定樂譜中的音符數(shù)目。
(4)由每個MIDI音符起始點得到的匹配演奏音頻中的幀范圍(q[ik1],q[ik2]),通過對應演奏音頻中的時間點(taudio[k1],taudio[k2])計算給定范圍對應的時間軸中間點tbase[k]=(taudio[k1]+taudio[k2])/2作為基準點,得到演奏音頻的粗略估計音符起始點,即基準點序列tbase。
為使該過程得到的基準點序列盡量準確,需要對DTW的參數(shù)基于BSAMS數(shù)據(jù)集進行優(yōu)化,主要參數(shù)包括特征向量和向量距離計算函數(shù)。特征向量主要考慮梅爾倒譜系數(shù)特征、chroma_stft特征、chroma_cqt特征以及chroma_cens特征;向量距離計算主要考慮歐式距離和余弦距離。經(jīng)實驗,最終確定選取的特征為chroma_cqt色度特征。
本節(jié)得到的演奏音頻中的音符起始基準點序列一方面作為粗略的音頻樂譜對齊結(jié)果,另一方面為后續(xù)候選點的篩選范圍提供參考。
為了解決音頻的精準音符起始位置問題,本節(jié)結(jié)合巴松自身的器樂特點,找到音符起始點的相對準確位置,為進一步精準對齊提供向后迭代所需數(shù)據(jù)。本節(jié)提出了一種基于音符起始點的檢測算法,生成盡量靠近音符真實起始點的點位作為候選點。
考慮到巴松的音符演奏特征在一定程度上屬于軟起音,即音符起始位置的能量上升過程有較長且緩慢的能量上升過程,該過程相對于具有明顯硬起音的鋼琴而言較長,而相對軟起音特點明顯的小提琴等樂器較短,且演奏過程中有些音符可能會使用自然顫音的演奏方式,即在演奏某個音符時該音符會出現(xiàn)周期性的頻率變化,因而需要采用適當?shù)钠鹨魴z測算法以提高檢測的準確程度,抑制誤檢的發(fā)生。在起音檢測算法中,基于能量的起音檢測算法對硬起音效果較好,對軟起音效果欠佳;結(jié)合相位的起音檢測算法對軟起音有一定的改進效果,但難以解決顫音的問題;基于頻譜通量的起音檢測可以有效應對軟起音的問題,在一定程度上可以抑制顫音的誤檢。因而本文采取基于頻譜通量的起音檢測算法。為了適應巴松的音符起始特點,將起音檢測得到函數(shù)曲線提取的峰值點,以及經(jīng)過回溯得到峰值點附近的低點共同作為候選點。具體算法如下:
(1)首先基于以下公式計算音頻特定頻率成分能量變化的幅度即頻譜通量(即譜波動):
其中,n為音頻幀,m為頻域中兩個離散譜線之間的間隔,X為反映頻率成分能量的函數(shù)。H為半波整流函數(shù),由以下公式得到:
在實驗中,選取參數(shù)μ=1,選取梅爾倒譜系數(shù)特征作為頻譜成分能量的計算方式。
(2)通過峰值提取算法處理上一步得到的頻譜通量曲線。峰值提取公式如下:
實驗設定pre_max和post_max大小為30 ms,pre_avg為100 ms,post_avg取值為70 ms,combinition_width取值為30 ms,其中δ為可調(diào)參數(shù),實驗選取δ=0.07作為參數(shù)值,最終得到點集{npeak}。
(3)對點集{npeak}中的每個點,當n>1循環(huán)向前迭代n:=n-1,若SF(n)>SF(n-1)重復此循環(huán),直至n=1或SF(n)≤SF(n-1),得到點集{nback-track}。
(4)將點集{npeak}和{nback_track}合并,得到集合{ncandidate}:={npeak}?{nback_track}。該集合為候選點幀集合,將候選點的幀轉(zhuǎn)換為音頻中對應的時間并將集中的點排序最終得到候選點的時間序列tcandidate。
在得到巴松演奏音頻中的基準點序列和候選點序列后,需進一步對得到的候選點序列進行篩選,從而得到更精確的音符起始位置。本節(jié)提出了一種基于SVM的點對篩選算法,首先計算得到樂譜中某一音符起始點和演奏音頻中某一點的匹配置信度。然后,基于匹配置信度分別計算樂譜中每個音符起始點潛在匹配候選點,并依據(jù)置信度進行篩選。
首先,設計了基于支持向量機SVM模型的點對匹配相似度度量算法。主要步驟分為特征向量的構(gòu)建、數(shù)據(jù)正負集構(gòu)建和SVM模型的訓練三部分。在特征向量的構(gòu)建方面,總體上采取通過比對演奏音頻中給定的點和MIDI合成音頻中給定的點,以及附近小范圍內(nèi)的音頻之間的相似性,以得到點對的相似性特征。
具體來說,對MIDI合成音頻中的音符起始點,截取其附近的音頻序列,同時截取演奏音頻中候選點附近的音頻序列,將兩個序列進行預處理和比對,構(gòu)建多個特征向量。DTW算法可以較好地度量兩個給定時間序列之間的相似度,且不要求兩條時間序列等長?;谝韵缕骄鵇TW路徑距離公式計算MDD(Mean DTW Distance):
其中X和Y為音頻幀序列,L為匹配路徑長度,p和q為由公式(5)計算得到的匹配路徑。
基于公式(4),計算6類特征值,構(gòu)建特征向量,具體計算如下:
其中XM[]為MIDI合成音頻的幀序列,XA[]為演奏音頻的幀序列,n1為MIDI合成音頻中待比對的音符起始點在音頻中所在幀,SC()為截取音頻中的非靜默片段并拼接的函數(shù),n2為演奏音頻中待比對的點在音頻中所在幀的序號,ns為固定短窗幀數(shù),選取 ns=5,nt為固定長窗幀數(shù),選取nt=10,nln為由MIDI協(xié)議獲取合成音頻中音符起始點以左的音符或休止符的時長對應幀數(shù),nrn為音符起始點以右的音符的時長對應幀數(shù),nal為由合成音頻中nln按合成音頻時長和演奏音頻的時長的比例得到的近似幀數(shù),即:
其中,Len為取音頻長度的函數(shù),Trim為截去輸入音頻開頭和結(jié)尾的靜音片段的函數(shù),l為最高不超過的響度分貝值,取l=20dB。
在特征向量設計的過程中,需重點研究以下幾方面內(nèi)容:
(1)從音頻幀的角度,設計特征比對MIDI中音符起始點和演奏音頻中給定點之間的附近一個小區(qū)間(選取20幀,步長512,對應時間0.46s)的音頻相似度,對應特征1。
(2)從音符模型的角度,設計特征比對音頻中給定點左右的等長音頻區(qū)間的相似度,以供參考該點處于音符中還是音符的端點(選取5幀,步長512,對應時間0.12s),若該點處于音符中或靜默片段則左右音頻區(qū)間相似度較高。對應特征2。
(3)從音符的角度,設計特征比對臨近音符的相似度。取MIDI合成音頻和演奏音頻左右兩邊相鄰的音符長度,同時取對應演奏音頻中相應的音頻長度,分別對比左音符(或休止符)、右音符、左右音符的相似度,分別對應特征3、4、5。
(4)結(jié)合巴松演奏多吐音的特點,對相鄰音符音頻片段做先刪去靜默片段再拼接的操作,以降低吐音造成的靜音階段在MIDI合成音頻中無法對應造成的影響。同時將MIDI合成音頻做同樣操作以處理左音符為休止符的情況。
在得到特征向量后,進一步構(gòu)造訓練SVM的數(shù)據(jù)集。在時間軸上,將所有手工標注的音頻樂譜點對作為正集,將與標注點相鄰的兩個點,以及標注點與左相鄰點的中點、標注點與右相鄰點的中點,共四個點與MIDI中音符起始點分別構(gòu)成四組點對作為數(shù)據(jù)集的負集。
最后,采用SVM模型對得到的數(shù)據(jù)進行訓練。SVM模型是一種二分類模型,其主要思想是找到數(shù)據(jù)空間中的一個可以將所有數(shù)據(jù)樣本劃開的超平面,并且使得樣本集中所有數(shù)據(jù)到這個超平面的距離最短。具體來說,通過采用在空間中尋找間隔最大化的分離超平面的方式,對樣本進行分類,同時通過樣本點到超平面的距離可以反映其屬于相應類別的概率。由于SVM在小樣本訓練集上能夠得到比其它算法好很多的結(jié)果,因此采取SVM模型,模型的輸入為提取到的特征向量,采用高斯核函數(shù),并通過網(wǎng)格搜索來優(yōu)化參數(shù),模型輸出為二分類:點對匹配或不匹配,并得到類別對應的概率作為置信度。
具體來說,模型的參數(shù)是基于網(wǎng)格搜索得到的,最終采取徑向基核函數(shù),設置參數(shù)懲罰系數(shù)為0.8,參數(shù)核函數(shù)系數(shù)為0.5,類別比重設置正負權重之比為3.8∶1,得到的SVM分類準確率為0.81。最終基于樣本點到SVM模型決策超平面的距離得到概率值,用以判別音頻和樂譜點對的匹配置信度。
在得到音頻和樂譜點對的匹配置信度后,對每個樂譜中的音符找到對應演奏音頻中一定范圍內(nèi)的候選點,通過SVM模型度量該音符在MIDI合成音頻中音符的起始點和范圍內(nèi)的所有候選點形成的點對之間的匹配置信度,將得到的置信度由高到低排序,采用置信度最高的點對作為篩選結(jié)果。其中,演奏音頻中的范圍由基準點序列確定。具體算法流程如下:
(1)對每個音符的MIDI合成音頻起始點tmidi[k],通過其對應基準點tbase[k],確定候選點的選取邊界范圍(tbase[k-1],tbase[k+1])。找到所有滿足以下邊界范圍的tbase[k-1]≤tcandidate≤tbase[k+1]候選點,得到該音符用于匹配篩選的候選點集合{tcandidate_match}。
(2)根據(jù)訓練的SVM模型分別計算候選點集合{tcandidate_match}中每個點與音符的MIDI合成音頻起始點t[k]的匹配置信度。
(3)將置信度從大到小排序得到MIDI合成音頻音符起始點tmidi[k]的最高置信度匹配點tcandidate_match,若該tcandidate_match點在與其進行匹配置信度計算的所有MIDI合成音頻音符起始點中也有最高的匹配置信度,即雙向最高匹配置信度,則該點即為的tmidi[k]的匹配點tmatch[k],若范圍內(nèi)無雙向最高置信度的候選點或無候選點,則設置tbase[k]為tmidi[k]的匹配點tmatch[k]。
(4)將所有篩選出的匹配點按照順序排列得到匹配點序列tmatch,與音符的MIDI合成音頻起始點tmidi一起,構(gòu)成音頻樂譜匹配點對。
綜上所述,本節(jié)為音頻樂譜中點對精心構(gòu)建了用于表征音頻相似度的特征向量,并訓練了SVM模型,將輸出的匹配概率用于衡量置信度,得到了獲取點對匹配置信度的算法。通過篩選出當前最佳的音頻樂譜音符起始位置匹配點對,已得到較為精準的巴松音頻樂譜對齊結(jié)果。但該結(jié)果仍舊存在一些問題,需要通過進一步的算法進行修正。
雖然已得到較精準的針對巴松演奏的音頻樂譜對齊結(jié)果,然而該結(jié)果仍舊存在問題:(1)起音檢測算法存在一定偏差,可能存在錯檢或漏檢的現(xiàn)象,導致候選點集不夠全面和準確,導致求得的匹配點存在偏差。(2)基于SVM模型得到的點對匹配置信度存在一定偏差,可能導致匹配失誤的情況,導致求得的匹配點存在偏差。(3)巴松的演奏過程中存在部分音符發(fā)音困難的情況,在正確演奏的情況下也有可能出現(xiàn)音頻和樂譜的偏離,導致求得的匹配點存在偏差。
針對以上三點問題,本節(jié)提出一種基于音樂規(guī)律的匹配修正算法。由于在音樂演奏實踐中,大部分情況下臨近音符之間的速度不會出現(xiàn)較大變化,因而臨近的音符之間,音符起始點的時間差值之比可近似看作相鄰音符之間時值之比?;谏鲜鲆魳诽攸c,設計以下算法:
(1)對1<k<K的點,按照以下公式計算得到每個點的λ值λk:
(2)理論上若無音樂節(jié)奏變化和其他偏差的理想狀態(tài),對所有k,λk值應等于1。當存在音樂節(jié)奏變化和上述偏差問題時,設定閾值λlow=.5,λhigh=2,若λlow<λk<λhigh,則判斷為正常,可獲取每個超出正常范圍的最長音頻段。
(3)對每個非正常的音頻段,截取MIDI合成音頻[tmidi[i-1],tmidi[j+1]]段的音頻,以及演奏音頻[tmatch[i-1],tmatch[j+1]]段的音頻,由以下公式得到其匹配點tmatch:
其余正常匹配點的匹配結(jié)果保持不變,得到最終的音頻樂譜匹配點。
為了驗證基準點生成算法中DTW算法采用的主要特征,在BSAMS數(shù)據(jù)集上對色度特征和梅爾倒譜特征進行對比,最終選取基于CQT變換的色度特征chroma_cqt作為DTW算法提取的算法特征。實驗結(jié)果如表1所示,對比不同特征的對齊準確率和平均每個音符對齊的時間偏差,采用chroma_cqt特征向量時,準確率最高,且平均音符時間偏差最小,因而采用chroma_cqt作為用于巴松音頻樂譜粗對齊DTW算法采用的特征向量,以得到較準確的基準點和初步對齊結(jié)果。
表1 特征參數(shù)選取驗證結(jié)果(容錯0.1s)
為了驗證本方法的對齊準確度,從BSAMS數(shù)據(jù)集中每個曲目抽取一首音頻樂譜對進行對齊測試,得到以下整體測試結(jié)果。表2中分別列出了傳統(tǒng)DTW算法和本方法在BSAMS數(shù)據(jù)集上的實驗結(jié)果。本方法相較傳統(tǒng)DTW算法曲目對齊準確率在容錯時間為0.1s情況下整體提升32.5%,平均時間偏差整體下降35.6%。
表2 本文提出方法對比傳統(tǒng)DTW算法對齊準確率比較
為進一步對比,對本文三個部分算法所得準確率和偏差分別進行實驗,其中階段一為基準點生成算法,階段二為候選點篩選算法,階段三為匹配修正算法。按照曲目所屬類別(曲目類型、速度和演奏方式)進行歸納分析,如圖4所示。首先根據(jù)曲目類型進行分析,如圖4(a)所示,對每個曲目類型對應的音頻樂譜對進行測試,得到各算法階段平均準確度和音符平均時間偏差變化的折線圖??梢园l(fā)現(xiàn)本算法對各個類型曲目都有明顯的對齊準確度和精準度提升,協(xié)奏曲片段整體由于難度大,音符類型、速度節(jié)奏變化多,效果不夠理想,但對比第一階段采用的通用對齊算法仍有一定提升。練習片段、中外樂隊片段、旋律片段大體上可以實現(xiàn)較高的精準度。
圖4(b)展示了根據(jù)曲目速度分類的對齊準確率和時間偏差結(jié)果??梢杂^察到,對于慢速和中速的巴松獨奏曲目片段,本算法有比較好的表現(xiàn)和效果,可以達到較高準確率。對于速度較快的曲目由于音符較為密集,效果不夠理想。
針對不同演奏方式,如圖4(c)所示,對每個曲目難度對應的音頻樂譜對進行測試,得到各算法階段平均準確度和音符平均時間偏差變化的折線圖??梢钥闯霰痉椒▽B音演奏和吐音演奏的巴松音樂具有同樣顯著的提升效果。
圖4 BSAMS數(shù)據(jù)集中不同曲目比對準確度結(jié)果
綜上所述,本文提出的面向巴松的音頻樂譜比對算法,與傳統(tǒng)方法相比,對各種曲目類型的準確率和精準度均實現(xiàn)了大幅提升,在BSAMS數(shù)據(jù)集的中低速度和中低難度的曲目片段中,實現(xiàn)了音頻樂譜的精準對齊。
音頻樂譜對齊是MIR領域的重要課題和基礎任務,本文針對現(xiàn)有巴松演奏音頻樂譜對齊方法精準度較低的問題,提出了一種面向巴松演奏的精準音頻樂譜比對方法。構(gòu)建了首個由巴松獨奏音頻和對應樂譜組成的包含多曲式的BSAMS數(shù)據(jù)集,手工標注了音符起始時間和音符對應關系。并基于BSAMS數(shù)據(jù)集,設計了一種由粗到精、逐層細化的分段式精準音頻樂譜比對方法。首先基于DTW和音符起始點檢測,設計了一種基準點和候選點生成算法,得到粗略估計的對齊;其次,提出了一種基于SVM模型的音頻樂譜點對篩選算法,得到精準匹配的音符起始點;最后,設計了一種基于音樂理論的匹配修正算法,進行對齊結(jié)果的修正。通過在BSAMS數(shù)據(jù)集上對不同類型音樂進行實驗,結(jié)果表明,本文提出的方法相比于傳統(tǒng)通用音頻樂譜比對方法在精準度上有顯著提升。
未來的工作考慮以下三點內(nèi)容:首先,當前算法在面對高難度快速巴松樂曲時,實現(xiàn)精準音頻樂譜對齊仍舊較為困難,為提升此類型曲目的對齊準確度,需要設計更加具有針對性的方法。其次,各種樂器都有各自的樂器特性和演奏特色,基于各種樂器的自身屬性設計更加合適的方法以提高準確度,是值得探索的研究方向。最后,考慮到音頻樂譜比對技術的應用場景,基于面向巴松的音頻樂譜比對方法,開發(fā)精準音符起始點標注系統(tǒng),以為MIR領域的研究提供更為豐富的數(shù)據(jù)集。