任瑞
(寶雞職業(yè)技術(shù)學院,鳳翔師范學院,陜西,寶雞 721000)
樂曲節(jié)拍識別是近年來樂音識別領(lǐng)域的研究熱點,它是應(yīng)用音頻技術(shù),根據(jù)旋律可識別樂譜、五線譜以及音頻文件的一種新技術(shù)[1-2]。目前,編輯曲譜過程中,音頻文件可轉(zhuǎn)換成簡譜但無法轉(zhuǎn)換成鋼琴等民族樂器產(chǎn)生的音頻文件,由于樂曲聲音、曲譜、聲線標準構(gòu)成了樂曲節(jié)拍體系,利用此能夠自動識別完整的音頻,并且自動生成樂譜。在此基礎(chǔ)上結(jié)合音頻技術(shù)與語音信號的瞬時功能來確定樂曲的端點以及音節(jié)分布,在研究樂曲節(jié)拍識別技術(shù)與其應(yīng)用時,五線譜當中包含小節(jié)線以及終止符號,可滿足略懂簡譜的大量用戶的需求,但在處理樂音方面的數(shù)字采樣、數(shù)據(jù)信號傳輸、音頻處理、編輯等問題時存在一定的局限性[3-4]。
在樂曲演奏中,音符、頻率、節(jié)拍、音頻與編碼的相互關(guān)系,通常采用MIOV語言以一種模塊化的形式表示,因此本文以音符編碼的標準為基礎(chǔ),設(shè)計基于音頻技術(shù)的樂曲節(jié)拍識別系統(tǒng),使樂曲在演奏當中得到優(yōu)化,尤其是在系統(tǒng)設(shè)計中采用輸入樂曲頻譜編碼的方式來記錄樂曲,并通過下載或之前錄制好的樂曲來轉(zhuǎn)換成相應(yīng)的譜表,從而支持層次化的設(shè)計,以此提升樂曲節(jié)拍識別效果。
本文設(shè)計的基于音頻技術(shù)的樂曲節(jié)拍識別系統(tǒng)硬件結(jié)構(gòu)由樂音識別器、節(jié)拍控制器和動態(tài)顯示器等3部分組成。系統(tǒng)硬件結(jié)構(gòu)如圖1所示。
利用音頻技術(shù)進行樂曲節(jié)拍識別過程中,根據(jù)樂器的演奏自動輸入音頻從而產(chǎn)生相對應(yīng)的譜表。樂音識別器結(jié)構(gòu)如圖2所示。
圖2 樂音識別器結(jié)構(gòu)
在樂曲演奏過程中,獲取以及處理音頻信息的方法有多種,可以在線進行樂曲錄制,也可以線下錄制。在音樂旋律中找出可以表達特征信號的音頻文件是處理樂曲信息的主要目的。提取音符信息常用的方法有時域法、頻域法或者時域頻域相結(jié)合的方法[5]。樂曲旋律加入特殊的數(shù)據(jù)信息,再將其以特定的嵌入方式輸入到相對應(yīng)的譜表當中作為旋律的特征序列,并在樂曲的頻譜數(shù)據(jù)庫與音符數(shù)據(jù)進行旋律匹配,以此產(chǎn)生對應(yīng)的五線譜,樂音識別器負責處理演奏樂曲中的音頻信號以此獲得重要信息,并將此重要信息轉(zhuǎn)換為其中的中間格式,完成對樂曲音符的編碼[6]。
在樂器演奏中,音符持續(xù)的時間使樂曲能連續(xù)演奏,其中最小節(jié)拍為1/5拍,將2拍的時間長度定為2秒,其中一個5 Hz的時鐘頻率可產(chǎn)生1/5拍的時長。演奏樂曲需要控制節(jié)拍從而使音符編碼輸出,編碼輸出一次所需的時間是1/5拍,樂曲中的節(jié)拍通常大于1/5,如1/3拍、1/2拍等,1/3拍則需要將音符的編碼輸出3次。在設(shè)計樂曲節(jié)拍識別系統(tǒng)中設(shè)置了標準計數(shù)器,其計數(shù)頻率為5 Hz,音符占據(jù)的時間為0.15 s,是音頻停留時間的2倍。節(jié)拍控制器示意圖如圖3所示。
圖3 節(jié)拍控制器示意圖
通過連續(xù)輸出音符的編碼,并隨著計數(shù)器上出現(xiàn)的速率進行計數(shù),各個音符的編碼可控制樂曲中節(jié)拍的輸出,這時樂曲就會自動識別并且演奏,當計數(shù)器上的音符編碼變?yōu)?時,樂曲演奏立即停止[7-8]。節(jié)拍控制器結(jié)構(gòu)如圖4所示。
圖4 節(jié)拍控制器結(jié)構(gòu)
根據(jù)圖4可知,在基于音頻技術(shù)的識別系統(tǒng)中,各個緩沖識別器存有不同頻率的音符信號,通過對基準頻率分段從而獲得這些音頻信號的具體信息,為了減少工作量,需要在合適的音頻段截取適合的基準頻率,在對頻率進行分頻過程中,數(shù)控分頻器輸出演奏樂曲所需的脈沖波,以此減小偶次分量生成音符對應(yīng)編碼的脈沖輸出,在完成演奏前進行二次分頻,以此控制樂曲節(jié)拍[9-10]。
在進行樂曲節(jié)拍識別系統(tǒng)硬件設(shè)計過程中,動態(tài)顯示器設(shè)計方法采用的是MDYV語言編程,樂曲演奏模塊當中的分頻模塊將30 MHz的頻譜時鐘結(jié)合成5 MHz和5 Hz的時鐘頻譜。
動態(tài)顯示器結(jié)構(gòu)拓撲網(wǎng)如圖5所示。
圖5 動態(tài)顯示器結(jié)構(gòu)拓撲網(wǎng)
聲音調(diào)試程序與簡譜生成程序在設(shè)計上較簡單,樂曲的演奏源程序分布較分散,音符頻譜生成模塊對應(yīng)的編碼將音符頻率由5 MHz時鐘轉(zhuǎn)換為4 Hz,以此完成音符頻率的正常輸出,在輸出之后利用偶次脈沖進行二次分頻,優(yōu)化音符驅(qū)動器。因此在樂曲音頻輸出編碼過程中需要獲取演奏樂曲所需的樂曲節(jié)拍和對應(yīng)的頻譜編碼,通常一段五線譜中含有140個1/5節(jié)拍,用聲線計數(shù)器進行循環(huán)計數(shù),統(tǒng)計輸出樂曲的節(jié)拍編碼,音符脈沖頻率達到6 Hz時能夠使樂曲自動播放演奏,動態(tài)輸出的曲譜音符通過動態(tài)顯示器循環(huán)顯示,根據(jù)顯示的動態(tài)編碼調(diào)節(jié)高、中、低音調(diào)以及音符[11-12]。采用基于音頻技術(shù)的分析、處理、識別技術(shù),將處理的結(jié)果轉(zhuǎn)換成音頻文件,在應(yīng)用程序上,將錄制好的音頻文件打開,形成一個采樣率高、單聲道正常的波形文件,擴展其原有系統(tǒng)的音頻編輯功能,轉(zhuǎn)換成相應(yīng)的樂譜。顯示器的時鐘結(jié)構(gòu)如圖6所示。
圖6 顯示器時鐘結(jié)構(gòu)
音頻是多媒體中的重要媒體,音頻信號的頻率范圍大概在30 Hz~30 kHz,自然界中廣泛分布著音樂和自然響聲,經(jīng)過模擬設(shè)備記錄聲音,結(jié)果稱之為模擬音頻。音頻分析的原理涉及數(shù)字信號處理的基本理論、音頻分析的基本方法以及音頻參數(shù)測量和分析內(nèi)容,數(shù)字信號處理是音頻技術(shù)分析的基礎(chǔ),信號的采樣和變換是進行音頻分析時所采用的一般方式,信號的頻譜按照信號的頻率結(jié)構(gòu)進行頻譜幅值分析,按照頻率的分布規(guī)律對相位進行分類,建立幅度譜、相位譜等。在信號變換過程中,對應(yīng)的離散頻譜并非周期信號,當周期信號接近無窮大時,離散頻譜變換為連續(xù)頻譜,模擬信號經(jīng)過A/D變換器變?yōu)殡x散時間信號,數(shù)字采樣經(jīng)過幅值量化頻譜會發(fā)生改變,在采樣過程中會涉及采樣定理、頻率混疊、加窗、截斷和泄漏。對音頻設(shè)備進行測量分析時,將脈沖模擬信號輸入黑箱系統(tǒng),從輸出端對信號進行重疊分析,分析過程中產(chǎn)生激勵信號,隨白噪聲、雙音、多音等進行脈沖信號檢測[13-14]。
展示界面如圖7所示。
圖7 展示界面
樂曲節(jié)拍識別方法通常采用音頻信號處理,音頻信號處理的重點以及采用的具體方法不同,通常樂曲節(jié)拍識別流程分為以下幾個部分。
初始化處理。初始化處理包括音符處理、頻譜整流、聲線濾波、編碼操作等步驟。通常使用錄音采樣來獲得樂曲節(jié)拍音頻數(shù)據(jù),樂曲音符基頻范圍依據(jù)不同的節(jié)拍而不同,確定所需數(shù)據(jù)的精度以及計算的復雜程度、編碼的采集格式以及信號的分流。
第一步:音符處理
可用自動識別節(jié)拍軟件或者專門的音符處理軟件RTEIB對演奏樂曲進行音符處理
第二步:頻譜整流
在樂曲演奏過程中,演奏人員通常利用錄制聲線卡或者線下錄音作為音頻數(shù)據(jù)源,頻譜在音頻傳輸當中會通過脈沖信號進行整流,避免環(huán)境對數(shù)據(jù)傳輸?shù)母蓴_,對輸入信號做整流處理,音頻處理軟件對音頻信號能夠有效地進行轉(zhuǎn)換,且可靠性高,擴展性強。
第三步:聲線濾波
在對簡譜進行二次處理時,軟件會對樂曲中的聲線進行濾波,再對音頻信號進行低通濾,從而得到短時幀頻譜計算結(jié)果。
第四步:編碼操作
編碼操作的取值在節(jié)拍識別中相當關(guān)鍵,取值過大或過小都會出現(xiàn)許多同音,這樣產(chǎn)生的樂曲簡譜就不理想,對應(yīng)的音符編碼會出現(xiàn)重疊,因此在這一操作中需要取音長的最小值就可以使音符編碼成功[15]。
為了研究本文提出的基于音頻技術(shù)的樂曲節(jié)拍識別系統(tǒng)的有效性,與傳統(tǒng)的文獻[1]基于音樂特征識別的樂曲節(jié)拍識別系統(tǒng)以及文獻[2]基于人工智能識別的樂曲節(jié)拍識別系統(tǒng)進行實驗對比。
設(shè)定實驗參數(shù)如表1所示。
表1 實驗參數(shù)
本文所使用的實驗數(shù)據(jù)均來自于RILM音樂數(shù)據(jù)庫,隨機選擇10首曲目作為實驗曲目。
利用本文系統(tǒng)對隨機一首曲目進行音符處理、頻譜整流、聲線濾波、編碼操作,具體的系統(tǒng)軟件處理結(jié)果如圖8所示。
(a)音符處理
選用本文提出的系統(tǒng)和傳統(tǒng)系統(tǒng)進行對比實驗,先比較了不同系統(tǒng)的樂曲節(jié)拍識別間隔時間,該指標是指在以識別開始時間作為初始識別時刻,將沒有樂曲聲音輸入就立即停止識別的時刻作為終止識別時刻,將從初始識別時刻到終止識別時刻所用時間作為識別間隔時間。
不同系統(tǒng)的識別間隔時間如表2所示。
表2 識別間隔時間
由表2可知,本文所示設(shè)計系統(tǒng)的識別間隔時間遠遠低于傳統(tǒng)系統(tǒng)的識別間隔時間,原因在于基于音頻技術(shù)的樂曲節(jié)拍識別系統(tǒng)樂譜中的拍子具體指每一小節(jié)的總長度,常見的有2/4、3/4、4/4、6/8拍子。每小節(jié)的長度是固定的,例如3/4拍子就是4分音為1分音,3分音為3分音,6分音為6分音。音樂的節(jié)奏在作曲時是固定不變的,而且不會改變,所以該系統(tǒng)的識別間隔時間更短。
識別準確率是正確識別出的樂曲節(jié)拍數(shù)量與樂曲節(jié)拍總量之間的比率。不同系統(tǒng)的識別準確率實驗結(jié)果如圖9所示。
圖9 識別準確率實驗結(jié)果
根據(jù)上述實驗結(jié)果可知,本文所設(shè)計的識別系統(tǒng)的識別準確率更高,具有更好的識別能力,更適合于實際應(yīng)用。
本文主要設(shè)計了一種基于音頻技術(shù)的樂曲節(jié)拍識別系統(tǒng)。通過對音頻、簡譜、聲線、樂音的處理、分析、識別使錄制的音頻文件更加直觀、簡單、可靠性高。在應(yīng)用界面上,采樣率單聲道的波形文件會通過本系統(tǒng)得到擴展,單擊程序上的“轉(zhuǎn)換簡譜”可以轉(zhuǎn)換成相應(yīng)的譜表,能夠適合多功能的各種樂器,樂曲節(jié)拍識別得更加完善且健全,以此可以進一步提高音樂人創(chuàng)作樂曲的效率,節(jié)省創(chuàng)作的成本、時間、精力,在搜索海量樂曲文件過程中使用的識譜功能。在樂曲節(jié)拍識別的基礎(chǔ)上,能識別五線譜中存在小節(jié)線、終止符號,改善原有的樂曲節(jié)拍識別系統(tǒng),能夠有效、準確地對音頻定位以及對音符分割,使每個獨立音符的起始和結(jié)束時間都可由幀來表示,優(yōu)化原有的樂曲節(jié)拍識別系統(tǒng)。