摘? 要:樂音是構(gòu)成音樂的核心元素。樂音識別是音樂識別的核心工作。首先對“聲音”“音頻”“音樂”“樂音”等若干概念進行了定義,然后從狹義和廣義兩個方面分析了樂音識別的主要任務(wù)和基本流程,無論是狹義還是廣義的樂音識別,單音基本特征的提取和識別,都是基礎(chǔ)內(nèi)容。重點展望了樂音識別技術(shù)的發(fā)展趨勢,其三種基本脈絡(luò)分別為提高非復(fù)調(diào)單音基本特征的識別效率、優(yōu)化非復(fù)調(diào)多音符特征的提、拓展復(fù)調(diào)的識別和提取。最后在音樂噴泉控制器中實現(xiàn)了樂音特征的自動提取。研究結(jié)果可為樂音識別技術(shù)研究與系統(tǒng)應(yīng)用提供參考。
關(guān)鍵詞:樂音識別;特征提取;機器聽覺;音符分割
中圖分類號:TN912.34? ? ? 文獻標(biāo)識碼:A 文章編號:2096-4706(2020)06-0001-04
Abstract:Musical sound is the core element of music. Music recognition is the core of music recognition. Firstly,some concepts such as “sound”,“audio”,“music” and “musical sound” are defined,then the main tasks and basic processes of musical sound recognition are analyzed from the narrow sense and the broad sense. No matter the narrow sense or the broad sense of musical sound recognition,the extraction and recognition of the basic features of single sound are the basic contents. This paper focuses on the development trend of music recognition technology,and its three basic venation are to improve the recognition efficiency of the basic features of non polyphonic single tone,optimize the extraction of non polyphonic multi note features,and expand the recognition and extraction of polyphony. Finally,the automatic extraction of music features is realized in the music fountain controller. The research results can provide a reference for the research and system application of music recognition technology.
Keywords:music recognition;feature extraction;machine hearing;note segmentation
0? 引? 言
音樂是全人類共通的語言,包含了大量的內(nèi)容信息。音樂識別是對包含音樂的音頻文件進行分類、識別、音頻流分割、數(shù)據(jù)檢索和內(nèi)容分析等一系列工作的總稱,本質(zhì)上是基于內(nèi)容的音頻識別和處理,具有高度的復(fù)雜性。
運用計算機等技術(shù)對聲音和音樂進行分析和理解,被稱為“計算機聽覺”(Computing Audition,CA),也可以被稱為“機器聽覺”(Machine Listening,ML),音樂由樂音和噪音組成。樂音是構(gòu)成音樂的核心元素,因此樂音的識別技術(shù)也是計算機聽覺的核心部分。
關(guān)于樂音和語音的關(guān)系,研究人員持有不同觀點。一種觀點認為,計算機聽覺中只針對數(shù)字化的聲音和音樂,語音則是另外一個獨立的領(lǐng)域。另一種觀點認為,樂音識別是語音識別的一個分支。事實上,樂音識別的理論和實踐都和語音識別有許多共通或相似之處。但是樂音有其自身的特殊性質(zhì),使其與一般的語音得以區(qū)分:(1)樂音可以用相對嚴格的數(shù)學(xué)模型進行表述,其規(guī)范性高于人聲語音;(2)樂器依照系列音符序列震動而產(chǎn)生的樂音具有高度的聲學(xué)相似性和一致性,其個體差異小于人聲語音;(3)樂音處理可以針對基于鋼琴全部音域的88個音符做分割、識別,具有更高的可行性;(4)除了針對音調(diào)、響度和音色之外,還對音高、時值、音量、唱名及節(jié)奏等特征進行研究。
2018年,在河南省科技廳科技研發(fā)專項的資助下,對國外樂音識別技術(shù)的發(fā)展、趨勢及有關(guān)產(chǎn)業(yè)前景進行研究。對國內(nèi)樂音識別技術(shù)的應(yīng)用現(xiàn)狀進行梳理,結(jié)合音樂噴泉控制器等實際應(yīng)用場景進行相關(guān)技術(shù)的完善和應(yīng)用測試。
1? 樂音的基本概念
在諸多文獻中,關(guān)于樂音和樂音提取的許多概念交錯混雜。本文試圖在此理清其中的基本概念。
聲音,是由物體振動產(chǎn)生的聲波。是通過介質(zhì)(空氣或固體、液體)傳播并能被人或動物聽覺器官所感知的波動現(xiàn)象。
音頻,即帶有語音、音樂和音效的有規(guī)律的聲波的頻率、幅度變化信息的載體。
音樂,是由有組織的樂音來表達人們思想感情、反映人類現(xiàn)實生活情感的藝術(shù),可以分為聲樂和器樂兩大類型。
樂音,發(fā)音物體有規(guī)律的振動而產(chǎn)生的具有固定音高的音稱樂音。樂音是音樂中所使用的最主要、最基本的材料,音樂中的旋律、和聲等均由樂音構(gòu)成。從聲學(xué)角度分析,樂音有三個要素:音調(diào)(音高)、響度(音強)、音色,也可以用基頻、振幅和倍頻來表示。
2? 樂音識別的主要任務(wù)和基本流程
綜合上述基本概念可知,樂音識別的概念可以有狹義和廣義的理解。
狹義的樂音識別,主要是對單音音頻進行基本特征的提取和識別。狹義的樂音識別產(chǎn)出的結(jié)果是音高、響度、音色信息。
廣義的樂音識別則涵蓋了自動樂音標(biāo)注的全部內(nèi)容,包括單音的音符識別、音高估計,多音符的節(jié)拍與節(jié)奏識別、旋律與和聲提取,復(fù)調(diào)的多基頻估計等多個方面。廣義的樂音識別產(chǎn)出的結(jié)果就是音頻的內(nèi)容信息,可供音頻信息檢索使用。其關(guān)系如圖1所示。
綜上可以發(fā)現(xiàn),無論是狹義還是廣義的樂音識別,單音基本特征的提取和識別都是基礎(chǔ)內(nèi)容。本文討論廣義的樂音識別技術(shù)的發(fā)展和應(yīng)用。
3? 樂音識別技術(shù)的發(fā)展
樂音識別技術(shù)的發(fā)展主要體現(xiàn)出三種基本脈絡(luò)。
3.1? 提高非復(fù)調(diào)單音基本特征的識別效率
如前述概念所定義的,“非復(fù)調(diào)”就是指只有一個聲部的音樂,即同一時刻只有一個旋律發(fā)音。單音基本特征包括單音的音高、響度和音色。單音基本特征的提取是樂音識別的基礎(chǔ),而單音基音(音高)檢測技術(shù)則是基礎(chǔ)中的關(guān)鍵。這里主要介紹單音音高檢測技術(shù)。
現(xiàn)有的單音音高檢測技術(shù)日益豐富。常見的基音提取技術(shù)有以下三種技術(shù)途徑:
(1)時域估計。直接由語音波形來估計基音周期,常見的有自相關(guān)(Autocorrelation)算法、并行處理算法、平均幅度差算法、SIFT濾波器算法等;
(2)時/頻域變換法。它是一種將音頻信號變換到頻域或者時域,用以估計基音頻率的方法。首先利用同態(tài)分析方法將聲道的影響消除,得到屬于激勵部分的信息,然后估計基
音頻率。最常用的就是小波變換和倒譜法。后者包括線性預(yù)測倒譜參數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)和梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)等;
(3)混合法。先提取信號聲道模型參數(shù),然后利用它對信號進行濾波,得到音源序列,最后再利用自相關(guān)法或者平均幅度差法求得基音估計值。
當(dāng)前的單音基音檢測技術(shù)針對非復(fù)調(diào)的單音符音高識別,已經(jīng)實現(xiàn)了較高的準(zhǔn)確率,并實現(xiàn)了較好的適應(yīng)性和魯棒性。
3.2? 優(yōu)化非復(fù)調(diào)多音符特征的提取
多音符特征主要包括旋律、節(jié)奏等。提取旋律的主要方法大體可以分為三類:(1)基于歌聲分離的旋律提取法(Singing Separation based Melody Extraction):根據(jù)音樂信號的波動性和短時性特點進行旋律特征的增強,結(jié)合自相關(guān)算法提取主旋律線;(2)基于數(shù)據(jù)驅(qū)動的旋律提取法(Data Driven Melody Extraction):僅僅依靠統(tǒng)計特性和分類手段,處理多音符的旋律特性。(3)基于音高顯著性的旋律提取法(Pitch Salience based Melody Extraction):即在每一個音頻幀上進行音高和旋律包絡(luò)線提取。
提取旋律的具體實現(xiàn)技術(shù):經(jīng)典信號處理、基于統(tǒng)計理論、基于信號特征建模、基于支持向量機(SVM)。
提取節(jié)奏的主要步驟:音符起始點檢測、多音符速度檢測、節(jié)拍模式檢測、小節(jié)線識別、節(jié)奏型識別。其中,音符起始點檢測的主要實現(xiàn)手段已經(jīng)從基于信號處理的手段發(fā)展為以人工神經(jīng)網(wǎng)絡(luò)分類和機器學(xué)習(xí)為主的檢測方法;多音符速度檢測則是基于信號處理和分解,開展子空間內(nèi)的信號周期性估計;小節(jié)線識別主要是基于周期性的強弱拍序列估計,有研究者運用深度神經(jīng)網(wǎng)絡(luò)通過音樂特征強化學(xué)習(xí)得到拍子結(jié)構(gòu);節(jié)奏型識別主要是進行多種音樂類型的模式匹配,有研究者通過鼓及其他打擊樂器的節(jié)奏信息來識別節(jié)奏型。
3.3? 拓展復(fù)調(diào)的識別和提取
復(fù)調(diào)音樂包含兩條以上的獨立旋律。識別復(fù)調(diào)主要是區(qū)分并提取同一時刻存在多個旋律同時發(fā)出的音,以音高估計為主。復(fù)調(diào)樂音存在多個音在頻譜上的重疊,帶來了諧波偏移和諧波重疊的雙重困難。最早于20世紀(jì)70年代由Moore等人在斯坦福大學(xué)完成,當(dāng)時能夠識別2個同時發(fā)聲的音符。
復(fù)調(diào)識別的技術(shù)途徑也可以分為基于信號處理、基于統(tǒng)計處理和基于模型,具體實現(xiàn)過程可以分為迭代估計和聯(lián)合估計。其中,迭代估計是通過逐一提取復(fù)調(diào)中的音高,鎖定某一幀中最突出的音,抑制與之相關(guān)的其他音的信息,在剩余頻譜中重復(fù)上述過程來實現(xiàn);聯(lián)合估計是基于同時估計一組音高的可能性展開測算,盡管無須多輪次迭代的提取和抑制,但是需要通過基于一組單音估計的置信度函數(shù)來表征多音的置信度,常通過貝葉斯模型、最大期望算法等統(tǒng)計學(xué)手段加以實現(xiàn)。
4? 實? 驗
以噴泉實驗傳統(tǒng)工業(yè)控制為基礎(chǔ),結(jié)合樂音特征識別技術(shù)、計算機仿真技術(shù)和PLC控制技術(shù),實現(xiàn)音樂韻律庫的可視化自動編輯、計算機實景仿真和PLC直接控制工業(yè)噴泉,達到音樂對噴泉的智能控制。
軟件系統(tǒng)輸入端對音頻信號進行識別、譯碼和編碼、短時傅立葉變換,以及自動和人工輔助生成韻律庫,在通過2D(如圖2所示)或是3D(如圖3所示)的實景效果仿真檢核后,把韻律輸出到PLC可編程電路控制器。PLC根據(jù)水型組態(tài)規(guī)則控制潛水泵、電磁閥、水下彩燈和變頻器等執(zhí)行機構(gòu),對噴泉進行控制。噴泉的造型、燈光的變化、音樂的旋律同步,使噴泉水型、燈光及色彩的變化與音樂高低起伏完美結(jié)合,渲染出音樂生動、活潑、激昂、悲傷、婉轉(zhuǎn)等各種情緒變化。多感官引起人體聯(lián)覺效應(yīng),突出音樂噴泉的美好體驗和感受。
音樂噴泉控制器,不僅是軟件和硬件的結(jié)合,也是虛擬與現(xiàn)實的結(jié)合,更是人類心靈與藝術(shù)的結(jié)合。
5? 結(jié)? 論
經(jīng)過多年發(fā)展,樂音識別技術(shù)的發(fā)展體系漸成,日益完備。在單音的提取和識別這一基礎(chǔ)之上,已經(jīng)發(fā)展衍生出對單聲部旋律、多聲部復(fù)調(diào)的提取和識別技術(shù),其中囊括了對音色、節(jié)奏、速度、響度、和聲等多方面的識別對象。樂音識別技術(shù)的應(yīng)用場景非常廣泛,尤其是在面向互聯(lián)網(wǎng)海量的數(shù)字音樂資源時,可以對數(shù)字音樂內(nèi)容進行高效準(zhǔn)確的理解和分析。
參考文獻:
[1] 張一彬,周杰,邊肇祺,等.基于內(nèi)容的音頻與音樂分析綜述 [J].計算機學(xué)報,2007(5):5712-5728.
[2] DUBNOV S.Computer audition:an introduction and research survey [C]//Proceedings of the 14th ACM International Conference on Multimedia,Santa Barbara,CA,USA,October 23-27,ACM,2006.
[3] 音樂大咖.關(guān)于音樂組成的基本定義 [M].北京:中央音樂學(xué)院出版社,2000.
[4] 黃力民.樂音體系的數(shù)學(xué)原理 [J].自然雜志,1989(3):196-204+240.
[5] 李偉,高智輝.音樂信息檢索技術(shù):音樂與人工智能的融合 [J].藝術(shù)探索,2018,32(5):112-116.
[6] 徐國慶,楊丹,王彬潔,等.樂音識別方法及應(yīng)用 [J].計算機應(yīng)用,2005,25(4):968-970.
[7] 李偉,李子晉,高永偉.理解數(shù)字音樂——音樂信息檢索技術(shù)綜述 [J].復(fù)旦學(xué)報(自然科學(xué)版),2018,57(3):271-313.
作者簡介:孫夢青(1984-),女,漢族,河南鄭州人,講師,碩士,研究方向:音樂理論。