鞏 霞,姚澤煒,魏浩然
中國是一個多民族的國家,歷史悠久,文化底蘊深厚。 在音樂領(lǐng)域存在不同風(fēng)格的民族樂器,這些樂器是民族音樂文化的載體,需對其進行保護和傳承。 大部分聽眾對于民族樂器并不熟悉,利用計算機和人工智能手段對民族樂器進行檢測,可以使人們在聽到民族音樂的同時了解到演奏的樂器,在寓教于樂中了解并喜愛民族樂器,目前這是一個較有價值與意義的研究方向。
樂器檢測的研究,是音樂信息檢索(music information retrieval, MIR)的研究方向之一。 之前樂器檢測的研究,大部分集中在對西方樂器的檢測上[1-2],其中包括鋼琴,小提琴,中提琴,大提琴,吉他、豎琴,小號、短號、法國號、薩克號、低音號,長笛、雙簧管、單簧管、排簫和低音管等。 對于中國民族樂器的研究,沈駿,胡荷芬介紹了自己提出的樂器的新特征,并使用K 最近鄰算法實現(xiàn)了對民族樂器的分類[3]。 石浩東等人使用梅爾頻率倒譜系數(shù)(mel-scale frequency cepstral coefficients,MFCCs)[4],并應(yīng)用 LVQ 神經(jīng)網(wǎng)絡(luò)實現(xiàn)民族樂器的識別。 但是上述關(guān)于中文樂器識別的論文中,都沒有公開其使用的數(shù)據(jù)集,導(dǎo)致后續(xù)研究人員無法驗證和跟進這方面的研究。
2021 年發(fā)布的一套名為ChMusic 的民族樂器數(shù)據(jù)集,是由山東理工大學(xué)音樂學(xué)院學(xué)生和齊樂藝術(shù)團成員用不同的民族樂器演奏的樂曲,共55 首,其中包含了11 種常見的中國民族樂器,并給出了使用ChMusic 數(shù)據(jù)集做民族樂器分類的實驗結(jié)果[5]。 該研究側(cè)重于數(shù)據(jù)集的發(fā)布和樂器分類的實驗過程,但沒有對11 種樂器的歷史演變和音色特點作出介紹,而且論文中拍攝的樂器圖片沒有統(tǒng)一的背景,不方便其他研究人員使用。
本文進一步描述了ChMusic 數(shù)據(jù)集中包含的11 種中國民族樂器,著重介紹了每種樂器的歷史演變、使用場景和音色特點。 并對ChMusic 數(shù)據(jù)集中出現(xiàn)的每一種樂器,都增加了以綠幕為背景的樂器圖片,以便于后續(xù)的研究人員替換背景。此外,本文還對基于人工智能的中國民族樂器檢測方法進行了總結(jié)和闡述,并對后續(xù)的中國民族樂器分類研究作出了展望。
中國有56 個民族,每個民族都有自己獨特的音樂文化,各民族的歌曲、戲曲豐富多彩。 樂器作為歌曲戲曲的演奏載體種類繁多,中國的民族樂器約一千余種,下面著重介紹以下11 種常見的民族樂器。
二胡屬于中國民族樂器的弓弦類樂器。 它由唐朝時的“奚琴”演變而來,距今約有1500 年的歷史。 最初二胡作為伴奏樂器在地方戲曲和民間音樂中普遍使用。 到了20 世紀初,劉天華先生對二胡演奏技巧進行了革新,創(chuàng)作了10 首二胡名曲和47 首二胡練習(xí)曲,舉辦了個人獨奏音樂會,同時在高等藝術(shù)院校開設(shè)了二胡專業(yè),使二胡走進了大學(xué)的課堂[6]。 二胡的音色特點是聲音婉轉(zhuǎn)悠揚,音色柔美抒情,接近人的聲音,具有極高的歌唱性。 二胡的演奏多用揉弦技法,低音區(qū)渾厚,中音區(qū)圓潤,高音區(qū)明亮純凈。 二胡具備獨奏、合奏和伴奏的多項功能,使用范圍較廣,深受大眾喜愛。
琵琶最早出現(xiàn)在兩千多年前的東漢時期,當時琵琶的形狀和現(xiàn)在的琵琶有所不同。 唐代后期,琵琶在演奏技法方面有了較大改進,突出的改革是演奏形式由橫抱演變?yōu)樨Q抱,手指直接彈奏取代了用撥子彈奏。 到了民國時期,琵琶由原來的五音音階,按照十二平均律的發(fā)音特點,增加了琴馬。 琵琶的音色特點是聲音清澈明亮,具有顆粒感[7],律動感極強。 正如白居易?琵琶行?中形象地描述琵琶演奏出的聲音如“大珠小珠落玉盤”。
三弦是中國傳統(tǒng)的彈撥樂器,因有三根弦而得名[8]。 據(jù)說秦朝時期,老百姓被強征去邊疆修筑長城,人們?yōu)榱苏{(diào)劑繁重的勞役,在有柄的小鼓上拴上絲線,制成了當時的“弦鼗”,這是三弦的前身。 唐朝時期三弦這個名字就已經(jīng)出現(xiàn)了,三弦在元朝比較盛行,是元曲的主要伴奏樂器。 現(xiàn)代的三弦,琴柄比較長,音箱兩面蒙皮。 它的音色特點是聲音粗獷、渾厚,能夠表達豪放、生動活潑的場景。 三弦多用于民族樂隊演奏、戲曲音樂和說唱音樂的演奏,可以獨奏、合奏或伴奏。
笛子是迄今為止最古老的漢族吹奏樂器。 笛子的由來可追溯到新石器時代,在河南舞陽縣賈湖村東出土的16 支豎吹骨笛,充分證實了笛子的古老。 笛子的演奏技巧豐富,不同的演奏方式能夠演奏出不同的聲音,惟妙惟肖。 笛子的種類豐富,形成了風(fēng)格迥異的南北兩派。 北方的笛子笛身短小,發(fā)出的聲音高亢、明亮、清脆。 南方的笛子笛身粗長,發(fā)出的聲音渾厚綿長。 笛子在中國民間音樂、戲曲、民族樂團、西洋交響樂團和現(xiàn)代音樂中都發(fā)揮著重要作用。 笛子是中國音樂的代表樂器之一。
嗩吶是中國傳統(tǒng)的木管吹奏樂器。 西晉時期,嗩吶在新疆等地出現(xiàn)。 金元時期在中國中原地區(qū)傳播。 明代的古籍中就有了關(guān)于嗩吶的記載,嗩吶在戲曲音樂中占有一席之地[9],到了清代成為宮廷音樂的伴奏樂器。 嗩吶的音色特點是音量大,音質(zhì)明亮、粗獷,具有很強的穿透力和感染力,能夠較好地表現(xiàn)熱烈奔放的場面和大喜大悲的情調(diào)。 嗩吶多用于民族管弦樂團和交響樂團的合奏。
墜琴是地方特色較濃的弓弦樂器,有著近百年的歷史。 在清代,河南一帶流行“鶯歌柳”和“三弦鉸子書”等說唱戲曲,這些地方說唱戲曲原來用三弦伴奏,但是三弦與演唱者的拖腔不相配,于是藝人們就在三弦和二胡的基礎(chǔ)上研制出一種新型的伴奏樂器,這就是墜琴。 墜琴是山東呂劇、河南墜子等地方戲曲的主奏樂器。 墜琴音色渾厚,能夠模仿動物的叫聲、人的笑聲和哭聲,是極具特色的民族樂器。 目前,墜琴多用于地方曲藝和戲曲伴奏,也可以進行獨奏和合奏。
中阮是中國傳統(tǒng)的彈撥樂器。 阮是一個大家族,有大阮、中阮和小阮。 大阮發(fā)出的音比較低,小阮發(fā)出的音比較高,中阮則是中音樂器。 阮在秦朝時稱為“秦琵琶”。 在魏晉時期,有個名叫阮咸的賢士對秦琵琶進行了改革,后來人們就用改造者的名字對樂器進行命名,叫“阮咸”或稱“阮咸琵琶”。唐宋時期,阮這種樂器普及面較廣,得到上流社會士人們的喜愛,成為了貴族家中必備的樂器。 到了宋代,“阮咸琵琶”簡稱為阮,阮的名字沿襲至今。阮是琴和箏的結(jié)合體,它既能彈奏出古箏的味道,又有古琴的手法,音色極具特色。
柳琴伴隨地方戲曲“柳琴戲”“泗州戲”應(yīng)運而生,是地方戲曲的重要伴奏樂器。 最早的柳琴構(gòu)造非常簡單,品位是用高粱稈做的,弦是兩條絲線,音域較窄,不能轉(zhuǎn)調(diào)。 后來為了適應(yīng)戲曲的演奏效果,民間藝人不斷對柳琴進行改造,把原來的高粱稈換成了竹子,絲弦換成了鋼絲弦。 柳琴在民族樂隊演奏中承擔(dān)著高音的演奏功能,是中國傳統(tǒng)的彈撥樂器。 柳琴的演奏方法是左手按弦,右手持撥片撥動琴弦發(fā)聲。 柳琴的音色洪亮宏大、剛勁高亢,音響效果獨具特色,具有典型的地方戲劇色彩。 柳琴在山東、江蘇、安徽一帶的地方戲曲中應(yīng)用廣泛。
古箏是中國古老、獨特且重要的民族彈撥樂器之一[10]。 古箏起源于戰(zhàn)國時期,距今已有兩千五百多年的歷史。 據(jù)史料記載,古箏發(fā)源于秦地,又叫“秦箏”,隨后古箏逐漸在中原地區(qū)和全國傳播使用。 伴隨著歷史的興替,古箏的構(gòu)造也在不斷演化改進,由十二弦古箏演變成現(xiàn)在的S 型二十一弦古箏。 古箏為一弦一柱一音,右手撥弦,左手按弦。 根據(jù)樂曲的不同風(fēng)格,古箏的彈奏方式也會隨之變化。 古箏發(fā)出的聲音清脆悅耳,優(yōu)美動聽,如山泉般流暢。 古箏的傳統(tǒng)代表曲目有?高山流水??廣陵散?等。 目前,古箏這一傳統(tǒng)民族樂器在全國各地深受歡迎,出現(xiàn)了一大批古箏演奏家及古箏愛好者。
揚琴是明朝時期由波斯傳入我國的樂器。 最初在廣東一帶使用,后來逐漸傳播開來,成為多地地方戲曲的伴奏樂器。 揚琴經(jīng)過四百多年的流傳,在樂器制作、演奏技巧和樂曲創(chuàng)作等方面都有了較大改進,具有了明顯的中國民族特色和民族風(fēng)格。 揚琴是擊弦樂器,聲音具有顆粒感、表現(xiàn)力強的特點。 慢奏時如叮咚的泉水,快奏時如潺潺流水[11]。 它是中國民族樂隊中不可缺少的樂器。
笙是中國古老的簧管吹奏樂器,也是世界上最早使用自由簧的樂器[12]。 湖北曾侯乙墓出土的笙,至今已有兩千四百多年。 從“笙”這個漢字的書寫不難看出,笙這個樂器是由竹子制成的。 笙是吹管樂器中唯一可以演奏和聲的樂器。 笙的聲音是簧片通過空氣穿透后引起的共振而產(chǎn)生的,它的聲音柔美,富有悅耳的感染力,強弱對比明顯。
由于缺乏中國民族樂器的公開數(shù)據(jù)集,以往的中國民族樂器檢測研究往往僅使用研究者自己采集的數(shù)據(jù)集,使得后續(xù)研究人員無法進行跟進研究,也無法在同一標準下比較諸種樂器識別方法的優(yōu)劣。 山東理工大學(xué)音樂學(xué)院和齊樂藝術(shù)團于2021 年共同采集并發(fā)布了一套名為ChMusic的民族樂器數(shù)據(jù)集[5],其中包含了11 種中國常見的民族樂器,以下將從樂器種類、音頻信息、曲目信息和數(shù)據(jù)集切分標準等方面展開討論。
表1 中展示ChMusic 數(shù)據(jù)集中包含的11 種樂器,它們分別是二胡、琵琶、三弦、笛子、嗩吶、墜琴、中阮、柳琴、古箏、揚琴和笙。 每一種樂器對應(yīng)一個編號,在本文下文的描述中將采用樂器編號來對應(yīng)描述樂器。 對于每一種樂器,都增加了以綠幕為背景的樂器圖片①以綠幕為背景的樂器照片可以通過百度網(wǎng)盤下載并使用:https:/ /pan.baidu.com/s/1O-HmafnlbnNravlaBg6aVg,提取碼1234。,以便于后續(xù)的研究人員進行背景替換。
表1 ChMusic 數(shù)據(jù)集中樂器編號與樂器對應(yīng)關(guān)系表
綠幕拍攝技術(shù)被廣泛地使用在視頻和電影的拍攝中。 綠幕指的是拍攝場景中的背景幕布,攝像機在單一顏色的綠幕前拍攝,前景的樂器與背景的綠色對比鮮明。 綠幕為背景的圖片經(jīng)過電腦中處理后,綠色背景很容易去掉,可以輕松地將綠色背景替換成其他背景,以便于后續(xù)的圖片或者視頻處理。
表2 中展示了11 種樂器演奏的曲目。 每種樂器分別演奏了5 首曲目,且每種樂器都是單獨演奏,也就是說每首曲目只使用一種樂器。 每首曲目被單獨保存為一個.wav 音頻文件。 每個.wav音頻采用雙聲道,采樣頻率為44100 Hz,音頻長度介于25 秒到4 分40 秒之間。
表2 ChMusic 數(shù)據(jù)集中曲目信息
在樂器檢測過程中,每種樂器的曲目1、2、3、4 將作為訓(xùn)練數(shù)據(jù)集,每種樂器的曲目5 作為測試數(shù)據(jù)集。 每首曲目將被切分成不重合的5 秒鐘的片段,每一個5 秒鐘的片段對應(yīng)一個分類結(jié)果,用于訓(xùn)練或者測試。 每首曲目結(jié)尾部分不足5 秒鐘的片段將被舍棄①本數(shù)據(jù)集可以通過百度網(wǎng)盤下載并使用:https:/ / pan.baidu.com/s/13e-6GnVJmC3tcwJtxed3-g,提取碼xk23;也可以通過以下網(wǎng)址鏈接在谷歌網(wǎng)盤下載并使用https:/ / drive.google.com/file/d/1rfbXpkYEUGw5h_CZJtC7eayYemeFMzij/view? usp=sharing。。
樂器檢測過程中涉及音頻特征提取和分類的操作,其中分類過程又可以分為訓(xùn)練階段和測試階段。在訓(xùn)練階段,我們假定已知音頻與樂器的對應(yīng)關(guān)系。在測試階段,我們假定不知道音頻與樂器的對應(yīng)關(guān)系,通過將音頻輸入到樂器檢測模型得到樂器分類的結(jié)果,再用樂器分類的結(jié)果與答案比較,以測試樂器檢測的性能。 圖1 描述了樂器檢測的流程。
圖1 樂器檢測流程圖
在以往研究中,樂曲的特征一般會使用譜質(zhì)心(Spectrum Centroid)、擴頻(Spectrum Spread)、線性預(yù)測分析( linear prediction coefficients,LPC)、感知線性預(yù)測系數(shù)(PLP)、Tandem 特征、Bottleneck 特征、基于濾波器組的 Fbank 特征(Filterbank)、線性預(yù)測倒譜系數(shù)( linear predictivecepstral coefficients,LPCCs)、梅爾頻率倒譜系數(shù)(mel-scale frequency cepstral coefficients,MFCCs )等。 在樂器識別領(lǐng)域,LPCCs 和MFCCs 是常用特征提取方法[13-14],其中 MFCCs 在目前的研究領(lǐng)域具有獨特的優(yōu)勢。
以往研究的分類模型主要包含K 最近鄰分類算法(K nearest neighbor,KNN)[3]、高斯混合模型(Gaussian Mixture Model, GMM)[15]、支持向量機( support vector machine,SVM)[16]、隨機森林模型(random forest,RF)[15]、隱馬爾可夫模型(hidden Markov model, HMM)[17]、 深 度 學(xué) 習(xí) 模型[18]等。
其中深度學(xué)習(xí)模型可以分為全連接深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)。 全連接深度神經(jīng)網(wǎng)絡(luò)提出時間最早,卷積神經(jīng)網(wǎng)絡(luò)對圖片使用卷積操作從而得出結(jié)果,循環(huán)神經(jīng)網(wǎng)絡(luò)利用時間軸信息依次輸入網(wǎng)絡(luò)得到結(jié)果。
XiaGong 等人[5]使用 20 維 MFCCs 作為音頻特征,分別比較了MFCCs 特征在KNN 模型下不同K 值的分類效果。 分類效果使用準確率(Accuracy) 作為評價標準, 并使用混淆矩陣(Confusion Matrix)來展示分類效果的細節(jié)。 在KNN 模型中,四種不同的K 值被用來對比,分別是 3、5、9、15。 當 K 取 15 時模型取得了最優(yōu)的結(jié)果,準確率為94.15%。
以往的樂器檢測研究大部分集中在對西方樂器的檢測,中國民族樂器檢測的研究較少。 本文詳細描述了ChMusic 數(shù)據(jù)集中包含的11 種中國民族樂器的歷史演變、使用場景和音色特點,并對ChMusic 數(shù)據(jù)集中出現(xiàn)的每一種樂器增加了以綠幕為背景的樂器圖片。 此外,本文還對基于人工智能的中國民族樂器檢測方法進行了總結(jié)和闡述。
今后的研究可以使用本文介紹的ChMusic 數(shù)據(jù)集,探索更多的分類模型,并優(yōu)化分類模型的參數(shù)。 比如使用數(shù)據(jù)增強的方法擴展訓(xùn)練數(shù)據(jù)的數(shù)量,比如在訓(xùn)練數(shù)據(jù)集時間上進行調(diào)整,調(diào)節(jié)樂曲音量,調(diào)節(jié)樂曲播放速度,在樂曲中加入噪音等。也可以將本文中針對單一樂器的識別問題,拓展到同時進行多種樂器的識別。