韓寶強(中國音樂學院,北京 100012)
2021年10月9日注定將成為人工智能音樂發(fā)展史上一個重要時間節(jié)點,就在這一天,就在貝多芬的出生地——波恩,由貝多芬管弦樂團在當地的德國電信會議大廳演奏了用人工智能續(xù)創(chuàng)的貝多芬《第十交響曲》第三、四樂章(為簡便起見以下皆用英文縮寫AI代替人工智能),以紀念貝多芬250周年誕辰。德國前總理施羅德攜夫人到場觀演,德國《鏡報》的標題非常吸引人:“今晚復活的貝多芬栩栩如生?!?/p>
其實這并不是第一次復活貝多芬《第十交響曲》。早在1988年,英國倫敦就曾上演過貝多芬《第十交響曲》第一樂章,始作俑者為英國著名音樂學者、貝多芬研究專家柏瑞·庫珀(Barry Cooper)。他以搜集到的250小節(jié)貝多芬樂譜草稿為藍本,經過仔細研究、精心編創(chuàng),于1988年完成了《第十交響曲》第一樂章的總譜。然而這項工作在當時并未引起太多的關注。
用AI技術續(xù)創(chuàng)貝多芬《第十交響曲》的想法出自卡拉揚研究所所長羅德博士(M. R?der),他也是世界知名的音樂科技活動的組織、推動者。其想法一經提出便獲得德國電信公司在資金和傳媒方面的全力支持。2019年初,羅德組成了一只近百人的跨國AI音樂研究團隊,其中最重要的兩位人物,一位是來自美國羅格斯大學藝術與人工智能實驗室的艾爾噶莫(A.Elgammal)教授,他主要負責用貝多芬音樂來訓練并構建AI神經網絡系統(tǒng),再從中生成所需的貝多芬音樂片段。另一位是著名奧地利作曲家沃爾佐瓦( W.Werzowa),他負責從AI生成的音樂素材中選擇最適合的片段用來合成最終的作品。備受矚目的AI作品在波恩上演后,又于2021年10月27日在德國漢堡著名的易北河音樂廳重演,德國電信通過旗下有線電視和網絡音樂平臺對每次演出都做了線上直播。
筆者之所以關注此次續(xù)創(chuàng)貝多芬項目,首先是出于從事音樂科技教育的職業(yè)敏感,當今音樂科技知識的更新周期越來越短,續(xù)創(chuàng)貝多芬項目作為AI音樂研究的絕佳案例當然值得我們全神貫注。此外,恰好在羅德團隊項目進行的同時筆者受邀參與了國內一個相類似的研發(fā)項目。通過學習研究本次貝多芬音樂的續(xù)創(chuàng)過程,筆者收獲良多,也得到一些啟示,愿在此拋磚引玉與大家分享。
此次AI續(xù)創(chuàng)貝多芬交響曲項目采用的模式非常有特點,歸納起來就是:依托研究型機構,由跨學科人才主持項目;以結果為導向,追求音樂的完美;學術研究與傳媒產業(yè)相結合,實現(xiàn)利益共贏。
在此之前的AI音樂研發(fā)模式大致可分兩類,一類是完全由技術公司主導,突出算法工程師的作用,推出的成果具有很強的技術內涵,其典型代表是索尼公司的DeepBach。另一類名義上由技術公司主導,但音樂生成部分的主導者為音樂家。這一類的典型代表是我國華為公司推出的AI續(xù)創(chuàng)舒伯特《未完成交響曲》第三、四樂章。羅德博士團隊此次采用的是音樂家與AI專家深度融合研發(fā)模式。除了前面提到的艾爾噶莫和沃爾佐瓦兩位關鍵人物外,項目組還專門聘請了美國康奈爾大學計算音樂學專家高特姆(M. Gotham),由他負責貝多芬那些非常潦草的樂譜草稿識別工作、以及AI生成的樂譜編輯合成工作。另外聘請了美國哈佛大學古譜研究專家兼鋼琴演奏家萊文教授(R. D. Levin),負責校訂貝多芬樂譜手稿,同時擔任鋼琴試奏,通過彈奏AI生成的樂譜,讓深諳貝多芬風格的專家審定AI生成的音樂是否符合貝多芬音樂風格。為使團隊內部人員有充分的了解和學術交流,項目組還進行了兩次大規(guī)模集結活動,第一次于2019年6月在美國哈佛大學音樂圖書館,召開了為期兩天的學術研討會。第二次于2019年11月在德國波恩貝多芬故居博物館,團隊一起聆聽萊文教授用鋼琴彈奏的人工智能生成的音樂,并分辨貝多芬原創(chuàng)音樂與AI生成音樂之間的區(qū)別。
到目前為止,羅德團隊尚未發(fā)表本次科研工作的流程細節(jié)和技術內核,僅從一些項目參與者對媒體披露的情況看,整個項目的規(guī)模和人員配備應該是有史以來最強。
羅德團隊的研究對全球AI音樂發(fā)展無疑具有里程碑意義,但能否產生如當年AlphaGo的轟動效應尚難預料。2016年,當谷歌的圍棋對弈程序AlphaGo以五局四勝戰(zhàn)績打敗世界圍棋冠軍李世石后,世界為之一震。當AlphaGo Zero以100比0又打敗AlphaGo后,全球對AI的能量已深信不疑。人們自然也想把AlphaGo的神奇復制到音樂領域,從計算能力角度看,相較于下盤圍棋,創(chuàng)作一首樂曲所需的算力幾乎可以忽略不計
。樂觀的學者預測計算機深度學習技術將很快能生成具有個性化的音樂作品。然而通過對羅德團隊項目的追蹤以及本人所參與的項目情況來看,上述的預測過于樂觀了。首先更正一個概念,就是音樂和圍棋二者在目標模式和評價體系上有著本質區(qū)別。圍棋屬于對弈游戲,機器只要在算力上超過人類就能穩(wěn)獲勝局,而作曲是一個追求超越自我的過程,永遠沒有勝者。今天AlphaGo Zero因找不到對手而無須再升級,但作曲家們依然在不斷更新既有“算法”,尋找突破自己的途徑。在評價體系方面,圍棋比賽有嚴格的客觀標準,達標即贏,而音樂比賽沒有客觀指標,常言“文無第一,武無第二”恰好可用在這里。另外,音樂的復雜度并不比圍棋低,單就樂音的基本屬性,除音高外,樂音還有音長(影響音樂節(jié)奏和速度)、音強(影響音響強弱變化)、音色(影響管弦樂配器)三大要素。如再把聲像、混響等空間聲學因素也包含進去,那么用機器從無到有生成一部音樂作品絕非如想象的那么簡單。
目前可提供“端到端”(End to End)音樂生成服務的系統(tǒng)確實可以瞬間生成一首樂曲,然而都帶有固定化格式的風格,或許僅能滿足低端視頻配樂需求,距離生成帶有個性特征的作品還很遙遠,更談不上交響化音樂。羅德團隊用了兩年多時間、近百人參與研發(fā),AI計算所耗費的計算資源想必也不會少,最后才生成總計不到50分鐘的交響作品,充分說明AI生成交響樂作品的難度和復雜性。
順便講,AI音樂技術的終極難點應該是AI自動配器,在此次羅德團隊提供的貝多芬《第十交響曲》總譜上,版權位置寫著:“作曲/編曲:Beethoven AI,Walter Werzowa(沃爾佐瓦);配器:Reinhard Sumerer 。由此看出,最終作品還是由人工完成。
圖1.貝多芬第十交響曲樂譜手稿與修訂稿比較(照片提供:德國電信公司)
近年來因一直追蹤AI音樂的發(fā)展,自然關心媒體與此有關的評論文章。幾年下來總體上感覺比較失望,因為基本看不到有水準的評論,想必與AI音樂的特殊性有關。傳統(tǒng)意義上對交響樂的評論一般將重點放在作品本身的技術特征上,并將其與作曲家的創(chuàng)作理念和個性風格等因素聯(lián)系起來。當你面對一部由機器完成的作品,且這部作品中或許填滿其他作曲家的音符時,評論家可能真不知從何切入來描述作品的特征:是AI技術的前沿性?還是作曲技術的復雜性?抑或二者融合的完美性?至于對AI音樂創(chuàng)作者的評論則更為困難,拋開著作權問題,假設羅德團隊就是創(chuàng)作主體,從最初的手稿研究、數據學習、神經網絡構建、算法調試、MIDI樂譜輸出、試奏視聽直至生成樂隊總譜,參與者眾多,每個環(huán)節(jié)都直接影響著最終作品的質量,若要評論這個創(chuàng)作主體,就必須涵蓋每位研究者的工作才行,毫無疑問只有全才型的評論家才能完成這項任務。
困難同樣發(fā)生在這次貝多芬續(xù)創(chuàng)項目上,或許因為距離演出結束時間不久的緣故,到目前為止,筆者尚無法從任何專業(yè)性媒體、雜志上發(fā)現(xiàn)對此次續(xù)創(chuàng)工作的專題評論,但在網絡中還能看到很多人發(fā)表的聽后感。譬如在名為“現(xiàn)代錄音制品”(Modern Recordings)的網絡播放平臺有多達百余位聽眾對這部AI音樂作品的評論,看后總體上感覺很多聽眾對AI音樂的興趣非常濃厚。因篇幅關系,這里只選兩位較有代表性的評論摘要如下。
聽眾Fred Feinberg:
我感覺這個作品過多使用了貝多芬《第五交響曲》來訓練人工智能。通常情況下人工智能需要更多的數據訓練才能成功,但貝多芬的交響樂作品數量相對太少,除非能將貝多芬同時期的其他作品,如弦樂四重奏也融入其中。毫無疑問這是令人著迷和令人印象深刻的嘗試。
聽眾Henk Douwes:
聽起來絕對是“貝多芬式的”。對整個過程而言,我更想知道團隊如何讓機器根據貝多芬的草稿進行創(chuàng)作的,整個過程是否都由人工智能系統(tǒng)來決定?單就音樂而言,聽起來很像對貝多芬之前作品的低級翻版,其中明顯有《第五交響曲》諧謔樂章的痕跡,聽起來很刺耳。其實完全可以學習第七、第八或第九《交響曲》的諧謔樂章。即使留存的樂譜草稿確實有貝多芬之前音樂的影子,也不意味著作品就應發(fā)展成目前的樣子。天才的貝多芬能容忍這種平庸的“翻唱”嗎?
從第一位聽眾的評論中我們可感覺此人不僅懂得AI音樂生成原理,同時也很熟悉貝多芬作品的整體情況,評價語言既中肯又理性。而第二位聽眾則頗具“貝多芬粉絲”色彩,對AI充滿好奇,但又對生成的作品表達出強烈不滿,用詞激烈,卻也不乏真知灼見??赐瓯姸嗑W民的評論筆者得到這樣的啟示:對一種全新的音樂形式而言,真正有見地的評論很可能不是來自傳統(tǒng)意義上的評論家,而是真正喜愛這種音樂的普通聽眾。從這個意義上講,當我們無法從專業(yè)媒體得到有價值的信息時不妨把目光投向大眾網絡空間。
縱觀羅德團隊成員基本由三個專業(yè)構成:計算機科學、作曲和音樂科技,里面沒有一位AI音樂專業(yè)人才,甚至也沒有AI專業(yè)人才,原因很簡單,這兩個專業(yè)都處于培育階段,幾乎沒有正牌的畢業(yè)生。羅德團隊中艾爾噶莫教授領導的藝術與人工智能實驗室,從發(fā)表論文看絕大部分人員研究方向都在AI圖像識別領域,基本與AI音樂無關。人才短缺問題能否在數年后就能得到解決呢?筆者對此也不樂觀,直白講主要原因就是學習AI音樂專業(yè)的性價比太低,很難吸引足夠多的年輕人投身于此。盡管目前國內本科學歷教育中還沒設立AI音樂專業(yè)方向,但我們可以設想報考此專業(yè)所需的基本條件:音樂上至少要能熟練演奏一件樂器,這意味著至少要投入兩年以上、每天數小時的樂器學習時間和相應的資金。文化成績至少達到考入一本線的水平,且數學成績要求比較高。要想達到上述條件,所投入的資金和時間肯定要多于其他專業(yè)。然而在報酬方面,國內AI音樂崗位的薪資水平并不比其他AI崗位高,有時還會因AI音樂市場效益不佳而低于平均薪資水平。對這種投入高產出低的專業(yè),或許只有AI音樂發(fā)燒友才會報考。然而一個專業(yè)的存在僅憑為數不多的熱情少年是難以支撐的,更遑論專業(yè)水平的提高和發(fā)展呢?由此來看,AI音樂專業(yè)人才的培養(yǎng)若不從根本上解決低性價比的問題,將很難走出人才短缺的困境。
本次德國電信投入巨資支持AI續(xù)創(chuàng)貝多芬交響樂,讓我們看到資金對AI音樂發(fā)展起到的直接推動作用,也讓筆者聯(lián)想到AI音樂發(fā)展方向問題。目前AI技術發(fā)展最為先進的領域是圖像識別,原因很簡單,因為應用場景廣泛,投入資金能夠獲得優(yōu)良效益,故而能走上一條良性發(fā)展道路。其實在音樂領域也有良性發(fā)展的案例,就是以數字音色合成技術為基礎的音樂制作專業(yè)。數字音色合成技術起源于美國貝爾實驗室,最初只是作為馬修斯(M.Mathews)工程師的業(yè)余愛好,但日本YAMAHA公司看到了它的廣闊應用前景,買下專利后不斷進行技術優(yōu)化,并積極向產業(yè)化方向發(fā)展,最終使之成為當今所有音樂創(chuàng)作和演出領域必不可少的技術裝備。馬修斯的發(fā)明距今不過70年,但由于方向正確今天已發(fā)展成音樂領域的一棵參天大樹,不僅形成產業(yè),同時也成為所有音樂學院的重要課程之一。反觀AI音樂,若以其前身算法音樂(Algorithm Music)作為源頭,其歷史甚至早于數字音色合成技術,只是因為發(fā)展方向不明,至今還停留在孵化階段。
那么AI音樂應該向哪個方向發(fā)展?筆者認為最佳選擇是社會音樂教育,首先,社會音樂教育涵蓋范圍從兒童直到老年人,具有廣闊的發(fā)展前景。第二,音樂教育領域有很多重復性勞動,從音樂基礎理論學習到日復一日的樂器訓練,這些場景非常適合AI 技術發(fā)揮長處。凡有廣闊應用場景的產業(yè)自然能吸引投資者參與,有了資金支持才能吸引更多年輕人加入,AI音樂技術才能快速提升,從而使整個AI音樂進入良性發(fā)展軌道。
相較于其他藝術門類,音樂對新技術、新工具的喜愛或許可用“義無反顧”來形容。從貝多芬誕生到今天的短短的251年時間里,音樂技術的更新?lián)Q代有目共睹。從各種作曲技法的演進到音樂制作技術的突破,從樂器音質的優(yōu)化到計算機軟硬件的迭代,每個音樂人都在主動或被動地接受著現(xiàn)代科技的洗禮。音樂發(fā)展歷史告訴我們,新技術和新工具的使用往往孕育著全新音樂理念和音樂風格誕生,作為21世紀前沿科技的代表,AI技術又將給音樂藝術帶來何種改變?讓我們拭目以待!