張靜琦,李薰春
(1.浙江廣播電視集團(tuán)廣播電視傳輸發(fā)射中心,浙江 杭州 310008;2.國(guó)家廣播電視總局廣播電視科學(xué)研究院,北京 100866)
廣播和電影的音頻正在向沉浸式和交互式體驗(yàn)發(fā)展,需要使用更加靈活的音頻格式?;诠潭暤赖姆椒ú蛔阋院w這些發(fā)展,因此正在開(kāi)發(fā)基于聲道、對(duì)象和場(chǎng)景的組合格式。報(bào)告ITU-R BS.2266[1](未來(lái)音頻廣播系統(tǒng)框架)、建議ITU-R BS.1909[2](有/無(wú)圖像的高級(jí)多聲道立體聲系統(tǒng)的性能要求)和ITU-R BS.2051[3](高級(jí)音頻系統(tǒng)節(jié)目制作),都強(qiáng)調(diào)了這些發(fā)展和生產(chǎn)鏈以適應(yīng)音頻技術(shù)發(fā)展的需求。
基于聲道的音頻是在節(jié)目制作期間將內(nèi)容混入預(yù)定數(shù)量的信號(hào)聲道,且每個(gè)聲道與特定靜態(tài)位置處的揚(yáng)聲器相關(guān)聯(lián)的一種音頻呈現(xiàn)方式。每個(gè)聲道通過(guò)將聲道路由到相關(guān)的揚(yáng)聲器(如果存在的話(huà))或者路由到一個(gè)或多個(gè)可用的揚(yáng)聲器(如通過(guò)聲道縮混)來(lái)再現(xiàn),以最佳地表示在預(yù)期揚(yáng)聲器上的播放。制作流程、廣播網(wǎng)絡(luò)和再現(xiàn)系統(tǒng)等,均通過(guò)一系列揚(yáng)聲器的位置來(lái)定義。相關(guān)的示例可參見(jiàn)ITU-R BS.775[4]建議書(shū)《有/無(wú)圖像的多聲道立體聲系統(tǒng)》定義的系統(tǒng)。
基于對(duì)象的音頻是內(nèi)容元素相互獨(dú)立,并伴有描述其關(guān)系且使渲染器生成與重放系統(tǒng)最相適應(yīng)的信號(hào)的元數(shù)據(jù)的一種音頻呈現(xiàn)方式。元數(shù)據(jù)可能隨時(shí)間有所變化,以改變內(nèi)容要素的空間位置等?;趯?duì)象的方法可允許用戶(hù)與音頻內(nèi)容進(jìn)行互動(dòng)。
基于場(chǎng)景的音頻是由一組系數(shù)信號(hào)來(lái)代表內(nèi)容的音頻呈現(xiàn)方式。這些系數(shù)信號(hào)是空間正交基函數(shù)(如球形或圓形諧波函數(shù))的線(xiàn)性權(quán)重??赏ㄟ^(guò)將這些系數(shù)信號(hào)提供至目標(biāo)揚(yáng)聲器或耳機(jī),對(duì)場(chǎng)景進(jìn)行重現(xiàn)。節(jié)目產(chǎn)生是源自重現(xiàn)解耦,并允許在不知曉目標(biāo)揚(yáng)聲器的數(shù)量和位置的情況下創(chuàng)造混合的節(jié)目素材。高階高保真立體聲(Higher Order Ambisonics,HOA)正是基于場(chǎng)景的音頻的一個(gè)示例。
基于對(duì)象、基于聲道和基于場(chǎng)景的要素既可相互關(guān)聯(lián),又可以獨(dú)立存在。為允許實(shí)施基于對(duì)象、基于聲道或基于場(chǎng)景的要素的任意組合,所有信號(hào)均應(yīng)伴有必要的元數(shù)據(jù)/描述符,其中包括不依賴(lài)時(shí)間(靜態(tài))與/或依賴(lài)時(shí)間(動(dòng)態(tài))的期望聽(tīng)覺(jué)事件的空間位置。這些信號(hào)可使用多種交付與/或映射技術(shù),通過(guò)揚(yáng)聲器的配置進(jìn)行再現(xiàn)。
允許所有不同類(lèi)型的音頻(文件/流)分發(fā)的核心要求是無(wú)論使用什么音頻格式,元數(shù)據(jù)都應(yīng)該共存,以充分描述音頻。每個(gè)單獨(dú)的音軌應(yīng)該能夠根據(jù)伴隨的元數(shù)據(jù)被正確地呈現(xiàn)、處理或分發(fā)。為了確保所有系統(tǒng)的兼容性,ITU-R BS.2076[5]建議書(shū)定義了音頻定義模型(Audio Definition Model,ADM),描述了音頻元數(shù)據(jù)模型的結(jié)構(gòu),可以準(zhǔn)確描述音頻文件的格式和內(nèi)容。
音頻定義模型由一組元素組成,元素用于描述音頻的各個(gè)方面。每個(gè)元素由一個(gè)XML 元素表示,包含各種屬性和子元素。這些元素通過(guò)引用相互連接,但音頻塊格式(audioBlockFormat)除外。音頻定義模型的整體結(jié)構(gòu)如圖1 所示。
圖1 顯示了內(nèi)容、格式和BW64 音頻文件之間的劃分。內(nèi)容和格式部分組成了音頻定義模型元數(shù)據(jù),通常包含在BW64 文件中的一個(gè)塊(“axml”塊)中。BW64 文件部分包含“chna”塊,這是一個(gè)連接音頻定義模型元數(shù)據(jù)和文件中音軌的查找表。內(nèi)容部分描述音頻的技術(shù)內(nèi)容,如對(duì)話(huà)、語(yǔ)言以及響度等元數(shù)據(jù)。格式部分描述音軌聲道類(lèi)型以及它們是如何組合在一起的,如立體聲中的左聲道和右聲道。內(nèi)容部分的元素通常對(duì)音頻和節(jié)目而言是唯一的,而格式部分的元素可以重用。
音頻定義模型格式部分如圖2 所示。音頻包格式(audioPackFormat)將一個(gè)或多個(gè)屬于同一組的音頻聲道格式(audioChannelFormat)組合在一起。這在渲染音頻時(shí)至關(guān)重要,因?yàn)榻M內(nèi)的聲道可能需要相互交互。允許音頻聲道格式描述動(dòng)態(tài)聲道,即隨時(shí)間以某種方式變化的聲道。它使用音頻塊格式沿時(shí)間軸劃分聲道。音頻塊格式元素包含開(kāi)始時(shí)間和持續(xù)時(shí)間。音頻塊格式中有描述聲道的時(shí)間相關(guān)參數(shù),而這些參數(shù)取決于音頻聲道格式類(lèi)型。例如,基于對(duì)象類(lèi)型的聲道有子元素“方位角”“仰角”和“距離”來(lái)描述聲音的位置。音頻塊格式的數(shù)量和持續(xù)時(shí)間不受限制,如果某樣?xùn)|西移動(dòng)很快,每個(gè)樣本可能會(huì)有一個(gè)音頻塊格式;而靜態(tài)聲道將只有一個(gè)包含聲道參數(shù)的音頻塊格式。音頻聲道格式是對(duì)單個(gè)音頻波形的描述。在音頻聲道格式中,有一個(gè)類(lèi)型定義屬性,用于定義聲道的類(lèi)型。類(lèi)型定義屬性可以設(shè)置為直接揚(yáng)聲器、HOA、矩陣、對(duì)象或雙耳。這些類(lèi)型中的每一種都有一組不同的子元素來(lái)指定與音頻聲道格式類(lèi)型相關(guān)聯(lián)的靜態(tài)參數(shù)。例如,直接揚(yáng)聲器類(lèi)型的聲道具有子元素?fù)P聲器標(biāo)簽,用于為聲道分配揚(yáng)聲器。
音頻流格式(audioStreamFormat)由一個(gè)或多個(gè)音頻軌道格式(audioTrackFormat)組成。在音頻流格式中,會(huì)有一個(gè)描述音頻流的音頻聲道格式或音頻包格式的引用。音頻軌道格式包含音頻流格式標(biāo)識(shí),用于識(shí)別音頻軌道格式和音頻流格式。
音頻定義模型內(nèi)容部分,如圖3 所示。音頻對(duì)象(AudioObject)用于確定音頻軌道的組合和它們?cè)谖募械奈恢?。它將?shí)際的音頻數(shù)據(jù)與格式聯(lián)系起來(lái),是音頻軌道唯一標(biāo)識(shí)(audioTrackUID)的來(lái)源。
對(duì)于立體聲,音頻對(duì)象格式將包含兩個(gè)音頻軌道唯一標(biāo)識(shí),因此這兩個(gè)軌道將包含立體聲音頻。它包含對(duì)音頻包格式的引用。音頻包格式將這兩個(gè)音頻軌道格式定義為立體聲對(duì)。
音頻對(duì)象格式元素還包含開(kāi)始和持續(xù)時(shí)間屬性。該開(kāi)始時(shí)間是對(duì)象的信號(hào)在文件或記錄中開(kāi)始的時(shí)間,因此如果開(kāi)始是“00:00:10.00000”,那么對(duì)象的信號(hào)將在10 s 的位置進(jìn)入音頻文件的軌道。
由于音頻包格式可以嵌套,因此音頻對(duì)象也可以嵌套。音頻對(duì)象格式由音頻內(nèi)容(audioContent)引用,給出了音頻內(nèi)容的描述。它有諸如語(yǔ)言(如果有對(duì)話(huà))和響度參數(shù)等參數(shù)。這些參數(shù)的一些值只能在音頻生成后計(jì)算,是它們不在格式部分的原因。
音頻節(jié)目(audioProgramme)將所有音頻內(nèi)容匯集在一起,形成完整的組合。
一個(gè)音頻定義模型XML 樹(shù)中可以定義多個(gè)音頻節(jié)目元素。每個(gè)音頻節(jié)目元素可能只引用音頻定義模型XML 樹(shù)的音頻內(nèi)容元素的子集,使得音頻定義模型能夠描述個(gè)性化音頻。例如,描述體育節(jié)目的XML 樹(shù)可以包含主隊(duì)和客場(chǎng)的音頻節(jié)目元素。主隊(duì)音頻節(jié)目可能包含“偏向主隊(duì)評(píng)論”的音頻內(nèi)容元素和另一個(gè)“氛圍”元素??完?duì)音頻節(jié)目可能包含“偏向客隊(duì)評(píng)論”和相同“氛圍”的音頻內(nèi)容。
對(duì)于許多情況,特別是在基于聲道和場(chǎng)景的工作中,許多所需的格式將是通用的。例如,單聲道、立體聲和5.1 聲道都有共同的定義,每次需要描述其中一種格式時(shí),生成和攜帶大量的XML是低效的。國(guó)際電聯(lián)無(wú)線(xiàn)電通信標(biāo)準(zhǔn)ITU-R BS.2094[6]中規(guī)定了音頻定義模型通用定義。通用定義中出現(xiàn)了多種格式,既有基于聲道的,也有基于HOA 的?;诼暤赖母袷椒秶鷱膯温暤篮土Ⅲw聲一直到22.2 聲?;贖OA 的格式主要有SN3D 和N3D。
音頻定義模型元數(shù)據(jù)在高級(jí)音頻系統(tǒng)中的廣播應(yīng)用鏈路,如圖4 所示。廣播節(jié)目制作可以使用任何類(lèi)型的音頻源和內(nèi)容,但應(yīng)該用正確的元數(shù)據(jù)對(duì)其進(jìn)行充分注釋?zhuān)悦枋鲆纛l信號(hào),并以支持此元數(shù)據(jù)的文件格式存儲(chǔ)。分發(fā)階段將把節(jié)目中的表示形式調(diào)整為更緊湊的形式,從而保留或生成新的元數(shù)據(jù),以允許進(jìn)一步渲染。將分發(fā)文件或流傳遞到廣播階段,廣播階段將呈現(xiàn)特定的廣播格式。更高的帶寬廣播將允許傳送和渲染許多對(duì)象和通道,而低帶寬廣播可能必須渲染到更傳統(tǒng)的立體聲格式。廣播格式應(yīng)該保留接收端所需的盡可能多的元數(shù)據(jù)。每個(gè)接收設(shè)備都有自己的渲染器,用于該設(shè)備可能的揚(yáng)聲器布局。例如,高保真需要一些非常靈活的東西來(lái)允許多個(gè)揚(yáng)聲器有不同的位置,而電視將其內(nèi)部揚(yáng)聲器固定在已知的位置。未來(lái)的內(nèi)容交付可能接收到的表現(xiàn)形式,將確保為用戶(hù)互動(dòng)和個(gè)性化提供充分的靈活性。
當(dāng)今的多媒體世界正在向觀眾體驗(yàn)更豐富的方向發(fā)展,包括更高分辨率的顯示、交互性和身臨其境的音頻。對(duì)于音頻,有不同的方法來(lái)實(shí)現(xiàn)沉浸式體驗(yàn)和交互式體驗(yàn)。音頻的未來(lái)看起來(lái)很復(fù)雜,需要確保它可以為聽(tīng)眾正確地再現(xiàn),并且不需要在制作和傳輸中進(jìn)行太多的干預(yù)。元數(shù)據(jù)與音頻緊密相關(guān),允許音頻在整個(gè)制作、分發(fā)和傳輸鏈中得到正確的處理和再現(xiàn)。國(guó)際電信聯(lián)盟制定的音頻定義模型標(biāo)準(zhǔn),能夠充分描述音頻的格式,用以滿(mǎn)足未來(lái)音頻發(fā)展的需要。