• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    視聽(tīng)同步的細(xì)粒度腳步音效合成方法

    2024-01-05 06:47:32劉子航齊秋棠程皓楠
    現(xiàn)代電影技術(shù) 2023年12期
    關(guān)鍵詞:細(xì)粒度響度腳步聲

    劉子航 齊秋棠 程皓楠 崔 健 葉 龍,

    1.中國(guó)傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024 2.中國(guó)傳媒大學(xué)媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100024 3.新華通訊社,北京 100803

    1 引言

    電影作為主流多媒體作品形式之一,主要從視覺(jué)與聽(tīng)覺(jué)兩個(gè)方向與觀眾產(chǎn)生感知上的交互。音效作為電影后期制作聲音設(shè)計(jì)的核心,在從聽(tīng)覺(jué)方向增強(qiáng)電影的故事敘述以及觀眾的真實(shí)感、沉浸感等方面發(fā)揮了至關(guān)重要的作用。由于電影拍攝場(chǎng)景的聲音環(huán)境可控性受限以及其他因素的影響,直接錄制背景真實(shí)音效是困難的。在實(shí)際電影播放的場(chǎng)景中,影片中的腳步聲等音效是影響電影場(chǎng)景氛圍感與真實(shí)感的關(guān)鍵性因素。因此,在電影拍攝制作過(guò)程中,通常會(huì)通過(guò)使用音效庫(kù)素材后期混音或直接進(jìn)行擬音實(shí)現(xiàn)影片中的腳步聲、摩擦聲等動(dòng)效(由人物所發(fā)出的非對(duì)白聲音)聲音設(shè)計(jì)與合成,而這項(xiàng)工作需要經(jīng)驗(yàn)豐富的聲音設(shè)計(jì)師耗費(fèi)大量時(shí)間和資源來(lái)完成。

    在實(shí)現(xiàn)各種關(guān)鍵性動(dòng)效聲音的擬音過(guò)程中,腳步聲是每個(gè)電影后期擬音的初始階段都需要面對(duì)的,這也是擬音師們進(jìn)行聲音設(shè)計(jì)的基本功。不同的地面材質(zhì)、鞋子類(lèi)型、人物的重量以及步伐的差異都會(huì)影響腳步聲音的真實(shí)感與契合度。即使是專(zhuān)業(yè)擬音師,在擬音過(guò)程中想要同時(shí)保證聲音與視覺(jué)畫(huà)面時(shí)間保持同步且內(nèi)容保持一致性都是一項(xiàng)不小的挑戰(zhàn)。

    隨著機(jī)器學(xué)習(xí)(Machine Learning)、深度學(xué)習(xí)(Deep Learning)、人工智能(AI)等現(xiàn)代智能科技的持續(xù)發(fā)展和不斷深化,為影視行業(yè)帶來(lái)新的機(jī)遇,也為電影音效設(shè)計(jì)的智能化提供了新的思路。深度學(xué)習(xí)方法提供了高強(qiáng)度算力、龐大數(shù)據(jù)量以及深層次模型,為視覺(jué)與聲音關(guān)系學(xué)習(xí)提供了基礎(chǔ)支撐。然而,大數(shù)據(jù)量驅(qū)動(dòng)的方法難以實(shí)現(xiàn)細(xì)粒度的內(nèi)容控制和視聽(tīng)細(xì)粒度關(guān)系的映射對(duì)應(yīng),因此導(dǎo)致合成的音效缺乏內(nèi)容細(xì)節(jié)區(qū)分,進(jìn)而造成真實(shí)感和沉浸感的不足。

    本文提出了一種細(xì)粒度腳步音效的自動(dòng)合成方法。該方法融合了數(shù)據(jù)驅(qū)動(dòng)與規(guī)則建模方法,有效地構(gòu)建了不同視覺(jué)線索與模擬聲音的映射關(guān)系,利用數(shù)據(jù)驅(qū)動(dòng)方法實(shí)現(xiàn)視聽(tīng)時(shí)序一致,利用規(guī)則建模方法細(xì)粒度地控制聲音合成,以智能化擬音技術(shù)解決視覺(jué)與聲音的同步性以及內(nèi)容一致性的問(wèn)題。實(shí)驗(yàn)證明,本文的方法能夠?qū)崿F(xiàn)腳步音效的自動(dòng)化生成,并且合成的腳步音效與視覺(jué)畫(huà)面之間在同步性及內(nèi)容一致性方面均有較好結(jié)果。智能化音效合成工作不僅能有效增強(qiáng)觀眾沉浸感與電影作品的真實(shí)感,也能改善人工擬音工作的人力與資源壓力。

    2 國(guó)內(nèi)外研究現(xiàn)狀

    隨著科學(xué)技術(shù)水平的不斷提升,電影行業(yè)逐漸出現(xiàn)了各種先進(jìn)的聲音合成方法?,F(xiàn)階段,視覺(jué)引導(dǎo)的聲音合成工作可分為三類(lèi):手工擬音的方法、基于規(guī)則的建模方法和數(shù)據(jù)驅(qū)動(dòng)的方法。

    手工擬音是一種傳統(tǒng)的電影后期音效制作方法,擬音師通過(guò)手動(dòng)操作為電影進(jìn)行后期音效配音。這包括使用各種道具和動(dòng)作來(lái)產(chǎn)生合適的擬音效果以匹配電影畫(huà)面(例如在粗糙的表面上用力奔跑,相互推動(dòng),擦洗不同的道具),從而達(dá)到后期擬音補(bǔ)充視覺(jué)畫(huà)面的效果。然而,手工擬音存在人力和資源高成本的挑戰(zhàn),因此,智能化的后期音效合成工作將成為電影行業(yè)的發(fā)展趨勢(shì)。在智能化擬音技術(shù)的發(fā)展中,視覺(jué)與聲音的同步性和內(nèi)容一致性是需要解決的關(guān)鍵難點(diǎn),這對(duì)于電影的真實(shí)感和觀眾的沉浸感有重大影響。

    基于規(guī)則的聲音合成方法包括基于信號(hào)和基于物理的合成方法?;谛盘?hào)的合成方法[1][2][3]采用運(yùn)動(dòng)、紋理、頻譜等信號(hào)信息進(jìn)行分析和建模,以實(shí)現(xiàn)聲音合成。但該類(lèi)型的方法需要手動(dòng)控制且難以與視覺(jué)畫(huà)面同步。相比之下,基于物理的合成方法[4][5][6][7]則對(duì)物體振動(dòng)進(jìn)行建模,并通過(guò)聲學(xué)方程來(lái)計(jì)算聲壓,以實(shí)現(xiàn)聲音合成。該類(lèi)方法能夠合成高細(xì)粒度的聲音,通常用于動(dòng)畫(huà)場(chǎng)景配音。然而,對(duì)于實(shí)際電影場(chǎng)景,該方法依賴(lài)的視覺(jué)參數(shù)難以通過(guò)物理建模獲取,因而難以適用于電影后期音效合成。

    數(shù)據(jù)驅(qū)動(dòng)的方法利用神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)大量視音頻數(shù)據(jù)的同步映射關(guān)系自動(dòng)實(shí)現(xiàn)聲音合成。這種方法提供了新的聲音合成思路。尤其近年來(lái)大數(shù)據(jù)和大模型的推動(dòng),涌現(xiàn)出了一批優(yōu)秀的研究,例如:RegNet[8]、V2RA-GAN[9]、SpecVQGAN[10]、AutoFoley[11]、FoleyGAN[12]、SPMNet[13]等。然而,數(shù)據(jù)驅(qū)動(dòng)方法缺乏細(xì)粒度表征和明確的映射關(guān)系,這些方法無(wú)法實(shí)現(xiàn)類(lèi)內(nèi)細(xì)粒度的聲音合成,對(duì)電影的視覺(jué)補(bǔ)充效果不佳,尤其在腳步聲音合成方面的細(xì)粒度控制方面存在挑戰(zhàn)。視覺(jué)引導(dǎo)的聲音合成技術(shù)有望進(jìn)一步改進(jìn)和發(fā)展,以提高聲音合成的質(zhì)量、精度和真實(shí)感。

    3 細(xì)粒度腳步音效合成方法

    本章詳細(xì)介紹了視覺(jué)引導(dǎo)的細(xì)粒度腳步音效合成方法,其主要由視聽(tīng)時(shí)序同步的腳步音效合成、腳步音效內(nèi)容細(xì)粒度優(yōu)化兩個(gè)部分組成。整體的框架結(jié)構(gòu)如圖1 所示,輸入無(wú)聲視頻,通過(guò)音效生成以及細(xì)粒度優(yōu)化合成與視頻中人物運(yùn)動(dòng)一致的腳步音效。具體而言,首先該方法利用視聽(tīng)生成網(wǎng)絡(luò),學(xué)習(xí)視聽(tīng)關(guān)聯(lián),合成與視覺(jué)畫(huà)面同步的腳步音效,保證視覺(jué)和聲音之間的時(shí)序一致性。為了進(jìn)一步提高聲音真實(shí)感,實(shí)現(xiàn)腳步音效的細(xì)粒度差異變化,我們將通過(guò)內(nèi)容細(xì)粒度優(yōu)化模塊對(duì)音效進(jìn)行調(diào)整。

    圖1 細(xì)粒度腳步音效合成框架

    3.1 數(shù)據(jù)驅(qū)動(dòng)的音效生成網(wǎng)絡(luò)

    實(shí)現(xiàn)還原度高的腳步音效合成的第一步是滿足視聽(tīng)同步。為獲取視聽(tīng)同步的關(guān)鍵性信息,解決視覺(jué)與音頻間同步性問(wèn)題,本文設(shè)計(jì)了一個(gè)音效生成模塊。該模塊利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行視聽(tīng)關(guān)系的學(xué)習(xí)以及腳步音效的合成。圖2 闡釋了本節(jié)中所提到的模塊具體結(jié)構(gòu)。該模塊由視覺(jué)編碼器、聲音編碼器、聲音生成網(wǎng)絡(luò)和聲碼器四部分組成。

    圖2 數(shù)據(jù)驅(qū)動(dòng)音效生成網(wǎng)絡(luò)框架

    特征的選擇對(duì)視覺(jué)與聲音的編碼尤為重要,為了獲取足夠豐富的視覺(jué)信息以及聲音信息,我們首先對(duì)視覺(jué)與聲音進(jìn)行特征提取,其中視覺(jué)特征選擇RGB 特征、光流特征以及人物姿態(tài)特征,音頻特征選擇Mel頻譜特征。緊接著,將提取的視覺(jué)特征與聲音特征分別送入到視覺(jué)編碼器以及聲音編碼器中,為了更好地捕捉雙向長(zhǎng)距離視聽(tīng)依賴(lài)關(guān)系,我們選擇了雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)[14]作為編碼器。將視覺(jué)與聲音編碼特征對(duì)齊拼接后,送入聲音生成網(wǎng)絡(luò)進(jìn)行處理。

    聲音生成網(wǎng)絡(luò)架構(gòu)采用生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[15],通過(guò)網(wǎng)絡(luò)學(xué)習(xí)視聽(tīng)時(shí)序關(guān)系,并進(jìn)行聲音頻譜生成。生成式對(duì)抗網(wǎng)絡(luò)包括一個(gè)生成網(wǎng)絡(luò)G以及一個(gè)判別網(wǎng)絡(luò)D,兩個(gè)網(wǎng)絡(luò)通過(guò)相互對(duì)抗博弈的方式進(jìn)行訓(xùn)練。生成網(wǎng)絡(luò)通過(guò)學(xué)習(xí)訓(xùn)練集數(shù)據(jù)的特征,將隨機(jī)噪聲分布盡量擬合為訓(xùn)練數(shù)據(jù)的真實(shí)分布,從而生成聲音頻譜。而判別網(wǎng)絡(luò)則負(fù)責(zé)區(qū)分輸入的聲音頻譜是真實(shí)的還是生成網(wǎng)絡(luò)生成的假數(shù)據(jù),并反饋給生成網(wǎng)絡(luò)。兩個(gè)網(wǎng)絡(luò)交替訓(xùn)練,能力同步提高,直到生成網(wǎng)絡(luò)生成的數(shù)據(jù)能夠以假亂真,并與判別網(wǎng)絡(luò)的能力達(dá)到一定均衡。

    在訓(xùn)練過(guò)程中,生成網(wǎng)絡(luò)試圖最小化損失函數(shù)如式(1)所示:

    式(1)中,第一項(xiàng)是L2 重構(gòu)誤差,第二項(xiàng)是對(duì)抗損失,F(xiàn)s、Fv以及Fc分別表示編碼后的音頻特征、視覺(jué)特征以及視聽(tīng)融合特征。與之對(duì)應(yīng),判別網(wǎng)絡(luò)同樣需要最小化損失函數(shù)如式(2)所示:

    聲音生成網(wǎng)絡(luò)生成的聲音頻譜在經(jīng)過(guò)聲碼器之后重構(gòu)為聲音波形。常用的聲碼器包括基于信號(hào)處理的聲碼器如Griffin-Lim 算法[16],以及基于神經(jīng)網(wǎng)絡(luò)的聲碼器如WaveNet[17]、MelGAN[18]。本文中聲碼器選擇了預(yù)訓(xùn)練的WaveNet[17]。但隨著近年來(lái)神經(jīng)網(wǎng)絡(luò)聲碼器的迅速發(fā)展,聲碼器也可考慮更新為HiFi-GAN[19]等更優(yōu)秀的網(wǎng)絡(luò)。經(jīng)過(guò)數(shù)據(jù)驅(qū)動(dòng)音效生成網(wǎng)絡(luò),可以實(shí)現(xiàn)視聽(tīng)同步。

    3.2 腳步音效的內(nèi)容細(xì)粒度優(yōu)化

    在實(shí)現(xiàn)了腳步聲視聽(tīng)同步的基礎(chǔ)上,為提高腳步聲的還原度,需要保證視聽(tīng)內(nèi)容的細(xì)粒度一致。在本文的音效生成網(wǎng)絡(luò)部分僅實(shí)現(xiàn)了視覺(jué)畫(huà)面與聲音的同步性。但無(wú)法實(shí)現(xiàn)更細(xì)粒度的差異區(qū)分,這將導(dǎo)致其難以在實(shí)際電影后期擬音中使用。為了實(shí)現(xiàn)基于視覺(jué)線索的細(xì)粒度聲音控制目標(biāo),獲得更真實(shí)的聲音,本文設(shè)計(jì)了內(nèi)容細(xì)粒度優(yōu)化模塊,對(duì)腳步音效內(nèi)容進(jìn)一步完善。

    地面材質(zhì)和人體運(yùn)動(dòng)特征是腳步聲中兩個(gè)重要的不變量。首先,地面材質(zhì)對(duì)腳步聲音具有顯著影響。不同的地面材質(zhì)會(huì)導(dǎo)致腳步聲音產(chǎn)生不同的音質(zhì)特性。比如,走在混凝土地面和走在木地板上會(huì)產(chǎn)生截然不同的腳步聲,前者可能更為沉悶,而后者可能更為清脆。因此,考慮地面材質(zhì)對(duì)聲音的影響對(duì)于腳步聲合成至關(guān)重要。其次,人體運(yùn)動(dòng)特征也是影響腳步聲的重要因素。不同的人體運(yùn)動(dòng)方式,比如行走、奔跑、跳躍等,會(huì)產(chǎn)生不同的腳步聲音。這種聲音的變化可以通過(guò)調(diào)整聲音的頻率、響度和節(jié)奏等參數(shù)來(lái)模擬,以使其與特定的人體運(yùn)動(dòng)特征相匹配。因此,考慮地面材質(zhì)和人體運(yùn)動(dòng)特征作為腳步聲合成的兩個(gè)不變量,可以使得合成的腳步聲更具真實(shí)感和逼真度。

    針對(duì)上述分析,本文設(shè)計(jì)的內(nèi)容細(xì)粒度優(yōu)化模塊由兩部分組成:(1)基于視覺(jué)地面材質(zhì)的音色修改;(2)基于視覺(jué)運(yùn)動(dòng)分析的響度調(diào)整。圖3 闡釋了本節(jié)中所提到的模塊具體結(jié)構(gòu)。

    圖3 腳步音效的內(nèi)容細(xì)粒度優(yōu)化框架

    3.2.1 基于視覺(jué)地面材質(zhì)的音色替代模型

    觀眾在觀看電影中的場(chǎng)景時(shí),會(huì)受到人物行走時(shí)地面材質(zhì)聲音的反饋影響,從而影響他們對(duì)場(chǎng)景真實(shí)度的感知。為了確保音色與視覺(jué)地面材質(zhì)之間的一致性,并提升生成聲音的真實(shí)性和細(xì)節(jié),本文設(shè)計(jì)了音色替代模型,用于修改和替換音色。

    為了在保持效率和分類(lèi)速度的前提下,實(shí)現(xiàn)對(duì)視覺(jué)地面材質(zhì)的識(shí)別和標(biāo)記,本文采用了Efficient-Net[20]作為地面材質(zhì)識(shí)別網(wǎng)絡(luò),將視頻幀輸入材質(zhì)分類(lèi)網(wǎng)絡(luò),輸出得到視覺(jué)地面材質(zhì)標(biāo)簽,如混凝土、瓷磚、地毯等。然后,通過(guò)發(fā)聲點(diǎn)檢測(cè)器獲取數(shù)據(jù)驅(qū)動(dòng)音效生成模塊生成的腳步聲的發(fā)聲時(shí)間。發(fā)聲點(diǎn)檢測(cè)器利用光譜通量作為檢測(cè)密度,通過(guò)峰值檢測(cè)和自適應(yīng)閾值方法獲得起始點(diǎn)的時(shí)間序列。

    隨后,我們將視覺(jué)地面材質(zhì)標(biāo)簽和檢測(cè)到的腳步發(fā)聲時(shí)間序列輸入音色修改模型中,根據(jù)視覺(jué)地面材質(zhì)標(biāo)簽從聲音樣本庫(kù)中檢索相應(yīng)的腳步聲音樣本,利用腳步發(fā)聲時(shí)間序列保證視聽(tīng)同步不發(fā)生改變,進(jìn)而完成音色替代和修改。這個(gè)方法可以根據(jù)不同的地面材質(zhì)來(lái)調(diào)整腳步聲的音色,保證了腳步聲的音色與視覺(jué)地面材質(zhì)的一致性,增強(qiáng)了聲音的真實(shí)感。

    3.2.2 基于視覺(jué)運(yùn)動(dòng)分析的響度調(diào)整

    基于視覺(jué)運(yùn)動(dòng)分析的響度調(diào)整是實(shí)現(xiàn)腳步聲細(xì)粒度控制的重要步驟。在這個(gè)過(guò)程中,我們關(guān)注聲音的響度,這是影響場(chǎng)景畫(huà)面中聲音真實(shí)度的關(guān)鍵因素。首先,我們提取聲音的包絡(luò),以便調(diào)整合成聲音的響度。包絡(luò)提取采用了非線性低通濾波器,如式(3)所示:

    當(dāng)x(n) >e(n- 1)時(shí),b(n)取值0.8,其他情況下b(n)取值0.995。其中,n和n- 1 表示當(dāng)前和前一個(gè)樣本的離散變量。

    為了實(shí)現(xiàn)細(xì)粒度的響度控制,我們分為兩個(gè)層次對(duì)腳步音效進(jìn)行調(diào)整,分別是全局位移、動(dòng)作類(lèi)型,這樣的分級(jí)允許我們從宏觀到微觀進(jìn)行控制,以獲得更精準(zhǔn)的響度調(diào)整。

    (1)全局位移層:這一層級(jí)是宏觀控制的基礎(chǔ),基于整體的位移曲線可以控制整體響度幅度和衰減。人在視覺(jué)畫(huà)面中的位置隨著時(shí)間的推移而變化,因此腳步聲的響度也應(yīng)該相應(yīng)變化。由于缺少相機(jī)標(biāo)定,直接獲取視覺(jué)場(chǎng)景中人物位移變化尤其困難,但可以通過(guò)視覺(jué)運(yùn)動(dòng)中人物輪廓的大小來(lái)估計(jì)。在視覺(jué)畫(huà)面中,人物輪廓面積越大,距離越近,則腳步聲音越大,反之亦然。因此,通過(guò)對(duì)人物輪廓面積進(jìn)行序列分析和曲線擬合,可以得到人物位移時(shí)間變化曲線,其作為宏觀響度的激勵(lì)因素實(shí)現(xiàn)響度的全局調(diào)整。

    (2)動(dòng)作類(lèi)型層:在這一層級(jí),我們根據(jù)動(dòng)作類(lèi)型對(duì)響度進(jìn)行微觀控制。通過(guò)劃分不同動(dòng)作類(lèi)型,可以更細(xì)致地調(diào)整聲音的響度,使其更逼真。一般來(lái)說(shuō),腳步動(dòng)作分為走、跑、跳三類(lèi),不同動(dòng)作類(lèi)型對(duì)應(yīng)不同的響度閾值。為實(shí)現(xiàn)基于動(dòng)作的響度調(diào)整,本文對(duì)視覺(jué)的順序動(dòng)作進(jìn)行了定位,并將畫(huà)面中人物的動(dòng)作劃分為間隔動(dòng)作。如果同一視頻中有兩種或兩種以上的動(dòng)作,我們會(huì)根據(jù)動(dòng)作類(lèi)別對(duì)應(yīng)的響度閾值來(lái)調(diào)整響度;如果在同一視頻中沒(méi)有明顯的動(dòng)作差異,則不進(jìn)行處理。

    通過(guò)細(xì)粒度的控制和調(diào)整,我們可以更好地匹配聲音與視覺(jué)運(yùn)動(dòng)的特性,以實(shí)現(xiàn)更真實(shí)和逼真的腳步聲。這種結(jié)合了宏觀和微觀層次的響度控制,使聲音更貼近真實(shí)場(chǎng)景中的表現(xiàn),提升了腳步聲的真實(shí)感和逼真度。該方法能有助于提高電影的音頻質(zhì)量,使觀眾更好地融入電影情節(jié)。

    4 實(shí)驗(yàn)

    4.1 訓(xùn)練數(shù)據(jù)集

    為了確保網(wǎng)絡(luò)能夠具備充足的腳步聲視聽(tīng)數(shù)據(jù)進(jìn)行訓(xùn)練,我們對(duì)現(xiàn)有的視聽(tīng)數(shù)據(jù)集如AudioSet 等進(jìn)行了深入的調(diào)研和分析。然而,這些數(shù)據(jù)集無(wú)法滿足我們對(duì)數(shù)據(jù)的特定要求,尤其是在腳步聲領(lǐng)域,其數(shù)據(jù)量不足且包含大量背景噪聲,難以適用于網(wǎng)絡(luò)的視聽(tīng)學(xué)習(xí)。因此,我們構(gòu)建了一個(gè)專(zhuān)注于腳步聲的全新視聽(tīng)數(shù)據(jù)集。

    我們的腳步聲音數(shù)據(jù)集涵蓋了三種類(lèi)型的運(yùn)動(dòng):步行、跑步和跳躍,以及三種運(yùn)動(dòng)方向:直線、圓圈和原地。同時(shí),我們還考慮了四種不同的地板類(lèi)型,包括地毯、混凝土、木地板和瓷磚。每個(gè)視頻的平均時(shí)長(zhǎng)為10秒,總共包含700個(gè)視頻。

    為了確保訓(xùn)練數(shù)據(jù)集的質(zhì)量和適用性,我們進(jìn)行了必要的音頻去噪處理,以滿足對(duì)腳步聲細(xì)粒度合成的需求,以達(dá)到預(yù)期的訓(xùn)練效果。該數(shù)據(jù)集將為我們的研究和網(wǎng)絡(luò)訓(xùn)練提供堅(jiān)實(shí)的基礎(chǔ)。

    4.2 實(shí)驗(yàn)結(jié)果

    在本節(jié)中,我們對(duì)細(xì)粒度腳步音效合成方法的同步結(jié)果和內(nèi)容細(xì)粒度調(diào)整結(jié)果進(jìn)行了展示,并且對(duì)本文方法、RegNet[8]、SpecVQGAN[10]、SPMNet[13]等方法以及真實(shí)音頻進(jìn)行了主觀評(píng)價(jià)。

    針對(duì)腳步音效同步效果的實(shí)驗(yàn)結(jié)果如圖4 所示,本方法利用視聽(tīng)生成網(wǎng)絡(luò)學(xué)習(xí)并捕捉視覺(jué)特征,實(shí)現(xiàn)視聽(tīng)同步的腳步音效合成,保證視覺(jué)和聲音之間的時(shí)序一致性。從圖中可以看出,以真實(shí)音頻為參考,本文方法的合成音頻在音效同步中的關(guān)鍵節(jié)點(diǎn)與真實(shí)音頻一致,真實(shí)音頻與合成音頻的波形圖對(duì)比可充分體現(xiàn)本文方法的音效同步效果。該結(jié)果表明該算法能有效捕捉視聽(tīng)關(guān)聯(lián),保證視覺(jué)和聲音的時(shí)序一致性。

    圖4 腳步音效同步結(jié)果

    在內(nèi)容細(xì)粒度調(diào)整方面,我們分別針對(duì)全局位移與動(dòng)作調(diào)整進(jìn)行結(jié)果展示。針對(duì)全局位移調(diào)整的實(shí)驗(yàn)結(jié)果如圖5(a)所示,本方法會(huì)根據(jù)全局位移大小來(lái)宏觀調(diào)整腳步聲的響度。從圖5(a)可以看出,隨著全局位移的變化,腳步聲的響度也會(huì)呈正比關(guān)系變化,以獲得根據(jù)該位移變化視頻模擬的腳步聲結(jié)果。模擬腳步聲波形隨時(shí)間位移波形變化而改變。該結(jié)果表明,該算法能有效把控位移與聲音之間的相關(guān)性,實(shí)現(xiàn)基于人物位移的響度進(jìn)行細(xì)粒度調(diào)整,充分模擬真實(shí)音效。

    圖5 腳步音效內(nèi)容細(xì)粒度優(yōu)化結(jié)果

    針對(duì)動(dòng)作調(diào)整的實(shí)驗(yàn)結(jié)果如圖5(b)所示,本方法會(huì)根據(jù)動(dòng)作類(lèi)型與腳步的加速度細(xì)粒度地調(diào)整腳步聲響度大小。如圖5(b)所示,當(dāng)視頻中人物呈現(xiàn)跑步動(dòng)作時(shí),其模擬的腳步聲響度較大且頻率較快,當(dāng)視頻人物呈現(xiàn)走路動(dòng)作時(shí),其模擬腳步聲響度較小且頻率較慢,隨著動(dòng)作的變化,擬聲結(jié)果變化明顯,且與變化方向相吻合。該結(jié)果表明該算法能有效學(xué)習(xí)動(dòng)作與聲音之間的相關(guān)性,在響度方面能根據(jù)動(dòng)作與視覺(jué)特征實(shí)現(xiàn)細(xì)粒度調(diào)整。

    為了進(jìn)一步評(píng)估本文方法的有效性,我們將本文方法的生成結(jié)果與RegNet[8]、SpecVQGAN[10]、SPMNet[13]方法的生成結(jié)果以及數(shù)據(jù)集中真實(shí)錄制的視頻進(jìn)行了主觀評(píng)價(jià),參與者將從生成音頻的音質(zhì)、視聽(tīng)同步性能以及視頻的整體質(zhì)量三方面進(jìn)行評(píng)價(jià)打分。用戶(hù)研究結(jié)果如圖6 所示,在用戶(hù)針對(duì)聲音質(zhì)量、同步質(zhì)量以及整體質(zhì)量三個(gè)方面對(duì)于四種方法的評(píng)價(jià)中,對(duì)于本文方法的評(píng)價(jià)均高于其他方法,僅次于數(shù)據(jù)集中真實(shí)錄制的視頻效果。該結(jié)果表明我們的方法在音質(zhì)和視聽(tīng)同步方面效果良好。雖然本文方法與真實(shí)錄音效果還有一定差距,但與現(xiàn)有方法相比,本文方法性能更好,這也證明了我們?cè)O(shè)計(jì)的算法的有效性。

    圖6 主觀評(píng)價(jià)結(jié)果

    5 總結(jié)

    本文提出了一種新穎的視覺(jué)引導(dǎo)的細(xì)粒度腳步音效合成方法,該方法將數(shù)據(jù)驅(qū)動(dòng)和規(guī)則建模方法集成到視聽(tīng)同步的腳步聲合成中,通過(guò)兩種方法的創(chuàng)新與融合,保證了視聽(tīng)的關(guān)聯(lián)與映射。具體來(lái)說(shuō),該方法通過(guò)數(shù)據(jù)驅(qū)動(dòng)的音效生成網(wǎng)絡(luò)能夠?qū)崿F(xiàn)視覺(jué)與聽(tīng)覺(jué)之間的同步性。同時(shí),本文設(shè)計(jì)的腳步音效內(nèi)容細(xì)粒度優(yōu)化模塊建立了視覺(jué)運(yùn)動(dòng)狀態(tài)、空間位置和腳步聲之間的復(fù)雜映射關(guān)系,實(shí)現(xiàn)了根據(jù)視覺(jué)信息對(duì)腳步音效的音色和響度進(jìn)行參數(shù)化控制。此外,為了進(jìn)一步提高細(xì)粒度的腳步聲生成效果,本文還構(gòu)建了一個(gè)腳步視聽(tīng)訓(xùn)練數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崿F(xiàn)在達(dá)到視覺(jué)聽(tīng)覺(jué)同步的同時(shí),合成出具細(xì)粒度的視聽(tīng)內(nèi)容一致的腳步聲。在目前電影后期音效配音行業(yè)仍然高度依賴(lài)人工調(diào)整的現(xiàn)狀下,本文提出的針對(duì)電影腳步音效的自動(dòng)化配音方案,不僅實(shí)現(xiàn)了視聽(tīng)同步性,還保證了內(nèi)容合理性,能夠有效減輕后期音效設(shè)計(jì)師的壓力,并為后期音效制作提供了新的技術(shù)思路。

    本文方法依然有許多局限性,在未來(lái)的工作中仍有待改進(jìn)。雖然本文的視覺(jué)引導(dǎo)細(xì)粒度腳步音效合成方法能夠進(jìn)行視覺(jué)范圍的控制調(diào)整,但當(dāng)視覺(jué)腳步發(fā)聲定位不準(zhǔn)確時(shí),本文方法的優(yōu)勢(shì)是十分有限的。因此,進(jìn)一步探索視聽(tīng)映射關(guān)系以更穩(wěn)定地獲得更準(zhǔn)確的發(fā)聲時(shí)間將是未來(lái)的一個(gè)研究方向。此外,視覺(jué)引導(dǎo)的細(xì)粒度腳步音效合成方法只探討了位移、運(yùn)動(dòng)、地面材質(zhì)和聲音之間的映射關(guān)系,因此更詳細(xì)地探索與音效有關(guān)的各項(xiàng)其他類(lèi)型的信息,以合成更加豐富和真實(shí)的聲音也是一個(gè)研究方向。

    未來(lái)我們需要自主研發(fā)更多的創(chuàng)新性算法,從更全面的角度促進(jìn)電影后期聲音合成技術(shù)的發(fā)展。我們將引入更多先進(jìn)技術(shù)到電影行業(yè)中,實(shí)現(xiàn)理論與實(shí)踐相結(jié)合,同時(shí)也要捕捉現(xiàn)代科學(xué)技術(shù)的發(fā)展趨勢(shì),并研發(fā)前沿視聽(tīng)技術(shù),努力實(shí)現(xiàn)中國(guó)電影科技自立自強(qiáng),積極推動(dòng)中國(guó)電影行業(yè)發(fā)展進(jìn)步,實(shí)現(xiàn)高質(zhì)量可持續(xù)發(fā)展。

    猜你喜歡
    細(xì)粒度響度腳步聲
    深夜腳步聲
    腳步聲
    融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
    細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
    腳步聲①
    腳步聲輕輕
    響度在節(jié)目制作和播出中的應(yīng)用
    基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
    支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
    數(shù)字時(shí)代中節(jié)目響度平衡淺析
    新聞傳播(2016年3期)2016-07-12 12:55:36
    游戏| 瑞丽市| 靖江市| 呼伦贝尔市| 佛山市| 裕民县| 马公市| 清丰县| 丰原市| 鹤壁市| 隆林| 东海县| 赤水市| 马边| 牙克石市| 平度市| 涪陵区| 喀什市| 乌兰浩特市| 长寿区| 高安市| 定西市| 桂东县| 明水县| 岳池县| 西平县| 龙井市| 高阳县| 深水埗区| 武宁县| 延边| 旬阳县| 潮安县| 长乐市| 尖扎县| 深水埗区| 曲松县| 五寨县| 迭部县| 米泉市| 商丘市|