章瑾 馮平
摘? 要: 配音節(jié)奏特征對于影視動畫人物理解與情緒表達尤為重要,基于此,設(shè)計影視動畫配音節(jié)奏特征的自動提取系統(tǒng)。配音采集模塊采用TLV320AIC23音頻接口芯片,該芯片內(nèi)部集成A/D和D/A轉(zhuǎn)換器,可對采集的影視動畫配音音頻進行模數(shù)轉(zhuǎn)換,將獲取的模擬信號傳輸至節(jié)奏特征提取模塊。節(jié)奏特征提取模塊以TMS320VC5509 DSP芯片為核心,采用優(yōu)化后的哈佛結(jié)構(gòu),利用配音節(jié)奏特征提取算法提取影視動畫配音節(jié)奏特征。配音節(jié)奏特征提取算法中,通過快速傅里葉變換確定復(fù)數(shù)域信息,確定發(fā)音點檢測信號,以及各幀發(fā)音點檢測信號函數(shù)的自相關(guān)函數(shù)?;谏舷挛牡墓?jié)拍周期推導(dǎo)算法推導(dǎo)配音片段節(jié)拍周期?;诎l(fā)音點檢測信號函數(shù),通過HMM模型可推算節(jié)拍出現(xiàn)的詳細(xì)時間點并進行節(jié)拍跟蹤,確定節(jié)拍速度特征。實驗結(jié)果顯示,所設(shè)計系統(tǒng)可準(zhǔn)確劃分影視動畫配音情緒類型,且能耗較低。
關(guān)鍵詞: 影視動畫; 配音采集; 節(jié)奏特征提取; 發(fā)音點檢測; 系統(tǒng)設(shè)計; 節(jié)拍跟蹤
中圖分類號: TN911.23?34; TP391? ? ? ? ? ? ? ? 文獻標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)18?0059?05
Abstract: The dubbing rhythm features are particularly important for the understanding and emotional expression of the characters in the film and television animation. Based on this, an automatic extraction system for the dubbing rhythm features of film and television animation is designed. TLV320AIC23 audio interface chip is used in the dubbing acquisition module, and A/D converter and D/A converter is internally integrated in the chip, which can execute the analog?to?digital conversion of the collected dubbing audio of the film and television animation, and transmit the obtained analog signal to the rhythm feature extraction module. The rhythm feature extraction module takes TMS320VC5509 DSP chip as its core, adopts the optimized Harvard structure, and extracts the dubbing rhythm features of the film and television animation by means of the dubbing rhythm feature extraction algorithm. In the algorithm of dubbing rhythm feature extraction, the complex number field information is determined by the fast Fourier transform, so as to confirm the detection signal of the pronunciation point and make sure the autocorrelation function of the pronunciation point detection signal function of each frame. The beat cycle of the dubbing segment is deduced according to the contextual beat cycle derivation algorithm. According to the function of pronunciation point detection signal, the detailed time points where the beat appears can be deduced with HMM model to track the beats and determine the beat speed features. The experimental results show that the designed system can accurately classify the dubbing emotion types of film and television animation, and has low energy consumption.
Keywords: film and television animation; dubbing acquisition; rhythm feature extraction; articulation point detection; system design; beat tracking
0? 引? 言
信息與多媒體技術(shù)的發(fā)展使影視動畫成為現(xiàn)代娛樂生活的主要形式。影視動畫內(nèi)聲音與畫面并非同時出現(xiàn),通常通過音響模擬出適合的聲音效果和滿足實際的場景效果。影視動畫中配音包括角色配音、音效與背景音樂。影視動畫中背景音樂與動畫內(nèi)容聯(lián)系緊密[1],起到豐富、烘托畫面內(nèi)容,提升感染力、抒發(fā)情感,增強視聽感受的作用。人物是影視動畫的靈魂,動畫角色的配音與人物的話語具有相同的功能,不同性別、不同年齡、不同個性的角色其聲音的音質(zhì)、音色以及語速均有所差異[2]。
節(jié)奏是有聲語言運動的一種形式[3],配音節(jié)奏控制是影視動畫角色把握人物形象特點與性格特征、抒發(fā)角色內(nèi)心情感的主要方式,同時也是影視動畫增添內(nèi)容趣味、渲染故事情節(jié)、突出事件特征的主要方式。由此可知,節(jié)奏控制對于影視動畫配音尤為重要,把握節(jié)奏特征是節(jié)奏控制的基礎(chǔ)[4]?;诖?,設(shè)計基于影視動畫配音節(jié)奏特征自動提取系統(tǒng),利用BPM配音節(jié)奏特征提取算法提取節(jié)奏特征,準(zhǔn)確分析影視動畫配音內(nèi)容的情感表達。
1? 影視動畫配音節(jié)奏特征自動提取系統(tǒng)
1.1? 系統(tǒng)整體結(jié)構(gòu)設(shè)計
影視動畫配音節(jié)奏特征自動提取系統(tǒng)包含配音采集模塊、節(jié)奏特征提取模塊、RAM、FPGA及外部存儲器等。系統(tǒng)硬件結(jié)構(gòu)如圖1所示。
配音采集模塊采用高性能立體聲音頻編解碼器TLV320AIC23單片音頻接口芯片,該芯片內(nèi)部集成A/D和D/A轉(zhuǎn)換器[5],轉(zhuǎn)換器采用過采樣數(shù)字插補濾波的多位Sigma?Delta技術(shù)完成模數(shù)轉(zhuǎn)換。轉(zhuǎn)換后模擬信號發(fā)送到DSP芯片內(nèi)進行節(jié)奏特征提取、壓縮編碼、HMM(隱馬爾可夫模型)識別[6]。數(shù)據(jù)流程與液晶顯示通過FPGA控制。ROM,RAM和FLASH模塊的功能分別為存放DSP程序與初始化數(shù)據(jù)、程序執(zhí)行與數(shù)據(jù)暫存以及訓(xùn)練樣本庫存儲。
1.2? 配音采集模塊
配音采集模塊結(jié)構(gòu)如圖2所示。配音采集模塊的控制協(xié)議與數(shù)據(jù)傳輸協(xié)議分別為SPI總線和I2S總線[7],SPI總線連接MAXⅡ EMP240可編程邏輯與AIC23單片音頻接口芯片,利用I2S總線進行數(shù)據(jù)傳輸。各AIC23芯片無需單獨控制[8],通過一路SPI總線進行連接,降低EMP240內(nèi)寄存器使用量。各AIC23芯片采集的配音信息相對獨立,使用I2S總線需單獨轉(zhuǎn)換。
TLV320AIC23單片音頻接口芯片數(shù)據(jù)傳輸字長包括16位、24位和32位,可滿足6~98 kHz之間的采樣頻率。EPM240采用具有非易失性的CPLD架構(gòu),將傳統(tǒng)可編程邏輯成本與功耗分別降低50%和90%,而密度和性能則提升400%和200%。EPM240的具體作用是提供一種解決方案來確保2種總線協(xié)議轉(zhuǎn)換過程中成本最低。在配音采集模塊中AIC23芯片的具體作用為數(shù)據(jù)轉(zhuǎn)換,利用A/D轉(zhuǎn)換器將4路配音信號轉(zhuǎn)換為數(shù)字信號,經(jīng)由數(shù)據(jù)傳輸協(xié)議傳輸至EPM240內(nèi),利用其串并協(xié)議轉(zhuǎn)換,將各AIC23芯片的串行數(shù)據(jù)轉(zhuǎn)換為并行數(shù)據(jù),供MCU讀取處理。處理后的數(shù)據(jù)被EPM240轉(zhuǎn)換為I2S協(xié)議數(shù)據(jù),返回至AIC23芯片內(nèi),利用D/A轉(zhuǎn)換器轉(zhuǎn)為模擬量信號,傳輸至節(jié)奏特征提取模塊內(nèi)。
1.3? 節(jié)奏特征提取模塊
TMS320VC5509 DSP芯片作為節(jié)奏特征提取模塊的中心,基于配音采集模塊轉(zhuǎn)換傳輸?shù)哪M信號,完成影視動畫配音節(jié)奏特征提取。TMS320VC5509 DSP芯片以優(yōu)化后的哈佛結(jié)構(gòu)為支撐[9],內(nèi)含16位定點,供電電壓、片內(nèi)RAM和ROM分別為3.5 V、64 KB和6 KB,具有管理結(jié)束、不間斷運算以及功能調(diào)用等特性,功耗較低。該芯片內(nèi)還設(shè)置了時分復(fù)用串口和帶緩沖區(qū)的標(biāo)準(zhǔn)串口[10],數(shù)量分別為1個和2個。該芯片指令周期設(shè)定為10 ns,也就是芯片運算速度卡達到100 MIPS。圖3為TMS320VC5509 DSP芯片與TLV320AIC23單片音頻接口芯片的連接示意圖。
1.4? 配音節(jié)奏特征提取算法
在DSP芯片內(nèi)設(shè)計配音節(jié)奏特征提取算法并提取影視動畫配音節(jié)奏特征。配音節(jié)奏特征的提取可理解為節(jié)拍速度相關(guān)特征的提取[11],單位為BPM。通過確定配音音頻發(fā)音點可獲取其自相關(guān)函數(shù),由此計算獲取節(jié)拍周期,基于節(jié)拍周期計算BPM值。
1.4.1? 音符發(fā)音點檢測
檢測音符發(fā)音點時采用能量與相位相結(jié)合的方法,即通過快速傅里葉變換確定復(fù)數(shù)域信息[12],公式為:
式中: [Ekm]和[wjεkm]分別為前一幀的振幅和能量;[m]和[εkm]分別為幀的編號和相位變化。[εkm]根據(jù)前一幀與更前一幀的相位差獲取,公式如下:
式中,[ξk]和[princarg]分別為相位值和將[ξk]映射至[-π,π]范圍內(nèi)。通過下式描述第[k]個頻率段的實際復(fù)數(shù)域值確定過程:
式中:[Ekm]為快速傅里葉變換后當(dāng)前幀的振幅;[wjξkm]為快速傅里葉變換后當(dāng)前幀的相位。用式(4)描述各幀特征:
利用式(4)獲取影視動畫配音音頻全部幀的特征后將其歸一化,以此獲取音符發(fā)音點檢測信號,其具有時間上連續(xù)的特征。
1.4.2? 節(jié)拍周期推導(dǎo)
連續(xù)性與周期性是影視動畫配音節(jié)奏的主要特性[13],基于此,可利用發(fā)音點檢測信號,采用基于上下文的節(jié)拍周期推導(dǎo)算法推導(dǎo)影視動畫配音片段節(jié)拍周期。
確定各幀發(fā)音點檢測信號函數(shù)的自相關(guān)函數(shù),通過數(shù)據(jù)預(yù)處理可獲取更清晰的自相關(guān)函數(shù)。設(shè)定自適應(yīng)移動均值門限:
設(shè)定滑動窗口尺寸為16個點,計算檢測信號函數(shù)各點與相對門限差值,同時以半波整流形式輸出,表達式如下:
利用式(7)計算預(yù)處理后信號的自相關(guān)函數(shù):
式中:[i=1,2,…,N]為單幀點數(shù),[N]為幀長。用[δi]表示自相關(guān)域內(nèi)任意點,利用式(8)將其映射至節(jié)拍速度上:
確定各幀自相關(guān)函數(shù)后,對其實施加權(quán)處理。由于各代表節(jié)拍周期的點權(quán)值一致將導(dǎo)致節(jié)拍周期存在過量自由度,造成輸出結(jié)果有所差異[14],因此采用基于瑞利分布的函數(shù)進行加權(quán),表達式如下:
式中:[i]和[c]分別為節(jié)拍周期的各點和權(quán)值最大的點數(shù),通常分別取值[1,128]和45。
利用式(8)可得權(quán)值最大的第45個點,其BPM大致為104。利用式(9)準(zhǔn)確描述代表節(jié)拍周期的點與配音音頻節(jié)奏周期的對應(yīng)關(guān)系。由節(jié)拍的連續(xù)性可知,相鄰兩幀數(shù)組的節(jié)拍速度具有相關(guān)性[15]。推導(dǎo)各幀音頻節(jié)拍周期過程中需考慮此相關(guān)性。用[tc]表示當(dāng)前幀的節(jié)拍速度,可基于上一幀推導(dǎo)的節(jié)拍速度[tc-1]推導(dǎo)[tc]。
構(gòu)建以標(biāo)準(zhǔn)差的高斯分布P作為狀態(tài)轉(zhuǎn)移矩陣各列的HMM模型,得到狀態(tài)轉(zhuǎn)移矩陣表達式:
式中,[ti]和[tj]為狀態(tài)轉(zhuǎn)移范圍,取值[0,127]。以瑞利分布為初始概率分布,配音音頻各幀的自相關(guān)函數(shù)作為觀測序列,通過維特比算法求解。以前一幀狀態(tài)概率向量與相對的狀態(tài)轉(zhuǎn)移矩陣向量間乘積的最大值作為當(dāng)前幀狀態(tài)概率向量,表達式如下:
將當(dāng)前幀狀態(tài)概率向量與對應(yīng)點的自相關(guān)函數(shù)相乘,得到當(dāng)前幀速度為狀態(tài)概率向量:
當(dāng)前幀速度為狀態(tài)概率向量最大值的索引可用式(13)來描述:
利用式(13)將點數(shù)映射至節(jié)拍周期。
1.4.3? 節(jié)拍追蹤
基于發(fā)音點檢測信號函數(shù),通過HMM模型可推算節(jié)拍出現(xiàn)的詳細(xì)時間點。節(jié)拍追蹤過程中需賦予發(fā)音點檢測信號函數(shù)各點一個狀態(tài),用[ε]表示,描述此點與上一節(jié)拍點間的距離,單位為點數(shù)。舉例說明:節(jié)拍點為第[t]個點,其狀態(tài)[εt]為0,則下一個節(jié)拍點的狀態(tài)值[εt-1]為1。各狀態(tài)生成一個觀測[L],音符發(fā)音點檢測信號為觀測序列。通過上述過程可顯著提升節(jié)拍周期與BPM推算的精度。
2? 實驗分析
為了驗證本文設(shè)計的影視動畫配音節(jié)奏特征自動提取系統(tǒng)的實用性,分別在《哪吒之魔童降世》和《名偵探柯南》2部影視動畫中選取驚恐、興奮、輕松、難過4種情緒的影視動畫配音片段,每種情緒各100段。采用本文系統(tǒng)提取400段影視動畫配音片段的節(jié)奏特征,獲取不同情緒配音的BPM分布直方圖,描述不同情緒配音的差異。不同情緒配音節(jié)奏特性分布直方圖如圖4所示。
由圖4得到,不同情緒的配音片段中驚恐與興奮的BPM峰值較高,說明在影視動畫中出現(xiàn)令人驚恐與興奮的片段時,其配音節(jié)奏特征較為顯著,易被提取。在驚恐與興奮的情緒片段中,音效與背景音樂制作中多采用打擊類樂器。對比之下,輕松與難過的情緒片段的BPM峰值較低,說明在此類片段中配音節(jié)奏特征不明顯,不易被提取。對于此類片段,管弦類樂器使用較多。
分別采用本文系統(tǒng)、基于頻譜能量分布的配音特征提取系統(tǒng)和基于語調(diào)相關(guān)基頻的特征提取系統(tǒng)對所選的400段配音片段進行情緒分類,得到的結(jié)果如表1~表3所示。
根據(jù)表1~表3中情緒分類統(tǒng)計結(jié)果,確定3個不同系統(tǒng)情緒分類結(jié)果的準(zhǔn)確率、召回率以及F1值,結(jié)果如圖5所示。根據(jù)表1~表3和圖5中的情緒分類結(jié)果能夠得到,本文系統(tǒng)提取影視動畫配音節(jié)奏特征進行情緒分類,準(zhǔn)確率、召回率以及F1值均高于基于頻譜能量分布的配音特征提取系統(tǒng)和基于語調(diào)相關(guān)基頻的特征提取系統(tǒng)?;谡Z調(diào)相關(guān)基頻的系統(tǒng)對于驚恐與興奮情緒的分類效果優(yōu)于基于頻譜能量分布的系統(tǒng),說明該系統(tǒng)對于BPM峰值較高的配音分類效果較好。本文系統(tǒng)對于4種情緒的分類檢測指標(biāo)變化差異較為平緩,對于BPM峰值較低的輕松與難過情緒配音分類效果也較好,說明本文系統(tǒng)能夠準(zhǔn)確地提取影視動畫節(jié)奏特征,利于影視動畫配音情緒分類。對比3個系統(tǒng)提取影視動畫配音特征過程中的資源占用率,測試本文系統(tǒng)的能耗,結(jié)果如表4所示。
由表4得到,本文系統(tǒng)的CPU占用率和內(nèi)存占用率在3個系統(tǒng)中最低,分別是3.32%和1.25%,說明本文系統(tǒng)提取影視動畫配音節(jié)奏特征時,能耗較低。
3? 結(jié)? 論
本文設(shè)計影視動畫配音節(jié)奏特征自動提取系統(tǒng),在DSP芯片內(nèi)設(shè)計配音節(jié)奏特征提取算法,融合發(fā)音點檢測算法、節(jié)拍周期推導(dǎo)算法和節(jié)拍追蹤算法,并進行優(yōu)化,通過BPM體現(xiàn)影視動畫配音節(jié)奏特征。將本文系統(tǒng)應(yīng)用于影視動畫片配音情緒的分類中,與對比系統(tǒng)相比,該系統(tǒng)具有顯著優(yōu)越性。
參考文獻
[1] 李響,李國正,石俊剛,等.基于語音心理聲學(xué)分析的駕駛疲勞檢測[J].儀器儀表學(xué)報,2018,39(10):166?175.
[2] 胡婷婷,馮亞琴,沈凌潔,等.基于注意力機制的LSTM語音情感主要特征選擇[J].聲學(xué)技術(shù),2019,38(4):414?421.
[3] 張興儉,袁樂平,趙嶷飛.疲勞及緊張狀態(tài)管制員通話語音反應(yīng)特征研究[J].中國安全科學(xué)學(xué)報,2018,28(6):37?42.
[4] 王金華,應(yīng)娜,朱辰都,等.基于語譜圖提取深度空間注意特征的語音情感識別算法[J].電信科學(xué),2019,35(7):100?108.
[5] ZHENG Shuhe, LIN Changshan, YE Dapeng, et al. Structural optimization of grooved?roller seed metering device for Pennisetum and simulation and experiment of seed metering dynamics [J]. Transactions of the Chinese society of agricultural engineering, 2017, 33(21): 36?43.
[6] 張濤,任相贏,劉陽,等.基于自編碼特征的語音增強聲學(xué)特征提取[J].計算機科學(xué)與探索,2019,13(8):1341?1350.
[7] 許良鳳,劉泳海,胡敏,等.語譜圖改進完全局部二值模式的語音情感識別[J].電子測量與儀器學(xué)報,2018,32(5):25?32.
[8] 成帥,張海劍,孫洪.結(jié)合時變?yōu)V波和時頻掩碼的語音增強方法[J].信號處理,2019,35(4):601?608.
[9] 蔣梅笑,章光,徐衛(wèi)青,等.基于三維激光掃描點云的邊界特征自動提取算法[J].武漢理工大學(xué)學(xué)報,2017,39(6):68?72.
[10] 侯一民,李永平.基于卷積神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別[J].計算機工程與設(shè)計,2019,40(6):1751?1756.
[11] 范開宇,王革麗,李超,等.利用慢特征分析法提取二維非平穩(wěn)系統(tǒng)中的外強迫特征[J].氣候與環(huán)境研究,2018,23(3):287?298.
[12] 后方帥,黎美琪,劉若倫.利用諧波顯著度和語者音色特征的混合語音中目標(biāo)人基頻軌跡提取[J].聲學(xué)技術(shù),2019,38(4):408?413.
[13] STEPHANIE A B, KAITLIN L L, TYSON S B. Rhythm perception and its role in perception and learning of dysrhythmic speech [J]. Journal of speech language & hearing research, 2017, 60(3): 561?570.
[14] 周健,竇云峰,劉榮敏,等.采用低維特征映射的耳語音向正常音轉(zhuǎn)換[J].聲學(xué)學(xué)報,2018,43(5):855?863.
[15] 姜芃旭,傅洪亮,陶華偉,等.一種基于卷積神經(jīng)網(wǎng)絡(luò)特征表征的語音情感識別方法[J].電子器件,2019,42(4):998?1001.