• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合生成對抗網(wǎng)絡(luò)與時(shí)間卷積網(wǎng)絡(luò)的普通話情感識別

      2023-10-08 02:28:28李海烽張雪英段淑斐賈海蓉HuizhiLiang
      關(guān)鍵詞:聲學(xué)發(fā)音損失

      李海烽,張雪英,段淑斐,賈海蓉,Huizhi Liang

      (1.太原理工大學(xué) 電子信息與光學(xué)工程學(xué)院,山西 太原 030024;2.紐卡斯?fàn)柎髮W(xué) 計(jì)算機(jī)學(xué)院,泰恩-威爾 泰恩河畔紐卡斯?fàn)?NE1 7RU)

      情感識別(emotion recognition, ER)是人機(jī)交互的重要接口[1],其目的是讓計(jì)算機(jī)具備理解和識別情感的能力.融合聲學(xué)與發(fā)音特征轉(zhuǎn)換的ER是情感研究領(lǐng)域中的重要分支,涉及情感數(shù)據(jù)庫搭建、預(yù)處理、特征提取、特征轉(zhuǎn)換和分類識別算法等問題.具有豐富情感信息的多模態(tài)數(shù)據(jù)庫、高精度的特征轉(zhuǎn)換算法和有效的分類識別算法是提升ER系統(tǒng)性能的重要部分.

      在情感研究領(lǐng)域,根據(jù)被試者表達(dá)信息的多樣性構(gòu)建的適合不同研究方向的數(shù)據(jù)庫有CHEAVD[2]、NNIME[3]和IEMOCAP[4]等.每個(gè)數(shù)據(jù)庫都存在局限性,只有選擇與研究方向契合的數(shù)據(jù)庫,研究工作才能事半功倍.在對人體發(fā)音機(jī)制的研究中,學(xué)者們發(fā)現(xiàn)聲音和發(fā)音器官具有很強(qiáng)的關(guān)聯(lián)性,即人體發(fā)出的部分聲學(xué)信號是由發(fā)音器官獨(dú)特的運(yùn)動軌跡產(chǎn)生的[5].正向映射[6]和反向映射[7]是聲音與發(fā)音器官的關(guān)聯(lián)性研究中較深入的2類.正向映射指由發(fā)音器官的發(fā)音特征轉(zhuǎn)換出聲學(xué)特征,反向映射是指由聲學(xué)特征轉(zhuǎn)換出發(fā)音特征.深度學(xué)習(xí)已經(jīng)在探索正向與反向映射的研究中被應(yīng)用到不同的領(lǐng)域:Ling等[8]通過隱馬爾科夫模型(hidden Markov model, HMM)探究發(fā)音特征到聲學(xué)特征的聯(lián)合分布關(guān)系,將正向映射應(yīng)用到語音合成研究中;Li等[9]提取梅爾倒譜頻率系數(shù)(Mel-frequency cepstrum cofficients, MFCC),通過高斯混合模型(Gaussian mixture model, GMM)探究聲學(xué)到發(fā)音特征的關(guān)聯(lián)性,將反向映射應(yīng)用于說話人識別.這些方法雖然在聲學(xué)與發(fā)音特征轉(zhuǎn)換中取得了不錯的成績,但都存在轉(zhuǎn)換結(jié)果精度偏低的問題.Guo等[10]提取相位特征并探索如何將相位特征應(yīng)用于語音情感識別.雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)[11]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[12]、深度遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[13]和深層神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)[14]等算法通過建立說話人與情感間的關(guān)聯(lián)模型來完成情感識別任務(wù),但特征與維度通道中所包含的情感信息未被充分利用.

      ER研究的現(xiàn)狀如下:1)數(shù)據(jù)庫存在局限性,暫未發(fā)現(xiàn)公開可用的、以普通話為語種的、為并行聲學(xué)與發(fā)音學(xué)信號的情感數(shù)據(jù)庫;2)傳統(tǒng)的特征轉(zhuǎn)換模型的精度偏低;3)識別算法沒有充分利用特征所含的情感信息;4)正向映射、反向映射對普通話情感識別的影響暫無研究成果.本研究提出融合聲學(xué)與發(fā)音特征轉(zhuǎn)換的情感識別系統(tǒng).該系統(tǒng)由特征轉(zhuǎn)換網(wǎng)絡(luò)和分類識別網(wǎng)絡(luò)組成,其中雙向映射生成對抗網(wǎng)絡(luò)(bi-directional mapping generative adversarial network, Bi-MGAN)負(fù)責(zé)聲學(xué)與發(fā)音特征轉(zhuǎn)換任務(wù),基于特征-維度注意力的殘差時(shí)間卷積網(wǎng)絡(luò)(residual temporal convolution network of feature-dimension attention, ResTCN-FDA)負(fù)責(zé)情感分類識別.

      1 相關(guān)理論

      1.1 循環(huán)生成對抗網(wǎng)絡(luò)

      在設(shè)計(jì)之初,循環(huán)生成對抗網(wǎng)絡(luò)(cycle generative adversarial network, CycleGAN)通過學(xué)習(xí)樣本空間X與Y的轉(zhuǎn)換關(guān)系來解決圖像風(fēng)格轉(zhuǎn)換問題[15].CycleGAN已被應(yīng)用到不匹配數(shù)據(jù)的語音增強(qiáng)[16]和情感識別[17]領(lǐng)域.CycleGAN包含2個(gè)生成器和2個(gè)判別器(DX和DY),生成器對X與Y的轉(zhuǎn)換關(guān)系建模,判別器對真實(shí)特征與映射特征進(jìn)行評判,并使用對抗性損失函數(shù)和循環(huán)一致性損失函數(shù)來訓(xùn)練模型.對抗性損失函數(shù)用于衡量映射特征與真實(shí)特征的可分辨性,GX→Y和DY的損失函數(shù)為

      1.2 時(shí)間卷積網(wǎng)絡(luò)

      時(shí)間卷積網(wǎng)絡(luò)(TCN)可以并行處理特征序列, 為了提升TCN的建模能力, Lin等[18]將自注意力機(jī)制與TCN結(jié)合,提出多級SA-TCN網(wǎng)絡(luò);Pandey等[19]提出TCNN模型,用于探索時(shí)域中的實(shí)時(shí)語音增強(qiáng);Zhang等[20]改良TCN,并將改良TCN用于聲道的語音分離.ResTCN利用TCN來快速并行處理特征序列,并通過殘差連接使模型在訓(xùn)練過程中產(chǎn)生穩(wěn)定的梯度優(yōu)化路徑.其中殘差連接式為

      式中:h(xi)為直接映射,xi為i層輸入特征,為殘差連接,w(i,d)為第i層膨脹因子為d的卷積.

      2 STEM-E2VA數(shù)據(jù)庫與特征集

      2.1 STEM-E2VA數(shù)據(jù)庫的構(gòu)建

      包含發(fā)音、聲門、視頻和音頻數(shù)據(jù)的普通話情感數(shù)據(jù)庫(Suzhou and Taiyuan emotional dataset on Mandarin with electromagnetic articulation, electroglottography, video and audio, STEM-E2VA)由蘇州大學(xué)與太原理工大學(xué)聯(lián)合錄制,語料內(nèi)容由528個(gè)韻母和2 464個(gè)漢語句子組成,其中漢語句子包含7種情感,分別是中性、狂喜、愉悅、憤怒、冷漠、悲傷和痛苦.STEM-E2VA的數(shù)據(jù)采集招募22名被試者,其中62.5%為學(xué)士學(xué)位,37.5%為碩士學(xué)位,平均年齡25歲,男女比例為1∶1.在采集數(shù)據(jù)之前,所有被試者均通過了《癥狀自評量表SCL-90》的檢測.

      STEM-E2VA的設(shè)計(jì)借鑒人體發(fā)聲機(jī)理,將喉、舌和唇作為重要的發(fā)音器官,賦予語音豐富的情感信息.本研究使用電子聲門儀(electroglottography,EGG)采集聲門信號,使用電磁發(fā)音儀(electromagnetic articulography, EMA)采集聲學(xué)和發(fā)音學(xué)數(shù)據(jù),使用SONY攝像機(jī)采集面部微表情數(shù)據(jù).將傳感器固定在發(fā)音器官上,EMA通過電磁耦合以250 Hz的采樣率采集傳感器的笛卡爾坐標(biāo)作為發(fā)音學(xué)數(shù)據(jù),并同步記錄聲學(xué)數(shù)據(jù),形成并行的聲學(xué)與發(fā)音學(xué)數(shù)據(jù),如圖1所示.如圖2所示, EMA數(shù)據(jù)采集共設(shè)置13個(gè)傳感器,分別為3個(gè)參考面?zhèn)鞲衅鳌?個(gè)咬合板傳感器、4個(gè)唇部傳感器和3個(gè)舌部傳感器.參考面?zhèn)鞲衅鞣謩e設(shè)置在被試者的B1、B2和B3位置,用以排除采集數(shù)據(jù)時(shí)因頭部運(yùn)動帶來的誤差;咬合板傳感器分別布置在咬合板面的P1、P2和P3位置;唇部和舌部的傳感器負(fù)責(zé)采集發(fā)音器官的運(yùn)動軌跡數(shù)據(jù),分別布置在左唇、右唇、上唇、下唇、舌根、舌中和舌尖.在傳感器可以穩(wěn)定傳輸數(shù)據(jù)后,受試者按要求表述語料內(nèi)容.

      圖1 電磁發(fā)音儀采集聲學(xué)與發(fā)音學(xué)數(shù)據(jù)的過程Fig.1 Electromagnetic articulography acquisition process for acoustic and articulatory data

      圖2 電磁發(fā)音儀采集數(shù)據(jù)時(shí)的傳感器設(shè)置Fig.2 Sensor settings for data acquisition by electromagnetic articulography

      2.2 數(shù)據(jù)預(yù)處理

      選取數(shù)據(jù)庫中的聲學(xué)數(shù)據(jù)和發(fā)音學(xué)數(shù)據(jù),研究聲學(xué)與發(fā)音特征轉(zhuǎn)換對情感識別的影響.EMA采集的發(fā)音學(xué)數(shù)據(jù)以電壓幅值的形式存儲,為便于后續(xù)的實(shí)驗(yàn)操作,須進(jìn)行數(shù)據(jù)預(yù)處理.預(yù)處理步驟:1)將電壓幅值數(shù)據(jù)轉(zhuǎn)換為原始三維空間數(shù)據(jù),2)利用參考面?zhèn)鞲衅魃扇S空間數(shù)據(jù),3)將空間數(shù)據(jù)轉(zhuǎn)換為ASCII碼,4)使用Visartico軟件篩選出合格的發(fā)音學(xué)數(shù)據(jù).

      在聲學(xué)數(shù)據(jù)預(yù)處理中,讓6名母語為普通話且聽力正常的志愿者按照如表1所示的評估量表進(jìn)行聲學(xué)數(shù)據(jù)評分,選擇評分不低于2.5的聲學(xué)數(shù)據(jù).在預(yù)處理后,得到并行的聲學(xué)和發(fā)音學(xué)數(shù)據(jù)共2 415條.其中悲痛情感的為337條,狂喜情感的為335條,愉悅、憤怒情感的各345條,憂傷情感的為349條,中性、冷漠情感的各352條.

      表1 聲學(xué)數(shù)據(jù)評估量表Tab.1 Acoustic data assessment scale

      2.3 特征提取

      從聲學(xué)和發(fā)音學(xué)數(shù)據(jù)中分別提取MFCC和發(fā)音特征.MFCC特征能夠模擬人耳對語音的處理,Kumaran等[13]發(fā)現(xiàn)MFCC特征轉(zhuǎn)換出的發(fā)音特征具有良好的映射性能.本研究選用MFCC作為聲學(xué)特征,定義MFCC特征集為

      式中:Sx、Sy、Sz分別為發(fā)音器官在x、y和z軸的位移參數(shù),V為發(fā)音器官的速度參數(shù),共28維發(fā)音特征.

      3 融合Bi-MGAN和ResTCN-FDA的情感識別系統(tǒng)

      融合Bi-MGAN和ResTCN-FDA的情感識別系統(tǒng)將聲學(xué)與發(fā)音特征轉(zhuǎn)換引入語音情感識別研究:1)Bi-MGAN負(fù)責(zé)將已知的真實(shí)特征轉(zhuǎn)換為對應(yīng)的映射特征;2)將真實(shí)特征與映射特征融合,使融合后的特征集同時(shí)包含聲學(xué)和發(fā)音特征所表征的情感信息;3)將融合特征集輸入ResTCNFDA,利用FDA給不同特征的不同維度通道分配不同的權(quán)重系數(shù),再經(jīng)過Softmax層進(jìn)行情感分類.如圖3所示,、分別為映射的發(fā)音特征和循環(huán)的發(fā)音特征,、分別為映射的聲學(xué)特征和循環(huán)的聲學(xué)特征;虛線箭頭表示將發(fā)音特征和映射發(fā)音特征融合后輸入ResTCN-FDA,點(diǎn)劃線箭頭表示將聲學(xué)特征和映射聲學(xué)特征融合后輸入ResTCN-FDA;以此探索聲學(xué)與發(fā)音特征轉(zhuǎn)換中的正向與反向映射對情感識別的影響.

      圖3 融合Bi-MGAN和ResTCN-FDA的情感識別算法整體結(jié)構(gòu)Fig.3 Overall structure of emotion recognition algorithm fusing Bi-MGAN and ResTCN-FDA

      3.1 Bi-MGAN

      轉(zhuǎn)換網(wǎng)絡(luò)的目的是利用真實(shí)特征生成高精度的映射特征,進(jìn)而探究映射特征對語音情感識別的影響.CycleGAN應(yīng)用在圖像風(fēng)格轉(zhuǎn)換任務(wù)時(shí)不要求成對的訓(xùn)練數(shù)據(jù)[21],這與聲學(xué)與發(fā)音特征轉(zhuǎn)換任務(wù)不同.人體多數(shù)語音都是依靠獨(dú)特的聲道形狀產(chǎn)生[5],這就要求聲學(xué)與發(fā)音學(xué)數(shù)據(jù)的并行性.為了增強(qiáng)轉(zhuǎn)換模型的映射能力,本研究對CycleGAN的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)進(jìn)行優(yōu)化改進(jìn),提出適用于聲學(xué)與發(fā)音特征轉(zhuǎn)換任務(wù)的Bi-MGAN,如圖4所示.圖4(a)中Bi-MGAN將真實(shí)發(fā)音特征x轉(zhuǎn)換為映射聲學(xué)特征,再將轉(zhuǎn)換為循環(huán)發(fā)音特征:1)將真實(shí)的聲學(xué)特征x轉(zhuǎn)換為對應(yīng)的映射發(fā)音特征;2)利用y與的誤差,計(jì)算聲學(xué)特征映射損失;3)將映射發(fā)音特征轉(zhuǎn)換為循環(huán)聲學(xué)特征;4)利用x與的誤差,計(jì)算發(fā)音特征循環(huán)一致性損失.同理,圖4(b)中Bi-MGAN將真實(shí)聲學(xué)特征y轉(zhuǎn)換為映射發(fā)音特征,再將轉(zhuǎn)換為循環(huán)聲學(xué)特征.

      圖4 雙向映射生成對抗網(wǎng)絡(luò)的網(wǎng)絡(luò)原理圖Fig.4 Network schematic of bi-directional mapping generativeadversarial network

      聲學(xué)與發(fā)音特征轉(zhuǎn)換任務(wù)的計(jì)算量相對較小,為了減少轉(zhuǎn)換網(wǎng)絡(luò)的冗余度,避免梯度消失,提高映射精度,對生成器和判別器進(jìn)行優(yōu)化.Bi-MGAN由正向生成器GX→Y、反向生成器GY→X、發(fā)音學(xué)判別器DX和聲學(xué)判別器DY構(gòu)成.正向生成器的結(jié)構(gòu)設(shè)計(jì)利用發(fā)音特征映射出對應(yīng)的聲學(xué)特征,目的是使聲學(xué)判別器無法正確判斷映射的聲學(xué)特征和真實(shí)的聲學(xué)特征.為了減少模型冗余度,選用Dense層來構(gòu)建上、下采樣模塊.上采樣模塊將輸入的28維發(fā)音特征擴(kuò)展到512維,下采樣模塊負(fù)責(zé)將高維度的發(fā)音特征轉(zhuǎn)換為60維的聲學(xué)特征.反向生成器的結(jié)構(gòu)設(shè)計(jì)的不同之處在于反向生成器利用MFCC特征映射出對應(yīng)的發(fā)音特征,目的是使發(fā)音學(xué)判別器無法正確判斷映射的發(fā)音特征和真實(shí)的發(fā)音特征.發(fā)音學(xué)判別器對真實(shí)的發(fā)音特征和映射的發(fā)音特征進(jìn)行判別和計(jì)算,并利用損失函數(shù)回調(diào)反向生成器的權(quán)重參數(shù),提高映射特征的精度,達(dá)到對映射發(fā)音特征的監(jiān)督和反饋效果.發(fā)音學(xué)判別器本質(zhì)為二分類識別器,恰好與反向生成器的期望相反,目的是能夠正確的判別映射的發(fā)音特征和真實(shí)的發(fā)音特征,如此映射模型將會在兩者的交替迭代優(yōu)化中找到全局最優(yōu)解.聲學(xué)判別器是對真實(shí)的聲學(xué)特征和映射的聲學(xué)特征進(jìn)行判別,并利用損失函數(shù)回調(diào)正向生成器的權(quán)重參數(shù),達(dá)到對映射聲學(xué)特征的監(jiān)督和反饋效果.

      Bi-MGAN的損失函數(shù)的優(yōu)化主要體現(xiàn)在2個(gè)方面:生成器損失函數(shù)和束縛性映射損失函數(shù).Bi-MGAN在訓(xùn)練期間考慮4種類型的損失:生成器損失、對抗性損失、循環(huán)一致性損失和束縛性映射損失.1)生成器損失函數(shù):新增Lg作為生成器的基礎(chǔ)映射函數(shù),增強(qiáng)生成器的轉(zhuǎn)換能力.GX→Y、GY→X的生成器損失函數(shù)分別為

      式中:Lbce為交叉熵?fù)p失函數(shù).使用Lbce對GX→Y(x)進(jìn)行判定;若判定結(jié)果為真,則說明GX→Y(x)與真實(shí)特征y難以區(qū)分;若判斷為假,則將產(chǎn)生誤差.2)束縛性映射損失函數(shù):要完成聲學(xué)與發(fā)音特征轉(zhuǎn)換任務(wù),僅依靠式(1)、(2)、(6)和(7)不能保證映射特征的精度,將真實(shí)特征與映射特征的正則化引入Bi-MGAN,通過減少模型在訓(xùn)練時(shí)生成誤差較大的映射特征,約束映射特征的生成范圍.正向與反向束縛性映射損失函數(shù)分別為

      式中:L1(y,GX→Y(x))為真實(shí)聲學(xué)特征y與映射聲學(xué)特征GX→Y(x)的L1差值.

      3.2 ResTCN-FDA

      情感誘發(fā)下的不同特征以及不同維度通道攜帶的情感信息具有一定的差異性[9].在模型訓(xùn)練時(shí),不同特征的不同維度通道分配的權(quán)重相同,將導(dǎo)致情感信息的不充分利用.本研究將ResTCN與注意力機(jī)制相結(jié)合,提出融合FDA注意力機(jī)制的ResTCN情感識別網(wǎng)絡(luò),通過對ResTCN輸出的特征進(jìn)行加權(quán)調(diào)整,更好地利用聲學(xué)與發(fā)音特征中與情感顯著相關(guān)的特征和維度通道.

      圖5 ResTCN-FDA的整體結(jié)構(gòu)圖Fig.5 Overall structure of ResTCN-FDA

      圖6 特征-維度注意力機(jī)制的整體結(jié)構(gòu)框圖Fig.6 Overall structural framework of feature-dimensional attention mechanism

      3.2.1 特征注意力機(jī)制 在情感識別中,多特征融合比單一特征的識別效果好[9].不同的特征對情感識別的反應(yīng)能力不同,為了更好地提取多類特征中的情感信息,計(jì)算中各類特征的情感信息權(quán)重.如圖6所示,將轉(zhuǎn)置后的特征向量分別通過全局最大池化層和全局平均池化層,再將兩者的輸出進(jìn)行拼接,并通過卷積層和Sigmoid層,最終得到特征注意力權(quán)重.

      3.2.2 維度注意力機(jī)制 針對卷積層在處理序列特征時(shí),維度通道分配相同權(quán)重系數(shù)導(dǎo)致情感信息的不充分利用問題[12],本研究提出維度通道注意力機(jī)制.如圖6所示,對進(jìn)行全局平均池化,得到每個(gè)維度通道下的特征均值,再用全連接層和Sigmoid層實(shí)現(xiàn)維度注意力,最后將維度注意力的權(quán)重系數(shù)作用于, 為各個(gè)維度通道分配不同的權(quán)重系數(shù):

      式中:ω為全連接層映射;Fave,c為第c維度通道下的特征均值,其中維度通道下的的特征.

      4 實(shí)驗(yàn)結(jié)果分析

      4.1 實(shí)驗(yàn)設(shè)置和評價(jià)指標(biāo)

      實(shí)驗(yàn)所用服務(wù)器顯卡為NVIDIA GeForce RTX 2080,CPU為Intel Core i9-11950H.算法基于Python下的Tensorflow框架完成.網(wǎng)絡(luò)模型皆以五折交叉驗(yàn)證的方法隨機(jī)劃分?jǐn)?shù)據(jù)集.為了驗(yàn)證轉(zhuǎn)換網(wǎng)絡(luò)的有效性,采用平均絕對誤差和均方根誤差作為評價(jià)指標(biāo),

      式中:MAE為真實(shí)特征和映射特征絕對誤差的平均值,RMSE為真實(shí)特征和映射特征之間的樣本標(biāo)準(zhǔn)差,Nt為測試樣本的數(shù),ei、ti分別代表第i測試樣本的映射值和真實(shí)值.為了驗(yàn)證識別網(wǎng)絡(luò)的有效性,采用準(zhǔn)確率、F1指標(biāo)、曲線下面積(area under the curve)和混淆矩陣作為評價(jià)指標(biāo),

      式中:ACC為總樣本中被正確分類的樣本比例,TP為真正例,TN 為真反例,F(xiàn)P 為假正例,F(xiàn)N為假反例,F(xiàn)I為模型的穩(wěn)健程度AUC為任意正類樣本大于負(fù)類樣本的概率,pos為正例類別,O為正樣本個(gè)數(shù),N為負(fù)樣本個(gè)數(shù),ri為第i樣本的序號.

      4.2 不同轉(zhuǎn)換模型的性能對比

      為了驗(yàn)證生成器損失函數(shù)和束縛性映射損失函數(shù)的有效性,進(jìn)行轉(zhuǎn)換模型的消融實(shí)驗(yàn),對比模型分別設(shè)置為CycleGAN[21]、生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)[22]、加入生成器損失函數(shù)的Bi-MGAN(G)、加入束縛性映射性損失函數(shù)的Bi-MGAN(M)和包含以上2種損失函數(shù)的Bi-MGAN(GM).如表2所示,Bi-MGAN(G)較CycleGAN的MAE和RMSE分別提升0.010~0.093 mm和0.011~0.087 mm,Bi-MGAN(M)較CycleGAN的MAE和RMSE分別提升0.169~0.248 mm和0.038~0.294 mm,表明生成器損失函數(shù)與束縛性映射損失函數(shù)在正向和反向映射中皆有利于轉(zhuǎn)換模型生成高精度的映射特征.此外,Bi-MGAN(GM)較Bi-MGAN(M)的MAE和RMSE分別提升0.141~0.176 mm和0.198~0.214 mm,表明生成器損失函數(shù)與判別器損失函數(shù)的結(jié)合會增強(qiáng)模型映射能力,使得映射特征更加趨近于真實(shí)特征.

      表2 轉(zhuǎn)換網(wǎng)絡(luò)算法的消融實(shí)驗(yàn)Tab.2 Ablation experiment of conversion network algorithmmm

      為了驗(yàn)證所提轉(zhuǎn)換網(wǎng)絡(luò)算法有效性,將Bi-MGAN與傳統(tǒng)的DNN[14]和BiLSTM[11]以及深度遞歸混合密度網(wǎng)路(deep recurrent mixture density network,DRMDN)[23]和粒子群優(yōu)化算法的最小二乘支持向量機(jī)(particle swarm optimization algorithm of least squares support vector machines, PSO-LSSVM)[6]進(jìn)行對比.如表3所示,Bi-MGAN較傳統(tǒng)的DNN和BiLSTM的MAE和RMSE大幅提升,較PSO-LSSVM的MAE和RMSE分別提升0.466~0.482 mm和0.344~0.453 mm,較DRMDN的MAE和RMSE分別提升0.181~0.330 mm和0.040~0.256 mm.對比結(jié)果表明,Bi-MGAN可以大幅度提升網(wǎng)絡(luò)的轉(zhuǎn)換精度,在參加對比的網(wǎng)絡(luò)中取得最佳的正向映射效果與反向映射效果,證明了Bi-MGAN的有效性.

      表3 轉(zhuǎn)換網(wǎng)絡(luò)算法的映射性能對比Tab.3 Comparison of mapping performance for conversion networks algorithmmm

      4.3 情感識別網(wǎng)絡(luò)的性能對比

      為了探究FDA在情感識別中的作用,分別提取STEM-E2VA、CASIA、RADVESS和EMO-DB數(shù)據(jù)庫的60維MFCC作為識別網(wǎng)絡(luò)的輸入,進(jìn)行ResTCN-FDA的消融實(shí)驗(yàn).其中CASIA為6分類數(shù)據(jù)庫,STEM-E2VA和EMO-DB為7分類數(shù)據(jù)庫,RADVESS為8分類數(shù)據(jù)庫.如表4所示,將ResTCN-FA、ResTCN-DA與ResTCN對比可以發(fā)現(xiàn),特征注意力機(jī)制對準(zhǔn)確率提升量為1.52%~5.32%,維度注意力機(jī)制對準(zhǔn)確率提升量為1.50%~4.54%,證明給不同特征和不同通道維度分配不同的權(quán)重參數(shù)有利于提升情感識別準(zhǔn)確率.將ResTCN-FDA對比TCN、ResTCN、ResTCN-FA和ResTCN-DA,準(zhǔn)確率分別提升量為7.48%~10.92%、4.14%~8.16%、2.00%~4.16%和2.48%~6.66%.另外,ResTCN-FDA的F1和AUC也比其他算法的有一定程度的提升,這說明ResTCN-FDA可以更好的處理情感信息.

      表4 情感識別網(wǎng)絡(luò)算法的消融實(shí)驗(yàn)Tab.4 Ablation experiment of emotion recognition networks algorithm%

      為了進(jìn)一步驗(yàn)證所提識別網(wǎng)絡(luò)的有效性,以MFCC為輸入特征,將ResTCN-FDA分別與傳統(tǒng)的CNN,以及HS-TCN[24]和DRN[25]進(jìn)行比較.如表5所示,ResTCN-FDA在CASIA、STEM-E2VA、EMO-DB和RADVESS數(shù)據(jù)庫上準(zhǔn)確率分別達(dá)到80.41%、75.63%、80.16%和66.55%,與CNN、HSTCN和DRN相比性能有明顯提升.此外,ResTCNFDA與HS-TCN和DRN相比,F(xiàn)1分別取得2.01%~7.85%和3.69%~7.19%的提升量,AUC分別取得3.28%~6.07%和2.96%~7.96%的提升量,證明ResTCN-FDA在情感識別中的有效性.

      表5 情感識別網(wǎng)絡(luò)算法的情緒評價(jià)指標(biāo)對比Tab.5 Comparison of emotion evaluation metrics for emotion recognition networks algorithm%

      4.4 聲學(xué)與發(fā)音特征轉(zhuǎn)換對情感識別的影響

      為了探究聲學(xué)和發(fā)音特征轉(zhuǎn)換對情感識別的影響,提取STEM-E2VA的聲學(xué)特征和發(fā)音特征,利用Bi-MGAN完成映射特征的生成,以ResTCNFDA為識別網(wǎng)絡(luò),通過給識別網(wǎng)絡(luò)輸入不同的特征集來探索聲學(xué)與發(fā)音特征轉(zhuǎn)換對情感識別的影響.另外,提取預(yù)訓(xùn)練特征[26-27]來對比聲學(xué)與發(fā)音特征的情感識別性能.

      如表6所示,在單模態(tài)特征中,真實(shí)聲學(xué)特征集的識別率最高為75.63%,映射聲學(xué)特征集的準(zhǔn)確率和映射發(fā)音特征集的準(zhǔn)確率均低于對應(yīng)真實(shí)特征集的準(zhǔn)確率,說明映射特征所包含的情感信息低于真實(shí)特征,即正向映射與反向映射會降低識別準(zhǔn)確率.在雙模態(tài)特征中,真實(shí)的聲學(xué)與發(fā)音特征的識別率最高為83.77%,真實(shí)特征在與映射特征融合后,真實(shí)的聲學(xué)和發(fā)音特征集的識別率均有提升,說明映射特征會對真實(shí)特征起到情緒補(bǔ)充作用.對比所提特征與預(yù)訓(xùn)練特征不難發(fā)現(xiàn),由48層轉(zhuǎn)換提取的HuBERT特征的準(zhǔn)確率達(dá)到89.66%,相較于真實(shí)的聲學(xué)與發(fā)音特征提高5.89個(gè)百分點(diǎn),這說明HuBERT特征在情感識別任務(wù)中可以取得比Wav2vec2.0特征和聲學(xué)與發(fā)音特征更好的識別結(jié)果.為了保證同一維度下不同特征的對比,對預(yù)訓(xùn)練特征使用主成分分析算法降維,通過線性投影將預(yù)訓(xùn)練特征分別投影到60維與88維的空間.由表6中可知,60維的HuBERT的準(zhǔn)確率最高為78.54%,分別比Acoustic(C)和Acoustic(R)特征識別率高19.31個(gè)百分點(diǎn)和2.91個(gè)百分點(diǎn);88維的HuBERT的準(zhǔn)確率為80.16%,高于真實(shí)聲學(xué)與映射發(fā)音特征,但低于真實(shí)聲學(xué)和真實(shí)發(fā)音特征,證明在低特征維度的時(shí),HuBERT特征識別率會高于聲學(xué)特征,但是低于聲學(xué)與發(fā)音學(xué)的融合特征.

      表6 不同聲學(xué)特征與發(fā)音特征的情感評價(jià)指標(biāo)對比Tab.6 Comparison of emotion evaluation indexes for different acoustic and articulatory features

      如圖7所示為不同特征的混淆矩陣.從圖7(a)~(d)可以看出,映射特征對狂喜、憤怒、冷漠和痛苦情感的識別率遠(yuǎn)低于真實(shí)特征,對中性和傷心情感的識別率略低于真實(shí)特征,說明聲學(xué)與發(fā)音特征轉(zhuǎn)換受情緒的影響.對比圖7(a)、(e)發(fā)現(xiàn),當(dāng)真實(shí)聲學(xué)特征融合映射發(fā)音特征后,會使情感識別率有所提升,但不同的情緒提升效果有明顯差異.對比圖7(c)、(f),當(dāng)真實(shí)發(fā)音特征和映射聲學(xué)特征融合后,映射聲學(xué)特征對真實(shí)發(fā)音特征起補(bǔ)充情緒作用.對比圖7(a)、(c)、(e)、(f)和(g)可以發(fā)現(xiàn),融合特征的情感識別率均低于真實(shí)的聲學(xué)與發(fā)音特征的情感識別率,但映射特征對真實(shí)特征的情感補(bǔ)充作用會使真實(shí)特征的情感識別率有較大的提升.

      圖7 不同特征集的混淆矩陣Fig.7 Confusion matrix for different feature sets

      5 結(jié) 語

      根據(jù)聲學(xué)信號與發(fā)音學(xué)信號的特性,提出融合聲學(xué)與發(fā)音特征轉(zhuǎn)換的情感識別系統(tǒng).該系統(tǒng)能夠利用Bi-MGAN生成高精度的映射聲學(xué)特征和映射發(fā)音特征,融合FDA機(jī)制的ResTCN網(wǎng)絡(luò),實(shí)現(xiàn)了對特征的權(quán)重系數(shù)再分配,做到了對特征信息的最大化利用.在探究真實(shí)特征和映射特征對情感識別的影響中,映射特征包含的情感信息對真實(shí)特征起情緒補(bǔ)充作用,且對不同情緒的補(bǔ)充效果不同.本研究設(shè)計(jì)并錄制的STEME2VA數(shù)據(jù)庫填補(bǔ)了該領(lǐng)域研究中數(shù)據(jù)的不足.未來計(jì)劃引入預(yù)訓(xùn)練模型和對比學(xué)習(xí),讓計(jì)算機(jī)具有理解多模態(tài)情感信息的能力.

      猜你喜歡
      聲學(xué)發(fā)音損失
      Hickory, Dickory, Dock
      少問一句,損失千金
      胖胖損失了多少元
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      Playing with h
      一般自由碰撞的最大動能損失
      罗甸县| 繁峙县| 仙游县| 南召县| 磐安县| 余庆县| 苏州市| 梁平县| 涞源县| 关岭| 筠连县| 望都县| 丹棱县| 元朗区| 通化市| 封丘县| 南召县| 温宿县| 开鲁县| 金寨县| 分宜县| 罗山县| 平潭县| 长寿区| 香格里拉县| 高邑县| 肃南| 共和县| 岗巴县| 平昌县| 沅江市| 伊金霍洛旗| 通化市| 三明市| 通城县| 高雄市| 会理县| 衡阳县| 邯郸县| 且末县| 钦州市|