摘 要:隨著大數(shù)據(jù)的快速發(fā)展,深度學(xué)習(xí)技術(shù)已經(jīng)能夠自動(dòng)提取語(yǔ)音的深度特征表征,突破了傳統(tǒng)機(jī)器學(xué)習(xí)存在的瓶頸。然而,如何在有限的資源下有效利用多模態(tài)信息所承載的復(fù)雜情感特征,是情感識(shí)別領(lǐng)域的挑戰(zhàn)之一。為了解決這個(gè)問(wèn)題,文中提出了基于知識(shí)蒸餾(KD)的輕量級(jí)多模態(tài)神經(jīng)網(wǎng)絡(luò),分別訓(xùn)練教師網(wǎng)絡(luò)和(TN)和學(xué)生網(wǎng)絡(luò)(SN)。最后,文中結(jié)果驗(yàn)證了模型未來(lái)跨平臺(tái)使用的有效性。
關(guān)鍵詞:大數(shù)據(jù);深度學(xué)習(xí);多模態(tài);情感識(shí)別;知識(shí)蒸餾;神經(jīng)網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP389.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2024)06-00-04
0 引 言
情感識(shí)別可以使人機(jī)交互的過(guò)程更加流暢和自然[1]。在早期研究中,主要通過(guò)語(yǔ)音做情感識(shí)別,語(yǔ)音情感識(shí)別主要集中在傳統(tǒng)的機(jī)器學(xué)習(xí)算法[2-3]領(lǐng)域,隨后深度學(xué)習(xí)方法迅速成為情感識(shí)別領(lǐng)域的主流方法。唐等人采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合的方法提取語(yǔ)音情感特征,捕捉長(zhǎng)期依賴,得到了很好的結(jié)果[4]。然而,這種方法面臨2個(gè)問(wèn)題:情感表達(dá)的多樣性和大量參數(shù)。對(duì)于前者,文中采用語(yǔ)音、文本多模態(tài)方式,將跨模態(tài)自我注意機(jī)制植入網(wǎng)絡(luò)模型中,以充分捕捉跨模態(tài)的情感信息。對(duì)于后者,文中采用知識(shí)蒸餾作為模型壓縮技術(shù),在提高識(shí)別率的同時(shí)壓縮模型,其易跨平臺(tái)移植。
1 網(wǎng)絡(luò)模型設(shè)計(jì)
1.1 教師網(wǎng)絡(luò)(TN)
1.1.1 卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)音特征
文中采用卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)音特征。卷積神經(jīng)網(wǎng)絡(luò)已被廣泛用于序列建模,該模型減少了網(wǎng)絡(luò)中的參數(shù)數(shù)量,避免了特征提取和分類(lèi)過(guò)程中過(guò)于復(fù)雜的數(shù)據(jù)重建和過(guò)度擬合,空間不變性使得該模型更加穩(wěn)健[5]。梅爾頻譜在一定程度上模仿了人類(lèi)信息接收的模式,被廣泛應(yīng)用于語(yǔ)音識(shí)別和語(yǔ)音情感識(shí)別[6]。文中構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
在特征提取過(guò)程中,正則化可以稀疏性地選取有效特征,此舉不僅有助于加快模型訓(xùn)練速度,還能提高模型的準(zhǔn)確性。與批量歸一化(BN)相比,濾波-響應(yīng)歸一化(FRN)層使用二次參數(shù)在(W,H)維度上進(jìn)行歸一化,以消除中間操作引起的問(wèn)題。文中使用FRN層作為卷積神經(jīng)網(wǎng)絡(luò)中的正則化機(jī)制。FRN計(jì)算公式如下所示:
(1)
式中:γ和β代表可學(xué)習(xí)的參數(shù);xi代表特征向量;c表示很小的正常量;N表示維度;vi表示計(jì)算后的特征向量;參數(shù)t是可學(xué)習(xí)的參數(shù)。在FRN層后是閾值邏輯單元(TLU),可避免在結(jié)果中任意偏移零值會(huì)產(chǎn)生大量零值并導(dǎo)致模型訓(xùn)練困難等問(wèn)題。
1.1.2 堆疊Transformer網(wǎng)絡(luò)提取文本特征
傳統(tǒng)的特征表示是指對(duì)文本數(shù)據(jù)使用單次傳統(tǒng)特征表示,忽略詞與詞之間的關(guān)聯(lián)性,導(dǎo)致語(yǔ)義關(guān)系、結(jié)構(gòu)組織和上下文等信息丟失。因此,使用GloVe向量以避免這些問(wèn)題。根據(jù)文本的特點(diǎn),將長(zhǎng)度設(shè)定為128個(gè)單詞,詞嵌入向量的維數(shù)為300。
Transformer結(jié)構(gòu)完全依賴于自我注意,不使用序列對(duì)齊的RNN或卷積,以一種更容易促進(jìn)捕獲任意位置的文本之間的長(zhǎng)期依賴關(guān)系方式來(lái)計(jì)算輸入-輸出表示[7]。由于任務(wù)不同,文中對(duì)Transformer結(jié)構(gòu)的解碼器做了改進(jìn),通過(guò)一層卷積塊代替位置嵌入,以充分利用文本的序列和空間信息。編碼器的結(jié)果與從卷積塊獲得的空間表征一起被送入多頭自注意層,最終學(xué)習(xí)出深度文本特征表征。文中設(shè)置了三層Transformer結(jié)構(gòu)來(lái)提取包含上下文信息的特征表示,用文本的詞嵌入作為網(wǎng)絡(luò)結(jié)構(gòu)的輸入。
1.1.3 跨模態(tài)聯(lián)合注意機(jī)制(CMJA)
自我注意機(jī)制已經(jīng)被證明在序列數(shù)據(jù)生成中取得了不錯(cuò)的效果[8]。文中采用跨模態(tài)聯(lián)合注意機(jī)制來(lái)學(xué)習(xí)語(yǔ)音和文本之間的相似性,避免獨(dú)立于說(shuō)話人情感識(shí)別所產(chǎn)生的噪音,增強(qiáng)了情感特征的識(shí)別能力。在跨模態(tài)之前,文中使用對(duì)齊機(jī)制將文本與語(yǔ)音序列對(duì)齊。整個(gè)過(guò)程分為3個(gè)階段。第一階段包括對(duì)輸入序列進(jìn)行線性變換,獲得3個(gè)向量Qa、Kt和Vt,公式如下所示:
(2)
式中:Qa、Kt和Vt分別代表語(yǔ)音特征向量的查詢、文本特征向量的鍵和值;Wq,Wk和Wv分別表示查詢、權(quán)重和值的參數(shù)矩陣;Xa和Xt分別是語(yǔ)音和文本特征的表示。第二階段通過(guò)縮放點(diǎn)積計(jì)算Qa和Kt的相似度權(quán)重。最后,重要特征的權(quán)重Softmax機(jī)制促進(jìn)對(duì)重要特征的關(guān)注而忽略不相關(guān)的數(shù)據(jù)。公式如下所示:
(3)
式中:dk是對(duì)Qa維度的縮放系數(shù);Qa、Kt和Vt分別代表語(yǔ)音特征向量的查詢、文本特征向量的鍵和值,表示經(jīng)過(guò)跨模態(tài)計(jì)算后的特征向量。
1.2 基于教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的知識(shí)蒸餾技術(shù)(SN_KD)
知識(shí)蒸餾最早用于壓縮模型和減少模型延遲[9-10],專注于詞的嵌入和目標(biāo)分布估計(jì),并使用自然語(yǔ)言處理領(lǐng)域的知識(shí)提煉技術(shù)來(lái)提高語(yǔ)言模型和機(jī)器翻譯性能。這些通過(guò)使用預(yù)訓(xùn)練網(wǎng)絡(luò)產(chǎn)生的隱性知識(shí)來(lái)實(shí)現(xiàn),用以訓(xùn)練新的、較淺的網(wǎng)絡(luò)。受此啟發(fā),文章在情感識(shí)別領(lǐng)域使用知識(shí)蒸餾技術(shù),以獲得高性能、易于跨平臺(tái)移植的網(wǎng)絡(luò)。
知識(shí)蒸餾的第一步是教師網(wǎng)絡(luò)訓(xùn)練,在教師網(wǎng)絡(luò)中,語(yǔ)音特征提取器的輸入特征為梅爾頻譜圖,向量表示為Audioinput=(x1, x2, ..., xn),學(xué)習(xí)的深層特征表示為H1=(h1, h2, ..., hm)。此外,我們還提取了語(yǔ)音的prosody特征,定義為P=(x1, x2, ..., xp),從而增加語(yǔ)音的信息表示。對(duì)于文本特征提取器,將輸入空間定義為RS×Maxlen,將其送入網(wǎng)絡(luò)模型以獲得詞嵌入向量,通過(guò)改進(jìn)后的Transformer結(jié)構(gòu)學(xué)習(xí)具有上下文依賴關(guān)系的高層次文本特征表示H2=(h1, h2, ..., hk)。通過(guò)跨模態(tài)聯(lián)合注意機(jī)制設(shè)計(jì)了一個(gè)空間注意權(quán)重,以挖掘語(yǔ)音和文字之間存在的隱性關(guān)系,從而獲得語(yǔ)音和文字之間相似關(guān)系的表示。教師網(wǎng)絡(luò)得到的融合特征如下所示:
(4)
下一步開(kāi)始構(gòu)建結(jié)構(gòu)較為精簡(jiǎn)的學(xué)生網(wǎng)絡(luò)。向教師網(wǎng)絡(luò)學(xué)習(xí),通過(guò)不斷擴(kuò)大與教師網(wǎng)絡(luò)參數(shù)空間的重疊區(qū)域,壓縮教師網(wǎng)絡(luò)模型的同時(shí)接近教師網(wǎng)絡(luò)的性能。此外,整個(gè)訓(xùn)練過(guò)程是由教師網(wǎng)絡(luò)的軟標(biāo)簽損失和樣本硬標(biāo)簽權(quán)重分配共同決定的。軟標(biāo)簽來(lái)自教師網(wǎng)絡(luò)的輸出歸一化,用于學(xué)習(xí)教師網(wǎng)絡(luò)的預(yù)測(cè)。溫度值會(huì)影響類(lèi)別之間的平滑度,并影響教師網(wǎng)絡(luò)的預(yù)測(cè)。這種方法的優(yōu)點(diǎn)是彌補(bǔ)了分類(lèi)中監(jiān)督信號(hào)不足的缺陷,增加了相對(duì)信息,同時(shí)實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng),使模型的泛化能力更易增強(qiáng)。硬標(biāo)簽是樣本的真實(shí)標(biāo)簽,它提供了數(shù)據(jù)的絕對(duì)信息,明確了其分類(lèi)。模型損失的計(jì)算公式如下:
(5)
式中:α表示硬標(biāo)簽?zāi)繕?biāo)的損失權(quán)重;Lhard表示硬標(biāo)簽損失;Ldistill表示軟目標(biāo)的損失;yj表示Teacher模型在Softmax下輸出在第j類(lèi)上的值;zTj表示在教師網(wǎng)絡(luò)下第j類(lèi)的預(yù)測(cè)標(biāo)簽值;zjS表示在學(xué)生網(wǎng)絡(luò)下第j類(lèi)的預(yù)測(cè)標(biāo)簽值。
2 實(shí)驗(yàn)和結(jié)果
2.1 數(shù)據(jù)集
在IEMOCAP數(shù)據(jù)集上評(píng)估改進(jìn)的模型,該數(shù)據(jù)集在情感識(shí)別領(lǐng)域被廣泛使用。該數(shù)據(jù)集分為IMPROVED和SCRIPT兩個(gè)子集,其中包含語(yǔ)音、文本和視頻數(shù)據(jù)。為了與大多數(shù)現(xiàn)有研究保持一致,文中只使用IMPROVED數(shù)據(jù)和4種情緒做五折交叉驗(yàn)證:快樂(lè)、悲傷、中性和生氣。進(jìn)一步將數(shù)據(jù)分為訓(xùn)練集/驗(yàn)證集/測(cè)試集,共包含5 531個(gè)樣本數(shù)據(jù)點(diǎn)。為避免隨機(jī)初始化帶來(lái)的問(wèn)題,每一輪被測(cè)試了10次,每一輪測(cè)試集的結(jié)果是10次結(jié)果的平均值。
2.2 實(shí)驗(yàn)設(shè)置
文中使用keras框架實(shí)現(xiàn)了模型的訓(xùn)練和測(cè)試,并在訓(xùn)練集上以100輪訓(xùn)練模型。為避免訓(xùn)練過(guò)重時(shí)的過(guò)度擬合,保留具有最佳性能的模型,在驗(yàn)證集上使用提前停止機(jī)制。最后在測(cè)試集上對(duì)該模型進(jìn)行了情感分類(lèi)測(cè)試。采用ReLU作為激活函數(shù),選擇交叉熵作為損失函數(shù)。我們選擇keras框架的默認(rèn)adam優(yōu)化器。初始學(xué)習(xí)率為10e-4,批次大小為32,超參數(shù)見(jiàn)表1所列。
2.3 實(shí)驗(yàn)結(jié)果分析
通過(guò)與其他研究比較,驗(yàn)證改進(jìn)模型的性能。模型間實(shí)驗(yàn)結(jié)果對(duì)比和本實(shí)驗(yàn)對(duì)比結(jié)果分別見(jiàn)表2、表3所列。
從表2中可以看到,文中構(gòu)建的基于知識(shí)蒸餾的學(xué)生模型在WA和UA方面都優(yōu)于文獻(xiàn)[14]提出的方法,證明了文中提出模型在多模態(tài)研究中的優(yōu)越性。從表3可以看出,與使用單種梅爾頻譜特征相比,加入prosody特征后,網(wǎng)絡(luò)性能提高了1.82%,表明加入prosody特征帶來(lái)了更多的情感信息。
為探索單模態(tài)與多模態(tài)模型對(duì)情感分類(lèi)任務(wù)的影響,采用同一網(wǎng)絡(luò)進(jìn)行多模態(tài)分類(lèi)。從表3可以看出,多模態(tài)條件下的WA為68.9%,高于單模態(tài)的WA值,證明了多模態(tài)特征融合在情感識(shí)別領(lǐng)域的有效性。
盡管文中構(gòu)建的多模態(tài)神經(jīng)網(wǎng)絡(luò)在性能上有所提高,但可以清楚看到,模型的WA低于文獻(xiàn)[11]中提出的模型。原因可能是文中的模型在訓(xùn)練過(guò)程中過(guò)度擬合,降低了其泛化能力;簡(jiǎn)單模型只能夠提取相對(duì)較淺的特征表示。為驗(yàn)證猜想,文中增加了正則化來(lái)觀察結(jié)果的變化。由于計(jì)算資源有限,使用較小的批處理量是不錯(cuò)的選擇,嘗試在多模態(tài)模型中加入FRN層,WA為71.2%。雖然加入FRN正則化后的WA略高于文獻(xiàn)[14]提出的方法,但UA值卻較低,說(shuō)明文中構(gòu)建的模型在分類(lèi)某類(lèi)情感方面較弱。受文獻(xiàn)[12]的啟發(fā),WA通過(guò)跨模態(tài)聯(lián)合注意機(jī)制獲得語(yǔ)音和文本之間的相似性,加強(qiáng)對(duì)情感特征的識(shí)別,在WA和UA中得到一定程度的性能提升。此外,文章還與文獻(xiàn)[12]中提出的工作在參數(shù)量上進(jìn)行了比較,見(jiàn)表4所列。
通過(guò)表4可以看出,文中構(gòu)建的基于知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)SN_KD采用更少的參數(shù)量得到了更好的結(jié)果。
學(xué)生網(wǎng)絡(luò)的效果略差于教師網(wǎng)絡(luò),主要是因?yàn)?個(gè)模型之間存在模型容量的差距,學(xué)生網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中很難學(xué)到教師網(wǎng)絡(luò)的所有知識(shí)。盡管如此,與沒(méi)有進(jìn)行知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)相比,經(jīng)過(guò)知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)模型性能有了很大提高,說(shuō)明文中的方法是有效的。
3 結(jié) 語(yǔ)
文中提出的基于知識(shí)蒸餾技術(shù)的多模態(tài)網(wǎng)絡(luò)主要貢獻(xiàn)有以下幾點(diǎn):
(1)構(gòu)建復(fù)雜的模型作為教師模型,排除不同說(shuō)話人的干擾,促進(jìn)對(duì)更強(qiáng)大時(shí)空特征表示的學(xué)習(xí)。
(2)構(gòu)建學(xué)生網(wǎng)絡(luò),通過(guò)應(yīng)用知識(shí)蒸餾不斷學(xué)習(xí)從壓縮的教師網(wǎng)絡(luò)中獲得的知識(shí),擴(kuò)大與教師網(wǎng)絡(luò)知識(shí)空間的重疊區(qū)域,實(shí)現(xiàn)小模型高性能和易跨平臺(tái)的移植和部署。
模型的有效性在流行的IEMOCAP數(shù)據(jù)集上得到了驗(yàn)證。在未來(lái)的研究中,筆者還將探索異構(gòu)性之間的知識(shí)蒸餾方法以及在單任務(wù)模型指導(dǎo)下的多任務(wù)模型。
注:本文通訊作者為趙曉靜。
參考文獻(xiàn)
[1]喬文婷.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別算法研究[D].西安:西安電子科技大學(xué),2023.
[2] SINGH P,SRIVASTAVA R,RANA K P S,et al. A multimodal hierarchical approach to speech emotion recognition from audio and text [J]. Knowledge-based systems,2021,229:107316.
[3] MEYER P. Improving convolutional recurrent neural networks for speech emotion recognition [C]// 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE,2021.
[4]唐小煜,程慧慧,彭汪月,等.基于ICNN與Bi-LSTM的語(yǔ)音情感識(shí)別方法.CN202010751797.4[P].2023-06-11.
[5]孫林慧,陳嘉.語(yǔ)音情感識(shí)別方法.CN201810685220.0[P]. 2023-06-11.
[6]程適,駱曉寧,李冬城,等.一種基于雙向LSTM的語(yǔ)音情感識(shí)別模型[J].長(zhǎng)江信息通信,2022,35(7):19-22.
[7]高利軍,薛雷.基于Transformer架構(gòu)的語(yǔ)音情感識(shí)別研究[J].工業(yè)控制計(jì)算機(jī),2023,36(1):3.
[8]徐華南,周曉彥,姜萬(wàn),等.基于自身注意力時(shí)空特征的語(yǔ)音情感識(shí)別算法[J].聲學(xué)技術(shù),2021,40(6):8.
[9] HINTON G,VINYALS O,DEAN J. Distilling the knowledge in a neural network [J]. Computer science,2015,14(7):38-39.
[10] HAHN S,CHOI H. Self-knowledge distillation in natural language processing [Z]. arXiv:1908.01851
[11] CAI L,HU Y,DONG J,et al. Audio-textual emotion recognition based on improved neural networks [J]. mathematical problems in engineering,2019,2019(6):1-9.
[12] PAN Z,LUO Z,YANG J,et al. Multi-modal attention for speech emotion recognition [J]. arXiv:2009.04107.
[13] KRISHNA D N. Multimodal emotion recognition using cross-modal attention and 1D convolutional neural networks [Z]. In:Proc. INTERSPEECH. Shanghai,China,2020:4243-4247.
[14] CHEN M. multi-scale fusion framework for bimodal speech emotion recognition [Z]. In:Proc. INTERSPEECH. Shanghai,China,2020:374-378.
[15]賈寧,鄭純軍.融合音頻,文本,表情動(dòng)作的多模態(tài)情感識(shí)別[J].應(yīng)用科學(xué)學(xué)報(bào),2023,41(1):16.
基金項(xiàng)目:北京科技大學(xué)天津?qū)W院骨干人才培養(yǎng)計(jì)劃(TYGG2022D03)