基于知識(shí)蒸餾技術(shù)的情感識(shí)別研究

2024-09-15 00:00:00趙曉靜于靜趙米傲

物聯(lián)網(wǎng)技術(shù) 2024年6期

關(guān)鍵詞：多模態(tài)深度學(xué)習(xí)大數(shù)據(jù)

摘要：隨著大數(shù)據(jù)的快速發(fā)展，深度學(xué)習(xí)技術(shù)已經(jīng)能夠自動(dòng)提取語(yǔ)音的深度特征表征，突破了傳統(tǒng)機(jī)器學(xué)習(xí)存在的瓶頸。然而，如何在有限的資源下有效利用多模態(tài)信息所承載的復(fù)雜情感特征，是情感識(shí)別領(lǐng)域的挑戰(zhàn)之一。為了解決這個(gè)問(wèn)題，文中提出了基于知識(shí)蒸餾（KD）的輕量級(jí)多模態(tài)神經(jīng)網(wǎng)絡(luò)，分別訓(xùn)練教師網(wǎng)絡(luò)和（TN）和學(xué)生網(wǎng)絡(luò)（SN）。最后，文中結(jié)果驗(yàn)證了模型未來(lái)跨平臺(tái)使用的有效性。

關(guān)鍵詞：大數(shù)據(jù)；深度學(xué)習(xí)；多模態(tài)；情感識(shí)別；知識(shí)蒸餾；神經(jīng)網(wǎng)絡(luò)

中圖分類(lèi)號(hào)：TP389.1 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2095-1302（2024）06-00-04

0 引言

情感識(shí)別可以使人機(jī)交互的過(guò)程更加流暢和自然[1]。在早期研究中，主要通過(guò)語(yǔ)音做情感識(shí)別，語(yǔ)音情感識(shí)別主要集中在傳統(tǒng)的機(jī)器學(xué)習(xí)算法[2-3]領(lǐng)域，隨后深度學(xué)習(xí)方法迅速成為情感識(shí)別領(lǐng)域的主流方法。唐等人采用卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）相結(jié)合的方法提取語(yǔ)音情感特征，捕捉長(zhǎng)期依賴，得到了很好的結(jié)果[4]。然而，這種方法面臨2個(gè)問(wèn)題：情感表達(dá)的多樣性和大量參數(shù)。對(duì)于前者，文中采用語(yǔ)音、文本多模態(tài)方式，將跨模態(tài)自我注意機(jī)制植入網(wǎng)絡(luò)模型中，以充分捕捉跨模態(tài)的情感信息。對(duì)于后者，文中采用知識(shí)蒸餾作為模型壓縮技術(shù)，在提高識(shí)別率的同時(shí)壓縮模型，其易跨平臺(tái)移植。

1 網(wǎng)絡(luò)模型設(shè)計(jì)

1.1 教師網(wǎng)絡(luò)（TN）

1.1.1 卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)音特征

文中采用卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)音特征。卷積神經(jīng)網(wǎng)絡(luò)已被廣泛用于序列建模，該模型減少了網(wǎng)絡(luò)中的參數(shù)數(shù)量，避免了特征提取和分類(lèi)過(guò)程中過(guò)于復(fù)雜的數(shù)據(jù)重建和過(guò)度擬合，空間不變性使得該模型更加穩(wěn)健[5]。梅爾頻譜在一定程度上模仿了人類(lèi)信息接收的模式，被廣泛應(yīng)用于語(yǔ)音識(shí)別和語(yǔ)音情感識(shí)別[6]。文中構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

在特征提取過(guò)程中，正則化可以稀疏性地選取有效特征，此舉不僅有助于加快模型訓(xùn)練速度，還能提高模型的準(zhǔn)確性。與批量歸一化（BN）相比，濾波-響應(yīng)歸一化（FRN）層使用二次參數(shù)在（W，H）維度上進(jìn)行歸一化，以消除中間操作引起的問(wèn)題。文中使用FRN層作為卷積神經(jīng)網(wǎng)絡(luò)中的正則化機(jī)制。FRN計(jì)算公式如下所示：

（1）

式中：γ和β代表可學(xué)習(xí)的參數(shù)；xi代表特征向量；c表示很小的正常量；N表示維度；vi表示計(jì)算后的特征向量；參數(shù)t是可學(xué)習(xí)的參數(shù)。在FRN層后是閾值邏輯單元（TLU），可避免在結(jié)果中任意偏移零值會(huì)產(chǎn)生大量零值并導(dǎo)致模型訓(xùn)練困難等問(wèn)題。

1.1.2 堆疊Transformer網(wǎng)絡(luò)提取文本特征

傳統(tǒng)的特征表示是指對(duì)文本數(shù)據(jù)使用單次傳統(tǒng)特征表示，忽略詞與詞之間的關(guān)聯(lián)性，導(dǎo)致語(yǔ)義關(guān)系、結(jié)構(gòu)組織和上下文等信息丟失。因此，使用GloVe向量以避免這些問(wèn)題。根據(jù)文本的特點(diǎn)，將長(zhǎng)度設(shè)定為128個(gè)單詞，詞嵌入向量的維數(shù)為300。

Transformer結(jié)構(gòu)完全依賴于自我注意，不使用序列對(duì)齊的RNN或卷積，以一種更容易促進(jìn)捕獲任意位置的文本之間的長(zhǎng)期依賴關(guān)系方式來(lái)計(jì)算輸入-輸出表示[7]。由于任務(wù)不同，文中對(duì)Transformer結(jié)構(gòu)的解碼器做了改進(jìn)，通過(guò)一層卷積塊代替位置嵌入，以充分利用文本的序列和空間信息。編碼器的結(jié)果與從卷積塊獲得的空間表征一起被送入多頭自注意層，最終學(xué)習(xí)出深度文本特征表征。文中設(shè)置了三層Transformer結(jié)構(gòu)來(lái)提取包含上下文信息的特征表示，用文本的詞嵌入作為網(wǎng)絡(luò)結(jié)構(gòu)的輸入。

1.1.3 跨模態(tài)聯(lián)合注意機(jī)制（CMJA）

自我注意機(jī)制已經(jīng)被證明在序列數(shù)據(jù)生成中取得了不錯(cuò)的效果[8]。文中采用跨模態(tài)聯(lián)合注意機(jī)制來(lái)學(xué)習(xí)語(yǔ)音和文本之間的相似性，避免獨(dú)立于說(shuō)話人情感識(shí)別所產(chǎn)生的噪音，增強(qiáng)了情感特征的識(shí)別能力。在跨模態(tài)之前，文中使用對(duì)齊機(jī)制將文本與語(yǔ)音序列對(duì)齊。整個(gè)過(guò)程分為3個(gè)階段。第一階段包括對(duì)輸入序列進(jìn)行線性變換，獲得3個(gè)向量Qa、Kt和Vt，公式如下所示：

（2）

式中：Qa、Kt和Vt分別代表語(yǔ)音特征向量的查詢、文本特征向量的鍵和值；Wq，Wk和Wv分別表示查詢、權(quán)重和值的參數(shù)矩陣；Xa和Xt分別是語(yǔ)音和文本特征的表示。第二階段通過(guò)縮放點(diǎn)積計(jì)算Qa和Kt的相似度權(quán)重。最后，重要特征的權(quán)重Softmax機(jī)制促進(jìn)對(duì)重要特征的關(guān)注而忽略不相關(guān)的數(shù)據(jù)。公式如下所示：

（3）

式中：dk是對(duì)Qa維度的縮放系數(shù)；Qa、Kt和Vt分別代表語(yǔ)音特征向量的查詢、文本特征向量的鍵和值，表示經(jīng)過(guò)跨模態(tài)計(jì)算后的特征向量。

1.2 基于教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的知識(shí)蒸餾技術(shù)（SN_KD）

知識(shí)蒸餾最早用于壓縮模型和減少模型延遲[9-10]，專注于詞的嵌入和目標(biāo)分布估計(jì)，并使用自然語(yǔ)言處理領(lǐng)域的知識(shí)提煉技術(shù)來(lái)提高語(yǔ)言模型和機(jī)器翻譯性能。這些通過(guò)使用預(yù)訓(xùn)練網(wǎng)絡(luò)產(chǎn)生的隱性知識(shí)來(lái)實(shí)現(xiàn)，用以訓(xùn)練新的、較淺的網(wǎng)絡(luò)。受此啟發(fā)，文章在情感識(shí)別領(lǐng)域使用知識(shí)蒸餾技術(shù)，以獲得高性能、易于跨平臺(tái)移植的網(wǎng)絡(luò)。

知識(shí)蒸餾的第一步是教師網(wǎng)絡(luò)訓(xùn)練，在教師網(wǎng)絡(luò)中，語(yǔ)音特征提取器的輸入特征為梅爾頻譜圖，向量表示為Audioinput=（x1， x2， ...， xn），學(xué)習(xí)的深層特征表示為H1=（h1， h2， ...， hm）。此外，我們還提取了語(yǔ)音的prosody特征，定義為P=（x1， x2， ...， xp），從而增加語(yǔ)音的信息表示。對(duì)于文本特征提取器，將輸入空間定義為RS×Maxlen，將其送入網(wǎng)絡(luò)模型以獲得詞嵌入向量，通過(guò)改進(jìn)后的Transformer結(jié)構(gòu)學(xué)習(xí)具有上下文依賴關(guān)系的高層次文本特征表示H2=（h1， h2， ...， hk）。通過(guò)跨模態(tài)聯(lián)合注意機(jī)制設(shè)計(jì)了一個(gè)空間注意權(quán)重，以挖掘語(yǔ)音和文字之間存在的隱性關(guān)系，從而獲得語(yǔ)音和文字之間相似關(guān)系的表示。教師網(wǎng)絡(luò)得到的融合特征如下所示：

（4）

下一步開(kāi)始構(gòu)建結(jié)構(gòu)較為精簡(jiǎn)的學(xué)生網(wǎng)絡(luò)。向教師網(wǎng)絡(luò)學(xué)習(xí)，通過(guò)不斷擴(kuò)大與教師網(wǎng)絡(luò)參數(shù)空間的重疊區(qū)域，壓縮教師網(wǎng)絡(luò)模型的同時(shí)接近教師網(wǎng)絡(luò)的性能。此外，整個(gè)訓(xùn)練過(guò)程是由教師網(wǎng)絡(luò)的軟標(biāo)簽損失和樣本硬標(biāo)簽權(quán)重分配共同決定的。軟標(biāo)簽來(lái)自教師網(wǎng)絡(luò)的輸出歸一化，用于學(xué)習(xí)教師網(wǎng)絡(luò)的預(yù)測(cè)。溫度值會(huì)影響類(lèi)別之間的平滑度，并影響教師網(wǎng)絡(luò)的預(yù)測(cè)。這種方法的優(yōu)點(diǎn)是彌補(bǔ)了分類(lèi)中監(jiān)督信號(hào)不足的缺陷，增加了相對(duì)信息，同時(shí)實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng)，使模型的泛化能力更易增強(qiáng)。硬標(biāo)簽是樣本的真實(shí)標(biāo)簽，它提供了數(shù)據(jù)的絕對(duì)信息，明確了其分類(lèi)。模型損失的計(jì)算公式如下：

（5）

式中：α表示硬標(biāo)簽?zāi)繕?biāo)的損失權(quán)重；Lhard表示硬標(biāo)簽損失；Ldistill表示軟目標(biāo)的損失；yj表示Teacher模型在Softmax下輸出在第j類(lèi)上的值；zTj表示在教師網(wǎng)絡(luò)下第j類(lèi)的預(yù)測(cè)標(biāo)簽值；zjS表示在學(xué)生網(wǎng)絡(luò)下第j類(lèi)的預(yù)測(cè)標(biāo)簽值。

2 實(shí)驗(yàn)和結(jié)果

2.1 數(shù)據(jù)集

在IEMOCAP數(shù)據(jù)集上評(píng)估改進(jìn)的模型，該數(shù)據(jù)集在情感識(shí)別領(lǐng)域被廣泛使用。該數(shù)據(jù)集分為IMPROVED和SCRIPT兩個(gè)子集，其中包含語(yǔ)音、文本和視頻數(shù)據(jù)。為了與大多數(shù)現(xiàn)有研究保持一致，文中只使用IMPROVED數(shù)據(jù)和4種情緒做五折交叉驗(yàn)證：快樂(lè)、悲傷、中性和生氣。進(jìn)一步將數(shù)據(jù)分為訓(xùn)練集/驗(yàn)證集/測(cè)試集，共包含5 531個(gè)樣本數(shù)據(jù)點(diǎn)。為避免隨機(jī)初始化帶來(lái)的問(wèn)題，每一輪被測(cè)試了10次，每一輪測(cè)試集的結(jié)果是10次結(jié)果的平均值。

2.2 實(shí)驗(yàn)設(shè)置

文中使用keras框架實(shí)現(xiàn)了模型的訓(xùn)練和測(cè)試，并在訓(xùn)練集上以100輪訓(xùn)練模型。為避免訓(xùn)練過(guò)重時(shí)的過(guò)度擬合，保留具有最佳性能的模型，在驗(yàn)證集上使用提前停止機(jī)制。最后在測(cè)試集上對(duì)該模型進(jìn)行了情感分類(lèi)測(cè)試。采用ReLU作為激活函數(shù)，選擇交叉熵作為損失函數(shù)。我們選擇keras框架的默認(rèn)adam優(yōu)化器。初始學(xué)習(xí)率為10e-4，批次大小為32，超參數(shù)見(jiàn)表1所列。

2.3 實(shí)驗(yàn)結(jié)果分析

通過(guò)與其他研究比較，驗(yàn)證改進(jìn)模型的性能。模型間實(shí)驗(yàn)結(jié)果對(duì)比和本實(shí)驗(yàn)對(duì)比結(jié)果分別見(jiàn)表2、表3所列。

從表2中可以看到，文中構(gòu)建的基于知識(shí)蒸餾的學(xué)生模型在WA和UA方面都優(yōu)于文獻(xiàn)[14]提出的方法，證明了文中提出模型在多模態(tài)研究中的優(yōu)越性。從表3可以看出，與使用單種梅爾頻譜特征相比，加入prosody特征后，網(wǎng)絡(luò)性能提高了1.82%，表明加入prosody特征帶來(lái)了更多的情感信息。

為探索單模態(tài)與多模態(tài)模型對(duì)情感分類(lèi)任務(wù)的影響，采用同一網(wǎng)絡(luò)進(jìn)行多模態(tài)分類(lèi)。從表3可以看出，多模態(tài)條件下的WA為68.9%，高于單模態(tài)的WA值，證明了多模態(tài)特征融合在情感識(shí)別領(lǐng)域的有效性。

盡管文中構(gòu)建的多模態(tài)神經(jīng)網(wǎng)絡(luò)在性能上有所提高，但可以清楚看到，模型的WA低于文獻(xiàn)[11]中提出的模型。原因可能是文中的模型在訓(xùn)練過(guò)程中過(guò)度擬合，降低了其泛化能力；簡(jiǎn)單模型只能夠提取相對(duì)較淺的特征表示。為驗(yàn)證猜想，文中增加了正則化來(lái)觀察結(jié)果的變化。由于計(jì)算資源有限，使用較小的批處理量是不錯(cuò)的選擇，嘗試在多模態(tài)模型中加入FRN層，WA為71.2%。雖然加入FRN正則化后的WA略高于文獻(xiàn)[14]提出的方法，但UA值卻較低，說(shuō)明文中構(gòu)建的模型在分類(lèi)某類(lèi)情感方面較弱。受文獻(xiàn)[12]的啟發(fā)，WA通過(guò)跨模態(tài)聯(lián)合注意機(jī)制獲得語(yǔ)音和文本之間的相似性，加強(qiáng)對(duì)情感特征的識(shí)別，在WA和UA中得到一定程度的性能提升。此外，文章還與文獻(xiàn)[12]中提出的工作在參數(shù)量上進(jìn)行了比較，見(jiàn)表4所列。

通過(guò)表4可以看出，文中構(gòu)建的基于知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)SN_KD采用更少的參數(shù)量得到了更好的結(jié)果。

學(xué)生網(wǎng)絡(luò)的效果略差于教師網(wǎng)絡(luò)，主要是因?yàn)?個(gè)模型之間存在模型容量的差距，學(xué)生網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中很難學(xué)到教師網(wǎng)絡(luò)的所有知識(shí)。盡管如此，與沒(méi)有進(jìn)行知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)相比，經(jīng)過(guò)知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)模型性能有了很大提高，說(shuō)明文中的方法是有效的。

3 結(jié) 語(yǔ)

文中提出的基于知識(shí)蒸餾技術(shù)的多模態(tài)網(wǎng)絡(luò)主要貢獻(xiàn)有以下幾點(diǎn)：

（1）構(gòu)建復(fù)雜的模型作為教師模型，排除不同說(shuō)話人的干擾，促進(jìn)對(duì)更強(qiáng)大時(shí)空特征表示的學(xué)習(xí)。

（2）構(gòu)建學(xué)生網(wǎng)絡(luò)，通過(guò)應(yīng)用知識(shí)蒸餾不斷學(xué)習(xí)從壓縮的教師網(wǎng)絡(luò)中獲得的知識(shí)，擴(kuò)大與教師網(wǎng)絡(luò)知識(shí)空間的重疊區(qū)域，實(shí)現(xiàn)小模型高性能和易跨平臺(tái)的移植和部署。

模型的有效性在流行的IEMOCAP數(shù)據(jù)集上得到了驗(yàn)證。在未來(lái)的研究中，筆者還將探索異構(gòu)性之間的知識(shí)蒸餾方法以及在單任務(wù)模型指導(dǎo)下的多任務(wù)模型。

注：本文通訊作者為趙曉靜。

參考文獻(xiàn)

[1]喬文婷.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別算法研究[D].西安：西安電子科技大學(xué)，2023.

[2] SINGH P，SRIVASTAVA R，RANA K P S，et al. A multimodal hierarchical approach to speech emotion recognition from audio and text [J]. Knowledge-based systems，2021，229：107316.

[3] MEYER P. Improving convolutional recurrent neural networks for speech emotion recognition [C]// 2021 IEEE Spoken Language Technology Workshop （SLT）. IEEE，2021.

[4]唐小煜，程慧慧，彭汪月，等.基于ICNN與Bi-LSTM的語(yǔ)音情感識(shí)別方法.CN202010751797.4[P].2023-06-11.

[5]孫林慧，陳嘉.語(yǔ)音情感識(shí)別方法.CN201810685220.0[P]. 2023-06-11.

[6]程適，駱曉寧，李冬城，等.一種基于雙向LSTM的語(yǔ)音情感識(shí)別模型[J].長(zhǎng)江信息通信，2022，35（7）：19-22.

[7]高利軍，薛雷.基于Transformer架構(gòu)的語(yǔ)音情感識(shí)別研究[J].工業(yè)控制計(jì)算機(jī)，2023，36（1）：3.

[8]徐華南，周曉彥，姜萬(wàn)，等.基于自身注意力時(shí)空特征的語(yǔ)音情感識(shí)別算法[J].聲學(xué)技術(shù)，2021，40（6）：8.

[9] HINTON G，VINYALS O，DEAN J. Distilling the knowledge in a neural network [J]. Computer science，2015，14（7）：38-39.

[10] HAHN S，CHOI H. Self-knowledge distillation in natural language processing [Z]. arXiv：1908.01851

[11] CAI L，HU Y，DONG J，et al. Audio-textual emotion recognition based on improved neural networks [J]. mathematical problems in engineering，2019，2019（6）：1-9.

[12] PAN Z，LUO Z，YANG J，et al. Multi-modal attention for speech emotion recognition [J]. arXiv：2009.04107.

[13] KRISHNA D N. Multimodal emotion recognition using cross-modal attention and 1D convolutional neural networks [Z]. In：Proc. INTERSPEECH. Shanghai，China，2020：4243-4247.

[14] CHEN M. multi-scale fusion framework for bimodal speech emotion recognition [Z]. In：Proc. INTERSPEECH. Shanghai，China，2020：374-378.

[15]賈寧，鄭純軍.融合音頻，文本，表情動(dòng)作的多模態(tài)情感識(shí)別[J].應(yīng)用科學(xué)學(xué)報(bào)，2023，41（1）：16.

基金項(xiàng)目：北京科技大學(xué)天津?qū)W院骨干人才培養(yǎng)計(jì)劃（TYGG2022D03）