• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識(shí)蒸餾技術(shù)的情感識(shí)別研究

      2024-09-15 00:00:00趙曉靜于靜趙米傲
      物聯(lián)網(wǎng)技術(shù) 2024年6期
      關(guān)鍵詞:多模態(tài)深度學(xué)習(xí)大數(shù)據(jù)

      摘 要:隨著大數(shù)據(jù)的快速發(fā)展,深度學(xué)習(xí)技術(shù)已經(jīng)能夠自動(dòng)提取語(yǔ)音的深度特征表征,突破了傳統(tǒng)機(jī)器學(xué)習(xí)存在的瓶頸。然而,如何在有限的資源下有效利用多模態(tài)信息所承載的復(fù)雜情感特征,是情感識(shí)別領(lǐng)域的挑戰(zhàn)之一。為了解決這個(gè)問(wèn)題,文中提出了基于知識(shí)蒸餾(KD)的輕量級(jí)多模態(tài)神經(jīng)網(wǎng)絡(luò),分別訓(xùn)練教師網(wǎng)絡(luò)和(TN)和學(xué)生網(wǎng)絡(luò)(SN)。最后,文中結(jié)果驗(yàn)證了模型未來(lái)跨平臺(tái)使用的有效性。

      關(guān)鍵詞:大數(shù)據(jù);深度學(xué)習(xí);多模態(tài);情感識(shí)別;知識(shí)蒸餾;神經(jīng)網(wǎng)絡(luò)

      中圖分類(lèi)號(hào):TP389.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2024)06-00-04

      0 引 言

      情感識(shí)別可以使人機(jī)交互的過(guò)程更加流暢和自然[1]。在早期研究中,主要通過(guò)語(yǔ)音做情感識(shí)別,語(yǔ)音情感識(shí)別主要集中在傳統(tǒng)的機(jī)器學(xué)習(xí)算法[2-3]領(lǐng)域,隨后深度學(xué)習(xí)方法迅速成為情感識(shí)別領(lǐng)域的主流方法。唐等人采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合的方法提取語(yǔ)音情感特征,捕捉長(zhǎng)期依賴,得到了很好的結(jié)果[4]。然而,這種方法面臨2個(gè)問(wèn)題:情感表達(dá)的多樣性和大量參數(shù)。對(duì)于前者,文中采用語(yǔ)音、文本多模態(tài)方式,將跨模態(tài)自我注意機(jī)制植入網(wǎng)絡(luò)模型中,以充分捕捉跨模態(tài)的情感信息。對(duì)于后者,文中采用知識(shí)蒸餾作為模型壓縮技術(shù),在提高識(shí)別率的同時(shí)壓縮模型,其易跨平臺(tái)移植。

      1 網(wǎng)絡(luò)模型設(shè)計(jì)

      1.1 教師網(wǎng)絡(luò)(TN)

      1.1.1 卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)音特征

      文中采用卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)音特征。卷積神經(jīng)網(wǎng)絡(luò)已被廣泛用于序列建模,該模型減少了網(wǎng)絡(luò)中的參數(shù)數(shù)量,避免了特征提取和分類(lèi)過(guò)程中過(guò)于復(fù)雜的數(shù)據(jù)重建和過(guò)度擬合,空間不變性使得該模型更加穩(wěn)健[5]。梅爾頻譜在一定程度上模仿了人類(lèi)信息接收的模式,被廣泛應(yīng)用于語(yǔ)音識(shí)別和語(yǔ)音情感識(shí)別[6]。文中構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

      在特征提取過(guò)程中,正則化可以稀疏性地選取有效特征,此舉不僅有助于加快模型訓(xùn)練速度,還能提高模型的準(zhǔn)確性。與批量歸一化(BN)相比,濾波-響應(yīng)歸一化(FRN)層使用二次參數(shù)在(W,H)維度上進(jìn)行歸一化,以消除中間操作引起的問(wèn)題。文中使用FRN層作為卷積神經(jīng)網(wǎng)絡(luò)中的正則化機(jī)制。FRN計(jì)算公式如下所示:

      (1)

      式中:γ和β代表可學(xué)習(xí)的參數(shù);xi代表特征向量;c表示很小的正常量;N表示維度;vi表示計(jì)算后的特征向量;參數(shù)t是可學(xué)習(xí)的參數(shù)。在FRN層后是閾值邏輯單元(TLU),可避免在結(jié)果中任意偏移零值會(huì)產(chǎn)生大量零值并導(dǎo)致模型訓(xùn)練困難等問(wèn)題。

      1.1.2 堆疊Transformer網(wǎng)絡(luò)提取文本特征

      傳統(tǒng)的特征表示是指對(duì)文本數(shù)據(jù)使用單次傳統(tǒng)特征表示,忽略詞與詞之間的關(guān)聯(lián)性,導(dǎo)致語(yǔ)義關(guān)系、結(jié)構(gòu)組織和上下文等信息丟失。因此,使用GloVe向量以避免這些問(wèn)題。根據(jù)文本的特點(diǎn),將長(zhǎng)度設(shè)定為128個(gè)單詞,詞嵌入向量的維數(shù)為300。

      Transformer結(jié)構(gòu)完全依賴于自我注意,不使用序列對(duì)齊的RNN或卷積,以一種更容易促進(jìn)捕獲任意位置的文本之間的長(zhǎng)期依賴關(guān)系方式來(lái)計(jì)算輸入-輸出表示[7]。由于任務(wù)不同,文中對(duì)Transformer結(jié)構(gòu)的解碼器做了改進(jìn),通過(guò)一層卷積塊代替位置嵌入,以充分利用文本的序列和空間信息。編碼器的結(jié)果與從卷積塊獲得的空間表征一起被送入多頭自注意層,最終學(xué)習(xí)出深度文本特征表征。文中設(shè)置了三層Transformer結(jié)構(gòu)來(lái)提取包含上下文信息的特征表示,用文本的詞嵌入作為網(wǎng)絡(luò)結(jié)構(gòu)的輸入。

      1.1.3 跨模態(tài)聯(lián)合注意機(jī)制(CMJA)

      自我注意機(jī)制已經(jīng)被證明在序列數(shù)據(jù)生成中取得了不錯(cuò)的效果[8]。文中采用跨模態(tài)聯(lián)合注意機(jī)制來(lái)學(xué)習(xí)語(yǔ)音和文本之間的相似性,避免獨(dú)立于說(shuō)話人情感識(shí)別所產(chǎn)生的噪音,增強(qiáng)了情感特征的識(shí)別能力。在跨模態(tài)之前,文中使用對(duì)齊機(jī)制將文本與語(yǔ)音序列對(duì)齊。整個(gè)過(guò)程分為3個(gè)階段。第一階段包括對(duì)輸入序列進(jìn)行線性變換,獲得3個(gè)向量Qa、Kt和Vt,公式如下所示:

      (2)

      式中:Qa、Kt和Vt分別代表語(yǔ)音特征向量的查詢、文本特征向量的鍵和值;Wq,Wk和Wv分別表示查詢、權(quán)重和值的參數(shù)矩陣;Xa和Xt分別是語(yǔ)音和文本特征的表示。第二階段通過(guò)縮放點(diǎn)積計(jì)算Qa和Kt的相似度權(quán)重。最后,重要特征的權(quán)重Softmax機(jī)制促進(jìn)對(duì)重要特征的關(guān)注而忽略不相關(guān)的數(shù)據(jù)。公式如下所示:

      (3)

      式中:dk是對(duì)Qa維度的縮放系數(shù);Qa、Kt和Vt分別代表語(yǔ)音特征向量的查詢、文本特征向量的鍵和值,表示經(jīng)過(guò)跨模態(tài)計(jì)算后的特征向量。

      1.2 基于教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的知識(shí)蒸餾技術(shù)(SN_KD)

      知識(shí)蒸餾最早用于壓縮模型和減少模型延遲[9-10],專注于詞的嵌入和目標(biāo)分布估計(jì),并使用自然語(yǔ)言處理領(lǐng)域的知識(shí)提煉技術(shù)來(lái)提高語(yǔ)言模型和機(jī)器翻譯性能。這些通過(guò)使用預(yù)訓(xùn)練網(wǎng)絡(luò)產(chǎn)生的隱性知識(shí)來(lái)實(shí)現(xiàn),用以訓(xùn)練新的、較淺的網(wǎng)絡(luò)。受此啟發(fā),文章在情感識(shí)別領(lǐng)域使用知識(shí)蒸餾技術(shù),以獲得高性能、易于跨平臺(tái)移植的網(wǎng)絡(luò)。

      知識(shí)蒸餾的第一步是教師網(wǎng)絡(luò)訓(xùn)練,在教師網(wǎng)絡(luò)中,語(yǔ)音特征提取器的輸入特征為梅爾頻譜圖,向量表示為Audioinput=(x1, x2, ..., xn),學(xué)習(xí)的深層特征表示為H1=(h1, h2, ..., hm)。此外,我們還提取了語(yǔ)音的prosody特征,定義為P=(x1, x2, ..., xp),從而增加語(yǔ)音的信息表示。對(duì)于文本特征提取器,將輸入空間定義為RS×Maxlen,將其送入網(wǎng)絡(luò)模型以獲得詞嵌入向量,通過(guò)改進(jìn)后的Transformer結(jié)構(gòu)學(xué)習(xí)具有上下文依賴關(guān)系的高層次文本特征表示H2=(h1, h2, ..., hk)。通過(guò)跨模態(tài)聯(lián)合注意機(jī)制設(shè)計(jì)了一個(gè)空間注意權(quán)重,以挖掘語(yǔ)音和文字之間存在的隱性關(guān)系,從而獲得語(yǔ)音和文字之間相似關(guān)系的表示。教師網(wǎng)絡(luò)得到的融合特征如下所示:

      (4)

      下一步開(kāi)始構(gòu)建結(jié)構(gòu)較為精簡(jiǎn)的學(xué)生網(wǎng)絡(luò)。向教師網(wǎng)絡(luò)學(xué)習(xí),通過(guò)不斷擴(kuò)大與教師網(wǎng)絡(luò)參數(shù)空間的重疊區(qū)域,壓縮教師網(wǎng)絡(luò)模型的同時(shí)接近教師網(wǎng)絡(luò)的性能。此外,整個(gè)訓(xùn)練過(guò)程是由教師網(wǎng)絡(luò)的軟標(biāo)簽損失和樣本硬標(biāo)簽權(quán)重分配共同決定的。軟標(biāo)簽來(lái)自教師網(wǎng)絡(luò)的輸出歸一化,用于學(xué)習(xí)教師網(wǎng)絡(luò)的預(yù)測(cè)。溫度值會(huì)影響類(lèi)別之間的平滑度,并影響教師網(wǎng)絡(luò)的預(yù)測(cè)。這種方法的優(yōu)點(diǎn)是彌補(bǔ)了分類(lèi)中監(jiān)督信號(hào)不足的缺陷,增加了相對(duì)信息,同時(shí)實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng),使模型的泛化能力更易增強(qiáng)。硬標(biāo)簽是樣本的真實(shí)標(biāo)簽,它提供了數(shù)據(jù)的絕對(duì)信息,明確了其分類(lèi)。模型損失的計(jì)算公式如下:

      (5)

      式中:α表示硬標(biāo)簽?zāi)繕?biāo)的損失權(quán)重;Lhard表示硬標(biāo)簽損失;Ldistill表示軟目標(biāo)的損失;yj表示Teacher模型在Softmax下輸出在第j類(lèi)上的值;zTj表示在教師網(wǎng)絡(luò)下第j類(lèi)的預(yù)測(cè)標(biāo)簽值;zjS表示在學(xué)生網(wǎng)絡(luò)下第j類(lèi)的預(yù)測(cè)標(biāo)簽值。

      2 實(shí)驗(yàn)和結(jié)果

      2.1 數(shù)據(jù)集

      在IEMOCAP數(shù)據(jù)集上評(píng)估改進(jìn)的模型,該數(shù)據(jù)集在情感識(shí)別領(lǐng)域被廣泛使用。該數(shù)據(jù)集分為IMPROVED和SCRIPT兩個(gè)子集,其中包含語(yǔ)音、文本和視頻數(shù)據(jù)。為了與大多數(shù)現(xiàn)有研究保持一致,文中只使用IMPROVED數(shù)據(jù)和4種情緒做五折交叉驗(yàn)證:快樂(lè)、悲傷、中性和生氣。進(jìn)一步將數(shù)據(jù)分為訓(xùn)練集/驗(yàn)證集/測(cè)試集,共包含5 531個(gè)樣本數(shù)據(jù)點(diǎn)。為避免隨機(jī)初始化帶來(lái)的問(wèn)題,每一輪被測(cè)試了10次,每一輪測(cè)試集的結(jié)果是10次結(jié)果的平均值。

      2.2 實(shí)驗(yàn)設(shè)置

      文中使用keras框架實(shí)現(xiàn)了模型的訓(xùn)練和測(cè)試,并在訓(xùn)練集上以100輪訓(xùn)練模型。為避免訓(xùn)練過(guò)重時(shí)的過(guò)度擬合,保留具有最佳性能的模型,在驗(yàn)證集上使用提前停止機(jī)制。最后在測(cè)試集上對(duì)該模型進(jìn)行了情感分類(lèi)測(cè)試。采用ReLU作為激活函數(shù),選擇交叉熵作為損失函數(shù)。我們選擇keras框架的默認(rèn)adam優(yōu)化器。初始學(xué)習(xí)率為10e-4,批次大小為32,超參數(shù)見(jiàn)表1所列。

      2.3 實(shí)驗(yàn)結(jié)果分析

      通過(guò)與其他研究比較,驗(yàn)證改進(jìn)模型的性能。模型間實(shí)驗(yàn)結(jié)果對(duì)比和本實(shí)驗(yàn)對(duì)比結(jié)果分別見(jiàn)表2、表3所列。

      從表2中可以看到,文中構(gòu)建的基于知識(shí)蒸餾的學(xué)生模型在WA和UA方面都優(yōu)于文獻(xiàn)[14]提出的方法,證明了文中提出模型在多模態(tài)研究中的優(yōu)越性。從表3可以看出,與使用單種梅爾頻譜特征相比,加入prosody特征后,網(wǎng)絡(luò)性能提高了1.82%,表明加入prosody特征帶來(lái)了更多的情感信息。

      為探索單模態(tài)與多模態(tài)模型對(duì)情感分類(lèi)任務(wù)的影響,采用同一網(wǎng)絡(luò)進(jìn)行多模態(tài)分類(lèi)。從表3可以看出,多模態(tài)條件下的WA為68.9%,高于單模態(tài)的WA值,證明了多模態(tài)特征融合在情感識(shí)別領(lǐng)域的有效性。

      盡管文中構(gòu)建的多模態(tài)神經(jīng)網(wǎng)絡(luò)在性能上有所提高,但可以清楚看到,模型的WA低于文獻(xiàn)[11]中提出的模型。原因可能是文中的模型在訓(xùn)練過(guò)程中過(guò)度擬合,降低了其泛化能力;簡(jiǎn)單模型只能夠提取相對(duì)較淺的特征表示。為驗(yàn)證猜想,文中增加了正則化來(lái)觀察結(jié)果的變化。由于計(jì)算資源有限,使用較小的批處理量是不錯(cuò)的選擇,嘗試在多模態(tài)模型中加入FRN層,WA為71.2%。雖然加入FRN正則化后的WA略高于文獻(xiàn)[14]提出的方法,但UA值卻較低,說(shuō)明文中構(gòu)建的模型在分類(lèi)某類(lèi)情感方面較弱。受文獻(xiàn)[12]的啟發(fā),WA通過(guò)跨模態(tài)聯(lián)合注意機(jī)制獲得語(yǔ)音和文本之間的相似性,加強(qiáng)對(duì)情感特征的識(shí)別,在WA和UA中得到一定程度的性能提升。此外,文章還與文獻(xiàn)[12]中提出的工作在參數(shù)量上進(jìn)行了比較,見(jiàn)表4所列。

      通過(guò)表4可以看出,文中構(gòu)建的基于知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)SN_KD采用更少的參數(shù)量得到了更好的結(jié)果。

      學(xué)生網(wǎng)絡(luò)的效果略差于教師網(wǎng)絡(luò),主要是因?yàn)?個(gè)模型之間存在模型容量的差距,學(xué)生網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中很難學(xué)到教師網(wǎng)絡(luò)的所有知識(shí)。盡管如此,與沒(méi)有進(jìn)行知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)相比,經(jīng)過(guò)知識(shí)蒸餾的學(xué)生網(wǎng)絡(luò)模型性能有了很大提高,說(shuō)明文中的方法是有效的。

      3 結(jié) 語(yǔ)

      文中提出的基于知識(shí)蒸餾技術(shù)的多模態(tài)網(wǎng)絡(luò)主要貢獻(xiàn)有以下幾點(diǎn):

      (1)構(gòu)建復(fù)雜的模型作為教師模型,排除不同說(shuō)話人的干擾,促進(jìn)對(duì)更強(qiáng)大時(shí)空特征表示的學(xué)習(xí)。

      (2)構(gòu)建學(xué)生網(wǎng)絡(luò),通過(guò)應(yīng)用知識(shí)蒸餾不斷學(xué)習(xí)從壓縮的教師網(wǎng)絡(luò)中獲得的知識(shí),擴(kuò)大與教師網(wǎng)絡(luò)知識(shí)空間的重疊區(qū)域,實(shí)現(xiàn)小模型高性能和易跨平臺(tái)的移植和部署。

      模型的有效性在流行的IEMOCAP數(shù)據(jù)集上得到了驗(yàn)證。在未來(lái)的研究中,筆者還將探索異構(gòu)性之間的知識(shí)蒸餾方法以及在單任務(wù)模型指導(dǎo)下的多任務(wù)模型。

      注:本文通訊作者為趙曉靜。

      參考文獻(xiàn)

      [1]喬文婷.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別算法研究[D].西安:西安電子科技大學(xué),2023.

      [2] SINGH P,SRIVASTAVA R,RANA K P S,et al. A multimodal hierarchical approach to speech emotion recognition from audio and text [J]. Knowledge-based systems,2021,229:107316.

      [3] MEYER P. Improving convolutional recurrent neural networks for speech emotion recognition [C]// 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE,2021.

      [4]唐小煜,程慧慧,彭汪月,等.基于ICNN與Bi-LSTM的語(yǔ)音情感識(shí)別方法.CN202010751797.4[P].2023-06-11.

      [5]孫林慧,陳嘉.語(yǔ)音情感識(shí)別方法.CN201810685220.0[P]. 2023-06-11.

      [6]程適,駱曉寧,李冬城,等.一種基于雙向LSTM的語(yǔ)音情感識(shí)別模型[J].長(zhǎng)江信息通信,2022,35(7):19-22.

      [7]高利軍,薛雷.基于Transformer架構(gòu)的語(yǔ)音情感識(shí)別研究[J].工業(yè)控制計(jì)算機(jī),2023,36(1):3.

      [8]徐華南,周曉彥,姜萬(wàn),等.基于自身注意力時(shí)空特征的語(yǔ)音情感識(shí)別算法[J].聲學(xué)技術(shù),2021,40(6):8.

      [9] HINTON G,VINYALS O,DEAN J. Distilling the knowledge in a neural network [J]. Computer science,2015,14(7):38-39.

      [10] HAHN S,CHOI H. Self-knowledge distillation in natural language processing [Z]. arXiv:1908.01851

      [11] CAI L,HU Y,DONG J,et al. Audio-textual emotion recognition based on improved neural networks [J]. mathematical problems in engineering,2019,2019(6):1-9.

      [12] PAN Z,LUO Z,YANG J,et al. Multi-modal attention for speech emotion recognition [J]. arXiv:2009.04107.

      [13] KRISHNA D N. Multimodal emotion recognition using cross-modal attention and 1D convolutional neural networks [Z]. In:Proc. INTERSPEECH. Shanghai,China,2020:4243-4247.

      [14] CHEN M. multi-scale fusion framework for bimodal speech emotion recognition [Z]. In:Proc. INTERSPEECH. Shanghai,China,2020:374-378.

      [15]賈寧,鄭純軍.融合音頻,文本,表情動(dòng)作的多模態(tài)情感識(shí)別[J].應(yīng)用科學(xué)學(xué)報(bào),2023,41(1):16.

      基金項(xiàng)目:北京科技大學(xué)天津?qū)W院骨干人才培養(yǎng)計(jì)劃(TYGG2022D03)

      猜你喜歡
      多模態(tài)深度學(xué)習(xí)大數(shù)據(jù)
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      網(wǎng)絡(luò)環(huán)境下大學(xué)英語(yǔ)多模態(tài)交互式閱讀教學(xué)模式研究
      戲劇之家(2016年22期)2016-11-30 18:20:43
      多模態(tài)理論視角下大學(xué)英語(yǔ)課堂的構(gòu)建
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      新媒體環(huán)境下多模態(tài)商務(wù)英語(yǔ)課堂教師角色定位
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      乌拉特中旗| 江北区| 玉龙| 蕉岭县| 巴林左旗| 新和县| 鲁甸县| 浦县| 尚志市| 揭东县| 界首市| 利川市| 徐水县| 隆昌县| 玉环县| 青海省| 柳州市| 车险| 明溪县| 洛川县| 南昌市| 安多县| 灵璧县| 柯坪县| 桃园市| 林州市| 永善县| 河间市| 福清市| 旺苍县| 微博| 昌吉市| 卢龙县| 延寿县| 德清县| 沂南县| 固阳县| 固安县| 鄂托克前旗| 京山县| 南溪县|