艾旭升 盛勝利 李春華
1(蘇州工業(yè)職業(yè)技術(shù)學(xué)院軟件與服務(wù)外包學(xué)院 江蘇 蘇州 215104) 2(蘇州科技大學(xué)電子與信息工程學(xué)院 江蘇 蘇州 215009)
情感引導(dǎo)非語(yǔ)言的社會(huì)信號(hào)(例如肢體語(yǔ)言和面部表情)表達(dá)需求,需求和欲望是人類(lèi)交流中重要的副語(yǔ)言信息。目前,語(yǔ)音情感識(shí)別在醫(yī)療和心理咨詢(xún)、客戶(hù)服務(wù)和電信等領(lǐng)域已經(jīng)有著廣泛的應(yīng)用。在醫(yī)療領(lǐng)域,語(yǔ)音情感識(shí)別可以幫助臨床醫(yī)生在線評(píng)估患者因情緒困難而產(chǎn)生的心理障礙。在客戶(hù)呼叫中心行業(yè)中,語(yǔ)音情感識(shí)別自動(dòng)檢測(cè)客戶(hù)的滿意度,提高服務(wù)質(zhì)量。在電信領(lǐng)域,語(yǔ)音情感識(shí)別幫助調(diào)度中心優(yōu)先接入高優(yōu)先級(jí)的緊急呼叫。
近年來(lái),注意力模型引起了學(xué)術(shù)界的廣泛關(guān)注。特別是在圖像處理、語(yǔ)音識(shí)別和自然語(yǔ)言處理領(lǐng)域,注意力模型與卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)合可以更好地聚焦輸入目標(biāo),成為學(xué)術(shù)界關(guān)注的熱點(diǎn)。在語(yǔ)音情感識(shí)別中,各個(gè)幀對(duì)情感的影響并不相同,注意力模型估計(jì)每個(gè)幀的重要性,而不是簡(jiǎn)單取平均值或最大值,有利于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)更準(zhǔn)確地識(shí)別目標(biāo)情感。在訓(xùn)練過(guò)程中,學(xué)習(xí)算法往往采用交叉熵?fù)p失函數(shù)評(píng)價(jià)模型的好壞,通過(guò)減少損失函數(shù)值逐漸逼近最佳模型。然而大多數(shù)語(yǔ)音情感樣本的樣例分布并不平衡,存在多數(shù)類(lèi)樣例數(shù)大于少數(shù)類(lèi)樣例數(shù)的現(xiàn)象,訓(xùn)練得到的模型識(shí)別少數(shù)類(lèi)的能力偏低,影響模型的整體性能。因此,在不平衡樣本上訓(xùn)練模型時(shí),需要考慮不平衡問(wèn)題,防止模型向多數(shù)類(lèi)偏置。
為解決傳統(tǒng)機(jī)器學(xué)習(xí)中的不平衡問(wèn)題,學(xué)術(shù)界已經(jīng)提出了很多方法或算法,一些方法在深度學(xué)習(xí)領(lǐng)域仍然適用。比如Bagging并不與具體算法相關(guān),方便遷移到深度學(xué)習(xí)領(lǐng)域。然而,當(dāng)基于放回抽樣的Bagging應(yīng)用到深度學(xué)習(xí)時(shí),經(jīng)過(guò)有限輪學(xué)習(xí)后,基分類(lèi)器的訓(xùn)練誤差盡管接近0,重復(fù)的訓(xùn)練樣例還是帶來(lái)了過(guò)學(xué)習(xí)風(fēng)險(xiǎn),降低綜合分類(lèi)器的情感識(shí)別能力。為解決傳統(tǒng)Bagging方法的過(guò)學(xué)習(xí)問(wèn)題,本文基于機(jī)會(huì)均等原則,提出一種隨機(jī)平均分布的集成方法(Redagging)。Redagging等概率地把訓(xùn)練樣例放入子訓(xùn)練樣本,避免子訓(xùn)練樣本中的重復(fù)樣例,提高綜合分類(lèi)器的預(yù)測(cè)能力。圖1展示了在10個(gè)IEMOCAP樣本上兩種集成方法的實(shí)驗(yàn)結(jié)果,深色柱體代表Bagging基分類(lèi)器的平均UAR(Unweighted Average Recall),淺色柱體代表Redagging基分類(lèi)器的平均UAR??梢钥闯觯诖蠖鄶?shù)樣本上,Redagging基分類(lèi)器的平均UAR明顯高于Bagging基分類(lèi)器的平均UAR,因而只要保證Redagging基分類(lèi)器的異構(gòu)性,理論上Redagging綜合分類(lèi)器的性能將超越Bagging綜合分類(lèi)器的性能。
圖1 兩種集成學(xué)習(xí)方法的基分類(lèi)器比較
語(yǔ)音情感識(shí)別研究初期,大多采用傳統(tǒng)機(jī)器學(xué)習(xí)方法,語(yǔ)音信號(hào)轉(zhuǎn)化為統(tǒng)計(jì)特征后,語(yǔ)音情感識(shí)別轉(zhuǎn)化為多分類(lèi)問(wèn)題[1-2]。隨著深度學(xué)習(xí)在圖像識(shí)別方面的成功應(yīng)用,深度學(xué)習(xí)也開(kāi)始解決語(yǔ)音情感識(shí)別問(wèn)題,其中卷積循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力模型受到廣泛關(guān)注[3-4]。Lee等[5]開(kāi)始采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)抽取高層屬性,情感識(shí)別準(zhǔn)確率明顯提高。Trigeorgis等[6]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM),抽取語(yǔ)音信號(hào)代表的高層特征,進(jìn)一步提高了識(shí)別精度。Chen等[7]在前面工作的基礎(chǔ)上,提出融入關(guān)注度模型的卷積循環(huán)神經(jīng)網(wǎng)絡(luò),處理3通道的底層特征,顯著提高了卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的情感識(shí)別能力。Latif等[8]采用多種濾波器寬度的并行卷積層,直接從原始語(yǔ)音中捕獲各種上下文信息,取得了良好的實(shí)驗(yàn)效果。Kwon[9]提出深度跨步卷積神經(jīng)網(wǎng)絡(luò)(DSCNN),聚焦語(yǔ)音信號(hào)的顯著性和描述性特征,從而提高預(yù)測(cè)準(zhǔn)確率。
同時(shí),深度學(xué)習(xí)的不平衡問(wèn)題也引起研究者的重視,學(xué)者開(kāi)始重新評(píng)估以往不平衡問(wèn)題的解決方法,試圖遷移到深度學(xué)習(xí)領(lǐng)域。Hensman等[10]研究不平衡數(shù)據(jù)集對(duì)CNN神經(jīng)網(wǎng)絡(luò)的影響,指出過(guò)采樣是抵消樣本分布不平衡的可行方法。Lin等[11]在交叉熵?fù)p失函數(shù)的基礎(chǔ)上,提出焦點(diǎn)損失函數(shù)(Focal Loss),在存在大量背景樣本的情況下,顯著提高前景物體的識(shí)別精度。Etienne等[12]通過(guò)聲道長(zhǎng)度擾動(dòng)合成少數(shù)類(lèi)樣例,合成的少數(shù)類(lèi)樣例和原樣本一起訓(xùn)練模型,改善模型預(yù)測(cè)少數(shù)類(lèi)的能力。Buda等[13]比較多種不平衡問(wèn)題解決方法,分析不平衡數(shù)據(jù)集對(duì)CNN神經(jīng)網(wǎng)絡(luò)分類(lèi)的影響,認(rèn)為不平衡問(wèn)題確實(shí)存在,需要采用過(guò)采樣方法和選取合適的閾值來(lái)提高模型的預(yù)測(cè)能力。Zheng等[14]從不同角度抽取情感特征來(lái)構(gòu)建異構(gòu)基分類(lèi)器,然后使用集成學(xué)習(xí)方法執(zhí)行情感識(shí)別任務(wù)。目前,在深度學(xué)習(xí)領(lǐng)域,集成學(xué)習(xí)解決不平衡問(wèn)題的研究還很少,缺乏集成學(xué)習(xí)方法和其他不平衡學(xué)習(xí)方法的比較研究,而易于移植的集成學(xué)習(xí)方法是快速提高學(xué)習(xí)算法性能的常用途徑之一,遷移集成學(xué)習(xí)方法到深度學(xué)習(xí)領(lǐng)域具有重要的研究?jī)r(jià)值。
一般來(lái)說(shuō),集合學(xué)習(xí)方法分為三種:Bagging[15]、Boosting[16]和Stacking[17]。Bagging采用有放回抽樣構(gòu)建子訓(xùn)練樣本,每個(gè)子訓(xùn)練樣本構(gòu)建一個(gè)模型,最終的分類(lèi)結(jié)果由全部模型的投票結(jié)果決定。Boosting通過(guò)增加錯(cuò)誤分類(lèi)樣例的權(quán)重和降低正確分類(lèi)樣例的權(quán)重逐步提高模型的分類(lèi)能力,是一種串行集成方法。Stacking先訓(xùn)練多種類(lèi)型的基分類(lèi)器,然后把多個(gè)基分類(lèi)器的輸出作為輸入傳輸?shù)皆诸?lèi)器,最后由元分類(lèi)器判定分類(lèi)結(jié)果。Boosting是通過(guò)降低訓(xùn)練誤差而提高泛化誤差,而深度學(xué)習(xí)算法經(jīng)過(guò)有限輪后訓(xùn)練誤差逼近0,因而B(niǎo)oosting并不適用深度學(xué)習(xí)任務(wù)。Stacking構(gòu)造多種類(lèi)型的基分類(lèi)器,不適用提升單種模型的預(yù)測(cè)能力。Bagging通過(guò)抽樣樣本構(gòu)建異構(gòu)的基分類(lèi)器,與具體學(xué)習(xí)算法分離,并且基分類(lèi)器構(gòu)建過(guò)程并行進(jìn)行,具有良好的移植性和擴(kuò)展性。本文提出的Redagging方法仍然具備Bagging的優(yōu)點(diǎn),與Bagging相比,Redagging有2個(gè)不同點(diǎn):(1) 訓(xùn)練樣例在一個(gè)子訓(xùn)練樣本中很少重復(fù)出現(xiàn);(2) 訓(xùn)練樣例平均分布到子訓(xùn)練樣本。
mi=log(qi)
(1)
(2)
(3)
輸入x后,首先卷積層(CNN)捕捉低層特征,接下來(lái)的BiLSTM層包含2個(gè)LSTM單元,分別順序和逆序提取高層特征,接著進(jìn)入全連接層后,輸出向量p=(p1,p2,…,pT)。任意t∈{1,2,…,T},pt代表情感et的概率,最后標(biāo)簽y判定為T(mén)個(gè)情感中pt取得最大值的情感。卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)結(jié)構(gòu)如圖2所示,其中通道數(shù)c為1或3。
圖2 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)
CRNN的BiLSTM層簡(jiǎn)單地認(rèn)為每個(gè)幀對(duì)目標(biāo)情感的貢獻(xiàn)度相同,但研究證明各個(gè)幀對(duì)目標(biāo)情感的貢獻(xiàn)度并不一致[4],而圖2的網(wǎng)絡(luò)結(jié)構(gòu)并沒(méi)有考慮由此帶來(lái)的影響,下面給出一種融入注意力模型的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型ARCNN以解決這一問(wèn)題。
(4)
式中:W表示可訓(xùn)練的網(wǎng)絡(luò)參數(shù)。
(5)
ARCNN整體設(shè)計(jì)如圖3所示。
圖3 注意力卷積循環(huán)神經(jīng)網(wǎng)絡(luò)
基于圖3定義的網(wǎng)絡(luò)結(jié)構(gòu),ARCNN各層的參數(shù)設(shè)置如表1所示。每個(gè)全卷積層都跟著一個(gè)Max池化層,最后一個(gè)池化層輸出大小為300×5×512,經(jīng)過(guò)全連接層后,轉(zhuǎn)化為768維的序列,再經(jīng)過(guò)BiLSTM層后,向量大小變成300×256。接下來(lái)的全連接層轉(zhuǎn)換到300×1向量,然后采用式(4)和式(5)計(jì)算語(yǔ)句情感特征,再經(jīng)過(guò)全連接層和Softmax激活函數(shù)后,輸出概率最大的分量下標(biāo)y。
表1 ARCNN架構(gòu)
需要說(shuō)明的是,每個(gè)池化層、第1個(gè)全連接層和第3個(gè)全連接層都跟著B(niǎo)atchNormalization層[18]和LeakyLeRU[19]激活層。因?yàn)锽atchNormalization層和LeakyLeRU激活層不改變向量維度,為節(jié)省空間沒(méi)有在表1中列出。后面的實(shí)驗(yàn)把ARCNN作為基準(zhǔn)方法或基分類(lèi)器。
給定一個(gè)訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)},xi∈X,yi∈Y,X代表樣例空間,Y={0,1,…,T-1}。按照yi值進(jìn)行劃分,得到T個(gè)訓(xùn)練子集{D1,D2,…,DT},任意t∈{1,2,…,T},Dt中的元素yi值相同。為討論方便,假設(shè)|D1|<|D2|<…<|DT|,|Dt|代表Dt的大小。
算法1Bagging
輸出:H(x)=argmax(p)
%argmax取p最大分量的下標(biāo)
fork=1,2,…,K
fort=1,2,…,T
end for
end for
p=(h1(x)+h2(x)+…+hK(x))/K
%取平均值
證明:事件A0:x不出現(xiàn),那么:
事件A1:x出現(xiàn)1次,那么:
因?yàn)镻(A)=1-P(A0)-P(A1)=
已知d→+∞,dt≈d,因此:
為了避免自舉樣本重復(fù)樣例帶來(lái)的過(guò)學(xué)習(xí)問(wèn)題,需要減少重復(fù)樣例。另外,基分類(lèi)器的異構(gòu)性同樣重要,同構(gòu)的基分類(lèi)器也不能提高模型的識(shí)別能力。
Redagging基于標(biāo)簽t的訓(xùn)練子集Dt,隨機(jī)生成不少于K|D1|個(gè)樣例的樣本池Dt*,然后把Dt*按照順序分配到每個(gè)自舉樣本Dk。因?yàn)樾路椒ò衙總€(gè)樣例隨機(jī)平均分布到自舉樣本,所以命名為隨機(jī)平均分布集成方法(Redagging)。其中:K代表自舉樣本數(shù),|D1|代表訓(xùn)練集中少數(shù)類(lèi)樣例數(shù);|DT|代表多數(shù)類(lèi)樣例數(shù)。Redagging的偽代碼實(shí)現(xiàn)如算法2所示,其中偽隨機(jī)數(shù)采用NumPy[20]提供的梅森旋轉(zhuǎn)算法[21]接口生成。
算法2Redagging
輸出:H(x)=argmax(p)
%argmax取p最大分量的下標(biāo)
fort=1,2,…,T
fori=1,2,…,I
r=產(chǎn)生一個(gè)偽隨機(jī)數(shù);
Dt,i=基于r生成Dt的隨機(jī)排列;
end for
Dt*=Dt,1∪Dt,2∪…∪Dt,I;
%Dt*為標(biāo)簽t生成至少K|D1|個(gè)樣例
end for
fork=1,2,…,K
fort=1,2,…,T
%[]取Dt*中第k段t標(biāo)簽樣本
end for
end for
p=(h1(x)+h2(x)+…+hK(x))/K
%取平均值
與Bagging相比,Redagging在所有自舉樣本上平均分布樣例,重復(fù)樣例很低,自舉樣本由于隨機(jī)數(shù)種子不同,仍然保持樣本間的差異性。在10個(gè)IEMOCAP[22]數(shù)據(jù)集上比較Bagging和Redagging,實(shí)驗(yàn)結(jié)果如圖4所示。可以看出,Redagging基分類(lèi)器的平均UAR高于Bagging基分類(lèi)器的平均UAR,表明自舉樣本的重復(fù)樣例造成性能下降;并且,Redagging的UAR也高于基分類(lèi)器的平均UAR,反映了基分類(lèi)器的異構(gòu)性。
圖4 兩種方法在10個(gè)IEMOCAP數(shù)據(jù)集上的UAR比較
實(shí)驗(yàn)運(yùn)行在H3C G4900服務(wù)器上,服務(wù)器配置Tesla V100獨(dú)立32 GB GPU顯卡,安裝Python 3.7.0、CUDA 10.01加速平臺(tái)和cuDNN 7.4.2.24深度學(xué)習(xí)加速平臺(tái)。
語(yǔ)音信號(hào)通過(guò)python_speech_features庫(kù)[23]轉(zhuǎn)換語(yǔ)音信號(hào)到輸入向量,窗口大小等于25 ms,位移等于10 ms,采用NumPy[20]數(shù)組存儲(chǔ)向量和執(zhí)行矩陣運(yùn)算。為區(qū)別通道數(shù)c=1或c=3兩種情況,命名ARCNN有兩個(gè)別名:通道數(shù)c=1時(shí),ARCNN命名為ARCNN-2D;輸入通道數(shù)c=3時(shí),ARCNN命名為ARCNN-3D。ARCNN各層調(diào)用Keras[24]函數(shù)實(shí)現(xiàn),采用categorical_crossentropy損失函數(shù)[25]評(píng)價(jià)模型,選擇Adam優(yōu)化器[26],學(xué)習(xí)率設(shè)為10-3。
在IEMOCAP和EMODB[27]數(shù)據(jù)集上,ARCNN-2D和ARCNN-3D作為基準(zhǔn)方法,與過(guò)采樣、Bagging、欠采樣、Redagging作比較。過(guò)采樣隨機(jī)復(fù)制訓(xùn)練集中的少數(shù)類(lèi)樣例,直到所有標(biāo)簽的樣例數(shù)相同。欠采樣隨機(jī)去除訓(xùn)練集中的多數(shù)類(lèi)樣例,直到所有標(biāo)簽的樣例數(shù)相同。Bagging參照算法1,ARCNN-2D和ARCNN-3D作為基分類(lèi)器。Redagging參照算法2,ARCNN-2D和ARCNN-3D作為基分類(lèi)器??紤]到初始化權(quán)重的隨機(jī)性,每個(gè)實(shí)驗(yàn)任務(wù)運(yùn)行5次,取5次運(yùn)行結(jié)果的平均值作為實(shí)驗(yàn)結(jié)果。
IEMOCAP由五個(gè)會(huì)話組成,每個(gè)會(huì)話由一對(duì)發(fā)言者(女性和男性)在背誦臺(tái)詞和即興表演情景中完成。樣例平均時(shí)長(zhǎng)為4.5 s,采樣率為16 kHz,實(shí)驗(yàn)在高興、憤怒、悲傷和中性四種情感樣本上運(yùn)行。每個(gè)任務(wù)使用10-fold交叉驗(yàn)證技術(shù),每個(gè)樣本中的1個(gè)說(shuō)話人構(gòu)成測(cè)試集,另外1個(gè)說(shuō)話人構(gòu)成驗(yàn)證集,其余8個(gè)說(shuō)話人構(gòu)成訓(xùn)練集,10個(gè)樣本的訓(xùn)練集描述如表2所示,驗(yàn)證集和測(cè)試集的不平衡比與訓(xùn)練集的不平衡比接近。實(shí)驗(yàn)中Bagging和Redagging的K值設(shè)為5,當(dāng)K>5,兩種方法的性能沒(méi)有顯著提升。
表2 IEMOCAP訓(xùn)練集描述
在10個(gè)IEMOCAP樣本上測(cè)試ARCNN和4種不平衡方法,每個(gè)訓(xùn)練集上循環(huán)10代取得最高UAR的模型,保存在驗(yàn)證集上,五種方法在測(cè)試集上的平均UAR如表3所示??梢钥闯?,在五種方法中,Redagging表現(xiàn)最好,欠采樣和過(guò)采樣次之,采用ARCNN-3D作為基分類(lèi)器的Bagging方法優(yōu)于未采樣的ARCNN-3D,但采用ARCNN-2D作為基分類(lèi)器的Bagging方法和未采樣的ARCNN-2D保持在一個(gè)水平。為了進(jìn)一步比較五種方法的整體表現(xiàn),進(jìn)一步統(tǒng)計(jì)每個(gè)方法在10個(gè)樣本上的平均排名,統(tǒng)計(jì)結(jié)果如圖5所示??梢钥闯?,當(dāng)ARCNN-2D作為基準(zhǔn)方法時(shí),采用ARCNN-2D作為基分類(lèi)器的Redagging平均排名最靠前,欠采樣次之,緊跟著是過(guò)采樣和采用ARCNN-2D基分類(lèi)器的Bagging方法,平均排名最低的是未采樣的ARCNN-2D;當(dāng)ARCNN-3D作為基準(zhǔn)方法時(shí),采用ARCNN-3D作為基分類(lèi)器的Redagging平均排名仍然最靠前,欠采樣次之,過(guò)采樣和采用ARCNN-3D基分類(lèi)器的Bagging方法并不比未采樣的ARCNN-3D排名靠前。
表3 五種方法在10個(gè)IEMOCAP樣本上的平均UAR
圖5 五種方法在10個(gè)IEMOCAP樣本上的召回率平均排名
F1值是召回率和精度的加權(quán)平均,當(dāng)評(píng)價(jià)不平衡學(xué)習(xí)方法時(shí),F(xiàn)1值是一個(gè)重要指標(biāo)。當(dāng)算法在10代內(nèi)取得最大召回率時(shí),對(duì)應(yīng)的平均F1值如表4所示??梢钥闯?,在五種方法中,Redagging表現(xiàn)最好,欠采樣次之,過(guò)采樣和Bagging并沒(méi)有顯著提高未采樣的ARCNN性能。為了進(jìn)一步比較方法在不同樣本的表現(xiàn),統(tǒng)計(jì)每個(gè)方法在10個(gè)樣本上的F1值平均排名,統(tǒng)計(jì)結(jié)果如圖6所示??梢钥闯?,在五種方法中,Redagging平均排名最靠前,欠采樣緊隨其后,過(guò)采樣和Bagging平均排名墊底。需要指出的是,盡管采用ARCNN-2D基分類(lèi)器的欠采樣方法提升了ARCNN-2D性能,但由于欠采樣是隨機(jī)去除訓(xùn)練樣例訓(xùn)練單個(gè)分類(lèi)器,性能容易波動(dòng)。在表4中,基于ARCNN-2D的欠采樣方法比基準(zhǔn)方法的平均F1值高,而在圖6中,它的F1值平均排名比基準(zhǔn)方法靠后,正反映了欠采樣方法的不穩(wěn)定性。
表4 五種方法在10個(gè)IEMOCAP樣本上的平均F1值
圖6 五種方法在10個(gè)IEMOCAP樣本的F1值平均排名
在表3和表4中,ARCNN-3D性能并沒(méi)有超越ARCNN-2D,原因可能是ARCNN-3D輸入有更多的通道,需要采用更多的卷積層。這種超出了本文的討論范圍,并且性能更好的分類(lèi)器也會(huì)帶來(lái)不平衡方法的性能提升,不會(huì)影響上面的分析結(jié)果
Emo-DB由10位專(zhuān)業(yè)演員的535句話組成,涵蓋7種情緒(中立、恐懼、喜悅、憤怒、悲傷、厭惡和無(wú)聊),原始音頻在44.1 kHz采樣,后來(lái)下采樣到16 kHz。盡管大多數(shù)論文采用了全部7種情感,但事實(shí)上焦慮和厭惡兩種情感在某些驗(yàn)證集上樣例數(shù)小于3個(gè),而每次實(shí)驗(yàn)是在25代中找到UAR最高的模型,采用這兩種情感樣本易于造成實(shí)驗(yàn)數(shù)據(jù)波動(dòng),因此在本實(shí)驗(yàn)中只采用了憤怒、無(wú)聊、高興、悲傷和中性五種情感樣本。實(shí)驗(yàn)使用10-fold交叉驗(yàn)證技術(shù)。每個(gè)樣本中的1個(gè)說(shuō)話人構(gòu)成測(cè)試集,另外1個(gè)說(shuō)話人構(gòu)成驗(yàn)證集,剩下的8個(gè)說(shuō)話人構(gòu)成訓(xùn)練集,10個(gè)樣本的訓(xùn)練集描述如表5所示,驗(yàn)證集和測(cè)試集的不平衡比與訓(xùn)練集的不平衡比接近。實(shí)驗(yàn)中Bagging和Redagging的K值設(shè)為4,當(dāng)K>4,兩種方法的性能沒(méi)有顯著提升。
表5 EMODB訓(xùn)練集描述
在10個(gè)EMODB樣本上測(cè)試ARCNN和4種不平衡方法,每個(gè)訓(xùn)練集上循環(huán)25代,取得最高UAR的模型保存在驗(yàn)證集上,五種方法在測(cè)試集上平均UAR如表6所示??梢钥闯?,在五種方法中,Redagging表現(xiàn)最好,過(guò)采樣次之,然后是Bagging,欠采樣并沒(méi)有提升ARCNN性能。為了進(jìn)一步比較5種方法的整體表現(xiàn),進(jìn)一步統(tǒng)計(jì)每個(gè)方法在10個(gè)樣本上的UAR平均排名,統(tǒng)計(jì)結(jié)果如圖7所示。
表6 五種方法在10個(gè)EMODB樣本上的平均UAR
圖7 五種方法在10個(gè)EMODB樣本上的UAR平均排名
可以看出,當(dāng)ARCNN-2D作為基準(zhǔn)方法時(shí),采用ARCNN-2D作為基分類(lèi)器的Redagging平均排名最靠前,過(guò)采樣次之,緊跟著是采用ARCNN-2D基分類(lèi)器的Bagging方法,欠采樣平均排名跟在ARCNN-2D之后;當(dāng)ARCNN-3D作為基準(zhǔn)方法時(shí),采用ARCNN-3D作為基分類(lèi)器的Redagging平均排名仍然最靠前,過(guò)采樣次之,采用ARCNN-3D作為基分類(lèi)器的Bagging方法緊隨其后,然后是欠采樣,未采樣的ARCNN-3D平均排名最低。
當(dāng)算法在25代內(nèi)取得最大UAR時(shí),對(duì)應(yīng)的平均F1值如表7所示。可以看出,與未采樣的ARCNN相比,不平衡學(xué)習(xí)方法都提高了平均F1值,其中Redagging提高最顯著。為了進(jìn)一步比較方法在不同樣本的表現(xiàn),進(jìn)一步統(tǒng)計(jì)每個(gè)方法在10個(gè)樣本上的平均排名,統(tǒng)計(jì)結(jié)果如圖8所示。可以看出,在五種方法中,Redagging平均排名最靠前,其他不平衡學(xué)習(xí)方法的平均排名也高于未采樣的ARCNN。
表7 五種方法在10個(gè)EMODB樣本上的平均F1值
圖8 五種方法在10個(gè)EMODB樣本的F1值平均排名
如果采用更多的卷積層,ARCNN-3D可能優(yōu)于ARCNN-2D,但這個(gè)差異不影響Redagging的優(yōu)越性,因?yàn)樾阅芨玫幕诸?lèi)器也會(huì)進(jìn)一步提升Redagging性能。整體而言,在IEMOCAP和EMODB兩個(gè)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,從UAR和F1值兩個(gè)指標(biāo)來(lái)看,Redagging不僅優(yōu)于Bagging,也優(yōu)于重采樣和欠采樣方法,有效提高了ARCNN的情感識(shí)別能力。
本文基于卷積循環(huán)網(wǎng)絡(luò)和注意力模型,提出基于隨機(jī)平均分布的集成學(xué)習(xí)方法(Redagging),解決了Bagging方法的過(guò)學(xué)習(xí)問(wèn)題,提升了ARCNN的分類(lèi)性能。在IEMOCAP和EMODB數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果表明,與包括Bagging在內(nèi)的其他不平衡學(xué)習(xí)方法相比,不管單通道輸入向量還是3通道輸入向量,Redagging都能提升卷積循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力模型的情感識(shí)別能力,驗(yàn)證了本文方法的有效性。
Redagging是Bagging方法的改進(jìn)版本,獨(dú)立于具體學(xué)習(xí)算法,適用于在不平衡數(shù)據(jù)集上提升基分類(lèi)器(比如深度神經(jīng)網(wǎng)絡(luò)模型)的泛化能力。事實(shí)上,在機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用場(chǎng)景下,只要存在不平衡數(shù)據(jù)集帶來(lái)的模型偏置問(wèn)題,Redagging都可能有所幫助。本文以語(yǔ)音情感識(shí)別任務(wù)為例,證實(shí)了Redagging方法的合理性和有效性,未來(lái)將推廣到圖像識(shí)別領(lǐng)域,研究解決背景檢測(cè)、異常行為檢測(cè)和人臉屬性識(shí)別等任務(wù)的不平衡問(wèn)題。