徐華南,周曉彥,姜 萬,李大鵬
(南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇南京 210044)
情感識(shí)別是情感計(jì)算的重要組成部分,目的讓計(jì)算機(jī)模擬與識(shí)別人類的情感感知和理解過程,而語音情感作為諸多情感中的最直接的部分,是實(shí)現(xiàn)自然人機(jī)交互中的重要前提[1-2]。近年來關(guān)于語音情感識(shí)別的研究,取得了一些令人矚目的成績(jī),但由于情感表達(dá)的復(fù)雜性(比如說話者年齡、性別以及說話者所處的文化和環(huán)境背景),語音情感識(shí)別仍然面臨諸多挑戰(zhàn)[3-4]。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,大量文獻(xiàn)表明深度神經(jīng)網(wǎng)絡(luò)比如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)等在語音情感識(shí)別中能提取更有價(jià)值的信息[5-9]。Lim等[5]主要用短時(shí)傅里葉變換將語音信號(hào)轉(zhuǎn)換為二維信息,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)作為聲學(xué)模型,在EMO-DB數(shù)據(jù)庫上的準(zhǔn)確率分別為86.06%和78.31%,Basu等[6]利用13階梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)作為輸入,依次輸入到卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)中,得到了將近80%的識(shí)別率。文獻(xiàn)[5-6]只考慮MFCC、基頻等個(gè)性化特征,忽略了非個(gè)性化特征的影響,并且人與人之間差異較大,攜帶了大量個(gè)人情感信息,不具有通性。Zhao等[7]利用1D 卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)(CNN-LTSM)中和2D CNN-LTSM 中進(jìn)行語音情感識(shí)別,發(fā)現(xiàn)2D CNN-LTSM 比 1D CNN-LTSM 的識(shí)別率高,Chen等[8]提出基于3D 卷積-循環(huán)神經(jīng)網(wǎng)絡(luò) (Convolutional Recurrent Neural Network, CRNN)的語音情感識(shí)別的方法,并通過實(shí)驗(yàn)證明,3D 卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)的識(shí)別率要比2D 卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)高。文獻(xiàn)[7-8]可以看出3D網(wǎng)絡(luò)能捕獲更豐富的情感特征信息,但僅提取單一特征未能完全表達(dá)情感表征,Luo等[9]提出HSF-CRNN (High Level Statistics Functions-CRNN, HSF-CRNN)框架,將手工特征和深度學(xué)習(xí)特征級(jí)聯(lián)輸入到softmax后進(jìn)行情感分類,識(shí)別率比單層卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)和多層卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)分別提高了3.8個(gè)百分點(diǎn)和7.6個(gè)百分點(diǎn)。但文獻(xiàn)[7-9]都沒有考慮到對(duì)關(guān)鍵的時(shí)空依賴關(guān)系進(jìn)行建模。于是本文為消除個(gè)性化特征的影響和降低說話者年齡、性別以及說話者所處的文化和環(huán)境背景的影響,計(jì)算語音信號(hào)的對(duì)數(shù)梅爾特征(Log-Mel)和其一階差分和二階差分特征,合并成3D Log-Mel特征集,在文獻(xiàn)[9]啟發(fā)下提出利用雙通道網(wǎng)絡(luò)級(jí)聯(lián)特征,其中一條通道采用3D 卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò),并提出對(duì)稱型雙線性卷積神經(jīng)網(wǎng)絡(luò)(Bilinear Convolutional Neural Network, BCNN)模型方案,以平移不變的方式,對(duì)局部特征交互進(jìn)行建模,利用BCNN提取空間特征,LSTM-attention提取判別性強(qiáng)的時(shí)間特征后融合得到時(shí)空特征,輸入到原始的支持向量機(jī)(Support Vector Machines,SVM)分類器中分類,同時(shí)另外一條通道采用1D 卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò),最后將3D特征和1D特征融合到一起,增加每一個(gè)特征的信息量,提高分類精度。
提出的語音情感識(shí)別系統(tǒng)總體框架如圖1所示。在3D部分,首先對(duì)輸入的語音進(jìn)行分幀、加窗等預(yù)處理操作得到梅爾頻率倒譜系數(shù)并計(jì)算進(jìn)而其一階差分、二階差分,得到3D Log-Mel特征集,隨后輸入到雙線性卷積神經(jīng)網(wǎng)絡(luò)中提取頻域特征和短時(shí)域特征,由于網(wǎng)絡(luò)共享機(jī)制,在BCNN的分流的輸出再輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)中,提取長(zhǎng)時(shí)域特征,隨后輸入到attention模塊中得到顯著的特征表示,最后連接BCNN的外積輸出和attention輸出得到3D特征。在1D部分,首先對(duì)輸入的語音進(jìn)行分幀、加窗等預(yù)處理操作后得到等長(zhǎng)度的語音數(shù)據(jù),隨后輸入到一維卷積神經(jīng)網(wǎng)絡(luò)中提取頻域特征和短時(shí)域特征,再輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)中得到1D特征。將3D特征和1D特征進(jìn)行融合后,選擇出判別性強(qiáng)的情感特征輸入到全連接層中,利用softmax進(jìn)行語音情感分類。圖1中c為CNN網(wǎng)絡(luò)最后一層卷積層的通道數(shù),M、N為處理后的特征維度,A表示經(jīng)過CNN網(wǎng)絡(luò)處理后的特征矩陣。
圖1 語音情感識(shí)別系統(tǒng)總體框架Fig.1 General framework of speech emotion recognition system
為降低說話者年齡、性別以及說話者所處的文化和環(huán)境背景的影響,本文對(duì)給出的語音信號(hào)進(jìn)行如下操作:
(1) 將語音信號(hào)通過高通濾波器進(jìn)行預(yù)加重處理,高通濾波器表示為
其中,μ的取值范圍為0.9~1,通常取0.97。
(2) 對(duì)預(yù)加重的信號(hào)進(jìn)行零均值和單位方差處理;
(3) 對(duì)得到的語音信號(hào)進(jìn)行分幀處理,漢明窗加窗,幀長(zhǎng)為25 ms,幀移為10 ms;
(4) 對(duì)每一幀進(jìn)行離散傅里葉(Discrete Fourier Transform, DFT)變換后得到各幀的頻譜,并對(duì)頻譜取模平方得到對(duì)應(yīng)的功率譜,將時(shí)域信號(hào)轉(zhuǎn)換為頻域上的能量分布;
(5) 將功率譜輸入到梅爾濾波器組中得到能量值,對(duì)于第i個(gè)濾波器(0<i≤4 0),能量為pi,對(duì)pi進(jìn)行對(duì)數(shù)變換后得到倒譜梅爾頻率yi=lg(pi);
其中:v=2,經(jīng)過式(2)~(3)得到3D的特征表示H∈Rt×f×k,t表示時(shí)間長(zhǎng)度,f表示梅爾濾波器的個(gè)數(shù),k表示特征的通道數(shù),分別為靜態(tài)特征、一階差分和二階差分特征,靜態(tài)特征結(jié)合前兩階動(dòng)態(tài)信息足夠提高語音情感識(shí)別的性能。這里,t=300,f=40,k=3。
BCNN模型是一個(gè)端對(duì)端的訓(xùn)練過程,具有優(yōu)異的泛化能力,可以產(chǎn)生不同的無序的文字描述,如費(fèi)希爾向量(Fisher vector)、局部特征聚合描述符(Vector of Locally Aggregated Descriptors, VLAD)和二階池化(Second-order Pooling, O2P)等,不僅在細(xì)粒度圖像分類上取得了優(yōu)異效果,還被用于其他分類任務(wù),如圖像識(shí)別、語音情感識(shí)別等[10]。在語音情感識(shí)別領(lǐng)域中,對(duì)于前面提到的3D Log-MEL 特征和一階、二階差分特征,通過雙通道CNN網(wǎng)絡(luò)后,會(huì)得到雙路情感特征表示,傳統(tǒng)上對(duì)于不同的情感特征的融合,常用的方法是進(jìn)行串聯(lián)、求和或者最大池化等一階池化方法,假設(shè)利用平均二階池化情感特征矩陣進(jìn)行池化改進(jìn),對(duì)特征圖M0中相同位置的情感特征向量與自身的轉(zhuǎn)置求外積從而直接得到兩兩特征維度之間的相關(guān)性:
其中:X=[x1x2…xM]是以空間位置F=[f1f2…fM]為中心點(diǎn)的局部特征向量;M為局部特征的個(gè)數(shù)。而雙線性匯合計(jì)算兩路情感特征的外積,并對(duì)不同空間位置計(jì)算平均匯合得到雙線性特征,外積捕獲了特征通道之間成對(duì)的相關(guān)關(guān)系,提供了比線性模型更強(qiáng)的特征表示。為了簡(jiǎn)化計(jì)算,這里BCNN的前半部分使用相同的CNN模型,成為對(duì)稱的BCNN,因此只需要訓(xùn)練一個(gè)CNN模型即可。BCNN模型的表達(dá)形式為
其中:FA為雙線性卷積神經(jīng)網(wǎng)絡(luò)兩個(gè)分流的特征提取函數(shù);P是池化函數(shù);Q是分類函數(shù)。特征提取函數(shù)可看成一個(gè)函數(shù)映射:f:L×I→Rc×D,3D Log-MEL特征數(shù)據(jù)經(jīng)過卷積操作后,再進(jìn)行最大池化操作,有效減少了網(wǎng)絡(luò)的參數(shù)個(gè)數(shù),并保存了有用的情感特征,因此將輸入語音I與位置區(qū)域L映射為一個(gè)c×D維的情感特征向量。特征向量在L位置處使用矩陣外積進(jìn)行特征組合,選擇出判別性強(qiáng)的情感特征,即雙線性(bilinear)特征:
由式(4)、(6)可知,兩者是等價(jià)的。因此二階池化(對(duì)稱型BCNN)中的外積運(yùn)算將特征圖相同位置的輸出拼接作為局部特征,然后對(duì)這個(gè)局部特征進(jìn)行外積運(yùn)算,將這些結(jié)果矩陣轉(zhuǎn)化為特征圖。這里bilinear特征為c×c的雙線性特征,其中c為CNN模型的通道數(shù),利用池化函數(shù)P將所有位置的bilinear特征進(jìn)行累加匯聚成一個(gè)雙線性特征xbcnn,函數(shù)表達(dá)式為
為了解決梯度消失和梯度爆炸問題,LSTM模型在循環(huán)神經(jīng)網(wǎng)絡(luò)RNN中對(duì)循環(huán)層進(jìn)行改進(jìn),是一種特殊的時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)[8],適合處理和預(yù)測(cè)時(shí)間序列。LSTM網(wǎng)絡(luò)使用輸入門、遺忘門和輸出門來控制記憶過程。語音信號(hào)是時(shí)間序列信號(hào),且序列之間的信息是相互關(guān)聯(lián)的,本文選用BLSTM網(wǎng)絡(luò)對(duì)每一個(gè)訓(xùn)練序列分別應(yīng)用一個(gè)向前和向后的LSTM網(wǎng)絡(luò),使網(wǎng)絡(luò)充分學(xué)習(xí)到序列的上下文信息。這里,BLSTM層的單元大小設(shè)置為128。
在語音情感識(shí)別中,不僅要關(guān)注具有情感信息的語音幀,也要考慮到每個(gè)情感語音幀的重要程度。因此對(duì)于LSTM輸出的情感特征,本文并沒有對(duì)其執(zhí)行平均或最大池化等操作,而是利用attention機(jī)制去尋找顯著的話語情感表征特征。在語音情感分類問題上,attention機(jī)制已被大量使用在序列對(duì)序列的任務(wù)中[11]。每一步只關(guān)注特定的小區(qū)域,抽取區(qū)域表征信息,再整合到之前步驟所積累的信息中。attention的任務(wù)是對(duì)于LSTM網(wǎng)絡(luò)得到隱層輸出序列oi,在每個(gè)時(shí)間步,模型會(huì)根據(jù)上一時(shí)刻的隱層輸出與情感編碼序列進(jìn)行逐一比較得到一個(gè)對(duì)齊權(quán)重,然后按照權(quán)重大小將編碼序列中的每個(gè)編碼向量加權(quán)求和得到最終的attention數(shù)值,即當(dāng)前的情感語音向量。經(jīng)過T次時(shí)間步后,模型會(huì)輸出語音數(shù)據(jù)庫中各類情感的判別概率。其中attention層的注意力權(quán)重為
其中,f(oi)是評(píng)價(jià)函數(shù),表達(dá)式為f(oi)=WT·oi,W為訓(xùn)練參數(shù)。對(duì)attention層權(quán)重求和得到最后的特征向量為
通過交替迭代訓(xùn)練,attention機(jī)制更聚焦目標(biāo)上細(xì)微的有區(qū)分性的部分,提取出判別性強(qiáng)的特征表征。
為增加特征向量的信息,對(duì)給定的語音進(jìn)行1D CNN和LSTM操作[10]。首先將語音按照300幀劃分成等長(zhǎng)度的語音片段,對(duì)于不足300幀的語音用補(bǔ)0的方式填充,處理后的數(shù)據(jù)格式為片段個(gè)數(shù)與維度信息,將處理好的數(shù)據(jù)輸入到CNN和LSTM網(wǎng)絡(luò)中提取特征。本文選用四層卷積層、四層池化層和一層雙向LSTM層,第一層卷積層有64個(gè)輸出通道,第二層卷積層輸出通道有128個(gè),其他卷積層的輸出通道為256,卷積核的大小為5,池化層大小為2,步長(zhǎng)為2。LSTM層的輸出單元大小設(shè)為128。
為了驗(yàn)證多特征融合模型的有效性,本文選用IEMOCAP和EMO-DB情感數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn)。IEMOCAP是由南加州大學(xué)Sail實(shí)驗(yàn)室錄制的英語數(shù)據(jù)庫,由10名專業(yè)演員(5男5女)表演組成[12]。數(shù)據(jù)庫包括5節(jié)(session),分別為session1、session2、session3、session4、session5,每一節(jié)分為即興表演和劇本表演,由1男1女表演得到,即每一節(jié)包含兩位說話者。本文選擇即興表演部分,采用中性、高興、生氣、悲傷四種情感,分別有1 099,284,289和608條語音。EMO-DB數(shù)據(jù)庫是由柏林工業(yè)大學(xué)錄制的德語情感語音庫,共535條語音[13],由10名專業(yè)的演員(5男5女,數(shù)據(jù)標(biāo)注分別為03、08、09、10、11、12、13、14、15、16)分別對(duì)7類情感(中性、高興、生氣、悲傷、厭惡、無聊和恐懼)表演得到,采樣率為16 kHz。
給定的語音在3D模塊中對(duì)Log-MEL特征按照300幀分段,不足300幀的通過補(bǔ)0填充;在1D模塊中,將語音劃分為等長(zhǎng)度的片段。本文基于Tensorflow平臺(tái)來實(shí)現(xiàn)1D和3D多特征融合網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)中,迭代次數(shù)(epoch)為500,單次訓(xùn)練用的樣本數(shù)(batch_size)為40,學(xué)習(xí)率(learning_rate)為10-4,動(dòng)量(momentum)為0.99,權(quán)重衰減(decay_rate)為0.99,丟棄率(dropout)為0.1。
本文采用非加權(quán)平均召回率(Unweighted Average Recall, UAR)作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)協(xié)議為“l(fā)eave one subject out”[14-15],將數(shù)據(jù)庫中的8位說話者作為訓(xùn)練集,一位作為驗(yàn)證集,剩下一位為測(cè)試集,為了使實(shí)驗(yàn)數(shù)據(jù)不具有偶然性,對(duì)每一人實(shí)驗(yàn)5次,求出均值與標(biāo)準(zhǔn)差,最后將10個(gè)人的數(shù)據(jù)求均值得到最后結(jié)果。為了驗(yàn)證本文提出的1D和3D融合算法的有效性,本文將本算法和其他方案進(jìn)行了對(duì)比:
(1) CNN-LSTM[16]:對(duì)已經(jīng)提取的特征進(jìn)行歸一化后,輸入到局部卷積CNN層、全局卷積CNN層、LSTM層,然后通過反饋層進(jìn)行情感分類。
(2) DCNN_DTPM[17]:先提取三個(gè)通道的梅爾頻譜圖作為深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks, DCNN)輸入,然后使用預(yù)先訓(xùn)練的DCNN模型來學(xué)習(xí)每個(gè)片段的高級(jí)特征表示。利用判別時(shí)間金字塔匹配(Discriminant Temporal Pyramid Matching, DTPM)策略對(duì)學(xué)習(xí)到的分段級(jí)特征進(jìn)行聚類。
(3) ML ELM_AE[18]:用openEAR工具提取特征[19],通過訓(xùn)練ML_ELM_AE層(Multi-Layer Extreme Learning Machines based Auto-Encoder, ML ELM_AE)的級(jí)聯(lián)來學(xué)習(xí)參數(shù)的多層神經(jīng)網(wǎng)絡(luò),權(quán)衡系數(shù)為100。
本文對(duì)提出的1D和3D多特征融合算法進(jìn)行驗(yàn)證,每人實(shí)驗(yàn)5次,求出均值與標(biāo)準(zhǔn)差,然后將10個(gè)人的數(shù)據(jù)求均值。表1為IEMOCAP數(shù)據(jù)庫中每個(gè)人的識(shí)別率(以session1,2,3,4為例,將數(shù)據(jù)session1,session2,session3,session4作為訓(xùn)練集,session5中的女性數(shù)據(jù)作為驗(yàn)證集,男性數(shù)據(jù)作為測(cè)試集時(shí),平均識(shí)別率為55.44%,若session5中的女性數(shù)據(jù)作為測(cè)試集時(shí),平均識(shí)別率為60.08%)。表2為EMO-DB數(shù)據(jù)庫中每個(gè)人的識(shí)別率(以驗(yàn)證集為08、測(cè)試集為03為例,將08說話者作為驗(yàn)證集,03說話者為測(cè)試集,其他為訓(xùn)練集,平均識(shí)別率為87.02%),圖2為IEMOCAP和EMO-DB數(shù)據(jù)庫的混淆矩陣。
圖2 IEMOCAP數(shù)據(jù)庫和EMO-DB數(shù)據(jù)庫的混淆矩陣Fig.2 The confusion matrices of IEMOCAP database(left)and EMO-DB database(right)
表1 IEMOCAP數(shù)據(jù)庫中不同人的識(shí)別率Table 1 The recognition rates of different speakers in IEMOCAP database
表2 EMO-DB數(shù)據(jù)庫中不同人的識(shí)別率Table 2 The recognition rates of different speakers in EMO-DB database
由實(shí)驗(yàn)結(jié)果可知,首先,在IEMOCAP數(shù)據(jù)庫上,由于數(shù)據(jù)集不平衡,會(huì)導(dǎo)致識(shí)別率相差很大,在將session1,session3,session4,session5作為訓(xùn)練集,session2中的男性作為測(cè)試集、女性為驗(yàn)證集時(shí),識(shí)別率最高能有69.63%,而最低的識(shí)別率在session1,2,3,4作訓(xùn)練集,session5中男性作為測(cè)試集時(shí)為55.14%,在 EMO-DB數(shù)據(jù)庫上,識(shí)別率最好的是09序號(hào)的說話者作為測(cè)試集時(shí),為94.64%,而最低的識(shí)別率在10序號(hào)的說話者作為測(cè)試集時(shí),為76.77%,將每個(gè)人作為測(cè)試集分別實(shí)驗(yàn)5次,求均值和標(biāo)準(zhǔn)差后再求均值,能消除數(shù)據(jù)集不平衡的影響,IEMOCAP和EMO-DB數(shù)據(jù)庫最后的平均識(shí)別率為61.22%和85.69%。
其次,通過混淆矩陣可以看出:(1) 情感標(biāo)簽為悲傷和生氣在兩個(gè)數(shù)據(jù)庫上都能獲得很高的識(shí)別率,在IEMOCAP在分別為81%和73%,在EMO-DB數(shù)據(jù)庫上,分別為95%和84%。(2) 在EMO-DB數(shù)據(jù)庫上,情感標(biāo)簽為中性、恐懼、厭惡、無聊識(shí)別率很高,分為達(dá)到了96%,86%,89%和81%。而在IEMOCAP數(shù)據(jù)庫上中性情感的識(shí)別率很低,只有43%,其中有32%的情感被誤判成高興,17%的情感誤判成生氣。(3) 在兩個(gè)數(shù)據(jù)庫上,情感標(biāo)簽為高興的識(shí)別率相比其他情感來說較低,分別為46%和77%。在IEMOCAP數(shù)據(jù)庫上,有20%的高興情感被誤判成悲傷,23%的高興被誤判成中性,在EMO-DB數(shù)據(jù)庫上,有12%的高興情感被誤判成生氣。
與其他方案比較,不同方案下的語音情感識(shí)別率如表3所示。
表3 不同方案下的語音情感識(shí)別率Table 3 Speech emotion recognition rate under different schemes
通過表3可知,本文提出的算法與上述方案相比,準(zhǔn)確率有了相應(yīng)的提升。在EMO-DB語音庫上,1D+3D多特征融合網(wǎng)絡(luò)與DCNN_LSTM網(wǎng)絡(luò)相比,準(zhǔn)確率提升了5.09個(gè)百分點(diǎn);與DCNN_DTPM網(wǎng)絡(luò)相比,準(zhǔn)確率提升了2.16個(gè)百分點(diǎn);與ML ELM_AE網(wǎng)絡(luò)相比,準(zhǔn)確率提升了3.69個(gè)百分點(diǎn)。本文分別對(duì)1D CNN網(wǎng)絡(luò)和3D BCNN網(wǎng)絡(luò)分別做了實(shí)驗(yàn),由實(shí)驗(yàn)結(jié)果可知,1D CNN網(wǎng)絡(luò)在IEMOCAP和EMO-DB數(shù)據(jù)庫的識(shí)別率分別為53.51%、79.56%,3D BCNN網(wǎng)絡(luò)的識(shí)別率分別為58.63%和82.93%。兩部分相比較可以發(fā)現(xiàn),3D BCNN網(wǎng)絡(luò)的識(shí)別率比1D CNN網(wǎng)絡(luò)的識(shí)別率分別提高5.12個(gè)百分點(diǎn)和3.37個(gè)百分點(diǎn)。這是因?yàn)樵?D部分,本文對(duì)語音情感進(jìn)行零均值和標(biāo)準(zhǔn)差處理并且提取對(duì)數(shù)梅爾特征減少了說話者之間的差異性。而將兩種網(wǎng)絡(luò)并聯(lián)連接,在IEMOCAP數(shù)據(jù)庫上識(shí)別率分別提高了7.71個(gè)百分點(diǎn)和2.59個(gè)百分點(diǎn),在EMO-DB數(shù)據(jù)庫上識(shí)別率分別提高了6.13個(gè)百分點(diǎn)和2.76個(gè)百分點(diǎn),說明1D和3D特征融合網(wǎng)絡(luò)提高了整個(gè)算法的性能。
目前多特征融合算法是解決語音情感識(shí)別問題的有效途徑。本文提出的基于3D和1D多特征融合的語音情感識(shí)別算法,該算法通過將3D網(wǎng)絡(luò)和1D網(wǎng)絡(luò)輸出特征融合,使得選擇出判別性強(qiáng)的情感特征,相比僅提取單一特征的3D模型和1D模型,在語音情感識(shí)別中有更好的識(shí)別效果。同時(shí)也發(fā)現(xiàn)BCNN模型能提高語音情感識(shí)別的正確率。本文算法在訓(xùn)練樣本的數(shù)量、網(wǎng)絡(luò)模型的訓(xùn)練和1D模型的改進(jìn)上還有待于進(jìn)一步的理論和實(shí)驗(yàn)研究。