孫穎,馬浩杰,張雪英
(太原理工大學(xué)信息與計算機學(xué)院,山西太原 030024)
情感識別是人工智能領(lǐng)域不可或缺的一部分,使計算機能夠識別、理解和表達人類語言中的情感是人工智能領(lǐng)域的重要研究方向。構(gòu)建能夠識別多變且復(fù)雜的情感模型[1]是當(dāng)前研究的熱點問題之一。
隨著深度學(xué)習(xí)的發(fā)展,越來越多的學(xué)者通過深度學(xué)習(xí)建模進行語音情感識別,例如,楊明極等[2]提出使用卷積神經(jīng)網(wǎng)絡(luò)從原信號中提取特征,并結(jié)合長短時記憶網(wǎng)絡(luò)獲取語音信號上下文信息,最終識別率達到91.74%;余莉萍等[3]提出將注意力機制引入長短時記憶網(wǎng)絡(luò)中,將遺忘門和輸入門轉(zhuǎn)換為注意力門,得到基于改進長短時記憶網(wǎng)絡(luò)(LSTM)的語音情感識別模型,在CASIA 中文數(shù)據(jù)庫上的識別效果要優(yōu)于傳統(tǒng)LSTM 識別模型;Jian Wang[4]提出深度信念網(wǎng)絡(luò)(DBN)與淺層神經(jīng)網(wǎng)絡(luò)結(jié)合進行語音情感識別,最高識別率可達95%;張昕然等[5]提出基于深度信念網(wǎng)絡(luò)的特征層融合方法,通過多個數(shù)據(jù)庫上的實驗驗證,特征融合后的特征子集相對傳統(tǒng)特征的識別率可提升4.6%。以上模型僅考慮了獨立情感狀態(tài),忽視了情感狀態(tài)之間的關(guān)聯(lián)性[6],例如喜極而泣、樂極生悲等。湯宇豪等[7]提出基于情感嵌入視覺注意力模型的連續(xù)維度情感識別方法,基于長短時記憶網(wǎng)絡(luò)的視覺注意力模型利用上下文信息對情感顯著區(qū)域進行加強,最后通過K-means 聚類方法將前一時刻的情感映射到具體的情感類比中,與使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的當(dāng)前人臉特征融合,進一步學(xué)習(xí)情感顯著特征,強化上下文之間的情感連續(xù)性并在已有公開的國際音視頻情感挑戰(zhàn)賽AVEC2016 和AVEC2017 兩個數(shù)據(jù)庫上驗證了模型的有效性;孫穎等[8]提出一種深度情感關(guān)聯(lián)模型考慮到了情感之間的相互關(guān)聯(lián),該模型使用多層限制玻爾茲曼機與關(guān)聯(lián)認知網(wǎng)絡(luò)(Interactive Cognitive Network,ICN),在TYUT1.0 情感語料庫和CASIA 數(shù)據(jù)庫中平均識別率相較深度信念網(wǎng)絡(luò)最高可提高6.06%,該模型固定使用中國科學(xué)院心理所的中文簡化版PAD 情緒量表表示情感之間的關(guān)聯(lián),而對于不同情感數(shù)據(jù)庫,甚至相同數(shù)據(jù)庫中的不同語句,其PAD 值都是不同的,僅使用固定PAD 值勢必對識別結(jié)果造成影響。
為更好地進行語音情感識別,該文提出用PAD情感預(yù)測值內(nèi)各情感預(yù)測值計算關(guān)聯(lián)認知網(wǎng)絡(luò)的權(quán)值,構(gòu)建深度情感關(guān)聯(lián)模型。以PAD 情感維度預(yù)測值作為關(guān)聯(lián)認知網(wǎng)絡(luò)情感之間權(quán)值計算的輸入,實現(xiàn)權(quán)值動態(tài)計算;使用遺傳算法(GA)優(yōu)化深度情感關(guān)聯(lián)模型超參數(shù),避免參數(shù)選擇盲目性,提高模型識別率。最后,設(shè)置四組實驗方案進行對比實驗,驗證該文所提出模型的有效性以及普適性。
深度情感關(guān)聯(lián)模型結(jié)合多層限制玻爾茲曼機與關(guān)聯(lián)認知網(wǎng)絡(luò)[8],如圖1 所示。多層限制玻爾茲曼機[9]可以有效地反映非線性映射、去除輸入信息的冗余、實現(xiàn)特征降維。關(guān)聯(lián)認知網(wǎng)絡(luò)(ICN)由輸入層和輸出層組成,輸入層為情感特征,輸出層為情感類別,輸入層和輸出層之間直接連接,輸出層情感之間相互連接以表示情感之間的關(guān)聯(lián)性。
圖1 深度情感關(guān)聯(lián)模型
離散的情感類別只是對基本情感的分類,忽視了不同情感之間的關(guān)系。PAD 三維情感空間可以連續(xù)且平穩(wěn)的表達不同類別的情感,進而可表示情感之間的關(guān)系,其中P表示愉悅度(pleasure-displeasure),A表示激活度(arousal-nonarousal),D表示優(yōu)勢度(dominance-submissiveness)。相較人工標(biāo)注PAD 值的耗時長、主觀性強,PAD 預(yù)測模型更快捷、更客觀且可以應(yīng)用到不同數(shù)據(jù)庫。該文所使用PAD 預(yù)測模型以情感特征和人工標(biāo)注PAD 值作為模型輸入預(yù)測PAD 值[10-11],模型如圖2 所示。
圖2 PAD預(yù)測模型
具體工作流程如下:
1)特征降維:通過灰色關(guān)聯(lián)分析得到情感特征與P、A、D 之間的關(guān)聯(lián)度并按大小排序,使用回歸模型得到前m維特征的MAE 誤差,取最小MAE 對應(yīng)維數(shù)特征作為特征子集;將特征子集作為主成分分析的輸入,得到最優(yōu)情感特征子集。
2)PAD 維度預(yù)測:將最優(yōu)特征子集分為訓(xùn)練集和測試集輸入到PSO-LSSVM 模型,得到測試集PAD預(yù)測值;計算預(yù)測值與人工標(biāo)注PAD 值聚類中心之間的距離,大于設(shè)定閾值的歸類為混合情感,小于閾值的歸類為與其距離最近的情感類別,進而得到對應(yīng)情感特征;將情感特征作為其對應(yīng)情感PSOLSSVM 模型的輸入,得到最終PAD 維度預(yù)測值。
遺傳算法(Genetic Algorithm,GA)[13-14]的概念是約翰·霍蘭德提出。遺傳算法借鑒自然遺傳和自然選擇的原理,通過選擇、交叉、變異操作對編碼后的參數(shù)(二進制編碼)優(yōu)化,并用概率規(guī)則來引導(dǎo)種群進化,隨著進化代數(shù)的增加,種群的進化方向也逐漸確定。遺傳算法流程圖如圖3 所示。
圖3 遺傳算法流程圖
深度情感關(guān)聯(lián)模型所使用的PAD 情感維度值是基本情感PAD 值而非情感語音數(shù)據(jù)庫的PAD 預(yù)測值,會對情感分類結(jié)果產(chǎn)生一定影響。故該文提出用PAD 情感維度預(yù)測值計算關(guān)聯(lián)認知網(wǎng)絡(luò)的權(quán)值,構(gòu)建深度情感關(guān)聯(lián)模型,并用遺傳算法對模型超參數(shù)進行優(yōu)化。其框圖如圖4 所示。
圖4 模型框圖
具體步驟如下:
1)特征提?。禾崛∏楦姓Z音數(shù)據(jù)庫的情感特征(韻律特征、MFCC 特征、非線性屬性特征及非線性幾何特征)。
2)PAD 情感維度值預(yù)測:將情感特征和人工標(biāo)注PAD 值作為輸入,使用灰色關(guān)聯(lián)分析和主成分分析去除特征冗余,選出最優(yōu)特征子集,通過聚類PSO-LSSVM 模型預(yù)測PAD 維度值。
3)情感之間權(quán)值計算:對各類情感PAD 預(yù)測值取均值,得到代表各類情感的PAD 維度值,然后在PAD 三維空間中計算各類情感維度值之間的歐氏距離,如式(1)所示,使用各類情感間的歐氏距離計算關(guān)聯(lián)認知網(wǎng)絡(luò)(ICN)情感之間的權(quán)值,如式(2)所示。
式中:d為兩類情感之間的距離,(x1,y2,z1) 和(x2,y2,z2) 分別代表兩類情感在PAD 三維空間中的坐標(biāo)。
式中:wij為兩情感類別之間的關(guān)聯(lián)度;dmax為所用PAD 三維空間的最大距離,即PAD 三維空間對角線長度;dij為兩類情感在PAD三維空間中的距離。
4)超參數(shù)優(yōu)化:使用遺傳算法對深度情感關(guān)聯(lián)模型的超參數(shù)(隱含層節(jié)點數(shù)、RBM 訓(xùn)練次數(shù)、ICN訓(xùn)練次數(shù)、動量因子、學(xué)習(xí)率)進行優(yōu)化,以使用PAD預(yù)測值的深度情感關(guān)聯(lián)模型為GA 的適應(yīng)函數(shù),準(zhǔn)確率為適應(yīng)度。選取適應(yīng)度最好的個體設(shè)置為深度情感關(guān)聯(lián)模型的超參數(shù)。
5)情感分類:將情感特征及其PAD 預(yù)測值作為深度情感關(guān)聯(lián)模型的輸入。
TYUT2.0 情感語音數(shù)據(jù)庫通過截取廣播劇的方式獲得初選情感語音數(shù)據(jù)庫,而后通過模糊綜合評價與層次分析法、熵權(quán)法相結(jié)合建立的情感語音模糊綜合評價模型對初選數(shù)據(jù)庫進行模糊評價,最終篩選得到高質(zhì)量的情感語音數(shù)據(jù)庫[15],其中包含了“高興、憤怒、悲傷、驚奇”4 種情感。
柏林德語情感語料庫[16]由10 名演員(5 男5 女)通過回憶自身經(jīng)歷對悲傷、憤怒、高興、害怕、自然情感模擬得到的,該語音庫真實度高,受到業(yè)內(nèi)廣泛使用。
該文選取TYUT2.0 以及柏林德語情感語音數(shù)據(jù)庫中共有的情感“悲傷、憤怒、高興”進行實驗,其中TYUT2.0 情感語音數(shù)據(jù)庫中的悲傷(62 句)、憤怒(58句)、高興(57 句),柏林德語情感語料庫(EMO-DB)中悲傷(52 句)、憤怒(77 句)、高興(68 句),并以3∶1 的比例設(shè)置訓(xùn)練集和測試集。
以TYUT2.0 數(shù)據(jù)庫為基礎(chǔ),通過心理學(xué)實驗的方法對情感語音進行P、A、D 維度值標(biāo)注,得到PAD三維情感模型。實驗選取100 名在校大學(xué)生(44 名男生,56 名女生,身心健康)對TYUT2.0 數(shù)據(jù)庫每一條語句按照1~5 的標(biāo)注范圍進行PAD 維度標(biāo)注,每一條語句的P、A、D 值取100 位同學(xué)標(biāo)注值的均值得到PAD 人工標(biāo)注值;該文使用其中悲傷、憤怒、高興3 種情感共177 句的PAD 標(biāo)注值,如圖5 所示。
圖5 PAD維度空間情感分布
提取TYUT2.0 數(shù)據(jù)庫和柏林數(shù)據(jù)庫的韻律特征、MFCC、非線性屬性特征[17]、非線性幾何特征[18]作為模型的輸入。情感特征維數(shù)及內(nèi)容如表1 所示。
表1 語音情感特征
為驗證該文提出模型的有效性,設(shè)計四組實驗方案進行對比實驗,實驗方案如下:
方案一:使用中文簡化版PAD 量表的值計算關(guān)聯(lián)認知網(wǎng)絡(luò)權(quán)值,根據(jù)經(jīng)驗設(shè)置深度情感關(guān)聯(lián)模型超參數(shù);
方案二:使用中文簡化版PAD 量表的值計算關(guān)聯(lián)認知網(wǎng)絡(luò)權(quán)值,使用遺傳算法優(yōu)化深度情感關(guān)聯(lián)模型超參數(shù);
方案三:使用PAD 預(yù)測值計算關(guān)聯(lián)認知網(wǎng)絡(luò)權(quán)值,根據(jù)經(jīng)驗設(shè)置深度情感關(guān)聯(lián)模型超參數(shù);
方案四:使用PAD 預(yù)測值計算關(guān)聯(lián)認知網(wǎng)絡(luò)權(quán)值,使用遺傳算法優(yōu)化深度情感關(guān)聯(lián)模型超參數(shù)。
中文簡化版PAD 量表的值與PAD 預(yù)測值如表2所示。
表2 PAD情緒量表
方案一至方案四模型超參數(shù)設(shè)置范圍如表3 所示。設(shè)置隱含層節(jié)點數(shù)可改變多層受限玻爾茲曼機的結(jié)構(gòu),該文設(shè)置兩層受限玻爾茲曼機,其中每一層的可見層以及隱含層節(jié)點數(shù)依次減少;動量因子可使參數(shù)值的修改方向由上次參數(shù)值的修改方向和本次梯度方向共同決定,也會避免局部最優(yōu);學(xué)習(xí)率決定了模型的收斂速度,過大會導(dǎo)致算法不穩(wěn)定,過小會使降低收斂速度;RBM 以及ICN 的訓(xùn)練次數(shù)決定模型訓(xùn)練次數(shù)以及耗時長短,較好的訓(xùn)練次數(shù)可更快地得到模型最優(yōu)解。
表3 參數(shù)取值范圍
以TYUT2.0 數(shù)據(jù)庫和EMO-DB 數(shù)據(jù)庫為基礎(chǔ)進行實驗,方案一至方案四實驗結(jié)果如表4 所示。
表4 實驗識別結(jié)果
從表中TYUT2.0 數(shù)據(jù)庫的識別結(jié)果來看,4 種方案識別率較為均衡,僅方案一高興識別率較低。對比方案一、二以及方案三、四,從平均識別率來看,方案二達到78.72%,高出方案一6.38%,方案四達到80.85%,高出方案三4.25%;從各情感的識別率看,使用了遺傳算法優(yōu)化的方案二及方案四的3 種情感識別率均大于或等于未優(yōu)化的方案一和方案三,且均有較好的識別率,說明使用遺傳算法優(yōu)化模型超參數(shù)的有效性。對比方案二、四以及方案一、三,從平均識別率來看,方案四高出方案二2.13%,方案三比方案一高4.26%,且使用PAD 預(yù)測值計算情感間權(quán)值的方案四及方案三各類情感的識別率均大于或等于使用基本情感PAD 值計算情感間權(quán)值的方案二及方案一,由此可看出該文使用PAD 預(yù)測值計算關(guān)聯(lián)認知網(wǎng)絡(luò)情感之間權(quán)值的有效性。從整體識別結(jié)果看,方案四的識別率達到80.85%,相較方案一、方案二和方案三提高了8.51%、2.13%及4.25%;并且方案四的悲傷、憤怒以及高興情感的識別率均高于或等于方案一、二和三。實驗結(jié)果表明,方案四優(yōu)于其他三種方案,說明該文所提出模型的優(yōu)越性。
從表中EMO-DB 數(shù)據(jù)庫的識別結(jié)果來看,四種方案的識別效果都較好,平均識別率均在85%以上,各類情感的識別率也在80%以上。方案一、二、三、四在“悲傷”情感的識別率均達到100%;在“憤怒”的識別效果上看,方案四識別率達94.74%,相較方案一、三高出10.53%,相比方案二高出5.27%;在“高興”的識別效果上看,雖然方案四與方案二、三的識別率相同,但識別率較好,達到了93.75%,相較方案一81.25%的識別率高出12.5%。從平均識別率看,方案四識別率達到95.74%,相較方案一、二、三高出8.51%、2.12%、4.25%,由此可看出使用該文提出模型的有效性。
綜上所述,該文所提模型在TYUT2.0 數(shù)據(jù)庫以及EMO-DB 數(shù)據(jù)庫均有較好的識別效果且優(yōu)于其他三組實驗方案,可體現(xiàn)出該文所提出PAD 情感維度預(yù)測值作為關(guān)聯(lián)認知網(wǎng)絡(luò)的權(quán)值,構(gòu)建深度情感關(guān)聯(lián)模型的有效性以及普適性。
如表5 所示,為該文模型與文獻[8]中模型對中科院PAD 情緒量表中的“憤怒”、“高興”兩種情感的識別結(jié)果對比,可進一步證明該文模型的有效性。
表5 中科院PAD情緒量表中兩種情感的結(jié)果對比
鑒于深度情感關(guān)聯(lián)模型的關(guān)聯(lián)認知網(wǎng)絡(luò)權(quán)值設(shè)置固定,該文首先用PAD 情感維度預(yù)測模型得到各類情感的PAD 預(yù)測值,使用預(yù)測值計算關(guān)聯(lián)認知網(wǎng)絡(luò)情感間的權(quán)值;然后用遺傳算法對深度情感關(guān)聯(lián)模型的超參數(shù)優(yōu)化,得到最優(yōu)超參數(shù);最后,以TYUT2.0 情感語音庫和EMO-DB 數(shù)據(jù)庫為基礎(chǔ),設(shè)置四組實驗方案,通過對比實驗驗證使用動態(tài)權(quán)值且優(yōu)化參數(shù)的深度情感關(guān)聯(lián)模型的有效性與普適性。實驗表明,PAD 維度下的深度情感關(guān)聯(lián)模型的識別效果優(yōu)于其他三組實驗,說明PAD 預(yù)測值可更好地體現(xiàn)情感之間的聯(lián)系,可更好地輔助模型進行情感識別。但是,關(guān)聯(lián)認知網(wǎng)絡(luò)不僅有輸出情感之間的權(quán)值,還有輸入特征和輸出情感之間的權(quán)值,且輸入特征和輸出情感之間的權(quán)值有隨機性。故如何更好表示關(guān)聯(lián)認知網(wǎng)絡(luò)輸入特征與輸出情感之間的權(quán)值是下一步的研究重點。此外,使用腦電特征輔助語音情感特征進行情感識別也可作為一個研究方向。