姜芃旭 傅洪亮
摘要:為了提高語(yǔ)音情感識(shí)別的準(zhǔn)確性,提出了一種基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別模型,利用OpenSMLIE進(jìn)行特征提取,輸送進(jìn)模型后進(jìn)行特征變換,最后利用SoftMax進(jìn)行情感分類,與傳統(tǒng)的SVM,KNN分類器相比,識(shí)別率分別提升2.5%和3.3%。具有更好的識(shí)別效果。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);情感識(shí)別;特征提??;情感分類
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0173-02
Speech Emotion Recognition Classification Based on Neural Network
JIANG Peng-xu,F(xiàn)U Hong-liang
(College of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)
Abstract: In order to improve the accuracy of speech emotion recognition, a speech emotion recognition model based on neural network was proposed. Feature extraction was performed using OpenSMLIE, and then transformed into the model for feature transformation. Finally, sentiment classification was performed using SoftMax, and traditional SVM and KNN classification. Compared with the device, the recognition rate increased by 2.5% and 3.3% respectively. Has a good recognition effect.
Key words: neural network; emotion recognition;Feature Extraction; Emotion Classification
人之所以能從對(duì)方的語(yǔ)言中捕捉出其情感的變化,是因?yàn)樵捳Z(yǔ)中有能反映出人特定情感信息的特征。語(yǔ)音情感識(shí)別研究的開展距今已有30余年的歷史,情感不再僅僅是指人的喜怒哀樂(lè),美國(guó)心理學(xué)家Ekman把人類的基本情緒歸為6種,分別是憤怒,驚訝,恐懼,快樂(lè),嫉妒和悲傷。這6種基本情緒可以相互結(jié)合派生出各式各樣復(fù)合情緒,例如焦慮,緊張等。這一觀點(diǎn)當(dāng)時(shí)也得到了許多人的同意。再后來(lái)又加上了一種中性的情感,所以人類的基本情感目前可以分為這七大類[1]。近些年來(lái)隨著人工智能領(lǐng)域的飛速發(fā)展,深度學(xué)習(xí)在語(yǔ)音識(shí)別方面的應(yīng)用越來(lái)越廣泛[2],對(duì)情感分類計(jì)算的愿望也越來(lái)越迫切,與情感相關(guān)的比賽和會(huì)議自21世紀(jì)以來(lái)相繼被創(chuàng)立,其中比較著名的有:The INTERSPEECH 2009 Emotion Challenge,The INTERSPEECH 2010 Paralinguistic Challenge,The INTERSPEECH 2011 Speaker State Challenge,The INTERSPEECH 2012 Speaker Trait Challenge,The INTERSPEECH 2013 ComParE等。
一般來(lái)說(shuō)語(yǔ)音情感識(shí)別的過(guò)程分為以下幾個(gè)方面:建立情感描述模型,搭建語(yǔ)音數(shù)據(jù)庫(kù),語(yǔ)音情感特征提取,特征選擇以及選擇識(shí)別算法。本文通過(guò)深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來(lái)對(duì)語(yǔ)音情感進(jìn)行分類識(shí)別,首先利用OpenSMLIE[3]軟件對(duì)CASIA公開庫(kù)進(jìn)行特征提取,輸送進(jìn)DNN模型后對(duì)特征進(jìn)行加工變換,最后利用SoftMax[4]把特征分為6類,實(shí)驗(yàn)表明DNN網(wǎng)絡(luò)模型相較于其他分類模型具有更好的分類效果。
1 情感識(shí)別的分類流程
圖1給出了語(yǔ)音情感識(shí)別分類的流程框圖,包括特征提取,DNN模型,情感分類。
流程首先利用OpenSMILE軟件對(duì)CASIA公開庫(kù)進(jìn)行特征提取,提取方法采用了2009情感挑戰(zhàn)所使用的標(biāo)準(zhǔn)化的特征集[5],然后將特征輸送進(jìn)DNN模型中,最后利用SoftMax分類器對(duì)特征進(jìn)行分類識(shí)別。
2 深度神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)目前為止已經(jīng)經(jīng)歷了三次浪潮,第一次的控制論,然后是聯(lián)結(jié)主義,但是直到2006年深度學(xué)習(xí)和深度網(wǎng)絡(luò)被提出,神經(jīng)網(wǎng)絡(luò)才開始煥發(fā)新一輪的生命[6]。
人工神經(jīng)網(wǎng)絡(luò)初次被提出是在20世紀(jì)40年代,被稱為threshold logic,它能實(shí)現(xiàn)一些簡(jiǎn)單的邏輯運(yùn)算,早親的人工神經(jīng)網(wǎng)絡(luò)的提出是為了模擬大腦的工作原理,它能從信息的角度對(duì)人的大腦進(jìn)行抽象,從而達(dá)到模擬人腦的認(rèn)知和學(xué)習(xí)的目的。
深度神經(jīng)網(wǎng)絡(luò)[7](DNN)是一個(gè)擁有一個(gè)或者一個(gè)以上隱層的傳統(tǒng)多層感知機(jī)[8](MLP)。圖2為一個(gè)4層的DNN,它擁有1個(gè)輸入層,1個(gè)輸出層還有2個(gè)隱層,其中隱層的每一個(gè)神經(jīng)元都與輸入層的每一個(gè)神經(jīng)元相連接,每一個(gè)輸出層的神經(jīng)元都與上一層的隱層的每一個(gè)神經(jīng)元相連接,是一個(gè)全連接的神經(jīng)網(wǎng)絡(luò),即第n-1層的任意一個(gè)節(jié)點(diǎn),都與第n層的所有節(jié)點(diǎn)相連接。
每個(gè)神經(jīng)元都等于上層的所有神經(jīng)元乘以對(duì)應(yīng)的權(quán)重再加上對(duì)應(yīng)的偏值,如圖3所示。
每一個(gè)神經(jīng)元的計(jì)算公式如下:
最后輸出層利用SoftMax進(jìn)行分類,對(duì)應(yīng)為每個(gè)標(biāo)簽的輸出概率,公式為:
3 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)所使用的情感語(yǔ)料庫(kù)為CASIA庫(kù),該庫(kù)由中國(guó)科學(xué)院自動(dòng)化研究所所錄制,由兩男兩女在信噪比為35db的純凈環(huán)境下錄音,包括6種情緒,1200句不同發(fā)音。本文對(duì)CASIA公開庫(kù)中的1200條語(yǔ)音進(jìn)行特征提取,將數(shù)據(jù)集按一定的比例分為訓(xùn)練集和測(cè)試集進(jìn)行訓(xùn)練與測(cè)試,為了保證泛化性加入了Dropout函數(shù)。在Python軟件上進(jìn)行實(shí)驗(yàn),其中SVM選用線性核,C值在0-1的范圍內(nèi)選取,在C=0.1時(shí)準(zhǔn)確率最高。KNN中K值在0-30的范圍內(nèi)選取,當(dāng)K取28時(shí)準(zhǔn)確率最高。實(shí)驗(yàn)結(jié)果如表1所示。
從上表中可以看到,DNN的識(shí)別率為84.1%,較其他分類模型相比,在語(yǔ)音情感識(shí)別分類上有著更好的分類效果。
4 結(jié)論
本文在多類分類模型上對(duì)語(yǔ)音情感識(shí)別的分類效果進(jìn)行了對(duì)比,驗(yàn)證了DNN網(wǎng)絡(luò)模型在語(yǔ)音情感識(shí)別的可行性,并且在識(shí)別效果上優(yōu)于KNN分類器以及SVM分類器,對(duì)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音情感識(shí)別上的發(fā)展做出了貢獻(xiàn)。
參考文獻(xiàn):
[1] 韓文靜, 李海峰, 阮華斌,等. 語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J]. 軟件學(xué)報(bào), 2014, 25(1):37-50.
[2] Mencattini A, Martinelli E, Ringeval F, et al. Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models[J]. IEEE Transactions on Affective Computing, 2016, PP(99):1-1.
[3] Eyben F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia. ACM, 2010:1459-1462.
[4] Eyben F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia. ACM, 2010:1459-1462.
[5] Schuller B, Steidl S, Batliner A. The Interspeech 2009 Emotion Challenge[C]//INTERSPEECH 2009, Conference of the International Speech Communication Association. DBLP, 2009:312-315.
[6] 段玉三. 人工神經(jīng)網(wǎng)絡(luò)文獻(xiàn)綜述[J]. 科技風(fēng), 2011(5):185-185.
[7] 謝承泮. 神經(jīng)網(wǎng)絡(luò)發(fā)展綜述[J]. 科技情報(bào)開發(fā)與經(jīng)濟(jì), 2006, 16(12):148-150.
[8] Pinkus A. Approximation theory of the MLP model in neural networks[C]// ACTA NUMERICA. 2008:143-195.