李文華
摘要:在語音情感識別中,情感特征的選取與組合是重要環(huán)節(jié)。在包含6種情感的普通話情感語料庫中,選取了一些常用的情感特征:Mel頻率倒譜系數(shù)、基頻、短時平均幅度能量、短時過零率和第一共振峰等,進行提取并計算得到12個統(tǒng)計量,最后利用基于支持向量機(SVM)的語音情感識別系統(tǒng)進行分類。實驗結(jié)果表明該方法得到了較高的平均情感識別率,且情感特征的選取、抽取及建模是合理、有效的。同時,得到不同有效的語言情感特征的識別貢獻率并對其進行排序。在傳統(tǒng)語音情感識別研究中采用定性的情感特征識別分析,而該文采用定量的情感特征識別分析,為今后語音情感識別的相關(guān)研究特供了重要參考價值與幫助。
關(guān)鍵詞:語音情感識別;語音情感特征的選??;定量的情感特征識別分析;支持向量機
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)04-0173-02
1 背景
語音是人們交流的主要方式,語音信號不僅傳遞語義信息,同時承載了說話人的情感狀態(tài)。情感因素的引入能使人機交互變得更加自然和諧。因此,語音信號的情感識別成為近年來智能人機交互領(lǐng)域的研究熱點[1]。如何使計算機從語音信號中自動識別出說話人的情感狀態(tài)及其變化,是實現(xiàn)自然人機交互界面的關(guān)鍵前提,具有很大的研究價值和應(yīng)用價值[3]。例如:可以用于對電話服務(wù)中心用戶緊急程度的分揀,從而提高服務(wù)質(zhì)量;用于對汽車駕駛者的精神狀態(tài)進行監(jiān)控,從而在駕駛員疲勞時進行提醒,避免交通事故的發(fā)生[4]。
2 語音情感識別系統(tǒng)結(jié)構(gòu)
本文的語音情感識別系統(tǒng)結(jié)構(gòu)如圖1所示,每個步驟之間通過樣本數(shù)據(jù)進行關(guān)聯(lián)。情感特征的提取,計算12個統(tǒng)計量參數(shù)和SVM建模是其中的關(guān)鍵環(huán)節(jié)。
3 語音情感特征的提取
3.1 MFCC特征
MFCC通過構(gòu)造人的聽覺模型,以語音通過該模型的輸出為聲學(xué)特征,直接通過 DFT( 離散傅里葉變換) 進行變換,將頻譜最終轉(zhuǎn)化為倒譜域上的系數(shù)[6],具有較好的識別性能和抗噪能力,它的值大體上對應(yīng)于實際頻率的對數(shù)分布關(guān)系,具體關(guān)系可用式(1)表示:
3.2 基音頻率特征
基音是指發(fā)濁音時聲帶振動所引起的周期性。聲帶振動頻率稱為基頻。本文采用短時自相關(guān)函數(shù)來檢測基音:
3.3 能量特征
語音信號的能量特征與情感的表達具有較強相關(guān)性[7-8]。語音信號能量通常有短時能量和短時平均能量兩類。由于短時能量計算量較大且對高電平敏感,本文采用短時平均函數(shù)。
假設(shè)第n 幀語音信號[xnm]的短時平均函數(shù)為[En],則[En]的估計表達式為:
3.4 短時過零率
短時過零率表示一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)。它可以用來區(qū)分清音和濁音,這是因為語音信號中的高頻段有高的過零率,低頻段過零率較低。加窗后第n幀語音信號[xnm]的短時過零率為:
3.5 共振峰特征
共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征,代表了發(fā)音信息最直接的來源。本文采用線性預(yù)測法求取了第一共振峰。
4 SVM分類模型的構(gòu)建
SVM是建立在結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的基礎(chǔ)上的,它根據(jù)有限的樣本信息,通過對推廣誤差上界的最小化達到最大的泛化能力。對于線性可分的樣本空間,該算法尋找最優(yōu)分類超平面,能夠同時最小化經(jīng)驗誤差與最大化幾何邊緣區(qū),最優(yōu)分類超平面能夠盡可能多地將兩類樣本正確地分離,同時使分離的兩類樣本距離超平面最遠,這是一個受限的二次規(guī)劃問題求解。
對于非線性可分的問題,支持向量機的基本思想是: 利用核函數(shù)將輸入特征的樣本點映射到高維特征空間中,數(shù)據(jù)被超平面分割,在高維空間中變得線性可分,核函數(shù)以及超平面的構(gòu)造是解決非線性可分問題的關(guān)鍵。核函數(shù)的形式及其參數(shù)的確定決定分類器類型和復(fù)雜程度。最優(yōu)分類超平面保證不同類別能夠正確分類,以使經(jīng)驗風(fēng)險最?。?保證分類間隔達到最大,以使置信度最小。
設(shè)有兩類樣本數(shù)據(jù)為( xi,yi) ,i = 1,2,…,L,x∈Rd,y∈{ + 1,- 1} 是類別標(biāo)號,SVM 需要解決下列優(yōu)化問題:
其中: w 為權(quán)系向量; b 為分類閾值; ξi≥0 為非負松弛變量;C 是錯誤懲罰因子,它控制著對錯分樣本的懲罰程度,影響對數(shù)據(jù)的擬合程度和模型的泛化能力[9]。ξi是松弛變量,控制著離群點的進一步處理。數(shù)據(jù)空間樣本點 xi和 xj,使用數(shù)據(jù)空間到特征空間的映射函數(shù)Φ,并 應(yīng) 用 核 函 數(shù) 變 換 等 式: ( xi,xj) → K( xi,xj) =Φ( xi) ·Φ( xj) ,最終得分類超平面函數(shù)為:
5 實驗與結(jié)果分析
本文 實 驗 所 用 語 音 庫 為中科院漢語情感語料庫CASIA[10] 。漢語情感語料庫由中科院自動化所模式識別國家重點實驗室人機語音交互課題組錄制并提供。共包括兩名男性和兩名女性專業(yè)發(fā)音人,共分為6 種情感:生氣( angry) 、害怕( fear) 、高興( happy) 、中性( neutral)、難過( sad) 、驚喜( surprise) ,50 句錄音腳本,最終得到 1 200 句語音情感。數(shù)據(jù)集以 16k Hz采樣率,16 bit量化,wav 格式存儲。實驗中,首先對所有的1200句語料進行預(yù)處理、分幀和加窗,再基于各語音分析幀提取聲學(xué)特征。
本文實驗的仿真實驗環(huán)境為 MATLAB2012a。選取的情感特征為MFCC、基頻、短時平均能量、短時過零率和第一共振峰。為了降低不同人在表達不同情感時的個人差異造成的影響,本文實驗過程中將提取的情感特征進行歸一化處理。歸一化采取將同一個人的四種情感語音信號的情感特征放在一起歸一化處理,并將歸一化后的情感特征作為SVM 分類器的訓(xùn)練樣本和測試樣本。
實驗采用 SVM 分類器, 使用臺灣大學(xué)林智仁開發(fā)的 Libsvm 工具。Libsvm 能夠快速并且有效實現(xiàn) SVM 所需要的各種功能, 其中使用的核函數(shù)為RBF 核函數(shù)[11] 。為了驗證生成模型的可靠性和實用性,本文采用10折交叉驗證。重復(fù)實驗10次,每次將90% 的 數(shù) 據(jù)用于訓(xùn)練,而10%留作測試數(shù)據(jù)。
經(jīng)過測試,實驗得到的結(jié)果如表1。所從表1中的對角線上觀察到,6 種 情 感 的 識 別 率 分 別 為 70%、75%、85%、90%、55%和95%。其中可以看到,高興、中性、驚訝的識別率較高,樣本的總識別率為77%。
表1 測試樣本識別結(jié)果
[測試樣本\&angry\&fear\&happy\&neutral\&sad\&surprise\&angry\&70%\&0\&10%\&10%\&0\&10%\&fear\&0\&75%\&0\&15%\&5%\&5%\&happy\&0\&0\&85%\&5%\&0\&10%\&neutral\&0\&5%\&0\&90%\&5%\&0\&sad\&0\&15%\&15%\&15%\&55%\&0\&surprise\&0\&0\&5%\&0\&0\&95%\&平均
識別別率\& \&\&77%\&\&\&\&]
本文還將5有效的情感特征對每個特征單獨進行情感識別測試,從表3可以看出,這5種情感有效特征依據(jù)識別貢獻比重降序排列為:MFCC>短時平均能量>基頻>第一共振峰>短時過零率。
識別貢獻比重特征排列:MFCC>短時平均能量>基頻>第一共振峰>短時過零率\&]
6 結(jié)束語
本文語音情感常用特征識別性能分析研究中使用MFCC、基頻、短時平均能量、短時過零率和第一共振峰作為基本常用特征,SVM作為分類器。該方法得到了較高的平均情感識別率,且情感特征的選取、抽取及建模是合理、有效的。 同時,得到有效情感特征的識別貢獻率降序排序:MFCC>短時平均能量>基頻>第一共振峰>短時過零率。在傳統(tǒng)語音情感識別研究中采用定性的情感特征識別分析,而本文采用定量的情感特征識別分析,為今后語音情感識別的相關(guān)研究特供了重要參考價值與幫助。
參考文獻:
[1] 余伶俐, 蔡自興, 陳明義. 語音信號的情感特征分析與識別研究綜述[J]. 電路與系統(tǒng)學(xué)報, 2007, 12(4): 76-84.
[2] BANZIGER T, SCHERER K R. Using actor portrayals to systemati-cally study multimodal emotion expression: the GEMEP corpus[C]// PAIVA A, PRADA R, PICARD R W. Proceedings of the 2nd International Conference on Affective Computing and Intelligent Interaction. Lisbon, Portugal, 2007: 476-487.
[3] 韓文靜, 李海峰, 阮華斌, 等. 語音情感識別研究進展綜述[J]. 軟件學(xué)報, 2014, 25(1): 37-50.
[4] 史峰, 王小川, 郁磊, 等. matlab 神經(jīng)網(wǎng)絡(luò) 30 個案例分析[M]. 北京: 航空航天大學(xué)出版社, 2010: 122-128.
[6] 趙力. 語音信號處理[M].2版. 北京: 機械工業(yè)出版社, 2011: 51-52.
[7] Muttik I, Barton C. Cloud security technologies[R]. Information security technical report. 2009 Elsevier Ltd All rights reserved.2009.
[8] Christodorescu M, Sailer R, Schales D L. Cloud Security Is Not(Just) Virtualization Security[C]. IBMT. J. Watson Research, 2009.
[9] DUDA R O, HART P E, STORK D G.模式分類[M]. 李宏東, 姚天翔, 譯. 2版. 北京: 機械工業(yè)出版社, 北京: 中信出版社, 2010: 211-215.
[10] 中科院自動化研究所人機語音交互課題組. 漢語情感語料庫[DB/OL].[2012-09-22].http://www.datatang.com/data/39277.
[11] Chang Chih-Chung, Lin Chih-Jen. LIBSVM: a library for support vector machines[EB/OL]. (2001)[2011-05-20]. http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm. pdf.
[12] 羅憲華, 楊大利, 徐明星, 等. 面向非特定人語音情感識別的PCA 特征選擇方法[J]. 計算機科學(xué), 2011, 38(8): 212-213.
[13] 尤鳴宇. 語音情感識別的關(guān)鍵技術(shù)研究[D]. 杭州: 浙江大學(xué), 2007.