呂志浩+馬赫+魯潤南
摘 要 隨著計算機技術的不斷發(fā)展,語音情感識別成為人工智能領域的研究熱點。語音情感識別包括語音信號預處理、特征參數提取和情感識別分類器等。本文著重對語音情感的特征提取方法與特征計算的分類進行研究,采用對情感語音進行預處理,包括抗混疊濾波、預加重、加窗以及端點檢測等,對高興、憤怒和悲傷3種語音情感提取短時能量、過零率、短時幅度以及MFCC等參數,根據柏林情感語音庫中的90句情感語音,使用模糊K近鄰算法對語音的3種情感進行識別。
關鍵詞 語音情感;特征提取;模糊K近鄰算法
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2016)172-0279-02
K近鄰算法運用統(tǒng)計學的方式,即“物以類聚”的簡便方式將待測樣本與訓練樣本中K個距離權重最近的類別分為一種類別[ 1 ]。這種方式簡單快捷,易于實施,但也存在相應不足之處,譬如,需要計算所有待測樣本進入決策,存在一定決策風險與冗余度大的缺點,為突破以往的K近鄰算法的瓶頸,下面提出一種基于模糊集理論K近鄰算法進行整改,并通過Matlab 2014軟件進行實驗仿真的方式驗證其在語音情感特征提取的作用。
1 K近鄰分類算法以及模糊集理論
1.1 K近鄰分類算法
K近鄰(K-Nearest Neighbor, KNN)算法基本原理較為簡便[ 2 ],即在一個多維度空間內Rn內,計算待測樣本中的矩陣數據x,依次與該空間內的其他已訓練好的樣本數據求距離,而后選取數值K個樣本點,各不同訓練樣本比較距離值的大小,則待測樣本的類別就被分類在距離值最多的那一類中來。
5)然后再利用FKNN進行識別分類。
2 基于FKNN 的語音情感識別實驗
首先介紹一下實驗環(huán)境:筆記本電腦4G/2G,Windows7系統(tǒng)/Matlab2014,所選語音數據庫為柏林語音情感庫(16kHz 16Bit量化的單聲道wav格式)。各分為3類語句:高興、悲傷、憤怒各30段不同語句的語音段。實驗選取3種情感分類(高興、悲傷、憤怒),分別對3種感情進行短時特征參數的提取。
2.1 實驗過程
該實驗的特征參數提取大致流為:讀取語音文件,通過加漢明窗分幀,計算短時能量、幅度、過零率。使用Matlab 2014對樣本語音進行特征提取并記錄相關統(tǒng)計結果進行分析,而后對每一樣本進行訓練,提取其參數結果。
2.2 實驗結果分析
實驗對比了未改進的KNN算法與改進后的FKNN算法分別采用兩種實驗,其中K的取值不同。具體結果如圖1所示。
3 結論
通過圖表分析可得通過改進后的算法對語音情感的提取更為準確,可以提到2個百分點。隨著k值得增大,識別的效果越好,當然所需時間也增加。整個識別過程中不管是KNN還是FKNN對憤怒識別率都較其他情感高??傮w來說,模糊K近鄰算法在考慮到各參數對語音情感提取的權重不同進行合理了的“協(xié)調”使得實驗結果更加令人滿意。
參考文獻
[1]王吉林,夏菽蘭,趙力.基于模糊K近鄰的模糊支持向量機的語音情感識別[J].微電子學與計算機,2014(4).
[2]Hui Wang.Nearest neighbors by neighborhood counting. Pattern Analysis and Machine Intelligence, IEEE Transactions on .2006.
[3]韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學報,2014,25(1):37-50.
[4]金鑫.淺談情感模型及建模方法研究[J].科技創(chuàng)新與生產力,2015(11):55-56.