,,
腫瘤病人由于受到病情、治療水平、護理水平和家庭環(huán)境等多方面因素影響,通常會呈現(xiàn)出多種心理情感狀況,如部分病人由于身體疼痛、情緒應(yīng)激等原因,容易出現(xiàn)害怕、恐懼等心理,甚至出現(xiàn)輕生現(xiàn)象;部分病人受到家人關(guān)心,性格開朗,對康復(fù)持樂觀態(tài)度,能積極配合醫(yī)護人員治療[1]。及時分析腫瘤病人心理情感狀況,針對病人不同心理特點,針對性地進行護理干預(yù),有利于促進腫瘤病人身心健康恢復(fù)、提高其生活質(zhì)量[2]。語音情感分析系統(tǒng)可以實時檢測腫瘤病人心理狀態(tài),及時判別出病人心理情感,當病人負面情緒較為強烈時,可以提示護理人員加強對病人的心理干預(yù);當病人處于正面情緒時,可以適當降低對其的心理干預(yù),從而降低護理人員工作負擔。
心理情感識別主要分為3個方面:病人語音特征提取、構(gòu)造情感特征向量和對特征向量進行分類判斷。要想對病人心理情感進行正確判斷,就需要按照一定規(guī)則對心理情感進行分類,由于人類的心理情感較為復(fù)雜,目前業(yè)內(nèi)還未形成定論,因此針對分類方法和種類數(shù)目存在多種版本[3]。
人類語音產(chǎn)生的機制較為復(fù)雜,需要人體多個器官密切配合,其中包括口腔、咽喉、肺部和鼻腔等器官,這些器官根據(jù)其作用原理又可分為發(fā)聲部分(前庭襞、喉室、聲襞)、管道部分(上鼻道、咽鼓管圓枕、咽鼓管咽口、軟腭、會厭)、共鳴腔體部分(額竇、蝶竇)[4],見圖1。其中,喉部肌肉聲帶之間有裂縫,叫聲門裂。由于聲帶松緊程度不同,聲門裂的長短、大小存在差異。當肺部呼出的氣體經(jīng)過聲門裂時,聲帶發(fā)生振動,且受其影響喉腔空氣流動,從而發(fā)出聲音。
1—前庭襞;2—喉室;3—聲襞;4—上鼻道;5—咽鼓管圓枕;6—咽鼓管咽口;7—軟腭;8—會厭;9—額竇;10—蝶竇
為了使聲音變成計算機可以識別、處理的信號,通常需要將語音轉(zhuǎn)換成數(shù)字信號,再從數(shù)字信號中提取出心理情感特征,即語音預(yù)處理。具體流程為:采樣-分幀、加窗-端點檢測-特征提取[5]。
語言信號雖是一種時變非平穩(wěn)信號,但在短時間內(nèi)(10 ms ~30 ms)狀態(tài)相對平穩(wěn),從而為分幀加窗提取,將一段較長的語音信號分成若干幀提供了可能[6]。
利用端點檢測技術(shù)可以判斷一段語音的起始點和結(jié)束點,將提取的語音先后通過雜聲過濾、降低雜聲數(shù)據(jù)量、剔除冗余數(shù)據(jù),可以有效提升系統(tǒng)的反應(yīng)速度和心理狀態(tài)判斷準確率。檢測結(jié)果見圖2。
圖2 語音端點檢測
不同腫瘤病人說話內(nèi)容、語境等均不相同,這些因素均會對心理狀態(tài)判斷準確率造成影響,因此在語音情感分析過程中通常需要對語音特征提取后再進行判斷。
本研究主要提取了基于韻律學(xué)的短時語音能量和基于譜特征的Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC),并通過計算其統(tǒng)計量來表征情感特征,包括均值、方差及差分的 MFCC(D-MFCC)[7]。
語音能量是語音信號中較為基本的特征,其計算方式為:
其中,En為語音能量,n為語音幀數(shù),χ為語音信號。
MFCC以人耳聽覺特性為基礎(chǔ),與頻率成非線性對應(yīng)關(guān)系,其提取流程見圖3[8]。
圖3 MFCC提取流程
心理情感識別模型主要分為兩部分:訓(xùn)練部分和測試部分。訓(xùn)練部分主要是將心理情感特征和情感標簽輸入到分類器模型中進行訓(xùn)練,得到相應(yīng)的分類規(guī)律,目的是利用訓(xùn)練得到分類模型,對測試語音的心理情感特征進行分類,通過模型計算、判斷,給出相應(yīng)的分類結(jié)果。
本研究采用的模型主要為支持向量機(support vector machine,SVM)[9]。SVM模型利用概率統(tǒng)計的思想,以結(jié)構(gòu)風(fēng)險最小為基石,不僅可以解決線性問題,還可以應(yīng)用于小樣本、高維度、非線性場合[10]。該模型通過二次規(guī)劃方式將訓(xùn)練數(shù)據(jù)分割在最優(yōu)分類平面兩側(cè),實現(xiàn)了數(shù)據(jù)分類,其訓(xùn)練過程就是尋找最優(yōu)劃分平面,分類平面間距最大的分類即最佳分類[11]。詳見圖4。
圖4 SVM最優(yōu)分類法示意圖
若X={(x1,y1),(x2,y2),…(xN,yN) },i=1,2,…,N,xi∈Rd為數(shù)據(jù)集,yi∈{1,-1}為種類的標簽。在線性可分的d維空間中,線性判別表達式為:g(x)=wTx+b,其中w為分類器的法向量,因此超平面的方程為:
g(x)=wTx+b(2)
上式中,b即為閾值。對判別函數(shù)進行歸一化處理,使訓(xùn)練集中兩類數(shù)據(jù)都滿足|g(x) |≥1,此時即可求得兩者之間的間距2/‖w‖。每個向量xi都存在與之對應(yīng)的w和b,且二者滿足下列不等式:
yi(wTx+b)-1≥0 (3)
當以上不等式成立,且‖w‖的二范數(shù)為最小值時,該分類平面即為最優(yōu)分類平面。如圖4所示,實線即為最優(yōu)分類平面,與實線平行的兩條虛線上的數(shù)據(jù)即為支持向量,此時公式(3)中等號成立。
在訓(xùn)練數(shù)據(jù)集可分的情況下,可將最優(yōu)平面求解轉(zhuǎn)換為下式約束優(yōu)化函數(shù)問題:
s.t.yi(wTx+b)-1≥0,i=1,2,…,N(5)
本研究實驗驗證主要采用中科院自動化研究所情
感語料庫(CASIA),該語料庫的錄音人員為4人,語音為漢語,包含高興(happiness)、中性(neutral)、驚訝(surprise)、憤怒(anger)、悲傷(sadness)5種情感,每種情感語句均為200句?;谡Z音的心理情感識別原理見圖5。實驗流程為:①準備訓(xùn)練數(shù)據(jù);②對數(shù)據(jù)集進行相應(yīng)整理;③選取對應(yīng)的核函數(shù);④交叉驗證選擇最佳模型參數(shù);⑤利用最近參數(shù)對全部數(shù)據(jù)進行訓(xùn)練,得到模型;⑥利用獲得的模型對心理情感進行判斷。
圖5 心理情感識別系統(tǒng)原理
首先通過對原始語音進行的分幀、端點檢測等預(yù)處理方式獲取有效語音信號,為后續(xù)的特征提取和分類識別提供數(shù)據(jù)基礎(chǔ);在特征提取時,主要采用12階的MFCC及短時語音能量;選取徑向基(RBF)為核函數(shù)對多個分類器進行訓(xùn)練,該函數(shù)具有訓(xùn)練速度快、精度高等特點,數(shù)學(xué)表達式為[12]:
K(x,y)=e-g‖x2-y2 ‖(6)
采用未參與訓(xùn)練的語音特征進行識別實驗,檢測模型的泛化能力。將測試語音的特征參數(shù)輸入到這10個模型中,由于這10個SVM模型都有唯一的輸出,因此可以獲得10個識別結(jié)果。將這10個識別結(jié)果進行投票,得票最多的情感即為最終情感結(jié)果。
利用 MFCC 參數(shù)進行SVM模型的心理情感識別實驗,結(jié)果顯示:當將生氣的語音特征輸入到模型中時,判斷生氣的概率為70%,開心的概率為22%,中性的概率為2%,悲傷的概率為0,驚訝的概率為6%,以此類推?;贛FC的心理情感判斷準確率較高,能夠較好地識別出說話人的心理情感狀況,但在開心、生氣的情感判斷中,準確率仍有較大提升空間。各心理情感判斷結(jié)果見表1。
表1 基于MFCC的心理情感判斷結(jié)果
將判斷特征中加入短時語音能量后,心理情感判斷準確率得到一定程度提高,其中悲傷的判斷準確率可以達到96%。各心理情感判斷結(jié)果見表2。
表2 基于MFCC+短時語音能量的各心理情感判斷結(jié)果
由于之前的實驗部分只考慮到語音信號各幀的靜態(tài)特性,未考慮MFCC動態(tài)變化對心理情感判斷準確率的影響,因此在實驗中可加入D-MFCC特征進行分類實驗。通常D-MFCC對情感分類沒有MFCC敏感,但D-MFCC能夠從另一個角度反映情感的不同狀態(tài),同時采用D-MFCC及短時語音能量可以提高心理情感判斷的準確率,詳見表3。當加入特征D-MFCC后,生氣和開心判斷準確率均有一定程度提高,悲傷和驚訝判斷準確率略微下降,總體判斷準確率由84.4%上升為84.8%,證明加入D-MFCC對整個系統(tǒng)的判斷準確率有一定的促進作用。
表3 基于MFCC+D-MFCC+短時語音能量的心理情感分類實驗結(jié)果
腫瘤病人情緒多變,如不能及時發(fā)現(xiàn)病人過多的負面情緒并加以疏導(dǎo),容易導(dǎo)致病人生理、心理病情雙重惡化,不利于進一步康復(fù)治療[13]。本研究采用SVM模型通過提取語音特征進行心理情感判斷,判斷準確率較高,有利于醫(yī)護人員及時把握病人心理狀態(tài),進行情感信息反饋,對病人心理健康及醫(yī)學(xué)治療的順利實施有一定意義。
但本系統(tǒng)也存在一定缺陷,如病房等較為嘈雜的環(huán)境容易對系統(tǒng)判斷產(chǎn)生消極影響;本系統(tǒng)僅通過語音判斷病人心理狀況,形式單一,未來可考慮對圖像、文本內(nèi)容等多方式進行融合,全面對病人的心理狀態(tài)進行實時檢測。