李智倩,郭源蕊,賀子亮,鄧麗華,何 凌,李元媛
(1.四川大學(xué) 電氣工程學(xué)院,四川 成都 610065;2.四川大學(xué) 華西心理衛(wèi)生中心,四川 成都 610041)
精神分裂癥是一種病因不明的慢性精神疾病,易致殘且容易復(fù)發(fā)[1],多發(fā)于18周歲-45周歲人群,青壯年是主要患病群體。此病病程多遷移,約占中國住院精神病患的50%左右,慢性精神住院患者的60%左右[2]。精神分裂癥的病癥表現(xiàn)可具體分為陽性癥狀和陰性癥狀。陰性癥狀主要包括言語和思維貧乏、情感淡漠、社交障礙、孤僻和逃避[3]。
國內(nèi)外學(xué)者認(rèn)為,陰性癥狀是影響社會功能、導(dǎo)致精神殘疾的主要原因[4]。在過去的研究中,出現(xiàn)多項(xiàng)以精神分裂癥陰性癥狀為主要轉(zhuǎn)歸的臨床研究。然而,很多研究并未恰當(dāng)?shù)卦u估原發(fā)及持續(xù)存在的陰性癥狀,且樣本量較小,所以對陰性癥狀進(jìn)行更好的評估仍然是一個重要的挑戰(zhàn)。超過50%的精神分裂癥患者存在陰性癥狀,目前主要依靠訓(xùn)練有素、經(jīng)驗(yàn)豐富的臨床醫(yī)師檢測陰性癥狀[5],面臨著臨床醫(yī)師短缺、診斷周期長、成本高、效率低等問題,缺乏準(zhǔn)確可靠且及時的客觀生物學(xué)指標(biāo)及有效檢查手段[6],因此臨床上迫切需要敏感性和特異性更好的檢測方法。
情感淡漠是精神分裂癥陰性癥狀的顯著特征之一[7]。臨床[8]研究結(jié)果表明,情感淡漠與聲音表達(dá)能力降低有關(guān),此類陰性癥狀對患者的發(fā)聲能力產(chǎn)生巨大的影響。當(dāng)精神分裂癥患者遭受情感扁平化時,可能無法通過言語正確表達(dá)其預(yù)期情緒狀態(tài)[9-12]。在時域信號分析中,精神分裂癥患者語音的強(qiáng)度和能量較普通人小[13-16]。Vlliam Rapca等[17]分析了39名精神分裂患者及18名對照組語音信號中的能量變化,結(jié)果表明精神分裂癥患者的語音信能量低于正常人。在頻域信號分析中,精神分裂癥患者語音的頻譜強(qiáng)度與正常人存在差異。研究[18]結(jié)果表明精神分裂癥患者的大腦結(jié)構(gòu)改變可能與發(fā)音器官的功能改變有關(guān),而發(fā)音器官的狀態(tài)與頻譜特征密切相關(guān)。潘忠德等[19]對26名精神分裂癥患者和26名健康人的語音樣本分析,結(jié)果發(fā)現(xiàn)患者組的美爾頻率倒譜系數(shù)(the Mel-frequency cepstral,MFCC)和線性預(yù)測系數(shù)(linear prediction coding,LPC)評分顯著低于對照組。
近年來,國內(nèi)外學(xué)者致力于研究基于聲學(xué)參數(shù)分析的精神分裂癥自動識別算法。Shona等[20]通過分析語音能量的相對變化參數(shù),對精神分裂癥的預(yù)測診斷率達(dá)63.3%。Stassen等[21]通過分析患者的說話行為和聲學(xué)特征來研究精神分裂癥患者的陰性癥狀,提取平均能量、能量變化等語音參數(shù)并結(jié)合多元判斷函數(shù),對精神分裂癥的識別率為75.9%;Püschel等[22]對45例急性精神分裂癥患者說話行為和語音特征進(jìn)行研究,探尋語音參數(shù)和精神癥狀間的潛在聯(lián)系,以找出預(yù)測精神分裂癥狀嚴(yán)重性的語音參數(shù),結(jié)果發(fā)現(xiàn)急性期精神分裂癥患者幾乎所有的聲學(xué)變量均與對照組有顯著差異。且通過基頻曲線、平均能量語音參數(shù)信息,結(jié)合分類算法,可將精神分裂癥患者和對照組進(jìn)行分類的正確率為85.6%。Chakraborty等[23]對精神分裂癥患者的語音信號進(jìn)行研究,提取了基音頻率、能量、MFCC等聲學(xué)特征,結(jié)合SVM、隨機(jī)森林等多個分類器,實(shí)現(xiàn)精神分裂癥自動檢測,正確率達(dá)85%??傮w而言,國內(nèi)外通過語音參數(shù)對精神分裂癥進(jìn)行自動識別的研究較少,且存在樣本量較小,分類準(zhǔn)確率不高等問題,還需要不斷深入探討。
本文結(jié)合精神分裂癥患者語音信號在表達(dá)及強(qiáng)度上缺乏變化的特點(diǎn),構(gòu)建情感扁平化空間,并提出能夠區(qū)分精神分裂癥及正常人的多維度情感扁平化空間域特征(multi-dimensional spatial characteristics of flatten emotion,MDSF),然后利用分類器實(shí)現(xiàn)精神分裂癥及正常人的自動分裂檢測,為精神分裂癥的臨床診斷提供客觀的生物學(xué)指標(biāo)。
精神分裂癥患者的情感扁平化癥狀,導(dǎo)致其在語音表達(dá)上缺乏變化,使其情緒表達(dá)范圍和強(qiáng)度均低于正常人。本文提出精神分裂癥患者情感扁平化空間構(gòu)建算法,應(yīng)用激發(fā)維向量、評價維向量和強(qiáng)度維向量構(gòu)建多維度情感扁平化空間模型。該模型將語音時頻域特征參數(shù)映射至多維度情感扁平化空間,然后提取空間域特征,結(jié)合SVM分類器,實(shí)現(xiàn)精神分裂癥的自動識別。其算法總流程如圖1所示。
圖1 基于多維度情感扁平化空間域的精神分裂癥自動檢測算法流程
本文基于精神分裂癥情感扁平化的癥狀,提出多維度情感扁平化空間(multi-dimensional flatten emotion space,MFES)的構(gòu)建方式以及其空間域特征的提取算法。MFES的構(gòu)建過程以及空間域特征的提取算法如下。
1.1.1 本文提出的多維度情感扁平化空間
AVP三維情感空間模型是目前在情感信息領(lǐng)域最活躍的情感模型之一[24-27],它是由激發(fā)維(Arousal)、評價維(Valence)、強(qiáng)度維(Power)這3個維度組成。通常韻律特征反映激發(fā)維的信息,激發(fā)維表示情緒生理上的激勵水平以及對外界刺激的警覺程度。頻譜特征主要反映評價維的信息以及部分強(qiáng)度維的信息,評價維表示情感被感知的程度,情緒狀態(tài)的愉悅/不愉悅等程度;強(qiáng)度維表示對情感狀態(tài)的控制程度,例如,說話者的控制欲望及力量、對情緒的表達(dá)是主動控制還是被影響等。
本文將表征情感扁平化的時頻域特征映射到多維度情感空間,來構(gòu)建MFES的3個維度,從而構(gòu)建MFES,圖2所示為多維度情感扁平化空間。通常人類的情感是連續(xù)的、復(fù)雜多變的,不完全屬于某一特定的離散情感類別。MFES包含情緒表達(dá)的正負(fù)性、喚醒度、優(yōu)勢度,內(nèi)在的情緒成分的表達(dá)。從本文提出的MFES中提取語音特征,可提取情緒表達(dá)的極性和強(qiáng)度,使情感扁平化的信息得到充分提取,凸顯精神分裂癥與正常人的語言特性差異[27],有利于精神分裂癥的自動識別。
圖2 多維度情感扁平化空間及空間域特征
1.1.2 本文提出的多維度情感扁平化空間域特征參數(shù)(MDSF)
(1)
其中
P=(L1+L2+L3)/2
(2)
(3)
(4)
(5)
(1)MDSF特征的一維參數(shù)
當(dāng)多維度情感扁平化空間中激發(fā)維、評價維、強(qiáng)度維有兩個維度的特征為零時,MDSF特征的一維參數(shù)則用非零的特征表示,可用式(6)求解
(6)
(2)MDSF特征的二維參數(shù)
當(dāng)多維度情感扁平化空間中激發(fā)維、評價維、強(qiáng)度維有一個維度的特征為零時,將其余兩個維度的特征代入式(1)求解, MDSF特征的二維參數(shù)如式(7)所示
(7)
本文提出的多維度情感扁平化空間域特征是相關(guān)聲學(xué)特征的多成分、多維度、多水平的一種融合,將分布于不同維度的離散語音強(qiáng)度表達(dá)狀態(tài)結(jié)合起來,有機(jī)地結(jié)合了不同維度的聲學(xué)特征優(yōu)勢,有助于識別精神分裂癥患者與正常人。
精神分裂癥患者情緒遲鈍、情感淡漠陰性癥狀突出,對聲音的表達(dá)能力造成巨大的影響,尤其容易在言語內(nèi)容中限制情感表達(dá)。本文分別從情緒表達(dá)的正負(fù)特性、喚醒度、優(yōu)勢度等3個維度提出相關(guān)特征算法來構(gòu)建MFES中3個特征向量,從而將精神分裂癥情感扁平化癥狀導(dǎo)致的異常信息提取并融合。MFES中3個維度向量的構(gòu)建算法如下。
1.2.1 本文提出的MFES中評價維向量的構(gòu)建算法
MFES中評價維表示個體情緒的正負(fù)特性,對于外界激勵表現(xiàn)出愉悅/不愉悅的情緒狀態(tài)。情感淡漠癥狀致使精神分裂癥患者在閱讀誘發(fā)文本時,頻譜能量受到不同程度的抑制。精神分裂癥對比于正常人,當(dāng)處于愉悅/不愉悅的情緒狀態(tài)時,語音的強(qiáng)度在頻譜上有不同程度的表征。
本文基于頻譜能量來構(gòu)建評價維(Valence)向量。算法計(jì)算一段語音中說話人的全部頻率分量,以及各頻率分量下的強(qiáng)度分布譜[28](intensity distribution spectrum,IDS),它反映了每個子頻帶的能量集中度,能夠在一定程度上反應(yīng)說話人頻域能量的差異,從而表示精神分裂癥患者的情緒狀態(tài)變化。該特征計(jì)算過程如下:
將經(jīng)過預(yù)處理后的語音信號x(n) 進(jìn)行FFT譜分析,N點(diǎn)FFT傅里葉變換對如下
(8)
式(8)中,第k根譜線為X(k)/N。
雙邊峰幅度譜定義為
(9)
單邊峰幅度譜定義為
(10)
對單邊峰幅度譜進(jìn)行能量歸一化處理,設(shè)經(jīng)過能量歸一化處理的單邊峰幅度譜為ASn(k), 則有
(11)
由于FFT分析存在點(diǎn)數(shù)的差異,還要進(jìn)行頻率歸一化處理,即使FFT分析的點(diǎn)數(shù)內(nèi)插或者舍棄為固定點(diǎn)數(shù),本文將點(diǎn)數(shù)固定為550點(diǎn)。
然后將經(jīng)過能量歸一化和頻率歸一化的數(shù)據(jù)進(jìn)行平滑處理,設(shè)平滑后單邊峰幅度譜為ASs(k), 則有
(12)
求取單邊峰幅度譜譜線的能量均值,即將式(12)中的ASs(k) 譜線求平均能量,得到表示評價維向量的頻譜特征IDS(k)
(13)
式中:M為樣本的分幀幀數(shù)。
1.2.2 本文提出的MFES中強(qiáng)度維向量的構(gòu)建算法
精神分裂癥患者的發(fā)音功能改變大腦結(jié)構(gòu)改變與大腦結(jié)構(gòu)改變有關(guān),發(fā)音器的狀態(tài)與頻譜特征密切相關(guān),控制著情緒表達(dá)的飽滿程度。MFS空間中強(qiáng)度維(Power)表示說話者的控制欲望及力量、對情緒表達(dá)的主動控制程度。本文提出了一種基于多頻帶分析的幅度特征(multiband scale amplitude characteristics,MSA)來構(gòu)建強(qiáng)度維向量。MSA將語音信號分解成多個子帶信號,然后利用正弦模型對各子帶信號進(jìn)行分析,提取精神分裂癥患者以及正常人在語音上的情緒表達(dá)飽滿程度的差異。其特征提取算法流程如下:
(1)小波分解:利用小波分解(discrete wavelet transform,DWT)將語音信號分解為高頻信號和低頻信號,將語音信號的語音幀分解為近似系數(shù)Ljo,k和細(xì)節(jié)系數(shù)Hj,k(j=1,2,…,joandjo=3)。 近似系數(shù)Ljo,k表征了小波分解重構(gòu)的低頻部分信息,細(xì)節(jié)系數(shù)Hj,k表征了小波分解重構(gòu)的高頻部分信息。設(shè)經(jīng)過預(yù)處理后的語音信號為x(n), 對x(n) 進(jìn)行多尺度一維離散小波變換得到第一層近似系數(shù)。然后進(jìn)行三次小波分解分別得到第三層的近似系數(shù)L3,k以及細(xì)節(jié)系數(shù)H3,k、H2,k和H1,k;
(2)子帶信號重建:從近似系數(shù)Ljo,k和每個細(xì)節(jié)系數(shù)Hj,k分別用逆離散小波變換(inverse discrete wavelet transform,IDWT)構(gòu)造子帶信號,利用單個子帶的系數(shù)構(gòu)造信號時,要使其它子帶的系數(shù)為零。分別使用近似系數(shù)L3,k和細(xì)節(jié)系數(shù)H3,k、H2,k和H1,k來構(gòu)建4個子帶信號。這4個子帶信號L3,k、H3,k、H2,k、H1,k分別對應(yīng)于SL3、SH3、SH2、SH1;
(3)強(qiáng)度維向量特征提?。簩⒅亟ê蟮?個子帶信號SL3、SH3、SH2、SH1經(jīng)過離散傅里葉變換后分別得到4個子帶信號的尺度峰值A(chǔ)L3,AH3,AH2,AH1, 將4個子帶信號的所有正弦波峰串聯(lián)起來,得到最終的特征向量,計(jì)算過程如式(14)所示
[AL3,AH3,AH2,AH1]=abs(fft([SL3,SH3,SH2,SH1]))
(14)
1.2.3 本文提出的MFES中激發(fā)維向量的構(gòu)建算法
MFES中激發(fā)維表示人情緒生理上的激勵水平以及對外界刺激的警覺程度,精神分裂癥患者與正常人在受到實(shí)驗(yàn)閱讀文本的激勵時的情緒表達(dá)程度不同。精神分裂癥患者的語音表達(dá)強(qiáng)度受到抑制,導(dǎo)致精神分裂癥患者的語音強(qiáng)度變化小于正常人。語音能量通常能反映語音強(qiáng)度變化,本文基于改進(jìn)的短時能量來構(gòu)建激發(fā)維向量,構(gòu)建過程如下[29]:
設(shè)語音波形時域信號為x(n)、 加窗函數(shù)ω(n) 分幀處理后得到的第i幀語音信號為yi(n), 則yi(n)滿足
yi(n)=ω(n)*x((i-1)+inc+n),1≤n≤L, 1≤i≤fn
(15)
式(15)中,ω(n) 為窗函數(shù),本文選取漢明窗,n=1,2,…L,i=1,2,…fn,L為幀長;inc為幀移長度;fn為分幀后的總幀數(shù)。
則計(jì)算第i幀語音信號yi(n) 的短時能量公式為
(16)
為了避免由于采樣值大小對于取二次方造成的差異,求取語音信號的平均幅度來表示一幀語音信號的能量大小,設(shè)SEC(i) 表示平均幅度,求解如式(17)所示
(17)
SVM[30,31]分類器是一種典型的分類器,是由分類超平面定義的。它是針對線性可分情況分析的,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能。
本文進(jìn)行精神分裂癥情感淡漠癥狀自動分類主要考慮的因素是分類方式,本實(shí)驗(yàn)是將已作標(biāo)簽的精神分裂癥語音以及正常人的語音區(qū)分并賦予新的標(biāo)簽,是典型的二分類方式,本文選用SVM分類器進(jìn)行精神分裂癥的自動識別。
本實(shí)驗(yàn)采用的語音數(shù)據(jù)來自于四川大學(xué)華西心理衛(wèi)生中心,四川大學(xué)華西醫(yī)院心理衛(wèi)生中心是我國排名第二的精神衛(wèi)生機(jī)構(gòu),每年精神分裂癥患者的就診量大,數(shù)據(jù)庫資源豐富。本文的實(shí)驗(yàn)數(shù)據(jù)錄制文本是由四川大學(xué)華西心理衛(wèi)生中心的??凭癫W(xué)專家根據(jù)DSM-5標(biāo)準(zhǔn)制定的,根據(jù)閱讀文本,采用專業(yè)的錄音設(shè)備進(jìn)行語音的錄制,采樣頻率為44 100 hz。表1是專業(yè)醫(yī)師制定的閱讀文本中富含情感信息較多的語句。
表1 閱讀文本中富含情感信息較多的語句
實(shí)驗(yàn)共使用了28名精神分裂癥病人及28名正常人的語音數(shù)據(jù)進(jìn)行測試。
2.2.1 基于多維度情感扁平化空間域的精神分裂癥自動檢測
(1)MDSF特征在不同維度下自動識別效果的對比分析
本文基于多維度情感扁平化空間求解MDSF特征,為了分析MDSF特征在不同維度下的精神分裂癥識別性能, 分別將MDSF特征的一維、二維、三維特征集,輸入SVM分類器進(jìn)行自動分類測試,測試結(jié)果見表2。其中AUC(area under curve)為ROC曲線(receiver operating cha-racteristic curve)下的面積,是衡量分類器優(yōu)劣的一種評價指標(biāo);FPR(%)是假陽性(%),表示被算法檢測出來的假陽性樣本數(shù)除以所有真實(shí)陰性樣本數(shù);TPR(%)是真陽性(%),表示被算法檢測出來的真陽性樣本數(shù)除以所有真實(shí)陽性樣本數(shù)。
表2 不同維度下MDSF特征的精神分裂癥分類正確率
(2)不同維度下MDSF直觀結(jié)果的對比分析
分類器得到MDSF特征不同維度參數(shù)的自動分類結(jié)果,現(xiàn)從特征的直觀結(jié)果來分析精神分裂癥和正常人的差異。
1)MDSF特征的一維參數(shù)直觀結(jié)果的分析
分別用于構(gòu)建MFES中評價維、強(qiáng)度維、激發(fā)維的特征IDS、MSA、SEC從3個情緒控制維度提取了精神分裂癥患者與正常人的語音強(qiáng)度差異信息。圖3(a)表示正常人與精神分裂癥患者的IDS差異,情感的扁平化與頻域中頻譜幅度的波動有關(guān)。低頻帶中,精神分裂癥患者的頻譜幅度略低于正常人的頻譜幅度。由于正常人沒有言語障礙,發(fā)聲能力正常,能夠正確地表達(dá)出預(yù)期的情緒狀態(tài),使得正常人的IDS的中高頻帶頻譜幅度高于精神分裂癥患者,精神分裂癥患者的情感淡漠癥狀較為明顯。圖3(b)表示精神分裂癥患者和正常人的MSA對比,正常人的情緒表達(dá)飽滿程度高于精神分裂癥患者。圖3(c)中,語音信號的SEC隨時間的變化而變化,情感的表征強(qiáng)弱與能量的大小有較強(qiáng)的聯(lián)系;正常人在閱讀指定的誘發(fā)情感的文本時,情感表達(dá)的強(qiáng)弱正常輸出,在語義能夠表現(xiàn)情感的語音數(shù)據(jù)上,正常人的語音會出現(xiàn)波動,能量有明顯的升高跡象;而精神分裂癥患者的情感淡漠,在語音的波動變化上體現(xiàn)較小,精神分裂癥患者的語音能量一直處于一種較為平緩的水平,情感無強(qiáng)烈的波動,情緒的表達(dá)相對于正常人語音的強(qiáng)度減弱。
圖3 3個維度特征在精神分裂癥患者與正常人中分布差異
2)MDSF特征的二維及三維參數(shù)的直觀結(jié)果的分析
本文提出的MDSF特征的二維、三維參數(shù)在精神分裂癥患者與正常人中的大小分布差異如圖4所示,其中圖4(a)~圖4(c)是精神分裂癥患者與正常人的3個二維MDSF特征的差異分布的箱線圖,其中,每一個箱線圖上方和下方的短線條“-”對應(yīng)的縱坐標(biāo)為上邊緣和下邊緣,箱線圖中間的線條對應(yīng)的是中位數(shù),“+”號表示異常值。圖4(d)是精神分裂癥患者與正常人的三維MDSF特征值的差異分布。對比于二維MDSF特征,三維MDSF特征提高了精神分裂癥患者與正常人的差距范圍,為SVM分類提供更高的分類準(zhǔn)確率。
圖4 MDSF特征在精神分裂癥患者與正常人中分布差異
2.2.2 本文提出的MDSF與國內(nèi)外現(xiàn)有技術(shù)的對比實(shí)驗(yàn)
近年來國內(nèi)外學(xué)者致力于研究精神分裂癥與正常人在語音信號表達(dá)上的差異,并探究了LPC[19]、基頻[23]、平均能量[23]、MFCC[23]等國內(nèi)外現(xiàn)有技術(shù)對精神分裂癥陰性癥狀的識別效率。針對本實(shí)驗(yàn)的數(shù)據(jù),本文對基頻、平均能量、LPC、MFCC等語音特征進(jìn)行了分類正確率測試,測試結(jié)果見表3。
從表3得出,國內(nèi)外現(xiàn)有技術(shù)中正常人與精神分裂癥的自動分類正確率范圍為68.9%-81.5%,而本文提出的多維度情感扁平化空間域特征對精神分裂癥的正確率范圍為85.1%-89.1%,提高了國內(nèi)外現(xiàn)有技術(shù)的精神分裂癥識別率,具有良好的精神分裂癥檢測效果。
表3 國內(nèi)外語音特征與三維MDSF的分類正確率對比
本文利用改進(jìn)的相關(guān)情感扁平化的時頻域語音特征映射到多維度空間,以此構(gòu)建情感扁平化空間,并計(jì)算多維度情感扁平化空間域特征,突出了精神分裂癥患者情感淡漠導(dǎo)致語音變化少、韻律異常的特點(diǎn)。
實(shí)驗(yàn)分別對28個精神分裂癥患者和28個正常對照組的語音樣本進(jìn)行特征參數(shù)提取以及自動分類測試。分析了本文提出的不同維度MDSF特征對精神分裂癥與正常人的識別性能,以及對比分析了本文提出的MDSF特征與國內(nèi)外現(xiàn)有技術(shù)的精神分裂癥識別正確率。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文提出的MDSF特征在三維情況下對正常人與精神分裂癥的自動分類正確率為89.1%,高于低維度MDSF特征及國內(nèi)外現(xiàn)有技術(shù)的分類正確率,實(shí)現(xiàn)了精神分裂癥患者以及正常人的自動分類檢測。說明了本文提出的多維度情感扁平化空間域特征對精神分裂癥患者陰性癥狀的自動分類檢測具有作用。