徐志京,張鐵海
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
帕金森疾病(Parkinson′s Disease,PD)是一種常見的中老年人神經(jīng)系統(tǒng)退行性疾病,患者在臨床上主要表現(xiàn)為運(yùn)動(dòng)遲緩、運(yùn)動(dòng)量減少、肌僵直、肢體不自主的抖動(dòng)和語音障礙等癥狀[1].研究發(fā)現(xiàn),帕金森患者由于腦部多巴胺的缺失,使得神經(jīng)元無法穩(wěn)定控制發(fā)聲器官,聲音較正常人會(huì)發(fā)生變化[2].隨著人工智能的發(fā)展,聲紋識(shí)別技術(shù)也得到了一定的提升,使得基于聲紋的PD檢測(cè)成為可能,并且其具有非侵入性、便利等優(yōu)勢(shì),得到了國(guó)內(nèi)外相關(guān)領(lǐng)域?qū)W者的關(guān)注.
國(guó)內(nèi)外學(xué)者針對(duì)基于聲紋的帕金森檢測(cè)做了一系列研究.2015年Benba等人提出通過獲取音頻的梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)利用支持向量機(jī)(SVM)進(jìn)行帕金森患者的檢測(cè)[3].2016年Benba等人繼續(xù)研究了利用MFCC及其差分特征結(jié)合SVM不同的核函數(shù)進(jìn)行檢測(cè)準(zhǔn)確率的探究[4].MFCC雖然可以很好的模擬人類的聽覺感知,但是由于提取特征過程中時(shí)頻轉(zhuǎn)換方法和濾波器的限制,對(duì)音頻細(xì)節(jié)信息和高頻部分表征能力差,用作聲紋識(shí)別方面存在一定的不足.并且SVM是一種淺層的機(jī)器學(xué)習(xí)分類器,對(duì)復(fù)雜函數(shù)的表示能力有限[5].2019年張穎等人利用加權(quán)MFCC結(jié)合DNN多層感知器進(jìn)行帕金森患者的檢測(cè),準(zhǔn)確率為87.5%[6],證明了利用深度學(xué)習(xí)方法進(jìn)行PD檢測(cè)的可行性.2019年王娟等人將音頻信號(hào)轉(zhuǎn)換成語譜圖,然后利用改進(jìn)的GAN網(wǎng)絡(luò)和VGG16結(jié)合實(shí)現(xiàn)樣本擴(kuò)充與分類,為相關(guān)研究提供了新的思路[7].此外,為了準(zhǔn)確定位語音部分并提取聲紋特征,需要在特征提取前利用雙門限端點(diǎn)檢測(cè)方法[8]對(duì)音頻進(jìn)行靜音剔除,該方法總是默認(rèn)開始的前5幀為靜音區(qū),然而當(dāng)音頻開始部分為有聲段時(shí),識(shí)別效果不理想.2016年科大訊飛提出全序列卷積神經(jīng)網(wǎng)絡(luò)[9](DFCNN),通過識(shí)別處理經(jīng)過傅里葉變換的語譜圖進(jìn)行音頻中時(shí)域和頻域特征的提取,完成語音處理及識(shí)別.
鑒于傳統(tǒng)的雙門限端點(diǎn)檢測(cè)方法在靜音剔除方面的局限,提出一種動(dòng)態(tài)幀雙門限端點(diǎn)檢測(cè)方法,有效獲取語音區(qū).針對(duì)傳統(tǒng)MFCC特征提取過程中的不足,本文將小波變換引入特征提取過程中并改進(jìn)濾波器結(jié)構(gòu),提出高頻梅爾倒譜小波系數(shù)(High Mel Frequency Cepstrum Wavelet Coefficient,HMFCWC)這一新的聲紋特征,更好的反映音頻中細(xì)節(jié)信息,最后針對(duì)該特征及分類目的,對(duì)全序列卷積神經(jīng)網(wǎng)絡(luò)重新設(shè)計(jì),利用添加特征加權(quán)層的加權(quán)全序列卷積神經(jīng)網(wǎng)絡(luò)(Weighted Deep Fully Convolutional Necural Network,W-DFCNN)實(shí)現(xiàn)帕金森患者和健康者分類.
本文構(gòu)建的PD患者檢測(cè)模型如圖1所示.該模型主要包括音頻數(shù)據(jù)采集,靜音區(qū)剔除,特征提取和分類識(shí)別.首先將數(shù)據(jù)音頻中包含的靜音區(qū)剔除,減少冗余信息,獲取有效音頻.然后對(duì)有效音頻進(jìn)行特征提取,最后將特征送入W-DFCNN分類器中進(jìn)行分類,通過敏感性、特異性和準(zhǔn)確性對(duì)模型性能進(jìn)行評(píng)價(jià).
圖1 PD患者檢測(cè)模型Fig.1 PD patient detection model
2.1.1 雙門限端點(diǎn)檢測(cè)
在帕金森患者的音頻采集過程中,由于患者需多次發(fā)音,采集到的音頻中會(huì)存在非語音區(qū),需要采用端點(diǎn)檢測(cè)進(jìn)行靜音區(qū)剔除,保留有聲段.雙門限檢測(cè)法是常用方法,該方法通過短時(shí)能量和短時(shí)過零率進(jìn)行相關(guān)閾值設(shè)定.其中短時(shí)能量是反映能量隨時(shí)間變化的參數(shù).對(duì)于語音x(n),第n幀的短時(shí)能量定義為:
(1)
其中h(n)=w(m)2,N為幀長(zhǎng),w(m)為窗函數(shù),本文選取漢明窗.
短時(shí)過零率反映了每幀信號(hào)通過零值的次數(shù).信號(hào)x(n)的短時(shí)過零率定義為:
(2)
其中sgn[]是符號(hào)函數(shù).
雙門限端點(diǎn)檢測(cè)法共設(shè)定3個(gè)閾值,分別是高能量閾值、低能量閾值和過零率閾值.通過檢測(cè)去除低于相關(guān)閾值的音頻,完成靜音剔除.該方法是一種源于實(shí)驗(yàn)室的方法,在低能量閾值設(shè)定時(shí),總是默認(rèn)開始的前5幀為靜音區(qū),取前幾幀的能量均值作為較低能量閾值.然而在PD數(shù)據(jù)集中很多音頻開始部分為非靜音區(qū),此時(shí)雙門限端點(diǎn)檢測(cè)方法無法準(zhǔn)確檢測(cè)靜音區(qū)和語音區(qū),錯(cuò)誤剔除語音部分,造成有效音頻的丟失.
2.1.2 動(dòng)態(tài)幀雙門限端點(diǎn)檢測(cè)
針對(duì)以上問題,提出動(dòng)態(tài)幀雙門限端點(diǎn)檢測(cè)方法,該方法能夠動(dòng)態(tài)精準(zhǔn)尋找音頻中的靜音區(qū),實(shí)現(xiàn)音頻靜音區(qū)的剔除.實(shí)現(xiàn)步驟如下:
計(jì)算各幀的短時(shí)能量E1,E2…En和短時(shí)過零率Z0,Z1,…,Zn.其中選取256個(gè)取樣點(diǎn)為1幀,幀移為128個(gè)采樣點(diǎn).
設(shè)定較高的能量閾值.計(jì)算所有幀能量的總和,取總能量的2/3作為能量閾值的較高閾值EH,計(jì)算公式為:
(3)
其中Ei為第i幀的短時(shí)能量值,a為比例系數(shù),本文取2/3.
設(shè)定較低的能量閾值.首先將短時(shí)能量進(jìn)行從低到高排序?yàn)镋(1),E(2),…,E(n),計(jì)算排序后各幀能量的中位數(shù)EM,計(jì)算公式為:
(4)
取能量值小于中位數(shù)EM的幀能量的平均值作為能量閾值的較低閾值EL,計(jì)算公式為:
(5)
其中E(l)表示能量值小于EM值的幀,N表示E(l)的個(gè)數(shù).
設(shè)定過零率閾值.計(jì)算所有幀過零率的和,取總過零率的1/5為過零率閾值ZH,計(jì)算公式為:
(6)
其中Zi為第i幀的短時(shí)過零率,b為比例系數(shù),本文取1/5.
3次幀循環(huán)完成端點(diǎn)檢測(cè).第1次幀循環(huán),截取能量超過EH值的音頻段分離出語音中的濁音部分.第2次幀循環(huán),由上一次循環(huán)截取的濁音部分向兩端擴(kuò)展到能量超過EL值的幀,增加輔音部分,擴(kuò)大有效音頻范圍.第3次幀循環(huán)在第2次循環(huán)的基礎(chǔ)上,尋找過零率超過ZH的幀為清音部分.3部分合并為最終端點(diǎn)檢測(cè)的有效音頻.
圖2 原始音頻及兩種端點(diǎn)檢測(cè)方法的結(jié)果Fig.2 Original audio and the result of two endpoint detection methods
動(dòng)態(tài)幀雙門限端點(diǎn)檢測(cè)方法通過將每幀能量按照升序排列,動(dòng)態(tài)獲取語音中能量相對(duì)較少或者為零的區(qū)域進(jìn)行相關(guān)閾值設(shè)定,完成靜音區(qū)的剔除.實(shí)驗(yàn)證明該方法能夠精準(zhǔn)獲取有效音頻.兩種端點(diǎn)檢測(cè)方法靜音剔除效果如圖2所示,各子圖橫軸為時(shí)間,縱軸為幅度.圖2(a)為原始音頻波形,開始部分為有聲段,時(shí)長(zhǎng)22秒;圖2(b)為雙門限端點(diǎn)檢測(cè)截取的有效音頻,時(shí)長(zhǎng)2.8秒;圖2(c)為動(dòng)態(tài)幀雙門限端點(diǎn)檢測(cè)后的音頻,時(shí)長(zhǎng)12.8秒.可以看出,雙門限法端點(diǎn)檢測(cè)在對(duì)開始部分為語音區(qū)的音頻進(jìn)行靜音剔除時(shí),會(huì)將音頻中的有聲段去除,造成信息損失.而動(dòng)態(tài)幀端點(diǎn)檢測(cè)方法能夠準(zhǔn)確剔除靜音區(qū),減少冗余信息,同時(shí)保留有效音頻部分,為特征提取提供可靠數(shù)據(jù).
2.2.1 MFCC特征
Mel倒譜系數(shù)(MFCC)是語音識(shí)別系統(tǒng)中常用的特征[10],傳統(tǒng)的MFCC[11]特征參數(shù)的提取過程是將端點(diǎn)檢測(cè)后的音頻通過傅里葉變換得到信號(hào)的頻率,然后通過Mel濾波器組得到相應(yīng)參數(shù),最后將離散余弦變換(DCT)應(yīng)用到對(duì)數(shù)濾波器組能量中,得到相應(yīng)的系數(shù).然而傅里葉變換具有一定局限性,它是將信號(hào)分解成不同頻率正弦波的疊加,采用無限長(zhǎng)的三角函數(shù),具有單一性.能夠很好的擬合平穩(wěn)信號(hào),但是對(duì)突變信號(hào)和非平穩(wěn)信號(hào)擬合效果不佳.并且其基函數(shù)是全局性的,不能夠刻畫時(shí)間域上信號(hào)的局部性,無法確定相應(yīng)頻率出現(xiàn)的時(shí)間,難以區(qū)分擁有共同頻率的信號(hào),不具有多分辨率分析和局部信號(hào)分析的能力.
信號(hào)進(jìn)行時(shí)頻轉(zhuǎn)換后,再通過濾波器進(jìn)行信號(hào)濾波,Mel濾波器組中的三角濾波器在低頻區(qū)域分布密集,高頻區(qū)域分布稀疏.這種設(shè)計(jì)使得信號(hào)經(jīng)過濾波器后能夠保留低頻部分信息,而高頻部分的信息會(huì)有所損失,影響最終的分類準(zhǔn)確性.
2.2.2 HMFCWC特征
針對(duì)以上MFCC特征的不足,本文提出在PD檢測(cè)分類時(shí)提取高頻梅爾頻率倒譜小波系數(shù)(HMFCWC)特征.該特征的提取過程為:首先對(duì)語音信號(hào)進(jìn)行一系列預(yù)處理,然后通過小波變換,實(shí)現(xiàn)時(shí)間和頻率的局部化,經(jīng)過H-Mel濾波器,更好的保留高頻部分的細(xì)節(jié)信息,減少信息損失,最后通過取Log對(duì)數(shù)能量和DCT變換得到最終的HMFCWC特征,提取過程如圖3(a)所示.鑒于原始濾波器的缺陷,將濾波器結(jié)構(gòu)進(jìn)行調(diào)整,減少高頻部分濾波器的帶寬和間隔,以此保證高頻部分信息的有效獲取[12].新的Mel-Hz對(duì)應(yīng)尺度關(guān)系為:
(7)
改進(jìn)后的濾波器組如圖3(b)所示.
HMFCWC特征針對(duì)傅里葉變換存在的問題,將小波變換引入提取過程中,連續(xù)小波變換的表達(dá)式為:
(8)
其中f(t)為原始的時(shí)域信號(hào),ψ(t)是基函數(shù),參數(shù)a為尺度因子,b為平移因子.小波變換在傅里葉變換的基礎(chǔ)上做了修改提升,通過基小波函數(shù)的伸縮和平移實(shí)現(xiàn)窗口的可變性,尺度因子與時(shí)頻窗口的寬度成正比,與時(shí)頻窗口的高度成反比.在檢測(cè)高頻分量時(shí),尺度因子a<0相應(yīng)變??;分析低頻時(shí),尺度因子a>0相應(yīng)增加.通過改變尺度因子的大小,實(shí)現(xiàn)時(shí)頻窗口自適應(yīng)的變換,使小波變換具有可變的時(shí)間和頻率分辨率,能夠更好的擬合突變信號(hào)和處理非平穩(wěn)信號(hào)[13],防止音頻中特征信息的丟失.
圖3 HMFCWC特征提取過程及H-Mel濾波器Fig.3 HMFCWC feature extraction process and H-Mel filter bank
小波基函數(shù)ψ(t)的選擇會(huì)對(duì)結(jié)果產(chǎn)生不同影響,合理的基函數(shù)應(yīng)該具有空間局域化,即函數(shù)在很小區(qū)間內(nèi)為非零值.另外還需滿足均值為零,即具有振蕩性,有合適的消失矩和正則性,更好的對(duì)音頻進(jìn)行數(shù)據(jù)壓縮和平滑信號(hào).基于以上原則,本文選取Daubechies4為小波基函數(shù).音頻傅里葉變換和小波變換二維圖如圖4所示.其中各子圖橫坐標(biāo)表示頻率,縱坐標(biāo)表示振幅.從圖4中可以看出,小波變換變換相比傅里葉變換對(duì)音頻信息更加敏感,能夠反映更多細(xì)節(jié)信息.
圖4 音頻傅里葉變換和小波變換二維圖Fig.4 Two-dimensional diagram of Fourier transform and wavelet transform
HMFCWC特征包含音頻更多的信息,傳統(tǒng)的機(jī)器學(xué)習(xí)是一種淺層結(jié)構(gòu)算法,對(duì)樣本深層特征學(xué)習(xí)能力不足,對(duì)復(fù)雜函數(shù)的表征能力有限[14],無法很好適應(yīng)HMFCWC特征.為了更好適應(yīng)PD患者采集的HMFCWC特征,本文在全序列卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)了加權(quán)全序列卷積神經(jīng)網(wǎng)絡(luò)(W-DFCNN),結(jié)構(gòu)如圖5所示.W-DFCNN網(wǎng)絡(luò)增加一個(gè)卷積池化單元,更好的提取HFMCWC特征中深層信息,考慮樣本數(shù)量的影響,為了防止過擬合,在每一個(gè)卷積池化單元后增加Dropout層.由于同為健康人或者帕金森患者類別是來自不同個(gè)體的聲音,因此提取的特征中存在個(gè)體差異的特征,為了使網(wǎng)絡(luò)能夠更好區(qū)分健康人和帕金森患者的特征,引入一個(gè)特征加權(quán)層,實(shí)現(xiàn)對(duì)關(guān)鍵特征的加權(quán),降低其它特征的影響.
圖5 W-DFCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 W-DFCNN network structure
W-DFCNN網(wǎng)絡(luò)通過一個(gè)全連接層實(shí)現(xiàn)特征加權(quán),特征加權(quán)矩陣為W,輸入特征加權(quán)層的特征用I∈Rs×c表示,其中s×c表示輸入的特征維度,用F={f1,f2,…fc}表示輸入加權(quán)層的特征,經(jīng)過特征加權(quán)層后的加權(quán)特征為:
G=δ(W*F+b)
(9)
其中G是加權(quán)后的特征,δ(·)是特征加權(quán)層的激活函數(shù),b為偏置項(xiàng).該層的特征輸入為F,輸出的加權(quán)后特征為G={g1,g2…gc},為了更好的學(xué)習(xí)特征矩陣,設(shè)計(jì)了一個(gè)約束函數(shù)進(jìn)行權(quán)重學(xué)習(xí),約束公式為:
(10)
1)卷積層.W-DFCNN網(wǎng)絡(luò)中的卷積層實(shí)現(xiàn)進(jìn)一步的特征提取,利用卷積核對(duì)輸入的特征矩陣進(jìn)行卷積運(yùn)算,獲取特征中的深層信息,實(shí)現(xiàn)特征的選擇.輸入xt經(jīng)過卷積層的輸出為:
y=W*xt+bt
(11)
其中W為卷積濾波器,bt表示卷積偏差.
2)池化層.經(jīng)過卷積層處理后的特征矩陣進(jìn)入池化層.池化層能夠?qū)崿F(xiàn)特征降維,將卷積得到的特征點(diǎn)進(jìn)行整合,壓縮數(shù)據(jù),實(shí)現(xiàn)信息過濾.特征矩陣經(jīng)過最大池化層的輸出為:
ymax_pool=max(xt)
(12)
3)Dropout層.由于數(shù)據(jù)集數(shù)量較少,為了防止出現(xiàn)過擬合現(xiàn)象,在網(wǎng)絡(luò)每?jī)蓚€(gè)卷積層后添加Dropout層,并設(shè)置失活率為10%,使得在網(wǎng)絡(luò)前向傳播過程中,讓部分神經(jīng)元停止工作,增強(qiáng)網(wǎng)絡(luò)的泛化能力.對(duì)應(yīng)的輸出為:
ydrop=drop(xt)
(13)
經(jīng)過四次卷積、池化、Dropout層處理后,最后特征矩陣送入設(shè)計(jì)的特征加權(quán)層.
4)特征加權(quán)層.該層實(shí)現(xiàn)對(duì)關(guān)鍵特征的加權(quán),消除因個(gè)體差異造成的影響,對(duì)能夠有效區(qū)分健康人和帕金森患者的特征進(jìn)行加權(quán),有效提高網(wǎng)絡(luò)的識(shí)別率和準(zhǔn)確率.
5)全連接層.特征加權(quán)后的特征輸入全連接層,連接經(jīng)過處理后的所有特征,全連接層通過Sigmoid函數(shù)[15]得到最終的輸出,實(shí)現(xiàn)音頻的分類.其中Sigmoid函數(shù)表達(dá)式為:
(14)
W-DFCNN網(wǎng)絡(luò)的優(yōu)化實(shí)質(zhì)是不斷減少損失函數(shù)的過程.本文最終的損失函數(shù)為:
L=Lo+λLc
(15)
其中Lo的表達(dá)式為:
Lo=-αyilog(hθ(x))-(1-α)γ(1-yi)log(1-hθ(x))
(16)
其中yi表示輸入數(shù)據(jù)的正確類別,健康人別取值為1,帕金森患者取值為0.hθ(x)表示網(wǎng)絡(luò)預(yù)測(cè)輸出,本文α取值為0.25,γ取值為2,λ取值為0.02.
文章使用Sakar[16]等人收集的PD數(shù)據(jù)集.該數(shù)據(jù)集包括20例(6名女性和14名男性)PD患者和20例(10名女性和10名男性)健康人.PD患者的診斷時(shí)間介于0-6年之間,患者年齡在43歲-77歲之間(平均年齡為64.86歲,標(biāo)準(zhǔn)差為8.97).健康人的年齡在45歲-83歲之間(平均年齡為62.55歲,標(biāo)準(zhǔn)差為10.97).參與者所有的錄音是通過Trust MC-1500的麥克風(fēng)進(jìn)行,麥克風(fēng)被設(shè)置為96kHz和30dB,放置在離參與者15cm遠(yuǎn)的地方.文章使用了3種類型的錄音,參與者(20例PD患者和20例健康人)被邀請(qǐng)?jiān)谝粋€(gè)舒適的狀態(tài)下持續(xù)發(fā)出3個(gè)元音/a/、/o/和/u/.所有的記錄都為立體聲模式并保存為wav格式的音頻文件.
數(shù)據(jù)集共176個(gè)語音信號(hào),首先通過動(dòng)態(tài)幀雙門限端點(diǎn)檢測(cè)方法剔除數(shù)據(jù)集中包含的靜音區(qū),保留有效音頻并剪切成每2秒一段的語音段.經(jīng)過該過程后,共產(chǎn)生912個(gè)有效語音段,同時(shí)將數(shù)據(jù)集分成866個(gè)(95%)的訓(xùn)練數(shù)據(jù)和46個(gè)(5%)的測(cè)試數(shù)據(jù)兩部分.音頻的各項(xiàng)參數(shù)是采樣頻率為44100Hz,量化位數(shù)為16比特,雙聲道信號(hào),幀長(zhǎng)為256個(gè)采樣點(diǎn),幀移量為128個(gè)采樣點(diǎn).
本實(shí)驗(yàn)是基于64位Windows10操作系統(tǒng),CPU型號(hào)為Inter(R)Core(TM)i7-7800X 3.50GHz,內(nèi)存16GB,GPU型號(hào)為NVIDIA GeForce GTX 1080Ti,顯存11GB的計(jì)算機(jī)完成的,系統(tǒng)基于Keras深度學(xué)習(xí)框架和TensorFlow后端實(shí)現(xiàn).
為了對(duì)比特征提取中改變?yōu)V波器結(jié)構(gòu)對(duì)分類精度的影響、調(diào)整為小波變換對(duì)分類精度的影響和不同網(wǎng)絡(luò)對(duì)分類精度的影響.本文設(shè)計(jì)3組對(duì)比實(shí)驗(yàn),第1組實(shí)驗(yàn)對(duì)照組利用傳統(tǒng)的傅里葉變換和Mel濾波器提取MFCC特征,實(shí)驗(yàn)組采用傅里葉變換和H-Mel濾波器提取特征,檢驗(yàn)修改后的濾波器對(duì)分類結(jié)果的影響.第1組實(shí)驗(yàn)特征提取的方式如表1所示.
表1 第1組實(shí)驗(yàn)設(shè)定Table 1 First group of experimental settings
第2組實(shí)驗(yàn)對(duì)照組采用傅里葉變換和Mel濾波器進(jìn)行MFCC特征提取,實(shí)驗(yàn)組采用小波變換和Mel濾波器提取特征,驗(yàn)證改變?yōu)樾〔ㄗ儞Q后對(duì)分類結(jié)果的影響.第2組實(shí)驗(yàn)特征提取的方式如表2所示.
表2 第2組實(shí)驗(yàn)設(shè)定Table 2 Second group of experimental settings
最后一組利用小波變換和改進(jìn)的H-Mel濾波器結(jié)合的方式提取HMFCWC特征,驗(yàn)證新的特征在不同分類器中的分類效果.3組實(shí)驗(yàn)分別利用SVM[17]、DNN[18]、DFCNN、W-DFCNN 3種分類器對(duì)提取的特征進(jìn)行學(xué)習(xí)分類,對(duì)比本文提出的網(wǎng)絡(luò)在不同特征下的識(shí)別效果.
為了對(duì)比不同特征在不同分類器中的識(shí)別效果,利用準(zhǔn)確性(ACC)、特異性(SPE)、敏感性(SEN)作為實(shí)驗(yàn)的評(píng)判標(biāo)準(zhǔn)[19].準(zhǔn)確性表示準(zhǔn)確檢測(cè)識(shí)別兩種人群的百分比,特異性代表檢測(cè)PD患者的準(zhǔn)確性,敏感性代表檢測(cè)健康人的準(zhǔn)確性.真正類(TP)表示被模型預(yù)測(cè)為健康人的健康人樣本;假正類(FP):被模型預(yù)測(cè)為健康人的帕金森病人樣本;假負(fù)類(FN):被模型預(yù)測(cè)為PD患者的健康人樣本;真負(fù)類(TN):被模型預(yù)測(cè)為PD患者的PD患者樣本.評(píng)判標(biāo)準(zhǔn)的計(jì)算公式為:
(17)
(18)
(19)
表3 第1組實(shí)驗(yàn)結(jié)果Table 3 First group of experimental results
第1組實(shí)驗(yàn)結(jié)果如表3所示,從表3中可以看出在同一分類器下,實(shí)驗(yàn)組的評(píng)價(jià)指標(biāo)均高于對(duì)照組.由此可知,通過調(diào)整高頻部分濾波器組后,使得提取過程能夠保留音頻高頻部分更多的細(xì)節(jié)信息,在相同網(wǎng)絡(luò)下,相比原始的濾波器有更高的準(zhǔn)確率.SVM下提升了1.9%的準(zhǔn)確率,DNN下提升了1.8%的準(zhǔn)確率,DFCNN網(wǎng)絡(luò)下提升了2.1%的準(zhǔn)確率.W-DFCNN網(wǎng)絡(luò)下提升了1.5%.在提取同一特征的情況下,W-DFCNN網(wǎng)絡(luò)的總體識(shí)別效果最好.
表4 第2組實(shí)驗(yàn)結(jié)果Table 4 Second group of experimental results
第2組實(shí)驗(yàn)結(jié)果如表4所示.從表4中可以看出,在同一分類器的條件下,采用小波變換進(jìn)行特征提取的實(shí)驗(yàn)組各項(xiàng)評(píng)價(jià)指標(biāo)均高于對(duì)照組.結(jié)果表明:相比傅里葉變換,小波變換能夠更好的擬合音頻信號(hào),適應(yīng)音頻信號(hào)非平穩(wěn)性的特點(diǎn),更充分的提取音頻中包含的信息,有利于提高模型的準(zhǔn)確率.SWM下準(zhǔn)確率提高2.5%,DNN下準(zhǔn)確率提高了2.6%,DFCNN網(wǎng)絡(luò)下準(zhǔn)確率提高了3.8%,W-DFCNN網(wǎng)絡(luò)下準(zhǔn)確率提高了3.1%,其他標(biāo)準(zhǔn)都有一定的提高.
第3組實(shí)驗(yàn)利用小波變換和H-Mel濾波器進(jìn)行HMFCWC特征的提取,并在不同的模型下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示.
表5 HMFCWC特征的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of HMFCWC features
通過表5和表3中的對(duì)照組結(jié)果相比可知,HMFCWC特征相比原有的MFCC特征,在SVM分類器下準(zhǔn)確率提高了6%,敏感性提高了7%,特異性提高了5.5%;DNN分類器準(zhǔn)確率提高了6.6%,敏感性提高了6.8%,特異性提高了6.4%;在DFCNN網(wǎng)絡(luò)下準(zhǔn)確率提高了9.3%,敏感性提高了9.2%,特異性提高了9.4%.本文設(shè)計(jì)的網(wǎng)絡(luò)W-DFCNN準(zhǔn)確率提高了9%,敏感性提高了8.7%,特異性提高了9.3%.
圖6 W-DFCNN的訓(xùn)練和測(cè)試loss曲線Fig.6 Training and testing loss curves of W-DFCNN
最終W-DFCNN網(wǎng)絡(luò)的損失函數(shù)如圖6所示.其中實(shí)線表示訓(xùn)練loss曲線,虛線表示測(cè)試的loss曲線.從圖6中可以看出loss曲線隨著迭代次數(shù)的增加,數(shù)值逐漸減少,最終收斂于接近0值,表明該網(wǎng)絡(luò)能夠很好的學(xué)習(xí)到有效特征,有利于對(duì)PD數(shù)據(jù)集進(jìn)行分類.
綜上所述,本文提出的通過將小波變換和改進(jìn)的H-Mel濾波器相結(jié)合的HMFCWC特征,在準(zhǔn)確率、特異性和敏感性方面都有了顯著提高.同時(shí)對(duì)比相同特征下的不同分類器的效果,表明本文的具有特征加權(quán)層的W-DFCNN能夠?qū)哂袇^(qū)分性的特征進(jìn)行加權(quán)處理,獲取有效特征,相比其他分類器更有優(yōu)勢(shì).本文特征提取方法和分類器組合具有良好的效果.
PD患者音頻數(shù)據(jù)中總是存在靜音區(qū),新的動(dòng)態(tài)幀雙門限端點(diǎn)檢測(cè)方法通過合理設(shè)定閾值,能夠快速精準(zhǔn)剔除音頻中的靜音區(qū),充分保留有效音頻.HMFCWC特征通過小波變換很好擬合非平穩(wěn)的音頻信號(hào),H-Mel濾波器有效的保留高頻部分的細(xì)節(jié)信息,兩者結(jié)合能夠充分獲取音頻中的有用信息.實(shí)驗(yàn)表明HMFCWC特征在不同的分類器下各項(xiàng)評(píng)價(jià)指標(biāo)都高于MFCC,更適合帕金森患者音頻樣本檢測(cè).同時(shí)通過對(duì)比實(shí)驗(yàn)證明,本文設(shè)計(jì)的W-DFCNN網(wǎng)絡(luò)通過引入加權(quán)層,對(duì)有效區(qū)分兩類的特征進(jìn)行加權(quán),減少無關(guān)特征的影響,在PD患者分類方面相比SVM、DNN和DFCNN分類器更具優(yōu)勢(shì).未來的工作可以嘗試采用多模態(tài)融合特征分類方法,以獲得更高的識(shí)別準(zhǔn)確率.