• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合發(fā)音動(dòng)作特征和聲學(xué)特征的病理語音檢測(cè)

      2021-03-23 09:38:50薛珮蕓
      關(guān)鍵詞:基頻降維識(shí)別率

      王 頗,白 靜,薛珮蕓

      (太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)

      0 引 言

      聽障患者普遍存在構(gòu)音障礙問題,由于聽功能損失,患者缺乏聽覺對(duì)發(fā)聲的反饋?zhàn)饔?,?dǎo)致其發(fā)音部位不準(zhǔn)確,發(fā)音動(dòng)作不協(xié)調(diào),進(jìn)而出現(xiàn)異常發(fā)音[1]。對(duì)于聽障患者病理語音的檢測(cè),語音信號(hào)處理技術(shù)提供了一種非入侵性的方法,通過提取語音的特征參數(shù)并進(jìn)行模式識(shí)別,可以高效地對(duì)正常語音和病理語音進(jìn)行分類,能夠輔助醫(yī)生對(duì)病理語音患者進(jìn)行診斷和治療[2]。

      目前,根據(jù)病理語音特征實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)診斷仍然是醫(yī)學(xué)工作者和語音研究工作者努力的方向。Fang Shih-Hau等[3]采用美國(guó)的MEEI數(shù)據(jù)庫(kù),結(jié)合梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行病理語音檢測(cè)。由于語音信號(hào)具有非平穩(wěn)性和突變性,李海峰等[4]提出一種基于S變換的病理語音特征MSCC,使用荷蘭的NSNC病理數(shù)據(jù)庫(kù)驗(yàn)證了所提方法的有效性。關(guān)于漢語病理語音的研究,龐宇峰等[5]采集臨床聲帶息肉患者和正常人的語音數(shù)據(jù),分析基頻微擾、振幅微擾等特征差異。許遠(yuǎn)靜等[6]使用自建庫(kù),提取熵、Hurst參數(shù)、吸引子等非線性特征,結(jié)合隨機(jī)森林算法(random forest,RF)識(shí)別不同程度病態(tài)嗓音。以上研究表明病理語音檢測(cè)的特征比較豐富,但是這些特征集中于語音聲學(xué)特性的研究,忽略了語音產(chǎn)生過程中發(fā)音器官的運(yùn)動(dòng)特性。

      近年來,三維電磁發(fā)音儀(electromagnetic articulograph,EMA)[7]在語音研究領(lǐng)的應(yīng)用增多,Zhang Yan等[8]采集舌、唇、頜部的運(yùn)動(dòng)數(shù)據(jù),分別以鼻梁和上唇為參考點(diǎn),計(jì)算下唇、舌尖、舌中的相對(duì)位置作為發(fā)音動(dòng)作特征(articulatory movement features,AMF),進(jìn)行短時(shí)文本的說話人識(shí)別。蔡明琦等[9]指出相比聲學(xué)特征,語音的發(fā)音動(dòng)作特征描述了發(fā)音過程中唇、舌等發(fā)音器官的位置變化,它們不受外界噪音和環(huán)境的影響,具有更高的魯棒性。因此本文分析病理語音的發(fā)音動(dòng)作特征,提取發(fā)音動(dòng)作特征以及聲學(xué)特征進(jìn)行融合,使用核主成分分析法進(jìn)行降維,在支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林、多層感知機(jī)(multilayer perceptron,MLP)分類模型中,驗(yàn)證發(fā)音動(dòng)作特征和融合特征的有效性。

      1 語音特征參數(shù)提取

      1.1 發(fā)音動(dòng)作特征

      文中發(fā)音器官的運(yùn)動(dòng)數(shù)據(jù)使用三維電磁發(fā)音儀采集,該設(shè)備可以捕獲高精度的運(yùn)動(dòng)信號(hào),并且不損害人體,是采集發(fā)音器官微小動(dòng)作的專用設(shè)備。在EMA系統(tǒng)中,每個(gè)傳感器對(duì)應(yīng)一個(gè)通道,數(shù)據(jù)采集前,對(duì)傳感器進(jìn)行預(yù)熱、校準(zhǔn),然后將傳感器黏貼在受試者的唇部(上唇、下唇、左嘴角、右嘴角)、舌部(舌尖、舌中、舌后)、頜部進(jìn)行數(shù)據(jù)采集,同時(shí)在鼻骨、左耳骨、右耳骨、下齒槽分別黏貼傳感器作為參考傳感器,用來消除發(fā)音過程中頭部轉(zhuǎn)動(dòng)影響。發(fā)音動(dòng)作數(shù)據(jù)采樣頻率為250 Hz,語音數(shù)據(jù)與發(fā)音動(dòng)作數(shù)據(jù)同步采集,采樣頻率為16 KHz。EMA記錄了每個(gè)傳感器三維空間(X軸、Y軸、Z軸)坐標(biāo),X表示前后方向,Y表示左右方向,Z表示上下方向。發(fā)音器官的左右方向的運(yùn)動(dòng)幅度較小,因此使用X軸、Z軸的數(shù)據(jù)進(jìn)行分析。

      研究表明,聽障患者發(fā)音時(shí)舌部運(yùn)動(dòng)不到位是影響其發(fā)音的重要因素,王晴等[10]研究聽障患者的鼻韻母發(fā)音時(shí),發(fā)現(xiàn)部分發(fā)音的舌位偏高或者偏低,與正常人發(fā)音的舌部運(yùn)動(dòng)存在差異。本文畫出正常人和聽障患者分別發(fā)單元音/a/時(shí),舌尖和舌中在X軸、Z軸上的運(yùn)動(dòng)軌跡,如圖1和圖2所示。

      圖1 正常人發(fā)元音/a/的舌部運(yùn)動(dòng)軌跡

      圖2 聽障患者發(fā)元音/a/的舌部運(yùn)動(dòng)軌跡

      圖中可以看出聽障患者發(fā)音時(shí)舌尖、舌中的運(yùn)動(dòng)幅度比正常人較小,這和之前的研究相符合。因此提取舌尖、舌中部位的運(yùn)動(dòng)位移和速度作為特征,位移特征指相對(duì)于初始位置,傳感器的最大位移,計(jì)算公式如下

      sX=max|x(t)-x(0)|

      (1)

      sZ=max|z(t)-z(0)|

      (2)

      式中:sX表示X軸最大位移,x(t)表示t時(shí)刻傳感器的X軸坐標(biāo)值,x(0)表示初始時(shí)刻傳感器的X軸坐標(biāo)值,sZ表示Z軸最大位移,z(t)表示t時(shí)刻傳感器的Z軸坐標(biāo),z(0)表示初始時(shí)刻傳感器的Z軸坐標(biāo)。

      速度指發(fā)音器官在每一時(shí)刻位移變化量,通過式(3)、式(4)進(jìn)行計(jì)算,將最大速度、最小速度、平均速度和速度的方差作為特征

      (3)

      (4)

      式中:vX表示X軸瞬時(shí)速度,x(t+Δt)表示t+Δt時(shí)刻的X軸坐標(biāo)值,x(t)表示t時(shí)刻的X軸坐標(biāo)值。vZ表示Z軸瞬時(shí)速度,z(t+Δt)表示t+Δt時(shí)刻的Z軸坐標(biāo)值,z(t)表示t時(shí)刻的Z軸坐標(biāo)值。

      1.2 聲學(xué)特征

      梅爾倒譜系數(shù)是語音識(shí)別領(lǐng)域常用的特征,它基于人耳的聽覺特性,在梅爾刻度下,人耳對(duì)聲音頻率的感知度成線性關(guān)系,它與頻率的關(guān)系可表示為

      Mel(f)=2595lg(1+f/700)

      (5)

      式中:f表示實(shí)際的語音頻率,單位是Hz。

      如果把聲道看作理想的諧振腔體,舌頭的運(yùn)動(dòng)會(huì)改變聲道的形狀,進(jìn)而影響諧振頻率,即共振峰。在語音學(xué)中,第一共振峰與舌位高低呈負(fù)相關(guān)關(guān)系,第二共振峰與舌位前后呈正相關(guān)關(guān)系。由聽障患者發(fā)音動(dòng)作特征可知患者發(fā)音時(shí)舌部運(yùn)動(dòng)不到位,這必然會(huì)影響語音的共振峰,因此本文提取共振峰特征進(jìn)行病理語音檢測(cè)。

      基頻反映了發(fā)音者音調(diào)的大小和音質(zhì)的好壞,基頻的大小與聲帶的長(zhǎng)度、厚度、張力有關(guān),并且受到聲門上下之間的氣壓差效應(yīng)的影響,是病理語音研究中的重要特征。聽障患者由于發(fā)音部位不準(zhǔn)確、發(fā)音動(dòng)作不協(xié)調(diào),基頻特征與正常人存在差異。

      1.3 特征融合

      發(fā)音動(dòng)作特征描述發(fā)音器官的運(yùn)動(dòng)特性,聲學(xué)特征描述語音的頻譜特性,兩種類型的特征表達(dá)的物理意義不同,將他們進(jìn)行歸一化處理構(gòu)成融合特征,即SVMFP特征。融合特征可以表示為

      (6)

      由于上述的融合特征可能包含冗余信息,本文使用核主成分分析法(kernel principal component analysis,KPCA)對(duì)其進(jìn)行降維,降維后的特征表示為KSVMFP。KPCA是在PCA的基礎(chǔ)上提出,相比PCA,KPCA在處理非線性數(shù)據(jù)方面效果更好。它的基本原理是通過非線性函數(shù)將原始數(shù)據(jù)映射到高維空間,從而對(duì)高維空間的數(shù)據(jù)進(jìn)行相應(yīng)的線性分類。本文采用徑向基高斯核方法進(jìn)行降維,核函數(shù)公式如下

      (7)

      σ取常數(shù),在降維過程中需要對(duì)σ進(jìn)行調(diào)節(jié)。

      在降維過程中,將訓(xùn)練樣本的n維特征表示成n個(gè)列向量的特征矩陣α,通過非線性映射Φ將其映射到高維空間中

      Φ(α)=[Φ(α1),Φ(α2),…,Φ(αn)]

      (8)

      在高維空間進(jìn)行降維變換

      X=WTΦ(α)

      (9)

      求解Φ(α)之后得出非線性降維后的特征矩陣X。

      2 多層感知機(jī)

      聽障患者病理語音檢測(cè)的MLP拓?fù)淙鐖D3所示。MLP的層次結(jié)構(gòu)為5層,隱含層為3層,每層包括64個(gè)神經(jīng)元。

      圖3 MLP拓?fù)?/p>

      隱含層中神經(jīng)元的輸入和輸出如下所示

      al=σ(zl)

      (10)

      zl=Wlal-1+bl

      (11)

      式中:al表示第l層神經(jīng)元輸出,σ表示激活函數(shù),zl表示第l層神經(jīng)元的輸入,W表示第l-1層神經(jīng)元與第l層神經(jīng)元之間權(quán)值組成的向量,bl表示第l層偏置組成的向量。

      本文使用的激活函數(shù)為L(zhǎng)eaky ReLU,如式(12)所示

      (12)

      相比ReLU[11],Leaky ReLU函數(shù)對(duì)負(fù)值輸入有很小的坡度,可以減少靜默神經(jīng)元的出現(xiàn),允許神經(jīng)元緩慢學(xué)習(xí);在正半?yún)^(qū)和ReLU具有相同的特性,當(dāng)輸入信號(hào)超過閾值時(shí),神經(jīng)元進(jìn)入激活狀態(tài),可以選擇性響應(yīng)部分輸入信號(hào),屏蔽不相關(guān)信號(hào),提取出重要的稀疏特征。

      通常在模型的訓(xùn)練過程中,使用交叉熵形式的代價(jià)函數(shù)描述模型的分類精度,形式如下

      (13)

      式中:y為預(yù)測(cè)概率值,y′為真實(shí)概率值。H(y)越小,模型的輸出值與真實(shí)值差距越小,分類越準(zhǔn)確。通過訓(xùn)練,H(y)逐漸減小,最終達(dá)到全局最優(yōu)或局部最優(yōu)。在神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練方法中,隨機(jī)梯度下降(stochastic gradient descent,SGD)是最常見的優(yōu)化方法,但是它對(duì)所有的參數(shù)更新使用同樣的學(xué)習(xí)率,因此選擇合適的學(xué)習(xí)率比較困難,設(shè)置不同的學(xué)習(xí)率,可能產(chǎn)生差異較大的結(jié)果。本文使用Adagrad算法[12]自適應(yīng)地訓(xùn)練參數(shù)。

      3 病理語音檢測(cè)流程圖

      病理語音檢測(cè)流程如圖4所示,對(duì)病理語音數(shù)據(jù)庫(kù)中的數(shù)據(jù)預(yù)處理后,提取位移、速度兩種發(fā)音動(dòng)作特征以及MFCC、基頻、共振峰3種聲學(xué)特征,然后將提取的特征歸一化,使用KPCA降維,結(jié)合MLP完成病理語音和正常語音的分類。

      圖4 病理語音檢測(cè)流程

      4 實(shí) 驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)庫(kù)為實(shí)驗(yàn)室自建庫(kù),其中包括聽障學(xué)生和正常學(xué)生的數(shù)據(jù),聽障學(xué)生在太原市聾啞學(xué)校隨機(jī)選取,男、女各5名,共10名,除聽力受損外,全身無其它畸變,能自主發(fā)音。正常學(xué)生為在校大學(xué)生,男、女各5名,共10名,普通話水平均為二級(jí)甲等及以上,測(cè)試期間均無呼吸道感染。數(shù)據(jù)庫(kù)語料為普通話水平測(cè)試用表的常規(guī)發(fā)音,本文對(duì)采集的數(shù)據(jù)進(jìn)行篩選,結(jié)果見表1。

      表1 病理語音檢測(cè)語料

      4.2 實(shí)驗(yàn)結(jié)果及分析

      當(dāng)測(cè)試語料為漢語字母和漢語單音節(jié)時(shí),將發(fā)音動(dòng)作特征和不同聲學(xué)特征輸入不同分類模型,測(cè)試不同特征和分類模型組合的分類性能。分類模型的參數(shù)設(shè)置如下:SVM的核函數(shù)為RBF核,使用鳥群算法[13]優(yōu)化參數(shù);MLP激活函數(shù)為L(zhǎng)eaky ReLU,使用Adagrad優(yōu)化網(wǎng)絡(luò)參數(shù);RF中子樹的數(shù)量為100。實(shí)驗(yàn)中字母的樣本總數(shù)為520,單音節(jié)的樣本總數(shù)為780。使用五折交叉驗(yàn)證得出最后的實(shí)驗(yàn)結(jié)果,采用靈敏度(sensitivity)、特異度(specificity)、識(shí)別率(accuracy)3個(gè)指標(biāo)對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)。

      4.2.1 單一特征的實(shí)驗(yàn)結(jié)果

      當(dāng)測(cè)試語料為漢語字母和漢語單音節(jié)時(shí),單一特征的檢測(cè)效果分別見表2和表3。

      由表2可知,①在MLP中,MFCC的特異度比發(fā)音動(dòng)作特征低,靈敏度和識(shí)別率比其它特征高;在SVM和RF中,MFCC的靈敏度、特異度、識(shí)別率比其它特征高;從整體上看,MFCC的檢測(cè)效果最佳。②在SVM中,發(fā)音動(dòng)作特征的靈敏度、特異度、識(shí)別率比基頻和共振峰高;在RF中,發(fā)音動(dòng)作特征的靈敏度比共振峰低,特異度比基頻低,識(shí)別率比基頻和共振峰高;在MLP中,發(fā)音動(dòng)作特征的靈敏度比共振峰低,特異度和識(shí)別率比基頻和共振峰高;從整體上看,發(fā)音動(dòng)作特征的檢測(cè)效果優(yōu)于基頻和共振峰。③在SVM中,共振峰的靈敏度、特異度、識(shí)別率比基頻高,共振峰優(yōu)于基頻;在RF中,基頻的靈敏度比共振峰低,特異度、識(shí)別率比共振峰高,基頻優(yōu)于共振峰;在MLP中,共振峰的特異度比基頻低,靈敏度、識(shí)別率比基頻高,共振峰優(yōu)于基頻。

      表2 漢語字母的單一特征檢測(cè)效果對(duì)比/%

      表3 漢語單音節(jié)的單一特征檢測(cè)效果對(duì)比/%

      由表3可知,①在RF中,MFCC的靈敏度比基頻低,MFCC的特異度和識(shí)別率比其它特征高;在SVM和MLP中,MFCC的靈敏度、特異度、識(shí)別率比其它特征高;從整體上看,MFCC的檢測(cè)效果最佳。②在SVM中,發(fā)音動(dòng)作特征的靈敏度、特異度、識(shí)別率比基頻和共振峰高;在RF中,發(fā)音動(dòng)作特征的靈敏度比基頻低,特異度、識(shí)別率比基頻和共振峰高;在MLP中,發(fā)音動(dòng)作特征的特異度比基頻低,靈敏度和識(shí)別率比基頻和共振峰高;從整體上看,發(fā)音動(dòng)作特征的檢測(cè)效果優(yōu)于基頻和共振峰。③在SVM中,共振峰的特異度比基頻低,靈敏度、識(shí)別率比基頻高,共振峰優(yōu)于基頻;在RF中,基頻的特異度比共振峰低,靈敏度、識(shí)別率比共振峰高,基頻優(yōu)于共振峰;在MLP中,共振峰的特異度比基頻低,靈敏度、識(shí)別率比基頻高,共振峰優(yōu)于基頻。

      表2和表3的結(jié)果表明,相比其它單一特征,MFCC在病理語音檢測(cè)中效果最佳,發(fā)音動(dòng)作特征比MFCC的檢測(cè)效果差,但是比基頻和共振峰的檢測(cè)效果好,說明發(fā)音動(dòng)作特征和聲學(xué)特征同樣有效。聲學(xué)特征表示語音不同方面的聲學(xué)特性,而發(fā)音動(dòng)作特征能夠有效地表示發(fā)音器官在發(fā)音過程中的運(yùn)動(dòng)信息,兩類特征表達(dá)的物理意義不同,互為補(bǔ)充特征。此外,基頻和共振峰的檢測(cè)效果比較結(jié)果不固定,在RF中,基頻的檢測(cè)效果優(yōu)于共振峰,在SVM和MLP中,共振峰的檢測(cè)效果優(yōu)于基頻,說明單一特征對(duì)語音的表達(dá)不充分、魯棒性較差。

      4.2.2 融合特征的實(shí)驗(yàn)結(jié)果

      為彌補(bǔ)單一特征表示語音特性的不足,本文將發(fā)音動(dòng)作特征和聲學(xué)特征歸一化融合,并使用KPCA進(jìn)行降維,特征歸一化和KPCA降維的檢測(cè)效果分別見表4和表5。

      表4 漢語字母的融合特征檢測(cè)效果/%

      表5 漢語單音節(jié)的融合特征檢測(cè)效果/%

      對(duì)比表2和表4、表3和表5的結(jié)果,可以得出無論測(cè)試語料是漢語字母還是漢語單音節(jié),在SVM、RF和MLP中,融合特征的靈敏度、特異度、識(shí)別率比單一特征高,說明融合特征的檢測(cè)效果優(yōu)于單一特征,可以更充分地表示語音的特性。對(duì)比特征歸一化和KPCA降維的檢測(cè)效果得出,特征KPCA降維后檢測(cè)效果更佳,說明特征的歸一化融合存在信息冗余,經(jīng)過非線性降維能夠消除冗余達(dá)到最佳的檢測(cè)效果。

      此外,在表2、表3、表4、表5中,不同特征作為輸入時(shí),對(duì)比SVM、RF、MLP的檢測(cè)結(jié)果,可以得出MLP的檢測(cè)效果最佳,說明MLP將特征進(jìn)行抽象的轉(zhuǎn)換,具有更強(qiáng)的擬合能力,提高了病理語音的檢測(cè)效果。文中漢語字母的最佳識(shí)別率達(dá)到94.5%,漢語單音節(jié)的最佳識(shí)別率達(dá)到95.2%。

      5 結(jié)束語

      病理語音自動(dòng)檢測(cè)技術(shù)的研究日益重要,它可以有效地減少病理語音診斷過程中人力物力的投入。目前,雖然聲學(xué)特征的研究成果豐富,但仍不能滿足臨床要求,并且單一特征對(duì)病理語音和正常語音的差異表示不足,因此,本文提出一種融合發(fā)音動(dòng)作特征和聲學(xué)特征的方法用于聽障患者病理語音的檢測(cè)。實(shí)驗(yàn)結(jié)果表明發(fā)音動(dòng)作特征和聲學(xué)特征同樣有效,融合特征彌補(bǔ)了單一特征的不足,使用KPCA降維消除了特征之間的冗余信息,提高了檢測(cè)效果,本文的方法為醫(yī)學(xué)臨床的自動(dòng)診斷技術(shù)提供了參考。

      猜你喜歡
      基頻降維識(shí)別率
      混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      語音同一認(rèn)定中音段長(zhǎng)度對(duì)基頻分析的影響
      基于時(shí)域的基頻感知語音分離方法?
      橋面鋪裝層對(duì)中小跨徑橋梁基頻影響分析
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      45000kHz基頻晶體濾波器
      電子制作(2017年20期)2017-04-26 06:57:35
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      肥西县| 潮州市| 台湾省| 图片| 安宁市| 尼木县| 印江| 碌曲县| 井陉县| 呼玛县| 揭西县| 扶余县| 朝阳县| 辽宁省| 静安区| 穆棱市| 黑龙江省| 芒康县| 独山县| 舞阳县| 托克逊县| 余庆县| 昌邑市| 铁岭市| 石河子市| 绥阳县| 绍兴市| 古交市| 曲松县| 莒南县| 介休市| 宜州市| 东宁县| 南乐县| 金塔县| 怀远县| 金寨县| 周至县| 曲阜市| 甘肃省| 武平县|