• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合語(yǔ)音融合特征和隨機(jī)森林的構(gòu)音障礙識(shí)別

      2018-06-14 06:16:24張雪英段淑斐閆密密
      關(guān)鍵詞:構(gòu)音韻律識(shí)別率

      李 東, 張雪英, 段淑斐, 閆密密

      (太原理工大學(xué) 信息工程學(xué)院,山西 太原 030024)

      構(gòu)音障礙是指由于中樞神經(jīng)系統(tǒng)受損導(dǎo)致的發(fā)音運(yùn)動(dòng)不協(xié)調(diào),從而產(chǎn)生語(yǔ)音混亂的現(xiàn)象[1].神經(jīng)肌肉的器質(zhì)性病變會(huì)造成發(fā)音器官的肌肉無(wú)力、肌張力異?;蜻\(yùn)動(dòng)不協(xié)調(diào),從而導(dǎo)致發(fā)聲、韻律以及共鳴等方面的異常.構(gòu)音障礙的嚴(yán)重程度決定于神經(jīng)肌肉受損的程度.腦癱是構(gòu)音障礙的一種典型病例,于發(fā)育早期形成,病變部位在腦部,除肢體運(yùn)動(dòng)障礙之外,大部分患者存在呼吸道和聲道的中樞性神經(jīng)運(yùn)動(dòng)異常[2].據(jù)世界衛(wèi)生組織的數(shù)據(jù)統(tǒng)計(jì),在腦癱患者中,有88%左右存在構(gòu)音障礙問(wèn)題.語(yǔ)音信號(hào)處理是檢測(cè)構(gòu)音障礙的有效方式之一,通過(guò)提取語(yǔ)音中的特征參數(shù)并進(jìn)行模式分類(lèi),可以有效地將正常人和構(gòu)音障礙人進(jìn)行區(qū)分,結(jié)合相關(guān)的病理學(xué)知識(shí),可進(jìn)一步對(duì)病情嚴(yán)重程度進(jìn)行判斷[3].因此,進(jìn)行基于聲學(xué)特征的病理語(yǔ)音識(shí)別研究具有十分重要的社會(huì)意義.在目前的病理語(yǔ)音研究中,使用最為廣泛的數(shù)據(jù)庫(kù)是麻省眼耳醫(yī)院(Massachusetts Eye and Ear Infirmary ,MEEI)開(kāi)發(fā)的病理嗓音數(shù)據(jù)庫(kù).此數(shù)據(jù)庫(kù)收集了正常人以及各種由神經(jīng)、器官病變或外傷導(dǎo)致的發(fā)音障礙患者的語(yǔ)音數(shù)據(jù).此外,還有由阿姆斯特丹大學(xué)開(kāi)發(fā)的NKI-CCRT數(shù)據(jù)庫(kù),記錄了頭頸部癌癥患者的語(yǔ)音數(shù)據(jù),語(yǔ)言為荷蘭語(yǔ);由多倫多大學(xué)開(kāi)發(fā)的TORGO數(shù)據(jù)庫(kù)[4]記錄了腦癱或肌萎縮性脊髓側(cè)索硬化癥患者的語(yǔ)音數(shù)據(jù),語(yǔ)言為英語(yǔ).相比之下,漢語(yǔ)普通話的病理語(yǔ)音數(shù)據(jù)庫(kù)十分缺乏,很大程度上阻礙了相關(guān)研究的進(jìn)展.

      目前,進(jìn)行病理語(yǔ)音識(shí)別的主要方法是: 先從語(yǔ)音中提取所需特征,再運(yùn)用機(jī)器學(xué)習(xí)的方法進(jìn)行識(shí)別和分類(lèi)[5].文獻(xiàn)[6]選用了MEEI病理嗓音數(shù)據(jù)庫(kù),并提取梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)作為特征參數(shù),分別采取F檢驗(yàn)和費(fèi)雪判別比的方法進(jìn)行降維,選取高斯混合模型(Gaussian Mixture Model, GMM)作為識(shí)別系統(tǒng),對(duì)比了兩種特征選擇方法的優(yōu)劣.在四川大學(xué)與四川大學(xué)華西口腔醫(yī)院的合作研究中,提取了MFCC作為特征,運(yùn)用隱馬爾科夫模型(Hidden Markov Model,HMM)對(duì)腭裂語(yǔ)音輔音省略情況進(jìn)行識(shí)別,達(dá)到了86.9%的識(shí)別正確率[7].文獻(xiàn)[8]對(duì)于MEEI數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)提取了MFCC特征,使用高斯混合模型建立模型,在語(yǔ)音模型的相似性度量中,對(duì)KL距離和巴氏距離進(jìn)行了改進(jìn),使用支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行識(shí)別,分別取得了96.5%和95.5%的識(shí)別正確率.文獻(xiàn)[9]使用高斯混合模型作為統(tǒng)計(jì)模型,從語(yǔ)音中提取出小波域能量譜系數(shù)的統(tǒng)計(jì)學(xué)特征后進(jìn)行識(shí)別,對(duì)病理語(yǔ)音的識(shí)別率達(dá)到97.45%.文獻(xiàn)[10]基于聲音強(qiáng)度提取出一種新特征,即修改語(yǔ)音輪廓(Modified Voice Contour,MVC),并運(yùn)用支持向量機(jī)進(jìn)行識(shí)別,在使用作者自行采集數(shù)據(jù)庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)時(shí),達(dá)到了100%的識(shí)別率.雖然目前已經(jīng)有較多對(duì)于由不同疾病導(dǎo)致的構(gòu)音障礙的研究,但是大多數(shù)都采用了經(jīng)典的MFCC和共振峰等單一特征,缺少將多種類(lèi)型的特征融合后進(jìn)行識(shí)別的方法.此外,識(shí)別的模型也大多局限于支持向量機(jī)、隱馬爾科夫模型和高斯混合模型等.

      韻律特征在表現(xiàn)語(yǔ)音的流暢程度、聲調(diào)和節(jié)奏等方面性能較好[11],能在很大程度上彌補(bǔ)MFCC在進(jìn)行語(yǔ)音識(shí)別時(shí)性能上的不足.隨機(jī)森林(Random Forest,RF)作為一種集成學(xué)習(xí)算法,在處理大量數(shù)據(jù)和高維特征時(shí)具有良好的性能,訓(xùn)練速度快、模型泛化能力強(qiáng)[12].因此,筆者提出了一種結(jié)合MFCC與韻律特征的融合特征(Fusion Feature of Prosody and MFCC, FFPM),并采用隨機(jī)森林算法,將兩者應(yīng)用于腦癱導(dǎo)致的構(gòu)音障礙識(shí)別中.

      文中首先針對(duì)不同性別的被試,分別采用單一特征與融合特征進(jìn)行對(duì)比研究,驗(yàn)證融合特征對(duì)于單一特征的優(yōu)化作用.在此基礎(chǔ)之上,去除性別差異,在整體數(shù)據(jù)上再次實(shí)驗(yàn),測(cè)試不同分類(lèi)器下單一特征與融合特征的分類(lèi)精度,從而匹配出最優(yōu)特征與分類(lèi)器組合.

      1 基于MFCC和韻律特征的FFPM特征提取

      1.1 韻律特征

      韻律特征,又名超音段特征,體現(xiàn)了語(yǔ)音信號(hào)強(qiáng)度和語(yǔ)調(diào)的變化.韻律作為語(yǔ)音識(shí)別研究中常用的特征,已經(jīng)取得了一些理想的識(shí)別結(jié)果.構(gòu)音障礙說(shuō)話人在表達(dá)較長(zhǎng)語(yǔ)句時(shí),其聲音強(qiáng)度和流暢度與正常說(shuō)話人差別明顯.常用的韻律特征主要有:

      (1) 語(yǔ)速(speed).即時(shí)長(zhǎng)和發(fā)音音節(jié)數(shù)的比值.

      (2) 過(guò)零率(zero crossing rate).一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)零電平的次數(shù)稱(chēng)為過(guò)零率.定義語(yǔ)音信號(hào)x(m)的過(guò)零率為

      (1)

      (3) 能量(energy).設(shè)第n幀語(yǔ)音信號(hào)的短時(shí)能量用En表示,則

      (2)

      (4) 共振峰(formant).當(dāng)元音激勵(lì)進(jìn)入聲道時(shí)會(huì)引起共振特性,產(chǎn)生一組共振頻率,即共振峰.它反映了聲道諧振特征.

      (5) 基頻(pitch).即發(fā)濁音時(shí)聲帶振動(dòng)的頻率,人在發(fā)音過(guò)程中,由于聲門(mén)瞬時(shí)閉合,聲道被強(qiáng)烈激勵(lì),表現(xiàn)在語(yǔ)音波形上就是此瞬間幅度劇增,產(chǎn)生突變.相鄰兩個(gè)聲門(mén)閉合之間的時(shí)間長(zhǎng)度的倒數(shù)就是該處的基音頻率.

      1.2 梅爾頻率倒譜系數(shù)

      梅爾頻率是一種根據(jù)人耳聽(tīng)覺(jué)特性構(gòu)造的一種語(yǔ)音特征參數(shù).由于人耳所聽(tīng)到的聲高與頻率并不是線性對(duì)應(yīng)關(guān)系,而是更接近于對(duì)數(shù)關(guān)系,因此梅爾頻率尺度更能準(zhǔn)確地對(duì)應(yīng)人耳的聽(tīng)覺(jué)特性.它與頻率的關(guān)系可表示為

      Fmel=2 595 lg(1+fHz/700) .(3)

      提取MFCC時(shí),步驟如下:

      (1) 進(jìn)行預(yù)加重.首先使信號(hào)通過(guò)一個(gè)高通濾波器:H(Z)=1-μz-1,其中μ取0.97.

      (2) 進(jìn)行分幀和加窗.幀長(zhǎng)設(shè)定為256,幀移為128.每一幀都乘以Hamming窗,窗函數(shù)為

      w(n)=0.54-0.46 cos[2πn/(N-1)] , 0≤n≤N.(4)

      (3) 進(jìn)行快速傅里葉變換,得到各幀的頻譜.設(shè)輸入信號(hào)為x(n),則語(yǔ)音信號(hào)的離散傅里葉變換(Discrete Fourier Transform,DFT)為

      (5)

      得到頻譜后再對(duì)頻譜取模平方得到功率譜.

      (4) 將功率譜通過(guò)一組梅爾尺度的三角濾波器組,濾波器階數(shù)為24.再將結(jié)果取對(duì)數(shù),即

      (6)

      (5) 經(jīng)離散余弦變換后,可得到MFCC系數(shù)為

      (7)

      1.3 FFPM特征的構(gòu)成

      文中提取了語(yǔ)音的語(yǔ)速、過(guò)零率、能量、基頻以及第1、第2和第3共振峰(F1,F(xiàn)2,F(xiàn)3)作為韻律特征,然后計(jì)算其統(tǒng)計(jì)函數(shù),并融合了MFCC的統(tǒng)計(jì)函數(shù),組成最終的融合特征,即FFPM特征.特征集合表示為

      Fu={s,z,E,P,F(xiàn)1,F(xiàn)2,F(xiàn)3,M1,M2,…,Mk} ,(8)

      其中,s為語(yǔ)速;z為過(guò)零率;E表示由能量的統(tǒng)計(jì)參數(shù)構(gòu)成的向量,即

      (9)

      其各量依次為最大值、最小值、均值以及一階差分的最大值、最小值和均值;P表示由基頻的統(tǒng)計(jì)參數(shù)構(gòu)成的向量,即

      (10)

      其各量依次為最大值、最小值、均值以及一階差分的最大值、最小值和均值;F1、F2和F3表示由第1、第2和第3共振峰的統(tǒng)計(jì)參數(shù)構(gòu)成的向量,即

      其各量依次為最大值、最小值、均值、方差以及一階差分的最大值、最小值、均值和方差;Mk表示第k階MFCC的統(tǒng)計(jì)參數(shù)構(gòu)成的向量,即

      (14)

      其各量依次為偏度、峰度、均值、方差和中值;式(14)中,偏度計(jì)算公式為

      S(Mk)=E(Mk-μ)σ3.(15)

      峰度計(jì)算公式為K(Mk)=E(Mk-μ)σ4-3 .(16)

      在文中,k值取12,最終構(gòu)成98維的FFPM融合特征.

      2 隨機(jī)森林分類(lèi)器

      隨機(jī)森林是一種集成學(xué)習(xí)方法,其基本思想是每次從訓(xùn)練樣本中隨機(jī)選取部分特征來(lái)構(gòu)建獨(dú)立的決策樹(shù),然后重復(fù)這個(gè)過(guò)程,且保證每次都是等概率地抽取特征,直到構(gòu)建了足夠多且相互獨(dú)立的樹(shù),分類(lèi)結(jié)果由這些樹(shù)通過(guò)特定的規(guī)則共同決定[8].隨機(jī)森林以K棵決策樹(shù){h(X,θk),k=1,2,…,K}作為基分類(lèi)器進(jìn)行集成學(xué)習(xí),其中{θk,k=1,2,…,K}是一個(gè)隨機(jī)變量序列, 其構(gòu)成方式遵循以下思想:

      (1) Bagging: 從原始樣本集X有放回地隨機(jī)抽取K個(gè)與原始樣本集同樣大小的訓(xùn)練樣本集{Tk,k=1,2,…,K},并且由每個(gè)訓(xùn)練樣本集Tk構(gòu)造一棵決策樹(shù).

      圖1 第k棵決策樹(shù)生成過(guò)程

      (2) 特征子空間:對(duì)決策樹(shù)的每個(gè)節(jié)點(diǎn)進(jìn)行分裂時(shí),從全部屬性中等概率抽取一個(gè)子集,再?gòu)拇俗蛹羞x取一個(gè)最優(yōu)屬性來(lái)分裂節(jié)點(diǎn).

      在構(gòu)建每棵決策樹(shù)時(shí),抽取訓(xùn)練樣本集和屬性子集的過(guò)程各自獨(dú)立,且總體相同,所以{θk,k=1,2,…,K}為獨(dú)立同分布的隨機(jī)變量序列.第k棵決策樹(shù)的訓(xùn)練過(guò)程如圖1所示.

      把以同樣的方式訓(xùn)練得到的k棵決策樹(shù)組合起來(lái),就可以得到一個(gè)隨機(jī)森林.當(dāng)輸入待分類(lèi)的樣本時(shí),由每個(gè)決策樹(shù)的輸出結(jié)果進(jìn)行投票(取眾數(shù)),就會(huì)得到隨機(jī)森林的最終分類(lèi)結(jié)果.相比于單個(gè)決策樹(shù),隨機(jī)森林具有更強(qiáng)的分類(lèi)能力,且有效地避免了過(guò)擬合.此外,隨機(jī)森林作為分類(lèi)器時(shí),不需要對(duì)特征進(jìn)行降維,且在處理大量數(shù)據(jù)時(shí)也比支持向量機(jī)識(shí)別率更高,速度更快.文中,不限制隨機(jī)森林的決策樹(shù)深度,樹(shù)的數(shù)量選擇為100.

      3 TORGO數(shù)據(jù)庫(kù)

      3.1 數(shù)據(jù)庫(kù)概況

      選用由加拿大多倫多大學(xué)計(jì)算機(jī)科學(xué)與語(yǔ)音病理學(xué)系聯(lián)合Holland-Bloorview Kids Rehab hospital共同開(kāi)發(fā)的TORGO腦癱病人數(shù)據(jù)庫(kù)[9],此數(shù)據(jù)庫(kù)包含了總時(shí)長(zhǎng)為 23 h 左右的英文語(yǔ)音數(shù)據(jù),同時(shí)含有與聲音數(shù)據(jù)同步的發(fā)音動(dòng)作數(shù)據(jù).構(gòu)音障礙患者類(lèi)型為腦癱或肌萎縮性脊髓側(cè)索硬化癥(Amyotrophic Lateral Sclerosis,ALS).?dāng)?shù)據(jù)庫(kù)基本構(gòu)成情況如表1所示.

      表1 TORGO數(shù)據(jù)庫(kù)概況

      3.2 數(shù)據(jù)庫(kù)篩選

      從數(shù)據(jù)庫(kù)中選擇了短語(yǔ)和限制句作為語(yǔ)料來(lái)源,兩者的構(gòu)成情況如表2所示.

      其中,對(duì)于不需要探究詞界的語(yǔ)音聲學(xué)研究來(lái)說(shuō),短語(yǔ)是非常有用的,它可體現(xiàn)出說(shuō)話人對(duì)單個(gè)詞匯的發(fā)音能力.選用限制句是為了評(píng)判說(shuō)話人利用詞匯、語(yǔ)法和進(jìn)行語(yǔ)義處理時(shí)的能力,構(gòu)音障礙人在這方面的能力與正常人存在較大差距.

      表2 短語(yǔ)及限制句來(lái)源

      表3 篩選后數(shù)據(jù)構(gòu)成情況

      文中選擇來(lái)自全部15位被試的限制句和短語(yǔ)語(yǔ)音數(shù)據(jù).在原有數(shù)據(jù)中,有一小部分?jǐn)?shù)據(jù)存在被試發(fā)音錯(cuò)誤,錄制設(shè)備發(fā)出噪音和治療師發(fā)出聲音的問(wèn)題,此類(lèi)情況在構(gòu)音障礙患者的音頻數(shù)據(jù)中尤為突出.為避免因音頻數(shù)據(jù)的質(zhì)量影響實(shí)驗(yàn),在進(jìn)行實(shí)驗(yàn)之前對(duì)原始數(shù)據(jù)庫(kù)進(jìn)行了篩選,以求將客觀因素影響減到最?。瑫r(shí)使用了改進(jìn)的相位補(bǔ)償語(yǔ)音增強(qiáng)算法[14]對(duì)篩選后的語(yǔ)音數(shù)據(jù)進(jìn)行了處理,目的是最大限度地減少噪聲干擾.表3中顯示了篩選后的數(shù)據(jù)構(gòu)成情況.

      4 實(shí) 驗(yàn)

      進(jìn)行了單一類(lèi)型特征以及FFPM特征在不同分類(lèi)器下的識(shí)別率對(duì)比實(shí)驗(yàn),共有9種組合形式,分類(lèi)器選取了支持向量機(jī),C4.5決策樹(shù)和隨機(jī)森林.其中,支持向量機(jī)使用線性核函數(shù),C4.5決策樹(shù)置信因子設(shè)置為0.25,每個(gè)葉的最小實(shí)例數(shù)量設(shè)置為2.然后,從篩選后的數(shù)據(jù)中,選取66%作為訓(xùn)練集,34%作為測(cè)試集,并采用10折交叉驗(yàn)證法來(lái)檢驗(yàn)特征和識(shí)別網(wǎng)絡(luò)的性能.

      4.1 基于性別的融合特征性能測(cè)試

      為測(cè)試所提FFPM融合特征針對(duì)不同性別的識(shí)別性能,設(shè)計(jì)了2組試驗(yàn),分別測(cè)試在使用限制句和短語(yǔ)作為語(yǔ)料時(shí),單一特征和FFPM特征的識(shí)別率.

      從圖2可以得出,在語(yǔ)料為限制句時(shí),無(wú)論是對(duì)于男性還是女性,提出的FFPM識(shí)別準(zhǔn)確率都比單獨(dú)使用MFCC和韻律特征時(shí)更高; 無(wú)論使用何種分類(lèi)器,F(xiàn)FPM的識(shí)別正確率都高于另外兩個(gè)單一特征;在僅使用韻律特征時(shí),對(duì)女性聲音的識(shí)別率明顯低于男性,韻律特征在表現(xiàn)女性語(yǔ)音特征時(shí)性能不佳.在女性聲音的識(shí)別上,F(xiàn)FPM相比于單一的韻律特征和MFCC特征都有顯著提升,使用隨機(jī)森林分類(lèi)器后識(shí)別率達(dá)到99.62%.說(shuō)明相較于單一特征,融合特征在識(shí)別性能上確實(shí)有優(yōu)化作用.此項(xiàng)實(shí)驗(yàn)為后續(xù)分類(lèi)器選擇的實(shí)驗(yàn)奠定了基礎(chǔ).

      圖2 限制句特征識(shí)別率男女對(duì)比圖3 短語(yǔ)特征識(shí)別率男女對(duì)比

      從圖3可以看出,與限制句的識(shí)別率相比,短語(yǔ)的識(shí)別率整體偏低.這個(gè)現(xiàn)象反映出,相比于句子,構(gòu)音障礙患者能夠較為正確地對(duì)短語(yǔ)進(jìn)行發(fā)聲,因此在進(jìn)行識(shí)別時(shí),其語(yǔ)音特征與正常說(shuō)話人之間差異較小,一定程度上會(huì)影響分類(lèi)結(jié)果.同樣,韻律特征在進(jìn)行女性語(yǔ)音的識(shí)別時(shí)表現(xiàn)不佳,但FFPM將女性聲音的識(shí)別率提升到了98.31%.上述兩個(gè)實(shí)驗(yàn)中,對(duì)于男性聲音的平均識(shí)別率達(dá)到99.21%,對(duì)女性聲音的平均識(shí)別率達(dá)到98.97%.

      4.2 綜合對(duì)比測(cè)試

      設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn),去除性別因素,只針對(duì)兩種語(yǔ)料類(lèi)型分開(kāi)實(shí)驗(yàn),目的為測(cè)試不同分類(lèi)器下單一特征與融合特征的分類(lèi)精度,從而匹配出最優(yōu)特征與分類(lèi)器組合.

      從圖4可以看出,在語(yǔ)料為限制句時(shí),韻律特征和隨機(jī)森林的組合達(dá)到了96.49%的識(shí)別率,比MFCC和隨機(jī)森林的組合高出了3.57%,但是考慮到在4.1節(jié)的實(shí)驗(yàn)中,韻律特征在女性聲音的識(shí)別中表現(xiàn)不佳,若增加實(shí)驗(yàn)中女性被試的人數(shù),識(shí)別率必定會(huì)明顯下降;使用FFPM特征和隨機(jī)森林算法的組合所達(dá)到的識(shí)別準(zhǔn)確率最高,比MFCC和C4.5的組合高出12.16%,比韻律特征和支持向量機(jī)的組合高出11.71%.從分類(lèi)器的角度出發(fā)進(jìn)行對(duì)比,隨機(jī)森林比另外兩個(gè)分類(lèi)器的識(shí)別率高出約6%,優(yōu)勢(shì)較為顯著.

      圖4 限制句特征識(shí)別率對(duì)比圖5 短語(yǔ)特征識(shí)別率對(duì)比

      從圖5可以看出,短語(yǔ)的特征識(shí)別率類(lèi)似于限制句,但是整體略低.其中,支持向量機(jī)作為識(shí)別網(wǎng)絡(luò)、MFCC作為特征時(shí)識(shí)別率都相對(duì)較低,相比之下,當(dāng)FFPM和隨機(jī)森林組合時(shí),識(shí)別率達(dá)到了97.95%,體現(xiàn)了將頻譜特征和時(shí)域特征結(jié)合后的性能優(yōu)勢(shì),以及隨機(jī)森林分類(lèi)器對(duì)高維特征向量的良好識(shí)別率.上述兩個(gè)實(shí)驗(yàn)的平均識(shí)別率達(dá)到98.00%.

      綜上所述,文中提出的包含韻律特征和MFCC的FFPM與隨機(jī)森林算法組合的方式所表現(xiàn)出的性能最優(yōu).由此可以說(shuō)明,F(xiàn)FPM特征可以更好地詮釋患者與正常人之間的差異,同時(shí)選用隨機(jī)森林算法進(jìn)行分類(lèi)識(shí)別,可以取得理想的效果.

      5 結(jié) 束 語(yǔ)

      基于語(yǔ)音數(shù)據(jù)和機(jī)器學(xué)習(xí)進(jìn)行的構(gòu)音障礙評(píng)估和診斷日益重要,但傳統(tǒng)的單一聲學(xué)特征往往并不能很好地表現(xiàn)患者與正常人之間的差異,同時(shí),傳統(tǒng)的支持向量機(jī)在處理大數(shù)據(jù)量時(shí)表現(xiàn)不佳,并且運(yùn)算速度慢;決策樹(shù)極易發(fā)生過(guò)擬合的現(xiàn)象.鑒于此類(lèi)情況,文中對(duì)語(yǔ)音數(shù)據(jù)提取了包括MFCC和韻律特征在內(nèi)的FFPM特征;并引入隨機(jī)森林作為分類(lèi)器,實(shí)現(xiàn)了對(duì)樣本的集成學(xué)習(xí).在實(shí)驗(yàn)中,首先通過(guò)針對(duì)不同性別的被試,分別采用單一特征與融合特征進(jìn)行對(duì)比研究,驗(yàn)證了融合特征對(duì)于單一特征的優(yōu)化作用.在此基礎(chǔ)之上,去除性別差異,在整體數(shù)據(jù)上再次實(shí)驗(yàn),測(cè)試不同分類(lèi)器下單一特征與融合特征的分類(lèi)精度,從而發(fā)現(xiàn)了FFPM和隨機(jī)森林為性能最優(yōu)的組合.同時(shí)經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),相比于句子,構(gòu)音障礙患者對(duì)短語(yǔ)的發(fā)音能力更強(qiáng),發(fā)音較為準(zhǔn)確.在今后的研究中,將考慮尋找更好的特征融合方式,以期實(shí)現(xiàn)更高的識(shí)別率.除此之外,建立普通話說(shuō)話人的數(shù)據(jù)庫(kù),用現(xiàn)有方法進(jìn)行訓(xùn)練和識(shí)別,也是未來(lái)的研究方向.

      [1] DOYLE P, LEEPER H, KOTLER A L, et al. Dysarthric Speech: a Comparison of Computerized Speech Recognition and Listener Intelligibility[J]. Journal of Rehabilitation Research and Development, 1997, 34(3): 309-316.

      [2] 劉偉, 陳剛, 遲廣明. 腦癱治療的現(xiàn)狀[J]. 中國(guó)康復(fù)理論與實(shí)踐, 2007, 13(12): 1118-1120.

      LIU Wei , CHEN Gang , CHI Guangming. Current Treatment of Cerebral Palsy [J]. Chinese Journal of Rehabilitation Theory and Practice, 2007, 13(12): 1118-1120.

      [3] BAGHAI-RAVARY L, BEET S W. Automatic Speech Signal Analysis for Clinical Diagnosis and Assessment of Speech Disorders[M]. Springerbriefs in Electrical and Computer Engineering. Berlin: Springer, 2013.

      [4] RUDZICZ F, NAMASIVAYAM A K, WOLFF T. The TORGO Database of Acoustic and Articulatory Speech from Speakers with Dysarthria [J]. Language Resources and Evaluation, 2012, 46(4): 523-541.

      [5] GUPTA R, CHASPARI T, KIM J, et al. Pathological Speech Processing: State-of-the-art, Current Challenges, and Future Directions[C]//Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 6470-6474.

      [6] GODINO-LLORENTE J I, GOMEZ-VILDA P, BLANCO-VELASCO M. Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and Short-term Cepstral Parameters[J]. IEEE Transactions on Biomedical Engineering, 2006, 53(10): 1943-1953.

      [7] 袁亞南, 何凌, 龔曉峰, 等. 基于MFCC和HMM的腭裂語(yǔ)音輔音省略識(shí)別算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(2): 615-619.

      YUAN Ya’nan, HE Ling, GONG Xiaofeng, et al. Recognition Algorithm of Consonants Omission for People with Cleft Palate Based on MFCC and HMM [J]. Computer Engineering and Design, 2014, 35(2): 615-619.

      [8] AMARA F, FEZARI M, BOUROUBA H. An Improved GMM-SVM System Based on Distance Metric for Voice Pathology Detection[J]. Applied Mathematics and Information Sciences, 2016, 10(3): 1061-1070.

      [9] 常靜雅, 張曉俊, 顧玲玲, 等. 小波域能量譜和非線性降維的病理嗓音識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(2): 166-171.

      CHANG Jingya, ZHANG Xiaojun, GU Lingling, et al. Wavelet Domain Energy Spectrum and Nonlinear Dimensionality Reduction in Pathological Voice Recognition[J]. Computer Engineering and Applications, 2017, 53(2): 166-171.

      [10] ALI Z, ALSULAIMAN M, ELAMVAZUTHI I, et al. Voice Pathology Detection Based on the Modified Voice Contour and SVM[J]. Biologically Inspired Cognitive Architectures, 2016, 15: 10-18.

      [11] 姚慧, 孫穎, 張雪英. 情感語(yǔ)音的非線性動(dòng)力學(xué)特征[J]. 西安電子科技大學(xué)學(xué)報(bào), 2016, 43(5): 167-172.

      YAO Hui, SUN Ying, ZHANG Xueying. Research on Nonlinear Dynamics Features of Emotional Speech[J]. Journal of Xidian University, 2016, 43(5): 167-172.

      [12] BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

      [13] WRENCH A. The MOCHA-TIMIT Articulatory Database [DB/OL]. [2017-05-06]. http://www. cstr. ed. ac. uk/artic/mocha. html.

      [14] 王棟,賈海蓉. 改進(jìn)相位譜補(bǔ)償?shù)恼Z(yǔ)音增強(qiáng)算法[J]. 西安電子科技大學(xué)學(xué)報(bào), 2017, 44(3): 83-88.

      WANG Dong, JIA Hairong. Speech Enhancement Using Improved Phase Spectrum Compensation[J]. Journal of Xidian University, 2017, 44(3): 83-88.

      猜你喜歡
      構(gòu)音韻律識(shí)別率
      吐字不清警惕構(gòu)音障礙
      健康博覽(2024年6期)2024-06-17 08:41:52
      “小腦斧”“大西幾”……孩子說(shuō)話不清楚怎么辦
      基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      春天的韻律
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
      韻律之美——小黃村
      壓舌板在兒童構(gòu)音訓(xùn)練中的應(yīng)用效果評(píng)價(jià)
      高速公路機(jī)電日常維護(hù)中車(chē)牌識(shí)別率分析系統(tǒng)的應(yīng)用
      維吾爾語(yǔ)話題的韻律表現(xiàn)
      习水县| 天等县| 察哈| 江达县| 长阳| 台东市| 苏州市| 观塘区| 英吉沙县| 介休市| 榆中县| 偏关县| 辽宁省| 昂仁县| 常州市| 建瓯市| 孝昌县| 云梦县| 道孚县| 汕头市| 邹平县| 凤翔县| 吉首市| 五莲县| 衢州市| 磐安县| 东至县| 宣武区| 察隅县| 阿拉善盟| 长白| 商南县| 邳州市| 开平市| 万盛区| 亚东县| 榆林市| 建始县| 日喀则市| 平谷区| 富裕县|