• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語(yǔ)音識(shí)別技術(shù)分析與應(yīng)用

      2017-04-14 10:09:34北方民族大學(xué)電氣信息工程學(xué)院樊?;?/span>
      電子世界 2017年17期
      關(guān)鍵詞:聲學(xué)語(yǔ)音噪聲

      北方民族大學(xué)電氣信息工程學(xué)院 樊海花

      語(yǔ)音識(shí)別技術(shù)分析與應(yīng)用

      北方民族大學(xué)電氣信息工程學(xué)院 樊?;?/p>

      語(yǔ)音識(shí)別作為人機(jī)交互的重要方式,正在被人們所研究。針對(duì)語(yǔ)音識(shí)別的算法有很多,本文對(duì)基于HMM的語(yǔ)音識(shí)別聲學(xué)建模、基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模、基于統(tǒng)計(jì)模型的語(yǔ)音增強(qiáng)算法等算法做了闡述,為對(duì)語(yǔ)音識(shí)別作進(jìn)一步的研究做了基礎(chǔ)。

      語(yǔ)音識(shí)別;HMM;深度神經(jīng)網(wǎng)絡(luò);統(tǒng)計(jì)模型

      1 引言

      隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,語(yǔ)音識(shí)別作為簡(jiǎn)單快捷的人機(jī)交互方式,被人們所認(rèn)識(shí),越來(lái)越多的研究被投入其中。隨著各種電子設(shè)備如智能手機(jī)、家用電器成為人們生活所必不可少的組成部分,人機(jī)交互變得越來(lái)越重要,而語(yǔ)音識(shí)別作為最方便的人機(jī)交互方式,被人們所使用。

      2 語(yǔ)音識(shí)別技術(shù)分析

      語(yǔ)音識(shí)別技術(shù)的應(yīng)用具體可以從貝爾實(shí)驗(yàn)室首先發(fā)明的英文數(shù)字識(shí)別器開(kāi)始[1],到線性預(yù)測(cè)編碼技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整技術(shù)應(yīng)用于大規(guī)模連續(xù)詞語(yǔ)音識(shí)別,到普林斯頓大學(xué)將隱馬模型應(yīng)用到語(yǔ)音識(shí)別過(guò)程中,再到對(duì)于解決海量語(yǔ)音信息識(shí)別的基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)的應(yīng)用[1]。語(yǔ)音識(shí)別本質(zhì)上可以看做是一個(gè)序列分類的問(wèn)題,聲學(xué)建模可以看做是解決語(yǔ)音特征觀察序列和狀態(tài)序列匹配的問(wèn)題。

      3 語(yǔ)音識(shí)別技術(shù)的應(yīng)用

      3.1 基于HMM聲學(xué)建模

      隱馬爾科夫模型是由隱馬爾科夫鏈演變而來(lái)的,用于描述隨機(jī)過(guò)程中的統(tǒng)計(jì)特性的一種方法,它的基本思想是通過(guò)一串觀測(cè)值用前驗(yàn)概率計(jì)算公式估算出模型參數(shù),在語(yǔ)音識(shí)別訓(xùn)練階段,訓(xùn)練的數(shù)據(jù)越多,識(shí)別結(jié)果就會(huì)越接近于實(shí)際值。馬爾科夫鏈由初始狀態(tài)、轉(zhuǎn)移矩陣、輸出狀態(tài)組成[2],該模型的不同已知條件和不同未知條件的組合,會(huì)產(chǎn)生不同的問(wèn)題。在利用隱馬科夫模型解決語(yǔ)音識(shí)別問(wèn)題過(guò)程中,分別用到解決狀態(tài)序列解碼問(wèn)題和解決模型參數(shù)估計(jì)問(wèn)題,在語(yǔ)料庫(kù)訓(xùn)練階段,用到班姆維奇算法,推測(cè)出模型中的參數(shù)。在語(yǔ)音的識(shí)別階段,采用威特比算法,當(dāng)給定觀測(cè)值序列和模型參數(shù)的基礎(chǔ)上,確定最佳意義的狀態(tài)序列。該模型的缺點(diǎn)是當(dāng)隱馬模型較為復(fù)雜的時(shí)候,由它訓(xùn)練的參數(shù)容易收斂于局部最小值。

      3.2 基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模

      基于深度神經(jīng)網(wǎng)絡(luò)的建模,可以看做是基于高斯混合模型的復(fù)雜化,高斯混合模型本質(zhì)上可以看做包含一層隱含層的神經(jīng)網(wǎng)絡(luò),隱含層節(jié)點(diǎn)對(duì)應(yīng)各個(gè)高斯分量,輸出層為HMM輸出狀態(tài)[3]。DNN則是包含多個(gè)隱含層的多層網(wǎng)絡(luò),輸入語(yǔ)音信號(hào)經(jīng)過(guò)分解到達(dá)第一層隱含層,從聲學(xué)特征空間到達(dá)隱含層所構(gòu)造的新的特征空間,各個(gè)隱含層又相當(dāng)于下一個(gè)隱含層的輸入層,在最后一層通過(guò)softmax網(wǎng)絡(luò)后到狀態(tài)空間。DNN相當(dāng)于通過(guò)增加監(jiān)督信息來(lái)調(diào)諧網(wǎng)絡(luò)。DNN模型用于估算HMM狀態(tài)的后驗(yàn)概率,網(wǎng)絡(luò)采用誤差反向傳播算法,目標(biāo)函數(shù)采用交叉熵算法表示,通過(guò)求取最優(yōu)的目標(biāo)函數(shù)來(lái)完成訓(xùn)練。DNN在很長(zhǎng)的時(shí)間里,被人們當(dāng)做研究使用的熱點(diǎn),與此同時(shí),問(wèn)題也隨之而來(lái), 在對(duì)它的多流特征融合能力的研究中,發(fā)現(xiàn)其在全局有監(jiān)督的精細(xì)調(diào)整階段是比較費(fèi)時(shí)的。人工神經(jīng)網(wǎng)絡(luò)需要按照隨機(jī)梯隊(duì)下降的方法,通過(guò)誤差反向傳播算法對(duì)訓(xùn)練語(yǔ)音庫(kù)進(jìn)行訓(xùn)練。為了解決誤差反向傳播算法瘦臉相對(duì)緩慢的問(wèn)題,提出了多GPU對(duì)DNN進(jìn)行并行訓(xùn)練。

      3.3 基于統(tǒng)計(jì)模型的語(yǔ)音增強(qiáng)算法

      假設(shè)語(yǔ)音信號(hào)和語(yǔ)音信號(hào)所在環(huán)境的噪聲信號(hào)的傅里葉變換系數(shù)都服從統(tǒng)一分布,這類算法估計(jì)的是語(yǔ)音信號(hào)幅度譜,稱為基于統(tǒng)計(jì)模型的語(yǔ)音增強(qiáng)算法。隱馬模型還可用于檢測(cè)語(yǔ)音停頓,對(duì)于平穩(wěn)噪聲,在整個(gè)語(yǔ)音發(fā)音段,可以使用EM算法計(jì)算噪聲的最大似然估計(jì),但自適應(yīng)增益估計(jì)只有在下一語(yǔ)音停頓處才能獲取到,這種語(yǔ)音增強(qiáng)算法在非平穩(wěn)噪聲環(huán)境下性能會(huì)下降非??臁;诖a書的語(yǔ)音增強(qiáng)算法可以很好地克服這個(gè)問(wèn)題,它引入了瞬時(shí)增益計(jì)算,在每一幀語(yǔ)音中,它利用了訓(xùn)練語(yǔ)音信號(hào)、噪聲信號(hào)的線性預(yù)測(cè)系數(shù)和帶噪語(yǔ)音觀測(cè)序列來(lái)計(jì)算增益函數(shù)。在基于碼書的語(yǔ)音增強(qiáng)算法中,碼書只提供線性預(yù)測(cè)的參數(shù)模型,它可以很好的適應(yīng)非平穩(wěn)噪聲環(huán)境。

      3.4 基于稀疏表示的語(yǔ)音增強(qiáng)技術(shù)

      在白噪聲的背景下,提出基于功率譜稀疏表示的語(yǔ)音增強(qiáng)算法。該研究方法用非負(fù)限制的接近于K奇異值分解的算法訓(xùn)練不帶噪聲的純凈語(yǔ)音的功率譜字典,采用LARS算法得到功率譜的稀疏表示,這種算法的終止條件通過(guò)控制噪聲的水平,到噪聲的語(yǔ)音信號(hào)的功率譜和用稀疏功率譜重構(gòu)的功率譜之差的范數(shù)小于規(guī)定的值,就停止算法。由稀疏表示和經(jīng)過(guò)訓(xùn)練的字典可以得到純凈語(yǔ)音的功率譜估計(jì),后結(jié)合SSB-STSA方法可以完成對(duì)信號(hào)的識(shí)別。

      3.5 用于視覺(jué)和視聽(tīng)語(yǔ)音識(shí)別的級(jí)聯(lián)灰色立體視覺(jué)特征提取方法

      盡管立體聲信息最近已經(jīng)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù),但立體視覺(jué)信息在視聽(tīng)語(yǔ)音識(shí)別(AVSR)系統(tǒng)中的并入以及是否可以提高語(yǔ)音準(zhǔn)確性仍然是一個(gè)很大程度上尚未開(kāi)發(fā)的領(lǐng)域。該領(lǐng)域需要解決的三個(gè)基本問(wèn)題:1)立體聲功能是否有利于視覺(jué)和視聽(tīng)語(yǔ)音識(shí)別? 2)如果是這樣,立體聲功能嵌入了多少信息? 3)如何在緊湊的特征向量中對(duì)平面和立體聲信息進(jìn)行編碼?基于嵌入平面和立體聲特征的不同信息,一種新的級(jí)聯(lián)混合外觀視覺(jué)特征(CHAVF)提取方案被提出,將平面和立體視覺(jué)信息成功地結(jié)合到一個(gè)緊湊的特征向量中,并且在視覺(jué)上評(píng)估這一新穎特征和視聽(tīng)連接數(shù)字識(shí)別和孤立短語(yǔ)識(shí)別。結(jié)果表明,立體聲信息能夠顯著提升語(yǔ)音識(shí)別能力,提出的視覺(jué)特征的性能優(yōu)于視覺(jué)和視聽(tīng)語(yǔ)音識(shí)別任務(wù)中其他常用的外觀視覺(jué)特征。

      3.6 使用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的釋義識(shí)別研究

      抽象是使用替代單詞對(duì)給定文本的重述。釋義的識(shí)別在問(wèn)答,信息提取和多文檔摘要等應(yīng)用中至關(guān)重要。文字的詞匯,句法和語(yǔ)義特征可以單獨(dú)使用,也可以組合使用以識(shí)別釋義。支持向量機(jī)(SVM),最近鄰法和決策樹(shù)等機(jī)器學(xué)習(xí)分類器已經(jīng)被用于釋義識(shí)別,SVM識(shí)別器是最受歡迎的。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)被設(shè)計(jì)并實(shí)現(xiàn)用于識(shí)別釋義。該研究在微軟研究釋義語(yǔ)料庫(kù)上進(jìn)行了。從實(shí)驗(yàn)結(jié)果可以看出,RBFNN識(shí)別器在準(zhǔn)確性方面始終優(yōu)于SVM識(shí)別器,當(dāng)使用詞匯,句法和語(yǔ)義特征的組合時(shí),實(shí)現(xiàn)了最佳性能。

      4 總結(jié)與展望

      本文以語(yǔ)音特征提取和聲學(xué)建模為切入點(diǎn),系統(tǒng)的闡述了幾種算法在語(yǔ)音識(shí)別方面的應(yīng)用,為正在研究語(yǔ)音識(shí)別技術(shù)的學(xué)者提供了一定的理論基礎(chǔ)。隨著大數(shù)據(jù)越來(lái)越深入人們的生活,語(yǔ)音識(shí)別必然會(huì)稱為實(shí)現(xiàn)人機(jī)交互、推動(dòng)人工智能的關(guān)鍵技術(shù),海量的語(yǔ)音數(shù)據(jù)的累積,對(duì)人腦感知機(jī)制的不斷探索與研究,未來(lái)必定會(huì)有越來(lái)越接近人腦識(shí)別語(yǔ)音過(guò)程的算法,語(yǔ)音識(shí)別技術(shù)也會(huì)越來(lái)越趨于成熟。

      5 結(jié)語(yǔ)

      近幾年,雖然語(yǔ)音識(shí)別技術(shù)已經(jīng)逐漸應(yīng)用于人們的日常生活中:智能家電、服務(wù)機(jī)器人、車載系統(tǒng)等,但用戶的語(yǔ)音識(shí)別率仍然不盡如人意,所以研究出識(shí)別效率好且精度高的算法應(yīng)用于語(yǔ)音識(shí)別顯得尤其重要。

      [1]于俊婷,劉伍穎,易綿竹,李雪,李娜.國(guó)內(nèi)語(yǔ)音識(shí)別研究綜述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014,10:76-78.

      [2]于大海,孫建民.淺談?wù)Z音識(shí)別技術(shù)的應(yīng)用和發(fā)展[J].科技傳播,2009,09:22-23.

      [3]吳大為.基于HMM模型改進(jìn)算法的語(yǔ)音識(shí)別系統(tǒng)[D].哈爾濱工業(yè)大學(xué),2013.

      [4]周盼.基于深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別聲學(xué)建模研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.

      樊?;ǎ?991—),女,山西原平人,碩士研究生。

      北方民族大學(xué)創(chuàng)新項(xiàng)目(YCX1771)資助。

      猜你喜歡
      聲學(xué)語(yǔ)音噪聲
      噪聲可退化且依賴于狀態(tài)和分布的平均場(chǎng)博弈
      愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      對(duì)方正在輸入……
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      控制噪聲有妙法
      长治市| 墨竹工卡县| 南投县| 依安县| 西城区| 灌云县| 万盛区| 京山县| 孝义市| 昌平区| 宁国市| 同心县| 荥阳市| 长泰县| 马边| 额尔古纳市| 日喀则市| 兴宁市| 青冈县| 荔波县| 高密市| 都兰县| 鄄城县| 苏尼特右旗| 邓州市| 小金县| 定兴县| 历史| 德阳市| 博爱县| 阳西县| 昭平县| 四川省| 古交市| 祥云县| 丰都县| 阜新市| 顺义区| 芦溪县| 贺州市| 凤城市|