• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語音識別研究綜述①

      2022-02-15 06:39:22唐柔冰張巧靈
      計算機系統(tǒng)應用 2022年1期
      關鍵詞:聲學語音建模

      馬 晗,唐柔冰,張 義,張巧靈

      (浙江理工大學 信息學院,杭州 310018)

      語言是人類最原始直接的一種交流方式,通俗易懂、便于理解.隨著科技的發(fā)展,語言交流不再只存在于人與人之間,如何讓機器“聽懂”人類的語言并做出反應成為人工智能的重要課題,語音智能交互技術應運而生.作為其中重要一環(huán)的語音識別技術近年來不斷發(fā)展,走出了實驗室,隨著人工智能進入人們的日常生活中.當今市場上語音識別技術相關的軟件、商品涉及人類生活的方方面面,語音識別的實用性已經得到充分的印證.如今語音識別技術已經成為人類社會智能化的關鍵一步,能夠極大提高人們生活的便捷度.

      1 語音識別技術的發(fā)展歷程

      語音識別技術始于20世紀50年代,貝爾實驗室研發(fā)了10 個孤立數字的語音識別系統(tǒng),此后,語音識別相關研究大致經歷了3 個發(fā)展階段.第1 階段,從20世紀50年代到90年代,語音識別仍處于探索階段.這一階段主要通過模板匹配—即將待識別的語音特征與訓練中的模板進行匹配—進行語音識別.典型的方法包括動態(tài)時間規(guī)整(dynamic time warping,DTW)技術和矢量量化(vector quantification,VQ).DTW 依靠動態(tài)規(guī)劃(dynamic programming,DP)技術解決了語音輸入輸出不定長的問題;VQ 則是對詞庫中的字、詞等單元形成矢量量化的碼本作為模板,再用輸入的語音特征矢量與模板進行匹配.總體而言,這一階段主要實現了小詞匯量、孤立詞的語音識別.20世紀80年代至21世紀初為第2 階段,這一階段的語音識別主要以隱馬爾科夫模型(hidden Markov model,HMM)為基礎的概率統(tǒng)計模型為主,識別的準確率和穩(wěn)定性都得到極大提升.該階段的經典成果包括1990年李開復等研發(fā)的SPHINX 系統(tǒng)[1],該系統(tǒng)以GMM-HMM (Gaussian mixture model-hidden Markov model)為核心框架,是有史以來第一個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng).GMM-HMM 結構在相當長時間內一直占據語音識別系統(tǒng)的主流地位,并且至今仍然是學習、理解語音識別技術的基石.此外,劍橋推出了以HMM為基礎的語音識別工具包HTK (hidden Markov model toolkit)[2].21世紀至今是語音識別的第3 階段.這一階段的語音識別建立在深度學習基礎上,得益于神經網絡對非線性模型和大數據的處理能力,取得了大量成果.2009年Mohamed 等[3]提出深度置信網絡(deep belief network,DBN)與HMM 相結合的聲學模型在小詞匯量連續(xù)語音識別中取得成功.2012年深度神經網絡與HMM 相結合的聲學模型DNN-HMM 在大詞匯量連續(xù)語音識別(large vocabulary continuous speech recognition,LVCSR)中取得成功[4],掀起利用深度學習進行語音識別的浪潮.此后,以卷積神經網絡(convolutional neural network,CNN)、循環(huán)神經網絡(recurrent neural network,RNN)等常見網絡為基礎的混合識別系統(tǒng)和端到端識別系統(tǒng)都獲得了不錯的識別結果和系統(tǒng)穩(wěn)定性.迄今為止,以神經網絡為基礎的語音識別系統(tǒng)仍舊是國內外學者的研究熱點.

      我國的語音識別則起步于國家的“863 計劃”和“973 計劃”,中科院聲學所等研究所以及頂尖高校嘗試實現長時語音的漢語識別工作,如今中文語音識別技術已經達到了國際水準.2015年清華大學建立了第一個開源的中文語音數據庫THCHS-30[5].2016年上海交通大學提出的非常深卷積網絡(very deep convolutional neural networks,VDCNN)[6]提高了噪聲語音識別的性能,并在此基礎上進一步提出了非常深卷積殘差網絡(very deep convolutional residual network,VDCRN)[7].百度于2014年、2016年依次推出了DeepSpeech[8]及其改進版本[9],并在2017年提出Cold Fusion[10]以便于更好地利用語言學信息進行語音識別,該系統(tǒng)以LSTMCTC (long short-term memory-connectionist temporal classification)的端到端模型為基礎,在不同的噪聲環(huán)境下實現了英語和普通話的語音識別.2018年科大訊飛提出的深度全序列卷積神經網絡(deep full-sequence convolution neural networks,DFCNN)[11]直接對語音信號進行建模,該模型采用的大量疊加卷積層能夠儲存更多歷史信息,獲得了良好的識別效果.同年,阿里巴巴提出低幀率深度前饋記憶網絡(lower frame ratedeep feed forward sequential memory networks,LFRDFSMN)[12],將低幀率算法和DFSMN 算法相結合,使錯誤率降低了20%,解碼速度卻提升了近3 倍.

      總體而言,當前主流語音識別技術主要在大詞匯量連續(xù)語音數據集上,基于深度神經網絡進行模型構建和訓練,面向不同應用場景需求和數據特點對現有的神經網絡不斷改進,相比于傳統(tǒng)的統(tǒng)計方法取得了極大的性能提升.

      2 語音識別基礎

      2.1 語音識別概念

      語音識別是利用機器對語音信號進行識別和理解并將其轉換成相應文本和命令的技術,涉及到心理學、信號處理、統(tǒng)計學、數學和計算機等多門學科.其本質是一種模式識別,通過對未知語音和已知語音的比較,匹配出最優(yōu)的識別結果.

      根據面向的應用場景不同,語音識別存在許多不同的類型:從對說話人的要求考慮可分為特定人和非特定人系統(tǒng);從識別內容考慮可分為孤立詞識別和連續(xù)語音識別、命令及小詞匯量識別和大詞匯量識別、規(guī)范語言識別和口語識別;從識別的速度考慮還可分為聽寫和自然語速的識別等[13].

      2.2 傳統(tǒng)語音識別基本原理

      通常,語音識別過程大致分為兩步:第1 步,首先對語音信號提取特定的聲學特征,然后對聲學特征進行“學習”或者說是“訓練”,即建立識別基本單元的聲學模型和進行語言文法分析的語言模型;第2 步是“識別”,根據識別系統(tǒng)的類型選擇能夠滿足要求的識別方法,采用語音分析方法分析出這種識別方法所要求的語音特征參數,按照一定的準則和測度與系統(tǒng)模型進行比較,通過判決得出識別結果.

      設一段語音信號經過特征提取得到特征向量序列為X=[x1,x2,…,xN],其中xi是一幀的特征向量,i=1,2,…N,N為特征向量的數目.該段語音對應的文本序列設為W=[w1,w2,…,wM],其中wi為基本組成單元,如音素、單詞、字符,i=1,2,…,M,M為文本序列的維度.從貝葉斯角度,語音識別的目標就是從所有可能產生特征向量X的文本序列中找到概率最大的W*,可以用公式表示為下式優(yōu)化問題:

      由上式可知,要找到最可能的文本序列必須使兩個概率P(X|W)和P(W)的乘積最大,其中P(X|W)為條件概率,由聲學模型決定;P(W)為先驗概率,由語言模型決定.聲學模型和語言模型對語音信號的表示越精準,得到的語音系統(tǒng)效果越準確.

      從語音識別系統(tǒng)的構成來講,一套完整的語音識別系統(tǒng)包括預處理、特征提取、聲學模型、語言模型以及搜索算法等模塊,其結構示意圖如圖1所示.其中較為重要的特征提取、聲學模型和語言模型將在第2.2節(jié)中詳細闡述.

      圖1 語音識別系統(tǒng)結構圖

      預處理包括預濾波、采樣、模/數轉換、預加重、分幀加窗、端點檢測等操作.其中,信號分幀是將信號數字化后的語音信號分成短時信號作為識別的基本單位.這主要是因為語音信號是非平穩(wěn)信號,且具有時變特性,不易分析;但其通常在短時間范圍(一般為10–30 ms)內其特性基本不變,具有短時平穩(wěn)性,可以用來分析其特征參數.

      搜索模塊是指在訓練好聲學模型和語言模型后,根據字典搜索最優(yōu)路徑,即最可能的輸出詞序列.傳統(tǒng)的語音識別解碼建立在加權有限狀態(tài)轉換器(weighted finite state transducer,WFST)所構成的動態(tài)網絡上,將HMM 狀態(tài)、詞典和語法等結合起來.目前端到端模型中主流的搜索算法為Beam Search 等.

      2.2.1 特征提取

      通常,在進行語音識別之前,需要根據語音信號波形提取有效的聲學特征.特征提取的性能對后續(xù)語音識別系統(tǒng)的準確性極其關鍵,因此需要具有一定的魯棒性和區(qū)分性.目前語音識別系統(tǒng)常用的聲學特征有梅爾頻率倒譜系數(Mel-frequency cepstrum coefficient,MFCC)、感知線性預測系數(perceptual linear predictive cepstrum coefficient,PLP)、線性預測倒譜系數(linear prediction cepstral coefficient,LPCC)、梅爾濾波器組系數(Mel filter bank,Fbank)等.

      MFCC是最為經典的語音特征,其提取過程如圖2所示.MFCC的提取模仿了人耳的聽覺系統(tǒng),計算簡單,低頻部分也有良好的頻率分辨能力,在噪聲環(huán)境下具有一定的魯棒性.因此,現階段語音識別系統(tǒng)大多仍采用MFCC 作為特征參數,并取得了不錯的識別效果.

      圖2 MFCC的特征提取過程

      2.2.2 聲學模型

      聲學模型是對等式(1)中的P(X|W)進行建模,在語音特征與音素之間建立映射關系,即給定模型后產生語音波形的概率,其輸入是語音信號經過特征提取后得到的特征向量序列.聲學模型整個語音識別系統(tǒng)中最重要的部分,只有學好了發(fā)音,才能順利和發(fā)音詞典、語言模型相結合得到較好的識別性能.

      GMM-HMM是最為常見的一種聲學模型,該模型利用HMM 對時間序列的建模能力,描述語音如何從一個短時平穩(wěn)段過渡到下一個短時平穩(wěn)段;此外,HMM的隱藏狀態(tài)和觀測狀態(tài)的數目互不相干,可以解決語音識別中輸入輸出不等長的問題.該聲學模型中的每個HMM 都涉及到3 個參數:初始狀態(tài)概率、狀態(tài)轉移概率和觀測概率,其中觀測概率依賴于特征向量的概率分布,采用高斯混合模型GMM 進行建模.

      GMM-HMM 聲學模型在語音識別領域有很重要的地位,其結構簡單且區(qū)分度訓練成熟,訓練速度也相對較快.然而該模型中的GMM 忽略時序信息,每幀之間相對孤立,對上下文信息利用并不充分.且隨著數據量的上升,GMM 需要優(yōu)化的參數急劇增加,這給聲學模型帶來了很大的計算負擔,淺層模型也難以學習非線性的特征變換.

      深度學習的興起為聲學建模提供了新途徑,學者們用深度神經網絡(deep neural network,DNN)代替GMM 估計HMM的觀測概率,得到了DNN-HMM 語音識別系統(tǒng),其結構如圖3所示.DNN-HMM 采用DNN的每個輸出節(jié)點來估計給定聲學特征的條件下HMM 某個狀態(tài)的后驗概率.DNN 模型的訓練階段大致分為兩個步驟:第1 步是預訓練,利用無監(jiān)督學習的算法訓練受限波爾茲曼機(restricted Boltzmann machine,RBM),RBM 算法通過逐層訓練并堆疊成深層置信網絡(deep belief networks,DBN);第2 步是區(qū)分性調整,在DBN的最后一層上面增加一層Softmax層,將其用于初始化DNN的模型參數,然后使用帶標注的數據,利用傳統(tǒng)神經網絡的學習算法(如BP 算法) 學習DNN的模型參數.相比于GMM-HMM,DNN-HMM 具有更好的泛化能力,擅長舉一反三,幀與幀之間可以進行拼接輸入,特征參數也更加多樣化,且對所有狀態(tài)只需訓練一個神經網絡.文獻[4]證實了神經網絡在大詞匯量語音識別領域的出色表現.

      圖3 基于DNN-HMM的語音識別系統(tǒng)框架

      通過將DNN 取代GMM 對HMM 觀測概率進行聲學建模,DNN-HMM 相比GMM-HMM 在語音識別性能方面有很大提升;然而,DNN 對于時序信息的上下文建模能力以及靈活性等方面仍有欠缺.針對這一問題,對上下文信息利用能力更強的循環(huán)神經網絡RNN[14]和卷積神經網絡CNN[15]被引入聲學建模中.在RNN的網絡結構中,當前時刻的輸出依賴記憶與當前時刻的輸入,這對于語音信號的上下文相關性建模非常有優(yōu)勢.然而,RNN 存在因梯度消失和梯度爆炸而難以訓練的問題,于是研究人員引入門控機制,得到梯度傳播更加穩(wěn)定的長短時記憶(long short-term memory,LSTM)網絡.LSTM-RNN 對語音的上下文信息的利用率更高,識別的準確率與魯棒性也均有提升,這些在文獻[16]中能得到證實.CNN的優(yōu)勢在于卷積的不變性和池化技術,對上下文信息有建模能力,對噪聲具有魯棒性,并且可以減少計算量.時延神經網絡(time delay neural network,TDNN)是CNN 對大詞匯量連續(xù)語音識別的成功應用[17].CLDNN (CNN-LSTMDNN)綜合了三者的優(yōu)點,實驗結果也證明了三者的結合得到了正向的收益[18].

      總體而言,近年來語音識別中對聲學模型的研究仍集中在神經網絡,針對不同的應用場景和需求對上述經典網絡結構進行綜合和改進[19–21],以期訓練更復雜、更強大的聲學模型.

      2.2.3 語言模型

      語言模型是用來預測字符(詞)序列產生的概率,判斷一個語言序列是否為正常語句,也就是解決如何計算等式(1)中的P(W).傳統(tǒng)的語言模型n-gram[22]是一種具有強馬爾科夫獨立性假設的模型,它認為任意一個詞出現的概率僅與前面有限的n–1 個字出現的概率有關,其公式表達如下:

      然而,由于訓練語料數據不足或者詞組使用頻率過低等常見因素,測試集中可能會出現訓練集中未出現過的詞或某個子序列未在訓練集中出現,這將導致n-gram 語言模型計算出的概率為零,這種情況被稱為未登錄詞(out-of-vocabulary,OOV)問題.為緩解這個問題,通常采用一些平滑技術,常見的平滑處理有Discounting、Interpolation和Backing-off 等.n-gram 模型的優(yōu)勢在于其參數易訓練,可解釋性極強,且完全包含了前n–1 個詞的全部信息,能夠節(jié)省解碼時間;但難以避免維數災難的問題,此外n-gram 模型泛化能力弱,容易出現OOV 問題,缺乏長期依賴.

      隨著深度學習的發(fā)展,語言模型的研究也開始引入深度神經網絡.從n-gram 模型可以看出當前的詞組出現依賴于前方的信息,因此很適合用循環(huán)神經網絡進行建模.Bengio 等將神經網絡用于語言模型建模[23],提出用詞向量的概念,用連續(xù)變量代替離散變量,利用神經網絡去建模當前詞出現的概率與其前n–1 個詞之間的約束關系.這種模型能夠降低模型參數的數量,具有一定的泛化能力,能夠較好地解決數據稀疏帶來的問題,但其對取得長距離信息仍束手無策.為進一步解決問題,RNN 被用于語言模型建模[24].RNNLM中隱含層的循環(huán)能夠獲得更多上下文信息,通過在整個訓練集上優(yōu)化交叉熵來訓練模型,使得網絡能夠盡可能建模出自然語言序列與后續(xù)詞之間的內在聯(lián)系.其優(yōu)勢在于相同的網絡結構和超參數可以處理任意長度的歷史信息,能夠利用神經網絡的表征學習能力,極大程度避免了未登錄問題;但無法任意修改神經網絡中的參數,不利于新詞的添加和修改,且實時性不高.

      語言模型的性能通常采用困惑度(perplexity,PPL)進行評價.PPL 定義為序列的概率幾何平均數的倒數,其公式定義如下:

      PPL 越小表示在給定歷史上出現下一個預測詞的概率越高,該模型的效果越好.

      2.3 端到端語音識別

      傳統(tǒng)的語音識別由多個模塊組成,彼此獨立訓練,但各個子模塊的訓練目標不一致,容易產生誤差累積,使得子模塊的最優(yōu)解并不一定是全局最優(yōu)解.針對這個問題,學者們提出了端到端的語音識別系統(tǒng),直接對等式(1)中的概率P(W|X)進行建模,將輸入的語音波形(或特征矢量序列)直接轉換成單詞、字符序列.端到端的語音識別將聲學模型、語言模型、發(fā)音詞典等模塊被容納至一個系統(tǒng),通過訓練直接優(yōu)化最終目標,如詞錯誤率(word error rate,WER)、字錯誤率(character error rate,CER),極大地簡化了整個建模過程.目前端到端的語音識別方法主要有基于連接時序分類(connectionist temporal classification,CTC)[25]和基于注意力機制(attention model)[26]兩類方法及其改進方法.

      CTC 引入空白符號(blank)解決輸入輸出序列不等長的問題,主要思想是最大化所有可能對應的序列概率之和,無需考慮語音幀和字符的對齊關系,只需要輸入和輸出就可以訓練.CTC 實質是一種損失函數,常與LSTM 聯(lián)合使用.基于CTC的模型結構簡單,可讀性較強,但對發(fā)音詞典和語言模型的依賴性較強,且需要做獨立性假設.RNN-Transducer 模型[27]是對CTC的一種改進,加入一個語言模型預測網絡,并和CTC網絡通過一層全連接層得到新的輸出,這樣解決了CTC 輸出需做條件獨立性假設的問題,能夠對歷史輸出和歷史語音特征進行信息累積,更好地利用語言學信息提高識別準確率.

      基于注意力機制的端到端模型最開始被用于機器翻譯,能夠自動實現兩種語言的不同長度單詞序列之間的轉換.該模型主要由編碼網絡、解碼網絡和注意力子網絡組成.編碼網絡將語音特征序列經過深層神經網絡映射成高維特征序列,注意力網絡分配權重系數,解碼網絡負責輸出預測的概率分布.該模型不需要先驗對齊信息,也不用音素序列間的獨立性假設,不需要發(fā)音詞典等人工知識,可以真正實現端到端的建模.2016年谷歌提出了一個Listen-Attend-Spell (LAS)模型[28],其結構框圖如圖4所示.LAS 模型真正實現了端到端,所有組件聯(lián)合訓練,也無獨立性假設要求.但LAS 模型需要對整個輸入序列之后進行識別,因此實時性較差,之后也有許多學者對該模型不斷改進[29–31].

      圖4 LAS 模型框架圖

      目前端到端的語音識別系統(tǒng)仍是語音識別領域的研究熱點,基于CTC[32–34]、attention 機制[35]以及兩者結合的系統(tǒng)[36,37]都取得了非常不錯的成果.其中Transformer-Transducer 模型[38]將RNN-T 模型中的RNN 替換為Transformer 提升了計算效率,還控制attention 模塊上下文時間片的寬度,滿足流式語音識別的需求.2020年谷歌提出的ContextNet 模型[39],采用Squeeze-and-Excitation 模塊獲取全局信息,并通過漸進降采樣和模型縮放在減小模型參數和保持識別準確率之間取得平衡.在Transformer 模型捕捉長距離交互的基礎上加入了CNN 擅長的局部提取特征得到Conformer模型[40],實現以更少的參數達到更好的精度.實際上端到端的語音識別系統(tǒng)在很多場景的識別效果已經超出傳統(tǒng)結構下的識別系統(tǒng),但距其落地得到廣泛商業(yè)應用仍有一段路要走.

      3 語音識別的難點與熱點

      語音識別作為人機交互的關鍵技術一直是科技應用領域的研究熱點.目前,語音識別技術從理論研究到產品的開發(fā)都已取得了很多的成果,然而,相關研究及應用落地仍然面臨很大挑戰(zhàn),具體可歸納為以下幾方面:

      魯棒性語音識別:目前,理想條件下(低噪聲加近場)的語音識別準確率已經達到一定程度.然而,在實際一些復雜語音環(huán)境下,如聲源遠場等情景,低信噪比、房間混響、回聲干擾以及多聲源信號干擾等因素,使得語音識別任務面臨很大挑戰(zhàn).因此,針對復雜環(huán)境研究魯棒語音識別是目前語音識別領域的研究難點和熱點.當前,針對復雜環(huán)境下的語音識別研究大致可以分為4 個方向:(1)在語音識別前端,利用信號處理技術提高信號質量:采用麥克風陣列技術采集遠場聲源信號,然后通過聲源定位[41]、回聲消除[42]、聲源分離或語音增強[43]等提高語音信號質量.例如,文獻[44]在基于深度學習的自適應聲學回聲消除(acoustic echo cancellation,AEC)中加入了背景關注模塊以適應部署環(huán)境的變化,以提高語音信號質量;文獻[45]以深度聚類為框架提出了結合頻譜和空間信息的盲源分離方法;文獻[46] 利用以基于生成式對抗網絡(generative adversial networks,GAN)為基礎框架的增強網絡進行噪聲抑制,從而提高目標語音信號質量;(2)尋找新的魯棒性特征,盡可能消除非目標語音信號的影響:例如,伽馬通濾波器倒譜系數(Gammatone frequency cepstrum coefficient,GFCC)[47]等聽覺特征參數更適合擬合人耳基底膜的選擇性,符合人耳聽覺特征;或者,采用自動編碼器[48]、遷移學習[49]等多種方式提取更魯棒的特征;(3)模型的改進與自適應[50]:上海交通大學提出的VDCNN[6]以及VDCRN[7]通過加深卷積層提升算法的魯棒性,文獻[51]利用GAN中生成器與判別器的相互博弈和瓶頸特征構建聲學模型,文獻[52] 采用teacher-student learning的方式以干凈語音訓練的聲學模型作為教師模型訓練噪聲環(huán)境下的學生模型;(4)多模態(tài)數據融合[53]:當在高噪聲環(huán)境或多說話人造成語音重疊的情況下,目標語音信號容易被噪聲或其他非目標聲源(干擾信號)“淹沒”,這時僅憑拾音設備捕捉的“語音”信號往往無法獲得良好的識別性能;這時,將語音信號和其他信號如聲帶的振動信號[54]、嘴部的圖像信號[55]等進行融合,更好地提升識別系統(tǒng)的魯棒性.例如,文獻[56]以RNN-T為框架,提出多模態(tài)注意力機制對音頻和視頻信息進行融合,以提高識別性能;文獻[57]同樣基于RNN-T,但利用vision-to-phoneme model(V2P)提取視覺特征,連同音頻特征以相同的幀頻輸入至編碼器,取得了良好的識別性能.

      低資源語音識別:這是對各種小語種語言識別研究的統(tǒng)稱.小語種不同于方言,有獨立完整的發(fā)音體系,各異性較強但數據資源匱乏,難以適應以漢語、英語為主的語音識別系統(tǒng),聲學建模需要利用不充分的數據資源訓練得到盡可能多的聲學特征.解決這一問題的基本思路可以概括為從主流語言的豐富資源中提取共性訓練出可以公用的模型,在此基礎上訓練小語種模型.文獻[58]為解決共享隱藏層中會學到不必要的特定信息這一問題,提出了一個共享層和特有層平行的模型,它通過對抗性學習確保模型能夠學習更多不同語種間的不變特征.然而,小語種種類繁多,為了單獨一種建立識別系統(tǒng)耗費過多資源并不劃算,因此現在主要研究多語種融合的語音識別系統(tǒng)[59,60].

      語音的模糊性:各種語言中都存在相似發(fā)音的詞語,不同的講話者存在不同的發(fā)音習慣以及口音、方言等問題,母語者和非母語者說同一種語言也存在不同的口音,難以針對單獨的口音構建模型.針對多口音建模[61]的問題,現有的方法一般可以分為與口音無關和與口音相關兩大類,其中與口音無關的模型普遍表現更好一些.文獻[62]嘗試通過特定口音模型的集合建立統(tǒng)一的多口音識別模型;文獻[63]通過多任務學習將聲學模型和口音識別分類器聯(lián)合;文獻[64]則基于GAN 構建了預訓練網絡從聲學特征中區(qū)分出不變的口音.

      低計算資源:精度高效果好的神經網絡模型往往需要大量的計算資源且規(guī)模巨大,但移動設備(如手機、智能家居等)計算能力和內存有限,難以支撐,因此需要對模型進行壓縮及加速.目前針對深度學習模型采用的壓縮方法有網絡剪枝、參數量化、知識蒸餾等.文獻[65]采用網絡剪枝的方法構建了動態(tài)稀疏神經網絡(dynamic sparsity neural networks,DSNN),提供不同稀疏級別的網絡模型,通過動態(tài)調整以適應不同資源和能量約束的多種硬件類型的能力.文獻[66]通過量化網絡參數減少內存占用并加快計算速度.知識蒸餾能夠將復雜模型的知識遷入小模型,已應用于對語音識別系統(tǒng)的語言模型[67]、聲學模型[68]和端到端模型[29,69,70]等進行壓縮.文獻[71]利用知識蒸餾將視聽兩模態(tài)的識別系統(tǒng)遷移至單聽覺模型,縮小了模型規(guī)模,加快了訓練速度,卻并不影響精度.

      4 總結與展望

      4.1 總結

      本文主要對語音識別的發(fā)展、系統(tǒng)結構研究、熱點及難點進行了闡述.目前主流的語音識別方法大多基于深度神經網絡.這些方法大體分為兩類:一類是采用一定的神經網絡取代傳統(tǒng)語音識別方法中的個別模塊,如特征提取、聲學模型或語言模型等;另一類是基于神經網絡實現端到端的語音識別.相比于傳統(tǒng)的識別方法,基于深度神經網絡的語音識別方法在性能上有了顯著的提升.在低噪音加近場等理想環(huán)境下,當前的語音識別技術研究已經達到了商業(yè)需求.然而,在實際應用中存在各種復雜情況,如聲源遠場、小語種識別、說話人口音、專業(yè)語言場景等,這些情況使得復雜場景下的語音識別應用落地仍面臨挑戰(zhàn).此外,盡管當前深度學習在語音識別的應用確實提高了識別率等性能,但效果好的模型往往規(guī)模復雜且龐大、需要的數據資源較為冗余,不適合用于移動設備(如手機、智能穿戴設備等);此外,小語種、多口音、不同方言等的識別性能仍然差強人意.總之,當前語音識別領域已取得豐富的研究成果,但仍有很長一段路要走.

      4.2 展望

      在未來很長一段時間內,基于深度神經網絡的語音識別仍是主流;面向不同應用場景,根據語音信號特點對現有神經網絡結構進行改進仍是未來研究重點.大體上,未來語音識別領域的研究方向可大致歸納如下.

      (1)模型壓縮與加速.盡管當前深度學習在語音識別的應用確實提高了識別率等性能,但效果好的模型往往規(guī)模復雜且龐大、需要的數據資源較為冗余,不適合用于移動設備(如手機、智能穿戴設備等),因此對基于深度神經網絡的語音識別系統(tǒng)進行網絡模型壓縮和加速,將是未來語音識別的研究方向之一.

      (2)數據遷移.在面對小樣本數據或復雜問題時,遷移學習是一種有效的方式.在語音識別領域中,采用遷移學習的方式對小語種、方言口音或含噪語音進行識別也是未來的研究方向之一.

      (3)多模態(tài)數據融合.對于一些復雜的語音場景(高噪聲、混響、多源干擾等),可以利用語音信號和其他信號(如圖像信號、振動信號等)進行融合,以提高語音識別性能,也是未來研究研究方向之一.

      (4)多技術融合,提高認知智能.當前大多數語音識別算法只關注識別文字內容的正確性;然而,許多智能語音交互的應用(如QA 問答、多輪對話等)還涉及到語義的理解.因此,將語音識別技術結合其他技術[72–75]如自然語言處理(natural language processing,NLP)相結合以提升識別性能也是未來研究方向之一.

      猜你喜歡
      聲學語音建模
      聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
      Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
      基于PSS/E的風電場建模與動態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      县级市| 叙永县| 呼和浩特市| 太仆寺旗| 鱼台县| 陈巴尔虎旗| 杂多县| 丁青县| 永吉县| 辉南县| 西乌珠穆沁旗| 阿克陶县| 綦江县| 宁夏| 信宜市| 眉山市| 哈密市| 潞西市| 三明市| 秀山| 遂川县| 贵定县| 祁阳县| 福建省| 额济纳旗| 枝江市| 上犹县| 农安县| 健康| 泾源县| 岗巴县| 江安县| 保定市| 禄丰县| 铜川市| 上林县| 上犹县| 永康市| 阿拉尔市| 南阳市| 延庆县|