深度學習神經(jīng)網(wǎng)絡(luò)在語音識別中的應用探討

2021-04-11 14:56:16德州職業(yè)技術(shù)學院

電子世界 2021年6期

德州職業(yè)技術(shù)學院張丹

在大數(shù)據(jù)時代下，傳統(tǒng)的機器學習算法下所展開的語音數(shù)據(jù)處理模式下的計算活動已經(jīng)不能夠滿足人們對于語音數(shù)據(jù)的需求。因此展開對語音識別模型的研究探索，成為當前計算機平臺的研究熱點之一。本文主要研究如何將深度學習神經(jīng)網(wǎng)絡(luò)應用于語音識別中，探索基于深度學習神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)的網(wǎng)絡(luò)整體結(jié)構(gòu)以及結(jié)構(gòu)運行流程，最終呈現(xiàn)出一種更加優(yōu)良的語音識別模型。

1 語音識別的基本原理

1.1 語音識別的原理

語音識別顧名思義就是利用語音機器來展開對自然語音的處理。根據(jù)現(xiàn)有的計算機平臺語音識別機器的運行流程可知，語音識別需要經(jīng)過完成以下的基本流程，如圖1所示。

圖1 語音識別流程

但是自然語音數(shù)據(jù)的收集過程中，存在語音信號可變性的特點。如，聲學變量中相同音素在不同文本中的不同發(fā)音，導致語音機器所接收到的語音音素變量差距較大。也有噪聲現(xiàn)象影響語音信號的聲學模型的，改變語音信源信息。因此做好語音識別必須能夠做好語音信號的特征精準提取，完成語音信號數(shù)字化采樣和數(shù)字化的聲學信號分析。

1.2 語音識別主要流程

上述提到語音識別的基本流程特點，同時也強調(diào)了在整個流程中會對語音識別效率和結(jié)果帶來影響的若干因素，對于這些影響因素的分析，歸根究底是因為語音信號的預處理以及其特征提取的過程沒有做好。

語音信號的預處理。語音信號在產(chǎn)生的時候，計算機平臺中的語音機器要能夠?qū)@些信號進行采樣和量化，將語音信號以數(shù)字形式預加重處理，而后根據(jù)語音信號的數(shù)字形式中的高中低頻幅度相當?shù)奶攸c，進行分幀加窗，完成語音幀序列特征提取，形成特征向量序列，便于語音機器模型的識別和測試。以語音信號預加重處理為例，一般情況下是采用硬件或是軟件兩種方式實現(xiàn)預加重處理，通過選擇一個特性的高通濾波器進行預加重處理，完成濾波器傳遞函數(shù)“H(z)=de1-aZ-1”其中，a為0.9375，為該語音識別模型的預加重系數(shù)。

語音信號的特征提取。語音信號中擁有多種特征參數(shù)，正是這些特征參數(shù)讓語音信號能夠被語音機器所識別和處理。常用的特征參數(shù)又有線性預測倒譜系數(shù)和美爾頻率倒譜系數(shù)。本文以線性預測系數(shù)為例展開對語音信號的特征提取分析。一般的語音信號是通過激勵不同形狀的聲道模型而產(chǎn)生的，語音識別模型可以對聲道的形狀或模型估測出參數(shù)得到語音信號的特征，完成語音識別。線性預測系數(shù)模式就是通過一過去若干個運用語音采樣的線性組合來逼近一個語音信號，并且利用實際語音采樣和線性預測采樣之間的誤差值平方和的最小值來表達這一參數(shù)值lpc。另外還有線性預測倒譜系數(shù)，該系數(shù)是通過線性預測系數(shù)的倒譜域所表示出來的，整體運算過程較為繁瑣，具體如圖2所示。

圖2 線性預測倒譜系數(shù)流程圖

2 深度學習神經(jīng)網(wǎng)絡(luò)模型

人工神經(jīng)網(wǎng)絡(luò)能夠基于大規(guī)模歷史數(shù)據(jù)訓練、聚類，完成對海量的數(shù)據(jù)的處理、分布存儲，更能夠完成對各種非確定性和非線性對象的綜合處理。語音識別正是借助人工神經(jīng)網(wǎng)絡(luò)，從人腦的組織架構(gòu)和活動基理入手，借助數(shù)學和物理方法進行抽象建立起來的對語音信息的處理的類似生物神經(jīng)網(wǎng)絡(luò)的簡化模型。傳統(tǒng)語音識別所采用的神經(jīng)網(wǎng)絡(luò)模型為反向傳播網(wǎng)絡(luò)結(jié)構(gòu)。該神經(jīng)網(wǎng)絡(luò)模型主要是根據(jù)系統(tǒng)所提供的原始數(shù)據(jù)，通過訓練和學習的方式，表達語音輸入和輸出之間的內(nèi)在聯(lián)系，進而解得答案。反向傳播網(wǎng)絡(luò)模型在語音識別中的應用需要注意利用函數(shù)逼近與分類的區(qū)別，完成對子模型結(jié)構(gòu)的選擇，確定語音輸入層和輸出層節(jié)點數(shù)、網(wǎng)絡(luò)隱含層數(shù)目以及每層隱含層神經(jīng)元數(shù)目；展開對語音樣本的預處理，進行激勵函數(shù)形式的選擇等。在反響傳播網(wǎng)絡(luò)模型下的語音識別領(lǐng)域能夠展開并行分布處理工作，具有較高的容錯性、自學習和自適應性。但是同時，反響傳播網(wǎng)絡(luò)模型在也語音識別中所需要消耗的學習時間較長，遇到部分問題時，甚至需要運行更久，直接影響語音識別的及時性和精確性。因此導入一個全新的神經(jīng)網(wǎng)絡(luò)模型具有現(xiàn)實意義。

3 深度學習神經(jīng)網(wǎng)絡(luò)模型在語音識別中的應用

3.1 深度學習神經(jīng)網(wǎng)絡(luò)模型的仿真與實驗

深度學習神經(jīng)網(wǎng)絡(luò)是一個新興的神經(jīng)網(wǎng)絡(luò)模型，其發(fā)展速度較快，能夠完成對各種特殊的孤立詞的人語音識別。當前在應用神經(jīng)網(wǎng)絡(luò)模型進行語音識別時，需要根據(jù)人語音的特殊性，進行語音樣本庫建立，完成對深度學習神經(jīng)網(wǎng)絡(luò)模型的性能改進，最后構(gòu)建起限制玻爾茲曼機模型，應用相應的分類器，完成語音識別整個流程。

語音樣本庫的建立。語音樣本庫的建立需要滿足語音樣本的完整清晰性，可以人耳清晰辨別人工所說的數(shù)字，完成常規(guī)語音數(shù)據(jù)采集。之后完成語音信號的預加重處理，預加重濾除相應的低頻干擾，增加語音的高頻分辨率，得到語音輸入時域波形圖。之后對語音端點進行檢測，包括語音段、靜音段和背景噪音的處理。對語音端點的檢測和特征處理彩英時域端點偵測方式，將語音的幀長、幀移、短時平均能量的低門限、短時平均能量的高門限等參數(shù)進行設(shè)置，最終得到語音端點檢測仿真波形圖。

深度學習神經(jīng)網(wǎng)絡(luò)模型處理。在搭建起語音樣本庫之后，由于所識別的語音是漢語，因此在需要細致分析漢語語音的特殊性，進行整個神經(jīng)網(wǎng)絡(luò)模型的改進。當前可以采用輸入矢量歸一化探索，將輸入數(shù)據(jù)同系統(tǒng)權(quán)系數(shù)修正值呈現(xiàn)出正相關(guān)關(guān)系，如此有效避免漢語語音特征進入到激勵函數(shù)飽和區(qū)，影響識別的準確性。也可以采用網(wǎng)絡(luò)鏈接矩陣初始值的浮點數(shù)的隨機選取，讓網(wǎng)絡(luò)更加平穩(wěn)的收斂，對各種語音特征輸入輸出處理更加穩(wěn)定。

深度學習神經(jīng)網(wǎng)絡(luò)模型在語音識別中的實驗應用。完成前期準備之后，開始發(fā)揮深度神經(jīng)網(wǎng)絡(luò)模型在語音識別中的實驗應用。首先，實驗主要是采用美爾倒譜系數(shù)與美爾倒譜系數(shù)一階差分的混合參數(shù)作為語音信號的提取特征，將其以48×2輸入矩陣橫向展開，轉(zhuǎn)化為96維的向量，讓輸入的數(shù)據(jù)大小都歸集為[0,1]的閉合區(qū)間內(nèi)。其次，構(gòu)建限制玻爾茲曼機模型，展開參數(shù)的重新設(shè)置，可以采用小批量處理方式，將數(shù)據(jù)分別設(shè)置為包含1到10的是個樣本，由此降低抽樣誤差。進行學習率設(shè)置，不能夠設(shè)置過大，一般是控制在權(quán)值的0.003倍左右，本實驗中設(shè)置為0.001。另外還有參數(shù)初始值、隱含層單元個數(shù)設(shè)置等等。最后，快速學習算法設(shè)計。

3.2 深度學習神經(jīng)網(wǎng)絡(luò)模型在語音識別中的應用效果

經(jīng)過上述的仿真實驗分析，深度學習神經(jīng)網(wǎng)絡(luò)模型在語音識別中其學習速率得到較大程度的提升，在線學習時的迭代次數(shù)為1000次，具有更高的學習效果。

結(jié)束語：綜上所述，在新時代下語音識別技術(shù)在各行業(yè)中都得到廣泛應用，但是語音信號的可變性為語音有效識別帶來技術(shù)難題。如何有效地提高語音信號源信息的處理效率，提高語音信號的傳輸分析成為當務(wù)之急。按照語音識別的基本流程可知，語音信號的預處理和語音信號的特征提取直接影響著最終的識別效率和質(zhì)量。當前借助深度學習神經(jīng)網(wǎng)絡(luò)模型完成語音識別工作。首先是要進行深度學習神經(jīng)網(wǎng)絡(luò)模型的架構(gòu)，之后借助這一模型完成語音識別仿真實驗，由此提出深度學習神經(jīng)網(wǎng)絡(luò)在語音識別中的具體應用成效。