基于深度學習的語音識別方法

2019-07-16 11:55:38畢馨文

電子技術(shù)與軟件工程 2019年8期

畢馨文

摘要：本文通過對人工智能語言識別技術(shù)的現(xiàn)狀闡述，探討了基于人工智能深度學習的語音識別方法。改進語音識別當中的語音拾取和提取特征、模擬訓練和語音識別判斷，是有效提高這項技術(shù)的措施。更是推動人工智能產(chǎn)業(yè)發(fā)展，方便人們生活和工作的重大進步。

[關(guān)鍵詞]深度學習語音識別現(xiàn)狀前景

信息技術(shù)的高速發(fā)展讓人們對人工智能的研究更加深入，也有了長足的進步。人工智能的深入研究和應(yīng)用將給人們的生活和工作帶來很大的改變。對智能化的深入研究和開發(fā)，將廣泛運用到機器語言，機器學習模型的構(gòu)建就顯得極為重要?；谛畔⒓夹g(shù)日新月異的變化，智能化研究中的語音識別已經(jīng)成為可能，雖然基于人工神經(jīng)網(wǎng)絡(luò)引入聲學理論的應(yīng)用讓語音識別的準確率和高效率有了很大的提高，但隨著相關(guān)研究的深入和使用需求的提高，仍然存在一些缺陷。因此，對深度學習的研究和改進就顯得尤為重要。以下是筆者的一點看法。

1人工智能語音識別技術(shù)現(xiàn)狀

人工智能語音識別技術(shù)指的是計算機通過獲取并識別語言輸入信號，將其轉(zhuǎn)換為相應(yīng)文本的技術(shù)。目前，這項技術(shù)已經(jīng)被廣泛運用到人們的日常生活中。一些人們常見的電子產(chǎn)品，都擁有語音識別技術(shù)，提高人們工作生活效率的同時，給人們的生活方式帶來了很大改變。但是，語音識別技術(shù)不單單是要計算機能夠正確轉(zhuǎn)換語音信號輸入，同時，還要能夠獲取其中的主要信息，同時執(zhí)行指令。目前，雖然語音識別技術(shù)已經(jīng)被較為廣泛地運用，但是依舊只是停留在表層發(fā)展，存在很多缺陷與不便。

1.1噪聲干擾問題

當下的語音識別系統(tǒng)對噪聲干擾還未有有效的解決方式。講話人在周圍有噪音，或者由于語氣、語調(diào)、情緒等原因?qū)е掳l(fā)聲不準確或者不清楚的情況下，語音識別系統(tǒng)則不能有效地識別語音信號，或者干脆不能識別語音信號。

1.2端點檢測技術(shù)有待提高

端點檢測技術(shù)在語音信號識別中占據(jù)著重要位置，刨去噪音干擾的因素，即使在特別安靜的環(huán)境中，大部分語音信號識別的錯誤都來自于端點檢測器。即，提高語音識別技術(shù)的關(guān)鍵在于提高端點檢測技術(shù)，而提高端點檢測技術(shù)的關(guān)鍵在于尋找更加穩(wěn)定的語音參數(shù)。

2基于人工智能深度學習的語音識別方法分析

2.1語音識別方法中的語音拾取和提取特征

采樣和端點檢測是語音拾取的兩項重要環(huán)節(jié)。采樣即收集聲音信息的樣本，再由轉(zhuǎn)換器將所收集到的模擬音頻信號樣本轉(zhuǎn)換成數(shù)字音頻文件，是語音拾取中的初始環(huán)節(jié)。在這個環(huán)節(jié)中，聲卡用高于錄制最高頻率兩倍的頻率來收集語音信號，來確保避免因低頻而產(chǎn)生失真。

端點檢測又叫語音活動檢測或者語音邊界檢，是指在有噪音的環(huán)境中收集語音樣本時，識別語音與噪音，降低語音編碼速率、減少設(shè)備能耗和通信寬帶，從而提高識別率的作用。實現(xiàn)這一作用的設(shè)備叫語音活動檢測器。目前，在端點檢測過程中，有兩大問題亟待解決，首先是背景環(huán)境中的噪聲問題，即怎樣高效又準確地區(qū)別噪聲與需要采集的聲音信號，這就需要尋找到更加穩(wěn)定的語音參數(shù)，明確語音提取特征;其次是前后沿剪切問題，即從人聲發(fā)出到語音檢測開始之間存在時延，所以語音波形的開始和結(jié)尾就會被當做靜音而減掉，因此導(dǎo)致還原出來的語音與語音原稿有出入。

2.2語音識別方法中的模擬訓練和語音識別判

模擬訓練和語音識別判斷主要包括兩方面內(nèi)容：

（1）訓練，就是采用固定的識別方法作為標準，通過訓練或者匯聚同類來獲得相應(yīng)的語音參數(shù)，并將所獲得的語音參數(shù)作為參考模板保存起來，與眾多的參考模板一起建成參考模板庫，作為語音識別中的一項參考標準。

（2）分別對比識別樣本與各自參考模板，將相似度最高的作為識別字。對比的具體方法主要有三種。第一種是將語音特征訓練提取結(jié)果直接保存為模板。識別過程中，輸入語音信號與訓練特征提取，獲得待識別字的向量序列，比較該序列與各存儲模板，將距離最小者判定為所需字符。第二種是不以特征向量判斷每一個待識別漢字的存儲方式，而是以態(tài)圖為主。第三，即語音動態(tài)時間匹配性問題的解決辦法。選用適當?shù)姆椒▽⒄Z音特點序列劃分為n段，計算每一段特征子序列平均值（即平均位置），獲得n個特征矢量作為模板。

3基于人工智能深度學習的語音識別方法的前景

3.1廣泛應(yīng)用于人類的日常生活和工作

目前，人類在工作和生活中的電子產(chǎn)品日漸增多，并帶來了很大的便利，語音識別的運用讓更多的電子產(chǎn)品提高了用戶體驗滿意率，但其存在的問題同時也在降低用戶體驗滿意率。基于人工智能深度學習的語音識別方法的研究如若能夠更加廣泛地運用到電子產(chǎn)品中，在未來的人機接口中，將提高深度網(wǎng)絡(luò)對信息處理的廣泛程度，同時也將減少噪音對語音識別的干擾問題。

3.2更加接近“人智”

基于人工智能深度學習的語音識別方法，將參考深度神經(jīng)網(wǎng)絡(luò)算法，更加接近人腦獲取信息、分析信息、處理信息的過程和模式，也因此可以構(gòu)建強大的感知與認知的綜合能力引擎。從感知方面來說，將有可能囊括并匯聚來自聽覺、視覺、閱讀等感知信息，從而擴充感知范圍。從認知方面來說，將更加準確地判斷認識語言輸入，并運用強大的推理和邏輯網(wǎng)絡(luò)，做出及時而有效的決策并進行有效的輸出，與人類形成一個強大的信息交互模式。

3.3推動人工智能產(chǎn)業(yè)鏈的發(fā)展

基于人工智能深度學習的語音識別系統(tǒng)將在語音識別過程中能夠更加準確地識別語音信號，同時對其進行準確的分析，并產(chǎn)生決策性的輸出，將極大地提高用戶體驗。其次智能語音軟件的進步也能夠推動硬件產(chǎn)品的改良和進步，提高產(chǎn)品的精確度，拓寬產(chǎn)品應(yīng)用范圍。再次，具有語音識別系統(tǒng)的產(chǎn)品和語音識別系統(tǒng)將逐漸實現(xiàn)多樣化的語音服務(wù)模式，逐漸發(fā)展為比較成熟的產(chǎn)業(yè)鏈。

4結(jié)束語

基于深度學習的語音識別方法在理念和技術(shù)上都有待進步和提升，希望更多的專家和技術(shù)人員能夠繼續(xù)在人工智能語音識別方面改進技術(shù)，早日發(fā)展出成熟的產(chǎn)業(yè)鏈，更加方便人們的生活和工作。

參考文獻

[1]劉鵬程，袁三男，劉虹，基于深度學習的語音識別系統(tǒng)研究[J].新型工業(yè)化，2018，8（05）.

[2]戴禮榮，張仕良，黃智穎.基于深度學習的語音識別技術(shù)現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理，2017（03）.

[3]穆寶良，基于深度學習的語音識別方法[J].信息與電腦（理論版），2018（22）.