• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于人工智能的語音識別系統(tǒng)及應(yīng)用研究

      2019-08-30 06:40:28房愛東張志偉謝士春
      宿州學(xué)院學(xué)報 2019年8期
      關(guān)鍵詞:特征參數(shù)語音個體

      房愛東,張志偉,崔 琳,謝士春

      宿州學(xué)院信息工程學(xué)院,安徽宿州,234000

      語音識別(Speech Recognition)是通過對一種或多種語音信號進行特征分析,實現(xiàn)對聲音信號匹配、辨別的技術(shù)。語音識別技術(shù)是生物識別技術(shù)的一種。因個體的聲帶、口腔、舌頭、嘴唇、軟腭、咽腔、肺容、鼻腔、牙齒等發(fā)聲控制器官各不相同,發(fā)音頻率各異,音色、音強、音長、音高各不相同,形成獨具一格的個體語音特色[1]。這些不同要素又由90余種特征組成,共同表現(xiàn)出頻率、節(jié)奏、波長、強度等不同聲音個性特征。世界上沒有發(fā)自兩個人的完全相同的語音,所有的聲紋都或多或少有區(qū)別,觀察描述、辨析識別這些細小差異是語音識別技術(shù)需要解決的問題。

      1 語音識別技術(shù)

      語音識別技術(shù)是繼指紋識別技術(shù)、DNA 識別技術(shù)之后的可以進行大面積應(yīng)用的第三種新型識別技術(shù)。目前我國科研機構(gòu)已經(jīng)能夠?qū)κ畠|級庫容的語音進行“1:N”秒級別的檢索識別。美國貝爾實驗室的研究報告顯示,語音識別對諸如詞語“I、YOU、HE”等單詞識別的準確率可以達到96%~98%[2]。隨著人工智能技術(shù)的快速發(fā)展和廣泛應(yīng)用,語音識別的準確率必定會得到大幅提升。

      說話人的辨識和確認是語音識別的兩種基本技術(shù)。對個體的語音進行采集、建模和數(shù)化是語音識別技術(shù)的首要工作,只有采集了社會公眾的語音集合的全樣本后,在獲取個體音源語音檢材時,才能夠把全樣本語音集合與個體語音樣本進行自動比對,快速確認個體的真實身份。語音可以進行遠程的采樣和識別,因而對個體的身份確認具有方便快捷的優(yōu)勢。中國科技大學(xué)、清華大學(xué)、廈門大學(xué)和中科院聲學(xué)所等科研院所,已經(jīng)成功研制出識別速度快、辨識準確率高的不同語音識別系統(tǒng)。目前,公安機關(guān)已經(jīng)把語音識別技術(shù)廣泛應(yīng)用于辦案過程并已取得顯著效果。

      2 語音識別系統(tǒng)

      2.1 語音識別系統(tǒng)的原理

      語音與人體的其他各種生物特征相似,具有唯一和不可復(fù)制性[3],世界上不存在語音完全相同的兩個個體。語音識別技術(shù)就是從個體的語音信號中提取語音特征進行建模與數(shù)化,把全樣本語音集合與個體語音樣本進行自動比對進而進行身份識別等的判斷 ,語音識別系統(tǒng)原理如圖1所示。

      圖1 語音系統(tǒng)原理圖

      2.2 語音識別系統(tǒng)的四個模塊

      2.2.1 預(yù)處理模塊

      把采集到的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號,這是進行語音識別的第一步。采集語音信號、進行A/D(模/數(shù))轉(zhuǎn)換是預(yù)處理模塊的主要功能,語音識別系統(tǒng)預(yù)處理模塊同時具有波形編輯處理功能和(D/A轉(zhuǎn)換)回放功能。

      2.2.2 參數(shù)分析模塊

      提取語音參數(shù),語音參數(shù)的提取要能準確地反映個體的發(fā)音特征。經(jīng)過比較、分析若干種語音參數(shù)在辨識個體語音辨識率有效性基礎(chǔ)上,在參數(shù)分析模塊TDSI系統(tǒng)中使用音調(diào)曲線、偏相關(guān)和音長參數(shù)作為個體語音特征參數(shù),在參數(shù)分析模塊TISI系統(tǒng)中加入正交線性預(yù)測參數(shù)和長時間平均譜作為個體語音的特征參數(shù)[4]。

      2.2.3 訓(xùn)練模塊

      把所提取的語音參數(shù)作為個體建立訓(xùn)練模塊。因為測試語音的時間長度與訓(xùn)練語音的時間長度有差異。本文在訓(xùn)練模塊TDSI系統(tǒng)中應(yīng)用線性壓擴技術(shù),把訓(xùn)練語音調(diào)整到15幀(0.02秒/幀);在訓(xùn)練模塊TISI系統(tǒng)中應(yīng)用長時間平均技術(shù),把訓(xùn)練語音調(diào)整到1幀(0.02秒/幀)。

      2.2.4 識別模塊

      把模板庫中的語音模板和被測試語音進行比對,應(yīng)用模板匹配技術(shù),依據(jù)“最佳鄰近準則”鎖定與測試語音相匹配的個體。本文在語音識別系統(tǒng)識別模塊中應(yīng)用了參數(shù)加權(quán)歐氏距離聚類方法,計算出被測試語音和模板中語音之間的距離(表征近似程度的數(shù)學(xué)參量),在識別模塊TISI系統(tǒng)中應(yīng)用多階段識別策略,即率先在庫中粗識別,遴選出N個相似度高的個體語音,進而在N個個體內(nèi)進行細識別,最終篩選出最高相似度的個體語音。

      3 語音識別步驟

      3.1 特征參數(shù)的提取

      特征參數(shù)是用來對物質(zhì)和現(xiàn)象特性進行表征的參數(shù)信息。在日常言語中 ,每個人的語音特征和言語習慣等信息是獨具特色的,可提取這些參數(shù)并對語音進行歸類分析。因為每個個體的語音參數(shù)具有穩(wěn)定性和難以更改性,即便所在地點場景不同、時間跨度不同,被分析者的這些被提取的語音參數(shù)也不會發(fā)生變化。因而語音特征參數(shù)能夠完全有別于其他人,確保了身份識別的正確性。語音分析中有如下幾種方法用于語音參數(shù)的提取[5]。

      (1)語音頻譜。用語音頻譜描繪被提取個體的生理結(jié)構(gòu),主要體現(xiàn)在每個人的發(fā)聲器官上。個體的發(fā)聲器官在醫(yī)學(xué)構(gòu)造上沒有完全相同的,具有獨一無二的特性?;A(chǔ)發(fā)聲器官以鼻腔、氣管和聲道等為主,基于個體的基礎(chǔ)發(fā)聲器官來提取這些參數(shù),對這些參數(shù)進行分類、篩選進而捕捉測量個體的語音短時頻譜特征。通過對這些數(shù)據(jù)的分析可以找到被測個體的發(fā)聲激勵源及發(fā)音生理結(jié)構(gòu),找到有別于其他個體其生理器官的特性。被測個體的語音習慣性動作是短時頻譜及其基本輪廓重點關(guān)注的兩個方面。

      (2)線性預(yù)測。語音參數(shù)的線性預(yù)測是基于“過去”的一些語音抽樣,運算“當前”的語音參數(shù)是在數(shù)學(xué)模型基礎(chǔ)進行的,通過這種方式獲取的語音參數(shù)用于運算語音特征。提高運算效率、降低實現(xiàn)成本完全可通過帶有預(yù)測性質(zhì)的運算來完成,表現(xiàn)一種特殊的語音不需要很多的參數(shù)就能實現(xiàn)。

      (3)小波特征。小波特征參數(shù)通過運用小波技術(shù)獲取語音特征信息。能夠接受分辨率的改變是小波技術(shù)的優(yōu)點,小波技術(shù)要求語音參數(shù)穩(wěn)定性交叉,但能夠和時頻域兼容表征。目前小波特征技術(shù)已非常成熟,能夠準確快捷地獲取被測個體的語音特征信息,得到廣泛應(yīng)用。

      3.2 模式匹配識別

      基于在已經(jīng)獲取被測個體語音特征參數(shù)基礎(chǔ)上做更進一步的深度分析與精確判斷是模式匹配識別需要完成的工作。模式匹配識別是一種比對操作:把沒有識別處理的語音特征參數(shù)與模型庫中的語音特征參數(shù)進行比照。對比結(jié)果以相似度的高低形式標示,相似度距離以數(shù)據(jù)或表格形式呈現(xiàn)。相似度距離有一個范圍,把相似度距離合適的一個值作為門限值,以此篩選出最佳結(jié)果,最后的結(jié)果由語音識別系統(tǒng)輸出[6-7]。目前常見的較為成熟的模式匹配識別判斷有兩種模型。

      (1)矢量化模型。通過對語音參數(shù)建立矢量,對被檢測個體的語音特征進行矢量化處理。如需對被檢測人語音特征進行識別,把被檢測個體語音特征參數(shù)處理成可以表示個人信息的語音矢量并提供相應(yīng)的語音規(guī)范標準。

      (2)隨機模型。一個人的語音在不同地點和環(huán)境下是變化的,其變化范圍和變化的概率大小具有不確定性,需要建立隨機模型,隨機模型把被檢測個體的語音參數(shù)集中歸類建立語音參數(shù)模型,在建立語音參數(shù)模型時充分考慮到傳輸概率、轉(zhuǎn)移概率等因素。在訓(xùn)練過程中獲取狀態(tài)轉(zhuǎn)移概率矩陣、符號輸出概率矩陣等。當被檢測個體的語音信息發(fā)生狀態(tài)轉(zhuǎn)移時,系統(tǒng)能及時識別語音信息發(fā)生狀態(tài)轉(zhuǎn)移時的最大概率,從而對該被檢測人的語音模型做進一步分析判斷。

      4 實驗測試

      4.1 識別過程

      構(gòu)建語音識別模型,通過語音識別系統(tǒng)對語音進行識別如圖2所示。語音識別過程分為以下若干步驟:

      (1)對采集的原始聲音做相應(yīng)技術(shù)處理,例如分幀、預(yù)加重、加窗等;

      (2)計算梅爾頻率倒譜系數(shù),輸入特征矩陣I(n×r),r為幀數(shù);

      (3)通過深度神經(jīng)網(wǎng)絡(luò)進行逐層前向計算,得到輸出矩陣O(m×r);

      (4)找到輸出矩陣中列向量的最大輸出概率值,構(gòu)建含有r個元素的馬爾科夫鏈Hr=(h1,h2,...,hr);

      (5)將上述步驟中得到的Hr值輸入語音識別模型,然后對語音識別模型進行分析,進而確定最高概率的對應(yīng)路徑以獲得相關(guān)文字信息,最后將識別結(jié)果輸出。

      圖2 語音識別系統(tǒng)

      4.2 數(shù)據(jù)分析

      實驗共采用4個實驗組,每個實驗組含測試樣本1個、待匹配樣本20個。在每個實驗組的20個待匹配樣本中,其有1個來自于和本組測試樣本來源相同的說話人的語音采樣,其余19個均為不同的說話人提供的語音樣本。實驗使用深層循環(huán)神經(jīng)網(wǎng)絡(luò)與混合高斯隱馬爾科夫模型相結(jié)合的混合模型(圖3)進行語音識別。獲得語音的特征值后,通過深層循環(huán)神經(jīng)網(wǎng)絡(luò)把語音特征值接近純語音。隨后把深層循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的語音特征值輸入到混合高斯分布的隱馬爾科夫模型進行比對,得出最終識別結(jié)果。

      圖3 混合模型結(jié)構(gòu)

      采用DNN-HMM混合語音識別模型與GMM-HMM傳統(tǒng)語音識別模型對語音識別的準確率進行比較,實驗結(jié)果如表1所示。由表1數(shù)據(jù)得出結(jié)論,DNN-HMM語音識別系統(tǒng)對于單個詞語進行識別的準確率達到96.6%,而GMM-HMM語音識別系統(tǒng)則僅有 79.8%,前者的識別質(zhì)量明顯高于后者,其他情況下也有相近結(jié)論。但在個別條件下,例如有噪聲干擾時,DNN-HMM語音識別系統(tǒng)的識別率不足80%,需要不斷研究提高。

      表1 DNN-HMM語音識別模型與GMM-HMM實驗對比

      5 結(jié) 語

      基于人工智能的語音識別系統(tǒng)對語音信號進行分析處理,通過具有自主性的演算,精準地提取特征參數(shù)并識別篩選出精確的語音特征數(shù)據(jù),誤差小精確度高,經(jīng)提取分析處理的語音特征的可靠性更高、可利用性更強。于人工智能的語音識別系統(tǒng)對在語音信息進行識別處理過程中出現(xiàn)的差錯能通過人工計算與人工智能自行糾正并加以改進,智能語音識別的出錯率降低、容錯率上升,具有廣闊的發(fā)展、應(yīng)用空間。因此,智能語音識別系統(tǒng)相較于傳統(tǒng)語音識別系統(tǒng)具有無法比擬的優(yōu)點,而且智能語音識別系統(tǒng)的技術(shù)發(fā)展難度比傳統(tǒng)語音識別系統(tǒng)明顯降低,未來可以通過人工智能和語音識別系統(tǒng)的進一步融合 ,進一步增強智能語音識別系統(tǒng)的功能,拓展其應(yīng)用領(lǐng)域。

      猜你喜歡
      特征參數(shù)語音個體
      故障診斷中信號特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      魔力語音
      關(guān)注個體防護裝備
      勞動保護(2019年7期)2019-08-27 00:41:02
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      個體反思機制的缺失與救贖
      How Cats See the World
      隆昌县| 九龙县| 循化| 泸溪县| 永宁县| 长沙市| 安化县| 潞城市| 合作市| 黔江区| 儋州市| 翼城县| 佛坪县| 长泰县| 永昌县| 自贡市| 射阳县| 定结县| 壶关县| 黔西县| 平谷区| 祥云县| 抚松县| 柳林县| 堆龙德庆县| 神农架林区| 平南县| 潢川县| 岳阳市| 静海县| 鲁甸县| 潮安县| 会泽县| 六枝特区| 汝阳县| 临桂县| 比如县| 清新县| 郯城县| 开化县| 天长市|