• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合Conformer與N-gram的中文語音識別①

      2022-08-04 09:58:50許鴻奎盧江坤張子楓周俊杰胡文燁姜彤彤郭文濤李振業(yè)
      關(guān)鍵詞:解碼器編碼器注意力

      許鴻奎,盧江坤,張子楓,周俊杰,胡文燁,姜彤彤,郭文濤,李振業(yè)

      1(山東建筑大學(xué) 信息與電氣工程學(xué)院,濟(jì)南 250101)

      2(山東省智能建筑技術(shù)重點(diǎn)實(shí)驗(yàn)室,濟(jì)南 250101)

      隨著科技的飛速發(fā)展,語音識別技術(shù)已經(jīng)成為了智能設(shè)備的標(biāo)配,這項(xiàng)技術(shù)貫穿了多門學(xué)科理論,包含了模式識別、電子技術(shù)、數(shù)理統(tǒng)計、信號處理、計算機(jī)科學(xué)、物理聲學(xué)、生理科學(xué)和語言學(xué)等. 由于語音交互提供了更自然、更便利、更高效的溝通形式,語音必定將成為未來最主要的人機(jī)互動接口之一.

      在20 世紀(jì)50 年代,貝爾實(shí)驗(yàn)室就開始基于簡單的孤立詞語音識別技術(shù)的研究[1]. 1968 年,蘇聯(lián)科學(xué)家Vintsyuk 提出采用動態(tài)規(guī)劃的算法實(shí)現(xiàn)動態(tài)時間規(guī)整(dynamic time warping,DTW)[2,3],一度成為當(dāng)時語音識別的主流技術(shù). 后來模式識別、動態(tài)規(guī)劃算法和線性預(yù)測編碼這3 種技術(shù)被引入到語音識別中,成功的使得孤立詞語音識別系統(tǒng)從理論上得以完善,并且可以達(dá)到實(shí)用化的水平[4,5]. 進(jìn)入80 年代后,基于隱馬爾科夫模型(hidden Markov model,HMM)[6,7]的聲學(xué)建模和基于N-gram 的語言模型在語音識別中得到運(yùn)用[8,9],這時期語音識別開始從孤立詞識別系統(tǒng)向大量詞匯連續(xù)語音識別系統(tǒng)發(fā)展. 后來又結(jié)合高斯混合模型(Gaussian mixed model,GMM),形成基于高斯混合模型-隱馬爾可夫模型(Gaussian mixed model-hidden Markov model,GMM-HMM)[10]的語音識別框架,使基于HMM 的語音識別模型效果得到提升.

      進(jìn)入21 世紀(jì)后,深度學(xué)習(xí)技術(shù)不斷發(fā)展,在2011 年,微軟研究院的Deng 等人以音素狀態(tài)為建模單位提出了深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(DNN-HMM)的識別方法,用DNN 模型代替原來的GMM 模型,對每一個狀態(tài)進(jìn)行建模,顯著降低了錯誤率[11]. 但DNN-HMM語音識別模型的性能還是會受到數(shù)據(jù)強(qiáng)制分割、對齊、HMM 遺留的多模塊獨(dú)立訓(xùn)練等問題的限制[12].

      到2015 年,從聯(lián)結(jié)時序分類算法(connectionist temporal classification,CTC)[13]引入到語音識別領(lǐng)域后,端到端技術(shù)開始流行. 端到端技術(shù)將整個識別網(wǎng)絡(luò)簡化成一個單一的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練時只需要注意整個系統(tǒng)的輸入和輸出,直接將輸入音頻序列映射到單詞或其他字素序列,大大減少了對語音識別系統(tǒng)構(gòu)建的難度,受到越來越多研究人員的歡迎[14–16].

      近幾年,研究人員注意到具有自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型 “Transformer”[17],在機(jī)器翻譯、計算機(jī)視覺等領(lǐng)域中展現(xiàn)出強(qiáng)勁識別的性能. Dong 等人首次將Transformer 模型引入到語音識別領(lǐng)域中來,使得Transformer 能夠完成語音識別任務(wù)[18]. Transformer 在提取長序列依賴的時候更有效,但是提取局部細(xì)微特征的能力較弱,而卷積則更擅長提取局部特征[19–21].Conformer 模型[22]將卷積模塊加入到Transformer 模型的編碼器部分,達(dá)到增強(qiáng)識別效果的目的. Transformer模型在推理過程中無需使用語言模型即可獲得不錯的識別效果,但所得文本從語言學(xué)角度上看質(zhì)量較差,結(jié)合語言模型之后將得到不錯的效果. 本文將Conformer模型所搭建的語音識別系統(tǒng)在數(shù)據(jù)集AISHELL-1 和aidatatang_200zh 上與Transformer 模型作比較,并且增加語言模型[23,24]后比較了語音識別系統(tǒng)識別性能以及實(shí)時率的差異,并且在不同程度的噪聲數(shù)據(jù)中測試了識別的準(zhǔn)確率.

      1 Conformer 模型結(jié)構(gòu)

      本文所使用的Conformer 結(jié)構(gòu)是在Transformer模型編碼器的基礎(chǔ)上增加卷積模塊,構(gòu)成Conformer編碼器. 結(jié)構(gòu)如圖1 所示,Conformer 編碼器由多個Conformer 塊堆疊而成[22].

      圖1 Conformer 編碼器

      1.1 Conformer 塊

      Conformer 模型核心就是編碼器中的Conformer塊,其結(jié)構(gòu)如圖2 所示,由Layer Norm 模塊、前饋層、卷積層和多頭注意力層組成. 在前饋層、卷積層和多頭注意力層上都有殘差結(jié)構(gòu),這里殘差結(jié)構(gòu)的引入是為了便于卷積網(wǎng)絡(luò)的訓(xùn)練[25]. 同時卷積模塊和多頭注意力模塊相連起到效果增強(qiáng)的作用.

      圖2 Conformer 塊結(jié)構(gòu)

      1.2 多頭自注意力層

      在多頭自注意力模塊中,其結(jié)構(gòu)如圖3 所示,使用了殘差結(jié)構(gòu)和Dropout 來幫助訓(xùn)練更深層次的網(wǎng)絡(luò),防止多頭注意力層向量丟失重要信息[26].

      圖3 多頭自注意力模塊

      多頭注意力模塊中的注意力機(jī)制從輸入的大量信息中選擇關(guān)鍵信息加以處理. 使用信息提取的方法將維度為dm的輸入映射到一組查詢Q、鍵K和值V的矢量輸出,其中查詢Q和鍵K的維度是dK,值V的維度是dV. 然后再利用Softmax函數(shù)來獲得值的權(quán)重,最后返回值的加權(quán)總和Z. 計算公式如式(1)所示:

      其中,對QKT相乘結(jié)果進(jìn)行必要的縮放,來避免值過大導(dǎo)致Softmax函數(shù)梯度很小難以優(yōu)化.

      多頭注意力機(jī)制是將h個不同線性變換對Q、K和V進(jìn)行投影,最后將不同注意力輸出結(jié)果拼接起來. 如式(2)–式(3)所示,多頭注意力層輸出是將各個注意力頭的輸出乘以權(quán)重矩陣來計算.

      其中,W表示線性變換的參數(shù),headi表示第i個注意力頭. 多頭注意力模塊使用了相對正弦位置編碼,這種相對位置編碼使自注意模塊對不同的輸入長度有更好的泛化能力,并且可使編碼器對語音的輸入有更好的魯棒性[27].

      1.3 卷積層

      Conformer 塊結(jié)構(gòu)中的卷積模塊如圖4 所示,由Layer Norm、Batch Norm、Pointwise 卷積、Depthwise 卷積、GLU 激活層和ReLU 激活層所組成. 整體運(yùn)用了殘差結(jié)構(gòu),增強(qiáng)了梯度的傳播,防止梯度消失[25].

      圖4 卷積模塊

      在卷積模塊中使用深度可分離卷積,深度可分離卷積由Pointwise 卷積和 Depthwise 卷積組成,它將普通的卷積操作分解為兩個過程,這么做可以用較少的參數(shù)學(xué)習(xí)更豐富的特征并且減少了計算量. Pointwise卷積運(yùn)算負(fù)責(zé)將深度卷積的輸出按通道投影到新的特征圖上; Depthwise 卷積不同于原始卷積,一個卷積核負(fù)責(zé)一個通道,獨(dú)立地在每個通道上進(jìn)行空間卷積[28].

      GLU 激活函數(shù)如式(4)所示:

      其中,W和V是不同的卷積核,b和c是偏置參數(shù),該函數(shù)控制著哪些信息可以傳入下一層.

      1.4 前饋層

      前饋網(wǎng)絡(luò)(feed forward network ,FFN)的結(jié)構(gòu)如圖5 所示,由兩個線性層組成,使用ReLU 激活函數(shù)進(jìn)行線性變換,使用Dropout 層來減少過擬合的發(fā)生.

      圖5 前饋層結(jié)構(gòu)

      如式(5)所示,前饋層目的是為了更新注意力層輸出向量的每個狀態(tài)信息. 其中W表示權(quán)重,b表示偏差,x表示輸入:

      然后在經(jīng)過Layer Norm 層歸一化重新定位,對編碼器的深度網(wǎng)絡(luò)進(jìn)行平滑優(yōu)化[29]. 同時控制輸入向量長度的動態(tài)變化,防止神經(jīng)網(wǎng)絡(luò)層的參數(shù)變化導(dǎo)致輸入的分布產(chǎn)生較大差異.

      2 語言模型

      語言模型用于評估文本序列是否符合人類語言使用習(xí)慣,是傳統(tǒng)語音識別系統(tǒng)中不可或缺的一部分. 語言模型可以基于語法規(guī)則,也可以基于統(tǒng)計方法. 基于語法規(guī)則的語言模型來源于語言學(xué)家掌握的語言學(xué)領(lǐng)域知識. 而基于統(tǒng)計方法的語言模型,通過對大量文本語料進(jìn)行處理,獲得給定詞序列出現(xiàn)的概率分布,以客觀描述詞與詞之間組合的可能性,適合于處理大規(guī)模真實(shí)文本.

      統(tǒng)計語言模型的目標(biāo)是計算給定詞序列w1,···,wt?1,wt的組合概率,如式(6)所示:

      其中,條件概率P(w1),P(w2|w1),···,P(wt|w1w2···wt?1)就是語言模型,計算所有這些概率值的復(fù)雜度較高,特別是長句子的計算量很大,因此一般采用最多n個詞組合的N-gram 模型. 語言模型的訓(xùn)練需要足夠規(guī)模的語料數(shù)據(jù),數(shù)據(jù)越多統(tǒng)計到的詞的關(guān)系就越多,概率的區(qū)分性也就越明顯,符合語法規(guī)范的句子也就越多.

      但是,純端到端的模型并沒有結(jié)合語言模型,在結(jié)合語言模型之后會更好地利用中文語言特性得到更加準(zhǔn)確的預(yù)測結(jié)果. 而N-gram 語言模型有著成熟完備的訓(xùn)練工具,語料或多或少都可以進(jìn)行訓(xùn)練并且訓(xùn)練速度也很快,因此本實(shí)驗(yàn)采用N-gram 語言模型[9].

      2.1 N-gram 語言模型

      N-gram 是語音識別中最常用到的語言模型. N-gram指文本中連續(xù)出現(xiàn)的n個詞語,基本原理是基于馬爾可夫假設(shè),在訓(xùn)練語料數(shù)據(jù)中,通過極大似然估計的方法得到下一個詞語出現(xiàn)的n個概率分布進(jìn)而來推斷語句結(jié)構(gòu).

      當(dāng)n為1 時稱為一元模型,表示為式(7):

      當(dāng)n為 2 時稱為二元模型,表示為式(8):

      當(dāng)n為3 時稱為三元模型,表示為式(9):

      多元模型N-gram 可以表示為式(10):

      其中,m表示訓(xùn)練語料庫中的總字?jǐn)?shù),C(w1,···,wi)表示計算w1,···,wi在訓(xùn)練語料中出現(xiàn)的次數(shù). 一元模型與多元模型相比,一元模型對句子的約束最小,其中的競爭最多. 而多元模型對句子有更好的約束能力,解碼效果更好. 但是相應(yīng)的n越大,語言模型就越大,解碼速度也就越慢. N-gram 預(yù)測的詞概率值依賴于前n?1個詞,而更長距離的上下文依賴被忽略.

      2.2 困惑度和平滑技術(shù)

      目前主要使用困惑度進(jìn)行對比來確定語言模型的好壞,這種指標(biāo)比較客觀. 給定句子S,其包含詞序列w1,w2,···,wT,T表示句子的長度,則其困惑度可以由式(11)表示為:

      困惑度簡稱為PPL,PPL越小,句子S出現(xiàn)的概率就越高,表明語言模型越好,因此語言模型優(yōu)化的目標(biāo)就是最小化困惑度.

      語言模型的概率需要通過大量的文本語料來估計,采用最大似然算法. 但是在統(tǒng)計的預(yù)料中數(shù)量有限,因此會存在數(shù)據(jù)稀疏的情況,這會導(dǎo)致零概率或估計不準(zhǔn)的問題,因此對預(yù)料中未出現(xiàn)或少量出現(xiàn)的詞序列,需要采用平滑技術(shù)進(jìn)行間接預(yù)測.

      平滑技術(shù)主要有3 種,有折扣法、插值法和回退法[30]. 折扣法是降低概率不為0 項(xiàng)的概率,從已有的觀測值概率調(diào)配一些給未觀測值的概率來提高概率為0 項(xiàng)的概率,但沒有考慮低階模型和高階模型間的關(guān)系故不單獨(dú)使用; 插值法是將高階模型和低階模型做線性組合,充分利用高階和低階語言模型,把高階的概率信息分配給低階的模型; 回退法是基于低階模型估計未觀察到的高階模型.

      3 構(gòu)建語音識別系統(tǒng)

      端到端語音識別系統(tǒng),不同于傳統(tǒng)方法將語音識別任務(wù)分解為聲學(xué)模型、字典和語言模型多個子任務(wù),而是經(jīng)過一個復(fù)雜網(wǎng)絡(luò)直接產(chǎn)生對應(yīng)的語言文本,并且在不使用語言模型的情況下就能進(jìn)行語音識別的工作,實(shí)現(xiàn)從輸入語音到輸出文本的轉(zhuǎn)換[31].

      結(jié)構(gòu)如圖6 所示,編碼器部分負(fù)責(zé)將語音輸入序列映射到特征序列,生成指定長度的向量. 解碼器部分對最終的識別結(jié)果進(jìn)行解碼,根據(jù)語義向量生成指定的序列.

      圖6 端到端語音識別系統(tǒng)

      預(yù)處理模塊就是對初始輸入進(jìn)行處理,如圖7 所示,該結(jié)構(gòu)是由數(shù)據(jù)增強(qiáng)層、池化層、線性層和Dropout所組成.

      圖7 預(yù)處理模塊

      數(shù)據(jù)增強(qiáng)層通過使用SpecAugment[32,33]方法在log 梅爾聲譜層面上進(jìn)行數(shù)據(jù)增強(qiáng),可以將模型的過擬合問題轉(zhuǎn)化為欠擬合問題,以便通過大網(wǎng)絡(luò)和長時訓(xùn)練策略來緩解欠擬合問題,提升語音識別效果. 池化層處理輸入,較好地保留了低層次輸入,在保留了編碼器的表示能力和模型整體精度的同時顯著降低了計算量.

      線性層又稱為全連接層,其每個神經(jīng)元與上一個層所有神經(jīng)元相連,實(shí)現(xiàn)對前一層的線性組合或線性變換. Dropout 對于神經(jīng)網(wǎng)絡(luò)單元按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄,有效地減輕過擬合的發(fā)生,一定程度上達(dá)到了正則化的效果.

      3.1 端到端結(jié)構(gòu)

      端到端模型結(jié)構(gòu)如圖8 所示,該結(jié)構(gòu)編碼器部分為Conformer 的編碼器,由12 個Conformer 塊堆疊而成,解碼器部分由CTC 解碼器構(gòu)成.

      圖8 端到端語音識別系統(tǒng)結(jié)構(gòu)

      輸入數(shù)據(jù)經(jīng)過預(yù)處理后進(jìn)入Conformer 編碼器,CTC 解碼器由線性層組成,將編碼器的輸出轉(zhuǎn)化為CTC 激活后解碼輸出,解碼算法為CTC Prefix Beam Search[34–36].

      CTC 網(wǎng)絡(luò)的輸出形式為T×C,其中,T表示時間長度,C表示字符類別數(shù),CTC Prefix Beam Search 算法就是模型讀入一幀的數(shù)據(jù),然后給出當(dāng)下各種字符的概率,然后利用這一層的概率展開搜索,取搜索空間中最優(yōu)的k條路經(jīng)的前綴,并把這些前綴挨個輸入到模型中,同時把相同的前綴路徑合并,不斷重復(fù)最終得到最優(yōu)解.

      3.2 結(jié)合語言模型的端到端結(jié)構(gòu)

      結(jié)合語言模型后的模型結(jié)構(gòu),如圖9 所示. 編碼器部分由12 個Conformer 塊組成,解碼器部分為先經(jīng)過CTC WFST search 打分后再由Attention 解碼器重新打分得到最終結(jié)果[14,37]. 在結(jié)合語言模型的結(jié)構(gòu)中,CTC WFST search 是該結(jié)構(gòu)的核心,該步驟包含了構(gòu)建解碼圖和解碼器兩部分.

      圖9 結(jié)合語言模型的結(jié)構(gòu)

      解碼圖用TLG 來表示,即將T、L 和G 各層次信息組合到一張圖中,其中T 表示建模單元,L 表示詞典,G 表示語言模型. 以端到端模型訓(xùn)練的中文漢字作為建模單元T,詞典L 則是由詞語或句子拆分成建模單元而構(gòu)成,語言模型G 是由N-gram 語言模型轉(zhuǎn)換為加權(quán)有限狀態(tài)轉(zhuǎn)換器(weighted finite-state transducer,WFST)的形式表示[38,39]. WFST 通常用來描述狀態(tài)之間的轉(zhuǎn)移信息,能夠?qū)⒄Z言模型直接表示成圖的形式,語言模型概率經(jīng)處理后作為圖中的權(quán)重. 當(dāng)圖構(gòu)建完成之后,語言模型的概率就成了圖權(quán)重的一部分,解碼時直接使用圖的權(quán)重而不用去查詢語言模型,它實(shí)現(xiàn)了輸入序列到輸出序列的轉(zhuǎn)換.

      解碼器部分采用的是Viterbi 解碼,根據(jù)輸入尋求最佳狀態(tài)序列. 解碼過程是逐幀推進(jìn),結(jié)合轉(zhuǎn)移弧上的權(quán)重,得到每個時刻擴(kuò)展路徑的累計代價,然后對比指向同一個狀態(tài)的不同路徑的累計代價,選擇值更小的路徑并更新狀態(tài)信息,直到Viterbi 解碼最后一幀然后回溯路徑,得到最優(yōu)路徑. 對得到的信息再進(jìn)行Attention 解碼重打分,Attention 解碼器使用Transformer 結(jié)構(gòu)的解碼器部分,通過使用注意力機(jī)制最終輸出最合適的結(jié)果[37,40,41].

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)所用到的語音數(shù)據(jù)由兩部分組成,一部分來自于北京希爾貝殼科技有限公司出版的中文語聲數(shù)據(jù)集AISHELL-1,其包含178 h 來自400 個說話人的普通話聲頻和相應(yīng)文本信息. AISHELL-1 中的聲頻數(shù)據(jù)重采樣為16 kHz,16 位的WAV 格式. 開發(fā)人員將數(shù)據(jù)集分為3 個部分: 訓(xùn)練集、驗(yàn)證集和測試集. 訓(xùn)練集包含來自340 個說話者的120098 個發(fā)音和大約140 h 的普通話語聲數(shù)據(jù); 驗(yàn)證集包含來自40 個說話者的14326 個語句; 測試集包含來自20 個說話者的7176 個語句. 對于每個說話者,大約發(fā)布了360 個語句(大約26 min 的語聲).

      另一部分來自于由北京數(shù)據(jù)堂科技有限公司開發(fā)的中文普通話語音語料庫aidatatang_200zh,語料庫包含 200 h 的聲學(xué)數(shù)據(jù),主要是移動記錄數(shù)據(jù),邀請了來自中國不同口音地區(qū)的600 名演講者參與錄音,每個句子的轉(zhuǎn)錄準(zhǔn)確率大于 98%,數(shù)據(jù)文件中保留了語音數(shù)據(jù)編碼和說話人信息等詳細(xì)信息.

      4.2 實(shí)驗(yàn)配置

      實(shí)驗(yàn)所用的機(jī)器操作系統(tǒng)為Ubuntu 20.04.2LTS,CPU 為Intel Xeon Silver 4210 ,128 GB 內(nèi)存,GPU 為3 塊RTX2080 SUPER (6 GB)顯卡,共18 GB 顯存.

      SpecAugment 使用了2 個最大頻率掩碼和2 個最大時間掩碼以緩解過擬合問題. 在編碼器的前端使用兩個核大小為3×3、步幅為2 的卷積子采樣層. 編碼器中使用12 個Conformer 塊,注意力頭數(shù)設(shè)置為 4,學(xué)習(xí)率設(shè)置為0.002,batch size 設(shè)置為8,epoch 設(shè)置為120,beam size 設(shè)置為10. Attention 解碼器中解碼器個數(shù)為6 個,語言模型使用三元語法模型,即N-gram 語言模型中的N為3[32,37].

      實(shí)驗(yàn)中輸入特征是80 維梅爾濾波器組特征即Fbank 特征,將語音通過預(yù)加重、分幀、加窗、傅里葉變換、功率譜以及濾波器組有序計算. 設(shè)置窗長為20 ms,幀移為10 ms.

      訓(xùn)練使用CTC loss 與Attention loss 聯(lián)合優(yōu)化訓(xùn)練,這樣設(shè)置的目的是避免CTC 對齊關(guān)系過于隨機(jī)還能加快訓(xùn)練的收斂速度,并且可以使訓(xùn)練過程更加穩(wěn)定,從而取得更好的識別結(jié)果.

      訓(xùn)練所使用的組合損失如式(12)所示,x表示聲學(xué)特征,y為對應(yīng)標(biāo)注,LCTC(x,y)表示CTC loss,LATT(x,y)表示Attention loss,λ表示平衡CTC loss 和Attention loss 的系數(shù)[32,42,43].

      本實(shí)驗(yàn)基于Kaldi[44]、Espnet (end-to-end speech processing toolkit)工具包[45]和WeNet[37]語音識別工具包來進(jìn)行. Kaldi 是著名的開源語音識別工具,這套工具提供了目前工業(yè)界最常用的模型訓(xùn)練工具,它使用WFST 來實(shí)現(xiàn)解碼算法,其主要的代碼是C++編寫,在此之上使用bash 和Python 腳本做了一些工具. Espnet工具箱融合了Kaldi 的數(shù)據(jù)處理和特征提取,同時借助PyTorch 和Chainer,使用Python 實(shí)現(xiàn)了許多端到端模型. WeNet 是出門問問語音團(tuán)隊聯(lián)合西工大語音實(shí)驗(yàn)室開源的一款語音識別工具包,模型訓(xùn)練完全基于PyTorch 生態(tài),結(jié)構(gòu)類似于Kaldi 但并不依賴于Kaldi等安裝復(fù)雜的工具.

      4.3 評價標(biāo)準(zhǔn)

      本文在數(shù)據(jù)集AISHELL-1 和數(shù)據(jù)集aidatatang_200zh 上評價實(shí)驗(yàn)結(jié)果,采用字錯率(character error rate,CER)作為評價指標(biāo). 字錯率即為了使識別出來的詞序列和標(biāo)準(zhǔn)的詞序列之間保持一致,需要進(jìn)行替換、刪除或者插入某些詞,這些插入I、替換S和刪除D的詞的總個數(shù),除以標(biāo)準(zhǔn)的詞序列中詞的總個數(shù)的百分比,即如式(13)所示:

      4.4 實(shí)驗(yàn)結(jié)果

      在數(shù)據(jù)集AISHELL-1 和aidatatang_200zh 上,不添加語言模型的情況下,實(shí)驗(yàn)結(jié)果如表1,以Conformer模型所搭建的語音識別系統(tǒng)與Transformer模型做對比,可以看出在相同的數(shù)據(jù)集上訓(xùn)練Conformer 模型較Transformer 模型具有更低的字錯率. 在AISHELL-l數(shù)據(jù)集上Conformer 模型要比Transformer模型字錯率低5.82%,在aidatatang_200zh 數(shù)據(jù)集上Conformer 模型比Transformer 模型字錯率低2.71%.

      表1 在不同數(shù)據(jù)集上不同模型的字錯率 (%)

      添加語言模型之后,在相同數(shù)據(jù)集上使用文中識別方法的結(jié)果如表2,不難看出在AISHELL-1 數(shù)據(jù)集上Conformer 模型在結(jié)合語言模型之后比Transformer模型結(jié)合語言模型的字錯率低3.23%,在aidatatang_200zh 數(shù)據(jù)集上結(jié)合語言模型的Conformer模型比結(jié)合語言模型的Transformer 模型字錯率低1.69%.

      表2 結(jié)合語言模型使用不同模型的字錯率 (%)

      經(jīng)以上實(shí)驗(yàn)表明,在添加語言模型后Conformer模型和Transformer 模型在兩個不同的數(shù)據(jù)集上準(zhǔn)確率均得到了進(jìn)一步提升,并且Conformer 模型在添加語言模型之后識別效果最佳.

      語音識別的實(shí)時率用來度量語音識別系統(tǒng)識別音頻速度的值,表示處理單位時長語音數(shù)據(jù)所需要的時間,值越小表示處理語音的效率越高. 經(jīng)測試結(jié)果如表3 所示,在不結(jié)合語言模型時Transformer 模型的實(shí)時率比Conformer 模型低0.06102,在結(jié)合語言模型之后Transformer 模型的實(shí)時率比Conformer 模型低0.0344,可以看出Transformer 模型的實(shí)時率比Conformer模型的實(shí)時率稍好,并且在結(jié)合語言模型之后兩模型識別的實(shí)時率也均會發(fā)生升高,但仍能在語音識別時達(dá)到不錯的識別效率.

      目前較新的語音識別模型有RNN-Transducer、Conformer-Transducer[45,46],以在AISHELL-1 數(shù)據(jù)集上測試的結(jié)果為基準(zhǔn),與結(jié)合語言模型的Conformer 模型作比較,其結(jié)果如表3 所示,

      表3 語音識別的實(shí)時率

      由表4 可以看出,結(jié)合語言模型的Conformer 模型較RNN-Transducer 和Conformer-Transducer 模型相比,字錯率分別下降了了2.34%和0.14%. 可以看出該模型在性能上有一定的優(yōu)勢.

      表4 與目前較新的模型比較字錯率 (%)

      測試結(jié)合語言模型的Conformer 模型在噪聲環(huán)境的性能,在AISHELL-1 數(shù)據(jù)集上加入不同比例的白噪聲分別構(gòu)成信噪比為10 dB、20 dB、40 dB、60 dB和80 dB 的噪聲數(shù)據(jù). 測試結(jié)果如表5 所示,在測試信噪比為80 dB 和60 dB 含噪聲數(shù)據(jù)時的性能和與使用純凈音頻時的性能十分接近. 隨著噪聲強(qiáng)度的增加,在測試信噪分別為40 dB 和20 dB 時,音頻質(zhì)量接近日常生活環(huán)境,此時識別的準(zhǔn)確率有所下降. 信噪比為10 dB 時語音數(shù)據(jù)聲音嘈雜,對模型的識別產(chǎn)生較大影響,此時字錯率升高. 由此可以看出噪聲會對模型的性能產(chǎn)生影響,隨著噪聲的增強(qiáng),模型識別的準(zhǔn)確率有所下降.

      表5 比較在不同噪聲環(huán)境下的字錯率

      5 結(jié)束語

      本次實(shí)驗(yàn)通過比較不同模型的字錯率,可以看出由Conformer 模型所搭建的中文語音識別系統(tǒng)較Transformer 模型有更好的性能,并且語言模型的添加對端到端語音識別系統(tǒng)識別準(zhǔn)確的增加有著重要的作用. 模型識別語音的實(shí)時率小于0.2,在進(jìn)行語音識別時可以感受到細(xì)微的延遲并不會影響整體的效果. 并且通過在含有不同程度噪聲數(shù)據(jù)上測試的結(jié)果,可以看出不同程度的噪聲均會對模型的性能產(chǎn)生一定的影響. 由于實(shí)驗(yàn)中所用于訓(xùn)練的語音數(shù)據(jù)是在安靜的條件下錄制的,語音質(zhì)量比較高,這相較于模型在實(shí)際使用中所輸入的語音數(shù)據(jù)過于完美,并且實(shí)驗(yàn)所用的數(shù)據(jù)量不足無法涉及到現(xiàn)實(shí)中的各個生活場景,因此后續(xù)考慮擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)量以提升模型的性能及魯棒性,使該模型能夠在更多環(huán)境下使用.

      猜你喜歡
      解碼器編碼器注意力
      讓注意力“飛”回來
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于FPGA的同步機(jī)軸角編碼器
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      基于PRBS檢測的8B/IOB編碼器設(shè)計
      A Beautiful Way Of Looking At Things
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
      電子器件(2015年5期)2015-12-29 08:42:24
      鹤山市| 三门县| 福贡县| 石狮市| 绥江县| 孝义市| 大方县| 杭州市| 芜湖县| 昌平区| 阳西县| 卓尼县| 新宁县| 方城县| 南漳县| 若羌县| 海南省| 什邡市| 调兵山市| 广州市| 饶平县| 潮安县| 博兴县| 沾化县| 思茅市| 南召县| 夏邑县| 浦县| 光山县| 石河子市| 雷山县| 全南县| 巨野县| 苗栗市| 永新县| 玉门市| 页游| 墨脱县| 临城县| 泗阳县| 都昌县|