• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      混合CTC/Attention模型在普通話識(shí)別中的應(yīng)用

      2022-08-18 09:08:30許鴻奎張子楓盧江坤周俊杰胡文燁姜彤彤
      關(guān)鍵詞:多任務(wù)識(shí)別率解碼

      許鴻奎,張子楓,盧江坤,周俊杰,胡文燁,姜彤彤

      (1.山東建筑大學(xué)信息與電氣工程學(xué)院,山東 濟(jì)南 250101; 2.山東省智能建筑技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250101)

      0 引 言

      近年來,隨著科技的迅猛發(fā)展,人工智能成為一大熱門話題,自動(dòng)語音識(shí)別(Automatic Speech Recognition, ASR)技術(shù)應(yīng)運(yùn)而生[1]。語音識(shí)別作為人工智能設(shè)備必備的功能,可以實(shí)現(xiàn)人與機(jī)器的實(shí)時(shí)交流,因此,如何提高語音識(shí)別的準(zhǔn)確率成為當(dāng)前的研究熱門。我國在人工智能領(lǐng)域成果眾多,處于世界領(lǐng)先地位,在語音識(shí)別方面也有一定的突破,但由于我國幅員遼闊導(dǎo)致各地區(qū)人口的普通話發(fā)音略有不同,因此識(shí)別率受到影響。

      語音識(shí)別技術(shù)按照發(fā)展順序可分為傳統(tǒng)技術(shù)和端到端技術(shù)。在過去幾十年中,語音識(shí)別主要依賴于以隱馬爾可夫模型(Hidden Markov Model, HMM)和高斯混合模型(Gaussian Mixture Model, GMM)為基礎(chǔ)的傳統(tǒng)技術(shù),利用GMM對(duì)語音狀態(tài)序列的發(fā)射概率進(jìn)行建模,采用HMM對(duì)語音內(nèi)部時(shí)序狀態(tài)轉(zhuǎn)換進(jìn)行建模[2-3],這種GMM-HMM技術(shù)實(shí)現(xiàn)了對(duì)連續(xù)語音的識(shí)別,但缺點(diǎn)也很明顯,該模型在使用時(shí)需手工制作發(fā)音詞典,并且要對(duì)音頻和音素進(jìn)行預(yù)定義對(duì)齊[4]。要想實(shí)現(xiàn)一個(gè)基于GMM-HMM的語音識(shí)別系統(tǒng),就必須分別訓(xùn)練聲學(xué)模型、發(fā)音詞典和語言模型等多個(gè)模塊,即使是對(duì)研究者來說也非常麻煩,HMM中的不合理假設(shè)也對(duì)這種傳統(tǒng)的語音識(shí)別技術(shù)造成諸多影響。隨著語音數(shù)據(jù)量的增加,數(shù)據(jù)也越來越復(fù)雜,導(dǎo)致GMM-HMM聲學(xué)模型的訓(xùn)練時(shí)間越來越長,識(shí)別率方面也進(jìn)入了瓶頸期,難以提高。

      雖然近年來深度神經(jīng)網(wǎng)絡(luò)為語音識(shí)別領(lǐng)域做出了巨大貢獻(xiàn),但這些改變都是對(duì)聲學(xué)模型的改進(jìn),一個(gè)自動(dòng)語音識(shí)別系統(tǒng)由各種復(fù)雜模塊組合而成,這些改進(jìn)并不能簡(jiǎn)化傳統(tǒng)語音識(shí)別系統(tǒng)的流程,于是有學(xué)者提出了端到端的語音識(shí)別模型,端到端模型主要有鏈接時(shí)序分類技術(shù)(Connectionist Temporal Classification, CTC)[5-6]和注意力(Attention)[7]這2種。端到端語音識(shí)別系統(tǒng)可以實(shí)現(xiàn)語音到文本的直接映射,由特征直接轉(zhuǎn)錄為文本[8],大大簡(jiǎn)化了語音識(shí)別的流程,還可以實(shí)現(xiàn)不同語種在同一種框架下訓(xùn)練、識(shí)別,經(jīng)過幾年的發(fā)展,端到端模型的識(shí)別率已經(jīng)與最先進(jìn)的傳統(tǒng)模型不相上下[9-11]。然而基于CTC方法的語音識(shí)別模型當(dāng)前時(shí)刻輸出只與當(dāng)前時(shí)刻輸入有關(guān),沒有考慮上下文的關(guān)聯(lián)性,實(shí)現(xiàn)了從語音特征到文本序列的對(duì)齊,這實(shí)際上是一種硬對(duì)齊,同時(shí)CTC的輸出條件獨(dú)立假設(shè)也制約了該方法的性能。Attention模型中的對(duì)齊關(guān)系也沒有先后順序的限制,這種對(duì)齊的盲目性給訓(xùn)練帶來了困難。

      針對(duì)以上問題,本文開展基于CTC和Attention的端到端普通話識(shí)別研究。考慮到2類端到端模型各有優(yōu)勢(shì),本文提出一種混合CTC/Attention的端到端模型,并將其應(yīng)用于中文普通話的識(shí)別中。在模型構(gòu)成方面提出VGG-BiLSTM的組合編碼器,利用VGG編碼器提取局部特征,BiLSTM編碼器進(jìn)行序列建模。模型訓(xùn)練過程采用多任務(wù)學(xué)習(xí)(Multi Task Learning, MTL)的方式,引入聯(lián)合訓(xùn)練參數(shù)λ,研究不同λ值對(duì)模型訓(xùn)練及準(zhǔn)確率的影響。該混合模型充分利用Attention機(jī)制的上下文建模優(yōu)勢(shì),通過CTC避免對(duì)齊關(guān)系過于隨機(jī),加快了訓(xùn)練過程。并嘗試在解碼階段加入一個(gè)訓(xùn)練好的RNN語言模型(Language Model, LM),與混合CTC/Attention模型進(jìn)行淺層融合,以進(jìn)一步降低錯(cuò)誤率。

      1 相關(guān)工作

      從20世紀(jì)開始,我國學(xué)者便開始了對(duì)中文普通話識(shí)別的研究。進(jìn)入90年代后基于GMM-HMM方法的語音識(shí)別模型在我國得到了廣泛應(yīng)用,對(duì)連續(xù)中文語音的識(shí)別取得了重大突破,識(shí)別正確率與速率都有了質(zhì)的飛躍[12]。

      之后Yu等[13]提出用DNN代替原來的GMM,構(gòu)建了一種基于DNN-HMM的混合模型,該DNN-HMM模型應(yīng)用于大詞匯量連續(xù)中文識(shí)別任務(wù)上取得了令人滿意的結(jié)果,識(shí)別成功率大大提高。還有學(xué)者發(fā)現(xiàn)長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)具有很強(qiáng)的長時(shí)建模能力,能夠充分利用語音的長短時(shí)信息,于是提出了用LSTM替代DNN的模型,中國學(xué)者將這種基于LSTM的模型應(yīng)用于中文識(shí)別任務(wù)中,實(shí)驗(yàn)表明該模型在中文語音識(shí)別任務(wù)中具有非常好的識(shí)別性能[14-15]。

      姚煜等[16]提出了基于雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)的聲學(xué)模型構(gòu)建方法,并將鏈接時(shí)序分類(CTC)成功地應(yīng)用于該聲學(xué)模型訓(xùn)練中,搭建出了一個(gè)不依賴于HMM技術(shù)的端到端中文普通話識(shí)別系統(tǒng),實(shí)驗(yàn)結(jié)果顯示該端到端系統(tǒng)不但使錯(cuò)誤率大幅降低,還減少了訓(xùn)練時(shí)間和解碼速度。楊德舉等[17]提出了基于一維門控卷積神經(jīng)網(wǎng)絡(luò)與CTC的中文端到端語音識(shí)別模型,該模型利用門控線性單元減少梯度彌散,結(jié)合CTC算法實(shí)現(xiàn)了以漢字作為輸出標(biāo)簽的端到端中文普通話識(shí)別系統(tǒng)。張威等[18]以深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)和CTC為研究對(duì)象,分析了不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)語音識(shí)別系統(tǒng)的影響,并聯(lián)合SENet提出了深度SE-MCNN-CTC聲學(xué)模型,實(shí)現(xiàn)了聲學(xué)模型性能的進(jìn)一步提升。

      張宇等[19]提出基于注意力LSTM和多任務(wù)學(xué)習(xí)的語音識(shí)別方法,模型中加入了注意力機(jī)制以加強(qiáng)上下文之間的關(guān)注度。劉曉峰等[20]提出了一種基于注意力機(jī)制的端到端語音識(shí)別模型,用于識(shí)別中文大同方言,與傳統(tǒng)模型相比,識(shí)別率有了明顯提高。徐冬冬等[21]提出將基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)與注意力模型融合的方法,該方法充分考慮了不同語音數(shù)據(jù)分布的復(fù)雜性和差異性,有效地提高了語音識(shí)別系統(tǒng)的準(zhǔn)確率。

      2 基礎(chǔ)模型

      2.1 鏈接時(shí)序分類

      CTC在輸入序列X={x1,x2,…,xT}和輸出序列Y={y1,y2,…,yU}二者之間建立多對(duì)一映射關(guān)系,尋找一個(gè)最佳匹配。CTC可以直接對(duì)序列進(jìn)行學(xué)習(xí),無需幀級(jí)別的標(biāo)注,在輸出序列和最終標(biāo)簽間增加了多對(duì)一的映射關(guān)系,并在此基礎(chǔ)上定義CTC損失函數(shù),CTC的訓(xùn)練過程實(shí)際上就是自動(dòng)對(duì)齊使損失函數(shù)最小化的一個(gè)過程,訓(xùn)練目標(biāo)是使X和Y盡最大可能地匹配,即使輸出概率P(Y|X)最大化。

      圖1 CTC結(jié)構(gòu)簡(jiǎn)圖

      假設(shè)輸出長度為L,則鏈接時(shí)序分類公式表示為Y={yl=U|l=1,2,…,L},U表示一組不同的字母。此外,CTC還引入了空白符號(hào)“blank”作為分隔符,用于明確字母的邊界,防止出現(xiàn)字母符號(hào)的重復(fù),加入空白符號(hào)后,字母序列Y被擴(kuò)展為Y′,Y′被定義為:

      (1)

      引入了空白符“blank”后的逐幀字母序列可表示為:

      Z=Zt∈U∪〈b〉|t=1,2,…,T

      (2)

      后驗(yàn)概率P(Y|X)可分解為:

      (3)

      CTC通過對(duì)數(shù)據(jù)之間的條件獨(dú)立假設(shè)得到上式,該式對(duì)聲學(xué)模型P(Z|X)和字母模型P(Y|Z)之間的依賴性做了簡(jiǎn)化。

      基于CTC的模型實(shí)質(zhì)上還是屬于聲學(xué)模型,其損失函數(shù)定義為所有訓(xùn)練集樣本的負(fù)對(duì)數(shù)概率之和:

      (4)

      CTC的優(yōu)化目標(biāo)是使L(S)最小化,但P(Y|X)的計(jì)算難度很大,為簡(jiǎn)化過程,可以仿照HMM前、后向算法來求解CTC的局部、全局概率。

      2.2 注意力機(jī)制

      基于Attention的Encoder-Decoder模型是一種改進(jìn)的seq2seq方案,在Encoder和Decoder之間加入Attention機(jī)制,加強(qiáng)二者的關(guān)聯(lián)性[22]。

      綜上,Attention機(jī)制通過接收Encoder傳遞的高級(jí)特征表示,學(xué)習(xí)特征與輸出序列之間的對(duì)齊信息,并指導(dǎo)Decoder的輸出。

      Decoder經(jīng)Softmax層之后的輸出序列Y由X生成的概率為:

      (5)

      (6)

      其中,cu-1是注意力權(quán)重和隱藏向量相乘后累加得到:

      (7)

      (8)

      (9)

      (10)

      式中,W、V為權(quán)值矩陣,b為位置向量,tanh代表非線性激活函數(shù)。

      3 混合CTC/Attention模型

      Attention機(jī)制的對(duì)齊沒有先后順序,給模型的訓(xùn)練帶來了困難,在數(shù)據(jù)量很大的時(shí)候這種盲目對(duì)齊會(huì)導(dǎo)致訓(xùn)練時(shí)間加長,而CTC中的前向-后向算法可以讓輸入序列和輸出序列按照時(shí)間順序來依次對(duì)齊??紤]到二者各有優(yōu)勢(shì),可以將二者結(jié)合,構(gòu)建一種混合CTC/Attention模型,主要思想是將CTC作為輔助任務(wù),用于加速對(duì)齊和解碼,由于CTC有助于在噪聲條件下獲得適當(dāng)?shù)膶?duì)齊[23],因此系統(tǒng)魯棒性也得到了增強(qiáng)。在混合模型中CTC和Attention共用一個(gè)編碼器,如圖3所示。

      圖3 混合CTC/Attention結(jié)構(gòu)簡(jiǎn)圖

      本文選用基于位置的注意力機(jī)制,與傳統(tǒng)的基于內(nèi)容的注意力機(jī)制不同,需要額外設(shè)置一維卷積來得到相應(yīng)的位置信息,這樣可以更好地利用上下文位置關(guān)聯(lián),提高識(shí)別的準(zhǔn)確率?;谖恢玫淖⒁饬s,t表達(dá)式為:

      es,t=WTtanh(Wdds-1+Whht+Wffs,t+b)

      (11)

      (12)

      (13)

      式中,W、Wd、Wh、Wf分別表示權(quán)重矩陣,ds-1、ht、fs,t為隱層狀態(tài)向量,b表示位置向量。as,t為歸一化處理的結(jié)果,gs為注意力分配系數(shù)。

      3.1 多任務(wù)學(xué)習(xí)(MTL)

      多任務(wù)學(xué)習(xí)(MTL)[23]的目標(biāo)是利用各學(xué)習(xí)任務(wù)中所含的有用信息來互相幫助,使每個(gè)任務(wù)都能得到更有效的學(xué)習(xí)信息。在假設(shè)每個(gè)任務(wù)的學(xué)習(xí)內(nèi)容相關(guān)的情況下,聯(lián)合多個(gè)任務(wù)進(jìn)行統(tǒng)一學(xué)習(xí)比單獨(dú)學(xué)習(xí)有著更好的性能。與傳統(tǒng)的遷移學(xué)習(xí)不同,多任務(wù)學(xué)習(xí)是一種并行遷移學(xué)習(xí),每個(gè)任務(wù)間的信息彼此共享,信息在不同任務(wù)間相互傳遞,通過共享來提升學(xué)習(xí)效果。

      本文提出的混合CTC/Attention機(jī)制中,CTC和Attention機(jī)制的學(xué)習(xí)任務(wù)相關(guān),因此采用了多任務(wù)學(xué)習(xí)的方式。與單獨(dú)的基于注意力機(jī)制的模型不同,該混合模型中的CTC依靠其前向-后向算法可以在訓(xùn)練過程中引導(dǎo)語音序列與文本序列實(shí)現(xiàn)單向?qū)R,而不是僅僅依靠由數(shù)據(jù)驅(qū)動(dòng)的注意力機(jī)制來估計(jì)序列長度,這樣一來使得對(duì)齊所需時(shí)間大大減少。

      Loss計(jì)算是CTC-Loss和Attention-Loss做加權(quán)相加,由CTC與Attention機(jī)制的交叉熵L(CTC)和L(Att)結(jié)合:

      L=λL(CTC)+(1-λ)L(Att)

      (14)

      由于在多任務(wù)學(xué)習(xí)中,CTC為輔助任務(wù),所以λ通常小于0.5。

      圖4給出了具體的使用混合模型進(jìn)行中文普通話識(shí)別的架構(gòu)圖,選擇VGG-BiLSTM作為混合模型的編碼器,該編碼器被CTC和Attention機(jī)制共享,由二者同時(shí)訓(xùn)練,該共享編碼器將輸入序列X={x1,x2,…,xT}轉(zhuǎn)換為高級(jí)特征序列H={h1,h2,…,hT}。之后特征序列H被同時(shí)輸送至CTC和Attention解碼器中,Attention解碼器生成文字序列{c1,c2,…,cL},CTC的作用是依靠其獨(dú)有的前向-后向算法在訓(xùn)練過程中引導(dǎo)高級(jí)特征序列與輸出的文字序列按時(shí)間順序單向?qū)R,加快了訓(xùn)練速度。圖中[SOS]表示序列開端,[EOS]表示序列結(jié)束。

      3.2 聯(lián)合解碼

      在混合CTC/Attention架構(gòu)中通常使用集束搜索(Beam Search)算法來進(jìn)行解碼任務(wù),集束搜索算法中的一個(gè)關(guān)鍵參數(shù)為集束寬度(Beam Size),假設(shè)集束寬度為k,在第一個(gè)時(shí)間步長,選取條件概率最大的k個(gè)字,當(dāng)作輸出序列中第一個(gè)字,之后的每個(gè)時(shí)間步長,基于之前的輸出序列在所有可能選項(xiàng)中選擇條件概率最大的k個(gè)字當(dāng)作該時(shí)間步長下的輸出序列,以此循環(huán),保持k個(gè)候選,最后在這k個(gè)候選中選擇最優(yōu)解。該算法需要計(jì)算出每種假設(shè)的得分,即CTC得分與注意力機(jī)制得分。在解碼時(shí),首先通過集束搜索算法將CTC和Attention機(jī)制的得分結(jié)合,進(jìn)行聯(lián)合解碼,以提高識(shí)別結(jié)果的準(zhǔn)確率。Pctc(C|X)和Patt(C|X)分別為由CTC和Attention機(jī)制得出的序列概率,則目標(biāo)解碼可定義為:

      (15)

      4 實(shí)驗(yàn)及分析

      4.1 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)在Intel CPU和Nvidia GPU構(gòu)建的服務(wù)器上運(yùn)行,采用PyTorch深度學(xué)習(xí)框架。具體實(shí)驗(yàn)配置如表1所示。

      表1 實(shí)驗(yàn)環(huán)境

      4.2 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

      本文實(shí)驗(yàn)數(shù)據(jù)來自于北京希爾貝殼科技有限公司(AISHELL)在Kaldi平臺(tái)上開源的178 h中文普通話數(shù)據(jù)集AISHELL1。數(shù)據(jù)集錄音文本涉及智能家居、無人駕駛、工業(yè)生產(chǎn)等11個(gè)領(lǐng)域。有400余名來自于中國不同地區(qū)帶口音的發(fā)言人在安靜的室內(nèi)環(huán)境下通過高保真麥克風(fēng)(44.1 kHz,16 bit)錄制。經(jīng)處理后音頻數(shù)據(jù)重采樣為16 kHz、16 bit的WAV格式。數(shù)據(jù)集被劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,其中訓(xùn)練集有340人發(fā)言,測(cè)試集20人,驗(yàn)證集40人,每個(gè)發(fā)言人大約發(fā)言360句話。

      中文語音識(shí)別任務(wù)中將字符錯(cuò)誤率(Character Error Rate, CER)作為評(píng)價(jià)標(biāo)準(zhǔn),其計(jì)算公式如下:

      (16)

      其中,S(Substitution)表示替換的字符數(shù)目,D(Deletion)表示刪除的字符數(shù)目,I(Insertion)表示插入的字符數(shù)目,N表示參考序列中字符總數(shù)。

      4.3 實(shí)驗(yàn)參數(shù)

      本文實(shí)驗(yàn)中,傳統(tǒng)模型在Kaldi平臺(tái)上完成,端到端模型在ESPnet[24]平臺(tái)上完成。對(duì)所有數(shù)據(jù)預(yù)處理,得到音頻數(shù)據(jù)每幀25 ms,幀移10 ms,提取80維的FBank特征向量,再加3維的pitch共計(jì)83維特征。

      本文網(wǎng)絡(luò)結(jié)構(gòu)選擇為3層VGG-BiLSTM,每層有1024個(gè)單元,使用VGG編碼器提取局部特征,BiLSTM編碼器進(jìn)行序列建模,為讓網(wǎng)絡(luò)更容易收斂,使用了降采樣方法,輸入和輸出層不經(jīng)過降采樣,VGG-BiLSTM層分別經(jīng)過2倍、2倍和1倍的降采樣,采用了基于位置信息的注意力機(jī)制。實(shí)驗(yàn)中使用Adadelta算法進(jìn)行優(yōu)化,初始參數(shù)設(shè)置為epsilon=1×e-8。實(shí)驗(yàn)在3個(gè)GPU上運(yùn)行,batchsize設(shè)為30,epoch為50,將聯(lián)合訓(xùn)練參數(shù)λ分別設(shè)為0.1、0.3和0.5進(jìn)行多次對(duì)比實(shí)驗(yàn)。解碼時(shí)使用集束搜索算法,集束搜索寬度設(shè)置為20。

      本文提出的混合CTC/Attention端到端模型是純數(shù)據(jù)驅(qū)動(dòng)的,需要依靠足夠的數(shù)據(jù)來訓(xùn)練模型才能達(dá)到比較好的效果。而傳統(tǒng)的語音識(shí)別系統(tǒng)會(huì)聯(lián)合聲學(xué)模型和語言模型進(jìn)行解碼,充分利用了外部語言模型的語言學(xué)知識(shí)。因此嘗試在解碼階段將混合模型與外部語言模型進(jìn)行淺層融合,將混合模型的輸出作為語言模型的輸入,通過語言模型進(jìn)行解碼,得到最終的文字序列。

      語言模型網(wǎng)絡(luò)結(jié)構(gòu)選擇為2層的RNN,單元數(shù)為650,采用SGD算法進(jìn)行優(yōu)化,epoch為20。

      4.4 實(shí)驗(yàn)結(jié)果

      本文提出的混合CTC/Attention模型采用了多任務(wù)學(xué)習(xí)的方式,并引入一個(gè)聯(lián)合訓(xùn)練參數(shù)λ,λ表示插值權(quán)重,當(dāng)λ=0時(shí)表示Attention模型,λ=1時(shí)表示CTC模型。實(shí)驗(yàn)中將Attention模型、CTC模型與傳統(tǒng)模型TDNN(時(shí)延神經(jīng)網(wǎng)絡(luò))、GMM-HMM作為基線模型,混合模型設(shè)置了0.1、0.3和0.5共3個(gè)λ值進(jìn)行對(duì)比分析,結(jié)果見表2。

      表2 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)結(jié)果顯示,相較于基線模型,混合CTC/Attention模型在應(yīng)用于中文普通話識(shí)別時(shí),識(shí)別率有明顯的提升。在不同的聯(lián)合訓(xùn)練參數(shù)下,字錯(cuò)誤率下降到8.2%~8.9%。由于混合模型加入了Attention機(jī)制,導(dǎo)致模型訓(xùn)練時(shí)長有所增加。在7200條的測(cè)試集解碼速度表現(xiàn)上,混合模型的解碼速度較CTC模型有一定程度的下降。綜合來看,混合模型能在時(shí)間效率稍有下降的情況下,保持更高的識(shí)別準(zhǔn)確率。

      圖5和圖6分別為λ取不同值時(shí)的準(zhǔn)確率變化曲線和訓(xùn)練損失曲線對(duì)比圖,當(dāng)λ=0.3時(shí),混合模型的準(zhǔn)確率達(dá)到了最高值,并且隨著λ的增大,收斂速度呈加快的趨勢(shì),這是由于CTC的反向傳播算法可直接對(duì)參數(shù)進(jìn)行更新。當(dāng)λ取0.5時(shí),收斂速度雖快,但準(zhǔn)確率有所下降,這是由于當(dāng)CTC在多任務(wù)學(xué)習(xí)中的比例過高時(shí),CTC的條件獨(dú)立假設(shè)特性會(huì)導(dǎo)致收斂效果較差,嚴(yán)重時(shí)會(huì)出現(xiàn)過擬合現(xiàn)象。

      結(jié)合圖5、圖6和圖7可知,當(dāng)聯(lián)合訓(xùn)練參數(shù)λ=0.3時(shí)取得了最好的效果,識(shí)別率達(dá)到了最高值且網(wǎng)絡(luò)收斂速度較快,收斂效果較好,此時(shí)字錯(cuò)誤率為8.2%。考慮到混合CTC/Attention模型并不是完全意義上的端到端模型,因此在混合模型(λ=0.3)的基礎(chǔ)上,外接一個(gè)經(jīng)過訓(xùn)練的RNN語言模型,可使字錯(cuò)誤率進(jìn)一步下降0.3%。

      圖5 混合模型準(zhǔn)確率變化曲線

      圖6 混合模型訓(xùn)練損失變化曲線

      圖7 混合模型(λ=0.3)收斂曲線

      5 結(jié)束語

      本文提出的混合CTC/Attention模型是一種端到端模型,結(jié)合了CTC的對(duì)齊方式和Attention機(jī)制的上下文建模能力2種優(yōu)勢(shì),相較于各模塊獨(dú)立而且復(fù)雜的傳統(tǒng)模型,只需要訓(xùn)練一個(gè)整體的模型。模型訓(xùn)練時(shí)采用了多任務(wù)學(xué)習(xí)的方式,在對(duì)網(wǎng)絡(luò)的調(diào)整方面也更加便捷,通過合理調(diào)整多任務(wù)學(xué)習(xí)中的聯(lián)合訓(xùn)練參數(shù)可以使網(wǎng)絡(luò)收斂加快,識(shí)別率達(dá)到最優(yōu)。在應(yīng)用于中文普通話識(shí)別時(shí),識(shí)別率較基線模型有明顯的提高,當(dāng)聯(lián)合訓(xùn)練參數(shù)λ=0.3時(shí),網(wǎng)絡(luò)收斂速度快,字錯(cuò)誤率為8.2%,若在此時(shí)外接一個(gè)RNN語言模型,字錯(cuò)誤率下降到7.9%,與Attention模型和CTC模型相比,準(zhǔn)確率分別提高了7.8%和6.4%,與傳統(tǒng)基線模型相比也有較大幅度的提升。雖然實(shí)驗(yàn)中外接語言模型可以有效地提高識(shí)別率,但這只是在解碼階段進(jìn)行的淺層融合,沒有考慮到訓(xùn)練階段語言模型對(duì)聲學(xué)模型的影響。在后續(xù)的工作中,擬嘗試對(duì)模型架構(gòu)微調(diào),將語言模型深層次地融合進(jìn)去,并考慮使用數(shù)據(jù)增強(qiáng)的方式擴(kuò)展數(shù)據(jù)集,解決數(shù)據(jù)不足的問題,以進(jìn)一步提高識(shí)別率。

      猜你喜歡
      多任務(wù)識(shí)別率解碼
      《解碼萬噸站》
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      解碼eUCP2.0
      中國外匯(2019年19期)2019-11-26 00:57:32
      基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      NAD C368解碼/放大器一體機(jī)
      Quad(國都)Vena解碼/放大器一體機(jī)
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      乌什县| 澳门| 常熟市| 两当县| 镇康县| 潮安县| 高碑店市| 林州市| 育儿| 饶河县| 巴中市| 资阳市| 铜陵市| 比如县| 潮安县| 禹城市| 四子王旗| 宜丰县| 隆德县| 花莲县| 鄂伦春自治旗| 道真| 子长县| 涪陵区| 吉隆县| SHOW| 桂阳县| 建始县| 玉山县| 铜陵市| 玉树县| 淳安县| 乌拉特前旗| 凤冈县| 长乐市| 乌拉特中旗| 承德市| 金华市| 岫岩| 保定市| 安国市|