仲美玉,吳培良,2,竇燕,3,劉毅,孔令富,2
(1.燕山大學(xué)信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2.河北省計(jì)算機(jī)虛擬技術(shù)與系統(tǒng)集成重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004;3.河北省軟件工程重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)
近年來,自動(dòng)語音識(shí)別(ASR,automatic speech recognition)技術(shù)被廣泛地應(yīng)用于人機(jī)交互系統(tǒng)。受用戶發(fā)音不清晰、環(huán)境噪聲等因素的影響,實(shí)際應(yīng)用場景下的語音識(shí)別準(zhǔn)確率仍然不高[1]。中文存在大量發(fā)音相近但意義完全不同的漢語字符,語言自身的復(fù)雜性進(jìn)一步導(dǎo)致了語音識(shí)別錯(cuò)誤的產(chǎn)生[2]。從語音識(shí)別文本長度變化的角度分析,ASR 系統(tǒng)產(chǎn)生的文本錯(cuò)誤包括多字錯(cuò)誤、少字錯(cuò)誤和替換錯(cuò)誤3 種類型。從語音識(shí)別文本發(fā)音變化的角度分析,語音識(shí)別文本中存在大量諧音錯(cuò)誤,如圖1 所示,“鏡”被誤識(shí)為“睛”。除此之外,語音識(shí)別文本中還存在混淆音錯(cuò)誤,如圖1 中“牛郎”被誤識(shí)為“流浪”。ASR 模塊通常位于人機(jī)語音交互系統(tǒng)前端,語音識(shí)別錯(cuò)誤文本反饋至交互界面會(huì)增加用戶理解語義的難度,也會(huì)直接影響意圖識(shí)別、命名實(shí)體識(shí)別等下游任務(wù)的處理[3]。語音識(shí)別后的文本校對能有效避免識(shí)別錯(cuò)誤在ASR 系統(tǒng)下游任務(wù)的累積,是改進(jìn)ASR 系統(tǒng)性能的重要方法[4]。
圖1 語音識(shí)別錯(cuò)誤示例
替換錯(cuò)誤在語音識(shí)別錯(cuò)誤中占有較大比重[5],故本文側(cè)重于檢測和糾正語音識(shí)別文本中的替換錯(cuò)誤。中文文本校對方法主要分為3 種,分別是基于規(guī)則的校對方法、基于統(tǒng)計(jì)的校對方法和基于深度學(xué)習(xí)的校對方法。相較基于規(guī)則的校對方法和基于統(tǒng)計(jì)的校對方法,基于深度學(xué)習(xí)的校對方法能夠捕獲更深層次的語義信息,有利于提升文本校對效果[6]。針對現(xiàn)有基于深度學(xué)習(xí)的模型只考慮使用文本的語義信息糾正錯(cuò)誤字符的問題,Chen 等[7]構(gòu)建了融合語義信息和音韻信息的預(yù)訓(xùn)練語言模型來實(shí)現(xiàn)語音識(shí)別文本校對,該方法首先使用微調(diào)的預(yù)訓(xùn)練語言模型定位語句中錯(cuò)誤字符的位置,采用掩碼字符掩蓋錯(cuò)誤字符,利用模型提取的語義信息計(jì)算糾錯(cuò)候選字符的概率;然后,采用DIMSIM[8]計(jì)算錯(cuò)誤字符與各候選字符的拼音距離;最后,綜合考慮候選字符的概率及其與錯(cuò)誤字符的拼音距離來完成文本糾錯(cuò),實(shí)驗(yàn)證明了利用拼音信息能夠有效地加強(qiáng)模型糾正語音識(shí)別文本中諧音錯(cuò)誤字符的能力。Duan 等[9]使用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN,one-dimensional convolutional neural network)構(gòu)建的序列到序列(Seq2Seq,sequence to sequence)模型來校對文本,該方法采用字節(jié)對編碼方法生成拼音的嵌入向量(以下統(tǒng)稱音韻嵌入向量)并將其作為模型的輸入,以便模型提取并利用語句的音韻信息糾正文本錯(cuò)誤,實(shí)驗(yàn)驗(yàn)證了字粒度切分語句的方式和帶聲調(diào)的拼音有助于提高語音識(shí)別文本糾錯(cuò)效果。綜上所述,拼音攜帶的音韻信息對糾正ASR系統(tǒng)識(shí)別錯(cuò)誤具有重要意義。由于拼音中的字母不可隨意調(diào)換順序,例如,圖1 中“郎”字的拼音是“l(fā)áng”,調(diào)換其拼音中任意2 個(gè)字母的位置后(如“l(fā)nág”、“l(fā)ágn”),便不再是“郎”字的讀音,故中文字符的拼音本質(zhì)上是一種序列。然而,上述工作在生成音韻嵌入向量時(shí)沒有保留拼音的時(shí)序信息,也沒有對生成音韻嵌入向量的拼音編碼方法及其對檢測和糾正語音識(shí)別文本錯(cuò)誤的影響做進(jìn)一步研究。此外,基于深度學(xué)習(xí)的文本校對模型往往需要通過大量的標(biāo)注語料來增強(qiáng)其對文本語義和文本結(jié)構(gòu)信息的學(xué)習(xí)能力,從而提升模型的檢錯(cuò)和糾錯(cuò)性能。但實(shí)際應(yīng)用中的ASR 系統(tǒng)通常面向垂直領(lǐng)域,可獲取的標(biāo)注語料十分有限。雖然可以使用其他語料庫來擴(kuò)充數(shù)據(jù)集,但該方式不能促使模型學(xué)習(xí)到更多與特定對話場景相關(guān)的文本語義和文本結(jié)構(gòu)信息。
為了解決上述問題,本文提出了5 種拼音編碼方法來生成中文字符的含拼音時(shí)序信息的音韻嵌入向量,分別將各個(gè)拼音編碼方法與帶有注意力機(jī)制的編碼器-解碼器架構(gòu)相結(jié)合來建立基于中文語義-音韻信息(CSPI,Chinese semantic and phonological information)的文本校對模型;從漢語拼音組成成分的角度分析了語音識(shí)別文本錯(cuò)誤的特點(diǎn),并據(jù)此提出了一種基于拼音聲韻置換(RPIF,replacement of Pinyin’s initials or finals)的數(shù)據(jù)增強(qiáng)方法,該方法可利用有限的語料來生成大量的糾錯(cuò)數(shù)據(jù),以便利用數(shù)據(jù)驅(qū)動(dòng)的方法構(gòu)建面向垂直領(lǐng)域的文本校對模型。本文的主要貢獻(xiàn)可以總結(jié)為以下4 點(diǎn)。
1) 提出了5 種拼音編碼方法來生成中文字符的音韻嵌入向量。所提方法采用不同的處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)來編碼拼音序列,從而以多種方式生成含有拼音時(shí)序信息的音韻嵌入向量,便于研究不同拼音編碼方法對語音識(shí)別文本校對任務(wù)的影響。
2) 構(gòu)建了基于CSPI 的語音識(shí)別文本校對模型。該模型由上述拼音編碼方法分別與帶有注意力機(jī)制的編碼器-解碼器架構(gòu)組合而成,能充分地提取并利用中文語句的語義和音韻信息校對語音識(shí)別文本錯(cuò)誤。
3) 提出了一種基于RPIF 的數(shù)據(jù)增強(qiáng)方法。該方法能夠有效模擬用戶因發(fā)音不清晰、口誤等造成的語音識(shí)別錯(cuò)誤,解決了因標(biāo)注語料不足而難以面向特定對話場景構(gòu)建基于深度學(xué)習(xí)的文本校對模型的問題。
4) 在多人普通話語音數(shù)據(jù)集AISHELL-3 上開展了相關(guān)實(shí)驗(yàn),驗(yàn)證了拼音攜帶的音韻信息有利于文本校對模型檢測和糾正語音識(shí)別文本錯(cuò)誤,歸納了不同的拼音編碼方法對檢測和糾正語音識(shí)別文本錯(cuò)誤的影響。
語音識(shí)別后的文本校對是提升ASR 系統(tǒng)性能的重要方法。文獻(xiàn)[1]綜述了ASR 系統(tǒng)識(shí)別錯(cuò)誤的產(chǎn)生原因和處理方法。早期的研究主要是對語音識(shí)別錯(cuò)誤檢測方法的研究,對語音識(shí)別錯(cuò)誤糾正方法的研究則相對較少。中文文本校對方法可分為3 種:基于規(guī)則的校對方法、基于統(tǒng)計(jì)的校對方法和基于深度學(xué)習(xí)的校對方法。文獻(xiàn)[10-11]均通過觀察文本錯(cuò)誤出現(xiàn)的規(guī)律并制定相應(yīng)的規(guī)則來處理文本錯(cuò)誤。此類基于規(guī)則的校對方法僅對特定的錯(cuò)誤類型有效,其文本校對效果也嚴(yán)重依賴于規(guī)則制定的好壞[12-13]。現(xiàn)有ASR 系統(tǒng)在實(shí)際對話場景中產(chǎn)生的識(shí)別錯(cuò)誤具有較強(qiáng)的復(fù)雜性,無法使用簡單的規(guī)則覆蓋所有可能出現(xiàn)的錯(cuò)誤。N-gram 是文本校對任務(wù)中最常用的統(tǒng)計(jì)語言模型[14]。文獻(xiàn)[15]使用N-gram 語言模型和潛在語義分析方法相結(jié)合的方式來校對文本錯(cuò)誤。文獻(xiàn)[16]建立了基于2-gram 和3-gram 的文本校對方法,并采用了平滑技術(shù)來解決數(shù)據(jù)稀疏的問題。文獻(xiàn)[17]結(jié)合使用語言模型和統(tǒng)計(jì)機(jī)器翻譯方法生成錯(cuò)誤字符的候選集,采用支持向量機(jī)對候選集排序的方式實(shí)現(xiàn)中文語句的自動(dòng)校對。然而,基于統(tǒng)計(jì)的校對方法在使用混淆集糾正文本錯(cuò)誤時(shí),沒有充分利用句子的上下文語義關(guān)系,容易出現(xiàn)鄰近詞正確,但整個(gè)句子不符合邏輯的情況。因此,上述基于規(guī)則和基于統(tǒng)計(jì)的文本校對方法均難以有效地處理ASR 系統(tǒng)實(shí)際應(yīng)用過程中出現(xiàn)的語音識(shí)別錯(cuò)誤。近年來,越來越多的研究將深度學(xué)習(xí)技術(shù)運(yùn)用到中文文本處理任務(wù)中,基于深度神經(jīng)網(wǎng)絡(luò)的文本校對方法也不斷被提出[18-21]。文獻(xiàn)[22]將檢測文本錯(cuò)誤字符的問題視為序列標(biāo)注問題,利用雙向長短期記憶(LSTM,long-short term memory)網(wǎng)絡(luò)構(gòu)建了拼寫文本檢錯(cuò)模型。文獻(xiàn)[23]構(gòu)建了基于雙向LSTM 的Seq2Seq 模型來檢測和糾正文本中的錯(cuò)誤字符。文獻(xiàn)[24]構(gòu)建了基于1D-CNN 的Seq2Seq 模型來實(shí)現(xiàn)文本校對?;谏疃葘W(xué)習(xí)的校對方法能利用深度神經(jīng)網(wǎng)絡(luò)模型捕獲更豐富的文本語義和文本結(jié)構(gòu)信息來校對文本錯(cuò)誤,通常能取得比基于規(guī)則和基于統(tǒng)計(jì)的校對方法更好的檢錯(cuò)和糾錯(cuò)效果。
語音識(shí)別文本校對和拼寫文本校對的研究目標(biāo)一致,本質(zhì)上都是檢測和糾正文本中的錯(cuò)誤字符。中文拼寫錯(cuò)誤主要來源于人們錯(cuò)誤使用了某個(gè)字符的諧音或形似字符[25]。近年來,一些研究工作嘗試?yán)梦谋镜钠匆艉妥中涡畔硖嵘谏疃葘W(xué)習(xí)的拼寫文本校對模型的性能。Wang 等[26]構(gòu)建了基于Lattice LSTM 和CRF 的拼寫錯(cuò)誤檢測模型,該模型融合字符、詞語和拼音3 種信息進(jìn)行錯(cuò)誤檢測,驗(yàn)證了拼音信息有利于檢測拼寫錯(cuò)誤。Liu 等[27]提出了使用單向門控循環(huán)單元(Uni-GRU,unidirectional gated recurrent unit)編碼字符的無聲調(diào)拼音和筆畫來獲取更有意義的字符表示,并以此作為預(yù)訓(xùn)練語言模型的輸入。實(shí)驗(yàn)結(jié)果表明,融合拼音和筆畫信息的預(yù)訓(xùn)練模型在拼寫文本校對任務(wù)中表現(xiàn)出了十分優(yōu)異的性能。與之類似,文獻(xiàn)[28-32]也提出了多種基于深度學(xué)習(xí)的拼寫文本校對方法,部分研究工作以不同方式利用字符的音韻信息來提升模型性能。表1 列舉了多項(xiàng)研究在SIGHAN2015 拼寫糾錯(cuò)數(shù)據(jù)集[33]上的評估結(jié)果。從表1 可以看出,基于深度學(xué)習(xí)的拼寫校對模型通常比基于統(tǒng)計(jì)的拼寫校對模型有更好的檢錯(cuò)和糾錯(cuò)效果,字符的音韻信息對提升拼寫校對模型的檢錯(cuò)和糾錯(cuò)性能有積極影響。相較于拼寫文本錯(cuò)誤,語音識(shí)別文本錯(cuò)誤不僅包含諧音類型的錯(cuò)誤字符,還包含較多因用戶發(fā)音不清晰、環(huán)境嘈雜等因素導(dǎo)致的混淆音類型的錯(cuò)誤字符。然而,現(xiàn)有面向語音識(shí)別文本校對任務(wù)的相關(guān)工作沒有深入地研究拼音所蘊(yùn)含的音韻信息對檢測和糾正語音識(shí)別文本錯(cuò)誤的影響??紤]到漢語拼音是一種序列且?guī)曊{(diào)的拼音能完整地保留字符音韻信息,本文參考文獻(xiàn)[27]提出了一種新的基于Uni-GRU 的拼音編碼方法,同時(shí)又基于1D-CNN、雙向門控循環(huán)單元(Bi-GRU,bidirectional gated recurrent unit)等處理時(shí)序數(shù)據(jù)的網(wǎng)絡(luò)提出了4 種拼音編碼方法來編碼帶聲調(diào)的拼音序列,以生成保留完整音韻信息的嵌入向量。將各個(gè)拼音編碼方法分別與帶有注意力機(jī)制的編碼器-解碼器架構(gòu)相結(jié)合來構(gòu)建基于CSPI 的文本校對模型,以明確有利于檢測和糾正語音識(shí)別文本錯(cuò)誤的拼音編碼方法。
表1 多項(xiàng)研究在SIGHAN2015 拼寫糾錯(cuò)數(shù)據(jù)集上的評估結(jié)果
由于標(biāo)注數(shù)據(jù)有限,許多先進(jìn)的深度學(xué)習(xí)模型難以被有效地應(yīng)用于文本校對任務(wù)。為了滿足通過大量標(biāo)注數(shù)據(jù)提升模型校對性能的需求,Wang 等[22]利用基于光學(xué)字符識(shí)別和自動(dòng)語音識(shí)別的方法模擬拼寫錯(cuò)誤,實(shí)現(xiàn)了面向拼寫糾錯(cuò)任務(wù)的數(shù)據(jù)增強(qiáng)方法。Liu 等[27]和Cheng 等[30]通過上述數(shù)據(jù)增強(qiáng)方法生成的語料構(gòu)建了大規(guī)模預(yù)訓(xùn)練語言模型,該模型在拼寫糾錯(cuò)任務(wù)中取得了非常優(yōu)異的成績。然而,ASR 系統(tǒng)識(shí)別錯(cuò)誤比拼寫錯(cuò)誤更復(fù)雜,主要原因是ASR 系統(tǒng)在用戶發(fā)音不清晰或環(huán)境嘈雜的情況下獲取了含較多噪聲的聲音信號(hào),ASR 系統(tǒng)的語言模型因受噪聲干擾無法將聲音信號(hào)解碼為正確的文本序列。值得注意的是,Wang 等[22]提出的數(shù)據(jù)增強(qiáng)方法根據(jù)拼寫錯(cuò)誤的特點(diǎn)摒棄了語音識(shí)別過程中真實(shí)產(chǎn)生的混淆音類別的錯(cuò)誤文本。其他面向拼寫糾錯(cuò)任務(wù)的數(shù)據(jù)集也存在包含較少混淆音類別的錯(cuò)誤文本的問題。這意味著在拼寫糾錯(cuò)數(shù)據(jù)集上表現(xiàn)出色的文本校對模型不一定在語音識(shí)別后的文本校對任務(wù)中具備同等優(yōu)秀的糾錯(cuò)能力。因此,本文從漢語拼音組成成分的角度分析ASR 系統(tǒng)識(shí)別錯(cuò)誤的特點(diǎn),并據(jù)此提出一種基于RPIF 的數(shù)據(jù)增強(qiáng)方法,以便將先進(jìn)的深度學(xué)習(xí)模型應(yīng)用于語音識(shí)別后的文本校對任務(wù)中,進(jìn)而輔助ASR 系統(tǒng)提升其識(shí)別準(zhǔn)確性。
基于CSPI 的文本校對模型受啟發(fā)于神經(jīng)機(jī)器翻譯模型[34-35],使用帶有注意力機(jī)制的編碼器-解碼器架構(gòu)[36]來實(shí)現(xiàn)錯(cuò)誤文本到正確文本的轉(zhuǎn)換,模型的總體結(jié)構(gòu)如圖2 所示。首先,使用常見的處理時(shí)序型數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)編碼中文字符的拼音序列,生成含時(shí)序信息的音韻嵌入向量。然后,分別融合錯(cuò)誤文本中各個(gè)字符的音韻嵌入向量和字符嵌入向量,以此作為編碼器的輸入。接著,編碼器編碼錯(cuò)誤文本,輸出錯(cuò)誤文本的語義-音韻向量,該語義-音韻向量則攜帶了錯(cuò)誤文本全部的語義-音韻信息。最后,解碼器以語義-音韻向量和解碼起始符為輸入,先采用注意力機(jī)制捕獲當(dāng)前解碼字符與錯(cuò)誤文本的上下文語義-音韻關(guān)系,再利用該語義-音韻關(guān)系輸出預(yù)測字符,進(jìn)而逐步解碼預(yù)測的正確文本。
圖2 基于CSPI 的文本校對模型的總體結(jié)構(gòu)
接下來,先從數(shù)學(xué)角度定義模型校對語音識(shí)別錯(cuò)誤文本的過程,再從拼音編碼、編碼器、解碼器和優(yōu)化目標(biāo)4 個(gè)方面詳細(xì)介紹基于CSPI 的文本校對模型。
假設(shè)錯(cuò)誤文本為源(source)文本序列s= {s1,···,si,···,sn},文本校對模型輸出的語句是目標(biāo)(target)文本序列g(shù)= {g1,···,gt,···,gm}。從概率角度分析,文本校對的過程相當(dāng)于給定s,尋找g來最大化條件概率。因此,文本校對的目標(biāo)是建立一個(gè)參數(shù)化模型,使用平行語料庫來訓(xùn)練該模型,以最大化各個(gè)source-target 語句對的條件概率。當(dāng)模型學(xué)習(xí)到這個(gè)條件概率分布后,給定一個(gè)錯(cuò)誤文本,模型便可以輸出一個(gè)條件概率最大的句子作為預(yù)測的正確文本。為了利用句子的音韻信息來加強(qiáng)模型校對語音識(shí)別錯(cuò)誤文本的能力,本文提出了5 種拼音編碼方法來構(gòu)建基于CSPI 的文本校對模型。假設(shè)s對應(yīng)的拼音序列為則的求解過程轉(zhuǎn)化為
拼音是由小寫拉丁字母構(gòu)成的漢字發(fā)音標(biāo)記,一般包含聲母、韻母和聲調(diào)3 個(gè)部分,如圖3 所示。為了便于計(jì)算機(jī)識(shí)別,將圖3 中4 種聲調(diào)依次映射到數(shù)字{1,2,3,4},則4 個(gè)漢字的拼音可表示為‘fei1,yan2,zou3,bi4’。除了圖3 所示的4 種聲調(diào)外,中文還存在輕聲這一特殊的聲調(diào)?!p聲’字符的拼音不標(biāo)注聲調(diào),僅由小寫拉丁字母構(gòu)成,例如,‘云彩’中的‘彩’為輕聲,其拼音為‘cai’。
圖3 漢語拼音示例
為了建模字符間的音韻關(guān)系,本文將字符拼音視為由小寫字母和聲調(diào)組成的序列,使用不同的處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)(Uni-GRU、Bi-GRU 和1D-CNN)編碼拼音序列,由此獲取含時(shí)序信息的音韻嵌入向量,以使音似字符間有相似的音韻表示。在之前的研究工作中,Duan 等[9]驗(yàn)證了字粒度切分方式和帶聲調(diào)的拼音序列有利于語音識(shí)別文本糾錯(cuò),因此,本文采用字粒度切分方式劃分語句,
使用PyPinyin工具包獲取各個(gè)字符的帶有聲調(diào)的拼音序列。本文將拼音序列的長度固定為8,當(dāng)拼音序列的實(shí)際長度未達(dá)到8 時(shí)使用數(shù)字‘0’填充。根據(jù)編碼拼音序列的網(wǎng)絡(luò)類型的不同,將本文提出的5 種拼音編碼方法分別命名為PC、PU、PB、PCU和PCB。圖4 以‘中’的拼音‘zhong1’為例,示意了上述5 種拼音編碼方法。由圖4 可知,PC、PU和PB使用一種類型的神經(jīng)網(wǎng)絡(luò)編碼拼音序列,本文將其統(tǒng)稱為單網(wǎng)絡(luò)拼音編碼方法。PCU和PCB使用2 種不同類型的神經(jīng)網(wǎng)絡(luò)編碼拼音序列,以獲取更加全面的音韻信息,本文將其統(tǒng)稱為混合網(wǎng)絡(luò)拼音編碼方法。以下是對5 種拼音編碼方法的定義。
圖4 拼音編碼
定義1PC拼音編碼。對于任意一個(gè)中文字符c的拼音序列cp,使用單層1D-CNN 編碼cp,生成字符c的PC音韻嵌入向量,即
其中,φCNN是單層1D-CNN 的函數(shù)表示,Maxpool指最大池化層,E指字符嵌入層。
定義2PU拼音編碼。對于任意一個(gè)中文字符c的拼音序列cp,使用單層Uni-GRU 網(wǎng)絡(luò)編碼cp,生成字符c的PU音韻嵌入向量,即
其中,φUni-GRU是單層Uni-GRU 網(wǎng)絡(luò)的函數(shù)表示。
定義3PB拼音編碼。對于任意一個(gè)中文字符c的拼音序列cp,使用單層Bi-GRU 網(wǎng)絡(luò)編碼cp,生成字符c的PB音韻嵌入向量,即
其中,φBi-GRU是單層Bi-GRU 網(wǎng)絡(luò)的函數(shù)表示。
定義4PCU拼音編碼。對于任意一個(gè)中文字符c的拼音序列cp,融合pC和pU編碼cp所得結(jié)果,生成字符c的PCU音韻嵌入向量,即
其中,f表示全連接(FC,fully connected)層,[·]表示合并操作。
定義5PCB拼音編碼。對于任意一個(gè)中文字符c的拼音序列cp,融合pC和pB編碼cp所得結(jié)果,生成字符c的PCB音韻嵌入向量,即
由圖4 可得,cp先通過字符嵌入層獲取其字母或聲調(diào)的嵌入向量,而后任選一種拼音編碼方法來生成字符c的音韻嵌入向量,即
編碼器由混合嵌入(FE,fusion embedding)層和單層Bi-GRU 網(wǎng)絡(luò)構(gòu)成,負(fù)責(zé)輸出源文本序列s在各個(gè)時(shí)間步的隱藏(Hidden)層及其語義-音韻向量C,其結(jié)構(gòu)如圖2 所示。構(gòu)建混合嵌入層旨在建立中文句子及其拼音序列間的關(guān)系。選用Bi-GRU 是希望編碼器能通過該網(wǎng)絡(luò)充分提取s的上下文語義-音韻信息。
首先,源文本序列s及其拼音序列sp經(jīng)混合嵌入層后得到字符-音韻嵌入向量
其中,σ表示激活函數(shù)tanh。則編碼器在各個(gè)時(shí)間步輸出的隱藏狀態(tài)hs可表示為
根據(jù)文獻(xiàn)[35],本文使用編碼器在最后一個(gè)時(shí)間步上的隱藏狀態(tài)作為源文本序列s的語義-音韻向量C,即
解碼器由混合嵌入層和單層的Uni-GRU 網(wǎng)絡(luò)構(gòu)成,使用源文本序列的語義-音韻向量C初始化Uni-GRU 層的隱藏狀態(tài),采用注意力機(jī)制輸出預(yù)測的文本序列,其結(jié)構(gòu)如圖2 所示。
其中,是Uni-GRU 層在t時(shí)刻輸出的隱藏狀態(tài)。
本文采用注意力機(jī)制[37]使解碼器在動(dòng)態(tài)解碼過程中,給予源文本序列中與目標(biāo)字符相關(guān)性較高的字符以較大權(quán)重,以便模型能準(zhǔn)確輸出目標(biāo)文本序列。以編碼器和解碼器在各個(gè)時(shí)間步輸出的隱藏狀態(tài)hs和hg作為注意力機(jī)制輸入,將注意力機(jī)制在t時(shí)刻輸出的隱藏狀態(tài)記為,其計(jì)算方法如式(16)所示。
其中,ct是編碼器輸出的各個(gè)隱藏狀態(tài)在t時(shí)刻的加權(quán)平均和,可表示為
在模型評估階段,解碼器僅以解碼起始符
一般來說,文本糾錯(cuò)模型在訓(xùn)練階段只設(shè)置字符優(yōu)化目標(biāo)。本文提出的基于CSPI 的文本校對模型同時(shí)學(xué)習(xí)了句子的語義信息和音韻信息,因此設(shè)置了字符-拼音優(yōu)化目標(biāo),如式(22)所示。
其中,Lc和 Lp分別是字符優(yōu)化目標(biāo)和拼音優(yōu)化目標(biāo),可表示為
本節(jié)首先根據(jù)2.2 節(jié)所述漢語拼音的組成部分來分析語音識(shí)別錯(cuò)誤的特點(diǎn),然后根據(jù)該特點(diǎn)提出一種基于RPIF 的糾錯(cuò)數(shù)據(jù)增強(qiáng)方法。
表2 列舉了Kaldi 語音識(shí)別工具包使用過程中出現(xiàn)的錯(cuò)誤示例[22]。接下來,根據(jù)拼音的組成部分,即聲母、韻母和聲調(diào),分析表2 所列語音識(shí)別錯(cuò)誤示例。示例1 中,“幸”被誤識(shí)為“行”,二者的聲母和韻母均相同,聲調(diào)“4”被誤識(shí)為聲調(diào)“2”。示例2 中,語音識(shí)別錯(cuò)誤字符與正確字符有著完全不同的發(fā)音,但仔細(xì)分析可以發(fā)現(xiàn),“圍”和“沒”有相同的韻母“ei”和聲調(diào)“2”,語音識(shí)別錯(cuò)誤來源于聲母“m”被誤識(shí)為“w”;“繞”和“讓”有相同的聲母“r”和聲調(diào)“4”,語音識(shí)別錯(cuò)誤來源于韻母“ao”被誤識(shí)為“ang”。示例3 中,“院方協(xié)商”與誤識(shí)的“岳風(fēng)學(xué)生”有著相同的聲母和聲調(diào),其語音識(shí)別錯(cuò)誤來源于“院方協(xié)商”的韻母“uan”、“ang”、“ie”、“ang”分別被誤識(shí)為“ue”、“eng”、“ue”、“eng”。由此看來,語音識(shí)別文本錯(cuò)誤表現(xiàn)為語句中某些字符的拼音組成部分發(fā)生了變化,這些字符被誤識(shí)為與其有相同聲母或韻母的字符。
表2 Kaldi 語音識(shí)別工具包使用過程中出現(xiàn)的錯(cuò)誤示例
根據(jù)ASR 系統(tǒng)識(shí)別錯(cuò)誤表現(xiàn)為語句中的某些字符被誤識(shí)為其同聲母或同韻母字符的特點(diǎn),本文提出一種基于RPIF 的數(shù)據(jù)增強(qiáng)方法,如算法1 所示。在此之前,給出以下定義。
定義6同聲字符集。設(shè)字符集Ci={c1,···,cn},n∈Z,若Ci中字符的聲母都相同,則稱Ci為同聲字符集。
用咪達(dá)唑侖、舒芬太尼常規(guī)鎮(zhèn)靜鎮(zhèn)痛,使用PB840呼吸機(jī)進(jìn)行機(jī)械通氣,控制潮氣量為6~8 ml/kg,每次吸氣時(shí)間為1~1.2 s,40 L/min,頻率為14~25次/min,氧濃度控制在45~100%,控制呼氣末正壓為5~18 cm H 2 O,保證患者SaO2>85%。
定義7同韻字符集。設(shè)字符集Cf={c1,···,cn},n∈Z,若Cf中字符的韻母都相同,則稱Cf為同韻字符集。
定義8同聲字典。多個(gè)聲母及其同聲字符集構(gòu)成的集合。
定義9同韻字典。多個(gè)韻母及其同韻字符集構(gòu)成的集合。
定義10聲韻混淆集。一個(gè)漢字對應(yīng)一個(gè)聲韻混淆集,聲韻混淆集中任意一個(gè)字符都與該漢字有相同的聲母或韻母。
算法1基于RPIF 的數(shù)據(jù)增強(qiáng)方法
算法1 展示了基于RPIF 的數(shù)據(jù)增強(qiáng)方法的詳細(xì)過程,該過程主要是將從語句中隨機(jī)抽取的n個(gè)字符分別置換為與其同聲母或同韻母字符的方式來獲取大量的糾錯(cuò)語料。算法1 中的置換概率P決定了目標(biāo)語料庫中生成語料與源語料的比例,生成語料隨P的增大而增多。當(dāng)P=0時(shí),目標(biāo)語料庫的數(shù)據(jù)是對源語料庫的復(fù)制擴(kuò)充。當(dāng)P=1時(shí),目標(biāo)語料庫的數(shù)據(jù)均是采用算法1 中步驟13)~步驟28)所示方法獲取的生成語料。此時(shí),目標(biāo)語料庫Ce的可擴(kuò)展規(guī)模受漢字集Cc大小的影響。Cc越大,單個(gè)漢字的聲韻混淆集越大,糾錯(cuò)語料庫的上限規(guī)模便會(huì)越大。值得注意的是,算法1 中的步驟14)、步驟18)和步驟25)均采用隨機(jī)化方式來設(shè)置當(dāng)前語句的錯(cuò)誤字符個(gè)數(shù)n、抽取n個(gè)待替換字符及其替換字符,這能有效地模擬 ASR 系統(tǒng)識(shí)別錯(cuò)誤出現(xiàn)的隨機(jī)性。
本節(jié)首先介紹實(shí)驗(yàn)所用數(shù)據(jù)集、實(shí)驗(yàn)環(huán)境和評估指標(biāo)。然后將基于CSPI 的文本校對模型和2 個(gè)未結(jié)合拼音編碼方法的模型進(jìn)行比較,以驗(yàn)證基于 CSPI 的文本校對模型的檢錯(cuò)和糾錯(cuò)性能,并對比不同拼音編碼方法對模型性能的影響。最后設(shè)置2 組實(shí)驗(yàn)分別驗(yàn)證優(yōu)化目標(biāo)和基于RPIF 的數(shù)據(jù)增強(qiáng)方法對基于CSPI 的模型校對性能的影響。
表3 AISHELL-3 數(shù)據(jù)集實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)信息
本文實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為 64 位Windows10 系統(tǒng),CPU 為英特爾i9-10850K,GPU為16 GB 的NVIDIA A4000,內(nèi)存為DDR4 32 GB。實(shí)驗(yàn)中涉及的深度學(xué)習(xí)模型使用Pytorch 構(gòu)建。訓(xùn)練模型的參數(shù)設(shè)置如表4 所示。在模型訓(xùn)練過程中,從訓(xùn)練集中隨機(jī)抽取20%的數(shù)據(jù)作為驗(yàn)證集。
表4 訓(xùn)練模型的參數(shù)設(shè)置
為客觀評估模型性能,取模型在AISHELL-3數(shù)據(jù)集上5 次實(shí)驗(yàn)結(jié)果的均值作為最終的模型性能評估數(shù)據(jù),選用文本糾錯(cuò)任務(wù)中常用的準(zhǔn)確率(P,precision)、召回率(R,recall)、F1(F1-measure)作為評估指標(biāo)[23],并主要通過F1 值來對比不同模型的檢錯(cuò)和糾錯(cuò)性能。
4.3.1 拼音編碼方法的有效性
本節(jié)將基于CSPI 的文本校對模型與以下2 個(gè)無拼音編碼模型進(jìn)行比較,以此檢驗(yàn)拼音編碼方法的有效性。同時(shí),通過對比不同拼音編碼模型的檢錯(cuò)和糾錯(cuò)結(jié)果,驗(yàn)證不同拼音編碼方法對模型性能的影響。無拼音編碼模型簡介如下。
1) MC[24]。使用2 層1D-CNN 和注意力機(jī)制構(gòu)建的基于編碼器-解碼器架構(gòu)的文本校對模型。模型參數(shù)與表4 所列各項(xiàng)參數(shù)保持一致。
2) MG。使用門控循環(huán)單元(GRU,gated recurrent unit)和注意力機(jī)制構(gòu)建基于編碼器-解碼器架構(gòu)的文本校對模型,即圖2 所示模型僅以字符作為模型輸入。
為了便于說明,將基于CSPI 的文本校對模型使用PU、PB、PC、PCU和PCB這5 種拼音編碼方法時(shí)分別記為MG+PU、MG+PB、MG+PC、MG+PCU和MG+PCB,統(tǒng)稱為拼音編碼模型MG+P。各拼音編碼模型和無拼音編碼模型的檢錯(cuò)和糾錯(cuò)結(jié)果如圖5 和表5 所示。
由圖5 和表5 可以看出,各個(gè)拼音編碼模型的檢錯(cuò)結(jié)果均顯著優(yōu)于無拼音編碼模型,同時(shí)拼音編碼模型的糾錯(cuò)結(jié)果也優(yōu)于無拼音編碼模型。對比2 種無拼音編碼模型,MG的檢錯(cuò)和糾錯(cuò)結(jié)果始終優(yōu)于MC。接下來,從檢錯(cuò)和糾錯(cuò)2 個(gè)方面詳細(xì)地分析各個(gè)模型的文本校對性能。
圖5 拼音編碼模型和無拼音編碼模型的文本校對性能對比
由圖5 和表5 可以看出,混合網(wǎng)絡(luò)拼音編碼模型MG+PCB的檢錯(cuò)F1 值優(yōu)于MG+PCU,且兩者的檢錯(cuò)結(jié)果明顯優(yōu)于單網(wǎng)絡(luò)拼音編碼模型。對比單網(wǎng)絡(luò)拼音編碼模型的檢錯(cuò)F1 值可以看出,MG+PC優(yōu)于MG+PB,MG+PB優(yōu)于MG+PU。具體來說,MG+PCB取得了最高檢錯(cuò)F1 值48.16%,相較MG和MC分別高出11.91%和24.31%,相較MG+PU、MG+PB、MG+PC和MG+PCU分別高出4.13%、3.82%、2.94%和0.13%。這與本文預(yù)期的效果相同,復(fù)雜的拼音編碼網(wǎng)絡(luò)能促使模型提取分辨能力較強(qiáng)的音韻信息,有助于模型檢測文本錯(cuò)誤。此外,由圖5 和表5 還可以看出,拼音編碼模型的檢錯(cuò)準(zhǔn)確率隨拼音編碼網(wǎng)絡(luò)復(fù)雜度的增加而降低,但其檢錯(cuò)召回率和F1 值隨拼音編碼網(wǎng)絡(luò)復(fù)雜度的增加而不斷增大,模型檢錯(cuò)性能整體向好。這說明基于CSPI 的文本校對模型結(jié)合復(fù)雜度較高的拼音編碼網(wǎng)絡(luò)可以增強(qiáng)其檢測錯(cuò)誤字符的靈敏度,進(jìn)而增加真實(shí)錯(cuò)誤字符的檢出率。
由表5 可得,拼音編碼模型的各項(xiàng)糾錯(cuò)指標(biāo)有隨拼音編碼網(wǎng)絡(luò)復(fù)雜度的增加而下降的趨勢。對比各個(gè)模型的糾錯(cuò)F1 值,拼音編碼模型MG+PU取得了最高糾錯(cuò)F1 值37.21%,比無拼音編碼模型MG和MC分別高出0.43%和3.98%。而其他拼音編碼模型的糾錯(cuò)性能卻低于無拼音編碼模型,且混合網(wǎng)絡(luò)拼音編碼模型的糾錯(cuò)性能不如單網(wǎng)絡(luò)拼音編碼模型。拼音編碼模型的糾錯(cuò)性能整體呈現(xiàn)與其檢錯(cuò)性能相反的趨勢。這是因?yàn)橹形拇嬖谳^多同音異義的字符,模型使用復(fù)雜的拼音編碼方法提取的音韻信息分辨能力過強(qiáng),導(dǎo)致模型認(rèn)為原有錯(cuò)誤字符或模型預(yù)測的字符在語音或語義上都能使句子有意義,本文將此稱為由音韻信息引起的過糾現(xiàn)象。
表5 拼音編碼模型和無拼音編碼模型的文本校對性能對比結(jié)果
綜上所述,音韻信息有利于基于CSPI 的文本校對模型檢測和糾正文本錯(cuò)誤。模型的檢錯(cuò)能力隨拼音編碼網(wǎng)絡(luò)的復(fù)雜度增加而增強(qiáng)。由于存在音韻信息引起的過糾現(xiàn)象,模型的糾錯(cuò)能力呈現(xiàn)隨拼音編碼網(wǎng)絡(luò)的復(fù)雜度增加而下降的趨勢。
4.3.2 優(yōu)化目標(biāo)對模型性能的影響
本節(jié)主要通過對比不同拼音編碼模型使用字符優(yōu)化目標(biāo) Lc和字符-拼音優(yōu)化目標(biāo) Lcp時(shí)的檢錯(cuò)和糾錯(cuò)結(jié)果來分析優(yōu)化目標(biāo)對模型性能的影響。各模型的文本校對結(jié)果如圖6 和表6 所示。接下來,從檢錯(cuò)和糾錯(cuò)2 個(gè)方面對比分析各個(gè)模型的文本校對性能。
圖6 基于CSPI 的模型使用不同優(yōu)化目標(biāo)時(shí)的文本校對性能對比
由表6 和圖6(a)可以看出,拼音編碼模型MG+P無論使用 Lc還是 Lcp,其檢錯(cuò)性能均優(yōu)于無拼音編碼模型MG。相較使用 Lc,MG+PU、MG+PB、MG+PC、MG+PCU和MG+PCB使用 Lcp時(shí)的檢錯(cuò)F1 值分別提升了4.13%、2.34%、2.83%、0.97%和0.42%,這說明字符-拼音優(yōu)化目標(biāo)能夠促使模型學(xué)習(xí)分辨能力更強(qiáng)的音韻信息,進(jìn)而提升了模型的檢錯(cuò)性能。由表6 和圖6(a)還可以看出,當(dāng)模型使用 Lc時(shí),MG+PCB的檢錯(cuò)F1 值比MG+PCU高,且兩者的檢錯(cuò)性能仍明顯優(yōu)于MG+PU、MG+PB和MG+PC,這也進(jìn)一步體現(xiàn)了模型融合復(fù)雜拼音編碼網(wǎng)絡(luò)學(xué)習(xí)的音韻信息更加有利于其辨別文本錯(cuò)誤。
然而,由表6 和圖6(b)可以看出,MG+PC使用Lc時(shí)的糾錯(cuò)結(jié)果高于其使用 Lcp,此時(shí)拼音編碼模型取得了最優(yōu)糾錯(cuò)F1 值37.46%,相較MG+PC使用Lcp的糾錯(cuò)F1 值高出0.94%,相較MG的糾錯(cuò)F1 值高出0.68%,相較MG+PU使用 Lcp取得的最好糾錯(cuò)F1 值高出0.25%。MG+PU、MG+PB和MG+PCB使用Lc和 Lcp時(shí)取得的糾錯(cuò)結(jié)果相當(dāng)。僅MG+PCU使用Lcp時(shí)的糾錯(cuò)結(jié)果優(yōu)于其使用 Lc。
表6 基于CSPI 的模型使用不同優(yōu)化目標(biāo)時(shí)的文本校對性能對比結(jié)果
綜上所述,在使用字符-拼音優(yōu)化目標(biāo)時(shí),基于CSPI 的文本校對模型結(jié)合復(fù)雜拼音編碼網(wǎng)絡(luò)提取的音韻信息能夠使其具備更好的文本錯(cuò)誤檢測能力。在使用字符優(yōu)化目標(biāo)時(shí),基于CSPI 的文本校對模型結(jié)合簡單拼音編碼網(wǎng)絡(luò)提取的音韻信息使其糾錯(cuò)能力占有一定的優(yōu)勢。
4.3.3 基于RPIF 的數(shù)據(jù)增強(qiáng)方法的影響
根據(jù)以上實(shí)驗(yàn)結(jié)果,本節(jié)選取單網(wǎng)絡(luò)拼音編碼模型MG+PC和混合網(wǎng)絡(luò)拼音編碼模型MG+PCB來驗(yàn)證基于RPIF 的數(shù)據(jù)增強(qiáng)方法對模型檢錯(cuò)和糾錯(cuò)性能的影響。
算法1 所需輸入?yún)?shù)如下。源語料庫Cs為AISHELL-3 的訓(xùn)練集。漢字集Cc選用《通用規(guī)范漢字字典》[40]的一級字表和二級字表,共包含6 500 個(gè)常用漢字。單條語句的最大錯(cuò)誤字符個(gè)數(shù)nmax=4,置換概率為P=1。目標(biāo)語料庫大小N分別設(shè)置為100 000、150 000 和200 000,記為10w、15w 和20w。MG+PC和MG+PCB使用不同大小目標(biāo)語料庫訓(xùn)練時(shí)的文本校對性能對比結(jié)果如表7 所示。表7 中,Origin 表示模型訓(xùn)練集為原始訓(xùn)練集大小。
由表7 可以看出,MG+PC和MG+PCB的檢錯(cuò)召回率和F1 值隨著目標(biāo)語料庫的增大而增大,其檢錯(cuò)準(zhǔn)確率也隨目標(biāo)語料庫的增大有不同程度的提升。當(dāng)訓(xùn)練集大小為20w 時(shí),MG+PC和MG+PCB取得了最優(yōu)檢錯(cuò)F1 值,分別為49.57%和51.20%,相較使用原始訓(xùn)練集,其檢錯(cuò)F1 值分別提升了4.35%和3.04%。這表明由基于RPIF 的數(shù)據(jù)增強(qiáng)方法獲取的訓(xùn)練集能促使模型學(xué)習(xí)更多文本錯(cuò)誤實(shí)例的音韻信息,進(jìn)而加強(qiáng)了模型檢測文本錯(cuò)誤的能力。由表7 還可以看出,當(dāng)模型使用同一語料庫訓(xùn)練時(shí),MG+PCB的檢錯(cuò)結(jié)果始終優(yōu)于MG+PC,這進(jìn)一步驗(yàn)證了基于CSPI 的文本校對模型所結(jié)合的拼音編碼網(wǎng)絡(luò)的復(fù)雜度越高,其檢錯(cuò)能力越好。
由表7 也可以看出,MG+PC和MG+PCB的糾錯(cuò)結(jié)果并未隨著目標(biāo)語料庫的增大而增大。這是由于訓(xùn)練集中的混淆音錯(cuò)誤字符隨數(shù)據(jù)量增加而不斷增多,模型學(xué)習(xí)的語義信息受到了影響。此外,從表7 還可以看出,MG+PC的各項(xiàng)糾錯(cuò)指標(biāo)優(yōu)于MG+PCB,這與表5 和表6 所反映的信息一致,基于CSPI 的文本校對模型結(jié)合簡單拼音編碼網(wǎng)絡(luò)學(xué)習(xí)的音韻信息更有助于其糾正文本錯(cuò)誤。
拼音攜帶的音韻信息有助于文本校對模型檢測和糾正語音識(shí)別后的文本錯(cuò)誤,這與文獻(xiàn)[7,9]得出的結(jié)論一致。結(jié)合表5~表7 可以看出,基于CSPI的文本校對模型取得的最優(yōu)檢錯(cuò)F1 值比無拼音編碼模型MC和MG分別高27.35%和14.95%;其最優(yōu)糾錯(cuò)F1 值比MC和MG分別高4.23%和0.68%。由表5~表7 所示實(shí)驗(yàn)結(jié)果還可以看出,模型結(jié)合復(fù)雜拼音編碼網(wǎng)絡(luò)提取的音韻信息更有利于其檢出文本錯(cuò)誤,但模型的糾錯(cuò)性能會(huì)受到影響。本文認(rèn)為這是一種音韻信息引起的過糾現(xiàn)象。模型結(jié)合復(fù)雜拼音編碼網(wǎng)絡(luò)能夠提取到分辨力較強(qiáng)的音韻信息,進(jìn)而提升了檢測文本錯(cuò)誤的靈敏度。但音韻信息過強(qiáng)會(huì)導(dǎo)致模型認(rèn)為某些錯(cuò)誤字符也能使句子在語音或語義上有意義,以致模型無法糾正此類文本錯(cuò)誤。文獻(xiàn)[30]中也提及了類似的問題。例如,“的”、“地”和“得”3 個(gè)字有相同的發(fā)音“de”,將語句中“地”替換為其他兩者后,該語句依然有意義。
加大拼音編碼網(wǎng)絡(luò)的復(fù)雜度、加強(qiáng)模型訓(xùn)練過程中對音韻信息的優(yōu)化、增加訓(xùn)練數(shù)據(jù)中混淆音文本錯(cuò)誤的類別均能促使文本校對模型捕獲較強(qiáng)分辨力的音韻信息,進(jìn)而提升模型的文本檢錯(cuò)能力。降低拼音編碼網(wǎng)絡(luò)的復(fù)雜度或在模型訓(xùn)練過程中適當(dāng)減少對音韻信息的優(yōu)化則有利于文本校對模型糾正文本錯(cuò)誤。由表6 可以看出,基于CSPI 的文本校對模型結(jié)合任意一種拼音編碼網(wǎng)絡(luò)且使用字符-拼音優(yōu)化目標(biāo)時(shí)都能取得更好的檢錯(cuò)性能;而當(dāng)僅使用字符優(yōu)化目標(biāo)時(shí),模型的糾錯(cuò)性能更好。這是由于僅使用字符優(yōu)化目標(biāo)能夠在一定程度上削弱音韻信息引起的過糾現(xiàn)象。由表7 可以看出,基于CSPI 的文本校對模型結(jié)合復(fù)雜拼音編碼網(wǎng)絡(luò)且使用字符-拼音優(yōu)化目標(biāo)時(shí),其檢錯(cuò)性能隨訓(xùn)練集中混淆音文本錯(cuò)誤的增加有進(jìn)一步提升。綜上所述,本文建議借助音韻信息校對語音識(shí)別文本錯(cuò)誤時(shí),分開進(jìn)行檢錯(cuò)與糾錯(cuò)這2 個(gè)子任務(wù),通過融合復(fù)雜拼音編碼網(wǎng)絡(luò)并在訓(xùn)練過程中加強(qiáng)對音韻信息的優(yōu)化來提升文本校對模型的檢錯(cuò)率,通過融合簡單拼音編碼網(wǎng)絡(luò)或在訓(xùn)練過程中適當(dāng)減少對音韻信息的優(yōu)化來輔助提升文本校對模型的糾錯(cuò)率。
表7 基于CSPI 的模型使用不同大小目標(biāo)語料庫訓(xùn)練時(shí)的文本校對性能對比結(jié)果
文本長度較短及上下文語義缺失是語音識(shí)別文本校對任務(wù)的難點(diǎn)。由表5~表7 可以看出,各類模型的文本校對性能一般。本文認(rèn)為這主要是由于來自ASR 系統(tǒng)的文本長度較短,模型很難根據(jù)句子的上下文語義來糾錯(cuò)。例如,“吃飯了嗎”容易因用戶發(fā)音不清晰被ASR 系統(tǒng)誤識(shí)為“吃飯了啊”。若不考慮語境,可以認(rèn)為后者是正確的,由此可見,模型校對此類短文本的難度較高。由表3可知,AISHELL 測試集中長度小于5 和小于10 的語句分別占12.91%和49.61%。此外,由表7 可知,當(dāng)使用基于RPIF 的數(shù)據(jù)增強(qiáng)方法擴(kuò)充模型的訓(xùn)練集后,模型的檢錯(cuò)性能隨著訓(xùn)練數(shù)據(jù)的逐步增加而不斷提升,但其糾錯(cuò)性能卻呈現(xiàn)隨著訓(xùn)練數(shù)據(jù)的增加而降低的趨勢,可能的原因有2 個(gè),一個(gè)是訓(xùn)練數(shù)據(jù)中混淆音錯(cuò)誤字符的增多加重了由音韻信息引起的過糾現(xiàn)象;另一個(gè)是本文用于驗(yàn)證拼音編碼方法的文本校對模型的結(jié)構(gòu)相對簡單,模型學(xué)習(xí)語義信息的能力受限。在今后的工作中,嘗試將大規(guī)模的預(yù)訓(xùn)練語言模型和拼音編碼方法相結(jié)合來解決語音識(shí)別后的文本校對問題。
本文提出了PU、PB、PC、PCU和PCB這5 種拼音編碼方法,并以此構(gòu)建了基于CSPI 的文本校對模型,實(shí)現(xiàn)了同時(shí)利用句子的語義和音韻信息校對語音識(shí)別文本錯(cuò)誤。針對標(biāo)注數(shù)據(jù)有限造成許多先進(jìn)的深度學(xué)習(xí)模型難以應(yīng)用于語音識(shí)別文本校對任務(wù)的問題,本文提出了一種基于RPIF 的數(shù)據(jù)增強(qiáng)方法。在多人普通話語音數(shù)據(jù)集AISHELL-3 上進(jìn)行了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,拼音攜帶的音韻信息有利于文本校對模型檢測和糾正語音識(shí)別文本錯(cuò)誤?;贑SPI 的文本校對模型使用混合網(wǎng)絡(luò)拼音編碼方法(PCU、PCB)所提取的音韻信息有利于其檢測語音識(shí)別文本錯(cuò)誤,使用單網(wǎng)絡(luò)拼音編碼方法(PU、PB、PC)所提取的音韻信息則更利于其糾正語音識(shí)別文本錯(cuò)誤。所提數(shù)據(jù)增強(qiáng)方法能促使文本校對模型學(xué)習(xí)更多語音識(shí)別錯(cuò)誤實(shí)例,有效地提升了模型檢出語音識(shí)別文本錯(cuò)誤的能力。在未來的研究工作中,筆者會(huì)嘗試將預(yù)訓(xùn)練語言模型與不同的拼音編碼方法相結(jié)合,分別用于語音識(shí)別文本錯(cuò)誤的檢測和糾正,以進(jìn)一步輔助ASR 系統(tǒng)提升其識(shí)別準(zhǔn)確性。