諸葛晶昌,胡寬博,楊新宇,吳 軍
(1.中國民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300;2.中國民航大學(xué) 航空工程學(xué)院,天津 300300)
中國民航不斷發(fā)展,航班數(shù)量的增加,導(dǎo)致機(jī)場(chǎng)愈加繁忙,特別是國內(nèi)樞紐機(jī)場(chǎng)大多已經(jīng)接近最大容量限制。國際機(jī)場(chǎng)理事會(huì)預(yù)測(cè),到2040年中國民航的航班數(shù)量將占世界民航的16.1%,可以預(yù)見,我國大型機(jī)場(chǎng)特別是樞紐機(jī)場(chǎng)將長(zhǎng)期保持高負(fù)荷的運(yùn)行狀態(tài)。機(jī)坪管制從人員、車輛、設(shè)備、信息、環(huán)境等方面開展飛機(jī)地面保障和運(yùn)行調(diào)度工作,目前機(jī)場(chǎng)飛機(jī)地面運(yùn)行普遍采用管制員人工語音調(diào)度的方式進(jìn)行,機(jī)場(chǎng)飛行區(qū)運(yùn)行負(fù)荷的不斷增加,為管制人員帶來巨大壓力,導(dǎo)致管制員人為因素造成的異常事件呈上升趨勢(shì)。因此,管制員語音指令的準(zhǔn)確識(shí)別已經(jīng)成為實(shí)現(xiàn)機(jī)場(chǎng)地面運(yùn)行輔助決策、資源調(diào)配、預(yù)測(cè)預(yù)警的重要環(huán)節(jié),是提升場(chǎng)面運(yùn)行指揮技術(shù)保障能力的有效手段,有利于深化“平安民航”建設(shè),為機(jī)場(chǎng)飛行區(qū)場(chǎng)面運(yùn)行提供安全保障。
自動(dòng)語音識(shí)別技術(shù) (ASR,automatic speech recognition)已經(jīng)在空中交通管制(ATC,air traffic control)領(lǐng)域應(yīng)用,如在空中交通管制領(lǐng)域使用深度神經(jīng)網(wǎng)絡(luò) (DNN,deep neural network)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) (BiLSTM,bi-directional long short-term memory)進(jìn)行語音識(shí)別[1],將自動(dòng)語音識(shí)別技術(shù)應(yīng)用到空中交通管制領(lǐng)域構(gòu)建的封閉式跑道運(yùn)行預(yù)防裝置[2]。深度學(xué)習(xí)方法在機(jī)場(chǎng)運(yùn)行流程中的應(yīng)用也是大勢(shì)所趨[3],既提升了機(jī)場(chǎng)運(yùn)行效率,更是為機(jī)場(chǎng)安全提供了保障[4]。卷積神經(jīng)網(wǎng)絡(luò) (CNN,convolutional neural networks)在語音識(shí)別領(lǐng)域中的應(yīng)用經(jīng)典案例為CLDNN (CLDNN,convolutional,long short-term memory,fully connected deep neural networks)[5],其通過將CNN、LSTM、DNN連接在一起,通過三者互補(bǔ)性,以提升模型識(shí)別性能。科大訊飛公司也提出了一種新式CNN結(jié)構(gòu),即深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,deep fully convolutional neural network),直接將音頻轉(zhuǎn)化為圖像進(jìn)行處理,在保留音頻在時(shí)頻域的信息方面表現(xiàn)出色。同時(shí)與CTC(connectionist temporal classification)可以很好地結(jié)合[6]。語言模型方面,A Vaswani等提出了基于純注意力機(jī)制的Transformer模型,并論證了其在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的優(yōu)越性,且受到領(lǐng)域內(nèi)學(xué)者的一致認(rèn)可。最初將Transformer模型應(yīng)用到語音領(lǐng)域的Dong[7]等人也提出Speech-Transformer模型,這種Sequence-to-Sequence模型正好被用于解決語音識(shí)別中的分類問題。同時(shí)為了解決訓(xùn)練中數(shù)據(jù)量不足而引發(fā)的問題,趙凱琳[8]等,張一珂[9]等都提出了數(shù)據(jù)增強(qiáng)的策略。另一方面,生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial networks)[10]的出現(xiàn)使得進(jìn)行無監(jiān)督的數(shù)據(jù)增強(qiáng)策略更為可行,但原始GAN存在部分缺陷,如兩元化的“極小極大博弈”[11],在缺少損失函數(shù)的約束下,難以持續(xù)進(jìn)行,容易陷入最穩(wěn)狀態(tài),無法生成新的樣本。隨著條件生成對(duì)抗網(wǎng)絡(luò)(CGAN,conditional generative adversarial nets)[12]及各種變種GAN網(wǎng)絡(luò)如拉普拉斯生成對(duì)抗網(wǎng)絡(luò)(LAPGAN,laplacian pyramid of adversarial networks)[13]等的提出,在各種約束下,GAN的部分缺陷逐漸被彌補(bǔ)。
圖1 數(shù)據(jù)增強(qiáng)策略組結(jié)構(gòu)
由于管制員機(jī)坪管制語音指令區(qū)別于標(biāo)準(zhǔn)普通話的特殊性,現(xiàn)有的語音識(shí)別模式方案無法發(fā)揮最佳效果,限制了其在機(jī)坪管制領(lǐng)域的應(yīng)用。機(jī)坪管制指令特點(diǎn)在于:1)指令簡(jiǎn)短規(guī)范,信息密度大;2)受通話環(huán)境影響,和周圍噪聲干擾、通信干擾和管制雙方通話習(xí)慣等有關(guān)。因此,適用于機(jī)坪管制員語音的識(shí)別方法的研究顯得至關(guān)重要。
本文參考李響[14]等提出了基于生成聯(lián)合深度卷積神經(jīng)網(wǎng)絡(luò)(G-DFCNN,generator-deep convolutional neural network)結(jié)構(gòu)的語音識(shí)別方法,實(shí)現(xiàn)了機(jī)坪管制指令的準(zhǔn)確識(shí)別,并依據(jù)小樣本學(xué)習(xí)方法增強(qiáng)了識(shí)別模型的準(zhǔn)確性和魯棒性。本方案提出適用于管制指令音頻識(shí)別的數(shù)據(jù)增強(qiáng)方法,構(gòu)建基于增強(qiáng)策略組的級(jí)聯(lián)生成對(duì)抗網(wǎng)絡(luò)來生成虛假樣本參與訓(xùn)練,通過改進(jìn)DFCNN網(wǎng)絡(luò)結(jié)構(gòu)用以提升聲學(xué)特征的匹配度,使用Transformer模型搭建語言模型,以彌補(bǔ)語音識(shí)別中最常用的N-Gram語言模型只能關(guān)注連續(xù)詞的缺點(diǎn)。最后通過遷移學(xué)習(xí)方法實(shí)現(xiàn)對(duì)聲學(xué)建模單元的高效利用以提升語音識(shí)別的準(zhǔn)確性。
考慮到機(jī)坪管制指令的小樣本集問題,本文通過數(shù)據(jù)增強(qiáng)方法實(shí)現(xiàn)對(duì)小樣本的擴(kuò)充。 在圖像數(shù)據(jù)增強(qiáng)領(lǐng)域,常用的數(shù)據(jù)增強(qiáng)方法有尺度變換和像素變換或是直方圖均衡化以及調(diào)整白平衡等。而在語音方面則可以將音頻的語譜圖當(dāng)作圖像來對(duì)待,語譜圖的兩個(gè)維度分別代表音頻的時(shí)間和頻率,語譜圖中的顏色深淺則代表語音的強(qiáng)弱,正對(duì)應(yīng)了圖片尺度特征和灰度,因此可以查詢指定時(shí)間和頻率的能量分布。本文數(shù)據(jù)增強(qiáng)方法包括利用如SamplePairing和Mix-up等批次化處理的增強(qiáng)技術(shù)獲得新的樣本,這些模板化生成策略處理得到的新音頻中聲學(xué)特征信息都被部分保留,隨著變換尺度的增加,部分新特征也會(huì)逐漸失真?;蛲ㄟ^有規(guī)律的破壞完整的信息鏈,迫使卷積網(wǎng)絡(luò)學(xué)習(xí)或猜測(cè)更深層次的內(nèi)容。如神經(jīng)網(wǎng)絡(luò)中加入Dropout的操作,或自然語言處理領(lǐng)域中的掩碼思想。另一方面,通過生成對(duì)抗網(wǎng)絡(luò)來生成虛假樣本參與訓(xùn)練也是一種有效的手段。參考LAPGAN和深度語音增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)(DSEGAN,deep speech enhancement GAN)的鏈?zhǔn)缴善魉枷?,我們?gòu)建了基于混合增強(qiáng)策略組的GAN模型,通過將音頻的各個(gè)尺度特征當(dāng)作圖像中的殘差特征進(jìn)行提取和生成,最后通過與原音頻進(jìn)行級(jí)聯(lián)以生成新數(shù)據(jù)。
生成網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。通過3種增強(qiáng)方法生成訓(xùn)練所需的虛假樣本參與訓(xùn)練。
1.1.1 分幀加窗
機(jī)坪管制指令的識(shí)別可以看作序列到序列的分類問題,音頻單采樣點(diǎn)所蘊(yùn)含的信息密度遠(yuǎn)低于拼音或音素所蘊(yùn)含的信息密度,為增大音頻單幀的信息密度,更好地匹配標(biāo)簽,同時(shí)應(yīng)對(duì)采樣中的隨機(jī)信號(hào)的干擾,采取分幀加窗是將時(shí)變語音信號(hào)處理成短時(shí)平穩(wěn)信號(hào),用于之后的特征提取。由于讀取到的語音指令語音信號(hào)表示為時(shí)域排序的離散一維數(shù)組,而單采樣點(diǎn)所蘊(yùn)含的特征信息不足,且包含隨機(jī)信號(hào)特征,需要聯(lián)合前后點(diǎn)經(jīng)由變換得到平穩(wěn)信號(hào)以摒除隨機(jī)信號(hào)特征的影響,同時(shí)能使得每一幀信息密度增大。因此每幀信息一般維持10~30 ms內(nèi),以保持語音信號(hào)的特性基本不變。對(duì)于一段語音進(jìn)行加窗操作時(shí)設(shè)置的參數(shù)包括幀長(zhǎng)、幀移以及重疊時(shí)間。因此本文設(shè)置幀長(zhǎng)為25 ms,每次時(shí)移10 ms,其中會(huì)有15 ms的重疊區(qū)域,以這種方式來防止幀與幀之間丟失重要的信息。同時(shí)為了減少信息的泄露,所以在加窗時(shí)選擇海明窗:
(1)
其中:α一般取0.46,N為窗口大小,0≤n≤N-1。
1.1.2 MFCC特征
為了全面體現(xiàn)管制指令語音信號(hào)特征,除了時(shí)域特征外本文選取了梅爾倒譜系數(shù)(mel-frequency cepstral coefficients,MFCC)作為頻域特征,MFCC是在分幀加窗后經(jīng)由FFT變換獲得其在頻域上的特征,再對(duì)各幀頻譜取模平方得到的。
(2)
其中:x(n)為輸入信號(hào),N表示傅里葉變換點(diǎn)數(shù)。
經(jīng)過梅爾帶通濾波器組對(duì)頻譜進(jìn)行平滑化,并消除諧波的作用,突顯原先語音的共振峰。由于MFCC特征隨維度增加到一定程度后,蘊(yùn)含的信息將會(huì)變少,本文中實(shí)驗(yàn)部分提取32維特征向量,采用64個(gè)濾波器組成梅爾帶通濾波器組。最后經(jīng)由對(duì)數(shù)運(yùn)算得到當(dāng)前幀的對(duì)數(shù)能量。
1.2.1 噪聲增強(qiáng)
噪聲增強(qiáng)有多種形式,如加性噪聲即在增強(qiáng)過的語音信號(hào)上添加一個(gè)或多個(gè)隨機(jī)噪聲段,增強(qiáng)隨機(jī)系數(shù)倍數(shù)后經(jīng)由加性或乘性方法加入原噪聲,用以提升語音識(shí)別方法的魯棒性。
加性噪聲是為了減少人聲信息在音頻中所占比,同樣的,可以通過加強(qiáng)人聲的降噪處理進(jìn)一步推動(dòng)神經(jīng)網(wǎng)絡(luò)識(shí)別噪聲、學(xué)習(xí)到人聲信息,增加系統(tǒng)魯棒性?;祉懺鰪?qiáng)方法基于ISM (image source method)方法,通過模擬封閉空間中的各個(gè)反射面的特性,將聲源視作光源,隨著在空間中各個(gè)反射面的擴(kuò)散與折射,呈現(xiàn)出真實(shí)情景中封閉空間中的混響效果。
1.2.2 時(shí)域增強(qiáng)
1)時(shí)移變換:
僅沿著時(shí)間軸隨機(jī)移動(dòng)語音信號(hào),不改變信號(hào)的其他屬性。對(duì)應(yīng)語譜圖的橫向平移。在實(shí)際的管制語音音頻中,包含語音特征的音頻序列在起始和結(jié)束時(shí)可能產(chǎn)生一定范圍的空白,因此采用時(shí)移增強(qiáng),將信息段沿著時(shí)間軸按一定比例滾動(dòng),以模擬真實(shí)場(chǎng)景中的起始、結(jié)尾環(huán)境并創(chuàng)造新的音頻樣本數(shù)據(jù),增加方法魯棒性。
2)音速變換:
用以模擬不同管制員語速的快慢,在實(shí)際機(jī)場(chǎng)塔臺(tái)管制指令中,語速比日常對(duì)話要快上很多,同時(shí)語句本身包含信息量大,但不同管制員語速并不能完全相同,通過音速的變換可以模擬其中的影響。在卷積網(wǎng)絡(luò)中通過多層卷積后的跨越長(zhǎng)時(shí)的聲學(xué)特征也可以匯聚到一張圖層中,因此,該方法作為策略組中時(shí)間維度的展縮工具。
3)音高變換:
改變音頻升降幅度,通模擬通信過程中音頻幅值各個(gè)情況下的高低變化,如遠(yuǎn)近場(chǎng)的變化、輸入輸出設(shè)備音量變化等,使神經(jīng)網(wǎng)絡(luò)忽略音高所帶來的音頻特征的差異。
音高變換后語譜圖從高頻區(qū)到低頻區(qū)語譜強(qiáng)度都有所提升。雖然不會(huì)改變音頻中有效信息的占比,但可以一定程度上消除聲學(xué)特征匹配過程中音高帶來的差異。
1.2.3 語譜遮掩
在時(shí)間維度隨機(jī)抽去一段數(shù)據(jù),形成類似于Dropout的操作,隱藏的內(nèi)容不能超過一定閾值,否則樣本與標(biāo)簽的對(duì)應(yīng)將會(huì)沖突,卷積神經(jīng)網(wǎng)絡(luò)通過猜測(cè)可以得出隱含信息。頻域的遮掩則類似于去噪,根據(jù)研究表明,人聲通常集中在一定范圍頻段,雖然男聲、女聲、齒音、鼻音等分布范圍都不相同,但其中信息基本包含在一定區(qū)間。如女性發(fā)聲中1.6~3.6 kHz影響音色的質(zhì)量。在頻域遮掩的過程中,如果將連續(xù)的有效信息遮掩掉,則會(huì)導(dǎo)致識(shí)別效果下降。本文將導(dǎo)致識(shí)別效果明顯降低的批次舍棄,同時(shí)通過取loss趨于平緩后的識(shí)別結(jié)果均值作為識(shí)別結(jié)果以降低誤差。由于卷積神經(jīng)網(wǎng)絡(luò)中圖像的輸入為兩個(gè)有效維度即圖片的尺寸變換應(yīng)保留自身特征,因此圖像數(shù)據(jù)增強(qiáng)方法中部分多維特征變換方法可能會(huì)大幅減少輸入語音的固有特征所占比例,破壞已經(jīng)提取的特征信息鏈,使其產(chǎn)生失真,無法提升識(shí)別性能。因此頻譜遮掩方法中需要設(shè)置閾值來遏制連續(xù)域內(nèi)的多次遮掩。
(3)
(4)
其中:W1、W2分別為時(shí)頻域遮掩總量,n為遮掩數(shù)量,li為遮掩范圍,t為樣本時(shí)間長(zhǎng)度,f為樣本特征頻率范圍,ε為遮掩系數(shù)。實(shí)驗(yàn)結(jié)果表明閾值為時(shí)頻域尺度的20%以內(nèi)時(shí)效果最佳。遮掩效果如圖2~3所示。
圖2 時(shí)域遮掩后的語音信號(hào)語譜圖
圖3 頻域遮掩后的語音信號(hào)語譜圖
GAN方法的提出,為小樣本學(xué)習(xí)領(lǐng)域帶來了新的思路。通過生成器域鑒別器的二元博弈,我們可以得到能夠產(chǎn)出大量虛假樣本的生成器。在一些難以獲得大量標(biāo)注數(shù)據(jù)的領(lǐng)域起到了至關(guān)重要的作用。而如何判斷數(shù)據(jù)的真實(shí)分布與虛假分布則是GAN訓(xùn)練中需要解決的問題。
Quan 等[15]證明了通過在GAN原始生成器后進(jìn)一步增加附加的生成器能夠獲得更好的圖像構(gòu)建效果,而Huy Phan等[16]則在語音增強(qiáng)領(lǐng)域提出了DSEGAN,通過使用多級(jí)生成器增強(qiáng)映射G=G1→G2→ →GN來實(shí)現(xiàn)對(duì)聲學(xué)特征的重建。
LAPGAN也采取了類似的思想,LAPGAN最先用于計(jì)算機(jī)視覺領(lǐng)域,由Facebook 等人提出,通過金字塔式的多層下采樣獲取圖像的各級(jí)特征,并訓(xùn)練鑒別器進(jìn)行判斷。區(qū)別于原始GAN的兩元極端思想,LAPGAN引入了條件信息,只通過各級(jí)殘差特征與原始圖像的結(jié)合創(chuàng)造出新的樣本。
生成器采樣過程為:
(5)
(6)
本文采用類似結(jié)構(gòu)來構(gòu)建所需Generator,相關(guān)結(jié)構(gòu)如圖4所示。
圖4 Ca-GAN中的生成器結(jié)構(gòu)
Generator生成樣本流程如圖4所示。本文設(shè)置三類金字塔層,分別為加性噪聲層、時(shí)頻特征層和頻譜特征層,將以增強(qiáng)策略組的形式展示。不同于LAPGAN方法的對(duì)于圖像的分解式特征金字塔,Generator通過將原始樣本通過時(shí)頻和頻譜等增強(qiáng)變換方法逐層構(gòu)建自己的特征金字塔。
其中,單層Generator結(jié)構(gòu)如圖5所示。
圖5 單個(gè)生成器和鑒別器的基礎(chǔ)結(jié)構(gòu)
相對(duì)的,鑒別器結(jié)構(gòu)如圖5(b)所示,參考DCGAN和SEGAN中的形式,生成器和鑒別器由多個(gè)卷積塊組成,每個(gè)卷積塊包含二維卷積/反卷積、batchnormization層和相應(yīng)的激活函數(shù)。在生成器中為了保護(hù)負(fù)數(shù)域中的數(shù)據(jù)特征不失真而采用了tanh激活函數(shù)。而在鑒別器中則采用Leaky_relu函數(shù)。
為了迫使級(jí)聯(lián)的生成器鏈能夠?qū)W習(xí)到真實(shí)數(shù)據(jù)分布之間的特征,鑒別器的任務(wù)是對(duì)真實(shí)分布與虛假分布的差異。然而在實(shí)際的訓(xùn)練過程中,經(jīng)常會(huì)出現(xiàn)各種問題,如鑒別器識(shí)別的效果太差,難以約束;或是鑒別器的效果太好導(dǎo)致生成器的更新停滯等。為了減少這些問題的出現(xiàn),評(píng)價(jià)的標(biāo)準(zhǔn)采用Wasserstein距離[17],相較于Jensen-Shannon散度[18]和Kullback-Leibler散度[19]因此通過二元博弈的公式如下:
(7)
而在WGAN的基礎(chǔ)上,為了得到更穩(wěn)定的loss輸出[20],將傳統(tǒng)的權(quán)重裁剪方法變換為梯度懲罰的方法[21],即增加一個(gè)正則項(xiàng)作為約束:
(8)
因此二元博弈公式也可以表示為:
(9)
通過WGAN-GP[22]的訓(xùn)練方法,可以實(shí)現(xiàn)更加穩(wěn)定的訓(xùn)練過程。同時(shí),生成器的質(zhì)量也會(huì)有所提升。
在機(jī)坪管制語音指令的識(shí)別中,本文選用深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,deep fully convolutional neural network)來實(shí)現(xiàn)聲學(xué)特征處理及訓(xùn)練,利用其在時(shí)間和空間上的平移不變性卷積來克服語音信號(hào)本身的多樣性。
卷積神經(jīng)網(wǎng)絡(luò)的平移不變性和卷積采樣過程非常適用于語音識(shí)別的研究中。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積層是利用多個(gè)卷積核濾波器對(duì)原始的圖像進(jìn)行卷積操作來提取多個(gè)抽象特征,而在語音識(shí)別過程中通過將語音轉(zhuǎn)換為圖像的形式而進(jìn)行計(jì)算。池化層對(duì)卷積層進(jìn)行池化處理,使提取的特征更加緊湊并減少神經(jīng)元個(gè)數(shù)。DFCNN的特點(diǎn)在于直接將音頻的語譜圖作為神經(jīng)網(wǎng)絡(luò)的輸入,相比于其他網(wǎng)絡(luò)模型,這一特點(diǎn)保留了更多的音頻特征信息。傳統(tǒng)DFCNN結(jié)構(gòu)如圖6所示。
圖6 經(jīng)典DFCNN模型結(jié)構(gòu)
本文通過改進(jìn)DFCNN模型來實(shí)現(xiàn)對(duì)音頻信息的提取和處理。由于音頻被轉(zhuǎn)化為語譜圖的形式,應(yīng)用于圖像數(shù)據(jù)增強(qiáng)的方法在音頻處理上更便于理解和學(xué)習(xí)。其通過大量的卷積層和池化層提取了音頻在時(shí)間和頻率兩個(gè)維度的特征,音頻在經(jīng)過提取后的數(shù)據(jù)不僅能夠真實(shí)地表達(dá)當(dāng)前幀特征信息,而且在相當(dāng)長(zhǎng)的時(shí)間維度的上的相關(guān)性也可以輕易地體現(xiàn),模擬了循環(huán)遞歸網(wǎng)絡(luò)的一部分特性,改進(jìn)后結(jié)構(gòu)如圖7所示。
圖7 改進(jìn)DFCNN模型結(jié)構(gòu)
本文通過改進(jìn)其網(wǎng)絡(luò)結(jié)構(gòu),以追求最優(yōu)效果。通過調(diào)整其中神經(jīng)網(wǎng)絡(luò)的層數(shù),來減少參與運(yùn)算的參數(shù),減小運(yùn)算負(fù)荷,增加Dropout層防止過擬合,采用批標(biāo)準(zhǔn)化(BN,batch normalization)層增加網(wǎng)絡(luò)泛化能力。同時(shí)增加LSTM層對(duì)扁平化低維數(shù)據(jù)進(jìn)行運(yùn)算提取音頻中的時(shí)域信息,從而得到更好的識(shí)別效果。
在機(jī)坪管制指令識(shí)別中,由于指令本身具有字義固定、無混淆發(fā)音等特點(diǎn),語言模型并不能發(fā)揮太多作用,但在遷移學(xué)習(xí)方法中,由于引入了大量同音字、多音字等容易混淆的字符,如果缺少語言模型,將會(huì)導(dǎo)致語音識(shí)別準(zhǔn)確率大幅下降。因此本文設(shè)置語言模型,根據(jù)聲學(xué)模型的結(jié)果給出概率最大的漢字序列,以實(shí)現(xiàn)聲學(xué)序列到漢字序列的分類。N-gram 模型是語音識(shí)別中常用的語言模型,但其僅關(guān)注前一個(gè)字符而引入的有限的局部文本信息,很難有效地發(fā)現(xiàn)孤立的識(shí)別錯(cuò)誤,如同音字替換錯(cuò)誤。
而本文采用的Transformer語言模型不僅能通過編碼學(xué)習(xí)到順序信息,同時(shí)也基于自注意力機(jī)制尋找輸入輸出序列的最優(yōu)匹配。Transformer 模型通過注意力機(jī)制、編碼解碼、殘差前饋網(wǎng)絡(luò)和線性化等特點(diǎn)解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法中的缺陷,如根據(jù)卷積神經(jīng)網(wǎng)絡(luò)思想,結(jié)合多頭注意力機(jī)制,實(shí)現(xiàn)了并行的運(yùn)算,加快了運(yùn)算的速度。Transformer方法實(shí)際是正是為了理解輸入和輸出序列之間對(duì)應(yīng)的關(guān)系,包含兩個(gè)主要模塊:編碼模塊和解碼模塊,通過編碼器對(duì)時(shí)間序列進(jìn)行編碼處理,Transformer結(jié)合編碼器的當(dāng)前的輸出和上一時(shí)刻的輸出來生成下一時(shí)間步長(zhǎng)的輸出,通過這一流程可以出色地表達(dá)出序列的時(shí)域相關(guān)性,從而解決遷移學(xué)習(xí)所帶來的語義問題。
3.2.1 編碼器層
編碼器層分為6層,由6個(gè)編碼單元組成,但其相互之間不會(huì)共享權(quán)值。每個(gè)編碼單元包含一個(gè)多頭注意力通道和前饋通道,該前饋通道包含矩陣線性變化Linear層和Relu非線性激活處理,每一個(gè)子層之后都會(huì)接一個(gè)殘差連接和歸一化層。其中,殘差連接層避免了梯度消失的問題,而歸一化層通常采用BN層。BN的作用在于對(duì)網(wǎng)絡(luò)層中每一小批數(shù)據(jù)進(jìn)行歸一化處理,防止多層前向計(jì)算后的數(shù)據(jù)偏差過大,造成梯度方面出現(xiàn)問題。
在多頭自注意力層、求和與歸一化層、前饋神經(jīng)網(wǎng)絡(luò)這3個(gè)不同層的結(jié)合下,最終得到編碼器的輸出。
輸入前需要進(jìn)行位置編碼是由于Transformer不包含遞歸和卷積,因此序列的順序信息無法得到利用,但通過位置編碼字符向量嵌入和字符位置向量嵌入可以實(shí)現(xiàn)將位置信息作為輸入傳輸?shù)骄W(wǎng)絡(luò)中。在編碼器和的解碼器堆棧底部需要嵌入位置編碼,本文采用不同頻率的正弦和余弦函數(shù)來進(jìn)行編碼,表示為:
(10)
(11)
其中:pos表示位置,2i代表維數(shù)。位置編碼中不同維度對(duì)應(yīng)著不同的正弦信號(hào)。
注意力函數(shù)一般分為乘性和加性兩類,雖然乘性函數(shù)和加性函數(shù)理論上復(fù)雜度相同,但實(shí)際應(yīng)用中乘性函數(shù)一般計(jì)算速度更快一些,空間利用效率更高。縮放點(diǎn)積注意力機(jī)制如圖8所示。
圖8 縮放點(diǎn)乘注意力機(jī)制
多頭注意力機(jī)制并非直接將Q(qurey)、K(key)、V(value)輸入網(wǎng)絡(luò),而是通過多個(gè)不同的線性變換,將Q、K、V進(jìn)行投影,然后將最終得出的注意力結(jié)果進(jìn)行拼接,這種操作能使Transformer模型在不同表示子空間中的不同位置共同關(guān)注信息。
3.2.2 解碼器層
解碼器層是由6個(gè)解碼器組成,與編碼器的結(jié)構(gòu)類似,但比編碼器多了一個(gè)掩蓋多頭自注意力層。這個(gè)層包括了第一層掩蓋多頭自注意力層和第二層多頭自注意力層。Transformer模型為自回歸模型,在預(yù)測(cè)過程中,查詢Q自于上一層解碼器輸出,而鍵K和值V自于編碼器,編碼器可以并行計(jì)算,解碼器需要分布出結(jié)果。通過最終的線性變換,可以得到最高概率的漢字字符索引,從而得到輸出。
本文是在Ubuntu18.04系統(tǒng)下,基于Tensorflow 2.X、Keras 2.X框架下完成的。
硬件環(huán)境為:CPU i7-10700八核處理器、GPU RTX3090、64 G內(nèi)存。
1)開源語音數(shù)據(jù)集,包括Thchs30,Aishell-1和Google Speech Command,其中Thchs30和Aishell-1為中文長(zhǎng)句數(shù)據(jù)集,Google Speech Command為英文短語型數(shù)據(jù)集。清華大學(xué)發(fā)布的Thchs30包含超過10 000個(gè)超過30小時(shí)的語音文件,這些文件內(nèi)容主要由文章和詩歌組成。AISHELL-1中文語音數(shù)據(jù)集,包含約178小時(shí)的開源數(shù)據(jù)。Google Speech Command由TensorFlow and AIY發(fā)布。它包含65 000個(gè)簡(jiǎn)短的有聲句子。每個(gè)段包含一個(gè)語音命令??偣灿写蠹s30種不同的語音命令。
2)民航專業(yè)數(shù)據(jù)集:
該語料庫由空管專業(yè)人員錄制的語音與裁剪標(biāo)注后的實(shí)際管制員語音組成,包含機(jī)場(chǎng)管制員與各個(gè)航司飛行員通話的內(nèi)容,并包含已標(biāo)注的對(duì)應(yīng)文本序列和音素信息。
本數(shù)據(jù)庫的建立參考《空中交通無線電通話用語》和《CCAR93-R5民用航空空中交通管理規(guī)則》根據(jù)規(guī)范要求,發(fā)音速度保持適中,在發(fā)送需要被記錄的信息時(shí)會(huì)適當(dāng)降低語速,單詞發(fā)音清楚、音量平穩(wěn)、正常語調(diào),采樣頻率 16 000 Hz,采樣大小為16 bits,共1 200條,此數(shù)據(jù)集分為純中文和中英混合兩部分,劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集三部分,比例為0.8,0.1,0.1。
區(qū)別于普通話語音數(shù)據(jù)庫,管制指令語音數(shù)據(jù)庫中關(guān)鍵詞重復(fù)度相對(duì)較高,僅有約200個(gè)聲學(xué)建模單元,其規(guī)模遠(yuǎn)小于普通話語音數(shù)據(jù)庫中的聲學(xué)建模單元,但相對(duì)的字義密度大,因此受噪聲干擾明顯。因此在數(shù)據(jù)增強(qiáng)方法下語音識(shí)別效果更能得到較好的表現(xiàn)。
用于增強(qiáng)模型驗(yàn)證的離線噪聲數(shù)據(jù)集由三方面組成:
1)實(shí)際空管塔臺(tái)及駕駛艙語音中捕捉。在實(shí)際管制通話過程中,部分塔臺(tái)或駕駛艙由于工作環(huán)境的影響,會(huì)出現(xiàn)不同程度的噪音干擾正常的交流通話。
2)人為制造通信系統(tǒng)中常見的噪聲如高斯白噪聲、均勻白噪聲、隨機(jī)噪聲等。
3)來源于公開的噪聲庫包括來自Google Speech Command的噪聲和來自noiseX-92的噪聲。Google Speech Command中包含6種噪聲,如“白噪聲”、“運(yùn)動(dòng)自行車”等。noiseX-92來自信號(hào)處理信息庫(SPIB),包含15種噪聲,例如“粉紅噪聲”,“工廠地板噪聲1”,“軍用車輛噪聲”等。
噪音將基于指定的音頻文件,響度將均衡。將噪聲應(yīng)用于由超參數(shù)α[0.00,0.10]控制的不同尺度的干凈數(shù)據(jù),以模擬ASR實(shí)驗(yàn)中信噪比水平[5 dB,25 dB]的范圍。
此外,混響實(shí)驗(yàn)參數(shù)如下:在產(chǎn)生混響時(shí),我們參考了圖像源 (ISM,image source method)方法。在基礎(chǔ)的設(shè)計(jì)中,在適當(dāng)?shù)姆忾]空間(例如[6,6,3])被作為基本實(shí)驗(yàn)環(huán)境,默認(rèn)為長(zhǎng)方體。聲源和麥克風(fēng)的坐標(biāo)隨機(jī)出現(xiàn)在虛擬房屋的中間區(qū)域,例如聲源(例如[4,4,1.5])、麥克風(fēng)組(例如[2,2,1]、[2,2.1,1])。聲源與麥克風(fēng)在水平方向上的坐標(biāo)距離大多為2米左右。在生成過程中,原始音頻以16 000 Hz采樣,最大反射次數(shù)為最大值的1/3,墻壁材質(zhì)使用默認(rèn)材質(zhì)“hard_surface”。此時(shí),混響效果明顯,音頻的主觀聲音感知有所變化。room impulse response (RIR)[23]通過pyroomacoustics[24]實(shí)現(xiàn)。
本文實(shí)驗(yàn)評(píng)價(jià)指標(biāo)選用語音識(shí)別中常用的字錯(cuò)率(WER,word error rate),即需要替換S、刪除D或插入I的字符數(shù)除以標(biāo)簽集對(duì)應(yīng)的詞序列的總個(gè)數(shù)。
(12)
為驗(yàn)證語音數(shù)據(jù)增強(qiáng)的可行性與有效性,將原始數(shù)據(jù)集與數(shù)據(jù)增強(qiáng)處理后的數(shù)據(jù)集進(jìn)行對(duì)比分析。結(jié)果如表1所示。
表1 數(shù)據(jù)增強(qiáng)下的識(shí)別結(jié)果
從表1可以看出,數(shù)據(jù)增強(qiáng)帶來了正確率的提升,但部分尺度變換類的處理方法如時(shí)域的調(diào)整和時(shí)域的遮掩并沒有增加新的特征,因此帶來的提升并不大,但相對(duì)的,另一部分則相當(dāng)于有監(jiān)督地創(chuàng)造了新特征,擴(kuò)充了樣本容量,因此效果明顯。同時(shí)數(shù)據(jù)增強(qiáng)策略組中的各方法的混合施加,也為識(shí)別結(jié)果帶來了提升。其中時(shí)域增強(qiáng)為音速、音高和時(shí)移增強(qiáng)效果隨機(jī)混合施加于樣本特征后得到的最優(yōu)識(shí)別效果,語譜遮掩為時(shí)域、頻域和時(shí)頻域3種遮掩中的最優(yōu)識(shí)別效果。
結(jié)合DSEGAN思想,通過噪聲增強(qiáng)、時(shí)域增強(qiáng)、頻譜遮掩等增強(qiáng)策略組構(gòu)建級(jí)聯(lián)生成對(duì)抗網(wǎng)絡(luò)利進(jìn)行數(shù)據(jù)生成,放入鑒別網(wǎng)絡(luò)中進(jìn)行識(shí)別來進(jìn)行二元博弈訓(xùn)練,通過Wasserstein距離評(píng)估真實(shí)分布與虛假分布之間的差異。結(jié)果如表2所示。
表2 策略組數(shù)據(jù)增強(qiáng)結(jié)果
如表2結(jié)果所示,通過Ca-GAN生成數(shù)據(jù)后,相較于純凈的基線模型,基于Ca-GAN的增強(qiáng)策略明顯降低了字錯(cuò)率且效果優(yōu)于單層生成器的DCGAN與基于二維輸入的SEGAN。同時(shí),相較于純粹的模板化的數(shù)據(jù)增強(qiáng)方式,基于GAN的生成方式效果更好。
經(jīng)多次試驗(yàn),調(diào)整出最佳模型參數(shù)得出最優(yōu)識(shí)別結(jié)果為字錯(cuò)率10.61%。輸入三維數(shù)組,其中第二維為mfcc特征維度,取32維,采用ctc-loss作為估計(jì)依據(jù),以Adam優(yōu)化算法創(chuàng)建優(yōu)化器,最后經(jīng)由softmax函數(shù)進(jìn)行歸一和評(píng)分。在調(diào)整好學(xué)習(xí)率、batch_size、初始化函數(shù)、正則化和Dropout等參數(shù)后得到當(dāng)前最優(yōu)模型。試驗(yàn)采用十折交叉驗(yàn)證,即將數(shù)據(jù)分為十份,各份依次充當(dāng)測(cè)試集,其余分為訓(xùn)練、驗(yàn)證集,以增加試驗(yàn)可靠性。并在無數(shù)據(jù)增強(qiáng)情況下進(jìn)行如下對(duì)比試驗(yàn)以驗(yàn)證方法可行性,結(jié)果如表3所示,其中DFCNN*為改進(jìn)后的聲學(xué)模型。
表3 各模型語音識(shí)別結(jié)果
在Transformer模型參數(shù)中,設(shè)置隱藏節(jié)點(diǎn)數(shù)為512,將多頭注意力數(shù)設(shè)置為8,經(jīng)多次嘗試,以默認(rèn)6組編碼解碼器層為優(yōu)。
同時(shí),為了防止過擬合,將dropout層參數(shù)設(shè)置為0.2,并采取標(biāo)簽柔滑化(Label Smothing)通過降低正確分類樣本的置信度,提升模型的自適應(yīng)能力來防止過擬合:
Y=y(1-£)+u·£
(13)
其中:Y為處理后的樣本標(biāo)簽,£為平滑因子,y為原始數(shù)據(jù),u為£的相關(guān)系數(shù)。
Transformer模型損失函數(shù)設(shè)置為:
loss=-[Ylogp+(1-Y)log(1-p)]
(14)
其中:p為預(yù)測(cè)分?jǐn)?shù)。
為對(duì)比觀察Transformer模型的效果,采用相同聲學(xué)模型,分別結(jié)合兩種數(shù)據(jù)集和有無語言模型進(jìn)行對(duì)比。通用數(shù)據(jù)集則采用了Aishell-1、Thchs30這幾個(gè)開源數(shù)據(jù)集進(jìn)行測(cè)試。結(jié)果如表4所示。
表4 語言模型效果
從表4可以看出,無Transformer模型精度要稍遜一籌,主要?dú)w因于Transformer中注意力機(jī)制考慮到了信息的連續(xù)性和空間分布,學(xué)習(xí)到了字符在整句中的相對(duì)位置以及上下文連續(xù)性。由于管制指令的特殊性,在發(fā)音、用詞方面盡量避免混淆,語言模型在管制指令的識(shí)別中效果并不明顯。但可以看出在日常對(duì)話識(shí)別過程中,由于多音字、相似詞匯等的干擾,聲學(xué)模型識(shí)別出的音素或拼音并不能很好地對(duì)應(yīng)上正確漢字,本文采用拼音為建模單元,在日常對(duì)話情況下,語言模型將字錯(cuò)率降低了4.46%。
本文遷移學(xué)習(xí)預(yù)訓(xùn)練采用的數(shù)據(jù)集為Thch30、Aishell-1,實(shí)驗(yàn)中先對(duì)公開數(shù)據(jù)集進(jìn)行訓(xùn)練,在到達(dá)一定效果后,通過凍結(jié)模型前部分層參數(shù),僅訓(xùn)練后一部分全連接層參數(shù),來達(dá)到將通用樣本中聲學(xué)建模單元的遷移,結(jié)果如表5所示。
表5 遷移學(xué)習(xí)效果
表中可以看到,混合數(shù)據(jù)集訓(xùn)練后用于遷移學(xué)習(xí),字錯(cuò)率明顯降低,專用數(shù)據(jù)集中部分字符與通用數(shù)據(jù)集中字符重合,雖然同時(shí)引入了多音字符的干擾,但在語言模型的匹配下,字錯(cuò)率依然能夠減少2.29%。將訓(xùn)練好的最優(yōu)模型與參與遷移學(xué)習(xí)的最優(yōu)模型進(jìn)行對(duì)比,可以看出遷移學(xué)習(xí)后的模型效果更好,相比于原始模型,遷移學(xué)習(xí)能夠?qū)W習(xí)到更多聲學(xué)特征,語音識(shí)別的效果也會(huì)更佳。
本文針對(duì)管制指令語音識(shí)別存在的問題,提出了生成聯(lián)合深度卷積網(wǎng)絡(luò)的結(jié)構(gòu),依據(jù)空中交通管理規(guī)范,建立了機(jī)坪管制指令語音數(shù)據(jù)庫,構(gòu)建了基于改進(jìn)DFCNN和Transformer的語音指令識(shí)別模型。為了解決樣本不足的問題,通過小樣本學(xué)習(xí)中基于數(shù)據(jù)合成的數(shù)據(jù)增強(qiáng)方法依據(jù)來對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,即將音頻語譜圖當(dāng)作標(biāo)準(zhǔn)圖像進(jìn)行尺度變換和時(shí)頻遮掩,能夠防止數(shù)據(jù)被簡(jiǎn)單復(fù)制而影響實(shí)驗(yàn)結(jié)果。本文設(shè)置了數(shù)據(jù)生成策略組并構(gòu)建了級(jí)聯(lián)生成對(duì)抗網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行混合增強(qiáng)以針對(duì)機(jī)坪管制指令的特點(diǎn)進(jìn)行實(shí)驗(yàn)以提升識(shí)別方法魯棒性,其中頻譜遮掩方法效果顯著,將字錯(cuò)率降至6.14%,明顯優(yōu)于原始模型方法。另一方面,通過遷移學(xué)習(xí)方法將通用樣本中的聲學(xué)建模特征應(yīng)用到小樣本的學(xué)習(xí)中,對(duì)照組實(shí)驗(yàn)結(jié)果顯示,遷移學(xué)習(xí)方法將字錯(cuò)率減少至8.32%。實(shí)驗(yàn)結(jié)果表明,本文方法效果顯著,機(jī)坪管制指令語音識(shí)別字錯(cuò)率降低至6.14%,證明本文方法的有效性,本文方法將有望應(yīng)用于機(jī)場(chǎng)高級(jí)地面活動(dòng)引導(dǎo)及控制系統(tǒng)中機(jī)坪管制語音指令的檢測(cè)和識(shí)別,實(shí)現(xiàn)機(jī)坪管制決策支持,助力現(xiàn)代機(jī)場(chǎng)高質(zhì)量運(yùn)行。