• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      飛機(jī)牽引車(chē)語(yǔ)音識(shí)別的動(dòng)態(tài)時(shí)間規(guī)整優(yōu)化算法

      2018-08-28 08:52:58解本銘韓明明
      計(jì)算機(jī)應(yīng)用 2018年6期
      關(guān)鍵詞:語(yǔ)音指令牽引車(chē)六邊形

      解本銘,韓明明,張 攀,張 威,3*

      (1.中國(guó)民航大學(xué)航空工程學(xué)院,天津300300; 2.中國(guó)民航大學(xué)電子信息與自動(dòng)化學(xué)院,天津300300;3.中國(guó)民航航空地面特種設(shè)備研究基地,天津300300)

      (*通信作者電子郵箱drwadecheung@gmail.com)

      0 引言

      目前,語(yǔ)音識(shí)別技術(shù)已廣泛應(yīng)用于計(jì)算機(jī)、辦公自動(dòng)化、機(jī)器人、車(chē)輛等在內(nèi)的各個(gè)領(lǐng)域,這使得人機(jī)交互變得更加智能有效。然而,牽引車(chē)作為機(jī)場(chǎng)的特種車(chē)輛,其牽引飛機(jī)的工作并沒(méi)有實(shí)現(xiàn)語(yǔ)音控制,而是由地面機(jī)組人員通過(guò)耳機(jī)接收飛行員傳達(dá)的塔臺(tái)管制員命令,然后和牽引車(chē)駕駛員溝通、協(xié)調(diào)進(jìn)行控制[1]。

      近年來(lái),在民用航空器地面安全事故中,牽引過(guò)程發(fā)生的安全事故所占比例不容小覷,事故造成巨大的經(jīng)濟(jì)損失,其原因主要包括:牽引車(chē)駕駛員違反牽引車(chē)使用規(guī)則、反應(yīng)不及時(shí),以及駕駛員與地面工作人員聯(lián)絡(luò)不暢或者配合失誤[1]。

      為了減小牽引車(chē)駕駛員人為失誤造成的民用航空器地面事故率,同時(shí)參考語(yǔ)音識(shí)別技術(shù)在車(chē)輛自動(dòng)駕駛領(lǐng)域的應(yīng)用研究,本文擬在牽引車(chē)語(yǔ)音控制方面作些探究性工作。

      本文就如何實(shí)現(xiàn)飛機(jī)牽引車(chē)智能語(yǔ)音控制,使?fàn)恳?chē)及時(shí)、精確地識(shí)別飛行員語(yǔ)音指令,安全高效地完成飛機(jī)牽引工作進(jìn)行了研究。牽引車(chē)指令屬于駕駛艙指令,是參照陸空通話(huà)標(biāo)準(zhǔn)擴(kuò)充的機(jī)載短語(yǔ)語(yǔ)音指令[2],具有語(yǔ)速平穩(wěn)、發(fā)音力度強(qiáng)化變更的特點(diǎn),并且駕駛艙對(duì)機(jī)場(chǎng)噪聲分離性較好,因此指令識(shí)別相對(duì)簡(jiǎn)單并且具有一定的抗噪性。盡管對(duì)于短語(yǔ)語(yǔ)音識(shí)別,目前已有許多高效算法,如隱馬爾可夫模型(Hidden Markov Model,HMM)、矢量量化(Vector Quantization,VQ)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)技術(shù)等,但是以上算法需要對(duì)大量發(fā)音樣本進(jìn)行訓(xùn)練,相對(duì)復(fù)雜,計(jì)算量大,更適合用于大詞匯量連續(xù)語(yǔ)音識(shí)別[3]。相反,動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)技術(shù)可以在樣本數(shù)據(jù)較少的情況下進(jìn)行學(xué)習(xí)訓(xùn)練,并能夠獲得較好的訓(xùn)練模型,更適合訓(xùn)練樣本缺乏情況下的簡(jiǎn)單、孤立、短語(yǔ)語(yǔ)音識(shí)別[4]。因此,本研究選用DTW算法對(duì)牽引車(chē)指令語(yǔ)音進(jìn)行識(shí)別。但是,由于DTW算法是通過(guò)在整個(gè)矩形彎曲窗口內(nèi)展開(kāi)若干條路徑搜索,尋找最佳匹配路徑來(lái)識(shí)別語(yǔ)音的,時(shí)間復(fù)雜度和空間復(fù)雜度都相對(duì)較高,所以算法識(shí)別效率較低[5]。

      針對(duì)上述DTW算法識(shí)別效率低的問(wèn)題,目前主要有兩種改進(jìn)方法。第一種是提前終止技術(shù)[6]:該方法在累積彎曲代價(jià)超過(guò)一定門(mén)限時(shí)停止搜索,認(rèn)為兩個(gè)語(yǔ)音序列不匹配,該方法能有效降低算法的計(jì)算復(fù)雜度。第二種是彈性粗粒度動(dòng)態(tài)彎曲時(shí)序相似性算法[7]:其思想是通過(guò)數(shù)據(jù)處理,降低時(shí)序數(shù)據(jù)的維度,用低維特征代替原時(shí)間序列,從而大幅提高DTW計(jì)算效率。上述兩種改進(jìn)方法的缺點(diǎn)都是以損失算法的識(shí)別精度為代價(jià)來(lái)提高算法運(yùn)行效率[6-7]。

      由于機(jī)場(chǎng)對(duì)安全性的的高標(biāo)準(zhǔn)要求,上述現(xiàn)有DTW改進(jìn)方法很難滿(mǎn)足本研究對(duì)算法的高識(shí)別性能要求。為了提高算法識(shí)別性能,本文結(jié)合對(duì)DTW算法原理、牽引車(chē)指令聲學(xué)特性和機(jī)場(chǎng)環(huán)境的分析,在Itakura Parallelogram菱形彎曲窗口DTW算法[8]的基礎(chǔ)上,進(jìn)一步提出了六邊形彎曲窗口DTW全局優(yōu)化算法,然后通過(guò)孤立詞算法識(shí)別性能對(duì)比試驗(yàn),找到所提六邊形彎曲窗口DTW算法的最優(yōu)方案,并驗(yàn)證了該最優(yōu)算法良好的時(shí)效性和魯棒性。

      1 系統(tǒng)總體設(shè)計(jì)及實(shí)現(xiàn)過(guò)程

      本文所涉及的飛機(jī)牽引車(chē)智能語(yǔ)音識(shí)別系統(tǒng)是通過(guò)飛行員語(yǔ)音直接控制牽引車(chē)的一種智能系統(tǒng)[9],如圖1所示。該系統(tǒng)的工作過(guò)程為:飛行員的語(yǔ)音信號(hào)通過(guò)飛機(jī)耳機(jī)接口傳輸給牽引車(chē)上的語(yǔ)音接收設(shè)備,經(jīng)過(guò)語(yǔ)音處理后直接控制牽引車(chē)的運(yùn)動(dòng),同時(shí)通過(guò)外放設(shè)備可以實(shí)現(xiàn)與地面機(jī)組人員的通信。

      語(yǔ)音識(shí)別就本質(zhì)而言是一種模式匹配[10],它是飛機(jī)牽引車(chē)智能語(yǔ)音識(shí)別系統(tǒng)中重要的環(huán)節(jié)之一。該語(yǔ)音識(shí)別流程如圖2所示。其中,端點(diǎn)檢測(cè)選用的是雙門(mén)限檢測(cè)法[11],特征提取則選用的是基于人耳聽(tīng)覺(jué)機(jī)理的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficients,MFCC)。飛行員發(fā)出的語(yǔ)音指令經(jīng)該流程識(shí)別后輸出給牽引車(chē),從而實(shí)現(xiàn)飛行員對(duì)牽引車(chē)的語(yǔ)音控制。

      圖1 飛機(jī)牽引車(chē)智能語(yǔ)音識(shí)別系統(tǒng)示意圖Fig.1 Schematic diagram of intelligent speech recognition system of aircraft towing vehicle

      圖2 語(yǔ)音識(shí)別流程Fig.2 Flow chart of speech recognition

      2 DTW識(shí)別算法及其優(yōu)化

      2.1 傳統(tǒng)DTW算法的基本算法原理

      DTW算法是基于動(dòng)態(tài)規(guī)劃思想,把距離測(cè)度計(jì)算和時(shí)間規(guī)整結(jié)合起來(lái)的一種非線(xiàn)性歸整技術(shù)[5]。

      在語(yǔ)音識(shí)別過(guò)程中,語(yǔ)音經(jīng)過(guò)訓(xùn)練生成參考模板,待測(cè)語(yǔ)音則經(jīng)過(guò)相同的窗函數(shù)、相同的幀長(zhǎng)和相同的幀移得到相同類(lèi)型的語(yǔ)音特征參數(shù),生成測(cè)試模板。測(cè)試模板與參考模板的匹配,就是尋求兩者之間的聲學(xué)相似度,相似度又可以通過(guò)兩者之間的失真度來(lái)描述,失真度越小,相似度越高[12-14]。

      DTW算法通過(guò)尋找一個(gè)最優(yōu)時(shí)間規(guī)整函數(shù)M= (N),將語(yǔ)音測(cè)試模板的時(shí)間軸非線(xiàn)性映射到參考模板的時(shí)間軸上[5]。假設(shè)參考模板共 M幀語(yǔ)音特征矢量,記作{R(1),R(2),…,R(m),…,R(M)},其中 m 記作語(yǔ)音幀的時(shí)序標(biāo)號(hào),則R(m)表示參考模板的第m幀語(yǔ)音特征矢量;相應(yīng)的假設(shè)測(cè)試模板有N幀特征矢量,記作{T(1),T(2),…,T(n),…,T(N)},其中n記作語(yǔ)音幀的時(shí)序標(biāo)號(hào),則T(n)表示測(cè)試模板的第n幀的特征矢量。

      參考模板與測(cè)試模板匹配時(shí),每幀特征矢量之間都有相應(yīng)的失真度,假設(shè)m、n分別記作參考模板和測(cè)試模板的任意幀號(hào),則兩幀之間的失真度可表示為d{T(n),R[ (n)]},用D表示處于最優(yōu)時(shí)間歸整情況下測(cè)試模板和參考模板每一幀特征矢量匹配累積距離最小的距離矩陣,應(yīng)滿(mǎn)足式(1)[12]:

      此時(shí)測(cè)試模板與參考模板匹配度最高,語(yǔ)音失真度最小,該參考模板語(yǔ)音即為DTW最終識(shí)別結(jié)果[14]。

      2.2 DTW算法優(yōu)化

      2.2.1 傳統(tǒng)DTW算法存在的問(wèn)題

      DTW算法搜索路徑[15]如圖3所示,橫軸為測(cè)試模板時(shí)間軸的各個(gè)幀號(hào)n=0~N,縱軸為參考模板時(shí)間軸的各個(gè)幀號(hào)m=0~M,連接橫、縱各個(gè)坐標(biāo)軸就可以形成一個(gè)矩形網(wǎng)絡(luò)(即矩形彎曲窗口)。對(duì)于兩個(gè)等長(zhǎng)的語(yǔ)音時(shí)間序列,即M=N,最佳搜索路徑應(yīng)該是彎曲窗口的對(duì)角線(xiàn)(如圖4中細(xì)線(xiàn)條所示),此時(shí)兩個(gè)時(shí)間序列是一一對(duì)應(yīng)的,偏差為0,而實(shí)際搜索路徑(如圖4中粗線(xiàn)所示)和對(duì)角線(xiàn)有一定的偏離,對(duì)于不等長(zhǎng)的時(shí)間序列,即M≠N,亦是如此,但是偏離不會(huì)太大;否則,當(dāng)彎曲路徑偏離對(duì)角線(xiàn)很遠(yuǎn)時(shí),即使兩個(gè)偏差很大的并不屬于同一類(lèi)的序列,也可能在整個(gè)傳統(tǒng)矩形彎曲窗口內(nèi)經(jīng)DTW計(jì)算,得到很小的累積距離值,這將造成病態(tài)匹配[8],從而產(chǎn)生誤識(shí)別,降低算法的識(shí)別精度。

      傳統(tǒng)DTW算法是從(0,0)出發(fā),到(N,M)結(jié)束,在整個(gè)矩形彎曲窗口內(nèi)展開(kāi)若干條路徑搜索,計(jì)算每條路徑從(0,0)到(N,M)時(shí)對(duì)應(yīng)幀匹配的積累距離,累積距離最小者即為最佳匹配路徑。該算法計(jì)算量大,時(shí)間復(fù)雜度較高,為O(MN)[16],算法識(shí)別效率低。

      圖3 DTW算法搜索路徑Fig.3 Searching path of DTW algorithm

      2.2.2 牽引車(chē)指令的語(yǔ)音特性分析

      本研究飛行員對(duì)牽引車(chē)的語(yǔ)音指令屬于駕駛艙指令,是參照陸空通話(huà)標(biāo)準(zhǔn)擴(kuò)充的機(jī)載語(yǔ)音指令[2],其基本要求包括用詞簡(jiǎn)潔、準(zhǔn)確、專(zhuān)業(yè)以及發(fā)音力度強(qiáng)化變更等,以此保證通話(huà)的時(shí)效性和準(zhǔn)確度,從而提高工作效率,保證航行安全。其語(yǔ)音特性的具體要求將嚴(yán)格遵循民航陸空通話(huà)標(biāo)準(zhǔn)[17]:

      1)機(jī)載指令語(yǔ)氣易采用祈使句,通過(guò)省略主語(yǔ)使指令更加簡(jiǎn)練。

      2)指令應(yīng)語(yǔ)義干脆、明確,指令詞匯應(yīng)避免使用單獨(dú)的漢字即英文字母,盡量采用平均長(zhǎng)度保持在2~4個(gè)字符的簡(jiǎn)單孤立詞匯。

      3)指令語(yǔ)速平穩(wěn),應(yīng)保持平均每秒2個(gè)字,以保證語(yǔ)音信息量和指令效率之間的平衡,從而保證指令的識(shí)別效率和識(shí)別準(zhǔn)確率,使機(jī)載語(yǔ)音指令的控制效能得以較好發(fā)揮。

      4)指令發(fā)音力度應(yīng)作強(qiáng)化變更,這在提高語(yǔ)音抗噪性的同時(shí),保證了不同指令間較強(qiáng)的差異化程度。使得語(yǔ)音識(shí)別時(shí)指令間不易發(fā)生誤識(shí)別,從而保證識(shí)別的準(zhǔn)確率[8]。

      2.2.3 六邊形彎曲窗口約束的DTW算法

      由牽引車(chē)指令語(yǔ)速平穩(wěn)特性可知,同一條指令的參考模板語(yǔ)音和測(cè)試模板語(yǔ)音發(fā)音時(shí)間軸長(zhǎng)度相差不大,即兩者時(shí)間軸分幀數(shù)M、N相差不大,根據(jù)DTW算法識(shí)別原理[15],本研究語(yǔ)音指令的算法匹配路徑沿算法彎曲窗口對(duì)角線(xiàn)偏差不大,所以適當(dāng)減小算法彎曲窗口偏離對(duì)角線(xiàn)的區(qū)域,理論上將在保證識(shí)別準(zhǔn)確率的同時(shí)減少算法計(jì)算量從而提高算法識(shí)別效率。

      另外,用詞簡(jiǎn)單、語(yǔ)義明確以及發(fā)音力度強(qiáng)化變更等語(yǔ)音特性,使得牽引車(chē)指令抗噪性強(qiáng),同時(shí)不同指令間的差異化程度加強(qiáng),根據(jù)DTW算法識(shí)別原理[15],合理減小算法彎曲窗口偏離對(duì)角線(xiàn)的區(qū)域,理論上將有效避免指令間病態(tài)匹配現(xiàn)象,從而提高算法識(shí)別正確率。

      針對(duì)傳統(tǒng)DTW算法存在的問(wèn)題,并結(jié)合以上對(duì)牽引車(chē)語(yǔ)音指令聲學(xué)特性與DTW算法彎曲窗口關(guān)系的分析,為了防止病態(tài)匹配、提高識(shí)別精度,同時(shí)為了減小時(shí)間復(fù)雜度、提高識(shí)別效率,本文對(duì)DTW算法的彎曲窗口進(jìn)行了優(yōu)化,即全局優(yōu)化[16]:DTW路徑的局部最優(yōu)性搜索只在限制的彎曲窗口中進(jìn)行。

      目前,較為常用的全局優(yōu)化方法是Itakura Parallelogram約束[16,18],該方法是將DTW算法的矩形彎曲窗口優(yōu)化為圖4所示的菱形彎曲窗口。

      圖4 Itakura Parallelogram約束Fig.4 Constraint of Itakura Parallelogram

      其中,菱形彎曲窗口斜率為1/2~2,且兩頂點(diǎn)分別為(0,0)、(N,M),由此可求得菱形彎曲窗口四條邊的表達(dá)式分別為:y= (1/2)x,y=2x,y= (1/2)(x - N) +M,y=2(x-N)+M。由y=2x與y=(1/2)(x-N)+M相交,y=(1/2)x與y=2(x-N)+M相交,分別求得菱形窗口另外兩個(gè)頂點(diǎn)Xa=(2M -N)/3,Xb=(2/3)(2N -M)。

      在尋找DTW路徑時(shí),由于菱形彎曲窗口斜率的限制,語(yǔ)音識(shí)別只需要計(jì)算和存儲(chǔ)菱形彎曲窗口內(nèi)格點(diǎn)對(duì)應(yīng)幀的匹配距離和累積距離[18],相對(duì)于傳統(tǒng)矩形彎曲窗口DTW,減少了算法的計(jì)算量。盡管如此,就本研究而言,由上文對(duì)牽引車(chē)語(yǔ)音指令聲學(xué)特性與DTW算法彎曲窗口關(guān)系的分析可知,偏離菱形彎曲窗口對(duì)角線(xiàn)的兩個(gè)頂角(∠Xa和∠Xb)范圍內(nèi)的幀匹配距離和累積距離,同菱形彎曲窗口范圍外幀的匹配距離和累積距離,可能也沒(méi)有必要計(jì)算和存儲(chǔ)[18]?;诖?,本文在菱形彎曲窗口約束的DTW算法的基礎(chǔ)上,進(jìn)一步提出六邊形彎曲窗口約束的DTW算法。

      通過(guò)兩條與菱形彎曲窗口對(duì)角線(xiàn)等斜率的直線(xiàn)y=(M/N)x+kb和y=(M/N)x-kb,分別去掉菱形彎曲窗口偏離對(duì)角線(xiàn)的兩個(gè)頂角∠Xa和∠Xb,將其進(jìn)一步優(yōu)化為六邊形彎曲窗口,如圖5陰影部分所示。這時(shí),待測(cè)模板的每一幀只需和參考模板在六邊形彎曲窗口內(nèi)的有限幀匹配,時(shí)間復(fù)雜度降低,同時(shí)有效避免病態(tài)匹配現(xiàn)象,提高算法識(shí)別精度[8]。

      圖5 六邊形彎曲窗口Fig.5 Hexagonal warping window

      設(shè) k為優(yōu)化系數(shù),b=-(2M2)/(3N)+(5/3)M -(2/3)N為定值,取k=1時(shí),y=(M/N)x-kb過(guò)菱形窗口頂點(diǎn)Xa,在縱坐標(biāo)軸上的截距。因?yàn)楸疚膬?yōu)化后的DTW彎曲窗口為六邊形,所以 k∈(0,1)。X1=k(2M - N)/3,X2=k(2M-4N)/3+N,X3=2k(2N -M)/3,X4=k(N -2M)/3+N分別是y=(M/N)x+kb和y=(M/N)x-kb兩條直線(xiàn)與菱形窗口的交點(diǎn)。

      2.2.4 六邊形彎曲窗口

      隨參考模板與測(cè)試模板時(shí)間序列長(zhǎng)度M、N的不同、優(yōu)化系數(shù)k的取值的不同,優(yōu)化后的DTW六邊形彎曲窗口大小不同,共有以下7種情況,如圖6所示。

      圖6 優(yōu)化后的DTW六邊形彎曲窗口Fig.6 Optimized DTW hexagonal warping window

      因?yàn)橐陨?種六邊形彎曲窗口的上下限各不相同,所以待測(cè)模板每一幀與參考模板每一幀匹配時(shí),DTW算法的搜索范圍和匹配路徑各不相同。把每種情況下的六邊形彎曲窗口按照各自上下限對(duì)應(yīng)分成不同的小區(qū)域,這樣,DTW匹配路徑就能分段進(jìn)行,具體情況分析如下:

      1)當(dāng)Xa=Xb時(shí),計(jì)算可得X1=X3,X2=X4,匹配分為三段進(jìn)行:

      2)當(dāng)Xa<Xb時(shí),計(jì)算可得X1<X3,X2<X4,當(dāng)X3<X2時(shí),匹配分為五段進(jìn)行:

      同理,其他情況分析同上。

      以上分段分析計(jì)算的方式讓7種不同六邊形彎曲窗口應(yīng)用于電腦程序成為可能,并為后續(xù)Matlab仿真實(shí)驗(yàn)中用六邊形彎曲窗口DTW算法寫(xiě)語(yǔ)音識(shí)別程序建立了基礎(chǔ),方便了后續(xù)對(duì)不同算法識(shí)別性能的研究。

      3 實(shí)驗(yàn)結(jié)果與分析

      本文共設(shè)計(jì)三組實(shí)驗(yàn):實(shí)驗(yàn)一通過(guò)改變優(yōu)化系數(shù),改變六邊形彎曲窗口約束的DTW算法,并將其與傳統(tǒng)DTW算法、菱形彎曲窗口約束的DTW算法進(jìn)行識(shí)別精度對(duì)比,找到識(shí)別精度最高的算法優(yōu)化系數(shù)范圍;然后,在該優(yōu)化系數(shù)范圍內(nèi),對(duì)比三種算法的識(shí)別效率,找到識(shí)別效率最高的優(yōu)化算法,該優(yōu)化算法即為最優(yōu)六邊形彎曲窗口約束的DTW算法。實(shí)驗(yàn)二將實(shí)驗(yàn)一得到的最優(yōu)算法,與其他兩種算法進(jìn)行識(shí)別精度、效率對(duì)比,進(jìn)一步驗(yàn)證其優(yōu)化性能。實(shí)驗(yàn)三則是在改變測(cè)試集樣本大小的情況下,進(jìn)一步將最優(yōu)算法與其他兩種算法的識(shí)別精度、效率進(jìn)行對(duì)比,驗(yàn)證其魯棒性和時(shí)效性。

      3.1 語(yǔ)音庫(kù)和測(cè)試集

      根據(jù)本文2.2.2節(jié)對(duì)牽引車(chē)語(yǔ)音指令的語(yǔ)音特性分析,定義了滿(mǎn)足工況要求的牽引車(chē)語(yǔ)音基本指令集。

      本實(shí)驗(yàn)語(yǔ)音信號(hào)處理方面主要考慮噪聲影響。機(jī)場(chǎng)噪聲主要來(lái)源于飛機(jī)發(fā)動(dòng)機(jī),由于該機(jī)載語(yǔ)音指令控制的使用環(huán)境是飛機(jī)駕駛艙,駕駛艙對(duì)機(jī)場(chǎng)環(huán)境噪聲可分離性好[14],所以其噪聲主要來(lái)源于本機(jī)發(fā)動(dòng)機(jī),其他飛機(jī)發(fā)動(dòng)機(jī)噪聲對(duì)其影響不大。然而,又因?yàn)樵跔恳?chē)推拖飛機(jī)過(guò)程中,飛機(jī)發(fā)動(dòng)機(jī)并不工作,所以,本研究中本機(jī)發(fā)動(dòng)機(jī)也不會(huì)對(duì)駕駛艙機(jī)載語(yǔ)音識(shí)別產(chǎn)生噪聲影響。另外,由于本研究中飛行員對(duì)牽引車(chē)的語(yǔ)音指令是通過(guò)插在飛機(jī)腹部的耳機(jī)傳輸線(xiàn)傳到牽引車(chē)的(如圖1),屬于內(nèi)話(huà)系統(tǒng)傳輸[14],所以,盡管機(jī)場(chǎng)環(huán)境嘈雜,在信號(hào)傳輸過(guò)程中,機(jī)場(chǎng)噪聲對(duì)語(yǔ)音識(shí)別的影響并不大。

      以上分析可知,本研究牽引車(chē)指令信號(hào)受環(huán)境噪聲影響較小,并且具有良好抗噪性,鑒于此,以下仿真實(shí)驗(yàn)在實(shí)驗(yàn)室低噪聲環(huán)境下進(jìn)行。

      利用Matlab開(kāi)發(fā)一個(gè)基于本研究?jī)?nèi)容的語(yǔ)音信號(hào)數(shù)據(jù)檢測(cè)系統(tǒng),系統(tǒng)在內(nèi)存為4 GB和CPU為3 GHz的PC上運(yùn)行。利用PC的Windows錄音設(shè)備,其中,采樣率為16 kHz,采樣位數(shù)為16 bit,錄制了10個(gè)人(5男5女)的語(yǔ)音,內(nèi)容包括所建牽引車(chē)語(yǔ)音基本指令集中“前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)、停止”這五條最常用指令,并且嚴(yán)格按照牽引車(chē)指令詞匯庫(kù)設(shè)計(jì)原則,要求所有人語(yǔ)速平穩(wěn),保持每秒2字,即每條語(yǔ)音指令用時(shí)1 s,并且發(fā)音力度相對(duì)于日常要作強(qiáng)化變更。每人每條語(yǔ)音均被采集30次,即每條指令均被采集300次。以12維梅爾頻率倒譜系數(shù)MFCC及1維標(biāo)準(zhǔn)化能量,以及它們的一階及二階差分,為語(yǔ)音特征參數(shù)[19],分別對(duì)每條語(yǔ)音的200次采樣進(jìn)行特征提取,建立該語(yǔ)音的參考模板。五條語(yǔ)音共1500條參考模板,組成本研究的孤立詞指令語(yǔ)音庫(kù)。

      測(cè)試模板仍然由上述10個(gè)人錄制,每人分別采集各條孤立詞指令語(yǔ)音20次,即每條語(yǔ)音各采集200次,參照參考模板的建立,同樣要求所有人語(yǔ)速平穩(wěn),保持每秒2字,同時(shí)發(fā)音作同等力度的強(qiáng)化變更。然后,分別提取與參考模板相同的特征參數(shù)建立測(cè)試模板,五條語(yǔ)音指令共1 000條測(cè)試模板,組成本研究的測(cè)試集。

      3.2 最優(yōu)六邊形彎曲窗口約束的DTW算法

      將測(cè)試集里的每條測(cè)試模板與所建語(yǔ)音庫(kù)里的參考模板進(jìn)行匹配,分別統(tǒng)計(jì)傳統(tǒng)DTW算法和菱形彎曲窗口約束的DTW算法的語(yǔ)音識(shí)別結(jié)果。不斷改變六邊形彎曲窗口約束的DTW算法的優(yōu)化系數(shù)k,進(jìn)行同樣的實(shí)驗(yàn),其中,k從0到1每間隔0.05取值一次。由仿真實(shí)驗(yàn)結(jié)果可知,對(duì)于同一種DTW算法,各條語(yǔ)音指令的識(shí)別精度相差不大,所以,本文將同一種DTW算法計(jì)算下的各條語(yǔ)音指令的識(shí)別錯(cuò)誤率進(jìn)行了均值處理,最后將三種不同DTW算法均值處理后的識(shí)別錯(cuò)誤率進(jìn)行對(duì)比分析,如圖7所示。

      圖7 不同優(yōu)化系數(shù)時(shí)不同算法的識(shí)別錯(cuò)誤率對(duì)比Fig.7 Comparison of recognition error rates of different algorithms under different values of optimization coefficient

      由圖7分析可知:k∈(k1,k2)時(shí),六邊形彎曲窗口約束的DTW算法,相對(duì)于傳統(tǒng)DTW算法,識(shí)別精度較低;k∈(k1,k2)時(shí),六邊形彎曲窗口約束的DTW算法雖然相對(duì)于傳統(tǒng)DTW算法識(shí)別精度有所提高,但是,相對(duì)于菱形彎曲窗口約束的DTW算法識(shí)別精度并無(wú)提高;k∈(k2,1)時(shí),六邊形彎曲窗口約束的DTW算法相對(duì)于傳統(tǒng)DTW算法和菱形彎曲窗口約束的DTW算法,識(shí)別精度均提高;k∈(k3,k4)時(shí),六邊形彎曲窗口約束的DTW算法識(shí)別精度最高(其中k1≈0.25,k2≈0.3,k3≈0.65,k4≈ 0.81)。

      本研究重在提高算法識(shí)別精度,所以根據(jù)圖7算法精度對(duì)比實(shí)驗(yàn)結(jié)論,不同DTW算法識(shí)別效率的對(duì)比實(shí)驗(yàn)是在k∈(k3,k4)保證優(yōu)化算法識(shí)別精度最高的前提下進(jìn)一步進(jìn)行的,并用Matlab中的tic和toc函數(shù),分別對(duì)三種DTW算法的識(shí)別時(shí)間進(jìn)行了統(tǒng)計(jì),同樣對(duì)其結(jié)果進(jìn)行均值處理,如圖8所示。

      由圖8分析可知,在優(yōu)化算法識(shí)別精度最高的k∈(k3,k4)取值范圍內(nèi),六邊形彎曲窗口約束的DTW算法,相對(duì)于其他兩種算法,其識(shí)別效率均有提高;并且,k值越小,算法識(shí)別效率越高,k=0.65時(shí),算法識(shí)別效率最高,此時(shí)六邊形彎曲窗口約束的DTW算法即為本研究的最優(yōu)算法。

      3.3 最優(yōu)算法與其他算法的識(shí)別錯(cuò)誤率、效率對(duì)比

      在實(shí)驗(yàn)一的基礎(chǔ)上,進(jìn)一步將k=0.65時(shí)最優(yōu)六邊形彎曲窗口約束的DTW算法與其他兩種DTW算法對(duì)各條孤立詞指令語(yǔ)音的識(shí)別錯(cuò)誤率、識(shí)別效率進(jìn)行對(duì)比,結(jié)果如表1~表2所示。

      圖8 不同優(yōu)化系數(shù)時(shí)不同算法的識(shí)別時(shí)間對(duì)比Fig.8 Comparison of recognition time of different algorithms under different values of optimization coefficient

      表1 k=0.65時(shí)不同算法識(shí)別錯(cuò)誤率對(duì)比 %Tab.1 Comparison of recognition error rates of different algorithms with k=0.65 %

      表2 k=0.65時(shí)不同算法識(shí)別時(shí)間對(duì)比 s Tab.2 Comparison of recognition time of different algorithms with k=0.65 s

      由表1、表2分析可知,所提最優(yōu)算法相比傳統(tǒng)DTW算法在識(shí)別錯(cuò)誤率減小了77.14%的同時(shí)識(shí)別效率提高了48.92%;相比菱形彎曲窗口約束的DTW算法在算法識(shí)別錯(cuò)誤率減小了69.27%的同時(shí)識(shí)別效率提高了27.90%。

      3.4 不同測(cè)試集下三種算法的識(shí)別性能對(duì)比

      考慮到測(cè)試集大小可能會(huì)影響算法的識(shí)別性能,為了更好地考察不同算法的識(shí)別性能,本實(shí)驗(yàn)在不同測(cè)試集下進(jìn)一步對(duì)比了三種算法在識(shí)別效率和識(shí)別正確率上的結(jié)果。本實(shí)驗(yàn)建立了測(cè)試模板數(shù)量為100條至1000條,以100條為間隔的大小不等的十種測(cè)試集。其中100條測(cè)試模板的測(cè)試集是由上述實(shí)驗(yàn)中的10個(gè)人分別錄制前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)、停止語(yǔ)音指令各2次,200條測(cè)試模板的測(cè)試集則是由上述試驗(yàn)中的10個(gè)人分別錄制各條語(yǔ)音指令4次,以此類(lèi)推建立其他測(cè)試集。

      分別將不同測(cè)試集里的測(cè)試模板與語(yǔ)音庫(kù)里的參考模板進(jìn)行匹配,對(duì)不同算法的識(shí)別性能進(jìn)行對(duì)比,結(jié)果如圖9所示。

      由圖9(a)可以看出,隨著測(cè)試集增大,傳統(tǒng)DTW算法的識(shí)別效率略有降低,而其他兩種算法的識(shí)別效率均有提高,但最優(yōu)六邊形彎曲窗口約束的DTW算法相對(duì)于菱形彎曲窗口約束的DTW算法,識(shí)別效率提高20% ~30%,并且該最優(yōu)算法的識(shí)別效率呈線(xiàn)性增長(zhǎng)。

      與此同時(shí),由圖9(b)可以看出,隨著測(cè)試集的增大,傳統(tǒng)DTW算法的識(shí)別錯(cuò)誤率逐漸增大,對(duì)于大數(shù)據(jù)時(shí)代,這種錯(cuò)誤率的增大是不允許的,相比之下,菱形彎曲窗口約束的DTW算法較穩(wěn)定,其識(shí)別錯(cuò)誤率隨測(cè)試集增大沒(méi)有明顯變化。與以上兩種算法不同,隨測(cè)試集的增大,最優(yōu)六邊形彎曲窗口約束DTW算法的識(shí)別錯(cuò)誤率明顯降低,并且?guī)缀醭删€(xiàn)性降低,這也體現(xiàn)了該最優(yōu)算法對(duì)于大測(cè)試集具有較好的適應(yīng)性。

      圖9 不同測(cè)試集大小時(shí)不同算法的識(shí)別性能對(duì)比Fig.9 Comparison of recognition performance of different algorithms under different sizes of test datasets

      上述不同測(cè)試集下三種算法的性能對(duì)比實(shí)驗(yàn)進(jìn)一步證明,本文所提最優(yōu)六邊形彎曲窗口約束的DTW算法相對(duì)于其他兩種算法,尤其在大數(shù)據(jù)測(cè)試集情況下,其識(shí)別效率和識(shí)別正確率均有較好的表現(xiàn)。

      4 結(jié)語(yǔ)

      DTW是近年來(lái)針對(duì)簡(jiǎn)單、孤立詞匯識(shí)別的重要方法。識(shí)別過(guò)程中,DTW會(huì)在整個(gè)算法彎曲窗口內(nèi)展開(kāi)若干條路徑匹配,計(jì)算量大,然而,其最佳匹配路徑是沿DTW彎曲窗口對(duì)角線(xiàn)進(jìn)行,且偏差不大,否則容易出現(xiàn)病態(tài)匹配,造成誤識(shí)別。由此可見(jiàn),彎曲窗口的大小可能會(huì)影響DTW的識(shí)別性能。

      由于機(jī)場(chǎng)對(duì)安全性的高標(biāo)準(zhǔn)要求,本研究對(duì)牽引車(chē)識(shí)別飛行員指令的準(zhǔn)確性和時(shí)效性都提出了較高的要求。本文通過(guò)研究彎曲窗口對(duì)算法識(shí)別性能的影響,提出六邊形彎曲窗口DTW優(yōu)化算法,并通過(guò)孤立詞算法性能對(duì)比實(shí)驗(yàn),進(jìn)一步找到最優(yōu)六邊形彎曲窗口DTW算法。實(shí)驗(yàn)結(jié)果表明,所提最優(yōu)算法相比傳統(tǒng)DTW算法和菱形彎曲窗口DTW算法,時(shí)間效率和識(shí)別正確率均有提高,更具時(shí)效性和魯棒性。

      由于本文算法只測(cè)試了牽引車(chē)基本指令的中文語(yǔ)音版本,下一步將針對(duì)牽引工況下更多功能及英語(yǔ)語(yǔ)音的應(yīng)用進(jìn)行研究。

      猜你喜歡
      語(yǔ)音指令牽引車(chē)六邊形
      知識(shí)快餐店 到處都是六邊形
      基于機(jī)載語(yǔ)音識(shí)別軟件中的分段識(shí)別設(shè)計(jì)
      基于靈敏度分析提升某重型牽引車(chē)車(chē)架剛度的研究
      用樹(shù)莓派做自己的智能音箱
      簡(jiǎn)易分析判斷語(yǔ)音識(shí)別智能車(chē)的設(shè)計(jì)
      創(chuàng)意六邊形無(wú)限翻
      怎樣剪拼
      怎樣剪拼
      降低鐵水罐牽引車(chē)故障影響時(shí)間的研究與應(yīng)用
      某重型牽引車(chē)傳動(dòng)系匹配分析
      垫江县| 凉城县| 舟山市| 陆河县| 大埔区| 文山县| 洛浦县| 襄垣县| 绥化市| 永修县| 柘城县| 乌鲁木齐县| 锡林浩特市| 金寨县| 崇左市| 健康| 泸水县| 雷州市| 米脂县| 甘谷县| 临洮县| 尼玛县| 兰西县| 津南区| 邯郸市| 凤山县| 加查县| 和林格尔县| 道真| 会泽县| 漳浦县| 白山市| 车致| 扶余县| 临海市| 宾川县| 西藏| 吉木乃县| 玛曲县| 舟曲县| 瑞丽市|