劉文才,姚凱學(xué),楊 乘
(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025;2.貴州師范大學(xué)物理與電子科學(xué)學(xué)院,貴州 貴陽(yáng) 550001;3.貴州省教育廳汽車電子技術(shù)特色重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550001)
隨著建筑施工行業(yè)對(duì)信息化建設(shè)探索的不斷深入,信息化也越來(lái)越趨向于具體工程項(xiàng)目的落地應(yīng)用,越來(lái)越多的信息化技術(shù)被應(yīng)用于工程項(xiàng)目管理中。在工程項(xiàng)目管理中,項(xiàng)目成本控制是項(xiàng)目施工管理的核心內(nèi)容,施工階段是工程項(xiàng)目成本發(fā)生的最主要階段,對(duì)企業(yè)利潤(rùn)率有著最直接最關(guān)鍵的影響[1]。施工階段的成本主要包含人工費(fèi)、材料費(fèi)、工程機(jī)械使用費(fèi)和其它費(fèi)用[2]。其中,工程機(jī)械使用費(fèi)主要是針對(duì)工程車輛產(chǎn)生的,準(zhǔn)確地識(shí)別工程車輛工作狀態(tài),是工程項(xiàng)目管理中工時(shí)計(jì)算的重要依據(jù),有助于工程車輛調(diào)度和工程人員管理,是成本管理的關(guān)鍵,對(duì)工程項(xiàng)目管理具有重要意義。
傳統(tǒng)的工程車輛管理流程主要由人工交接記錄,且采用人工紙質(zhì)申請(qǐng)單,這種方式效率低下且容易出錯(cuò)。隨著信息技術(shù)的發(fā)展,工程車輛管理正朝著智能化、網(wǎng)絡(luò)化的方向發(fā)展。目前主流的工程車輛管理是通過(guò)使用GPS/北斗等定位技術(shù)、GPRS/4G等通信技術(shù),構(gòu)建工程車輛智能管理系統(tǒng)[3],提升工程車輛的利用率。但是,工程車輛在施工作業(yè)中依然存在部分作業(yè)人員在無(wú)人監(jiān)管的情況下,將工程車輛長(zhǎng)期處于怠速工況,并不進(jìn)行施工作業(yè),不但造成柴油浪費(fèi),還會(huì)降低工程車輛的使用效率。目前主流的智能管理系統(tǒng)還不能有效地解決該問(wèn)題。因此,如何有效地識(shí)別工程車輛的工作狀況,成為工程車輛管理的關(guān)鍵技術(shù)。
由于工程車輛在作業(yè)時(shí)會(huì)產(chǎn)生音頻信號(hào),在怠速和作業(yè)等不同工況下產(chǎn)生的音頻信號(hào)有不同的表現(xiàn)。因此,本文提出一種基于音頻信號(hào)的無(wú)接觸式工況識(shí)別方法,通過(guò)采集車輛產(chǎn)生的音頻信號(hào),提取信號(hào)的Mel倒譜系數(shù)作為主要特征,最后使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型識(shí)別工程車輛的狀況。
車輛運(yùn)行時(shí)所產(chǎn)生的音頻信號(hào)滿足噪聲信號(hào)的基本特性,可以理解為車輛的噪聲信號(hào)。車輛噪聲信號(hào)由很多聲源組成,從傳播途徑角度,車內(nèi)噪聲信號(hào)可分為空氣噪聲和結(jié)構(gòu)噪聲2類[4]:
(1)空氣噪聲:由車輛系統(tǒng)和空氣動(dòng)力激勵(lì)產(chǎn)生的噪聲,通過(guò)空氣傳播??諝庠肼暿歉哳l信號(hào),是否關(guān)閉車門、車窗等對(duì)空氣噪聲影響很大??諝庠肼晫?duì)工程車輛音頻信號(hào)的貢獻(xiàn)較小。
(2)結(jié)構(gòu)噪聲:由于車輛結(jié)構(gòu)振動(dòng)而產(chǎn)生的噪聲,在車內(nèi)引起振動(dòng),從而產(chǎn)生結(jié)構(gòu)噪聲輻射。結(jié)構(gòu)噪聲主要為中頻和低頻噪聲,其頻率一般小于1 000 Hz。工程車輛產(chǎn)生的音頻信號(hào)主要是結(jié)構(gòu)噪聲。
受到路面激勵(lì)和空氣阻力等因素影響,行駛中的車輛產(chǎn)生的音頻信號(hào)與非行駛狀態(tài)的車輛產(chǎn)生的音頻信號(hào)有較大區(qū)別。在車輛行駛過(guò)程中,還需要考慮輪胎噪聲和風(fēng)噪[5]。輪胎噪聲受到車速、車重和路面影響,車速越快噪聲越大,車輛越重噪聲越大。通常情況下,當(dāng)車輛行駛在濕路面或車速大于100 km/h時(shí),輪胎噪聲會(huì)成為車輛噪聲的主要來(lái)源。風(fēng)噪是車輛行駛時(shí)引起的氣流振動(dòng),受到車輛的大小、形狀、底盤結(jié)構(gòu)和車速等因素影響,當(dāng)車速達(dá)到100 km/h時(shí),氣流會(huì)隨著車速增加而迅速增大,車輛速度達(dá)120 km/h時(shí),迅速增加的氣流噪聲與輪胎噪聲的聲級(jí)相同[6]。
工程車輛在作業(yè)時(shí),運(yùn)動(dòng)具有加速度小、瞬時(shí)速率低等特點(diǎn),其工作環(huán)境空曠,背景噪聲遠(yuǎn)遠(yuǎn)低于車輛本身的音頻信號(hào),因此背景噪聲可以忽略不計(jì)[7]。工程車輛一般都是獨(dú)立工作,不同車輛之間互相干擾比較小,在工況識(shí)別中也不需要考慮互相干擾的情況。
當(dāng)工程車輛點(diǎn)火啟動(dòng)時(shí),首先進(jìn)入怠速狀態(tài),車輛的音頻信號(hào)主要來(lái)自發(fā)動(dòng)機(jī),怠速工況下發(fā)動(dòng)機(jī)在無(wú)負(fù)荷的情況下運(yùn)轉(zhuǎn),只需克服自身內(nèi)部機(jī)件的摩擦阻力,不對(duì)外輸出功率,怠速狀態(tài)下由發(fā)動(dòng)機(jī)產(chǎn)生的音頻信號(hào)很穩(wěn)定[8]。當(dāng)車輛進(jìn)入工作狀態(tài)后,隨著車輛速度的增加,輪胎噪聲和風(fēng)噪增強(qiáng),但發(fā)動(dòng)機(jī)噪聲依舊是主要噪聲,其強(qiáng)度占駕駛室內(nèi)噪聲強(qiáng)度的80%以上[9]。工程車輛在作業(yè)時(shí),產(chǎn)生的音頻信號(hào)主要為低頻和中頻噪聲,噪聲主要由發(fā)動(dòng)機(jī)產(chǎn)生。
端點(diǎn)檢測(cè)VAD(Voice Activity Detection)是指在一段音頻信號(hào)中,準(zhǔn)確地確定音頻的起始點(diǎn)和終止點(diǎn),用于檢測(cè)音頻信號(hào)的有聲段和無(wú)聲段[10]。端點(diǎn)檢測(cè)技術(shù)可以排除無(wú)聲段的噪聲干擾,有效減少無(wú)用數(shù)據(jù)。端點(diǎn)檢測(cè)技術(shù)相關(guān)算法可以分為:基于閾值的VAD算法、基于分類器的VAD算法和基于模型的VAD算法[11]3類,具體描述如表1所示。
Table 1 Typical endpoint detection algorithms表1 典型的端點(diǎn)檢測(cè)算法
在車輛音頻信號(hào)采集中,端點(diǎn)檢測(cè)需要在資源有限的采集設(shè)備上完成,因此本文采用基于閾值的端點(diǎn)檢測(cè)算法。在基于閾值的VAD算法中,信號(hào)的短時(shí)平均過(guò)零率和信號(hào)的短時(shí)能量具有計(jì)算過(guò)程簡(jiǎn)單和檢測(cè)效果良好等優(yōu)點(diǎn),適用于車輛音頻信號(hào)的端點(diǎn)檢測(cè)。
3.1.1 短時(shí)平均過(guò)零率
信號(hào)的過(guò)零率指信號(hào)采樣序列通過(guò)零值的次數(shù),相鄰取樣值改變符號(hào)即通過(guò)零值1次,信號(hào)x(t)的短時(shí)過(guò)零率定義如式(1)所示:
sgn(x(t1-1))|w(t2-t1)
(1)
其中,Z表示信號(hào)過(guò)零率,w(t)是窗函數(shù),sgn(·)是符號(hào)函數(shù),t1為窗函數(shù)起始采樣點(diǎn),t2為窗函數(shù)結(jié)束采樣點(diǎn)。
工程車輛在工作環(huán)境中容易受到噪聲的嚴(yán)重干擾,按式(1)計(jì)算會(huì)產(chǎn)生虛假過(guò)零率,需要在計(jì)算過(guò)零次數(shù)時(shí)引入門限閾值T來(lái)抑制虛假過(guò)零率。本文將過(guò)零率定義為跨過(guò)正負(fù)門限的次數(shù),如圖1所示。
Figure 1 Threshold short-time zero-crossing rate圖1 門限短時(shí)過(guò)零率
加入門限的短時(shí)過(guò)零率計(jì)算如式(2)所示:
sgn(x(t1-1)-T)|+|sgn(x(t1)+T)-
sgn(x(t1-1)+T)|}w(t2-t1)
(2)
按式(2)計(jì)算的短時(shí)平均過(guò)零率具有一定的抗干擾能力,即使存在噪聲,只要不超過(guò)門限閾值,就不會(huì)產(chǎn)生虛假過(guò)零率。用2種不同方法計(jì)算的過(guò)零率如圖2所示。
Figure 2 Comparison of zero crossing rates with different calculation methods圖2 不同計(jì)算方法得到的過(guò)零率對(duì)比
3.1.2 短時(shí)能量和短時(shí)平均幅值
在信噪比較大的音頻信號(hào)中,有效音頻信號(hào)和噪聲的區(qū)別在能量上有很明顯的體現(xiàn),即有效音頻信號(hào)的能量比噪聲信號(hào)的能量大,信號(hào)x(t)的短時(shí)能量定義如式(3)所示:
(3)
信號(hào)的能量是對(duì)信號(hào)采樣序列進(jìn)行平方運(yùn)算,這不但擴(kuò)大了高低信號(hào)之間的差距,而且還增加了設(shè)備的計(jì)算量。短時(shí)平均幅值能簡(jiǎn)化計(jì)算過(guò)程,可以節(jié)省計(jì)算資源。信號(hào)x(t)的短時(shí)平均幅值定義如式(4)所示:
(4)
短時(shí)平均幅值和短時(shí)能量雖然特性不同,但是都能反映信號(hào)強(qiáng)度。對(duì)于同一段音頻信號(hào),短時(shí)平均幅值與短時(shí)能量對(duì)比如圖3所示。
Figure 3 Comparison between short time energy and short time average amplitude圖3 短時(shí)能量和短時(shí)平均幅值對(duì)比圖
從圖3不難看出,使用短時(shí)平均幅值和短時(shí)能量的判斷效果相近,因此可以用短時(shí)平均幅值替代短時(shí)能量用于端點(diǎn)檢測(cè)。
綜上,本文采用短時(shí)平均幅值和短時(shí)平均過(guò)零率相結(jié)合的方法進(jìn)行端點(diǎn)檢測(cè),這2種方法計(jì)算簡(jiǎn)單,一定程度上反映了信號(hào)的時(shí)域特性和頻域特性,能識(shí)別出音頻信號(hào)的有聲段。采集設(shè)備在存儲(chǔ)和上傳數(shù)據(jù)之前,對(duì)音頻信號(hào)進(jìn)行端點(diǎn)檢測(cè)。在無(wú)聲段降低采樣頻率,停止數(shù)據(jù)存儲(chǔ)和上傳;在有聲段提高采樣頻率,進(jìn)行數(shù)據(jù)的存儲(chǔ)、上傳和車輛工況識(shí)別等工作。這樣的工作模式可以有效降低采集終端的能耗。
Figure 4 Sampling frequency distribution of engineering vehicle under different working conditions圖4 工程車輛在不同工況下的采樣頻率分布
音頻信號(hào)在傳播過(guò)程中的衰減與采樣點(diǎn)的距離相關(guān),信號(hào)幅值隨傳播距離的增加而降低,因此拾音傳感器的安裝位置與采集到的數(shù)據(jù)精確度息息相關(guān)。駕駛室具有噪聲小、距離發(fā)動(dòng)機(jī)近等優(yōu)點(diǎn),因此本文將采集設(shè)備安裝在車輛駕駛室內(nèi)。
此外,信號(hào)的采樣頻率也會(huì)影響到采集信號(hào)的質(zhì)量,采樣頻率過(guò)高,單位時(shí)間內(nèi)的數(shù)據(jù)量會(huì)增加,導(dǎo)致設(shè)備的計(jì)算量增加;采樣頻率過(guò)低又會(huì)丟失大量數(shù)據(jù),導(dǎo)致信號(hào)嚴(yán)重失真。根據(jù)香農(nóng)采樣定理,為了不失真地恢復(fù)信號(hào),采樣頻率應(yīng)該不小于模擬信號(hào)頻譜中最高頻率的2倍[12]。本文對(duì)4種工程車輛在不同環(huán)境下的音頻信號(hào)進(jìn)行快速傅里葉變換,得到各工程車輛在不同工況下的頻譜分布,如圖4所示。圖4中各子圖的橫軸為頻率,縱軸為幅值。從圖4中不難看出,不同工程車輛產(chǎn)生的音頻信號(hào)的頻率分布不同,同一工程車輛在不同工況產(chǎn)生的音頻信號(hào)的頻率分布也有差異。具體表現(xiàn)為怠速工況下頻率成分比較單一,正常作業(yè)工況下頻率成分較復(fù)雜。4種工程車輛在怠速工況和正常作業(yè)工況下的最大頻率都在1 000 Hz以內(nèi),在保證采集的信號(hào)不失真的前提下,為了盡可能降低采集設(shè)備的功耗,本文使用2 048 Hz的采樣頻率對(duì)音頻信號(hào)進(jìn)行采樣。
本文使用的采樣頻率為2 048 Hz,即音頻信號(hào)每秒包含2 048個(gè)數(shù)據(jù)樣本。若將數(shù)據(jù)樣本直接作為模型輸入,會(huì)使得模型的輸入層體量過(guò)大,因此在使用人工智能技術(shù)對(duì)音頻信號(hào)分類識(shí)別前,需要對(duì)音頻信號(hào)進(jìn)行特征表示,用較小尺寸的向量表示原始音頻信號(hào)。音頻特征是指從音頻信號(hào)中提取出的最明顯的特征[13]。
音頻特征提取技術(shù)的發(fā)展歷程中,研究人員研究了很多相關(guān)特征參數(shù),如臨界帶特征矢量、線譜對(duì)、線性預(yù)測(cè)系數(shù)和Mel頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficient)。音頻特征的提取主要從時(shí)間域、頻率域和倒頻譜域等維度進(jìn)行,表2從不同維度列出了幾種常見(jiàn)的音頻特征。
Table 2 Typical audio features表2 常見(jiàn)的音頻特征
在表2的音頻特征中,MFCC是基于人類聽(tīng)覺(jué)系統(tǒng)研究成果推出的音頻特征,與其他音頻特征相比具有更好的魯棒性,更符合人耳的聽(tīng)覺(jué)特性,在信噪比較低的環(huán)境下仍然具有較好的識(shí)別性能;MFCC具有計(jì)算簡(jiǎn)單、區(qū)分能力好等突出優(yōu)點(diǎn),是目前使用最廣泛的語(yǔ)音特征之一。本文使用MFCC作為工程車輛音頻信號(hào)的特征表示。
MFCC提取包括信號(hào)分幀、加窗等預(yù)處理和計(jì)算MFCC求得特征矩陣等過(guò)程,提取示意圖如圖5所示。
Figure 5 Schematic diagram of MFCC extraction圖5 MFCC提取示意圖
預(yù)加重是為了增加音頻的高頻分辨率,一般通過(guò)一階高通數(shù)字濾波器來(lái)實(shí)現(xiàn),其傳遞函數(shù)如式(5)所示:
H(z)=1-az(-1)
(5)
其中,α為預(yù)加重系數(shù),0.9<α<1.0,本文取值0.97。若t時(shí)刻的音頻信號(hào)采樣值為x(t),則經(jīng)過(guò)預(yù)加重之后的結(jié)果y(t)可表示為y(t)=x(t)-ax(t-1)。
音頻信號(hào)具有短時(shí)平穩(wěn)的特性,使用窗函數(shù)截取一小段信號(hào)幀可以有效體現(xiàn)該特性,但在信號(hào)截?cái)嘀?,截?cái)嗵幇l(fā)生的跳變會(huì)導(dǎo)致能量泄露。能量泄露分為主瓣泄露和旁瓣泄露,主瓣泄露可以有效減少柵欄效應(yīng)帶來(lái)的譜峰幅值估計(jì)誤差,但是旁瓣泄露是完全無(wú)益的。為了抑制旁瓣泄漏,可采用不同的信號(hào)截?cái)嗪瘮?shù)對(duì)信號(hào)進(jìn)行截?cái)?,截?cái)嗪瘮?shù)又稱為窗函數(shù),常見(jiàn)的窗函數(shù)有矩形窗、漢寧窗、海明窗(Hamming)和布萊克曼窗等[14]。
工程車輛產(chǎn)生的音頻信號(hào)包含多個(gè)頻率分量,在處理中既要關(guān)心其頻率點(diǎn)分布,又要兼顧各頻率點(diǎn)上的能量大小,因此使用升余弦窗進(jìn)行信號(hào)截?cái)?。Hamming窗是一種改進(jìn)的升余弦窗,其頻率響應(yīng)主瓣窄、旁瓣小且隨頻率快速衰減,主瓣峰值與第1個(gè)旁瓣峰值衰減為40 db,時(shí)域連續(xù)的Hamming窗表達(dá)式如式(6)所示:
(6)
其中,I為窗的寬度。為了使幀與幀之間平滑過(guò)渡,本文采用交疊分段的方法進(jìn)行分幀,前一幀和后一幀的交疊部分稱為幀移,幀移與幀長(zhǎng)的比值一般取為(0,0.5]。雖然幾種工程車輛在不同工況下產(chǎn)生的信號(hào)頻率分布不同,但是最大頻率主要分布于50 Hz~700 Hz,即信號(hào)周期在1.5 ms~20 ms。傅里葉變換需要重復(fù)足夠多的次數(shù)才能更好地分析頻率特性,本文使用的窗口寬度為40 ms,幀移為20 ms。經(jīng)過(guò)加窗分幀處理后的每一個(gè)短時(shí)信號(hào)幀都可以視作平穩(wěn)信號(hào)分析,可以進(jìn)一步提取其MFCC。
人的聽(tīng)覺(jué)系統(tǒng)是非線性系統(tǒng),對(duì)于不同頻率聲音信號(hào)的響應(yīng)靈敏度是不同的。學(xué)術(shù)界常用Mel頻率來(lái)描述人耳感知頻率與線性頻率的近似關(guān)系,Mel頻率fMel與物理頻率f的關(guān)系如圖6所示,代數(shù)關(guān)系如式(7)所示:
fMel=2595×lg(1+f/700)
(7)
Figure 6 Relationship between frequency and Mel frequency圖6 頻率與Mel頻率關(guān)系圖
從圖6可以看出,曲線的斜率隨著頻率的升高而逐漸變小,這說(shuō)明人耳對(duì)低頻音頻信號(hào)的感知更敏感。在Mel頻域內(nèi),人對(duì)音調(diào)的感知度為線性關(guān)系,MFCC的計(jì)算流程如圖7所示。
Figure 7 Flow chart of MFCC extraction圖7 MFCC提取流程
提取MFCC的步驟如下所示:
(1)對(duì)預(yù)處理好的信號(hào)逐幀進(jìn)行離散傅里葉變換,得到線性頻譜Si(k),如式(8)所示:
(8)
其中,N是傅里葉變換的樣本數(shù),si(n)為已經(jīng)預(yù)處理的時(shí)域信號(hào)幀,其離散功率譜pi(k)可以由頻譜取模平方得到,計(jì)算如式(9)所示:
(9)
(2)將能量通過(guò)一組Mel尺度的三角形帶通濾波器組,將線性頻譜轉(zhuǎn)化為Mel頻譜。具體實(shí)現(xiàn)是在音頻頻譜范圍內(nèi)設(shè)置若干帶通濾波器Hm(k),1≤m≤M,M為濾波器的個(gè)數(shù),濾波器的中心頻率為f(m)。三角濾波器如圖8所示,在線性頻率上,隨著m值的增大,f(m)之間的距離也隨之增寬。在Mel頻率范圍內(nèi),這些濾波器是等帶寬的。帶通濾波器如式(10)所示,其傳遞函數(shù)如式(11)所示[15]:
(10)
(11)
其中,fl為濾波器頻率范圍的最低頻率,fh為濾波器頻率范圍的最高頻率,fs為采樣頻率。
Figure 8 Triangular filter for calculating MFCC圖8 計(jì)算MFCC的三角濾波器
(3)為了提高識(shí)別系統(tǒng)的魯棒性,需要計(jì)算每個(gè)濾波器組輸出的取對(duì)數(shù)能量,從線性頻譜X(m)到對(duì)數(shù)頻譜S(m)的傳遞函數(shù)如式(12)所示:
(12)
(4)利用離散余弦變換即可求得倒譜系數(shù),對(duì)數(shù)頻譜S(m)經(jīng)過(guò)一個(gè)傅里葉變換的逆變換運(yùn)算,即可得到MFCC,如式(13)所示:
(13)
MFCC僅描述單幀的功率譜包絡(luò),很好地反映了音頻信號(hào)的靜態(tài)特性,但是音頻信號(hào)隨時(shí)間不斷變化,還具有動(dòng)態(tài)特性。音頻的動(dòng)態(tài)特性用其靜態(tài)特性的差分來(lái)表示。常見(jiàn)的MFCC差分有一階差分ΔMFCC(Deltas MFCC)、二階差分ΔΔMFCC(Delta-Deltas MFCC),本文使用式(14)來(lái)計(jì)算差分系數(shù):
(14)
其中,d(t)是第t個(gè)一階差分倒譜系數(shù);D是時(shí)間差,一般取值為1或2;Ct是第t個(gè)倒譜系數(shù)。在參數(shù)選取時(shí),并不是選取所有維度的MFCC系數(shù),一般采用舍棄前、后若干維MFCC系數(shù)的方法,來(lái)獲取最終的MFCC系數(shù)。
使用上文提到的算法逐幀計(jì)算樣本的音頻特征,分別得到短時(shí)平均幅值、短時(shí)門限過(guò)零率、MFCC、ΔMFCC和ΔΔMFCC。在計(jì)算MFCC時(shí),采用的階數(shù)為13,其倒譜系數(shù)是C0~C12,其中第一維C0值很大,故把C0當(dāng)成能量系數(shù)去掉,取C1~C12共12維作為MFCC系數(shù)。
深度學(xué)習(xí)目前已廣泛應(yīng)用于各種領(lǐng)域,因?yàn)檩斎霐?shù)據(jù)的特征不同,深度學(xué)習(xí)發(fā)展出了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)[16]、卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)[17]和深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)[18]等不同類型的網(wǎng)絡(luò)架構(gòu)。其中,RNN將時(shí)序的概念引入到網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中,使其在時(shí)序數(shù)據(jù)分析中表現(xiàn)出更強(qiáng)的適應(yīng)性。RNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示,RNN假設(shè)t時(shí)刻能接收來(lái)自t-1時(shí)刻的數(shù)據(jù),即當(dāng)前時(shí)刻的狀態(tài)與歷史時(shí)刻相關(guān),它使網(wǎng)絡(luò)能根據(jù)過(guò)去狀態(tài)和當(dāng)前輸入數(shù)據(jù)來(lái)決定當(dāng)前的狀態(tài),網(wǎng)絡(luò)的輸入層和前一時(shí)刻隱藏層的輸出共同組成了當(dāng)前時(shí)刻隱藏層的輸入,這使其能夠記憶長(zhǎng)期的依賴關(guān)系。
Figure 9 Network structure of RNN 圖9 RNN網(wǎng)絡(luò)結(jié)構(gòu)圖
盡管RNN能夠有效地處理時(shí)間序列,但是隨著時(shí)間滯后的增加,RNN就像一個(gè)非常深的前饋神經(jīng)網(wǎng)絡(luò),訓(xùn)練過(guò)程中會(huì)出現(xiàn)梯度消失和梯度爆炸問(wèn)題。為了解決這個(gè)問(wèn)題,Hochreiter等[19]提出了長(zhǎng)短期記憶LSTM(Long Short-Term Memory)神經(jīng)網(wǎng)絡(luò)。LSTM神經(jīng)網(wǎng)絡(luò)是將隱藏層的RNN細(xì)胞替換為L(zhǎng)STM細(xì)胞,使其具有長(zhǎng)期記憶能力。LSTM神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于時(shí)間序列預(yù)測(cè)問(wèn)題中[20]。LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖10a所示,LSTM神經(jīng)網(wǎng)絡(luò)用輸入門、遺忘門和輸出門來(lái)控制網(wǎng)絡(luò)的輸入值、記憶值和輸出值。
Figure 10 Two variants of RNN neural networks圖10 2種RNN神經(jīng)網(wǎng)絡(luò)的變體
Figure 11 Training process圖11 訓(xùn)練過(guò)程
此外,LSTM神經(jīng)網(wǎng)絡(luò)還演化出了很多變體,其中最成功的一種是Cho等[21]在2014年提出的門限循環(huán)單元GRU(Gated Recurrent Unit)。GRU神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖10b所示,GRU神經(jīng)網(wǎng)絡(luò)是LSTM神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)化版本,其主要變動(dòng)是將LSTM細(xì)胞中的輸入門、遺忘門和輸出門替換為更新門和重置門,但是保留了LSTM神經(jīng)網(wǎng)絡(luò)的長(zhǎng)期記憶能力[22]。因?yàn)镚RU神經(jīng)網(wǎng)絡(luò)極大簡(jiǎn)化了計(jì)算過(guò)程,使GRU神經(jīng)網(wǎng)絡(luò)與LSTM神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的可比性[23],所以在實(shí)際應(yīng)用中當(dāng)使用GRU神經(jīng)網(wǎng)絡(luò)也能取得良好的效果時(shí),一般優(yōu)先使用GRU神經(jīng)網(wǎng)絡(luò)。
本文實(shí)驗(yàn)分別采用LSTM神經(jīng)網(wǎng)絡(luò)和GRU神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行建模。數(shù)據(jù)樣本為壓路機(jī)、裝載機(jī)等4種工程車輛在信噪比不同的環(huán)境下采集而來(lái),每種車輛分別處于停止、怠速和正常作業(yè)3種工況。使用前文提取的MFCC、ΔMFCC和ΔΔMFCC等38維音頻特征,每2秒為時(shí)間步長(zhǎng)輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,網(wǎng)絡(luò)的損失函數(shù)采用交叉熵?fù)p失函數(shù),評(píng)價(jià)指標(biāo)為分類準(zhǔn)確率。
訓(xùn)練過(guò)程如圖11所示。圖11a中,橫坐標(biāo)為訓(xùn)練次數(shù),縱坐標(biāo)為損失值;圖11b中,橫坐標(biāo)為訓(xùn)練次數(shù),縱坐標(biāo)為準(zhǔn)確率。從圖11可知,在訓(xùn)練過(guò)程中,2種模型的收斂速度都很快,都能快速達(dá)到所需誤差精度。隨著訓(xùn)練次數(shù)的增加,GRU神經(jīng)網(wǎng)絡(luò)模型的分類準(zhǔn)確率比LSTM神經(jīng)網(wǎng)絡(luò)模型的更穩(wěn)定。
5.2.1 模型對(duì)比實(shí)驗(yàn)
為了對(duì)比2種模型識(shí)別車況的準(zhǔn)確率,將信噪比不同的測(cè)試集分別輸入LSTM神經(jīng)網(wǎng)絡(luò)模型和GRU神經(jīng)網(wǎng)絡(luò)模型進(jìn)行測(cè)試,識(shí)別效果如表3所示。
從表3可以看出,2種模型在測(cè)試集上都具有不錯(cuò)的抗干擾能力,LSTM神經(jīng)網(wǎng)絡(luò)模型雖然以很小的差距略勝一籌,但是與GRU神經(jīng)網(wǎng)絡(luò)模型相比差距很小,因此本文使用更簡(jiǎn)化的GRU神經(jīng)網(wǎng)絡(luò)模型對(duì)車況進(jìn)行識(shí)別。
Table 3 Recognition effect of LSTM model and GRU model表3 LSTM模型與GRU模型識(shí)別效果
5.2.2 特征向量對(duì)比實(shí)驗(yàn)
模型對(duì)比實(shí)驗(yàn)中使用短時(shí)平均幅值、短時(shí)門限過(guò)零率、MFCC、ΔMFCC和ΔΔMFCC等組成的38維向量作為模型輸入特征,這使得模型輸入維度大,模型訓(xùn)練時(shí)間長(zhǎng),設(shè)備功耗大。為了對(duì)比不同特征對(duì)識(shí)別效果的影響,從而舍棄部分冗余的特征,使用不同特征組合訓(xùn)練GRU模型,對(duì)于不同的車型的識(shí)別效果如表4所示。
Table 4 Recognition accuracy using different audio features表4 使用不同音頻特征的識(shí)別準(zhǔn)確率
從表4的對(duì)比結(jié)果看,僅使用MFCC作為特征集訓(xùn)練的GRU模型,對(duì)部分車型的識(shí)別效果僅為90.84%,無(wú)法達(dá)到要求;使用MFCC+ΔMFCC和ΔΔMFCC訓(xùn)練的GRU模型的識(shí)別效果沒(méi)有顯著性差異,在不同車輛的工作狀態(tài)識(shí)別中都得到了很好的準(zhǔn)確率。
本文詳細(xì)介紹了音頻特征及特征提取的方法,提出了一種基于GRU循環(huán)神經(jīng)網(wǎng)絡(luò)的工程車輛工況識(shí)別方法,有效提高了工程車輛的使用效率,節(jié)約了企業(yè)成本。
本文使用的數(shù)據(jù)集都是在不同車型單獨(dú)工作時(shí)采集的,沒(méi)有研究多種工程車輛在小范圍內(nèi)同時(shí)工作的情況,在這種極端情況下,各種車輛之間相互干擾,可能會(huì)導(dǎo)致識(shí)別率下降。在下一步研究中,將會(huì)引入盲源分離等技術(shù),提高多種工程車輛在小范圍內(nèi)同時(shí)工作的識(shí)別準(zhǔn)確度,使研究更有應(yīng)用價(jià)值;同時(shí)也會(huì)引入GPS傳感器和陀螺儀等做為輔助識(shí)別。