姜琦, 馮慶勝
(大連交通大學(xué)自動(dòng)化與電氣工程學(xué)院, 大連 116028)
鐵路信號(hào)系統(tǒng)的構(gòu)成十分復(fù)雜,需要眾多軟件和硬件基礎(chǔ)設(shè)施共同工作來保障列車高效安全的運(yùn)行[1]。一旦系統(tǒng)中的某個(gè)部分發(fā)生故障,就可能導(dǎo)致列車運(yùn)行效率低下或重大事故的發(fā)生[2-3]。其中,轉(zhuǎn)轍機(jī)因其具有移動(dòng)和指示道岔位置,實(shí)現(xiàn)列車安全轉(zhuǎn)向的功能,在鐵路系統(tǒng)中被視為一種重要的信號(hào)基礎(chǔ)設(shè)備。但由于轉(zhuǎn)轍機(jī)長(zhǎng)期處于室外工作,受到自然條件和列車沖擊等外界因素影響較大,也使其成為了一種有較高故障發(fā)生率的鐵路信號(hào)基礎(chǔ)設(shè)備[4-5]。因此,能夠準(zhǔn)確地識(shí)別出轉(zhuǎn)轍機(jī)的運(yùn)行狀態(tài),對(duì)保證列車安全行駛具有重要的意義。
由于在故障發(fā)生時(shí),轉(zhuǎn)轍機(jī)的電流和功率動(dòng)作曲線會(huì)發(fā)生相應(yīng)的變化。因此以往對(duì)轉(zhuǎn)轍機(jī)的故障判別主要是依賴相關(guān)技術(shù)人員對(duì)微機(jī)監(jiān)測(cè)系統(tǒng)采集的電流曲線、功率曲線或二者結(jié)合,來進(jìn)行人工分析。但這樣的判別方式效率很低,且常會(huì)出現(xiàn)誤判的情況。近年來,隨著人工智能的發(fā)展,轉(zhuǎn)轍機(jī)故障診斷方法逐漸結(jié)合了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等相關(guān)技術(shù),從而在診斷效率和準(zhǔn)確性方面都得到了相應(yīng)的提升。Vileiniskis等[6]通過現(xiàn)場(chǎng)采集的轉(zhuǎn)轍機(jī)電流數(shù)據(jù),使用具有編輯距離與真實(shí)懲罰相似度度量的一類支持向量機(jī)分類算法,更快的區(qū)分出轉(zhuǎn)轍機(jī)狀態(tài)是否正常。王林潔[7]對(duì)轉(zhuǎn)轍機(jī)不同狀態(tài)下的功率數(shù)據(jù)進(jìn)行采集,提取功率數(shù)據(jù)的時(shí)域和頻域特征,采用簡(jiǎn)約算法對(duì)特征集降維后輸入貝葉斯網(wǎng)絡(luò)進(jìn)行分類診斷。周鑫[8]對(duì)轉(zhuǎn)轍機(jī)的電流與功率數(shù)據(jù)進(jìn)行采集,應(yīng)用生成對(duì)抗網(wǎng)絡(luò)解決數(shù)據(jù)類型不平衡問題,最后將數(shù)據(jù)輸入具有殘差結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行分類診斷??梢?,在轉(zhuǎn)轍機(jī)故障診斷的研究中,其研究對(duì)象多基于電信號(hào)。但電信號(hào)存在采集較難,且在采集過程可能會(huì)對(duì)轉(zhuǎn)轍機(jī)造成干擾等問題[9]。相比之下,聲音信號(hào)因其在采集方面具有非接觸,無干擾,易獲得的優(yōu)點(diǎn),越來越多的成為具有電機(jī)、軸承等機(jī)械結(jié)構(gòu)設(shè)備故障診斷的研究對(duì)象[10-12]。因此,對(duì)轉(zhuǎn)轍機(jī)運(yùn)動(dòng)過程中產(chǎn)生的聲音信號(hào)進(jìn)行研究,也是轉(zhuǎn)轍機(jī)故障診斷的新方向。
Lee等[13]采集了3種轉(zhuǎn)轍機(jī)異常狀態(tài)聲音信號(hào),對(duì)其提取梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient, MFCC)特征,并結(jié)合支持向量機(jī)技術(shù)實(shí)現(xiàn)了轉(zhuǎn)轍機(jī)故障診斷,證明了基于轉(zhuǎn)轍機(jī)聲音信號(hào)故障診斷的可行性。但MFCC特征是根據(jù)人耳聽覺特性所設(shè)計(jì),對(duì)聲音信號(hào)的高頻分量有抑制作用[14-15],因此不能全面表征轉(zhuǎn)轍機(jī)聲音信號(hào)的聲學(xué)特性。Sun等[9]提取轉(zhuǎn)轍機(jī)聲音信號(hào)的時(shí)域和頻域特征,構(gòu)成13維特征向量,經(jīng)二元粒子群優(yōu)化算法進(jìn)行特征降維,最后通過支持向量機(jī)進(jìn)行分類。但該特征提取方式只考慮了轉(zhuǎn)轍機(jī)聲音信號(hào)整體變化的特性,缺乏了如MFCC算法中對(duì)信號(hào)短時(shí)特性的提取[16]。
為全面表征轉(zhuǎn)轍機(jī)聲音信號(hào)的特點(diǎn),提出使用經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition, EMD)獲取聲音信號(hào)的高頻分量,并計(jì)算高頻分量的時(shí)頻特性,與MFCC及其一階、二階差分共同組成多尺度MFCC的特征提取方法。并利用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)構(gòu)建基于聲信號(hào)的轉(zhuǎn)轍機(jī)狀態(tài)識(shí)別模型。通過在S700K轉(zhuǎn)轍機(jī)上模擬故障狀態(tài),采集真實(shí)的聲音信號(hào),用五折交叉驗(yàn)證法獲取兩種特征的識(shí)別準(zhǔn)確率。此外,為驗(yàn)證多尺度MFCC特征對(duì)含有復(fù)雜環(huán)境噪聲的轉(zhuǎn)轍機(jī)聲音信號(hào)的狀態(tài)識(shí)別效果,將采集的聲音信號(hào)加入不同信噪比的雨聲,構(gòu)建含噪數(shù)據(jù)集進(jìn)行訓(xùn)練與識(shí)別。
將采集的聲音信號(hào)在特征提取之前進(jìn)行幅值標(biāo)準(zhǔn)化、分幀和加窗操作稱為信號(hào)的預(yù)處理,整個(gè)預(yù)處理過程如圖1所示。
圖1 聲音信號(hào)預(yù)處理
為便于后續(xù)的計(jì)算處理,首先將音頻序列的幅值進(jìn)行標(biāo)準(zhǔn)化,其函數(shù)表達(dá)式為
(1)
式(1)中:x(n)為聲音序列;|x(n)|max為聲音序列絕對(duì)值的最大值;x(m)為歸一化后的聲音序列。
經(jīng)過幅值標(biāo)準(zhǔn)化處理之后,接著需要對(duì)序列進(jìn)行分幀和加窗,這也是預(yù)處理中重要的環(huán)節(jié)。雖然轉(zhuǎn)轍機(jī)聲音信號(hào)是非平穩(wěn)信號(hào),但其在小段時(shí)間內(nèi)仍具有短時(shí)平穩(wěn)特性,因此可將聲音序列分割成若干個(gè)很小的時(shí)間段,也稱為一幀,從而得到信號(hào)的短時(shí)特征。一般將幀長(zhǎng)取為20~30 ms[17],將幀移取幀長(zhǎng)的0.3~0.5倍,讓鄰幀之間存在部分重疊,從而避免兩幀差異過大,特征丟失。然后將分幀后的聲音序列進(jìn)行加窗處理,該操作可使幀的始末兩端過渡更為平滑,一般選用漢明窗。
在對(duì)人耳聽覺機(jī)理的研究中發(fā)現(xiàn),低頻聲音的行波相比高頻聲音行波在內(nèi)耳蝸基底膜上傳遞的距離更大,這使人耳對(duì)低頻聲音更為敏感,對(duì)高頻有掩蔽作用。傳統(tǒng)的MFCC聲音信號(hào)特征提取方法的關(guān)鍵就是構(gòu)建一系列具有不同權(quán)重的帶通濾波器組來模擬人耳對(duì)聲音信號(hào)的調(diào)節(jié)作用[18],整個(gè)特征提取過程如圖2所示。具體提取步驟如下。
FFT為快速傅里葉變換;DCT為離散余弦變換
步驟1設(shè)x(n)為轉(zhuǎn)轍機(jī)聲音信號(hào)預(yù)處理后獲得的逐幀的時(shí)域表達(dá),并利用快速傅里葉變換求得x(n)的頻譜X(k),可表示為
(2)
式(2)中:Npoint為傅里葉變換的點(diǎn)數(shù);k為頻率點(diǎn)。
步驟2將聲音信號(hào)的頻譜取模的平方,計(jì)算其能量譜,即|X(k)|2,再將其通過一組模仿人耳調(diào)節(jié)作用的三角形濾波器,使|X(k)|2進(jìn)行Mel非線性變換,可表示為
(3)
式(3)中:f(m)為三角濾波器中心頻率。
第m個(gè)濾波器的頻率響應(yīng)可表示為
(4)
步驟3將一組濾波器得到的所有MelSpec(m)取對(duì)數(shù),計(jì)算其對(duì)數(shù)能量E(m),計(jì)算公式為
E(m)=lg[MelSpec(m)], 0 (5) 式(5)中:M為濾波器的個(gè)數(shù)。 步驟4最后將E(m)進(jìn)行離散余弦變換(DCT),求出的一組向量F(n)即為梅爾倒譜系數(shù),其表達(dá)式為 (6) 式(6)中:n為梅爾倒譜系數(shù)的階數(shù)。 為了改善傳統(tǒng)MFCC提取方法中因Mel濾波器組在高頻區(qū)域數(shù)目較少且分布稀疏導(dǎo)致的轉(zhuǎn)轍機(jī)聲音信號(hào)在高頻部分特征表征較差的問題,提出了多種尺度融合的MFCC特征提取方法。 EMD可使任意一個(gè)信號(hào)在任意時(shí)刻自適應(yīng)地分解成許多本征模態(tài)函數(shù)(intrinsic mode function, IMF)[19]。由于這些IMF分量代表著原始信號(hào)中不同的頻率分量,且分解的次序按照由高頻到低頻的方式排列。因此,首先將轉(zhuǎn)轍機(jī)聲音信號(hào)進(jìn)行EMD分解獲得IMF分量,之后取前5個(gè)IMF分量分別對(duì)其計(jì)算11個(gè)時(shí)域特征和2個(gè)頻域特征,將計(jì)算出的數(shù)值構(gòu)成代表轉(zhuǎn)轍機(jī)聲音信號(hào)高頻部分特征一維向量。所用的時(shí)域和頻域特征公式如表1所示。 表1 時(shí)域和頻域特征 此外,為了得到更加豐富的信息,將MFCC系數(shù)做一階差分與二階差分得到組成MFCC的動(dòng)態(tài)特征向量。差分計(jì)算公式為 (7) 式(7)中:dt和Ct分別為第t個(gè)一階差分和倒譜系數(shù);Q為倒譜系數(shù)的階數(shù);Ktd為一階導(dǎo)數(shù)的時(shí)間差。 將計(jì)算出的MFCC特征向量,MFCC動(dòng)態(tài)特征向量和時(shí)頻域特征向量進(jìn)行特征融合,形成了改進(jìn)后的Ms-MFCC特征向量,該提取過程如圖3所示。 圖3 多尺度MFCC參數(shù)提取過程 所采集的聲音信號(hào)來自在提速區(qū)段得到了大量使用的S700K型交流電動(dòng)轉(zhuǎn)轍機(jī),其內(nèi)部結(jié)構(gòu)圖如圖4所示。 圖4 S700K型轉(zhuǎn)轍機(jī)內(nèi)部結(jié)構(gòu) 對(duì)轉(zhuǎn)轍機(jī)的正常運(yùn)行、道岔卡阻、啟動(dòng)斷相和轉(zhuǎn)換斷相4種狀態(tài)的聲音信號(hào)進(jìn)行采集,其中3種故障狀態(tài)的模擬方式如表2所示。 表2 3種故障類型及模擬方式 使用華為手機(jī)作為音頻采集設(shè)備,并將其放置在轉(zhuǎn)轍機(jī)正上方10 cm處。共采集160個(gè)聲音樣本,每種狀態(tài)(包括一種正常運(yùn)行狀態(tài)和3種故障狀態(tài))采集40個(gè)聲音樣本,每個(gè)聲音樣本長(zhǎng)度為 5~7 s,采樣頻率為48 kHz。每種狀態(tài)下的聲音信號(hào)時(shí)域波形與頻域變換如圖5所示。 圖5 4種轉(zhuǎn)轍機(jī)狀態(tài)聲音信號(hào)的波形圖和頻譜圖 由圖5可知,S700K轉(zhuǎn)轍機(jī)4種狀態(tài)下聲音信號(hào)時(shí)域波形、持續(xù)時(shí)間等都有明顯的變化。而通過頻域圖可知,4種狀態(tài)聲音信號(hào)的頻率范圍都為0~240 000 Hz,在10 000~15 000 Hz的高頻段內(nèi)也都具有較高能量。 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[20]是一種具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),由于CNN的層間采用局部連接且權(quán)值相互共享,使其可提取輸入值的局部特征,還具有參數(shù)量較小,模型復(fù)雜度低的特點(diǎn)。CNN可輸入不同維度的特征,既可以是一維的聲音序列,也可以是二維的頻譜圖,被廣泛應(yīng)用于聲音識(shí)別領(lǐng)域。構(gòu)建了一個(gè)包含9層結(jié)構(gòu)的CNN識(shí)別模型,其詳細(xì)構(gòu)架如圖6所示。 圖6 CNN識(shí)別模型詳細(xì)構(gòu)架 (1)輸入層:將采集的音頻樣本重采樣為22.05 kHz,并將樣本隨機(jī)剪裁出66 150個(gè)采樣點(diǎn)進(jìn)行特征提取,取20個(gè)Mel濾波器,得到大小為61×65的多尺度MFCC特征,將該特征作為卷積層的輸入。 (2)卷積層:將圖6中包含的3個(gè)卷積層的卷積核數(shù)量從左至右分別設(shè)為64、128和256。令卷積核大小和步長(zhǎng)統(tǒng)一設(shè)為3×3和1×1。在每一個(gè)卷積層后對(duì)輸出數(shù)據(jù)進(jìn)行批歸一化處理,提高訓(xùn)練速度。由于聲音信號(hào)包含負(fù)值,因此選用可以保留負(fù)值的Leaky ReLU激活函數(shù)對(duì)數(shù)據(jù)進(jìn)行激活。 (3)池化層:將圖6中包含的3個(gè)池化層的池化核大小和移動(dòng)步長(zhǎng)都設(shè)為2×2。令池化層的池化方式設(shè)為更有效的最大值法。 (4)全連接層:令圖6中的全連接層具有256個(gè)神經(jīng)元,并選用Leaky ReLU激活函數(shù)。此外,該在層前采用全局平均池化,層后再添加概率系數(shù)為p的Dropout函數(shù)。 (5)輸出層:該層也可視作輸出為4類的全連接層,并使用歸一化指數(shù)(softmax)激活函數(shù)計(jì)算樣本對(duì)應(yīng)4個(gè)類別的概率,從而進(jìn)行分類。 首先將轉(zhuǎn)轍機(jī)聲音信號(hào)進(jìn)行分幀預(yù)處理時(shí)的幀長(zhǎng)設(shè)為30 ms,幀移設(shè)為15 ms,并選用漢明窗實(shí)現(xiàn)幀間的平滑處理。在提取特征時(shí),為保證所得的兩種特征向量維度大小相同,將MFCC的濾波器個(gè)數(shù)設(shè)置為61,Ms-MFCC的濾波器個(gè)數(shù)設(shè)置為20。在實(shí)驗(yàn)中,選用交叉熵來計(jì)算損失值。設(shè)置概率系數(shù)為0.5的Dropout函數(shù)。每次迭代使用批量大小為32的數(shù)據(jù)。選用初始學(xué)習(xí)速率為0.01的隨機(jī)梯度下降法(SGD)優(yōu)化器來更新參數(shù),并將學(xué)習(xí)率衰減策略設(shè)置為每20個(gè)epoch衰減一次,衰減后變?yōu)樵瓉韺W(xué)習(xí)率的0.1倍,具體衰減過程如圖7所示。 圖7 學(xué)習(xí)衰減策略 此外,考慮到所采集的轉(zhuǎn)轍機(jī)音頻數(shù)據(jù)集的數(shù)據(jù)量較少,隨意分化訓(xùn)練集與測(cè)試集可能導(dǎo)致樣本分布不均衡,無法獲得準(zhǔn)確的訓(xùn)練結(jié)果,因此選擇五折交叉驗(yàn)證法對(duì)模型進(jìn)行訓(xùn)練,該方法可將數(shù)據(jù)集分成平均分成互斥的5份。每次的迭代訓(xùn)練輪流提取4份做訓(xùn)練集,剩下的作為測(cè)試集。其中,將10%的訓(xùn)練集數(shù)據(jù)劃分為驗(yàn)證集。詳細(xì)的五折交叉驗(yàn)證數(shù)據(jù)劃分與提取過程如圖8所示。 Ei為準(zhǔn)確率,i=1,2,…,5; Train為訓(xùn)練集;Fold為折數(shù);Val 為驗(yàn)證集;Iteration為迭代次數(shù);Test為測(cè)試集 (8) 式(8)中:Ei為第i折數(shù)據(jù)得到的訓(xùn)練準(zhǔn)確率。 將實(shí)驗(yàn)數(shù)據(jù)集提取的Ms-MFCC和MFCC兩種特征經(jīng)過相同結(jié)構(gòu)與參數(shù)的CNN模型進(jìn)行訓(xùn)練。兩種特征在不同的epoch次數(shù)下所得的五折交叉驗(yàn)證結(jié)果分別如表3、表4所示。 對(duì)比表3和表4可知,在相同的epoch次數(shù)下,Ms-MFCC特征的準(zhǔn)確率均值總高于相對(duì)應(yīng)的傳統(tǒng)MFCC特征的準(zhǔn)確率均值。并且對(duì)于5種數(shù)據(jù)集的劃分方式,每次測(cè)試所得的準(zhǔn)確率都是Ms-MFCC特征表現(xiàn)更好。其中,Ms-MFCC特征在epoch為90次時(shí)的識(shí)別準(zhǔn)確率便可達(dá)到MFCC特征在epoch為110次時(shí)的效果,這表明多尺度MFCC特征更加全面的表征了轉(zhuǎn)轍機(jī)聲音信號(hào)的聲學(xué)特性,使模型可經(jīng)歷更少次數(shù)的迭代來達(dá)到較高的識(shí)別準(zhǔn)確率。 表3 Ms-MFCC五折交叉驗(yàn)證準(zhǔn)確率 表4 MFCC五折交叉驗(yàn)證準(zhǔn)確率 為了更直觀的顯示兩種特征識(shí)別準(zhǔn)確率的變化趨勢(shì),擴(kuò)大epoch訓(xùn)練范圍,記錄對(duì)應(yīng)的準(zhǔn)確率均值,得到兩種特征在相同迭代次數(shù)下的準(zhǔn)確率變化曲線如圖9所示。 由圖9可知,在epoch由60次增加至120次的過程中,兩種特征的識(shí)別準(zhǔn)確率都不斷提高。但在epoch由110增加到120時(shí),Ms-MFCC的特征的識(shí)別準(zhǔn)確率不再發(fā)生變化,達(dá)到最優(yōu)的98.1%。而MFCC特征的識(shí)別準(zhǔn)確率繼續(xù)增加至93.75%,但其折線斜率降低,因此,傳統(tǒng)MFCC需要更多次迭代才能收斂到最優(yōu)解。 圖9 兩種特征的準(zhǔn)確率均值變化曲線 由于轉(zhuǎn)轍機(jī)工作在室外,會(huì)面臨不同的天氣狀況,擁有復(fù)雜的環(huán)境噪聲。因此,為了驗(yàn)證在復(fù)雜天氣狀況出現(xiàn)時(shí)MFCC與Ms-MFCC兩種特征的狀態(tài)識(shí)別準(zhǔn)確率,將公共ESC-10聲音數(shù)據(jù)集中的雨聲[21]選作為環(huán)境噪聲,與轉(zhuǎn)轍機(jī)聲音信號(hào)按照信噪比為5、10、15 dB的比例相加,構(gòu)建出三個(gè)含有不同信噪比的聲音數(shù)據(jù)集。當(dāng)epoch=110時(shí),兩種特征對(duì)含噪數(shù)據(jù)集的識(shí)別效果如表5所示。 表5 不同信噪比的識(shí)別準(zhǔn)確率 由表5可知,雖然在加入噪聲之后Ms-MFCC特征的狀態(tài)識(shí)別準(zhǔn)確率有明顯的下降,但其準(zhǔn)確率依然可保持90%以上,識(shí)別效果遠(yuǎn)好于傳統(tǒng)MFCC,尤其在低信噪比時(shí)效果更為顯著。 在采用S700K型轉(zhuǎn)轍機(jī)上模擬故障得到的聲音信號(hào)通過所提出的Ms-MFCC特征狀態(tài)識(shí)別方法實(shí)驗(yàn)后,得出以下結(jié)論。 (1)提取聲音信號(hào)的MFCC特征并構(gòu)建卷積神經(jīng)識(shí)別網(wǎng)絡(luò)可對(duì)S700K型轉(zhuǎn)轍機(jī)進(jìn)行狀態(tài)識(shí)別,經(jīng)過五折交叉驗(yàn)證的識(shí)別準(zhǔn)確率能夠達(dá)到90.6%,滿足轉(zhuǎn)轍機(jī)狀態(tài)識(shí)別對(duì)準(zhǔn)確率的需求。 (2)改進(jìn)后的Ms-MFCC特征對(duì)轉(zhuǎn)轍機(jī)聲音信號(hào)的聲學(xué)特性有更好的表征。經(jīng)實(shí)驗(yàn)證明,使用Ms-MFCC特征向量將識(shí)別模型的準(zhǔn)確率提高至98.1%。 (3)Ms-MFCC特征相較傳統(tǒng)MFCC特征可使模型更快達(dá)到較高的識(shí)別準(zhǔn)確率。在同樣達(dá)到90.6%的準(zhǔn)確率的情況下,Ms-MFCC特征可使模型減少80次迭代訓(xùn)練。 (4)當(dāng)聲音信號(hào)含有復(fù)雜環(huán)境噪聲時(shí),所提出的Ms-MFCC特征具有更強(qiáng)的魯棒性。經(jīng)實(shí)驗(yàn)證明,在低信噪比時(shí),Ms-MFCC識(shí)別效果相比傳統(tǒng)MFCC,其準(zhǔn)確率提升了35%。1.3 多尺度MFCC特征提取
2 數(shù)據(jù)采集與模型構(gòu)建
2.1 轉(zhuǎn)轍機(jī)聲音信號(hào)采集
2.2 基于CNN的轉(zhuǎn)轍機(jī)狀態(tài)識(shí)別網(wǎng)絡(luò)
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)設(shè)置
3.2 實(shí)驗(yàn)結(jié)果
3.3 不同信噪比的精度驗(yàn)證
4 結(jié)論