劉艷杰,陳炳發(fā),丁力平
(南京航空航天大學(xué) 機(jī)電學(xué)院,江蘇 南京 210016)
微電機(jī),全稱(chēng)是微型電動(dòng)機(jī),是指直徑<160mm或者額定功率<750mW的電機(jī),經(jīng)常被用于控制系統(tǒng)中實(shí)現(xiàn)機(jī)電信號(hào)的解析運(yùn)算和轉(zhuǎn)換等功能。微電機(jī)裝配過(guò)程已經(jīng)實(shí)現(xiàn)了自動(dòng)化,但是在最終質(zhì)量檢測(cè)環(huán)節(jié)中,卻要依賴(lài)有經(jīng)驗(yàn)的工人聽(tīng)微電機(jī)的轉(zhuǎn)動(dòng)聲音來(lái)判斷是否有噪聲故障。雖然人耳是個(gè)極為精密的器官,但人耳對(duì)微電機(jī)裝配質(zhì)量的判定受諸多因素的影響,不同人對(duì)同一微電機(jī)、甚至同一個(gè)人對(duì)同一臺(tái)微電機(jī)的多次判定結(jié)果均可能不一致,因此識(shí)別率難以得到保證。隨著數(shù)字信號(hào)處理[1]和機(jī)器學(xué)習(xí)[2]等技術(shù)的發(fā)展,將機(jī)器學(xué)習(xí)技術(shù)用于聲音信號(hào)處理,以實(shí)現(xiàn)生產(chǎn)線(xiàn)中微電機(jī)裝配質(zhì)量的智能化識(shí)別,有利于提高裝配質(zhì)量的檢測(cè)精度和效率。
基于聲學(xué)特征的故障診斷主要包含特征提取和故障分類(lèi)兩個(gè)部分。電機(jī)在運(yùn)行的過(guò)程中,會(huì)由自身的振動(dòng)產(chǎn)生噪聲,噪聲信號(hào)中包含著電機(jī)的狀態(tài)信息。當(dāng)發(fā)生故障時(shí),其噪聲的振幅、頻域都會(huì)發(fā)生變化[3]。聲音信號(hào)的特征參數(shù)一般可以分為時(shí)域特征、頻域特征和倒譜域特征[4]。信號(hào)處理的方法一般為時(shí)頻分析方法,主要有小波變換[5]和經(jīng)驗(yàn)?zāi)J椒纸鈁6]。胡文明等[7]對(duì)微電機(jī)聲音信號(hào)進(jìn)行小波包能量譜分析,將信號(hào)分成不同頻段,通過(guò)每個(gè)頻段內(nèi)能量分布的不同來(lái)識(shí)別故障類(lèi)型。HUANG N E等[8]提出了經(jīng)驗(yàn)?zāi)B(tài)分解方法(EMD),這種分解方法是自適應(yīng)的,適用于非線(xiàn)性和非平穩(wěn)過(guò)程。
梅爾頻率倒譜系數(shù)(mel frequency cestrum coefficient,MFCC)[9]將人耳的聽(tīng)覺(jué)感知特性和語(yǔ)音的產(chǎn)生機(jī)制相結(jié)合,廣泛適用于音頻信號(hào)處理。語(yǔ)譜圖是語(yǔ)音頻譜圖,它表達(dá)了語(yǔ)音信號(hào)不同頻段的信號(hào)強(qiáng)度,在語(yǔ)音情感識(shí)別中廣泛應(yīng)用此特征[10]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[11]是一種深度監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,具有很強(qiáng)的適應(yīng)性,便于挖掘數(shù)據(jù)的局部特征,在語(yǔ)音識(shí)別、圖像處理[12]等領(lǐng)域都取得了很好的成果。
本文提出了一種基于聲學(xué)特征的微電機(jī)故障診斷方法,以融合CNN模型作為聲音識(shí)別模型。首先利用聲音采集裝置獲得微電機(jī)轉(zhuǎn)動(dòng)聲音信號(hào),然后提取信號(hào)的MFCC、短時(shí)能量和語(yǔ)譜圖等聲學(xué)特征,最后將提取的特征數(shù)據(jù)輸入到模型中進(jìn)行故障識(shí)別。本文對(duì)該方法的設(shè)計(jì)與實(shí)現(xiàn)的過(guò)程進(jìn)行闡述。
本文提出的微電機(jī)故障診斷方法的整體流程如圖1所示,主要包含以下5步。
圖1 微電機(jī)故障診斷的整體流程
1)聲音信號(hào)采集:使用聲音傳感器采集微電機(jī)聲音信號(hào),并進(jìn)行預(yù)處理;
2)特征提?。禾崛÷曇粜盘?hào)的39維MFCC、短時(shí)能量和語(yǔ)譜圖特征,用于后面的分析識(shí)別;
3)模型識(shí)別:將MFCC和短時(shí)能量輸入1D-CNN(一維卷積神經(jīng)網(wǎng)絡(luò))模型,語(yǔ)譜圖輸入2D-CNN(二維卷積神經(jīng)網(wǎng)絡(luò))模型中,分別得到各自識(shí)別的結(jié)果;
4)模型融合:給不同模型識(shí)別的結(jié)果賦予不同的權(quán)重,以提高識(shí)別的準(zhǔn)確率;
5)故障識(shí)別:輸出微電機(jī)的故障類(lèi)型。
本文研究的微電機(jī)型號(hào)是24BYJ46,微電機(jī)聲音信號(hào)使用隔音裝置采集,沒(méi)有環(huán)境噪聲。首先將微電機(jī)接通電源,將聲音傳感器靠近微電機(jī)進(jìn)行采集,采樣頻率是16kHz,采樣位數(shù)是16位,采樣點(diǎn)是30 000,信號(hào)的保存格式是無(wú)損的WAV格式。采集的聲音信號(hào)有4種,正常微電機(jī)轉(zhuǎn)動(dòng)聲音、齒輪嚙合不良故障、擦鐵異音故障、內(nèi)有垃圾故障。每種信號(hào)有480個(gè)樣本,總共1 920個(gè)樣本。4種微電機(jī)聲音信號(hào)的時(shí)域波形圖如圖2所示。
圖2 4種微電機(jī)聲音信號(hào)的時(shí)域波形圖
a)梅爾頻率倒譜系數(shù)
梅爾頻率倒譜系數(shù)是基于人耳的聽(tīng)覺(jué)特性提出來(lái)的,它與頻率成非線(xiàn)性對(duì)應(yīng)關(guān)系。MFCC是一種常用的音頻特征,廣泛應(yīng)用于自動(dòng)語(yǔ)音和說(shuō)話(huà)人識(shí)別中。在實(shí)際應(yīng)用中,MFCC特征提取的過(guò)程[13]如圖3所示,具體計(jì)算過(guò)程如下。
1)預(yù)加重。將采集的聲音信號(hào)s(n)通過(guò)一個(gè)高通濾波器,以增強(qiáng)聲音信號(hào)中的高頻部分。高通濾波器的傳遞函數(shù)為
X(n)-s(n)-a×s(n-1)
(1)
式中a為預(yù)加重系數(shù),值介于0.9~1.0之間。
2)分幀。聲音信號(hào)具有短時(shí)平穩(wěn)性,分幀的過(guò)程就是將一段聲音信號(hào)分成N段,每一段為一幀,通常情況下每幀涵蓋的時(shí)間約為20~30ms,為了避免相鄰兩幀之間變化過(guò)大,因此會(huì)讓兩幀之間有一段重疊的區(qū)域,稱(chēng)為幀移,一般為幀長(zhǎng)的一半左右。
3)加窗。加窗可以增加幀兩端的連續(xù)性,減少頻譜泄漏。常用的窗函數(shù)是漢明窗(Hamming),表達(dá)式如下為
(2)
式中N為窗長(zhǎng),即幀長(zhǎng)。
4)DFT。將聲音信號(hào)進(jìn)行離散傅里葉變換后得到頻譜,將頻譜取模平方得到信號(hào)的能量譜。聲音信號(hào)的頻譜為
(3)
5)Mel濾波器組。求出能量譜后,用M個(gè)Mel帶通濾波器組進(jìn)行濾波,將每個(gè)濾波頻帶內(nèi)的能量進(jìn)行疊加,這時(shí)第k個(gè)濾波器輸出功率譜x′(k)。
6)對(duì)數(shù)運(yùn)算。對(duì)m個(gè)濾波器組的輸出取對(duì)數(shù)運(yùn)算,得到相應(yīng)頻帶的對(duì)數(shù)功率譜。計(jì)算公式為
(4)
式中:s(m)是對(duì)數(shù)功率譜;Hm(k)是濾波器組。
7)DCT。將對(duì)數(shù)功率譜進(jìn)行DCT(離散余弦變換),得到L個(gè)MFCC系數(shù),計(jì)算公式為
(5)
式中c(n)是第n個(gè)MFCC系數(shù)。
8)動(dòng)態(tài)差分參數(shù)的提取。上面直接得到的MFCC特征只反映了信號(hào)的靜態(tài)特征,對(duì)這種靜態(tài)特征做一階、二階差分,可得到相應(yīng)的動(dòng)態(tài)特征。差分參數(shù)的計(jì)算公式為
(6)
式中:d(t)表示第t個(gè)一階差分;c(t)表示第t個(gè)倒譜系數(shù),Q表示倒譜系數(shù)的階數(shù);K表示一階導(dǎo)數(shù)的時(shí)間差,可取1或2。將上式結(jié)果再代入就能得到二階差分的參數(shù)。
圖3 MFCC的提取過(guò)程
b)短時(shí)能量
聲音信號(hào)的能量隨時(shí)間變化比較明顯,其短時(shí)能量可以分析這些幅度的變化。對(duì)于信號(hào)x(n),短時(shí)能量的定義如下:
(7)
式中h(n)=w2(n)。
4種微電機(jī)聲音信號(hào)的短時(shí)能量如圖4所示。
圖4 4種微電機(jī)信號(hào)的短時(shí)能量圖
c)語(yǔ)譜圖
語(yǔ)譜圖是語(yǔ)音頻譜圖,它的橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語(yǔ)音數(shù)據(jù)能量。由于語(yǔ)譜圖采用二維平面表達(dá)三維信息,所以能量值的大小是通過(guò)顏色來(lái)表示的,顏色越深表示該點(diǎn)的語(yǔ)音能量越強(qiáng)。語(yǔ)譜圖表達(dá)了語(yǔ)音信號(hào)不同頻段的信號(hào)強(qiáng)度,便于觀(guān)察頻率隨時(shí)間的變化情況。通過(guò)語(yǔ)音信號(hào)獲得語(yǔ)譜圖的過(guò)程如下:
1) 獲取音頻數(shù)據(jù);
2) 將聲音信號(hào)分幀加窗;
3) 對(duì)幀信號(hào)進(jìn)行FFT,得到幀信號(hào)的頻譜;
4)將各幀頻譜疊加,得到整個(gè)聲音信號(hào)的語(yǔ)譜圖。
4種微電機(jī)聲音信號(hào)的語(yǔ)譜圖如圖5所示。
圖5 4種微電機(jī)信號(hào)的語(yǔ)譜圖
本文訓(xùn)練了兩種模型:1D-CNN和2D-CNN,同時(shí)對(duì)微電機(jī)聲音信號(hào)數(shù)據(jù)集進(jìn)行訓(xùn)練,將兩種模型訓(xùn)練輸出的結(jié)果進(jìn)行加權(quán)平均后再輸出,獲得模型融合后的識(shí)別結(jié)果。1D-CNN和2D-CNN模型融合的整體流程如圖6所示。
圖6 1D-CNN與2D-CNN模型融合過(guò)程
1D-CNN的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、2個(gè)卷積層、2個(gè)池化層、全連接層和輸出層。該網(wǎng)絡(luò)的輸入是大小為40(39維MFCC和短時(shí)能量)的特征向量。第一個(gè)卷積層卷積核的數(shù)目為16,卷積核大小為8,步長(zhǎng)為2,卷積后使用relu激活函數(shù)引入非線(xiàn)性因素,卷積后得到的特征向量用0填充邊緣部分;第一個(gè)卷積層后連接第一個(gè)池化層對(duì)卷積后的特征向量進(jìn)行壓縮,以簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜度,采用大小為2的卷積核進(jìn)行最大池化,得到16個(gè)大小為1×8的特征向量;第二個(gè)卷積層卷積核的數(shù)目為32,卷積核大小為8,步長(zhǎng)為2,激活函數(shù)是relu, 邊緣部分用0填充;第二個(gè)池化層采用大小為2的卷積核進(jìn)行最大池化,得到32個(gè)大小為1×2的特征向量;第二個(gè)池化層后是全連接層,用來(lái)連接所有的特征,將輸出值送給softmax分類(lèi)器,經(jīng)全連接層后得到的64維特征向量;最后一個(gè)是輸出層,大小為4。
2D-CNN的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、2個(gè)卷積層、2個(gè)池化層、全連接層和輸出層。該網(wǎng)絡(luò)的輸入是大小為32像素×32像素×3通道(RGB)的語(yǔ)譜圖。第一個(gè)卷積層卷積核的數(shù)目為32,卷積核大小為3×3,卷積后使用relu激活函數(shù)引入非線(xiàn)性因素,卷積后得到的特征圖用0填充邊緣部分,使其大小保持不變;第一個(gè)卷積層后連接第一個(gè)池化層對(duì)卷積后的特征圖進(jìn)行壓縮,以簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜度,采用大小為2×2的卷積核進(jìn)行最大池化,得到32個(gè)大小為16×16的特征圖;第二個(gè)卷積層卷積核的數(shù)目為64,卷積核大小為3×3,激活函數(shù)是relu,邊緣部分用0填充;第二個(gè)池化層采用大小為2×2的卷積核進(jìn)行最大池化,得到64個(gè)大小為8×8的特征圖;第二個(gè)池化層后是全連接層,用來(lái)連接所有的特征,將輸出值送給softmax分類(lèi)器,經(jīng)全連接層后得到的4 096維特征向量;最后一個(gè)是輸出層大小為4。
本文采用加權(quán)平均法對(duì)2個(gè)模型的輸出結(jié)果進(jìn)行融合,加權(quán)平均的公式如下:
(8)
1)試驗(yàn)設(shè)計(jì)
從樣本中隨機(jī)選擇70%的樣本作為卷積神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練樣本,剩下30%的樣本作為測(cè)試樣本。將訓(xùn)練樣本提取特征值并分別輸入到一維CNN和二維CNN模型中,獲得訓(xùn)練模型;再將測(cè)試樣本提取特征值并輸入到訓(xùn)練好的一維CNN和二維CNN模型中并輸出,然后將2個(gè)模型的結(jié)果融合后再輸出,對(duì)比3種模型的輸出結(jié)果。
2)狀態(tài)編碼
微電機(jī)狀態(tài)對(duì)應(yīng)編碼表如表1所示。
表1 微電機(jī)狀態(tài)對(duì)應(yīng)編碼表
編碼后的向量便是CNN的輸出向量。
3)結(jié)果分析
本文分析了3個(gè)模型:1D-CNN、2D-CNN和融合CNN。在融合CNN模型中,1D-CNN的權(quán)重為α1,2D-CNN的權(quán)重為α2,且α2=1-α1。融合CNN模型中每個(gè)模型的權(quán)重和識(shí)別準(zhǔn)確率的變化如表2所示。當(dāng)α1=0時(shí),2D-CNN模型的準(zhǔn)確率為91.67%;當(dāng)α1=1時(shí),1D-CNN模型的準(zhǔn)確率為90.63%。當(dāng)α1=0.4并α2=0.6時(shí),準(zhǔn)確率最高,為93.58%。故本文融合CNN模型中,取1D-CNN的權(quán)重為0.4,2D-CNN的權(quán)重為0.6。不同深度學(xué)習(xí)模型的故障識(shí)別準(zhǔn)確率對(duì)比如表3所示。
表2 融合模型識(shí)別準(zhǔn)確率
表3 不同深度學(xué)習(xí)模型的故障識(shí)別準(zhǔn)確率對(duì)比
由表3可知,1D-CNN模型主要分析特征為時(shí)域特征和倒譜域特征,準(zhǔn)確率為90.63%;2D-CNN模型主要分析特征為頻域特征,準(zhǔn)確率為91.67%,融合CNN模型集合了兩個(gè)模型的優(yōu)勢(shì),識(shí)別準(zhǔn)確率為93.58%,比1D-CNN和2D-CNN的準(zhǔn)確率各提高了2.95%和1.91%,平均提高了2.43%。
本文提出了一種基于聲學(xué)特征和融合CNN模型的微電機(jī)故障診斷方法。該方法提取了微電機(jī)聲音信號(hào)的MFCC特征、短時(shí)能量和語(yǔ)譜圖特征,并建立了一維CNN和二維CNN分類(lèi)模型來(lái)進(jìn)行識(shí)別,然后利用模型融合技術(shù)將兩個(gè)模型訓(xùn)練的結(jié)果進(jìn)行加權(quán)平均,充分發(fā)揮了不同模型的優(yōu)勢(shì),提高了準(zhǔn)確率。該方法具有很好的準(zhǔn)確度,在實(shí)際的工程中有良好的應(yīng)用前景。