劉 學,孫 翱,李 冬
(中國人民解放軍91550部隊, 遼寧 大連 116023)
流形學習作為機器學習領域的研究熱點,通過對高維數(shù)據(jù)局部結構的保持,獲取嵌入在高維觀測空間中的低維流形,獲取高維數(shù)據(jù)的本質特征,在挖掘數(shù)據(jù)的本質結構上具有極大的優(yōu)勢。流行學習分為線性和非線性流形學習兩大類,最早提出的是非線性流形學習方法,如拉普拉斯特征映射(Laplacian Eigenmap, LE)[1]、局部線性嵌入(Locally Linear Embedding, LLE)[2]、局部切空間排列(Local Tangent Space Alignment, LTSA)[3]以及等距特征映射(Isometric feature Mapping, IsoMap)[4]等。其中:LE通過拉普拉斯Beltrami算子來構造相應空間嵌入目標函數(shù),利用無向有權圖對流形空間進行描述;LLE根據(jù)數(shù)據(jù)局部線性關系將流形的局部幾何信息從高維空間映射到低維空間;LTSA通過利用每一個數(shù)據(jù)點的局部切空間同歐式空間的同構關系,得到高維數(shù)據(jù)到低維切空間的映射關系;IsoMap以測地線距離為基礎使得樣本數(shù)據(jù)在保持近鄰結構的同時,得到高維數(shù)據(jù)的低維嵌入。針對非線性流形學習對于新未知樣本無法直接進行低維映射的缺點,國內(nèi)外學者陸續(xù)提出上述非線性流形學習方法的線性近似算法,如局部保持投影(Local Preserving Projections, LPP)[5]、近鄰保持嵌入(Neighborhood Preserving Embedding,NPE)[6]和線性局部切空間排列(Linear Local Tangent Space Alignment, LLTSA)算法[7],它們不但可以保持數(shù)據(jù)內(nèi)在的非線性結構與數(shù)據(jù)子空間的局部流形結構相似,還可以獲得高維敏感特征子集轉換為低維空間的顯式映射。因此,在信息挖掘領域得到更為廣泛的應用。
多尺度分析結合流形學習的故障模式識別方法是狀態(tài)監(jiān)測與故障診斷研究領域的研究熱點[8-9],該類方法充分結合多尺度分析方法對隱含在特定尺度上的信號特征信息的探測能力和流形學習方法對數(shù)據(jù)本質結構的挖掘能力,優(yōu)勢互補,在旋轉機械早期監(jiān)測預警、故障診斷和心臟健康監(jiān)測等場合得到廣泛應用,如王廣斌等[10-11]提出基于流形子帶的拉普拉斯特征映射方法和基于多尺度子帶樣本熵的局部保持投影方法,實現(xiàn)對轉子復合故障特征的準確檢測;Miao等[12]將近鄰保持嵌入算法應用到工業(yè)過程監(jiān)控中,同時提取數(shù)據(jù)動態(tài)的空間和時間結構特征,增強了對過程變化的檢測能力;Wang等[13]提出利用小波包變換與流形學習相結合的軸承故障診斷方法,利用重構小波系數(shù)的波形特征集的低維流形表征滾動軸承微弱瞬態(tài)信號特征;Chen等[14]采用流形學習方法對由信號時域、頻域以及總體經(jīng)驗模態(tài)分解(Ensemble Empirical Mode Decomposition, EEMD)分量多尺度特征的組成高維混合特征集進行敏感流形特征提取,實現(xiàn)旋轉機械故障模式進行分類與識別;Miao等[15]提出采用多尺度特征結合局部線性嵌入算法的非線性故障信號特征提取與診斷方法,利用信號非平穩(wěn)狀態(tài)的多尺度特征,對故障類型及損傷程度進行了有效識別;Ding等[16]采用LPP對小波包節(jié)點能量進行維數(shù)約簡,增強了對機械故障類別的辨識效果。
相比于傳統(tǒng)的機械監(jiān)測信號,遙測振動信號由沖擊激起的共振的頻帶較寬,具有響應周期短(脈沖數(shù)少)、沖擊強等特性,這導致異類模式之間差距較小,難以識別。另外,飛行器試驗難度高且成本高昂,試驗次數(shù)較少導致采集的樣本數(shù)量較小,如何在小樣本條件下實現(xiàn)準確的異常模式識別也是需要解決的關鍵問題,針對上述問題,提出一種基于參照化流形空間融合學習的遙測振動信號敏感特征提取與異常檢測方法,通過建立專屬參照化模型單元,采用級聯(lián)流形學習的模式實現(xiàn)對信號多尺度特征信息的多層挖掘再學習,有效提高了特征信息的敏感性。
飛行器系統(tǒng)狀態(tài)異常是一個多因素決定的復雜動態(tài)過程,因此非平穩(wěn)狀態(tài)的多尺度特征才是反映系統(tǒng)運行狀態(tài)的本質特征,為了全面、準確地對遙測振動信號進行異常檢測,采用信號的多尺度特征表征異常信號狀態(tài)。
小波包變換(Wavelet Packet Transform, WPT)具有正交、完整、多分辨率等優(yōu)點,可將非平穩(wěn)信號按任意的時頻分辨率正交無遺漏地分解到不同的頻帶范圍內(nèi),通過一組正交的低通和高通濾波器遞歸地對信號的低頻和高頻部分進行多層次劃分,將信號的時頻成分投影到對應的小波包空間[13]。
(1)
(2)
傳統(tǒng)的樣本熵只能對信號全局復雜度進行度量,但遙測振動信號反映的系統(tǒng)狀態(tài)變異往往只在特定尺度上有明顯的信息反映,且在多尺度狀態(tài)信息之間存在內(nèi)在聯(lián)系。因此對遙測振動信號進行多尺度分解,提取多尺度信號的子帶樣本熵,在不同尺度深入信號內(nèi)部層層挖掘信號的異常特征。多尺度樣本熵算法參見文獻[8],依次求取所有小波包節(jié)點重構系數(shù)的子帶樣本熵構造高維特征向量。
(3)
式中,α為子帶因子,從對遙測振動信號的分析過程中發(fā)現(xiàn),某一類型的故障模式會導致振動信號在特定時刻發(fā)生間斷或限幅,多尺度子帶樣本熵在表征信號奇異方面,較常用的Lipschitz指數(shù)更為敏感。
(4)
(5)
綜合以上兩種特征,通過J層的小波包分解構造多尺度特征集WPTFEA。
WPTFEA=[SC,PT]∈R(α+1)2J×1
(6)
NPE算法是LLE算法的線性近似算法,對于高維樣本集X=[x1,x2,…,xN]∈RD×N,NPE旨在尋找映射矩陣α=[α1,α2,…,αd]∈RD×d,通過投影空間變換Y=αTX,得到嵌入高維空間的低維流形Y=[y1,y2,…,yN]∈Rd×N,d?D。為保持數(shù)據(jù)局部流形結構,每個樣本點能以相同的權重被其對應的k個近鄰點重構,得到NPE的優(yōu)化目標函數(shù)。
=Min[YT(I-W)T(I-W)Y]
s.t.αTXXTα=I
(7)
由式(7)可以發(fā)現(xiàn),NPE是一種無監(jiān)督流形學習方法,當異類模式之間比較相近的時候,由于沒有考慮樣本的類別信息,NPE很可能將異類模式樣本劃分到同一局部空間進行特征投影,導致投影后的低維流形結構扭曲失真。 另外, NPE為了保證投影前后的數(shù)據(jù)局部近鄰結構相似,其目標函數(shù)沒有考慮數(shù)據(jù)的全局特征。 針對NPE存在的這些問題以及有效增強異類模式之間的流形特征差異,提出一種類別參照化局部保持投影(Class-Reference Neighborhood Preserving Embedding,CRNPE)方法,該方法可根據(jù)應用場合選取監(jiān)督學習或無監(jiān)督學習兩種模式。
2.1.1 監(jiān)督學習模式
在監(jiān)督學習模式下有效利用類別標簽信息,在保持數(shù)據(jù)局部特征的同時使異類模式具有最大的類間散度。 算法流程如下所示。
步驟1:將高維數(shù)據(jù)集X∈RD×N根據(jù)c種類別標簽劃分為X=π1∪π2∪…∪πc。
步驟2:采用文獻[17]提出的自適應鄰域構造方法計算重構系數(shù)矩陣W,避免k近鄰方法需人工設置近鄰數(shù),在監(jiān)督學習模式下,依據(jù)各樣本的類別標簽加入監(jiān)督機制強化同類樣本的聚集性和異類樣本的互斥性。
(8)
步驟3:根據(jù)參照的樣本類別πi,計算其對應的負散度矩陣。
(9)
步驟4:監(jiān)督學習模式下的優(yōu)化目標函數(shù)為:
(10)
該優(yōu)化目標函數(shù)能夠保證在數(shù)據(jù)降維前后局部重構特征變化最小,同時對參照的樣本類別πi具有更大的類間散度,在第一層為特征信息增強性學習中可有效凸顯異類樣本局部差異的敏感性。式(10)的最優(yōu)化問題,可通過J(α)對α求偏導數(shù)為0進行求解,即
(11)
(12)
2.1.2 無監(jiān)督學習模式
在無監(jiān)督學習模式下,為了達到在保持數(shù)據(jù)局部特征的同時使得異類模式具有最大的類間散度這一優(yōu)化目標,需同時考慮數(shù)據(jù)的全局特征,使得位于不同的鄰域中距離較遠的數(shù)據(jù)點在低維空間盡可能地分開?,F(xiàn)提出如下解決思路:建立雙優(yōu)化目標函數(shù),在滿足數(shù)據(jù)點與k個鄰域數(shù)據(jù)的局部距離不變的約束下,通過最大化不同鄰域數(shù)據(jù)方差來最大化地展開數(shù)據(jù)流形。算法流程如下所示。
步驟1:依然采用自適應鄰域構造方法計算重構系數(shù)矩陣W,在無監(jiān)督模式下,取消式(8)中xi,xj∈πc的限制條件。
步驟2:建立無監(jiān)督學習雙優(yōu)化目標函數(shù)。
(13)
當數(shù)據(jù)點xj是xi所對應的最近鄰點時,Hij=0,否則Hij=1。式(13)的最優(yōu)化問題,也可通過J(α)對α求偏導數(shù)為0進行求解,即
2αTXMXTα(αTXRXTα)-2XRXTα=0?
XMXTα=J(α)XRXTα
(14)
如果R可逆,則式(14)也可以通過Lagrange乘法轉化為廣義的特征值求解。
XMXTα=λXRXTα
(15)
針對遙測振動信號樣本數(shù)少、沖擊強、響應周期短等特點導致異類模式之間差異性小的問題,借鑒深度學習思想,提出采用級聯(lián)兩層流形學習的參照化流形空間融合學習方法。通過兩層流形學習對信號多尺度特征進行提純再學習,提高特征信息的敏感性。算法流程如圖1所示。
圖1 算法流程圖Fig.1 Algorithm flowchart
圖1中,第一層為特征信息的增強性學習,以相同的正常信號樣本結合相同類型的異常樣本建立專屬參照化模型單元,將多分類問題轉化為二分類問題。在增強正常模式與異類模式流形特征差異性的同時有效提高樣本的利用率。第二層為多尺度特征拓展學習,通過對第一層學習得到的映射矩陣進行流形空間融合,實現(xiàn)對多尺度特征的升維拓展。通過流形再學習,對拓展后特征信息進行提純,獲取低維敏感流形特征。算法步驟如下所示。
步驟1:對采集的遙測振動信號依據(jù)指令時刻進行特征段順序選取,若相鄰指令時刻間隔較近(前一指令響應未結束,后一指令響應即開始),可按前一特征段最大幅值能量的10%進行截取,若重疊部分超過50%,則將相鄰兩特征段合并處理。對所選特征段進行預處理:根據(jù)《GJB2238A—2004》的規(guī)范進行零漂修正、趨勢項去除、野值剔除等。
步驟2:第一層特征信息的增強性學習。將所有樣本同一指令時刻的特征段信號組成訓練樣本集,按照第1節(jié)的方法構建高維多尺度特征集,并按照各樣本的類別信息(共有c類模式),創(chuàng)建類別標簽。以相同的正常信號樣本為參照構建c個專屬參照化模型單元。
步驟3:第二層為多尺度特征拓展學習:采用Mlayer1對測試樣本集Ttest進行特征拓展,凸顯各異常模式與正常模式差異信息的敏感性,提高各類型樣本的利用率。
Ftest=Mlayer1Ttest
(16)
(17)
式中,Mlayer2為第二層CRNPE流形學習的映射矩陣。
步驟4:將敏感流形特征Ytest輸入到K最近鄰分類器(K-Nearest Neighbor classification, KNNC)進行信號狀態(tài)模式識別,得到分類結果。
為驗證所提方法的有效性,采用某型飛行器試驗任務中同一系統(tǒng)部位傳感器采集的軸、法、橫3個通道的遙測振動信號進行處理驗證。以法向通道信號為例,選取正常信號和3種類型故障信號作為測試信號,其中正常信號樣本45個,異常模式1(過載超過限定值,致使該部位下端框出現(xiàn)細微裂紋或斷裂)信號樣本27個,異常模式2(該部位肩部出現(xiàn)形變或細微裂紋)信號樣本29個,異常模式3(某故障導致在特定時間段內(nèi)振動信號發(fā)生間斷或限幅)信號樣本21個。保密安全起見,信號幅值作了歸一化處理,某一樣本信號的時域波形如圖2所示。
(a) 時域波形(a) Time domain waveform
(b) 頻譜(b) Spectrum圖2 遙測振動信號及其頻譜Fig.2 Waveform and spectrum of the telemetry vibration signal
通過圖3可以發(fā)現(xiàn),由于不同模式的特征方向不同,通過第一層特征信息的增強性學習,每個專屬參照化模型單元所訓練出的映射矩陣只對所對應類型的樣本在低位空間投影聚集,將其他模式的樣本投影到更遠的低維坐標上進行分離,這增加了不同屬性樣本之間的類間散度,即每個專屬參照化模型單元只針對同屬性樣本具有特征增強特性,而對異類屬性樣本,增大了其流形特征的差異性。
由于樣本數(shù)較少,將所有樣本組成測試集Xtest=Xtrain∈R32×122,將所提方法(簡寫為CRNPE+CRNPE)與主成分分析(Principal Component Analysis, PCA)、LLE及其線性化方法NPE算法、基于無監(jiān)督NPE的參照化流形空間融合學習(兩層均采用無監(jiān)督NPE,簡寫為Unsupervised NPE+NPE)和基于有監(jiān)督NPE的參照化流形空間融合學習(第一層特征信息的增強性學習采用有監(jiān)督NPE,監(jiān)督學習模式同CRNPE的第2步,簡寫為Supervised NPE+NPE)的性能進行對比測試,同樣選取映射后的前三維分量進行分析。同時采用類內(nèi)散度Sw、類間散度Sb和判別因子S=Sb/Sw三種評估因子定量分析上述算法的聚類性能[19]。
(a) 正常-異常模式1參照單元(a) Normal-abnormal mode 1 reference unit
(b) 正常-異常模式2參照單元(b) Normal-abnormal mode 2 reference unit
(c) 正常-異常模式3參照單元(c) Normal-abnormal mode 3 reference unit圖3 各專屬參照化模型單元映射下4種模式WPTFEA二維聚類分布Fig.3 Two-dimensional clustering of four modes WPTFEA of telemetry vibration signals under the mapping of each specific reference model unit
(18)
表1 不同流形學習方法的特征聚類定量分析對比
從圖4(a)可以看出,PCA只考慮樣本集的全局特性,忽略局部特征,導致各模式樣本交織重疊在一起,難以區(qū)分,分類精度僅為53.28%。LLE和其線性近似算法NPE均為非線性降維方法,它們充分考慮測試集的局部特征,并保持數(shù)據(jù)內(nèi)在的非線性結構。因此它們得到的聚類分布效果優(yōu)于PCA方法,可將部分異類模式樣本分離,分類精度有所提高,但不同模式樣本之間仍存在一定程度的重疊,不利于分類器的模式識別。
而參照化流形空間融合學習方法通過參照化模型建立各異類模式專屬的特征挖掘單元,增大異類模式同正常模式樣本的特征差異,利用多個參照化模型單元的特征融合映射矩陣,可以實現(xiàn)對多尺度特征集的信息擴展,獲取更高維的特征信息,為第二層流形再學習提取更為敏感低維流形特征提供便利。從圖4(d)~(f)可以看出,在聚類分布圖中,每種模式具有較為清晰的聚類邊界,不同模式較單層學習更易被區(qū)分,分類精度均達到了90%。這說明參照化流形空間融合學習方法可有效地增大異類模式之間的差異性以及同類模式之間的聚集性,但通過圖4(d)和圖4(e)的對比可以發(fā)現(xiàn),無監(jiān)督NPE+NPE由于沒有利用樣本的類別信息,在確定近鄰空間時很可能將異類模式樣本劃分到同一局部空間進行特征投影,導致特征投影后部分正常模式樣本錯誤地被劃分到異常模式的聚類空間中,這將嚴重影響后續(xù)模式識別的精度。有監(jiān)督NPE+NPE在第一層特征信息的增強性學習采用監(jiān)督學習模式,充分利用樣本的類別信息,避免了無監(jiān)督NPE+NPE錯誤特征投影問題,使得各模式具有獨立的聚集邊界,分類精度有所提高,達到了95.90%。但NPE為了保證投影前后的數(shù)據(jù)局部近鄰結構相似,其目標函數(shù)沒有考慮數(shù)據(jù)的全局特征,各模式之間,特別是異常模式2和異常模式3之間,沒有形成較大的類間散度和較小的類內(nèi)散度,而良好的模式識別效果需同時考慮各模式之間的類間散度和類內(nèi)散度,即不僅要有較大的類間散度,還應具有較小的類內(nèi)散度。
(a) PCA
(b) LLE
(c) NPE
(d) Unsupervised NPE+NPE
(e) Supervised NPE+NPE
(f) CRNPE+CRNPE
針對上述問題,CRNPE在保持數(shù)據(jù)局部特征的同時使得異類模式具有更大的類間散度,可以增大不同模式之間的區(qū)分度。無監(jiān)督CRNPE同時考慮數(shù)據(jù)的局部和全局特征,從圖4(f)和表1可以看出,CRNPE+CRNPE參照化流形空間融合學習方法提取的流形特征可以同時獲得最大的類間散度、最小的類內(nèi)散度、最大的判別因子以及最高的分類精度99.18%,即該方法可以有效增加異類模式之間的差異性以及同類模式之間的聚集性。因此,CRNPE+CRNPE學習方法在增強特征信息、挖掘系統(tǒng)狀態(tài)敏感特征等方面優(yōu)于上述其他方法。
提出一種基于參照化流形空間融合學習的遙測振動信號敏感特征提取與異常檢測方法,通過建立專屬參照化模型單元,采用級聯(lián)流形學習的模式實現(xiàn)對信號多尺度特征信息的多層挖掘再學習,有效提高了特征信息的敏感性。經(jīng)實測信號應用驗證,所提方法可有效提高遙測振動信號異常模式識別精度??偨Y可得到以下幾點結論。
1)提出CRNPE算法,在監(jiān)督模式下采用新的優(yōu)化目標函數(shù)能夠保證在數(shù)據(jù)降維前后局部重構特征變化最小,同時對參照的樣本類別πi具有更大的類間散度;在無監(jiān)督模式下,同時考慮數(shù)據(jù)的局部和全局特征,采用雙優(yōu)化目標函數(shù),在滿足數(shù)據(jù)點與k個鄰域數(shù)據(jù)的局部距離不變的約束下,通過最大化不同鄰域數(shù)據(jù)方差來最大化地展開數(shù)據(jù)流形;
2)實測信號實驗結果表明:新方法可以有效增加異類模式之間的差異性以及同類模式之間的聚集性,在增強特征信息、挖掘系統(tǒng)狀態(tài)敏感特征等方面優(yōu)于PCA、LLE、NPE和基于NPE的參照化流形空間融合學習等流形學習方法。
3)CRNPE為線性化流行學習方法,可以獲得高維敏感特征子集轉換為低維空間的顯式映射, 使得新樣本可以迅速準確地映射到低維空間中。因此,基于CRNPE參照化流形空間融合學習特征方法可很方便地推廣到其他故障檢測領域。