顧濤勇, 郭建勝, 李正欣, 王 健, 王騰蛟
(空軍工程大學(xué)裝備管理與安全工程學(xué)院, 陜西 西安 710051)
機(jī)載設(shè)備故障概率預(yù)測(cè)是航空維修保障的一個(gè)重要問(wèn)題。對(duì)故障概率預(yù)測(cè)問(wèn)題的研究,存在以下兩種主要的求解思路,即基于模型的故障概率預(yù)測(cè)與基于數(shù)據(jù)驅(qū)動(dòng)的故障概率預(yù)測(cè)[1]。相對(duì)于基于模型的故障概率預(yù)測(cè)需要獲取研究對(duì)象的精確的故障概率模型,基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法應(yīng)用更為靈活,因此受到了廣泛的關(guān)注[2]。文獻(xiàn)[3-5]對(duì)常用算法在故障預(yù)測(cè)中的運(yùn)用進(jìn)行了分析,但是機(jī)載設(shè)備故障原因復(fù)雜、不確定性強(qiáng)、樣本不足等問(wèn)題導(dǎo)致這些方法很難發(fā)揮其優(yōu)勢(shì)。
在數(shù)據(jù)驅(qū)動(dòng)的故障概率預(yù)測(cè)方法中,插值與擬合是最為高效的方法。而遷移學(xué)習(xí)[6],或稱歸納遷移,是機(jī)器學(xué)習(xí)中的一個(gè)重要研究問(wèn)題,其目標(biāo)是將某個(gè)領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識(shí)或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問(wèn)題中[7]。遷移學(xué)習(xí)試圖實(shí)現(xiàn)人通過(guò)類比進(jìn)行學(xué)習(xí)的能力,可以很好地解決樣本不足的問(wèn)題。
通過(guò)分析機(jī)載設(shè)備故障數(shù)據(jù),發(fā)現(xiàn)機(jī)載設(shè)備的故障概率不僅僅和飛行時(shí)次相關(guān),不同的工作環(huán)境也會(huì)對(duì)故障概率造成影響。單獨(dú)對(duì)各個(gè)工作環(huán)境的數(shù)據(jù)分析會(huì)引起樣本不足的問(wèn)題,基于樣本特征的遷移學(xué)習(xí)[8]可以解決這一問(wèn)題。本文在插值、擬合與遷移學(xué)習(xí)的基礎(chǔ)上,提出了一種針對(duì)于不同工作環(huán)境的機(jī)載設(shè)備故障概率預(yù)測(cè)算法。算法將插值、擬合與遷移學(xué)習(xí)通過(guò)自適應(yīng)權(quán)重進(jìn)行線性組合,在提升數(shù)據(jù)利用效率的同時(shí)規(guī)避遷移學(xué)習(xí)所帶來(lái)風(fēng)險(xiǎn)。
在研究機(jī)載設(shè)備故障概率預(yù)測(cè)問(wèn)題時(shí),由于設(shè)備價(jià)格昂貴,通過(guò)實(shí)驗(yàn)建立精確的設(shè)備故障概率模型是不現(xiàn)實(shí)的。那么歷史故障數(shù)據(jù)就成了預(yù)測(cè)其故障概率的主要依據(jù)。為了區(qū)分工作環(huán)境,即對(duì)不同的工作環(huán)境給出不同的故障概率分布函數(shù),數(shù)據(jù)量往往不充足并且不平衡。在樣本較少的情況下,插值、擬合方法都很難精確地描述故障概率,選擇類似數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)是有效的數(shù)據(jù)補(bǔ)充手段;而在樣本充足的情況下,遷移學(xué)習(xí)會(huì)稀釋其數(shù)據(jù)特征,造成負(fù)遷移現(xiàn)象。什么時(shí)候選擇遷移,選擇哪些數(shù)據(jù)進(jìn)行遷移,如何遷移,是決定學(xué)習(xí)效果的3個(gè)關(guān)鍵問(wèn)題[6]。針對(duì)以上3個(gè)問(wèn)題,本文提出了自適應(yīng)權(quán)重的插值-擬合-遷移學(xué)習(xí)(interpolation-fitting-transfer learning, IFT)算法。
IFT算法模仿了人對(duì)數(shù)據(jù)歸納、類比的能力,充分利用所掌握的信息,以減小數(shù)據(jù)量不充足、不平衡所帶來(lái)的預(yù)測(cè)誤差。該算法對(duì)插值、擬合、遷移學(xué)習(xí)賦予一定的權(quán)重進(jìn)行線性組合。算法的主要公式為
fr(x,t)=
(1)
式中,fr(x,t)表示工作環(huán)境為x,飛行時(shí)次為t的設(shè)備預(yù)測(cè)故障概率;α·IP(x,t)是故障頻率分布的插值;β·FIT(x,t)是根據(jù)分布函數(shù)的擬合;∑[θ(x,x′)·IP(x′,t)]是對(duì)其他工作環(huán)境故障數(shù)據(jù)的遷移學(xué)習(xí),其中x′∈X-x。α、β、θ分別為插值、擬合與遷移學(xué)習(xí)權(quán)重。由于α、β、θ齊次,且次數(shù)為0,所以在工作環(huán)境x數(shù)據(jù)量不為0的情況下,默認(rèn)α=1;當(dāng)工作環(huán)境取值為x的數(shù)據(jù)量為0時(shí),默認(rèn)α=0。
(2)
式中,sim(IP(x,t),FIT(x,t))是擬合與插值的分布相似度;d(fitco)為擬合函數(shù)的參數(shù)數(shù)量;ds(x)為工作環(huán)境x的樣本數(shù)量。
(3)
式中,分布相似度sim(f(t),g(t))表示分布f(t)與g(t)的相似程度。由于故障預(yù)測(cè)是為了備件與維修工作,所以采用的相似度量與備件、維修風(fēng)險(xiǎn)度量相關(guān)。
(4)
式中,x′∈X-x,diff(x,x′)表示工作環(huán)境x與x′中取值不同的維,例如x1=(機(jī)型1,氣候條件1),x2=(機(jī)型1,氣候條件2),diff(x1,x2)={氣候條件}。
ie(Xd)=-∑p(Xd)·log2(p(Xd))
(5)
式中,ie(Xd)表示維向量Xd的信息熵。
對(duì)應(yīng)于前文中所提及的遷移學(xué)習(xí)關(guān)鍵問(wèn)題[6],IFT算法遵循以下兩個(gè)準(zhǔn)則:①當(dāng)前樣本數(shù)據(jù)越少,插值和擬合方法越難以趨近真實(shí)的概率分布,則遷移學(xué)習(xí)權(quán)重越高;②遷移學(xué)習(xí)數(shù)據(jù)與當(dāng)前數(shù)據(jù)的相似度越高,則其權(quán)重越大。所以,遷移學(xué)習(xí)權(quán)重θ(x,x′)與分布相似度(根據(jù)式(3)計(jì)算)、信息熵(根據(jù)式(5)計(jì)算)和數(shù)據(jù)量相關(guān)。工作環(huán)境x數(shù)據(jù)量為0時(shí),默認(rèn)sim(IP(x),IP(x′))-1。
本節(jié)將分析插值、擬合與遷移學(xué)習(xí)在預(yù)測(cè)結(jié)果中所占的比例,討論算法的復(fù)雜度和簡(jiǎn)化方法,以驗(yàn)證算法的合理性與可行性。
工作環(huán)境x的數(shù)據(jù)量為0時(shí),α=β=0,有
fr(x,t)=∑[θ(x,x′)·IP(x′,t)]/∑θ(x,x′)
θ(x,x′)=[log2(1+ds(x′))]2/ie(diff(x,x′))
預(yù)測(cè)只來(lái)自于遷移學(xué)習(xí),遷移學(xué)習(xí)權(quán)重取決于數(shù)據(jù)量和信息熵。工作環(huán)境x的數(shù)據(jù)量為+∞時(shí),α=1,β=0,θ(x,x′)=0,fr(x,t)=IP(x,t)預(yù)測(cè)只來(lái)自于插值。
通常情況下,數(shù)據(jù)量介于以上兩種極端情況之間。為了直觀地顯示IFT比例,假設(shè)各個(gè)工作環(huán)境相互獨(dú)立并且均勻分布,平均每個(gè)變量的可取值數(shù)量都為5,默認(rèn)擬合度為1。
在這樣的條件下,IFT比例的變化趨勢(shì)如圖1所示。圖1中數(shù)據(jù)量是關(guān)于2的對(duì)數(shù),可以發(fā)現(xiàn)插值比例隨著數(shù)據(jù)量的增大而增大,擬合與遷移學(xué)習(xí)則相反。
圖1 IFT的比例變化Fig.1 Change of IFT’s proportions
為了驗(yàn)證算法的可行性,需要對(duì)算法的時(shí)間復(fù)雜度進(jìn)行分析。假設(shè)工作環(huán)境x的維數(shù)為m,各維的取值數(shù)量為n,各個(gè)維度相互獨(dú)立,并且數(shù)據(jù)量均勻分布,數(shù)據(jù)總量為D,那么對(duì)應(yīng)于某個(gè)工作環(huán)境的數(shù)據(jù)量為d=D/nm。
對(duì)于初次學(xué)習(xí),采用線性插值,插值復(fù)雜度為O(dlog2d),插值次數(shù)為nm,總復(fù)雜度為O(nm·dlog2d)=O(Dlog2d);最小二乘法擬合指數(shù)分布,單項(xiàng)擬合數(shù)據(jù)量為d,擬合復(fù)雜度與精度有一定的關(guān)系,可以認(rèn)為是O(kd),其中k是與指數(shù)函數(shù)計(jì)算精度有關(guān)的參數(shù),擬合次數(shù)為nm,總復(fù)雜度為O(kD)。關(guān)于擬合權(quán)重與遷移學(xué)習(xí)項(xiàng)權(quán)重的計(jì)算,擬合權(quán)重β的計(jì)算復(fù)雜度為O(lD),其中l(wèi)是與指數(shù)函數(shù)計(jì)算精度有關(guān)的參數(shù),擬合權(quán)重計(jì)算次數(shù)為nm,擬合權(quán)重計(jì)算總復(fù)雜度為O(lD)。遷移學(xué)習(xí)項(xiàng)權(quán)重θ(x,x′)的計(jì)算復(fù)雜度為O(2d),遷移項(xiàng)權(quán)重計(jì)算次數(shù)為n2m,遷移項(xiàng)權(quán)重計(jì)算總復(fù)雜度為O(n2m·D)。所以,初次學(xué)習(xí)的總復(fù)雜度的數(shù)量級(jí)為O(n2m·D)。
對(duì)于增量學(xué)習(xí),每增加一條數(shù)據(jù),由于有遷移學(xué)習(xí)的存在,算法需要重新計(jì)算1次插值頻率、1次擬合頻率、1次擬合權(quán)重和nm次遷移項(xiàng)權(quán)重,總復(fù)雜度為O(nm·D)。在原有數(shù)據(jù)量D的基礎(chǔ)上新增數(shù)據(jù)量D′,復(fù)雜度為O(nm·D′2+nm·D·D′),在數(shù)據(jù)量大、維數(shù)多的情況下會(huì)導(dǎo)致組合爆炸,所以考慮對(duì)其進(jìn)行簡(jiǎn)化。根據(jù)算法特征,有3種簡(jiǎn)化方法:
(1) 新增數(shù)據(jù)積累到一定量后進(jìn)行一次重計(jì)算;
(2) 限制遷移學(xué)習(xí)范圍;
(3) 對(duì)工作環(huán)境維度進(jìn)行剪枝。
仿真實(shí)例選擇某一段時(shí)間某型號(hào)機(jī)載設(shè)備的故障數(shù)據(jù)。數(shù)據(jù)格式為(搭載機(jī)型,氣候條件,飛行時(shí)次),其中搭載機(jī)型4種,氣候條件6種,數(shù)據(jù)量為249。一般認(rèn)為該設(shè)備故障概率服從Weibull分布,之前采用的預(yù)測(cè)主要方法也是Weibull擬合。
如圖2所示,對(duì)于全局故障數(shù)據(jù)(不區(qū)分工作環(huán)境),其擬合程度相當(dāng)高。但是不同機(jī)型和氣候條件的故障概率分布存在一定差異,如圖3和圖4所示。針對(duì)各工作環(huán)境,采用同一個(gè)插值或是擬合函數(shù)不能區(qū)分工作環(huán)境所帶來(lái)的差異;而對(duì)每一種工作環(huán)境單獨(dú)進(jìn)行插值或是擬合則會(huì)由于數(shù)據(jù)量不足而產(chǎn)生誤差。
圖2 故障頻率與Weibull擬合Fig.2 Fault frequency and Weibull fitting
圖3 各機(jī)型故障頻率Fig.3 Fault frequency distinguished by aircraft type
圖4 各氣候條件故障頻率Fig.4 Fault frequency distinguished by climate condition
由于真實(shí)的故障概率分布未知,需要保留一定量的數(shù)據(jù)作為校驗(yàn)集,以預(yù)測(cè)概率和校驗(yàn)集頻率的分布相似度來(lái)衡量算法效果。為了模擬真實(shí)情況,數(shù)據(jù)按輸入時(shí)間順序來(lái)劃分,前156條作為訓(xùn)練集D,后93條數(shù)據(jù)作為校驗(yàn)集D′。
步驟1根據(jù)式(5)計(jì)算工作環(huán)境差異信息熵值。
步驟2計(jì)算頻率插值、分布擬合。實(shí)例選擇線型插值和最小二乘Weibull分布擬合[9-10]。
步驟3計(jì)算擬合權(quán)重β、遷移學(xué)習(xí)項(xiàng)權(quán)重θ與IFT比例。其中積分步長(zhǎng)大小取1,由于分布函數(shù)單調(diào)遞增,函數(shù)值取積分區(qū)間的中點(diǎn)值。
步驟4計(jì)算預(yù)測(cè)概率分布。根據(jù)所得的α、β、θ,以及式(1)來(lái)計(jì)算各個(gè)工作環(huán)境下的故障概率分布。
對(duì)于全局故障數(shù)據(jù)(不區(qū)分工作環(huán)境)的概率分布,對(duì)線型插值、Weibull分布擬合以及IFT 3種方法進(jìn)行比較(見(jiàn)表1)。對(duì)于各工作環(huán)境故障概率分布,對(duì)線型插值(區(qū)分工作環(huán)境)、Weibull分布擬合(區(qū)分工作環(huán)境)、全局線型插值(不區(qū)分工作環(huán)境)、全局Weibull分布擬合(不區(qū)分工作環(huán)境)以及IFT 5種方法進(jìn)行比較(見(jiàn)表2)。
表1 全局預(yù)測(cè)準(zhǔn)確度(不區(qū)分工作環(huán)境)比較
如表1所示,對(duì)于全局故障數(shù)據(jù)而言,不論是插值、擬合還是IFT方法,都有很高的準(zhǔn)確率。如表2和表3所示,在區(qū)分工作環(huán)境的情況下,IFT方法表現(xiàn)出了一定的優(yōu)勢(shì)(其中數(shù)據(jù)量為0的工作環(huán)境不進(jìn)行檢驗(yàn),不在表格中出現(xiàn))。尤其對(duì)于數(shù)據(jù)量較少的工作環(huán)境,遷移學(xué)習(xí)能提高預(yù)測(cè)結(jié)果的穩(wěn)定性,避免數(shù)據(jù)量少而導(dǎo)致的極大誤差(如表2中的工作環(huán)境12、14)。在實(shí)例中,工作環(huán)境僅僅考慮了機(jī)型和氣候條件,向量維數(shù)較少,IFT方法的優(yōu)勢(shì)不明顯,但隨著工作環(huán)境維數(shù)的增加,IFT方法的優(yōu)勢(shì)會(huì)逐漸增大。
表2 各工作環(huán)境預(yù)測(cè)準(zhǔn)確度比較
表3 各工作環(huán)境平均預(yù)測(cè)準(zhǔn)確度比較
本文分析了IFT算法的復(fù)雜度,通過(guò)實(shí)例展現(xiàn)了其優(yōu)勢(shì),論證了IFT方法是一種可行并且有效的機(jī)載設(shè)備故障概率預(yù)測(cè)方法。IFT算法的主要優(yōu)勢(shì)在于:
(1) 算法體現(xiàn)了不同工作環(huán)境對(duì)機(jī)載設(shè)備故障概率預(yù)測(cè)的影響;
(2) 算法根據(jù)數(shù)據(jù)量和數(shù)據(jù)特征自適應(yīng)調(diào)整各部分比例,規(guī)避了數(shù)據(jù)貧化所帶來(lái)的預(yù)測(cè)風(fēng)險(xiǎn),也減少了負(fù)遷移現(xiàn)象。
為了能滿足大多數(shù)機(jī)載設(shè)備的故障概率預(yù)測(cè)需求,仍存在一些問(wèn)題需要解決:
(1) 除了工作環(huán)境(枚舉型),數(shù)據(jù)中還存在其他影響設(shè)備故障概率造成的因素,例如對(duì)于可修復(fù)件,有歷史故障次數(shù)(離散型)、歷史總飛行時(shí)次(連續(xù)型);
(2) 數(shù)據(jù)的內(nèi)容、結(jié)構(gòu)不同;
(3) 數(shù)據(jù)中存在大量的缺失值。
對(duì)于這些問(wèn)題,需要適用范圍更廣的相似度度量和數(shù)據(jù)特征遷移學(xué)習(xí)方法,這將在下一步工作中進(jìn)行研究。
[1] LUO J H, NAMBURU M, PATTIPATI K, et al. Model-based prognostic techniques[C]∥Proc.of the Autotestcon IEEE Systems Readiness Technology Conference, 2003: 330-340.
[2] 張磊, 李行善, 于勁松, 等. 基于關(guān)聯(lián)向量機(jī)回歸的故障預(yù)測(cè)算法[J]. 系統(tǒng)工程與電子技術(shù), 2010, 32(7): 1540-1543.
ZHANG L, LI X S, YU J S, et al. Fault prognostic algorithm based on relevance vector machine regression[J]. Systems Engineering and Electronics, 2010, 32(7): 1540-1543.
[3] ZHANG C L, HE Y G, YUAN L F, et al. A novel approach for analog circuit fault prognostics based on improved RVM[J]. Journal of Electronic Testing Theory & Applications, 2014, 30(3): 343-356.
[4] EKER O F, CAMCI F. State-based prognostics with state duration information[J]. Quality and Reliability Engineering International, 2013, 29: 465-476.
[5] XIA F, ZHANG H, LONG J Q, et al. Fault diagnosis of turbine unit equipment based on data fusion and RBF neural network[J]. Lecture Notes in Computer Science, 2011, 7002(2): 74-81.
[6] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Trans.on Knowledge & Data Engineering,2010,22(10):1345-1359.
[7] 龍明盛. 遷移學(xué)習(xí)問(wèn)題與方法研究[D]. 北京: 清華大學(xué), 2015.
LONG M S. Transfer learning: problems and methods[D]. Beijing: Tsinghua University, 2015.
[8] 楊士準(zhǔn). 基于樣本和特征的遷移學(xué)習(xí)方法及應(yīng)用[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2016.
YANG S Z. Instance-based and feature-based transfer learning approaches with their applications[D]. Changsha: National University of Defense Technology, 2016.
[9] LU H L, CHEN C H, WU J W, et al. A note on weighted least-squares estimation of the shape parameter of the Weibull distribution[J].Quality & Reliability Engineering International, 2004, 20(6): 579-586.
[10] 魏星. 基于多組樣本和順序統(tǒng)計(jì)量的威布爾分布參數(shù)置信區(qū)間的估計(jì)[D]. 上海: 上海交通大學(xué), 2016.
WEI X. The confidence intervals for the Weibull parameters based on multi-sample and order statistic[D]. Shanghai: Shanghai Jiaotong University, 2016.