任廣皓 張桂剛 王 健
(中國(guó)科學(xué)院自動(dòng)化研究所 北京 100190)
隨著人工智能、神經(jīng)網(wǎng)絡(luò)等技術(shù)的興起,在航空信息系統(tǒng)的研究中,基于數(shù)據(jù)驅(qū)動(dòng)的方法占據(jù)了科研與工程應(yīng)用的主流[1~2],尤其是故障診斷、壽命預(yù)測(cè)等健康管理領(lǐng)域[3~5]。相比傳統(tǒng)的專家?guī)?、人工判讀等方式[6~7],貝葉斯方法、支持向量機(jī)等機(jī)器學(xué)習(xí)算法不依賴于物理失效模型[8~10],對(duì)特定領(lǐng)域下的專家知識(shí)的需求也相對(duì)較低[11]。然而,基于數(shù)據(jù)驅(qū)動(dòng)的方法對(duì)于數(shù)據(jù)質(zhì)量的好壞異常敏感。因此,對(duì)于數(shù)據(jù)的有效挖掘不僅是各類基于數(shù)據(jù)驅(qū)動(dòng)方法的實(shí)現(xiàn)基礎(chǔ),也是影響其最終結(jié)果的關(guān)鍵因素。
目前,傳感器越加智能化、微型化,價(jià)格也越來(lái)越低廉[12]。通過(guò)配置的各類傳感器,可監(jiān)測(cè)的參數(shù)數(shù)量呈爆炸式增長(zhǎng)。據(jù)統(tǒng)計(jì),空客A350飛機(jī)的監(jiān)控參數(shù)達(dá)40萬(wàn)個(gè)[13],波音787飛機(jī)約15萬(wàn)個(gè)[14]。此外,需處理的數(shù)據(jù)體量也呈指數(shù)增加,資料顯示,針對(duì)空客A350這一機(jī)型,僅執(zhí)行一個(gè)航班所采集到的數(shù)據(jù)就達(dá)到0.5Tb[15]。此外,飛機(jī)這一高度復(fù)雜的整體中,所采集的數(shù)據(jù)間本就存在著大量的冗余[16~17]?;谝陨媳尘埃呔S度、高冗余的數(shù)據(jù)質(zhì)量問(wèn)題變得尤為嚴(yán)重。由此可見(jiàn),針對(duì)海量參數(shù)下的數(shù)據(jù)挖掘?qū)τ诤娇招畔⑾到y(tǒng)有著重要的工程及研究意義。
論文聚焦于航空信息系統(tǒng)的數(shù)據(jù)層面,通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)參數(shù)進(jìn)行場(chǎng)景敏感性挖掘以及參數(shù)間的冗余性分析,進(jìn)而解決參數(shù)維度高、數(shù)據(jù)冗余而導(dǎo)致的算法效率低、精度差的問(wèn)題,并通過(guò)真實(shí)場(chǎng)景下的案例研究,驗(yàn)證處理方法的有效性,為新一代飛機(jī)等航空信息系統(tǒng)的故障診斷與健康狀態(tài)管理系統(tǒng)的設(shè)計(jì)與研制提供數(shù)據(jù)維度下的支撐。
針對(duì)于航空信息系統(tǒng),數(shù)據(jù)質(zhì)量問(wèn)題主要體現(xiàn)在:由于諸多的采集傳感器所導(dǎo)致的數(shù)據(jù)維度過(guò)高的問(wèn)題,以及由于系統(tǒng)間的高關(guān)聯(lián)性所引起的數(shù)據(jù)冗余性大問(wèn)題。因此,其數(shù)據(jù)挖掘主要集中在場(chǎng)景敏感性以及冗余性分析。論文以故障診斷為應(yīng)用背景,分別進(jìn)行故障敏感性和數(shù)據(jù)冗余性挖掘分析。并基于真實(shí)的航空信息系統(tǒng)數(shù)據(jù),構(gòu)建完整的數(shù)據(jù)挖掘管道。論文中所使用的數(shù)據(jù)來(lái)源為某型號(hào)發(fā)動(dòng)機(jī)100架次真實(shí)的飛行運(yùn)行數(shù)據(jù)。其中每個(gè)采樣時(shí)刻包含發(fā)動(dòng)機(jī)監(jiān)測(cè)參數(shù)306個(gè);不同故障場(chǎng)景18+7+6=31個(gè),涵蓋故障類型3種。具體情況整理如表1所示。
表1 實(shí)驗(yàn)中故障數(shù)據(jù)描述
數(shù)據(jù)挖掘管道流程圖如圖1所示。
圖1 數(shù)據(jù)挖掘管道路線圖
首先,對(duì)于所采集的信號(hào),以采樣率16Hz進(jìn)行采樣。通過(guò)發(fā)動(dòng)機(jī)自身故障檢測(cè)開(kāi)關(guān)量實(shí)現(xiàn)對(duì)于數(shù)據(jù)的自動(dòng)標(biāo)注??紤]到不同參數(shù)數(shù)量級(jí)與量綱的不同,對(duì)數(shù)據(jù)統(tǒng)一進(jìn)行標(biāo)準(zhǔn)化處理。然后,對(duì)數(shù)據(jù)進(jìn)行故障敏感性分析以及參數(shù)冗余性分析。對(duì)于敏感參數(shù)挖掘結(jié)果,考慮到特征空間以及模型泛化需求,以并集方式進(jìn)行輸出;對(duì)于參數(shù)相關(guān)性挖掘結(jié)果,則聚焦于對(duì)展示出強(qiáng)相關(guān)的參數(shù)的刪除,選取模型結(jié)果的交集進(jìn)行輸出。對(duì)于結(jié)果的有效性評(píng)估,通過(guò)專家驗(yàn)證的方式,判斷真實(shí)的數(shù)據(jù)環(huán)境下,算法挖掘結(jié)果是否與實(shí)際情況相符。
在實(shí)驗(yàn)過(guò)程中,對(duì)于3類故障模式(喘振、應(yīng)急切加力、轉(zhuǎn)備份)數(shù)據(jù)均通過(guò)本文提出的數(shù)據(jù)挖掘方法進(jìn)行了分析。本部分主要以喘振故障的有關(guān)結(jié)果作為展示。
故障敏感性分析分為淺層挖掘與深層挖掘,其中淺層挖掘包含單因素敏感性分析與基于可解釋性模型的敏感性分析。深層挖掘則聚焦于非特定模型下的樣本信息挖掘,包括基于邊際貢獻(xiàn)與排列重要性的敏感性分析。
3.1.1 故障敏感性淺層挖掘結(jié)果
故障敏感性淺層挖掘包括單因素敏感性分析與基于可解釋性模型的故障敏感性分析。其中,單因素敏感性分析是通過(guò)對(duì)參數(shù)的單一統(tǒng)計(jì)學(xué)指標(biāo)進(jìn)行量化實(shí)現(xiàn)對(duì)故障敏感性的淺層挖掘,如:參數(shù)均值、協(xié)方差的變化情況;可解釋機(jī)器學(xué)習(xí)法主要通過(guò)模型自身的可解釋性對(duì)參數(shù)的敏感性進(jìn)行挖掘,本論文采用了工業(yè)屆常用的決策樹(shù)、支持向量機(jī)方法。針對(duì)某一故障場(chǎng)景下的故障敏感參數(shù)挖掘可視化結(jié)果如圖2、3所示。
圖2 某故障場(chǎng)景下故障敏感參數(shù)(僅以兩個(gè)為例)
圖3 某故障場(chǎng)景下非敏感參數(shù)結(jié)果(僅以兩個(gè)為例)
3.1.2 故障敏感性深層挖掘結(jié)果
考慮到可解釋模型對(duì)于模型的選擇具有一定約束,故障敏感性深層挖掘聚焦于非固定模型下的樣本信息挖掘,能夠?qū)崿F(xiàn)針對(duì)深度不可解釋模型的樣本挖掘,包括基于邊際貢獻(xiàn)與排列重要性的敏感性分析。其中,基于邊際貢獻(xiàn)的敏感性分析計(jì)算了博弈論中的夏普利值;而基于排列重要性的敏感性分析則是通過(guò)對(duì)于樣本擾動(dòng),觀察結(jié)果的反應(yīng)行為進(jìn)而實(shí)現(xiàn)對(duì)參數(shù)的故障敏感性分析。具體實(shí)現(xiàn)上,本論文利用多層感知機(jī)進(jìn)行故障識(shí)別,針對(duì)識(shí)別結(jié)果的混淆矩陣選取真陽(yáng)性與真陰性結(jié)果進(jìn)行分析。針對(duì)某一故障場(chǎng)景下的故障敏感參數(shù)挖掘可視化結(jié)果如圖4、5所示。
圖4 某故障場(chǎng)景下排列重要性敏感性挖掘部分結(jié)果
3.1.3 故障敏感性分析結(jié)果
本部分針對(duì)故障診斷這一場(chǎng)景,對(duì)含有故障的某發(fā)動(dòng)機(jī)的真實(shí)運(yùn)行數(shù)據(jù),共計(jì)306個(gè)參數(shù)進(jìn)行故障敏感性分析,最終成功獲得了17個(gè)故障敏感參數(shù)作為后續(xù)故障診斷模型的特征。該分析結(jié)果得到了專家知識(shí)的驗(yàn)證。其中,針對(duì)喘振故障的故障敏感參數(shù)分析結(jié)果如表2所示。
表2 喘振故障敏感參數(shù)
數(shù)據(jù)冗余性分析計(jì)算了各參數(shù)之間的相關(guān)性,根據(jù)統(tǒng)計(jì)學(xué)定義,相關(guān)系數(shù)絕對(duì)值大于0.8的參數(shù)間具有強(qiáng)相關(guān)關(guān)系,可以選擇刪除。本論文中使用的方法包括了皮爾森相關(guān)性分析,皮爾曼相關(guān)性與肯德?tīng)栔认嚓P(guān)性分析以及多元回歸分析。相關(guān)性分析結(jié)果如下所示。
1)皮爾森相關(guān)性分析
高壓轉(zhuǎn)子轉(zhuǎn)速與低壓轉(zhuǎn)子轉(zhuǎn)速、風(fēng)扇導(dǎo)葉角角度與低壓轉(zhuǎn)子轉(zhuǎn)速、壓氣機(jī)出口總壓與主燃油總管壓力、進(jìn)口總溫與大氣總溫、低壓轉(zhuǎn)子轉(zhuǎn)速與壓氣機(jī)導(dǎo)葉角角度、風(fēng)扇導(dǎo)葉角角度與壓氣機(jī)導(dǎo)葉角角度間顯示出較強(qiáng)相關(guān)關(guān)系。
圖5 某故障場(chǎng)景下基于邊際貢獻(xiàn)敏感參數(shù)挖掘部分結(jié)果
2)斯皮爾曼相關(guān)性分析
渦輪后排氣溫度與高壓轉(zhuǎn)子轉(zhuǎn)速、壓氣機(jī)出口總壓與主燃油總管壓力、進(jìn)口總溫與大氣總溫間顯示出較強(qiáng)相關(guān)關(guān)系。
3)肯德?tīng)栔认嚓P(guān)性分析
進(jìn)口總溫與大氣總溫間顯示出較強(qiáng)相關(guān)關(guān)系。其中,對(duì)于皮爾森相關(guān)性分析的可視化結(jié)果如圖6所示。
多元回歸分析通過(guò)構(gòu)建參數(shù)間線性或非線性關(guān)系式來(lái)衡量參數(shù)間的相關(guān)性。本論文通過(guò)構(gòu)建參數(shù)間的線性回歸模型實(shí)現(xiàn)對(duì)數(shù)據(jù)的相關(guān)性分析,可視化結(jié)果展示如圖7所示。
圖6 皮爾森相關(guān)性分析結(jié)果
圖7
可以看到,對(duì)于參數(shù)主燃油總管壓力(參數(shù)9),其與參數(shù)壓氣機(jī)出口總壓(參數(shù)7)之間存在較強(qiáng)的相關(guān)性。
本部分在故障敏感參數(shù)挖掘結(jié)果的基礎(chǔ)上進(jìn)行數(shù)據(jù)冗余性分析,通過(guò)對(duì)于3類不同樣本的相關(guān)性分析,發(fā)現(xiàn)參數(shù)主燃油總管壓力和壓氣機(jī)出口總壓間存在著強(qiáng)相關(guān)關(guān)系,即數(shù)據(jù)間存在冗余,該結(jié)果亦得到了專家知識(shí)的驗(yàn)證。
本文利用數(shù)據(jù)挖掘技術(shù)結(jié)合人工智能手段對(duì)航空信息系統(tǒng)中參數(shù)的場(chǎng)景敏感性以及數(shù)據(jù)冗余性進(jìn)行挖掘。通過(guò)對(duì)真實(shí)案例的實(shí)驗(yàn),構(gòu)建了針對(duì)于故障診斷這一應(yīng)用場(chǎng)景的數(shù)據(jù)挖掘管道,且結(jié)果均通過(guò)專家知識(shí)的方式進(jìn)行了驗(yàn)證,所提出的方法能夠?yàn)橹蟮南嚓P(guān)算法模型提供更優(yōu)質(zhì)的數(shù)據(jù)輸入,從源頭提高模型效率以及精度。