顏世東 楊望燦
(91404部隊91分隊 秦皇島 066001)
飛行試驗伴隨著航空器裝備從基礎(chǔ)研發(fā)、應(yīng)用技術(shù)研究、型號研制到航空器使用全過程,是適航驗證和新技術(shù)驗證的關(guān)鍵環(huán)節(jié),其中試飛過程中的異常情況極具價值,對異常情況的試飛數(shù)據(jù)進行研究,具有現(xiàn)實意義。
飛行試驗數(shù)據(jù)源復(fù)雜,除了傳統(tǒng)航電系統(tǒng)、飛控系統(tǒng)、綜合核心處理機系統(tǒng)、綜合電子戰(zhàn)系統(tǒng)及眾多飛行試驗接口等數(shù)據(jù)源外,數(shù)字化高清視頻圖像監(jiān)視與實時遙測圖像[1~2]在飛行試驗中的應(yīng)用也愈加廣泛。數(shù)據(jù)源的復(fù)雜造成了飛行試驗數(shù)據(jù)結(jié)構(gòu)日趨多元[4],不僅包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還包括文檔、圖片、網(wǎng)頁、音頻、視頻圖像以及光電測量[5]等非結(jié)構(gòu)數(shù)據(jù)或者半結(jié)構(gòu)數(shù)據(jù)。數(shù)據(jù)多元化的新特征擴展了飛行試驗的成果和潛力,但同時也成為飛行試驗數(shù)據(jù)管理的負擔。與此同時,現(xiàn)代飛行試驗數(shù)據(jù)成幾何級增長,數(shù)據(jù)處理的效率卻越來越高。
通過分析影響飛行試驗的相關(guān)因子特征,建立一種適用飛行試驗數(shù)據(jù)分析的多源異構(gòu)數(shù)據(jù)融合模型?;诖四P?,通過改進K-means聚類算法,設(shè)計一種適應(yīng)于一維數(shù)據(jù)的數(shù)據(jù)級多源異構(gòu)數(shù)據(jù)融合算法;其二,采用卷積神經(jīng)網(wǎng)絡(luò)[9~10]對飛行試驗圖像數(shù)據(jù)進行處理;其三,利用模糊神經(jīng)網(wǎng)絡(luò)[11],將數(shù)據(jù)級融合算法的結(jié)果和卷積神經(jīng)網(wǎng)絡(luò)圖像處理算法的結(jié)果進行決策級融合,提出一種新多源異構(gòu)數(shù)據(jù)融合組合算法——DistributedOntheflyDecision(DOD)組合算法。DOD組合算法解決了多源異構(gòu)數(shù)據(jù)融合的難題,提高了決策結(jié)果的精度,滿足飛行試驗異常預(yù)測需求。
飛行試驗過程中,飛行器中的各種機載系統(tǒng)記錄并存儲飛行實驗數(shù)據(jù),此外通過雷達、光電、視頻等探測和監(jiān)視手段,獲得雷達、頻譜、圖像、光電信號等數(shù)據(jù)。試驗數(shù)據(jù)源的不同,帶來電氣特性、信號特征、數(shù)據(jù)結(jié)構(gòu)和傳輸協(xié)議等不同特征,造成大量異構(gòu)數(shù)據(jù)。通過對多源異構(gòu)原始數(shù)據(jù)進行預(yù)處理,將多維信息降維為一維信號數(shù)據(jù),使其具備時間連續(xù)性、數(shù)值有效性、間隔等時性以及變化趨勢一致性。預(yù)處理后的數(shù)據(jù)作為數(shù)據(jù)融合模型的數(shù)據(jù)源。
目前常見的深度學習算法,進行多維信息降維處理之后,會丟失大量的特征,影響決策精度。本文基于多種深度學習算法建立了數(shù)據(jù)級融合與決策級融合相結(jié)合的模型,充分有效融合飛行試驗過程中產(chǎn)生的海量多源異構(gòu)數(shù)據(jù),并提取與異常情況影響因子相關(guān)的特征。
圖1 數(shù)據(jù)級融合與決策級融合相結(jié)合模型
K-means算法通過循環(huán)計算各個點到簇類中心的距離來更新簇類中心,最終將數(shù)據(jù)集X={x1,x2,…,xn} 劃 分 為K個 互 不 相 交 的 簇P={P1,P2,…,PK}。
K-means算法基本原理如下:
1)對于數(shù)據(jù)集X={x1,x2,…,xn},隨機選擇K個數(shù)據(jù)作為初始聚類中心{c1,c2,…ck}。
2)對于任意數(shù)據(jù)點xj∈X(1≤j≤n),xj與各初始聚類中心ci(1≤i≤K)的距離為
常規(guī)的K-means算法存在如下缺陷:
1)隨機初始化簇類中心有可能使計算結(jié)果局限于局部最優(yōu),算法的聚類結(jié)果受選擇的初始選取的點影響很大[12~13],算法結(jié)果不穩(wěn)定。
2)對離群點比較敏感,如果將離群點選為初始聚類中心,則會使算法一開始就陷入偏差,也會影響算法聚類效果。
3)K值的選取也難以把握,如果過小,則在一個實際簇類中可能有多個中心點,導致結(jié)果進一步偏離;如果過大,則算法收斂慢且同樣會存在偏差,影響算法準確性。
4)隨機初始化聚類中心對計算的效率影響較大,選取的簇類中心若靠近實際聚類中心,則迭代次數(shù)少,效率高,算法效率不穩(wěn)定。
在飛行試驗中,對試驗結(jié)果的穩(wěn)定性、效率、準確性均有較高的要求,否則難以滿足快速決策的需要。
為了提高聚類效果,本文對K-means作出如下改進。
1)首先挑選出具有高密集度的點作為初始初始聚類中心,避開離群點,使算法不會一開始就偏離,提高算法的穩(wěn)定性。
對于數(shù)據(jù)集X={x1,x2,…,xn},隨機選擇K個數(shù)據(jù)作為初始聚類中心{c1,c2,…ck},任意數(shù)據(jù)點xi∈X(1≤i≤n),xi的密度集為
Gt(xi)是距離xi最近的t個數(shù)據(jù)點的集合,d(xi,xj)是數(shù)據(jù)點xi與xj的距離。
2)考慮到數(shù)據(jù)集實際分布情況,用最大近鄰半徑來劃分區(qū)域,選取合適的K值,從而使初始聚類中心間分布較為均勻且更靠近實際聚類中心,提高準確性及效率。
在2維空間R2中,以任一個聚類中心ci為圓心,存在一個數(shù)據(jù)點xi,xi到ci的距離為半徑,滿足該圓內(nèi)數(shù)據(jù)點個數(shù)不超過δi,此半徑稱為ci的最大近鄰半徑。Si為ci最大近鄰半徑中所含有的數(shù)據(jù)點集合(包含點 ci)n(1≤i≤K)。最大近鄰半徑可擴展至n維空間Rn。
假設(shè)ci的密集度為Di,D為所有數(shù)據(jù)點的平均密集度。
對初始聚類中心選擇的改進算法步驟如下:
1)生成一個矩陣M ,儲存數(shù)據(jù)集X中任意兩點的距離 d(xi,xj)(1≤i,j≤n,i≠j)。
2)計算每個數(shù)據(jù)點的密集度D(xi)及所有對象的平均密集度D。
3)選取密集度最大的點ci作為初始聚類中心,并從數(shù)據(jù)集X中刪除該點所對應(yīng)的最大近鄰半徑數(shù)據(jù)集 Si(1≤i≤K)。
4)重復(fù)執(zhí)行步驟3),直到選出所有K個初始聚類中心。
通常情況下,異常數(shù)據(jù)在數(shù)據(jù)集中所占比例少,一般分布在稀疏區(qū)域,密集度小。所以采用改進K-means算法迭代時,對異常數(shù)據(jù)的檢測通常滿足如下兩個要求:
1)異常數(shù)據(jù)點的密集度小于數(shù)據(jù)集平均密集度。
2)簇中異常數(shù)據(jù)點的近鄰半徑大于該簇中所有數(shù)據(jù)點的平均近鄰半徑。
基于改進K-means的異常檢測算法步驟如下:
1)假設(shè)所有數(shù)據(jù)點的初始異常度 Ej=0(1≤j≤n),根據(jù)對初始聚類中心選擇的改進算法選出 K 個初始聚類中心{c1,c2,…cK}。
2)根據(jù)矩陣 M 及式(2)、(3)確定 xj的簇標記并劃入相應(yīng)的簇。
3)在K個簇中,xj滿足上述兩個要求,即
其中,Pi是xj所屬的簇,| |Pi是簇Pi所含的樣本個數(shù),ci是Pi的聚類中心,則Ej++。
4)根據(jù)式(4)重新生成所有聚類中心。
5)如果 c′i=ci,算法結(jié)束,異常度閾值設(shè)為 η ,若 Ej≥η,則 xj為異常點,并入異常點集合U ,輸出簇P和U;如果c′i≠ci,則更新 ci的值為 c′i,并返回執(zhí)行步驟2)直到算法結(jié)束。
改進后的初始聚類中心選取越準確,迭代過程中確定的異常點也越準確,從而使異常預(yù)測算法的性能更佳。
圖像攜帶大量信息可以用于飛行試驗中的異常檢測,本文通過常用的人工神經(jīng)網(wǎng)絡(luò)CNN對飛行試驗圖像數(shù)據(jù)進行處理,提取其中的圖像特征。CNN神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)性和自學習性?;A(chǔ)的CNN網(wǎng)絡(luò)由卷積、激活和池化三種結(jié)構(gòu)組成。本文CNN模型具有兩層卷積層、池化層以及全連接層。
基于CNN的飛行試驗圖像數(shù)據(jù)處理流程如圖2所示。具體算法步驟如下:
圖2 基于CNN的飛行試驗圖像數(shù)據(jù)處理流程圖
1)數(shù)據(jù)預(yù)處理
將像素為1024*1024的源圖像數(shù)據(jù)處理成像素大小為64*64的數(shù)字圖像,將處理后的64維圖像當做卷積神經(jīng)網(wǎng)絡(luò)輸入層特征向量,可以得到輸入是一個64*64的元組。
2)搭建CNN學習模型
本文CNN神經(jīng)網(wǎng)絡(luò)所使用的卷積是一種3-D卷積,通過兩層卷積可以在步驟1中輸入的64維圖像特征向量上滑動位移。第一層卷積采用的是64個3*3*3卷積核進行卷積處理,通過一層池化后,再通過第二層16個3*3*3卷積核進行卷積操作,提取飛行試驗異常特征。由于卷積層極大地降低了參數(shù)量,有必要在全連接層之前加入池化過程來保留圖像數(shù)據(jù)大致特征。雖然池化操作仍然會丟失部分信息量,但是保持了圖像地平移、伸縮等不變性。
通過全連接層將每一層的神經(jīng)元與下一層相連,以此將池化后的異常特征進行學習權(quán)重系數(shù)并分類。
3)輸出
輸出分類結(jié)果以及在學習中的損失值,本文主要將ReLU函數(shù)作為激活函數(shù),可以獲得較快的訓練速度。采用傳統(tǒng)的Softmax函數(shù)作為損失函數(shù),將其概率標簽向量與真實值進行計算得到損失值,使得神經(jīng)網(wǎng)絡(luò)在訓練時下降速度較快。
模糊邏輯可以將特定信息輸入系統(tǒng),并轉(zhuǎn)變?yōu)樽兞亢兔枋鲆?guī)則,然后利用相關(guān)規(guī)則進行分辨、識別操作。同時利用神經(jīng)網(wǎng)絡(luò)的學習能力,調(diào)整規(guī)則的權(quán)重,通過反復(fù)學習使規(guī)則的表達更加充分。利用模糊神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)級融合算法的結(jié)果和卷積神經(jīng)網(wǎng)絡(luò)圖像處理算法的結(jié)果進行決策級融合。
處理異常情況是一個取決于多個因素的決策問題,決策級融合組合算法流程如圖3所示,組合算法具體算法如下:
圖3 DOD組合算法流程圖
1)量化輸入
將一維數(shù)據(jù)特征和二維圖像屬性作為輸入,利用改進的K-means算法對輸入進行關(guān)聯(lián)處理和決策操作。假設(shè)R1為一維決策結(jié)果,R2為二維圖像決策結(jié)果。
2)調(diào)整決策屬性權(quán)重
假設(shè)利用以往的特定信息,比如專家分析、歷史記錄等,判斷R1和R2的權(quán)重分配比為3:7,以此設(shè)置合適的決策方案,其表達式如下:
本文通過改進的K-means算法來實現(xiàn)更準確的試驗數(shù)據(jù)特征提取,通過基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理算法,實現(xiàn)二維特征提取,并將兩者進行決策級融合,提出一種新多源異構(gòu)數(shù)據(jù)融合組合算法。DOD組合算法解決了多源異構(gòu)數(shù)據(jù)融合的難題,提高了決策結(jié)果的精度,滿足飛行試驗異常預(yù)測需求。