霍緯綱,李繼龍,王慧芳
(中國民航大學計算機科學與技術學院,天津 300300)
飛機的著陸過程大致可分為下滑接地和接地后的減速滑跑2個階段。下滑接地是飛機經跑道入口從離地垂直高度50 ft點(1 ft(英尺)=0.304 8 m),以進場速度開始進場,經過下滑拉平至主輪著地的階段。飛機在下滑接地階段經過的水平距離稱為接地距離。接地點遠事件(long touchdown exceedance,LTE)是指飛行著陸過程中的接地距離大于規(guī)定范圍的超限事件。該事件是造成飛機沖出機場跑道的重要因素之一。目前,民航業(yè)內的飛行品質監(jiān)控(flight operation quality assurance,F(xiàn)OQA)工作僅依據(jù)飛行下滑接地期間地速的積分距離判定接地點遠事件的發(fā)生,無法結合多個快速存取記錄器(quick access recorder,QAR)參數(shù)取值檢測并分析發(fā)生接地點遠事件的原因。以單個QAR參數(shù)進行超限事件檢測效率較高,但是很容易出現(xiàn)由于相應參數(shù)記錄值缺失而無法判斷超限事件情形,或由于數(shù)據(jù)噪聲而導致“假事件”現(xiàn)象。一方面,實際上在某一超限事件發(fā)生時,會有若干個相關聯(lián)的QAR參數(shù)都有異常變化[1],如果能綜合運用多個QAR參數(shù)進行超限事件檢測,便可以降低發(fā)生如上問題的機率。另一方面,現(xiàn)有的監(jiān)控標準大多來自飛機制造商提供的各種手冊或航空公司內部規(guī)定,這些標準大多只考慮了一般情況。然而飛機的飛行過程會受到運行環(huán)境、飛機自身機械狀況、飛行員的駕駛水平等眾多因素影響。在天氣異常、或特殊機場等情形下,飛行員可能必須采取“大尺度”操縱,此類操縱也容易被誤判為超限事件。QAR記錄了大量飛行參數(shù)的變化規(guī)律,反映了飛機運行環(huán)境及飛行員對各種事件的反應及處理過程。因此,若能從多個QAR參數(shù)的角度檢測并解釋超限事件,將有助于進一步提高FOQA的管理水平。
為提高航空安全管理水平,近年來研究人員圍繞民航業(yè)內積累的大量QAR數(shù)據(jù)開展了許多研究工作。文獻[2]通過對QAR數(shù)據(jù)聚類分析挖掘隱含的著陸階段以油門和桿位表達的飛行操作模式,分析FOQA指標值與挖掘的操作模式之間的關聯(lián)關系,量化飛行操作模式的風險水平。文獻[3]分析了飛機著陸階段拉平操作過程中QAR參數(shù)取值的方差特征,在此基礎上采用回歸模型分析了拉平操作對接地距離及重著陸事件的影響。文獻[4]基于正態(tài)云理論建立了飛行員著陸操作風險評價模型。上述研究都是從安全風險評估的角度開展工作[2-4],這些模型涉及的QAR參數(shù)個數(shù)相對較少。另外機器學習算法已被應用于從海量多維QAR數(shù)據(jù)集中發(fā)現(xiàn)異常飛行事件[5-10]。文獻[5-6]將多維時序QAR數(shù)據(jù)轉化為高維向量,由基于密度的噪點空間聚類(densitybased spatial clustering of applications with noise,DBSCAN)聚類算法檢測異常航班。文獻[7]應用聚類技術識別與飛行風險相關的QAR參數(shù)。文獻[8]通過采樣技術將單個QAR數(shù)據(jù)轉化為多個時序向量,由基于高斯混合模型的聚類算法檢測不安全事件。文獻[9]采用向量自回歸模型表示每個航班的QAR數(shù)據(jù),基于回歸模型參數(shù)計算航班之間的距離矩陣,由局部離群因子(local outlier factor,LOF)檢測算法檢測異常航班。文獻[10]提出了融合半馬爾可夫和向量自回歸模型的飛行安全隱患檢測方法。文獻[5-8]中的模型訓練前對QAR數(shù)據(jù)的特征提取方式有可能丟失檢測飛行安全隱患所需的關鍵信息,不能較好地捕獲QAR參數(shù)值的時序特征和參數(shù)之間的耦合關系。文獻[9-10]的向量自回歸模型僅能表達QAR參數(shù)之間的線性關系,且該類模型對噪聲也比較敏感。
隱馬爾可夫模型(hidden Markov model,HMM)為結構最簡單的動態(tài)貝葉斯網(wǎng),主要用于時序數(shù)據(jù)的建模?;贖MM 的時間序列的異常檢測方法一般主要包含2個重要步驟:①符號化時間序列;②參數(shù)學習與概率估計。符號化時,旨在以字符串序列表示原始時間序列,不僅可以達到數(shù)據(jù)降維的目的,而且符合HMM 對觀測序列的要求。文獻[11]將HMM應用于飛機著陸操作的異常檢測中,采用K-means聚類算法將原始時間序列轉化成由K個簇標記表示的符號序列。文獻[12]將HMM應用在多維時間序列上的異常檢測中,分別采用模糊C均值(fuzzy C-means,F(xiàn)CM)聚類算法和模糊積分技術將多維時間序列轉換成單維的符號序列,提高HMM 的異常檢測能力。文獻[13]的研究表明如果在符號化過程之前不對原始序列進行特征提取,序列中噪聲會對異常檢測效果造成影響,提出了基于感知重要點技術的符號化方法,但其需要計算每個點對于時間序列的影響力,計算復雜度較高。文獻[11-12]在符號化過程中均沒有對原始序列進行特征提取。自編碼器是一種由編碼器和解碼器構成的無監(jiān)督學習算法,能從大量無標記的數(shù)據(jù)中學習數(shù)據(jù)的有效信息,實現(xiàn)對輸入數(shù)據(jù)的非線性壓縮和重構。文獻[14]提出了基于自編碼器和HMM的多維時序數(shù)據(jù)異常檢測模型,由自編碼器生成多維時間序列的低維特征表示,對這些特征表示聚類處理,實現(xiàn)多維時間序列的符號化,研究表明該模型能顯著提高HMM在多維時序數(shù)據(jù)上的異常檢測效果,但自編碼器無法表達多維時序數(shù)據(jù)的時態(tài)依賴關系。
本文提出了一種基于長短時記憶網(wǎng)絡自編碼器(long short term memory networks auto encoder,LSTM-AE)[15]和HMM 的接地點遠事件檢測方法(long touchdown exceedance detection method based on LSTM-AE and HMM,LTED-LSTM-HMM),該方法采用LSTM-AE學習多維QAR數(shù)據(jù)的特征表示,使獲得的特征表示能更好地表達QAR數(shù)據(jù)的時序信息,并由此建立了基于HMM 的接地點遠事件檢測模型,實驗表明了本文方法的有效性。
LTED-LSTM-HMM方法的具體流程如圖1所示。從QAR譯碼文件中截取飛機著陸階段相關QAR參數(shù)取值,將生成的數(shù)據(jù)集合劃分為訓練集、驗證集和測試集,其中訓練集只包含未發(fā)生接地點遠事件的QAR樣本,測試集和驗證集包含發(fā)生和未發(fā)生接地點遠事件的QAR樣本。本文方法首先利用滑動窗口將所有QAR樣本按固定分段數(shù)目進行分段,按分段位置形成若干QAR片段樣本集。由訓練集不同位置的QAR片段樣本訓練各個分段的LSTM 自編碼器網(wǎng)絡,從而得到QAR樣本各個片段的低維特征表示。采用Kmeans算法對這些表示向量集聚類處理,實現(xiàn)QAR樣本的符號化。在訓練集QAR樣本的符號化序列上,采用Baum-Welch算法[16]構建檢測接地點遠事件的HMM模型λ1。在模型λ1下,計算驗證集中每個QAR樣本符號序列出現(xiàn)的概率,并在出現(xiàn)概率的最大值和最小值之間均勻劃分若干個值,根據(jù)F1值最大原則來確定接地點遠事件檢測閾值。由包含發(fā)生及未發(fā)生接地點遠事件QAR樣本片段集訓練LSTM 自編碼器,采用K-means算法對LSTM 編碼器中每個LSTM 單元隱藏層的輸出向量進行聚類,實現(xiàn)QAR樣本每個片段的符號化,由所有QAR樣本分段的符號序列建立HMM模型λ2,采用Viterbi算法[16]確定接地點遠事件在QAR樣本片段內的具體位置。
圖1 接地點遠事件檢測方法流程Fig.1 Flowchart of detection method of long touchdown exceedance
圖2 QAR樣本分段方法示意圖Fig.2 Schematic diagram of QAR sample segmentation method
圖3 LSTM-AE訓練過程示意圖Fig.3 Schematic diagram of LSTM-AE training process
HMM是由隱藏狀態(tài)序列和觀測序列構成的雙重隨機過程,序列的每一位置對應一個時刻的隱藏狀態(tài)和觀測值。檢測接地點遠事件的HMM記為λ1,λ1由Q1、V1、Π1、A1、B1描述,其中Q1表示隱藏狀態(tài)集合,本文每個狀態(tài)表達QAR樣本內數(shù)據(jù)變化趨勢,共設有平穩(wěn)、輕微上升、輕微下降、突然上升和突然下降5種隱狀態(tài),V1表示所有可觀測的表達QAR樣本的符號集,其取值由符號化過程中K-means算法確定,Π1為初始狀態(tài)概率向量,由各個隱藏狀態(tài)的初始概率組成,A1為狀態(tài)轉移概率矩陣,由隱藏狀態(tài)之間的轉換概率組成,B1為輸出概率矩陣,由隱藏狀態(tài)下輸出觀測值的概率組成。
本文檢測接地點遠事件位置的HMM模型λ2的結構如圖4所示。模型λ2由Q2、V2、Π2、A2、B2刻畫。Q2表示隱狀態(tài)集合,包含正常、異常2種狀態(tài),正常表示無接地點事件發(fā)生,用0表示,異常表示發(fā)生接地點遠事件,用1表示,V2表示QAR樣本片段的符號集合,Π2、A2、B2的含義與1.2節(jié)中模型λ1的Π1、A1、B1含義類似。將發(fā)生及未發(fā)生接地點遠事件的QAR樣本集X劃分為訓練集和測試集。按1.1節(jié)描述的分段符號化原理對X中的樣本片段符號化。訓練集QAR樣本分段的符號序列集記為ST,ST中每個樣本為長度e的符號序列。測試集QAR樣本分段的符號序列集記為ST,ST中包含eT′N個片段符號序列,T′N為測試集樣本數(shù)目。由ST采用無監(jiān)督Baum-welch算法[16]訓練HMM 模型λ2的參數(shù)?;赩iterbi算法[16]計算ST中每個片段符號序列在模型λ2下的最大概率狀態(tài)轉換路徑,由該路徑確定接地點遠事件在片段內的具體位置。具體算法描述如下。
圖4 檢測接地點遠事件位置的HMM模型結構示意Fig.4 Structure of HMM model for detecting the position of long touchdown exceedance
算法3 檢測接地點遠事件位置算法。
輸入:在ST上訓練的HMM模型λ2;測試集分段符號序列集ST。
輸出:ST中每個片段符號序列中接地點遠事件位置信息。
Begin
For ST中的每個符號序列Sni=(s1,…,st,…,sw)(1≤i≤e,1≤n≤T′N)
本文實驗數(shù)據(jù)為某航空公司同一架機型737-800的飛機242個航班QAR數(shù)據(jù),截取了飛機著陸階段相關QAR參數(shù)取值。其中180個航班未發(fā)生接地點遠事件,62個航班包含接地點遠事件。接地點遠事件檢測實驗中,訓練集由144個正常QAR樣本組成,測試集和驗證集都由22個正常QAR 樣本和31個發(fā)生接地點遠事件的QAR樣本構成。接地點遠事件位置檢測實驗中,共使用了115個QAR樣本,訓練集由隨機抽取的31個正常QAR 樣本和31個接地點遠事件的QAR樣本組成,剩余QAR樣本作為測試集。實驗的軟件環(huán)境為:Tensorflow1.10.0,Python3.6.2,Windows10 64位操作系統(tǒng);硬件環(huán)境為:Intel(R)Core(TM)i7-3770處理器,4 GB內存。
根據(jù)飛機著陸過程的動力學模型[18],與接地點遠事件直接相關的因素包括經跑道入口時的高度、下滑角、拉平階段圓弧運動的半徑。當飛機高于50 ft的垂直距離進入跑道時,飛機的接地時間會變慢,從而導致接地距離變長。此外進近速度偏大會導致飛機下降率大,飛行員有可能拉桿防止重著陸,這也可能導致飛機接地距離變長。根據(jù)以上分析,選取了某航空公司在飛行品質日常業(yè)務工作中常用的20個QAR參數(shù)。這些參數(shù)既包含接地點遠事件直接機理因素數(shù),也含有飛機姿態(tài)和運行狀態(tài)的相關參數(shù)。表1給出了20個參數(shù)名稱及意義說明。
表1 參數(shù)說明Table 1 Parameter description
在訓練檢測接地點遠事件的HMM 過程中有2個重要參數(shù):一個是QAR樣本的片段個數(shù),另一個是QAR樣本符號化過程中K-means算法的聚類數(shù)目K。本文中采用步長為2的滑動時間窗口將每個QAR樣本劃分為6個不等長的多維時間序列片段。K-means算法的K值由肘部法確定。圖5為肘部法確定符號個數(shù)過程中,聚類數(shù)目K與平均畸變程度的變化趨勢。其中圖5(a)為QAR樣本符號化的實驗結果,當K=8時,平均畸變程度變化較高,因此符號個數(shù)取為8;圖5(b)為QAR樣本片段符號化的實驗結果,當K=5時,平均畸變程度變化較高,故符號個數(shù)取為5。
圖5 聚類數(shù)目K與類簇平均畸變程度的變化趨勢Fig.5 Changing trend between clusters number K and average distortion degree of cluster
為了驗證LTED-LSTM-HMM 方法的有效性,分別采用了文獻[12]和文獻[14]提出的多維時間序列異常檢測方法做對比。文獻[12]分別采用主成分分析(principal component analysis,PCA)和FCM將多維時間序列轉化成單維時間序列,再基于正常單維時間序列進行HMM 建模,將訓練后的HMM用于異常檢測;文獻[14]提出了基于自編碼器和HMM的多維時間序列異常檢測方法(autoencoder and HMM-based anomaly detection,AHMM-AD),該方法的實現(xiàn)原理與LTED-LSTMHMM方法相同,主要區(qū)別為:AHMM-AD方法采用具有3層神經網(wǎng)絡的自編器學習多維時間序列片段的低維特征表示。實驗結果如表2所示。
表2 異常航班數(shù)據(jù)檢測的對比實驗Table 2 Comparison experiment of abnormal flight data detection
從表2中的準確率、召回率、F1值可知,基于PCA和HMM的方法異常檢測效果較差,可能的原因是:PCA對QAR樣本降維時,只取了線性變換后方差最大方向上的樣本信息,忽略了其他投影方向上的信息?;贔CM 和HMM 的方法引入隸屬度的量化方法描述了QAR樣本的各參數(shù)取向量與符號的關系,在符號化轉換過程中使用了所有QAR參數(shù)信息,故異常檢測效果有所提高。AHMM-AD方法的實驗結果顯示準確率比PCA+HMM、FCM+HMM方法提高了約0.06,但F1值分別減少了0.039和0.041。這主要是因為:AHMM-AD方法在符號序列之前對QAR樣本片段進行了非線性的特征表示,但該方法只能處理等長多維時間序列數(shù)據(jù),表示學習過程中將QAR樣本劃分為了窗口大小為28的等長時序片段,在劃分不等長的QAR樣本時去除了部分數(shù)據(jù),這導致了召回率和F1值降低。LTED-LSTM-HMM方法通過固定時間序列分段數(shù)解決了不等長QAR樣本的特征表示問題,而且基于LSTM自編器的表示考慮了QAR樣本片段內的時序信息。本文的LTED-LSTM-HMM方法與AHMM-AD方法相比,準確率提高了約0.11,召回率提高了0.286,F(xiàn)1值提高了0.171,實驗結果表明了本文方法的有效性。
為便于分析發(fā)生接地點遠事件的原因,縮小查找異常QAR參數(shù)的范圍,依據(jù)領域專家經驗,選取表1中的左右迎角、俯仰角、傾側角、方向舵偏角、空速、垂直加速度、縱向加速度、下降率8個QAR參數(shù)取值訓練用于檢測接地點遠事件位置的HMM 模型λ2。使用22個正常QAR樣本和31個接地點遠事件QAR樣本的318個數(shù)據(jù)片段作為測試集。QAR片段的每個位置都有表征是否接地點遠事件的標簽,該標簽由QAR譯碼軟件標注。模型λ2的接地點遠事件位置檢測準確率為78.2%,位置檢測準確率由檢測出的真實接地點遠事件時刻點總數(shù)除以檢測出的接地點遠事件時刻點總數(shù)計算。圖6為某QAR樣本片段實際狀態(tài)值序列與異常檢測結果狀態(tài)值序列的對比,狀態(tài)值1表示該位置異常,狀態(tài)值0表示該位置正常。圖6的實線中取值為1的部分表示發(fā)生接地點遠事件的真實位置,虛線中取值為1的部分表示本文模型檢測出的發(fā)生接地點遠事件位置。虛線取值為1的片段可以覆蓋實線取值為1的部分,因此本文方法能在QAR片段內正確標識出發(fā)生接地點遠事件的位置。從實驗結果中還發(fā)現(xiàn),接地點遠事件位置大多出現(xiàn)在QAR樣本片段的開始部分。
圖6 真實與異常檢測結果狀態(tài)值序列對比Fig.6 Comparison of state value sequence between real and anomaly detection results
選取2.2節(jié)實驗過程中離檢測閾值較近的觀測概率較高的2個發(fā)生接地點遠事件的QAR樣本和觀測概率最低的正常QAR樣本的原始參數(shù)取值進行對比。圖7分別展示了4個樣本在發(fā)生接地點遠事件的片段10 s內空速、俯仰角、左迎角、縱向加速度、下降率5個QAR參數(shù)取值變化趨勢。從圖7(a)可知,發(fā)生接地點遠事件的3個樣本空速都低于正常樣本的取值。但是根據(jù)領域專家經驗,著陸過程中空速越大越容易發(fā)生接地點遠事件。本文中發(fā)現(xiàn)的3個樣本雖然空速較低,但卻出現(xiàn)了地速偏大造成接地點遠事件的情況。結合其他5個參數(shù)的取值原因分析如下:①從圖7(b)和圖7(c)可以看出,發(fā)生接地點遠事件的3個樣本的俯仰角、左迎角片段取值較大,為了獲得合適的升力,飛行員有可能收油門降低速度。另外從圖7(e)中無接地點遠事件樣本的下降率變化趨勢整體高于其他3個異常樣本。俯仰角大,下降率低都有可能延長飛機下滑拉平距離,導致飛機超出接地區(qū)接地。②從圖7(d)可知,接地點遠事件樣本2和樣本3的減速方向上的縱向加速度大于正常樣本,這使得接地點遠事件樣本2和樣本3的空速低于正常樣本。但從圖7(e)發(fā)現(xiàn),樣本2和樣本3的下降率比正常樣本低很多,這有可能是飛行員為了防止大下降率,造成重著陸事件,從而延遲了飛機接地時間。
圖7 有無接地點遠事件QAR樣本典型參數(shù)取值對比Fig.7 Comparison of typical parameter values between the normal and the long touchdown exceedance QAR sample
1)LSTM自編碼器能較好地學習反映不等長QAR樣本的特征表示,因此與已有的基于HMM的多維時序異常檢測方法相比,LTED-LSTMHMM方法能更好地檢測包含接地點遠事件的航班。
2)通過QAR樣本片段建立的HMM和Viterbi算法,本文方法能以較高的準確率確定接地點遠事件在QAR片段內的發(fā)生位置,由此得到除地速之外的其他QAR參數(shù)異常取值,輔助領域專家分析發(fā)生接地點遠的原因。
下一步可把本文方法推廣應用于其他典型超限事件檢測及分析,以期提高航空安全管理水平。