孫永強
摘 要:航管信息自動化處理系統(tǒng)(AIMS)的故障處理涵蓋多方面因素,包括物理鏈路、服務器、數(shù)據(jù)庫、系統(tǒng)進程等幾方面,本文介紹的是由于系統(tǒng)日志積壓過多,windows服務器某一進程占用兩種情況共同導致的故障,通過對加入腳本,對數(shù)據(jù)庫日志自動清理可以避免該問題的再次發(fā)生。
關鍵詞:AIMS;數(shù)據(jù)庫;日志
航管信息自動化處理系統(tǒng)是由北京航管科技有限公司研發(fā)的航行計劃動態(tài)處理系統(tǒng),我分局于2013年啟用,本套系統(tǒng)投入運行之后,極大地提高管制數(shù)據(jù)自動化處理的能力,程序化、標準化管制員的日常操作,降低人為差錯的可能性,及時準確的在部門、管制單位甚至區(qū)域間傳遞信息,并且可以實時為流量管理、協(xié)同決策、起飛前放行以及自動化等系統(tǒng)提供有力的數(shù)據(jù)支持。涵蓋了報文收發(fā)分解、計劃維護、SSR管理、進程單打印、數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)發(fā)布等功能。
我分局AIMS系統(tǒng)架構(gòu)采用兩臺服務器互為熱備,另有一臺windows服務器作為數(shù)據(jù)同步服務器,通過路由器與交換機接入塔臺、進近、站調(diào)等終端用戶,通過ATM線路與東北局相連,接入民航局ATM網(wǎng)絡已達到數(shù)據(jù)交互(如圖1所示)。
今年九月份AIMS系統(tǒng)出現(xiàn)異?,F(xiàn)象:出港航班正常發(fā)報后再FMD界面報文不消失,依舊在界面上存在;站調(diào)客戶端出現(xiàn)報文異常,無法接受部分報文。
此次故障導致管制部門不能夠準確獲知航班飛行計劃,航行動態(tài),對管制工作造成重要影響。
接到故障報告之后,立即開展故障排查工作。首先查看前臺監(jiān)控終端,發(fā)現(xiàn)進出港航班信息均不刷新,無新報文顯示;通過telnet鏈接AIMS的服務器,均出現(xiàn)了無響應的情況;監(jiān)控平臺顯示AIMS服務器出現(xiàn)告警信息,數(shù)據(jù)庫出現(xiàn)異常(如圖2所示)。
后直接通過KVM查看服務器運行狀態(tài),經(jīng)排查發(fā)現(xiàn)遠程維護的聯(lián)網(wǎng)Windows服務器自身出現(xiàn)了socket占用滿的情況(windows系統(tǒng)自身回收socket存在的bug).由于聯(lián)網(wǎng)windows服務器的這個bug會導致此聯(lián)網(wǎng)windows系統(tǒng)無法遠程登錄各個linux服務器和終端,故重啟此聯(lián)網(wǎng)windows服務器.聯(lián)網(wǎng)Windows服務器重啟后,登錄linux系統(tǒng)數(shù)據(jù)庫,發(fā)現(xiàn)數(shù)據(jù)庫響應過慢并且有大量內(nèi)存和文件占用情況,后在主備數(shù)據(jù)庫服務器上執(zhí)行了日志清理和數(shù)據(jù)庫備份工作. 清理日志后,AIMS系統(tǒng)恢復正常.正常后對塔臺和站調(diào)用戶進行了電話詢問,站調(diào)用戶反映入值班的數(shù)據(jù)與經(jīng)驗值過少,經(jīng)對比歷史數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)一致.后續(xù)請站調(diào)部門幫忙繼續(xù)觀察,如有問題,及時電話聯(lián)系,后續(xù)沒有收到任何異常反饋. 系統(tǒng)正常后,在linux服務器上加入了定期清理數(shù)據(jù)庫日志的腳本.后續(xù)系統(tǒng)會每天自動清理過期的日志,過期失效的時間為60天.
經(jīng)過對AIMS服務器端的查看分析,此次故障主要有以下兩方面原因引起:1.服務器數(shù)據(jù)庫的系統(tǒng)日志過多,導致服務器內(nèi)部程序響應時間超時;2.windows系統(tǒng)socket占用慢的情況,給具體的linux系統(tǒng)的異常排查帶來障礙。
結(jié)合此次故障排查的經(jīng)過以及廠家工程師方面的具體建議,此類故障具體的應對措施可以采用下列步驟:在AIMS兩臺服務器中加入數(shù)據(jù)庫日志自動清理腳本,后續(xù)的數(shù)據(jù)庫日志會每天自動清理,并將日志記錄保留。這樣可以最大限度的釋放系統(tǒng)內(nèi)存空間,防止由于日志過多的原因?qū)е履骋贿M程卡死;其次對于windows服務器系統(tǒng)socket占用滿的情況,在現(xiàn)有server08系統(tǒng)上修改配置也無法解決,需要定期進行操作系統(tǒng)的維護工作.建議定期系統(tǒng)維護時,對聯(lián)網(wǎng)windows服務器系統(tǒng)進行維護工作。
參考文獻
[1]《航管信息自動化處理系統(tǒng)運行維護手冊》.