王昭
【摘要】? ? 監(jiān)控配置終端TMCS是FRQ技術(shù)監(jiān)控系統(tǒng),能實現(xiàn)系統(tǒng)配置、連續(xù)狀態(tài)的監(jiān)控等功能,本文主要介紹TMCS并對其在實際工作中的案例進(jìn)行分析。
【關(guān)鍵字】? ? 語音交換系統(tǒng)? ? TMCS? ? 案例分析
隨著我國民航運輸能力的持續(xù)增加,我國航空躋身世界航空大國之列,在保障飛行安全的民航空管設(shè)備體系中,為提高空中交通管理業(yè)務(wù)的保障水平,空管設(shè)備運行的穩(wěn)定性、可靠性和安全性顯然十分重要。作為空管系統(tǒng)技術(shù)保障部門機(jī)務(wù)員,首要任務(wù)是對所轄設(shè)備實時監(jiān)控并對設(shè)備故障采取相應(yīng)措施及時處理,保障設(shè)備安全運行。
本文主要介紹空管內(nèi)話系統(tǒng)的監(jiān)控配置終端并對值班過程中遇到的監(jiān)控配置終端自動退出無法使用的案例進(jìn)行分析。
一、監(jiān)控配置終端介紹
民航空管語音交換系統(tǒng)(Voice Communication System),簡稱內(nèi)話系統(tǒng),它實際上是一種空管專用交換機(jī),供地面管制員使用,接入無線電甚高頻/高頻設(shè)備和各類電話設(shè)備,為管制員提供與飛行機(jī)組之間的通信(地/空通信)及地面管制員之間的管制移交協(xié)調(diào)通信(地/地通信)。
塔臺備用內(nèi)話系統(tǒng)于2017年在首都機(jī)場航管樓建成,使用的是FREQUENTIS廠家生產(chǎn)的VCS3020X 7.1系統(tǒng),可獨立實現(xiàn)空地、地地通信等功能,為北京空管通信提供有力的保障。
TMCS(Technical? Monitoring and Control System),作為FRQ技術(shù)監(jiān)控系統(tǒng),能實現(xiàn)系統(tǒng)配置參數(shù)和軟件管理(包括軟件下載)、產(chǎn)生系統(tǒng)日志和報告(系統(tǒng)運行狀態(tài)和現(xiàn)行故障)、故障(錯誤)診斷和反映系統(tǒng)活動的靜態(tài)數(shù)據(jù)收集等功能,它具有Client(客戶)/Server(服務(wù)器)的體系結(jié)構(gòu),如圖1所示。
二、關(guān)于FRQ7.1 監(jiān)控配置終端TMCS軟件退出無法使用的案例分析
2.1 故障現(xiàn)象及處置過程
2019年6月12日 12:05(北京時間),值班員發(fā)現(xiàn)航管樓備用內(nèi)話系統(tǒng)FRQ VCS3020X 7.1 配置監(jiān)控客戶機(jī)提示故障告警。值班員查看故障情況,發(fā)現(xiàn)監(jiān)控軟件TMCS退出,再無法登陸,值班員根據(jù)系統(tǒng)故障提示進(jìn)行了相應(yīng)處置。
圖2為系統(tǒng)第一條提示信息,表明此時TMCS Client無法與Server建立連接,Server很可能已經(jīng)死機(jī)了,TMCS監(jiān)控軟件退出關(guān)閉。根據(jù)提示,值班員立即檢查了Server狀態(tài)(誤以為Server故障),未發(fā)現(xiàn)異常,Server中的TMCS軟件仍然可以操作。由于Client上TMCS監(jiān)控軟件已經(jīng)退出,值班員嘗試重啟,但重啟失敗。
根據(jù)提示,值班員查看了Client上的日志文件(以下時間為世界協(xié)調(diào)時間),日志文件顯示:
2019-06-12? ? 04:56:54
CORBA.COMM_FAILURE
An existing connection was forcibly closed by the remote host
Communication is lost inbetween client request and server reply
2019-06-12? ? 04:56:55
java.net.NoRouteToHostException: No route to host: connect
Failed to resolve Corba path ‘Tmcs/LocalHome/RedundancyManager/ServerStatusIF
2019-06-12,? ?05:00:54
at.frequentis.tmcs.framework.common.corba.CorbaInterfaceException: Unable to connect to the Server!
2019-06-12? ?05:01:06
- Starting TMCS Application.
- Starting XR71 5.0.48
- Using corba 1.29
- Using framework 7.01.67
-checkIfRunningOtherInstancePort= 9152
InetAddress.getLocalHost() tmcscl01/172.22.81.171
java.net.NoRouteToHostException: No route to host: connect
此時,系統(tǒng)彈出第二條提示,如圖3所示,表明Server可能已經(jīng)死機(jī)了或者出現(xiàn)了一些嚴(yán)重的通信問題,建議重啟TMCS Client。
值班員對TMCS Client進(jìn)行了重啟操作,然而問題依舊。2019-06-12 05:01:06至2019-06-12 08:18:59期間,系統(tǒng)一直在試圖重啟TMCS監(jiān)控配置程序。
第三條提示信息顯示:An instance of the application is already running(一個應(yīng)用程序的實例正在運行)。但在系統(tǒng)恢復(fù)正常之前,Client上的TMCS監(jiān)控配置程序圖形界面一直無法打開。
第四條信息提示:System clock not verified-time may be wrong (系統(tǒng)時鐘無法驗證,時間出現(xiàn)錯誤)。根據(jù)這條提示信息,值班員檢查了設(shè)備所連接的外部時鐘-東進(jìn)時鐘設(shè)備,并手動修改時間(實際上這是故障的一衍生問題)。
值班員根據(jù)上述四條系統(tǒng)提示信息并沒有解決問題,于是對整條傳輸鏈路進(jìn)行了檢查,發(fā)現(xiàn)從Server到Client之間的交換機(jī)自動關(guān)機(jī),檢查交換機(jī)設(shè)備,電源模塊松動,緊固后恢復(fù)。
2019-06-12? ?08:22:30- Starting TMCS Application.
2019-06-12? ?08:22:30- Starting XR71 5.0.48
2019-06-12? ?08:22:30- Using corba 1.29
2019-06-12? ?08:22:30- Using framework 7.01.67
2019-06-12? ?08:22:30-
checkIfRunningOtherInstancePort= 9152
2019-06-12? ?08:22:30-
InetAddress.getLocalHost() tmcscl01/172.22.81.171
以上為此時的日志文件,顯示在UTC時間08:22:30,系統(tǒng)重啟TMCS成功,并識別主機(jī)IP地址。
2.2 原因分析
連接內(nèi)話主系統(tǒng)、TMCS Server和TMCS Client的交換機(jī)掉電,導(dǎo)致了:1.TMCS Client與Server連接斷開;2.TMCS Client與內(nèi)話系統(tǒng)的連接間接斷開,無法獲取內(nèi)話系統(tǒng)的實時監(jiān)控信息,圖形界面無法打開;3. 由于TMCS Client與TMCS Server組成局域網(wǎng),采用NTP時鐘同步,與Server連接斷開,Client長時間不能與Server時鐘同步,故出現(xiàn)“time may be wrong”錯誤信息告警。
2.3 經(jīng)驗教訓(xùn)
2.3.1 汲取以上經(jīng)驗教訓(xùn),復(fù)雜問題簡單化
本案例的故障原因最終很簡單,但排故的思路值得總結(jié):系統(tǒng)運行穩(wěn)定,突發(fā)故障告警,很可能為硬件問題。應(yīng)首先從信號流程的角度,逐步對信號流各個環(huán)節(jié)的硬件設(shè)備進(jìn)行直觀檢查,以獲得最高效率,不要將簡單問題復(fù)雜化。
2.3.2 故障提示參考信息,不能完全依賴
提示信息是人為預(yù)設(shè)的,不可能包括所有問題,羅列萬象。根據(jù)具體情況,結(jié)合提示信息進(jìn)行問題的分析,提高故障定位準(zhǔn)確率,從而提高排故效率。
2.3.3 設(shè)備符合標(biāo)準(zhǔn),安裝工藝規(guī)范
設(shè)備產(chǎn)品,包括電源插頭等,規(guī)格、質(zhì)量要符合相應(yīng)規(guī)范,安裝工藝要規(guī)范,穩(wěn)定可靠。本案例導(dǎo)致故障的直接原因是交換機(jī)電源插頭插在機(jī)柜供電電源插座松動,但導(dǎo)致松動的原因有可能:1.插頭過大、過重,插在機(jī)柜兩側(cè)的垂直電源插座上可能導(dǎo)致接觸不良情況;2.電源插頭與插座的接觸面積不夠,空管關(guān)鍵設(shè)備的供電可靠性要求非常高,如果插頭過于短、插座過深或者插頭過細(xì),插座插孔過大過松等,均可能導(dǎo)致接觸不良或不牢靠,在有震動等其他因素影響下發(fā)生掉電。
2.3.4 熟練掌握空管關(guān)鍵設(shè)備、系統(tǒng)的信號流程和系統(tǒng)架構(gòu)
熟練掌握空管關(guān)鍵設(shè)備、系統(tǒng)的信號流程和系統(tǒng)架構(gòu)是技術(shù)維護(hù)人員的排故法寶。內(nèi)話系統(tǒng)硬件多,從歷史統(tǒng)計數(shù)據(jù)看,故障多為硬件故障。熟悉信號流程,從直觀上查看設(shè)備指示燈(反映設(shè)備的工作狀態(tài)),從故障定位看,大大優(yōu)于查看日志。
2.3.5 理論聯(lián)系實際,進(jìn)一步理解系統(tǒng)工作原理
雖然日志文件對我們故障定位沒有太多幫助。但建議事后通過查看日志,對照系統(tǒng)故障提示信息,有助于我們深層次理解系統(tǒng)設(shè)計理念和工作原理。
三、結(jié)束語
隨著社會飛躍發(fā)展,我國航班量的不斷增加,保障空管設(shè)備安全運行的責(zé)任更加重大,而我們一線值班人員處理故障就需要更加高效、迅速。TMCS作為內(nèi)話設(shè)備實時監(jiān)控的重要節(jié)點,幫助工作人員及時固定故障點是十分必要的,如何通過故障現(xiàn)象、告警信息及相應(yīng)日志做出精準(zhǔn)判斷是我們需要不斷探討的課題??傊?,我們技術(shù)人員要努力學(xué)習(xí)專業(yè)知識,積極參與工程建設(shè),提高自己的專業(yè)能力,使設(shè)備效能得到充分的發(fā)揮,為我局空中交通管制單位提供優(yōu)質(zhì)服務(wù)。
參? 考? 文? 獻(xiàn)
[1] FREQUENTIS Voice Communication System User Manual [M]. Vienna Austria
[2] FREQUENTIS語音交換系統(tǒng)技術(shù)手冊