阿不力米提·阿布都克力木
(中國民用航空新疆空中交通管理局空管中心氣象中心,新疆烏魯木齊 830016)
民航氣象數(shù)據(jù)庫系統(tǒng)是一套用于實現(xiàn)飛行氣象情報及氣象資料的交換、分析、處理、存儲等功能的信息系統(tǒng),包括通信子系統(tǒng)、數(shù)據(jù)庫子系統(tǒng)、信息處理子系統(tǒng)及相關(guān)網(wǎng)絡(luò)設(shè)施,是目前各空管系統(tǒng)氣象服務(wù)機構(gòu)用于開展氣象業(yè)務(wù)工作的重要裝備之一。
其中,民航氣象數(shù)據(jù)庫子系統(tǒng)擔(dān)負著管理和存儲氣象數(shù)據(jù)信息的任務(wù), 從而實現(xiàn)對氣象資料的有效存儲和快速檢索,在民用航空氣象服務(wù)保障中發(fā)揮了重要作用。隨著數(shù)據(jù)庫子系統(tǒng)對氣象數(shù)據(jù)的處理及存儲要求不斷增加,在業(yè)務(wù)運行及氣象設(shè)備保障人員的維護監(jiān)控過程中,民航氣象數(shù)據(jù)庫系統(tǒng)發(fā)生了一起氣象資料不備份故障,如不及時發(fā)現(xiàn)和處理,將影響業(yè)務(wù)的正常運行。
本文詳細介紹了一起氣象數(shù)據(jù)不備份故障事例,并通過實際案例分析,結(jié)合筆者實踐經(jīng)驗及對故障長期跟蹤,給出了故障問題的處理方法,為設(shè)備保障人員今后的設(shè)備維護和故障排查提供思路和參考。
如果數(shù)據(jù)庫不進行氣象資料不歸檔,短期內(nèi)也許不會對業(yè)務(wù)造成較大的影響,但是如果長時間不歸檔會對業(yè)務(wù)造成巨大的影響,主要包含:
(1)應(yīng)用庫表空間過大導(dǎo)致數(shù)據(jù)無法入庫,目前應(yīng)用庫是保存3d,默認是兩個表空間文件,當數(shù)據(jù)增加到最大可擴展存儲容量后,數(shù)據(jù)將無法入庫。
(2)長時間資料不作歸檔清除,會造成數(shù)據(jù)表中數(shù)據(jù)大量增加,影響數(shù)據(jù)庫運行和查詢效率。
(3)由于數(shù)據(jù)庫圖形文件沒有月份標識,當應(yīng)用庫數(shù)據(jù)達到一個月以上時就會有兩個文件名一模一樣的文件,當前端應(yīng)用查詢不嚴謹時有可能飛行文件或者圖形查詢會查出來上一個月的數(shù)據(jù)。
2017 年7 月26 日,值班期間檢查發(fā)現(xiàn)數(shù)據(jù)庫中氣象資料沒有正常歸檔,沒有將應(yīng)用庫中過期的資料轉(zhuǎn)移到歷史庫中,也沒有將歷史庫中過期的資料刪除。
(1)數(shù) 據(jù) 庫dmsserver 進 程 每 天UTC18:10(北京時間凌晨2:10)調(diào)用expdp 命令,在/home/mhdbs/data/backup/20170726 目錄下形成dmp 文件,并打包成33 個zip 文件,一般40min 執(zhí)行完畢。
(2)出現(xiàn)異常后:/home/mhdbs/data/backup/2017 0726/形成表對應(yīng)的空目錄。如圖1 所示。
圖1 不正常歸檔留底(部分截圖)
圖2 日志信息
(3)故障的定位及精準定位,離不開日志分析,日志通常分為三個層級,第一層級為進程類日志,第二層級為服務(wù)類日志,第三類層級為平臺類日志,分析日志,一般應(yīng)從第一層級逐級展開,如優(yōu)先查看進程日志,進程日志一般記錄進程的活動,本列為dms 的日志,存放于/bin/log/dms/下;其次查看服務(wù)類日志,本列中服務(wù)類日志為oracle 數(shù)據(jù)庫的相關(guān)日志,數(shù)據(jù)庫日志文件記錄了數(shù)據(jù)庫的相關(guān)事務(wù)活動,包含警報、跟蹤和重做3 類日志,通過show parameter dump_dest;命令可以顯示日志路徑;第三層級為平臺日志,一般記錄平臺用戶相關(guān)的一些日志,如守護進程、用戶登錄、定時任務(wù)等相關(guān)日志;應(yīng)當從進程日志開始逐層分析,根據(jù)本列的故障描述,優(yōu)先查看dms 相關(guān)日志和oracle 日志,查看相關(guān)日志文件及內(nèi)容顯示。如圖2 所示。
(4)如圖2 中的錯誤描述所示,報故時間段正在使用expdp 進行數(shù)據(jù)庫導(dǎo)出操作,為進一步判斷故障原因,在shell 下執(zhí)行expdp 命令進行了手動排查,查看命令報錯信息。如圖3 所示。
圖3 導(dǎo)出命令
(5)返回的錯誤提示信息。如圖4 所示。
圖4 錯誤信息
結(jié)合日志文件及系統(tǒng)返回的錯誤提示信息,查閱相關(guān)文檔資料分析得知,民航氣象數(shù)據(jù)庫在用expdp 進行備份導(dǎo)出時會在對應(yīng)用戶(userdbs)下自動創(chuàng)建一個表名類似SYS_EXPORT_*_N 的表,其中*代表方案如FULL、SCHEMA、TABLE 等,N 一般是數(shù)字,如01、02 等形式,如果導(dǎo)出過程異常,諸如此類的表會遺留下來,則會占用用戶表空間,達到一定數(shù)量,會引起用戶表空間不足,會造成惡性循環(huán),使得expdp 數(shù)據(jù)泵job 異常終止,從而導(dǎo)致氣象資料備份失敗。
(1)清理dba_datapump_jobs 表。
(2)查詢生成清理DBA_DATAPUMP_JOBS 的SQL 語句,并復(fù)制生成的處理SQL 語句,對表DBA_DATAPUMP_JOBS 進行清理,查詢結(jié)果總共99 條記錄。
(3)清理后再次查詢確認DBA_DATAPUMP_JOBS是否清理完全。
(4)清理后再運行備份命令,系統(tǒng)沒有報錯,資料備份確認正常。
民航氣象服務(wù)是保證航空安全的重要前提,確保民航氣象數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)穩(wěn)定、安全、可靠是設(shè)備保障人員工作的重中之重。本文通過分析民航氣象數(shù)據(jù)庫系統(tǒng)中的異?,F(xiàn)象,經(jīng)采取對相應(yīng)表的操作,數(shù)據(jù)庫系統(tǒng)資料歸檔功能已恢復(fù)正常。在日常運行中,設(shè)備保障人員及時分析系統(tǒng)日志文件各種提示錯誤信息,有利于快速判斷故障點,分析排查故障原因。通過此案例也告訴我們,設(shè)備出現(xiàn)故障之后,數(shù)據(jù)庫系統(tǒng)日志文件中記錄的任何信息都是不容錯過的,通過查看日志可將系統(tǒng)運行風(fēng)險降到最低,從而保證氣象設(shè)備的正常運轉(zhuǎn),有效提高設(shè)備的運行質(zhì)量。