董華倫
摘 要:隨著民航的快速發(fā)展,空管自動化系統(tǒng)的地位越來越高,而空管自動化系統(tǒng)中主要由計算機系統(tǒng)組成。硬盤是計算機系統(tǒng)的存儲中心,7x24小時運行。在空管自動化系統(tǒng)中故障的統(tǒng)計中,硬盤的故障率最高。為解決硬盤故障帶來的影響,現(xiàn)在服務器都使用RAID技術。RAID技術的使用緩解了硬盤故障帶來的影響,但是當前空管自動化系統(tǒng)中依然缺少對硬盤的監(jiān)控。
關鍵詞:AirNet;硬盤監(jiān)控;S.M.A.R.T;smartmontools
AirNet空管自動化系統(tǒng)由成都民航空管科技有限公司自主研發(fā)的具有自主知識產權的管制中心空管自動化系統(tǒng)。AirNet具備沖突告警、低高度告警、常規(guī)一次、二次雷達等監(jiān)視數(shù)據(jù)接入處理、雷達數(shù)據(jù)記錄回放、雷達顯示、飛行計劃處理及顯示等功能,可為空中交通控制提供自動化的管制手段,是區(qū)域、進近、塔臺等單位的雷達管制必備的系統(tǒng)。
AirNet自動化系統(tǒng)的工作站使用HP Z系列工作站和HP DL380系統(tǒng)服務器,使用RedHat Linux Enterprise Serverr5.8或7.1的操作系統(tǒng)。在SMC的監(jiān)控程序上都缺少硬盤狀態(tài)的硬盤,無法實時監(jiān)控硬盤的工作狀態(tài),存在無法及時發(fā)現(xiàn)硬盤健康狀態(tài)不佳的安全隱患。通常是通過定期檢查硬盤指示燈來判斷或待硬盤故障導致系統(tǒng)不可用才發(fā)現(xiàn),工作效率低下。尤其是當前HP工作站也使用RAID1,當其中一塊硬盤故障時,在主機和顯示上都無任何變化,只有兩塊硬盤故障才能發(fā)現(xiàn),而此時系統(tǒng)已不可用,迫切需要一種監(jiān)控程序能實時監(jiān)控硬盤的健康狀態(tài)。
1 S.M.A.R.T
1.1 S.M.A.R.T的概念
Self-Monitoring Analysis and Reporting Technology的簡稱為S.M.A.R.T,是一種自我監(jiān)測、分析和報告的技術。可以通過使用硬盤上的一些指令和監(jiān)測軟件對支持S.M.A.R.T技術的硬盤的健康狀態(tài)進行分析,比如:硬盤的磁頭、馬達、盤版、使用時間、電路情況、歷史情況等健康狀態(tài),將檢測到的數(shù)值與硬盤預設的安全值進行分析比較,當檢測到的數(shù)值超過預值后,可以自動向用戶提供告警信息。支持S.M.A.R.T技術的硬盤可以通過使用硬盤上的監(jiān)測指令和主機上的監(jiān)測軟件對磁頭、盤片、馬達、電路的運行情況、歷史記錄及預設的安全值進行分析、比較。當出現(xiàn)安全值范圍以外的情況時,就會自動向用戶發(fā)出警告。
1.2 S.M.A.R.T信息收集方式
S.M.A.R.T的信息收集有兩種方式,一種是在線收集方式(On-line),一種是離線收集方式(off-line)。在線收集方式,就是在硬盤在工作時,硬盤自動地實時或定時更新硬盤自身的S.M.A.R.T的數(shù)據(jù)。比如SCSI硬盤,每4分鐘自動更新S.M.A.R.T數(shù)據(jù),當在4分鐘的周期里如硬盤健康狀態(tài)有異常,則會將主機提供告警信息。在線收集方式不會影響到硬盤的性能。
離線收集方式,就是在主機上通過相關檢測指令對硬盤進行檢測。由于離線收集會讓硬盤進行大量操作用以檢測健康狀態(tài),在一定程度上會造成對硬盤的讀寫有一定的延遲,所以離線收集方式會對硬盤的性能有一定的下降。但由于當前的硬盤性能和主機性能都較好,在實際使用過程中沒有明顯的體現(xiàn)。
2 smartmontools
2.1 smartmontools是什么
smartmontools是一種硬盤檢測工具,可以安裝在Windows和Linux操作系統(tǒng)上,在Windows或Linux操作系統(tǒng)運行smartmontools,可以檢測硬盤的健康狀態(tài)。smartmontools主要由smartctl和smartd兩部分工具程序組成??梢哉J為smartctl是離線收集,smartd是在線收集。
2.2 smartmontools參數(shù)的介紹
smartctl-a 查看S.M.A.R.T相關信息;
smartctl-s on 開啟S.M.A.R.T功能;
smartctl-H 檢查硬盤健康狀態(tài);
smartctl-t short 后臺硬盤快速自檢;
smartctl-t long 后臺硬盤長時間自檢;
smartctl-C-t short在前臺硬盤快速自檢;
smartctl-C-t long在前臺硬盤長時間自檢;
smartctl-X中斷后臺硬盤自檢。
2.3 smartmontools的常用使用方法
(1)smartctl-i /dev/sda 顯示設備所有的SMART信息。
(2)smartctl-H /dev/sda 檢查硬盤健康狀態(tài)。
3 硬盤監(jiān)控程序的設計
當前AirNet自動化系統(tǒng)的操作系統(tǒng)版本為redhat5.8或redhat7.1,該兩個版本的操作系統(tǒng)都已經安裝好smartmontools。
3.1 硬盤監(jiān)控程序的部署
(1)在SMC的/home/cdatc/AirNet/bin/disk_monitor目錄下新建disk_monitor.sh和alarm_displsy.sh兩個shell腳本程序,disk_monitor.sh為主程序,alarm_displsy.sh為告警顯示程序;
(2)在SMC的定時任務中添加disk_monitor.sh的定時任務。
3.2 disk_monitor.sh內容如下
4 總結
該程序同樣也可部署在萊斯自動化系統(tǒng)、ADS-B數(shù)據(jù)站等系統(tǒng)上,可移植性較高。通過該監(jiān)控程序的運行,可以快速檢查硬盤的工作狀態(tài),提前發(fā)現(xiàn)設備隱患,安全隱患零容忍落到實處,推動安全風險窗口前移,保障空管自動化系統(tǒng)的持續(xù)運行能力。
參考文獻:
[1]360百科S.M.A.R.T(https://m.baike.so.com/doc/6778352-6994423.html).
[2]Smartmontools使用指(https://blog.csdn.net/lwprain/article/details/9819623).
[3]AirNet自動化系統(tǒng)相關資料.
[4]HDD SMART-百度文庫(http://wenku.baidu.c).
[5]S.M.A.R.T技術(http://baike.baidu.com/view/158623.html).