雷靜+商琴+林銳+宗丹
摘要:本文探討了高性能計(jì)算平臺(tái)的風(fēng)險(xiǎn)分析和應(yīng)對(duì)策略。從硬件、數(shù)據(jù)、應(yīng)用三個(gè)主要方面分析了高性能計(jì)算平臺(tái)存在的潛在風(fēng)險(xiǎn)。并針對(duì)各類風(fēng)險(xiǎn),結(jié)合工作實(shí)際經(jīng)驗(yàn),提出了多項(xiàng)應(yīng)對(duì)措施,對(duì)提升高性能計(jì)算平臺(tái)的系統(tǒng)安全有重要作用[1]。
關(guān)鍵詞:高性能計(jì)算平臺(tái);系統(tǒng)安全;硬件風(fēng)險(xiǎn);數(shù)據(jù)風(fēng)險(xiǎn)
中圖分類號(hào):TP311.5 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)09-0185-02
1 引言
高性能計(jì)算平臺(tái)是支撐船舶工程研制的高復(fù)雜度的信息化系統(tǒng),隨著應(yīng)用的深入,實(shí)際運(yùn)維和管理中面臨許多與高性能計(jì)算模式和應(yīng)用相關(guān)的風(fēng)險(xiǎn)[2]。
如何有效管理高性能計(jì)算平臺(tái)系統(tǒng)風(fēng)險(xiǎn),需要對(duì)風(fēng)險(xiǎn)的影響進(jìn)行有效分析與評(píng)估,制定有效的風(fēng)險(xiǎn)應(yīng)對(duì)策略,提高高性能計(jì)算平臺(tái)的可靠性、有效性,保障系統(tǒng)的安全穩(wěn)定運(yùn)行。作者梳理了高性能計(jì)算平臺(tái)的系統(tǒng)狀態(tài),并從硬件、應(yīng)用及數(shù)據(jù)等幾個(gè)方面分析了系統(tǒng)運(yùn)行風(fēng)險(xiǎn)及風(fēng)險(xiǎn)應(yīng)對(duì)策略。
2 高性能計(jì)算平臺(tái)簡(jiǎn)介
本單位高性能計(jì)算平臺(tái)功能架構(gòu)包含:
2.1 基礎(chǔ)設(shè)施層
(1)硬件設(shè)備層。共計(jì)50臺(tái)套設(shè)備,其中管理節(jié)點(diǎn)9臺(tái)(管理節(jié)點(diǎn)、IO節(jié)點(diǎn)、統(tǒng)計(jì)數(shù)據(jù)庫(kù)節(jié)點(diǎn)等)、計(jì)算節(jié)點(diǎn)32臺(tái)(刀片計(jì)算節(jié)點(diǎn)30臺(tái)、胖節(jié)點(diǎn)2臺(tái))、軟件許可服務(wù)器3臺(tái)、GPU 2臺(tái)、虛擬服務(wù)器3機(jī)、存儲(chǔ)1臺(tái)。
(2)系統(tǒng)軟件層。包含并行調(diào)度系統(tǒng)、遠(yuǎn)程二維/三維可視化管理系統(tǒng)、并行文件系統(tǒng)、集群渲染調(diào)度系統(tǒng)、高性能計(jì)算平臺(tái)監(jiān)控軟件。
(3)共享軟件資源層。包含仿真前處理工具、仿真求解工具、仿真后處理工具。
2.2 流程管理層
包含仿真業(yè)務(wù)流程、平臺(tái)及工具集成、仿真數(shù)據(jù)管理。
2.3 專業(yè)應(yīng)用層
覆蓋本單位研發(fā)過程的主要專業(yè),如總體、船體、結(jié)構(gòu)、動(dòng)力等,如圖1所示。
3 高性能計(jì)算平臺(tái)風(fēng)險(xiǎn)分析
風(fēng)險(xiǎn)指信息系統(tǒng)遭受損失、傷害、毀滅的可能性。風(fēng)險(xiǎn)評(píng)估是一個(gè)結(jié)合技術(shù)手段,為識(shí)別管理問題、制定管理策略服務(wù)的系統(tǒng)工程。它為降低風(fēng)險(xiǎn)、實(shí)施風(fēng)險(xiǎn)管理和控制提供了重要依據(jù)。風(fēng)險(xiǎn)評(píng)估是加強(qiáng)信息系統(tǒng)建設(shè)和管理的關(guān)鍵環(huán)節(jié),是發(fā)現(xiàn)信息系統(tǒng)存在問題,找到解決途徑的有效手段[3]。
3.1 硬件風(fēng)險(xiǎn)
高性能計(jì)算平臺(tái)硬件風(fēng)險(xiǎn)可能由以下原因引起:
(1)異常斷電,且斷電時(shí)間大于UPS保障時(shí)間導(dǎo)致宕機(jī)。
(2)硬件老化或出現(xiàn)其他不可預(yù)期故障。
物理機(jī)許可服務(wù)器上部署的許可大部分已過維保期,且許可的申請(qǐng)與物理機(jī)信息綁定,如果物理機(jī)故障,必須申請(qǐng)新的許可才能使用,受到CAE廠家響應(yīng)時(shí)間的限制。
(3)以太網(wǎng)交換機(jī)、infiniband交換機(jī)、存儲(chǔ)硬件故障。
3.2 數(shù)據(jù)風(fēng)險(xiǎn)
(1)高性能計(jì)算平臺(tái)Vertical數(shù)據(jù)庫(kù)采用3冗余方式,最多只可有一臺(tái)機(jī)器宕機(jī),否則會(huì)導(dǎo)致數(shù)據(jù)庫(kù)宕機(jī)。
(2)許可服務(wù)器物理機(jī)節(jié)點(diǎn)屬于單節(jié)點(diǎn)運(yùn)行,且該節(jié)點(diǎn)上部署了大量不同廠家的許可,并大部分CAE軟件許可已過維保期。如果許可數(shù)據(jù)異常,許可需要重新申請(qǐng),周期和申請(qǐng)結(jié)果無(wú)法預(yù)估,且申請(qǐng)?jiān)S可需要硬件相關(guān)信息。
(3)虛擬化平臺(tái)故障將導(dǎo)致虛擬機(jī)許可數(shù)據(jù)異常。
(4)服務(wù)器硬件故障導(dǎo)致許可異常。
3.3 應(yīng)用風(fēng)險(xiǎn)
應(yīng)用風(fēng)險(xiǎn)可能由以下原因引起:
(1)人為誤操作或平臺(tái)本身潛在問題,導(dǎo)致高性能計(jì)算平臺(tái)服務(wù)異常。
(2)服務(wù)升級(jí)、補(bǔ)丁部署導(dǎo)致服務(wù)崩潰。
(3)平臺(tái)本身潛在問題導(dǎo)致服務(wù)器宕機(jī)。
(4)目前許可服務(wù)器物理機(jī)節(jié)點(diǎn)許可數(shù)據(jù)分布集中,許可服務(wù)應(yīng)用程序異常將導(dǎo)致大量CAE共享軟件無(wú)法使用。
4 風(fēng)險(xiǎn)應(yīng)對(duì)策略
4.1 硬件風(fēng)險(xiǎn)應(yīng)對(duì)策略
4.1.1 增加架構(gòu)冗余度
對(duì)風(fēng)險(xiǎn)發(fā)生時(shí)會(huì)造成較大損失或延誤工程進(jìn)度的故障點(diǎn),可增加架構(gòu)冗余度。
(1)磁盤陣列。具體措施包括增加二級(jí)冗余存儲(chǔ),實(shí)現(xiàn)存儲(chǔ)熱備,防止數(shù)據(jù)丟失,或增加1:1存儲(chǔ),進(jìn)行數(shù)據(jù)復(fù)制,當(dāng)其中一臺(tái)存儲(chǔ)故障不影響使用。
(2)圖像處理服務(wù)器。增加1臺(tái)圖像處理服務(wù)器,當(dāng)一臺(tái)宕機(jī),用戶可以使用其它圖像處理服務(wù)器做圖形處理任務(wù)。
(3)許可服務(wù)器物理機(jī)。將必須部署在物理服務(wù)器上的許可,進(jìn)行分散部署,至少部署在2臺(tái)物理許可服務(wù)器上。需要再新增1臺(tái)物理許可服務(wù)器。
4.1.2 提供冷備份手段
目前架構(gòu)中為單點(diǎn)設(shè)計(jì)的計(jì)算網(wǎng)絡(luò)交換機(jī)、管理網(wǎng)絡(luò)交換機(jī)和刀箱IB交換模塊單點(diǎn)故障,上述節(jié)點(diǎn)故障可能性較小且配置簡(jiǎn)單,為避免單點(diǎn)故障,可采用冷備手段,增加冗余設(shè)備,在故障時(shí)可在30分鐘內(nèi)實(shí)現(xiàn)替換和故障修復(fù)。
4.1.3 加強(qiáng)對(duì)廠商的服務(wù)約束
對(duì)必須部署在物理機(jī)許可服務(wù)器上的軟件許可,在采購(gòu)時(shí)對(duì)遷移做明確要求,要求5年內(nèi)廠家提供1次免費(fèi)的許可遷移服務(wù)等。
4.2 應(yīng)用風(fēng)險(xiǎn)應(yīng)對(duì)策略
4.2.1 增強(qiáng)架構(gòu)的冗余設(shè)計(jì)
對(duì)高風(fēng)險(xiǎn)或關(guān)鍵節(jié)點(diǎn)采用冗余架構(gòu),采用冗余熱備方式確保系統(tǒng)正常。
4.2.2 加強(qiáng)整機(jī)備份
對(duì)于采用虛擬機(jī)部署的應(yīng)用服務(wù),采用系統(tǒng)整機(jī)備份,保證虛擬機(jī)失效后能快速恢復(fù)系統(tǒng)。
4.2.3 有效備份配置文件
對(duì)于關(guān)鍵應(yīng)用,確保安裝文件和配置文件的完整備份,確保故障發(fā)生時(shí),可快速有效恢復(fù)。對(duì)數(shù)據(jù)庫(kù)等重要數(shù)據(jù)進(jìn)行定期備份或增量備份。
4.3 數(shù)據(jù)風(fēng)險(xiǎn)應(yīng)對(duì)策略
針對(duì)數(shù)據(jù)風(fēng)險(xiǎn)有2種應(yīng)對(duì)策略。
4.3.1 整機(jī)備份
對(duì)于采用虛擬機(jī)進(jìn)行部署的管理節(jié)點(diǎn)以及許可服務(wù)器,采用整機(jī)備份方式,應(yīng)對(duì)數(shù)據(jù)風(fēng)險(xiǎn),可實(shí)現(xiàn)快速恢復(fù)。
4.3.2 數(shù)據(jù)庫(kù)及數(shù)據(jù)文件備份
數(shù)據(jù)庫(kù)及數(shù)據(jù)文件備份,根據(jù)系統(tǒng)數(shù)據(jù)應(yīng)用情況進(jìn)行實(shí)際分析,可采用部署后一次性備份,或是采用增量備份的方式。
4.4 其他改進(jìn)措施
高性能計(jì)算平臺(tái)屬于系統(tǒng)體量大、復(fù)雜度高、技術(shù)難度大的信息系統(tǒng),為降低風(fēng)險(xiǎn)發(fā)生造成的損失,按照監(jiān)控—預(yù)警—診斷—修復(fù)的步驟,每日巡檢,加強(qiáng)故障的預(yù)防和處理。
(1)通過信息化手段對(duì)平臺(tái)進(jìn)行實(shí)時(shí)監(jiān)控,對(duì)出現(xiàn)異常的節(jié)點(diǎn),采用人工進(jìn)行故障排查。
(2)通過信實(shí)時(shí)監(jiān)控軟件,對(duì)僵尸進(jìn)程、長(zhǎng)期大量占用存儲(chǔ)的用戶、高性能計(jì)算平臺(tái)瓶頸進(jìn)行預(yù)警。
(3)根據(jù)日志提示信息查看相關(guān)服務(wù)。遇到復(fù)雜問題,采用多臺(tái)關(guān)聯(lián)設(shè)備、多個(gè)關(guān)聯(lián)服務(wù)并行排查的方式,提高問題定位的準(zhǔn)確性。
(4)規(guī)范故障的修復(fù)處理,并加強(qiáng)過程的管理和記錄,此外通過周期性的定期巡檢和即時(shí)性的事件處理,實(shí)現(xiàn)系統(tǒng)的穩(wěn)定運(yùn)行。
5 結(jié)語(yǔ)
風(fēng)險(xiǎn)控制管理是信息系統(tǒng)管理的一個(gè)重要組成部分,良好的風(fēng)險(xiǎn)管理可以防止和減少項(xiàng)目中潛在問題的影響,只有通過科學(xué)的分析和方法,將風(fēng)險(xiǎn)問題和項(xiàng)目任務(wù)緊密結(jié)合起來(lái),并且轉(zhuǎn)化為知識(shí)和技術(shù)積累。在高性能計(jì)算平臺(tái)運(yùn)營(yíng)的過程中,將不斷提升風(fēng)險(xiǎn)管理意識(shí)和水平,降低風(fēng)險(xiǎn)發(fā)生的概率或轉(zhuǎn)移風(fēng)險(xiǎn),減少風(fēng)險(xiǎn)對(duì)整個(gè)平臺(tái)所造成的影響[4]。
參考文獻(xiàn)
[1]鄧濤.構(gòu)建信息系統(tǒng)風(fēng)險(xiǎn)評(píng)估,提升網(wǎng)絡(luò)信息安全[J].信息技術(shù)與信息化,2015,(3):40-41.
[2]聶元銘,安靖,文暉.云計(jì)算信息安全風(fēng)險(xiǎn)探究[J].信息網(wǎng)絡(luò)安全,2011,(10):15-16.
[3]趙可.信息系統(tǒng)風(fēng)險(xiǎn)評(píng)估對(duì)網(wǎng)絡(luò)和信息安全的重要意義探討[J].硅谷,2014,(2):166.
[4]李智.信息系統(tǒng)風(fēng)險(xiǎn)管理和控制的研究與探討[J].科技信息,2013,(8):425.endprint