• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      高性能集群系統(tǒng)運維淺析

      2018-08-18 08:23:26趙亮
      數(shù)字技術(shù)與應用 2018年4期
      關(guān)鍵詞:集群運維

      趙亮

      摘要:網(wǎng)絡的飛速發(fā)展,氣象數(shù)值預報高分辨率循環(huán)同化系統(tǒng)對服務器提出了更高的要求,使用Linux操作系統(tǒng)構(gòu)建高性能集群系統(tǒng),用較低的價格實現(xiàn)高伸縮、高可用的計算服務,以彌補單臺服務器無法達到的性能。本文以實際生產(chǎn)運行中的一則故障為例,剖析了系統(tǒng)運維中的一些方法。

      關(guān)鍵詞:數(shù)值預報;集群;運維

      中圖分類號:TP38 文獻標識碼:A 文章編號:1007-9416(2018)04-0190-01

      1 集群的概念

      集群是指一組協(xié)同工作的服務集合,可以提供比單臺服務更穩(wěn)定、高效、具有擴展性的服務平臺。整體來看,集群是一個獨立的服務實體,而實際上,在集群內(nèi)部,有多個服務實體在協(xié)同完成一系列復雜工作。集群一般由兩個或兩個以上的服務器搭建而成,每臺服務器稱為一個集群節(jié)點。當一個節(jié)點出現(xiàn)故障時,集群的另一節(jié)點可以自動接管故障節(jié)點的資源,從而保證服務持續(xù)、不間斷運行[1]。

      綜上,搭建一套集群系統(tǒng)需要N(N>=2)臺服務器,同時還需要IB線纜、集群軟件、共享存儲設(shè)備(磁盤陣列)等,如下圖1所示。

      2 故障實例

      某日,GRIDVIEW集群綜合管理系統(tǒng)顯示Node52節(jié)點異常,按照處理流程,使用Blade Full View Management System對告警節(jié)點進行“硬重啟”操作。在等待數(shù)分鐘后,節(jié)點依然顯示告警,重復上述操作故障依舊。我們使用SKMV OVER IP系統(tǒng)登錄告警節(jié)點查看,發(fā)現(xiàn)該節(jié)點無法進入Linux系統(tǒng),服務器硬盤有報錯,使用fsck命令校正文件系統(tǒng)依然無效,因此決定更換Node52服務器硬盤。但更換新硬盤后需要重新安裝該節(jié)點的Linux操作系統(tǒng)以及各種集群服務,操作較為繁瑣且冗余,我們可以使用拷貝安裝的方式來進行修復工作。取出Node52的受損硬盤,將新硬盤插入Node51節(jié)點的空余硬盤插槽中,重啟Node51節(jié)點,隨即進入Node51的單用戶模式。

      我們來簡單介紹一下單用戶模式。單用戶模式指有且只有一個用戶可以訪問某個資源的狀態(tài)。單用戶模式是系統(tǒng)最原始的狀態(tài),一切網(wǎng)絡服務均未啟動,文件系統(tǒng)也沒有mount,僅基礎(chǔ)的系統(tǒng)module被加載,再由kernel啟動進入命令行狀態(tài)。我們把此狀態(tài)稱為單用戶模式。那Linux的單用戶模式又是如何進入呢?我們在系統(tǒng)啟動時,按下鍵盤上的“e”,即進入以下這個頁面Linux系統(tǒng)啟動頁圖2所示。

      選擇kernel /vmlinuz-2.6.32-358.el6.i686(即第二項)這一行,按下“e”建,在行尾輸入:空格single,并回車確定。按下鍵盤的"b",即重新引導系統(tǒng)。然后就進入了單用戶模式,在此模式下使用命令進行硬盤拷貝:dd if="/dev/sda" of="/dev/sdb",待命令執(zhí)行完畢后使用init 0關(guān)閉Node51服務器。將拷貝后的新硬盤插回Node52節(jié)點中,隨即啟動Node 52,修改其IP地址、主機名,待修改完成后重新開啟Node51服務器,使用GRIDVIEW監(jiān)控系統(tǒng)顯示所有節(jié)點均正常運行,至此服務器節(jié)點故障得以修復。

      3 分析與總結(jié)

      高性能計算集群的原理是將計算任務分配到集群的不同計算節(jié)點從而可以提高計算能力,所以其主要應用在科學計算領(lǐng)域,比如民航氣象數(shù)值預報系統(tǒng)。目前比較流行的HPC采用Linux操作系統(tǒng)和一些免費軟件來實現(xiàn)并行運算。這樣的集群配置通常被業(yè)界稱為Beowulf集群。這類集群通常會運行特定的程序以發(fā)揮HPC集群的并行能力。這類程序一般會應用特定的運行庫, 如專為科學計算而設(shè)計的MPI庫。HPC集群非常適合于在科學計算中各計算節(jié)點之間發(fā)生大量數(shù)據(jù)通訊及數(shù)據(jù)交換的計算作業(yè),而一個節(jié)點的中間結(jié)果可能影響到其它節(jié)點計算的結(jié)果。

      在上述故障中,當高可用性計算集群中有某個節(jié)點(Node 52)失效的情況下,這個節(jié)點上的任務會自動轉(zhuǎn)移到其他正常的節(jié)點上。在此案例故障修復過程中,我們將集群中的某節(jié)點(Node 51)進行離線維護后再上線,這個過程并不影響整個集群的運行,在最大程度上保證了系統(tǒng)運行穩(wěn)定。

      參考文獻

      [1]鄭緯民.石威.等譯.高性能集群計算:結(jié)構(gòu)與系統(tǒng)(第一卷)[M].北京:電子工業(yè)出版社,2001.

      猜你喜歡
      集群運維
      集群式AUV可控分群控制算法
      大型國有企業(yè)環(huán)保設(shè)施第三方運維的探索與實踐
      海上小型無人機集群的反制裝備需求與應對之策研究
      運維技術(shù)研發(fā)決策中ITSS運維成熟度模型應用初探
      風電運維困局
      能源(2018年8期)2018-09-21 07:57:24
      一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計
      電子制作(2018年11期)2018-08-04 03:25:40
      談電力運維安全隱患排查治理
      電子測試(2017年12期)2017-12-18 06:36:10
      雜亂無章的光伏運維 百億市場如何成長
      能源(2017年11期)2017-12-13 08:12:25
      Python與Spark集群在收費數(shù)據(jù)分析中的應用
      勤快又呆萌的集群機器人
      行唐县| 吉隆县| 五莲县| 灵台县| 富裕县| 正阳县| 阿瓦提县| 峡江县| 界首市| 寿阳县| 时尚| 隆子县| 个旧市| 松溪县| 黄龙县| 商水县| 绥化市| 肥城市| 临漳县| 府谷县| 城口县| 本溪| 翼城县| 自贡市| 塘沽区| 宁河县| 涿鹿县| 东丰县| 南充市| 仁布县| 桂平市| 宁德市| 昆明市| 青阳县| 宜宾县| 永州市| 阜宁县| 嵩明县| 迭部县| 开江县| 长宁区|