黃鑫
(福建師范大學(xué)協(xié)和學(xué)院 管理系,福州 350000)
?
高性能計算機可靠性現(xiàn)狀與發(fā)展趨勢研究
黃鑫
(福建師范大學(xué)協(xié)和學(xué)院管理系,福州350000)
[摘要]隨著我國高性能計算機系統(tǒng)性能的不斷提升,如何更好的保障高性能計算機系統(tǒng)運行的精確性成為當(dāng)前研究的重要問題,尤其體現(xiàn)在現(xiàn)行計算機研制過程中。為此,研究探討高性能計算機可靠性現(xiàn)狀與發(fā)展趨勢相關(guān)問題,首先從高性能計算機可靠性現(xiàn)狀分析出發(fā),包括避錯技術(shù)、靜態(tài)冗余、動態(tài)冗余以及在線替換,然后對高性能計算機未來發(fā)展趨勢從多核處理器的可靠性設(shè)計、增強的全方位內(nèi)存防護(hù)技術(shù)以及刀片式架構(gòu)的發(fā)展三個方面進(jìn)行了深入的分析。其寫作的主要目的在于為今后高性能計算機更好的發(fā)展奠定一個具有參考價值的文獻(xiàn)基礎(chǔ)。
[關(guān)鍵詞]高性能計算機;可靠性;發(fā)展趨勢
1.1避錯技術(shù)
避錯技術(shù)是指通過正確的設(shè)計及人為質(zhì)量控制的方式最大程度上避免系統(tǒng)性故障和減輕計算機系統(tǒng)器件失效的問題。其中,計算機系統(tǒng)器件主要和計算機質(zhì)量等級、使用的周邊環(huán)境及溫度、電路規(guī)模、封裝復(fù)雜度等等因素有著密切的聯(lián)系[1]。通過實踐經(jīng)驗及查閱相關(guān)的文獻(xiàn)發(fā)現(xiàn),避錯技術(shù)主要可以通過耐環(huán)境設(shè)計、熱設(shè)計、降額設(shè)計、元器件控制等等方面實現(xiàn)。另外,需要特別注意的是,高性能計算機的可靠性設(shè)計需要盡可能的選取一些可靠的器件,例如高集成度的器件,并減少器件的數(shù)量[2]。
1.2靜態(tài)冗余
靜態(tài)冗余也稱為故障屏蔽技術(shù),主要是在計算機系統(tǒng)故障的前提之下,通過硬件冗余以及信息冗余的方式在系統(tǒng)故障發(fā)揮效應(yīng)之前消除其不良影響。在當(dāng)前高性能計算機的可靠性設(shè)計中,故障屏蔽技術(shù)被廣泛的運用其中。一般而言,靜態(tài)冗余主要包括了[3]部件冗余、數(shù)據(jù)通路冗余、信息冗余。其中,數(shù)據(jù)通路冗余在一定意義上也是一種部件冗余。信息冗余主要是通過在數(shù)據(jù)中附加冗余的信息,從而實現(xiàn)故障檢測的目的。
1.3動態(tài)冗余
動態(tài)冗余是一種采取標(biāo)準(zhǔn)模塊完成相關(guān)的配置工作,一旦檢測及診斷出故障發(fā)生的位置,計算機系統(tǒng)就可以很好的對其進(jìn)行重組或者是完成恢復(fù)工作,保障計算機正常的運行。動態(tài)冗余主要包括了故障檢測與診斷、重組技術(shù)、恢復(fù)技術(shù)。其中,故障檢測與診斷的作用是為了確保計算機系統(tǒng)是否存在故障,不但可以脫機運行,也可以聯(lián)機運行。聯(lián)機運行檢測與診斷可以盡可能的提升計算機系統(tǒng)的可靠度,激活動態(tài)冗余。重組技術(shù)作為動態(tài)冗余的重要實現(xiàn)步驟,可以有效的防止計算機系統(tǒng)失效而產(chǎn)生的各種負(fù)面影響。例如,當(dāng)檢測出不可恢復(fù)性的系統(tǒng)故障時,借助于系統(tǒng)備用的部件來代替故障的部件,就可以消除系統(tǒng)性故障導(dǎo)致計算機運行中斷的問題?;謴?fù)技術(shù)主要解決瞬態(tài)故障,是檢測到瞬態(tài)可恢復(fù)故障時,采用針對性的措施實現(xiàn)計算機系統(tǒng)運行的重要環(huán)節(jié)。
2.1多核處理器的可靠性設(shè)計
隨著計算機處理器集成度的提升、半導(dǎo)體硅尺寸逐漸縮小的進(jìn)程中,由于計算機處理器而產(chǎn)生的故障越來越多,大體上包括硬錯和軟錯兩個大的方面。另外,由于多核處理器具有多核間共享部件的問題,一個核的軟錯誤往往會傳遞到其他核中,為此多核處理器的軟錯誤更為嚴(yán)重。針對這種現(xiàn)象,迫切需要加強多核處理器的可靠性設(shè)計,基本的方向包括雙核鎖步執(zhí)行、微回卷、冗余執(zhí)行、芯片級冗余多線程技術(shù)等等。另外,高性能計算機中多核處理器的運用,在可靠性方面的挑戰(zhàn)與機遇是并存的,后期需要加強高性能計算機硬件容錯技術(shù)的研發(fā)工作,保障高性能計算機系統(tǒng)正常的運行。
2.2全方位增強內(nèi)存防護(hù)技術(shù)
就目前來看,內(nèi)存故障在高性能計算機系統(tǒng)故障中占據(jù)的比例較高,需要加強內(nèi)存方面的故障防護(hù)技術(shù)研發(fā)工作。針對內(nèi)存的軟錯及硬錯,可以綜合參考各種存儲器容錯技術(shù)來提升內(nèi)存的可靠性,例如通過加固存儲器的連接來實現(xiàn)電氣和機械的可靠性。此外,部分高性能計算機設(shè)計的過程中,還可以借助于內(nèi)存清洗、內(nèi)存?zhèn)浼约皟?nèi)存鏡像等等方式完成處理器的可靠性設(shè)計技術(shù)。
2.3刀片式架構(gòu)的發(fā)展
刀片式服務(wù)器泛指在標(biāo)準(zhǔn)高度的架勢機箱內(nèi)插裝多個卡式的服務(wù)器單元板,是基于實現(xiàn)高可靠和高密度的高性能服務(wù)器。在刀片式架構(gòu)中,通常采用的是模塊化的冗余結(jié)構(gòu),實現(xiàn)風(fēng)扇、電源、網(wǎng)絡(luò)、背板等等關(guān)鍵性系統(tǒng)部件的冗余,進(jìn)而消除單點故障,保障高性能計算機系統(tǒng)的正常運行。
隨著我國高性能計算機系統(tǒng)性能的不斷提升,如何更好的保障高性能計算機系統(tǒng)精確的運行成為了當(dāng)前研究的重要問題,尤其體現(xiàn)在現(xiàn)行計算機研制過程中。一旦發(fā)生故障而使系統(tǒng)無法工作,將會造成重大經(jīng)濟或軍事?lián)p失。為此,本文研究探討高性能計算機可靠性現(xiàn)狀與發(fā)展趨勢相關(guān)問題,首先從高性能計算機可靠性現(xiàn)狀分析出發(fā),然后對高性能計算機未來發(fā)展趨勢進(jìn)行了深入的分析。其寫作的主要目的在于為今后高性能計算機更好的發(fā)展奠定一個具有參考價值的文獻(xiàn)基礎(chǔ)。
主要參考文獻(xiàn)
[1]王俊超,彭濤,馮光柳.曙光高性能計算機在數(shù)值預(yù)報模式中的應(yīng)用[J].計算機技術(shù)與發(fā)展,2014(10):178-181.
[2]梁瑞虹.探討高性能計算機的可靠性技術(shù)與發(fā)展趨勢[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(10):187-189.
[3]張軍華,臧勝濤,單聯(lián)瑜,等.高性能計算的發(fā)展現(xiàn)狀及趨勢[J].石油地球物理勘探,2010(6):918-925.
doi:10.3969/j.issn.1673 - 0194.2016.03.102
[中圖分類號]TP302
[文獻(xiàn)標(biāo)識碼]A
[文章編號]1673-0194(2016)03-0193-01
[收稿日期]2015-11-16