摘 要隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,給人們的工作及生活提供了大量的便利,不僅縮短了工作時(shí)間,同時(shí)提高了效率。計(jì)算機(jī)高效準(zhǔn)確的計(jì)算力也是各行業(yè)生存及發(fā)展的必要因素,計(jì)算機(jī)的穩(wěn)定性至關(guān)重要。人們也越來越重視計(jì)算機(jī)系統(tǒng)的容錯(cuò)技術(shù)。本文主要介紹了當(dāng)前的計(jì)算機(jī)系統(tǒng)容錯(cuò)技術(shù)及合理的升級方法,并為計(jì)算機(jī)系統(tǒng)的合理化發(fā)展提出了相關(guān)的建議。
【關(guān)鍵詞】計(jì)算機(jī)系統(tǒng) 容錯(cuò)技術(shù) 硬件錯(cuò)誤 軟件錯(cuò)誤
1 計(jì)算機(jī)系統(tǒng)常見的錯(cuò)誤
計(jì)算機(jī)系統(tǒng)錯(cuò)誤不僅來源于軟件的運(yùn)行故障,硬件的失靈也是造成計(jì)算機(jī)系統(tǒng)錯(cuò)誤的原因。近年來,隨著科研人員工作的不斷深入,電路主板技術(shù)的不斷完善,計(jì)算機(jī)硬件的問題主要來源于計(jì)算機(jī)處理器的瞬時(shí)故障。而出現(xiàn)的原因主要是有幾個(gè)方面:首先是電壓超載,使計(jì)算機(jī)晶體管無法正常工作,從而出現(xiàn)瞬時(shí)故障;其次是計(jì)算機(jī)處理器的超頻處理,造成負(fù)荷過載,從而出現(xiàn)故障;第三是當(dāng)某一個(gè)發(fā)生問題時(shí)就會(huì)造成計(jì)算機(jī)處理器出現(xiàn)問題,由于晶體管數(shù)量巨大,也增加了計(jì)算機(jī)故障出現(xiàn)的頻率。
2 計(jì)算機(jī)系統(tǒng)容錯(cuò)技術(shù)分析
2.1 計(jì)算機(jī)硬件容錯(cuò)技術(shù)
相比較軟件層面的問題,硬件方面的故障更容易發(fā)生,且修復(fù)更為困難。計(jì)算機(jī)硬件發(fā)生故障主要有兩個(gè)方面,一個(gè)是瞬時(shí)故障,主要來源于個(gè)別系統(tǒng)短時(shí)間停止工作,大多數(shù)是由于系統(tǒng)超載,這種情況主要由于計(jì)算機(jī)的多部件整合;一個(gè)是永久故障,主要源于個(gè)別系統(tǒng)部件損壞,而維修方法只能是更換損壞的部件。
計(jì)算機(jī)的硬件容錯(cuò)設(shè)計(jì)思路是通過對設(shè)備的溫度管理或?qū)Σ僮飨到y(tǒng)安裝備用設(shè)備,來解決在硬件發(fā)生錯(cuò)誤時(shí)及時(shí)啟動(dòng)備用裝備,并且反饋故障信息,以便及時(shí)檢修。
現(xiàn)代計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)中通常采用的是雙系統(tǒng)模式,甚至三系統(tǒng)模式也很常見,多系統(tǒng)的設(shè)計(jì)方案存在固有的問題,每個(gè)系統(tǒng)的錯(cuò)誤都需要獨(dú)立修復(fù),這就說明允許出現(xiàn)的故障率是n-1,在使用過程中,必須保證其中的一套系統(tǒng)處于工作狀態(tài),才能保證計(jì)算機(jī)不會(huì)停止運(yùn)行。多系統(tǒng)的設(shè)計(jì)方案會(huì)造成計(jì)算機(jī)發(fā)生故障時(shí),就會(huì)造成故障信息的反饋延遲,需要統(tǒng)一管理設(shè)備進(jìn)行查找故障。
計(jì)算機(jī)系統(tǒng)的冗余設(shè)計(jì)指的是在信息傳輸過程中,通過增加信息的重復(fù)以便在計(jì)算機(jī)出現(xiàn)故障時(shí)確保信息傳輸?shù)耐暾?。?jì)算機(jī)信息冗余容錯(cuò)技術(shù)有兩種方法,一種是計(jì)算機(jī)錯(cuò)誤信息的檢測,另一種是計(jì)算機(jī)錯(cuò)誤信息的糾正。
計(jì)算機(jī)信息的冗余技術(shù)故障檢測方式的優(yōu)勢有以下幾個(gè)方面:成本低、操作簡單、故障檢測速度快、信息處理及時(shí)。
計(jì)算機(jī)時(shí)間冗余技術(shù)可以增加計(jì)算機(jī)系統(tǒng)的容錯(cuò)率,操作方法是在統(tǒng)一的硬件設(shè)施上,在不同的時(shí)間段對相應(yīng)的計(jì)算機(jī)指令操作。計(jì)算機(jī)在表決電路的協(xié)同下,將信息數(shù)據(jù)延遲發(fā)送至處理器,并根據(jù)處理時(shí)間復(fù)制為多個(gè)附件,再推送至表決器,從而查找故障原因。
計(jì)算機(jī)實(shí)踐容錯(cuò)技術(shù)的核心是推送數(shù)據(jù)流的延遲,延遲時(shí)間過長會(huì)錯(cuò)過計(jì)算機(jī)修復(fù)的最佳時(shí)間,增加系統(tǒng)出現(xiàn)問題的概率。如果延遲時(shí)間過短,則會(huì)在短時(shí)間內(nèi)數(shù)據(jù)量過大,從而造成信息的冗余,也會(huì)增加計(jì)算機(jī)系統(tǒng)的故障率。
計(jì)算機(jī)硬件線程技術(shù)是通過多核心的中央處理器使真正線程上的錯(cuò)誤降級,這就可以有效的減少計(jì)算機(jī)整體系統(tǒng)故障的發(fā)生率。多線程容錯(cuò)技術(shù)的核心是啟用多個(gè)主引導(dǎo)線程和多個(gè)備用線程分別進(jìn)行數(shù)據(jù)計(jì)算,并將計(jì)算結(jié)果上傳到頂層數(shù)據(jù)分析器進(jìn)行比對,最終發(fā)現(xiàn)錯(cuò)誤。但是這種容錯(cuò)技術(shù)也存在缺陷:工作量大,效率低,并且多個(gè)主引導(dǎo)線程和多個(gè)備用線程同時(shí)計(jì)算,很容易引發(fā)設(shè)備部件鎖死。
2.2 計(jì)算機(jī)軟件容錯(cuò)技術(shù)
計(jì)算機(jī)軟件的容錯(cuò)技術(shù)主要是提前控制。計(jì)算機(jī)軟件多樣,并且在涉及過程中并沒有統(tǒng)一的標(biāo)準(zhǔn),因此對于各個(gè)軟件的故障控制較為困難。所以計(jì)算機(jī)軟件在出現(xiàn)故障問題時(shí),大多數(shù)屬于編程人員的編寫錯(cuò)誤。為了提高計(jì)算機(jī)軟件的使用效率,降低出錯(cuò)率,就要求軟件在編寫過程中采用高級編程語言來進(jìn)行,當(dāng)前C++是最高級的編程語言,可以有效的降低計(jì)算機(jī)軟件的報(bào)錯(cuò)率,提高使用效率。
計(jì)算機(jī)軟件出現(xiàn)故障時(shí)的應(yīng)對策略有兩種,一種是回滾恢復(fù),即計(jì)算機(jī)回滾至出錯(cuò)之前的最后一次正確運(yùn)行狀態(tài),重新進(jìn)入正常運(yùn)轉(zhuǎn);一種是后向深入,即計(jì)算機(jī)軟件可以自我查找故障原因,自主排除故障,從而恢復(fù)正常運(yùn)轉(zhuǎn)。
計(jì)算機(jī)多版本軟件容錯(cuò)技術(shù)的方法是通過多種編程語言和開發(fā)工作制造多版本軟件,大大提升計(jì)算機(jī)的兼容性,從而提高計(jì)算機(jī)的容錯(cuò)率。多版本軟件容錯(cuò)技術(shù)設(shè)計(jì)需要注意保持設(shè)計(jì)框架的一致性。從而確保軟件發(fā)生故障時(shí)的回滾。
3 計(jì)算機(jī)系統(tǒng)錯(cuò)誤回卷恢復(fù)機(jī)制
計(jì)算機(jī)硬件及軟件錯(cuò)誤排除方法的核心都是在系統(tǒng)運(yùn)行過程中,通過反饋信息,對故障進(jìn)行針對性的解決。這種排除方法的優(yōu)勢在于可以排除虛假信息,并且不會(huì)中斷計(jì)算機(jī)的運(yùn)行。缺點(diǎn)是對于錯(cuò)誤的檢測和恢復(fù)能力是有限的。
計(jì)算機(jī)系統(tǒng)錯(cuò)誤回卷恢復(fù)機(jī)制有兩個(gè)方面:一個(gè)是以之前計(jì)算機(jī)操作系統(tǒng)的檢測點(diǎn)為基準(zhǔn),進(jìn)行錯(cuò)誤回卷恢復(fù);一種是以計(jì)算機(jī)操作系統(tǒng)錯(cuò)誤統(tǒng)計(jì)信息為基準(zhǔn),進(jìn)行錯(cuò)誤回卷恢復(fù)。
4 常見的計(jì)算機(jī)故障排除策略
針對不同計(jì)算機(jī)的安裝環(huán)境、運(yùn)行方法、信息處理方式,采用相應(yīng)的故障排除方法。當(dāng)前計(jì)算機(jī)容錯(cuò)方法主要還是在廣泛的方法上進(jìn)行創(chuàng)新,通過非定制的COTS預(yù)防式處理計(jì)算機(jī)可能出現(xiàn)的系統(tǒng)故障,同時(shí)COTS可以確保計(jì)算機(jī)軟件在修復(fù)錯(cuò)誤時(shí)的可靠性。
當(dāng)前,計(jì)算機(jī)硬件故障的檢測和排除相對比較完善,但是對于軟件方面的故障排除技術(shù)有待發(fā)展,未來通過不斷對軟件故障排除研究的深入,從而提高計(jì)算機(jī)系統(tǒng)的容錯(cuò)率,有效的提高計(jì)算機(jī)的使用效率,降低軟件故障排除成本。
計(jì)算機(jī)的操作系統(tǒng)是計(jì)算機(jī)運(yùn)行、儲(chǔ)備的核心,因此提高計(jì)算機(jī)的安全性可以從計(jì)算機(jī)操作系統(tǒng)進(jìn)行著手研究,在高精尖的技術(shù)領(lǐng)域中,國外的操作系統(tǒng)安全性低,不利于國防事業(yè)的發(fā)展,而國內(nèi)的操作系統(tǒng)相對落后,也不適合應(yīng)用到高精尖領(lǐng)域。因此提高我國操作系統(tǒng)的應(yīng)用能力,是未來我國計(jì)算機(jī)產(chǎn)業(yè)發(fā)展的方向。
參考文獻(xiàn)
[1]徐奡,夏德天,鄭久壽.高升力系統(tǒng)控制計(jì)算機(jī)容錯(cuò)技術(shù)研究[J].微電子學(xué)與計(jì)算機(jī),2015,6(17):36-40+45.
[2]賈佳,楊學(xué)軍,李志凌.一種基于冗余線程的GPU多副本容錯(cuò)技術(shù)[J].計(jì)算機(jī)研究與發(fā)展,2013,07(23):1551-1562.
作者簡介
卓杰(1976-),男,山西省臨汾市人。助講,主要從事計(jì)算機(jī)教學(xué)工作。
作者單位
臨汾職業(yè)技術(shù)學(xué)院 山西省臨汾市 041000