王蒙 中國人民大學(xué)信息學(xué)院 北京市 102200
當(dāng)前,在這我國社會主義現(xiàn)代化建設(shè)事業(yè)不斷的背景之下,我國社會上各個領(lǐng)域都開始呈現(xiàn)出欣欣向榮的發(fā)展趨勢。在此期間,我國的計算機技術(shù)也開始逐漸的發(fā)展起來,將計算機技術(shù)應(yīng)用在各個領(lǐng)域當(dāng)中,能夠有效的提升各個領(lǐng)域在運行期間的質(zhì)量與效率,進(jìn)而使我國的經(jīng)濟發(fā)展得到全面提升。而在計算機系統(tǒng)當(dāng)中,容錯技術(shù)是一項極為重要的技術(shù),其能夠在計算機系統(tǒng)出現(xiàn)軟件錯誤或者是硬件錯誤的情況下,采取相應(yīng)的措施來保證系統(tǒng)各個部分在運行期間的既定功能,進(jìn)而確保計算機系統(tǒng)在運行期間的穩(wěn)定性。針對于計算機容錯技術(shù)來說,其已經(jīng)在我國的航天國防、電力化工、醫(yī)療衛(wèi)生等方面得到了極為廣泛的應(yīng)用,并且對于以上領(lǐng)域的發(fā)展起到極大的促進(jìn)作用。
所謂的計算機系統(tǒng)容錯技術(shù),其主要便是指計算機在運行期間所出現(xiàn)的數(shù)據(jù)、文件損壞或者是丟失等方面的故障時,系統(tǒng)能夠自動將這些損壞或者是丟失的文件和數(shù)據(jù)恢復(fù)到發(fā)生故障之前的狀態(tài),從而確保計算機系統(tǒng)能夠?qū)崿F(xiàn)連續(xù)且正常的運行。通過計算機系統(tǒng)容錯技術(shù),能夠有效的提升計算機系統(tǒng)在運行期間的安全性,并且不會在其中文件受到損壞期間影響到計算機系統(tǒng)的正常運行,進(jìn)而使計算機的工作任務(wù)不會被中斷,這便能夠有效保證計算機系統(tǒng)在運行期間的實效性?;谝陨咸匦裕嬎銠C系統(tǒng)容錯技術(shù)得到了全方位的應(yīng)用,同時也能夠?qū)τ谟嬎銠C的應(yīng)用穩(wěn)定性起到保障的作用,同時在不斷的探索與實踐當(dāng)中,計算機系統(tǒng)容錯技術(shù)也得到了一定的發(fā)展,目前已經(jīng)發(fā)展出了數(shù)據(jù)備份技術(shù)以及服務(wù)器容錯技術(shù),這兩項技術(shù)在實踐當(dāng)中獲得了極為廣泛的應(yīng)用,同時在該技術(shù)的保障下,也使我國計算機技術(shù)的應(yīng)用與發(fā)展更加的系統(tǒng)且全面。
在計算機系統(tǒng)的錯誤當(dāng)中,其故障類型分為多個方面,不過總結(jié)來說其主要能夠分為兩個層面上的錯誤,即軟件層面以及硬件層面上的錯誤。近幾年來,伴隨著我國在電路主板方面的工藝不斷提升,便使硬件方面的故障主要出現(xiàn)在處理器,即cpu上面,而這個故障的類型主要便是處理器瞬間故障。在實踐當(dāng)中出現(xiàn)處理器故障的主要因素便有可能是由于計算機晶體管無法正常工作,這是由于其中所承受的電壓值超出了計算機處理器所能夠承受的最大值,從而導(dǎo)致計算機瞬間故障的發(fā)生【1】。除此之外,計算機處理器所出現(xiàn)的故障還有可能是由于計算機處理器主頻設(shè)置過高所導(dǎo)致,當(dāng)前社會上眾多領(lǐng)域在應(yīng)用計算機系統(tǒng)期間為了有效的減少計算機的更新?lián)Q代時間,便會采取相應(yīng)的措施令計算機處理器在實際當(dāng)中超頻運行,這種情況的出現(xiàn)便導(dǎo)致計算機處理器上所承載的負(fù)荷過高,從而致使計算機處理器在使用期間故障頻發(fā)。實際使用期間,計算機處理器上面所出現(xiàn)的故障還有可能是由于晶體管所出現(xiàn)故障導(dǎo)致,在近幾年來我國在計算機制造方面技術(shù)的發(fā)展,這便導(dǎo)致計算機處理器當(dāng)中的晶體數(shù)量增大,若是在計算機運行期間其中的某一個或者幾個晶體管出現(xiàn)故障,便會導(dǎo)致計算機處理器在實際當(dāng)中出現(xiàn)運行錯誤的情況發(fā)生。針對于計算機系統(tǒng)當(dāng)中所出現(xiàn)的各種各樣問題,便需要針對于其中經(jīng)常出現(xiàn)的故障來設(shè)計出有效的計算機容錯系統(tǒng),通過在計算機系統(tǒng)當(dāng)中安裝容錯模塊,從而有效的降低計算機在運行期間發(fā)生故障的幾率,從而為計算機的穩(wěn)定運行提供保障與助力,并且使計算機能夠更好的應(yīng)用在社會上的各個領(lǐng)域當(dāng)中,進(jìn)而確保我國社會經(jīng)濟發(fā)展呈現(xiàn)出穩(wěn)定且高效上升的趨勢。
針對計算機容錯技術(shù)來說,其能夠有效的在計算機系統(tǒng)出現(xiàn)故障期間采取相應(yīng)的措施對于其進(jìn)行改善與調(diào)整,從而保證整體計算機系統(tǒng)能夠更加穩(wěn)定的運行。在實際應(yīng)用期間,計算機系統(tǒng)容錯技術(shù)主要包含計算機硬件容錯技術(shù)以及計算機軟件容錯技術(shù)兩種,下面本文將針對這兩種技術(shù)做出深入的分析與探討:
針對于計算機硬件容錯技術(shù)來說,其在實踐當(dāng)中可能出現(xiàn)的錯誤類型較多,同時也比較復(fù)雜,但是總結(jié)來說其能夠大致分為瞬間錯誤、間歇性錯誤以及永久性錯誤等三種錯誤【2】。在以上方面的錯誤當(dāng)中,發(fā)生概率比較高的錯誤類型便是瞬間錯誤,該種錯誤在計算機硬件錯誤當(dāng)中占有較大的比列,同時其對于計算機系統(tǒng)在運行期間的穩(wěn)定性與安全性的影響也比較大 而針對于間歇性錯誤來說,其主要便是針對于系統(tǒng)的可靠性來設(shè)定一定的閾值,若是計算機系統(tǒng)在實際應(yīng)用期間的錯誤發(fā)生概率超出在系統(tǒng)當(dāng)中所設(shè)定的閾值,便代表其所發(fā)生的錯誤為間歇性錯誤 永久性錯誤也是系統(tǒng)當(dāng)中的一個比較重要的錯誤類型,在實踐當(dāng)中,永久性錯誤主要便是由于計算機當(dāng)中的電路元件發(fā)生短路、硬件老化等方面因素所導(dǎo)致,這種故障一旦發(fā)生便有可能的使整體計算機系統(tǒng)的既定功能受到影響,甚至在嚴(yán)重的時候還有可能導(dǎo)致計算機系統(tǒng)無法正常的運行,只有通過更換元件才能夠有效的解決以上問題的出現(xiàn),令計算機系統(tǒng)恢復(fù)正常的運行。針對于計算機容錯系統(tǒng)來說,其與冗余具有較為直接的關(guān)系,同時在實踐當(dāng)中冗余資源形式的不同也會形成不同的冗余方法,例如:信息冗余、硬件冗余、線程冗余、時間冗余等方面的冗余方法。
3.1.1 信息冗余
在實踐當(dāng)中,信息冗余的容錯技術(shù)可以被分為兩種類型,即:糾錯編碼以及檢錯編碼,這種容錯方式主要便是通過在計算機系統(tǒng)原始數(shù)據(jù)當(dāng)中添加一定數(shù)量的冗余位置來實現(xiàn)對于計算機系統(tǒng)的故障檢測或者是故障修復(fù)等方面的功能。其中的糾錯編碼能夠?qū)ο到y(tǒng)當(dāng)中的錯誤進(jìn)行檢測并且糾正其中所出現(xiàn)的錯誤,檢錯編碼的功能則比較單一,其只能夠?qū)崿F(xiàn)對于系統(tǒng)當(dāng)中所出現(xiàn)問題的檢測。通過實踐與分析發(fā)現(xiàn),信息冗余在實踐應(yīng)用當(dāng)中的主要特點便是其對于錯誤的處理速度比較快,同時所付出的成本相對來說也比較低【3】。在對于冗余信息作出處理的期間并不會占用額外的時間成本,同時其也能夠與原始數(shù)據(jù)在同一事件內(nèi)完成,同時在數(shù)據(jù)處理期間主要采用的檢錯與糾錯并行的模式,所以在處理錯誤期間并不會造成時間上面的延遲,從而確保系統(tǒng)當(dāng)中所產(chǎn)生的錯誤被更加優(yōu)質(zhì)的修復(fù)。
3.1.2 硬件冗余
在計算機系統(tǒng)容錯技術(shù)當(dāng)中,硬件冗余是研究最多的一項,簡單的說硬件冗余就是一個小小的異常導(dǎo)致計算機系統(tǒng)在運行期間進(jìn)入一種死循環(huán)的狀態(tài),同時系統(tǒng)無法對于這種狀態(tài)產(chǎn)生相應(yīng)的動作,所以Windows底層的線程體系便會爆出問題并且用更加高級的權(quán)限去強行將其關(guān)閉【4】。在實際應(yīng)用期間,由于電腦不能夠有效的保證一個命令被百分百的執(zhí)行,在電腦執(zhí)行的底層完全是二進(jìn)制的機器碼,而在實際運行期間難免會由于電子的偏移而導(dǎo)致有無法執(zhí)行片段的產(chǎn)生,隨后這些產(chǎn)生錯誤的片段便會堆積在內(nèi)存里面,若是在系統(tǒng)當(dāng)中這些問題堆積較多并且到了一定數(shù)量的時候便會出現(xiàn)死機或者是重啟的情況,所以專業(yè)的服務(wù)器、圖形工作站等方面都會配置內(nèi)存校檢,這樣便能夠?qū)τ诔鲥e的地方做出調(diào)整,例如:將其中的高電平轉(zhuǎn)換為低電平、將低電平轉(zhuǎn)換為高電平等,這樣便能夠在最大程度上避免冗余現(xiàn)象的產(chǎn)生。在實踐應(yīng)用期間,硬件冗余技術(shù)提升計算機安全性與穩(wěn)定性的效果相對來說要好一點,同時在技術(shù)方面也比較成熟,所以在實踐當(dāng)中取得了較為廣泛的應(yīng)用。
3.1.3 時間冗余
針對于時間冗余來說,其主要便是被應(yīng)用在沒有實施硬件冗余的系統(tǒng)并且不注重實時性的情況下,這種容錯機制能夠有效的提升系統(tǒng)的可靠性。在實踐當(dāng)中,時間冗余主要便是指同一硬件的同一數(shù)據(jù)在不同的時間段當(dāng)中所執(zhí)行的指令集相同。針對于時間冗余技術(shù)來說,對于延遲的時間具有較為特殊的要求,若是延遲的時間過短便有可能會導(dǎo)致系統(tǒng)當(dāng)中的容錯效果受損,若是系統(tǒng)當(dāng)中的延遲時間較長,便會導(dǎo)致成本隨之增加【5】?;诖耍趯嵺`當(dāng)中若是選擇利用時間冗余技術(shù),便需要合理的判斷與利用系統(tǒng)的時間,隨后還需要根據(jù)計算機系統(tǒng)的實際運行情況科學(xué)的設(shè)置系統(tǒng)的時間冗余,通過這樣的方式,能夠確保系統(tǒng)當(dāng)中的容錯效果達(dá)到更佳。
3.1.4 硬件線程冗余
在計算機系統(tǒng)當(dāng)中,若是想要有效的實現(xiàn)計算機系統(tǒng)容錯的功能,可以通過在多純種系統(tǒng)中對主線程進(jìn)行拷貝處理,同時將其復(fù)制成多個同樣的線程,令其并行處理數(shù)據(jù),通過對比處理結(jié)果來實現(xiàn)計算機系統(tǒng)容錯。除此之外,計算機系統(tǒng)當(dāng)中的主、副線程通信也是硬件純種冗余中關(guān)注度比較高的一種形式,通過在長時間的實踐當(dāng)中發(fā)現(xiàn),硬件純種冗余技術(shù)具有容錯效果較好、成本較低、耗時少以及實時性較高等方面的特點,所以該項技術(shù)在實踐當(dāng)中也取得了較為廣泛的應(yīng)用,同時其也被視為一種高效可行的計算機硬件容錯技術(shù)。
計算機軟件容錯技術(shù)與計算機硬件容錯技術(shù)相比其在一定程度上還存在不成熟之處,所以在實踐當(dāng)中的容錯效率要比計算機硬件技術(shù)差一些。同時在實踐當(dāng)中計算機軟件容錯技術(shù)的種類也比較多,通常情況下被分為以下三種,即:恢復(fù)塊方法、防衛(wèi)式程序設(shè)計方法、軟件多樣性方法等,通過以上三種方式,能夠有效的提升計算機的軟件容錯水平【6】。在計算機系統(tǒng)恢復(fù)期間,其主要被分為向前恢復(fù)以及向后恢復(fù)兩種:向前恢復(fù)便是在計算機系統(tǒng)中采取措施對于故障所造成的不連貫性作出彌補,同時確保系統(tǒng)能夠繼續(xù)向前運行 向后恢復(fù)主要便是指將系統(tǒng)還原到正確的部分,隨后計算機系統(tǒng)能夠重新開展運算。
3.2.1 恢復(fù)塊方法
所謂的恢復(fù)塊方法,其主要便是在計算機系統(tǒng)當(dāng)中配置功能相同的主塊以及后備塊,在計算機運行期間由主塊率先運行,若是在實踐運行期間出現(xiàn)故障,便需要啟動后備塊,從而確保計算機系統(tǒng)能夠穩(wěn)定的運行。在此期間需要注意到要全面保證主塊以及后備塊之間的獨立性,確保兩者之間相互不會影響,通過這樣的方式能夠有效的減少兩者之間的錯誤產(chǎn)生互相關(guān)聯(lián)性,從而使備用塊能夠發(fā)揮出其既定功能,在實踐應(yīng)用期間,其關(guān)鍵便是在于測試計算結(jié)果的程序,需要全面保證其中不會有錯誤產(chǎn)生。
3.2.2 N-versionprogramming
在實踐應(yīng)用期間,這種軟件容錯技術(shù)主要便是將軟件的各個版本交給不同的開發(fā)團隊進(jìn)行開發(fā),并且在開發(fā)期間使用獨立的設(shè)計工具以及環(huán)境,同時在開發(fā)期間采用不同類型的編程語言以及方法,這樣便能夠有效的降低不同版本之間錯誤的關(guān)聯(lián)性,在實際的開發(fā)期間,需要秉承相同類型的開發(fā)原則【7】?;诖?,首先要做的便是制定相同的總體設(shè)計目標(biāo),隨后保證各個模塊之間擁有統(tǒng)一系統(tǒng)的標(biāo)準(zhǔn)接口,同時各個版本之間的軟件開發(fā)要保證彼此之間的獨立性,還需要保證軟件在設(shè)計期間的各個模塊內(nèi)容對外透明,并且對其進(jìn)行封裝處理,這樣才能夠全面保證計算機系統(tǒng)在實際應(yīng)用期間的穩(wěn)定性與安全性。
3.2.3 防衛(wèi)式程序設(shè)計法
針對于防衛(wèi)式程序設(shè)計法來說,其不需要利用任何傳統(tǒng)的容錯方法來實現(xiàn)系統(tǒng)的容錯功能,從本質(zhì)上來說,這是一種比較保守的容錯機制,當(dāng)程序當(dāng)中出現(xiàn)錯誤,可以在系統(tǒng)當(dāng)中調(diào)用程序自帶的檢測、恢復(fù)代碼來對于其中所產(chǎn)生的故障來進(jìn)行相應(yīng)的處理,從而確保系統(tǒng)能夠返回到之前的正確運行狀態(tài),這樣能夠有效的檢測出在計算機系統(tǒng)運行期間所出現(xiàn)的錯誤,并且對于其中的錯誤進(jìn)行分析,進(jìn)而達(dá)到錯誤修復(fù)的效果。
結(jié)束語:綜上所述,伴隨著信息化時代的到來,我國的計算機技術(shù)得到了極為廣泛的應(yīng)用,在此期間,計算機系統(tǒng)運行的穩(wěn)定性便成為了一個重要的指標(biāo)?;诖?,便需要對于計算機系統(tǒng)容錯技術(shù)做出系統(tǒng)性的分析與探索,并且將其應(yīng)用到實踐當(dāng)中,這樣才能夠全面保證計算機系統(tǒng)更加穩(wěn)定且高效的運行,進(jìn)而使其為我國社會經(jīng)濟的發(fā)展貢獻(xiàn)出絕大助力。