巨政權,鄭見靈,滿夢華,常小龍(.軍械工程學院靜電與電磁防護研究所,石家莊050003;.軍械工程學院計算機工程系,石家莊050003)
三模冗余演化自修復系統可靠性及狀態(tài)規(guī)律分析?
巨政權1,鄭見靈2,滿夢華1,常小龍1
(1.軍械工程學院靜電與電磁防護研究所,石家莊050003;2.軍械工程學院計算機工程系,石家莊050003)
為研究三模冗余演化自修復系統可靠性及狀態(tài)規(guī)律,首先給出了系統架構及其工作流程,繼而以馬爾科夫(Markov)過程理論為基礎對其進行了可靠性建模,最后基于此模型對系統可靠性及狀態(tài)規(guī)律進行了仿真研究。結果表明:修復率與故障率比值是影響系統可靠性的主要因素;系統運作區(qū)間以可用度與可靠度差值的極值分為兩大部分,極值點前,系統主要處于狀態(tài)0、1,演化修復作用對系統可靠性貢獻不大;極值點后,系統在狀態(tài)1、2間轉換概率提高,演化修復作用成為提高系統可靠性主要因素。所得結論對特定環(huán)境中系統的設計、應用、評估具有一定的理論指導意義。
電子系統;容錯技術;三模冗余;演化硬件;自修復;馬爾科夫模型;可靠性
集成電路工藝的演進和技術革新,不斷提高電子系統性能的同時也導致其電磁敏感度不斷增高,在戰(zhàn)場復雜電磁環(huán)境[1-2]中經常出現元部件受損、功能出錯等故障現象,使得電子系統的容錯抗擾問題顯得更加突出[3]。傳統的電子系統容錯技術多采用器件備份冗余方案,可在一定程度上提高系統的可靠性,卻存在資源利用率不高、容錯能力不強等諸多弱點。演化硬件(Evolvable Hardware,EHW)是一種具有自組織、自適應、自修復特性的新型智能硬件,它以演化算法作為組合優(yōu)化和全局搜索的主要工具,以可編程器件作為硬件電路實現載體與評估手段,在不依賴先驗知識和外力的推動下,通過進化獲得滿足給定要求的電路和系統結構,使得系統能夠在線自適應調整其內部結構,以適應內部狀態(tài)和外部工作環(huán)境的變化[4]。近年來,相關學者將演化硬件用于系統容錯領域[5-6],并結合傳統三模冗余(Triple module Redundancy,TMR)技術,提出了一種具有演化自修復能力的TMR系統[7],即三模冗余演化自修復系統(簡稱ETMR系統)。
文獻[7]及作者所在團隊,分別從不同層面實現了一種ETMR系統,可靠性分析及實驗證明其較之傳統TMR系統以及單純以演化硬件為基礎的可修復系統,具有較強的容錯抗擾特性。文獻[7]從系統整體所處狀態(tài)(正常、修復、失效)出發(fā)建立了ETMR系統可靠性模型,較好地對系統可靠度進行了分析和評估,但對系統可用度及系統運作期間內部功能模塊狀態(tài)變化規(guī)律揭示略顯不夠。為此,本文首先給出了ETMR系統的一般架構及工作流程,以馬爾科夫(Markov)過程理論為基礎,從系統功能模塊不同狀態(tài)出發(fā)構建系統可靠性模型,對系統可靠性及系統內部狀態(tài)運作規(guī)律進行研究。
傳統TMR系統不具備模塊修復功能,僅容忍一個模塊發(fā)生故障的情況,當兩個及以上模塊發(fā)生故障時,系統功能失效。ETMR系統引入演化硬件自修復功能,當某個功能模塊出現故障,系統觸發(fā)相應機制對故障模塊進行在線演化修復。待修復成功后,系統恢復到一個新的“初始狀態(tài)”,從而大幅提高系統可靠性。系統架構如圖1所示。
ETMR系統較之傳統TMR系統增加了故障監(jiān)測、演化修復模塊以及其他相應控制、選擇機制。系統上電后,演化修復模塊根據各功能模塊狀況逐個進行初始演化配置,使其具有完整的系統功能。其后,系統進入工作狀態(tài),演化修復模塊進入故障等待狀態(tài)。同時故障監(jiān)測模塊對各功能模塊進行實時監(jiān)測,當檢測到某個功能模塊發(fā)生故障,便通過故障向量報告給演化修復模塊。演化修復模塊根據故障向量進行故障編碼,閉鎖故障報告,觸發(fā)演化修復機制。同時,各模塊根據故障編碼完成相應信號控制。此時,演化修復模塊與故障功能模塊形成一個獨立的閉環(huán)系統,在不影響其他模塊正常工作的同時實現故障模塊在線演化修復。演化修復完畢,演化修復模塊解鎖故障報告,同時故障編碼置0,系統恢復到ETMR狀態(tài)。其工作流程如圖2所示。
3.1 系統狀態(tài)分析
ETMR系統一旦檢測到故障,即刻進入演化修復狀態(tài),此為瞬時狀態(tài)。若對系統功能模塊關聯狀態(tài)不加限制,從各功能模塊狀態(tài)考慮,系統具有以下5種狀態(tài)。
狀態(tài)0:3個功能模塊全部正常,系統處于完好狀態(tài);
狀態(tài)1:兩個功能模塊正常,一個功能模塊修復,表決后系統輸出正常,處于可靠狀態(tài);
狀態(tài)2:一個功能模塊正常,一個功能模塊故障,一個功能模塊修復。由于在修功能模塊輸出不確定,致使表決后系統輸出結果不確定(有時正確有時錯誤),屬于故障狀態(tài)。但修復后系統轉至狀態(tài)1,為可靠狀態(tài)。
狀態(tài)3:兩個功能模塊故障,一個功能模塊修復。由于兩故障功能模塊輸出相同,表決結果為錯誤輸出。在修模塊修復后,其輸出與兩故障模塊輸出不同,再次被判定為“故障”模塊,系統陷入對此模塊無限循環(huán)修復的故障狀態(tài)。
狀態(tài)4:三個模塊故障,表決后系統輸出錯誤,且檢測不出故障模塊,系統進入一個穩(wěn)定的故障狀態(tài)。
3.2 系統可用度模型
初始時刻t=0,系統所有功能模塊完好,微分方程組(1)初始條件為:p0(0)=1,p1(0)=0,p2(0)=0,p3(0)=0。
系統瞬態(tài)可用度A(t)為狀態(tài)0、1時的概率和,即:
3.3 系統可靠度模型
可靠度R(t)是指系統在規(guī)定時間內和規(guī)定條件下完成規(guī)定功能的概率,用以描述系統在t時刻前沒有發(fā)生故障的概率。對于ETMR系統,狀態(tài)0、1時系統處于正常狀態(tài),狀態(tài)2時為故障狀態(tài),所以可靠度求解不考慮系統進入狀態(tài)2后由于演化修復作用再次進入狀態(tài)1的情況。系統狀態(tài)空間馬爾科夫模型如圖4所示。
由圖4和全概率公式可得系統的馬爾科夫模型方程組:
初始條件依然為:p0(0)=1,p1(0)=0,p2(0)= 0,p3(0)=0。
系統可靠度R(t)為狀態(tài)0、1時的概率和,即:
微分方程組(1)、(3)理論上可通過拉普拉斯(Laplace)變換求解,但過程比較復雜,運算量龐大,可采用MATLAB中微分方程求解函數ode45進行仿真求解。MATLAB幫助文檔及文獻[8]均給出了以ode45函數求解微分方程組的詳細過程,稍作修改便可對相應微分方程組進行求解,在此不再贅述。
4.1 系統可靠性分析
分別?。é耍蹋椋?.000 1,0)、(0.000 1,0.000 1)、(0.000 1,0.001)、(0.000 1,0.01)、(0.000 1,0.1)、(0.000 5,0)、(0.000 5,0.000 5)、(0.000 5,0.005)、(0.000 5,0.05)、(0.000 5,0.5),分別對微分方程組(1)、(3)仿真求解,根據公式(2)、(4)可得系統可用度A(t)、可靠度R(t)分別隨λt變化曲線,如圖5和圖6所示。
由圖5和圖6可以發(fā)現,可靠度曲線與可用度曲線具有以下共同規(guī)律。
(1)修復率μ與故障率λ比值一定時,系統可用度(可靠度)曲線重合,說明ETMR系統可用度(可靠度)僅與k=μ/λ有關,與具體的μ、λ取值無關。此結論經多次仿真驗證均成立。當k取0或∞時,系統分別等效為傳統TMR系統和無故障系統(故障瞬時修復),已不屬ETMR系統范疇,在此不做討論。
(2)當k值一定時,隨著λt的增大,系統可用度(可靠度)逐漸降低,且k值越大可用度(可靠度)降低越緩慢。
(3)當λt一定時,k值越大系統可用度(可靠度)相對越高,但隨著λt不斷增加,不同k值時系統可用度(可靠度)間差距逐漸減小,直至為0。
同時,兩者也具有一定差異性:當k、λt值一定時,系統可用度較之可靠度要高。區(qū)間(0,100)上,系統可用度曲線下降較之可靠度曲線平緩,且k值越大,此現象越明顯。
4.2 系統狀態(tài)運作規(guī)律分析
比較圖3和圖4可知,ETMR系統可用度與可靠度差異性主要源于系統進入故障狀態(tài)(狀態(tài)2)經演化修復再次恢復到可靠狀態(tài)(狀態(tài)1和狀態(tài)0)的情況。若取Z(t)=A(t)-R(t),Z(t)∈(0,1),則Z(t)描述了t時刻系統由狀態(tài)2轉換到狀態(tài)1的概率,可定量描述系統由故障狀態(tài)恢復到可靠狀態(tài)這種事件對系統可靠性貢獻情況,同時也可以此分析系統內部狀態(tài)變化規(guī)律。不同k值時Z(t)與λt關系曲線如圖7所示。
(1)Z(t)曲線走勢規(guī)律分析
由圖3和圖4可知,隨著t的不斷增加,系統最終必將進入吸收狀態(tài)(狀態(tài)3),此時可靠度、可用度均為0,Z(∞)=0;且在初始時刻可靠度、可用度均為1,Z(0)=0。由于Z(t)是一個時間連續(xù)函數,結合圖7可以推斷出,Z(t)曲線走勢是一個從0逐漸上升到一個最大值,而后又逐漸下降到0的過程。產生此種規(guī)律主要是因為極值點前狀態(tài)2出現概率較小,從而導致狀態(tài)2轉換至狀態(tài)1的概率較??;極值點后,由于狀態(tài)2出現概率不斷增大,而系統由狀態(tài)2轉換至狀態(tài)1概率(即修復率)保持不變,從而使系統整體可靠性下降。
(2)Z(t)曲線極值點規(guī)律分析
由圖7可知:k=1時,max Z(t)≈0.06,相應λt≈5;k=10時,max Z(t)≈0.65,相應λt≈5;當k= 100時,max Z(t)≈0.94,相應λt≈80;k=1 000時,λt =100時Z(t)尚未達到最大值??赏茢喑觯簁值越大,相應Z(t)曲線極值越大,且對應λt值越大。由于Z(t)∈(0,1),隨著k值增大,max Z(t)越來越接近于1,且max Z(t)增值越來越小。
Z(t)曲線走勢直接反映了演化修復作用對系統可靠性貢獻情況,并可以極值點將系統整個運作區(qū)間分為兩大部分。極值點前,系統各部件可靠性較高,系統主要處于0、1兩種狀態(tài),在狀態(tài)0、1間進行轉換,演化修復作用對系統可靠性貢獻不大;極值點后,系統各部件可靠性降低,系統在狀態(tài)1、2間轉換概率提高,演化修復作用已成為提高系統可靠性的主要因素。
本文通過對三模冗余演化自修復系統可靠性分析,揭示了ETMR系統的可靠性規(guī)律及狀態(tài)運作規(guī)律。可靠性規(guī)律指出修復率與故障率比值是影響系統可靠性的主要因素,且比值越大,相應可靠性曲線下降越緩慢,可靠度(可用度)值越大。所以ETMR系統可靠性設計,應從提高修復率和降低故障率兩方面進行綜合考慮,在保障系統性能的同時有效設定各系統參數,以期減小設計難度,縮短設計周期,降低設計成本。狀態(tài)運作規(guī)律指出系統的運作區(qū)間可以其可用度與可靠度差值的極值分為兩大部分,極值點前,系統主要處于0、1狀態(tài),演化修復作用對系統可靠性貢獻不大;極值點后,系統在狀態(tài)1、2間轉換概率提高,演化修復作用已成為提高系統可靠性的主要因素。此結論可對系統可靠性及運作狀況加以定性評估,并可理論指導確定系統最佳任務工作區(qū)間以及特殊情況下人工干預的最佳時機。
[1]劉尚合,孫國至.復雜電磁環(huán)境內涵及效應分析[J].裝備指揮技術學院學報,2008,19(1):1-5. LIU Shang-he,SUN Guo-zhi.Analysis ofthe Conceptand Effects of Complex Electromagnetic Environment[J].Journal of the Academy of Equipment Command&Technology,2008,19(1):1-5.(in Chinese)
[2]廖輝榮,李國林.機載自衛(wèi)電子戰(zhàn)系統對引信信號偵察的作用評估[J].電訊技術,2011,51(3):106-110. LIAO Hui-rong,LI Guo-lin.Essentiality of Airborne Self -Protection Electronic Warfare System to Scout Fuze Signal[J].Telecommunication Engineering,2011,51(3):106-110.(in Chinese)
[3]劉尚合,原亮,褚杰.電磁仿生學—電磁防護研究的新領域[J].自然雜志,2009,31(1):1-7. LIU Shang-he,YUAN Liang,CHU Jie.Electromagnetic Bionics:A New Study Field of Electromagnetic Protection[J].Chinese Journal of Nature,2009,31(1):1-7.(in Chinese)
[4]王友仁,崔堅,游霞,等.仿生硬件及其進展[J].中國空間科學技術,2004,24(6):32-42. WANG You-ren,CUI Jian,YOU Xia,et al.Theory and Technology Developmentof Bio-inspired Hardware[J].Chinese Space Science and Technology,2004,24(6):32-42.(in Chinese)
[5]Greenwood G W.Attaining Fault Tolerance through Selfadaption:The Strengths and Weaknesses of Evolvable Hardware Approaches[C]//Proceedings of 2008 IEEE World Congress on Computational Intelligence.Hongkong:IEEE,2008:368-387.
[6]Gregory V L,Jason D L.Evolutionary Based Techniques for Fault Tolerant Field Programmable Gate Arrays[C]//Proceedings of the 2nd IEEE International Conference on Space Mission Challenges for Information Technology.Pasadena,California,USA:IEEE,2006:553-560.
[7]姚睿,王友仁,于盛林,等.具有在線修復能力的強容錯三模冗余系統設計及實驗研究[J].電子學報,2010,38(1):177-183. YAO Rui,WANG You-ren,YU Sheng-lin,et al.Design and Experiments of Enhanced Fault-Tolerant Triple-Module Redundancy Systems Capable of Online Self-Repairing[J]. Acta Electronica Sinica,2010,38(1):177-183.(in Chinese)
[8]楊其國.基于Markov過程的冗余系統可靠性分析[J].計算機仿真,2011,28(1):356-359. YANG Qi-guo.Reliability Analysis of Redundancy System Based on Markov Process[J].Computer Simulation,2011,28(1):356-359.(in Chinese)
JU Zheng-quan was born in Huxian,ShaanxiProvince,in 1980. He received the M.S.degree from Ordnance Engineering College in 2009.He is currently working toward the Ph.D.degree.His research concerns theory and techniques of electromagnetic protection.
Email:sharkjzq@yahoo.com.cn
鄭見靈(1978—),男,山東平度人,2009年于軍械工程學院獲碩士學位,現為講師,主要研究方向為嵌入式系統應用;
ZHENG Jian-ling was born in Pingdu,Shandong Province,in 1978.He received the M.S.degree from Ordnance Engineering College in 2009.He is now a lecturer.His research concerns embedded system application.
滿夢華(1984—),男,河北滄州人,2010年于軍械工程學院獲碩士學位,現為博士研究生,主要研究方向為電磁防護理論與技術;
MAN Meng-hua was born in Cangzhou,Hebei Province,in 1984.He received the M.S.degree from Ordnance Engineering College in 2010.He is currently working toward the Ph.D.degree.His research concerns theory and techniques of electromagnetic protection.
常小龍(1986—),男,河南周口人,2011年于軍械工程學院獲碩士學位,現為博士研究生,主要研究方向為電磁防護理論與技術。
CHANG Xiao-long was born in Zhoukou,Henan Province,in 1986.He received the M.S.degree from Ordnance Engineering College in 2011.He is currently working toward the Ph.D.degree.His research concerns theory and techniques of electromagnetic protection.
Reliability and State Characteristic Analysis of Evolvable Triple Module Redundancy Self-repairing System
JU Zheng-quan1,ZHENG Jian-ling2,MAN Meng-hua1,CHANG Xiao-long1
(1.Electrostatic and Electromagnetic Protection Institute,Ordnance Engineering College,Shijiazhuang 050003,China;2.Department of Computer,Ordnance Engineering College,Shijiazhuang 050003,China)
This paper investigates the reliability and state characteristic ofthe evolvable triple module redundancy self-repairing system.Firstly,the architecture and workflow ofthe system are proposed.Secondly,its reliability model is established based on Markov′s course theory.Finally,simulation experiments are carried out to study the reliability and state characteristic.As shown in the results,the ratio of repair rate and faultrate is the most important influencing factor.The operation interval of the system is divided into two parts by the extreme difference between the availability degree and reliability degree.In the former part,the system is working at state 0 and state 1.And the contribution ofself-repairing mechanism has little effect.In the latter,the probability of the transformation between state 1 and state 2 is increased.And the self-repairing mechanism is the main factor for the reliability.The conclusions provide guidance for the design,application and evaluation ofthe system in such specific environment.
electronic system;error tolerance;triple module redundancy;evolvable hardware;self-repair;Markov model;reliability
TP273
A
10.3969/j.issn.1001-893x.2012.02.026
巨政權(1980—),男,陜西戶縣人,2009年于軍械工程學院獲碩士學位,現為博士研究生,主要研究方向為電磁防護理論與技術;
1001-893X(2012)02-0245-05
2011-09-28;
2011-12-26