李丹,胡曉光
(北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京100191)
武器裝備緊湊型PCI總線測(cè)控系統(tǒng)熱插拔冗余容錯(cuò)技術(shù)研究
李丹,胡曉光
(北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京100191)
在深入分析和研究國(guó)內(nèi)外測(cè)控系統(tǒng)的高可用度容錯(cuò)化研究現(xiàn)狀的基礎(chǔ)上,針對(duì)武器裝備測(cè)控系統(tǒng)中冗余容錯(cuò)優(yōu)化難以實(shí)現(xiàn)和測(cè)試的問題,提出了一種基于緊湊型PCI(CPCI)總線的高可用模式下熱插拔系統(tǒng)的解決方案。研制出一種可以測(cè)試熱插拔系統(tǒng)可靠性的半實(shí)物仿真平臺(tái),來(lái)針對(duì)被控實(shí)體在熱插拔實(shí)驗(yàn)系統(tǒng)里的可靠性進(jìn)行驗(yàn)證分析。結(jié)果表明,熱插拔熱冗余系統(tǒng)性能良好穩(wěn)定。通過(guò)對(duì)高可用模式的熱插拔熱冗余系統(tǒng)的研究,實(shí)現(xiàn)了不同實(shí)體在熱插拔熱冗余系統(tǒng)下的可觀測(cè)性。
控制科學(xué)與技術(shù);冗余;容錯(cuò);熱插拔;緊湊型PCI總線
對(duì)于武器裝備系統(tǒng)而言,可靠性與穩(wěn)定性是衡量其性能指標(biāo)的重要環(huán)節(jié),而總線系統(tǒng)及其附屬設(shè)備的可靠性與穩(wěn)定性是上述內(nèi)容的基礎(chǔ)與必要條件。
新時(shí)期武器測(cè)控任務(wù)對(duì)總線系統(tǒng)的要求越來(lái)越嚴(yán)格,應(yīng)用于武器領(lǐng)域的大型測(cè)試系統(tǒng)對(duì)多冗余、多備份的系統(tǒng)級(jí)熱插拔技術(shù)一直有較大的應(yīng)用需求[1-2]。具有高穩(wěn)定性、高可靠性、可進(jìn)行熱插拔的總線結(jié)構(gòu)計(jì)算控制平臺(tái)已成為現(xiàn)代測(cè)控系統(tǒng)研制的必要前提,也是系統(tǒng)向高穩(wěn)定性、高可靠性發(fā)展的必要條件。而在國(guó)內(nèi),熱插拔技術(shù)目前的研究主體還在于高校和研究所的課題項(xiàng)目,如哈爾濱工程大學(xué)針對(duì)電源系統(tǒng)的熱插拔技術(shù)作了深入研究[3],利用分布式多電源系統(tǒng)并聯(lián)運(yùn)行較好解決了單一電源輸出功率較高的問題。國(guó)防科技大學(xué)在如何將熱插拔技術(shù)應(yīng)用于服務(wù)器系統(tǒng)使之能夠迅速?gòu)墓收蠣顟B(tài)恢復(fù),做了一些卓有成效的工作[4],研究者在麒麟(KYLNI)操作系統(tǒng)下研究并實(shí)現(xiàn)了一種設(shè)備子系統(tǒng)的維修機(jī)制,大大壓縮外設(shè)故障的修復(fù)時(shí)間,但上述兩例的應(yīng)用還局限在工業(yè)現(xiàn)場(chǎng)自動(dòng)化測(cè)控系統(tǒng),而在武器裝備測(cè)控系統(tǒng)中的發(fā)展水平尚有欠缺。近年來(lái)基于標(biāo)準(zhǔn)Compact PCI(緊湊型PCI總線,簡(jiǎn)稱CPCI,能夠被PXI兼容)總線的通用測(cè)控信號(hào)處理系統(tǒng)越來(lái)越受到人們的青睞,尤其是在武器領(lǐng)域,更是占據(jù)了重要的地位。但是對(duì)于武器測(cè)控系統(tǒng)而言,CPCI總線熱插拔技術(shù)的應(yīng)用還處于尚不成熟的階段,少數(shù)具有熱插拔功能的設(shè)備,其所應(yīng)用的熱插拔技術(shù)也還局限于完全熱插拔的中等階段,就整體而言,也還沒有完成從基本熱切換技術(shù)向完全熱插拔的過(guò)渡過(guò)程,而熱插拔等級(jí)最高的高可用模式是該項(xiàng)技術(shù)的必然方向發(fā)展。
本文提出的基于高可用模式下熱插拔容錯(cuò)優(yōu)化解決方案,可以從以下兩方面同時(shí)加強(qiáng)系統(tǒng)可靠性:
第一、提高組成單元本身可靠性,增強(qiáng)系統(tǒng)測(cè)試性、維修性。對(duì)于CPCI武器裝備測(cè)控系統(tǒng)的各個(gè)分系統(tǒng)及其附屬設(shè)備而言,大多數(shù)應(yīng)用設(shè)備都屬于可維修設(shè)備,熱插拔技術(shù)在絕大多數(shù)情況下可應(yīng)用于設(shè)備級(jí)別的熱插拔與熱替換,當(dāng)武器裝備測(cè)試與控制任務(wù)進(jìn)行過(guò)程中發(fā)生設(shè)備故障時(shí),可實(shí)現(xiàn)重要設(shè)備的快速更換、快速恢復(fù)。以高可用模式的熱插拔技術(shù)為基礎(chǔ),發(fā)展而成的多機(jī)熱備份技術(shù)則能夠支持所在分系統(tǒng)的故障隔離,通過(guò)該技術(shù)增強(qiáng)測(cè)試性與修復(fù)性,進(jìn)而提高容錯(cuò)能力,從而提高分系統(tǒng)的安全穩(wěn)定性。
對(duì)于整體系統(tǒng)而言,各個(gè)分系統(tǒng)之間通過(guò)共享數(shù)據(jù)交換接口(相當(dāng)于前者中分系統(tǒng)的總線接口)完成數(shù)據(jù)的熱備份,當(dāng)某個(gè)冗余分系統(tǒng)出現(xiàn)故障時(shí),系統(tǒng)自動(dòng)診斷故障位置并做故障隔離(相當(dāng)于前者中對(duì)設(shè)備進(jìn)行的熱插拔與熱替換處理),由此一來(lái),通過(guò)更高級(jí)別的熱插拔與熱備份應(yīng)用,實(shí)現(xiàn)冗余系統(tǒng)的集成,實(shí)時(shí)為預(yù)先設(shè)定的重要數(shù)據(jù)進(jìn)行熱備份保障,通過(guò)多機(jī)熱冗余的技術(shù)手段提升系統(tǒng)容錯(cuò)能力,為系統(tǒng)提供故障診斷、故障隔離以及快速修復(fù)的功能,從而為系統(tǒng)整體提高可靠性與穩(wěn)定性。
第二、增強(qiáng)冗余系統(tǒng)一體化設(shè)計(jì),有效增強(qiáng)系統(tǒng)可靠性。對(duì)于CPCI系統(tǒng)而言,在實(shí)現(xiàn)獨(dú)立設(shè)備的高等級(jí)熱插拔技術(shù)基礎(chǔ)之上,可以在設(shè)備間、甚至是系統(tǒng)間設(shè)計(jì)并實(shí)現(xiàn)熱備份、熱冗余的系統(tǒng)結(jié)構(gòu),從而增強(qiáng)系統(tǒng)整體的容錯(cuò)能力。
出于對(duì)上述技術(shù)應(yīng)用前景及武器測(cè)試系統(tǒng)的高穩(wěn)定性需求,本文以基于CPCI總線的武器測(cè)試系統(tǒng)熱插拔技術(shù)為重點(diǎn)研究?jī)?nèi)容,具體探索用于提高系統(tǒng)可靠性與靈活性的熱插拔熱冗余技術(shù)實(shí)現(xiàn)與應(yīng)用方法。
圖1為高可用模式熱插拔及熱冗余測(cè)控系統(tǒng)及其半實(shí)物仿真驗(yàn)證系統(tǒng)整體結(jié)構(gòu)圖。該系統(tǒng)主要分為三大部分:基于CPCI總線的高可用模式熱插拔硬件系統(tǒng)、配套軟件系統(tǒng)、半實(shí)物仿真平臺(tái)。
該設(shè)計(jì)采用的CPCI熱插拔技術(shù)有效地限制了板卡、外設(shè)從帶電背板插拔出時(shí)產(chǎn)生的瞬間浪涌電流,解決了因熱插拔導(dǎo)致燒壞器件、背板電源電壓瞬時(shí)跌落等問題,為板卡、外設(shè)的熱插拔應(yīng)用提供了有效的控制和保護(hù)。同時(shí)可以使用戶在不影響系統(tǒng)或者暫停主系統(tǒng)運(yùn)作的同時(shí)完成升級(jí)、更改、添加功能模塊[5-6]。但它的實(shí)現(xiàn)給系統(tǒng)提出了較為復(fù)雜的結(jié)構(gòu)要求,在具體設(shè)計(jì)時(shí)需要注意物理層、硬件層以及軟件層的協(xié)調(diào)配合:物理層需要確保在進(jìn)行熱插拔的動(dòng)作過(guò)程中電路結(jié)構(gòu)的絕對(duì)安全,需要采取多種安全措施以確保全面預(yù)防浪涌電流或靜電瞬時(shí)放電損壞測(cè)試設(shè)備;硬件層需要確保穩(wěn)定、平緩控制多路不同電源的基礎(chǔ)架構(gòu)的安全性,做到電源之間的隔離與穩(wěn)定控制,熱插拔時(shí)需對(duì)驅(qū)動(dòng)電源進(jìn)行隔離緩沖處理[7],可采用金屬-氧化層-半導(dǎo)體-場(chǎng)效晶體管(MOSFET)器件來(lái)實(shí)現(xiàn);至于軟件層面,操作系統(tǒng)需要具有即插即用功能、能夠隨時(shí)根據(jù)需要配置、協(xié)調(diào)整合系統(tǒng)資源的核心功能。
圖1 系統(tǒng)整體結(jié)構(gòu)圖Fig.1 Overall structure of system
根據(jù)熱插拔系統(tǒng)性能和主要功能的不同,CPCI熱插拔技術(shù)規(guī)范為模塊板卡和系統(tǒng)平臺(tái)定義了不同的熱插拔級(jí)別,即非熱插拔系統(tǒng)、基本熱插拔系統(tǒng)、完全熱插拔系統(tǒng)和高可用熱插拔系統(tǒng)。
基本熱插拔系統(tǒng)指的是系統(tǒng)支持物理和硬件連接過(guò)程,而軟件方面要由操作人員來(lái)處理。完全熱插拔系統(tǒng)是支持物理層次、硬件和軟件層次的連接過(guò)程,在這種系統(tǒng)中,在板卡接口處設(shè)有一個(gè)微動(dòng)開關(guān),在插入和拔出時(shí)必然會(huì)被觸發(fā)并向主機(jī)處理器發(fā)出信號(hào)。而高可用熱插拔系統(tǒng)是在完全熱插拔系統(tǒng)的基礎(chǔ)上,針對(duì)模塊的熱插拔實(shí)現(xiàn)更高層次的控制。在這一模式中,既包括了機(jī)械層面與硬件控制層面上的熱插拔內(nèi)容,同時(shí)還支持由軟件自身主導(dǎo)進(jìn)行的冗余器件更換。例如,系統(tǒng)中某一工作模塊出現(xiàn)故障,軟件在訪問失敗后自動(dòng)將其與總線系統(tǒng)隔離,同時(shí)啟動(dòng)冗余的備用模塊來(lái)代替原有模塊的工作。本文實(shí)現(xiàn)的是高可用熱插拔模式。
在熱插拔系統(tǒng)中,CPCI板卡插入機(jī)箱的過(guò)程首先是一個(gè)機(jī)械連接過(guò)程,如圖2所示。在機(jī)械連接的過(guò)程中,插入模塊時(shí)先需要對(duì)板卡進(jìn)行靜電放電,然后進(jìn)行信號(hào)管腳的預(yù)充電,等預(yù)充電完成后總線信號(hào)針才能完成連接,最后是IDSEL,BD_SEL連接上,其間間隔約為5~6 ms,拔出過(guò)程則與此相反。預(yù)充電過(guò)程是為了減小熱插拔模塊在拔插動(dòng)作進(jìn)行過(guò)程中,由于等效電容效應(yīng)存在,而對(duì)總線數(shù)據(jù)和控制信號(hào)產(chǎn)生沖擊,必須采取措施防止這種由瞬時(shí)電流對(duì)總線信號(hào)產(chǎn)生的負(fù)面影響;此后是硬件層的連接,包括硬件設(shè)備與背板CPCI總線連接和斷開,直到模塊自身的初始化、加載配置空間數(shù)據(jù)等;最后由上位機(jī)進(jìn)行軟件層的配置,分配相應(yīng)內(nèi)存空間并將資源映射到操作系統(tǒng)當(dāng)中。
考慮到在硬件層基礎(chǔ)上通用接口需實(shí)現(xiàn)熱插拔功能,CPCI的連接器采用不同與常規(guī)的如圖3示的分級(jí)針腳,可使得設(shè)備模塊被插入或拔出機(jī)器插槽時(shí)各引腳都按照一定的順序與系統(tǒng)連接或斷開,完成接口的功能。分級(jí)引腳的長(zhǎng)度包括長(zhǎng)、中、短3級(jí),其中電源、地引腳使用長(zhǎng)引腳,中引腳接入CPCI信號(hào),最短的引腳針用來(lái)接入信號(hào)使能該模塊。當(dāng)模塊插入時(shí),電源、地線引腳首先連通,由熱插拔控制器對(duì)設(shè)備模塊進(jìn)行預(yù)充電,然后是使用中引腳與機(jī)箱系統(tǒng)背板上的總線接通,最后是短引腳的使能信號(hào)接通,并由此向系統(tǒng)發(fā)出使能信號(hào),系統(tǒng)可以識(shí)別到有一新設(shè)備已經(jīng)插入系統(tǒng),進(jìn)而開始對(duì)其進(jìn)行初始化配置。當(dāng)模塊拔出時(shí),執(zhí)行與上述相反的過(guò)程。
同時(shí)還需配置靜電條來(lái)保護(hù)熱插拔模塊在帶電拔插入過(guò)程中免遭靜電沖擊而造成設(shè)備損壞。最后,通過(guò)采用電源軟啟動(dòng)策略來(lái)緩沖瞬時(shí)電流,緩沖電源開啟關(guān)閉的速率,防止浪涌電流的產(chǎn)生以及對(duì)系統(tǒng)總線的損害。
圖2 板卡熱插拔的物理連接過(guò)程示意圖Fig.2 Physical connection process of hot-swap board
圖3 CPCI連接器長(zhǎng)短針結(jié)構(gòu)示意圖Fig.3 Long and short pins of CPCI connector
為了實(shí)現(xiàn)熱插拔,需要總線電氣特性、主板BIOS、操作系統(tǒng)和設(shè)備驅(qū)動(dòng)得到技術(shù)的支持,從而滿足符合以上特定的環(huán)境。在操作系統(tǒng)方面,盡管從Windows 95開始就支持即插即用,但對(duì)于熱插拔支持卻很有限,直到NT 4.0開始,微軟開始注意到NT操作系統(tǒng)將針對(duì)服務(wù)器領(lǐng)域,而這個(gè)領(lǐng)域中熱插拔是關(guān)鍵的技術(shù),因此操作系統(tǒng)中就增加了完全的熱插拔支持,并且這個(gè)特性一直延續(xù)到基NT技術(shù)的Windows 2000/XP操作系統(tǒng),所以只要使用NT4.0以上的操作系統(tǒng),熱插拔方面操作系統(tǒng)就提供了完備的支持。在驅(qū)動(dòng)方面,目前針對(duì)Windows NT,Novell的Netware,SCO UNIX的驅(qū)動(dòng)都把熱插拔功能整合了進(jìn)去,只要選擇針對(duì)以上操作系統(tǒng)的驅(qū)動(dòng),就可以解決實(shí)現(xiàn)熱插拔的設(shè)備驅(qū)動(dòng)問題。
通常來(lái)說(shuō),一個(gè)典型的完整的熱插拔系統(tǒng)包括熱插拔系統(tǒng)的硬件模塊,支持熱插拔的軟件和操作系統(tǒng),支持熱插拔的設(shè)備驅(qū)動(dòng)程序和支持熱插拔的用戶接口[8],如圖4所示。
圖4 插拔系統(tǒng)結(jié)構(gòu)示意圖Fig.4 Structure diagram of hot-swap system
3.1 熱插拔系統(tǒng)硬件結(jié)構(gòu)
在典型的熱插拔系統(tǒng)中,較為常見且應(yīng)用廣泛的熱插拔硬件設(shè)備為各種功能的板卡。對(duì)于板卡來(lái)說(shuō),其硬件結(jié)構(gòu)主要包括三部分:熱插拔電源管理模塊,熱插拔邏輯控制模塊和外部功能模塊,如圖5所示。
圖5 熱插拔板卡硬件結(jié)構(gòu)Fig.5 Hardware architecture of hot-swap card
熱插拔電源管理模塊主要由熱插拔控制器組成,負(fù)責(zé)管理系統(tǒng)總線、電源、復(fù)位功能等,該模塊需具備以下功能:1)過(guò)壓保護(hù)及短路保護(hù);2)具有故障隔離功能;3)帶POWER GOOD和過(guò)流指示;4)具有電流檢測(cè)電阻;5)具有較強(qiáng)驅(qū)動(dòng)能力的MOSFET驅(qū)動(dòng)器;6)能提供準(zhǔn)確穩(wěn)定的基準(zhǔn)電壓。這些功能共同保證了熱插拔控制器對(duì)于熱插拔設(shè)備的保護(hù)作用。
目前常用的熱插拔控制器通常有3種:LT1643、ADM1177和MIC2580,而熱插拔規(guī)范中規(guī)定,為了防止處于激活狀態(tài)的背板總線受到干擾,熱插拔控制器需要能夠?qū)?shù)據(jù)總線的I/O接口進(jìn)行提前的預(yù)充電,使其預(yù)充電電壓達(dá)到1.2 V左右,這樣在總線接入或斷開時(shí)造成的沖擊會(huì)得到有效的減少。在上述3種集成電路中,前兩種都不具備預(yù)充電的功能,因此選擇美國(guó)MICREL公司出品的MIC2580作為熱插拔控制器,此集成電路專為基于PCI、Compact PCI總線結(jié)構(gòu)設(shè)計(jì),并配合以MOSFET完成控制過(guò)程,通過(guò)緩慢減小或擴(kuò)大N溝道MOSFET的導(dǎo)通電阻限制浪涌電流,當(dāng)板卡接入時(shí)控制器緩慢增強(qiáng)MOSFET的柵極驅(qū)動(dòng),由此漏極電壓從0 V開始緩慢上升,同時(shí)配置了采樣電阻檢測(cè)電源電流,當(dāng)電流過(guò)大時(shí),在采樣電阻上的壓降達(dá)到50 mV以上,熱插拔控制器即判斷過(guò)流,隨后切斷所有電源,即可以防止過(guò)大電流損傷板卡器件。
當(dāng)電源上接入較大容性負(fù)載時(shí),可通過(guò)CSLEW引腳連接的外接電容可以設(shè)置電流開啟和關(guān)閉的速率限制,以此防止突然出現(xiàn)的浪涌電流對(duì)電路造成影響,當(dāng)監(jiān)測(cè)電壓狀態(tài)無(wú)異常時(shí)控制器由PWRGD和FAULT端口向邏輯控制器發(fā)出電壓電流正常信號(hào),MIC2580內(nèi)部集成溫度控制器,當(dāng)電路中出現(xiàn)過(guò)流或過(guò)熱現(xiàn)象時(shí)都會(huì)自動(dòng)切斷電源,同時(shí)FAULT引腳會(huì)被拉低,以此報(bào)告電路故障,實(shí)現(xiàn)熱插拔過(guò)程和使用過(guò)程中電路和設(shè)備保護(hù)的功能。
熱插拔邏輯控制模塊的主要功能是為了實(shí)現(xiàn)對(duì)總線接口的邏輯控制,同時(shí)為外部應(yīng)用電路預(yù)留控制端口。通常在設(shè)計(jì)時(shí),選用合適的現(xiàn)場(chǎng)可編程門陣列(FPGA)或高速數(shù)字信號(hào)處理器(DSP)作為邏輯控制器,實(shí)現(xiàn)時(shí)鐘配置,對(duì)系統(tǒng)總線時(shí)序進(jìn)行有效訪問。
外部功能模塊實(shí)現(xiàn)板卡的特定功能需求,如I/O輸入輸出、高速數(shù)據(jù)采集、圖像傳輸?shù)取?/p>
3.2 熱插拔系統(tǒng)軟件結(jié)構(gòu)
考慮典型熱插拔系統(tǒng)的硬件結(jié)構(gòu),主機(jī)上選擇Windows操作系統(tǒng)以便更好地設(shè)計(jì)友好的人機(jī)界面,而Windows本身不是一個(gè)實(shí)時(shí)性操作系統(tǒng),針對(duì)航天領(lǐng)域通常要求測(cè)試系統(tǒng)具有實(shí)時(shí)性的特性,考慮從機(jī)上采用嵌入式操作系統(tǒng)如VxWorks、Linux、 QNX等等,以滿足整個(gè)系統(tǒng)對(duì)實(shí)時(shí)性的要求。例如對(duì)于一個(gè)半實(shí)物仿真系統(tǒng)來(lái)說(shuō),測(cè)試程序人機(jī)界面部分可以運(yùn)行于Windows操作系統(tǒng),仿真算法則可以運(yùn)行于實(shí)時(shí)性較強(qiáng)的嵌入式系統(tǒng),并以嵌入式系統(tǒng)為中心,形成半實(shí)物仿真系統(tǒng)的閉環(huán)鏈路。該典型系統(tǒng)將同時(shí)采用Windows和嵌入式操作系統(tǒng),使熱插拔系統(tǒng)的軟件設(shè)計(jì)更具有代表性,為研制新項(xiàng)目作充分的設(shè)計(jì)依據(jù)。其軟件結(jié)構(gòu)如圖6所示。
但是典型的熱插拔系統(tǒng),特別是在一些對(duì)實(shí)時(shí)性和穩(wěn)定性要求較高的應(yīng)用場(chǎng)合,如航天測(cè)試領(lǐng)域,經(jīng)常會(huì)遇到下位機(jī)必須工作在嵌入式系統(tǒng)(如運(yùn)用較多的VxWorks和Linux操作系統(tǒng))的情況,雖然Windows系統(tǒng)在早期版本中就已經(jīng)添加了支持熱插拔的功能,而這些嵌入式操作系統(tǒng)往往只具有較為簡(jiǎn)單的文件系統(tǒng)和硬件驅(qū)動(dòng)功能,從系統(tǒng)本身來(lái)說(shuō)并不支持熱插拔技術(shù),這成為開發(fā)典型熱插拔系統(tǒng)的一個(gè)急需解決的問題。下面以開源操作系統(tǒng)Vx-Works為例介紹修改嵌入式系統(tǒng)源代碼,進(jìn)行功能擴(kuò)展,實(shí)現(xiàn)支持CPCI板卡熱插拔功能的方法。
在主板硬件和操作系統(tǒng)之間存有一層BSP,它叫做板極支持包。應(yīng)該說(shuō)BSP是屬于操作系統(tǒng)的一部分,主要目的是為了支持操作系統(tǒng),使之能夠更好地運(yùn)行于硬件主板。對(duì)于不同的操作系統(tǒng)對(duì)應(yīng)于不同定義形式的BSP,例如VxWorks的BSP和Linux的BSP相對(duì)于某一CPU來(lái)說(shuō)盡管實(shí)現(xiàn)的功能一樣,可是寫法和接口定義是完全不同的,所以寫B(tài)SP要按照特定系統(tǒng)BSP的定義形式來(lái)寫,這樣才能與上層操作系統(tǒng)保持正確的接口,來(lái)良好的支持上層操作系統(tǒng)。VxWorks系統(tǒng)默認(rèn)BSP中的CPCI驅(qū)動(dòng)并不支持硬件板卡的熱插拔功能,因此必須對(duì)其進(jìn)行改造。這包括如下部分:
1)改造BSP中對(duì)CPCI的初始化,讓原有BSP處理除CPCI插槽上設(shè)備以外的其他CPCI設(shè)備;
2)改造中斷鏈管理,使其能夠有選擇地增加或者摘除中斷服務(wù)程序;
3)增加對(duì)熱插拔設(shè)備的驅(qū)動(dòng)部分,這其中包括對(duì)CPCI設(shè)備的動(dòng)態(tài)檢測(cè),板卡新插入,板卡拔出的管理。
建立半實(shí)物仿真平臺(tái)的主要目的是測(cè)試測(cè)控系統(tǒng)的雙卡熱插拔熱冗余功能特性,選擇某武器裝備測(cè)控系統(tǒng)磁盤存儲(chǔ)設(shè)備的驅(qū)動(dòng)閉環(huán)控制系統(tǒng)模型作為受控對(duì)象范例進(jìn)行仿真分析,在DSP內(nèi)寫入控制系統(tǒng)模型的程序。半實(shí)物仿真平臺(tái)硬件以DSP為核心,在機(jī)箱內(nèi)插入兩塊相同的CPCI板卡,一塊處于工作中(主卡),另一塊處于熱儲(chǔ)備中(備卡),系統(tǒng)主卡在采集到數(shù)據(jù)后,由數(shù)字量上行通道獲取模擬結(jié)果數(shù)據(jù),并利用MATLAB采集繪制出波形。實(shí)驗(yàn)期間進(jìn)行CPCI板卡的插拔操作,同時(shí)觀察輸出波形。
圖6 熱插拔系統(tǒng)軟件結(jié)構(gòu)Fig.6 Software architecture of hot-swap system
實(shí)驗(yàn)采用如圖7所示的閉環(huán)控制系統(tǒng)。
圖7 磁盤驅(qū)動(dòng)閉環(huán)控制系統(tǒng)示意圖Fig.7 Schematic diagram of hard disk drive control system
4.1 驅(qū)動(dòng)系統(tǒng)的理論數(shù)學(xué)模型
讀寫臂由電磁力驅(qū)動(dòng)。讀寫臂轉(zhuǎn)角y與驅(qū)動(dòng)力矩M之間的動(dòng)態(tài)關(guān)系為
式中:J是轉(zhuǎn)動(dòng)慣量;b是摩擦系數(shù)。力矩由音圈電機(jī)產(chǎn)生。電磁力矩與電機(jī)電樞的關(guān)系,電流與電壓、轉(zhuǎn)速的狀態(tài)方程分別為
式中:I和U分別是電樞電流和電壓;Ra和La分別是電機(jī)的電樞電阻和漏電感;Km是電機(jī)常數(shù)。音圈電機(jī)的電壓由含功率放大的PID控制器供給,關(guān)系為
式中:誤差信號(hào)e=r-y,r和y分別是磁頭的期望位置和實(shí)際位置;KP、KI、KD分別為PID控制器的比例、積分、微分增益。
4.2 數(shù)學(xué)模型的整理和改寫
為借助積分模塊構(gòu)建閉合系統(tǒng)方便,對(duì)(1)式和(3)式進(jìn)行整理可寫出
5.1 熱插拔控制器的功能測(cè)試
當(dāng)熱插拔控制器上的ON引腳得到復(fù)位指令信號(hào)后,隨著CSLEW引腳連接電容的充電,5 V和3.3 V電源相應(yīng)MOSFET的門極控制端也同步充電,電位抬升,圖8所示為理論上3個(gè)引腳的抬升速率,當(dāng)配置電容為0.03 μF時(shí),上升時(shí)間約為10 ms.
圖8 理論門極控制端充電示意圖Fig.8 Schematic diagram of charging of theoretical gate control end
圖9所示為實(shí)際測(cè)試過(guò)程中記錄下來(lái)的熱插拔門極控制信號(hào)5VGATE和3VGATE的電源開啟波形記錄,門極控制端上升時(shí)間約為30 ms,CSLEW= 0.1 μF條件下,與datasheet文檔中給出的0.03 μF相比,上升時(shí)間減緩了3倍,恰與電容值之比相同,驗(yàn)證了門極開啟速率可控的功能。
圖9 ON#信號(hào)觸發(fā)下的門極控制端信號(hào)Fig.9 Signal of gate control end triggered by ON#signal
為驗(yàn)證熱插拔技術(shù)而研發(fā)的CPCI設(shè)備板卡中使用了PCI9054芯片具有熱插拔friendly級(jí)別的支持技術(shù)(測(cè)試環(huán)境為Windriver 10.0),可通過(guò)操作熱插拔控制寄存器HS_CTL操作相關(guān)功能,如LEN_ IN/ON,ENUM中斷等重要信號(hào)的控制與監(jiān)測(cè)。
5.2 系統(tǒng)冗余工作測(cè)試
構(gòu)建CPCI熱插拔系統(tǒng)的目的是通過(guò)構(gòu)建多重備份來(lái)增加系統(tǒng)的可靠性,即為構(gòu)建一個(gè)冗余系統(tǒng)。實(shí)驗(yàn)時(shí)在機(jī)箱內(nèi)插入兩塊相同的16路IO板卡,一塊處于工作狀態(tài)(主卡),另一塊處于熱儲(chǔ)備狀態(tài)(備卡),如圖10所示。
圖10 CPCI總線測(cè)試平臺(tái)Fig.10 CPCI bus test platform
編寫程序,讓系統(tǒng)每隔1 s讀取FPGA寄存器內(nèi)的固定數(shù)值(0x4729),并讓其結(jié)果顯示在上位機(jī)的操作界面中,如圖11所示。
圖11 主卡工作狀態(tài)圖Fig.11 Working state of main card
為了驗(yàn)證這個(gè)冗余系統(tǒng)的可靠性,在主卡正在進(jìn)行讀數(shù)過(guò)程中,模擬主卡發(fā)生故障的情況,將主卡突然拔出機(jī)箱,系統(tǒng)監(jiān)測(cè)到主卡發(fā)生故障,主卡被安全移除,立即啟用備卡接替主卡工作??捎^測(cè)到備卡工作狀態(tài)正常,讀取數(shù)據(jù)正確,對(duì)板卡的拔出動(dòng)作并沒有對(duì)讀數(shù)工作造成任何影響。由于之前主卡讀取數(shù)據(jù)后,已將數(shù)據(jù)及時(shí)上傳,故啟用了備用板卡后,跟原先的主卡一直工作沒有區(qū)別,如圖12所示。
再次將主卡插入機(jī)箱,模擬正式工作中對(duì)板卡檢修完畢,讓主卡繼續(xù)工作的場(chǎng)景。主卡可立即被系統(tǒng)識(shí)別,接替?zhèn)淇ɡ^續(xù)工作,讀數(shù)正確,如圖13所示。
通過(guò)以上實(shí)驗(yàn),證明該系統(tǒng)符合熱冗余系統(tǒng)的標(biāo)準(zhǔn),運(yùn)用該系統(tǒng),可增加系統(tǒng)的可靠性。
5.3 熱插拔控制器的半實(shí)物平臺(tái)仿真
在完成了硬件系統(tǒng)制作和軟件測(cè)試平臺(tái)搭建后,進(jìn)行了整體系統(tǒng)的聯(lián)調(diào)測(cè)試,通過(guò)測(cè)試可知系統(tǒng)整體達(dá)到了預(yù)期的目標(biāo),能夠通過(guò)TCP/IP協(xié)議,經(jīng)由網(wǎng)絡(luò)啟動(dòng)并控制Vxworks系統(tǒng),并管理下位機(jī)上的板卡設(shè)備;對(duì)板卡設(shè)備可以隨時(shí)進(jìn)行熱插拔動(dòng)作,能夠保證安全穩(wěn)定操作;通過(guò)測(cè)試驗(yàn)證了熱冗余的功能,即可以自動(dòng)保存硬件接口上的信息,在重新接入時(shí)確保自動(dòng)恢復(fù)?,F(xiàn)采用半實(shí)物仿真平臺(tái)驗(yàn)證熱插拔與熱冗余效果,根據(jù)一般情況,按照表1的額定參數(shù)。
圖12 備卡接替工作Fig.12 Standby card taking over main card
圖13 主卡恢復(fù)工作Fig.13 Main card returning to work
表1 驅(qū)動(dòng)閉環(huán)控制系統(tǒng)的參數(shù)Tab.1 Driving parameters of closed-loop control system
將第4節(jié)介紹的模型寫入半實(shí)物平臺(tái)DSP芯片中,實(shí)驗(yàn)過(guò)程中改變寫入模型中的電樞電阻和電樞漏電感值,然后通過(guò)數(shù)字量上行通道獲取磁盤驅(qū)動(dòng)控制系統(tǒng)模擬結(jié)果數(shù)據(jù),并利用MATLAB采集繪制出響應(yīng)波形,在運(yùn)算處理過(guò)程中對(duì)主卡進(jìn)行熱插拔動(dòng)作,觀察波形可知熱插拔動(dòng)作未對(duì)數(shù)據(jù)采集造成影響,如表2所示。實(shí)驗(yàn)結(jié)果表明,模型系統(tǒng)響應(yīng)波形與理論分析一致,測(cè)試系統(tǒng)的熱冗余工作能力良好。
表2 模型設(shè)置不同參數(shù)值時(shí)的閉環(huán)系統(tǒng)響應(yīng)Tab.2 Closed-loop system response model with different parameter values
1)通過(guò)實(shí)驗(yàn)研究,分析了3種熱插拔技術(shù)實(shí)施過(guò)程,擬定高可用模式熱插拔熱冗余技術(shù)的實(shí)現(xiàn)方法與應(yīng)用方案,確定多種保障設(shè)備熱插拔動(dòng)作安全的設(shè)計(jì)措施,確定熱冗余技術(shù)的實(shí)現(xiàn)策略與應(yīng)用形式,并在上述基礎(chǔ)之上,提出高可用模式熱插拔與熱冗余技術(shù)實(shí)物仿真驗(yàn)證平臺(tái)系統(tǒng)的設(shè)計(jì)方案,其中包括高可用熱插拔等級(jí)的設(shè)計(jì)與制作方案。
2)根據(jù)上述過(guò)程中提出的設(shè)計(jì)方案,進(jìn)行設(shè)備的設(shè)計(jì)制作,對(duì)于設(shè)備電源的熱插拔管理做了驗(yàn)證性實(shí)驗(yàn),測(cè)試了板卡的冗余特性,以確保設(shè)備使用的安全性、穩(wěn)定性與可靠性。
3)設(shè)計(jì)制作并集成的高可用模式熱插拔與熱冗余實(shí)物仿真驗(yàn)證平臺(tái)系統(tǒng),結(jié)合具體設(shè)備功能與仿真控制效果,進(jìn)行全方位的功能測(cè)試與功能驗(yàn)證,測(cè)試系統(tǒng)的可靠性,形成熱插拔與熱冗余技術(shù)實(shí)物仿真平臺(tái)測(cè)試結(jié)果。
本文的設(shè)計(jì)思想、應(yīng)用方法與技術(shù)既可以應(yīng)用于相關(guān)設(shè)備的改造升級(jí),也可以在更高級(jí)別的整體系統(tǒng)設(shè)計(jì)中得到應(yīng)用。
(
)
[1] 胡慶雷,姜博嚴(yán),石忠.基于新型終端滑模的航天器執(zhí)行器故障容錯(cuò)姿態(tài)控制[J].航空學(xué)報(bào),2014,35(1):249-258. HU Qing-lei,JIANG Bo-yan,SHI Zhong.Novel terminal sliding mode based fault tolerant attitude control for spacecraft under actuator faults[J].Acta Aeronautica et Astronautica Sinica,2014,35(1):249-258.(in Chinese)
[2] 李煒,王艷飛.少保守性網(wǎng)絡(luò)化控制系統(tǒng)魯棒保性能容錯(cuò)控制[J].兵工學(xué)報(bào),2012,33(2):170-178. LI Wei,WANG Yan-fei.The less-conservative robust guaranteed cost fault-tolerant control of networked control systems[J].Acta Armamentarii,2012,33(2):170-178.(in Chinese)
[3] 游江,羅耀華,許鐵巖,等.一種逆變器分布式并聯(lián)的熱插拔控制方法[J].電力電子技術(shù),2013,47(10):105-106. YOU Jiang,LUO Yao-hua,XU Tie-yan,et al.A hotswap control method for distributed parallel inverter module[J].Power Electronics,2013,47(10):105-106.(in Chinese)
[4] 宋飛,王發(fā)源,胡世平,等.天河超級(jí)計(jì)算機(jī)系統(tǒng)插件板軟啟動(dòng)電路設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2013,35(10): 149-153. SONG Fei,WANG Fa-yuan,HU Shi-ping,et al.Design and implementation of PCB soft start up of Tianhe computer system[J]. Computer Engineering&Science,2013,35(10):149-153.(in Chinese)
[5] Kim H,Seong H,Cho J,et al.Start-up control to prevent overcurrent during hot swap in paralleled DC-DC converters[J]. IEEE Transactions on Industrial Electronics,2013,60(12): 5558-5574.
[6] Wu T,Hsieh H,Wu Y E,et al.Parallel-inverter system with failure isolation and hot-swap features[J].IEEE Transactions on Industry Applications,2005,43(5):1329-1340.
[7] Chen Y,Cheng D K,Lee Y S.A hot-swap solution for paralleled power modules by using current-sharing interface circuits[J]. IEEE Transactions on Power Electron,2006,21(6):1564-1571.
[8] Kim H,Mehedy L,Zabir M S,et al.A middleware based network hot swapping solution for SCA compliant radio[J].IEEE Transactions on Consumer Electronics,2009,55(3):1315-1321.
Hot-swap Modular Redundancy and Fault Tolerant Technology for CPCI Measurement and Control Systems of Weapon Equipment
LI Dan,HU Xiao-guang
(School of Automation Science and Electrical Engineering,Beihang University,Beijing 100191,China)
The status of domestic and abroad researches on high-availability fault tolerance of measurement and control systems is analyzed,and a design of high-availability hot-swap based on compact PCI(CPCI)bus is proposed to solve the problems in applying and testing the modular redundancy and fault tolerance in the measurement and control systems of weapons.A semi-physical simulation platform that could test the hot-swap and hot-redundant systems is developed to verify and analyze the reliability of a controlled object in experimental hot-swap systems.The result shows that the system is stable and excellent.The observability of different objects in hot-swap and hot-redundant systems is achieved by studying the high-availability hot-swap and hot-redundant systems.
control science and technology;redundancy;fault tolerance;hot-swap;compact PCI bus
TP23
A
1000-1093(2015)07-1247-09
10.3969/j.issn.1000-1093.2015.07.013
2014-07-03
航空科學(xué)基金項(xiàng)目(2013ZD51052);總裝備部預(yù)先研究重點(diǎn)項(xiàng)目(9140A19010614HK01)
李丹(1986—),男,博士研究生。E-mail:lidanbuaa@sina.com;胡曉光(1961—),女,教授,博士生導(dǎo)師。E-mail:xiaoguang@buaa.edu.cn