熊笑 賈蒙楊 趙海濤 陳雷
(1 北京空間飛行器總體設(shè)計部,北京 100094)(2 中國空間技術(shù)研究院通信與導(dǎo)航衛(wèi)星總體部,北京 100094)(3 北京跟蹤與通信技術(shù)研究所,北京 100094)
衛(wèi)星導(dǎo)航系統(tǒng)是提供空間信息和時間信息的重要基礎(chǔ)設(shè)施。美國、俄羅斯、歐盟先后建設(shè)了GPS、GLONASS、Galileo系統(tǒng),在經(jīng)濟、軍事、科技等各領(lǐng)域發(fā)揮了巨大作用。我國于2010年前后啟動北斗全球衛(wèi)星導(dǎo)航系統(tǒng)建設(shè),2020年7月開通服務(wù),系統(tǒng)精度、可用性等指標已與GPS相當,產(chǎn)生了巨大的經(jīng)濟與社會效益[1]。
衛(wèi)星導(dǎo)航系統(tǒng)平穩(wěn)運行的最大風(fēng)險來自于各類中斷。中斷即導(dǎo)航信號不可用的狀態(tài),直接影響衛(wèi)星導(dǎo)航系統(tǒng)的可用性、連續(xù)性,決定了導(dǎo)航服務(wù)的質(zhì)量[2]。針對服務(wù)中斷風(fēng)險識別與控制,北斗衛(wèi)星導(dǎo)航系統(tǒng)在研制中面臨了更為巨大的挑戰(zhàn):其一,北斗系統(tǒng)服務(wù)類型多、軌道類型多,是當前最復(fù)雜的衛(wèi)星導(dǎo)航系統(tǒng);其二,北斗系統(tǒng)在我國航天領(lǐng)域首次提出可用性和中斷指標,且與GPS相當;其三,國外技術(shù)封鎖,國內(nèi)技術(shù)基礎(chǔ)薄弱,有關(guān)技術(shù)方法尚屬空白。
中斷風(fēng)險識別與控制的前提和基礎(chǔ)是中斷分析技術(shù)。中斷分析是一種識別中斷事件及原因,分析中斷影響及其影響程度,并確定中斷關(guān)鍵環(huán)節(jié)的方法。評價中斷風(fēng)險的三個要素為:中斷頻次(或功能中斷率)、中斷影響嚴重度(一般可分為服務(wù)/信號/任務(wù)中斷、功能中斷、無影響三類)和中斷恢復(fù)時間(或中斷持續(xù)時間)。以往研究主要關(guān)注星座及單星可用性綜合評價[2-8],但鮮有文章論述研制階段如何識別中斷關(guān)鍵環(huán)節(jié)。文獻[9]提出了中斷頻次的分析方法,側(cè)重于中斷指標的驗證;文獻[10]提出危害時間模型,但僅聚焦單粒子軟錯誤防護薄弱點的識別;歐洲航天局提出的中斷分析方法[11]在實踐中存在適用范圍有限,未解決中斷風(fēng)險的綜合定量評估等問題。
由此,本文針對導(dǎo)航信號中斷風(fēng)險識別的工程需求,提出并闡述了一種融合危害時間模型的導(dǎo)航信號中斷分析方法,從中斷頻次、中斷影響及其影響程度、中斷恢復(fù)時間、中斷傳播概率等多個維度綜合評估中斷風(fēng)險,可適用于導(dǎo)航星座、衛(wèi)星、分系統(tǒng)、設(shè)備等多個層次。本文方法已應(yīng)用于北斗導(dǎo)航衛(wèi)星。
導(dǎo)航信號中斷因素非常復(fù)雜,并表現(xiàn)為中斷事件的多樣性、中斷機理的復(fù)雜性、中斷影響的多維性。這些因素包括各種硬件故障、軟件異常、空間單粒子事件、計劃內(nèi)軌道控制、原子鐘調(diào)頻、故障處置策略、故障檢測方法、單星可靠性和壽命等。其中,既有相對確定的、可預(yù)期的因素,也有不確定的、難以預(yù)估的因素;既有可用性影響為分鐘級、小時級的短期因素,也有影響幾個月的長期因素。如圖1所示,通??蓪⑦@些因素歸納為以下4類中斷。
圖1 導(dǎo)航信號中斷影響因素
(1)長期計劃中斷:衛(wèi)星由于燃料、能源、性能退化等工作到規(guī)定壽命或超期服役已經(jīng)不能滿足規(guī)定性能要求。
(2)長期非計劃中斷:衛(wèi)星發(fā)生永久性故障,不能再提供連續(xù)可用的導(dǎo)航信號。
(3)短期計劃中斷:為維持既定的星座構(gòu)型或衛(wèi)星狀態(tài),進行計劃性維護操作造成導(dǎo)航信號短時間中斷。
(4)短期非計劃中斷:由于空間環(huán)境效應(yīng)、空間信號干擾、軟件異常、設(shè)備故障等造成導(dǎo)航信號短時間中斷。
以上所有因素均可能引起導(dǎo)航衛(wèi)星服務(wù)中斷;而一顆或幾顆導(dǎo)航衛(wèi)星的中斷是否會引起衛(wèi)星導(dǎo)航系統(tǒng)的信號中斷又與星座構(gòu)型等相關(guān)。對于導(dǎo)航衛(wèi)星單星而言,計劃中斷可通過提前給出衛(wèi)星不可用標識而不影響導(dǎo)航信號連續(xù)性,但非計劃中斷由于發(fā)生的不確定性,必然對導(dǎo)航信號的連續(xù)可用造成影響。因此,本文重點針對單星的短期非計劃中斷說明中斷分析方法及其實施過程。對其做適應(yīng)性修改即可應(yīng)用于其它中斷類型,也可推廣用于導(dǎo)航星座信號中斷分析。
歐洲航天局在其可用性標準中提出了中斷分析要求[11],并以填表方式進行中斷分析。中斷分析表的分析要素包括:功能影響、故障模式影響及分析(FMEA)參考項目號、檢測、恢復(fù)策略、中斷恢復(fù)時間、故障率等。從而能夠在一定程度上檢查電路故障的中斷影響。
但是,這一方法存在以下不足:①分析對象和分析要素僅局限于功能電路的短期非計劃中斷,未考慮軟件、冗余設(shè)備切換、計劃性操作等其他中斷事件,也不能直接分析星座系統(tǒng)的中斷風(fēng)險。例如,北斗導(dǎo)航星座不同位置的衛(wèi)星信號中斷,對星座可用性的影響是不一樣的;不同衛(wèi)星的計劃性中斷事件頻次也差異很大。②功能影響較籠統(tǒng),故障率指標不能表征可用性所關(guān)注的電路異常導(dǎo)致功能中斷的概率。③未體現(xiàn)防護措施,特別是沒能給出如何進行多因素綜合定量分析識別關(guān)鍵環(huán)節(jié)的方法。
因此,在工程研制階段如何科學(xué)地開展中斷分析,識別中斷關(guān)鍵環(huán)節(jié)是降低導(dǎo)航信號中斷風(fēng)險影響的難點,其中需要解決的關(guān)鍵問題包括:
(1)保證中斷分析要素的全面性與相關(guān)性。中斷因素非常復(fù)雜,包括可預(yù)期的、不確定的、長期影響的或短期影響的各類因素及組合。故障不一定導(dǎo)致中斷,同時傳統(tǒng)衛(wèi)星FMEA往往忽略很多不影響衛(wèi)星可靠性但會導(dǎo)致衛(wèi)星短期中斷的異常,而中斷考察的要素范圍遠大于可靠性。
(2)保證中斷分析對象的全面性與相關(guān)性。針對歐洲航天局僅分析功能電路的局限性,需要通過一種簡單有效的方式確定底層中斷事件,剔除與導(dǎo)航信號中斷無關(guān)的設(shè)備、元器件;同時,覆蓋所有分析對象(如星座系統(tǒng)中的每一顆衛(wèi)星、星上每臺設(shè)備等),針對底層中斷事件列出所有可能的中斷事件、分析中斷原因、分析對服務(wù)/信號/任務(wù)或功能連續(xù)性的影響。
(3)保證中斷分析識別的準確性??煽啃约夹g(shù)中通常以故障率排序得到關(guān)鍵環(huán)節(jié),但故障不等同于設(shè)備功能中斷,設(shè)備功能中斷也不一定導(dǎo)致衛(wèi)星或星座不可用。同時,故障率排序或者功能中斷率排序均未體現(xiàn)中斷后果和中斷恢復(fù)時間兩個重要因素。因此,在識別全部底層中斷事件的基礎(chǔ)上,須采用恰當?shù)娘L(fēng)險識別方法找出中斷最關(guān)鍵的環(huán)節(jié),使中斷風(fēng)險控制的效益最大化。
綜上,需要一種全層級、多維度的中斷分析方法,解決衛(wèi)星(或星座)中斷關(guān)鍵環(huán)節(jié)識別全面性和準確性問題。
借鑒FMEA和歐洲航天局的中斷分析方法,針對上述3個關(guān)鍵問題,本文提出分析要素更全、分析范圍更廣的中斷影響分析方法,3種方法的比對詳見表1。典型的星座系統(tǒng)/衛(wèi)星中斷分析表格包括以下要素:項目名稱和功能、可能的中斷事件、中斷原因、中斷影響(星座系統(tǒng)需逐級考慮對衛(wèi)星信號、星座服務(wù)的影響,衛(wèi)星需逐級考慮對設(shè)備、分系統(tǒng)、整星的影響)、嚴重度、防護措施、中斷頻次、恢復(fù)策略、中斷恢復(fù)時間、危害時間等。
表1 本文方法與FMEA、歐洲航天局中斷分析方法對比
對于計劃中斷,可直接確定分析項目和中斷事件,填寫中斷分析表完成定性分析。
對于非計劃中斷,首先需要解決的是如何獲得中斷分析表中的分析對象(表中“項目名稱和功能”)。因此,本文提出利用多級矩陣圖和相關(guān)性分析的中斷定性分析方法。以衛(wèi)星非計劃中斷為例,其分析過程如下。
步驟1:獲取衛(wèi)星軟硬件配置情況,為快速確定分系統(tǒng)、設(shè)備和導(dǎo)航衛(wèi)星中斷的關(guān)系,結(jié)合衛(wèi)星功能分析、信息流分析建立中斷相關(guān)性線索表。導(dǎo)航信號短期非計劃中斷相關(guān)性線索見表2。
表2 短期非計劃中斷相關(guān)性線索表
步驟2:從功能維度建立分系統(tǒng)中斷相關(guān)性矩陣圖/表,根據(jù)分系統(tǒng)功能結(jié)合表2確定各分系統(tǒng)與短期非計劃中斷的相關(guān)性。
步驟3:對步驟2得到的短期非計劃中斷相關(guān)分系統(tǒng),進一步按組成建立設(shè)備級的中斷相關(guān)性矩陣圖/表。
步驟4:重復(fù)步驟3可得到所有與短期非計劃中斷相關(guān)的設(shè)備清單。
步驟5:針對某個設(shè)備,可繼續(xù)利用矩陣圖分析模塊/器件的中斷相關(guān)性。
綜上,結(jié)合功能、信息流設(shè)計信息,利用相關(guān)性矩陣圖/表可快速定位所有可能導(dǎo)致衛(wèi)星中斷的底層單元。
前文已經(jīng)明確中斷風(fēng)險評價的三個要素,對這些要素及其影響的定量評價則是當前研究的核心內(nèi)容。在定量評價模型中,影響后果是進行定量評價的約束條件,即不同嚴重程度的后果需要分別評價;中斷頻次和持續(xù)時間是兩個決定性參數(shù),中斷頻次需要考慮中斷影響傳播過程的所有環(huán)節(jié),持續(xù)時間需要考慮單粒子影響恢復(fù)過程的所有環(huán)節(jié)。
通過定性分析得到了引起中斷的薄弱環(huán)節(jié)清單,為準確識別中斷關(guān)鍵環(huán)節(jié),優(yōu)先針對中斷影響最大的環(huán)節(jié)進行改進,需要建立一種包含以上要素的普適性的評價模型。本文綜合考察中斷發(fā)生頻次、中斷恢復(fù)時間,特別引入中斷傳播概率,研究提出了危害時間模型,通過對中斷事件影響的累積危害時間的歸一化處理,實現(xiàn)中斷關(guān)鍵環(huán)節(jié)的量化識別。危害時間從可用性角度綜合反映了某一中斷事件對衛(wèi)星的影響程度。
對應(yīng)導(dǎo)航衛(wèi)星信號中斷后果,危害時間Tcij表示第i個對象第j個中斷事件在任務(wù)周期內(nèi)引起衛(wèi)星信號中斷的累計持續(xù)時間,其評估模型定義為
Tcij=fijβijTmiToij
(1)
式中:fij是第i個對象第j個中斷事件的發(fā)生率,例如某設(shè)備FPGA的功能中斷率,單位為次/h;βij是第i個對象第j個中斷事件引起衛(wèi)星信號中斷的傳播概率,無量綱;Tmi是第i個對象的任務(wù)時間,單位為h;則fijβijTmi是第i個對象在任務(wù)周期內(nèi)發(fā)生影響衛(wèi)星信號中斷的中斷事件次數(shù);Toij是第i個對象第j個中斷事件對應(yīng)的平均中斷恢復(fù)時間,單位為h/次。
危害時間模型的提出,既可以從衛(wèi)星系統(tǒng)層面識別星座中斷關(guān)鍵的設(shè)備、器件和計劃性操作事件,也可以通過計算整星危害時間評價衛(wèi)星中斷設(shè)計風(fēng)險控制水平。
在工程實施中,中斷分析包括定性分析和定量分析。通過定性分析全面識別中斷薄弱環(huán)節(jié),作為中斷底層單元,分析中斷事件及影響;利用中斷傳播示意圖或中斷樹分析等方法,表征中斷底層單元對單星(或星座)的服務(wù)中斷影響的傳播路徑,基于危害時間模型進行定量評估,從而準確地獲得中斷薄弱環(huán)節(jié)關(guān)鍵程度排序,有針對性的進行設(shè)計改進。導(dǎo)航信號中斷分析流程如圖2所示。
圖2 導(dǎo)航信號中斷分析流程圖
3.2.1 中斷底層單元的確定
根據(jù)2.3節(jié),結(jié)合導(dǎo)航衛(wèi)星功能分析、信息流分析等獲得中斷線索表,再利用相關(guān)性分析方法,自上而下快速縮小分析范圍。分系統(tǒng)與短期非計劃中斷的相關(guān)性矩陣圖示例如圖3(a)所示,分析得到的短期非計劃中斷相關(guān)分系統(tǒng)。圖3(b)以“分系統(tǒng)1”為例,建立設(shè)備中斷相關(guān)性矩陣圖,重復(fù)本步驟可得到所有與短期非計劃中斷相關(guān)的設(shè)備清單。針對某個設(shè)備,也可繼續(xù)利用矩陣圖分析模塊/器件的中斷相關(guān)性。
注:◎表示密切相關(guān);○表示相關(guān);△表示可能相關(guān);×表示不相關(guān)。
3.2.2 中斷傳播概率的確定
中斷底層單元引起導(dǎo)航衛(wèi)星中斷是一個故障傳播過程,由于從器件、設(shè)備到分系統(tǒng)、整星均有一定的防護措施,而且不同設(shè)備在導(dǎo)航信號生成與播發(fā)過程中的功能不同,因此需將中斷傳播概率納入分析過程。底層單元的中斷傳播概率β表示底層單元導(dǎo)致頂事件(衛(wèi)星中斷)發(fā)生的可能性,為各層級傳播概率之積,其計算公式如下。
(2)
式中:βk為單位時間內(nèi)本級事件造成上一級事件中斷的次數(shù)與本級事件發(fā)生次數(shù)之比,其取值范圍在[0,1]之間,可以通過地面故障注入測試、仿真分析、在軌數(shù)據(jù)統(tǒng)計等方法獲得。
3.2.3 獲取底層單元基礎(chǔ)數(shù)據(jù)
底層單元可分為硬故障和軟故障兩類。硬故障的發(fā)生頻次可以近似采用硬件失效率轉(zhuǎn)換為單位時間的故障次數(shù)得到。軟故障主要關(guān)注FPGA的單粒子功能異常率,即FPGA在軌發(fā)生單粒子軟錯誤后引起規(guī)定功能中斷的頻次。FPGA單粒子功能異常率既和器件的單粒子本征翻轉(zhuǎn)率有關(guān),也和軌道條件、器件資源使用情況、單粒子防護設(shè)計情況等有關(guān)。目前,常見的方法是進行地面輻照試驗或者故障注入仿真來獲得單粒子功能異常率的數(shù)據(jù),以及利用相似器件在軌數(shù)據(jù)的快速預(yù)估方法[8]。
中斷恢復(fù)時間取決于恢復(fù)策略、產(chǎn)品設(shè)計特性和衛(wèi)星運行的固有特性。常見的恢復(fù)策略類型包括自主復(fù)位、遙控復(fù)位、加斷電、切換到備份、系統(tǒng)重構(gòu)等。恢復(fù)時間對應(yīng)在軌故障的恢復(fù)過程,包括故障檢測、執(zhí)行故障恢復(fù)措施、衛(wèi)星恢復(fù)正常工作狀態(tài)的過程,不考慮地面保障資源和管理相關(guān)的延誤時間。恢復(fù)時間一般是給出平均值或最大值。
3.2.4 中斷關(guān)鍵環(huán)節(jié)的評價
基于本文提出的基于危害時間模型的定量分析方法,中斷關(guān)鍵環(huán)節(jié)的量化評價步驟為:
(1)對應(yīng)任務(wù)中斷或功能中斷的影響后果,利用式(1)評估每一個中斷事件軟錯誤的危害時間Tcij。
(2)評估每個器件或設(shè)備的所有中斷事件軟錯誤累計危害時間Tci。
(3)由于Tci反映了器件或設(shè)備i對航天器系統(tǒng)的影響程度,對Tci進行排序,識別關(guān)鍵環(huán)節(jié)。
某導(dǎo)航衛(wèi)星的基本任務(wù)是:接收地面控制系統(tǒng)注入的導(dǎo)航電文,并存儲、處理生成導(dǎo)航信號,向地面控制系統(tǒng)和用戶發(fā)送。衛(wèi)星包括有效載荷和平臺兩部分。有效載荷的基本構(gòu)成包括導(dǎo)航、天線分系統(tǒng),平臺的基本構(gòu)成包括控制、推進、綜合電子、測控、供配電、熱控和結(jié)構(gòu)分系統(tǒng)。
首先,依據(jù)衛(wèi)星功能分析、信息流及冗余設(shè)計情況,分析各分系統(tǒng)和導(dǎo)航衛(wèi)星信號中斷的相關(guān)性。經(jīng)分析,分系統(tǒng)A的故障會引起導(dǎo)航衛(wèi)星中斷,其中分系統(tǒng)A由3個子系統(tǒng)組成。進一步依據(jù)分系統(tǒng)A的設(shè)計信息,依據(jù)表2分析各設(shè)備和導(dǎo)航信號生成與播發(fā)的相關(guān)性,確定可能導(dǎo)致導(dǎo)航衛(wèi)星中斷的底層單元,分析結(jié)果見表3。
表3 分系統(tǒng)A各設(shè)備和導(dǎo)航衛(wèi)星中斷的相關(guān)性分析
根據(jù)2.2節(jié),各設(shè)備中斷事件及影響如表4所示。
表4 設(shè)備中斷事件及影響分析
利用圖4表征中斷傳播路徑和底層單元到整星的中斷傳播概率,圖中βm-n表示可能的中斷事件m導(dǎo)致上一級中斷事件n的中斷傳播概率。
圖4 某導(dǎo)航衛(wèi)星信號中斷傳播示意圖
根據(jù)式(2)計算各底層單元的中斷傳播概率。以中斷事件(底層單元)X1為例,X1導(dǎo)致導(dǎo)航衛(wèi)星信號中斷T0的中斷傳播概率為
βX1-T0=βX1-E1×βE1-T0=0.6
(3)
同理,可求得中斷事件X2~X7導(dǎo)致導(dǎo)航衛(wèi)星信號中斷的中斷傳播概率。
圖4中底層單元的基礎(chǔ)數(shù)據(jù)如表5所示,其中發(fā)生頻次由以下兩類數(shù)據(jù)組成。
(1)設(shè)備A2、A3、A4的軟故障頻次,即由于單粒子事件引起功能中斷的頻次,與軟故障中斷間隔時間互為倒數(shù)。
(2)設(shè)備A2、A3、A4、A5的硬件失效率。
若所有設(shè)備的任務(wù)時間均為1年,將中斷發(fā)生頻次、中斷傳播概率和中斷持續(xù)時間對應(yīng)數(shù)據(jù)代入式(1),可得各中斷事件的危害時間,結(jié)果見表5。
表5 中斷樹各底層單元的基礎(chǔ)數(shù)據(jù)和危害時間
如圖5(a)所示,若根據(jù)故障率/功能中斷率識別薄弱環(huán)節(jié),不僅會將中斷事件X3對應(yīng)的主要影響衛(wèi)星上注功能的設(shè)備A3作為薄弱點,還會忽略對導(dǎo)航信號影響較大的設(shè)備A4的中斷事件X6。
如圖5(b)所示,利用本文提出的融合危害時間模型的中斷關(guān)鍵環(huán)節(jié)識別方法,可客觀的將中斷事件X5和X6對應(yīng)的設(shè)備A4識別為薄弱點;同時,將主要影響上注功能的設(shè)備A3篩選出來,明確其并不是信號中斷需重點關(guān)注的薄弱環(huán)節(jié),這與導(dǎo)航衛(wèi)星實際運行情況是一致的。
圖5 導(dǎo)航衛(wèi)星中斷關(guān)鍵環(huán)節(jié)定量判定
同時,可獲得設(shè)備A2~A5的危害時間分別為1.66×10-2h/年、1.86×10-4h/年、1.32×10-2h/年和2.0×10-4h/年,從而得到設(shè)備危害時間排序。從而判定設(shè)備A2為最需關(guān)注的中斷關(guān)鍵環(huán)節(jié)。
全面且準確識別引起中斷的關(guān)鍵環(huán)節(jié),是有效降低中斷風(fēng)險設(shè)計的前提和基礎(chǔ),是保證衛(wèi)星導(dǎo)航系統(tǒng)平穩(wěn)運行的基本途徑。本文基于中斷評估三要素,融合危害時間模型,提出了一套完整的中斷分析方法。通過本文案例和工程實踐表明:
(1)中斷風(fēng)險的定量判定,不僅需要考慮中斷發(fā)生頻次,還需考慮中斷所關(guān)注中斷持續(xù)時間和故障傳播引起整星中斷存在的不確定性(即中斷傳播概率)。
(2)利用相關(guān)性分析,可快速確定中斷底層單元。
(3)相比傳統(tǒng)技術(shù)通過故障率排序得到薄弱環(huán)節(jié),基于危害時間模型進行中斷風(fēng)險定量評估,可準確判定中斷風(fēng)險關(guān)鍵環(huán)節(jié)。
本文方法適用于星座中斷關(guān)鍵環(huán)節(jié)識別,也適用于短期非計劃中斷、短期計劃中斷、長期中斷等各類中斷風(fēng)險的關(guān)鍵環(huán)節(jié)識別,可推廣應(yīng)用于下一代衛(wèi)星導(dǎo)航系統(tǒng)、通信星座系統(tǒng)等。