• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種分布式軟件系統(tǒng)可靠性加強(qiáng)模塊設(shè)計

    2019-09-19 11:34孫曉冬
    電腦知識與技術(shù) 2019年20期
    關(guān)鍵詞:軟件可靠性

    孫曉冬

    摘要:針對分布式的軟件系統(tǒng),設(shè)計了一種可靠性加強(qiáng)模塊。該模塊監(jiān)控分布式軟件各個處理單元的運行狀態(tài),并記錄關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù),當(dāng)處理單元失效時重啟該處理單元,載入關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù)以恢復(fù)重啟前的狀態(tài),達(dá)到提高分布式軟件系統(tǒng)的可靠性的目的。

    關(guān)鍵詞:分布式軟件系統(tǒng);軟件可靠性;故障恢復(fù)

    中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A

    文章編號:1009-3044(2019)20-0067-03

    開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

    1 背景

    分布式軟件系統(tǒng)(Distributed Software Systems)分布式系統(tǒng)就是由多個相互連接的處理資源組成的軟件系統(tǒng),合作執(zhí)行一個共同的任務(wù)[1-2]。依靠分布式軟件系統(tǒng),我們可以把數(shù)據(jù)放到最合理的地方去處理[3]。而分布式軟件系統(tǒng)常見的一個問題就是如果一部分處理單元因各種原因崩潰,將導(dǎo)致整體性能下降甚至失效。軟件在運行中一旦失效有可能導(dǎo)致嚴(yán)重的后果,有時甚至是致命的[4]。為提升分布式軟件系統(tǒng)的可靠性,需要有模塊專門監(jiān)控各處理單元的運行狀態(tài),記錄關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù),當(dāng)發(fā)生處理單元意外崩潰時,及時重啟處理單元,并將記錄的關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù)輸入到重啟后的處理單元中[5],達(dá)到提高軟件可靠性的目的。

    2 軟件架構(gòu)

    可靠性加強(qiáng)模塊REM(Reliability Enhanced Module/Middleware)是增加分布式軟件系統(tǒng)可靠性的一個軟件模塊,以達(dá)到降低軟件失效率,保障分布式軟件系統(tǒng)整體正常運行,提高軟件開發(fā)、維護(hù)效率等目的。REM運行于操作系統(tǒng)OS與軟件配置項CSCI(Computer Software Configuration Item)之間,與通信中間件處于同一層級,參見圖1。本文中的通信中間件使用的是數(shù)據(jù)分發(fā)服務(wù)DDS(Data Distribution Service),也可替換成其他支持分布式軟件系統(tǒng)的通信中間件。REM軟件模塊的功能主要包括主守護(hù)模塊、狀態(tài)監(jiān)控/看門狗、關(guān)鍵內(nèi)存區(qū)域監(jiān)控、I/O數(shù)據(jù)監(jiān)控、日志記錄和統(tǒng)計等。

    REM的部署方案如圖 2所示,REM在部署上分為主守護(hù)模塊(以下稱為主REM)與分布式模塊(以下稱為分布式REM)。主REM單獨占據(jù)一個運算節(jié)點,在每個CSCI的運行實例中,均有一個分布式REM,運行于CSCI與操作系統(tǒng)之間。

    3 軟件模塊設(shè)計

    3.1 主守護(hù)模塊

    負(fù)責(zé)啟動守護(hù)進(jìn)程,讀取全局配置文件信息并廣播到其他分布式REM上,接收CSCI啟動、停止、重啟、編譯等命令并廣播到分布式REM,接收分布式REM發(fā)送的配置項運行狀態(tài)信息。主守護(hù)模塊只駐留在主節(jié)點上,包括為主守護(hù)進(jìn)程和配置項狀態(tài)控制兩個子模塊。

    1)主守護(hù)進(jìn)程

    在操作系統(tǒng)啟動后自動運行,加載全局配置文件,等待其他分布式REM的守護(hù)進(jìn)程啟動后向后者廣播配置信息,至此初始化完成,進(jìn)入命令輪詢狀態(tài),等待全局控制命令的輸入。全局控制命令由用戶通過命令發(fā)送的程序以網(wǎng)絡(luò)報文方式將其發(fā)送至主守護(hù)進(jìn)程。

    全局配置文件包括:

    2)配置項狀態(tài)控制子模塊

    負(fù)責(zé)和分布式REM進(jìn)行交互,廣播/分發(fā)全局控制命令,收集分布式REM的運行狀態(tài)報告等。

    3.2 狀態(tài)監(jiān)控/看門狗模塊

    負(fù)責(zé)監(jiān)控配置項程序的狀態(tài),及時捕獲異常并通知守護(hù)模塊恢復(fù)配置項程序至異常前的運行狀態(tài),接收并響應(yīng)全局控制命令等。該模塊屬于分布式REM。

    1)守護(hù)線程

    系統(tǒng)開機(jī)時啟動的守護(hù)線程,負(fù)責(zé)接收全局控制命令并產(chǎn)生相應(yīng)的動作,同時從配置項狀態(tài)監(jiān)視和看門狗子模塊接收其所管轄的配置項的運行狀態(tài),并上報給主守護(hù)模塊和日志記錄模塊,同時守護(hù)線程還需要根據(jù)配置信息決定對出現(xiàn)異常的配置項如何處置(重新啟動,重置或不動作等)。

    2)配置項狀態(tài)監(jiān)視

    配置項狀態(tài)監(jiān)視子模塊設(shè)計為由REM創(chuàng)建的一個進(jìn)程,該進(jìn)程負(fù)責(zé)創(chuàng)建一個子進(jìn)程并在子進(jìn)程中啟動各CSCI,并通過waitpid等待子進(jìn)程的運行結(jié)束或異常,捕獲子進(jìn)程的返回碼,將異常的狀態(tài)報告上報給守護(hù)線程和數(shù)據(jù)統(tǒng)計模塊。

    3)看門狗

    看門狗子模塊的設(shè)計原理為:啟動一個進(jìn)程和一個定時器,進(jìn)程初始化時睡眠(可采用獲取信號量的方式睡眠),定時器一旦到期即喚醒該進(jìn)程(釋放信號量),此時認(rèn)為看門狗餓死,即軟件異常;另有一進(jìn)程負(fù)責(zé)接收配置項發(fā)來的狀態(tài)報告,接收到報告后重置定時器,即執(zhí)行喂狗動作,定時器重新計數(shù)。

    3.3 關(guān)鍵內(nèi)存區(qū)域監(jiān)控模塊

    該模塊負(fù)責(zé)維護(hù)配置項程序的關(guān)鍵內(nèi)存區(qū)域,響應(yīng)配置項的關(guān)鍵內(nèi)存申請請求,并在重新啟動配置項程序后將保存的關(guān)鍵數(shù)據(jù)加載至其內(nèi)存地址空間等。需要注意的是,該模塊除了流程圖所示的業(yè)務(wù)邏輯外,還應(yīng)當(dāng)提供給配置項若干接口,包括:

    l 注冊關(guān)鍵內(nèi)存區(qū)域

    配置項通過此接口來注冊所有需要用到的空間,該接口需要配置項程序員嚴(yán)格考慮好數(shù)據(jù)的相關(guān)性,如果需要恢復(fù)一個完整的數(shù)據(jù)結(jié)構(gòu),需要該數(shù)據(jù)結(jié)構(gòu)實例化的結(jié)構(gòu)池和其相關(guān)的所有數(shù)據(jù)結(jié)構(gòu)。

    l 申請關(guān)鍵內(nèi)存區(qū)域

    本接口輸入?yún)?shù)為內(nèi)存ID號和內(nèi)存大小,則根據(jù)內(nèi)存大小參數(shù)開辟出共享內(nèi)存空間,將空間首地址返回給調(diào)用者,記錄該ID下已分配了內(nèi)存。

    l 釋放關(guān)鍵內(nèi)存區(qū)域

    釋放制定ID的內(nèi)存空間,記錄該ID下的內(nèi)存已被釋放。

    3.4 I/O數(shù)據(jù)監(jiān)控模塊

    按時間序記錄近一段時間內(nèi)系統(tǒng)定制的I/O數(shù)據(jù),如狀態(tài)修改命令、操作等,在配置項重啟后將這些命令的恢復(fù)給配置項。

    該模塊分為I/O數(shù)據(jù)注冊、I/O數(shù)據(jù)監(jiān)控和I/O數(shù)據(jù)恢復(fù)三個子模塊。

    1)I/O數(shù)據(jù)注冊

    配置項在啟動時向本模塊發(fā)送的注冊請求,注冊成功后,本模塊則會對已注冊的I/O數(shù)據(jù)進(jìn)行統(tǒng)計和記錄,而對未注冊的數(shù)據(jù)不進(jìn)行該處理。

    注冊的數(shù)據(jù)類型包括兩種:序列型和唯一型。序列型數(shù)據(jù)表示該數(shù)據(jù)的所有歷史均需要按照時間序保存下來,在執(zhí)行配置項的I/O數(shù)據(jù)恢復(fù)時按照時間序?qū)⑦@些數(shù)據(jù)序貫到配置項;唯一型數(shù)據(jù)則表示該數(shù)據(jù)只需要保存最新一次的記錄即可,在執(zhí)行配置項的I/O數(shù)據(jù)恢復(fù)時將這個最新記錄恢復(fù)給配置項。

    2)I/O數(shù)據(jù)監(jiān)控

    該子模塊位于配置項的DDS中間層,監(jiān)控I/O數(shù)據(jù)的流入流出,包括:

    l DDS數(shù)據(jù)接收

    從DDS接收到報文,如果該報文為已注冊報文,則錄入統(tǒng)計信息,將統(tǒng)計信息發(fā)送給統(tǒng)計模塊,按照報文的注冊類型(序列型、唯一型)保存下來,最后把該數(shù)據(jù)返回給配置項。

    l DDS數(shù)據(jù)發(fā)送

    配置項需要發(fā)送的網(wǎng)絡(luò)報文,先通過本子模塊處理,如果該報文為已注冊報文,則錄入統(tǒng)計信息,將統(tǒng)計信息發(fā)送給統(tǒng)計模塊,按照報文的注冊類型(序列型、唯一型)保存下來,最終通過DDS的數(shù)據(jù)發(fā)送接口將數(shù)據(jù)發(fā)送給目的地。

    需要注意的是,所有已注冊的I/O數(shù)據(jù)直接都需要保存時間序列的關(guān)系,在I/O數(shù)據(jù)恢復(fù)時,不同的I/O數(shù)據(jù)的恢復(fù)順序是按照時間序的。

    3)I/O數(shù)據(jù)恢復(fù)

    在接收到配置項的I/O數(shù)據(jù)恢復(fù)請求后,按照時間序?qū)⑺杏涗浀腎/O數(shù)據(jù)通過DDS報文方式發(fā)送至配置項重置命令。

    本模塊也需要向配置項提供接口,包括:

    l I/O數(shù)據(jù)注冊接口

    配置項在啟動時對需要關(guān)注的I/O數(shù)據(jù)進(jìn)行注冊;

    l I/O數(shù)據(jù)發(fā)送和接收

    配置項通過這些接口發(fā)送和接收網(wǎng)絡(luò)I/O數(shù)據(jù),I/O數(shù)據(jù)監(jiān)控子模塊根據(jù)注冊信息處理I/O數(shù)據(jù),并最終通過DDS的接口將數(shù)據(jù)接收或發(fā)送。

    l I/O數(shù)據(jù)恢復(fù)請求

    配置項在執(zhí)行路徑上需要顯式的調(diào)用一次I/O數(shù)據(jù)恢復(fù)請求接口來觸發(fā)恢復(fù)動作。配置項設(shè)計人員在設(shè)計時應(yīng)當(dāng)考慮調(diào)用此接口的時機(jī),即要保證在此處的I/O數(shù)據(jù)恢復(fù)是有效且安全的。

    3.5 日志記錄模塊

    該模塊負(fù)責(zé)記錄各配置項程序的運行情況,以及各配置項注冊的I/O數(shù)據(jù)或軟件內(nèi)部數(shù)據(jù)等。分為記錄信息注冊和數(shù)據(jù)記錄兩個子模塊。

    1)記錄信息注冊

    接收從主守護(hù)線程發(fā)送來的全局配置信息的記錄信息等級,本子模塊根據(jù)記錄信息等級決定數(shù)據(jù)記錄子模塊在接收到某數(shù)據(jù)時是否記錄。

    2)數(shù)據(jù)記錄

    接收各分布式REM守護(hù)線程的運行狀態(tài)報告,各配置項的I/O數(shù)據(jù)、軟件內(nèi)部數(shù)據(jù)等予以記錄。

    3.6 統(tǒng)計模塊

    該模塊用來統(tǒng)計出各配置項I/O、負(fù)載等情況,供操作或維護(hù)人員參考分析用。模塊接收分布式REM的狀態(tài)監(jiān)控模塊和I/O數(shù)據(jù)監(jiān)控模塊發(fā)來的統(tǒng)計信息并按照時間順序保存到本地文件中。

    通過全局配置文件指定統(tǒng)計周期,在每個周期內(nèi)統(tǒng)計:

    1)CPU使用率,內(nèi)存使用率;

    2)I/O吞吐率,包括網(wǎng)絡(luò)發(fā)送多少次,共多少字節(jié),接收多少次,共多少字節(jié);文件讀取多少次,共多少字節(jié),寫入多少次,共多少字節(jié);

    3)故障周期,故障次數(shù),故障間隔時間。

    4 結(jié)束語

    本文論述了一種針對分布式軟件系統(tǒng)設(shè)計的可靠性加強(qiáng)模塊,該模塊分為主守護(hù)模塊與分布式模塊兩個部分。主守護(hù)模塊單獨運行于一個運算節(jié)點上,分布式模塊運行于分布式軟件系統(tǒng)的各個軟件配置項之中??煽啃约訌?qiáng)模塊監(jiān)視各軟件配置項的運行狀態(tài),同時記錄各配置項的關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù)。在配置項因故退出時自動重啟配置項并恢復(fù)成退出前的狀態(tài),為提高分布式軟件系統(tǒng)的可靠性提供了一種可行的方法。

    參考文獻(xiàn):

    [1] Gheith A Abandah, Edward S Davidson. Characterizing Distributed Shared Memory Performance:A Case Study of the Convex SPP1000[J]. IEEE Trans on Parallel and Distributed Systems, 1998, 9(2): 206-216.

    [2] 朱海濱, 蔡開裕, 樊愛華, 等. 分布式系統(tǒng)原理與設(shè)計[M].長沙: 國防科技大學(xué)出版社, 1997.

    [3] Fred Barell, Richard Blair, et al. VB.NET高級編程[M]. 北京: 清華大學(xué)出版社, 2002.

    [4] 李勇, 黃志球, 王勇, 等. 數(shù)據(jù)驅(qū)動的軟件缺陷預(yù)測研究綜述[J].電子學(xué)報, 2017, 45(4).

    [5] 戈應(yīng)安, 劉松強(qiáng), 王硯方. 采用分布式實時操作系統(tǒng)的容錯系統(tǒng)的設(shè)計與實現(xiàn)[J].核電子學(xué)與探測技術(shù), 1999, 19(5).

    [6] 徐光俠, 陳蜀宇, 常光輝, 等. 分布式實時系統(tǒng)的軟件故障注入[J].重慶大學(xué)學(xué)報, 2010, 33(2).

    【通聯(lián)編輯:謝媛媛】

    猜你喜歡
    軟件可靠性
    軟件可靠性耦合度量的測試用例約簡優(yōu)化
    嵌入式應(yīng)用軟件可靠性自動測試方法研究
    軟件可靠性工程綜合應(yīng)用建模技術(shù)研究
    軟件可靠性設(shè)計技術(shù)應(yīng)用研究
    數(shù)控系統(tǒng)軟件可靠性設(shè)計與故障分析技術(shù)
    基于GQM的裝備軟件可靠性參數(shù)選取方法
    簡談使用BoundsChecker進(jìn)行計算機(jī)聯(lián)鎖系統(tǒng)人機(jī)界面軟件可靠性測試
    基于多準(zhǔn)則決策的軟件可靠性模型選擇方法
    IEEE軟件可靠性系列標(biāo)準(zhǔn)分析*
    軟件可靠性數(shù)據(jù)預(yù)處理研究
    岳阳市| 浦东新区| 大悟县| 丹棱县| 凤山县| 睢宁县| 永州市| 伊金霍洛旗| 沁源县| 武平县| 石首市| 铁力市| 长海县| 临安市| 宿州市| 阳新县| 从江县| 子洲县| 博乐市| 阆中市| 永顺县| 灌阳县| 永平县| 柳江县| 平果县| 咸阳市| 江津市| 漯河市| 安化县| 且末县| 宜章县| 比如县| 舞钢市| 宁波市| 桂阳县| 左贡县| 石台县| 玉树县| 广德县| 新郑市| 怀柔区|