摘要:對于探索在生物信息領域的研究機構(gòu)和實驗室來說,往往需要構(gòu)建一個專門的生物信息分析平臺。該文從實用性與安全性出發(fā),科學地配置了BLAST、InterProScan、Jemboss環(huán)境,設計了一個生物信息分析系統(tǒng)架構(gòu);應用了入侵容忍技術機制,設計了使用冗余與多樣性技術相結(jié)合的生物信息分析平臺應用模型,增強了生物數(shù)據(jù)信息的正確性和安全性;對應用模型的工作原理進行了闡述。
關鍵詞:入侵容忍;BLAST;InterProScan;Jemboss;生物信息分析
中圖分類號:TP311.52 文獻標識碼:A 文章編號:1009-3044(2013)10-2476-03
1 概述
1.1 生物數(shù)據(jù)庫與分析系統(tǒng)
隨著生物技術的深入發(fā)展和實驗數(shù)據(jù)積累,產(chǎn)生了海量的生物信息資源數(shù)據(jù)庫。一般來說,這些生物信息資源數(shù)據(jù)庫可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。
其中,一級數(shù)據(jù)庫也稱為基礎數(shù)據(jù)庫,其數(shù)據(jù)資源是直接從基礎實驗研究工作中獲得的原始數(shù)據(jù),它本身只是經(jīng)過比較簡單粗糙的歸類、整理和備注注釋。二級數(shù)據(jù)庫則是在一級數(shù)據(jù)庫的基礎上,由不同的研究組織和研究者通過進一步的實驗分析和數(shù)據(jù)整理而產(chǎn)生,它往往針對特定的研究目標衍生出來,是對生物學知識和信息資源的進一步挖掘和應用整理 [1]。
許多科研部門與實驗室紛紛利用Internet與一級、二級生物信息數(shù)據(jù)庫進行鏈接,以滿足生物分析研究的諸多需求。但是這種資源鏈接方式往往受制于Internet環(huán)境的影響,運行的安全性能較差,存在著巨大的數(shù)據(jù)安全隱患和風險??紤]到目前越來越多的生物信息學分析軟件和數(shù)據(jù)庫可以通過 Internet免費下載獲取。因此, 可以采用第三代網(wǎng)絡安全技術來構(gòu)建一個安全、高效的本地化生物信息學分析平臺,以滿足生物信息研究的現(xiàn)實安全需要。
1.2 入侵容忍技術
入侵容忍技術屬國際前沿的第三代網(wǎng)絡安全技術,也是信息安全領域的學術熱點。第一代、二代安全技術均難實現(xiàn)系統(tǒng)絕對安全。入侵容忍技術承認來自內(nèi)外的攻擊不可避免,強調(diào)當受到攻擊時即使某組件遭破壞或被控制,仍能保證數(shù)據(jù)的秘密性與完整性、保證系統(tǒng)關鍵功能運行,從而仍能對外提供正?;蚪导壍姆?。入侵容忍機制??捎萌哂嗯c多樣性技術來實現(xiàn)。
冗余(Redundancy)是指配置多于實際應用所需的資源或信息。冗余的原理是重復配置系統(tǒng)的一些組件,當系統(tǒng)發(fā)生故障時,冗余配置的組件介入并承擔故障組件的工作,繼續(xù)執(zhí)行原故障組件的功能直到該組件被修復。也即是說,即使所系統(tǒng)的一些地方失效或產(chǎn)生故障,通過使用冗余組件,仍能保障系統(tǒng)的繼續(xù)有效運行、減少系統(tǒng)的故障時間或改善服務性能,增強系統(tǒng)的安全特性。具體地,冗余可以設置在多個服務器和數(shù)據(jù)庫中,讓它們存儲和管理相同的數(shù)據(jù)信息。
多樣性(Diversity)是指資源或信息以異構(gòu)的環(huán)境配置來進行數(shù)據(jù)信息資源的管理或存儲。多樣性的原理是在不同的服務器上運行配置不同的環(huán)境資源,如在不同的操作平臺之上(Linux或者Unix或者Windows),還可以設置應用程序也在不同的環(huán)境中運行(Apache,IIS等)。使用多樣性技術,系統(tǒng)之間以異構(gòu)的方式組織,減少了單點失效等相關的錯誤風險,加大了攻擊者完全攻克系統(tǒng)的難度。
2 生物信息分析應用平臺的構(gòu)建
2.1 系統(tǒng)構(gòu)架
2.2 BLAST配置
BLAST ( basic local alignment search tool),即基本局部相似性比對搜索工具, 是美國國家生物技術信息中心(NCBI)提供的一套廣泛應用于在蛋白質(zhì)數(shù)據(jù)庫或者DNA數(shù)據(jù)庫中進行相似性比較的分析研究工具。它結(jié)合了動態(tài)規(guī)劃算法和間接啟發(fā)式算法的優(yōu)點,把數(shù)據(jù)庫搜索建立在了嚴格的統(tǒng)計學理論基礎上,大大提高了搜索速度,是目前在技術上非常成熟且廣泛使用的同源檢索工具[2][3][4]。
2.3 InterProScan配置
2.4 JEMBOSS配置
3 入侵容忍技術在平臺中的應用設計
在本系統(tǒng)中,采用冗余與多樣性技術來實現(xiàn)生物信息分析平臺入侵容忍方案如圖2所示[5][6]。外網(wǎng)的一級/二級數(shù)據(jù)庫可以直接下載到本地數(shù)據(jù)庫服務器中,因此在本模型中,僅考慮局域網(wǎng)內(nèi)的應用。
在基于入侵容忍的生物信息分析平臺應用模型中,主要包括幾部分:客戶端用戶、代理服務器、Web服務器、數(shù)據(jù)庫服務器[7]。系統(tǒng)模型工作原理如下:當客戶(Client)通過Intranet訪問Web生物信息分析平臺時并提出服務請求(Request)時,首先經(jīng)過由入侵檢測系統(tǒng)與防火墻互聯(lián)形成的外層保護組的過濾,并對請求數(shù)據(jù)進行驗證,如果請求為帶惡意的攻擊行為,檢測系統(tǒng)和防火墻保護組會對其進行控制和阻斷,然后丟棄該請求數(shù)據(jù)包。如果確認此請求包是可信任時就將此發(fā)送給代理服務器(必要時可以設置代理服務器組)。
客戶的請求進入代理服務器后,其內(nèi)置的安全檢測模塊首先檢測請求的有效性,若請求無效,該請求的相關信息轉(zhuǎn)交給安全檢測系統(tǒng)繼續(xù)進行分析,如果安全檢測的結(jié)果表明該請求是具有惡意的,恢復重構(gòu)模塊就對系統(tǒng)策略進行調(diào)整,如果請求不含惡意行為,會在審計控制模塊寫入系統(tǒng)日志,然后將其刪除。若請求有效,就將合法的請求轉(zhuǎn)發(fā)到Web生物信息分析平臺的服務器。
Web生物信息分析平臺的服務器接收到代理服務器轉(zhuǎn)發(fā)的請求后,執(zhí)行入侵容忍策略的服務方針。該方針根據(jù)負載平衡的原則決定具體由哪些生物信息數(shù)據(jù)庫服務器來執(zhí)行請求,執(zhí)行請求的全部過程都在集合成員一致性協(xié)議的指導之下進行。由于生物信息數(shù)據(jù)庫服務器采用了冗余和多樣性的技術配置,在異構(gòu)環(huán)境下提供的是相同的數(shù)據(jù)服務,不會影響生物信息分析結(jié)果。此外,一致性協(xié)議還監(jiān)督數(shù)據(jù)庫服務器中成員(如DB2、Oracle、SQL Server等)的狀態(tài),能及時發(fā)現(xiàn)由故障引起的不一致,對有故障的數(shù)據(jù)庫服務器進行隔離、處理。最后將除故障成員外的其他正常成員得到的一致的響應結(jié)果送回代理服務器。代理服務器檢查其有效性后將結(jié)果送到客戶端,形成最終響應(Response)。
在此應用模型中,如果數(shù)據(jù)庫服務器的響應結(jié)果沒有遵循一致性協(xié)議而產(chǎn)生不一致的情況,可以利用安全管理組中的恢復重構(gòu)主動根據(jù)來自系統(tǒng)中其它模塊的分析信息,判定系統(tǒng)當前的安全級別,采取相應的重配置策略,對相關的組件進行重配置,恢復有故障的數(shù)據(jù)庫服務器,從而保證系統(tǒng)能夠提供正?;蚪导壍某掷m(xù)數(shù)據(jù)服務,大大增強了生物信息分析平臺數(shù)據(jù)的正確性和安全性。
4 結(jié)束語
近年來,國內(nèi)外有關研究機構(gòu)和實驗室數(shù)據(jù)資源被非法入侵的事件屢見不鮮。構(gòu)建生物信息分析平臺時,如果往往只是簡單應用第一代、第二代的網(wǎng)絡安全技術,對于關鍵、重要的生物信息資源保護十分有限。國外已經(jīng)有一些科研機構(gòu)應用入侵容忍技術對重要數(shù)據(jù)資源進行保護,且取得了良好的效果。該文初步應用了第三代網(wǎng)絡安全技術——入侵容忍技術,設計了生物信息分析平臺的應用模型。下一步工作將要圍繞著模型核心組件與重配置策略進行更深入的研究,同時研究生物信息分析系統(tǒng)的工作性能,利用仿真工具對平臺進行相關功能測試。
參考文獻:
[1] 廖志華,諶容,陳敏,楊春賢.生物學信息數(shù)據(jù)庫簡介[J].生物學教學,2006(31).
[2] Altschul S F,Gish W,Miller W,et al.Basic Local Alignment Search Tool[J].J. Mol. Biol, 1990,215:403-410.
[3] 周金華,朱濤,李紅雨,徐鋼,等.基于 WEB 頁面的生物信息學分析平臺的構(gòu)建及其應用[J].中國現(xiàn)代醫(yī)學雜志,2006(16):17.
[4] 周金華.基于 Web 頁面的生物信息學分析平臺的建立及其應用[D].上海:華中科技大學碩士論文,2006.
[5] 陶雯.基于多級入侵容忍的數(shù)據(jù)庫安全模型[J].江蘇教育學院學報:自然科學版,2012(28):4.
[6] 蘇忠,賴建榮,于斌,趙飛.入侵容忍系統(tǒng)及其關鍵機制[J].信息網(wǎng)絡安全,2012(5).
[7] 龔榆桐.一種基于入侵容忍技術的Web服務器系統(tǒng)設計[J].現(xiàn)代計算機:專業(yè)版,2009(10).