郭 群
(遼寧對外經(jīng)貿(mào)學院信息管理系,遼寧 大連116052)
隨著計算機技術的發(fā)展,系統(tǒng)硬件成本在不斷下降,一方面系統(tǒng)管理已經(jīng)逐步成了影響系統(tǒng)擁有成本和用戶滿意的最重要因素之一,存儲是數(shù)據(jù)持續(xù)長久保存的地方,計算機系統(tǒng)管理工作絕大部分就集中在存儲管理上。磁盤陣列(RAID)是存儲系統(tǒng)的核心部件,存儲管理主要是基于RAID的容量分配、系統(tǒng)備份恢復、負載平衡等。另一方面CPU處理速度提升迅速,而磁盤驅動器的數(shù)據(jù)傳輸速率卻無法大幅提高,兩者速度上的不匹配嚴重制約了系統(tǒng)整體性能的提升,磁盤陣列很好地緩解了這一矛盾,磁盤陣列通過使用多磁盤并行同時存取數(shù)據(jù)來大幅提高存儲系統(tǒng)的數(shù)據(jù)吞吐量。
獨立磁盤冗余陣列(Redundant Arrays of Independent Disks)是為了集成多個小的廉價磁盤來代替大的昂貴磁盤、在單個磁盤失效時不影響數(shù)據(jù)的可用性而開發(fā)的基于冗余的數(shù)據(jù)保護技術。它是一種由多塊廉價磁盤構成的冗余陣列,可以充分發(fā)揮出多塊硬盤的并發(fā)存儲優(yōu)勢,提升吞吐率、增大容量,能夠提供容錯功能確保數(shù)據(jù)可用性。
安全預警技術是針對存儲設備潛在故障的監(jiān)測和獲取技術,利用各種傳感技術、S.M.A.R.T技術、磁盤增長缺陷表技術等對磁盤內(nèi)盤片、磁盤陣列內(nèi)磁盤、磁盤陣列間磁盤等各級存儲設備進行實時檢測,并借助預先收集整理磁盤故障的經(jīng)驗數(shù)據(jù)、系統(tǒng)的性能信息、實時檢測到的故障信息等,對各級存儲設備的運行狀態(tài)進行判斷,獲取預警信息,以觸發(fā)相應級別的數(shù)據(jù)保護。
安全預警技術應滿足兩個性能指標。故障檢測的精確度:用于衡量一個故障檢測結果的正確程度,一般應控制在80%以上。故障檢測模塊對存儲系統(tǒng)總體性能的影響:因為采用故障檢測模塊后,系統(tǒng)的性能下降到15%以下;因此安全預警技術必須考慮系統(tǒng)的當前狀態(tài),盡量降低它對存儲系統(tǒng)的影響。
安全預警系統(tǒng)主要包括兩個部分:故障檢測模塊、故障決策模塊。故障檢測模塊主要用于磁盤、陣列健康狀況信息檢測,充分利用各種傳感技術、S.M.A.R.T技術、磁盤增長缺陷表技術對系統(tǒng)中的不同設備對象進行檢測,包括單盤檢測、陣列狀態(tài)監(jiān)測、環(huán)境檢測等。故障決策模塊負責實時采集系統(tǒng)健康信息,除定時例測外,還可以預先收集整理磁盤故障的經(jīng)驗數(shù)據(jù),融合系統(tǒng)的性能信息和檢測到的故障信息,在預定義的決策規(guī)則下形成三個層次的健康狀態(tài)信息,包括扇區(qū)層次、磁盤層次和陣列層次,即形成一個基于規(guī)則的故障決策庫,能根據(jù)事先設定的健康閾值或其他預警策略發(fā)出預警信息。其故障預測應該保證一定的正確性。
安全預警技術的一個難點是在對存儲設備系統(tǒng)故障進行預測時,需要綜合考慮磁盤故障信息、設備生命周期性能、磁盤驅動器自檢測技術、磁盤S.M.A.R.T參數(shù)、標準I/O接口以及存儲設備的工作溫度、耗能、器件工作狀態(tài)等因素,并針對預警目標進行優(yōu)化,保證預警的準確性,避免故障預警錯誤造成的設備資源浪費。
根據(jù)已有的存儲設備故障信息形成故障決策庫,并結合故障決策庫提出完善的能檢測不同存儲設備潛在故障的預警檢測接口規(guī)范,能收集整個存儲系統(tǒng)的狀態(tài)信息,幫助識別系統(tǒng)中性能不好或即將產(chǎn)生故障的存儲節(jié)點或磁盤,為提高存儲系統(tǒng)的可靠性提供預警信息。
預警技術(Early Warning Technique,EWT),結合故障決策庫判斷存儲設備的狀態(tài),給存儲系統(tǒng)增加了狀態(tài)監(jiān)控和主動防御的特性。傳統(tǒng)存儲系統(tǒng)中數(shù)據(jù)的可靠性通常是采用冗余技術或者備份技術來實現(xiàn)的,如果存儲設備出現(xiàn)了如風扇損毀、磁盤溫度過高、誤碼率過高、性能下降等問題,系統(tǒng)通常不會進行主動處理,而是等待設備或者磁盤完全故障后才通過數(shù)據(jù)重建或熱切換到鏡像節(jié)點的方式來保持存儲業(yè)務的持續(xù)性,大大增加了數(shù)據(jù)的損毀風險。EWT引入了主動監(jiān)控的思想,它對存儲系統(tǒng)進行及時控管,定時對系統(tǒng)中的各個存儲節(jié)點工作溫度、節(jié)點能耗、數(shù)據(jù)誤碼率、傳輸性能、器件工作狀態(tài)等健康指標進行分析,當健康指標超出預定閾值時,及時產(chǎn)生預警信息,系統(tǒng)隨后自動啟動相關的數(shù)據(jù)保護措施。EWT的監(jiān)控功能還可以動態(tài)地分析數(shù)據(jù)在存儲系統(tǒng)中的分布和負載特征,為存儲系統(tǒng)進行自適應的數(shù)據(jù)遷移提供決策依據(jù)。
EWT存儲設備健康預警監(jiān)測接口如圖1所示。在磁盤陣列內(nèi)部,由專門的磁盤健康監(jiān)測器負責實時收集各類磁盤狀態(tài)數(shù)據(jù),如磁盤S.M.A.R.T信息、磁盤增長缺陷數(shù)據(jù)、健康備份保留扇區(qū)使用情況、磁盤響應時間以及陣列機箱內(nèi)輔助傳感器收集的工作環(huán)境信息(如磁盤外部溫度、震動、功耗等)。根據(jù)已建立的故障預測模型結合故障決策庫生成預警信息,并基于預警閾值觸發(fā)相應的數(shù)據(jù)可靠性方案:當磁盤部分介質(zhì)即將損壞時,磁盤健康檢測器將觸發(fā)內(nèi)部自愈程序進行修復;當預測到磁盤即將產(chǎn)生故障時,立即向磁盤陣列發(fā)出磁盤預警信息,觸發(fā)磁盤的數(shù)據(jù)保護。陣列健康監(jiān)測器負責收集與磁盤陣列健康相關的狀態(tài)信息(包括各成員磁盤運行狀況、陣列運行狀態(tài)、機箱溫度、功耗、風扇轉速、陣列I/O性能、響應時間等),當陣列健康監(jiān)測器監(jiān)測到陣列運行狀況欠佳時,將結合故障決策庫生成預警信息,以指導數(shù)據(jù)在盤列之間進行保護。
圖1 EWT存儲設備健康預警監(jiān)測接口
當存儲系統(tǒng)產(chǎn)生預警后,可將需要保護的數(shù)據(jù)主動遷移到合適磁盤位置。將出現(xiàn)故障磁盤的數(shù)據(jù)遷移到合適位置,分三種情況:(1)盤內(nèi)數(shù)據(jù)自愈技術;(2)磁盤間數(shù)據(jù)移植技術;(3)盤陣間數(shù)據(jù)遷移技術。盤內(nèi)數(shù)據(jù)自愈針對一個磁盤內(nèi)的扇區(qū)數(shù)據(jù),盤間數(shù)據(jù)重建針對盤陣內(nèi)不同磁盤間的數(shù)據(jù);盤陣級數(shù)據(jù)遷移針對盤陣間的數(shù)據(jù)遷移。
EWT的故障防御性主要體現(xiàn)在它可以針對某個具體的存儲系統(tǒng)進行參數(shù)配置,包括I/O負載量、聯(lián)機工作時間、最高工作溫度、工作能耗、性能指標、器件工作狀態(tài)等。當EWT監(jiān)控到存儲系統(tǒng)的潛在故障時,它會對該存儲節(jié)點、存儲設備采用降級工作的策略,即降低其工作量、減少其工作時間、提高風扇轉速、降低磁盤溫度等。主動防御給存儲系統(tǒng)提供了及早發(fā)現(xiàn)及早解決的特性,可有效延長存儲設備的壽命,避免故障擴大化,提高數(shù)據(jù)可靠性。另外,可擴展性是EWT的目標,EWT技術可由磁盤節(jié)點擴展到對整個存儲網(wǎng)絡的監(jiān)控和防御。EWT能夠對存儲網(wǎng)絡環(huán)境中的資源進行監(jiān)控,不僅能監(jiān)控存儲節(jié)點,還主動控管其他資源,使得整個存儲系統(tǒng)具有更好的自適應性。EWT使用的標準可與業(yè)界的服務器管理標準以及存儲管理標準兼容,確保EWT技術的應用范圍。
隨著信息技術的迅速發(fā)展,信息和數(shù)據(jù)在不斷增加,人們對硬盤數(shù)據(jù)存儲可靠性的關注程度也逐漸升溫。信息和數(shù)據(jù)對企業(yè)非常重要,導致存儲數(shù)據(jù)的保護任務加重。在這種情況下,如何對磁盤陣列等存儲系統(tǒng)進行安全預警成為一個挑戰(zhàn)。磁盤陣列安全預警技術引入了主動監(jiān)控的思想,它對存儲系統(tǒng)進行及時的控管,定時對系統(tǒng)中的各個存儲節(jié)點工作溫度、節(jié)點能耗、數(shù)據(jù)誤碼率、傳輸性能、器件工作狀態(tài)等健康指標進行分析,當健康指標超出預定閾值,及時產(chǎn)生預警信息,系統(tǒng)隨后自動啟動相關的數(shù)據(jù)保護措施,因此,可以準確地提前發(fā)出預警信息,從而有效地保障存儲設備和數(shù)據(jù)安全。磁盤陣列采用多磁盤并行的方式擴展了存儲系統(tǒng)容量,提高了存儲系統(tǒng)性能,冗余技術提高了存儲系統(tǒng)可用性。目前磁盤陣列已成為應用最廣泛的存儲系統(tǒng),是構成更大規(guī)模存儲系統(tǒng)的基礎設備。
[1] 曹 強,黃建忠,萬繼光,謝長生.海量萬絡存儲系統(tǒng)遠離與設計[M].武漢:華中科技大學出版社,2010:122-128.
[2] 李 穎.磁盤陣列技術及其選擇[J].電腦編程技巧與維護,2011,(16):135-136.
[3] 石方夏,岳鳳芝.信息化建設中的RAID技術應用分析[J].現(xiàn)代電子技術,2010,(17):59-63.
[4] 王志昌.計算機RAID存儲技術解析 [J].中國科教創(chuàng)新導刊,2010,(08):162-163.
[5] David P Helmbold,E Long D D,Sherrod B.A dynamic disk spin down technique for mobile computing[J].Computing and Networking,1996:130-142.