吳云志
(安徽省黃山市廣播電視臺,安徽 黃山 245000)
iSCSI(Internet SCSI)標準在2003年2月11日由IETF(Internet Engineering Task Forc,互聯(lián)網(wǎng)工程任務組)認證通過。iSCSI繼承了兩大最傳統(tǒng)技術:SCSI和TCP/IP協(xié)議。這為iSCSI的發(fā)展奠定了堅實的基礎。IP-SAN(IP存儲區(qū)域網(wǎng)絡)就是基于iSCSI協(xié)議的網(wǎng)絡構架。
由于iSCSI的運用和帶IP標準接口的存儲設備的出現(xiàn),使得完全采用千兆以太網(wǎng)技術搭建1個SAN成為現(xiàn)實。
IP-SAN架構的非編網(wǎng)保留了SAN所具有的優(yōu)點,最大限度保證了帶寬能力,其成本比FC-SAN架構的非編網(wǎng)低得多,具有很高的性價比。在綜合考慮安全性之后,采用Microsoft群集服務(MSCS)技術,搭載iSCSI Initiator(iSCSI引發(fā)器)+Tivoli SANergy(IBM公司開發(fā)的文件共享系統(tǒng)軟件)構建的IP-SAN網(wǎng)絡正被廣泛的應用于非編網(wǎng)中。隨之而來的這類型網(wǎng)絡維護問題也越來越受到人們的關注。
IP-SAN網(wǎng)絡將存儲系統(tǒng)、應用服務器和客戶端都通過千兆以太交換機相互連接,這類網(wǎng)絡結構相對簡單,對以太網(wǎng)層面上的故障就不進行考慮了。下面將著重對這種構架網(wǎng)絡的幾個典型的故障做幾點分析。
MSCS服務依據(jù)一個專用的共享仲裁磁盤完成協(xié)同工作,(如上圖中標識為Heart的卷)若仲裁磁盤丟失,則MSCS服務將無法啟動。參考解決方法為:
(1)確保仲裁磁盤正常情況下,關閉多余節(jié)點,僅保留一個節(jié)點(服務器)情況下使用net start clussvc/fixquorum開關參數(shù)啟動群集。
(2)打開群集管理器,以點號“.”來連接群集,此時所有群集服務均offline;手動使仲裁盤等資源online。
(3)使用net stop clussvc命令停止群集服務后,再使用net start clussvc/resetquorumlog命令創(chuàng)建MSCS日志信息。
(4)重啟節(jié)點服務器,MSCS恢復正常。
數(shù)據(jù)庫典型的問題一般包括磁盤用滿、數(shù)據(jù)庫置疑等。數(shù)據(jù)庫磁盤用滿可以考慮采用分離后將數(shù)據(jù)移到空間足夠磁盤上再附加的方式解決。若磁盤用滿是數(shù)據(jù)庫日志文件過大引起,也可直接進行數(shù)據(jù)庫日志收縮工作。
MDC(Meta Data Controller,元數(shù)據(jù)控制器)這里指的是通過配置SANergy管理卷(文件系統(tǒng))的服務器。
由于MDC服務器也采用MSCS方式,兩臺服務器功能完全一致。出現(xiàn)簡單故障時,可先考慮切換到另一臺MDC服務器上嘗試恢復正常業(yè)務。若上述操作不成功,則可能需要對系統(tǒng)進行重新配置。具體方法參考下文的MDC應急內(nèi)容。
采用MSCS模式后,網(wǎng)絡安全的安全性得到了很大提升,但我們也要對極端情況做好預演和應急工作。針對這種網(wǎng)絡,需要做好SQL數(shù)據(jù)庫和MDC文件系統(tǒng)兩大核心服務方面的應急工作。最常見且經(jīng)濟的應急方式為新增一臺第三服務器用于完成SQL/MDC的應急工作。具體措施如下:
SQL的應急主要是在第三服務器上事先安裝好數(shù)據(jù)庫軟件,并定時將業(yè)務數(shù)據(jù)庫自動備份的數(shù)據(jù)文件遷移到這臺服務器上還原。可以配合使用計劃任務自動完成遷移及還原工作。當業(yè)務數(shù)據(jù)庫異常時,可以直接將工作站連接到這臺服務器上應急使用即可。
MDC服務器模式下的SAN環(huán)境在項目搭建初期有兩種選擇,一種是像本文提到的MDC部分也采用MSCS方式。另一種方式可以采用第三臺服務器冷備的方式。兩種方式各有優(yōu)缺點。冷備方式操作簡單,但其需要手動替換故障設備,維修周期較長。而采用MSCS方式,雖然可以實現(xiàn)雙機熱備,但若出現(xiàn)極端情況時,(如MDC雙機宕機)維護、恢復工作較為復雜。下面就著重介紹一下采用MSCS方式的MDC服務器應急恢復方法。
當MDC MSCS系統(tǒng)出現(xiàn)異常時,首先應檢查構成SAN環(huán)境的幾個重要設備狀態(tài),包括磁盤陣列、交換機、MDC服務器等,初步判斷故障原因。若發(fā)現(xiàn)是由于MDC群集癱瘓導致,則可按以下步驟進行恢復:
(1)按規(guī)范關閉網(wǎng)絡中的所有工作站和服務器,再單獨開啟其中一臺主MDC服務器,啟動后,由于磁盤的盤符通常會改變成初始狀態(tài),集群服務通常會失敗。
(2)進入磁盤管理器檢查MDC服務器能否正確找到SAN中的仲裁磁盤和所有數(shù)據(jù)盤,(若沒有找到,則需要在磁盤陣列和交換機端查找原因。)當磁盤可以正確顯示出來后,按照此前的規(guī)范重新分配盤符,注意此處一定要和原先的設定完全相同,否則群集無法正常工作。
(3)盤符修改完成后,在SANergy軟件的Volume Assignment頁面中檢查是否所有數(shù)據(jù)Volume的Meta Data Controller都是?CLUS,而仲裁磁盤和數(shù)據(jù)庫磁盤的MDC為?FREE,若不是則按此設置。
(4)完成應急業(yè)務工作后,再次按日常規(guī)范關閉網(wǎng)絡中的所有工作站和服務器,然后單獨開啟另一臺未修復的MDC服務器,按照前面的步驟修改盤符后啟動Cluster Service服務,驗證正常后再將之前修復的MDC服務器啟動,此時MDC群集即可完全恢復正常。
從日常的維護來看,再好的系統(tǒng)都不能確保100%的安全。所以在完成日常的維護工作的同時,做好重要數(shù)據(jù)的備份工作、完善應急對策尤為重要。只有這樣,在遇到極端情況時,才可以最大限度的修復系統(tǒng)、挽回損失。