樊昊
(中國電信股份有限公司泰州分公司,江蘇 泰州 225300)
“雙活”數(shù)據(jù)中心的設(shè)計(jì)實(shí)現(xiàn)
樊昊
(中國電信股份有限公司泰州分公司,江蘇 泰州 225300)
隨著傳統(tǒng)數(shù)據(jù)中心向云數(shù)據(jù)中心的轉(zhuǎn)變,政府、金融行業(yè)等的信息系統(tǒng)容災(zāi)備份成為確保業(yè)務(wù)連續(xù)性和數(shù)據(jù)可用性的重要手段。雙活或多活的數(shù)據(jù)中心可以提升系統(tǒng)的可用性、提高設(shè)備利用率,成為未來數(shù)據(jù)中心建設(shè)的發(fā)展趨勢(shì)。雙活數(shù)據(jù)中心的實(shí)現(xiàn)涉及網(wǎng)絡(luò)、虛擬化、存儲(chǔ)等技術(shù),從這些層面介紹了數(shù)據(jù)中心實(shí)現(xiàn)雙活的相關(guān)技術(shù),并通過在政務(wù)數(shù)據(jù)中心的實(shí)踐,驗(yàn)證了這一技術(shù)的有效性。
數(shù)據(jù)中心;雙活;虛擬化;云計(jì)算
近年來,隨著云計(jì)算和大數(shù)據(jù)的發(fā)展,數(shù)據(jù)中心成為政府、企業(yè)等處理其數(shù)據(jù)、信息的系統(tǒng)中心。信息系統(tǒng)作為政府、企業(yè)從事多項(xiàng)業(yè)務(wù)的基石,其數(shù)據(jù)完整性和可用性是業(yè)務(wù)持續(xù)運(yùn)行的基礎(chǔ)。尤其是涉及民生的政務(wù)系統(tǒng)、金融系統(tǒng)等,絕對(duì)的零數(shù)據(jù)丟失和數(shù)據(jù)完整性要求也是其最典型特征,依賴于常規(guī)的備份系統(tǒng)已經(jīng)難以滿足零數(shù)據(jù)丟失保障的要求。在高數(shù)據(jù)完整性的基礎(chǔ)之上,一些業(yè)務(wù)具有非常高的業(yè)務(wù)連續(xù)性需求,基本保證7×24 h不間斷運(yùn)行。
針對(duì)大型數(shù)據(jù)中心所面臨單點(diǎn)運(yùn)行風(fēng)險(xiǎn),需要設(shè)計(jì)一套支持零數(shù)據(jù)丟失和業(yè)務(wù)連續(xù)性保障的業(yè)務(wù)連續(xù)性計(jì)劃來加以支撐。主、備數(shù)據(jù)中心間的存儲(chǔ)復(fù)制、數(shù)據(jù)庫復(fù)制、持續(xù)數(shù)據(jù)保護(hù)和多樣化恢復(fù)等手段都應(yīng)該成為數(shù)據(jù)中心業(yè)務(wù)連續(xù)性計(jì)劃的必要組成部分來共同完成業(yè)務(wù)連續(xù)性計(jì)劃目標(biāo)。
災(zāi)難突發(fā)時(shí)如何保障政府、企業(yè)核心業(yè)務(wù)7×24 h的業(yè)務(wù)連續(xù)性,成為業(yè)界關(guān)注的問題。如何確保數(shù)據(jù)中心在重大災(zāi)難打擊之下繼續(xù)生存,提高業(yè)務(wù)連續(xù)性,是數(shù)據(jù)中心建設(shè)和持續(xù)發(fā)展的基礎(chǔ)性工作。出于業(yè)務(wù)容災(zāi)備份的考慮,一般都會(huì)建設(shè)2個(gè)及以上的數(shù)據(jù)中心:主數(shù)據(jù)中心用于承擔(dān)用戶的業(yè)務(wù),備份數(shù)據(jù)中心用于備份主數(shù)據(jù)中心的數(shù)據(jù)、配置、業(yè)務(wù)等。主備數(shù)據(jù)中心之間主要包括冷備份、熱備份以及雙活3種備份方式。
冷備份方式:主數(shù)據(jù)中心承擔(dān)業(yè)務(wù),備用數(shù)據(jù)中心不對(duì)主數(shù)據(jù)中心進(jìn)行實(shí)時(shí)備份,而是采用周期性或不定期的方式進(jìn)行備份。一旦主數(shù)據(jù)中心發(fā)生阻斷,業(yè)務(wù)隨之中斷,數(shù)據(jù)中心業(yè)務(wù)恢復(fù)的時(shí)間難以保證。由此可見,冷備份技術(shù)并不是一種真正意義上的災(zāi)備技術(shù),無法適應(yīng)數(shù)據(jù)中心高要求的發(fā)展。
熱備份方式:主數(shù)據(jù)中心承擔(dān)和響應(yīng)用戶的業(yè)務(wù),備數(shù)據(jù)中心對(duì)主數(shù)據(jù)中心進(jìn)行實(shí)時(shí)的備份。當(dāng)主數(shù)據(jù)中心發(fā)生阻斷時(shí),業(yè)務(wù)從主數(shù)據(jù)中心切換至備數(shù)據(jù)中心,備數(shù)據(jù)中心自動(dòng)接管主數(shù)據(jù)中心的業(yè)務(wù),從而保證業(yè)務(wù)不會(huì)中斷。熱備份方式可以自動(dòng)感知數(shù)據(jù)中心故障并且保證在規(guī)定的RTO(recover time objective,即災(zāi)難發(fā)生后,信息系統(tǒng)從停頓到恢復(fù)正常的時(shí)間要求)時(shí)間內(nèi),應(yīng)用業(yè)務(wù)實(shí)現(xiàn)自動(dòng)切換。
圖1 雙活數(shù)據(jù)中心拓?fù)?/p>
雙活方式:由于熱備份方式在通常情況下,備數(shù)據(jù)中心并不承擔(dān)業(yè)務(wù),這對(duì)數(shù)據(jù)中心的建設(shè)投資帶來巨大的壓力,且勢(shì)必造成很大的資源浪費(fèi)。采用雙活的方式,多個(gè)數(shù)據(jù)中心不再有主備之分,同時(shí)承擔(dān)業(yè)務(wù)并在線運(yùn)行。此時(shí),數(shù)據(jù)中心之間互為備份,并且進(jìn)行實(shí)時(shí)備份。如果一個(gè)數(shù)據(jù)中心發(fā)生阻斷,另外一個(gè)數(shù)據(jù)中心仍在正常運(yùn)行,并將承擔(dān)所有業(yè)務(wù)。對(duì)用戶來說是不可感知的,業(yè)務(wù)幾乎不受影響。雙活技術(shù)可采用多種故障檢測(cè)的方式:ICMP monitor、TCP monitor、HTTP monitor、FTP monitor等。還可以實(shí)時(shí)檢測(cè)服務(wù)器的運(yùn)行狀態(tài)、服務(wù)器負(fù)載均衡的情況,即使在沒有故障的時(shí)候也可以根據(jù)應(yīng)用業(yè)務(wù)量在多個(gè)數(shù)據(jù)中心之間調(diào)整。這樣就充分利用了資源,從而避免一個(gè)數(shù)據(jù)中心常年處于閑置狀態(tài)而造成浪費(fèi)。且通過細(xì)致的資源整合,雙活數(shù)據(jù)中心可以提供雙倍的服務(wù)能力。
圖1是雙活數(shù)據(jù)中心整體方案的拓?fù)洹?/p>
為了實(shí)現(xiàn)雙活數(shù)據(jù)中心的設(shè)計(jì),需考慮以下幾個(gè)方面。
容災(zāi)半徑:是指數(shù)據(jù)中心之間的直線距離,是衡量容災(zāi)方案所能承受的災(zāi)難影響范圍的一個(gè)指標(biāo)。不同災(zāi)難的影響范圍是不同的,而距離也會(huì)影響到容災(zāi)技術(shù)的選擇,如圖2所示。
圖2 數(shù)據(jù)中心容災(zāi)半徑的選擇
網(wǎng)絡(luò)層:將實(shí)現(xiàn)雙活的數(shù)據(jù)中心之間的網(wǎng)絡(luò)高速互聯(lián),形成統(tǒng)一網(wǎng)絡(luò),保障數(shù)據(jù)復(fù)制時(shí)效性,同時(shí)保障數(shù)據(jù)庫業(yè)務(wù)、中間件業(yè)務(wù)等系統(tǒng)的訪問順利切換。采用網(wǎng)絡(luò)設(shè)備虛擬化、大二層網(wǎng)絡(luò)等技術(shù),保障網(wǎng)絡(luò)系統(tǒng)的冗余。雙中心采用全局負(fù)載均衡,可以同時(shí)提供業(yè)務(wù)訪問能力。同時(shí)配置安全設(shè)備,保障網(wǎng)絡(luò)安全性。
數(shù)據(jù)存儲(chǔ)層:采用虛擬化存儲(chǔ)網(wǎng)關(guān)對(duì)異構(gòu)存儲(chǔ)平臺(tái)進(jìn)行存儲(chǔ)虛擬化整合,建設(shè)統(tǒng)一的虛擬化存儲(chǔ)平臺(tái),實(shí)現(xiàn)兩中心的數(shù)據(jù)底層存儲(chǔ)復(fù)制。
數(shù)據(jù)庫層:采用高端的x86服務(wù)器,利用主機(jī)虛擬化技術(shù),建設(shè)虛擬化服務(wù)器集群,打造高可靠的核心業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫。兩中心數(shù)據(jù)庫可采用GoldenGate等數(shù)據(jù)庫復(fù)制技術(shù),提供業(yè)務(wù)級(jí)數(shù)據(jù)安全復(fù)制,復(fù)制級(jí)別達(dá)到秒級(jí)、亞秒級(jí)。建議采用數(shù)據(jù)庫讀寫分離技術(shù)進(jìn)行應(yīng)用部署,提高業(yè)務(wù)保障級(jí)別。
應(yīng)用層:采用服務(wù)器虛擬化技術(shù),建設(shè)虛擬化應(yīng)用服務(wù)器集群,部署中間件和業(yè)務(wù)系統(tǒng),提供應(yīng)用業(yè)務(wù)支撐。采用負(fù)載均衡設(shè)備或者應(yīng)用中間件集群進(jìn)行負(fù)載均衡設(shè)計(jì)。
數(shù)據(jù)中心網(wǎng)絡(luò)核心設(shè)備作為整個(gè)網(wǎng)絡(luò)的核心節(jié)點(diǎn),要求設(shè)備可以長時(shí)間不間斷運(yùn)行,考慮足夠的冗余性和安全性。且單板可以熱插拔,便于對(duì)設(shè)備進(jìn)行維護(hù)時(shí)保證業(yè)務(wù)不間斷地運(yùn)行。同時(shí)該設(shè)備還能夠提供高密度的接入,便于接入交換機(jī)、匯聚交換機(jī)的接入。兩個(gè)數(shù)據(jù)中心分別采用2臺(tái)高端的數(shù)據(jù)中心交換機(jī)作為核心交換機(jī),雙機(jī)通過萬兆以太網(wǎng)鏈路進(jìn)行互聯(lián),并采用網(wǎng)絡(luò)虛擬化技術(shù)對(duì)同一層面的設(shè)備進(jìn)行橫向整合,將兩臺(tái)設(shè)備虛擬為一臺(tái)設(shè)備,統(tǒng)一轉(zhuǎn)發(fā)、統(tǒng)一管理,并實(shí)現(xiàn)跨設(shè)備的鏈路捆綁。該方式不會(huì)引入環(huán)路,無需部署STP和VRRP等協(xié)議,極大地簡化網(wǎng)絡(luò)協(xié)議的部署,縮短設(shè)備和鏈路收斂時(shí)間(毫秒級(jí))。鏈路采用負(fù)載分擔(dān)方式工作,資源利用率得到極大的提升。
網(wǎng)絡(luò)雙活是數(shù)據(jù)中心雙活的基礎(chǔ)。雙活數(shù)據(jù)中心需要將同一個(gè)網(wǎng)絡(luò)擴(kuò)展到多個(gè)數(shù)據(jù)中心,在不同數(shù)據(jù)中心之間可以通過大二層網(wǎng)絡(luò)連接,實(shí)現(xiàn)服務(wù)器和應(yīng)用的虛擬化數(shù)據(jù)中心互聯(lián),如圖3所示。目前,常見的大二層網(wǎng)絡(luò)技術(shù)有IRF、TRILL、SPB、EVI等。另外,VMware、微軟等廠商提出了包括VxLAN、NvGRE在內(nèi)的overlay技術(shù)解決方案,在虛擬化層的vSwitch中將二層數(shù)據(jù)封裝在UDP、GRE報(bào)文中,在物理網(wǎng)絡(luò)拓?fù)渖蠘?gòu)建一層虛擬化網(wǎng)絡(luò)層,從而擺脫對(duì)網(wǎng)絡(luò)設(shè)備層的二層、三層限制。
圖3 數(shù)據(jù)中心通過二層互聯(lián)
存儲(chǔ)虛擬化技術(shù)是將底層存儲(chǔ)設(shè)備進(jìn)行抽象化統(tǒng)一管理,向服務(wù)器層屏蔽存儲(chǔ)設(shè)備硬件的特殊性,而只保留其統(tǒng)一的邏輯特性,從而實(shí)現(xiàn)了存儲(chǔ)系統(tǒng)的集中、統(tǒng)一、方便的管理。
與傳統(tǒng)存儲(chǔ)相比,虛擬化存儲(chǔ)的優(yōu)點(diǎn)主要體現(xiàn)在:磁盤利用率高,傳統(tǒng)存儲(chǔ)技術(shù)的磁盤利用率一般只有30%~70%,而采用虛擬化技術(shù)后的磁盤利用率高達(dá)70%~90%;存儲(chǔ)靈活,可以適應(yīng)不同廠商、不同類別的異構(gòu)存儲(chǔ)平臺(tái),為存儲(chǔ)資源管理提供了更好的靈活性;管理方便,提供了一個(gè)大容量存儲(chǔ)系統(tǒng)集中管理的手段,避免了由于存儲(chǔ)設(shè)備擴(kuò)充所帶來的管理方面的麻煩;性能更好,虛擬化存儲(chǔ)系統(tǒng)可以很好地進(jìn)行負(fù)載均衡,把每一次數(shù)據(jù)訪問所需的帶寬合理地分配到各個(gè)存儲(chǔ)模塊上,提高了系統(tǒng)的整體訪問帶寬。
存儲(chǔ)資源池采用SAN架構(gòu)技術(shù)構(gòu)建,按照功能分為虛擬化平臺(tái)存儲(chǔ)資源池、數(shù)據(jù)庫平臺(tái)存儲(chǔ)資源池。通過部署存儲(chǔ)虛擬化網(wǎng)關(guān),對(duì)不同廠商的存儲(chǔ)設(shè)備進(jìn)行整合,將數(shù)據(jù)中心存儲(chǔ)虛擬化,實(shí)現(xiàn)異構(gòu)存儲(chǔ)資源池化。存儲(chǔ)虛擬化網(wǎng)關(guān)部署充分考慮到數(shù)據(jù)中心雙活需求,業(yè)務(wù)系統(tǒng)數(shù)據(jù)在幾個(gè)數(shù)據(jù)中心各配置一套,并通過光纖直連、DWDM等設(shè)備直連或WAN等方式實(shí)現(xiàn)連接。采用分布式存儲(chǔ)方式,建立統(tǒng)一的存儲(chǔ)虛擬化資源池,實(shí)現(xiàn)存儲(chǔ)雙活,保障系統(tǒng)數(shù)據(jù)不丟失,如圖4所示。
圖4 存儲(chǔ)虛擬化網(wǎng)關(guān)部署拓?fù)?/p>
通過服務(wù)器虛擬化技術(shù)將服務(wù)器物理資源抽象成邏輯資源,讓一臺(tái)服務(wù)器變成幾臺(tái)甚至上百臺(tái)相互隔離的虛擬服務(wù)器,不再受限于物理上的界限,而是讓CPU、內(nèi)存、磁盤、I/O等硬件變成可以動(dòng)態(tài)管理的“資源池”,從而提高資源的利用率,簡化系統(tǒng)管理,實(shí)現(xiàn)服務(wù)器資源池化的整合,提供了更好的可遷移性,讓計(jì)算資源對(duì)業(yè)務(wù)的變化更具適應(yīng)力,如圖5所示。每個(gè)用戶都可以在他們的虛擬機(jī)上運(yùn)行程序、存儲(chǔ)數(shù)據(jù),甚至虛擬機(jī)崩潰也不會(huì)影響系統(tǒng)本身和其他的系統(tǒng)用戶。所以,虛擬機(jī)模型不僅允許資源共享,而且實(shí)現(xiàn)了系統(tǒng)資源的保護(hù)。目前,可選擇的虛擬化主要產(chǎn)品包括VMware vSphere、Citrix XenServer、Oracle VM Server for x86 等。
圖5 虛擬硬件技術(shù)結(jié)構(gòu)
不同數(shù)據(jù)中心的虛擬化主機(jī)按業(yè)務(wù)分組組成負(fù)載模式,共同承擔(dān)保證業(yè)務(wù)訪問,實(shí)現(xiàn)兩中心虛擬機(jī)遷移及HA切換等。此外,計(jì)算資源池還要預(yù)留一部分資源,供計(jì)劃內(nèi)維護(hù)業(yè)務(wù)系統(tǒng)時(shí)的資源遷移以及非計(jì)劃內(nèi)意外宕機(jī)等情況,建議每個(gè)虛擬化集群預(yù)留30%的資源池容量。
應(yīng)用級(jí)容災(zāi)從流程上實(shí)現(xiàn)了全業(yè)務(wù)的連續(xù)性需求。在容災(zāi)切換時(shí),除了切換核心的數(shù)據(jù)庫數(shù)據(jù)外,還包含IP地址、中間件服務(wù)、用戶級(jí)業(yè)務(wù)的切換。
在進(jìn)行容災(zāi)設(shè)計(jì)時(shí),應(yīng)針對(duì)數(shù)據(jù)中心業(yè)務(wù)承接情況給出容災(zāi)的合理化建議,分類實(shí)現(xiàn)容災(zāi)備份系統(tǒng)。以某數(shù)據(jù)中心為例:對(duì)于核心數(shù)據(jù)庫業(yè)務(wù),提供實(shí)時(shí)數(shù)據(jù)保護(hù),實(shí)現(xiàn)實(shí)時(shí)應(yīng)用級(jí)容災(zāi),數(shù)據(jù)庫讀寫分離,分別部署于兩中心;對(duì)于非核心業(yè)務(wù),實(shí)現(xiàn)應(yīng)用級(jí)容災(zāi),數(shù)據(jù)近似零丟失,應(yīng)用業(yè)務(wù)可在兩中心切換,切換時(shí)間取決于業(yè)務(wù)大小,基本在30 min內(nèi)實(shí)現(xiàn)切換。
數(shù)據(jù)中心可選擇多運(yùn)營商接入,通過部署鏈路負(fù)載均衡設(shè)備,用來實(shí)現(xiàn)多廣域網(wǎng)線路選路和冗余備份,使用戶可以通過最快線路訪問數(shù)據(jù)中心內(nèi)部業(yè)務(wù)系統(tǒng),加快了數(shù)據(jù)中心訪問速度。同時(shí),當(dāng)任何一條線路出現(xiàn)故障,用戶依然可以通過另一條廣域網(wǎng)線路訪問數(shù)據(jù)中心服務(wù)器,提高了數(shù)據(jù)中心的可靠性。
通過全局負(fù)載均衡設(shè)備的智能DNS功能,可以實(shí)現(xiàn)兩數(shù)據(jù)中心的災(zāi)備功能。當(dāng)?shù)谝簧a(chǎn)中心的所有服務(wù)器出現(xiàn)故障或受到攻擊而不能提供服務(wù)時(shí),全局負(fù)載均衡設(shè)備會(huì)引導(dǎo)用戶(自動(dòng)或人工)去第二生產(chǎn)中心訪問業(yè)務(wù)。
核心數(shù)據(jù)庫業(yè)務(wù)中業(yè)務(wù)復(fù)雜,訪問量大,包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)重要程度高,要求當(dāng)生產(chǎn)中心發(fā)生嚴(yán)重災(zāi)難時(shí),能實(shí)時(shí)接管并提供應(yīng)用服務(wù),保障業(yè)務(wù)連續(xù)性。
(1)非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)一般為大量的不同格式的圖片、文檔、音視頻文件等,存放于光纖磁盤陣列上。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),只要數(shù)據(jù)能完整的復(fù)制到災(zāi)備中心,通過相應(yīng)的文件系統(tǒng)格式,就可以進(jìn)行訪問。因此,將非結(jié)構(gòu)化數(shù)據(jù)通過虛擬化存儲(chǔ)網(wǎng)關(guān)進(jìn)行存儲(chǔ)整合后,實(shí)現(xiàn)統(tǒng)一存儲(chǔ)虛擬化,兩中心數(shù)據(jù)完全一致,為上層應(yīng)用提供透明訪問。
(2)結(jié)構(gòu)化數(shù)據(jù)
Oracle RAC集群或使用專業(yè)的數(shù)據(jù)庫復(fù)制軟件進(jìn)行異構(gòu)的數(shù)據(jù)庫復(fù)制,是常用的業(yè)務(wù)連續(xù)性解決方案,可實(shí)現(xiàn)數(shù)據(jù)庫層的雙活。
Oracle RAC可以實(shí)現(xiàn)多節(jié)點(diǎn)多活,并可在節(jié)點(diǎn)之間負(fù)載均衡,從而保證數(shù)據(jù)的唯一性;而支持異構(gòu)的數(shù)據(jù)庫復(fù)制技術(shù),可以在異構(gòu)的IT基礎(chǔ)結(jié)構(gòu)之間實(shí)現(xiàn)大量數(shù)據(jù)的數(shù)據(jù)捕捉、轉(zhuǎn)換和投遞,打破了原來硬件及操作系統(tǒng)等方面的限制,避免了引入過多種類的軟硬件產(chǎn)品,降低了運(yùn)營維護(hù)的復(fù)雜度和投入,有利于災(zāi)備系統(tǒng)的恢復(fù)和切換。
以數(shù)據(jù)庫復(fù)制軟件GoldenGate為例,由于數(shù)據(jù)庫文件在不同的業(yè)務(wù)平臺(tái)下,數(shù)據(jù)文件和參數(shù)會(huì)有一些區(qū)別,只有實(shí)現(xiàn)兩端數(shù)據(jù)一致性保障,才能確保核心數(shù)據(jù)的安全。GoldenGate可以從數(shù)據(jù)庫的日志中解析數(shù)據(jù)的變化(數(shù)據(jù)量只有日志的1/4左右),然后將數(shù)據(jù)轉(zhuǎn)化為自己的格式,直接通過TCP/IP網(wǎng)絡(luò)傳輸,無需依賴于數(shù)據(jù)庫自身的傳遞方式,而且可以通過很高的壓縮比率對(duì)數(shù)據(jù)進(jìn)行壓縮,大大降低帶寬需求。在目標(biāo)端,可以通過交易重組、分批加載等技術(shù)手段,大大加快數(shù)據(jù)投遞的速度和效率,降低目標(biāo)系統(tǒng)的資源占用,可以在秒級(jí)實(shí)現(xiàn)大量數(shù)據(jù)的復(fù)制。
此外,采用數(shù)據(jù)庫讀寫分離技術(shù),將讀寫數(shù)據(jù)流分別分擔(dān)于兩中心,進(jìn)行業(yè)務(wù)負(fù)載均衡。當(dāng)數(shù)據(jù)寫操作發(fā)生問題時(shí),不影響數(shù)據(jù)讀操作,且可以用分離的數(shù)據(jù)庫接管主業(yè)務(wù)系統(tǒng)。
非核心業(yè)務(wù)完全承載于數(shù)據(jù)中心的云平臺(tái),全部進(jìn)行業(yè)務(wù)虛擬化。同時(shí)采用基于存儲(chǔ)網(wǎng)關(guān)的統(tǒng)一存儲(chǔ)虛擬化進(jìn)行設(shè)計(jì)。數(shù)據(jù)中心之間通過大二層網(wǎng)絡(luò)互聯(lián),使虛擬機(jī)可以在數(shù)據(jù)中心之間進(jìn)行快速遷移和HA切換。
隨著政府信息化建設(shè)的不斷推進(jìn),尤其是國家提出建設(shè)智慧城市后,智慧交通、智慧醫(yī)療、智慧教育等平臺(tái)紛紛上馬。各地政府為解決過去電子政務(wù)基礎(chǔ)資源分散、資源難以共享、重復(fù)投資建設(shè)、資源浪費(fèi)等問題,陸續(xù)開始了政務(wù)云數(shù)據(jù)中心的建設(shè),以實(shí)現(xiàn)政務(wù)基礎(chǔ)資源的整合和共享。整合后的政務(wù)數(shù)據(jù)中心具有“大集中”、“虛擬化”、“云計(jì)算”等特征,通過災(zāi)備能夠提供業(yè)務(wù)連續(xù)性,保證各類政務(wù)業(yè)務(wù)的持續(xù)運(yùn)行。
某市政府在對(duì)其數(shù)據(jù)中心進(jìn)行資源整合的同時(shí),在兩個(gè)數(shù)據(jù)中心引入了災(zāi)備能力。災(zāi)備選用 “同城雙中心”方案,根據(jù)數(shù)據(jù)中心的業(yè)務(wù)情況,將應(yīng)用的備份分為主備應(yīng)用以及雙活應(yīng)用。拓?fù)涫疽馊鐖D6所示。
兩個(gè)數(shù)據(jù)中心不是同期建設(shè),因此規(guī)劃和部署了不同網(wǎng)段的IP地址:第一數(shù)據(jù)中心規(guī)劃了10.0.0.0/16網(wǎng)段的IP地址,第二數(shù)據(jù)中心規(guī)劃了20.0.0.0/16網(wǎng)段的IP地址。
在兩個(gè)數(shù)據(jù)中心增加VxLAN網(wǎng)關(guān)設(shè)備,通過VxLAN技術(shù)在兩個(gè)數(shù)據(jù)中心實(shí)現(xiàn)二層互通。雙中心完成大二層互通后,形成跨越兩個(gè)數(shù)據(jù)中心的統(tǒng)一資源池,虛擬機(jī)可以在雙中心間進(jìn)行遷移。此外,通過IP地址和VLAN的規(guī)劃,將資源池劃分為兩級(jí):一級(jí)資源池的應(yīng)用采用雙活方式進(jìn)行備份,二級(jí)資源池的應(yīng)用采用主備方式進(jìn)行備份。
進(jìn)行整合的初期,為了保證數(shù)據(jù)中心訪問流量流向在改造實(shí)施后仍與改造前相同,暫時(shí)不在雙中心對(duì)業(yè)務(wù)進(jìn)行負(fù)載均衡。在雙中心的資源池網(wǎng)關(guān)設(shè)備上針對(duì)不同的IP地址段啟用VRRP。通過調(diào)整VRRP優(yōu)先級(jí)以及發(fā)布路由的優(yōu)先級(jí),使外網(wǎng)與10.0.0.0/16網(wǎng)段的交互流量均經(jīng)過第一數(shù)據(jù)中心,外網(wǎng)與20.0.0.0/16網(wǎng)段的交互流量均經(jīng)過第二數(shù)據(jù)中心。即正常情況下,兩個(gè)數(shù)據(jù)中心的二層互通鏈路不承載外網(wǎng)訪問業(yè)務(wù)流量。
當(dāng)?shù)谝粩?shù)據(jù)中心資源池中的虛擬機(jī)出現(xiàn)故障時(shí),通過高可用性、容錯(cuò)等備份技術(shù),虛擬機(jī)被自動(dòng)移動(dòng)至第二數(shù)據(jù)中心,其IP地址不發(fā)生變化。用戶訪問該主機(jī)時(shí),仍從第一數(shù)據(jù)中心的外網(wǎng)入口進(jìn)入,并經(jīng)由雙中心之間的二層互聯(lián),訪問到位于第二數(shù)據(jù)中心的備用主機(jī)。
在兩個(gè)數(shù)據(jù)中心現(xiàn)有的資源池搭建測(cè)試環(huán)境,具體硬件配置見表1。
圖6 政務(wù)數(shù)據(jù)中心整合示意
表1 資源池配置
通過部署VMware HA進(jìn)行資源池故障恢復(fù)測(cè)試,測(cè)試環(huán)境虛擬機(jī)配置見表2。
表2 測(cè)試虛擬機(jī)配置
在兩個(gè)數(shù)據(jù)中心的統(tǒng)一資源池上創(chuàng)建兩個(gè)測(cè)試集群節(jié)點(diǎn),并啟用HA。在集群上創(chuàng)建一臺(tái)配置為2.4 GHz處理器、2 GB內(nèi)存的Windows 2003 Server企業(yè)版虛擬機(jī),用于故障切換測(cè)試。測(cè)試時(shí)關(guān)停一個(gè)集群節(jié)點(diǎn),通過ping工具測(cè)試驗(yàn)證主機(jī)的可用性,業(yè)務(wù)整體恢復(fù)時(shí)間約為1 min 45 s。
通常,VMware HA的業(yè)務(wù)中斷時(shí)間主要由HA心跳檢測(cè)時(shí)間、虛擬機(jī)系統(tǒng)啟動(dòng)時(shí)間以及應(yīng)用啟動(dòng)時(shí)間組成,這個(gè)時(shí)間一般在3 min以內(nèi)。因此,測(cè)試結(jié)果是正常的。
當(dāng)?shù)谝粩?shù)據(jù)中心網(wǎng)絡(luò)出口設(shè)備發(fā)生災(zāi)害(停電、出口阻斷等)時(shí),10.0.0.0/16網(wǎng)段在第一數(shù)據(jù)中心的網(wǎng)關(guān)失效,路由也隨即撤銷。第二數(shù)據(jù)中心檢測(cè)到第一數(shù)據(jù)中心網(wǎng)關(guān)不可用后,將其網(wǎng)關(guān)切換成VRRP主用狀態(tài),且路由同時(shí)生效。此時(shí),訪問10.0.0.0/16網(wǎng)段的流量從第二數(shù)據(jù)中心網(wǎng)關(guān)進(jìn)入,并經(jīng)由雙中心之間的二層互聯(lián),訪問位于第一數(shù)據(jù)中心的資源池。
由于資源池并未受到故障影響,因此,該場(chǎng)景下的業(yè)務(wù)恢復(fù)時(shí)間主要受制于VRRP設(shè)置的發(fā)送通告報(bào)文定時(shí)器時(shí)間。測(cè)試中,將第一數(shù)據(jù)中心網(wǎng)關(guān)子接口關(guān)閉來模擬故障,使用ping工具測(cè)試驗(yàn)證主機(jī)的可用性,業(yè)務(wù)恢復(fù)時(shí)間可達(dá)到秒級(jí)。通過部署快速檢測(cè)協(xié)議,加快VRRP觸發(fā)故障倒換,可以進(jìn)一步縮短業(yè)務(wù)恢復(fù)時(shí)間。
用戶通過域名訪問位于第一數(shù)據(jù)中心Web應(yīng)用時(shí),部署在兩個(gè)數(shù)據(jù)中心的任意一個(gè)F5解析出主用地址為10.X.100.100,備用地址為20.X.100.100。當(dāng)?shù)谝粩?shù)據(jù)中心發(fā)生單點(diǎn)故障導(dǎo)致主用Web服務(wù)器不可用時(shí),主用IP地址不可用,并由F5調(diào)度到20.X.100.100提供服務(wù)。測(cè)試中,通過關(guān)停Web測(cè)試服務(wù)器虛擬機(jī)模擬故障,由于備用主機(jī)已經(jīng)處于“存活”狀態(tài),因此用戶幾乎不會(huì)感知到Web應(yīng)用故障。
數(shù)據(jù)中心是支撐云計(jì)算、大數(shù)據(jù)發(fā)展的基礎(chǔ),本文介紹了一種“雙活”數(shù)據(jù)中心的實(shí)現(xiàn)方案。通過雙活技術(shù),可以搭建一個(gè)高可靠性的信息化平臺(tái)。數(shù)據(jù)中心中信息系統(tǒng)雙活的實(shí)現(xiàn)方式還有很多,結(jié)合數(shù)據(jù)中心各類信息系統(tǒng)的具體需求來進(jìn)行方案設(shè)計(jì)尤為重要。此外,真正的實(shí)現(xiàn)數(shù)據(jù)中心各類信息系統(tǒng)的連續(xù)運(yùn)行,一套完善的運(yùn)維管理制度和流程、維護(hù)管理人才的培養(yǎng)和儲(chǔ)備也是必不可少的。
[1]史晨陽,壽弘宇.面向未來的同城雙活中心網(wǎng)絡(luò)架構(gòu)建設(shè)[J].金融電子化,2014(3):52-54.SHI C Y,SHOU H Y.The construction of future oriented network architecture for double-live data center [J].Financial Computerizing,2014(3):52-54.
[2]李宏偉,肖偉.存儲(chǔ)虛擬化技術(shù)在雙活數(shù)據(jù)中心中的應(yīng)用[J].郵電設(shè)計(jì)技術(shù),2013(9):9-13.LI H W,XIAO W.The application of storage virtualization technology to double-live data center[J].Designing Techniques of Posts and Telecommunications,2013(9):9-13.
[3]朱明明,夏寅賁,徐小飛.基于SDN的數(shù)據(jù)中心網(wǎng)絡(luò)研究[J].郵電設(shè)計(jì)技術(shù),2014(3):23-29.ZHU M M,XIA Y B,XU X F.Research on data center network based on SDN [J].Designing Techniques of Posts and Telecommunications,2014(3):23-29.
An implementation of the “active-active” data center
FAN Hao
Taizhou Branch of China Telecom Co.,Ltd.,Taizhou 225300,China
With the transition of the traditional data center to cloud data center,government and financial industry's information system disaster recovery and backup becomes an important means to ensure services continuity and data availability.Active-active data center can enhance system availability and improve the utilization of equipment,becoming the future trend of data center construction.Active-active data center involves networking,virtualization,storage technology.These related technologies to achieve active-active in the data center were described,and the effectiveness of the technology was verified by the implementation of the governmental data center.
data center,active-active,virtualization,cloud computing
TP311
A
10.11959/j.issn.1000-0801.2016029
2015-05-27;
2015-10-30
樊昊(1979-),男,中國電信股份有限公司泰州分公司網(wǎng)絡(luò)操作維護(hù)中心工程師,主要研究方向?yàn)榇笮虸P城域網(wǎng)組織、優(yōu)化以及數(shù)據(jù)中心的設(shè)計(jì)規(guī)劃。