王磊
[摘 要] 經(jīng)過多年的探索與實踐,大港油田云計算建設(shè)已經(jīng)取得了豐厚的成果。通過建立基礎(chǔ)設(shè)施云,實現(xiàn)基礎(chǔ)設(shè)施、關(guān)鍵應(yīng)用的集中管理,提高資源利用率,降低維護成本與能源消耗,極大地促進信息化建設(shè)步伐。但隨著關(guān)鍵生產(chǎn)應(yīng)用對于高可用性要求不斷提高以及當前機房承載能力日趨飽和,建立分布式云計算數(shù)據(jù)中心成為必然趨勢。因此,以云計算架構(gòu)對大港油田三個信息化機房資源統(tǒng)一管理及容災(zāi)進行了整體規(guī)劃,為后續(xù)逐步實施提供依據(jù)。
[關(guān)鍵詞] 云計算;虛擬化;大二層互通;云計算管理平臺;分布式數(shù)據(jù)中心;分級容災(zāi)體系
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 03. 076
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2018)03- 0184- 02
1 大港油田云計算建設(shè)情況
從2010年開始,為適應(yīng)油田勘探開發(fā)信息化建設(shè)的需求,針對基礎(chǔ)設(shè)施管理現(xiàn)狀,大港油田著手開展了服務(wù)器、存儲虛擬化集中管理平臺建設(shè),搭建了由核心交換機、光纖磁盤陣列、冗余光纖交換機、高性能服務(wù)器集群構(gòu)成的虛擬化集中平臺。該平臺以VMware VSphere系列軟件為核心,利用經(jīng)過整體規(guī)劃、實施的高性能、高可用的網(wǎng)絡(luò)、計算和存儲資源,完成了數(shù)據(jù)中心資源的虛擬化工作;并部署了集中管理軟件,對物理主機的運行狀態(tài)、虛擬資源的使用情況、資源調(diào)度等相關(guān)策略進行統(tǒng)一監(jiān)控與管理。按需求劃分出不同的資源池支撐專業(yè)數(shù)據(jù)管理、數(shù)字油田應(yīng)用、生產(chǎn)數(shù)據(jù)采集等多類勘探開發(fā)相關(guān)應(yīng)用以及綜合辦公應(yīng)用,通過統(tǒng)一管控平臺的協(xié)調(diào)管理,通過策略制定與優(yōu)化,可實現(xiàn)隨時、隨需的在油田范圍內(nèi)提供CPU、內(nèi)存、I/O等資源的動態(tài)共享與分配。
虛擬化整合的服務(wù)器群,在統(tǒng)一管理中心的協(xié)調(diào)與權(quán)限控制之下,對于上層應(yīng)用來說,所有框架內(nèi)的資源,包括CPU、內(nèi)存、I/O、網(wǎng)絡(luò)等都是共享的,以資源池的方式提供給虛擬服務(wù)器,協(xié)調(diào)管理中心根據(jù)運行情況、用戶訪問量,能實時動態(tài)調(diào)整資源分配情況,保障資源在所有虛擬化體系中的服務(wù)器的均衡分布,確保信息系統(tǒng)的平穩(wěn)、順暢運行。并且應(yīng)用了高可用特性,通過策略的訂制,確保硬件和虛擬資源的自動化故障轉(zhuǎn)移,出現(xiàn)故障能夠立即完成切換恢復(fù)故障,保障業(yè)務(wù)延續(xù)性尤其是關(guān)鍵生產(chǎn)應(yīng)用的不間斷運行。
大港油田基礎(chǔ)設(shè)施云全面支撐了油田信息系統(tǒng)的穩(wěn)定運行,其中包括勘探開發(fā)生產(chǎn)應(yīng)用系統(tǒng)、綜合辦公應(yīng)用系統(tǒng)、礦區(qū)生活相關(guān)應(yīng)用系統(tǒng)等共100余套應(yīng)用系統(tǒng)。通過云計算的應(yīng)用,將在用信息系統(tǒng)逐步遷移至云環(huán)境,關(guān)閉了100多臺耗能低效的舊服務(wù)器,節(jié)約了能源,同時提升了系統(tǒng)安全,2010年至今,油田各單位不再采購單體服務(wù)器,均采用統(tǒng)一部署的基礎(chǔ)設(shè)施云服務(wù)支撐自建系統(tǒng),促使各單位的機房數(shù)量正逐步減少。同時,云計算技術(shù)的應(yīng)用,使得項目建設(shè)過程中系統(tǒng)開發(fā)環(huán)境、測試環(huán)境、生產(chǎn)環(huán)境分離方便快捷,并使得系統(tǒng)備份、容災(zāi)等難度大大降低。
2 分布式數(shù)據(jù)中心的概念及背景
由于不同行業(yè)領(lǐng)域之間的業(yè)務(wù)屬性和流程存在較大差異,各行業(yè)對所要構(gòu)建的數(shù)據(jù)中心也有自己的需求和思路,但無論如何變化,高可靠性、連續(xù)性以及業(yè)務(wù)彈性都是最基本,也是最核心的數(shù)據(jù)中心訴求。
在傳統(tǒng)觀念中,為了讓數(shù)據(jù)中心所承載的業(yè)務(wù)“永不宕機”,尤其是在遭遇火災(zāi)、地震等不可抗拒力的狀況下,業(yè)務(wù)依然可以保持其一貫的連續(xù)性,數(shù)據(jù)中心的管理者們選擇了“兩地三中心”的建設(shè)方式。其好處在于“一主雙備”,同城災(zāi)備或異地災(zāi)備的方式可以有效保證數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性,一旦主數(shù)據(jù)中心發(fā)生故障,其業(yè)務(wù)和數(shù)據(jù)將立即轉(zhuǎn)移至備用數(shù)據(jù)中心中繼續(xù)運行。劣勢則是需要前期投入大量的IT成本,由于數(shù)據(jù)中心故障本就屬于低概率事件,也許1年也不會發(fā)生一次,所以2/3的IT資源長期處于閑置狀態(tài),這在無形中增加了企業(yè)的IT成本壓力,造成了IT資源的極大浪費。
因此,在正視該問題后,一些行業(yè)企業(yè)嘗試采用“兩地三中心”的升級版,也就是互為備份,三個數(shù)據(jù)中心之間不存在絕對的主用和備用,都有承載不同的業(yè)務(wù)而互為備份。這在某種程度上確實提高了數(shù)據(jù)中心的整體資源利用率,但這也僅僅是過渡方案。
那么,如何能夠在安全可靠的前提下,確保數(shù)據(jù)中心的IT資源最大化,一些較為領(lǐng)先的設(shè)備企業(yè)開始借助云的理念——分布式數(shù)據(jù)中心的概念順勢而出。
在分布式數(shù)據(jù)中心的架構(gòu)里,三個甚至更多的數(shù)據(jù)中心間不再是主備關(guān)系,而是通過虛擬化、大二層互聯(lián)等技術(shù),形成一個可以跨中心、跨地域的“云”資源池,所承載的業(yè)務(wù)和數(shù)據(jù)都可以被動態(tài)分配到不同數(shù)據(jù)中心里,并且實現(xiàn)動態(tài)調(diào)度和自動化配置,由此實現(xiàn)真正意義上的“雙活”甚至“多活”數(shù)據(jù)中心。
據(jù)悉,目前電信行業(yè)的一些運營商正在規(guī)劃基于云資源池的分布式數(shù)據(jù)中心架構(gòu),而走得較快的運營商已經(jīng)率先實現(xiàn)了多數(shù)據(jù)中心的云化,通過網(wǎng)絡(luò)互聯(lián)和負載均衡等多種技術(shù)手段,使分布式的數(shù)據(jù)中心形成了一個統(tǒng)一的“云資源池”,虛機可在多個“分布式”節(jié)點中靈活遷移與恢復(fù)。這不僅使得IT資源得以充分利用,同時資源的動態(tài)遷移與應(yīng)用交付的加速,也為用戶帶來了更加良好的使用體驗。
3 分布式數(shù)據(jù)中心整體規(guī)劃
3.1 機房業(yè)務(wù)定位
隨著大港油田信息化建設(shè)的不斷深入,現(xiàn)有機房承載能力已經(jīng)接近飽和不能滿足未來需求,因此,信息中心決定對原有港西機房進行改造,以滿足未來信息化建設(shè)需求。
隨著港西機房的改造,逐步遷移、歸并系統(tǒng),其中,現(xiàn)有的數(shù)據(jù)機房逐步以承載勘探開發(fā)主營生產(chǎn)數(shù)據(jù)采集、勘探開發(fā)協(xié)同研究為主的主營業(yè)務(wù)機房,網(wǎng)絡(luò)機房,以綜合辦公應(yīng)用系統(tǒng)為主,改造后的港西新城機房作為計算和存儲資源的補充,三個機房網(wǎng)絡(luò)二層互通,同城互備,物理分離,邏輯統(tǒng)一,形成統(tǒng)一的資源調(diào)度與容災(zāi)體系。
3.2 云計算資源統(tǒng)一管理及容災(zāi)規(guī)劃
為構(gòu)建分布式云計算數(shù)據(jù)中心,必須實現(xiàn)三個數(shù)據(jù)中心云計算資源的統(tǒng)一管理,并建立網(wǎng)絡(luò)、計算、存儲等各層面的容災(zāi)保障體系,因此,對分布式云計算數(shù)據(jù)中心進行了整體規(guī)劃。
數(shù)據(jù)中心的容災(zāi)模式包括主備和多活兩種,大港油田分布式云計算數(shù)據(jù)中心整體規(guī)劃,首先確定了主備的容災(zāi)模式,即各數(shù)據(jù)中心各自運行不同的應(yīng)用系統(tǒng),出現(xiàn)問題應(yīng)用系統(tǒng)可以切換到其他數(shù)據(jù)中心運行。其次本規(guī)劃的技術(shù)方案主要體現(xiàn)在三個層面:網(wǎng)絡(luò)、計算、存儲。
網(wǎng)絡(luò)層面,網(wǎng)絡(luò)機房核心網(wǎng)絡(luò)節(jié)點與數(shù)據(jù)機房核心交換機利用虛擬大二層和雙機熱備等技術(shù)互聯(lián),港西機房以二層方式接入兩個網(wǎng)絡(luò)核心,實現(xiàn)三個機房網(wǎng)絡(luò)層面主備方式的容災(zāi)。
存儲層面,首先對現(xiàn)有兩個機房存儲網(wǎng)絡(luò)進行梳理和整改,形成層次化的存儲網(wǎng)絡(luò)架構(gòu);然后打通機房之間的光纖通道,實現(xiàn)跨機房的存儲資源共享,并對關(guān)鍵應(yīng)用實現(xiàn)存儲層面的高可用性。
利用存儲虛擬化技術(shù),每機房部署存儲虛擬網(wǎng)關(guān),并接管存儲資源,實現(xiàn)機房內(nèi)部存儲資源的統(tǒng)一管理;機房之間的存儲虛擬網(wǎng)關(guān)互連,利用虛擬化鏡像技術(shù)實現(xiàn)異地存儲數(shù)據(jù)的實時同步以及并行讀寫服務(wù);出現(xiàn)問題后,由第三方仲裁站點判定具體問題及切換方案,實現(xiàn)故障切換,確保存儲層面的高可用性。
計算層面,在實現(xiàn)網(wǎng)絡(luò)、存儲層面的大二層連通、資源統(tǒng)一管理及容災(zāi)的基礎(chǔ)上,建立跨數(shù)據(jù)中心的基礎(chǔ)設(shè)施云平臺,用來承載應(yīng)用系統(tǒng),并確保關(guān)鍵業(yè)務(wù)跨數(shù)據(jù)中心的高可用性。
然后,基于openstack構(gòu)建云計算管理平臺。首先,與現(xiàn)有云平臺、數(shù)據(jù)庫集中環(huán)境進行對接,同時,也將物理機納入管理,實現(xiàn)底層基礎(chǔ)設(shè)施資源的統(tǒng)一管理;其次,基于多租戶對現(xiàn)有資源進行劃分,實現(xiàn)資源的共享,并對權(quán)限進行精細化管理,實現(xiàn)資源的分權(quán)分域管理;最后,通過構(gòu)建自助化服務(wù)門戶及服務(wù)目錄,將計算、存儲、數(shù)據(jù)庫等資源以服務(wù)的方式提供給租戶,提升資源申請效率。
按照應(yīng)用系統(tǒng)的關(guān)鍵程度以及對于業(yè)務(wù)延續(xù)性的重要程度,對應(yīng)用系統(tǒng)進行梳理與分類,建立管理集群、關(guān)鍵集群與非關(guān)鍵集群承載對應(yīng)的應(yīng)用系統(tǒng)。確保關(guān)鍵集群的虛擬服務(wù)器,在物理主機出現(xiàn)故障時,優(yōu)先遷移到本地數(shù)據(jù)中心關(guān)鍵集群內(nèi)的其他物理服務(wù)器上。如果本地數(shù)據(jù)中心沒有存活的計算資源,則遷移至其他數(shù)據(jù)中心;對于非關(guān)鍵集群的虛擬服務(wù)器,只保證虛擬服務(wù)器在本地數(shù)據(jù)中心內(nèi)部的高可用性。
4 總 結(jié)
分布式云計算數(shù)據(jù)中心的建立盤活了IT資源,提升資源利用率,降低了運維成本,提升了應(yīng)用交付效率,同時,最大限度的保證了業(yè)務(wù)的高可用性。無論是云計算技術(shù)發(fā)展趨勢,還是基于大港油田的企業(yè)信息化建設(shè)現(xiàn)狀,構(gòu)建分布式云計算數(shù)據(jù)中心都是有必要的。通過對云計算技術(shù)的不斷研究與實踐,大港油田已經(jīng)具備了一定的技術(shù)實力,積累了豐富的實踐經(jīng)驗。通過大港油田分布式云計算數(shù)據(jù)中心整體規(guī)劃的編制,初步摸清了相關(guān)架構(gòu),掌握了相關(guān)技術(shù);隨著項目的后續(xù)實施,將不斷完善其技術(shù)架構(gòu),逐步建成大港油田分布式云計算數(shù)據(jù)中心。
主要參考文獻
[1]張為民 唐建峰. 云技術(shù):深刻改變未來[M].北京:科學(xué)出版社,2009.
[2]毛文波.x86服務(wù)器虛擬化的三種技術(shù)[J].華南金融電腦,2009(7):84.
[3]鄭葉來 陳世峻.分布式云數(shù)據(jù)中心的建設(shè)與管理[M].北京:清華大學(xué)出版社,2013:46-49.