馬國勝 劉小艷 馬敏
摘要:在信息技術不斷發(fā)展的背景之下,如何解決傳統(tǒng)IT應用模式下存在的問題,實現(xiàn)IT架構的云化,提高資源利用效率和優(yōu)化管理被廣泛討論和實踐。超融合架構能實現(xiàn)存儲、計算以及網絡等資源的集中統(tǒng)一調度和管理,能夠以云服務的形態(tài),為各行各業(yè)提供靈活、敏捷的IT基礎服務。
關鍵詞:超融合;云服務;虛擬化
中圖分類號:TP393? ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)20-0275-03
開放科學(資源服務)標識碼(OSID):
近年來,傳統(tǒng)的“以計算為中心”的IT應用模式向“以數(shù)據(jù)為中心”轉變過程中,對IT基礎資源和服務提出了越來越高的要求。超融合架構作為一種實現(xiàn)云計算的手段,可以提供高性能、高可靠性、高安全性的云服務。本文基于超融合架構設計和實現(xiàn)的私有云服務平臺,在實際工作中產生了很好的應用價值。
1 傳統(tǒng)模式下面臨的困局
筆者所在單位共使用10多臺物理服務器采用“一機一應用”的傳統(tǒng)IT應用模式部署了辦公自動化、門戶網站、會計核算系統(tǒng)等應用系統(tǒng),這種模式下暴露很多突出的問題。
1)運維管理有困難。IT技術人員面對的設備類型和型號比較多,無法實現(xiàn)統(tǒng)一運維。設備和系統(tǒng)的部署使用時間較長,因為兼容性等因素,無法遷移到新的服務器上,給IT人員在運維工作上帶來壓力。
2)業(yè)務連續(xù)性無法保障。服務器和軟件出現(xiàn)故障,相應的業(yè)務也將中斷。遇到硬件需要維護和升級、硬件出現(xiàn)故障等事件,業(yè)務系統(tǒng)沒有自動切換方案,也影響到業(yè)務的連續(xù)性。
3)資源利用率不高。服務器硬件資源使用率較低,CPU、內存和硬盤硬件資源很大一部分沒有發(fā)揮作用,不能靈活的被調度給其他業(yè)務系統(tǒng)使用,形成投資浪費。
4)未來發(fā)展的彈性不夠?,F(xiàn)有系統(tǒng)的軟硬件環(huán)境相對封閉,沒有擴展性,只能單純的通過添置硬件的方式應對未來業(yè)務系統(tǒng)升級、新建和部署的需求。
2 什么是超融合架構
超融合架構(Hyper-converged infrastructure,HCI)以軟件定義為核心理念,是資源池化、虛擬機、分布式存儲、軟件定義網絡等技術的集合,采用軟件定義資源靈活提供IT基礎服務。
2.1 服務器資源池化
將分散在物理節(jié)點的CPU、內存、存儲、網絡等物理資源融合為邏輯資源,形成統(tǒng)一管理、調度和分配的計算資源池、存儲資源池、網絡資源池,并使用軟件定義方式創(chuàng)建云服務器部署應用系統(tǒng)。
2.2 可視化統(tǒng)一管理
采用統(tǒng)一的圖形界面對虛擬資源池,底層硬件資源,虛擬實例后的云服務器進行集中管理和運維,使技術人員的運維對象改變?yōu)閷?個平臺運維,降低了IT運維維度,實現(xiàn)極簡運維。
2.3 全方位容災機制
虛擬機熱遷移和熱備份機制,為應用系統(tǒng)和數(shù)據(jù)提供自下而上、全方位的容災備份解決方案,能實現(xiàn)宕機恢復和數(shù)據(jù)同步自動化,保證數(shù)據(jù)的安全及業(yè)務的連續(xù)性,使業(yè)務系統(tǒng)的RTO/RPO達到秒級。
3 私有云服務平臺設計和實現(xiàn)方案
本文作者所在單位運用超融合架構建成云服務器平臺(以下簡稱“Server Cloud”),在設計時按“避免單點故障”的原則配置軟硬件,兼顧了投入產出比和業(yè)務增長規(guī)模等因素。
3.1 物理架構
Server Cloud平臺物理架構如圖1所示,平臺使用3臺高性能的X86服務器組成服務器集群,使用2臺10GE速率的網絡交換機作為存儲網絡交換機用于構建分布式存儲資源池,使用3臺支持10GE速率上聯(lián)的網絡交換機分別用于服務器集群間通信(VxLAN)、云服務器實例的業(yè)務數(shù)據(jù)傳輸。為保障平臺的業(yè)務連續(xù)性,提高業(yè)絡的可管理性和高可靠性,業(yè)務和管理網絡交換機、匯聚層交換機分別采用網絡虛擬化技術部署。服務器集群的物理節(jié)點使用鏈路聚合方式,經業(yè)務交換機和匯聚層交換機接入現(xiàn)有生產網絡。
3.2 邏輯架構
Server Cloud平臺邏輯架構如圖2所示,分為物理層、超融合架構層、業(yè)務應用層、管理層4個層,并提供API接口用于系統(tǒng)集成。
1)物理層提供平臺運行所需的CPU、內存、存儲和網絡等物理資源,以服務器集群方式和高性能網絡通信向上一層提供支撐。
2)超融合架構層使用軟件定義資源和虛擬機技術將物理層的資源池化,物理層的CPU和內存資源組成計算資源池,磁盤和SSD盤等存儲設備以分布式存儲方式組成存儲資源池,業(yè)務、管理、存儲和集群通信網絡統(tǒng)一起來構成網絡資源池。Server Cloud平臺計算資源池具備96個2.1GHz性能vCPU(虛擬CPU)和768GB內存容量的資源,存儲資源池具備2TB高速數(shù)據(jù)緩存存儲空間和72TB永久數(shù)據(jù)存儲空間的資源。網絡資源池中業(yè)務網絡負責VM虛擬機與物理網絡之間通信的“南北向流量”,管理網絡負責傳輸管理層和VM虛擬機熱遷移等數(shù)據(jù),存儲網絡負責虛擬存儲的主機間存儲同步數(shù)據(jù)傳輸,集群通信網絡負責集群內主機之間通信的“東西向流量”。
3)業(yè)務應用層在超融合架構層支持下使用軟件定義各類資源集合創(chuàng)建VM虛擬機,以云服務器形態(tài)為各類應用系統(tǒng)提供服務,每臺VM虛擬機就是一臺云服務器的實例。
4)管理層是提供統(tǒng)一的管理平臺,對資源進行全面管理、調度,可以針對物理主機、云服務器和業(yè)務系統(tǒng)進行資源負載、虛擬資源配置和調度、網絡軟件定義、故障排查、數(shù)據(jù)備份和動態(tài)遷移進行管理。
5)API接口提供符合業(yè)界規(guī)范的開放API接口,第三方云管理平臺可以調用API接口對ServerCloud平臺中的所有資源的進行管理,實現(xiàn)業(yè)務流程化管理。
3.3 存儲資源池的實現(xiàn)
如圖3所示為ServerCloud平臺存儲池具體實現(xiàn)方式,平臺中每臺主機配備了6*4T的普通硬盤和2*480GB的SSD存儲盤,每臺云服務器的以雙虛擬機形式對存儲資源進行讀取、訪問。一臺云服務器產生的數(shù)據(jù)和其容量本身的數(shù)據(jù)經條帶化、分片、復制后產生2份的一樣的數(shù)據(jù),然后分散存儲在3臺主機上,其中1份數(shù)據(jù)會聚合在主機1上,稱之為聚合副本,另外1個份數(shù)據(jù)會分散在其他2臺主機上,稱之為散列副本。
虛擬機優(yōu)先運行在聚合副本所在的主機上,對數(shù)據(jù)進行訪問,直接從聚合副本中讀取,避免跨存儲網絡對數(shù)據(jù)進讀取,以此可提高數(shù)據(jù)讀取的吞吐性能,突破網絡帶寬的瓶頸。為優(yōu)化并發(fā)讀寫性能,平臺上2種數(shù)據(jù)副本,經帶條化、分片后落入某主機存儲時,會分組、分片優(yōu)先跨磁組分布。每臺主機中的磁盤組配備SSD為組中的硬盤提供緩存加速能力,1組數(shù)據(jù)會盡可能跨越1組中多個磁盤存儲,以保證并發(fā)讀寫性能。虛擬機對存儲訪問時,同時對多個磁盤進行讀操作,經SSD緩存后組成帶組數(shù)據(jù)。
3.4 云服務器的熱遷移
如圖4所示為Server Cloud平臺中云服務器熱遷移實現(xiàn)示意圖。在平臺內的VMM設置VM狀態(tài)、應用活動和網絡活動等檢測時間為10s,實現(xiàn)對每臺云服務器的狀態(tài)檢測。當平臺上的管理層探測到主機1故障、云服務器1宕機和其上的應用停止等造成不能提供應用服務,且持續(xù)10s以上,平臺會從主機2和主機3上組織數(shù)據(jù),建立起一臺與云服務器1相同的云服務器2為用戶提供服務。在故障恢復后,云服務器1作為云服務器2的備機運行,隨時準備為下一次故障做準備。
4 平臺的應用價值
ServerCloud平臺上線運行后,實現(xiàn)了一個易于部署管理和經濟高效運行的IT基礎服務平臺,應用云服務平臺產生很大的應用價值。
4.1 實現(xiàn)IT投入的高收益
在平臺上精準分配資源實例化云服務器運行現(xiàn)有業(yè)務系統(tǒng),服務器只需要3臺,IT能耗從10-20KW下降至3-5KW,在提高IT資源利用率的同時,實現(xiàn)綠色IT的節(jié)能目標。通過實測數(shù)據(jù)和對未來發(fā)展的評估,平臺還能為20-30套業(yè)務系統(tǒng)提供云服務器支持,以極高的性價比,為未來業(yè)務發(fā)展預留了空間。
4.2 構建敏捷信息服務體系
在平臺上使用模板克隆虛擬機或者容器實例化一臺云服務器,部署新應用僅需要0.5小時-1小時,相比傳統(tǒng)方式需要花費5-10個工作日,平臺為實現(xiàn)敏捷IT服務提供了基礎平臺。實踐工作中, 筆者所在單位通過平臺創(chuàng)建4臺linux和windows云服務器部署新應用服務器,僅用0.5個工作日完成上線工作。
4.3 化解業(yè)務工作管理困局
平臺以極簡模式提供一鍵式的自動化運維手段,實現(xiàn)業(yè)務的故障排除和資源優(yōu)化自動化,大幅提升了運維效率,緩解了IT技術人員面臨的諸多壓力,使IT技術人員有精力專注于業(yè)務層的問題。在實際工作中,筆者所在單位原來需要配備4名應用系統(tǒng)管理員減少為1名IT人員負責系統(tǒng)管理。
4.4 完成業(yè)務連續(xù)性管理
平臺硬件采用冗余設計,服務器采用高可用性集群, 虛擬化存儲采用2副本方式保存數(shù)據(jù),構建了無單點故障、可快速切換的高可用體系, 能在用戶無感知下連續(xù)提供服務。通過采取斷開物理節(jié)點網絡連接和抽取單個硬盤模擬故障,故障主機上的云服務器自動切換到健康主機運行的速度分別<1秒和<1分鐘。
參考文獻:
[1] 左勤剛. 超融合技術在基層央行“云”化工程的研究和實踐[J]. 金融科技時代, 2018(6): 47-48.
[2] 席科文. 超融合架構在運營商IT支撐系統(tǒng)建設中的應用[J]. 通信世界, 2017(3): 53-54.
[3] 張光華. 超融合系統(tǒng)架構在數(shù)據(jù)中心的應用研究[J]. 通訊世界, 2017(9): 21-23.
[4] 尹勁梅. 基于超融合架構的機房建設淺析[J]. 電腦知識與技術, 2016(30): 9-10.
[5] 許玉煥. 基于VMware 的高校云計算數(shù)據(jù)中心設計與實現(xiàn)[J]. 網絡安全技術與應用,2016(8): 84-85.
[6] 解培. 超融合基礎架構在商業(yè)銀行私有云中的應用[J]. 金融電子化, 2015(12): 75-77.
【通聯(lián)編輯:謝媛媛】