胡露露, 陳冠毅, 張 亮, 李 偉, 張全東, 胡 琳
(中海石油(中國)有限公司 湛江分公司, 廣東 湛江 524057)
因生產業(yè)務發(fā)展的需要,中海石油(中國)有限公司湛江分公司劃分為湛江和海口兩部分科研人員,存在異地辦公的科研應用需求。經過實際情況的技術調研,異地辦公面臨著一些困難:①???、湛江兩地機房互聯(lián)帶寬低(僅622 mbps),導致數(shù)據(jù)傳輸及應用速度有限;②湛江分公司現(xiàn)存的硬件客戶端配置較低,部分更為待報廢機器,難以滿足高強度數(shù)據(jù)處理能力的需求;③涉及多個部門(勘探開發(fā)部、南海西部石油研究院、工程技術作業(yè)中心等)的協(xié)同辦公,如井位審查、工區(qū)資料質控、靶點及軌跡調整等科研業(yè)務,其應用需求復雜多樣,單靠人工手動處理,過程煩瑣且效率低,因此亟須開展應用資源的適配性管理技術研究,實現(xiàn)資源智能化管理。
針對上述問題,結合兩地辦公的硬件環(huán)境及科研軟件應用需求,信息運維中心技術團隊開展“硬件資源池虛擬化、遠程圖像壓縮傳輸、資源負載均衡管理”三大技術攻關與實踐,并建設和優(yōu)化了科研圖形云服務應用系統(tǒng)。通過該系統(tǒng)的應用,實現(xiàn)了圖形資源(虛擬和物理)的整合、精細池化和動態(tài)訪問,滿足了低性能客戶端對高性能圖形資源的需求,實現(xiàn)了低帶寬網絡環(huán)境下對軟硬件資源的高效共享與使用[1-2]。
圖形云能夠提供虛擬圖形服務,主要基于GPU(圖像處理器)共享、遠程可視化資源負載均衡技術等核心技術。利用圖形云能夠以資源集中、云端共享的方式,面向地學專業(yè)應用和服務,建立更靈活和更易管理的企業(yè)私有云平臺,既整合了現(xiàn)有IT資源,又有效節(jié)約了綜合運營成本,為勘探開發(fā)科研生產提供了有力的支持,并快速適應公司業(yè)務的發(fā)展,尤其在???、湛江兩地辦公方面,該技術的成功應用是異地辦公模式下地震解釋平臺應用解決方案的關鍵。
硬件虛擬化是一種對計算機或操作系統(tǒng)的虛擬,對用戶而言,虛擬化隱藏了真實的計算機硬件,表現(xiàn)出的是一個抽象計算平臺。通過虛擬化技術可以將一臺計算機虛擬為多臺邏輯計算機,每個邏輯計算機可運行不同的操作系統(tǒng),并且應用程序都可以在相互獨立的空間內運行而互不影響,從而顯著提高計算機的工作效率[3-5]。虛擬化使用軟件的方法重新定義劃分硬件資源,可以實現(xiàn)硬件資源的動態(tài)分配、靈活調度、跨域共享,提高硬件資源利用率,滿足科研工作中各項靈活多變的應用需求,具體來說虛擬化技術有以下優(yōu)勢:
1)集中化管理。管理員不需再具體處理每個工位上的主機,可遠程完成所有日常操作,復制、快照等功能為日常管理維護提供了便捷的工具。
2)提高硬件利用率。應用虛擬化技術可以動態(tài)擴展調整來解決硬件資源“峰值”的問題,讓一臺物理機器上運行多個虛擬機以利用這額外的“閑時”容量,而不必增加大量的物理資源。虛擬化的隔離特性使得一臺物理機可以運行多個重要應用,且之間不會相互影響,有效利用了物理資源,提高了硬件的利用率。
3)動態(tài)調整機器/資源配置。虛擬化把操作系統(tǒng)和應用程序與服務器硬件分離開來,增強了操作的靈活性。不用關閉及拆卸物理服務器,就可以為虛擬機增加或減少資源。
4)高可靠性。通過部署額外的功能和方案,帶來具有透明負載均衡、動態(tài)遷移、快速復制等高可靠服務器應用環(huán)境,減少服務器或應用系統(tǒng)的停機時間,提高可靠性。
南海西部石油研究院地學平臺數(shù)據(jù)中心現(xiàn)已在湛江建設,包括網絡、存儲和計算資源池等。為更好地滿足兩地科研應用的需求,綜合以上虛擬化技術的優(yōu)勢,對這些硬件資源研究進行虛擬化配置,提高共享應用效率。
隨著地球物理技術的不斷發(fā)展,地震數(shù)據(jù)的大小隨著精度的提高而逐漸增長,尤其是疊前技術的深化應用,使地震數(shù)據(jù)的大小成倍增加,而越來越大的數(shù)據(jù)就需要占用越來越多的計算資源來進行處理運算。對于Linux應用,為服務器配備高端的Nvidia專業(yè)圖卡,實現(xiàn)多用戶共享高性能GPU資源,以此進行三維可視化研究;配備大容量內存,確保可以流暢調用運行大數(shù)據(jù)體;配置萬兆光纖網卡,可快速從數(shù)據(jù)庫和存儲中獲取所需數(shù)據(jù)。對于Windows應用,使用VMware軟件技術將圖形服務器劃分為多個Windows虛擬機,制定策略將一塊物理顯卡劃分為多個虛擬顯卡,將虛擬的顯卡資源分配給各個Windows虛擬機,一臺服務器資源可同時為多個用戶提供多個科研軟件使用。通過整合計算資源,分別建立Linux和Windows應用的計算資源池,統(tǒng)一數(shù)據(jù)、軟件目錄,通過NFS(網絡文件系統(tǒng))輸出,可跨系統(tǒng)在統(tǒng)一環(huán)境中進行科研應用。
工作站集群系統(tǒng)網絡是高帶寬的私有網絡,在該網絡中研究人員可以進行高效的數(shù)據(jù)交換和地學研究工作。對兩地辦公來說,專業(yè)軟件遠程應用是核心需求,勘探開發(fā)的應用軟件大多都有三維可視化功能,因此必須要保證研究人員能夠利用辦公電腦和低帶寬網絡進行專業(yè)軟件的遠程三維可視化操作。如何在低帶寬網絡環(huán)境下展開地學研究,遠程圖像壓縮傳輸技術是解決該問題的最佳方案。
伴隨著信息技術的不斷發(fā)展,VMware等虛擬化廠商,及斯倫貝謝、哈里伯頓等石油界業(yè)內知名的能源公司紛紛進行遠程三維可視化技術研究,并且各自推出了獨有的解決方案。目前圖形遠程傳輸技術主要有VMware Horizon、Citrix、DCV[6]、VirtualGL和RDP等。各家的方案都具備其獨特的技術特點和優(yōu)勢,但是在地學科研工作中,還需要考慮應用軟件的兼容性、三維可視化顯示效率和共享高性能運算資源等多方面的需求。表1是三維可視化技術調研及測試的應用效果對比。
表1 三維可視化技術應用效果對比
結合以上需求,并針對LandMark、Petrel、Jason等專業(yè)地學軟件和不同操作系統(tǒng)下的應用,研究制定了DCV和Horizon桌面云的遠程三維解決方案。
DCV是一種高性能的遠程顯示協(xié)議,可為用戶提供安全的方式,在各種網絡條件下將遠程桌面和應用程序流從任何云或數(shù)據(jù)中心傳輸?shù)饺魏卧O備。遠程運行圖形密集型應用程序,并將其用戶應用界面流式傳輸?shù)礁唵蔚目蛻舳擞嬎銠C上,從而無須昂貴高端的專用工作站。DCV作為Linux系統(tǒng)下的三維圖像壓縮和遠程傳輸協(xié)議,業(yè)內使用廣泛,兼容性好,帶寬需求低,在國內外擁有大量成功的實施案例。結合研究院地學軟件的種類和各個三維可視化工具對軟件的兼容性,兼顧帶寬需求和應用平臺,信息管理運維團隊對運行在Linux環(huán)境下的軟件選擇NICE DCV的云桌面方案。
VMware Horizon技術擁有圖卡虛擬化、服務器虛擬化、桌面虛擬化和三維圖像壓縮傳輸協(xié)議的整套方案,且?guī)捳加玫?整體兼容性強。VMware Horizon桌面云技術采用PCoIP遠程會話協(xié)議,辦公電腦終端的研究人員能夠利用高效的硬件加速3D圖形,通過網絡接入遠程桌面進行Windows軟件的應用。PCoIP設計為多編解碼器,并引入PCoIP硬件加速器,同時根據(jù)可用帶寬在編解碼器、幀速率和圖像質量之間動態(tài)選擇,從而提供最佳的應用結果,并為整個系統(tǒng)帶來最高的效率。PCoIP是Horizon實現(xiàn)圖形遠程三維可視化的關鍵,該協(xié)議虛擬化客戶端及數(shù)據(jù)中心桌面的應用操作,完成輸入輸出、用戶界面交互的遠程連接操作。PCoIP協(xié)議的最大特點是將應用以圖像的方式來進行壓縮傳輸,只傳輸操作變化的部分,保證在低帶寬環(huán)境下也能獲得高效的圖像應用。
結合研究院Windows地學軟件的種類和各個三維可視化工具對軟件的兼容性,兼顧帶寬需求和應用平臺,信息管理運維團隊選擇Horizon云桌面方案運行Windows系統(tǒng)下的地學軟件。研究人員在不同地點工作時,共享應用集中統(tǒng)一的硬件資源,仍然接入相同的桌面環(huán)境,訪問、讀取數(shù)據(jù)和軟件應用。這實現(xiàn)了一個集中化、高效的虛擬圖形應用環(huán)境,快速高效地響應和管理科研工作的需求。
在兩地辦公環(huán)境中,研究人員面對的不再是固定的軟硬件資源。如何充分利用有限的資源,提高硬件的利用率,又不會因為大量的并發(fā)應用給系統(tǒng)造成壓力進而影響性能,這是系統(tǒng)管理人員的重點研究方向。為了實現(xiàn)硬件資源的最大化利用,需要進行負載均衡調度管理。負載均衡[6-9](load balancing)是一種計算機集群技術,用來在多個計算機(計算機集群)、網絡連接、CPU、磁盤驅動器或其他資源中分配負載,將特定的業(yè)務(網絡服務、網絡流量等)分擔給多臺網絡設備,以達到最優(yōu)化資源使用、最大化吞吐率、最小化響應時間、同時避免過載的目的,保證了業(yè)務的高可靠性[10]。
科研云平臺的資源負載均衡管理系統(tǒng),主要通過對歷史使用數(shù)據(jù)的分析,預測各用戶使用不同軟件對硬件資源的需求量,同時結合計算節(jié)點實時的資源監(jiān)控進行節(jié)點剩余資源預測,進而通過負載均衡策略為新連接請求推薦最佳的負載節(jié)點。將負載(工作任務、訪問請求)進行平衡、分攤到多個操作單元(服務器、組件)上進行執(zhí)行,是解決高性能、單點故障(高可用)、擴展性(水平伸縮)的終極解決方案,實現(xiàn)系統(tǒng)資源整體的優(yōu)化使用,提高資源利用率,提升軟件的應用體驗。
負載均衡服務器在決定將請求轉發(fā)到具體哪臺真實服務器的時候,是通過負載均衡算法來實現(xiàn)的。負載均衡算法是一個負載均衡服務器的核心,可以分為靜態(tài)負載均衡算法和動態(tài)負載均衡兩種算法。靜態(tài)負載均衡算法以固定的概率分配任務,不考慮服務器的狀態(tài)信息;動態(tài)負載均衡算法以服務器的實時負載狀態(tài)信息來決定任務的分配。
綜合以上調研分析,設計制定負載均衡總流程,如圖1所示,按照數(shù)據(jù)需求和處理方式的不同,可以分為4部分。
圖1 負載均衡管理技術設計流程
第1部分:不同地學軟件應用的資源需求量預測模塊。收集并管理不同地學軟件占用硬件資源的歷史時序數(shù)據(jù),通過離線分析計算,預測各研究人員下次使用不同地學軟件時所需要的硬件資源量,形成預測數(shù)據(jù)集并保存。
第2部分:根據(jù)計算節(jié)點的資源監(jiān)控,獲取各節(jié)點的當前使用用戶及當前使用的地學軟件,并從預測數(shù)據(jù)集中讀取各用戶本次的資源需求量的預測結果。
第3部分:接收用戶請求數(shù)據(jù),獲取用戶及用戶申請使用的地學軟件信息,并從預測數(shù)據(jù)集中讀取該用戶的資源需求量預測結果。
第4部分:進行需求匹配。根據(jù)地學軟件應用申請的資源需求量和各節(jié)點資源剩余預測結果,按照負載策略為申請用戶推薦最佳的計算節(jié)點。
負載均衡策略對于判斷各項指標參數(shù)的準確性非常重要,通過監(jiān)控獲取服務器的CPU、內存和磁盤IO(輸入、輸出)等指標參數(shù)的實時信息,從而根據(jù)策略相關參數(shù)來計算資源負載再進行應用的分配。因此需要結合不同軟件的應用特點和需求,設置相應的負載均衡策略,從而最大化利用硬件資源并提升軟件應用效率。
通過異地辦公相關技術的研究應用,研發(fā)建設科研云平臺,集成統(tǒng)一的軟件資源、存儲資源、計算資源和網絡資源??蒲性破脚_兼顧地學專業(yè)軟件應用和統(tǒng)一管理的需求,系統(tǒng)采用模塊化設計,架構分為5個部分。
存儲資源:存儲資源層整合各類關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、結構化數(shù)據(jù)以及非結構化數(shù)據(jù)等,并對這些數(shù)據(jù)信息本身進行歸檔,提供快速查詢的底層接口,并保證數(shù)據(jù)的完整性、可靠性、安全性。
計算資源:以資源的高可用性和高利用率為中心的設計原則,依據(jù)服務器集中規(guī)劃與管控要求以及當前的IT技術條件,對平臺的服務器進行分層化的統(tǒng)一規(guī)劃和配置設計,建立統(tǒng)一的計算資源池。同時建設資源管理和調度平臺,對計算資源池進行統(tǒng)一調度與配置,實現(xiàn)資源的按需、動態(tài)分配。
應用資源:通過平臺整合各類專業(yè)軟件,并進行發(fā)布、回收、監(jiān)控、管理等。
基礎平臺:提供系統(tǒng)所需要的一系列通用基礎服務及接口組件,以支持平臺運行及功能實現(xiàn)。
系統(tǒng)門戶:是最終面對客戶的接口,系統(tǒng)以web方式提供各種業(yè)務功能供用戶使用。針對用戶需求,進行模塊化設計,便于增刪及未來系統(tǒng)的功能擴展。
各子系統(tǒng)間分工協(xié)作并實時信息交互,以此支撐科研工作中業(yè)務、功能、管理等多方面的需求。科研云平臺由資源池和云發(fā)布管理平臺組成,根據(jù)服務器的硬件配置特點和軟件應用對計算資源的需求,云平臺中服務器劃分為多個類型的資源池,其中Windows資源池由Windows虛擬機組成,使用VMware技術將配有Nvidia A40顯卡的圖形服務器虛擬化為多個Windows虛擬機,且每個虛擬機都配有一塊虛擬顯卡,實現(xiàn)一臺服務器資源同時為多個用戶提供多個科研軟件使用。而Linux資源池,由物理服務器組成。為每臺圖形服務器配備高端的Nvidia專業(yè)圖卡,如Nvidia A40、Nvidia RTX A5000和Nvidia RTX A6000,依托于Linux系統(tǒng)多用戶功能,實現(xiàn)多用戶共享高性能GPU資源,以此進行地震解釋研究。云發(fā)布管理平臺結合軟件應用需求,利用負載均衡算法給研究人員分配相應計算資源池,并建立地學私有云專用網絡連接,為科研軟件應用提供服務。Windows系統(tǒng)下的地學軟件選擇Horizon云桌面方案,Linux環(huán)境下的軟件選擇NICE DCV的云桌面方案,保障整個云平臺的正常運行。
在科研云平臺中,地學工區(qū)數(shù)據(jù)的運算在服務器端進行,用戶終端只顯示計算后的圖像結果。云桌面實現(xiàn)了計算資源池和用戶終端的信息交互,各地學軟件的工區(qū)數(shù)據(jù)在云平臺計算資源池內生成圖像結果,經壓縮處理技術后在低帶寬條件下經網絡將圖像傳輸?shù)接脩艚K端,客戶端上鍵盤和鼠標的操作也通過云桌面?zhèn)鬏數(shù)接嬎阗Y源池并進行響應。
科研云平臺圍繞地學各專業(yè)科研軟件進行集成開發(fā),建立統(tǒng)一的軟件系統(tǒng)、用戶系統(tǒng)和文件系統(tǒng),創(chuàng)新實現(xiàn)跨平臺地學軟件的集成應用,形成一體化協(xié)同研究的工作環(huán)境,解決了不同軟件在不同機器、不同操作系統(tǒng)、不同用戶環(huán)境下使用的難題。研究人員在統(tǒng)一的應用環(huán)境下,可同時使用軟件資源池中所有的專業(yè)應用軟件??蒲性破脚_改變了勘探開發(fā)研究的模式,研究人員不再單一依賴于高性能工作站進行工作,也無須切換不同工作站來應用不同操作系統(tǒng)下的軟件。研究人員無須關心自己所用的客戶端配置,平臺可結合實際應用需求的負載均衡策略,智能為軟件應用分配最優(yōu)的硬件計算資源,在異地辦公模式下通過普通PC電腦和低帶寬網絡,就可以跨平臺集成應用不同的軟件資源、數(shù)據(jù)資源,進行高性能計算、地震解釋、儲層預測等多種地學研究工作。
經過各研究室的應用,用戶反饋效果良好。借助科研云平臺,用戶可以在湛江和海口兩地通過個人PC機就能流暢地使用Petrel,獲得與使用高性能工作站同樣的應用效果。通過VMware Horizon技術,科研云平臺與本地工作站Petrel軟件二維地震剖面、三維地震體應用相對比,科研云平臺遠程傳輸圖像的成像效果清晰,與本地工作站顯示相比無明顯差異,應用效果良好。
LandMark-DSG地震解釋軟件在科研云平臺上也運行正常,沒有出現(xiàn)數(shù)據(jù)傳輸錯誤和軟件突然崩潰等問題。在應用過程中,NICE云桌面虛擬化(DCV)應用的靈活程度基本等同于工作站??蒲性破脚_Linux資源池由服務器和工作站集群組成,以相同配置為基礎,對科研云平臺和工作站上DSG軟件一些應用響應時間進行了對比(表2),科研云平臺與工作站響應時間基本相同,應用效果良好,可以支持科研人員正常開展各項研究工作。根據(jù)工作站和科研云平臺下DSG軟件二維地震剖面顯示圖對比可見在科研云平臺上DSG遠程傳輸成像效果清晰、色彩還原正常,與本地工作站顯示效果相比無明顯差異。
表2 科研云平臺與工作站應用時間對比
科研云平臺已穩(wěn)定運行一年,在勘探開發(fā)科研工作的深化應用中得到不斷的優(yōu)化,突破終端硬件配置及網絡帶寬的限制,共享服務器端集成的高性能資源,用戶數(shù)穩(wěn)步增加。目前云平臺成為虛擬現(xiàn)實井位審查、駐湛研究人員的常規(guī)應用,為湛江分公司兩地辦公、井位匯報等的科研工作提供了強有力的技術支持與生產保障。