施蔚然,顏 東
(福建省氣象信息中心,福建 福州 350001)
隨著省級天氣監(jiān)測、預(yù)報(bào)預(yù)警和氣象服務(wù)等氣象業(yè)務(wù)的快速發(fā)展,各類氣象業(yè)務(wù)系統(tǒng)和信息系統(tǒng)數(shù)量急劇增加,氣象相關(guān)數(shù)據(jù)增長明顯加速,省級各類氣象數(shù)據(jù)總量達(dá)到PB級;傳統(tǒng)分級、分散的氣象信息業(yè)務(wù)在布局、規(guī)模、架構(gòu)和技術(shù)上都難以適應(yīng)需求發(fā)展,迫切需要建立集約、高效的業(yè)務(wù)資源池,滿足氣象業(yè)務(wù)可持續(xù)發(fā)展的需求。全省應(yīng)用于各類天氣預(yù)報(bào)與氣象服務(wù)領(lǐng)域的業(yè)務(wù)系統(tǒng)有基于B/S和C/S架構(gòu),支撐的數(shù)據(jù)庫主要有(ORACLE、Sql、Mysql);操作系統(tǒng)主要有Windows2012R2和Linux(SUSE,Redhat、Centos)等。福建省多數(shù)業(yè)務(wù)系統(tǒng)屬于通用業(yè)務(wù)類,這些業(yè)務(wù)負(fù)載資源占用率不高,單機(jī)運(yùn)行資源利用率較低,適合使用虛擬化環(huán)境池化部署。根據(jù)服務(wù)水平需求和負(fù)載情況分配相應(yīng)資源,并通過資源池內(nèi)部高可用性來保障業(yè)務(wù)的連續(xù)性,實(shí)現(xiàn)IT資源利用效率最大化[1-2]。同時,依托業(yè)務(wù)資源池統(tǒng)一管理和運(yùn)維監(jiān)測,實(shí)現(xiàn)資源共享復(fù)用,并可在線按需動態(tài)擴(kuò)充,彈性分配和可視化管理,保障氣象業(yè)務(wù)的穩(wěn)定運(yùn)行。
根據(jù)《氣象信息化發(fā)展規(guī)劃》及《氣象部門業(yè)務(wù)資源池建設(shè)指南》(技術(shù)規(guī)范)的要求,結(jié)合我省氣象現(xiàn)代化業(yè)務(wù)發(fā)展的需求,福建省逐步開展集約化業(yè)務(wù)資源池建設(shè),構(gòu)建可靠、彈性、安全的基礎(chǔ)架構(gòu)平臺,統(tǒng)一管理,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)向業(yè)務(wù)資源池遷移,對省級核心業(yè)務(wù)系統(tǒng)和市縣級預(yù)報(bào)綜合業(yè)務(wù)平臺的數(shù)據(jù)支撐。
根據(jù)福建省氣象業(yè)務(wù)需求,實(shí)時氣象業(yè)務(wù)系統(tǒng)主要以數(shù)據(jù)密集型為主,因此業(yè)務(wù)資源池選用在內(nèi)存、存儲和網(wǎng)絡(luò)方面具有良好擴(kuò)展性的X86架構(gòu)服務(wù)器和具有高性能、低延時的FC SAN。同時,為了滿足文件共享和數(shù)據(jù)備份存儲等非結(jié)構(gòu)化數(shù)據(jù)存儲的需求,選用具有很好橫向擴(kuò)展能力的NAS存儲,作為分布式海量數(shù)據(jù)存儲。數(shù)據(jù)網(wǎng)絡(luò)采用核心層和接入層的2層扁平化網(wǎng)絡(luò)架構(gòu),提高網(wǎng)絡(luò)對服務(wù)器流量的支撐,簡化網(wǎng)絡(luò)拓?fù)?,減少網(wǎng)絡(luò)的故障收斂時間。物理服務(wù)器上安裝虛擬化軟件通過光纖交換機(jī)共享磁盤陣列搭建硬件環(huán)境,再通過集群軟件和虛擬化軟件,實(shí)現(xiàn)資源虛擬化[3-4]。根據(jù)不同業(yè)務(wù)應(yīng)用場景,搭配出性能滿足業(yè)務(wù)需求的運(yùn)行環(huán)境,實(shí)現(xiàn)資源共享復(fù)用,并可在線按需動態(tài)擴(kuò)充,彈性分配資源,為應(yīng)用系統(tǒng)提供業(yè)務(wù)和存儲資源服務(wù)。省級氣象業(yè)務(wù)資源池拓?fù)淙鐖D1所示。
到2020年年底,省級已建設(shè)資源池主機(jī)的CPU核數(shù)大于3 000,F(xiàn)CSAN存儲容量大于400 TB,分布式存儲NAS容量大于2 PB。對于業(yè)務(wù)密集型和I/O密集型的數(shù)據(jù)處理及實(shí)時中小型數(shù)據(jù)庫等,存儲和內(nèi)存配置相對較高;對于網(wǎng)絡(luò)I/O密集型的WEB服務(wù)器、通信服務(wù)器等,網(wǎng)絡(luò)和內(nèi)存配置相對較高。根據(jù)業(yè)務(wù)需求和負(fù)載情況分配相應(yīng)資源,搭配出性能和可靠性滿足需求的虛機(jī)約200臺,存儲系統(tǒng)配置SSD固態(tài)硬盤,大大提高系統(tǒng)的I/O訪問效率。
虛擬化資源池主要由X86服務(wù)器、磁盤陣列及分布式存儲構(gòu)成,是指將物理服務(wù)器資源(CPU、內(nèi)存、磁盤、I/O等硬件)抽象成邏輯資源,封裝成相互隔離、可調(diào)度、可度量的邏輯資源實(shí)體單元,讓一臺物理服務(wù)器變成多臺虛擬服務(wù)器(Virtual Machine,VM),實(shí)現(xiàn)資源的熱添加、業(yè)務(wù)級高可用性、容錯保護(hù)機(jī)制、計(jì)算資源的超額分配、動態(tài)資源管理等功能。從而實(shí)現(xiàn)硬件資源的池化,構(gòu)建資源池,提高資源的利用率,簡化系統(tǒng)管理,實(shí)現(xiàn)服務(wù)器整合。主要產(chǎn)品有VmWare-ESXi、Hyper-V、KVM等,目前業(yè)界主流技術(shù)、在生產(chǎn)環(huán)境中大規(guī)模應(yīng)用的虛擬化環(huán)境采用基于OpenStack架構(gòu)(底層虛擬化核心采用KVM,并兼容適配ESXI、XEN等眾多虛擬化技術(shù))的整套虛擬化軟件進(jìn)行搭建[4]。
圖1 省級氣象業(yè)務(wù)資源池拓?fù)?/p>
隨著資源池的建設(shè),集群內(nèi)主機(jī)、虛機(jī)的業(yè)務(wù)和存儲資源逐步增加,通過Web方式實(shí)時將主機(jī)、虛機(jī)和存儲的運(yùn)行情況以圖表的形式集中展示,便于用戶和管理員及時了解和掌握資源池的系統(tǒng)性能、運(yùn)行狀況和告警信息,合理分配業(yè)務(wù)和存儲資源,彈性調(diào)整或增加系統(tǒng)資源提供科學(xué)依據(jù)。
資源池實(shí)時監(jiān)測信息采集的數(shù)據(jù)包括系統(tǒng)配置信息、性能和告警信息等。通過資源池?cái)?shù)據(jù)庫或SNMP獲取主機(jī)和虛機(jī)CPU及內(nèi)存使用率;數(shù)據(jù)庫軟件表空間使用率;存儲設(shè)備容量使用率及磁盤I/O速率;網(wǎng)絡(luò)設(shè)備告警信息等。資源池監(jiān)測信息采集如圖2所示。
圖2 資源池監(jiān)測信息采集示意
資源池的數(shù)據(jù)庫主要采集的數(shù)據(jù)表及數(shù)據(jù)視圖,涉及的主要表項(xiàng):
數(shù)據(jù)表:Vpx_AlarmRuntime,采集系統(tǒng)運(yùn)行告警信息;
數(shù)據(jù)視圖:Vpxv_Alarms,采集系統(tǒng)運(yùn)行告警信息;Vpxv_DataStore,存儲信息;Vpxv_Entity,實(shí)體定義信息;Vpxv_Hosts,實(shí)體機(jī)信息;Vpxv_Vms,虛擬機(jī)信息;
Vpxv_StatusTransport,采集表VPXV_HIST_STAT_DAILY并轉(zhuǎn)換后存儲于本地?cái)?shù)據(jù)庫,主要是實(shí)體機(jī)CPU、內(nèi)存、網(wǎng)絡(luò)、硬盤、歷史信息等。
通過SNMP獲?。悍植际酱鎯AS的給定MIB庫采集以及相關(guān)網(wǎng)絡(luò)節(jié)點(diǎn)信息。
收集資源池的各類性能數(shù)據(jù),展示資源池中物理主機(jī)和虛機(jī)數(shù)目、開關(guān)機(jī)狀態(tài);對資源使用情況進(jìn)行統(tǒng)計(jì)、分析,包括主機(jī)、虛機(jī)、網(wǎng)絡(luò)資源等信息,依據(jù)CPU、內(nèi)存等資源利用率對虛機(jī)的運(yùn)行狀況進(jìn)行排名,快速發(fā)現(xiàn)資源占用最多的主機(jī)、虛機(jī),幫助系統(tǒng)管理員了解資源使用情況,為合理分配、業(yè)務(wù)擴(kuò)容、調(diào)整優(yōu)化資源提供量化數(shù)據(jù)支持。
2.2.1 物理主機(jī)性能監(jiān)控
在虛擬化環(huán)境中,多臺虛機(jī)共享同一臺物理主機(jī)資源,物理主機(jī)故障會影響在該主機(jī)上運(yùn)行的所有虛擬機(jī)。通過儀表盤形式展示物理主機(jī)的CPU、內(nèi)存、網(wǎng)絡(luò)、存儲等資源的容量及其利用率等指標(biāo),并提供詳細(xì)報(bào)表,管理員可利用監(jiān)控?cái)?shù)據(jù),彈性調(diào)整物理主機(jī)的負(fù)載,讓物理主機(jī)的資源負(fù)載均衡,同時檢測主機(jī)的資源可用性,提前防范資源使用風(fēng)險(xiǎn)。
2.2.2 虛擬機(jī)性能監(jiān)控
對虛機(jī)的CPU、內(nèi)存、網(wǎng)絡(luò)、磁盤I/O、IOPS、I/O延時和分區(qū)利用率等多項(xiàng)關(guān)鍵指標(biāo)的監(jiān)控,通過持續(xù)監(jiān)控虛機(jī)負(fù)載,發(fā)現(xiàn)資源利用率較低的虛擬機(jī)以及資源利用率持續(xù)較高的虛擬機(jī),彈性調(diào)整分配虛機(jī)資源,保障應(yīng)用系統(tǒng)的流暢運(yùn)行,提高資源利用率。資源池虛機(jī)使用情況,如圖3所示。
圖3 虛機(jī)資源使用情況
以業(yè)務(wù)資源、網(wǎng)絡(luò)資源、存儲資源為中心,展示虛擬化后的資源池拓?fù)浣Y(jié)構(gòu),多層次展示物理主機(jī)、存儲、虛擬交換機(jī)、虛擬機(jī)之間的內(nèi)部邏輯關(guān)系,實(shí)現(xiàn)資源在虛擬化環(huán)境下的可視化管理。各類資源的性能數(shù)據(jù)及告警信息直觀地在拓?fù)湔故?,包括物理主機(jī)、虛擬機(jī)的主機(jī)信息、運(yùn)行狀態(tài)、資源使用情況,告警等信息,幫助管理員快速了解資源池拓?fù)浼案婢闆r[5]。
資源池告警信息主要有:總體運(yùn)行狀況、集群資源利用率、主機(jī)資源利用率、虛擬機(jī)資源利用率、網(wǎng)絡(luò)連通性、存儲連通性告警等。系統(tǒng)管理員通過對各類告警信息的統(tǒng)計(jì)、分析,發(fā)現(xiàn)系統(tǒng)運(yùn)行存在的風(fēng)險(xiǎn),及時進(jìn)行故障處理,保障資源池各應(yīng)用系統(tǒng)的安全、可靠運(yùn)行[6]。
通過省級集約化業(yè)務(wù)資源池建設(shè),構(gòu)建集約共享、彈性動態(tài)、高效可靠的氣象業(yè)務(wù)。通過統(tǒng)一管理平臺,實(shí)時了解和掌握資源池運(yùn)行狀態(tài)和應(yīng)用趨勢,提高了系統(tǒng)維護(hù)效率;按需進(jìn)行資源動態(tài)調(diào)配和彈性伸縮,有效解決通用業(yè)務(wù)類服務(wù)器資源占用率不高、單機(jī)運(yùn)行利用率較低的問題;有效提升服務(wù)器的資源使用率,實(shí)現(xiàn)IT資源利用效率最大化,降低數(shù)據(jù)中心的總體擁有成本;實(shí)現(xiàn)應(yīng)用業(yè)務(wù)系統(tǒng)的快速部署,業(yè)務(wù)系統(tǒng)的平均維護(hù)時間大幅下降,降低運(yùn)行維護(hù)成本;通過資源池內(nèi)部高可用性保障了業(yè)務(wù)應(yīng)用的連續(xù)性,提高了系統(tǒng)的可用率;為我省氣象防災(zāi)減災(zāi)業(yè)務(wù)系統(tǒng)提供更優(yōu)質(zhì)的集約化業(yè)務(wù)資源服務(wù),進(jìn)一步推進(jìn)福建省氣象部門的信息化建設(shè)。