韓同欣 何文春 吳鵬 李江濤
(國家氣象信息中心, 北京 100081)
自云計(jì)算、大數(shù)據(jù)技術(shù)逐步成熟以來,眾多行業(yè)領(lǐng)域采用虛擬化、分布式等技術(shù)構(gòu)建適用于本行業(yè)的基礎(chǔ)設(shè)施云平臺(tái),提供從基礎(chǔ)設(shè)施資源服務(wù)到數(shù)據(jù)環(huán)境、中間件服務(wù)的多樣化、服務(wù)化云資源,具備通用云計(jì)算平臺(tái)的IaaS、PaaS、SaaS 3層特征[1],且針對(duì)行業(yè)特點(diǎn)深度定制、兼有行業(yè)云垂直領(lǐng)域集成的功能[2]。原國土資源部集成、整合已有基礎(chǔ)設(shè)施、數(shù)據(jù)、管理、應(yīng)用等信息化資源,形成“國土資源云”[3]。地震行業(yè)各級(jí)單位為滿足業(yè)務(wù)發(fā)展需要,建設(shè)了私有云資源池[4]。浙江省農(nóng)業(yè)部門構(gòu)建智慧農(nóng)業(yè)云平臺(tái)實(shí)現(xiàn)全省涉農(nóng)業(yè)務(wù)數(shù)據(jù)的采集、管控、決策和服務(wù)[5]。水文行業(yè)基于云計(jì)算與大數(shù)據(jù)技術(shù)構(gòu)建混合云架構(gòu)的數(shù)據(jù)中心[6]。國家電網(wǎng)公司建設(shè)的電力云資源池提出了資源池的六層物理模型[7]。
通過對(duì)已有研究分析可知:目前行業(yè)云的IaaS層資源服務(wù)已成熟應(yīng)用,面向行業(yè)應(yīng)用直接提供虛擬主機(jī)、共享存儲(chǔ)資源;PaaS層的建設(shè)及應(yīng)用正在逐步開展,主要體現(xiàn)在基于分布式技術(shù)對(duì)數(shù)據(jù)資源的整合、集中共享服務(wù);SaaS層的建設(shè)及研究較少[8]。
國家級(jí)氣象部門自2012年開始探索硬件平臺(tái)集約建設(shè)技術(shù),開始應(yīng)用虛擬化技術(shù)構(gòu)建私有云平臺(tái)[9],引導(dǎo)各業(yè)務(wù)單位逐步采用虛擬機(jī)作為應(yīng)用主機(jī),降低對(duì)物理機(jī)數(shù)量的需求,提升物理機(jī)資源利用率,逐步實(shí)現(xiàn)硬件設(shè)備的集約管理[10]。經(jīng)過多年不斷建設(shè),目前虛擬化資源池的規(guī)模、功能基本完備,虛擬機(jī)數(shù)量超過千臺(tái),正在根據(jù)業(yè)務(wù)發(fā)展需要,不斷擴(kuò)充計(jì)算、存儲(chǔ)資源,逐步形成涵蓋IaaS層和PaaS層服務(wù)的氣象基礎(chǔ)設(shè)施云平臺(tái)。省級(jí)氣象部門也逐步建立起以虛擬化技術(shù)為主的云平臺(tái)[11-13]。
本文給出國家級(jí)氣象基礎(chǔ)設(shè)施云平臺(tái)建設(shè)初期的資源現(xiàn)狀、需求分析,以及建設(shè)過程中對(duì)資源構(gòu)成、功能層次、拓?fù)浣Y(jié)構(gòu)等方面的關(guān)鍵設(shè)計(jì),以及技術(shù)特點(diǎn)、應(yīng)用效果,為相關(guān)部門及相關(guān)工作提供借鑒和參考。
氣象基礎(chǔ)設(shè)施云平臺(tái)在建設(shè)初期以實(shí)現(xiàn)硬件資源集約為主要目標(biāo)。經(jīng)過2012—2016年的集約建設(shè),國家級(jí)氣象部門已基本實(shí)現(xiàn)硬件集約,通過集約化的虛擬化資源池支撐氣象業(yè)務(wù)、科研、政務(wù)及服務(wù)等眾多應(yīng)用系統(tǒng)。
目前,業(yè)務(wù)網(wǎng)區(qū)、互聯(lián)網(wǎng)區(qū)的虛擬化宿主機(jī)共109臺(tái),虛擬機(jī)存儲(chǔ)空間近600 TB,采用了華為HCS6.5系統(tǒng)分別構(gòu)建了業(yè)務(wù)網(wǎng)(內(nèi)網(wǎng))、互聯(lián)網(wǎng)兩個(gè)虛擬化資源池。虛擬化資源池已經(jīng)為國家級(jí)氣象業(yè)務(wù)部門提供了1224臺(tái)不同配置規(guī)格的虛擬主機(jī),平均單臺(tái)宿主機(jī)與虛擬機(jī)的比例為1∶12,宿主機(jī)CPU資源利用率超過60%,存儲(chǔ)空間利用率接近93%,通過虛擬化技術(shù)使得硬件集約支撐效果顯著。
在實(shí)現(xiàn)業(yè)務(wù)應(yīng)用主機(jī)集約入虛擬化資源池的基礎(chǔ)上,繼續(xù)推進(jìn)氣象數(shù)據(jù)環(huán)境、加工處理算法的整合集約。在推進(jìn)過程中全流程的氣象大數(shù)據(jù)業(yè)務(wù)(數(shù)據(jù)交換、解碼入庫、存儲(chǔ)管理、加工處理、接口服務(wù)等)對(duì)IT支撐資源的類型提出新的技術(shù)需求,單純的虛擬化資源已無法支撐滿足氣象大數(shù)據(jù)業(yè)務(wù),亟需分布式的物理算力資源、海量的數(shù)據(jù)存儲(chǔ)資源、服務(wù)化的基礎(chǔ)軟件資源:
物理算力資源需求:氣象數(shù)據(jù)交換業(yè)務(wù)屬于高IO、高負(fù)載業(yè)務(wù),需要集群化的物理節(jié)點(diǎn)支撐運(yùn)行。各類氣象加工處理算法的管理、調(diào)度、流水線運(yùn)行需要多種異構(gòu)的計(jì)算框架引擎(Spark、Storm等)。氣象數(shù)據(jù)的挖掘分析、氣象數(shù)據(jù)的可視化渲染需要采用GPU計(jì)算環(huán)境[14]。以上應(yīng)用場景,均需要CPU、內(nèi)存配置相對(duì)較高的物理服務(wù)器支撐,且部分物理服務(wù)器需要配置GPU圖形顯卡、閃存加速卡。
數(shù)據(jù)存儲(chǔ)資源需求:氣象部門已積累海量數(shù)據(jù)資源,氣象數(shù)據(jù)持續(xù)爆炸式增長,日增量40 TB,到2022年數(shù)據(jù)資源的總體規(guī)模將達(dá)到200 PB[15]。氣象大數(shù)據(jù)云平臺(tái)采用了在線、近線、離線的分級(jí)存儲(chǔ)體系實(shí)現(xiàn)對(duì)實(shí)時(shí)、歷史數(shù)據(jù)的存儲(chǔ),因此,需要配置海量的文件/對(duì)象存儲(chǔ)資源。同時(shí),為了數(shù)據(jù)的安全,所有業(yè)務(wù)數(shù)據(jù)需要?dú)w檔,需配置海量的歸檔存儲(chǔ)資源。
基礎(chǔ)軟件資源需求:氣象應(yīng)用的開發(fā)、測試、部署運(yùn)行需要一站式的平臺(tái)環(huán)境,按需獲取需要的操作系統(tǒng)、中間件(數(shù)據(jù)庫)環(huán)境,并靈活調(diào)度運(yùn)行。
一般云平臺(tái)的架構(gòu)均為IaaS、PaaS、SaaS 3層架構(gòu),但在構(gòu)建服務(wù)化、云化的資源方面有所不同:傳統(tǒng)IT廠商提供的云平臺(tái)解決方案主要基于虛擬化技術(shù)實(shí)現(xiàn),為眾多應(yīng)用提供多租戶隔離的虛擬主機(jī)資源?;ヂ?lián)網(wǎng)IT服務(wù)商側(cè)重于構(gòu)建數(shù)據(jù)存儲(chǔ)、分析服務(wù),提供的云資源除去虛擬主機(jī)外,還提供云數(shù)據(jù)庫、云存儲(chǔ)、數(shù)據(jù)倉庫等資源服務(wù)。
考慮氣象數(shù)據(jù)安全方面的管理規(guī)定,以及氣象應(yīng)用與數(shù)據(jù)交互頻繁的特點(diǎn),氣象基礎(chǔ)設(shè)施云平臺(tái)采用私有云部署模式,下一步將逐步納管部分對(duì)外服務(wù)系統(tǒng)所使用的公有云資源。本文重點(diǎn)介紹私有云模式下氣象基礎(chǔ)設(shè)施云平臺(tái)的資源構(gòu)成。根據(jù)全流程氣象數(shù)據(jù)業(yè)務(wù)負(fù)載高、需要專用物理服務(wù)器及海量存儲(chǔ)資源的特點(diǎn),以及天氣、氣候等眾多氣象應(yīng)用系統(tǒng)需要彈性云主機(jī)、基礎(chǔ)軟件服務(wù)的需求特點(diǎn),參考互聯(lián)網(wǎng)IT服務(wù)商的云資源服務(wù)內(nèi)容,氣象基礎(chǔ)設(shè)施云平臺(tái)設(shè)計(jì)的云資源包括物理算力資源、虛擬主機(jī)資源、數(shù)據(jù)存儲(chǔ)資源、基礎(chǔ)軟件資源,各類資源的構(gòu)成、實(shí)現(xiàn)方式及特點(diǎn)如下:
(1)物理算力資源是由通用計(jì)算型服務(wù)器(不同的配置規(guī)格)、GPU服務(wù)器等物理服務(wù)器設(shè)備在內(nèi)部互聯(lián)交換機(jī)(網(wǎng)絡(luò)交換機(jī)、IB交換機(jī)等)的連接下,通過分布式系統(tǒng)軟件(如Spark、Storm)或應(yīng)用軟件(如氣象產(chǎn)品加工流水線)構(gòu)建形成。形成的物理算力集群支撐普通計(jì)算、分布式計(jì)算、AI訓(xùn)練推理等多種計(jì)算框架。與互聯(lián)網(wǎng)云平臺(tái)基于分布式系統(tǒng)軟件構(gòu)建算力集群的實(shí)現(xiàn)方式相比,氣象基礎(chǔ)設(shè)施云平臺(tái)的部分物理服務(wù)器不作云化,通過應(yīng)用軟件構(gòu)建算力集群支撐某一類業(yè)務(wù)。
近幾年,氣象業(yè)務(wù)應(yīng)用對(duì)物理算力資源的需求最多。隨著氣象數(shù)據(jù)業(yè)務(wù)的快速發(fā)展,海量數(shù)據(jù)快速匯聚和加工、長序列數(shù)據(jù)在線分析、多源數(shù)據(jù)綜合應(yīng)用、基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)而發(fā)展的智能預(yù)報(bào)和服務(wù)算法等都需要規(guī)?;⒓夯奈锢硭懔?jié)點(diǎn)構(gòu)建大數(shù)據(jù)支撐環(huán)境。因此,云平臺(tái)配置的物理算力資源能力(折算成TFLOPS計(jì)量)占云平臺(tái)整體算力的65%。
(2)虛擬主機(jī)資源由物理服務(wù)器、虛擬化軟件及虛擬化管理系統(tǒng)構(gòu)建形成。按需創(chuàng)建、分配虛擬主機(jī),支撐各類氣象應(yīng)用端的部署。與一般虛擬化平臺(tái)單純采用塊存儲(chǔ)作為虛擬化資源池的存儲(chǔ)空間相比,氣象基礎(chǔ)設(shè)施云平臺(tái)的虛擬化資源池采用塊存儲(chǔ)作為虛機(jī)實(shí)例、虛機(jī)系統(tǒng)盤空間,采用文件存儲(chǔ)作為虛機(jī)數(shù)據(jù)盤空間,實(shí)現(xiàn)虛機(jī)系統(tǒng)存儲(chǔ)空間與用戶數(shù)據(jù)空間的分離,提升虛擬化資源池的用戶數(shù)據(jù)可靠性。
虛擬主機(jī)資源用于支撐各類氣象應(yīng)用端系統(tǒng),支撐虛擬主機(jī)的物理服務(wù)器算力約占云平臺(tái)整體算力的35%。
(3)數(shù)據(jù)存儲(chǔ)資源是由存儲(chǔ)型服務(wù)器(配置不同規(guī)格、不同數(shù)量的SSD、SAS、SATA硬盤)、分布式NAS存儲(chǔ)設(shè)備、分布式對(duì)象存儲(chǔ)設(shè)備、磁盤陣列、磁帶庫/磁帶等存儲(chǔ)設(shè)備、介質(zhì),在互聯(lián)設(shè)備,以及分布式文件/對(duì)象系統(tǒng)、數(shù)據(jù)庫軟件等系統(tǒng)軟件的作用下形成全局統(tǒng)一命名空間。與一般的云平臺(tái)、大數(shù)據(jù)平臺(tái)相比,氣象基礎(chǔ)設(shè)施云平臺(tái)通過自研的數(shù)據(jù)服務(wù)接口實(shí)現(xiàn)了實(shí)時(shí)數(shù)據(jù)庫、分析型數(shù)據(jù)庫、在線文件/對(duì)象存儲(chǔ)、近線磁帶庫存儲(chǔ)的分級(jí)存儲(chǔ)功能。數(shù)據(jù)存儲(chǔ)資源的規(guī)模將逐步達(dá)到100 PB,云平臺(tái)中數(shù)據(jù)存儲(chǔ)支撐設(shè)備量最多。
(4)基礎(chǔ)軟件資源:涉及到服務(wù)于用戶層面的基礎(chǔ)軟件主要包括云數(shù)據(jù)庫、機(jī)器學(xué)習(xí)支撐軟件、負(fù)載均衡、消息緩存等中間件。通過PaaS平臺(tái)技術(shù)實(shí)現(xiàn)基礎(chǔ)軟件的云化服務(wù)。
隨著信息技術(shù)的發(fā)展,會(huì)有更多新型計(jì)算、存儲(chǔ)設(shè)備,以及系統(tǒng)軟件被采納、應(yīng)用于基礎(chǔ)設(shè)施云平臺(tái),轉(zhuǎn)化為算力、存儲(chǔ)空間、基礎(chǔ)軟件等資源,支撐、服務(wù)氣象應(yīng)用。
氣象基礎(chǔ)設(shè)施云平臺(tái)的云資源設(shè)計(jì)包括虛擬化、分布式物理節(jié)點(diǎn)、數(shù)據(jù)存儲(chǔ)3類基礎(chǔ)設(shè)施資源,在實(shí)現(xiàn)資源統(tǒng)一管理、提供基礎(chǔ)資源服務(wù)之上,提供分布式計(jì)算環(huán)境、數(shù)據(jù)支撐環(huán)境,以及中間件基礎(chǔ)軟件服務(wù)。同時(shí),租用公共云資源,高效支撐數(shù)據(jù)匯聚、加工處理、存儲(chǔ)服務(wù)、智能預(yù)報(bào)、服務(wù)眾創(chuàng)的氣象大數(shù)據(jù)全流程業(yè)務(wù)。從云資源實(shí)現(xiàn)的功能角度,設(shè)計(jì)的云平臺(tái)層次結(jié)構(gòu)如圖1。
圖1 氣象基礎(chǔ)設(shè)施云平臺(tái)功能層次結(jié)構(gòu)
該層次結(jié)構(gòu)自下而上依次分為硬件設(shè)備層、基礎(chǔ)設(shè)施資源層、基礎(chǔ)軟件資源層、資源管理服務(wù)接口4個(gè)層次。氣象基礎(chǔ)設(shè)施云平臺(tái)與一般云平臺(tái)的層次結(jié)構(gòu)類似,但在基礎(chǔ)設(shè)施資源層的資源構(gòu)成上結(jié)合了氣象業(yè)務(wù)特點(diǎn),創(chuàng)新性提出建設(shè)虛擬化池、分布式物理池、數(shù)據(jù)存儲(chǔ)池、以及池管理服務(wù)接口。
(1)硬件設(shè)備層。云平臺(tái)的支撐硬件包括物理服務(wù)器、分布式NAS設(shè)備、磁帶庫,以及網(wǎng)絡(luò)設(shè)備。虛擬化池、分布式物理池的硬件設(shè)備均為物理服務(wù)器,根據(jù)服務(wù)器的功能用途(管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、計(jì)算存儲(chǔ)節(jié)點(diǎn))配置不同性能的計(jì)算型服務(wù)器(均配置SSD固態(tài)盤提升服務(wù)器性能,部分服務(wù)器配置顯卡等加速卡)、計(jì)算存儲(chǔ)型服務(wù)器,通過軟件定義方式(虛擬化軟件、容器引擎、分布式塊存儲(chǔ)軟件、分布式文件系統(tǒng))構(gòu)建計(jì)算集群。數(shù)據(jù)存儲(chǔ)池主要硬件設(shè)備由分布式NAS設(shè)備、對(duì)象存儲(chǔ)設(shè)備、物理服務(wù)器構(gòu)成,同時(shí)面向數(shù)據(jù)歸檔提供磁帶存儲(chǔ)設(shè)備。
(2)基礎(chǔ)設(shè)施資源層。通過虛擬化、分布式技術(shù)將硬件設(shè)備池化,構(gòu)建虛擬機(jī)、容器、物理節(jié)點(diǎn)等不同資源形態(tài)的計(jì)算、存儲(chǔ)集群,實(shí)現(xiàn)資源的邏輯抽象、封裝、調(diào)度、計(jì)量,進(jìn)而構(gòu)建云資源。主要的云資源類型包括:物理算力資源、虛擬主機(jī)資源、數(shù)據(jù)存儲(chǔ)資源、基礎(chǔ)軟件資源,以及公共云資源。
(3)基礎(chǔ)軟件資源。在云資源之上部署基礎(chǔ)軟件,將資源服務(wù)化、能力化,提供分布式計(jì)算環(huán)境、數(shù)據(jù)存儲(chǔ)支撐環(huán)境、中間件等軟件資源服務(wù)。計(jì)算環(huán)境主要提供普通計(jì)算、流計(jì)算、并行計(jì)算、分布式計(jì)算等計(jì)算環(huán)境,以及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)環(huán)境。數(shù)據(jù)存儲(chǔ)支撐環(huán)境主要是各類數(shù)據(jù)庫集群、文件/對(duì)象存儲(chǔ)環(huán)境,及備份歸檔環(huán)境。中間件服務(wù)包括消息、緩存等軟件資源和服務(wù)。根據(jù)大數(shù)據(jù)服務(wù)眾創(chuàng)等應(yīng)用的需求,按需租用公共云的緩存服務(wù)、消息服務(wù)、文件/對(duì)象存儲(chǔ)服務(wù)、云數(shù)據(jù)庫服務(wù)、分布式計(jì)算服務(wù),以及數(shù)據(jù)挖掘分析服務(wù)。
(4)資源管理服務(wù)接口。不同類型的云資源(虛擬機(jī)、容器、分布式物理節(jié)點(diǎn)、分布式NAS/對(duì)象存設(shè)備等)需要實(shí)現(xiàn)資源管理整體視圖。同一類型的云資源存在不同的技術(shù)實(shí)現(xiàn)/技術(shù)架構(gòu),需要對(duì)異構(gòu)的同類別資源實(shí)現(xiàn)統(tǒng)一的資源生命周期管理流程(如虛擬化資源可通過Vmware ESXi、Hyper-V、XEN、KVM等不同的技術(shù)產(chǎn)品實(shí)現(xiàn))。因此,需要部署資源管理軟件并提供資源接口,實(shí)現(xiàn)資源的統(tǒng)一管理、調(diào)度以及資源監(jiān)控。
以上從業(yè)務(wù)需求角度設(shè)計(jì)規(guī)劃氣象基礎(chǔ)設(shè)施云平臺(tái)的資源構(gòu)成、功能層次。作為數(shù)據(jù)中心基礎(chǔ)的支撐平臺(tái),需要考慮網(wǎng)絡(luò)分區(qū)、業(yè)務(wù)級(jí)別等因素對(duì)基礎(chǔ)設(shè)施資源進(jìn)行合理分區(qū),確定每個(gè)分區(qū)的邊界、資源構(gòu)成。
基礎(chǔ)設(shè)施資源的分區(qū)沒有標(biāo)準(zhǔn)化參考,資源池規(guī)劃應(yīng)既能夠滿足各業(yè)務(wù)對(duì)IT資源的需求,又能夠合理控制資源池建設(shè)投資,提高資源利用水平[16]。綜合考慮網(wǎng)絡(luò)區(qū)域m、等保區(qū)域n、業(yè)務(wù)級(jí)別b(業(yè)務(wù)/準(zhǔn)業(yè)務(wù)、中試仿真、科研開發(fā)等)、備份級(jí)別q(同城、異地)、資源池類型c(虛擬主機(jī)、物理算力、數(shù)據(jù)存儲(chǔ)等資源)、業(yè)務(wù)應(yīng)用特殊要求d等因素,一個(gè)數(shù)據(jù)中心完備的資源分區(qū)p的數(shù)量:p=mnbqcd.若考慮以上諸多因素,數(shù)據(jù)中心的資源分區(qū)增多,在實(shí)際建設(shè)中不現(xiàn)實(shí)。因此,應(yīng)選取與實(shí)際建設(shè)情況貼近的因素設(shè)計(jì)數(shù)據(jù)中心基礎(chǔ)設(shè)施資源的分區(qū)。
與一般云平臺(tái)僅考慮網(wǎng)絡(luò)區(qū)域劃分云資源分區(qū)的方式不同,在氣象基礎(chǔ)設(shè)施云平臺(tái)的設(shè)計(jì)、建設(shè)中,選取網(wǎng)絡(luò)區(qū)域、業(yè)務(wù)級(jí)別、支撐對(duì)象等3個(gè)主要因素劃分、界定資源分區(qū),通過資源監(jiān)控系統(tǒng)實(shí)現(xiàn)資源的統(tǒng)一呈現(xiàn)。綜上考慮,結(jié)合支撐的業(yè)務(wù)應(yīng)用情況,設(shè)計(jì)氣象基礎(chǔ)設(shè)施云平臺(tái)的資源分區(qū)如表1。
表1 氣象基礎(chǔ)設(shè)施云平臺(tái)的資源分區(qū)
不同網(wǎng)絡(luò)區(qū)域的資源邊界、訪問規(guī)則遵循中國氣象局網(wǎng)絡(luò)安全總體設(shè)計(jì)規(guī)范要求,同一網(wǎng)絡(luò)區(qū)域、不同業(yè)務(wù)級(jí)別的資源邏輯隔離,必要時(shí)仿真、科研資源可用于支撐業(yè)務(wù)。
一般云平臺(tái)主要采用3層網(wǎng)絡(luò)架構(gòu)(核心、匯聚、接入),獨(dú)立組網(wǎng)。氣象基礎(chǔ)設(shè)施云平臺(tái)采用扁平化網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合網(wǎng)絡(luò)虛擬化功能、動(dòng)態(tài)路由協(xié)議和多鏈路捆綁,實(shí)現(xiàn)多節(jié)點(diǎn)多鏈路連接訪問,便于資源的橫向擴(kuò)展。服務(wù)器設(shè)備直接上連數(shù)據(jù)中心匯聚交換機(jī),由通用物理服務(wù)器通過軟件定義方式構(gòu)造分布式計(jì)算環(huán)境和分布式存儲(chǔ)環(huán)境。根據(jù)應(yīng)用系統(tǒng)的需求,不同配置的服務(wù)器搭配出管理、計(jì)算、存儲(chǔ)、應(yīng)用等多種角色的節(jié)點(diǎn),滿足不同業(yè)務(wù)場景的資源架構(gòu)需求。以“業(yè)務(wù)-內(nèi)網(wǎng)業(yè)務(wù)區(qū)”支撐資源為例(其他分區(qū)類同),圖2給出支撐業(yè)務(wù)系統(tǒng)的云平臺(tái)在該網(wǎng)絡(luò)分區(qū)下不同資源專區(qū)(子分區(qū))的邏輯拓?fù)浼軜?gòu):
圖2 氣象基礎(chǔ)設(shè)施云平臺(tái)邏輯拓?fù)?/p>
虛擬化資源分區(qū)的支撐硬件主要包括物理服務(wù)器、萬兆網(wǎng)絡(luò)交換機(jī)。計(jì)算存儲(chǔ)型物理服務(wù)器通過萬兆網(wǎng)絡(luò)交換機(jī)內(nèi)部互聯(lián),部署虛擬化軟件、分布式塊存儲(chǔ)軟件(形成池化的系統(tǒng)存儲(chǔ)空間)、容器引擎構(gòu)建集群化的虛擬化、容器環(huán)境;計(jì)算型物理服務(wù)器部署中間件軟件。虛擬化資源池為各類氣象應(yīng)用提供虛擬主機(jī)資源服務(wù)。
數(shù)據(jù)交換業(yè)務(wù)、解碼入庫資源分區(qū)的支撐硬件主要包括物理服務(wù)器、SAN交換機(jī)、磁盤陣列。物理服務(wù)器部署CFS集群文件系統(tǒng),通過SAN交換機(jī)連接、共享使用盤陣空間。在物理服務(wù)器集群部署解碼入庫、交換服務(wù)等應(yīng)用組件及支撐軟件,支撐數(shù)據(jù)交換及質(zhì)控系統(tǒng)的部署、運(yùn)行。
數(shù)據(jù)存儲(chǔ)與服務(wù)資源分區(qū)的支撐硬件主要包括物理服務(wù)器、分布式NAS存儲(chǔ)、SAN交換機(jī)、磁帶庫、萬兆網(wǎng)絡(luò)交換機(jī)。不同配置規(guī)格的物理服務(wù)器由萬兆網(wǎng)絡(luò)交換機(jī)內(nèi)部互聯(lián),通過部署數(shù)據(jù)庫軟件形成分布式關(guān)系型數(shù)據(jù)庫、分布式表格系統(tǒng)、分布式分析型數(shù)據(jù)庫集群。分布式NAS存儲(chǔ)通過自帶的分布式文件系統(tǒng)、存儲(chǔ)管理軟件實(shí)現(xiàn)多接口/訪問協(xié)議的文件存儲(chǔ)服務(wù);存儲(chǔ)型物理服務(wù)器通過部署對(duì)象存儲(chǔ)軟件實(shí)現(xiàn)對(duì)象存儲(chǔ)服務(wù)的構(gòu)建。配置備份及歸檔服務(wù)器,部署備份及歸檔軟件,備份及歸檔緩存存儲(chǔ)使用分布式NAS存儲(chǔ)提供的文件存儲(chǔ)空間,歸檔存儲(chǔ)由磁帶庫、磁帶提供磁帶存儲(chǔ)空間。通過氣象大數(shù)據(jù)云平臺(tái)的數(shù)據(jù)服務(wù)接口實(shí)現(xiàn)對(duì)外透明的實(shí)時(shí)、歷史氣象數(shù)據(jù)全集“在線服務(wù)”。
產(chǎn)品加工、挖掘分析資源分區(qū)的支撐硬件主要由物理服務(wù)器構(gòu)成,采用CPU+GPU的混合算力,通過部署并行/分布式計(jì)算軟件、容器軟件,以及普通計(jì)算軟件,形成不同的計(jì)算框架環(huán)境,支撐算法庫、產(chǎn)品加工流水線。
業(yè)務(wù)監(jiān)控資源分區(qū)的支撐硬件主要是計(jì)算型服務(wù)器(部署監(jiān)控應(yīng)用)、計(jì)算存儲(chǔ)型服務(wù)器(部署監(jiān)控日志庫)。
經(jīng)過多年擴(kuò)充建設(shè),氣象基礎(chǔ)設(shè)施云平臺(tái)已成為氣象業(yè)務(wù)、科研、管理及服務(wù)等眾多應(yīng)用的部署、運(yùn)行的核心支撐平臺(tái),覆蓋了云計(jì)算三層模型(IaaS、PaaS、SaaS)的IaaS層、PaaS層范疇。平臺(tái)的特點(diǎn)如下:
(1)同時(shí)采用了“多聚一”的分布式技術(shù)和“一虛多”的虛擬化技術(shù),分別支撐具有大數(shù)據(jù)特點(diǎn)的數(shù)據(jù)業(yè)務(wù),以及各類氣象應(yīng)用端系統(tǒng)。通過定制化的資源管理服務(wù)接口實(shí)現(xiàn)不同類型云資源的統(tǒng)一管理、對(duì)外服務(wù)。
(2)支撐氣象大數(shù)據(jù)業(yè)務(wù)(數(shù)據(jù)交換、解碼入庫、存儲(chǔ)管理、加工處理、接口服務(wù)等)的物理算力資源及數(shù)據(jù)存儲(chǔ)資源進(jìn)行資源分區(qū),分區(qū)間資源不調(diào)度,分區(qū)內(nèi)資源專用于該基礎(chǔ)信息支撐業(yè)務(wù)。
(3)基于物理算力資源搭建了普通計(jì)算、分布式計(jì)算、AI計(jì)算等多種計(jì)算框架,適配支撐不同計(jì)算類型的氣象數(shù)據(jù)產(chǎn)品加工業(yè)務(wù)。
(4)采用分布式數(shù)據(jù)庫、分布式文件、分布式對(duì)象、磁帶庫等多種存儲(chǔ)技術(shù)支撐構(gòu)建氣象大數(shù)據(jù)分級(jí)存儲(chǔ)體系,實(shí)現(xiàn)海量數(shù)據(jù)長序列在線、高并發(fā)快速存取。
目前,氣象基礎(chǔ)設(shè)施云平臺(tái)的虛擬化資源池已經(jīng)為智能網(wǎng)格預(yù)報(bào)系統(tǒng)、強(qiáng)天氣預(yù)報(bào)業(yè)務(wù)系統(tǒng)、數(shù)值預(yù)報(bào)業(yè)務(wù)網(wǎng)站、CIPAS2.0系統(tǒng)、綜合氣象觀測一體化業(yè)務(wù)平臺(tái)等眾多應(yīng)用系統(tǒng)提供了1224臺(tái)虛擬主機(jī),整個(gè)虛擬化資源池資源利用率較高,集約化效果顯著。物理算力資源的浮點(diǎn)運(yùn)算能力已達(dá)683TFLOPS,為觀測、天氣、氣候、公共服務(wù)等業(yè)務(wù)應(yīng)用提供多種計(jì)算框架支撐環(huán)境(圖3),包括普通計(jì)算、內(nèi)存計(jì)算、容器計(jì)算、流式計(jì)算、GPU計(jì)算等,已經(jīng)支撐雷達(dá)外推、降水融合、氣候指數(shù)計(jì)算等超過100余個(gè)業(yè)務(wù)算法融入產(chǎn)品加工流水線運(yùn)行。
圖3 氣象基礎(chǔ)設(shè)施云平臺(tái)物理算力支撐的計(jì)算框架環(huán)境及算法
氣象基礎(chǔ)設(shè)施云平臺(tái)的存儲(chǔ)資源已超過50 PB,且以分布式文件、對(duì)象存儲(chǔ)為主。以解碼入庫、加工處理、存儲(chǔ)管理等超過100個(gè)節(jié)點(diǎn)共享使用的分布式NAS存儲(chǔ)為例,該套存儲(chǔ)系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn)26個(gè),有效容量4 PB。存儲(chǔ)帶寬、延遲、IOPS是存儲(chǔ)系統(tǒng)的關(guān)鍵衡量指標(biāo),分布式文件存儲(chǔ)系統(tǒng)的并發(fā)讀寫能力主要體現(xiàn)在聚合帶寬指標(biāo)[17]。在單個(gè)訪問節(jié)點(diǎn)(萬兆網(wǎng)卡、通過萬兆網(wǎng)絡(luò)交換機(jī)與該套存儲(chǔ)互聯(lián))讀寫情況下,該存儲(chǔ)文件系統(tǒng)帶寬能達(dá)到973 MB/s(圖4),基本達(dá)到單節(jié)點(diǎn)網(wǎng)卡傳輸能力的最大值。多個(gè)訪問節(jié)點(diǎn)共享讀寫情況下,聚合帶寬能達(dá)到10 GB/s的數(shù)量級(jí),能夠滿足氣象數(shù)據(jù)被多個(gè)應(yīng)用端共享讀寫的速率要求。
圖4 氣象基礎(chǔ)設(shè)施云平臺(tái)分布式NAS存儲(chǔ)的單節(jié)點(diǎn)訪問性能
氣象基礎(chǔ)設(shè)施云平臺(tái)在2012—2016年主要由虛擬化資源構(gòu)成,直接面向各類氣象應(yīng)用提供虛擬主機(jī)服務(wù),逐步改變了一個(gè)應(yīng)用系統(tǒng)使用一套硬件設(shè)備的“煙囪式”狀況,實(shí)現(xiàn)了硬件資源集約。2017年至今在實(shí)現(xiàn)硬件集約的基礎(chǔ)上,為進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)集約和業(yè)務(wù)集約,逐步擴(kuò)充、構(gòu)建起支撐氣象大數(shù)據(jù)云平臺(tái)業(yè)務(wù)的物理算力資源、數(shù)據(jù)存儲(chǔ)資源,由氣象大數(shù)據(jù)云平臺(tái)以接口的方式為各類應(yīng)用提供算力資源、數(shù)據(jù)資源[18],支撐應(yīng)用系統(tǒng)在平臺(tái)上直接構(gòu)建、融入和運(yùn)行,為“云+端”的氣象業(yè)務(wù)體制打造了基礎(chǔ)支撐架構(gòu)。
與公共云資源服務(wù)相比,目前氣象基礎(chǔ)設(shè)施云平臺(tái)主要提供計(jì)算資源服務(wù),還無法提供彈性帶寬、靈活配置的網(wǎng)絡(luò)資源服務(wù),且計(jì)算資源由于是統(tǒng)籌各個(gè)工程項(xiàng)目分批次建設(shè),有時(shí)會(huì)存在虛擬主機(jī)、物理算力資源一時(shí)滿足不了眾多應(yīng)用的計(jì)算資源需求,造成用戶響應(yīng)時(shí)效有時(shí)會(huì)較長。對(duì)于應(yīng)用系統(tǒng)所需的數(shù)據(jù)存儲(chǔ)資源,在數(shù)據(jù)集約、業(yè)務(wù)集約的要求下變?yōu)橛蓺庀蟠髷?shù)據(jù)云平臺(tái)直接提供數(shù)據(jù)資源,各應(yīng)用系統(tǒng)、用戶需要通過數(shù)據(jù)接口獲取。
下一步需持續(xù)提升云平臺(tái)資源服務(wù)的及時(shí)性、便利性,提升優(yōu)化資源利用率,優(yōu)化算力資源的調(diào)度機(jī)制,實(shí)現(xiàn)異構(gòu)算力資源、多種計(jì)算框架的統(tǒng)一調(diào)度,進(jìn)一步提升算力資源利用效率。同時(shí),針對(duì)氣象業(yè)務(wù)對(duì)人工智能算法研究的需求,盡快搭建平臺(tái)化的機(jī)器學(xué)習(xí)支撐環(huán)境,支撐多用戶、多學(xué)習(xí)訓(xùn)練任務(wù)的人工智能算法研究。