文|蔡旭輝 董曉荔 趙宇 顧明 楊海 馮圓媛 周逸飛
在當(dāng)前數(shù)據(jù)經(jīng)濟(jì)時(shí)代,算力已成為一種新型生產(chǎn)力,為各行各業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型提供動(dòng)力。在應(yīng)對(duì)當(dāng)前社會(huì)大量信息處理的挑戰(zhàn)下,算力網(wǎng)絡(luò)將全網(wǎng)內(nèi)各方的算力通過(guò)網(wǎng)絡(luò)進(jìn)行匯聚從而更方便地進(jìn)行管理和調(diào)度,進(jìn)而為各類(lèi)用戶提供服務(wù)。算力網(wǎng)絡(luò)的發(fā)展趨勢(shì)是將多方算力和網(wǎng)絡(luò)進(jìn)行融合,逐步形成算網(wǎng)一體化的過(guò)程。
算網(wǎng)感知是算網(wǎng)一體的前提,通過(guò)打通網(wǎng)絡(luò)領(lǐng)域、計(jì)算領(lǐng)域、應(yīng)用領(lǐng)域的信息邊界,為進(jìn)一步協(xié)同、調(diào)度、融合提供基礎(chǔ)。算網(wǎng)感知包括算力感知、網(wǎng)絡(luò)感知、應(yīng)用感知及多維資源協(xié)同感知,感知的數(shù)據(jù)包括算網(wǎng)性能數(shù)據(jù)、告警數(shù)據(jù)、日志等,資源數(shù)據(jù)包括算網(wǎng)各域物力資源、邏輯資源信息以及編排中心已有業(yè)務(wù)實(shí)例的資源信息。
當(dāng)前各領(lǐng)域內(nèi)都有相對(duì)成熟的數(shù)據(jù)感知體系,并且長(zhǎng)時(shí)間獨(dú)立發(fā)展,自成一派,暫未打通融合。算力網(wǎng)絡(luò)中缺少統(tǒng)一、全局性的算網(wǎng)狀態(tài)實(shí)時(shí)采集、感知、呈現(xiàn)能力;亟須構(gòu)建算網(wǎng)感知能力,逐步融合、統(tǒng)一現(xiàn)有的算網(wǎng)感知體系,形成算網(wǎng)一體化的數(shù)據(jù)感知體系。
面向未來(lái)的多樣化算力需求、任務(wù)式服務(wù)模式、算網(wǎng)智能調(diào)度,要實(shí)現(xiàn)跨專業(yè)領(lǐng)域的多樣化算力協(xié)同,需要將算力、網(wǎng)絡(luò)、動(dòng)環(huán)等相關(guān)感知數(shù)據(jù)納入統(tǒng)一的算網(wǎng)數(shù)據(jù)感知體系,構(gòu)建統(tǒng)一的算網(wǎng)感知模型,實(shí)現(xiàn)算網(wǎng)關(guān)聯(lián)分析、算力算效分析等業(yè)務(wù)分析評(píng)估能力,支撐算網(wǎng)業(yè)務(wù)智能編排調(diào)度。
圍繞算力網(wǎng)絡(luò)“算力泛在、算網(wǎng)共生、智能編排、一體共生”的總體目標(biāo),對(duì)算網(wǎng)感知能力提出全覆蓋感知、面向需求即時(shí)感知、跨專業(yè)協(xié)同感知的能力要求面向未來(lái),算網(wǎng)感知除向下感知資源,也需向上感知業(yè)務(wù)與事件,參與運(yùn)行支撐算力即取即用。
全覆蓋感知:是算力網(wǎng)絡(luò)實(shí)現(xiàn)一體編排、智能調(diào)度的基礎(chǔ)。對(duì)于算力而言,實(shí)現(xiàn)自有中心云、邊緣云、端算力、社會(huì)算力、國(guó)家樞紐算力的全量感知。對(duì)于網(wǎng)絡(luò)而言,實(shí)現(xiàn)端到端網(wǎng)絡(luò)的全面感知,包括入云、云間網(wǎng)絡(luò)端到端的協(xié)同感知等。
即時(shí)感知:要求以更實(shí)時(shí)、更細(xì)粒度、更自動(dòng)化的方式實(shí)現(xiàn)對(duì)算網(wǎng)資源狀態(tài)的動(dòng)態(tài)感知,為算網(wǎng)業(yè)務(wù)提供數(shù)據(jù)支撐。對(duì)于算網(wǎng)資源信息需由傳統(tǒng)的定時(shí)采集演進(jìn)為變量實(shí)時(shí)感知;對(duì)于算網(wǎng)資源運(yùn)營(yíng)相關(guān)數(shù)據(jù)(如分配/回收、使用/占用數(shù)據(jù))實(shí)現(xiàn)實(shí)時(shí)感知同步;對(duì)于算網(wǎng)運(yùn)行態(tài)勢(shì)數(shù)據(jù)(如利用率)實(shí)現(xiàn)低時(shí)間粒度的采集與分析。
協(xié)同感知:面向算網(wǎng)一體共生的目標(biāo),單域運(yùn)維難以滿足要求,需要實(shí)現(xiàn)跨域的協(xié)同感知。對(duì)于算力而言,在橫向上實(shí)現(xiàn)多種算力的協(xié)同感知;在縱向上需實(shí)現(xiàn)物理層、虛擬層、容器層的協(xié)同感知;為滿足算力算效評(píng)估的要求,需對(duì)算力、動(dòng)環(huán)、能耗信息等跨專業(yè)領(lǐng)域數(shù)據(jù)進(jìn)行協(xié)同感知。對(duì)于網(wǎng)絡(luò)而言,橫向上需要實(shí)現(xiàn)跨專業(yè)、端到端網(wǎng)絡(luò)的關(guān)聯(lián),協(xié)同跨專業(yè)網(wǎng)絡(luò)資源,并通過(guò)網(wǎng)絡(luò)去感知算力;縱向上需要實(shí)現(xiàn)業(yè)務(wù)與資源的關(guān)聯(lián)和協(xié)同。最終實(shí)現(xiàn)算網(wǎng)融合感知。
面向算力網(wǎng)絡(luò)服務(wù)方式從資源式向任務(wù)式轉(zhuǎn)變,算網(wǎng)感知系統(tǒng)需具備將算、網(wǎng)資源信息向算力和網(wǎng)絡(luò)運(yùn)力信息映射的能力;具備基礎(chǔ)算力、運(yùn)力模型構(gòu)建與封裝能力,支撐算網(wǎng)業(yè)務(wù)的編排調(diào)度。
算網(wǎng)感知系統(tǒng)需要對(duì)接多種數(shù)據(jù)源,完成多源異構(gòu)數(shù)據(jù)的匯聚、存儲(chǔ)、處理等數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)。首先需要對(duì)各種異構(gòu)資源建立統(tǒng)一的數(shù)據(jù)模型、維護(hù)各類(lèi)資源的模型列表、模型屬性等內(nèi)容;通過(guò)預(yù)置的數(shù)據(jù)模型,實(shí)現(xiàn)對(duì)不同來(lái)源資源數(shù)據(jù)的歸一化處理。然后再通過(guò)資源、狀態(tài)、能效等多維度數(shù)據(jù)統(tǒng)一分析當(dāng)前算力資源、網(wǎng)絡(luò)資源和存儲(chǔ)資源當(dāng)前狀態(tài)情況,并輸出各域資源可服務(wù)率。
在算網(wǎng)感知系統(tǒng)中,數(shù)據(jù)的分析評(píng)估能力也是其核心能力之一,通過(guò)采集各算力資源、性能數(shù)據(jù)以及數(shù)據(jù)中心的PUE指標(biāo)和能耗等進(jìn)行分析評(píng)估,其結(jié)果用來(lái)支撐編排與調(diào)度策略制定與執(zhí)行。
感知系統(tǒng)通過(guò)對(duì)各專業(yè)工作臺(tái)進(jìn)行采集,獲取各類(lèi)算力模型數(shù)據(jù),以性能利用率指標(biāo)為例,可通過(guò)以下方面進(jìn)行分析:
對(duì)設(shè)備性能的監(jiān)測(cè)。通過(guò)監(jiān)控利用率指標(biāo)的情況,能夠及時(shí)發(fā)現(xiàn)設(shè)備中存在的如CPU過(guò)載等問(wèn)題,方便運(yùn)維人員進(jìn)行故障排查。
對(duì)設(shè)備容量與資源的分配。利用率可反映當(dāng)前設(shè)備對(duì)于不同任務(wù)或應(yīng)用程序的資源使用情況,有助于運(yùn)維人員進(jìn)行設(shè)備容量與資源的規(guī)劃,確保設(shè)備能夠滿足預(yù)期要求。
對(duì)能耗的分析。當(dāng)利用率處于一個(gè)較高效且合理的水平時(shí),設(shè)備能夠高效處理任務(wù),這表明該類(lèi)設(shè)備能夠在相同的時(shí)間內(nèi)完成更多的工作量,從而減少任務(wù)執(zhí)行時(shí)間,在保證性能的同時(shí)降低能耗,從而實(shí)現(xiàn)節(jié)能減排的效果。
目前網(wǎng)絡(luò)的度量已經(jīng)比較成熟,算力的度量還缺乏統(tǒng)一標(biāo)準(zhǔn)。在算力網(wǎng)絡(luò)的場(chǎng)景中,需要提供算力和網(wǎng)絡(luò)的綜合服務(wù)。這時(shí)需要對(duì)算力也有一個(gè)方便的度量機(jī)制,這個(gè)機(jī)制一方面需要支持對(duì)用戶算力需求的描述,另一方面也需要支持對(duì)提供算力資源的能力描述。
算力網(wǎng)絡(luò)包含的資源類(lèi)別和數(shù)量規(guī)模龐大,算網(wǎng)業(yè)務(wù)種類(lèi)豐富,傳統(tǒng)的數(shù)據(jù)采集方式已無(wú)法滿足這種高度復(fù)雜性的需求。從算網(wǎng)感知的需求來(lái)看,在不同的業(yè)務(wù)場(chǎng)景中對(duì)各類(lèi)感知數(shù)據(jù)的時(shí)效性要求不盡相同,因此在感知層面對(duì)于感知數(shù)據(jù)的同步要求也不同。
表1 算網(wǎng)感知數(shù)據(jù)的需求
為了滿足多樣化的數(shù)據(jù)感知需求,從數(shù)據(jù)量、時(shí)效性、數(shù)據(jù)準(zhǔn)確性、接口方式等方面綜合考慮,在算網(wǎng)應(yīng)用中可根據(jù)實(shí)際情況采用以下4種數(shù)據(jù)感知技術(shù),其適用場(chǎng)景基本可以涵蓋算網(wǎng)感知數(shù)據(jù)的業(yè)務(wù)特性范圍。
1.主動(dòng)同步
主動(dòng)同步適合于小批量數(shù)據(jù)即時(shí)獲取場(chǎng)景,采用主動(dòng)請(qǐng)求方式,響應(yīng)快、精度高,一般用于查詢資源狀態(tài)數(shù)據(jù)、配置數(shù)據(jù)、服務(wù)清單等。
在主動(dòng)同步中被感知系統(tǒng)構(gòu)建RESTful API接口程序,并能在合理時(shí)間范圍內(nèi)通過(guò)Response Body以JSON格式返回查詢數(shù)據(jù)結(jié)果;算網(wǎng)感知系統(tǒng)構(gòu)建可以調(diào)度RESTful API的服務(wù)程序,可向被感知系統(tǒng)API及時(shí)發(fā)起數(shù)據(jù)服務(wù)請(qǐng)求。
2.主動(dòng)異步
主動(dòng)異步適合于批量歷史數(shù)據(jù)延時(shí)獲取場(chǎng)景,采用主動(dòng)請(qǐng)求方式,響應(yīng)較慢、數(shù)據(jù)精度較高,一般用于補(bǔ)采歷史一段時(shí)間內(nèi)的性能、告警等數(shù)據(jù)。如圖1所示。
圖1 延時(shí)響應(yīng)大批量數(shù)據(jù)獲取示意圖
被感知系統(tǒng)構(gòu)建RESTful API接口程序,并能在合理時(shí)間范圍內(nèi)通過(guò)Response Body以JSON格式返回鑒權(quán)、數(shù)據(jù)下載地址等信息;被感知系統(tǒng)構(gòu)建SFTP/FTP文件傳輸服務(wù),并能在合理時(shí)間范圍內(nèi)通過(guò)生成文件并上傳文件服務(wù)器;算網(wǎng)感知系統(tǒng)構(gòu)建可以調(diào)度RESTful API的服務(wù),可向被感知系統(tǒng)API及時(shí)發(fā)起數(shù)據(jù)請(qǐng)求;系統(tǒng)構(gòu)建可下載文件的服務(wù)程序,可通過(guò)SFTP/FTP協(xié)議下載數(shù)據(jù)文件。
3.被動(dòng)實(shí)時(shí)
被動(dòng)實(shí)時(shí)適合于大量數(shù)據(jù)流實(shí)時(shí)獲取場(chǎng)景,采用被動(dòng)通知方式,響應(yīng)快、精度高,一般用于實(shí)時(shí)接收并需要進(jìn)行流處理海量的性能、告警等數(shù)據(jù)。如圖2所示。
圖2 實(shí)時(shí)大量數(shù)據(jù)獲取示意圖
被感知系統(tǒng)構(gòu)建適配KAFKA的消息生產(chǎn)程序,并能在合理時(shí)間范圍內(nèi)生產(chǎn)并上送信息數(shù)據(jù);被感知系統(tǒng)構(gòu)建KAFKA消息隊(duì)列服務(wù),能接收并存儲(chǔ)一段時(shí)間范圍內(nèi)的實(shí)時(shí)消息數(shù)據(jù);算網(wǎng)感知系統(tǒng)構(gòu)建可以消費(fèi)KAFKA消息的服務(wù)程序,可及時(shí)消費(fèi)消息隊(duì)列上的大量消息數(shù)據(jù)。
4.被動(dòng)準(zhǔn)實(shí)時(shí)
被動(dòng)準(zhǔn)實(shí)時(shí)適合于大批量周期性數(shù)據(jù)準(zhǔn)實(shí)時(shí)獲取場(chǎng)景,采用被動(dòng)通知方式,響應(yīng)快,精度較高,一般用于周期性地獲取性能、資源、告警、工單數(shù)據(jù)等。如圖3所示。
圖3 準(zhǔn)實(shí)時(shí)大批量數(shù)據(jù)獲取示意圖
圖4 算網(wǎng)感知模型分類(lèi)
被感知系統(tǒng)構(gòu)建數(shù)據(jù)訂閱通知程序,并能在合理時(shí)間范圍內(nèi)通過(guò)Http請(qǐng)求Body以JSON格式發(fā)送鑒權(quán)、數(shù)據(jù)下載地址等信息;被感知系統(tǒng)構(gòu)建SFTP/FTP文件傳輸服務(wù),并能在合理時(shí)間范圍內(nèi)通過(guò)生成文件并上傳文件服務(wù)器;算網(wǎng)感知系統(tǒng)構(gòu)建RESTful API服務(wù),接收被感知系統(tǒng)API及時(shí)發(fā)起數(shù)據(jù)訂閱通知;構(gòu)建可下載文件的服務(wù)程序,可通過(guò)SFTP/FTP協(xié)議下載數(shù)據(jù)文件。
雖然算網(wǎng)領(lǐng)域已經(jīng)有相對(duì)成熟的感知數(shù)據(jù)體系,但是對(duì)于不同的網(wǎng)管、云管系統(tǒng)支持的感知對(duì)象以及對(duì)象屬性存在較大差異,而且算網(wǎng)之間暫未打通融合,因此,構(gòu)建統(tǒng)一的算網(wǎng)感知模型,是將算力和網(wǎng)絡(luò)的數(shù)據(jù)納入統(tǒng)一的算網(wǎng)數(shù)據(jù)感知體系的前提。
聚焦典型算網(wǎng)業(yè)務(wù)場(chǎng)景梳理感知對(duì)象、對(duì)象屬性、對(duì)象關(guān)系,圍繞感知對(duì)象延伸現(xiàn)有的算網(wǎng)資源模型,從資源感知擴(kuò)展到算力節(jié)點(diǎn)感知、支撐算網(wǎng)業(yè)務(wù)開(kāi)通;增加服務(wù)和業(yè)務(wù)感知維度,實(shí)時(shí)捕捉服務(wù)、業(yè)務(wù)的狀態(tài),為算網(wǎng)業(yè)務(wù)的動(dòng)態(tài)調(diào)整能力提供數(shù)據(jù)支撐;區(qū)分靜態(tài)特性、動(dòng)態(tài)特性,明確各類(lèi)數(shù)據(jù)的感知時(shí)效性要求,構(gòu)建面向業(yè)務(wù)的敏捷、輕量化模型。
例如針對(duì)東數(shù)西存業(yè)務(wù),在算網(wǎng)業(yè)務(wù)開(kāi)通階段,需要感知可用的算力資源、網(wǎng)絡(luò)資源,并根據(jù)策略選擇合適的資源進(jìn)行分配調(diào)度及配置;在業(yè)務(wù)運(yùn)行階段,需要對(duì)業(yè)務(wù)相關(guān)的資源狀態(tài)、關(guān)鍵指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控,支撐算網(wǎng)業(yè)務(wù)質(zhì)量保障。
2022年全國(guó)信標(biāo)委發(fā)布了《計(jì)算中心有效算力評(píng)測(cè)體系白皮書(shū)》,提出了有效算力的概念、有效算力指標(biāo)CUE的定義和計(jì)量方法。傳統(tǒng)意義上,計(jì)算中心用計(jì)算芯片的規(guī)格算力進(jìn)行性能衡量,常用的計(jì)量單位是每秒執(zhí)行的浮點(diǎn)數(shù)運(yùn)算次數(shù)。這種衡量方式較為簡(jiǎn)潔,從宏觀與統(tǒng)計(jì)的角度實(shí)現(xiàn)算力整體的呈現(xiàn),但缺乏對(duì)整型數(shù)據(jù)、存儲(chǔ)等集群系統(tǒng)處理的能力。有效算力是對(duì)規(guī)格算力的補(bǔ)充,能夠更為直觀地反映計(jì)算系統(tǒng)在特定作業(yè)上的、用戶可獲得的計(jì)算能力,是計(jì)算計(jì)量方法的有力補(bǔ)充。
有效算力指標(biāo)(C U E:C o m p u t i n g U s a g e Effectiveness),是覆蓋計(jì)算中心全生命周期評(píng)估的指標(biāo)體系,包含了對(duì)應(yīng)的方法論、工具和測(cè)試數(shù)據(jù)集??捎糜谠u(píng)價(jià)計(jì)算中心建設(shè)的綠色性、先進(jìn)性、實(shí)用性。有效算力指標(biāo)可用如下公式進(jìn)行計(jì)量:
其中Psi為測(cè)試集在基準(zhǔn)軟硬件系統(tǒng)上的實(shí)際性能;Pi為測(cè)試集在目標(biāo)軟硬件系統(tǒng)上的實(shí)際性能。ωi為測(cè)試集中不同實(shí)際應(yīng)用軟件的權(quán)重。α為調(diào)整系數(shù),建議該常數(shù)值為100。
CUE公式的設(shè)立,可以有效避免多個(gè)真實(shí)業(yè)務(wù)性能測(cè)試所帶來(lái)的單位不統(tǒng)一、描述過(guò)于復(fù)雜等局面。通過(guò)幾何加權(quán)平均的方式獲得一個(gè)單一數(shù)值,有助于進(jìn)行定量、對(duì)比性分析。
隨著算力網(wǎng)絡(luò)的不斷發(fā)展以及算網(wǎng)業(yè)務(wù)場(chǎng)景的持續(xù)豐富,對(duì)算網(wǎng)感知的要求會(huì)越來(lái)越高,未來(lái)算網(wǎng)感知的發(fā)展趨勢(shì)包括以下幾個(gè)方面:
1.隨著算力技術(shù)的不斷發(fā)展和應(yīng)用,需要持續(xù)完善針對(duì)新型算力(如GPU等)與網(wǎng)絡(luò)協(xié)議(如RoCE)的狀態(tài)感知方案,統(tǒng)一量化異構(gòu)算力節(jié)點(diǎn)可用性、連接可用性、網(wǎng)絡(luò)負(fù)載狀態(tài)等指標(biāo)。
2.人工智能算法也可以應(yīng)用于算網(wǎng)感知中,實(shí)現(xiàn)面向算力網(wǎng)絡(luò)的數(shù)據(jù)智能感知,算網(wǎng)資源及數(shù)據(jù)的采集和統(tǒng)計(jì)向算網(wǎng)智能態(tài)勢(shì)感知演進(jìn)。
3.感知數(shù)據(jù)隱私保護(hù):通過(guò)引入安全傳輸機(jī)制、數(shù)據(jù)加密算法實(shí)現(xiàn)對(duì)感知數(shù)據(jù)的保護(hù)。
4.算網(wǎng)感知在實(shí)際應(yīng)用中仍存在挑戰(zhàn),例如指標(biāo)算法的可擴(kuò)展性,傳遞的及時(shí)性等。未來(lái)研究還包括對(duì)算法的優(yōu)化、信息傳遞優(yōu)化和智能化等。
總之,算網(wǎng)感知是實(shí)現(xiàn)算網(wǎng)業(yè)務(wù)智能編排調(diào)度和一體化運(yùn)維的重要基礎(chǔ),隨著算力網(wǎng)絡(luò)技術(shù)的不斷發(fā)展、算網(wǎng)業(yè)務(wù)的不斷創(chuàng)新,算網(wǎng)感知技術(shù)將會(huì)越來(lái)越成熟,為企業(yè)和用戶提供高質(zhì)量、高可靠、有保障的算網(wǎng)業(yè)務(wù)服務(wù)。
算力網(wǎng)絡(luò)建設(shè)是我國(guó)迎接5G時(shí)代的重要戰(zhàn)略部署,算力和網(wǎng)絡(luò)融合是未來(lái)信息革命的必經(jīng)之路,對(duì)各行各業(yè)的轉(zhuǎn)型具有重要意義。而在算力網(wǎng)絡(luò)中缺少對(duì)算網(wǎng)狀態(tài)實(shí)時(shí)采集感能力,本文提出的算網(wǎng)感知三項(xiàng)核心能力及對(duì)應(yīng)能力需求的技術(shù)實(shí)現(xiàn)旨在推動(dòng)算網(wǎng)感知關(guān)鍵技術(shù)在算網(wǎng)業(yè)務(wù)中的應(yīng)用,為更好的構(gòu)建算網(wǎng)數(shù)據(jù)感知體系奠定基礎(chǔ),助力算力網(wǎng)絡(luò)建設(shè)。