賈慶民 郭凱 周曉茂 彭開來 謝人超,2 黃韜,2
(1.網絡通信與安全紫金山實驗室未來網絡研究中心,南京 211111;2. 北京郵電大學網絡與交換技術國家重點實驗室,北京 100876)
算力網絡作為一項新興的網絡技術,旨在連通分布式算力節(jié)點,實現(xiàn)算力資源的快速接入和計算任務的高效分發(fā),目前已引起了產、學、研界的高度關注。產業(yè)界先后發(fā)布了《算力網絡架構與技術體系白皮書》《算力網絡白皮書》等白皮書,對算力網絡的產生背景、核心理念、應用場景進行了技術調研和產業(yè)分析;學術界也開展了大量算力網絡相關的研究,旨在推動算力網絡技術的創(chuàng)新發(fā)展[1-3]。為響應行業(yè)訴求,我國也陸續(xù)出臺了多項政策,加快推進構建以算力和網絡為核心的新型基礎設施體系。
當前,業(yè)界對算力網絡的體系架構、關鍵技術、應用場景等進行了較多的研究,然而隨著自動駕駛、智能制造、元宇宙等新業(yè)務的發(fā)展,算力網絡在資源編排、時延保障、決策治理等方面也面臨著新的挑戰(zhàn);這迫切需要面向新興業(yè)務的發(fā)展趨勢,有針對性地開展新型算力網絡架構的設計和研究。本文首先對算力網絡架構的演進趨勢進行了分析研判,然后結合算網云原生、算網確定性、算網自智化等特征能力設計了新型算力網絡架構,最后分析了算力網絡架構的研究挑戰(zhàn)。
隨著云原生概念的提出[4],云計算技術提供了粒度更細、自由度更高、管理難度更低的服務模式,通過模塊化、可觀察、可部署、可測試、可替換、可處理等特質充分利用和發(fā)揮了云平臺的分布式與彈性等優(yōu)勢。同時,隨著算力網絡概念的提出,云計算技術不再拘泥于以地理位置分類計算節(jié)點的固化模式,通過底層網絡連通分布式計算節(jié)點,實現(xiàn)了算力與網絡的協(xié)同服務,完成了算力資源的快速接入和計算任務的高效分發(fā)[5]。然而,現(xiàn)存工作主要著眼于在網絡底層打通的基礎上,研究如何優(yōu)化網絡資源以及算力資源使用的問題,卻忽視了網絡節(jié)點與算力節(jié)點間的融合,從而無法真正做到算網一體共生。伴隨著網絡技術、云計算技術的發(fā)展,算力網絡終將走向算與網的一體化共生,即算力與網絡的深度結合,實現(xiàn)算中有網、網上可算。
為達成上述目標,在新型算力網絡架構設計中,需要考慮云原生的發(fā)展趨勢,即通過虛擬化、容器化、微服務等技術,完成網絡通信功能模塊和計算業(yè)務功能模塊的靈活部署和快速調度,充分發(fā)揮各節(jié)點的計算供給能力,實現(xiàn)網絡和計算功能的泛在共存與彈性化調度。同時,在此基礎上針對上層業(yè)務需求集合各節(jié)點計算能力,制定最優(yōu)算網資源編排策略和任務調度策略,實現(xiàn)算力的一體化供給、按需分配。
互聯(lián)網的高速發(fā)展驅動了云計算、大數(shù)據、人工智能等新一代信息通信技術的蓬勃發(fā)展與商業(yè)化落地,也逐步催生了AR/VR、自動駕駛、遠程醫(yī)療等新興業(yè)務;這些新興業(yè)務不僅對算力有較高的要求,而且對時延也提出了新的要求,通常要求微秒到毫秒級的端到端時延以及微秒級的時延抖動,具有計算密集、時延敏感的特性。然而,當前我國的算力基礎設施存在布局建設不優(yōu)、連通程度不高、算力資源利用不均衡等問題;網絡基礎設施也以“盡力而為”的網絡傳輸為主,難以保證業(yè)務所需的時延和抖動要求;這對計算密集、時延敏感型業(yè)務的發(fā)展帶來了新的挑戰(zhàn)。其中,針對當前 “盡力而為”網絡存在的問題,業(yè)界提出了“確定性”的網絡技術,以建立一種可提供“準時、準確”數(shù)據傳輸服務質量的新一代網絡,保障低時延、低抖動、低丟包率、高帶寬和高可靠;代表性的確定性網絡技術包括靈活以太網(Flexible Ethernet,F(xiàn)lexE)、時間敏感網絡(Time-Sensitive Networking,TSN)、確定性網絡(Deterministic Networking,DetNet)、第五代移動通信技術時間敏感網絡(5th Generation Mobile Communication Technology TSN,5G TSN)等[6-7]。
為了保證計算任務的確定性傳輸和計算,新型算力網絡架構設計需要考慮“確定性”的發(fā)展趨勢,即以建設可提供確定性服務質量的算力網絡為目標,基于算力網絡和確定性網絡技術,提供實時、高質量、高可靠的數(shù)據傳輸服務和計算服務,全面賦能產業(yè)的智能化改造和數(shù)字化轉型。
算力網絡是實現(xiàn)“算力”基礎設施化的一個重要載體,盡管眾多研究機構在系統(tǒng)架構、關鍵技術、行業(yè)應用等方面進行了大量的研究,算力網絡仍面臨以下挑戰(zhàn)。
(1)過度依賴人工經驗,關鍵策略的設計通常需要大量的人工經驗和人力參與,而且無法應對復雜的應用場景需求。
(2)智能化水平不高,通過AI加持形成的單模塊智能缺少協(xié)作機制,無法達到更高的智能水平,難以實現(xiàn)系統(tǒng)級的自治運行。
(3)智能固化問題,系統(tǒng)智能無法根據應用場景的動態(tài)變化,進行自適應調整。
針對上述問題,在新型算力網絡架構設計中,需要考慮自智化的發(fā)展趨勢,即通過在系統(tǒng)全生命周期引入“智能”,利用前沿技術實現(xiàn)自動化的算力感知、算力評估、服務編排和調度、算力路由、算力交易等,讓算力網絡“自治”,提升業(yè)務服務質量和用戶的服務體驗;其本質是通過數(shù)據驅動進行自學習、自演進,對算力網絡不同層面進行“注智賦能”,最大限度地解除網絡功能實現(xiàn)對人力的依賴。
本節(jié)基于算力網絡的發(fā)展趨勢,從資源、時延、智能三個維度,結合云原生、確定性、人工智能等方面前沿技術進展,對算力網絡的架構設計進行了分析探討,提出了算網云原生、算網確定性、算網自智化三項新型算力網絡的核心能力特征,旨在提升算力網絡的編排調度靈活性、計算傳輸時敏性、決策治理智能化,進而為算力網絡的發(fā)展提供新的思路參考,研究思路如圖1所示。算網云原生可拉通異構算力資源,通過技術手段池化泛在資源,為確定性服務時延保障的實現(xiàn)提供一體化算力及網絡資源。算網確定性上承業(yè)務需求、下連算力網絡資源,將上層業(yè)務需求與下層算網資源配對,以滿足新型業(yè)務對于算力網絡確定性的需求。算網自智化則為算網云原生和算網確定性提供智能化決策治理能力,以提升整體系統(tǒng)架構的智能化水平,促成系統(tǒng)全流程自動化運行、算網資源的智能化運用、上層業(yè)務的多樣化承載,最終確保用戶業(yè)務的無感知接入和算網資源的一體化按需服務。
圖1 新型算力網絡的核心能力特征
2.1.1 算網云原生
算網云原生能夠在資源部署時池化并自適應動態(tài)分配算網資源,以便針對上層需求實現(xiàn)快速、平滑、泛在的資源彈性伸縮,充分發(fā)揮算力網絡的分布式和彈性等優(yōu)勢,最終實現(xiàn)算與網的協(xié)同發(fā)展、一體共生。
算網云原生的核心能力應包括請求快速調度和資源泛在部署。當前云原生已具備快速調度、動態(tài)調整等能力,而網絡仍需云化以支撐上述云原生算力網絡核心能力。網絡云化在近年來成為了熱點研究課題。一方面,當下越來越多的應用程序被遷移至云端,作為支撐應用的網絡需具備網隨云動的能力;另一方面,傳統(tǒng)網絡只有通過云化技術才能實現(xiàn)資源的彈性分配和網絡的靈活組網,進而促進算網確定性、算網自智化等技術的實現(xiàn)。網絡實現(xiàn)云化后,結合虛擬化、容器化等技術,則可在算力網絡中實現(xiàn)以底層算力一體化供給為基礎的算力統(tǒng)一納管和資源統(tǒng)一編排能力,真正達到算與網的一體共生、融合發(fā)展。
2.1.2 算網確定性
算網確定性是新型算力網絡的主要特征,其不僅能夠在算網融合的基礎上提供算力服務,還能提供確定性的傳輸和計算服務,進而滿足計算密集、時延敏感型業(yè)務對傳輸時延和計算時延的特定要求。算網確定性主要包括確定性傳輸能力和確定性計算能力。
在確定性傳輸方面,可以通過在無線網絡引入5G+TSN,在局域網絡引入TSN,在骨干網絡引入DetNet,在傳輸路徑引入SRv6技術,在算力節(jié)點內網絡引入智能無損網絡,實現(xiàn)端到端的確定性傳輸,即時延確定性、抖動確定性和路徑確定性。在確定性計算方面,在計算密集、時延敏感的新業(yè)務應用中,計算任務的傳輸和計算處理總時間是受約束的,只保證傳輸確定性,并不能滿足新業(yè)務的時延要求。因此,通過設計計算任務優(yōu)先級劃分、高優(yōu)先級任務計算搶占、計算資源預留鎖定和計算資源彈性擴縮容等機制,實現(xiàn)計算的實時性和確定性。其中,計算確定性是指完成計算任務處理的時間在限定的時間范圍內。
2.1.3 算網自智化
算網自智化是將自智網絡[8]與算力網絡深度融合,自智網絡為算力網絡提供智能化技術引擎,算力網絡為自智網絡提供業(yè)務場景。算網自智化基于自動化、智能化地實現(xiàn)系統(tǒng)功能的思想,聯(lián)合數(shù)據驅動與知識引導使能網絡進行自學習、自演進,最終實現(xiàn)系統(tǒng)全流程的自動化運行、高效的資源利用、自適應的優(yōu)化調整、多樣化的業(yè)務承載、智簡的服務體驗等?;谒憔W自智實現(xiàn)“服務無所不在、算力無所不達、智能無所不及”是新一代算力網絡體系架構的重要內容。
在新型算力網絡中,基于人工智能的策略方法,設計實現(xiàn)算力網絡的自感知、自配置、自優(yōu)化、自決策、自維護等功能,提升算網服務感知、算網任務調度、算網資源編排等功能的智能化水平。從系統(tǒng)功能方面來說,算力網絡的感知、分析、決策、調度、運維、安全等功能需要不斷提高智能化水平來滿足日益復雜的功能需求,并能夠進行“網—算—智”的協(xié)同迭代,逐漸實現(xiàn)自治化、自動化、自主化[9-10]。
如圖2所示,新型算力網絡架構可分為基礎設施資源層、算網融合能力層、應用與服務運營層。
(1)基礎設施資源層,是新型算力網絡架構的基礎底座,包括異構多層次算力基礎設施和異構泛在網絡基礎設施。其中,異構多層次算力基礎設施包括云計算節(jié)點、邊緣計算節(jié)點、端側算力節(jié)點等多層次算力資源,以及基礎算力、智能算力、超算算力等異構算力資源。異構泛在網絡基礎設施包括5G/B5G接入網絡、確定性邊緣網絡、確定性廣域網絡、確定性數(shù)據中心網絡等。
(2)算網融合能力層,是新型算力網絡架構的中樞系統(tǒng),由算網編排調度平面、算網自智決策平面構成。算網編排調度平面連通基礎設施資源層和應用與服務運營層,為應用與服務運營層提供北向開放API接口以供應用服務調用,同時需具備支持現(xiàn)有系統(tǒng)集成調用的能力。算網編排調度平面具備算網云原生和算網確定性兩大能力特征,算網云原生可統(tǒng)一整合下層異構計算、網絡資源以支持算網確定性能力;算網確定性可規(guī)劃云網邊端協(xié)同策略,為上層應用服務提供確定性服務。算網自智決策平面是新型算力網絡的大腦,為算網編排調度平面提供智能化系統(tǒng)狀態(tài)感知、分析建模、策略決策的能力。從功能內容來說,算網自智決策平面基于基礎設施資源層狀態(tài)信息和業(yè)務意圖信息的智能感知,進行自動化分析建模和決策,并將決策結果反饋算網編排調度平面以提供智能化、自動化決策治理能力。
(3)應用與服務運營層,主要包括應用服務、服務運營等。應用服務主要包括云虛擬現(xiàn)實、智能駕駛、智能制造等計算密集、時間敏感型業(yè)務。服務運營主要包括可信算網交易、智能化系統(tǒng)運維等。
圖2 新型算力網絡參考架構
算力網絡作為算與網高度融合的新型架構模式,需具備算力節(jié)點與網絡節(jié)點的一體化納管能力。因此,未來發(fā)展的方向必然是通過網絡連接徹底打通各算網節(jié)點資源,實現(xiàn)全網層面的算力共享,使得算力節(jié)點、網絡節(jié)點上的資源可被算網控制平臺一體化管理調度,同時支持網絡功能的上浮與微服務的下沉,為用戶提供更好的使用體驗。為實現(xiàn)上述發(fā)展,還需要在以下方面持續(xù)研究推進。
(1)進一步研究異構算力的一體化、多維度建模方法。當前算力網絡中存在多種異構算力,也存在多種計算需求。一方面,需進一步研究如何將異構算力進行一體化建模,形成異構算力的統(tǒng)一度量模式;另一方面,也需針對不同計算需求,構建多維度算力表征方法。
(2)進一步探討如何使用網絡節(jié)點資源。傳統(tǒng)網絡設備多為專有設備,難以對外開放算力;為完成微服務的下沉,仍需學術界與產業(yè)界合力推動,將傳統(tǒng)網絡設備更新進化為通用型算網一體化設備,以期實現(xiàn)業(yè)務功能的泛在部署。
為了保障時延敏感、計算密集型業(yè)務對傳輸和計算的時延要求,算網確定性的概念得以提出,然而,目前依然存在一些關鍵技術挑戰(zhàn)亟需解決。例如算力任務傳輸控制優(yōu)化,傳統(tǒng)網絡采用的是“盡力而為”的數(shù)據傳送方式,為提升數(shù)據傳輸?shù)目煽啃?,網絡系統(tǒng)會采用復雜的可靠性機制或容錯校驗機制,從而增加了終端設備的計算開銷。隨著確定性網絡的采用,網絡在時延、抖動、丟包方面都進行了極大優(yōu)化,網絡可靠性也得以極大改善。相應地,傳統(tǒng)的容錯校驗機制就顯得冗余重復。在確定性網絡環(huán)境下,簡化傳輸控制復雜度,降低終端設備網絡協(xié)議棧在容錯校驗方面計算開銷,是算網確定性今后研究的重要方向。
算網自智化受到算力網絡和自智網絡的雙重驅動,同時也面臨著來自兩個領域的技術挑戰(zhàn)。實現(xiàn)算網自智是一個持續(xù)迭代、循環(huán)演進的系統(tǒng)工程,需要在以下方面持續(xù)推進。
(1)基于聯(lián)合知識引導和數(shù)據驅動的賦智手段,自動化地進行算力評估、服務編排和調度、算力交易等關鍵動作,最終能夠根據用戶意圖生成最優(yōu)的算力服務提供策略。
(2)在數(shù)據、流程、應用等方面進行多維度深度的協(xié)同融合,構筑端到端的全域智能化閉環(huán),逐漸實現(xiàn)網絡自動化、自主化、自治化。
算力網絡通過連通分布式算力節(jié)點,實現(xiàn)了算力任務的靈活調度和算力資源的高效利用,有力推動了我國制造業(yè)的智能化改造和數(shù)字化轉型。針對算力網絡技術的發(fā)展趨勢,本文結合云原生、確定性網絡、人工智能等技術,提出了算網云原生、算網確定性、算網自智化等概念,基于提出的新概念融合設計了新型算力網絡架構,探討了新型算力網絡的研究挑戰(zhàn),為算力網絡今后的發(fā)展提供了技術參考和趨勢研判。