GTC2021 GraceCPU暴露英偉達的野心？

2021-06-20 14:25:08張平

微型計算機 2021年9期

張平

GTC是英偉達一年一度的技術盛會。在今年4月13日的GTC上，英偉達CEO黃仁勛依舊在廚房、依舊穿著皮衣面向全球用戶進行著網絡直播。不過和2020年“端出來”一整盤A100相關GPU不同的是，今年的GTC2021，黃仁勛“端”出來的是ARM架構的CPU、數據加速DPU以及面向汽車駕駛的SoC等產品。尤其是CPU的發(fā)布，迎來業(yè)內一片討論熱潮。這一次英偉達打算做什么？ARM架構的CPU登場，意味著英偉達計劃和英特爾正面廝殺了嗎？

英偉達一直是—銳意擴張的企業(yè)。從GPU起家，隨后進入圖形計算、視覺計算市場，在多年耕耘后，終于乘上了AI計算的東風?，F在的英偉達已經發(fā)展成為一家以人工智能計算為主，控制了大部分視覺計算市場和資源，并逐漸進入服務器、HPC市場的超大規(guī)模企業(yè)。其股票也從早期的數美元，一路暴漲至近期的600美元左右，公司市值也已經逼近4000億美元，遠遠超過市值2800億美元，擁有全產業(yè)鏈、全系列制造技術的英特爾，風頭無兩。

這些數據和成就的背后，英偉達銳意進取的態(tài)度和不斷擴張的商業(yè)手段是關鍵。就在最近的2020年，英偉達宣布將收購ARM，希望借此進入移動GPU、移動CPU以及ARM相關處理器市場并掌控移動計算和其延伸產業(yè)的發(fā)展方向。雖然這頊收購目前被包括美國、英國企業(yè)在內的多家企業(yè)明確反對，卻也沒有影響到英偉達和ARM越來越深入的合作，并且合作的結果很快也顯現出來。

在筆者看來，在2021年的GTC大會上，英偉達的最大新聞并不是發(fā)布了DPU和全新面向汽車行業(yè)的SoC，而是帶來了代號為“Grace”的CPU廣品（后文間稱GraceCPU）。這款產品將用在英偉達即將推出的數據中心產品中，并搭配英偉達下一代GPU產品，實現英偉達在數據中心、HPC以及計算設備上的CPU+GPU“大一統”。

GraceCPU的發(fā)布，在業(yè)界迅速掀起了巨大的波瀾。英偉達的股價從發(fā)布會之前的550美元左右一舉沖上了630美元。與此對應的是英特爾的股價大跌7%，AMD的股價也受到了影響。部分市場分析人士也認為英偉達的GraceCPU是對英特爾的正面沖擊。那么，事實真的是如此嗎？英特爾是否真的危險了呢？

GraceCPU：從發(fā)布會說起

要明確GraceCPU的影響，可以從現有的資料和情況進行分析。在GTC2021上，英偉達提到GraceCPU將用于“計算領域的細分市場”;GraceCPU采用的是“ArmNeoverse”內核，其CPU在SPECrate2017_int_base基準測試中的分數超過了300分;GraceCPU和GPU的連接部分則采用了第四代NVLink，CPU到GPU的帶寬超過900GB/S;內存則采用的是LPDDR5。英偉達表示，GraceCPU將搭配英偉達的GPU，配合瑞士國家計算中心建造一個算力可達20Exaflops的超算。另外，美國洛斯阿拉莫斯國家實驗室也在考慮使用GraceCPU和GPU搭建全新的超算系統。

根據英偉達在本次大會后發(fā)布的白皮書，我們可以進一步分析：GraceCPU所使用的“ArmNeoverse”應該不是現在ARM發(fā)布的版本，而是采用下一代Armv9指令集的新Neoverse架構，這也和GraceCPU計劃在2023年初上市在時間上相吻合。結合ARM在前段時間剛剛公布了全新的Armv9架構，可以確定GraceCPU肯定將引入Armv9指令集新加的大量功能。根據ARM官方內容，Armv9指令集主要是增強面向矢量、機器學習和數字信號處理器的相關內容，這和英偉達在GraceCPU上的訴求是高度相似的。

另外，英偉達在隨后的新聞稿中也提到，GraceCPU是高度專業(yè)化的、面向巨型人工智能和HPC的產品，可以訓練擁有超過一萬億個參數的NLP模型。英偉達還提到“今天最大的人工智能模型包括數十億個參數，并且每兩個半月翻一番。訓練它們需要一種新的CPU可以與GPU緊密結合，消除系統瓶頸”。

俗話說，聽話聽音。雖然英偉達在發(fā)布會上并沒有透露太多GraceCPU的信息，但是英偉達還是帶來了很多關鍵點，比如GraceCPU面向的是一個比較窄且專業(yè)的領域、對帶寬的需求是極其巨大，其本身性能表現比較2021年的產品還是可以的，已經逼近AMDEPYC7763這種當前x86架構下最強的CPU，但考慮其2023年才發(fā)布，這個訴求也并不夸張。顯然，GraceCPU是用來幫助英偉達解決一個棘手問題的產物，解決這個問題可能并不會針對誰，但它帶來的影響和余波卻真的會影響到現在的行業(yè)格局。

AI計算：核心的問題是帶寬

那么，英偉達需要解決的問題是什么？我們繼續(xù)來看GTC2021上黃仁勛的演講。在演講中，黃仁勛特別提到，英偉達并不否認x86設備存在的意義，英偉達依舊認為x86設備擁有靈活的擴展性和對各類設備的支持，x86依然是目前HPC或者服務器應用場合的重點。不過問題來了，英偉達認為x86設備目前存在一些困難，其中比較典型的就是帶寬不足。

英偉達的例證顯示，目前x86設備的核心是x86CPU，x86CPU通過內存控制器連接DDR4內存，最新的英特爾至強處理器可以實現8通道DDR4內存連接，其帶寬大約為200GB/S，但是和GPU連接的帶寬只能依靠PCIe4.0×16，帶寬大約只有16GB/S（雙向32GB/S），同時GPU本地內存（顯存）的帶寬在使用HBM2的情況下大約可以達到2000GB/S。在這種情況下，當一個巨大的AI計算模型被讀入系統需要CPU交由GPU計算的時候，GPU將其從主內存拷貝至本地內存（顯存）的帶寬僅為64GB/S—英偉達在這里的計算還是比較寬泛的，因為英偉達考慮到了1個CPU連接了4個GPU。每個GPU都可以使用16GB/S的帶寬從CPU主內存中讀取數據，因此4個加起來的帶寬就是16x4=64GB/s。

這里的瓶頸顯然就是CPU至IJGPU，如果說GPU本身的帶寬是8車道高速公路的話，那么CPU本地帶寬也許可以比作4車道的城市道路，而CPU到GPU的帶寬只能看成一般的鄉(xiāng)村道路了。從2000GB/S到200GB/S再至丨」16GB/S，這里的數據帶寬跌落是以數量級的形式存在的，這顯然不符合現代計算設備對數據帶寬的強烈“渴求”。

為了解決這個問題，英偉達也想了很多辦法，比如游說業(yè)內企業(yè)采用自家更高速的總線NVLink，不過到目前為止只有IBM的Power家族處理器給予了支持，其余的包括英特爾和AMD在內的企業(yè)都沒有給予回應?？紤]到Power處理器昂貴的價格以及其并不可能被英偉達完全掌控，因此英偉達開始慎重地考慮自己建立CPU平臺。終于在購買了ARM授權并宣布收購ARM后，英偉達推出了GraceCPU，并希望借此來解決前述的帶寬問題。

根據英偉達的規(guī)劃，GraceCPU和GPU的連接通道不再是傳統的PCIe，而是改用了第四代NVLink，其可以提供高達500GB/S的數據帶寬。GraceCPU的內存控制器改用LPDDR5X，英偉達沒有公布其具體的位寬情況，但是給出了一個數據帶寬為500GB/s。

目前還不知道英偉達如何達到如此高的CPU帶寬，因為這里存在一個很大的問題是LPDDR5X應該是32bit的顆粒，以現在LPDDR5最高6400MT/S的速率來計算的話，LPDDR5X速率可能最高在8000MT/S左右。這樣一來，GraceCPU的內存位寬需要達到512bit才能實現大約500GB/S的帶寬，也就是支持16個內存通道，這對一款CPU來說是非常不可思議的，并且GraceCPU還擁有第四代NVLink總線用于和GPU連接。這意味著CPU內部大量的面積和晶體管需要用于外部接口和高速總線。

根據英偉達公布的GraceCPU搭配下一代HopperGPU的示意圖來看，GraceCPU內部的CPU部分劃分為4個區(qū)域，每個區(qū)域擁有24個核心，總計有96個核心，再加上周圍大量的總線和相關接口，GraceCPU的面積應該不會太小，我猜測其尺寸應該和隔壁的HopperGPU相差不多。考慮到類似的NVIDIAA100GPU面積已經超過800mm2，因此GraceCPU在2022?2023年的3nm或者更先進的工藝加持下，其包含的晶體管面積應該非常大，而且成本不低。

耗費了如此巨大的成本之后，英偉達獲得了夢寐以求的針對AI計算以及氣候、材料科學、高級天氣計算等高帶寬HPC解決方案。根據黃仁勛的介紹，除了HPC$h，面向行業(yè)用戶的新產品，英偉達將集成8個GraceCPU，每個提供500GB/S的內存和500GB/S的NVLink帶寬，8個GraceCPU搭配GPU后將使得內存到GPU的數據讀取帶寬提升至4000GB/S，這對大型或者超級大的AI計算模型來說是非常有利的，尤其是相比PCIe總線一即使是2023年PCIe5.0上線，讀取帶寬翻倍，屆時8個PCIe5.0×16通道的帶寬也應該只有大約256GB/S，即使到時候PCIe6.0都已經發(fā)布并在產品中部署（可能性不大），同等條件下其帶寬也僅僅只有512GB/S，大約只有英偉達GraceCPU+GPU方案的1/8。

影響巨大：重新細分計算市場

從上文的分析可以看出，英偉達推出GraceCPU和相關產品的目的是為了解決AI計算和類似超大規(guī)模計算中存在的帶寬問題。畢竟在現有的x86架構下，帶寬已經嚴重制約了這類計算的發(fā)展。因此從這一點來看，GraceCPU可能能夠重塑現有AI計算的市場，從而更加鞏固英偉達在AI計算市場中的地位。

對英偉達來說，AI計算是其股價飆升的關鍵，并且英偉達現在已經是事實上成為AI行業(yè)的風向標。GraceCPU發(fā)布后，英偉達將在已經非?；鸨腁I計算市場中再次細分出一個區(qū)域一也就是本文提到的，不依賴x86架構，以英偉達和ARM為主要計算架構供應者的全新AI計算生態(tài)圈。

這個AI計算生態(tài)圈解決了之前AI計算對帶寬的“渴求”，通過GraceCPU、英偉達的GPU、NVLink、LPDDR5X

等為大規(guī)模數據、超大規(guī)模數據的AI計算需求提供了解決菌口。對于這類全新廣品，再力口上附加的英偉達CUDA和相關AI的軟件產業(yè)圈，應該很快就可以打開市場，為AI計算的發(fā)展帶來全新的方向。

其次，英偉達的GraceCPU并非針對英特爾和AMD的x86產品，它們在定位上的差距還是比較大的。正如前文所說，英偉達的GraceCPU在性能方面并不是重點，根據英偉達公布的數據，其整數算力目標是在SPECrate2017_int_base中提供300分以上的成績，浮點算力目標值暫時未矢口。GraceCPU的重點依舊是解決CPU和GPU互聯中的帶寬問題，并且英偉達也提到并不排除x86計算市場，英偉達的目標是為所有計算市場都提供可匹配的廣品。另外，目前x86市場已經形成了一個龐大且擁有長久歷史積累的生態(tài)圈，任何企業(yè)面對這個龐然大物首先想到的應該是加入，而不是直接挑戰(zhàn)。

不僅如此，英偉達在CPU上的努力都會成為該公司在未來發(fā)展的助力。畢竟現在擁有一個完整、閉環(huán)的產業(yè)生態(tài)是所有企業(yè)發(fā)展的目的。英特爾在GPU上努力，AMD在軟件和產業(yè)圈上努力，英偉達自然應該在CPU上努力。如果英偉達借助ARM的指令集和生態(tài)圈，在企業(yè)級、服務器以及HPC領域培育出屬于自己的整個生態(tài)系統，那也是非常值得期待的。

第三，英偉達目前也存在很多競爭對手，英偉達需要持續(xù)加強技術護城河。比如英特爾一直在持續(xù)加強CPU在AI方面的計算能力，推出了DLBoost、AVX-512等相關指令集，并且還通過自研GPU進入了并行計算市場。另外，目前全球市場也涌現出很多專注于AI計算的企業(yè)，一些巨頭也開始布局AI計算，比如亞馬遜、谷歌、百度、阿里巴巴等，都在不斷地投產自己的AI計算芯片。在這種情況下，如何守住基本盤并開拓新市場就是英偉達需要考慮的內容。在ARM的加持下，英偉達在CPU端擁有了強力助力，加上自己在GPU端的先天優(yōu)勢就能夠將自己的技術壁壘再次抬高，繼續(xù)成為行業(yè)中不可替代的選擇。

GraceCPU暴露英偉達的野心？

從上文的分析來看，英偉達針對GraceCPU的布局主要有以下意義。首先是重新細分計算市場增加利潤增長點;其次則是有利于加強自己的技術壁壘，同時在CPU計算方面給出自己在未來成長的可能性;另外一點則是可以通過GraceCPU進一步加高自己的技術壁壘，抵抗競爭對手對市場的侵蝕。

因此，在現在這個階段，我認為英偉達在數據中心CPU上的所有操作都還是在為自己蓄力，并不是以正面抗衡英特爾和AMD以及整個x86產業(yè)生態(tài)圈的目的。如果說非要有一些想法的話，那也可能是英偉達在嘗試另起爐灶，想要在x86的束縛下解脫出來，給自己的未來發(fā)展帶來一個新的希望，這也算是其野心暴露的一種端倪吧！