匡張平
2021年底,蘋果發(fā)布了全新MacBook Pro,搭載了新的M1系列處理器。和上次發(fā)布的M1系列處理器不同的是,本次蘋果帶來了性能更強(qiáng)的M1 Pro和M1 Max。在發(fā)布會(huì)上,蘋果只是簡(jiǎn)單提及了這兩款處理器的規(guī)格情況,對(duì)于它們的細(xì)節(jié)信息卻閉口不談。那么,M1Pro和M1 Max究竟在規(guī)格、設(shè)計(jì)和性能上有哪些特別之處呢?
蘋果在2020年11月發(fā)布了全新M1處理器之后,人們對(duì)蘋果自研處理器的能力和M1所表現(xiàn)的強(qiáng)悍性能產(chǎn)生了極大興趣,《微型計(jì)算機(jī)》在當(dāng)時(shí)也刊載了《為什么這么強(qiáng)?深度觀察蘋果M1 SoC》一文。在M1之后,蘋果又在2021年11月發(fā)布了M1 Pro和M1Max。相比M1,這次新發(fā)布的兩款處理器有什么樣的變化?它們的設(shè)計(jì)理念有新突破嗎?本文將從不同角度來探尋這兩款處理器的獨(dú)到之處。
進(jìn)入高性能領(lǐng)域:蘋果M1Max和M1 Pro登場(chǎng)
一般來說,用于移動(dòng)設(shè)備的SoC產(chǎn)品在芯片體積、晶體管數(shù)量方面會(huì)有一定限制,這主要是受制于移動(dòng)設(shè)備的散熱、電池容量等外部因素。不過這一次蘋果在MacBook Pro上使用的芯片卻大大出乎人們的意料。
本次蘋果發(fā)布的2個(gè)SoC,其中M1 Pro擁有337億晶體管,10核心CPU和16核心GPU。更令人驚訝的是M1Max,擁有高達(dá)540億晶體管,同樣10核心CPU,但是GPU核心的數(shù)量卻提升至32個(gè)。毫不夸張地說,這是我們目前看到在類似體積和重量的筆記本電腦中所使用的最大SoC,甚至可能在未來很長(zhǎng)一段時(shí)間內(nèi),都不會(huì)有如此巨大的SoC出現(xiàn)在x86平臺(tái)上。
本次蘋果并沒有對(duì)M1系列處理器的CPU、GPU架構(gòu)進(jìn)行更新,因此有關(guān)M1的CPU架構(gòu)——Firestorm和Icestorm的相關(guān)內(nèi)容讀者可以參閱本刊此前發(fā)表的《為什么這么強(qiáng)?深度觀察蘋果M1 SoC》一文。簡(jiǎn)單來說,F(xiàn)irestorm架構(gòu)本身就是面向高性能處理設(shè)計(jì)的CPU架構(gòu),其前端發(fā)射寬度高達(dá)8,是一個(gè)緩存和執(zhí)行資源非常充裕的超大核心,理論性能應(yīng)該在AMD Zen 3和英特爾Sunny Cove之上??紤]到如此強(qiáng)悍的CPU架構(gòu),蘋果將其整合設(shè)計(jì)為一顆高性能SoC也就不難理解了。
接下來,我們先來看M1 Max和M1 Pro兩款芯片,再對(duì)其性能、功耗等情況做進(jìn)一步分析。
M1 Max:無與倫比的強(qiáng)大
M1 Max是蘋果有史以來推出的性能最強(qiáng)大的SoC芯片。官方數(shù)據(jù)顯示,M1 Max SoC集成了大約540億晶體管,10個(gè)CPU核心和32核心GPU。從規(guī)模角度來說,540億晶體管的數(shù)量在民用級(jí)別產(chǎn)品上是非常夸張的,如英偉達(dá)之前發(fā)布的采用Ampere架構(gòu)的GA100 GPU,晶體管數(shù)量也是540億個(gè),但是它在7nm工藝下功耗高達(dá)250W。顯然M1 Max在晶體管規(guī)模上已經(jīng)和目前頂級(jí)的GPU基本相同,考慮到GA100GPU極高的功耗,將類似規(guī)模的芯片用在一個(gè)整機(jī)重量為2.2kg的筆記本電腦中還是很困難的。實(shí)際上,M1 Max除了采用5nm工藝可以在很大程度上降低功耗外,在頻率和整體設(shè)計(jì)上也有很多巧妙之處。
蘋果大方地公布了M1 Max的晶元圖。從設(shè)計(jì)結(jié)構(gòu)來看,蘋果在M1Max的中間靠下的位置放置了4組、每組8個(gè)共計(jì)32個(gè)GPU核心模塊。環(huán)繞GPU核心模塊的是S LC緩存,這里的SLC并不是NAND的一種,而是Systemevel Cache也就是系統(tǒng)級(jí)緩存的縮寫。4組SLC外部則是4組128bit LPDDR5內(nèi)存控制器,因此M1 Max總計(jì)擁有512bit LPDDR5的內(nèi)存位寬。從設(shè)計(jì)上來說,4組內(nèi)存控制器恰好對(duì)應(yīng)4組SLC,SLC緩存的總?cè)萘繛?8MB,用于存放那些正在使用的、可能馬上就需要使用的或者CPU和GPU共同需要使用的數(shù)據(jù),這是蘋果在SoC設(shè)計(jì)上一個(gè)重要的特點(diǎn)。理論上,如此巨大的SLC能夠在一定程度上降低DR AM的流量,起到提高性能的同時(shí)降低芯片功耗的作用。
在GPU模塊的上方,是CPU核心和其他的功能模塊。CPU核心分為8個(gè)性能核心,采用的還是Firestorm架構(gòu)。從晶元圖上可以看出,8個(gè)Firestorm架構(gòu)的C PU核心模塊的中央擁有一個(gè)巨大的共享緩存(L3?存疑),并且每個(gè)CPU核心都帶有自己獨(dú)立的緩存(可能是L2)。緩存上方是4個(gè)Firestorm核心,下方有4個(gè)Firestorm核心—這里需要注意的是,緩存核心左側(cè)和右側(cè)并沒有放置CPU核心,可能是一些互聯(lián)總線、控制單元等。與此相應(yīng)的,蘋果的能效核心也就是Icestorm被放置在Firestorm核心的左側(cè),只有2個(gè),也可以看到采用了非常大面積的緩存設(shè)計(jì),緩存和相關(guān)單元幾乎占據(jù)了整個(gè)核心面積的1/2。
M1 Max在整個(gè)CPU集群設(shè)計(jì)中所采取的思路和目前我們見到的其他移動(dòng)SoC以及英特爾的產(chǎn)品并不相同。它采用了8個(gè)性能核心搭配2個(gè)能效核心的方案,性能核心數(shù)量遠(yuǎn)遠(yuǎn)多于能效核心。相比之下,英特爾剛發(fā)布的第12代酷睿采用的設(shè)計(jì)最多是8個(gè)性能核心搭配8個(gè)能效核心,
大能效核心數(shù)量對(duì)等,ARM的產(chǎn)品則一般會(huì)有1個(gè)性能核心,搭配3個(gè)中等核心和4個(gè)能效核心,性能核心和能效核心的數(shù)量相差距也不大。蘋果的設(shè)計(jì)很獨(dú)特,這可能是由于其不同核心的性能差距非常大(其實(shí)ARM的不同核心性能差距也不?。⑶铱赡芴O果在很大程度更傾向于采用時(shí)鐘門控等技術(shù)來降低性能核心的功耗,而不是將其轉(zhuǎn)移至能效核心和相關(guān)輔助單元有關(guān)。
一些測(cè)試數(shù)據(jù)顯示,M1 Max的性能核心最高頻率可達(dá)3228MHz,這種情況發(fā)生在某一個(gè)集群只有一個(gè)核心活動(dòng)的時(shí)候。M1 Max中擁有8個(gè)性能核心,分為2個(gè)集群,每個(gè)集群有4個(gè)性能核心和12MB L2緩存。值得注意的是,8個(gè)性能核心雖然有4個(gè)在上、4個(gè)在下,但是在實(shí)際工作中,采用的卻是左側(cè)4個(gè)為一個(gè)集群,右側(cè)4個(gè)為另一個(gè)集群,這樣設(shè)計(jì)主要是考慮到所有核心使用L2緩存的距離和方便性。頻率方面,每個(gè)集群中,活動(dòng)的核心數(shù)量越多、頻率越低。比如2個(gè)性能核心活動(dòng)的時(shí)候會(huì)降低到3132MHz,3個(gè)或4個(gè)核心活動(dòng)的時(shí)候會(huì)降低到3036MHz。由于每個(gè)集群都是獨(dú)立控制頻率的,所以可能出現(xiàn)3個(gè)核心的頻率為3036MHz,另外1個(gè)核心由于在另一個(gè)集群且只有它單獨(dú)運(yùn)行,頻率提升至3228MHz。
除性能核心外,能效核心部分M1 Max只有2個(gè),頻率最高可達(dá)2064M Hz。相比之下之前的M1擁有4個(gè)能效核心。這樣設(shè)計(jì)的原因可能是M1 Max面向的用戶更看重性能,能效核心太多反而會(huì)浪費(fèi)晶體管資源。即使如此,蘋果還是為2個(gè)能效核心配備了完整的4MB L2緩存。
除去上述CPU、GPU、SLC以及內(nèi)存控制器外,整個(gè)M1 Max還有大約1/3的區(qū)域功能不詳。這部分區(qū)域主要是蘋果定制的一些功能,比如NPU、視頻編解碼、功耗控制、各類外部接口支持、顯示單元以及這些模塊的緩存等。
在性能參數(shù)方面,蘋果沒有給出太多具體的信息。不過據(jù)外媒測(cè)試的數(shù)據(jù),M1 Max的GPU運(yùn)行頻率為1296MHz,這個(gè)數(shù)據(jù)相對(duì)移動(dòng)SoC來說是不低的,但是依舊低于傳統(tǒng)GPU。傳統(tǒng)GPU的頻率一般在2GHz左右,至少也能達(dá)到1.5GHz~1.7GHz。這可能是M1 Max在功耗上較低的原因之一。在內(nèi)存帶寬方面,蘋果的512bit LPDDR5帶寬高達(dá)408GB/s,目前還不清楚蘋果如何在C PU、GPU以及各大模塊中分配數(shù)據(jù)和帶寬。
從整個(gè)設(shè)計(jì)布局來看,M1 Max中占據(jù)最大面積的就是GPU部分,GPU、SLC和內(nèi)存控制器大約占據(jù)了整個(gè)芯片的一半還多。從某種意義上來說,M1 Max更像是一個(gè)圍繞GPU設(shè)計(jì)的SoC,當(dāng)然相對(duì)而言,其性能輸出的最大部分也是GPU。另外值得注意的是,蘋果給出的M1 Max晶元圖其實(shí)很奇怪,因?yàn)樵谛酒撞砍尸F(xiàn)出雙NPU的布局,但實(shí)際上蘋果的官方資料中只有1個(gè)NPU。當(dāng)然,由于這個(gè)圖片是蘋果給出的,蘋果在沒有說明每個(gè)模塊的作用的情況下,出于商業(yè)或者保密需求可以任意更改,這都是可以理解的。
在內(nèi)存帶寬方面,M1 Max目前支持400G B/s的內(nèi)存帶寬,作為一個(gè)單核心SoC產(chǎn)品來說,這是目前業(yè)內(nèi)最大帶寬的產(chǎn)品。除了G PU或者DPU這樣專注計(jì)算的設(shè)備或者面積大很多的其他類型芯片,沒有任何一個(gè)可以執(zhí)行通用計(jì)算處理的SoC能夠在晶體管規(guī)模上與它相提并論,即使是面積更大的IBM Power 10在晶體管數(shù)量上也僅為180億。
M1 Pro:337億晶體管,依舊強(qiáng)大
M1 P r o比M1 Max少了大約200億晶體管,但實(shí)際規(guī)格只減少了2個(gè)128bit LPDDR5內(nèi)存控制器、2組SLC緩存以及16個(gè)GPU單元,其余部分基本相同。蘋果給出的M1 Pro晶元圖看起來更像是M1 Max晶元圖直接截去了下部16個(gè)GPU和相對(duì)應(yīng)的部分,實(shí)際上如果真的直接用M1 Max的晶元切割的話,那么芯片肯定無法正常運(yùn)行。蘋果似乎又耍了一個(gè)小花招。從規(guī)格來看的話,M1 Pro和M1 Max除了GPU、存儲(chǔ)位寬和SLC緩存外,基本相同。因此本文在這部分就不再贅述了,讀者可以查看表格進(jìn)行了解。
內(nèi)存和緩存:M1 M a x內(nèi)存體系設(shè)計(jì)
我們?cè)賮砜匆恍┍容^有趣的內(nèi)容,比如M1 Max的內(nèi)存、緩存設(shè)計(jì)和功耗。
根據(jù)Anandtech對(duì)M1 Max測(cè)試的結(jié)果,M1 Max相比M1內(nèi)存延遲有大約10%的增加。增加的原因主要是由于LPDDR5內(nèi)存的引入—LPDDR5相比LPDDR4X,整體延遲更高,但是帶寬大增。這也是M1 Max的一個(gè)主要宣傳點(diǎn)。M1 Max芯片的對(duì)外帶寬高達(dá)408GB/s。這個(gè)帶寬是如此巨大,實(shí)際使用中甚至CPU都無法將其全部占滿。測(cè)試數(shù)據(jù)顯示,M1 Max的CPU部分最大能夠?qū)崿F(xiàn)的內(nèi)存帶寬大約為243GB/s,CPU的一個(gè)核心可以接受的最大內(nèi)存帶寬為102GB/s。相比之下,即使是目前最先進(jìn)的第12代酷睿處理器,其在雙通道DDR5 4800的模式下,內(nèi)存帶寬也僅為76.8GB/s,只有在未來可能會(huì)推出的4通道模式下內(nèi)存帶寬才能突破150G B/s,這樣的內(nèi)存帶寬是遠(yuǎn)不如M1 Max的,甚至M1 Max的一個(gè)CPU核心能夠享用的內(nèi)存帶寬就遠(yuǎn)超第12代酷睿桌面版處理器,更不要說所有CPU核心能夠?qū)崿F(xiàn)的243GB/s了,在這一點(diǎn)上,M1 Max展示出了極為優(yōu)異的性能優(yōu)勢(shì)。
當(dāng)然,整個(gè)M1 Max的對(duì)外內(nèi)存帶寬為408GB/s,即使CPU占據(jù)了高達(dá)243GB/s,那么依然還有165GB/s供其他單元使用,尤其是G PU部分。相比CPU而言,GPU部分對(duì)內(nèi)存帶寬更為敏感。更大的可能是,M1 Max的整個(gè)內(nèi)存部分是動(dòng)態(tài)調(diào)用的,也就是根據(jù)需要,為CPU、GPU、NPU以及媒體單元匹配需求,這也是M1 Max能夠?qū)崿F(xiàn)流暢的、高幀率的5K 12bit ProRes RAW格式編解碼,或者多條4K視頻編解碼的原因之一。相比之下,目前英特爾和AMD的處理器在進(jìn)行類似的工作時(shí),由于帶寬限制,只能以個(gè)位數(shù)幀率進(jìn)行操作,遠(yuǎn)遠(yuǎn)不如M1 Pro或者M(jìn)1 Max體驗(yàn)感好。
除了巨大的內(nèi)存帶寬外,M1 Max和M1 Pro的統(tǒng)一內(nèi)存架構(gòu)也值得一提。對(duì)M1 Max這種芯片來說,芯片本身包含了CPU、GPU、大容量緩存以及統(tǒng)一的對(duì)外的內(nèi)存控制器,除了內(nèi)存使用和數(shù)據(jù)傳輸方式的巨大改變外,還意味著整個(gè)系統(tǒng)的功耗在很大程度上得到了顯著降低。在很多情況下,由于統(tǒng)一內(nèi)存架構(gòu)的存在,CPU和GPU之間的數(shù)據(jù)交換可以通過芯片內(nèi)部的總線完成。舉例來說,在PC上,獨(dú)立的CPU和G PU之間的協(xié)同工作需要依靠PCIe總線、內(nèi)存(顯存)控制器、主板上相關(guān)布線和電力支持等等一攬子功能單元,這些單元單獨(dú)看都是必不可少的。這就造成了在傳統(tǒng)PC中模型中,當(dāng)數(shù)據(jù)從CPU端傳遞至GPU端時(shí),整個(gè)流程會(huì)通過CPU、CPU內(nèi)存控制器、內(nèi)存、PC Ie控制器(CPU端)、PCIe控制器(GPU端)、GPU顯存控制器、顯存等七八個(gè)步驟才抵達(dá)GPU,效率低下。并且,CPU和GPU還需要耗費(fèi)相當(dāng)大數(shù)量的晶體管來完成諸如PCIe總線、內(nèi)存控制器等重要的功能模塊,并帶來相應(yīng)的能耗。
在M1 Max上,這個(gè)過程被大大簡(jiǎn)化了。同樣是數(shù)據(jù)從CPU端傳遞至GPU端,這個(gè)流程很可能被簡(jiǎn)化成就是CPU向GPU發(fā)出指令,GPU去統(tǒng)一內(nèi)存讀取數(shù)據(jù)即可。當(dāng)然實(shí)際上這個(gè)過程可能比較復(fù)雜,比如雖然統(tǒng)一內(nèi)存架構(gòu)看起來CPU和GPU的內(nèi)存存放在一起,但由于優(yōu)先級(jí)、隔離區(qū)、數(shù)據(jù)一致性等原因可能存在諸多限制,但最起碼都存放在一起了,至少在物理設(shè)計(jì)上擁有數(shù)據(jù)共享、傳輸方面的優(yōu)勢(shì)。尤其是蘋果還將內(nèi)存和SoC封裝的盡可能靠近,這意味著數(shù)據(jù)讀取距離變短,數(shù)據(jù)傳輸中可能不需要太多校驗(yàn),傳輸所耗費(fèi)的電能也會(huì)更低。
統(tǒng)一內(nèi)存架構(gòu)的存在使得蘋果在內(nèi)存控制器、PCIe總線控制器以及相關(guān)的緩存和功能單元只需要進(jìn)行一次晶體管單元投資,節(jié)約的晶體管資源既可以用于其他模塊,也能夠有效改善整體芯片的性能功耗比。一些數(shù)據(jù)顯示,內(nèi)存控制器和相關(guān)部件在GPU中占據(jù)接近10%~15%的晶體管面積或資源,同時(shí)內(nèi)存控制器和相關(guān)總線的功耗在G P U的使用周期中甚至貢獻(xiàn)了最高可達(dá)30%的電能消耗,這些晶體管資源和能耗空間都是非常寶貴的,尤其是蘋果改用了LPDDR5之后,整體功耗還會(huì)進(jìn)一步降低,更為卓越。
在內(nèi)存之外就是緩存。我們從M1、M1 Pro以及M1 Max的設(shè)計(jì)可以看到,蘋果在SoC的設(shè)計(jì)中是極其關(guān)注緩存、內(nèi)存的位置、容量和速度的。在M1 Max上,SLC的容量高達(dá)48MB,L3緩存容量高達(dá)12MB,此外在NPU、GPU等其他部件上還有大量的緩存存在,這些緩存基本上都是SR AM緩存——要知道在芯片設(shè)計(jì)中,SRAM緩存一個(gè)數(shù)據(jù)位要耗費(fèi)6個(gè)晶體管,這是非常昂貴的代價(jià)。很多廠商比如英特爾和AMD,在計(jì)算單元、緩存、總線等部件中保持謹(jǐn)慎地平衡,尤其是L3緩存一般不會(huì)設(shè)計(jì)太大,并且往往不會(huì)使用L4緩存。但是,緩存的使用自然有其獨(dú)特的作用:更大的緩存顯著降低了數(shù)據(jù)在DR AM和CPU之間反復(fù)傳輸、存儲(chǔ)的次數(shù),極大地減少了CPU、GPU等部件由于等待而帶來的性能損失,并且在很大程度上也降低了功耗,因?yàn)閿?shù)據(jù)傳輸在芯片內(nèi)部完成,不需要內(nèi)存控制器和DR AM過多參與的話,自然整體功耗會(huì)有一定的下降。
功耗控制:沒有明確的TDP值
再來看有關(guān)功耗方面的內(nèi)容。由于蘋果目前沒有給出任何有關(guān)M1Max和M1 Pro在節(jié)能設(shè)計(jì)方面的信息,因此功耗方面的工作情況尚不得而知。根據(jù)Anandtech的測(cè)試結(jié)果,M1 Max和M1 Pro芯片的封裝功耗大約只有200mW,整個(gè)設(shè)備的功耗也不會(huì)超過7.2w。在單線程工作中,芯片功耗大約為11W,多線程中大約運(yùn)行在34~43W之間,CPU部分的功耗墻大約在40~62W之間。如果加入GPU的話,整個(gè)芯片的最大功率大約是92W,功耗墻大約在120W左右,雖然看起來非常高,但是相比PC平臺(tái)的產(chǎn)品還是低了太多,實(shí)測(cè)大約不到PC平臺(tái)接近性能產(chǎn)品的一半。
這里的情況顯示,蘋果可能在很大程度上放棄了TDP之類的標(biāo)注,轉(zhuǎn)而使用單一的溫度數(shù)值來對(duì)處理器進(jìn)行控制。實(shí)際上,針對(duì)現(xiàn)代的CPU、GPU、SoC產(chǎn)品來說,比如英特爾或者AMD、英偉達(dá)的CPU、GPU,甚至高通的SoC產(chǎn)品,TDP數(shù)值的參考意義在逐漸下降。舉例來說,在頻率加速等相關(guān)技術(shù)存在的情況下,TDP值在很大程度上并不能真實(shí)反映設(shè)備的運(yùn)行情況。比如英特爾的處理器即使是酷睿i9,TDP功耗一般不超過100W,但實(shí)際運(yùn)行功耗尤其是睿頻的瞬間可以超過200W。并且,在電能滿足的前提下,這些產(chǎn)品性能釋放的時(shí)間長(zhǎng)短和所能達(dá)到的頻率高度只和溫度相關(guān),只要散熱條件足夠好、溫度足夠低,那么芯片就能在設(shè)計(jì)范圍內(nèi)、盡可能長(zhǎng)時(shí)間的運(yùn)行在最高頻率(往往顯著高于額定頻率)下。
對(duì)M1 Max和M1 Pro而言,可能蘋果認(rèn)為只要溫度控制的足夠好,處理器就可以在需要的情況下盡可能長(zhǎng)的時(shí)間內(nèi)運(yùn)行在盡可能高的頻率上。當(dāng)然,散熱系統(tǒng)的能力最終還是有極限的,這就帶來了所謂功耗墻的概念,這是實(shí)際運(yùn)行中達(dá)到了溫度上限也就是散熱設(shè)備的極限后系統(tǒng)所消耗的功耗值?,F(xiàn)在我們也很好奇,如果采用一些比較極端的散熱手段,M1 Max和M1 Pro在計(jì)算任務(wù)持續(xù)滿載的情況下,是否還能進(jìn)一步提升頻率或者只是維持在目前的最高頻率狀態(tài)下持續(xù)工作,否則一旦溫度值觸及了高點(diǎn)或計(jì)算任務(wù)完成,頻率和溫度都會(huì)迅速下降—在節(jié)能設(shè)計(jì)上,蘋果具有非常顯著的優(yōu)勢(shì),任何不工作的部件都會(huì)迅速進(jìn)入休眠狀態(tài)并最大限度地降低自己的能耗,值得稱贊。
性能:CPU多線程性能令人驚訝,GPU生產(chǎn)力表現(xiàn)更佳
最后再來看看性能方面的內(nèi)容。還是引用Anandtech的數(shù)據(jù),M1 Max和M1 Pro的CPU單線程性能和之前的M1處理器幾乎沒有差異,這意味著蘋果M1系列SoC在架構(gòu)上都是一樣的,架構(gòu)的更改和單核性能的提升可能要等到M2系列才能有顯著改變了。
但是,由于核心數(shù)量的增多,M1 Max和M1 Pro的多線程性能得到了爆發(fā)式的提升。實(shí)際測(cè)試顯示,由于性能核心的數(shù)量更多并且顯然在架構(gòu)設(shè)計(jì)、緩存、內(nèi)存方面存在顯著優(yōu)勢(shì),M1 Max和M1 Pro的多線程性能相比移動(dòng)端最強(qiáng)的酷睿i9-11980HK以及AMD銳龍 5985HS而言,絕大部分項(xiàng)目都能取得顯著領(lǐng)先,尤其是內(nèi)存性能測(cè)試數(shù)據(jù)甚至領(lǐng)先一倍以上。這顯示了更多的性能核心帶來的多線程優(yōu)勢(shì)以及蘋果在內(nèi)存架構(gòu)方面的優(yōu)勢(shì),少部分項(xiàng)目存在一定劣勢(shì),但落后幅度很小。整體來說,M1 Max和M1Pro的性能還是值得夸耀的。
GPU方面,M1 Max在理論性測(cè)試中的性能令人驚訝,甚至一度比肩英偉達(dá)RTX 3080移動(dòng)版。不過實(shí)際游戲測(cè)試中表現(xiàn)一般,遠(yuǎn)不如RTX 3080,甚至還略弱于RTX 3060。實(shí)際上在這里的問題是,很多游戲采用X86指令集進(jìn)行開發(fā),因此在M1 Max和M1 Pro上運(yùn)行時(shí)需要轉(zhuǎn)譯,這個(gè)過程帶來了比較顯著的性能損失。當(dāng)然,在G PU優(yōu)化方面蘋果可能也存在一些問題。另外,蘋果的GPU目前不支持光線追蹤等高級(jí)技術(shù),這是蘋果顯著落后PC的地方。
雖然游戲表現(xiàn)一般,但是在專業(yè)工作能力上,比如DaVinci Resolve、DaVinci Resolve等測(cè)試中,M1 Max和M1Pro又表現(xiàn)出極為卓越的性能,測(cè)試成績(jī)甚至高于目前頂級(jí)的桌面PC。這意味著對(duì)專業(yè)工作人員來說,M1 Max和M1 Pro依舊是非常值得選擇的。
總結(jié):蘋果生態(tài)的又一次巔峰之作
M1 Max和M1 Pro強(qiáng)悍的CPU性能、優(yōu)秀的G PU專業(yè)性能、獨(dú)特的統(tǒng)一內(nèi)存架構(gòu)、不惜工本的緩存體系和優(yōu)秀的功耗控制,都證明著蘋果領(lǐng)先的芯片設(shè)計(jì)、生產(chǎn)能力。可以說,它們是蘋果生態(tài)的又一次巔峰之作。
那么,蘋果為什么能夠做出如此多獨(dú)特的設(shè)計(jì)呢?從芯片架構(gòu)和技術(shù)的角度來看,蘋果拋棄了在PC上常見的CPU搭配GPU的架構(gòu),轉(zhuǎn)而采用了大核心SoC的結(jié)構(gòu),這種結(jié)構(gòu)能夠避開不少傳統(tǒng)PC架構(gòu)的缺陷。但是這種路線也帶來了高昂的成本和難以進(jìn)一步擴(kuò)張性能的隱憂。蘋果在5nm的工藝下使用了540億晶體管,不說芯片前期設(shè)計(jì)投入費(fèi)用,光是制造的成本和良率等問題就會(huì)令很多企業(yè)望而卻步,這也是蘋果給出多種不同規(guī)格的M1 Max和M1 Pro的原因之一:部分缺陷芯片可以屏蔽一部分模塊、降低性能級(jí)別使用。另外,蘋果在目前的工藝層級(jí)下很難進(jìn)一步大幅度提升性能,目前的芯片已經(jīng)足夠大,蘋果短期內(nèi)也不會(huì)采用Chiplet方案,因此其產(chǎn)品的性能上限基本上就是M1Max級(jí)別,這相比英特爾和AMD的產(chǎn)品在性能上限方面還是低了不少。
無論怎么說,M1 Max和M1 Pro依舊是目前最卓越的芯片產(chǎn)品之一。和PC產(chǎn)業(yè)不同的是,蘋果現(xiàn)在幾乎沒有硬件架構(gòu)上的包袱,蘋果作為一個(gè)擁有獨(dú)立生態(tài)系統(tǒng)的企業(yè),可以在生態(tài)運(yùn)作、上下游產(chǎn)業(yè)方面有自己更為獨(dú)立、獨(dú)特的運(yùn)作方式,這也是M1 Max和M1 Pro設(shè)計(jì)成目前的形態(tài)、擁有現(xiàn)在的技術(shù)和架構(gòu)的原因之一。