徐昌宇
在上一期文章中,我們介紹了有關(guān)英特爾2021年架構(gòu)日發(fā)布的產(chǎn)品中兩款全新的處理器微架構(gòu)、Alder Lake以及有關(guān)線程調(diào)度器的內(nèi)容。除此之外,英特爾還帶來了新的GPU產(chǎn)品、AMX以及Sapphire Rapids等產(chǎn)品和技術(shù)。接下來,我們就針對(duì)這部分內(nèi)容繼續(xù)進(jìn)行深度解讀。
搶占圖形市場(chǎng)至高地位英特爾Xe-HPG架構(gòu)預(yù)覽
在英特爾Xe架構(gòu)中,面向中高端GPU市場(chǎng)的產(chǎn)品一直猶抱琵琶半遮面。本次架構(gòu)日發(fā)布會(huì)上,英特爾終于給出面向消費(fèi)者市場(chǎng)的Xe-HPG架構(gòu)的部分信息。
從第9代核芯顯卡到第11代核芯顯卡,再到新的Xe-LP核芯顯卡,在保持功耗不變的情況下,英特爾使得這三代產(chǎn)品的性能逐代翻倍。接下來,英特爾將進(jìn)一步把Xe架構(gòu)使用在更高端的產(chǎn)品上,比如今天的主角:Xe-HPG。
英特爾在2021年8月17日就已經(jīng)宣布其GPU產(chǎn)品的英文名、中文名以及架構(gòu)代號(hào)。英特爾的GPU產(chǎn)品正式名稱是英特爾銳炫,英文名稱是Intel ARC。第一代GPU的架構(gòu)代號(hào)為Alchemist也就是“煉金術(shù)師”,后三代產(chǎn)品的架構(gòu)代號(hào)分別是“Battlemage”(戰(zhàn)斗法師)“Celestial”(天人)和“Druid”(德魯伊),全部采用魔幻故事中存在的人物或者職業(yè)名稱。
英特爾認(rèn)為目前GPU的研發(fā)工作需要“軟件優(yōu)先”,要面對(duì)幾十億、上百億晶體管的協(xié)同工作并能夠適應(yīng)各種場(chǎng)合、應(yīng)用的需求,軟件成為整個(gè)開發(fā)的核心,軟件對(duì)應(yīng)的就是需求,這是硬件需要滿足的內(nèi)容。在這種情況下,英特爾進(jìn)行了重大的代碼重構(gòu),全面優(yōu)化了獨(dú)立顯卡產(chǎn)品的本地內(nèi)存使用率,針對(duì)圖形編譯器、內(nèi)存管理、DDI線程、命令解碼、提交以及GPU配置文件等都進(jìn)行了優(yōu)化和更新。其變化包括將游戲加載時(shí)間縮短最多25%,將CPU密集型游戲的吞吐量提高多達(dá)18%等,這些改善意味著英特爾在編譯器操作上更為聰明,比如消除冗余編譯以及線程調(diào)度方面進(jìn)行優(yōu)化等。在API方面,新GPU支持包括DirectX 12、Vulkan這類最先進(jìn)的API(沒有提到OpenGL),另外還支持包括UE系列、Unity系列在內(nèi)的主流游戲引擎。用戶體驗(yàn)方面,英特爾希望帶給用戶的體驗(yàn)包括平滑流暢的游戲、實(shí)時(shí)的游戲串流、更為現(xiàn)代化的用戶界面以及可調(diào)節(jié)的|生能(超頻體驗(yàn))等。
XeSS:英特GPU產(chǎn)品的性能倍增器
在GPU產(chǎn)品發(fā)布之前,英特爾首先宣布了一個(gè)重大創(chuàng)新,那就是全新的XeSS,全稱是Xe Super Sampling,也就是Xe超級(jí)采樣。英特爾將其看作一種在較少的性能損耗下就能實(shí)現(xiàn)4K級(jí)別乃至更高分辨率高質(zhì)量畫質(zhì)輸出的重要技術(shù)。英特爾在發(fā)布會(huì)上演示了多個(gè)DEMO,并且宣布在8月底就可以提交初版的XeSS給游戲開發(fā)商進(jìn)行游戲植入和優(yōu)化。
英特爾用了一張圖來描述XeSS的工作過程。一般來說,類似的技術(shù)比如英偉達(dá)的DLSS或者AMD FSR都是根據(jù)較低分辨率渲染的畫面(比如1080p)的信息,進(jìn)行放大、優(yōu)化后,將其擴(kuò)大為較高的分辨率然后進(jìn)行輸出。這個(gè)過程中,各廠商在具體如何放大和優(yōu)化畫面的技術(shù)上存在一些差異。比如英偉達(dá)的第一代DLSS在放大畫面后可以主動(dòng)尋找邊緣并進(jìn)行一定程度的銳化,而第二代DLSS采用像素對(duì)比或者前后幀對(duì)比進(jìn)行更精細(xì)、準(zhǔn)確的優(yōu)化。
XeSS和第二代DLSS接近,也是利用空間數(shù)據(jù)和時(shí)間數(shù)據(jù)來進(jìn)行組合并形成神經(jīng)網(wǎng)絡(luò)從而提升游戲分辨率??臻g數(shù)據(jù)就是相鄰像素之間的差異,時(shí)間數(shù)據(jù)則是指前一幀畫面和后一幀畫面之間的差異。通過這些差異,神經(jīng)網(wǎng)絡(luò)可以確定放大后的畫面哪些地方需要進(jìn)一步加強(qiáng),最終合成一個(gè)比較合理的放大畫面。英特爾展示了XeSS的部分運(yùn)行畫面,實(shí)際效果還是不錯(cuò)的。當(dāng)然,這只是一些演示DEMO,在真正的游戲環(huán)境中,面對(duì)干差萬別的游戲場(chǎng)景,XeSS可能會(huì)出現(xiàn)一些問題,比如模糊、閃爍、重疊或者錯(cuò)誤的加強(qiáng)等,這還需要英特爾花費(fèi)更多的精力進(jìn)行優(yōu)化。
由于XeSS的計(jì)算涉及到神經(jīng)網(wǎng)絡(luò),所以會(huì)調(diào)用XMX矩陣數(shù)學(xué)單元進(jìn)行處理。這個(gè)單元也是本次發(fā)布會(huì)中首次出現(xiàn)的Xe-HPG中存在的重要模塊。顯然,英特爾正在將更多矩陣數(shù)學(xué)的相關(guān)硬件單元加入CPU或者GPU中,尤其是后者能夠使得XeSS這類技術(shù)迅速完成處理,從而帶來極小的幀時(shí)間開銷。不僅如此,英特爾還在進(jìn)一步努力,希望開發(fā)一種不需要矩陣數(shù)學(xué)硬件的XeSS版本,也就是XeSS DP4a。XeSS DP4a使用4元素矢量點(diǎn)積進(jìn)行處理,其計(jì)算規(guī)模和難度都小了很多,幾乎所有的GPU都支持DP4a類型的計(jì)算,包括英偉達(dá)和AMD的產(chǎn)品,但計(jì)算精度或者計(jì)算速度相比專門的矩陣數(shù)學(xué)存在一定差距。
英特爾在XeSS上的策略類似AMD和英偉達(dá)的結(jié)合,比如AMD的開放策略可能類似XeSS DP4a的部分,也就是所有產(chǎn)品包括競(jìng)爭(zhēng)對(duì)手的產(chǎn)品都可以使用。而更好效果(或者更少性能損失)的部分則屬于XMX專屬(類似于英偉達(dá)的DLSS),也就是英特爾Xe-HPG GPU專屬的。在理想的狀態(tài)下,英特爾在XeSS上的“DP4a+XMX”策略具備更好的兼容性,大幅節(jié)約了游戲人員的開發(fā)工作,可以更廣泛地吸引游戲人員選擇。英特爾還宣布,未來將對(duì)XeSS徹底開源,如果英特爾最終提供了一個(gè)效果和性能兼具的XeSS完成版本并將其開源的話,這對(duì)英偉達(dá)和AMD來說是一個(gè)非常不好的消息。
從現(xiàn)場(chǎng)展示的DEMO來看,XeSS具備了將畫面從1080p分辨率升級(jí)至4K的能力,4K畫面和真4K畫面非常接近,1080p分辨率下模糊的一些紋理細(xì)節(jié)都得以呈現(xiàn)。一種可能是,英特爾XeSS并非只是簡(jiǎn)單放大畫面,而是采用了類似LOD技術(shù)之類的手段來處理一些敏感的紋理部位以獲取更好的圖像質(zhì)量,這顯示XeSS已經(jīng)相當(dāng)成熟了。然而,英特爾在這里沒有給出任何幀數(shù)方面的對(duì)比以及更多復(fù)雜場(chǎng)景的對(duì)比,比如樹林、斜面紋理、運(yùn)動(dòng)場(chǎng)景、復(fù)雜陰影等。
實(shí)際上英特爾這么著急開發(fā)XeSS這樣的技術(shù)有2個(gè)重要的原因:一方面是類似DLSS、FSR、XeSS這樣的技術(shù)的確是性能倍增器,可以在畫質(zhì)損失很?。ɑ蛘邲]有損失)的前提下提供大幅度的性能提升,尤其是在4K顯示器顯著增長(zhǎng)的今天,這項(xiàng)技術(shù)能夠帶給用戶最實(shí)際也是真正可用的4K游戲體驗(yàn),這將極大提高對(duì)應(yīng)GPU產(chǎn)品的市場(chǎng)號(hào)召力。另一方面則是目前GPU的性能嚴(yán)重不足,尤其是在光線追蹤時(shí)代來臨后,幾乎無限的計(jì)算需求面臨有限的計(jì)算資源,使得人們不得不采用這種手段來繞開性能瓶頸。所以,之前一段時(shí)間有部分玩家甚至媒體人員宣稱的所謂GPU性能過剩論是完全錯(cuò)誤的,包括所謂CPU性能過剩論,其實(shí)在現(xiàn)代計(jì)算尤其是人們需要的更高精度、更智能的計(jì)算面前都非常荒謬。所謂過剩,只是當(dāng)前設(shè)備無法達(dá)到下一個(gè)階段的計(jì)算需求從而表現(xiàn)出來的無力感。