• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      比iPad還大的芯片黑馬 它會(huì)是Al芯片發(fā)展的未來方向嗎?

      2020-04-14 04:41:41李實(shí)
      微型計(jì)算機(jī) 2020年4期
      關(guān)鍵詞:晶圓內(nèi)核區(qū)塊

      李實(shí)

      從第一個(gè)現(xiàn)代集成電路誕生距今已有62年。這么多年以來,人們獲得更高性能產(chǎn)品的方法一直沒有改變,那就是使用更多的晶體管進(jìn)行更高密度的計(jì)算。令人欣慰的是,半導(dǎo)體制造技術(shù)的發(fā)展支撐了集成電路對(duì)晶體管數(shù)量幾乎無盡的需求,并誕生了摩爾定律這樣業(yè)界統(tǒng)-的共識(shí), 不斷驅(qū)動(dòng)計(jì)算能力一步步增強(qiáng)。但是,在Al計(jì)算進(jìn)一步發(fā) 展后,人們發(fā)現(xiàn)Al計(jì)算對(duì)算力的渴求更勝以往。在半導(dǎo)體制造技術(shù)進(jìn)步速度逐漸放緩的今天,如何進(jìn)一步獲得更高算力的芯片就成為Al行業(yè)共同的問題。路線開始分叉,押大還是押?。恳患颐麨镃erebras的公司帶給我們一個(gè)新的可能一那就是越大越好,一個(gè)12英寸的晶圓.上只容納一顆完整功能的Al計(jì)算芯片。這就是Cerebras Wafer Scale Engine (WSE),今天本文就和你一起來了解它的秘密。

      AI計(jì)算中的深度學(xué)習(xí)計(jì)算已經(jīng)是目前最重要的計(jì)算負(fù)載之一。在過去,那些只有人類大腦才能完成的任務(wù),如今有很多都可以使用計(jì)算機(jī)以人類或者超過人類的效率來執(zhí)行。根據(jù)OpenAI的報(bào)告顯示,自2012年以來,AI計(jì)算中所使用的的計(jì)算量呈現(xiàn)出指數(shù)增長(zhǎng)的態(tài)勢(shì),計(jì)算需求平均每三四個(gè)月就可以翻一番。從2012年到2018年,全球的整個(gè)計(jì)算量指標(biāo)增長(zhǎng)了30萬倍。

      AI計(jì)算需求的暴增,和我們熟悉的摩爾定律所驅(qū)動(dòng)的半導(dǎo)體產(chǎn)業(yè)速度之間產(chǎn)生了一個(gè)顯而易見的矛盾。如今的摩爾定律已經(jīng)從之前的18個(gè)月放緩到每2年到3年才使得半導(dǎo)體單位面積的晶體管數(shù)量翻倍,并且在可預(yù)見的未來,這樣的放緩速度還將繼續(xù)下去。因比,半導(dǎo)體廠商在面對(duì)市場(chǎng)的性能需求時(shí),往往會(huì)選擇通過其他手段來增加芯片有效工作面積,提高性能。

      現(xiàn)在業(yè)內(nèi)對(duì)此的態(tài)度普遍是傾向兩種看法,一種是選擇小芯片聯(lián)合提高性能,也就是Chiplet方案,這種方案比較容易在民用和商用市場(chǎng)之間取得平衡,不過如何連接諸多小芯片并取得更好的性能,業(yè)內(nèi)依舊有很多討論,當(dāng)然這也并非本期的話題,暫且不表。

      另—種看法則是繼續(xù)做大芯片,這對(duì)一部分需要大規(guī)模并行計(jì)算的用戶來說是非常友好的,比如超級(jí)計(jì)算機(jī)。原因也很簡(jiǎn)單,芯片面積越大,相對(duì)應(yīng)所涉及的外圍材料就越少。舉例來說,一個(gè)傳統(tǒng)尺寸的GPU芯片如果可以提供1TFLOPS算力的話,那么擴(kuò)大它的面積到現(xiàn)有芯片的4倍,其算力在合理的情況下還可以繼續(xù)提升2~3倍。甚至芯片面積進(jìn)一步擴(kuò)大,直接將外圍的DRAM、SRAM等集成在芯片上,由此帶來的延遲降低、帶寬增加等因素,性能還將繼續(xù)提升。同時(shí),節(jié)約了多個(gè)小芯片系統(tǒng)所需要的PCB、供電、封裝等不同組件的成本,綜合考慮,甚至可能帶來更低的單位性能價(jià)格。

      不過,芯片尺寸并不僅僅由廠商自行決定,它還受到很多其他因素的限制。比如之前英偉達(dá)、IBM和英特爾就很難推出尺寸超過800mm2的芯片,這是因?yàn)榧词故乾F(xiàn)在,i193型號(hào)的光刻步進(jìn)器最大可支持刻錄的芯片尺寸為短邊26mm,長(zhǎng)邊33mm,面積最大可接受858mm2。因此,繼續(xù)擴(kuò)大芯片尺寸也需要考慮設(shè)備允許等問題。

      因此,以整體的方式(非片上拼接)制造超出常規(guī)尺寸的芯片需要更多新工具的支持。不過依舊存在一些替代方法可以達(dá)成制造更大芯片的目的,這就是晶圓級(jí)集成( Wafer-scaleInteg ration,簡(jiǎn)稱為WSI)的單芯片制造方法,采用這種方法制造的芯片尺寸和晶圓本身最大直徑十分接近,在12英寸晶圓上能呈現(xiàn)“巨無霸”芯片的效果。

      缺陷控制:初探晶圓級(jí)集成WSI

      WSI能制造如此巨大的芯片,看起來非常美好。但實(shí)際上,WSI雖然能夠大幅度提升芯片的尺度從而提升性能,相應(yīng)的也面臨著巨大的困難。縱觀歷史,WSI在過去的50年時(shí)間中被多個(gè)廠商實(shí)踐過,但成功者寥寥。失敗的主要原因除了資金、市場(chǎng)外,技術(shù)上問題也頗多,包括超大尺度的芯片的設(shè)計(jì)、制造、封裝、散熱等,還有致命的晶圓缺陷。所謂晶圓缺陷,是指高純度硅晶圓上那些存在雜質(zhì)或晶體生成異常的區(qū)域。 作為一個(gè)晶圓尺寸級(jí)別的芯片,對(duì)電路正確的要求非常高,理論上任何電路錯(cuò)誤都可能導(dǎo)致整個(gè)芯片運(yùn)作失敗。但是由于人類目前工程技術(shù)制約和物理規(guī)律限制,任何晶圓都不可能100%完美,總會(huì)有缺陷的存在。因此,WSI如何控制晶圓缺陷(甚至包括制造缺陷)就在很大程度上制約著它的成敗。

      晶圓缺陷并不是一個(gè)新話題,它在普通的芯片制造中也存在,并引發(fā)了良率和成本等問題。為了更好地理解WSI技術(shù),本文先對(duì)普通芯片制造制造過程和缺陷處理方式進(jìn)行簡(jiǎn)單描述。

      一般來說,普通芯片設(shè)計(jì)時(shí),工程師在芯片設(shè)計(jì)階段就能確定芯片所使用的工藝代次,然后和芯片制造廠商共同確定所設(shè)計(jì)芯片的面積尺寸。在得到這些數(shù)據(jù)后,使用晶圓的面積除以目標(biāo)芯片的面積,就得到了一張晶圓可以獲得多少芯片的參考數(shù)據(jù)。根據(jù)這個(gè)參考數(shù)據(jù),芯片制造廠會(huì)在晶圓上根據(jù)芯片的尺寸給出最佳的布局方式,完成之后,晶圓看起來就像劃上了規(guī)律的方格。然后,芯片制造廠會(huì)根據(jù)布局的方格,利用同樣方格布局的掩模,使用光刻工藝進(jìn)行不斷地重復(fù)刻制、沖洗、繼續(xù)重復(fù)、沖洗等,直到形成了所需要的一個(gè)個(gè)成功的芯片圖案。接下來,廠商會(huì)根據(jù)之前設(shè)定的方格邊線,切割并分開一個(gè)個(gè)芯片,再通過檢測(cè)手段確定不能工作的芯片。

      對(duì)這些已經(jīng)切割的完成、但又不能正常工作的芯片而言,迎接它們的通常的做法是直接報(bào)廢,或者還可以屏蔽一部分功能后再廉價(jià)銷售。這種情況下,使用被拋棄報(bào)廢的芯片數(shù)量除以所有生產(chǎn)出的芯片數(shù)量,就得到了某種意義上的良率數(shù)據(jù)(不同情況下良率計(jì)算需求可能不同,比如是否納入屏蔽芯片等)??梢钥吹?,傳統(tǒng)的芯片制造依靠切割芯片并拋棄一部分,來實(shí)現(xiàn)對(duì)晶圓缺陷和制造缺陷的控制。

      對(duì)WSI來說,拋棄、切割等方法都無法使用,畢竟作為一整塊芯片,難以切割部分區(qū)域。不過轉(zhuǎn)換思維來看,所謂的拋棄,只是壞塊部分在芯片意義上不存在而已,等同于存在但不工作。對(duì)WSI來說,在芯片設(shè)計(jì)上也采用分區(qū)設(shè)計(jì)的方案,區(qū)塊之間相對(duì)獨(dú)立,且存在可以單獨(dú)關(guān)閉或者開啟某個(gè)區(qū)域的控制電路等,就可以在一定程度上避免“一個(gè)老鼠屎壞一鍋湯”的問題。實(shí)際上,WSI技術(shù)解決晶圓缺陷的方法,正是通過設(shè)計(jì)階段提前布局,在發(fā)現(xiàn)缺陷塊后,通過改變芯片本身的工作邏輯來避開損壞的區(qū)域。具體實(shí)現(xiàn)上,設(shè)計(jì)人員會(huì)使用子電路的網(wǎng)格圖案和適當(dāng)?shù)奶幚磉壿?,在受損電路周圍“重新布線”,因此即使晶圓區(qū)域上有不少的錯(cuò)誤,但只要有足夠的子電路,那么整個(gè)芯片即使存在故障也可以使用。

      在解決了缺陷控制問題后,WSI技術(shù)的威力終于可以爆發(fā)出來了。由于不需要切割,WSI產(chǎn)生的整個(gè)晶圓最終會(huì)被作為一個(gè)芯片看待,因此在制造過程上,WSI可以避免受到單芯片尺寸的限制。目前尚未有詳細(xì)的資料說明WSI光刻過程是如何進(jìn)行的,不過,考慮到WSI技術(shù)的特殊性,廠商完全可以利用現(xiàn)有的設(shè)備和技術(shù),對(duì)芯片上不同部分分區(qū)制造,當(dāng)然,WSI可能需要耗費(fèi)更多的、昂貴的掩模,但是和整個(gè)芯片的性能以及最終的單位性能價(jià)格相比,應(yīng)該還是值得的。

      此外,WSI的發(fā)展歷史也值得了解。WSI的初出茅廬是在1970年到1980年,當(dāng)時(shí)主流晶圓還是2.5英寸,包括E匕女口TI和ITT等公司都嘗試實(shí)現(xiàn)WSI技術(shù),但是最終均告失敗。真正在WSI技術(shù)上有所突破的是一家名為TrilogySystems的公司,這家公司在1980年獲得了2.3億美元的投資,開發(fā)了名為Trilogy Systems的WSI芯片,這是一個(gè)在lOOmm晶圓上實(shí)現(xiàn)的“超級(jí)計(jì)算機(jī)”,并且成功制造出了樣品,但是隨后由于各種原因包括自然災(zāi)害、資金不足等,產(chǎn)品在1985年宣布研發(fā)終止。1989年,英國一家公司也推出了WSI技術(shù)的產(chǎn)品,不過集成的是內(nèi)存顆粒,一張晶元集成2021Mb內(nèi)存,在當(dāng)時(shí)也是天文數(shù)字了。

      從發(fā)展歷史來看,WSI的研發(fā)道阻且長(zhǎng),對(duì)Cerebras公司來說,他們對(duì)此情況應(yīng)該有充分的估計(jì)和預(yù)測(cè)。那么.Cerebras Wafer Scale Engine又是如何一款產(chǎn)品呢?

      史上最大芯片的誕生

      Cerebras Wafer Scale Engine發(fā)布于2019年的Hot Chip 31,其尺寸高達(dá)半平方英尺,也就是長(zhǎng)寬分別為215mmx215mm。據(jù)Cerebras介紹,這款芯片由300mm(12英寸)晶圓制造完成,采用的是其合作伙伴TSMC的16nm工藝。

      在這里有一個(gè)數(shù)學(xué)問題需要完成。因?yàn)?00mm2的晶圓最大只能容納邊長(zhǎng)為212.lmm的正方形,那么215mm的邊長(zhǎng)是從何而來呢?實(shí)際上,WSE并不是徹底的正方形,而是帶有圓角的形狀。公布的尺寸是其邊長(zhǎng)最長(zhǎng)尺寸的數(shù)據(jù)。

      和前文所說的一樣,為了避免缺陷而導(dǎo)致整個(gè)芯片都無法工作,Cerebras WSE采用了分區(qū)設(shè)計(jì)的方法。整個(gè)芯片包含了84個(gè)相同的計(jì)算區(qū)塊,排列方式為7x12的網(wǎng)格狀。每個(gè)區(qū)塊的長(zhǎng)度和寬度分別為17.lmm和29.7mm,面積為510mm2。僅從這個(gè)面積來看,WSE的每個(gè)區(qū)塊都堪比一個(gè)中高端GPU的大小。此外,Cerebras還宣稱考慮到冗余和避免缺陷等原因,他們還額外設(shè)計(jì)了1%-1.5%的內(nèi)核(后文對(duì)此還會(huì)有詳細(xì)介紹)。在計(jì)算內(nèi)核方面,84個(gè)區(qū)塊帶來了總計(jì)約40萬個(gè)Al計(jì)算內(nèi)核,如此龐大的數(shù)量,令人咋舌。

      除了上述基礎(chǔ)信息外,還有一些內(nèi)容值得關(guān)注。有關(guān)WSE的AI內(nèi)核,整個(gè)芯片上內(nèi)核數(shù)量大約有40余萬個(gè),全部都被設(shè)計(jì)用于執(zhí)行AI計(jì)算,并且它們完全獨(dú)立且可編程。此外,內(nèi)核在工作流程上就被設(shè)計(jì)為獨(dú)立的,它只執(zhí)行自己的數(shù)據(jù)流,和周圍的工作無關(guān)。不過由于AI計(jì)算在不斷發(fā)展,因此內(nèi)核設(shè)計(jì)需要一定的靈活性以支持未來的新功能和新操作。Cerebras表示,自己設(shè)計(jì)的ISA既有包括加載、存儲(chǔ)、分支和算術(shù)等在內(nèi)的通用操作,同時(shí)也包含了張量操作。一般來說,通用操作是一種標(biāo)準(zhǔn)的CPU操作,張量操作則面向Al計(jì)算。此外,Cerebras還添加了固定張量操作,作為整個(gè)WSE芯片上最重要的部分,芯片的張量操作直接接受2D和3D張量,類似于傳統(tǒng)CPU上指定寄存器的過程。

      除了傳統(tǒng)操作和張量操作外,AI核心還能夠支持硬件加速稀疏計(jì)算。內(nèi)核將執(zhí)行數(shù)據(jù)流調(diào)度,所有的計(jì)算都由數(shù)據(jù)出發(fā)。內(nèi)核在等待有用數(shù)據(jù)時(shí)可能會(huì)存在停頓延遲,從而過濾掉稀疏矩陣中的0數(shù)據(jù),來避免不必要的乘加操作等處理。目前來看,只要這類計(jì)算能夠跳過不需要的數(shù)據(jù),并繼續(xù)任何其他類型的工作,那么這種設(shè)計(jì)就可以被看做是一項(xiàng)新的功能特性。

      Cerebras還給出了一張圖片用于展示一個(gè)可編程AI核心的內(nèi)部結(jié)構(gòu)。從這張圖可以看出,WSE的AI核心數(shù)據(jù)交換開關(guān)位于計(jì)算核心四周,也就是說一個(gè)計(jì)算核心可以和周圍四個(gè)計(jì)算核心交換數(shù)據(jù),整個(gè)芯片都應(yīng)該以類似mesh的方式運(yùn)作。數(shù)據(jù)進(jìn)入核心后,先經(jīng)過數(shù)據(jù)流觸發(fā)單元,將指令分為數(shù)據(jù)指令和控制指令,然后分別送入SRAM、寄存器或者FMAC執(zhí)行單元以及張量控制中心。在這里, Cerebras標(biāo)識(shí)所有路徑都是可用的,因此計(jì)算任務(wù)會(huì)根據(jù)不同的類型,進(jìn)行排隊(duì)等待或者直接計(jì)算。在計(jì)算完成后,數(shù)據(jù)再由最短路徑經(jīng)過數(shù)據(jù)交換開關(guān)直接送出。

      在性能方面,由于WSE內(nèi)部集成了84個(gè)超過500mm2的計(jì)算區(qū)塊,因此整個(gè)芯片所能提供的算力是極為驚人的。當(dāng)然,這也是Cerebras設(shè)計(jì)它的l初衷,因?yàn)橹挥羞@么龐大的集成量和計(jì)算量,才能大幅度提升性能并和傳統(tǒng)的分立式“小”芯片GPU進(jìn)行抗衡并取得商業(yè)上的成功。下表顯示了WSE和之前英偉達(dá)發(fā)布的V100計(jì)算卡的性能差距。

      在規(guī)模和性能之外需要解決的問題就是:如何將WSE交到用戶手上?由于這個(gè)芯片如此巨大,普通的設(shè)備根本不可能,也無力容納它。因此,Cerebras還必須要設(shè)計(jì)出一整套的解決方案來滿足該芯片的實(shí)際使用和銷售。

      不過,由于保密方面的原因,Cerebras并沒有給出太詳細(xì)的信息來說明WSE是如何運(yùn)作的。就目前而言,整套系統(tǒng)將采用一個(gè)15U機(jī)箱用于容納芯片本身和輔助設(shè)備,而另一個(gè)機(jī)箱用于安裝電源和一些其他部件。最終的產(chǎn)品可以使用lOOGbE的網(wǎng)絡(luò)連接其他的加速器,從而組成一套運(yùn)行系統(tǒng)。

      Cerebras還給出了一個(gè)表格用于對(duì)比Cerebras WSE Box和英偉達(dá)DGX-2的差異(見表2)。

      WSE芯片結(jié)構(gòu)一覽:全2D Mesh架構(gòu)

      在了解了芯片本身的一些信息和整個(gè)設(shè)備后,接下來深入這個(gè)芯片的內(nèi)部,來看看WSE內(nèi)部的設(shè)計(jì)信息。

      和前文所述的相同,WSE計(jì)算區(qū)塊內(nèi)部的所有計(jì)算核心都使用了統(tǒng)一的2D Mesh架構(gòu),這種架構(gòu)可以帶來本地通訊的低延遲,Cerebras將它稱之為Swarm架構(gòu),同時(shí)宣稱這種結(jié)構(gòu)經(jīng)過了充分的AI計(jì)算優(yōu)化,是一種細(xì)粒度、全硬件、高帶寬、低延遲的網(wǎng)狀連接架構(gòu)。具體來說,在宏觀結(jié)構(gòu)上,WSE的內(nèi)部連接使用了完全可配置的結(jié)構(gòu),這一結(jié)構(gòu)依賴于細(xì)粒度的單字消息傳遞,所有的通訊都在硬件內(nèi)部完成,因此不會(huì)存在任何軟件方面的開銷。

      不僅如此,Swarm架構(gòu)的2D Mesh結(jié)構(gòu)不僅用于計(jì)算核心的內(nèi)部通訊,還為相同的計(jì)算區(qū)塊外部通訊提供支持。Cerebras在所有的計(jì)算區(qū)塊間都采用了Mesh通信技術(shù)。通過一個(gè)統(tǒng)一的2D網(wǎng)絡(luò),將所有的計(jì)算區(qū)塊、計(jì)算核心連接在一起。

      在制造方面,Cerebras通過和TSMC進(jìn)行合作,解決了芯片之間的連接問題。技術(shù)方面,兩者聯(lián)手重新調(diào)整了劃片槽的功能。所謂劃片槽,是指兩個(gè)相鄰的計(jì)算區(qū)塊之間的機(jī)械屏障,通常用于測(cè)試結(jié)構(gòu),并最終用來固定芯片。在臺(tái)積電的幫助下,其劃片槽內(nèi)加入了金屬沉積,使得Cerebras能夠無縫地將2D Mesh連通網(wǎng)絡(luò)擴(kuò)展到整個(gè)巨大的芯片上。換句話來解釋的話,所有核心區(qū)塊內(nèi)部的通訊可以在核心區(qū)塊之間進(jìn)行拓展。由于計(jì)算區(qū)塊內(nèi)的驅(qū)動(dòng)信號(hào)可以直接轉(zhuǎn)換為區(qū)塊間的計(jì)算信號(hào),這使得核心區(qū)塊之間的通訊功耗直接降低了一個(gè)數(shù)量級(jí)。

      在存儲(chǔ)器方面,WSE和其他所有的設(shè)計(jì)存在的差異在于沒有布置外部存儲(chǔ)單元。WSE將存儲(chǔ)單元分布在片上各個(gè)計(jì)算區(qū)塊中,采用SRAM進(jìn)行存儲(chǔ)。從結(jié)構(gòu)上來看,這種設(shè)計(jì)和具有大緩存的NPU沒有什么差異,但是這種設(shè)計(jì)在如此龐大的芯片上帶來的是海量的存儲(chǔ)空間。整個(gè)WSE的40萬個(gè)計(jì)算核心總計(jì)帶來了18Gb的內(nèi)存容量以及9Pb/s的帶寬,這意味著所有的數(shù)據(jù)都可以存放在本地芯片上直接進(jìn)行存取,因此無需像傳統(tǒng)處理器那樣不斷地通過內(nèi)存總線進(jìn)行數(shù)據(jù)交換,這也帶來了大量能源的節(jié)約,并同時(shí)提供了極高的性能。

      軟件方面,Cerebras表示目前已經(jīng)提供了一個(gè)軟件系統(tǒng),用于驅(qū)動(dòng)整個(gè)WSE芯片。現(xiàn)有的系統(tǒng)支持主流的ML框架,E匕女口PyTo rch和TensorFlow。Cerebras的軟件系統(tǒng)能夠?qū)鹘y(tǒng)框架式的網(wǎng)絡(luò)轉(zhuǎn)換為執(zhí)行自己專屬的布局和數(shù)據(jù)路由的方式。Cerebras宣稱,這個(gè)專用的軟件系統(tǒng)可以根據(jù)計(jì)算的任務(wù)、大小和帶寬進(jìn)行調(diào)整,然后將調(diào)整后的結(jié)果最佳化適配至芯片的每一部分,從而使整個(gè)芯片高效率的運(yùn)行。

      解決“大”的問題:缺陷、熱脹冷縮和散熱

      除了上述的優(yōu)勢(shì)和特色外,WSE還存在一些問題和缺陷。下面本文簡(jiǎn)單列出一些。

      冗余核心和鏈路:直面缺陷,解決問題

      在這里需要考慮工藝和晶圓固有缺陷的問題。前文我們已經(jīng)描述了一些有關(guān)WSI芯片如何面對(duì)缺陷的內(nèi)容。具體到WSE這款產(chǎn)品上,假設(shè)TSMC的16nm FF+工藝成熟度已經(jīng)非常令人滿意了,但是依舊會(huì)存在晶圓固有缺陷和工藝缺陷,難免出現(xiàn)—些壞點(diǎn)和壞塊。

      對(duì)于這個(gè)問題,Cerebras設(shè)計(jì)芯片時(shí)已經(jīng)充分考慮這一點(diǎn),其在設(shè)計(jì)之初就加入了1000個(gè)額外的冗余計(jì)算內(nèi)核和大量的冗余光纖鏈路,這些冗余部分共同構(gòu)成了整個(gè)WSE架構(gòu)。出于冗余的原因,每個(gè)晶圓都包含了1%~1.5%的額外AI核心(前文曾提到這個(gè)數(shù)據(jù))。值得注意的是,冗余核心始終以冗余的狀態(tài)存在。換句話來說,當(dāng)某個(gè)區(qū)塊沒有存在缺陷時(shí),僅僅禁用冗余核心即可,受缺陷影響的區(qū)塊將判斷情況,是否可以使用本地冗余核心來替換缺陷核心,如果可以的話,替換的同時(shí)會(huì)啟動(dòng)用冗余鏈路以建立新的本地mesh連接結(jié)構(gòu)。不過,Cerebras沒有說明如果存在區(qū)塊異常會(huì)如何處理,不過如此巨大的芯片可能會(huì)考慮關(guān)閉部分損壞區(qū)塊。在采用這項(xiàng)技術(shù)后,Cerebras可以極大地提高如此巨大芯片的良率。對(duì)軟件來說,由于軟件將整個(gè)芯片看作一個(gè)完整的計(jì)算結(jié)構(gòu),因此并不會(huì)影響軟件方面的操作。

      熱量:熱脹冷縮以及特殊封裝

      除了缺陷問題外,如此巨大的芯片面臨的功耗和熱量問題依1日令人棘手。尤其是硅晶圓和PCB之間的熱膨脹系數(shù)的差異,經(jīng)過熱脹冷縮后會(huì)產(chǎn)生機(jī)械應(yīng)力,在極端情況下會(huì)撕裂晶圓導(dǎo)致產(chǎn)品報(bào)廢或者壽命大幅度縮短。

      為了解決這個(gè)問題,Cerebras設(shè)計(jì)了一個(gè)特殊的定制連接器,這個(gè)特殊的連接器可以夾在晶圓和PCB之間,連接器的設(shè)計(jì)能夠吸收或者抵擋多余的應(yīng)力,保持芯片和PCB的連接有效性,此外,Cerebras還需要更為謹(jǐn)慎地處理芯片的邊緣,由于芯片尺寸過于巨大,因此更多的應(yīng)力變化發(fā)生在芯片邊緣部分,處理不當(dāng)可能會(huì)造成災(zāi)難性后果。

      當(dāng)然,依舊是由于尺寸過于巨大,這款芯片也不存在所謂的標(biāo)準(zhǔn)封裝解決方案,也沒有使用TSMC的標(biāo)準(zhǔn)設(shè)計(jì)流程。Cerebras開發(fā)了幾乎所有的封裝和測(cè)試流程,包括定制的封裝、定制的PCB、定制的連接器、定制的冷卻板等。這些定制設(shè)施提高了芯片生產(chǎn)的可靠性,并保證了整個(gè)芯片在生產(chǎn)和封裝過程中的對(duì)齊和特殊處理過程正確無誤。

      散熱和電能

      巨大的芯片意味著巨大的電能消耗和巨大的發(fā)熱。在電源方面,WSE無法使用傳統(tǒng)的PCB電源平面布置方式。由于芯片面積巨大,傳統(tǒng)的電源平面布置橫向分配的方式無法使得整個(gè)晶元都獲得均一穩(wěn)定的電流供應(yīng)。類似的還有之前的平面散熱問題,冷空氣在晶圓上的流動(dòng)速度也不足以消除所有的熱量。

      為此,Cerebras設(shè)計(jì)了垂直電流供應(yīng)方案,避免了原本需要的難以想象的粗銅線,類似的方案還有散熱,Cerebras設(shè)計(jì)了專用的垂直于晶圓的水冷散熱方案。這兩種技術(shù)的存在可以使得電源和散熱始終維持在比較高的效率上,并且均勻分布,無論是晶圓的邊緣還是中央部分。

      WSE是深度學(xué)習(xí)芯片發(fā)展的未來方向嗎?

      從上文的介紹來看,CerebrasWSE芯片帶來了巨大的規(guī)模、極大的計(jì)算能力和大量計(jì)算資源。其面積高達(dá)46225mm2,包含1.2萬億個(gè)晶體管和40萬個(gè)優(yōu)化的AI計(jì)算核心。存儲(chǔ)架構(gòu)可以保證內(nèi)核以極高的效率運(yùn)行,18Gb的片上存儲(chǔ)內(nèi)存以及單級(jí)內(nèi)存層次結(jié)構(gòu)、極低的數(shù)據(jù)存儲(chǔ)延遲,都可以帶來超高的計(jì)算性能。另外新的Swarm架構(gòu)也可以實(shí)現(xiàn)數(shù)據(jù)傳輸?shù)母咝屎椭悄芑?/p>

      根據(jù)Cerebras的介紹,在最理想的情況下,WSE能夠?qū)⒂?xùn)練模型的時(shí)間從之前的數(shù)月大幅度降低至數(shù)分鐘,或者從幾周降低至幾秒,不過Cerebras沒有說明對(duì)比的目標(biāo)和具體信息。但是如此龐大的芯片能夠帶來的巨大性能和效率是之前任何一款傳統(tǒng)芯片互聯(lián)系統(tǒng)無法匹敵的。目前唯一令人擔(dān)心的依1日是WSE系統(tǒng)的成本和生產(chǎn)能力,以及軟件優(yōu)化力度,畢竟如此龐大的芯片在之前很少有成功的先例??梢哉f,Cerebras WSE的出現(xiàn),開創(chuàng)了一個(gè)新的AI計(jì)算的方向,但是它的靈活性和實(shí)用性還有待觀察。深度學(xué)習(xí)本身的發(fā)展對(duì)算力的無盡需求,目前也催生了大量的解決方案,以Cerebras WSE為代表的這種方案,目前看來有可能成為和現(xiàn)有計(jì)算模式分庭抗禮的路線,但結(jié)果究竟如何,還需要繼續(xù)觀察。

      猜你喜歡
      晶圓內(nèi)核區(qū)塊
      改進(jìn)型晶圓預(yù)對(duì)準(zhǔn)算法
      半導(dǎo)體制造領(lǐng)域的晶圓預(yù)對(duì)準(zhǔn)系統(tǒng)綜述
      萬物皆可IP的時(shí)代,我們當(dāng)夯實(shí)的IP內(nèi)核是什么?
      群眾路線是百年大黨成功之內(nèi)核性制度因素的外在表達(dá)
      強(qiáng)化『高新』內(nèi)核 打造農(nóng)業(yè)『硅谷』
      區(qū)塊鏈:一個(gè)改變未來的幽靈
      科學(xué)(2020年5期)2020-11-26 08:19:12
      區(qū)塊鏈:主要角色和衍生應(yīng)用
      科學(xué)(2020年6期)2020-02-06 08:59:56
      Linux內(nèi)核mmap保護(hù)機(jī)制研究
      區(qū)塊鏈+媒體業(yè)的N種可能
      讀懂區(qū)塊鏈
      西峡县| 久治县| 册亨县| 漯河市| 凭祥市| 潼关县| 吴桥县| 梧州市| 永福县| 启东市| 太仆寺旗| 敖汉旗| 神池县| 望都县| 页游| 广西| 平罗县| 香格里拉县| 沙湾县| 双鸭山市| 安远县| 龙游县| 淮南市| 巴林左旗| 读书| 绍兴市| 湾仔区| 茂名市| 莒南县| 漳浦县| 盖州市| 塔城市| 沂南县| 遂溪县| 富顺县| 汨罗市| 三门县| 张掖市| 绩溪县| 台江县| 婺源县|