李實(shí)
計(jì)算機(jī)是推動(dòng)人類進(jìn)入信息技術(shù)時(shí)代的核心設(shè)備。隨著計(jì)算機(jī)和相關(guān)產(chǎn)業(yè)的快速發(fā)展,人類社會的技術(shù)能力也得到了大幅度的增強(qiáng),互聯(lián)互通的程度也得到了極大提高。但是,隨著計(jì)算機(jī)持續(xù)發(fā)展以及人類所使用計(jì)算機(jī)的數(shù)量成倍增加,計(jì)算機(jī)背后的能耗問題逐漸凸顯了出來。2015年,《EnergyEfficiency》(能源效率)雜志就曾經(jīng)披露過一個(gè)研究報(bào)告,其中顯示游戲PC的耗電量占據(jù)了當(dāng)年所有PC耗電量的21%,達(dá)到了75TWh,相當(dāng)于1.6億臺冰箱的耗電量。而根據(jù)2017年的數(shù)據(jù),當(dāng)時(shí)全球數(shù)據(jù)中心的總耗電量約為416TWh,約占當(dāng)年地球總發(fā)電量的3%。除此之外,隨著全球超級計(jì)算機(jī)的發(fā)展和不斷增加的部署,超算背后的能耗問題也越來越受到大家的關(guān)注,比如目前全球排名第一的超算—日本Fugaku,其功耗就高達(dá)29899kW,相當(dāng)于它運(yùn)行1小時(shí)就需消耗接近3萬度電,這還不包含為這個(gè)超算提供服務(wù)的相關(guān)設(shè)備以及維護(hù)的消耗。
另一方面,計(jì)算機(jī)和相關(guān)設(shè)備不斷提升的能耗需求也帶來了一個(gè)嚴(yán)重的問題—那就是散熱。有人甚至估計(jì),未來超算等設(shè)備有可能不得不建立在河流、湖泊甚至南北極周圍,因?yàn)槌阍谶_(dá)到其計(jì)算能力的上限之前,散熱和功耗問題將首先成為最大的攔路虎,需要流動(dòng)的河水、湖水或者極地的低溫氣候才能使得超算等設(shè)備處于能正常工作的溫度區(qū)間。因此從現(xiàn)在的技術(shù)發(fā)展來看,計(jì)算機(jī)尤其是超算等設(shè)備的功耗和散熱等問題,可能在不久之后的未來成為阻擋人們獲取更多算力的絆腳石。
為了解決這個(gè)問題,研究人員開始考慮現(xiàn)有技術(shù)路徑之外的實(shí)現(xiàn)方法。比如采用全新的計(jì)算架構(gòu)、專用單元或者不斷改善軟件架構(gòu)等。不過,這都沒有一個(gè)技術(shù)來得直接,那就是利用超導(dǎo)效應(yīng)和量子力學(xué)有關(guān)技術(shù)來實(shí)現(xiàn)超導(dǎo)計(jì)算機(jī)。超導(dǎo)的特性就是沒有電阻、能耗極低,這有助于幫助人們建立低功耗的計(jì)算設(shè)備。在超導(dǎo)計(jì)算機(jī)的研發(fā)上,從1956年麻省理工D.A.Buck的《Thecryotron—asuperconductivecomputercomponent》論文中提到了的超導(dǎo)狀態(tài)實(shí)現(xiàn)量子計(jì)算的構(gòu)想開始,人們就不斷地努力著?,F(xiàn)在,包括中國、歐盟、日本和美國等都在超導(dǎo)計(jì)算上推出了各自獨(dú)特的技術(shù)和構(gòu)想。近期,來自日本橫濱國立大學(xué)的研究人員在論文《MANA:AMonolithicAdiabaticiNtegrationArchitectureMicroprocessorUsing1.4-zJ/opUnshuntedSuperconductorJosephsonJunctionDevices》中提到了一種超導(dǎo)計(jì)算機(jī)的實(shí)現(xiàn)方式。借由這個(gè)論文,我們一起來了解一下超導(dǎo)計(jì)算機(jī)以及相關(guān)的內(nèi)容。
超導(dǎo)約瑟夫結(jié)構(gòu)和AQFP邏輯
如果要制作一臺計(jì)算機(jī),那么首先得擁有制造計(jì)算機(jī)芯片最基本的材料,然后再制作出非門、與門、與非門等一系列具有功能的邏輯門,并將其配合使用實(shí)現(xiàn)功能。在目前的硅基芯片中,人們使用半導(dǎo)體材料,制作出了P型半導(dǎo)體、N型半導(dǎo)體、PN結(jié)等結(jié)構(gòu),經(jīng)過組合使用后,獲得了一個(gè)完整的半導(dǎo)體芯片和相關(guān)功能。
如果是超導(dǎo)計(jì)算機(jī)的話,也需要進(jìn)行類似的步驟。在這里,本文首先先介紹一個(gè)概念,那就是超導(dǎo)約瑟夫森結(jié)。
超導(dǎo)約瑟夫森結(jié)是目前超導(dǎo)計(jì)算研發(fā)中的一個(gè)重要方向。約瑟夫森結(jié)由兩個(gè)互相微弱連接的超導(dǎo)體構(gòu)成。這里的微弱連接是指兩個(gè)超導(dǎo)體之間可以使用薄絕緣層,或者一小段非超導(dǎo)金屬,抑或是一小段可以弱化接觸點(diǎn)超導(dǎo)性的狹窄部分,不同的連接有著不同的名稱,比如SIS、SNS或者SsS,本文中使用的是SIS。
超導(dǎo)約瑟夫森結(jié)的特性是具有臨界電流。當(dāng)流過超導(dǎo)約瑟夫森結(jié)的電流小于臨界電流時(shí),超導(dǎo)約瑟夫森結(jié)的兩端是沒有電壓降低的。但是如果流過超導(dǎo)約瑟夫森結(jié)的電流稍大于臨界電流,就會觸發(fā)多重安德烈夫反射,這在電路測試中會表現(xiàn)為明顯的尖峰。繼續(xù)增大電流并超過超導(dǎo)體之間絕緣體的帶隙的話,電流和電壓的表現(xiàn)就會變得很線性。由于超導(dǎo)約瑟夫森結(jié)在臨界電流上的獨(dú)特表現(xiàn),使之有可能成為邏輯電路的候選結(jié)構(gòu)。
實(shí)際上根據(jù)日本橫濱國立大學(xué)的論文,超導(dǎo)約瑟夫森結(jié)已經(jīng)成功實(shí)現(xiàn)了多種邏輯電路結(jié)構(gòu),包括高效快速單通量邏輯結(jié)構(gòu)(ERSFQ)、高效SFQ邏輯(eSFQ)、互反量子邏輯(RQL)、LR偏置RSFQ邏輯以及低壓RSFQ邏輯(LV-RSFQ)等。但這些邏輯都屬于非絕熱邏輯,雖然借由超導(dǎo)特性,無論這些邏輯單元以什么頻率工作,他們的開關(guān)能量消耗都是不變的。但是考慮其非絕熱邏輯電路的特性,其工作能耗較高,不是超導(dǎo)計(jì)算機(jī)最佳選擇。實(shí)際上,日本研究人員使用的是一種絕熱邏輯電路,所謂絕熱邏輯電路,是指電路可以通過回收節(jié)點(diǎn)電容上的電荷至電源實(shí)現(xiàn)能量的重復(fù)利用,相比非絕熱邏輯電路,絕熱邏輯電路消耗電能大幅度降低,其能量消耗只會隨著頻率上升而上升,并且呈現(xiàn)線性狀態(tài)。另外,在時(shí)鐘頻率方面,絕熱電路時(shí)鐘頻率最高大約為10GHz,再高可能無法保持絕熱狀態(tài),但是非絕熱電路的時(shí)鐘頻率最高可以達(dá)到770G Hz,但是代價(jià)是開關(guān)能量可能更高。
日本研究人員使用的是一種被稱為絕熱量子通量參數(shù)邏輯電路(AQFP)的設(shè)計(jì),這種電路在使用無分流超導(dǎo)約瑟夫森結(jié)器件的測試中,在4.2K的溫度以及四相5GHz交流電的驅(qū)動(dòng)下,每個(gè)邏輯開關(guān)的能量僅為每單位1.4zJ,大約是1×10的-21次方焦耳??紤]到將周圍環(huán)境降低至4.2K的能量開銷,因此將每個(gè)AQFP邏輯開關(guān)的能量乘以1000,結(jié)果為1.4aJ,也這也僅僅是1×10的-18次方焦耳。這個(gè)數(shù)值相比目前7nm工藝、0.8V電壓下的類似電路,其效率高出大約80倍。實(shí)際上,即使考慮散熱所需的能量開銷,擴(kuò)大1000倍也是一個(gè)非??鋸埖臄?shù)字了。由于AQFP工作在超導(dǎo)狀態(tài)下,其功耗相對非超導(dǎo)狀態(tài)下的電路存在好幾個(gè)數(shù)量級的優(yōu)勢,因此無論怎么比較,它依舊能夠帶來巨大而顯著的能耗降低。
從AQFP到MANA
在這里,研究人員確定了使用AQFP來制造超導(dǎo)計(jì)算機(jī),并給出了一個(gè)由AQFP制造出來的加法器。研究人員發(fā)現(xiàn),由于互連線存在寄生電感,因此AQFP單元的驅(qū)動(dòng)距離很有限,大約只有1mm,之后就必須插入另一個(gè)緩沖區(qū)作為中繼器來放大信號。當(dāng)然,在真正的芯片制造中,這樣的問題可能會得到比較好的解決。在解決了這些問題之后,研究人員們帶來了一個(gè)被稱為MANA的微架構(gòu),也就是MonolithicAdiabaticiNtegrationArchitecture絕熱集成微處理器架構(gòu)。
研究人員推出MANA架構(gòu)的目的是為了證明AQFP邏輯也能夠執(zhí)行計(jì)算,包括邏輯處理和數(shù)據(jù)存儲等,并且所有的這些工作都可以基于單一技術(shù)、單個(gè)邏輯家族以及單個(gè)芯片內(nèi)完成。由于這個(gè)芯片僅僅用于驗(yàn)證芯片邏輯設(shè)計(jì)和工作可行性,因此包括芯片的IPC、吞吐量等指標(biāo)就不在研究人員的考慮之內(nèi)了。并且,由于這是一種全新的芯片體系結(jié)構(gòu),它缺乏系統(tǒng)集成工具,所有的設(shè)計(jì)都是由手工完成的,因此整體規(guī)模比較小,架構(gòu)也相對簡單,時(shí)鐘單元方面采用了四相時(shí)鐘設(shè)計(jì),需要程序控制予以配合。
研究人員給出的MANA的架構(gòu)圖、支持的核心指令等。MANA的功能包括指令緩沖、解碼、發(fā)出以及帶有外部IO訪問的RF階段、執(zhí)行階段和回寫階段等。在架構(gòu)圖中,研究人員使用不同顏色標(biāo)識了MANA的不同部分。其中綠色的是指令的緩沖、存儲和發(fā)出部分,包括4×16b的緩存、PC&指令fetch以及指令解碼、棕色的RFX寄存器階段、橙色的ALU和位移執(zhí)行階段、藍(lán)色的數(shù)據(jù)回寫和緩沖階段。
整個(gè)MANA的處理過程非常簡單。比如它的寄存器只是一個(gè)16×4b容量的、2讀/1寫的小型寄存器。寄存器的$14和$15用于保存IO數(shù)據(jù)、$0是恒定的零寄存器。外部IO數(shù)據(jù)通過串行方式進(jìn)入$14和$15,其中前者包含內(nèi)存字節(jié)數(shù)據(jù)比較高的部分,后者包含比較低的部分。數(shù)據(jù)進(jìn)入后,控制標(biāo)志就可以標(biāo)明$14和$15是可以進(jìn)行處理的有效數(shù)據(jù),被送入后面的執(zhí)行部分。執(zhí)行部分只有一個(gè)4bit的整數(shù)ALU和一個(gè)4bit的位移單元,值得一提的是,這兩個(gè)單元是串行的,也就是說無論數(shù)據(jù)是否需要進(jìn)行整數(shù)或者位移計(jì)算,都必須通過這兩個(gè)單元。數(shù)據(jù)經(jīng)過處理后,再交給回寫單元進(jìn)行判斷。
整個(gè)處理器的架構(gòu)可以用“簡陋”來形容,考慮到MANA只是用于驗(yàn)證AQFP是否可以實(shí)現(xiàn)制作超導(dǎo)計(jì)算機(jī),因此這樣的邏輯關(guān)系和計(jì)算架構(gòu)也基本夠用了。
在基本架構(gòu)確定了之后,研究人員就可以根據(jù)這個(gè)基本架構(gòu)來搭建包括軟件環(huán)境、組合邏輯設(shè)計(jì)、內(nèi)存、時(shí)鐘方面的設(shè)計(jì)了,另外他們還需要進(jìn)行組件集成。實(shí)際上由于這類芯片采用了全新的架構(gòu),其絕大部分部件都是沒有先例可循的,因此研發(fā)人員不得不采用手工制造的方式來完成。在超導(dǎo)材料方面,AQPF制作采用的是金屬鈮和絕緣層氧化鋁,因此又被稱為Nb-AlO材料。金屬鈮在10K以下的溫度時(shí)能夠呈現(xiàn)超導(dǎo)特性,最終芯片也要工作在這個(gè)溫度下。
從MANA到第一個(gè)測試芯片
MANA從藍(lán)圖到實(shí)際產(chǎn)品采用的是AISTHSTP10kA/cm2Nb/AlOx/Nb超導(dǎo)芯片制作工藝。不過有點(diǎn)令人沮喪的是,由于前期對芯片尺寸的估計(jì)比較保守,因此后期不得不使用較大的1cm×1cm的基板來完成芯片制作,但是研究人員發(fā)現(xiàn)他們的高頻率探頭設(shè)備不支持這么大的尺寸,不得不改用低頻率探頭來完成有關(guān)功能的測試,并且整個(gè)芯片的頻率被限定在100KHz之下,也就是0.1MHz。但是,研究人員為了證明MANA真的能在高頻率也就是GHz下運(yùn)行,在后期也單獨(dú)制作了一個(gè)包括ALU和數(shù)據(jù)轉(zhuǎn)移器的小尺寸設(shè)備,這個(gè)芯片被稱為“EX”,其尺寸只有2mm×3.5mm,運(yùn)行頻率大于1GHz,并成功完成了測試。
測試人員將整個(gè)芯片放置在溫度僅為4.2K的液氦中進(jìn)行測試工作。在經(jīng)過一系列的設(shè)置和啟動(dòng)后,測試人員開始在較低的頻率也就是100KHz下運(yùn)行MANA芯片,并演示了2個(gè)簡單的四指令程序,比如讓數(shù)據(jù)和寄存器某位數(shù)據(jù)相加,比較兩個(gè)數(shù)據(jù)的大小,讓寄存器內(nèi)數(shù)據(jù)相加,比如“3+2”、“9-5”、“9-(4+3)”等操作,同時(shí)還使用示波器進(jìn)行探測,以確定芯片是真的在工作且工作后的結(jié)果是正確的。
對于“EX”芯片,由于缺失部分功能,因此研發(fā)人員只能用一些更簡單方法測試,包括臨界進(jìn)位傳播測試,其中控制信號被設(shè)置為固定的加法。測試總共在12個(gè)EX芯片上完成,其中7個(gè)可以完成正確的功能,最大工作頻率約為1.2GHz~2.5GHz。一些芯片的輸出不穩(wěn)定或者振蕩,可能是由于磁通捕獲或者其他原因等。
如何判斷超導(dǎo)芯片的功耗和性能
MANA的出現(xiàn)和成功實(shí)踐,證明超導(dǎo)材料、AQFP制造芯片是完全可行的。那么,超導(dǎo)芯片和傳統(tǒng)芯片在能耗、性能方面孰優(yōu)孰劣呢?
MANA在研發(fā)和測試中使用的是液氦冷卻,因此研發(fā)人員認(rèn)為,這樣一來,這種芯片所對應(yīng)的計(jì)算機(jī)設(shè)備,是不可能出現(xiàn)在移動(dòng)市場、個(gè)人電腦市場的,針對的只能是超大型計(jì)算機(jī),也就是超算。
首先,研究人員使用了兩臺LindeLR280液氦冷卻系統(tǒng),并且認(rèn)為整個(gè)系統(tǒng)包括室內(nèi)其余的設(shè)備總計(jì)需要2MW電源功率。接下來,研究人員計(jì)算了在2MW的冷卻設(shè)備支持下,采用AQPF芯片實(shí)現(xiàn)類似GA100和英特爾北極星芯片的功能的話,能夠冷卻多少芯片。為此,研發(fā)人員設(shè)定了2個(gè)假定條件,A是假設(shè)在芯片模擬中,采用AQPF的數(shù)量和現(xiàn)在的芯片晶體管數(shù)量相當(dāng),B是采用AQPF的數(shù)量是4倍于現(xiàn)在的晶體管才能實(shí)現(xiàn)相同的性能。相比之下,B假定顯得相當(dāng)保守。
在這個(gè)估計(jì)中,以AQPF芯片在1.5GHz運(yùn)行時(shí)開關(guān)總量為0.2zJ每單位、5GHz以1.4zJ每單位來計(jì)算的話,在4.4K的溫度下,以AQPF芯片制作的GA100GPU,在假設(shè)A下功耗為15.2mW,在假設(shè)B下為60.9mW,以AQPF制作的英特爾CPU在假設(shè)A下為0.7mW,在假設(shè)B下為2.9mW。無論是CPU還是GPU,其功耗都顯著低于現(xiàn)有產(chǎn)品好幾個(gè)數(shù)量級。比如GA100芯片,實(shí)際應(yīng)用中TDP功耗不會低于350W,相比采用AQPF材料制作并保持超導(dǎo)狀態(tài)的話,功耗高了大約23026倍。因此,即使采用2MW冷卻設(shè)計(jì),整個(gè)系統(tǒng)也能容納A假設(shè)下的66980個(gè)GPU和1429000個(gè)CPU,或者B假設(shè)下的16750個(gè)GPU和357100個(gè)CPU。
那么,以兩臺LindeLR280液氦冷卻系統(tǒng)冷卻的AQFP超算能達(dá)到怎樣的計(jì)算水平呢?以美國能源部的百億億次計(jì)算機(jī)為例,這款計(jì)算機(jī)需要的冷卻功耗是20MW,達(dá)到的計(jì)算能力預(yù)計(jì)超過1EFLOPS。如果同樣冷卻功耗的LindeLR280液氦冷卻系統(tǒng)組建AQFP超導(dǎo)超算的話,使用AQPF版本的英偉達(dá)GA100芯片,A預(yù)測下雙精度性能可以高達(dá)6.5EFLOPS,B預(yù)測下也能達(dá)到1.6EFLOPS。對于英特爾來說,A預(yù)測下計(jì)算性能可達(dá)23.3EFLOPS,B預(yù)測下則為5.8EFLOPS。由于這只是預(yù)測,實(shí)際的計(jì)算性能更可能會位于A和B條件預(yù)測之中。但即使如此,這也已經(jīng)是一個(gè)令人驚訝的性能表現(xiàn)數(shù)據(jù)了。
可能只是一小步,但是也能看到未來
從本文對日本研究人員所做的工作介紹來看,目前超導(dǎo)計(jì)算機(jī)和相關(guān)產(chǎn)品的研究,已經(jīng)從之前的理論進(jìn)入了實(shí)際階段,研究人員開始試制超導(dǎo)芯片并進(jìn)行了簡單測試,然后通過實(shí)驗(yàn)數(shù)據(jù)預(yù)估了超導(dǎo)計(jì)算機(jī)在超算等同檔次設(shè)備上的應(yīng)用情況。當(dāng)然,日本研究人員本次進(jìn)行的研究還是初步的,它只是超導(dǎo)計(jì)算的一小步,但是可以窺探到的未來卻是廣闊而不可限量的。
接下來,人們會在超導(dǎo)材料、制造工藝以及實(shí)現(xiàn)方式上面做更多的探索,比如目前采用金屬鈮和相匹配的液氦,成本過于昂貴,如果換用高溫超導(dǎo)材料會不會得到同樣的結(jié)果且更為容易生產(chǎn)和推廣?如果最終高溫超導(dǎo)材料能做到液氮溫度下超導(dǎo)且可以用于計(jì)算機(jī)設(shè)計(jì)的話,那么超導(dǎo)芯片必將快速崛起。還有在芯片設(shè)計(jì)環(huán)境、軟件配套上的一系列產(chǎn)品,可以想象這又是一個(gè)龐大的萬億級別市場。超導(dǎo)的未來,值得期待。