李鑫 閆雪梅 高媛媛 馬文靜
(1.中國信息通信研究院電信設(shè)備認證中心,北京 100191;2.中國信息通信研究院科技發(fā)展部,北京 100191)
現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)是一種可通過重新編程來實現(xiàn)用戶所需邏輯電路的半導(dǎo)體器件[1]。和專用集成電路(Application Specific Integrated Circuit,ASIC)相比,F(xiàn)PGA是基于查找表結(jié)構(gòu)的邏輯門電路,具有硬件可重構(gòu)的體系結(jié)構(gòu),其數(shù)字電路可以通過編程的方式在芯片出廠后重新構(gòu)造,具有設(shè)計周期快、開發(fā)成本低的優(yōu)勢。FPGA在未編程狀態(tài)下可以看作是一種集成了大量原始邏輯資源的標(biāo)準(zhǔn)器件,用戶根據(jù)需求選定器件,對電路進行設(shè)計,無須花費高額流片費用即可實現(xiàn)定制電路的需求。
一般來說,F(xiàn)PGA常被用作ASIC的小批量替代品以及ASIC芯片開發(fā)過程中的功能性驗證,靈活性和實時性較高。隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等領(lǐng)域的興起,可以執(zhí)行大量并行運算、數(shù)據(jù)吞吐量高的FPGA芯片越來越多地應(yīng)用于新型商業(yè)模式中。
作為集成電路的細分領(lǐng)域,F(xiàn)PGA進入壁壘較高。與一般的IC設(shè)計企業(yè)不同,F(xiàn)PGA企業(yè)需要軟硬件協(xié)同開發(fā),在設(shè)計FPGA硬件的同時,需要自行研發(fā)適配自己硬件的EDA軟件,如仿真優(yōu)化、布局布線等。因此,F(xiàn)PGA芯片公司不僅是無廠化企業(yè)(Fabless),還必須是生態(tài)成熟的集成電路EDA軟件企業(yè)。
當(dāng)前,全球FPGA市場呈雙寡頭壟斷競爭格局,其中賽靈思(被AMD收購)在全球FPGA市場的占有率常年在50%以上,與英特爾(原Altera,2015年被英特爾收購)合計占80%以上的市場份額,行業(yè)馬太效應(yīng)明顯,兩家公司在多年的發(fā)展中,提前布局的專利保護對后來者形成了強大的護城河保護。另外,還有Lattice和Microchip兩家FPGA公司,市場份額合計在10%左右[2]。賽靈思和英特爾主打高端產(chǎn)品,Microchip專注于軍工、航天等特殊應(yīng)用市場,Lattice主要面向低成本低功耗的消費電子市場。目前,F(xiàn)PGA已經(jīng)從單一的邏輯器件,發(fā)展成為內(nèi)涵豐富的片上系統(tǒng)。以賽靈思為例, FPGA產(chǎn)品涵蓋了FPGA器件、嵌入處理器硬核的系統(tǒng)芯片(如28 nm/16 nm的Zynq系列)、面向異構(gòu)運算的自適應(yīng)平臺(如7 nm的Versal ACAP系列)等三大類別。
和國際巨頭相比,國內(nèi)FPGA廠商還處于起步階段,產(chǎn)品主要為FPGA器件,營收規(guī)模較小,在硬件性能指標(biāo)上和國際高端FPGA器件相比仍有較大差距(見表1)。隨著國內(nèi)集成電路產(chǎn)業(yè)的發(fā)展和國際環(huán)境的變化,國產(chǎn)器件的接受度在不斷提升,國內(nèi)FPGA廠商在研發(fā)和國產(chǎn)化替代方面取得了不小的進步,40 nm和55 nm的工藝器件已經(jīng)實現(xiàn)穩(wěn)定出貨。國內(nèi)主流FPGA廠商包括面向軍工航天領(lǐng)域的中電科58所、航天771/772所、復(fù)旦微電子等;民品領(lǐng)域的紫光同創(chuàng)、上海安路、京微齊力、廣東高云等。近年來,國產(chǎn)FPGA逐漸向通信、工業(yè)控制、智能終端等商用領(lǐng)域滲透,并逐步替代Lattice和一部分小容量的賽靈思/英特爾的市場和客戶。
表1 國內(nèi)外高端FPGA主要參數(shù)對比
從FPGA發(fā)展方向看,已不再單純追求FPGA芯片本身的大容量和高性能,而是更多地面向芯片基礎(chǔ)架構(gòu)、軟件工具、應(yīng)用滲透上的創(chuàng)新,以及上下游產(chǎn)業(yè)生態(tài)的建設(shè)。國內(nèi)FPGA廠商應(yīng)利用背靠國內(nèi)巨大消費市場的優(yōu)勢,與系統(tǒng)集成廠家密切合作,采用個性化的定制設(shè)計滿足行業(yè)需求,持續(xù)迭代完善FPGA產(chǎn)品;另外,要加強EDA軟件的研發(fā)力度,提高軟件的可用性和處理能力,通過軟件開發(fā)過程理解并優(yōu)化硬件結(jié)構(gòu),從而進一步提高國產(chǎn)FPGA的競爭力。
按照工藝節(jié)點劃分,賽靈思公司的FPGA分為45 nm、28 nm、20 nm和16 nm四個工藝等級[3],一般來說,每個工藝等級包括VIRTEX、KINTEX、ARTIX和SPARTAN四個族中的產(chǎn)品,以滿足不同的應(yīng)用需求(見表2)。
表2 賽靈思FPGA系列產(chǎn)品
(1)VIRTEX系列是賽靈思高端器件,其中的VIRTEX? Ultra SCALE+TM基于14 nm/16 nm工藝,使用堆疊硅片互聯(lián) (SSI) 技術(shù),性能及集成功能均已達到業(yè)界最高水準(zhǔn)。VIRTEX系列一般作為計算密集型應(yīng)用,如1+ Tb/s 網(wǎng)絡(luò)、雷達/警示系統(tǒng)等對性能要求高、成本敏感度低的領(lǐng)域。
(2)KINTEX系列器件采用緊密型邏輯單元封裝,可減小動態(tài)功耗,價格低于VIRTEX系列,為需要高端功能(包括 33 Gbit/s 收發(fā)器和 100 G 連接內(nèi)核)的應(yīng)用提供了相對經(jīng)濟的解決方案,常用于無線 MIMO 技術(shù)、N×100G 有線網(wǎng)絡(luò)、數(shù)據(jù)中心網(wǎng)絡(luò)和存儲加速等領(lǐng)域。
(3)ARTIX系列器件相對前一代功耗降低了一半,適用于功耗及成本敏感型市場,常用于軍工行業(yè)的軟件無線電、醫(yī)療用便攜式超聲設(shè)備、小型無線基礎(chǔ)設(shè)施等領(lǐng)域。
(4)SPARTAN系列器件采用小型封裝技術(shù),和上述3種相比,容量相對較小、成本較低,常用于傳感器融合以及嵌入式視覺等領(lǐng)域。
近年來,英特爾將FPGA產(chǎn)品逐步用于數(shù)據(jù)中心的高性能計算處理,將原本CPU內(nèi)核中的網(wǎng)絡(luò)、存儲和安全功能卸載到FPGA等設(shè)備中。英特爾FPGA產(chǎn)品的迭代基本面向處理器和加速卡業(yè)務(wù),主要包括5個系列產(chǎn)品[4]。
(1)Agilex系列采用英特爾的10 nm工藝制程和英特爾第二代HYPERFLEX架構(gòu),和Stratix 10相比,性能提升了40%,同時極大降低了數(shù)據(jù)中心、網(wǎng)絡(luò)和邊緣計算應(yīng)用的功耗。從市場定位看,Agilex系列對標(biāo)賽靈思 V系列FPGA中的Ultrascale+。
(2)Stratix 系列中的最新款Stratix 10采用英特爾 14 nm工藝,應(yīng)用于數(shù)據(jù)中心加速/互聯(lián)、無線通信、ASIC 原型設(shè)計和仿真等高端應(yīng)用領(lǐng)域,對標(biāo)賽靈思 V系列FPGA。
(3)Arria系列面向中端市場,最新款A(yù)rria 10采用20 nm工藝,常用于通信、軍事、廣播、汽車和其他終端市場,對標(biāo)賽靈思基于28 nm工藝的7系列產(chǎn)品。
(4)MAX系列為復(fù)雜可編程邏輯器件(CPLD),結(jié)構(gòu)工藝與常見的FPGA有所不同,成本和價格大幅降低,能夠?qū)崿F(xiàn)非易失性,常應(yīng)用于中小規(guī)模通用數(shù)字集成電路中。
(5)Cyclone系列的最新款Cyclone10 GX,是基于臺積電20 nm工藝構(gòu)建的低成本器件,邏輯資源和接口資源都相對少,性價比高,定位于消費類產(chǎn)品,對標(biāo)賽靈思 SPARTAN系列FPGA。
深圳市紫光同創(chuàng)電子有限公司(簡稱:紫光同創(chuàng))系紫光集團下屬公司,主要從事可編程邏輯器件FPGA、CPLD等的研發(fā)與銷售工作,能夠提供完善的、具有自主知識產(chǎn)權(quán)的可編程邏輯器件平臺和系統(tǒng)解決方案,能夠?qū)崿F(xiàn)FPGA全流程的開發(fā)設(shè)計。紫光同創(chuàng)的產(chǎn)品主要包括3個系列[5]。
(1)Titan系列是國內(nèi)第一款自主知識產(chǎn)權(quán)千萬門級高性能FPGA產(chǎn)品,基于40/28 nm工藝,采用自主的LUT5架構(gòu),可提供174 k等效LUT4邏輯單元,支持多種高速IO接口,主要面向通信網(wǎng)絡(luò)、信息安全、數(shù)據(jù)中心等領(lǐng)域。
(2)Logos系列FPGA同樣基于40/28 nm工藝并采用LUT5結(jié)構(gòu),最多可提供100 k等效LUT4邏輯單元,集成RAM、DSP、ADC、Serdes、DDR3等豐富的片上資源和IO接口,具備低功耗、低成本特點,為客戶提供高性價比的解決方案,主要應(yīng)用于工業(yè)控制、通信、消費類等成本敏感型項目。
(3)Compa系列為CPLD產(chǎn)品,采用55 nm成熟工藝和LUT4結(jié)構(gòu),最多提供10 k LUT4邏輯資源,針對低功耗、低成本、小尺寸的設(shè)計要求,適用于系統(tǒng)配置、接口擴展和橋接、板級電源管理、上電時序管理、傳感器融合等應(yīng)用需求。
上海安路信息科技股份有限公司(簡稱:上海安路)主要從事FPGA芯片設(shè)計、SoC系統(tǒng)集成、專用EDA軟件等領(lǐng)域工作,主要產(chǎn)品包括兩個系列[6]。
(1)Saleagle系列采用55 nm工藝,最多提供19 k個LUT邏輯資源,定位低成本、低功耗可編程市場。
(2)Salelf系列采用55 nm工藝,最多提供4 k個LUT邏輯資源和336個 I/O,定位于通信、工業(yè)控制和服務(wù)器市場,滿足客戶板級IO擴展應(yīng)用需求和帶寬要求,定位大批量、成本敏感的應(yīng)用。
1985年,賽靈思推出首款具有商業(yè)價值的“XC2064”系列FPGA芯片,包含數(shù)百個邏輯門單元,主要作為連接復(fù)雜邏輯電路的膠合邏輯。目前,最新的FPGA包含了上千萬個邏輯單元、大量的用戶可編程I/O塊,用途也由膠合邏輯、原型驗證拓展到航天國防以及多個商業(yè)領(lǐng)域。美國“毅力號”火星車的視覺計算單元 (VCE) 、計算機視覺加速器卡 (CVAC)等模塊全部涉及了FPGA自適應(yīng)技術(shù)及器件。在國防領(lǐng)域,F(xiàn)PGA在雷達信號處理等方面也是不可或缺的器件。在商業(yè)應(yīng)用方面,F(xiàn)PGA作為計算處理的加速器,在多個領(lǐng)域獲得了廣泛關(guān)注并取得了顯著的商業(yè)效益。
隨著摩爾定律逐漸失效,CPU性能提升遇到瓶頸,F(xiàn)PGA的硬件可重構(gòu)技術(shù)提升系統(tǒng)性能的重要性日漸顯現(xiàn)。近年來,賽靈思和英特爾分別推出了自適應(yīng)計算加速平臺(ACAP)和Soc FPGA等可編程的異構(gòu)計算平臺及產(chǎn)品,其高性能架構(gòu)能夠根據(jù)應(yīng)用場景的不同對應(yīng)用程序進行加速,在達到定制芯片的高性能低功耗特點的同時,提供比芯片設(shè)計周期更快的自適應(yīng)解決方案。另外,嵌入式FPGA(eFPGA)是FPGA與ASIC技術(shù)融合向系統(tǒng)級發(fā)展的另一種路徑。和獨立FPGA器件相比,eFPGA是指嵌入在ASIC器件中的FPGA IP內(nèi)核,其典型應(yīng)用包括車用微控制單元(MCU)、物聯(lián)網(wǎng)等領(lǐng)域,以提供工作負載和算法靈活性。
下面就FPGA典型應(yīng)用領(lǐng)域進行分析。
FPGA商業(yè)應(yīng)用中占比最大的是通信,常用于大流量數(shù)據(jù)傳輸、數(shù)字信號處理等場合,位于網(wǎng)絡(luò)核心位置的交換機以及5G基站,都有FPGA器件的應(yīng)用。使用時一般采用FPGA或FPGA+DSP組合,F(xiàn)PGA用于邏輯控制,DSP進行浮點運算,在計算量較小的場合,也可以單獨使用FPGA完成,混合方案充分利用了硬件的并行性,能夠更好地支持高性能多處理的應(yīng)用需求。
3.1.1 交換路由設(shè)備
交換路由設(shè)備是一種將傳輸?shù)臄?shù)據(jù)包正確發(fā)送到目的地的設(shè)備,在大規(guī)模尋址轉(zhuǎn)發(fā)過程中,會帶來一定的通信延遲,如果在CPU上運行軟件來處理數(shù)據(jù)包,CPU需要從網(wǎng)卡處獲取數(shù)據(jù)包再進行處理,網(wǎng)卡的性能和數(shù)量制約著CPU的處理速度,操作系統(tǒng)的不穩(wěn)定也會造成延遲進一步加劇。如圖1所示,采用CPU+FPGA組合,可以將一部分路由協(xié)議和擁塞控制算法由CPU卸載到FPGA上實現(xiàn)并行處理[7],協(xié)助CPU處理網(wǎng)絡(luò)負載,另外FPGA可以提供高速串行計算機擴展總線(Peripheral Component Interconnect express,PCIe)、千兆網(wǎng)、萬兆網(wǎng)等接口以提升網(wǎng)絡(luò)吞吐量,其可編程的特點,既能對接口重新定義,監(jiān)測管理實時數(shù)據(jù)包和網(wǎng)絡(luò)流量,又能在設(shè)備功能新增或變化時快速配置,無需冗長的硬件迭代周期。交換路由設(shè)備的最大通信帶寬(收發(fā)器最大傳輸速度×高速收發(fā)器數(shù)量)和片上存儲容量的進化成正比,F(xiàn)PGA的進化過程也是不斷集成豐富的高速I/O收發(fā)器與高速I/O相對應(yīng)的片上存儲的過程[1]。在性能要求方面,作為網(wǎng)絡(luò)收發(fā)器的FPGA,不需要對輸入數(shù)據(jù)進行復(fù)雜的處理,簡單運算后即可輸出。
3.1.2 5G通信
在無線通信領(lǐng)域,5G具有繼承性和多樣性特點。在繼承性方面,和4G相比,5G通信仍然基于正交頻分復(fù)用(OFDM)機制,基本的幀格式是相同的,但是5G的調(diào)度更多樣、幀格式配置更豐富,所以FPGA的擴展性和靈活性適應(yīng)了通信制式升級的需求?;就ㄟ^FPGA編程能力的升級,可以解決4G到5G的升級、非獨立組網(wǎng)(NSA)到獨立組網(wǎng)(SA)的過渡、載波聚合數(shù)目的升級、接入量擴容、配合射頻前端完成sub6G到毫米波的升級、空中下載技術(shù)(OTA)遠程升級等發(fā)展過程中遇到的問題。
在多樣性方面,增強型移動寬帶(eMBB)、高可靠低延時通信(uRLLC)和大規(guī)模機器類通信(mMTC)構(gòu)建了5G需求的三大典型場景。eMBB是5G時代最基礎(chǔ)的通信場景,但根據(jù)實際應(yīng)用場景的不同,其能力側(cè)重點也不盡相同。
? 鐵路和高鐵沿線的基站布網(wǎng)更看重接入性和移動性,所以對信道估計性能和實時性要求算力較高。
? 高密度商城和大型場館的基站性能更側(cè)重于接入密度的提高,對接入算法和調(diào)度策略都有較高要求。
? 直播回傳和實時AR業(yè)務(wù)對峰值速率和上下行對稱性有更多需求。
FPGA可編程性的特點,使之能夠?qū)具M行適配以滿足不同應(yīng)用場景需求。
uRLLC是5G的重要支撐,典型應(yīng)用場景包括自動車輛控制和駕駛、遠程醫(yī)療手術(shù)、工業(yè)無線控制、遠程運輸控制等,這些應(yīng)用對通信的可靠性和延時都有極為苛刻的要求,所以加劇了對算力和處理延時的高要求,這些正好推動了FPGA作為加速器和協(xié)處理的應(yīng)用。
mMTC是5G滲透行業(yè)應(yīng)用的一個重要標(biāo)志,其標(biāo)志性應(yīng)用是以智能水網(wǎng)、環(huán)境監(jiān)測、智能倉儲和物流等為代表的大規(guī)模物聯(lián)網(wǎng)部署與應(yīng)用。FPGA的適應(yīng)性和快速迭代性剛剛適應(yīng)了這些市場對行業(yè)特殊性的要求。
隨著5G網(wǎng)絡(luò)的規(guī)模化部署,單位成本更低的ASIC芯片逐漸取代了大部分FPGA。目前,F(xiàn)PGA主要用于數(shù)字中頻處理(見圖2),以及作為膠合邏輯做少量的配置,例如接口、交換和設(shè)計ASIC時無法預(yù)計的小部分運算等。另外,截止到目前,5G標(biāo)準(zhǔn)仍在演進,覆蓋垂直行業(yè)能力的R17標(biāo)準(zhǔn)尚未凍結(jié),因此5G基站對靈活性強、上市時間短的FPGA器件的需求仍持續(xù)存在。
圖2 FPGA在5G基站中的連接圖
2016年,微軟在其Catapult項目中,使用英特爾Stratix V FPGA板卡,將其與數(shù)據(jù)中心網(wǎng)絡(luò)和服務(wù)器直接相連(見圖3),對分布在全球超過5 000個數(shù)據(jù)中心的服務(wù)器進行加速,最終實現(xiàn)本地計算加速、網(wǎng)絡(luò)加速和全球應(yīng)用加速[8-9]。本地計算加速指的是CPU通過PCIe訪問FPGA,使用FPGA對bing搜索等算法進行硬件加速;網(wǎng)絡(luò)加速指的是FPGA可作為智能網(wǎng)卡對網(wǎng)絡(luò)流量進行處理,并實現(xiàn)入侵檢測,深度數(shù)據(jù)包檢測和網(wǎng)絡(luò)加密等功能;全球加速是指FPGA在完成本地工作的情況下,服務(wù)器可遠程調(diào)用閑置FPGA中的RAM資源,用于機器學(xué)習(xí)等大規(guī)模應(yīng)用,從而實現(xiàn)數(shù)據(jù)中心內(nèi)部的全球資源池共享。2018年,賽靈思提出“數(shù)據(jù)中心優(yōu)先”戰(zhàn)略,陸續(xù)推出基于FPGA的加速卡等解決方案,其中針對網(wǎng)絡(luò)加速的智能網(wǎng)卡SmartNIC是一種可編程的網(wǎng)卡設(shè)備,可通過智能卸載虛擬交換等控制層管理,釋放出寶貴的 CPU 內(nèi)核資源,為不斷發(fā)展的數(shù)據(jù)中心和邊緣網(wǎng)絡(luò)提供高性能、靈活應(yīng)變的解決方案。近年來,亞馬遜AWS、阿里云、騰訊云等公有云提供商,紛紛開始在自家的數(shù)據(jù)中心中部署FPGA 板卡以實現(xiàn)更高的能效。
圖3 FPGA與數(shù)據(jù)中心網(wǎng)絡(luò)連接圖
在數(shù)字化轉(zhuǎn)型背景下,數(shù)據(jù)規(guī)模的爆發(fā)式增長對計算、網(wǎng)絡(luò)、存儲的需求不斷提升,從而帶動數(shù)據(jù)中心規(guī)模的高速增長[10-11]。近5年,我國數(shù)據(jù)中心機架年均增速超過30%[12]。2021年5月,國家發(fā)展和改革委員會等四部門聯(lián)合印發(fā)《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》,啟動國家“東數(shù)西算”戰(zhàn)略,在八大區(qū)域部署國家樞紐節(jié)點[13]。在此背景下,國內(nèi)各大互聯(lián)網(wǎng)公司和硬件提供商紛紛布局?jǐn)?shù)據(jù)中心業(yè)務(wù)。新型數(shù)據(jù)中心需要考慮在每單位機架空間中擠出更多的性能,同時獲得最佳性能功耗比。具有靈活性和低功耗特點的FPGA芯片,能夠根據(jù)不同場景和需求對數(shù)據(jù)中心計算、網(wǎng)絡(luò)和存儲進行加速和優(yōu)化。相對GPU、CPU,F(xiàn)PGA的運行頻率并不高,但其可以運用片上緩存RAM對每種應(yīng)用算法快速定制硬件架構(gòu),其可編程性和CPU配合可做到軟硬結(jié)合,通過CPU+GPU+FPGA異構(gòu)方式提升高吞吐量數(shù)據(jù)包處理能力、擴展內(nèi)存數(shù)據(jù)庫,從而達到系統(tǒng)的最優(yōu)化。
基于人工神經(jīng)網(wǎng)絡(luò)研究的深度學(xué)習(xí),是當(dāng)前人工智能研究的主要方向,深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中較為常用的模型。深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分為輸入層、隱藏層、輸出層3部分,層與層之間是全連接狀態(tài),隱藏層層數(shù)根據(jù)需要而定。由于層與層的全連接,導(dǎo)致其運算量相當(dāng)龐大,一般由數(shù)據(jù)中心服務(wù)器進行處理,能耗和數(shù)據(jù)傳輸?shù)拈_銷制約其在低延遲、成本敏感型行業(yè)的應(yīng)用;另外,當(dāng)參數(shù)過大時,容易在局部產(chǎn)生過度擬合現(xiàn)象,導(dǎo)致整體輸出結(jié)果誤差增大。為了解決上述問題,引入卷積核函數(shù),在視覺識別過程中,通過使用卷積核對圖像的各個局部進行互相關(guān),通過池化層降低數(shù)據(jù)維度,最后輸入到全連接層進行訓(xùn)練并輸出結(jié)果。
在計算機圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)是最常用的機器學(xué)習(xí)算法,訓(xùn)練階段通過數(shù)據(jù)中心的GPU完成,但訓(xùn)練后的輸出值常包含大量冗余信息,因此可以在基本保持網(wǎng)絡(luò)精度的前提下,使用浮點數(shù)改為低精度定點數(shù)、網(wǎng)絡(luò)剪枝、深度壓縮等方式減少在多個網(wǎng)絡(luò)中的操作數(shù)量,并在能效、存儲占用等方面尋求平衡,最后將進一步降維處理后的數(shù)據(jù)用于推理階段。賽靈思研究實驗室的Finn開源實驗框架研究表明[14],在使用二值化神經(jīng)網(wǎng)絡(luò)的極端情況下,仍可以保持高分類精度,進而實現(xiàn)最低的硬件成本。FPGA流處理和并行運算的架構(gòu),同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相似。在深度學(xué)習(xí)推理階段,運算量大幅降低,和GPU相比,F(xiàn)PGA帶有豐富的片上存儲資源,可極大減少因訪問片外存儲而帶來的延遲,并且FPGA的主頻較低,能耗低于GPU,因此FPGA常作為神經(jīng)網(wǎng)絡(luò)加速器使用,其中高密度FPGA面向云側(cè)進行更高的并發(fā)處理,中低密度FPGA嵌入式解決方案面向端側(cè)實現(xiàn)推理決斷。
另外,F(xiàn)PGA的可編程性,可以靈活地修改電路應(yīng)對人工智能的各個細分領(lǐng)域的不同算法。在自動駕駛領(lǐng)域,F(xiàn)PGA作為硬件加速器能夠?qū)崿F(xiàn)從邊緣傳感器到域控制器的可擴展性和動態(tài)重編程能力;在采用激光雷達解決方案的自動駕駛中,F(xiàn)PGA可以對數(shù)字信號進行實時處理,降低系統(tǒng)成本與損耗;在醫(yī)療圖像處理方面,F(xiàn)PGA加速并行波束形成和實時圖像處理,以創(chuàng)建更高質(zhì)量的圖像和基于機器的圖像分析。
電子交易系統(tǒng)衡量網(wǎng)絡(luò)延遲的方式是測量從收到交易信號到處理買/賣訂單的時間,也稱為“交易延時(Tick-to-Trade Time)”[15]。近年來,國內(nèi)外資本市場發(fā)展迅猛,交易量與日俱增,與交易相關(guān)的消息數(shù)量呈現(xiàn)激增態(tài)勢。對于金融交易公司而言,快速精準(zhǔn)地獲取行情信息并執(zhí)行交易意味著率先在瞬息萬變的市場行情中捕獲交易機會賺取利潤,計算機化交易模式越來越多地被應(yīng)用到證券交易行業(yè)。
FPGA具備靈活性、并行計算和流處理能力,可以通過寄存器級傳輸(Register Transfer Level),將網(wǎng)絡(luò)層和數(shù)據(jù)傳輸層的處理從CPU上的軟件卸載到FPGA硬件,通過單芯片化方式消除多個器件的數(shù)據(jù)傳輸,以降低系統(tǒng)延遲。此外,F(xiàn)PGA還可以直接處理傳輸中的數(shù)據(jù)包,通過硬件化異常值檢測和數(shù)據(jù)過濾等功能實現(xiàn)高速運算。另外,交易算法可以在大容量的FPGA芯片上直接硬件化,難以硬件化的運算采用ARM等嵌入式處理器處理,實現(xiàn)系統(tǒng)級優(yōu)化,對交易系統(tǒng)進行進一步加速。
現(xiàn)階段,5G、云計算、人工智能等技術(shù)高速發(fā)展,帶來了對計算、存儲、網(wǎng)絡(luò)、能效等需求的快速提升和異構(gòu)計算的迅速發(fā)展。相對于其他芯片類型,F(xiàn)PGA在極致性能方面不如通用芯片,在功耗和價格方面不如定制芯片(ASIC),因此其市場規(guī)模相對較小。但是,F(xiàn)PGA硬件結(jié)構(gòu)可重新配置的獨有特性可用來加速其他計算處理單元,在云計算、邊緣計算等商業(yè)模式下有其特有的優(yōu)勢。繼2015年英特爾收購全球第二大FPGA供應(yīng)商Altera后,2022年2月14日,AMD正式宣布以全股份交易的方式完成了對賽靈思的收購,賽靈思在SmartNIC、AI推理、AI分析方面的IP資源以及AI軟件堆棧,將與AMD處理器和軟件深度融合,從而實現(xiàn)高性能和自適應(yīng)計算解決方案組合[16]。未來,CPU、GPU、FPGA、ASIC計算架構(gòu)將會持續(xù)融合,以滿足高性能、低功耗、靈活性、低成本等多方面需求的高性能計算應(yīng)用。