湯一峰
中國航空無線電電子研究所
基于憶阻器、脈沖神經(jīng)網(wǎng)絡(luò)等新器件、新算法的仿生神經(jīng)網(wǎng)絡(luò)AI計(jì)算技術(shù)正蓬勃發(fā)展,目前看它也許像量子計(jì)算技術(shù)一樣,具有實(shí)現(xiàn)前所未有算力突破的潛力。本文從“敏捷禿鷹”、“藍(lán)鴉”超級計(jì)算機(jī)入手,概述美軍無人機(jī)機(jī)載AI計(jì)算平臺(tái)最新發(fā)展。結(jié)合工業(yè)界、學(xué)術(shù)界的最新研究成果,分析相關(guān)技術(shù)將如何顛覆性改變軍用機(jī)載AI計(jì)算的硬件結(jié)構(gòu)和應(yīng)用領(lǐng)域。
2018年美國國防預(yù)研局(DARPA)提出“馬賽克戰(zhàn)”新型作戰(zhàn)樣式,其中反復(fù)提及軍用人工智能(AI),認(rèn)為軍用AI是實(shí)現(xiàn)決策中心和決策優(yōu)勢的關(guān)鍵技術(shù)。AI是一種能夠感知和理解周圍環(huán)境,并采取相應(yīng)適當(dāng)行動(dòng)以最大限度實(shí)現(xiàn)目標(biāo)的物理或虛擬實(shí)體。在美軍空中作戰(zhàn)領(lǐng)域,人工智能正發(fā)揮越來越強(qiáng)的賦能效應(yīng)。美國空軍“天空堡”(Skyborg)、DARPA“分布式殺傷網(wǎng)”(ACK)等項(xiàng)目均將AI作為項(xiàng)目成功的重要保證。
軍用AI由軟件和硬件兩部分組成,本文重點(diǎn)介紹適應(yīng)未來軍用機(jī)載環(huán)境下AI計(jì)算硬件平臺(tái)的發(fā)展現(xiàn)狀和未來趨勢。
圖1 “敏捷禿鷹”有望實(shí)現(xiàn)無人機(jī)機(jī)載邊緣計(jì)算。
美空軍研究實(shí)驗(yàn)室(AFRL)在2014年前后開始進(jìn)行一種機(jī)載AI計(jì)算平臺(tái)研究,即“敏捷禿鷹”(Agile Condor)研究計(jì)劃。
“敏捷禿鷹”采用AI計(jì)算技術(shù),能夠在遠(yuǎn)程無人機(jī)上進(jìn)行機(jī)載高性能嵌入式計(jì)算,實(shí)時(shí)對數(shù)據(jù)進(jìn)行處理和傳輸,從而增強(qiáng)機(jī)載平臺(tái)情報(bào)數(shù)據(jù)獲取效率以及態(tài)勢感知能力,具有數(shù)據(jù)處理高效、目標(biāo)識別迅速以及帶寬需求降低的優(yōu)點(diǎn)。
AFRL采用MQ-9無人機(jī)搭載“敏捷禿鷹”吊艙開展原型機(jī)測試,2019年進(jìn)行了集成與演示驗(yàn)證。測試中,MQ-9“死神”無人機(jī)機(jī)載X波段雷達(dá)和光電系統(tǒng)向“敏捷禿鷹”吊艙AI計(jì)算平臺(tái)發(fā)送合成孔徑雷達(dá)圖像、紅外熱成像及可見光圖像,通過在線目標(biāo)識別測試,“敏捷禿鷹”取得了不錯(cuò)的成果。
圖2 AI圖像處理效果。
“敏捷禿鷹”的計(jì)算板卡使用定制的OpenVPX主板,具備運(yùn)行異構(gòu)計(jì)算分布式軟件的能力。根據(jù)現(xiàn)有研究結(jié)論,對大規(guī)模神經(jīng)網(wǎng)絡(luò)而言,圖形處理芯片(GPU)的卷積計(jì)算能力優(yōu)于中央處理芯片(CPU)。而CPU和GPU聯(lián)合處理又要比單CPU處理效率更高?!懊艚荻d鷹”吊艙內(nèi)置的計(jì)算板卡帶有3個(gè)插槽,每個(gè)插槽各搭載1個(gè)i7CPU和2個(gè)NVIDIA Maxwell GM107 GPU,1個(gè)i7 CPU控制2個(gè)GPU,可以提供2.5萬億次/秒的浮點(diǎn)運(yùn)算能力,3個(gè)插槽一共可以提供7.5萬億次/秒的浮點(diǎn)異構(gòu)計(jì)算處理能力,而計(jì)算板卡總重才27kg。
研究還表明,與CPU+GPU配置方式相比,在某些情況下可編程或可定制的加速器硬件平臺(tái)如FPGA、ASIC、DSP能實(shí)現(xiàn)更優(yōu)化的神經(jīng)網(wǎng)絡(luò)算法。因此,“敏捷禿鷹”還有額外的插槽用于添加FPGA和DSP。
圖3 “敏捷禿鷹”系統(tǒng)框架圖。
圖4 “敏捷禿鷹”吊艙系統(tǒng)配置圖。
整套吊艙內(nèi)部使用萬兆以太網(wǎng)端口進(jìn)行數(shù)據(jù)傳輸,同時(shí)另配有速率16GB/s的光纖通道。信息數(shù)據(jù)被傳輸至“敏捷禿鷹”吊艙后,先傳送到數(shù)據(jù)背板,然后使用PCIe總線和以太網(wǎng)通過PCIe中間件在各個(gè)計(jì)算插槽內(nèi)傳輸數(shù)據(jù)。
在算法實(shí)現(xiàn)上,“敏捷禿鷹”的目標(biāo)識別算法包括深度神經(jīng)網(wǎng)絡(luò)、深度卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò),這些算法使用Caffe框架進(jìn)行訓(xùn)練。圖像異常檢測使用了XGBoost等技術(shù)。
“敏捷禿鷹”升級計(jì)劃將繼續(xù)提高平臺(tái)計(jì)算水平,引入仿生神經(jīng)網(wǎng)絡(luò)計(jì)算技術(shù),并降低功耗和減輕重量,未來有望集成到像“影子”(Shadow)等那樣的小型無人機(jī)。
由于GPU、FPGA運(yùn)行人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法時(shí),機(jī)載計(jì)算平臺(tái)的功耗和體積均比較大,無法滿足像“掃描鷹”(ScanEagle)、“影子”這樣的小型無人機(jī),而新興仿生神經(jīng)網(wǎng)絡(luò)計(jì)算技術(shù)具有優(yōu)勢,可滿足小型無人機(jī)任務(wù)載荷對功耗、體積、重量的要求。
仿生神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)不同于馮·諾依曼體系結(jié)構(gòu),神經(jīng)形態(tài)計(jì)算試圖從硬件架構(gòu)實(shí)現(xiàn)對人腦的模擬,即一個(gè)神經(jīng)元可以對來自鄰近神經(jīng)元的多個(gè)刺激做出反應(yīng),整個(gè)網(wǎng)絡(luò)可以根據(jù)來自環(huán)境的不同輸入改變其狀態(tài)。這樣的硬件架構(gòu)十分接近神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,因此適合執(zhí)行人工神經(jīng)網(wǎng)絡(luò)或脈沖神經(jīng)網(wǎng)絡(luò)算法。同時(shí),通過在“內(nèi)存中計(jì)算”,可以突破馮·諾依曼瓶頸,即處理大型問題時(shí),打破內(nèi)存與處理器之間的數(shù)據(jù)傳輸受總線能力的限制。
圖6是一個(gè)最簡單的仿生神經(jīng)網(wǎng)絡(luò)處理核,該處理核以軸突作為輸入通道,神經(jīng)元作為輸出通道,輸入和輸出之間通過可編程的突觸進(jìn)行通信。神經(jīng)元作為主要運(yùn)算單元接收并整合“1”或“0”的脈沖信號,并依據(jù)這一信號做出指令,再將此指令通過各神經(jīng)元連接處的突觸輸出給其它神經(jīng)元。
圖5 美空軍實(shí)驗(yàn)室規(guī)劃的機(jī)載嵌入式計(jì)算發(fā)展。
圖6 神經(jīng)處理核的邏輯圖和互聯(lián)方式。
圖7 從左至右是對TrueNorth逐層芯片結(jié)構(gòu)的分解。
圖8 NS1e(左)及NS1e-16(右)仿生神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)芯片。
早在2008年,DARPA就資助了“神經(jīng)形態(tài)自適應(yīng)可塑可擴(kuò)展電子系統(tǒng)”(SyNAPSE)計(jì)劃,開展神經(jīng)形態(tài)計(jì)算技術(shù)相關(guān)研究。
首個(gè)基于SyNAPSE的研究成果即由IBM研制的芯片,被命名為TrueNorth。該芯片內(nèi)置100萬個(gè)模擬神經(jīng)元和2.56億個(gè)模擬神經(jīng)突觸,芯片內(nèi)的神經(jīng)元和突觸配備了2個(gè)ARM Cortex-A9和一塊1GBDDR內(nèi)存進(jìn)行讀取計(jì)算控制,以模塊化方式構(gòu)建成一個(gè)基于晶體管的神經(jīng)網(wǎng)絡(luò)。晶體管采用三星28nm制程工藝,5.4億個(gè)晶體管僅占面積4.3cm2。
每顆TrueNorth芯片所包含的神經(jīng)網(wǎng)絡(luò)通過陣列方式互聯(lián),軸突作為輸入,神經(jīng)元作為輸出,突觸作為軸突和神經(jīng)元間的直接聯(lián)系,通過點(diǎn)對點(diǎn)的聯(lián)系方式,將任何一個(gè)核的神經(jīng)元連接到任何一個(gè)核的軸突,以完成本地或遠(yuǎn)程通信。這樣多個(gè)TrueNorth芯片互聯(lián)就可以搭建出一個(gè)仿生神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)。截至2018年,IBM已開發(fā)出NS1e、NS1e-16、NS16e等多個(gè)型號仿生神經(jīng)網(wǎng)絡(luò)芯片驗(yàn)證機(jī)。
在功耗方面,一顆含54億個(gè)晶體管的TrueNorth芯片,所需功耗僅70mW,而一顆包含14億個(gè)晶體管的英特爾芯片,所需功耗則通常達(dá)到35W甚至140W。
在運(yùn)算速度方面,CPU等常規(guī)芯片的運(yùn)算速度利用每秒浮點(diǎn)運(yùn)算數(shù)(FLOPS)來計(jì)量,TrueNorth以每秒突觸運(yùn)算值(SOPS)來計(jì)量。對于一個(gè)典型網(wǎng)絡(luò),TrueNorth每瓦發(fā)送460億SOPS,對于高脈沖率和多活躍突觸數(shù)量的網(wǎng)絡(luò),TrueNorth每瓦可發(fā)送4000億SOPS。而目前最高效的超級計(jì)算機(jī),每瓦僅發(fā)送45億FLOPS。
2019年美國空軍研究實(shí)驗(yàn)室聯(lián)合IBM公司,以TrueNorth芯片生態(tài)系統(tǒng)為基礎(chǔ),共同開發(fā)出“藍(lán)鴉”(Blue Raven)超級計(jì)算機(jī),被稱為世界技術(shù)領(lǐng)先的神經(jīng)形態(tài)數(shù)字突觸超級計(jì)算機(jī)?!八{(lán)鴉”計(jì)算機(jī)包含64塊TrueNorth芯片,每個(gè)芯片含100萬個(gè)神經(jīng)元節(jié)點(diǎn)。因此,“藍(lán)鴉”可模擬大腦中6400萬個(gè)神經(jīng)元和160億個(gè)突觸進(jìn)行數(shù)據(jù)處理?!八{(lán)鴉”使用IBM專為TrueNorth開發(fā)的Eedn卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架進(jìn)行訓(xùn)練。目前“藍(lán)鴉”的功率僅70W,相當(dāng)于一枚家用燈泡。
AFRL表示,“藍(lán)鴉”可大幅提高空中平臺(tái)數(shù)據(jù)處理能力,直接在機(jī)載端實(shí)現(xiàn)圖像識別、毀傷評估、導(dǎo)航等功能。從而無需將傳感器數(shù)據(jù)回傳至地面控制站數(shù)據(jù)中心,加快作戰(zhàn)人員的戰(zhàn)時(shí)決策速度。AFRL內(nèi)部已將“敏捷禿鷹”和“藍(lán)鴉”作為同一個(gè)項(xiàng)目進(jìn)行管理,后期目標(biāo)是在4~5年內(nèi)將“藍(lán)鴉”處理速度提升至現(xiàn)有速度的4倍。
圖9 “藍(lán)鴉”由美國空軍研究實(shí)驗(yàn)室和IBM公司聯(lián)合開發(fā)。
圖10 “敏捷禿鷹”和“藍(lán)鴉”已被AFRL 列為同一項(xiàng)目。
圖11 英特爾研發(fā)的Intel Loihi芯片。
在仿生神經(jīng)網(wǎng)絡(luò)計(jì)算領(lǐng)域,除AFRL與IBM之外,英特爾(Intel)也取得了巨大突破,該公司研發(fā)的Loihi芯片在2017年首次亮相,包含128個(gè)內(nèi)核、13萬神經(jīng)元、1.3億突觸,每個(gè)內(nèi)核模擬多個(gè)邏輯神經(jīng)元,具有支持多種學(xué)習(xí)模式的可擴(kuò)展片上學(xué)習(xí)能力。2020年3月,英特爾將768顆Loihi芯片組裝成擁有1億個(gè)神經(jīng)元的超級仿生神經(jīng)計(jì)算系統(tǒng),超過了倉鼠大腦的神經(jīng)元總數(shù)。
未來進(jìn)一步發(fā)展仿生神經(jīng)網(wǎng)絡(luò)計(jì)算平臺(tái),還應(yīng)考慮使用憶阻器等新材料替換目前基于互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)的元器件。
憶阻器密度高、功耗低,作為一種具有記憶功能的元器件,適合用于突觸結(jié)構(gòu),是硬件實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)突觸的最好方式。
馬薩諸塞大學(xué)阿默斯特分校研制的基于憶阻器的三維卷積神經(jīng)網(wǎng)絡(luò)處理芯片達(dá)到了8層,而總厚度僅為300nm。
從今日芯片巨頭英特爾、ARM等公司成長歷程可知,發(fā)展壯大不僅僅依靠芯片本身的先進(jìn)性,更重要的是聯(lián)合商業(yè)伙伴,搭建應(yīng)用、操作系統(tǒng)、語言開發(fā)、商業(yè)模式等一系列生態(tài)系統(tǒng)。仿生神經(jīng)網(wǎng)絡(luò)AI計(jì)算平臺(tái)的關(guān)鍵要素如基于新材料的憶阻器、基于新算法的脈沖神經(jīng)網(wǎng)絡(luò)(SNN)、仿真平臺(tái)、訓(xùn)練框架等正在蓬勃發(fā)展。相信未來仿生神經(jīng)網(wǎng)絡(luò)計(jì)算和量子計(jì)算技術(shù),將實(shí)現(xiàn)前所未有的巨大算力突破,顛覆性改變軍用機(jī)載AI計(jì)算的硬件結(jié)構(gòu)和應(yīng)用領(lǐng)域。
圖12 馬薩諸塞大學(xué)阿默斯特分校研制的8層芯片。