施羽暇 中國信息通信研究院政策與經(jīng)濟(jì)研究所工程師,博士
人工智能芯片技術(shù)研究
施羽暇 中國信息通信研究院政策與經(jīng)濟(jì)研究所工程師,博士
人工智能將推動(dòng)新一輪計(jì)算革命。深度學(xué)習(xí)需要海量數(shù)據(jù)并行運(yùn)算,傳統(tǒng)計(jì)算架構(gòu)無法支撐深度學(xué)習(xí)的大規(guī)模并行計(jì)算需求。核心芯片是人工智能時(shí)代的戰(zhàn)略制高點(diǎn),決定了一個(gè)新的計(jì)算平臺(tái)的基礎(chǔ)架構(gòu)和發(fā)展生態(tài)。本文分析了人工智能產(chǎn)業(yè)全球及我國主要態(tài)勢、人工智能技術(shù)體系、全球及我國人工智能芯片的發(fā)展路線,并對(duì)不同技術(shù)路線的主要特點(diǎn)進(jìn)行了比較和分析。
人工智能;核心芯片;技術(shù)體系;技術(shù)趨勢
隨著2016年AlphaGo在人機(jī)圍棋大戰(zhàn)獲勝后,人工智能在全球范圍引發(fā)關(guān)注,成為投資風(fēng)口,全球人工智能領(lǐng)域的投資金額已成爆發(fā)增長態(tài)勢。從企業(yè)方面看,全球企業(yè)加快布局,2016年9月底谷歌、臉書、IBM等五大科技巨頭聯(lián)合成立了AI合作組織,以促進(jìn)人工智能技術(shù)的發(fā)展。從國家層面看,各國政府也紛紛出臺(tái)相關(guān)戰(zhàn)略,美國政府在2016年10月12日發(fā)布了《為人工智能的未來做好準(zhǔn)備》和《國家人工智能研究與發(fā)展戰(zhàn)略計(jì)劃》兩份重要報(bào)告,英國政府隨后發(fā)布了《機(jī)器人和人工智能》報(bào)告??萍季揞^投資并購持續(xù)活躍。投資在過去5年間強(qiáng)勁增長,創(chuàng)新高科技大型公司是人工智能投資的主力軍。人工智能創(chuàng)業(yè)企業(yè)總體處于發(fā)展初期,投資主要集中在早期階段,最近3年B輪和C輪投資顯著增長。
人工智能在歷史上經(jīng)歷過三起三落的浪潮,在今天之所以再次興起,有兩方面的原因:
一是技術(shù)的推動(dòng)、軟硬件的發(fā)展。包括海量數(shù)據(jù)的形成、深度學(xué)習(xí)算法的革新、硬件技術(shù)的變革和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的發(fā)展。
二是互聯(lián)網(wǎng)興起奠定生態(tài)基礎(chǔ)。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展為人工智能的產(chǎn)業(yè)奠定了生態(tài)基礎(chǔ)。谷歌、臉書、百度等國內(nèi)外行業(yè)巨頭加快了智能化轉(zhuǎn)型的步伐,新的商業(yè)模式正在蓄勢形成。人工智能產(chǎn)品背后的數(shù)據(jù)、軟件及算法等是人工智能的核心要素,而包括機(jī)器人、語音助手等在內(nèi)的軟硬件產(chǎn)品僅是人工智能的載體。
人工智能技術(shù)體系可分為3層,即底層基礎(chǔ)層、中間技術(shù)層與上層應(yīng)用層(見圖1)?;A(chǔ)層包含硬件存儲(chǔ)、計(jì)算平臺(tái)和數(shù)據(jù)資源等,GPU芯片、傳感器、云計(jì)算平臺(tái)、大數(shù)據(jù)等均包含在此層中。中間技術(shù)層包含算法、模型平臺(tái),感知智能算法、認(rèn)知智能算法等均在此層中。應(yīng)用層包含硬件產(chǎn)品和應(yīng)用服務(wù),硬件中包含智能硬件、無人機(jī)、智能機(jī)器等,應(yīng)用服務(wù)包含語音輸入法、虛擬助手、自動(dòng)駕駛及智能安防等。
大數(shù)據(jù)、底層算法和核心處理器芯片是支撐人工智能技術(shù)不斷發(fā)展的關(guān)鍵要素。數(shù)據(jù)量的豐富程度是提升算法有效性的決定因素之一。隨著移動(dòng)設(shè)備滲透,全球數(shù)據(jù)量加速爆發(fā),不僅數(shù)據(jù)流增長,數(shù)據(jù)種類也在不斷增多。從算法層面看,深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)相比,能讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)特征并建立模型,減少了人類在總結(jié)特征時(shí)的不完備性。從硬件來看,根據(jù)摩爾定律,計(jì)算成本指數(shù)下降,大規(guī)模并行計(jì)算加速發(fā)展為深度學(xué)習(xí)奠定計(jì)算基礎(chǔ)。
基于深度學(xué)習(xí)模型的算法對(duì)大規(guī)模并行計(jì)算能力的需求不斷增加,CPU和傳統(tǒng)計(jì)算架構(gòu)無法滿足對(duì)于并行計(jì)算能力的需求。核心芯片成為競爭的戰(zhàn)略制高點(diǎn)。在PC時(shí)代和移動(dòng)互聯(lián)網(wǎng)時(shí)代分別處于霸主地位的X86架構(gòu)和ARM架構(gòu)的發(fā)展歷程表明,核心芯片決定了一個(gè)新的計(jì)算平臺(tái)的基礎(chǔ)架構(gòu)和發(fā)展生態(tài),人工智能將引領(lǐng)下一代計(jì)算機(jī)架構(gòu)革命。
圖1 人工智能技術(shù)體系結(jié)構(gòu)
處理器芯片面向人工智能硬件優(yōu)化升級(jí),目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu),加速硬件計(jì)算能力,主要以4種類型的芯片為代表,即GPU、DSP、FPGA、ASIC,但CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮諾依曼計(jì)算架構(gòu),采用人腦神經(jīng)元的結(jié)構(gòu)來提升計(jì)算能力,以IBMTrueNorth芯片為代表。
3.1 CPU及其局限性
超速處理硬件發(fā)展起來后,CPU在機(jī)器學(xué)習(xí)上進(jìn)行的計(jì)算量大大減少,但是CPU并不會(huì)完全被取代,因?yàn)镃PU較為靈活,且擅長于單一而有深度的運(yùn)算,還可以做其他事情。Intel推出至強(qiáng)處理器Phi系列產(chǎn)品。但是即便Intel的芯片在集成度和制造工藝上具有優(yōu)勢,由于CPU并非針對(duì)深度學(xué)習(xí)的專業(yè)芯片,相對(duì)于專業(yè)芯片,其運(yùn)行效率必然受到一定影響。
3.2 GPU
基于GPU的技術(shù)陣營,代表企業(yè)有英偉達(dá)和高通。GPU作為最早從事并行加速計(jì)算的處理器,相比CPU速度快,比其他處理器芯片價(jià)格低,但是GPU也有一定的局限性。深度學(xué)習(xí)算法分為訓(xùn)練和執(zhí)行兩部分,GPU平臺(tái)在算法訓(xùn)練上非常高效。但在在執(zhí)行部分,由于GPU只能單任務(wù)進(jìn)行處理,效率較低。
3.3 DSP
基于DSP的技術(shù)陣營,以Cadence和Synopsys為代表。用傳統(tǒng)DSP架構(gòu)來適配神經(jīng)網(wǎng)絡(luò)的技術(shù)思想在國際上目前已有成熟的產(chǎn)品,例如Synopsys公司的EV處理器、Cadence公司的TensilicaVisionP5處理器和CEVA公司的XM4處理器等。其中,EV處理器可在典型的28nm工藝技術(shù)中實(shí)現(xiàn)高達(dá)1GHz的運(yùn)行速率。但3者都是針對(duì)圖像和計(jì)算機(jī)視覺處理器IP核,應(yīng)用領(lǐng)域有一定的局限性。
3.4 FPGA
基于FPGA的技術(shù)陣營,代表企業(yè)有Xilinx和Altera。相比GPU,F(xiàn)PGA硬件配置靈活、單位能耗比低、價(jià)格便宜。但是,F(xiàn)PGA對(duì)使用者要求需具備硬件知識(shí),要求較高。目前的FPGA市場由Xilinx和Altera主導(dǎo),兩者共同占有85%的市場份額。此外,F(xiàn)PGA正迅速取代ASIC和應(yīng)用專用標(biāo)準(zhǔn)產(chǎn)品(ASSP)來實(shí)現(xiàn)固定功能邏輯。Intel宣布要用10nmCMOS節(jié)點(diǎn)制造FPGA芯片,依然采用ARM作植入CPU。
3.5 ASIC
基于ASIC的技術(shù)陣營,以谷歌為代表。TPU是谷歌推出的ASIC類芯片,專門為機(jī)器學(xué)習(xí)設(shè)計(jì),目前為開源平臺(tái)Tensorflow專用的集成電路。而TPU為專用的邏輯電路,單一工作,速度快,但成本高。目前存在的缺點(diǎn)是為Google專用,還不是消費(fèi)類產(chǎn)品。
3.6 神經(jīng)形態(tài)芯片
另一條路徑是顛覆經(jīng)典的馮諾依曼架構(gòu)?;谏窠?jīng)形態(tài)芯片架構(gòu),以IBMTruenorth為代表。IBM研究人員將存儲(chǔ)單元作為突觸、計(jì)算單元作為神經(jīng)元、傳輸單元作為軸突搭建了神經(jīng)芯片的原型。目前,Truenorth用三星28nm低功耗工藝技術(shù),由54億個(gè)晶體管組成的芯片構(gòu)成有4096個(gè)神經(jīng)突觸核心的片上網(wǎng)絡(luò),實(shí)時(shí)作業(yè)功耗僅為70MW。由于神經(jīng)觸突要求可變與有記憶功能,IBM采用CMOS工藝兼容的相變非揮發(fā)存儲(chǔ)器(PCM)的技術(shù)實(shí)現(xiàn),加快了商業(yè)化進(jìn)程。
CPU通用性最強(qiáng),但延遲嚴(yán)重,散熱高,效率最低。
GPU相對(duì)其他通用性稍強(qiáng)、速度快、效率高,但是在神經(jīng)網(wǎng)絡(luò)的執(zhí)行階段效率低。
DSP速度快、能耗低,但是任務(wù)單一,目前成熟商品僅作為視覺處理器IP核使用。
FPGA具有低能耗、高性能以及可編程等特性,相對(duì)于CPU與GPU有明顯的性能與能耗優(yōu)勢。
ASIC可以更有針對(duì)性地進(jìn)行硬件層次的優(yōu)化,從而獲得更好的性能。但是ASIC芯片的設(shè)計(jì)和制造需要大量的資金、較長的時(shí)間周期和工程周期,而且深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,F(xiàn)PGA能很快改變架構(gòu),適應(yīng)最新的變化,ASIC類芯片一旦定制無法再次進(jìn)行寫操作。另外,F(xiàn)PGA結(jié)構(gòu)非常規(guī)整,相比于ASIC芯片可以享受最新的集成電路制造工藝帶來的性能和功耗優(yōu)勢。
當(dāng)前階段,GPU配合CPU將是人工智能芯片的主流,而后隨著視覺、語音、深度學(xué)習(xí)的算法在FPGA上的不斷優(yōu)化,F(xiàn)PGA將逐漸取代GPU與CPU成為主要芯片。從長遠(yuǎn)看,人工智能類腦神經(jīng)芯片是發(fā)展的路徑和方向。
人工智能發(fā)展歷經(jīng)波折,在今天再度興起,得益于海量數(shù)據(jù)的形成、深度學(xué)習(xí)算法的革新、硬件技術(shù)的變革。算法和芯片是制約人工智能產(chǎn)業(yè)爆發(fā)的關(guān)鍵核心要素。深度學(xué)習(xí)需要海量數(shù)據(jù)并行運(yùn)算,傳統(tǒng)計(jì)算架構(gòu)無法支撐深度學(xué)習(xí)的大規(guī)模并行計(jì)算需求,全球科技巨頭紛紛搶占人工智能芯片的戰(zhàn)略制高點(diǎn)。人工智能芯片行業(yè)作為產(chǎn)業(yè)最上游,是人工智能產(chǎn)業(yè)發(fā)展的基礎(chǔ)和先鋒。人工智能芯片更注重超速運(yùn)算能力,呈現(xiàn)與通用處理器芯片差異化發(fā)展態(tài)勢。我國在移動(dòng)芯片發(fā)展浪潮中積累了一定的產(chǎn)業(yè)優(yōu)勢,在腦神經(jīng)芯片技術(shù)研發(fā)上布局早,為了能夠在人工智能時(shí)代占據(jù)國際領(lǐng)先地位,我國應(yīng)加快戰(zhàn)略步伐,加大研發(fā)力度,合理選擇技術(shù)發(fā)展路徑,把握我國在處理器技術(shù)方面變道超車的機(jī)會(huì),促進(jìn)人工智能產(chǎn)業(yè)爆發(fā)。
華為攜手LRTC發(fā)布全球首個(gè)4G網(wǎng)絡(luò)IPTV商用業(yè)務(wù)
歐洲立陶宛領(lǐng)先的電信運(yùn)營商LRTC攜手華為近日發(fā)布了全球第一個(gè)基于4GfixedLTE(WTTx,WirelessToTheX)網(wǎng)絡(luò)IPTV商用業(yè)務(wù),讓更多家庭快速接入寬帶服務(wù),享受高質(zhì)量的視頻業(yè)務(wù)體驗(yàn)。
LRTC的無線寬帶接入和VoIP語音服務(wù)早已投入商用。此次作為業(yè)界首秀,其與華為聯(lián)合創(chuàng)新推出了基于4G網(wǎng)絡(luò)CPE+機(jī)頂盒的IPTV及視頻點(diǎn)播業(yè)務(wù)(VOD)。據(jù)悉,LRTC此次推出了34個(gè)電視頻道,另外還包括運(yùn)動(dòng)、科技探索、商業(yè)財(cái)經(jīng)等付費(fèi)點(diǎn)播內(nèi)容。除了LRTC,歐洲、亞太和中東其它移動(dòng)運(yùn)營商也在積極測試基于WTTx的TV及OTT視頻點(diǎn)播業(yè)務(wù)。
LRTCCEORemigijusSeris指出:“通過此次與華為的全面合作,我們成功地推出了無線網(wǎng)絡(luò)IPTV服務(wù)以滿足現(xiàn)代電視業(yè)務(wù)的巨大需求,特別是那些居住在郊區(qū)和鄉(xiāng)村的客戶。我們也希望,IPTV項(xiàng)目將縮小立陶宛技術(shù)發(fā)達(dá)城市和欠發(fā)達(dá)區(qū)域之間的數(shù)字鴻溝。”
Researchonartificial intelligence process chip technology
SHIYuxia
Artificial intelligence will drive a new round of computing revolution. Deep learning requires massive data parallelcomputing, but the traditional computing architecture cannot support the large- scale parallel computing needs of deeplearning. The core process chip is the strategic high ground of the artificial intelligence era, deciding the infrastructure anddeveloping ecology of a new computing platform. This paper analyzes the main trend of artificial intelligence industry and thesituation of China, the artificial intelligence technology system, the global and Chinese artificial intelligence chipdevelopment route, and compares and analyzes themaincharacteristics of different technical routes.
artificial intelligence;core chip;technology system;technology trend(
2016-11-27)