黃耀鵬
6月底的時(shí)候,美國(guó)超級(jí)計(jì)算機(jī)“Summit"(頂點(diǎn))終于以200P(20億億次/秒)的峰值運(yùn)算能力,超越中國(guó)超算神威-太湖之光,拿回了失去5年的世界第一。
Al芯片的算力比拼
超算的算力“軍備競(jìng)賽”似乎正在延伸到AI芯片上。算法、數(shù)據(jù)和算力,并稱為新AI時(shí)代三大驅(qū)動(dòng)力。如何在追求更好性能的同時(shí)實(shí)現(xiàn)低功耗、低延遲和低成本,逐漸成為擺在所有AI從業(yè)者面前的艱巨挑戰(zhàn)之一。
百度在7月4日的AI開(kāi)發(fā)者大會(huì)上,與自動(dòng)駕駛平臺(tái)Apoll03.0-起發(fā)布了“昆侖”AI芯片百度CEO李彥宏稱,這是中國(guó)首款A(yù)I芯片,也是全球范圍內(nèi)算力最高AI芯片,號(hào)稱IOOW的功耗下實(shí)現(xiàn)260Tops(萬(wàn)億次/秒)算力。
百度自己當(dāng)然沒(méi)有芯片生產(chǎn)能力,該芯片為14nm制程,內(nèi)存帶寬達(dá)到了512GB/s,由三星代工。不過(guò),“昆侖”核心數(shù)有數(shù)萬(wàn)個(gè),體積和功耗都不適合車規(guī),其潛在部署方向是云端。
作為對(duì)比,英偉達(dá)(NVIDIA)自認(rèn)為已經(jīng)在自動(dòng)駕駛AI芯片執(zhí)牛耳。英偉達(dá)自2015年開(kāi)始推出DrivePX系列,第一代PX算力2Tops,而深度學(xué)習(xí)算力2.3Tops,其長(zhǎng)項(xiàng)在于處理圖像。至于英偉達(dá)自身,今年推出Drive Xavier,算力達(dá)到30Tops,但算力功耗比仍然在紅線內(nèi)。
具有諷刺意味的是,沒(méi)有緊跟軍備競(jìng)賽腳步的Mobileve,反而是自動(dòng)駕駛領(lǐng)域視覺(jué)處理最領(lǐng)先、市占率最高的公司。
2010年Mobileve的EyeQ2算力僅為0.026Tops,功耗2.5w; 2014年發(fā)布的EyeQ3算力0.256Tops,功耗為2.5w;2015年的EyeQ4浮點(diǎn)算力2.5Tops,功耗為3W。而計(jì)劃2020年量產(chǎn)的Eyeos浮點(diǎn)算力將達(dá)12Tops,功耗卻限制在5W。
因?yàn)槔霾环稀败囈?guī)”,英偉達(dá)拿到了算力第一的桂冠。但實(shí)際上PX系列并無(wú)車規(guī)經(jīng)驗(yàn)。雖然一眾自動(dòng)駕駛公司在新項(xiàng)目的研發(fā)時(shí),往往首選英偉達(dá)的開(kāi)發(fā)版,實(shí)際上PX2以后的產(chǎn)品沒(méi)有在量產(chǎn)車上采用。能否勝任環(huán)境條件苛刻的車規(guī)驗(yàn)證,誰(shuí)心里也沒(méi)底,到底比不上Mobileve以千萬(wàn)計(jì)的裝機(jī)履歷。
算力與自動(dòng)駕駛能力正相關(guān)嗎?
在自動(dòng)駕駛場(chǎng)景中,即便不考慮功耗限制,算力也不是越高越好。深度學(xué)習(xí)算力比簡(jiǎn)單粗暴的浮點(diǎn)算力更具價(jià)值。
首先,展示算力不等于實(shí)際發(fā)揮出來(lái)的算力。當(dāng)用戶真正運(yùn)行一個(gè)應(yīng)用時(shí),卻發(fā)現(xiàn)由于內(nèi)存帶寬的限制和架構(gòu)的限制,依然不能將所有的AI運(yùn)算單元填滿,從而導(dǎo)致計(jì)算硬件的計(jì)算效率低下。
其次,自動(dòng)駕駛場(chǎng)景中,卷積層越多、神經(jīng)元越多,估算愈準(zhǔn)確,計(jì)算量也奇怪地掉下來(lái)。也就是說(shuō),如果卷積層數(shù)多,AI芯片無(wú)須窮盡所有可能。
擊敗李世石的AlphaGo Lee運(yùn)行于谷歌云上,擁有50個(gè)TPU,采用分布式計(jì)算,每次搜索計(jì)算后續(xù)50步,計(jì)算速度為10000個(gè)位置/秒。而擊敗柯潔的AlphaGo Master則單機(jī)運(yùn)行,只有4TPU,運(yùn)算量只有上一代AlphaGo Lee的lo%。原因在于,新版本的AI芯片擁有更強(qiáng)大的策略/價(jià)值網(wǎng)絡(luò),其神經(jīng)網(wǎng)絡(luò)由12層進(jìn)化為40層。
更深層次的卷積神經(jīng)網(wǎng)絡(luò)可以使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種方式。前者是學(xué)習(xí)人類對(duì)弈記錄,后者是自我訓(xùn)練。后者據(jù)稱增強(qiáng)了對(duì)未來(lái)局勢(shì)的預(yù)測(cè)能力。
通過(guò)策略網(wǎng)絡(luò),可以降低搜索的寬度,減少候選項(xiàng),收縮復(fù)雜性。而且不會(huì)讓AI實(shí)施瘋狂的不靠譜的步驟。同時(shí),通過(guò)價(jià)值網(wǎng)絡(luò)減少深度,AI計(jì)算到一定的深度,不需要一直窮盡到最后。
價(jià)值與評(píng)估體系 在自動(dòng)駕駛場(chǎng)景中,AI依靠多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果,可以更好地“閱讀”路況,通過(guò)策略網(wǎng)絡(luò)選出幾個(gè)可能的路徑,然后對(duì)這些路徑進(jìn)行評(píng)估,最后把結(jié)果提交給決策樹(shù)的“樹(shù)頂”,而不需要設(shè)想接下來(lái)每一個(gè)可能的情形。
這樣一來(lái),在處理傳感器的大運(yùn)算量壓力下,用于決策的運(yùn)算量將被壓縮。這么做無(wú)損于AI芯片指揮汽車做出明智的舉措,最重要的是,AI芯片能夠不做蠢事。優(yōu)步在鳳凰城的路試撞死過(guò)路行人的事故中,多種傳感器都感知到路邊行人,預(yù)測(cè)行人接下來(lái)的動(dòng)作的確是困難的,因?yàn)楹笳呶硕?,行為有點(diǎn)乖張。但電腦決定不理會(huì)明顯有穿越趨勢(shì)的行人,無(wú)論如何是錯(cuò)誤的。
科技公司們希望,算力和神經(jīng)網(wǎng)絡(luò)層數(shù)都在進(jìn)化的AI芯片,能促使策略/價(jià)值網(wǎng)絡(luò)做出足夠明智的判斷。調(diào)試人員事先將系統(tǒng)調(diào)為“非敏感型”(主要防止動(dòng)輒剎車等一驚一乍的動(dòng)作),不應(yīng)該影響評(píng)估價(jià)值的策略。
百度的“昆侖”算力超過(guò)英偉達(dá)的PX Xavier,并不值得特別夸耀。除了比后者功耗、體積大得多,不適合部署在車上以外。我們還需要更多的證據(jù),證明“昆侖”能夠更合理地運(yùn)用其算力,即建立更高效的價(jià)值評(píng)估體系。如能做到這一點(diǎn),“昆侖”部署在云端,依靠高速通訊系統(tǒng),仍然能夠給終端做出及時(shí)、合理的建議。
算力的軍備競(jìng)賽并非毫無(wú)意義,起碼奠定了AI芯片在面對(duì)更復(fù)雜路況局面下決策的硬件基礎(chǔ)。接下來(lái)要做的,是如何高效地發(fā)揮算力。