黃林軼,陳明敏,彭琦,黃璇,童國煒
(1.工業(yè)和信息化部電子第五研究所,廣東 廣州 511370;2.智能產(chǎn)品質(zhì)量評價與可靠性保障技術(shù)工業(yè)和信息化部重點實驗室,廣東 廣州 511370)
近年來,人工智能(AI:Artificial Intelligence)技術(shù)在工業(yè)界、學術(shù)界均得到了飛速發(fā)展,與諸多領(lǐng)域的融合創(chuàng)新應(yīng)用場景層出不窮,如智能無人機、智能汽車。AI現(xiàn)已被證明是一種可成功地用于多種任務(wù)的機器學習方法,各種算法、軟件和硬件廠商均推出了各自支持AI訓練推理的產(chǎn)品[1-3]。但是,由于各個廠商為了推廣產(chǎn)品,制定了很多僅符合特定產(chǎn)品的評測基準;同時,AI測試基準互認難、落地少,使得產(chǎn)業(yè)鏈中AI產(chǎn)品的發(fā)展受到了一定的阻礙[4]。本文為了分析現(xiàn)階段AI評測基準的發(fā)展脈絡(luò),推進行業(yè)健康發(fā)展,匯總了國內(nèi)外若干個AI評測基準,從評價指標的多樣性、模型的多樣性和應(yīng)用場景的多樣性等角度進行分析評價。
20世紀80年代,為了讓Unix服務(wù)器更好地發(fā)展,創(chuàng)建了標準性能評估組織(SPEC:Standard Performance Evaluation Corporation);為了改善關(guān)系型數(shù)據(jù)庫的性能,創(chuàng)建了事務(wù)處理性能委員會(TPPC:Transaction Processing Performance Council),這些組織在建立后制定并維護了各自社區(qū)的基準,引導了技術(shù)發(fā)展的趨勢。受其啟發(fā),眾多科研機構(gòu)、高校及企業(yè)也紛紛地推出了具有各自特色的AI評測基準;同時,由于市場上AI專用訓練推理軟硬件產(chǎn)品的種類繁多,為了推進該類產(chǎn)品發(fā)展,也有必要制定綜合性的評測基準。
MLPerf是由來自學術(shù)界、研究實驗室和相關(guān)行業(yè)的AI領(lǐng)導者組成的聯(lián)盟,旨在“構(gòu)建公平和有用的基準測試”,在規(guī)定的條件下,針對硬件、軟件和服務(wù)的訓練和推理性能提供公平的評估。目前,MLPerf項目[5]是接受度較高的AI評測基準,它依托哈佛大學的Fathom項目和斯坦福的DAWNBench項目,借鑒了前者在評測中采用多種AI任務(wù),以保證評測基準具有足夠的代表性;同時借鑒了后者使用的對比評價指標,保證其公平性。
作為一套AI學習軟硬件性能通用性評測基準及改善策略提供平臺,MLPerf關(guān)注的是不同的AI模型算法在面對具體任務(wù)時訓練和推理過程中所需的時間。該基準的測試集涵蓋了4個領(lǐng)域9種問題的評測基準,主要有圖像分類、物體識別、翻譯、語音識別、自然語言處理和推薦,以及強化學習,具體如表1所示。
表1 MLPerf評測基準任務(wù)類型表
MLPerf將評測分為訓練評測和推理評測,同時每種評測又分為開放式和封閉式;開放式允許評測過程中的某些設(shè)計的改動,封閉式必須采用MLPerf規(guī)定的設(shè)置。目前該平臺還未收集到任何開放式評測結(jié)果的提交。在封閉式推理評測基準中,MLPerf兼顧了AI算法模型在大型數(shù)據(jù)中心、邊緣系統(tǒng)、移動終端中的運行需求,同時又定義了在線、離線、并行和串行4種運行方式。
MLPerf在AI任務(wù)類型選擇時,重點關(guān)注了目前應(yīng)用落地較為成熟的圖像分類、目標檢測、語義分割、自然語言處理、推薦和強化學習等場景,同時在各種場景中挑選了基準AI模型算法和數(shù)據(jù)集,但是僅關(guān)注了訓練/推理時間指標。由于MLPerf項目任務(wù)分類詳細,而指標簡單,眾多廠商均提交了本公司產(chǎn)品在其基準上的測試結(jié)果。
2018年,中國科學院計算技術(shù)研究所智能計算機研究中心提出了一款用于評估神經(jīng)網(wǎng)絡(luò)處理器(NPU:Neural-network Processing Unit)性能的基準套件:NPUbench[6]。該基準包含8種神經(jīng)網(wǎng)絡(luò)模型、5種數(shù)據(jù)集和2種評估指標,以保證NPUbench所選擇的每個神經(jīng)網(wǎng)絡(luò)模型在網(wǎng)絡(luò)結(jié)構(gòu)方面都具有代表性、多樣性,如表2所示。
表2 NPUbench包含的模型和數(shù)據(jù)集
a)性能指標
即每秒執(zhí)行乘加操作的數(shù)量,這一指標主要用于度量NPU在計算性能方面的表現(xiàn)。
b)功耗指標
即每秒每瓦執(zhí)行乘加操作的數(shù)量,這一指標主要用于度量NPU在能耗方面的表現(xiàn)。
當對NPU進行測試時,首先,把指定的神經(jīng)網(wǎng)絡(luò)模型部署到待測NPU上。然后,選擇模式,第一種模式是將Batch參數(shù)設(shè)置為1,從而會記錄NPU處理一個Batch數(shù)據(jù)時的性能;第二種模式是把Batch參數(shù)設(shè)置到最大,盡可能地達到待測神經(jīng)網(wǎng)絡(luò)處理器的性能極限,這一模式是用來記錄NPU的最大吞吐性能。最后,記錄NPU的性能表現(xiàn)。
根據(jù)該評測基準在蘋果A10X Fusion、A11 Bionic,華為麒麟970芯片,英偉達GeForce GTX 1080等硬件上的測試結(jié)果可知,NPUbench可實現(xiàn)對特定主流NPU的訓練和推理性能評測,采用運算性能和功耗作為性能評價指標,但所涵蓋的任務(wù)類型較少,并且主要集中于圖像處理領(lǐng)域。
2020年,中關(guān)村智用人工智能研究院發(fā)布了面向產(chǎn)業(yè)應(yīng)用的AI開源評測基準AI-Rank[7],該基準通過多維度擬合評測指標評估被測系統(tǒng)的綜合性能。其具備三大特色:1)面向產(chǎn)業(yè)應(yīng)用,設(shè)定了更廣泛、更系統(tǒng)、更實用的量化評價體系;2)設(shè)定了3個評測賽道,不僅評比硬件速度,也測評面向產(chǎn)業(yè)真實應(yīng)用的軟件能力;3)支持國產(chǎn)化產(chǎn)品的評測,實現(xiàn)硬件、算法和平臺的一體化協(xié)同發(fā)展。
不同于已有的評測基準,它們大多集中在對訓練時間、推理時間等幾個指標的計量上,AI-Rank設(shè)立了多個細分賽道,開展了對純硬件性能和大規(guī)模集群計算能力的測試,對算法、硬件和生態(tài)等方面進行全面的測評,如表3所示。
表3 評測賽道
以上每個賽道中又對AI的主要使用場景,如云端訓練、云端推理和終端推理,進行了覆蓋。觀察可知,軟件賽道主要評估深度學習框架和模型在同等硬件、數(shù)據(jù)集和網(wǎng)絡(luò)結(jié)構(gòu)前提下的性能表現(xiàn);硬件賽道主要用于綜合評估深度學習訓練、推理所用的硬件計算設(shè)備性能。定位方面,AI-Rank在工業(yè)需求中的框架和模型選擇角度,提供可供參考的測試性能數(shù)據(jù)。
AI Benchmark[8]是蘇黎世聯(lián)邦理工學院基于AndroidNN技術(shù)推出的AI性能評測工具,涵蓋了SOC和手機AI性能數(shù)據(jù)。該基準測試包括46項AI和計算機視覺測試,這些測試由智能手機上運行的神經(jīng)網(wǎng)絡(luò)執(zhí)行。它衡量了AI性能的100多個不同方面,包括速度、精度和初始化時間等。包含了一系列全面的架構(gòu)評測,允許評估各種用于解決不同AI任務(wù)的方法的性能和限制。
測試結(jié)果分為手機、手機芯片和GPUCPU 3個版本的測試展示,分別從目標識別(輕量級)、目標識別(重量級)、人臉識別、光學字符識別、圖像去模糊、圖像超分辨、郊外成像仿真、語義分割、照片增強和文本填空,以及設(shè)備極限等角度對設(shè)備進行評測,所選的任務(wù)類型種類多,更加貼近AI應(yīng)用場景;同時兼顧了AI模型訓練和推理過程的定量描述。
AImark[9]是魯大師于2017年發(fā)布的手機AI性能評測工具,是手機行業(yè)內(nèi)第一個針對AI的評測工具。在評測任務(wù)設(shè)計中,考慮到主流手機介紹中把AI優(yōu)化作為產(chǎn)品宣傳的亮點,如AI美顏、AI攝影等功能,因此制定了以圖像識別、圖像標注為基準測試任務(wù)的評測標準。采用4種神經(jīng)網(wǎng)絡(luò):ResNet34、InceptionV3、Mobilenet-SSD、DeepLabV3+,分別在兩項任務(wù)中進行測試并輸出結(jié)果列表,最終通過識別速度來判斷手機AI性能,進而給出行測試評分。
2020年,清華AI研究院推出了針對AI模型算法安全的檢測平臺RealSafe[10],該評測基準可作為AI系統(tǒng)的“殺毒軟件”提供從評測到防御的解決方案,緩解對抗樣本攻擊的威脅程度。同時,該平臺支持零編碼在線評測,部署方僅提供相應(yīng)的數(shù)據(jù)即可完成在線評估,技術(shù)難度、學習成本均得到了降低。
該平臺為了提高用戶對AI模型安全性的認知,采用量化的形式來展現(xiàn)模型在對抗樣本攻擊下的表現(xiàn)評分;同時提供模型安全性提升服務(wù),包含針對5種去除對抗噪聲攻擊的通用性防御方案。實驗表明,部分第三方人臉識別系統(tǒng)添加RealSafe后,安全性可提升40%以上。
2019年,AI產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布了AI端側(cè)芯片基準測試評估方案V0.5[11](AIIA DNN benchmark V0.5)。方案聚焦能夠客觀地反映AI處理器或加速器的性能指標,在4個典型的應(yīng)用場景(分類、目標識別、語義分割和超分辨)中設(shè)置了兩類評測指標、運行速度和算法性能(top1,top5,mAP,mIoU,PSNR);同時區(qū)分了整型和浮點型模型的性能對比結(jié)果。為了涵蓋更多的AI芯片,該方案采用分類、目標檢測、圖像超分辨、圖像語義分割和人臉識別等任務(wù)分別在終端和云端進行訓練、推理過程的評估。相比于其他評測方案,該方案的任務(wù)類型有限,但是評測指標較為豐富,而且考慮了整型和浮點型模型的對比。
繼PaddlePaddle之后,百度開源了一項深度學習評測基準工具DeepBench[12]。該工具可以測量深度神經(jīng)網(wǎng)絡(luò)訓練中的基礎(chǔ)操作在不同的硬件條件下的表現(xiàn)。例如:稠密矩陣相乘運算是AI模型中常用的運算模塊,但是,由于不同硬件的實現(xiàn)方式存在差異,存在深度學習硬件和軟件的優(yōu)化空間。
DeepBench包括7個硬件平臺的訓練結(jié)果,包括NVIDIA的TitanX、M40、TitanX Pascal、TitanXp、1080 Ti、P100和 英 特 爾 的Knights Landing。推 理 結(jié) 果 包 括:NVIDIA的TitanX Pascal、TitanXp和1080 Ti 3種服務(wù)平臺,以及iPhone 6和7、樹莓派3這3個移動設(shè)備。評測過程中針對稠密矩陣乘法、卷積、循環(huán)層和全局歸約等操作分別在半精度和單精度模型中進行測試,通過計量運行時間和GFLOPS等指標對上述操作的性能進行評價。
2018年阿里巴巴發(fā)布了一款A(yù)I基準測試平臺AI Matrix[13],可為用戶提供一個測量不同AI軟件和硬件的方法并比較它們之間的優(yōu)劣,了解各種影響AI硬件性能的因素并幫助用戶改進硬件設(shè)計。同時,緩解了開發(fā)者關(guān)注的4個問題:1)如何反映AI應(yīng)用和模型使用的真實情況;2)制定AI加速器評估和選型標準;3)如何推動AI用例過程中模型算法和硬件的融合過程,提高硬件的利用率;4)指導AI芯片設(shè)計及優(yōu)化過程。
為了評估不同的AI軟硬件組合時的訓練推理性能,AI Matrix設(shè)計了4類測試:底層測試、分層測試、完整測試和合成測試。其中,底層測試著重于AI硬件計算中重要的基礎(chǔ)運算性能計算;分層測試著重于評價神經(jīng)網(wǎng)絡(luò)里面的每一層;完整測試著重于評價不同應(yīng)用領(lǐng)域的完整模型;合成測試是針對設(shè)計人員提出的一種創(chuàng)新想法,通過合成模型從統(tǒng)計的角度來模擬模型,同時提供一些靈活性以測試硬件。
近些年,AI技術(shù)在計算機視覺、自然語言處理、自動駕駛和機器人等領(lǐng)域開展了諸多應(yīng)用落地案例,為了更加科學、客觀地評估AI模型在某些軟硬件組合下的性能,國內(nèi)外專家學者提出了各自具有領(lǐng)域特色的AI評測基準。展望未來,本文認為該領(lǐng)域具有以下特點。
a)從單純的AI算法評測向AI軟硬件聯(lián)合評測發(fā)展?,F(xiàn)階段,單純的AI算法評測不能滿足現(xiàn)階段應(yīng)用落地過程中對AI算法性能提升的需求。AI模型落地應(yīng)用過程離不開深度學習框架和高計算性能硬件的協(xié)同,在軟硬件協(xié)同測試環(huán)境下尋找最優(yōu)的組合方式是現(xiàn)階段AI評測的發(fā)展趨勢之一。
b)現(xiàn)有的應(yīng)用場景測試不完善,新增的應(yīng)用場景測試需求難以滿足。AI算法模型需要結(jié)合具體應(yīng)用場景的特點進行部署,現(xiàn)存的評測基準中定義的場景過于理想,未考慮實際應(yīng)用過程中出現(xiàn)的異常情況,如對抗攻擊。同時,隨著深度學習落地應(yīng)用業(yè)務(wù)的開展,更多新的應(yīng)用場景急需客觀科學的方法進行評測,在幫助開發(fā)者選擇最佳的軟硬件組合的同時,指導生廠商對其產(chǎn)品進行優(yōu)化升級。
c)通用性、專用性評測基準共同發(fā)展,完善了AI模型算法和軟硬件的設(shè)計框架。通用型與專用型訓練推理架構(gòu)是AI裝備領(lǐng)域的發(fā)展趨勢,領(lǐng)域內(nèi)的高校、科研院所和公司均試圖在AI通用評測基準和專用評測基準角度尋找自己的立足點。目前,專用型基準更受青睞,不同領(lǐng)域的公司相繼地提出了各自的評測基準,在產(chǎn)品設(shè)計、制造和測試階段均發(fā)揮了指導作用。
d)AI測試基準種類多,在實際指導生產(chǎn)中的作用存在提升空間。一方面,AI評測基準的提出可以指導終端用戶選擇恰當?shù)漠a(chǎn)品;另一方面,可以指導AI產(chǎn)品制造方對其產(chǎn)品進行迭代優(yōu)化升級。但是,目前兩個方面均未起到應(yīng)有的作用。未來在AI評測基準指導生產(chǎn)方面應(yīng)增加研究力度,提升所提基準的實際價值。
AI評測基準可有效地改善應(yīng)用過程中落地效果差的問題,同時也可以指導AI模型、AI產(chǎn)品在設(shè)計、制造、部署和測試過程中的工作,保障AI產(chǎn)業(yè)健康發(fā)展。本文結(jié)合國內(nèi)外AI評測基準的發(fā)展現(xiàn)狀,從設(shè)計目的、特點、場景、指標和涵蓋范圍等方面總結(jié)介紹了9款基準,并進行了適當?shù)姆治鲈u價,最后針對該領(lǐng)域4個方面的發(fā)展趨勢進行了詳細的分析闡述。