• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      處理人工智能應(yīng)用的高性能計(jì)算機(jī)的架構(gòu)和評測

      2021-04-29 04:06:00鄭緯民
      關(guān)鍵詞:測試軟件算力高性能

      鄭緯民

      (清華大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100084)

      1 AI算力基礎(chǔ)設(shè)施的重要性

      當(dāng)前人工智能(artificial intelligence,AI)熱度不斷攀升,AI是國家提出的新型基礎(chǔ)設(shè)施建設(shè)(新基建)的重要領(lǐng)域之一。作為新基建之一,國家給予人工智能領(lǐng)域的投入不斷增加。AI基礎(chǔ)設(shè)施建設(shè)的投入主要集中于大型新型高性能計(jì)算機(jī)集群的建設(shè)。目前,國內(nèi)在建和已經(jīng)建設(shè)完成多個(gè)大型計(jì)算機(jī),其中,華為深圳鵬程實(shí)驗(yàn)室投入42億人民幣建設(shè)了一臺大型AI計(jì)算機(jī),很多省市都在進(jìn)行人工智能計(jì)算機(jī)的建設(shè)。人工智能技術(shù)的快速發(fā)展和當(dāng)前算力的不斷突破有著不可分割的關(guān)系。為了滿足人工智能技術(shù)的快速發(fā)展,建設(shè)新的AI算力基礎(chǔ)設(shè)施成為了重要一步。

      1.1 人工智能應(yīng)用問題

      人工智能應(yīng)用問題,主要分成3類: ①圖像、視頻檢測。例如,安檢攝像頭,機(jī)場人臉識別系統(tǒng),其核心是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的應(yīng)用,這類應(yīng)用在當(dāng)前已經(jīng)取得了不錯(cuò)的實(shí)際應(yīng)用效果,但是這類應(yīng)用問題并不需要龐大的算力支撐,因此,也就不需要大型計(jì)算機(jī)的投入;②決策類。比如AlphaGo下圍棋就是決策類的問題,屬于強(qiáng)化學(xué)習(xí)的范疇。前兩類應(yīng)用暫時(shí)都不需要龐大的算力支持;③自然語言處理。其一個(gè)應(yīng)用領(lǐng)域是語言翻譯,如中英互譯;另一個(gè)是自動問答系統(tǒng)的實(shí)現(xiàn),即創(chuàng)造一臺機(jī)器能回答用戶提出的問題,創(chuàng)造一臺可以回答天氣情況等簡單問題的機(jī)器不難,但創(chuàng)造一臺讓用戶認(rèn)為對話的是人類的機(jī)器是十分困難的;再一個(gè)是生成文本摘要,一篇文章經(jīng)過計(jì)算機(jī)的處理生成其摘要,或者通過簡單的描述,幫用戶生成一篇長文,比如讓計(jì)算機(jī)寫小說、論文。這方面研究目前發(fā)展迅速,著名的模型有GPT-1[1],GPT-2[2],GPT-3[3]和BERT[4]。

      1.2 自然語言處理對AI算力的需求

      近年來,自然語言處理的模型演變得越來越復(fù)雜,因此,國內(nèi)外學(xué)術(shù)界一致認(rèn)為自然語言處理問題需要強(qiáng)大的AI算力基礎(chǔ)設(shè)施支持,人臉識別和下圍棋等應(yīng)用并沒有這么高的要求。自然語言處理需要強(qiáng)大的AI算力支撐是因?yàn)槠淠P妄嫶蟮膮?shù)量,如2019年2月發(fā)布的GPT-2模型的參數(shù)有15億。僅一年后的2020年2月,TuringNLG模型[5]的參數(shù)就達(dá)到了170億,是GPT-2參數(shù)量的10倍以上。到2020年7月,GPT-3模型的參數(shù)達(dá)到了1 700億。同時(shí),各個(gè)模型的結(jié)果表明,參數(shù)越多其效果越好,但參數(shù)越多,所需要的算力越龐大,也就需要性能更加強(qiáng)勁的高性能計(jì)算機(jī)。為了滿足神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的龐大算力,許多公司著手建立了自己的高性能計(jì)算機(jī)。2020年5月,微軟推出了一臺專門為OpenAI公司設(shè)計(jì)的超級計(jì)算機(jī),其包含超過28.5萬個(gè)處理器內(nèi)核,1萬塊圖形處理單元(graphic processing unit,GPU),每個(gè)顯卡服務(wù)器的連接速度為400 Gbit/s,其性能在當(dāng)年的超級計(jì)算機(jī)排名中可以排到前5名。此外,OpenAI核算了2012年以來所有模型所用的計(jì)算量,發(fā)現(xiàn)最大規(guī)模AI模型所需算力已經(jīng)增長了30萬倍,每3~4個(gè)月翻一番,而我們熟知的摩爾定律指出芯片性能翻倍周期是18~24個(gè)月,可見傳統(tǒng)的基于CPU的高性能計(jì)算機(jī)已很難滿足大規(guī)模AI模型對算力的需求。目前,自然語言處理模型的發(fā)展趨勢是大幅增加參數(shù)數(shù)量,GPT系列模型的發(fā)展過程印證了這一說法。如表1,GPT模型擁有1.17億參數(shù),預(yù)訓(xùn)練數(shù)據(jù)量約5 GB,GPT-2參數(shù)量為15億,預(yù)訓(xùn)練數(shù)據(jù)量40 GB,而2020年最新的GPT-3參數(shù)達(dá)到了1 750億,預(yù)訓(xùn)練數(shù)據(jù)量45 TB。如此龐大參數(shù)量的模型訓(xùn)練所需運(yùn)算量巨大,同時(shí)其訓(xùn)練費(fèi)用也達(dá)到了1 200萬美元,要訓(xùn)練規(guī)模如此巨大的模型需要耗費(fèi)大量時(shí)間和算力。GPT-3的1 750億參數(shù)比GPT-2的參數(shù)增加了116倍,同時(shí)也帶來了最終效果的顯著提升,如圖1。如此大規(guī)模的模型要用什么樣的機(jī)器訓(xùn)練呢?其采用1萬塊NVIDIAV100GPU,耗時(shí)15天訓(xùn)練完成??梢钥闯?,下一代AI的發(fā)展需要大規(guī)模AI算力基礎(chǔ)設(shè)施,即人工智能需要龐大算力作支撐。GPT-3的效果是顯著的,但其跟人腦還有較大差距。圖靈獎(jiǎng)獲得者Hinton認(rèn)為4.3萬億參數(shù)(GPT-3參數(shù)的25倍)可以包含一切,但現(xiàn)有計(jì)算機(jī)系統(tǒng)無法勝任其訓(xùn)練任務(wù)。因此,人工智能問題中,現(xiàn)在需要大規(guī)模算力的主要是自然語言處理,而人臉識別等應(yīng)用并不需要。此外,圖像圖形的處理問題、決策問題、自然語言處理等問題的結(jié)合也需要更龐大的算力。

      表1 GPT系列模型規(guī)模信息

      2 AI算力基礎(chǔ)設(shè)施

      2.1 AI算力基礎(chǔ)設(shè)施的架構(gòu)

      AI的基礎(chǔ)設(shè)施是一臺專門處理人工智能問題的機(jī)器。其系統(tǒng)結(jié)構(gòu)要素包括:處理器、內(nèi)存、存儲和互聯(lián)網(wǎng)絡(luò)。處理器包括CPU、向量處理器(也稱陣列處理器,能夠同步進(jìn)行綜合數(shù)據(jù)的運(yùn)算操作)和異構(gòu)加速器(GPU、寒武紀(jì)、華為升騰等);內(nèi)存包括主存和加速器上復(fù)雜的存儲層次;存儲包括全局并行文件系統(tǒng)Lustre[6],GPFS[7]和本地存儲;互聯(lián)網(wǎng)絡(luò)由以太網(wǎng),Infiniband[8],NVLink[9]等構(gòu)成。AI基礎(chǔ)設(shè)施的架構(gòu)和原來的高性能機(jī)器相差不大,主要體現(xiàn)在AI計(jì)算機(jī)采用大量的異構(gòu)加速器。

      圖1 不同模型參數(shù)量在不同訓(xùn)練樣本數(shù)量下的準(zhǔn)確率Fig.1 Accuracy of different model parameters under different training samples

      2.2 代表性HPC和AI算力系統(tǒng)

      高性能計(jì)算(high performance computing,HPC)機(jī)群,其作為高性能機(jī)器主要處理傳統(tǒng)的科學(xué)計(jì)算問題,新的AI算力系統(tǒng)則專門處理人工智能問題。當(dāng)前代表性的HPC系統(tǒng)包括:①天河2號[10],由國防科技大學(xué)打造,曾經(jīng)在2013年6月到2015年11月是全世界超級計(jì)算機(jī)Top500[11]第1名,該排名1年認(rèn)證2次,我國的天河2號占據(jù)了榜首幾年,可見其性能的強(qiáng)大,其特點(diǎn)是在通用CPU的基礎(chǔ)上引入了異構(gòu)加速器;②無錫56研究所做的神威太湖之光[12],2016年6月到2017年11月是Top500第1名,算力遙遙領(lǐng)先,其亮點(diǎn)在于,在引入片上異構(gòu)眾核處理器的基礎(chǔ)上,所有機(jī)器的CPU都是國產(chǎn)的; ③美國的Summit[13], 2018年6月到2019年11月是Top500第1名,其特點(diǎn)是采用NVLink連接GPU和大容量NVMeSSD本地存儲;④日本富岳[14]超算,從2020年6月開始是Top500第1名,其特點(diǎn)是采用同構(gòu)向量處理器、高維網(wǎng)絡(luò)和半精度優(yōu)化。這4臺機(jī)器基本上都應(yīng)用于傳統(tǒng)的科學(xué)計(jì)算,比如天氣預(yù)報(bào)、核武器模擬、飛機(jī)機(jī)翼結(jié)構(gòu)評估等。新的AI算力系統(tǒng)的代表是鵬城云腦II,由華為合作深圳鵬城實(shí)驗(yàn)室在建,是專門適用于AI應(yīng)用的高性能計(jì)算機(jī),其引入AI異構(gòu)加速器,針對半精度計(jì)算進(jìn)行了優(yōu)化。其采用4套華為Atlas900系統(tǒng),每套系統(tǒng)128個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)8塊華為升騰加速卡,每套系統(tǒng)共有1 024塊升騰加速卡,升騰加速卡類似于GPU。云腦共有4 096塊加速卡,其計(jì)算性能半精度是1 Eflops,雙精度是1 Pflops。4套系統(tǒng)節(jié)點(diǎn)間用200 Gbit/s網(wǎng)絡(luò)互聯(lián),全交換無帶寬裁剪,全局共享存儲。

      2.3 AI算力系統(tǒng)和傳統(tǒng)超算的區(qū)別

      AI算力系統(tǒng)和傳統(tǒng)超算的區(qū)別主要有3個(gè)方面:①處理器方面。傳統(tǒng)的科學(xué)計(jì)算問題主要是雙精度運(yùn)算性能優(yōu)先,兼顧低精度計(jì)算,更大規(guī)模機(jī)器甚至需要采用80位或128位高精度浮點(diǎn)運(yùn)算,如傳統(tǒng)的天氣預(yù)報(bào)問題,它需要很長的浮點(diǎn)運(yùn)算。而AI運(yùn)算,著重半精度計(jì)算性能,即8位或16位的浮點(diǎn)運(yùn)算,不需要128位,這是AI算力系統(tǒng)和傳統(tǒng)超算的最重要區(qū)別。傳統(tǒng)超算也能用于人工智能、深度學(xué)習(xí),但其擅長的是128位的運(yùn)算,而不是半精度運(yùn)算,運(yùn)算精度不匹配造成計(jì)算效率的下降和資源浪費(fèi);②互聯(lián)網(wǎng)絡(luò)方面。傳統(tǒng)HPC系統(tǒng)一般從全系統(tǒng)角度考慮網(wǎng)絡(luò)拓?fù)浜屯ㄐ判枨?,而AI系統(tǒng)需要高性能參數(shù)平面網(wǎng)絡(luò)連接訓(xùn)練單一模型的加速器組;③存儲系統(tǒng)方面。傳統(tǒng)超算一般采用Lustre等全局并行文件系統(tǒng),支持MPI-IO,而AI超算采用局部NVMeSSD存放訓(xùn)練數(shù)據(jù)(如GPT-3 訓(xùn)練數(shù)據(jù)45 TB),避免從全局文件系統(tǒng)讀取數(shù)據(jù)造成瓶頸。對于人工智能問題,我們希望超算系統(tǒng)具有強(qiáng)大的半精度浮點(diǎn)運(yùn)算性能;而對于科學(xué)計(jì)算問題,我們希望超算系統(tǒng)具有強(qiáng)大的雙精度運(yùn)算性能。

      更大的機(jī)器能做什么?這是一個(gè)爭論許久的問題。根據(jù)以往的經(jīng)驗(yàn),在機(jī)器做出來之前,是沒有確定性的應(yīng)用,但大規(guī)模的機(jī)器做出來之后,會促進(jìn)應(yīng)用的發(fā)展。更大集群不僅是將已有問題算得更快,更重要的是解決現(xiàn)在不能解決的問題,先有一臺機(jī)器,有可能就有應(yīng)用場景了。

      3 算力的評估

      目前,華為、寒武紀(jì)、曙光、浪潮等許多公司都建造了自己的AI超算,如何對比它們的性能成為了問題。公眾需要一個(gè)簡單的指標(biāo)來知曉哪套系統(tǒng)的人工智能算力更強(qiáng),整個(gè)領(lǐng)域的發(fā)展?fàn)顩r如何?同時(shí),一個(gè)好的指標(biāo)可以引領(lǐng)領(lǐng)域的健康發(fā)展。

      3.1 傳統(tǒng)超算的算力評估方法

      傳統(tǒng)的高性能機(jī)器有Top500評比,它是通過LINPACK軟件[15]進(jìn)行測試得出成績。LINPACK作為評測超算性能的一個(gè)軟件,新的超算建造完成后可以通過運(yùn)行LINPACK來評估其性能,完成測試的時(shí)間最快,那就是Top500第1名。LINPACK測試是針對過去傳統(tǒng)的高性能機(jī)器設(shè)計(jì)的,其測試結(jié)果的好壞,表示這臺機(jī)器做傳統(tǒng)科學(xué)計(jì)算的性能。目前,新的問題是,對于新的AI超算我們也需要一個(gè)軟件來測試其性能,測試結(jié)果告訴我們這臺機(jī)器在處理AI問題方面是否優(yōu)秀。針對傳統(tǒng)超算測試的LINPACK已不適用于AI超算,因?yàn)長INPACK主要是雙精度浮點(diǎn)運(yùn)算為主的測試,而人工智能訓(xùn)練主要是以單精度浮點(diǎn)運(yùn)算或16位浮點(diǎn)運(yùn)算為主,推理任務(wù)以Int8為主,顯然,LINPACK給出的傳統(tǒng)高性能計(jì)算機(jī)的測試結(jié)果和人工智能需要的性能不完全一致,用其來測試新的機(jī)器結(jié)果是不具有信服度的。

      3.2 AI算力的評估方法

      既然現(xiàn)有的評估方法不適合,就需要重新設(shè)計(jì)一個(gè)測試評估軟件。目前國際上還沒有公認(rèn)的針對AI超算的性能測試軟件,我們國家的團(tuán)隊(duì)正在著手研發(fā),并基本做成了第1版測試軟件。要做針對AI超算的測試評估軟件,其難點(diǎn)主要有2個(gè):①測試軟件的可擴(kuò)展性。我們希望新的測試軟件對于大、中、小型集群都可以進(jìn)行測試,就是其適用范圍要廣。測試軟件應(yīng)該適用于絕大多數(shù)超算,而不是針對某一個(gè)系統(tǒng)進(jìn)行開發(fā)。現(xiàn)在多數(shù)的深度學(xué)習(xí)研究,只用了一塊GPU,也就是一臺PC機(jī)或者一臺服務(wù)器幾塊GPU做深度學(xué)習(xí)研究,其性能確實(shí)比CPU運(yùn)算有較大提升。但是,為什么廣大研究者不采用多個(gè)服務(wù)器大量GPU一起運(yùn)算呢,其效率將會有更大的提升。其難點(diǎn)不在于資金和集群構(gòu)建,而在于程序的編寫和軟件的適配。通過應(yīng)用多GPU運(yùn)算可以大幅加速訓(xùn)練過程,提高解決人工智能問題的速度,但是如何編寫可以充分利用多GPU的程序是主要難點(diǎn),特別是在面對AI超算這種具有幾千、上萬塊GPU的超大集群時(shí)。因此,新的測試程序應(yīng)該兼容單GPU、多GPU和超大GPU集群的測試場景,讓研究者可以直觀地比較各系統(tǒng)間性能的差距。②測試軟件要能反映AI超算解決人工智能應(yīng)用問題的性能。新的測試軟件不能隨意地進(jìn)行無意義的簡單浮點(diǎn)運(yùn)算,這樣不能反映AI運(yùn)算基礎(chǔ)設(shè)施解決人工智能問題的性能。我國團(tuán)隊(duì)開發(fā)的第1版測試軟件已評測了10多臺機(jī)器,當(dāng)前人工智能的研究十分火熱,很多國家和公司也都在建設(shè)AI運(yùn)算基礎(chǔ)設(shè)施,因此,我們特別需要一個(gè)測試程序來評比各個(gè)AI超算的性能。

      猜你喜歡
      測試軟件算力高性能
      多方求解智能時(shí)代算力挑戰(zhàn)
      這個(gè)第二不一般
      都市人(2023年11期)2024-01-12 05:55:06
      衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
      中國電信董事長柯瑞文:算力成為數(shù)字經(jīng)濟(jì)的主要生產(chǎn)力
      網(wǎng)絡(luò)自適應(yīng)測試軟件運(yùn)行方法設(shè)計(jì)
      自動化檢測EPU10A板卡系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      一款高性能BGO探測器的研發(fā)
      電子制作(2017年19期)2017-02-02 07:08:49
      高性能砼在橋梁中的應(yīng)用
      SATA推出全新高性能噴槍SATAjet 5000 B
      高性能可變進(jìn)氣岐管降低二氧化碳排放
      汽車零部件(2014年8期)2014-12-28 02:03:03
      宣威市| 鸡泽县| 阜平县| 昭苏县| 宁陵县| 宁远县| 鲜城| 通城县| 桦甸市| 全南县| 沙田区| 柏乡县| 四会市| 灵川县| 宜城市| 佛坪县| 竹北市| 来凤县| 营山县| 许昌县| 靖安县| 旬阳县| 新泰市| 延津县| 屯门区| 克东县| 平罗县| 麻阳| 集安市| 西和县| 桐梓县| 松阳县| 泊头市| 台北市| 保靖县| 凤冈县| 德钦县| 杨浦区| 弥渡县| 磐石市| 钟祥市|