葛蔚 曹凝
(中國科學院過程工程研究所 北京 100190)(中國科學院計劃財務(wù)局 北京 100864)
隨著現(xiàn)代科學技術(shù)的飛速發(fā)展,傳統(tǒng)的科學實驗和理論研究方法已不能完全滿足當代科學研究與技術(shù)進步的需求,計算機模擬作為20世紀發(fā)展起來的新型科研手段被視為現(xiàn)代科學技術(shù)進步的“加速器”而受到越來越多的重視。大型計算機模擬是以計算能力為基礎(chǔ),依據(jù)研究目標的理論模型,運用數(shù)值計算方法,在計算機上進行虛擬實驗。其特點是費用低、周期短、方便靈活、應(yīng)用廣泛,甚至可以模擬人類現(xiàn)代技術(shù)無法實現(xiàn)的科學實驗,如星系演化和宇宙形成過程等。因此,超級計算系統(tǒng)已成為世界諸強競相研制的國之重器。
超級計算系統(tǒng)有通用和專用之分。前者能較均衡地滿足各領(lǐng)域的計算需求,而后者是為特定算法專門優(yōu)化設(shè)計的。主頻和集成度等元器件技術(shù)的進步能整體提升各種計算機對各種算法的計算速度。但近年來,以集成電路的線寬為標志,人類正在逼近當前技術(shù)的極限,因此速度的提升已越來越多地依靠多核并行、異構(gòu)和流處理等需要與軟件和算法更緊密配合的途徑。另外,隨著性能的飛速提升,個人計算機已進入了很多原本需要超級計算的領(lǐng)域,使超級計算的需求逐漸集中于若干專門領(lǐng)域。因此,過分追求通用,會使超級計算系統(tǒng)如同自行車與跑車混行的高速公路,在效率和經(jīng)濟性上都面臨挑戰(zhàn)。而如果對各種算法分別研制專用系統(tǒng),計算速度雖高,但開發(fā)、生產(chǎn)、運行維護和應(yīng)用成本同樣提高,也缺乏普遍意義。
高效能低成本多尺度離散模擬超級計算應(yīng)用系統(tǒng)則提出了能夠涵蓋若干領(lǐng)域、適合大量超級計算問題的 “多尺度離散模擬”通用算法框架。針對該框架設(shè)計高效的軟件和優(yōu)化的硬件系統(tǒng),實現(xiàn)低成本、低能耗、高效率和高性能的計算,兼?zhèn)渫ㄓ门c專用系統(tǒng)的優(yōu)勢,其具體表現(xiàn)是:
(1)適用范圍廣。利用此框架,代表各種應(yīng)用的各種單元間的作用方式可模塊化地嵌入通用的總體算法和數(shù)據(jù)結(jié)構(gòu)中,而無需獨立編寫相應(yīng)的計算軟件。
(2)可擴展性強。通用超級計算系統(tǒng)為適應(yīng)各種不同的算法和應(yīng)用問題,需要任何一對處理器間能快速交換數(shù)據(jù),多尺度離散模擬的特點決定了每個處理器只需和特定的極少數(shù)相鄰處理器交換或共享數(shù)據(jù),只要可靠性允許,這樣的系統(tǒng)中處理器數(shù)量可任意擴展而保持相對的成本和使用效率不變。
(3)并行效率高。各離散單元間作用的計算可在大量處理器上同時進行,而不必采用傳統(tǒng)的中央處理器(CPU)順序處理,可極大地提高處于計算操作中的元器件的比例、減少存儲硬件的開銷,從而降低同樣計算能力下硬件制造難度、成本及運行功耗。
解決自然界很多復雜問題的瓶頸在于缺乏對其時空多尺度結(jié)構(gòu)的認識,這也是復雜性科學研究的焦點問題。中科院過程所從1984年開始就致力于用多尺度方法研究氣固兩相系統(tǒng),逐步發(fā)展成極值型多尺度方法。在推廣應(yīng)用極值型多尺度方法的思想和用離散方法證明不同系統(tǒng)穩(wěn)定性條件的過程中,逐步認識到多尺度和離散化是很多工程問題的共性,自此致力于建立針對這一共性的計算模擬方法和軟件,并設(shè)計相應(yīng)計算機系統(tǒng)。
2007年6月,Nvidia(英偉達)公司發(fā)布了CUDA(Compute United Device Architecture)1.0,中科院過程所意識到可以借用“CPU+GPU”方案來實現(xiàn)多尺度離散模擬。為此,該所僅用4個月時間就建立了由126臺HPUxw8600工作站組成,單精度峰值超過100Tflops的Mole-9.7集群并行計算系統(tǒng)。利用該系統(tǒng),該所成功開展了多相流動直接數(shù)值模擬、材料和納微系統(tǒng)微觀模擬和生物大分子動態(tài)行為模擬等應(yīng)用,證明了多尺度離散化并行計算模式的優(yōu)勢和前景。
多尺度離散模擬Mole-8.5系統(tǒng)
2009年1月,高效能低成本多尺度離散模擬超級計算應(yīng)用系統(tǒng)項目正式啟動。項目組首先對Mole-9.7的應(yīng)用情況進行分析,通過采用Nvidia GTX295顯卡,于2009年初將Mole-9.7系統(tǒng)升級到了單精度峰值450Tflops,同時選用AMD的HD4870x2顯卡構(gòu)建了另一套單精度150Tflops單元系統(tǒng)。這兩套系統(tǒng)分別采用CUDA和Brook+編程,為了實現(xiàn)耦合計算,項目組采用了基于相同數(shù)據(jù)接口的多道程序MPI并行模式,成功進行了計算流體力學模型的嘗試。這一成功為更方便靈活地利用多種GPU資源提供了保證,也形成了系統(tǒng)建設(shè)上的新思路:通過與專業(yè)公司的合作,提高系統(tǒng)的產(chǎn)品化水平,力爭推廣到更多用戶;同時,將這些系統(tǒng)通過既有網(wǎng)絡(luò)連接起來,開展異構(gòu)資源的分布式計算。為此,中科院計財局等主管部門積極組織協(xié)調(diào),促成過程所與聯(lián)想、曙光公司各建立一套單精度峰值200萬億次的單元系統(tǒng)的技術(shù)方案,并于2009年2月安裝到位。兩家公司分別采用了Nvidia的 GTX280、TeslaC1060 和 AMD 的HD4870 x2顯卡。它們與過程所研制的兩套系統(tǒng)聯(lián)網(wǎng)共同形成了Mole-8.7系統(tǒng)。全系統(tǒng)共1000多塊GPU卡。采用多程序MPI的方式成功在953塊GPU上實現(xiàn)了凹紋槽流的格子玻爾茲曼模擬,并且相對效率與CPU系統(tǒng)相當。2009年4月20日,中科院正式對外宣布了這一成果。這不僅是該項目的階段性成果,很好地檢驗了預(yù)定的整體設(shè)計思路,而且是國內(nèi)首套單精度峰值超過1000萬億次的超級計算系統(tǒng)。
在以上成果的基礎(chǔ)上,中科院組織協(xié)調(diào)了10個研究所來推廣部署由曙光和聯(lián)想生產(chǎn)的上述單元系統(tǒng)。歷經(jīng)半年多時間的設(shè)計、安裝、調(diào)試,至2010年初,各家單位都成功開展了GPU計算和應(yīng)用研究,并在地質(zhì)勘探數(shù)據(jù)處理和天體物理模擬等方面取得了國際前沿水平的應(yīng)用和理論結(jié)果。與此同時,過程所密切關(guān)注GPU計算技術(shù)的最新發(fā)展,與Nvidia和Tyan等公司緊密合作,形成了最終目標系統(tǒng)的設(shè)計方案。通過分析應(yīng)用特性,其核心系統(tǒng)Mole-8.5主要采用Tyan的S7015主板,最多可安裝8塊Nvidia公司最新的Tesla C2050 GPU卡(Fermi),從而使單機點執(zhí)行離散模擬的性能價格比能得到最充分的發(fā)揮,并使過程所成為了Nvidia C2050 GPU卡在全球的首個批量用戶。
2010年4月24日,Mole-8.5系統(tǒng)初步建成,并實現(xiàn)了與Mole-8.7以及10個研究所的10套系統(tǒng)的聯(lián)網(wǎng)計算,形成了單精度峰值近5000萬億次的分布式超級計算環(huán)境。2010年5月,中科院過程所在軟件所的通力合作下,及時提交了Linpack測試結(jié)果,并在2010年6月Top500排名中名列第19位,而在稍后的Green500排名中更進入了前10(列第8位)。2010年7月,采用離散單元法實現(xiàn)了工業(yè)規(guī)模裝置準實時模擬,并開展了實時模擬和虛擬過程示范系統(tǒng)的前期設(shè)計。為適應(yīng)實時模擬的需求,項目組還提出了計算與顯示耦合的在線可視化方式并在Mole-8.5系統(tǒng)上成功應(yīng)用。后期,過程所通過與中科院計算所的密切合作,實現(xiàn)了三維并行顯示計算耦合,并應(yīng)用于海量計算數(shù)據(jù)的離線可視化。
超臨界鍋爐模擬
2010年10月,系統(tǒng)硬件、軟件和應(yīng)用等各方面順利達到了驗收要求:理論峰值計算速度為每秒2224.8萬億次單精度浮點運算,實例測試中達到的最高計算速度為每秒1432萬億次單精度浮點運算,系統(tǒng)Linpack測試峰值207.3 Tflops;系統(tǒng)能耗563 KW,系統(tǒng)總能耗 (含冷卻系統(tǒng)200KW)763KW,占地面積145m2,系統(tǒng)內(nèi)存容量17.792TB,GPU顯存容量6.48TB,共計24.272 TB;計算系統(tǒng)重量12.6噸,磁盤總?cè)萘?20.584TB;系統(tǒng)軟件主要包括結(jié)點操作系統(tǒng) CentOS 5.4、GCC/G++-4.1.2 編 譯 器 、MPI/OpenMP/CUDA編程環(huán)境、Ganglia和MoleMonitor監(jiān)控軟件等,實現(xiàn)了遠程系統(tǒng)訪問和作業(yè)管理。2010年11月8日,系統(tǒng)正式通過驗收,標志著我國在高性能計算應(yīng)用系統(tǒng)領(lǐng)域又取得重要進展。
在高效能低成本多尺度離散模擬超級計算應(yīng)用系統(tǒng)研制階段,采取工程管理方式組織實施,設(shè)立工程領(lǐng)導小組、總體組、咨詢委員會、監(jiān)理委員會和用戶聯(lián)盟等5個組織單元。領(lǐng)導小組由中科院主管院領(lǐng)導任組長,財政部及中科院主管司局領(lǐng)導、項目承擔單位領(lǐng)導任副組長,主要負責工程總體目標的設(shè)置、任務(wù)的審定和工程實施過程中重大事項的決策,與國家相關(guān)部門之間協(xié)調(diào)溝通等??傮w組主要負責工程的全過程管理,成員由項目牽頭單位中科院過程所聘任,報領(lǐng)導小組批準,對單位法定代表人負責。咨詢委員會由相關(guān)行業(yè)專家組成,對領(lǐng)導小組負責決策咨詢,對總體組負責技術(shù)咨詢。監(jiān)理委員會由中科院計財局聘任,負責對工程質(zhì)量、經(jīng)費管理及工程進度等進行全程目標控制、跟蹤和監(jiān)督。用戶聯(lián)盟由研制系統(tǒng)現(xiàn)有目標用戶單位和潛在用戶單位組成,負責參與項目的市場調(diào)研和相關(guān)討論,是研制系統(tǒng)技術(shù)需求和市場需求的來源。
由于應(yīng)用需求迫切,高效能低成本多尺度離散模擬超級計算應(yīng)用系統(tǒng)在建設(shè)過程中就開始承擔 “大型油氣田及煤層氣開發(fā)”等國家重大專項、國家科技支撐計劃及國家自然科學基金重大基金項目中的重要計算服務(wù),并為中石化、中石油、寶鋼、兗礦以及通用電氣、阿爾斯通、必和必拓、聯(lián)合利華等國內(nèi)外大型企業(yè)提供模擬計算任務(wù),成功應(yīng)用于化工、冶金、能源、生物和材料等領(lǐng)域的過程模擬與優(yōu)化設(shè)計,以及物理、力學、化學和生命科學領(lǐng)域的若干基礎(chǔ)研究問題。在氣固系統(tǒng)多尺度模擬、復雜生物分子模擬和金屬晶體材料模擬等領(lǐng)域成功實施了世界前沿水平的大規(guī)模并行計算。該系統(tǒng)的硬件成本和運行費用較傳統(tǒng)的CPU超級計算系統(tǒng)顯著降低,提高了實際應(yīng)用效能,有力支持了國家重大項目的研究和國際合作,有力推動了我國超級計算應(yīng)用水平的跨越式發(fā)展。
項目驗收會
該系統(tǒng)主要針對過程工程中大型反應(yīng)器的優(yōu)化和改造開展了模擬研究,包括流化床、攪拌槽、鍋爐和冶金爐等,模擬尺度達到米級而分辨率達到毫米級,采用的粒子或網(wǎng)格數(shù)最多超過了10億。通過材料表面結(jié)構(gòu)的分子動力學模擬與氣體剪切流動的擬顆粒模擬的耦合實現(xiàn)了對高溫高速下氣動加熱和材料變形破壞等問題的研究,具備了在航空航天、能源動力和材料力學等領(lǐng)域?qū)嶋H應(yīng)用的能力。實現(xiàn)了縫洞型油藏中油水驅(qū)替過程的介觀模擬,實現(xiàn)了微米級裂縫與厘米級孔洞的耦合模擬,整體計算規(guī)??沙^米級,具備了部分代替油藏物理模擬的能力。針對鋼鐵冶煉新工藝的主反應(yīng)器和鋼渣處理等工藝過程實現(xiàn)了全系統(tǒng)、全尺寸的模擬優(yōu)化,并在計算速度上接近實時模擬。
另外,該系統(tǒng)開展的應(yīng)用還包括天體演化的物理學計算、金屬合金材料設(shè)計、集成電路的電磁場分析、高能物理實驗數(shù)據(jù)分析、高能粒子與材料間相互作用、油藏勘探地震波數(shù)據(jù)的反演、醫(yī)學影像三維重構(gòu)、移動空間物體跟蹤分析、基因比對等方面。如在多尺度模擬計算系統(tǒng)上進行大規(guī)模計算模擬三維流感病毒在細胞液中的動態(tài)結(jié)構(gòu),體系中包含的原子個數(shù)約3億,模擬使用了多達1728個Tesla C2050 GPU,是目前已知的對該類型體系的最大規(guī)模的模擬,模擬結(jié)果可用于研究流感病毒的結(jié)構(gòu),探索抗流感藥物同流感病毒間的作用。
作為我國超級計算應(yīng)用水平跨越式發(fā)展的典型標志,高效能低成本多尺度離散模擬超級計算應(yīng)用系統(tǒng)在向我們展示其廣闊應(yīng)用前景的同時,也給我們帶來了許多啟示,并為未來發(fā)展指明了方向。
其一,為我國超級計算系統(tǒng)的應(yīng)用發(fā)展探索了新的模式,即通過軟件的通用化實現(xiàn)廣泛的應(yīng)用,而利用硬件的專門化提高計算效率、降低制造和運行成本,突破百萬億次級多尺度離散模擬超級計算系統(tǒng)的產(chǎn)品化技術(shù),促進超級計算的普及化;
其二,開辟了應(yīng)用牽引、軟件主導、系統(tǒng)創(chuàng)新的計算機和模擬技術(shù)發(fā)展道路,扭轉(zhuǎn)了開發(fā)與應(yīng)用的脫節(jié),并利用軟硬件優(yōu)勢的集成與互補,巧妙地突破了國外模擬軟件和硬件的壟斷;
其三,為產(chǎn)業(yè)界和科技界提供了強有力的技術(shù)支撐平臺,形成若干具有自主知識產(chǎn)權(quán)的應(yīng)用軟件,解決若干重要工業(yè)過程開發(fā)和基礎(chǔ)科學研究中的計算難題,走出一條具有特色的科學和工程計算道路,并在多相復雜系統(tǒng)、多尺度模擬等領(lǐng)域進入國際領(lǐng)先行列;
其四,有力促進計算機模擬在過程研發(fā)中的應(yīng)用,推動過程工程領(lǐng)域的科技水平和自主創(chuàng)新能力的整體進步;
其五,為我國培養(yǎng)了超級計算應(yīng)用系統(tǒng)研發(fā)的新型團隊,及覆蓋多個領(lǐng)域的新型模擬應(yīng)用人才,形成研發(fā)與應(yīng)用的可持續(xù)發(fā)展能力;
最后,高效能低成本多尺度離散模擬超級計算應(yīng)用系統(tǒng)項目的研制成功也啟示我們,在開放的環(huán)境下,只要我們解放思想,不斷從創(chuàng)新實踐中提出新概念,提出新思想,通過體制機制創(chuàng)新,有效整合優(yōu)勢技術(shù)資源聯(lián)合攻關(guān),我們完全有能力做出世界一流的儀器設(shè)備。