王天一,姜金榮,遲學(xué)斌,張 賀,何卷雄,郝卉群
1(中國科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心 高性能計(jì)算部,北京 100190)
2(中國科學(xué)院大學(xué),北京 100049)
3(中國科學(xué)院 大氣物理研究所 國際氣候與環(huán)境科學(xué)中心,北京 100029)
隨著科技的進(jìn)步,人類活動與地球環(huán)境的聯(lián)系越來越密切[1],逐步衍生出了全球氣候變化(global change science)這門新興學(xué)科[2].在早期的全球變化科學(xué)研究中,首先提出了氣候系統(tǒng)的概念.氣候系統(tǒng)主要以地球流體作為研究主體,主要研究大氣環(huán)流、海洋環(huán)流、陸地表層和海冰的物理過程,后來擴(kuò)展到研究生態(tài)與環(huán)境系統(tǒng),形成了地球系統(tǒng)模式[3].世界上的各個國家和地區(qū)如中國、美國、英國、歐盟、日本等國家均已建立了各自的地球系統(tǒng)模式[4].
中科院地球系統(tǒng)模式CAS-ESM是中國科學(xué)院大氣物理研究所發(fā)展的、我國自主研發(fā)的地球系統(tǒng)模式,是進(jìn)行地球科學(xué)研究的重要工具.CAS-ESM 2.0是中科院地球系統(tǒng)模式的最新版本,參加了第6 次國際耦合模式比較計(jì)劃(CMIP6)[5,6].
作為高性能計(jì)算應(yīng)用軟件,地球系統(tǒng)模式的性能是制約其發(fā)展的重要因素之一.CAS-ESM 2.0 在CASESM 1.0 的基礎(chǔ)上在大氣分模式采用了新的自適應(yīng)濾波與三維剖分并行計(jì)算算法,在高緯地區(qū)采用了跳點(diǎn)差分計(jì)算格式;在海洋分模式也采用了多種性能優(yōu)化手段,其可擴(kuò)展性與計(jì)算效率比CAS-ESM 1.0 有了明顯的提升.因而有必要對CAS-ESM 2.0 進(jìn)行性能評估和分析,發(fā)現(xiàn)其目前仍然存在的性能瓶頸,為后續(xù)的性能優(yōu)化工作提供理論支持和發(fā)展方向.
本文將CAS-ESM 2.0 分別部署在“元”和“地球系統(tǒng)數(shù)值模擬裝置”兩大高性能計(jì)算平臺上,分別開展耦合數(shù)值模擬試驗(yàn),避免性能測試結(jié)果受到平臺硬件與軟件環(huán)境的影響.然后對模擬結(jié)果進(jìn)行評估,分析了CAS-ESM 2.0 的計(jì)算速度、可擴(kuò)展性以及耦合數(shù)值模擬中各分模式的表現(xiàn),找到了CAS-ESM 2.0 仍然存在的性能瓶頸.
CAS-ESM[7,8]是中國科學(xué)院大氣物理研究所(IAP)基于CESM 1.0[9]版本開發(fā)的.CAS-ESM是一個用于模擬地球氣候系統(tǒng)的耦合地球系統(tǒng)模式.圖1是地球系統(tǒng)模式CAS-ESM 2.0與各分模式的結(jié)構(gòu)圖,CASESM 主要由7 個單獨(dú)的分模式組成,包括大氣、海洋、陸面、陸冰、海冰、大氣化學(xué)分模式和區(qū)域分模式.7 個單獨(dú)的分模式通過耦合器結(jié)合在一起[10,11].通過對編譯運(yùn)行系統(tǒng)進(jìn)行配置,建立和組裝可以模擬和運(yùn)行的試驗(yàn).接下來將對CAS-ESM 2.0 所使用的耦合器與主要分模式進(jìn)行簡要介紹.
圖1 CAS-ESM 2.0 及各分模式結(jié)構(gòu)
耦合器是地球系統(tǒng)模式的關(guān)鍵組件之一.從圖1中可以看出,各分模式之間的數(shù)據(jù)交換主要通過耦合器來完成.由于各分模式模擬所需的數(shù)據(jù)類型、網(wǎng)格分辨率以及處理器劃分方式各不相同,因而在進(jìn)行耦合數(shù)值模擬試驗(yàn)時,需要通過耦合器來完成數(shù)據(jù)類型轉(zhuǎn)換、網(wǎng)格分辨率的映射以及處理器劃分的處理.
地球系統(tǒng)模式CAS-ESM 使用的耦合器是在CESM的CPL7 耦合器的基礎(chǔ)上發(fā)展起來的.美國NCAR 研發(fā)的CPL 耦合器主要應(yīng)用于NCAR 提出的“共同氣候系統(tǒng)模式(Community Climate System Model,CCSM)”計(jì)劃中[12],隨著CCSM 系統(tǒng)的發(fā)展壯大,其成為了目前國際上應(yīng)用最為廣泛的耦合器之一.在此基礎(chǔ)上,CASESM 對CPL7 進(jìn)行了改進(jìn),自主研發(fā)了適用于大氣模式、區(qū)域模式與大氣化學(xué)模式的三維耦合算法[13].
耦合數(shù)值模擬試驗(yàn)通過耦合器對各分模式進(jìn)行統(tǒng)一調(diào)度和管理,根據(jù)各分模式的耦合頻次按時進(jìn)行分模式之間的數(shù)據(jù)傳輸,從而可以模擬整個地球系統(tǒng)變化的復(fù)雜試驗(yàn).本文完成的耦合數(shù)值模擬試驗(yàn)采用了目前應(yīng)用最為廣泛的1850年工業(yè)革命前的初始場數(shù)據(jù)進(jìn)行模擬,使用大氣模式AGCM、陸面模式CoLM、海洋模式LICOM和海冰模式CICE 進(jìn)行耦合.本文將對這幾個分模式進(jìn)行簡要介紹.
2.2.1 大氣模式IAP AGCM5
大氣模式IAP AGCM是中國科學(xué)院大氣物理研究所發(fā)展的大氣環(huán)流模式[14,15],CAS-ESM 2.0 使用的版本為IAP AGCM5.與IAP AGCM4 相比,IAP AGCM5對動力框架和并行計(jì)算進(jìn)行了改進(jìn),采用了新的自適應(yīng)濾波與三維剖分并行計(jì)算算法,在高緯地區(qū)采用了跳點(diǎn)差分計(jì)算格式;對物理過程參數(shù)化方案也做了大量工作,包括深對流參數(shù)化、淺對流參數(shù)化[16]、宏觀云物理過程參數(shù)化、微觀云物理過程參數(shù)化[17],重力波和湍流等.
2.2.2 海洋模式LICOM
海洋模式LICOM是中國科學(xué)院大氣物理研究所發(fā)展的海洋環(huán)流模式[18,19],CAS-ESM 2.0 使用的版本為LICOM2.0.在CAS-ESM 2.0 中,LICOM 在海氣通量交換物理過程上,提出了鹽度邊界條件[20].LICOM在國際上首次使用了實(shí)鹽通量,認(rèn)為海鹽通量應(yīng)是虛鹽通量和實(shí)鹽通量之和,且在虛鹽通量中考慮了淡水通量和海表鹽度的相關(guān)關(guān)系,替代了國際上常用的氣候態(tài)常數(shù)來表征海表鹽度.
2.2.3 陸面模式CoLM
陸面模式CoLM是北京師范大學(xué)發(fā)展的陸面模式[21].在CAS-ESM 2.0 中,CoLM 引入了多層土壤碳方案,可以更好地描述土壤碳的累積和分解效應(yīng).另外,基于風(fēng)蝕物理過程,建立了新的起沙過程計(jì)算方案,更好地模擬了全球主要的沙塵分布帶.
2.2.4 海冰模式CICE
海冰模式CICE是美國國家大氣研究中心(NCAR)發(fā)展的海冰模式[22,23],CAS-ESM 2.0 使用的版本為CICE4.0.在CAS-ESM 2.0 中,對海冰表面反照率參數(shù)化方案及海冰模式輻射傳輸過程方案進(jìn)行了完善,模擬結(jié)果顯示海冰在密度和厚度上都更接近觀測數(shù)據(jù)[24].
本文分別將CAS-ESM 部署在“元”高性能計(jì)算系統(tǒng)和“地球系統(tǒng)數(shù)值模擬裝置”原型系統(tǒng)兩個超級計(jì)算平臺進(jìn)行數(shù)值模擬試驗(yàn).
中國科學(xué)院高性能計(jì)算系統(tǒng)“元”于2014年11月正式啟用,該計(jì)算系統(tǒng)目前已有 CPU 總共5400 核,共有270 臺曙光 CB60-G16 雙路刀片,整體峰值性能達(dá)120.96 Tflops,每臺刀片計(jì)算節(jié)點(diǎn)配置 2 顆 Intel E5-2680 V2 (Ivy Bridge|10C|2.8 GHz) 處理器,每顆處理器10 核,64/128 GB DDR3 ECC 1866 MHz 內(nèi)存,擁有總?cè)萘?1.486 PB,可用容量為1.189 PB 的高性能工作區(qū)存儲系統(tǒng).其計(jì)算存儲網(wǎng)絡(luò)采用FDR InifiBand 全線速互聯(lián),每顆處理器的網(wǎng)絡(luò)帶寬為56 GB.
“地球系統(tǒng)數(shù)值模擬裝置”是峰值計(jì)算能力位于國際前列的地球系統(tǒng)數(shù)值模擬的專用裝置,在體系結(jié)構(gòu)、計(jì)算密度、存儲架構(gòu)、能效比等各方面均處于目前國內(nèi)領(lǐng)先水平.其原型系統(tǒng)目前擁有600 臺計(jì)算節(jié)點(diǎn),整體峰值浮點(diǎn)性能達(dá)到1.8 Pflops,每臺計(jì)算節(jié)點(diǎn)配備2 顆我國自主研發(fā)的Hygon 處理器,每顆處理器32 核心,主頻2 GHz.每臺計(jì)算節(jié)點(diǎn)配備256 GB DDR4 2666 內(nèi)存.其計(jì)算存儲網(wǎng)絡(luò)采用Intel OPA 專用計(jì)算網(wǎng)絡(luò)方案,每顆處理器的網(wǎng)絡(luò)帶寬為100 GB.
地球系統(tǒng)模式CAS-ESM是進(jìn)行氣候數(shù)值模擬和預(yù)測的高性能計(jì)算軟件系統(tǒng).其模擬結(jié)果容易受到計(jì)算環(huán)境和平臺的影響,因而我們分別在高性能計(jì)算系統(tǒng)“元”和“地球系統(tǒng)數(shù)值模擬裝置”原型系統(tǒng)兩個高性能計(jì)算平臺進(jìn)行數(shù)值模擬試驗(yàn),測試其計(jì)算速度、并行效率、可擴(kuò)展性等性能指標(biāo),同時相同核數(shù)的模擬試驗(yàn)測試5 次,取模擬時間的最小值,以消除計(jì)算環(huán)境和平臺的影響.
我們首先在高性能計(jì)算系統(tǒng)“元”上進(jìn)行了地球系統(tǒng)模式CAS-ESM 的耦合數(shù)值模擬試驗(yàn),大氣模式使用AGCM4.2,陸面模式使用CoLM,海洋模式使用LICOM,海冰模式使用CICE,其中AGCM和CoLM 的網(wǎng)格分辨率為1.4 度,LICOM和CICE 的網(wǎng)格分辨率為1 度,模擬時間為1 模式月(31 模式天),分別使用16 核、32 核、64 核、128 核、256 核、512 核、1024開展模擬試驗(yàn).
然后我們將CAS-ESM 移植到“地球系統(tǒng)數(shù)值模擬裝置”原型系統(tǒng),進(jìn)行跨平臺的耦合數(shù)值模擬試驗(yàn),其他試驗(yàn)設(shè)置與“元”上的模擬試驗(yàn)完全一致.
按照前文中所述的試驗(yàn)設(shè)置,我們在高性能計(jì)算系統(tǒng)“元”上開展了CAS-ESM 的耦合數(shù)值模擬試驗(yàn).圖2為運(yùn)行時間隨核數(shù)變化圖.從圖2中可以看出,隨著核數(shù)的增加,CAS-ESM 耦合數(shù)值模擬試驗(yàn)的運(yùn)行時間逐步減少,到1024 核為止具有比較好的可擴(kuò)展性,需要進(jìn)行更大規(guī)模的試驗(yàn)進(jìn)一步驗(yàn)證.但目前受限于CAS-ESM 2.0 分模式的并行算法設(shè)計(jì)與本文試驗(yàn)的計(jì)算規(guī)模,還無法使用2048 核進(jìn)行耦合試驗(yàn).然后我們將運(yùn)行時間換算為地球系統(tǒng)中常用的模擬速度,得到圖3的結(jié)果.從圖3中可以看出,隨著核數(shù)的增加,CAS-ESM 耦合數(shù)值模擬速度不斷加快,至1024 核能達(dá)到15.8 模式年/天,且模擬速度仍然呈加速趨勢.對于本文使用的模式分辨率以及耦合數(shù)值模擬試驗(yàn)來說,15.8 模式年/天的模擬速度已經(jīng)可以滿足這類試驗(yàn)與研究問題的要求.
圖2 在“元”上的運(yùn)行時間隨核數(shù)變化圖
圖3 CAS-ESM 在“元”上的模擬速度
為了探究CAS-ESM 在“元”上進(jìn)行耦合數(shù)值模擬試驗(yàn)的模擬性能變化趨勢,我們制作了如圖4所示的加速比圖.從圖4中可以看出,整體來說CAS-ESM 2.0在“元”上的加速比較好,在達(dá)到512 核時,加速比有一定程度的下降,但下降趨勢并不明顯,在達(dá)到1024 核時,加速比又有一定成的回升,說明在512 核時加速比的下降應(yīng)該是受到了高性能計(jì)算平臺環(huán)境的影響,試驗(yàn)結(jié)果存在一定程度的誤差.在達(dá)到1024 核時,加速比可以達(dá)到24.7,具有良好的加速效果.去除通信開銷影響,根據(jù)16 核–32 核的加速比變化情況,理想情況的1024 核加速比約為54.4,與試驗(yàn)結(jié)果有一定的差距,說明通信開銷隨著核數(shù)的增加也在不斷增長,是影響CAS-ESM 2.0 計(jì)算效率、可擴(kuò)展性的因素之一.
圖4 CAS-ESM 在“元”上的加速比變化圖
為了進(jìn)一步探究CAS-ESM 耦合數(shù)值模擬試驗(yàn)中,各分模式的模擬性能情況,我們統(tǒng)計(jì)了各分模式的運(yùn)行時間.表1為各分模式的運(yùn)行時間隨核數(shù)變化表,表中的運(yùn)行時間單位均為秒,平均占比為該分模式運(yùn)行時間占總運(yùn)行時間百分比的平均值.從整體來看,大氣分模式AGCM 的平均運(yùn)行時間所占比重較大,達(dá)到了78.21%,超過了其他分模式的運(yùn)行時間之和.之后按照平均占比從大到小依次為海冰模式CICE、海洋模式LICOM、陸面模式CoLM.CPL 運(yùn)行時間為耦合器運(yùn)行時間,從表1中來看,除各分模式外,耦合器也是平均占比較大的模塊之一.陸面模式CoLM 最多僅支持使用128 核進(jìn)行模擬,因而從表中可以看出,雖然其平均占比不大,但使用1024 核時,其運(yùn)行時間占總運(yùn)行時間的比重可以達(dá)到6.8% 左右,遠(yuǎn)高于其平均占比2.9%,因而應(yīng)該提高CoLM 模式的可擴(kuò)展性.另外,海洋模式LICOM與海冰模式CICE 受限于其計(jì)算規(guī)模與并行算法,目前CAS-ESM 2.0 僅支持最多使用480 核進(jìn)行模擬,因而在核數(shù)達(dá)到512 核之后,運(yùn)行時間不再下降.大氣分模式隨著核數(shù)的增加,其運(yùn)行時間不斷減少,具有較好的可擴(kuò)展性.
表1 在“元”上各分模式運(yùn)行時間隨核數(shù)變化(單位:s)
為了進(jìn)一步探究AGCM 分模式運(yùn)行時間占比較高的原因,我們使用1024 核耦合數(shù)值模擬試驗(yàn)的結(jié)果,對IAP AGCM 主要函數(shù)進(jìn)行了運(yùn)行時間占比情況的統(tǒng)計(jì),如圖5.圖例中的名稱均為大氣分模式AGCM 調(diào)用的函數(shù)名.從圖5中可以看出,IAP AGCM 主要函數(shù)中,stepon_run3 函數(shù)運(yùn)行時間占比最多,達(dá)到了58.13%,其次是phys_run1 函數(shù),達(dá)到了27.72%,phys_run2 函數(shù)也能達(dá)到5.38%.
圖5 AGCM 主要函數(shù)在“元”上運(yùn)行時間占比情況圖
由于stepon_run3 函數(shù)在大氣模式AGCM 的運(yùn)行時間占比最高,其運(yùn)行速度直接影響到大氣模式的模擬速度,甚至影響到整個地球系統(tǒng)模式的模擬速度,因而有必要對stepon_run3 函數(shù)的模擬結(jié)果進(jìn)行進(jìn)一步的研究與分析,發(fā)現(xiàn)目前影響stepon_run3 函數(shù)運(yùn)行速度的關(guān)鍵和原因.圖6是在“元”上stepon_run3 函數(shù)主要調(diào)用函數(shù)的運(yùn)行時間占比情況,圖例中的名稱為調(diào)用的函數(shù)名,other 表示除圖例所示函數(shù)外的其他函數(shù)和計(jì)算過程.
圖6 在“元”上stepon_run3 主要調(diào)用函數(shù)運(yùn)行時間占比情況
圖6中的tend_lin、tend_adv、sltb1、sltb2 函數(shù)均包含大量的聚合通信,而mass_engy_fix 函數(shù)和other部分也包含大量的點(diǎn)對點(diǎn)通信.另外sync_bndexch為聚合通信MPI_Barrier 函數(shù)的調(diào)用.因而stepon_run3函數(shù)的運(yùn)行時間受通信時間、效率的影響較大.對于目前的CAS-ESM 2.0 來說,如果能對大氣分模式的stepon_run3 函數(shù)進(jìn)行并行算法的優(yōu)化與重新設(shè)計(jì),降低通信時間開銷,應(yīng)該能大大提高CAS-ESM 的計(jì)算效率與模擬速度.
為了排除高性能計(jì)算系統(tǒng)硬件和軟件環(huán)境的影響,我們將CAS-ESM 移植到“地球系統(tǒng)數(shù)值模擬裝置”原型系統(tǒng)上,進(jìn)行了同樣的模擬試驗(yàn).圖7為運(yùn)行時間隨核數(shù)變化圖.從圖7中可以看出,隨著核數(shù)的增加,CASESM 耦合數(shù)值模擬試驗(yàn)的運(yùn)行時間逐步減少;當(dāng)核數(shù)達(dá)到1024 核的時候,運(yùn)行時間有的減少程度并不明顯,說明遇到了性能瓶頸.然后我們將運(yùn)行時間換算為地球系統(tǒng)中常用的模擬速度,得到圖8的結(jié)果.
圖7 在“地球系統(tǒng)數(shù)值模擬裝置”上的運(yùn)行時間隨核數(shù)變化圖
圖8 CAS-ESM 在“地球系統(tǒng)數(shù)值模擬裝置”上的模擬速度
從圖8中可以看出,隨著核數(shù)的增加,CAS-ESM耦合數(shù)值模擬速度不斷加快,當(dāng)核數(shù)達(dá)到512 核時,模擬速度能達(dá)到8.2 模式年/天,當(dāng)核數(shù)達(dá)到1024 核時,模擬速度能達(dá)到8.5 模式年/天,其加速效果已不明顯.與“元”上的耦合數(shù)值模擬試驗(yàn)結(jié)果相比,CAS-ESM 2.0在“地球系統(tǒng)數(shù)值模擬裝置”上的最大模擬速度與平均模擬速度均低于在“元”上的模擬速度.從“地球系統(tǒng)數(shù)值模擬裝置”的硬件指標(biāo)來看,盡管其整體峰值浮點(diǎn)性能高于“元”的整體峰值浮點(diǎn)性能,處理器在主頻、單核浮點(diǎn)性能上都低于“元”的處理器,這也應(yīng)該是造成兩個平臺模擬速度差異的原因.
為了探究CAS-ESM 在“地球系統(tǒng)數(shù)值模擬裝置”上進(jìn)行耦合數(shù)值模擬試驗(yàn)的模擬性能變化趨勢,我們制作了如圖9所示的加速比圖.從圖9中可以看出,在達(dá)到32 核時,加速比的增長趨勢有一定程度的下降,但下降趨勢并不明顯;在達(dá)到128 核時,加速比的增長趨勢又有一定程度的上升,說明32 核時出現(xiàn)的變化情況應(yīng)該是由于高性能計(jì)算環(huán)境造成的誤差;在達(dá)1024核之后,加速比有明顯的下降,同樣說明遇到了性能瓶頸.達(dá)到1024 核時的加速比約為14.0,與去除通信開銷,根據(jù)16–32 核計(jì)算的理想加速比相差較大,說明在“地球系統(tǒng)數(shù)值模擬裝置”上,通信開銷的影響比在“元”上更大,應(yīng)該進(jìn)一步的研究與分析.
圖9 CAS-ESM 在“地球系統(tǒng)數(shù)值模擬裝置”上的加速比變化圖
為了進(jìn)一步探究CAS-ESM 在“地球系統(tǒng)數(shù)值模擬裝置”上耦合數(shù)值模擬試驗(yàn)中,各分模式的模擬性能情況,我們統(tǒng)計(jì)了各分模式的運(yùn)行時間.表2為各分模式的運(yùn)行時間隨核數(shù)變化表.從整體來看,與在“元”上的模擬試驗(yàn)結(jié)果一致,大氣分模式AGCM 的平均運(yùn)行時間所占比重較大,達(dá)到了81.59%,之后按照平均占比從大到小仍然為海冰模式CICE、海洋模式LICOM、陸面模式CoLM.耦合器CPL 的運(yùn)行時間占比情況仍然達(dá)到了3.19%.從各分模式運(yùn)行時間隨核數(shù)的變化來看,隨著核數(shù)的增加,CoLM 模式受限于其可擴(kuò)展性的問題,達(dá)到128 核之后運(yùn)行時間無法進(jìn)一步減少.海洋模式LICOM和海冰模式CICE 受限于其計(jì)算規(guī)模,最多僅能使用480和,因而在達(dá)到512 核之前,其加速效果較好,但達(dá)到1024 核時,其運(yùn)行時間已無法繼續(xù)減少.耦合器和大氣模式可擴(kuò)展性較好,但當(dāng)核數(shù)達(dá)到1024 核時,其加速效果已出現(xiàn)比較明顯的下降,且大氣模式受影響程度較大.前文已經(jīng)提到,由于大氣模式中存在較多的聚合通信與點(diǎn)對點(diǎn)通信,因而初步判斷加速效果的降低是由于通信造成的.
表2 在“地球系統(tǒng)數(shù)值模擬裝置”上各分模式運(yùn)行時間隨核數(shù)變化(單位:s)
由于大氣模式運(yùn)行占比最高,且其達(dá)到1024 核時加速效果下降明顯,為了進(jìn)一步探究AGCM 分模式運(yùn)行時間占比較高和加速效果下降的原因,我們使用“地球系統(tǒng)數(shù)值模擬裝置”上1024 核耦合數(shù)值模擬試驗(yàn)的結(jié)果,對IAP AGCM 主要函數(shù)進(jìn)行了運(yùn)行時間占比情況的統(tǒng)計(jì),如圖10.從圖10中可以看出,與在“元”上的試驗(yàn)結(jié)果一致,IAP AGCM 主要函數(shù)中,仍然是stepon_run3 函數(shù)運(yùn)行時間占比最多,達(dá)到了69.65%,其次仍然是phys_run1 函數(shù),達(dá)到了15.31%,但與“元”上的模擬結(jié)果相比,phys_run1 函數(shù)的運(yùn)行占比有所下降,而stepon_run3 函數(shù)的運(yùn)行占比有所上升,其他函數(shù)的運(yùn)行占比變化不大.因而很可能是由于stepon3 函數(shù)導(dǎo)致了“地球系統(tǒng)數(shù)值模擬裝置”與“元”上的大氣模式AGCM運(yùn)行時間、加速比與可擴(kuò)展性的差異.
圖10 AGCM 主要函數(shù)在“地球系統(tǒng)數(shù)值模擬裝置”上的運(yùn)行時間占比情況圖
為了探究在“地球系統(tǒng)數(shù)值模擬裝置”上大氣模式AGCM 運(yùn)行時間較長、可擴(kuò)展性存在問題的原因.我們使用1024 核的模擬結(jié)果對stepon_run3 函數(shù)進(jìn)一步統(tǒng)計(jì)和分析,圖11是stepon_run3 調(diào)用的其他函數(shù)運(yùn)行時間占stepon_run3 運(yùn)行時間的比重.與“元”相比,stepon_run3 函數(shù)的主要調(diào)用函數(shù)運(yùn)行占比情況基本一致,因而應(yīng)該是stepon_run3 調(diào)用的函數(shù)整體出現(xiàn)了計(jì)算時間的增加.影響stepon_run3 函數(shù)效率的主要因素仍然是通信,而影響通信的直接因素就是網(wǎng)絡(luò)帶寬.從兩個高性能計(jì)算平臺的網(wǎng)絡(luò)帶寬來看,在“元”上每顆處理器20 核,配備網(wǎng)絡(luò)帶寬為56 GB,其單核網(wǎng)絡(luò)帶寬為5.6 GB;在“地球系統(tǒng)數(shù)值模擬裝置”上,每顆處理器32 核,配備網(wǎng)絡(luò)帶寬100 GB,其單核網(wǎng)絡(luò)帶寬為3.1 GB.因此在兩個高性能計(jì)算平臺上,CAS-ESM 表現(xiàn)出的可擴(kuò)展性差異很可能是由于網(wǎng)絡(luò)帶寬不同造成的.
圖11 Stepon_run3 主要調(diào)用函數(shù)運(yùn)行時間占比情況圖
前文使用CAS-ESM 在中科院高性能計(jì)算系統(tǒng)“元”和“地球系統(tǒng)數(shù)值模擬裝置”原型系統(tǒng)上分別進(jìn)行了數(shù)值模擬試驗(yàn)并對實(shí)驗(yàn)結(jié)果做了簡要分析.通過分析發(fā)現(xiàn),CoLM 模式和LICOM 模式的可擴(kuò)展性,大氣模式IAP AGCM 的stepon_run3 函數(shù)的通信開銷,是影響CAS-ESM 在兩個平臺上模擬性能的主要因素.其中通過提高CoLM 模式的可擴(kuò)展性,根據(jù)表1和表2中的平均時間占比,在理想情況下可以使CAS-ESM在1024 核的模擬時間減少約3.9%;提高LICOM 模式的可擴(kuò)展性,在理想情況下可以使CAS-ESM 在1024核的模擬時間減少約2.3%;IAP AGCM 的stepon_run3函數(shù)模擬時間占總模擬時間的比例達(dá)到約45%,如果采用各類算法優(yōu)化手段,減少stepon_run3 函數(shù)的通信開銷,在理想情況下應(yīng)該能起到最明顯的加速效果.
根據(jù)以往高分辨率大氣模式與海洋模式的優(yōu)化經(jīng)驗(yàn),對stepon_run3 函數(shù)的通信優(yōu)化,同樣可以使用高緯度的緯向跳點(diǎn)差分計(jì)算、三維剖分并行算法等優(yōu)化手段[25–28].本文使用的1.4 度分辨率的IAP AGCM 仍然使用了二維剖分并行算法,如果增加緯向(X 方向)的剖分,可以提升IAP AGCM 的并行度,減少各進(jìn)程負(fù)責(zé)的數(shù)據(jù)大小[29],從而降低stepon_run3 函數(shù)的計(jì)算量與通信量.另外,由于stepon_run3 函數(shù)存在大量的垂直方向(Z 方向)通信,可以通過優(yōu)化三維剖分算法,盡可能使垂直方向數(shù)據(jù)位于同一處理器上,從而大大減少通信量,提高模擬效率.
CAS-ESM 地球系統(tǒng)模式是一個進(jìn)行地球系統(tǒng)模擬的復(fù)雜的高性能應(yīng)用軟件.為了對CAS-ESM 2.0 進(jìn)行性能評估,我們分別在中科院高性能計(jì)算系統(tǒng)“元”和“地球系統(tǒng)數(shù)值模擬裝置”原型系統(tǒng)上開展了CASESM 的耦合數(shù)值模擬試驗(yàn).
結(jié)果顯示,在兩個高性能計(jì)算平臺上,CAS-ESM表現(xiàn)出了不同的可擴(kuò)展性.CAS-ESM 在“元”上的模擬在相同核數(shù)的絕對速度與可擴(kuò)展性上,都要優(yōu)于在“地球系統(tǒng)數(shù)值模擬裝置”的模擬結(jié)果.由于高性能計(jì)算平臺的硬件指標(biāo)中,單核浮點(diǎn)性能、主頻以及單核網(wǎng)絡(luò)帶寬,“元”都要優(yōu)于“地球系統(tǒng)數(shù)值模擬裝置”,因而模擬結(jié)果也符合計(jì)算環(huán)境的實(shí)際情況.在后續(xù)的CASESM 發(fā)展、地球系統(tǒng)研究與氣候模擬工作中,應(yīng)該選擇單核浮點(diǎn)性能、主頻較高,網(wǎng)絡(luò)通信帶寬更大的高性能計(jì)算平臺開展耦合試驗(yàn).在最新的2020 中國高性能計(jì)算機(jī)top10 榜單中,第2 名的“天河二號”超級計(jì)算機(jī)的單核浮點(diǎn)性能最高,達(dá)到了235 Gflops;第4 名的同方“青城之光”單核主頻最高,達(dá)到了3.1 GHz;第5 名的聯(lián)想深騰8800 系列的網(wǎng)絡(luò)通信帶寬最大,達(dá)到了單核1.25 GB.上述3 個平臺應(yīng)該是今后較為適合CASESM 進(jìn)行研究與試驗(yàn)的高性能計(jì)算平臺.
另外綜合兩個平臺耦合數(shù)值模擬試驗(yàn)的結(jié)果顯示,大氣模式的運(yùn)行時間占總運(yùn)行時間的比重都是最高的,且超過了其他模式的總和.因而我們對結(jié)果進(jìn)行了深入分析,發(fā)現(xiàn)大氣模式主要函數(shù)中,stepon_run3 函數(shù)在兩個平臺的模擬結(jié)果中,都是運(yùn)行占比最多的函數(shù).因而我們在“地球系統(tǒng)數(shù)值模擬裝置”上繼續(xù)對stepon_run3 函數(shù)進(jìn)行了深入挖掘和分析,發(fā)現(xiàn)其主要的性能瓶頸是由于通信造成的.因而在后續(xù)的CAS-ESM 研發(fā)工作中,需要對大氣模式尤其是stepon_run3 函數(shù)中的并行通信算法開展進(jìn)一步的性能優(yōu)化工作.
在各分模式的可擴(kuò)展性方面,目前陸面模式CoLM、海洋模式LICOM與海冰模式CICE 都存在一定的問題,為了滿足耦合模式的進(jìn)一步性能優(yōu)化需要,提高這些分模式的可擴(kuò)展性也是研究的重點(diǎn)之一.本文采用的大氣分模式垂直方向?yàn)?0 層,無法進(jìn)行2048 核及以上更大規(guī)模的耦合數(shù)值模擬試驗(yàn).而高分辨率的分模式,垂直方向35 層的大氣模式,模擬結(jié)果還存在一定的問題.為了進(jìn)行更大規(guī)模的耦合數(shù)值模擬試驗(yàn),在后續(xù)工作中應(yīng)該對分模式的并行算法進(jìn)行優(yōu)化和重新設(shè)計(jì),使其可以使用更多的處理器,進(jìn)行更大規(guī)模的性能測試與分析.