深圳市億威爾信息技術(shù)股份有限公司 孫大勇 王 鵬 陳德彬 徐安舒 張 軍
分布式系統(tǒng)是有一組通過通訊協(xié)議通信、為了完成共同的任務(wù)而協(xié)調(diào)工作的計算機節(jié)點組成的系統(tǒng),分布式系統(tǒng)的出現(xiàn)是為了用廉價的、普通的機器完成單個計算機無法完成的計算、存儲任務(wù)。分布式系統(tǒng)難于理解、設(shè)計、構(gòu)建和管理,它們比單個機器數(shù)倍還要多的變量引入到設(shè)計中,使應(yīng)用程序的根源問題更難發(fā)現(xiàn),面臨著諸多的挑戰(zhàn):異構(gòu)的機器與網(wǎng)絡(luò),節(jié)點故障容災(zāi)性,不可靠的網(wǎng)絡(luò),計算和存儲的一致性,數(shù)據(jù)存儲的可用性,系統(tǒng)的高性能,系統(tǒng)的擴展性等。
基于分布式式系統(tǒng)面臨的一系列挑戰(zhàn),本文基于兆芯的自主可控分布式計算與安全存儲系統(tǒng),研究采用由上層應(yīng)用軟件、中間件和底層硬件基礎(chǔ)設(shè)施組成。上層應(yīng)用和中間件為主流的分布式應(yīng)用架構(gòu),底層硬件基礎(chǔ)設(shè)備包括計算節(jié)點、存儲節(jié)點、管理節(jié)點、網(wǎng)絡(luò)交換節(jié)點和UPS電源、線纜等附件。系統(tǒng)組成如圖1所示。
圖1 分布式系統(tǒng)組成框圖
構(gòu)建這樣可重構(gòu)、高計算性能、高實時性、低延遲大數(shù)據(jù)量的綜合計算和存儲系統(tǒng),是對基礎(chǔ)軟件、中間件、管理軟件及應(yīng)用軟件的整合。標準化的接口兼容主流的分布式計算框架和云計算虛擬化應(yīng)用,軟件架構(gòu)圖如圖2所示。
圖2 軟件架構(gòu)圖
所支持的操作系統(tǒng)有:Windows Server、Suse、RedHat/CentOS/Vmware/銀河麒麟、中標麒麟等主流國內(nèi)外服務(wù)器OS。中間件包括通信中間件、計算中間件、數(shù)據(jù)庫中間件、分布式架構(gòu)軟件、虛擬化套件等。應(yīng)用軟件可根據(jù)客戶需求預(yù)裝。
硬件采用4U機箱和刀片節(jié)點形態(tài),包括24個支持熱插拔的計算/存儲節(jié)點、2個主備網(wǎng)絡(luò)接口節(jié)點,2個主備管理節(jié)點,4個電源模塊和8個風(fēng)扇模塊。建立兩個計算集群,在兩個計算集群中構(gòu)建8個x86內(nèi)核,通過內(nèi)部主機互連結(jié)構(gòu),以連接芯片組和處理器集群,采用安全哈希算法SHA-1,SHA-256和加密算法SM3,SMS4很大程度上增強了安全保密性能支持能力;而且該平臺支持硬件虛擬化,可以同時操作不同的內(nèi)核,通過不同等級的指令緩存和硬件預(yù)取,使其設(shè)備間的交換傳輸速率比原來提升了兩倍以上,可達到1000Mb/s。該系統(tǒng)原來的單通道支持模式現(xiàn)在變?yōu)閱坞p通道同時支持,其通道內(nèi)存容量可達到64GB;在該平臺下采用支持C0~C4的增強型省電裝置和支持p態(tài)轉(zhuǎn)換,大大降低了同等應(yīng)用場景整機能耗;同時該系統(tǒng)平臺增加了熱檢測和熱保護功能,可實時監(jiān)控可監(jiān)控管理性能;其在處理2D和3D圖形方面平均無故障時間可近乎消除,通過采用完全國產(chǎn)CPU和加密算法和哈希算法,大大增強了安全保密性能支持能力。
硬件平臺均采用兆芯CPU解決方案。開勝KH-30000系列8核處理器是兆芯自主研發(fā)的最新一代服務(wù)器通用X86 SOC處理器產(chǎn)品,主頻2.7GHZ,國內(nèi)率先采用16nm CMOS工藝制程工藝,兼容最新的X86指令集,可支持64位系統(tǒng)以及CPU和IO硬件虛擬化技術(shù)。同時支持SM3/SM4國密算法,可提供硬件級別的數(shù)據(jù)加密保護,支持CPU雙路互連大大提高計算密度。主要面向服務(wù)器和存儲應(yīng)用領(lǐng)域。
ZX-200 IO擴展芯片是兆芯自主研發(fā)德新一代、高性能IO擴展芯片,可擴展PCIE2.0,USB3.0/2.0,SATA3,GNIC等服務(wù)器通用接口。
計算/存儲節(jié)點采用開勝KH-37800D 2路互連方案,支持4通道DDR4 ECC UDIMM/RDIMM,單節(jié)點最大內(nèi)存容量128GB。搭配ZX-200擴展芯片。支持配置2塊3.5寸HDD或者4塊2.5寸HDD/SSD。板載GE管理網(wǎng)卡和業(yè)務(wù)網(wǎng)卡。板載BMC管理芯片,支持通用的IPMI協(xié)議,實現(xiàn)節(jié)點的本地實時狀態(tài)監(jiān)控、管理和遠程管理維護功能。
采用分布式計算和存儲算法,將應(yīng)用計算或存儲的任務(wù)分割成一個個小任務(wù),分布到各計算節(jié)點與存儲處理單元節(jié)點上,由計算節(jié)點與存儲處理單元節(jié)點完成各自對應(yīng)的任務(wù)后,再匯總整合結(jié)果,得到完成的計算處理結(jié)果。分布式計算原只用于大型超算中心。但由于技術(shù)的發(fā)展與生產(chǎn)能力的提高,在小型的服務(wù)器也以刀片節(jié)點的方式,達到分布式節(jié)點的要求,實現(xiàn)小型整機或區(qū)域服務(wù)器實現(xiàn)分布式計算和安全存儲系統(tǒng)的應(yīng)用,是大型應(yīng)用集群框架的小型化實現(xiàn)。
本文所研究的基于兆芯的自主可控分布式計算與安全存儲系統(tǒng),使用國產(chǎn)CPU實現(xiàn),自主可控;兼容性高可100%替換原X86計算機,支持主流應(yīng)用如WPS,畫圖等應(yīng)用程序,測試無兼容性問題;最大容量為單機箱768TB,可橫向擴展擴容;節(jié)點數(shù)可達24節(jié)點;增強的可監(jiān)控管理性能,支持整機CPU/風(fēng)扇/電源等部件可監(jiān)控管理,支持遠程監(jiān)控管理;可支持并行計算可構(gòu)建高性能計算機集群;設(shè)備間數(shù)據(jù)交換傳輸速率不小于10Gbps;整機平均無故障時間(MTBF)≥5000h;同等應(yīng)用場景整機能耗降低25%;增強安全保密性能,支持IC卡/指紋等保密開機模式,支持設(shè)備間的全加密聯(lián)網(wǎng)等。