通過將計算引擎和數(shù)據(jù)分離,華為使計算和存儲可以按需擴展,實現(xiàn)數(shù)據(jù)資源的動態(tài)分配、靈活調(diào)度,加速資源共享。
—華為海量存儲領(lǐng)域副總裁徐強
不管是存算一體還是存算分離,都是在不同的歷史條件下由客戶需求催生的技術(shù)產(chǎn)物,歸根到底都是為了滿足業(yè)務(wù)的訴求。
為什么要做存算分離?一方面是數(shù)據(jù)量激增,5G、云AI加速了數(shù)字化轉(zhuǎn)型,海量數(shù)據(jù)時代已經(jīng)到來,我們正處在數(shù)據(jù)爆炸式增長的歷史階段。另一方面是數(shù)據(jù)價值變得越來越重要,海量數(shù)據(jù)作為企業(yè)數(shù)字化轉(zhuǎn)型的核心生產(chǎn)要素,正在使企業(yè)從數(shù)據(jù)管理走向數(shù)據(jù)運營。
數(shù)據(jù)量不斷增大,促使數(shù)據(jù)分析、數(shù)據(jù)價值釋放越來越重要。將當(dāng)前的大數(shù)據(jù)基礎(chǔ)設(shè)施、存算一體化基礎(chǔ)設(shè)施相匹配,我們可以看出,海量數(shù)據(jù)分析面臨著三大挑戰(zhàn):第一個是資源利用率低、存儲效率低、運維成本高。第二個是數(shù)據(jù)難共享、分析效率低、業(yè)務(wù)上線時間長。第三個是作為數(shù)據(jù)的基礎(chǔ)設(shè)施,業(yè)務(wù)系統(tǒng)、運營系統(tǒng)、大數(shù)據(jù)系統(tǒng)、歸檔系統(tǒng)的自動化運維能力差。正是因為數(shù)據(jù)量越來越大,價值越來越重要,當(dāng)前的存算一體化的模式遇到了一系列的問題,催生了我們對存算分離技術(shù)架構(gòu)變革的訴求。
為什么選存算分離?因為存算分離有自己的獨特優(yōu)勢。第一,計算和存儲是兩套獨立的集群,存算分離把存儲從原來的系統(tǒng)中剝離出來形成獨立的存儲集群,可以按需投資,有效避免浪費。第二,存儲和資源可以分別做磁化,利用計算的無狀態(tài)性更好地實現(xiàn)資源的調(diào)度,提高分析效率。第三,用企業(yè)級的存儲來替換原來的開源存儲底座,可以把當(dāng)前企業(yè)級存儲的先進技術(shù)帶入大數(shù)據(jù)存儲層面里來,真正提高大數(shù)據(jù)存儲的技術(shù)價值。
在現(xiàn)有的存算分離實踐方案里,大部分的廠商都是通過在計算節(jié)點上安裝插件實現(xiàn)大數(shù)據(jù)接口,這種插件模式存在天然的問題:第一,插件要做協(xié)議轉(zhuǎn)換,勢必會帶來性能開銷,性能損耗比較嚴(yán)重。第二,需要在成百上千個節(jié)點上安裝插件,運維成本比較高。第三,插件存在語義語法接入性較差的問題。為此,華為公司投入了大量資金,專門設(shè)立開發(fā)了大數(shù)據(jù)存算分離系統(tǒng),目的是在提供和原有開源的大數(shù)據(jù)底座一模一樣能力的同時,以無損的方式提供大數(shù)據(jù)存算分離的技術(shù)能力。
海量數(shù)據(jù)發(fā)展到今天,針對大數(shù)據(jù)的應(yīng)用場景,我們還面臨著在成本、效率和管理層面的三大挑戰(zhàn),接下來我將介紹華為存儲底座通過哪些技術(shù)方案來實現(xiàn)低成本、高效率和自動化管理。第一個方案是使用高密度硬件。華為采用的硬件是C180,是今年專門發(fā)布的一款存算一體化硬件。這款5U120盤的硬件是目前業(yè)內(nèi)最高密度的存儲服務(wù)器,可以有效地降低采購成本和機房成本。
第二個方案是使用彈性EC技術(shù)。同等狀態(tài)下,EC可以做到91.7%的高可利用率。華為從2009年第一次使用EC技術(shù)開始,近些年一直在EC技術(shù)上不斷打磨。我們可以在提供高可靠、高空間利用率的同時,不降低性能和可靠性。海量數(shù)據(jù)對極致擴展性提出了更高的要求,在這種模式下,每個節(jié)點都能夠獨立參與計算,節(jié)點的性能有保證且能夠及時擴展,這是對效率提升的價值體現(xiàn)。此外,我們還可以多協(xié)議融合,加速數(shù)據(jù)分析,在我們的應(yīng)用里,一份數(shù)據(jù)可以同時被NFS/CIFS、S3、HDFS協(xié)議訪問,避免通過數(shù)據(jù)遷移完成格式轉(zhuǎn)換,分析效率提升30%以上,真正的做到了數(shù)據(jù)的零遷移,提升了數(shù)據(jù)分析效率。
第三個方案是采用冷熱數(shù)據(jù)分級的自動生命周期管理。原來的建設(shè)模式對性能要求高且需要用到SSD來做批量處理,此前我們會使用一般的機械硬盤,這種情況下,系統(tǒng)是相互割裂的,無法做到對一份數(shù)據(jù)或者是整個系統(tǒng)的全生命周期的管理?,F(xiàn)在華為應(yīng)用分布式存儲的底座,真正實現(xiàn)數(shù)據(jù)無感知地流動,簡化了數(shù)據(jù)的流動過程。
在行業(yè)實踐方面,華為的大數(shù)據(jù)存算分離已經(jīng)發(fā)布了近兩年,在各行業(yè)取得了較好的實踐效果。
在運營商領(lǐng)域,以浙江電信的經(jīng)營分析系統(tǒng)為例,浙江電信在大數(shù)據(jù)分析領(lǐng)域有十余年的經(jīng)驗,但隨著5G的到來,運營商的數(shù)據(jù)量成倍增長,如果浙江電信以原來的模式應(yīng)對數(shù)據(jù)量的增長,擴容成本很高,計算資源的利用率也比較低。而浙江電信引用華為存算分離方案之后,大數(shù)據(jù)系統(tǒng)從原來321個節(jié)點減少至102個節(jié)點,數(shù)據(jù)效率提升了10%,收獲了更好的經(jīng)濟效益。
在金融領(lǐng)域,以招商銀行的精準(zhǔn)營銷系統(tǒng)為例,現(xiàn)在的招商銀行處于數(shù)字化轉(zhuǎn)型的關(guān)鍵時期,其很多應(yīng)用都需要上線到大數(shù)據(jù)分離系統(tǒng)中,原來的模式下每個系統(tǒng)相互隔離,一個應(yīng)用要上線需要用到多個系統(tǒng)的數(shù)據(jù),數(shù)據(jù)共享很困難。華為存算分離系統(tǒng)為招商銀行打造了一個統(tǒng)一的存儲基座,計算和存儲分化、磁化等級從天級降到了分鐘級。
華為的大數(shù)據(jù)存算分離在運營商、公共安全、金融、政府等領(lǐng)域有著豐富的實踐案例,能夠真正幫助用戶以更低的成本存儲更多的數(shù)據(jù),提高數(shù)據(jù)的分析效率,簡化數(shù)據(jù)管理。將來,我們會繼續(xù)數(shù)據(jù)基礎(chǔ)設(shè)施創(chuàng)新,幫助千行百業(yè)釋放數(shù)據(jù)價值,加速企業(yè)的數(shù)字化轉(zhuǎn)型。 (根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)