王瀟+康曉梅
摘 要:云計算技術為海量數據安全存儲、高效處理與傳輸提供有效支撐,但也因為分布存儲中數據管理及組織技術水平的限制,會引發(fā)大量的數據丟失或錯誤,致使數據失效問題頻發(fā)。針對此,文章以云計算分布存儲技術的基本構成為切入點,從多角度分析分布存儲技術問題,并就關鍵技術應用進行系統(tǒng)闡述。
關鍵詞:云計算;分布存儲技術;服務器;交換機
云計算作為大量數據存儲、計算和處理的商業(yè)計算模型,其最大的優(yōu)勢是改變了本地計算的模式,轉而依賴互聯(lián)網,其將多個普通機器和網絡設備構建成為一個海量數據存儲的中心,從而為上層應用和服務提供更為全面的數據處理、存儲服務。數據中心是云計算的核心構成。因此,云計算環(huán)境下的分布存儲技術主要是對數據中心上的數據管理及組織技術的研究,但是該種技術自身水平有所限制,加之數據中心一般是由百萬級以上節(jié)點構成,海量的數據存儲規(guī)??赡苓_到PB級,甚至是EB級別,很可能發(fā)生數據丟失或錯誤,數據失效問題已然成為云計算分布存儲技術應用的主要難題?;诖耍疚膶⒕驮朴嬎惴植即鎯夹g的基本構成、現(xiàn)存問題及關鍵技術進行細化分析,以為相關研究提供有效支撐。
1 云計算環(huán)境下數據分布存儲技術的基本構成
1.1 以服務器為中心的結構
以服務器為中心的結構,將負責數據轉發(fā)的交換機和路由器去除,由服務器負責數據轉發(fā)任務[1]。以服務器為中心的結構和線路連接較為簡單,雖然存在較高的鏈路冗余,但省去了交換機,可以規(guī)避樹形結構中單點瓶頸問題[2],由此,服務器便可與網絡底層直接交互,上層應用可以結合需求開發(fā)效率更高、可靠性更好的路由算法。然而,因為服務器要負責所有數據的轉發(fā),勢必會占用服務器的部分計算資源,增加服務器的負載壓力,從而極大地降低了服務器的運行效率,而且,安裝在服務器上的網絡數據有限,通常情況下限定為兩個網卡,每個網絡配備6個端口,這就限制了數據中心上的節(jié)點數據規(guī)模,影響系統(tǒng)設備的數據存儲和處理性能。
1.2 以交換機為中心的結構
以交換機為中心的結構,交換機承擔數據包的轉發(fā)任務,數據的存儲及處理由服務器負責,其以樹形結構為主,但也存在鏈路寬帶有限、靈活性差、交換機資源浪費嚴重、通信需求無法滿足等諸多問題。為此,目前多采用改進的樹形結構,以微軟提出的VL2樹形結構為例,其將傳統(tǒng)樹形結構予以拓展,將核心層和聚合層的交換機連接形成Close網絡結構,避免了核心層交換機數量限制、海量數據轉發(fā)引發(fā)的寬帶瓶頸問題,拓撲結構如圖1所示。而且,其還選用扁平式的編址方式,將主機的定位與應用地址通過名稱予以分離,系統(tǒng)運行時,可以名稱的形式將服務與應用部署在數據中心的任何位置,而真正的服務器IP地址則可利用映射方式得到,資源利用率得以提升[3],但也存在缺陷,各個機架交換機與聚合層交換機只有兩條10 Gig的上行端口,若應用對吞吐率要求較嚴格,則鏈路寬帶性能瓶頸將隨著機架中主機數量的激增而重現(xiàn)。
2 云計算環(huán)境下數據分布存儲技術問題
2.1 容錯性問題
容錯性問題是分布存儲技術應用最常見的問題,利用相關的磁盤陣列(Redundant Arrays of Independent Disks,RAID)技術、專業(yè)化的存儲裝置、高性能服務器等可以解決這一問題。但是隨著網絡數據的存儲量和處理量迅速增加,數據中心的存儲節(jié)點數急劇上升,又由于數據管理或組織技術水平的限制,可能導致數據丟失或數據錯誤問題頻發(fā),如若不能及時解決該種容錯性問題,不僅會降低數據分布存儲技術的應用效率,還可能給用戶造成巨大經濟損失,為此,容錯性問題的解決迫在眉睫,其是推進云計算技術在多領域應用和發(fā)展的基礎和條件。
2.2 可擴展性問題
擴展性是確保數據存儲和高效處理的必要前提,以往,擴展性問題都是通過預留冗余磁盤來解決的,該種方法雖可在一定程度上提升磁盤容量空間,但尚無法應對海量數據存儲的問題。根據調查研究,系統(tǒng)運行中,因擴展性造成的數據失效。已經成為一種常態(tài),且在采集ER級數據時,每間隔6個小時,就會有一個磁盤發(fā)生數據丟失或失效問題,影響數據采集工作的正常運行,降低了數據采集的準確率,最終可能導致巨大的經濟損失。針對此,在數據達到EB級或更高級別時,以磁盤冗余空間的預留方式并不能從根本上解決擴展性問題,需要借助新的技術尋求解決方法。
2.3 成本控制問題
以往的數據分布存儲結構下,數據規(guī)模和節(jié)點數量都較小,在對數據存儲、處理中,其能耗需求不高,多數設備無需進行降溫或散射處理,而隨著云計算在海量信息存儲和處理中的深化應用,分布存儲的數據規(guī)模增加,對于能耗的需求較高,且制冷設備的能耗應該包含其中,在系統(tǒng)不間斷運行狀態(tài)下,能耗成為數據中心存儲開銷中的關鍵內容,根據美國的調查研究,2010—2017年,數據中心的能耗翻了幾倍,兩年間一臺服務器的能耗與硬件成本基本等同,如此,分布存儲技術的運行成本將升高,而精準計算EB級或更高級別數據可以有效降低能耗,控制數據中心的成本。
3 云計算環(huán)境下數據分布存儲技術
3.1 數據容錯技術
數據容錯技術是通過數據冗余的增加來完成的,如此即使在部分數據出現(xiàn)丟失或失效時也能利用冗余數據的訪問滿足應用需求,該冗余可顯著提升容錯性,但也消耗了大量的存儲資源,為此,在提升系統(tǒng)容錯性時,應該最大限度利用存儲資源,以控制成本。容錯技術存在基于復制和基于糾刪碼兩種,基于復制的容錯技術可操作性強、部署簡單,但每個數據對象均需要配置數個大小等同的副本,會增加存儲空間,基于糾刪碼的容錯技術可將若干數據塊的信息融入較少的冗余信息中,降低了存儲空間,但需單獨進行編碼和解碼操作以完成數據的讀寫操作[4],這將增加計算開銷,兩種容錯技術相比,基于復制的容錯技術可通過副本的下載完成修復,而基于糾刪碼的容錯技術修復過程中需下載的數據比失效數據要大,修復成本較高。endprint
3.2 節(jié)能技術
云計算環(huán)境下分布存儲的數據中心規(guī)模巨大,增加了分布存儲的硬件設施、IT設備及制冷設備的電能消耗,能耗的增加不僅提升系統(tǒng)運行成本,而且加劇了“溫室效應”。數據分布存儲能耗在云計算中占據較大比例,尤其大規(guī)模數據中心上的存儲系統(tǒng)能耗更是占據整體能耗的30%~40%,目前常用的能耗模型為比例模型、兩端模型,兩者計算機能耗歸類為固定及可變能耗兩類,機械驅動、風扇、二極管等為固定能耗,而隨CPU增加的運行能耗為可變能耗,但兩端模型將計算機空閑時的能耗也計入系統(tǒng)能耗之中,精準性更好,其發(fā)現(xiàn)計算機空閑狀態(tài)下的技術并不能去除無用能耗,而動態(tài)的機器啟動和掛起技術可通過動態(tài)控制的方法在無任務狀態(tài)下關閉節(jié)點上的部分組件,從而實現(xiàn)降低能耗的目的。
4 結語
云計算是利用網絡將集成海量數據的計算處理程序分解為相對小的子程序,而后再交由不同服務器構成的數據中心進行數據計算、處理和存儲,而分布存儲技術是支撐數據中心運行的關鍵,其在應用中面臨著數據管理及組織技術的局限性,致使數據失效問題頻發(fā),為此,提升擴展性、容錯性,降低成本成為云計算環(huán)境下分布存儲技術應用的主要目標。本文將以此為基點就相關問題及關鍵技術進行分析,以期為云分布存儲技術的數據中心結構設計及數據存儲方式提供有效支撐。
[參考文獻]
[1]楊學林.云計算環(huán)境下三維海量激光掃描數據的分布存儲技術研究[J].激光雜志,2017(7):171-175.
[2]張玉梅.基于云計算環(huán)境下的分布存儲關鍵技術探析[J].科技創(chuàng)新與應用,2017(19):43-44.
[3]田洪亮,張勇,李超,等.云環(huán)境下數據庫機密性保護技術研究綜述[J].計算機學報,2017(10):2245-2270.
[4]程慶年.基于云計算環(huán)境下的分布存儲關鍵技術[J].通訊世界,2017(3):71-72.
Abstract:Cloud computing technology provides effective support for mass data storage, efficient handling and transmission, however, because of the limitation of data management and organizational technology in distributed storage, it may lead to a lot of data missing or incorrect data, resulting in frequent failures. For this, this article takes the basic structure of cloud computing distributed storage technology as the starting point, analyzes distributed storage technology from multiple perspectives, and systematically expounded the application of key technologies.
Key words:cloud computing; distributed storage technology; servers; switchesendprint