柳秀清
(西寧市教育科學(xué)研究院,青海西寧 810000)
云計算是一項在科技時代的影響下形成的新技術(shù),它能夠儲存海量的數(shù)據(jù),為用戶提供按需分配的計算能力,改變用戶使用計算機的方式。云計算的核心是為用戶提供海量的數(shù)據(jù)儲存和高效率的計算,使用戶能夠方便的管理數(shù)據(jù)和資源,合理進行資源分配。云計算需要許多其他技術(shù)的配合,云計算的海量分布式儲存能夠為用戶提供長期保存數(shù)據(jù)服務(wù),其數(shù)據(jù)管理和并行計算的能力都是為用戶提供了巨大的方便,加快了經(jīng)濟的發(fā)展。
在20世紀60年代的時候,麥卡錫就提出“將計算能力作為一種像水和電一樣的公用事業(yè)提供給用戶”的理念,被人們認為是云計算的思想起源。網(wǎng)格計算、公用計算、虛擬化技術(shù)、SOA、SaaS應(yīng)用為云計算提供了有力支持,云計算這種新興的資源使用和交付模式漸漸被人們所熟知。云計算的出現(xiàn)為信息時代的各行業(yè)發(fā)展創(chuàng)造了廣闊的前景。云計算顛覆以往的行業(yè)模式,被看作第三次IT浪潮,為中國的戰(zhàn)略性新興產(chǎn)業(yè)注入了新的活力,加快了現(xiàn)代社會發(fā)展的腳步。在未來,云計算必將使人們的生產(chǎn)和生活方式發(fā)生巨大的改變,成為全社會關(guān)注的焦點[1]。
數(shù)據(jù)管理技術(shù)具體指對數(shù)據(jù)進行收集、組織、存儲、加工和利用等一系列活動過程的總和,數(shù)據(jù)管理技術(shù)主要的發(fā)展階段有以下幾個。
在計算機尚未問世之前,人們利用紙張記錄、利用計算工具進行計算,通過這些常用的手段對數(shù)據(jù)進行記錄、存儲和分析,大部分的數(shù)據(jù)管理都是依靠人工而得到的。20世紀50年代中期,科學(xué)計算可以開始依靠計算機,但是直接存取設(shè)備并沒有研究出來,只能依靠紙帶、卡片、磁帶等將數(shù)據(jù)進行存儲,當(dāng)時的計算機沒有操作系統(tǒng),各種軟件更是沒有,只能以批量處理的方式對數(shù)據(jù)進行簡單處理。
計算機系統(tǒng)在20世紀60年代左右才開始出現(xiàn),軟件和硬件隨之迅速發(fā)展起來,磁盤、磁鼓等可以進行直接存取的設(shè)備被廣泛使用,這一時期主要是將計算機中的數(shù)據(jù)進行組織,組成獨立的被命名的文件,通過文件名對數(shù)據(jù)進行訪問,存取文件中的記錄。文件系統(tǒng)中的數(shù)據(jù)能夠在計算機上長期保存,并且可以反復(fù)處理,方便了人們對數(shù)據(jù)進行查詢、修改與刪除等操作。遺憾的是,文件系統(tǒng)在記錄內(nèi)做到了結(jié)構(gòu)化,但文件在整體上看并沒有結(jié)構(gòu),整個系統(tǒng)缺少靈活性,其內(nèi)部儲存的數(shù)據(jù)只能與特定的程序相對應(yīng),數(shù)據(jù)無法做到獨立,不能與其他用戶共享,同時冗余度大,十分不利于管理和維護。
計算機的性能從20世紀60年代后期開始,有了巨大的提升,大容量磁盤開始出現(xiàn)病得到了廣泛應(yīng)用,存儲容量有了很大的提高,并且價格降低,為數(shù)據(jù)庫的出現(xiàn)提供了條件。數(shù)據(jù)庫滿足了實際應(yīng)用中多用戶、多程序共享數(shù)據(jù)的需要,使有限的數(shù)據(jù)能夠在更多的程序上發(fā)揮價值,數(shù)據(jù)的利用率大大提高,解決了文件系統(tǒng)管理數(shù)據(jù)的短板。數(shù)據(jù)庫的特點是,數(shù)據(jù)不再僅僅只針對特定的一個應(yīng)用,可以面向全組織,在整體上具有結(jié)構(gòu)性,能夠共享,進行統(tǒng)一的控制,冗余度減少,在一定程度上應(yīng)用程序和數(shù)據(jù)可以存在獨立性[2]。
云計算能夠?qū)A康臄?shù)據(jù)進行分析,數(shù)據(jù)管理技術(shù)能夠?qū)Υ罅康臄?shù)據(jù)進行管理。目前云計算的數(shù)據(jù)管理技術(shù)主要有亞馬遜的 Dynamo,Google的 GFS、Big Table、Map Reduce。
Dynamo存儲系統(tǒng)的適應(yīng)度非常高,這項技術(shù)只支持底層技術(shù),不能在外網(wǎng)體現(xiàn),并且融合了數(shù)據(jù)庫和DHT的特點,便于存儲,保護數(shù)據(jù)的安全。Dynamo技術(shù)能夠均勻的將數(shù)據(jù)存儲于環(huán)內(nèi),且每個節(jié)點互通,可以在環(huán)內(nèi)自由轉(zhuǎn)發(fā)數(shù)據(jù),具有很高的靈活性,同時節(jié)點相互之間進行故障探測,有很強大自我管理能力,故障率非常低。Dynamo技術(shù)最主要的優(yōu)點是,能夠提供三個參數(shù),分別是副本的個數(shù)、數(shù)據(jù)讀取后的成功性和一致性、成功記錄的個數(shù),它能夠記錄不同版本的數(shù)據(jù),并加以分析、處理,對數(shù)據(jù)進行有效的整合利用。
客戶端、主服務(wù)器、數(shù)據(jù)塊服務(wù)器是GFS的三個技術(shù)節(jié)點,客戶端專門用于客戶訪問程序,直接運用庫存數(shù)據(jù),不需要特定的文件系統(tǒng)規(guī)范,用戶訪問程序時庫函數(shù)可以直接向程序提供數(shù)據(jù),并將GFS和庫直接相連;主服務(wù)器是GFS技術(shù)系統(tǒng)控制著整個系統(tǒng)的運行,同時將數(shù)據(jù)保存,是系統(tǒng)中唯一的管理節(jié)點;數(shù)據(jù)塊服務(wù)器可以有很多個,其數(shù)量直接體現(xiàn)GFS系統(tǒng)的存儲能力,文件被分成數(shù)據(jù)塊,每個的大小為64 MB,有對應(yīng)的編碼。
Big Table技術(shù)將所有數(shù)據(jù)看作一個整體,對其進行分析,自動生成一個巨大的表格,它能夠?qū)A康臄?shù)據(jù)進行存儲和分析,很多產(chǎn)業(yè)都用它對數(shù)據(jù)模型比較大的應(yīng)用進行設(shè)計。Big Table是由時間節(jié)點和行列關(guān)鍵字組成,數(shù)據(jù)在單元格中形成字符串,將所需保存的頁面內(nèi)容存儲下來,如果文檔內(nèi)部有一列標題和文本,可以將對應(yīng)文檔進行快速定位,還可以在文檔內(nèi)生成超鏈接,隨意修改文檔內(nèi)容,便于工作。
Map Reduce技術(shù)的特點是能夠?qū)⒃贫说臄?shù)據(jù)高效利用,在Map Reduce中,所有操作都被抽象為兩種操作,map和reduce。通過map函,可以對任務(wù)進行分解,從而使其適合在單個節(jié)點上進行計算,最終處理的結(jié)果形成一個“值/對”集。reduce函數(shù)運用預(yù)先制定的規(guī)則,將map運算得到的“值/對”集進行歸并,最終得到結(jié)果。Map Reduce技術(shù)的最大優(yōu)點在于可以按照需要對海量異構(gòu)數(shù)據(jù)進行處理,允許多個節(jié)點靈活調(diào)度,實現(xiàn)了計算和存儲資源的最優(yōu)化管理[3]。
云數(shù)據(jù)管理技術(shù)運用了分布式系統(tǒng),GFS技術(shù)在組織管理中最為常用,可以在普通硬件中有效完成組織管理,在云計算技術(shù)中,GFS技術(shù)可以提供容錯功能,提高了高效性和可靠度,從而使數(shù)據(jù)并行問題變得更加簡單。GFS技術(shù)可以形成大型的存儲模塊,將云計算的海量數(shù)據(jù)有組織的存儲起來,便于云數(shù)據(jù)管理技術(shù)的操作,同時為用戶訪問提供專業(yè)的接口,與云數(shù)據(jù)相連接。
云計算中,云數(shù)據(jù)的集合管理至關(guān)重要。云計算的數(shù)據(jù)具有動態(tài)化、海量性的特點,在分布式數(shù)據(jù)分析的過程中需要注意數(shù)據(jù)的集合管理。Big Table技術(shù)能夠直接對海量數(shù)據(jù)進行處理,提高云數(shù)據(jù)的集合管理質(zhì)量。集合管理保證數(shù)據(jù)以集合的方式運行,有效提高了云計算的水平。
分布處理能夠發(fā)現(xiàn)數(shù)據(jù)的可應(yīng)用價值,為云計算提供了數(shù)據(jù)挖掘的有效途經(jīng)。在云數(shù)據(jù)管理中,利用分布處理技術(shù)可以實現(xiàn)數(shù)據(jù)信息的自動分解,通過映射、化簡處理,利用節(jié)點位置將數(shù)據(jù)有效存儲起來,將云數(shù)據(jù)合理分配。用戶可以自由使用數(shù)據(jù),提高數(shù)據(jù)處理水平[4]。
云數(shù)據(jù)管理的數(shù)據(jù)處理,是根據(jù)云計算的目標挖掘相關(guān)數(shù)據(jù)信息,為用戶提供有用的數(shù)據(jù),之后由用戶選取數(shù)據(jù)內(nèi)容。在數(shù)據(jù)處理的過程中,采用多種方式,從而能夠挖掘到更多的有用數(shù)據(jù),云數(shù)據(jù)管理需要做到理解數(shù)據(jù)、滿足云計算的應(yīng)用需求,數(shù)據(jù)處理及時準確。
云計算的出現(xiàn)讓人們眼前一亮,基于云計算的數(shù)據(jù)管理技術(shù)定會為科研的進步、經(jīng)濟的發(fā)展、社會的管理提供巨大的便利。學(xué)校的教學(xué)信息比較雜亂、碎片化,同時又存在連續(xù)性,具有多維度,在數(shù)據(jù)管理過程中費時費力,錯誤率也比較高。而云數(shù)據(jù)管理技術(shù)能夠有效地解決這樣的問題,教學(xué)任務(wù)、授課內(nèi)容、學(xué)生信息等所有的教學(xué)信息都可以存儲在云端,利用云計算的數(shù)據(jù)管理系統(tǒng),對數(shù)據(jù)進行綜合分析,針對具體問題迅速地給出數(shù)據(jù)。
為迎合大數(shù)據(jù)時代的社會發(fā)展形勢,學(xué)校進行數(shù)據(jù)管理需要構(gòu)建“大數(shù)據(jù)”管理思維,擺脫傳統(tǒng)學(xué)校數(shù)據(jù)管理對于紙質(zhì)文檔管理形式的依賴,完善相關(guān)資料的數(shù)據(jù)管理路徑,完善學(xué)校各級管理單位的數(shù)據(jù)管理體制,將數(shù)據(jù)管理納入學(xué)校行政管理范疇內(nèi),構(gòu)建多層次的數(shù)據(jù)管理體系,建立與數(shù)據(jù)管理相適應(yīng)的管理平臺,云計算會將學(xué)校的數(shù)據(jù)管理環(huán)境大幅放開,重視數(shù)據(jù)網(wǎng)絡(luò)安全問題,也是學(xué)校數(shù)據(jù)管理工作重點,通過云計算提升學(xué)校數(shù)據(jù)管理工作效率。
基于云計算的數(shù)據(jù)管理技術(shù)能夠?qū)A康牟淮_定性數(shù)據(jù)進行存儲、分析和處理,有著非常鮮明的特點,大大提高了計算機技術(shù)的發(fā)展空間。因此,提高人們對云計算下數(shù)據(jù)管理技術(shù)的認識,將云數(shù)據(jù)管理技術(shù)廣泛應(yīng)用起來,有利于社會經(jīng)濟的飛速發(fā)展。