劉守霖
(鄭州工業(yè)應(yīng)用技術(shù)學(xué)院 河南省新鄭市 451100)
傳統(tǒng)數(shù)據(jù)處理技術(shù),主要是輸入輸出數(shù)據(jù)。數(shù)據(jù)量日益龐大,在原有基礎(chǔ)上,采用云計(jì)算模式開發(fā)新數(shù)據(jù)處理技術(shù),以此確保大數(shù)據(jù)處理的準(zhǔn)確性與快速性,為數(shù)據(jù)處理提供重要保障。此外,深入分析和研究云計(jì)算模式,討論大數(shù)據(jù)處理技術(shù),必須高度關(guān)注技術(shù)實(shí)效性,以此發(fā)揮出數(shù)據(jù)信息處理效果。
云計(jì)算技術(shù)為計(jì)算服務(wù)性較高的技術(shù),能夠通過網(wǎng)絡(luò)計(jì)算機(jī)技術(shù),統(tǒng)一監(jiān)督和管理存儲(chǔ)資源、計(jì)算資源,建設(shè)資源池。按照用戶需求提供優(yōu)質(zhì)服務(wù),體現(xiàn)出按勞分配服務(wù)模式。在當(dāng)前數(shù)據(jù)計(jì)算領(lǐng)域,云計(jì)算屬于計(jì)算能力、服務(wù)能力、存儲(chǔ)能力都比較強(qiáng)的技術(shù),是新型數(shù)據(jù)處理方式。該項(xiàng)技術(shù)具備以下特點(diǎn):
(1)具備公開性、透明性的資源池;
(2)無限制性,能夠?yàn)槎嘈袠I(yè)領(lǐng)域提供計(jì)算服務(wù),按照實(shí)際情況,合理選擇計(jì)算模式。
(3)數(shù)據(jù)資源獲取便捷,能夠縮短用戶時(shí)間,成本低廉,同時(shí)能夠擴(kuò)大用戶群體。
(4)服務(wù)方式與能力靈活,能夠滿足終端客戶需求,客戶必須按照實(shí)際需求,制定相應(yīng)處理方法[1]。
云計(jì)算技術(shù)借助計(jì)算準(zhǔn)確性高、傳輸速度快、存儲(chǔ)空間大、處理能力高等優(yōu)勢(shì),能夠?yàn)榇髷?shù)據(jù)處理提供便捷平臺(tái),有效改善傳統(tǒng)數(shù)據(jù)管理問題,還可以滿足數(shù)據(jù)處理與存儲(chǔ)需求。云計(jì)算技術(shù)的價(jià)值作用較高,能夠科學(xué)處理和計(jì)算數(shù)據(jù)信息。大數(shù)據(jù)技術(shù)需要云計(jì)算技術(shù)支持,才可以為社會(huì)提供優(yōu)質(zhì)服務(wù)。通過上述分析可知,云計(jì)算與大數(shù)據(jù)技術(shù)具備密切關(guān)聯(lián)性[2]。
隨著分布式計(jì)算、并行技術(shù)的發(fā)展,相應(yīng)促進(jìn)了云計(jì)算技術(shù)的發(fā)展,借助數(shù)據(jù)計(jì)算、網(wǎng)絡(luò)連接、存儲(chǔ)功能優(yōu)勢(shì),能夠?yàn)槭褂谜咛峁┓?wù),形成完整的資源池。云計(jì)算屬于數(shù)據(jù)面積性計(jì)算,能夠?qū)崿F(xiàn)存儲(chǔ)、計(jì)算資源的虛擬化。云計(jì)算技術(shù)在虛擬化、數(shù)據(jù)存儲(chǔ)與管理中,具備顯著技術(shù)優(yōu)勢(shì)。
數(shù)據(jù)讀寫高效性、信息存儲(chǔ)安全性,可以有效維護(hù)云計(jì)算技術(shù)效果。利用分布式存儲(chǔ)技術(shù),可以將海量數(shù)據(jù)存儲(chǔ)到服務(wù)器中,備份處理數(shù)據(jù)信息,全面提升數(shù)據(jù)信息的安全性。此外,通過冗余存儲(chǔ)方式、加密技術(shù),可以防止數(shù)據(jù)泄露丟失。在云計(jì)算系統(tǒng)中,GFS 屬于應(yīng)用廣泛的存儲(chǔ)系統(tǒng)。
云計(jì)算技術(shù)通過分布式處理分析,可以為使用者提供優(yōu)質(zhì)服務(wù),然而對(duì)數(shù)據(jù)管理技術(shù)的要求較高。開源管理模塊、BigTable 技術(shù)為常用數(shù)據(jù)管理技術(shù)。
在云計(jì)算系統(tǒng)中,虛擬化技術(shù)屬于計(jì)算存儲(chǔ)的關(guān)鍵,通過科學(xué)方式,將計(jì)算機(jī)組件、系統(tǒng)放置到虛擬環(huán)境中。按照系統(tǒng)、軟件、硬件,組成虛擬化層結(jié)構(gòu)。多數(shù)虛擬層劃分為3 層,利用中間層與上下兩層連接,為其提供相似功能,確保運(yùn)行環(huán)境的有效性。虛擬化層,可以改變上下層耦合關(guān)系,避免上層運(yùn)行依賴下層。通過應(yīng)用虛擬化技術(shù),可以優(yōu)化整合系統(tǒng)功能,全面提升資源的有效利用率,降低成本費(fèi)用,優(yōu)化整合服務(wù)。
圖1:大數(shù)據(jù)采集技術(shù)框架
圖2:大數(shù)據(jù)系統(tǒng)框架圖
按照不同采集方法,劃分大數(shù)據(jù)采集問題,例如分布式采集、集中式采集等。不同方法都具備優(yōu)勢(shì)與不足,通過以下方法優(yōu)勢(shì)做好分析。集中式收集,可以掌握控制各類數(shù)據(jù);分布式采集的靈活性高。在大數(shù)據(jù)采集時(shí),不僅要收集企業(yè)內(nèi)部數(shù)據(jù)信息,還需要采集企業(yè)之間數(shù)據(jù)信息,在企業(yè)內(nèi)部設(shè)置不同服務(wù)器,存儲(chǔ)企業(yè)共享數(shù)據(jù)。通過分布式計(jì)算方式,可以同時(shí)使用多種采集方法,全面提升數(shù)據(jù)收集水平。對(duì)于企業(yè)內(nèi)部,可以應(yīng)用集中式采集方法,企業(yè)之間通過分布式采集方法;針對(duì)中心服務(wù)器組織,可以應(yīng)用分布式采集法。聯(lián)合不同結(jié)構(gòu)類型劃分大數(shù)據(jù)類型,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。在收集數(shù)據(jù)信息時(shí),應(yīng)當(dāng)按照系統(tǒng)要求,科學(xué)分析數(shù)據(jù)種類。依照系統(tǒng)種類,全面展現(xiàn)出云計(jì)算技術(shù)優(yōu)勢(shì),例如擴(kuò)展和容錯(cuò)等,以此提升信息同構(gòu)化,完成數(shù)據(jù)對(duì)接。大數(shù)據(jù)采集技術(shù)框架圖如圖1 所示。
傳統(tǒng)數(shù)據(jù)存儲(chǔ)為單結(jié)點(diǎn)倉(cāng)庫(kù),容量空間較小,對(duì)于新時(shí)期數(shù)據(jù),已經(jīng)不具備承載性能。雖然擁有視圖能力、索引能力,但是會(huì)受到空間約束,無法滿足社會(huì)發(fā)展需求。在新歷史時(shí)期下,傳統(tǒng)數(shù)據(jù)運(yùn)行速度緩慢,無法滿足現(xiàn)代社會(huì)數(shù)據(jù)分析與處理。重點(diǎn)分析云計(jì)算技術(shù),采用列式數(shù)據(jù)存儲(chǔ)方式,準(zhǔn)確區(qū)分?jǐn)?shù)據(jù)屬性,按照不同屬性,分類存儲(chǔ)不同數(shù)據(jù)。通過查找屬性方式,可以及時(shí)獲取所需數(shù)據(jù),明顯提升數(shù)據(jù)處理水平,凸顯出系統(tǒng)功能性。按照不同屬性分類,可以涵蓋其他特征。按照相似程度,確保數(shù)據(jù)屬性排列的科學(xué)性。在查詢不確定屬性時(shí),技術(shù)掌握相似屬性,便于后期查詢數(shù)據(jù),鞏固基礎(chǔ)。同時(shí)可以獲得數(shù)據(jù)壓縮效果,降低錯(cuò)誤查詢所致不良影響。
針對(duì)大數(shù)據(jù)系統(tǒng)而言,聯(lián)機(jī)技術(shù)為核心內(nèi)容,涉及到復(fù)雜數(shù)據(jù)分析環(huán)節(jié),決策分析屬于重點(diǎn)內(nèi)容,需要將實(shí)際結(jié)果提供給用戶。一般情況下,應(yīng)用聯(lián)機(jī)分析方式時(shí),應(yīng)當(dāng)將綜合數(shù)據(jù)作為立足點(diǎn),建設(shè)多維度模型,以此獲得數(shù)據(jù)分析結(jié)果,幫助技術(shù)人員作出科學(xué)決策。此外,聯(lián)機(jī)分析處理特征在于分析復(fù)雜數(shù)據(jù),科學(xué)應(yīng)用倉(cāng)庫(kù)技術(shù)和聯(lián)機(jī)技術(shù),不僅可以準(zhǔn)確計(jì)算海量數(shù)據(jù),還能夠?qū)?shù)據(jù)信息進(jìn)行分析。
數(shù)據(jù)可視化管理,將云計(jì)算技術(shù)作為技術(shù)創(chuàng)新。在云計(jì)算技術(shù)支持下,大數(shù)據(jù)可視化,能夠深入挖掘和收集隱藏?cái)?shù)據(jù)信息,通過直觀圖表表示。
大數(shù)據(jù)可視化技術(shù),將云計(jì)算技術(shù)作為數(shù)據(jù)挖掘技術(shù),從復(fù)雜數(shù)據(jù)中,識(shí)別高價(jià)值信息。通過服務(wù)方式,向用戶提供數(shù)據(jù)信息。通過云計(jì)算技術(shù),可以分析復(fù)雜數(shù)據(jù),高效處理數(shù)據(jù)程序,以此作為切入點(diǎn),在總體數(shù)據(jù)上放置原始數(shù)據(jù),深入挖掘價(jià)值信息。云計(jì)算技術(shù)保障力度強(qiáng),能夠顯著提升數(shù)據(jù)挖掘水平。在大量數(shù)據(jù)中,通過大數(shù)據(jù)技術(shù)可以挖掘重要信息,云計(jì)算技術(shù)可以匯總碎片信息,掌握內(nèi)在規(guī)律,確保市場(chǎng)經(jīng)濟(jì)發(fā)展趨勢(shì)分析的準(zhǔn)確性。針對(duì)可視化處理技術(shù),通過趨勢(shì)圖繪制方式,可以展示出可視化處理基礎(chǔ),確保數(shù)據(jù)結(jié)果具備直觀性和生動(dòng)性,防止企業(yè)出現(xiàn)決策失誤。當(dāng)前,多數(shù)企業(yè)為自身業(yè)務(wù)內(nèi)容與領(lǐng)域,制定云計(jì)算模式的大數(shù)據(jù)挖掘測(cè)量,確保企業(yè)數(shù)據(jù)采集的高效性。與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)相比,大數(shù)據(jù)挖掘技術(shù)可以處理分布并行數(shù)據(jù),結(jié)合計(jì)算移動(dòng)數(shù)據(jù)類型、計(jì)算模式,在處理數(shù)據(jù)立方體時(shí),數(shù)據(jù)群的維度屬性比較復(fù)雜,數(shù)據(jù)管理系統(tǒng)可以發(fā)揮出延遲查詢功能。從總體角度看,云計(jì)算模式下的大數(shù)據(jù)挖掘技術(shù),可以有效處理不同結(jié)構(gòu)的數(shù)據(jù)信息問題。
通過聯(lián)機(jī)分析技術(shù),只可以獲得淺層數(shù)據(jù)信息,無法掌握內(nèi)在規(guī)律與關(guān)聯(lián)性。在云計(jì)算模式下,應(yīng)用大數(shù)據(jù)挖掘技術(shù),可以掌握數(shù)據(jù)本質(zhì),展示出不同數(shù)據(jù)的關(guān)聯(lián)性。通過模式和概念方式體現(xiàn)出來?,F(xiàn)階段,大數(shù)據(jù)挖掘方法為并行方式,在處理海量數(shù)據(jù)時(shí),應(yīng)用優(yōu)勢(shì)顯著。串行數(shù)據(jù)處理的區(qū)域小,花費(fèi)時(shí)間和精力大,工作效率比較低。然而應(yīng)用分布式挖掘技術(shù),通過分布式系統(tǒng)與多樣化方法,可以縮短數(shù)據(jù)計(jì)算時(shí)間,全面提升數(shù)據(jù)計(jì)算結(jié)果的準(zhǔn)確性。在云計(jì)算模式下,大數(shù)據(jù)挖掘技術(shù)可以發(fā)揮出并行優(yōu)勢(shì),與其他串行方式相比,并行挖掘可以通過計(jì)算機(jī)系統(tǒng),集群拆分分布式供給系統(tǒng)。完成拆分處理后,必須做好相關(guān)處理,通過多臺(tái)計(jì)算機(jī)開展工作,既可以提升數(shù)據(jù)信息處理水平,還可以降低數(shù)據(jù)處理成本與費(fèi)用。
3.6.1 系統(tǒng)架構(gòu)
計(jì)算機(jī)技術(shù)環(huán)境下,大數(shù)據(jù)處理平臺(tái)節(jié)點(diǎn)包括以下幾點(diǎn):節(jié)點(diǎn)分散性、數(shù)據(jù)來源混構(gòu)性、數(shù)據(jù)處理動(dòng)態(tài)性。該處理平臺(tái)架構(gòu)應(yīng)用融合式調(diào)度執(zhí)行層、任務(wù)融合調(diào)度管理,按照處理規(guī)則與參數(shù),對(duì)引擎數(shù)據(jù)、算法組合、計(jì)算資源進(jìn)行調(diào)整。高效融合大數(shù)據(jù)資源數(shù)據(jù)交互、任務(wù)分區(qū)工作。在管理層中,分布式存儲(chǔ)業(yè)務(wù)數(shù)據(jù),全面加強(qiáng)容錯(cuò)處理能力。圖2 為大數(shù)據(jù)處理系統(tǒng)的框架圖。
3.6.2 系統(tǒng)處理流程
系統(tǒng)處理流程,可以高效處理分散狀態(tài)數(shù)據(jù),提取分散數(shù)據(jù)。所以為其他應(yīng)用提供數(shù)據(jù)接口。數(shù)據(jù)管理部門,高度融合數(shù)據(jù)資源。在標(biāo)準(zhǔn)容忍度下,比較分析不同數(shù)據(jù)處理機(jī)制,注重優(yōu)勢(shì)融合。數(shù)據(jù)處理中心應(yīng)當(dāng)集中處理數(shù)據(jù),注重?cái)?shù)據(jù)資源統(tǒng)一化分配,在數(shù)據(jù)中心融合數(shù)據(jù)處理。
3.6.3 理系統(tǒng)部署
某企業(yè)大數(shù)據(jù)處理系統(tǒng)部署,按照新型企業(yè)集群需求,深度挖掘現(xiàn)有分散數(shù)據(jù)資源。例如企業(yè)資源計(jì)劃系統(tǒng)、供應(yīng)鏈管理系統(tǒng)相關(guān)數(shù)據(jù)。通過深度挖掘上述數(shù)據(jù),可以為企業(yè)提供戰(zhàn)略發(fā)展資源。通過分析部署結(jié)構(gòu)可知,企業(yè)將資源計(jì)劃系統(tǒng)、供應(yīng)鏈管理系統(tǒng)、客戶關(guān)系管理系統(tǒng)的數(shù)據(jù)作為數(shù)據(jù)源,利用服務(wù)器處理之后,可以分布到不同數(shù)據(jù)庫(kù)中,之后合并到大數(shù)據(jù)管理模塊,以此實(shí)現(xiàn)數(shù)據(jù)查詢與數(shù)據(jù)決策服務(wù)。
在具體應(yīng)用大數(shù)據(jù)處理系統(tǒng)時(shí),涉及到以下方面:首先,融合式架構(gòu)應(yīng)用。從本質(zhì)上看,其屬于客戶機(jī)/服務(wù)器架構(gòu)模式。服務(wù)器負(fù)責(zé)管理和控制應(yīng)用系統(tǒng),同時(shí)實(shí)現(xiàn)邏輯處理與數(shù)據(jù)調(diào)度??蛻舳藶楠?dú)立人機(jī)交互,用戶為了執(zhí)行數(shù)據(jù)處理分析,必須借助客戶機(jī)向服務(wù)器發(fā)送請(qǐng)求,之后由服務(wù)器完成,返回至客戶端。融合式架構(gòu)簡(jiǎn)單,便于維護(hù)。然而服務(wù)器功能的依賴性強(qiáng),將會(huì)影響數(shù)據(jù)處理系統(tǒng)的應(yīng)用。其次,分散式架構(gòu)的應(yīng)用。此種架構(gòu)的特點(diǎn)在于協(xié)調(diào)控制節(jié)點(diǎn)具備平等性,與處理系統(tǒng)的控制模塊、管理模塊相關(guān),分散于不同客戶端上[3]??蛻舳司邆渥灾螌傩裕蓴U(kuò)展性、靈活性、通用性強(qiáng)。因數(shù)據(jù)應(yīng)用分布儲(chǔ)存和操作方式,會(huì)加劇系統(tǒng)維護(hù)難度,且節(jié)點(diǎn)之間的實(shí)時(shí)同步、用戶動(dòng)態(tài)注冊(cè)應(yīng)用的實(shí)現(xiàn)難度大。最后,混合式結(jié)構(gòu)的應(yīng)用。此種結(jié)構(gòu)具備融合式、分散式結(jié)構(gòu)的應(yīng)用特點(diǎn),借助服務(wù)器高度統(tǒng)一數(shù)據(jù)信息??蛻舳丝梢詫?shí)現(xiàn)信息傳輸,與用戶實(shí)現(xiàn)應(yīng)用交互,以此緩解服務(wù)端壓力,同時(shí)消除服務(wù)器端瓶頸,全面提升系統(tǒng)靈活性與魯棒性。
綜上所述,注重傳統(tǒng)管理系統(tǒng)改革,能夠有效采集和分析大數(shù)據(jù)。云計(jì)算模式可以滿足大數(shù)據(jù)處理與存儲(chǔ)需求,所以必須基于云計(jì)算模式,深入研究和分析大數(shù)據(jù)處理技術(shù),以此維護(hù)數(shù)據(jù)安全與質(zhì)量。