李薇
摘要:大數(shù)據(jù)是信息化時(shí)代的產(chǎn)物,因此其發(fā)展離不開(kāi)云計(jì)算的大力支持。大數(shù)據(jù)的特征顯著,包括數(shù)據(jù)處理效率高、數(shù)據(jù)類型多樣化等。本文主要以大數(shù)據(jù)特征和應(yīng)用作為出發(fā)點(diǎn),分析了大數(shù)據(jù)與云計(jì)算的關(guān)系,并在此基礎(chǔ)之上從挖掘技術(shù)、可視化技術(shù)等方面探討了基于云計(jì)算的大數(shù)據(jù)處理技術(shù),以期為相關(guān)行業(yè)人員提供一些參考和意見(jiàn)。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù);大數(shù)據(jù)處理
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)08-0218-02
隨著社會(huì)經(jīng)濟(jì)的發(fā)展以及網(wǎng)絡(luò)技術(shù)的進(jìn)步,人們獲取信息資源的渠道得以拓寬、獲取信息的方式更加靈活性。與此同時(shí),信息種類的繁多以及信息傳播的高效性也對(duì)現(xiàn)有數(shù)據(jù)處理模式和數(shù)據(jù)處理體系提出了更高的要求。依據(jù)大數(shù)據(jù)摩爾定律,數(shù)據(jù)規(guī)模和數(shù)量將呈逐年擴(kuò)大趨勢(shì),預(yù)計(jì)2020年,世界數(shù)據(jù)量將超過(guò)35億GB。由此可見(jiàn),當(dāng)前社會(huì)已進(jìn)入“信息大爆炸”和大數(shù)據(jù)時(shí)代。加之云技術(shù)的興起與發(fā)展,改變了傳統(tǒng)數(shù)據(jù)處理方式,促使數(shù)據(jù)處理方式向高效、智能化、信息化方向發(fā)展。如何利用云計(jì)算技術(shù)實(shí)現(xiàn)數(shù)據(jù)的高效處理,已成為當(dāng)今社會(huì)各界關(guān)注的焦點(diǎn)問(wèn)題之一。
1 大數(shù)據(jù)概述
1.1 特征
在計(jì)算機(jī)領(lǐng)域,大數(shù)據(jù)特征較為多樣化。具體而言,表現(xiàn)在五方面。其一,龐大性。其二,豐富性。其三,價(jià)值型。其四,高速性。其五,準(zhǔn)確性。不同業(yè)界均認(rèn)為:加強(qiáng)對(duì)大數(shù)據(jù)的研究,既可以提高數(shù)據(jù)的準(zhǔn)確性,又可以促使國(guó)家經(jīng)濟(jì)的發(fā)展。與此同時(shí),在大數(shù)據(jù)時(shí)代和云計(jì)算環(huán)境下,與一般數(shù)據(jù)容量相比,大數(shù)據(jù)容量較大。
1.2 應(yīng)用
大數(shù)據(jù)的應(yīng)用包括三個(gè)架構(gòu)。第一,融合式架構(gòu)。所謂融合式架構(gòu)是指整合數(shù)據(jù)信息之后,對(duì)數(shù)據(jù)進(jìn)行科學(xué)處理。這樣可以提高數(shù)據(jù)的整合效率。此種模式為用戶模式,又稱之為服務(wù)器模式。服務(wù)器主要負(fù)責(zé)方案的管理。第二,分散式架構(gòu)。此種架構(gòu)模式可以控制客戶端數(shù)據(jù)信息??刂颇K具有多樣性,不同控制模塊的控制對(duì)象不同,將其分布在不同客戶端中,能夠起到自我調(diào)整和控制內(nèi)部系統(tǒng)的作用。由此可見(jiàn),此種架構(gòu)模式的安全性較高,且具有較強(qiáng)的靈活性。但是也存在的一定的缺陷,即數(shù)據(jù)維護(hù)成本較高、用戶注冊(cè)時(shí)會(huì)出現(xiàn)諸多提示性問(wèn)題。第三,混合式架構(gòu)。此種架構(gòu)模式綜合了前面兩種架構(gòu)模式的優(yōu)點(diǎn)。無(wú)論是數(shù)據(jù)的分發(fā)還是數(shù)據(jù)的傳播,都需要依靠服務(wù)器完成。用戶要想實(shí)現(xiàn)數(shù)據(jù)的交互,則需要借助客戶端完成。
2 云計(jì)算和大數(shù)據(jù)的關(guān)系
就云計(jì)算的功能而言,其顯著功能為處理虛擬化資源。云計(jì)算與互聯(lián)網(wǎng)的有效結(jié)合,不僅能夠大大提高數(shù)據(jù)運(yùn)算能力,還可以實(shí)現(xiàn)資源共享。云計(jì)算的服務(wù)器與互聯(lián)網(wǎng)各種交付模式的整合,能夠在實(shí)現(xiàn)資源優(yōu)化配置的同時(shí)降低數(shù)據(jù)運(yùn)算任務(wù)量。就云計(jì)算特點(diǎn)而言,主要包括五方面:其一,虛擬性(最根本特點(diǎn));其二,擴(kuò)展性;其三,可靠性;其四,高規(guī)模性;其五,通用性。利用云計(jì)算展開(kāi)數(shù)據(jù)運(yùn)算,可以對(duì)數(shù)據(jù)信息進(jìn)行虛擬化。相對(duì)而言,運(yùn)算機(jī)的一大優(yōu)勢(shì)是可以提供數(shù)據(jù)的容錯(cuò)性措施。并且,用戶可以結(jié)合自身實(shí)際要求與需求設(shè)置其規(guī)模,并展開(kāi)動(dòng)態(tài)性管理。在不同的行業(yè)領(lǐng)域,均可以通過(guò)云計(jì)算實(shí)現(xiàn)數(shù)據(jù)的計(jì)算、數(shù)據(jù)的應(yīng)用。因此,用戶的應(yīng)用成本降低、獲取信息的方式更加靈活。
3 大數(shù)據(jù)處理技術(shù)
3.1 Hadoop、Open Stack 技術(shù)
Hadoop屬于一種分布式架構(gòu)。此種架構(gòu)適用于數(shù)據(jù)容量較大的情況,依據(jù)Hadoop高吞吐量特征,能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的及時(shí)處理,進(jìn)而提高數(shù)據(jù)處理效率。另外,Hadoop可以實(shí)現(xiàn)對(duì)多個(gè)數(shù)據(jù)副本進(jìn)行維護(hù)、再次布局和操作失敗的操作。就其數(shù)據(jù)處理方式而言,主要以并行方式為主。此種處理方式具有成本低、便利性大等優(yōu)勢(shì)。Open Stack屬于分布式平臺(tái)。平臺(tái)優(yōu)勢(shì)在于包含的組件較多、支持范圍廣。其中,就Open Stack平臺(tái)模塊而言,主要包括兩種,一是NOVA 模塊,二是 Swift 模塊。Hadoop與Open Stack的結(jié)合,既可以提高資源的利用率,又可以提高數(shù)據(jù)的處理效率。
3.2 存儲(chǔ)技術(shù)
就數(shù)據(jù)信息的特征而言,其顯著特征包括兩點(diǎn)。其一,分散性。其二,龐大性。在處理數(shù)據(jù)信息過(guò)程中,假設(shè)采用傳統(tǒng)的存儲(chǔ)技術(shù),不僅無(wú)法滿足大數(shù)據(jù)存儲(chǔ)要求,還會(huì)降低數(shù)據(jù)計(jì)算效率?,F(xiàn)階段,隨著社會(huì)的不斷發(fā)展,數(shù)據(jù)信息量日益增加。無(wú)論是傳統(tǒng)數(shù)據(jù)存儲(chǔ)技術(shù)還是數(shù)據(jù)存儲(chǔ)庫(kù),都無(wú)法滿足大數(shù)據(jù)容量需求。而利用計(jì)算機(jī)展開(kāi)數(shù)據(jù)存儲(chǔ)和計(jì)算,能夠通過(guò)列式存儲(chǔ)方式,實(shí)現(xiàn)對(duì)龐大的數(shù)據(jù)信息進(jìn)行分割,進(jìn)而將分割之后的數(shù)據(jù)進(jìn)行單獨(dú)存儲(chǔ)。在數(shù)據(jù)投影時(shí),云計(jì)算可以在較快時(shí)間內(nèi)找到所需數(shù)據(jù)信息,這樣既可以有效彌補(bǔ)傳統(tǒng)數(shù)據(jù)處理方式的不足與缺陷,又可以大大提高數(shù)據(jù)存儲(chǔ)和處理效率。與此同時(shí),在列式存儲(chǔ)中,相鄰數(shù)據(jù)的相似性極高。這在一定程度上可以減少數(shù)據(jù)存儲(chǔ)空間。
3.3 挖掘技術(shù)
通常情況下,實(shí)現(xiàn)數(shù)據(jù)挖掘不僅需要對(duì)數(shù)據(jù)進(jìn)行收集與清理,還需要完成數(shù)據(jù)集成操作。采用云計(jì)算下的聯(lián)機(jī)分析方式可以縱觀整個(gè)數(shù)據(jù),并站在全方位、多角度剖析數(shù)據(jù)。在此基礎(chǔ)之上,采用聯(lián)機(jī)分析方式能夠?qū)崟r(shí)在數(shù)據(jù)庫(kù)中挖掘內(nèi)在數(shù)據(jù),并對(duì)挖掘之后的數(shù)據(jù)進(jìn)行模擬化表示。就挖掘技術(shù)的優(yōu)勢(shì)而言,包括提高數(shù)據(jù)處理效率、實(shí)現(xiàn)對(duì)數(shù)據(jù)模塊的分配布局、善于解決并行任務(wù)等。同時(shí),挖掘技術(shù)在很多行業(yè)都是非常適用的,比如電子商務(wù)、物流等等行業(yè),通過(guò)數(shù)據(jù)挖掘技術(shù)可以提供相關(guān)業(yè)務(wù)的精確性和針對(duì)性。
3.4 可視化技術(shù)
此種技術(shù)可以凸顯數(shù)據(jù)的直觀性,并為用戶自身操作數(shù)據(jù)提供便利。所謂可視化技術(shù)是指利用圖形學(xué)或者圖像表示數(shù)據(jù),最終向用戶展現(xiàn)一種交互技術(shù)。依靠圖形化的原則,探索相對(duì)較為復(fù)雜的數(shù)據(jù),可以明顯發(fā)現(xiàn)其中的不同之處。除此之外,采用此種技術(shù)可以分析數(shù)據(jù)的表面、實(shí)現(xiàn)數(shù)據(jù)的多維度表示。當(dāng)用戶在檢索數(shù)據(jù)信息過(guò)程中,可以利用可視化技術(shù)提高數(shù)據(jù)檢索效率。endprint
4 云計(jì)算下大數(shù)據(jù)廉價(jià)計(jì)算平臺(tái)
4.1 大規(guī)模廉價(jià)計(jì)算平臺(tái)
大規(guī)模計(jì)算平臺(tái),即運(yùn)用現(xiàn)代信息技術(shù)對(duì)數(shù)據(jù)進(jìn)行安排,這種安排辦法一般是在臺(tái)式電腦、筆記本電腦、液晶電腦等PC機(jī)上進(jìn)行平臺(tái)搭建,這個(gè)平臺(tái)具有動(dòng)態(tài)、高效、便于拓展等優(yōu)勢(shì),具有十分強(qiáng)大的實(shí)用性。常規(guī)辦法是把云計(jì)算和Hadoop技術(shù)同編程技術(shù)進(jìn)行整合。在整合之間,便可以對(duì)大數(shù)據(jù)進(jìn)行一定程度的分類,這樣分類以后,有利于對(duì)數(shù)據(jù)中各個(gè)子集的采集、安排更加明確,使得數(shù)據(jù)通過(guò)這種分類安排變得清晰明了。
大規(guī)模計(jì)算平臺(tái)是將虛擬技術(shù)運(yùn)用到PC機(jī)上完成各種各樣的應(yīng)用,這種應(yīng)用有利于利用閑置平臺(tái)采集資源。例如對(duì)虛擬服務(wù)器Ui和Uj(i可以任意取值),可以針對(duì)單獨(dú)數(shù)據(jù)實(shí)現(xiàn)安排。要使得這一系統(tǒng)得到實(shí)現(xiàn),就需要對(duì)各種資源進(jìn)行集合、整理。在這一系統(tǒng)的控制當(dāng)中需要對(duì)節(jié)點(diǎn)資源池進(jìn)行管理,這種管理分為幾個(gè)步驟進(jìn)行。這其中有一個(gè)基礎(chǔ),便是計(jì)算機(jī)節(jié)點(diǎn)的激活,它需要在PC機(jī)上對(duì)數(shù)據(jù)進(jìn)行安排和分配,并對(duì)此做相應(yīng)計(jì)算和資源存儲(chǔ)安排,緊接著,將安排好的計(jì)算流程與資源分別進(jìn)行處理,這樣安排以后,才能激活計(jì)算節(jié)點(diǎn)。
4.2 大數(shù)據(jù)處理計(jì)算流程概述
在大規(guī)模廉價(jià)計(jì)算平臺(tái)的具體操作過(guò)程中,最為重要的板塊就是計(jì)算流程的設(shè)計(jì),計(jì)算流程的設(shè)計(jì)關(guān)系到資源能否順利存儲(chǔ)。因而在此單獨(dú)作為一個(gè)項(xiàng)目提出。以電信的資源處理流程為例,電信每天都需要處理成千上萬(wàn)資源,這些資源若沒(méi)有按照計(jì)算流程進(jìn)行保存將十分混亂。因此,電信的計(jì)算流程分成了幾個(gè)步驟進(jìn)行,每個(gè)步驟都有細(xì)致的數(shù)據(jù)工作流程。它具體是由:數(shù)據(jù)分析板塊、消費(fèi)查詢板塊、性能監(jiān)控板塊三個(gè)板塊組成。這三個(gè)板塊每一個(gè)都具有詳細(xì)的處理過(guò)程。因此,在處理大數(shù)據(jù)時(shí),要建立相應(yīng)流程可以通過(guò)細(xì)化分配來(lái)完成。
4.3 實(shí)現(xiàn)大規(guī)模安排的步驟
要實(shí)現(xiàn)大規(guī)模數(shù)據(jù)核心數(shù)據(jù)安排,就需要對(duì)數(shù)據(jù)虛擬化的辦法實(shí)施有效安排。具體步驟為:
第一,對(duì)數(shù)據(jù)資源進(jìn)行整合。在進(jìn)行數(shù)據(jù)虛擬化時(shí)必須要提前利用電腦進(jìn)行數(shù)據(jù)資源的安排,進(jìn)行實(shí)際操作的電腦有兩種。一種是為進(jìn)行資源提供的電腦,另一種是具有計(jì)算流程的電腦。這個(gè)步驟主要是對(duì)資源進(jìn)行收集和保存,并對(duì)保存的資源通過(guò)確定流程進(jìn)行計(jì)算。
第二,對(duì)第一步所得出的結(jié)果進(jìn)一步處理,并做好下一流程安排。
第三,將第二步處理結(jié)果與相關(guān)文件結(jié)合,即在此要對(duì)該節(jié)點(diǎn)和資源進(jìn)行一定程度的管理。
第四,要將實(shí)施操作的各個(gè)部分(程序、保存空間、網(wǎng)絡(luò)等)實(shí)施管理。管理過(guò)程中使用的相關(guān)工具要同時(shí)開(kāi)始安排節(jié)點(diǎn)、流程,當(dāng)一切就位以后方可以進(jìn)行方案。
第五,一切準(zhǔn)備就緒,計(jì)算機(jī)流程開(kāi)始。
第六,激活計(jì)算、存儲(chǔ)資源分配的計(jì)算流程。
5 結(jié)語(yǔ)
大數(shù)據(jù)容量的擴(kuò)大,需要借助云計(jì)算技術(shù)實(shí)現(xiàn)數(shù)據(jù)的及時(shí)處理與解決。加之云計(jì)算技術(shù)的日益成熟,可以為用戶提供更多可視化大數(shù)據(jù)應(yīng)用軟件。當(dāng)前,云計(jì)算作為一種全新的數(shù)據(jù)處理模式,無(wú)論是在搜集大數(shù)據(jù)方面還是在計(jì)算大數(shù)據(jù)方面,都為期提供了較大的便利。云計(jì)算與大數(shù)據(jù)的綜合,既可以有效發(fā)揮云計(jì)算的優(yōu)勢(shì),又可以提高數(shù)據(jù)處理效率,并在一定程度上推動(dòng)云計(jì)算技術(shù)的發(fā)展。
參考文獻(xiàn)
[1]張焰,李楊.用大數(shù)據(jù)武裝”云”:基于云計(jì)算的大數(shù)據(jù)處理技術(shù)[J].中國(guó)新通信,2015,17(04):87-88.
[2]龔旭.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)探討[J].電子技術(shù)與軟件工程,2015,(10):198.
[3]李曉飛.基于云計(jì)算技術(shù)的大數(shù)據(jù)處理系統(tǒng)的研究[J].長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,15(01):116-118+125.endprint