呂啟文
摘要:日前,在大數(shù)據(jù)蓬勃發(fā)展的時代,對其的處理和管理是云基礎(chǔ)主要應(yīng)用的方面。而服務(wù)是對云計(jì)算環(huán)境中各類資源的使用模式。在傳統(tǒng)流數(shù)據(jù)系統(tǒng)因時代的高速發(fā)展,數(shù)據(jù)的多元異構(gòu)復(fù)雜性提升,而在諸多方面出現(xiàn)了瓶頸的情況下,云計(jì)算技術(shù)因其在數(shù)據(jù)的可伸縮性、數(shù)據(jù)并化處理能力、數(shù)據(jù)的容錯率方面的出色表現(xiàn),在新時代的流數(shù)據(jù)處理和管理中脫穎而出,成為其發(fā)展的基石。云計(jì)算對大數(shù)據(jù)的集成、處理、服務(wù)化等發(fā)面有著至關(guān)重要的作用。
關(guān)鍵詞:流數(shù)據(jù);云服務(wù);數(shù)據(jù)集成
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)10-0057-01
近年來,隨著各移動設(shè)備、物聯(lián)網(wǎng)、泛在計(jì)算等不斷發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。這意味著,在不同領(lǐng)域內(nèi),各類數(shù)據(jù)都呈現(xiàn)日益增長的趨勢。同時因?yàn)橐苿釉O(shè)備對我們?nèi)粘I畹挠绊?,在未來有可能會有?shù)據(jù)爆發(fā)的情況出現(xiàn)。其中,流數(shù)據(jù),即來自不同類型的設(shè)備傳輸,并且具有實(shí)時性的數(shù)據(jù),是現(xiàn)在在數(shù)據(jù)體系中越來越重要的一個角色。進(jìn)行大數(shù)據(jù)的集成和處理的基礎(chǔ)之一是云基礎(chǔ)設(shè)施,筆者在云服務(wù)對大數(shù)據(jù)的集成和處理等方面進(jìn)行了深入研究。
1 相關(guān)概念
1.1 流數(shù)據(jù)的概念
流數(shù)據(jù)是指沒有邊界的、隨著時間變化、瞬時決定的數(shù)據(jù)項(xiàng)排列。所以,流數(shù)據(jù)一般是遵循一定的時間性,多以時間序列的模型進(jìn)行排列。對于流數(shù)據(jù)而言,其集成和處理是由“算子”和“處理單元”集合之間通過數(shù)據(jù)“流”連接而成的。流程大多是一算子通過數(shù)據(jù)轉(zhuǎn)換和處理后輸出數(shù)據(jù),數(shù)據(jù)源接受算子后會將它們發(fā)送給下一個算子進(jìn)行新一輪的數(shù)據(jù)處理,從而使數(shù)據(jù)處理的結(jié)果傳遞到設(shè)備或應(yīng)用中進(jìn)行服務(wù)。
1.2 云計(jì)算環(huán)境下的數(shù)據(jù)集成服務(wù)及特點(diǎn)
云計(jì)算環(huán)境已經(jīng)發(fā)展成為大數(shù)據(jù)時代下數(shù)據(jù)進(jìn)行存儲、處理、及計(jì)算等廣發(fā)使用的平臺??梢哉f,數(shù)據(jù)處理在發(fā)展到第三代:流數(shù)據(jù)處理系統(tǒng)的階段,很大一部分原因是因?yàn)樵朴?jì)算技術(shù)的推動而形成的。
本文總結(jié)歸納云計(jì)算環(huán)境下的流數(shù)據(jù)集成與服務(wù)有以下特點(diǎn):支持多個租戶共享和“即取即用”的服務(wù)模式;實(shí)時性;動態(tài)可伸縮性;容錯性。這些特點(diǎn)保證了在云計(jì)算的環(huán)境下,流數(shù)據(jù)的操作服務(wù)不再是一對一的低效率模式,而是可以讓多位租戶共享流數(shù)據(jù)處理的結(jié)果。同時,處理數(shù)據(jù)的速度可以達(dá)到一秒鐘處理一萬條以上的數(shù)據(jù),保證了服務(wù)的高效性。在應(yīng)用和服務(wù)中,保證在不同的負(fù)載下仍然能夠保持常規(guī)的性能,達(dá)到資源的更合理的分配。最后,因?yàn)閷?shù)據(jù)的容錯,云計(jì)算可以保證容錯的開銷小,以減少因?yàn)閿?shù)據(jù)的丟失和延遲而造成的損失。因此,可靠性也是流數(shù)據(jù)服務(wù)的根本要求之一。
2 基于云計(jì)算的流數(shù)據(jù)集成云服務(wù)分析
2.1 流數(shù)據(jù)的集成
流數(shù)據(jù)通過不斷的發(fā)展,其集成的問題有以下幾個方面:多個流數(shù)據(jù)源的集成、流處理引擎間的集成以及流處理引擎和傳統(tǒng)數(shù)據(jù)庫的集成。流數(shù)據(jù)集成的目的是為了方便進(jìn)行進(jìn)一步對數(shù)據(jù)的分析和處理,尤其是涉及到多個數(shù)據(jù)源的深度分析和規(guī)劃。這也證明了多數(shù)據(jù)源的協(xié)同計(jì)算也是在大數(shù)據(jù)時代分析數(shù)據(jù)的一種有效且高效的數(shù)據(jù)分析手段。
2.2 基于云計(jì)算的流數(shù)據(jù)查詢操作
流數(shù)據(jù)的查詢操作是云計(jì)算環(huán)境下一個應(yīng)用較為廣泛的方面。流數(shù)據(jù)的基本操作可以分為選擇、投影、連接、聚集等操作。這其中,相較于選擇和投影的操作,連接和聚集的操作更為繁瑣和耗時。如何提高這兩個方面的操作是從傳統(tǒng)數(shù)據(jù)操作中一直被廣泛關(guān)注的要點(diǎn)。而在流數(shù)據(jù)的研究中,因?yàn)槠鋵?shí)時性的特點(diǎn),會在云計(jì)算的環(huán)境下帶來新的問題。
3 挑戰(zhàn)與展望
流數(shù)據(jù)處理的發(fā)展也不是一朝一夕,但縱觀其發(fā)展歷程,它的內(nèi)涵和外延都發(fā)生了變化。新型技術(shù)運(yùn)用在服務(wù)的角度仍比不上一些傳統(tǒng)的數(shù)據(jù)處理方法,但云計(jì)算下的流數(shù)據(jù)集成處理有很大的發(fā)展空間。這其中,可能出現(xiàn)的問題,筆者認(rèn)為有一下幾點(diǎn)。
3.1 流數(shù)據(jù)服務(wù)模型
因?yàn)楝F(xiàn)在的服務(wù)抽象的模型還不具備對大規(guī)模數(shù)據(jù)的實(shí)時性、不間斷性、多變性的高效處理能力,這使得在流數(shù)據(jù)的服務(wù)過程中的抽象和建模、服務(wù)編程等方面都面臨著一些挑戰(zhàn)。這些可以從流數(shù)據(jù)服務(wù)的自身特點(diǎn),找出滿足流數(shù)據(jù)應(yīng)用特有的要求。
3.2 基于云計(jì)算的流數(shù)據(jù)服務(wù)的性能優(yōu)化問題
現(xiàn)代大數(shù)據(jù)流行的時代,數(shù)據(jù)服務(wù)成為人們?nèi)粘I钪械闹匾矫?。而隨著流數(shù)據(jù)的空前爆發(fā),大規(guī)模流數(shù)據(jù)的處理的高吞吐和延遲是面臨的巨大問題。這些可根據(jù)負(fù)載情況合并或者分開執(zhí)行。例如:動態(tài)劃分?jǐn)?shù)目、進(jìn)行算子資源分配等等。
4 結(jié)語
近年來,隨著數(shù)據(jù)大規(guī)模地在人們生活中的應(yīng)用,流數(shù)據(jù)的發(fā)展也超乎想象。不可否認(rèn)的是,數(shù)據(jù)時代為我們的日常生活提供了巨大的便利。本文從流數(shù)據(jù)的概念和云計(jì)算環(huán)境下對流數(shù)據(jù)的分析,簡要分析了大數(shù)據(jù)時代的數(shù)據(jù)發(fā)展方向及應(yīng)用和發(fā)展問題,這也是日后大規(guī)模數(shù)據(jù)的集成和處理所面臨的問題和挑戰(zhàn)。如果可以解決以上問題,其研究成果在日常交流、物流、互聯(lián)網(wǎng)等多個領(lǐng)域都有重要的研究價值。
參考文獻(xiàn)
[1]崔星燦,禹曉輝,劉洋,呂朝陽.分布式流處理技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):318-332.
[2]丁滟,王懷民,史佩昌,吳慶波,戴華東,富弘毅.可信云服務(wù)[J].計(jì)算機(jī)學(xué)報(bào),2015,38(1):133-149.
[3]金澈清,錢衛(wèi)寧,周敏奇,周傲英.數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn):從傳統(tǒng)數(shù)據(jù)庫到新興大數(shù)據(jù)[J]計(jì)算機(jī)學(xué)報(bào),2014,37(8):1-18.