李斌
【摘 要】介紹大數(shù)據(jù)產(chǎn)生背景,詳細剖析大數(shù)據(jù)的基本概念及其特征,同時提煉了大數(shù)據(jù)的五種關(guān)鍵技術(shù),指出大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)和數(shù)據(jù)空間相結(jié)合的發(fā)展趨勢,以揭示需要研究的關(guān)鍵內(nèi)容,為大數(shù)據(jù)的相關(guān)研究者提供參考。
【關(guān)鍵詞】大數(shù)據(jù) 云計算 物聯(lián)網(wǎng)
數(shù)據(jù)空間
【中圖分類號】G【文獻標(biāo)識碼】A
【文章編號】0450-9889(2013)09C-
0190-03
隨著社交網(wǎng)絡(luò)、移動互聯(lián)、電子商務(wù)、互聯(lián)網(wǎng)和云計算的興起,音頻、視頻、圖像、日志等數(shù)據(jù)正在以指數(shù)級增長,互聯(lián)網(wǎng)的邊界和應(yīng)用范圍不斷被擴展。據(jù)麥肯錫的預(yù)測,2010年全球范圍內(nèi)硬盤存儲的新數(shù)據(jù)超過7EB(1EB=10億GB),而到2020年,全球數(shù)據(jù)總量將達到約35ZB(1ZB=10億TB),大數(shù)據(jù)正以其多源、海量、異構(gòu)的特性沖擊著社會的各個領(lǐng)域,為傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)在存儲、訪問和管理大數(shù)據(jù)方面帶來嚴峻的考驗,無論是在學(xué)術(shù)界還是工業(yè)界,都引起人們高度的關(guān)注。
2008年,國際頂級學(xué)術(shù)期刊Nature以“Big Data”為???,討論了大數(shù)據(jù)給各個領(lǐng)域帶來的沖擊和挑戰(zhàn);2011年,國際頂級學(xué)術(shù)期刊《Science》推出“Dealing with data”??攸c探討了對大數(shù)據(jù)的處理技術(shù);2011年5月,全球著名咨詢機構(gòu)麥肯錫公司發(fā)布題為“大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿”的報告,明確提出應(yīng)對大數(shù)據(jù)快速發(fā)展的策略,是第一份系統(tǒng)闡述大數(shù)據(jù)的專題研究成果;2011、2012年,中國舉辦了第一屆、第二屆“大數(shù)據(jù)世界論壇”,邀請了微軟、甲骨文、因特爾等國際資深專家,覆蓋金融、電信、能源等各個領(lǐng)域,共同探討大數(shù)據(jù)前沿技術(shù)與發(fā)展態(tài)勢,以應(yīng)對持續(xù)增長的海量數(shù)據(jù);2012年1月達沃斯世界經(jīng)濟論壇把大數(shù)據(jù)作為主題之一,探討如何挖掘大數(shù)據(jù)的商業(yè)價值,為企業(yè)帶來更好的社會效益;2012年3月,美國奧巴馬政府耗資2億美元研究“大數(shù)據(jù)研究和發(fā)展計劃”,引導(dǎo)工業(yè)界、學(xué)術(shù)界和非營利機構(gòu)改進和提高訪問、收集、組織大數(shù)據(jù)的技術(shù)和方法。
大數(shù)據(jù)已經(jīng)成為一種戰(zhàn)略資源,具有廣闊的應(yīng)用前景。為了有效地管理大型復(fù)雜的數(shù)據(jù)和高效提取有價值的知識,還需要進一步把握大數(shù)據(jù)特性,選擇合理的處理方式。
一、大數(shù)據(jù)的基本概念和特征
(一)大數(shù)據(jù)的基本概念。大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)后的又一全球熱點問題,因其潛在的巨大價值而受到各界的廣泛關(guān)注。大數(shù)據(jù)從2009年開始流行于互聯(lián)網(wǎng),專家們從不同角度定義了大數(shù)據(jù),由于大數(shù)據(jù)本身具有較強的抽象性,目前還沒有一個統(tǒng)一公認的定義。
在早期,著名的Apache的開源項目Nutch用大數(shù)據(jù)描述用于批處理或分析的大規(guī)模數(shù)據(jù)集。大數(shù)據(jù)研究機構(gòu)Gartner將大數(shù)據(jù)定義為一種具大規(guī)模、多樣性和高增長特性的信息資產(chǎn),其結(jié)構(gòu)與現(xiàn)有的數(shù)據(jù)庫處理系統(tǒng)不兼容,需新的并行數(shù)據(jù)處理平臺或技術(shù)從大數(shù)據(jù)中提取潛在有價值的決策、優(yōu)化信息?!吨婆_》團隊認為,大數(shù)據(jù)是各種機構(gòu)或組織在生成或交互過程中產(chǎn)生的大規(guī)模半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),需要比關(guān)系型數(shù)據(jù)庫有更強的數(shù)據(jù)存儲和計算能力。全球排名第一的企業(yè)數(shù)據(jù)集成軟件商Informatica認為大數(shù)據(jù)包括海量數(shù)據(jù)和復(fù)雜數(shù)據(jù)類型,其規(guī)模超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)進行管理和處理的能力。著名的存儲解決方案公司NetApp定義大數(shù)據(jù)包含分析、帶寬和內(nèi)容三要素,側(cè)重于大數(shù)據(jù)的實時分析、高速處理和高可擴展性。維基百科則認為大數(shù)據(jù)是超過當(dāng)前現(xiàn)有的數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)庫管理工具處理能力,處理時間超過客戶能容忍時間的大規(guī)模復(fù)雜數(shù)據(jù)集。
大數(shù)據(jù)概念上雖然與“海量數(shù)據(jù)”和“大規(guī)模數(shù)據(jù)”相似,但仍存在重要的差別。在內(nèi)涵方面,它不僅包含了“海量數(shù)據(jù)”和“大規(guī)模數(shù)據(jù)”,而且還包括了更為復(fù)雜的數(shù)據(jù)類型;在數(shù)據(jù)處理方面,數(shù)據(jù)處理的響應(yīng)速度由傳統(tǒng)的周、天、小時降為分、秒的時間處理周期,需要借助云計算、物聯(lián)網(wǎng)技術(shù)降低成本,提高處理大數(shù)據(jù)的效率。
(二)大數(shù)據(jù)的基本特征。大數(shù)據(jù)通常是指數(shù)據(jù)規(guī)模大于10TB以上的數(shù)據(jù)集。其特征是具有典型的“4V”(Volume、Variety、Velocity、Value),即規(guī)模性、多樣性、高速性和價值性。
1.規(guī)模性。隨著信息化技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長。社交網(wǎng)絡(luò)(微博、Twitter、Facebook)、移動網(wǎng)絡(luò)、各種智能終端等,都成為數(shù)據(jù)的來源。淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;Facebook約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB;Google每天通過云計算平臺處理的數(shù)據(jù)超13.4PB。迫切需要智能的算法、強大的數(shù)據(jù)處理平臺和新的數(shù)據(jù)處理技術(shù),來統(tǒng)計、分析、預(yù)測和實時處理如此大規(guī)模的數(shù)據(jù)。
2.多樣性。由于數(shù)據(jù)來源于不同的應(yīng)用系統(tǒng)和不同的設(shè)備,決定了大數(shù)據(jù)形式的多樣性。大體可以分為三類:一是結(jié)構(gòu)化數(shù)據(jù),如財務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點是數(shù)據(jù)間因果關(guān)系強;二是非結(jié)構(gòu)化的數(shù)據(jù),如視頻、圖片、音頻等,其特點是數(shù)據(jù)間沒有因果關(guān)系;三是半結(jié)構(gòu)化數(shù)據(jù),如HTML文檔、郵件、網(wǎng)頁等,其特點是數(shù)據(jù)間的因果關(guān)系弱。
3.高速性。大數(shù)據(jù)與海量數(shù)據(jù)的重要區(qū)別在兩方面:一方面,大數(shù)據(jù)的數(shù)據(jù)規(guī)模更大;另一方面,大數(shù)據(jù)對處理數(shù)據(jù)的響應(yīng)速度有更嚴格的要求。實時分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見效,幾乎無延遲。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。
4.價值性。大數(shù)據(jù)中有價值的數(shù)據(jù)所占比例很小,大數(shù)據(jù)的價值性體現(xiàn)在從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預(yù)測分析有價值的數(shù)據(jù),并通過機器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,運用于農(nóng)業(yè)、金融、醫(yī)療等各個領(lǐng)域,以創(chuàng)造更大的價值。
二、大數(shù)據(jù)的關(guān)鍵技術(shù)
(一)存儲技術(shù)。隨著Internet技術(shù)的迅猛發(fā)展,各個領(lǐng)域數(shù)據(jù)急劇增加,目前已達到PB級海量數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)已經(jīng)不適應(yīng)存儲數(shù)量巨大、形式多樣的數(shù)據(jù),迫切需要新的技術(shù)應(yīng)對規(guī)模急速增長、結(jié)構(gòu)復(fù)雜多樣的數(shù)據(jù)存儲。為滿足大容量存儲,需構(gòu)建分布式存儲系統(tǒng),如當(dāng)前流行的hadoop海量分布式平臺,當(dāng)數(shù)據(jù)量增加時,通過增加存儲節(jié)點來保持數(shù)據(jù)分布的平衡,保持系統(tǒng)的易擴展性;為存儲結(jié)構(gòu)復(fù)雜多樣的數(shù)據(jù),應(yīng)摒棄當(dāng)前只針對結(jié)構(gòu)化數(shù)據(jù)的存儲方案,根據(jù)不同格式數(shù)據(jù)選取不同的存儲策略。對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)可依次采用類似shared-nothing分布式并行數(shù)據(jù)庫系統(tǒng)、面向文檔的分布式存儲系統(tǒng)、面向文件的分布式存儲系統(tǒng),以兼具多種數(shù)據(jù)格式,快速應(yīng)對海量數(shù)據(jù)統(tǒng)計、查詢和更新操作。
(二)機器學(xué)習(xí)技術(shù)。從數(shù)量巨大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)中挖掘出有用的知識和規(guī)律,人工操作已無能為力,必須利用機器學(xué)習(xí)技術(shù),更深層次智能分析數(shù)據(jù),更高效獲取數(shù)據(jù)中隱藏的有效知識。隨著大數(shù)據(jù)時代的到來,文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)等不斷涌現(xiàn),用于處理大數(shù)據(jù)的機器學(xué)習(xí)新技術(shù)被提出并受到廣泛關(guān)注。傳統(tǒng)的機器學(xué)習(xí)方法如支持向量機、決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)等,因泛化能力有限,已經(jīng)不適應(yīng)大規(guī)模網(wǎng)絡(luò)的快速分析。能同時利用有標(biāo)記樣本和無標(biāo)記樣本的半監(jiān)督學(xué)習(xí)技術(shù)、整合多個具有差異性學(xué)習(xí)器的集成學(xué)習(xí)技術(shù)、充分積累歷史學(xué)習(xí)結(jié)果的增量學(xué)習(xí)技術(shù),憑借其對高維采集、查詢和存儲方面的優(yōu)勢,已被引入到處理大數(shù)據(jù)的并行技術(shù)中,為大數(shù)據(jù)的研究提供了新的思路。
(三)高性能計算技術(shù)。大數(shù)據(jù)的出現(xiàn)對計算能力的要求越來越高,大容量數(shù)據(jù)中心維護,并發(fā)任務(wù)的訪問,高速的傳輸率和各設(shè)備間的負載均衡都需要高性能技術(shù)的支持,具體來說,在計算成本方面,需采用價格低廉的分布式計算節(jié)點,通過大量廉價節(jié)點進行并行計算,降低傳統(tǒng)計算方式的成本;在計算實時性方面,引入各種高效機器學(xué)習(xí)算法,同時借助軟硬件協(xié)同的優(yōu)勢,根據(jù)客戶的計算任務(wù),快速創(chuàng)建數(shù)據(jù)、分析數(shù)據(jù)、計算數(shù)據(jù),并給用戶提供毫秒級的體驗;在數(shù)據(jù)格式方面,對各種不同的數(shù)據(jù)要采用不同的格式處理方法,計算難度和開銷增大,各種數(shù)據(jù)平臺的兼容和軟硬件平臺的協(xié)同是提高高性能技術(shù)的關(guān)鍵之一。
(四)統(tǒng)一描述技術(shù)。由于大數(shù)據(jù)的數(shù)據(jù)源異構(gòu)、地理位置分散、表現(xiàn)形式多樣,這使得數(shù)據(jù)間存在不一致性問題。對大數(shù)據(jù)進行處理的第一步是對不同格式的數(shù)據(jù)進行統(tǒng)一描述,數(shù)據(jù)的統(tǒng)一描述有兩方面的優(yōu)勢:一是提供統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),簡化系統(tǒng)的處理復(fù)雜度;二是減少系統(tǒng)上層應(yīng)用程序處理數(shù)據(jù)的開銷。RDF(Resource Description Framework)即資源描述框架在描述資源的一致性方面具有通用性、智能性等特點,但其建模語言不豐富,邏輯推理能力有限,還需要一個具體的語法體系對其進行擴展。為應(yīng)對大數(shù)據(jù),基于本體的數(shù)據(jù)描述成為研究熱點,主要集中在對數(shù)據(jù)描述的模型一致性、邏輯一致性和關(guān)系一致性方面。目前的研究只是在小規(guī)模的數(shù)據(jù)集上得到驗證,還未有成功統(tǒng)一描述PB級及以上數(shù)據(jù)的案例。因此,研究基于RDF的數(shù)據(jù)描述框架,構(gòu)建本體元數(shù)據(jù)模型,并對其進行有效地分層描述,解決格式各異的數(shù)據(jù)的統(tǒng)一描述問題,對大數(shù)據(jù)的預(yù)處理十分關(guān)鍵。
(五)可視化技術(shù)。數(shù)據(jù)可視化是把數(shù)據(jù)轉(zhuǎn)換圖形的過程。通過可視化技術(shù),大數(shù)據(jù)可以以圖形圖像、曲線甚至動畫的方式直觀展現(xiàn),使研究者觀察和分析傳統(tǒng)方法難以總結(jié)的規(guī)律??梢暬夹g(shù)主要可以分為圖形技術(shù)、幾何技術(shù)、圖標(biāo)技術(shù)、分層技術(shù)等。無論哪種可視化技術(shù),都需與扭曲和交互技術(shù)相協(xié)同。針對海量、異構(gòu)的大數(shù)據(jù),目前數(shù)據(jù)可視化研究的熱點包括:其一,層次可視化。Inxight公司成功將Hyperbolic tree層次數(shù)據(jù)處理技術(shù)用于解決focus+context平滑過渡難題,并廣泛運用于圖書分類和目錄結(jié)構(gòu)的應(yīng)用。其二,多維可視化。研究中心Xcrox Palo Alto提出多維可視化結(jié)構(gòu)table lens,由于其對大型數(shù)據(jù)有很好的適應(yīng)能力,已使用到相關(guān)的產(chǎn)品中。其三,文檔可視化。面對紛繁復(fù)雜的文檔、電子郵件等數(shù)據(jù),西太平洋國家實驗室提出SPIRE可視化技術(shù),能高效地確定大型文檔中文件間的關(guān)系,對數(shù)據(jù)挖掘有極大的推動作用。其四,web可視化。隨著Internet的發(fā)展,web數(shù)據(jù)持續(xù)膨脹,Chi等人成功地把7000多個節(jié)點連接成一棵樹形,運用網(wǎng)站可視化變換技術(shù),實時展現(xiàn)網(wǎng)站內(nèi)容和訪問量的變化情況??梢暬夹g(shù)的研究和發(fā)展,是實現(xiàn)大數(shù)據(jù)可視化的關(guān)鍵。
三、大數(shù)據(jù)的發(fā)展趨勢
(一)大數(shù)據(jù)與云計算。為解決互聯(lián)網(wǎng)應(yīng)用對大規(guī)模計算能力、數(shù)據(jù)存儲能力的迫切需求,云計算的概念被提出。云計算是一種分布式計算平臺,通過虛擬技術(shù)將海量的硬件資源和虛擬資源虛擬成虛擬資源池,并根據(jù)需求任務(wù)的大小,向虛擬資源池獲取相應(yīng)的計算和存儲資源。在大數(shù)據(jù)處理的需求下,出現(xiàn)了許多優(yōu)秀的云計算平臺,例如Apache開源的Hadoop、 Google的MapReduce、微軟的Dryad等。在處理格式多樣的大數(shù)據(jù)時,云計算能協(xié)調(diào)組織眾節(jié)點,提供廉價的資源和服務(wù),具有較可靠的可擴展性和容錯性。然而,對于大規(guī)模復(fù)雜的應(yīng)用系統(tǒng)來說,云計算還有諸多的技術(shù)問題有待深入研究。為應(yīng)對數(shù)據(jù)密集型服務(wù),云計算提供分布式并行編程技術(shù)、分布式并行數(shù)據(jù)庫技術(shù),可通過開源的編程接口和工具來調(diào)用服務(wù),其優(yōu)勢是能高效處理結(jié)構(gòu)簡單的大數(shù)據(jù),但對關(guān)系復(fù)雜的大數(shù)據(jù)的處理,在效率和準(zhǔn)確率方面還不能令人滿意。
大數(shù)據(jù)技術(shù)的目標(biāo)是解決應(yīng)用中多源、異構(gòu)、海量數(shù)據(jù)的管理和使用問題,但其本身不具備處理大規(guī)模數(shù)據(jù)的存儲資源和計算資源的能力,因此必須在已有成熟的技術(shù)基礎(chǔ)上,引入新的與之相對應(yīng)的大數(shù)據(jù)存儲和計算平臺。云計算以數(shù)據(jù)為中心,對大數(shù)據(jù)集進行處理,并向用戶返回高效服務(wù),具有并行化、虛擬化、按需服務(wù)等特點。從數(shù)據(jù)管理角度來說,大數(shù)據(jù)技術(shù)是對數(shù)據(jù)組織結(jié)構(gòu)的描述,研究重點是數(shù)據(jù)的查詢、更新、索引等操作技術(shù);而云計算則是一種分而治之,按需索取的大數(shù)據(jù)分布式服務(wù)模式。這兩個概念提出的背景都是為滿足海量異構(gòu)數(shù)據(jù)的組織和管理要求。從相互之間的影響來看,前者為后者提供了廣闊的應(yīng)用背景,后者為前者數(shù)據(jù)管理提供了存儲和計算資源,兩者相互促進,相互依存。
(二)大數(shù)據(jù)與物聯(lián)網(wǎng)。隨著智能交通、智能家居、智能物流、智慧景區(qū)等應(yīng)用的興起,物聯(lián)網(wǎng)已成為未來經(jīng)濟的新增長點。美國、德國、英國、意大利和丹麥等國家爭先推出物聯(lián)網(wǎng)相關(guān)發(fā)展策略,使物聯(lián)網(wǎng)規(guī)模不斷擴大。互聯(lián)網(wǎng)到物聯(lián)網(wǎng)的跨越,極大地推動了大數(shù)據(jù)的發(fā)展。物聯(lián)網(wǎng)是指把所有物品通過信息傳感設(shè)備與互聯(lián)網(wǎng)連接起來,實現(xiàn)智能化識別和管理。它從結(jié)構(gòu)上分為四層,即實體層、感知層、網(wǎng)絡(luò)層和應(yīng)用層。其每層都與數(shù)據(jù)的產(chǎn)生或者處理息息相關(guān)。大數(shù)據(jù)與物聯(lián)網(wǎng)的結(jié)合是機遇與挑戰(zhàn)并存。
首先,產(chǎn)生數(shù)據(jù)的平臺多樣化。從原來的個人電腦擴展為傳感器、智能手機、各種業(yè)務(wù)系統(tǒng)、平板電腦、監(jiān)控錄像等,這使得感知層需要感知的數(shù)據(jù)呈現(xiàn)多樣化。目前主流的感知技術(shù)有視頻文字采集技術(shù)、紅外線技術(shù)、傳感器技術(shù)和藍牙技術(shù)等,但隨著感知的數(shù)據(jù)數(shù)量級的不斷增加,相應(yīng)的感知技術(shù)也要不斷地改進和完善。其次,物聯(lián)網(wǎng)技術(shù)的局限性。事物的發(fā)展需要一個過程,處于發(fā)展初始階段的物聯(lián)網(wǎng)還受到一些技術(shù)的約束。在大數(shù)據(jù)的傳輸和處理方面,物聯(lián)網(wǎng)技術(shù)還存在通信距離短、外部環(huán)境適應(yīng)力不強、異構(gòu)網(wǎng)絡(luò)兼容性差等問題。傳感器鏈接的距離范圍是100米到1000米,不適合長距離的通信;當(dāng)外部的環(huán)境發(fā)生變化,傳感器的穩(wěn)定性能大幅度下降,對具有高性能計算存儲系統(tǒng)的安全帶來風(fēng)險;物聯(lián)網(wǎng)的標(biāo)準(zhǔn)是建立在廣電網(wǎng)、通信網(wǎng)和互聯(lián)網(wǎng)等異構(gòu)網(wǎng)的基礎(chǔ)之上,還沒有統(tǒng)一完善的標(biāo)準(zhǔn)體系。
(三)大數(shù)據(jù)與數(shù)據(jù)空間。大數(shù)據(jù)來自不同組織,它的跨域、分布、異構(gòu)性以及海量的特點給傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)帶來巨大挑戰(zhàn),目前,管理著世界上最大數(shù)據(jù)的谷歌、雅虎和微軟等公司,都不使用傳統(tǒng)的數(shù)據(jù)管理系統(tǒng),而是另辟蹊徑去尋找可以滿足大數(shù)據(jù)管理需要的技術(shù)。M.Franklin等人提出了數(shù)據(jù)空間的概念。數(shù)據(jù)空間是M.Franklin等人為應(yīng)對信息量不斷增長以及數(shù)據(jù)信息管理需求而引入的一種信息管理新概念。
目前關(guān)于數(shù)據(jù)空間技術(shù)的研究主要集中在個人數(shù)據(jù)空間方面,并取得了一定成果。國外的研究工作主要以iMeMex和SEMEx兩個個人數(shù)據(jù)管理系統(tǒng)為代表。iMeMex由瑞士聯(lián)邦理工學(xué)院開發(fā),它推動了信息抽取和查詢技術(shù)的進步,但缺點是不支持語義查詢;SEMEx由華盛頓大學(xué)開發(fā),成功把語義關(guān)聯(lián)應(yīng)用到實例中來高效提取信息。同時,麻省理工學(xué)院計算機科學(xué)系的David R.Karger等人研發(fā)了個人數(shù)據(jù)管理系統(tǒng)Haystaek,該系統(tǒng)采用了URF(Uniform Resource Identifier)半結(jié)構(gòu)化數(shù)據(jù)模型統(tǒng)一表示用戶數(shù)據(jù),體現(xiàn)了數(shù)據(jù)空間“pay as you go”的數(shù)據(jù)集成思想。美國華盛頓大學(xué)數(shù)據(jù)庫研究組的sharedviews項目實現(xiàn)了名為Homeview的原型系統(tǒng),該系統(tǒng)能夠支持個人動態(tài)數(shù)據(jù)的共享,但數(shù)據(jù)的類型和共享方式有限。
在國內(nèi),數(shù)據(jù)空間技術(shù)已經(jīng)開始受到廣泛關(guān)注。中國人民大學(xué)孟小峰教授等人對數(shù)據(jù)空間的概念、實現(xiàn)數(shù)據(jù)空間支撐平臺所需的關(guān)鍵技術(shù)進行了詳細的闡述與分析,并帶領(lǐng)中國人民大學(xué)網(wǎng)絡(luò)與移動數(shù)據(jù)管理實驗室研究團隊研發(fā)了具代表性的個人數(shù)據(jù)空間原型系統(tǒng)orientsPac。在綜合考慮數(shù)據(jù)的模型、組織形式和分類方法基礎(chǔ)上,提出了與數(shù)據(jù)相關(guān)的eorespaee模型和與任務(wù)相關(guān)的TaskSPace模型,但該系統(tǒng)的不足之處是用戶不能自己定義關(guān)聯(lián)。
綜上所述,以物聯(lián)網(wǎng)、云計算技術(shù)作為數(shù)據(jù)收集、數(shù)據(jù)管理手段,用數(shù)據(jù)空間技術(shù)來組織大數(shù)據(jù),實現(xiàn)多層次、多粒度的大數(shù)據(jù)挖掘,是處理大規(guī)模數(shù)據(jù)行之有效的途徑,也符合大數(shù)據(jù)管理和服務(wù)的需求。
【參考文獻】
[1]孟小峰,慈祥.大數(shù)據(jù)的管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(1)
[2]王濤,余順爭.基于機器學(xué)習(xí)的網(wǎng)絡(luò)流量分類研究進展[J].小型微型計算機系統(tǒng),2012(5)
[3]袁平鵬,劉譜,張文婭,等.高可擴展的RDF數(shù)據(jù)存儲系統(tǒng)[J].計算機研究與發(fā)展,2012(10)
[4]孫揚,封孝生,唐九陽.多維可視化技術(shù)綜述[J].計算機科學(xué),2008(11)
[5]王鵬.走進云計算[M].北京:人民郵電出版社,2009.
[6]寧煥生,徐群玉.全球物聯(lián)網(wǎng)發(fā)展及中國物聯(lián)網(wǎng)建設(shè)若干思考[J].電子學(xué)報,2010(11)
[7]A.Halevy,M.Franklin,and .Maier.Principles of Dataspace System. The Twenty-Fifth ACM SIGACT- SIGMOD-SIGART Symposium on Principles of Database Systems, Illinois,ACM,2006:1-9
[8]JP. Dittrich. A Platform for Personal Dataspace Management. SIGIR PIM Workshop.Personal Informat ion Management - A SIGIR 2006 Workshop.Seattle, CM.2006:40-43
[9]L.Blunschi.JP. Dittrich,OR. Guard. The iMeMex personal data space management system. Third Biennial Conference on Innovative Data Systems Research. Asilomar, ACM.2007:114-119
[10]Karger DR,Bakshi K,Huynh D,et al. A customizable general- purpose information management tool for end users of semistructured data. 2nd Biennial Conference on Innovative Data Systems Research. Asilomar ,ACM.2005:13-27
[11] Roxana G, Magdalena B, et al. Home views: peer-to-peer middle ware for personal data sharing applications.26th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. Beijing,ACM. 2007:235-246
[12] OrientSpace[EB/OL].(2013-03-05)[2013-03-05].http://idke.ruc.edu.cn/
OrientSpace
(責(zé)編 黎 原)