張福利
(鞍山師范學(xué)院圖書館,遼寧鞍山114007)
早在2008年,《Nature》就推出了Big Data???在2011年,《Science》推出了“Dealing with Data”,重點(diǎn)研究大數(shù)據(jù)的科學(xué)問題.大數(shù)據(jù)以泛在網(wǎng)絡(luò)(泛在網(wǎng)絡(luò)來源于拉丁語Ubiquitous,指廣泛存在的網(wǎng)絡(luò))為依托,乘風(fēng)破浪,正逐漸走進(jìn)人們的生產(chǎn)和生活,大數(shù)據(jù)時代已經(jīng)來臨.如何正確認(rèn)識大數(shù)據(jù)、如何利用大數(shù)據(jù)為人們的生產(chǎn)和生活提供優(yōu)質(zhì)的服務(wù)是科研工作者面臨的新挑戰(zhàn).
大數(shù)據(jù)的研究正處于起步階段,各國的專家學(xué)者對大數(shù)據(jù)的各個方面的工作正進(jìn)行積極地探索.本文對大數(shù)據(jù)的采集、預(yù)處理、存儲和管理等問題進(jìn)行了相關(guān)研究.
早在1980年,“大數(shù)據(jù)”一詞,出現(xiàn)在著名未來學(xué)家托夫勒所著的《第三次浪潮》,稱頌“大數(shù)據(jù)”為“第三次浪潮的華彩樂章”.今天,大數(shù)據(jù)以其勢不可擋之勢,涌入人們的生產(chǎn)、生活,其概念也在不斷地完善.
從大數(shù)據(jù)特點(diǎn)的角度來看,比較有代表的是3V定義[1],即大數(shù)據(jù)要滿足數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型多樣化(Variety)和數(shù)據(jù)傳輸?shù)母咚傩?velocity).此外,也有4V定義,國際數(shù)據(jù)公司認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價值性(Value)[2].
關(guān)于大數(shù)據(jù)的概念還有不同的定義,比如維基百科對“大數(shù)據(jù)”的解讀是:“大數(shù)據(jù)”(Big Data),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息.百度百科對“大數(shù)據(jù)”的定義為:“大數(shù)據(jù)”(Big Data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊.傳媒專家劉建明教授認(rèn)為:“大數(shù)據(jù)”同信息是不可分離的,是指信息浩大數(shù)量的統(tǒng)計(jì)與技術(shù)運(yùn)作.作為人類認(rèn)知社會方法的一次飛躍,“大數(shù)據(jù)”技術(shù)將給企業(yè)運(yùn)營、政府管理和媒體傳播的科學(xué)化創(chuàng)造有效機(jī)制.
無論是哪種定義都滲透著大數(shù)據(jù)的特點(diǎn),維克托·邁爾·舍恩伯格和肯尼斯·克耶在編寫的《大數(shù)據(jù)時代》中提出:“大數(shù)據(jù)”的4V特點(diǎn):Volume(數(shù)據(jù)量大)、Velocity(輸入和處理速度快)、Variety(數(shù)據(jù)多樣性)、Value(價值密度低).
大數(shù)據(jù)的一個重要方面就是大數(shù)據(jù)的采集,采集是大數(shù)據(jù)期望價值挖掘的基礎(chǔ).隨著移動網(wǎng)絡(luò)、社交網(wǎng)絡(luò)以及傳感網(wǎng)絡(luò)的發(fā)展,大數(shù)據(jù)呈現(xiàn)出極為復(fù)雜的結(jié)構(gòu).?dāng)?shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三者的融合[3].
根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應(yīng)用系統(tǒng)分類,大數(shù)據(jù)的采集主要有四種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)[4].MapReduce的執(zhí)行流程如圖1所示.對于多個異構(gòu)的數(shù)據(jù)集,需要進(jìn)行集成或整合處理,將不同數(shù)據(jù)源收集、整理、清洗、轉(zhuǎn)換后,會生成一個新的數(shù)據(jù)集,供查詢、分析等處理.?dāng)?shù)據(jù)的可用性是大數(shù)據(jù)采集的一個關(guān)鍵方面.一個正確的大數(shù)據(jù)集合至少包含5個性質(zhì):一致性、精確性、完整性、時效性和實(shí)體同一性.在數(shù)據(jù)采集階段,由于數(shù)據(jù)多來源、多模態(tài),大數(shù)據(jù)的采集方法尤為重要.
圖1 MapReduce的執(zhí)行流程
大數(shù)據(jù)預(yù)處理的研究是非常復(fù)雜的,它包含豐富的策略和技術(shù).大數(shù)據(jù)來源的真實(shí)性、準(zhǔn)確性、完整性、時效性等研究,在大數(shù)據(jù)幾個處理階段中是非常關(guān)鍵的第一步.只有保證大數(shù)據(jù)來源的質(zhì)量,才能發(fā)揮大數(shù)據(jù)處理和分析的作用,才能體現(xiàn)大數(shù)據(jù)研究的價值.目前,關(guān)于大數(shù)據(jù)預(yù)處理的研究的關(guān)鍵技術(shù)有:
1.2.1 數(shù)據(jù)源的選擇和高質(zhì)量原始數(shù)據(jù)的采集方法 通常需建立大數(shù)據(jù)源的質(zhì)量評估方法、高質(zhì)量數(shù)據(jù)源的選擇方法、高質(zhì)量多模態(tài)大數(shù)據(jù)的獲取方法.其中現(xiàn)有的獲取方法如下:有效的數(shù)據(jù)采集方法、多模態(tài)數(shù)據(jù)融合算法、數(shù)據(jù)的保質(zhì)轉(zhuǎn)換算法、數(shù)據(jù)精確性和一致性方面的錯誤校驗(yàn)和糾錯、數(shù)據(jù)完整性方面的缺失值處理算法、數(shù)據(jù)的時效性檢驗(yàn)、數(shù)據(jù)的真實(shí)性驗(yàn)證等.
1.2.2 大數(shù)據(jù)的實(shí)體識別和解析方法 通常需要建立大數(shù)據(jù)實(shí)體關(guān)聯(lián)模型、識別模型、多元多模態(tài)數(shù)據(jù)的實(shí)體自動識別方法和實(shí)體識別效果的評估模型等.模型的優(yōu)劣,關(guān)系到大數(shù)據(jù)識別的效果.
1.2.3 大數(shù)據(jù)的清洗和自動修復(fù)方法 對數(shù)據(jù)進(jìn)行有效的清洗,能夠保證數(shù)據(jù)的質(zhì)量.依據(jù)數(shù)據(jù)的約束規(guī)則,在保證數(shù)據(jù)完整性的前提下,清除不合理和錯誤的數(shù)據(jù),修復(fù)重要的數(shù)據(jù),是數(shù)據(jù)清洗的重要目的.通常需要建立數(shù)據(jù)正確語義模型、關(guān)聯(lián)模型和數(shù)據(jù)約束規(guī)則、數(shù)據(jù)錯誤模型和錯誤識別學(xué)習(xí)框架、對數(shù)據(jù)不同錯誤類型的自動檢測及修復(fù)算法、錯誤檢測與修復(fù)結(jié)果的評估模型和評估方法等.
1.2.4 大數(shù)據(jù)整合方法 大數(shù)據(jù)高質(zhì)量是數(shù)據(jù)處理過程中非常重要的研究方面,整合大數(shù)據(jù)需要整合高質(zhì)量的數(shù)據(jù).這個過程通常需要建立多源多模態(tài)信息集成模型、異構(gòu)數(shù)據(jù)智能轉(zhuǎn)換模型、異構(gòu)數(shù)據(jù)集成的智能模式抽取和模式匹配算法、自動的容錯映射和轉(zhuǎn)換模型及算法、整合信息的正確性驗(yàn)證方法、整合信息的可用性評估方法等.
1.2.5 數(shù)據(jù)演化的溯源管理 建立世系模型及其追蹤技術(shù)來跟蹤和記錄數(shù)據(jù)演化過程,確保數(shù)據(jù)的質(zhì)量.
大數(shù)據(jù)時代的數(shù)據(jù)呈現(xiàn)出多樣化,不僅有結(jié)構(gòu)化數(shù)據(jù),還存在半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),而且隨著社交網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)越來越多.大數(shù)據(jù)的存儲重點(diǎn)就是把采集到的不同結(jié)構(gòu)的數(shù)據(jù)經(jīng)過預(yù)處理,提高數(shù)據(jù)質(zhì)量,將其存儲起來,并建立相應(yīng)的數(shù)據(jù)庫來進(jìn)行管理.
大數(shù)據(jù)的管理、查詢及分析方面對存儲技術(shù)提出了更高的要求,數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、存儲標(biāo)準(zhǔn)都將發(fā)生革命性的改變.適合大數(shù)據(jù)存儲與管理的技術(shù)有存儲海量非結(jié)構(gòu)化數(shù)據(jù)的分布式文件系統(tǒng)、存儲海量無模式的半結(jié)構(gòu)化數(shù)據(jù)的分布式數(shù)據(jù)庫和存儲海量結(jié)構(gòu)化數(shù)據(jù)的分布式并行數(shù)據(jù)庫系統(tǒng)[4].
分布式文件系統(tǒng),主流的有HDFS和GFS.HDFS具有很強(qiáng)的可擴(kuò)展性,很高的容錯性,是模仿GFS的開源實(shí)現(xiàn).GFS是Google自行開發(fā)的文件系統(tǒng),是一個能夠應(yīng)用在大量廉價服務(wù)器上的可擴(kuò)展的分布式文件系統(tǒng).但是,GFS存在單點(diǎn)故障,Google又研發(fā)了Colosuss系統(tǒng),解決了GFS的單點(diǎn)故障的瓶頸問題以及實(shí)現(xiàn)了海量小文件的存儲.Tachyon是建立在內(nèi)存基礎(chǔ)上的分布式大數(shù)據(jù)文件系統(tǒng)數(shù)據(jù)庫系統(tǒng)包括事務(wù)性數(shù)據(jù)庫和分析型數(shù)據(jù)庫.事務(wù)性數(shù)據(jù)庫主要包括NoSQL和NewSQL.根據(jù)管理數(shù)據(jù)的模式分類,NoSQL系統(tǒng)可以分為3類:鍵值系統(tǒng)、文檔存儲系統(tǒng)以及圖數(shù)據(jù)庫.鍵值系統(tǒng)的代表性系統(tǒng)包括BigTable,Dynamo,HBase,Gemfire,Redis,Cassandra;文檔存儲系統(tǒng)的代表包括 MongoDB 和 Couchbase;圖數(shù)據(jù)庫的代表是Neo4j,等等.NewSQL代表的有Spanner、NuoDB、SQLFile和VoltDB.分析型數(shù)據(jù)庫代表的有 Hive、HAWQ、Impala 和 Hadapt.
上述數(shù)據(jù)存儲技術(shù)還存在一些局限性,只能針對某一類型的數(shù)據(jù)進(jìn)行存儲,大數(shù)據(jù)類型復(fù)雜,往往是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)共存,大數(shù)據(jù)的存儲需要實(shí)現(xiàn)各種類型的數(shù)據(jù)統(tǒng)一的存儲,這樣,云存儲成為大數(shù)據(jù)存儲的歸宿.云存儲系統(tǒng)可分為4種類型:基于塊存儲、基于文件存儲、基于對象存儲以及基于表存儲.云存儲的簡易架構(gòu)如圖2所示.其中,存儲節(jié)點(diǎn)負(fù)責(zé)存放文件,控制節(jié)點(diǎn)則是作為文件索引,并負(fù)責(zé)監(jiān)控存儲節(jié)點(diǎn)間容量及負(fù)載的均衡,這兩個部分合起來便組成一個簡單的云存儲框架.國內(nèi)尚未有大數(shù)據(jù)存儲的管理服務(wù),研究適合大數(shù)據(jù)存儲框架以及研究適應(yīng)數(shù)據(jù)分布的存儲結(jié)構(gòu)優(yōu)化方法,對提高大數(shù)據(jù)存儲和管理具有非常重要的意義.
圖2 簡單的云存儲框架
有效的存儲和索引技術(shù)能夠大幅提高數(shù)據(jù)管理效率.多維索引包括:R-tree、M-tree、SR-tree.關(guān)于不確定性的大數(shù)據(jù)的查詢研究,越來越多地得到重視.不確定性對象的概率查詢包括:范圍查詢、最近鄰查詢、反向最近鄰查詢、排序查詢、天際線查詢、反向天際線查詢和相似連接等.反向最近鄰查詢通常用在游戲里,比如只能射擊最近的人,再有就是用于海洋援救.最近鄰查詢可以在傳感網(wǎng)絡(luò)和RFID中得到很好的應(yīng)用.
大數(shù)據(jù)采集與預(yù)處理工作中,由于大數(shù)據(jù)的數(shù)據(jù)規(guī)模大、數(shù)據(jù)產(chǎn)生快、數(shù)據(jù)類型復(fù)雜、價值密度低的特點(diǎn),給大數(shù)據(jù)采集與預(yù)處理工作帶來了巨大的挑戰(zhàn).雖然對于數(shù)據(jù)的可用性、完整性、不確定性等方面的研究已經(jīng)取得了一些成果,但是,大數(shù)據(jù)的研究還是處于起步階段,數(shù)據(jù)的多源化、質(zhì)量的差異化、如何獲取高質(zhì)量的大數(shù)據(jù)、如何整合現(xiàn)有的多源數(shù)據(jù)、如何檢測和修復(fù)數(shù)據(jù)等問題,都是大數(shù)據(jù)亟待解決的問題.
大數(shù)據(jù)存儲與管理的問題主要集中在如下幾個方面:(1)存儲規(guī)模大;(2)存儲管理復(fù)雜,由于結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存;(3)對于數(shù)據(jù)服務(wù)要求更高.對于存儲中問題的解決,要融合高效元數(shù)據(jù)管理技術(shù)、系統(tǒng)彈性擴(kuò)展技術(shù)、負(fù)載均衡技術(shù)等.
科學(xué)地解決大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)存儲與管理等方面的問題,將會加快大數(shù)據(jù)時代的到來,讓大數(shù)據(jù)更好地服務(wù)于人們的生產(chǎn)和生活.
[1]Grobelnik M.Big - data computing:Creating revolutionary breakthroughs in comerce,science,andsociety[R/OL].http://videolectures.net/eswc2012_grobelnik_big_data,2012 -10 -02.
[2]Barwich H.The“four Vs”of Big Data.Implementing Information Infrastructure Sysposum[EB/OL].http://www.computerworld.com.a(chǎn)u/article/396198/iiis_four_vs_big_data.2012 -10 -02.
[3]孟曉峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[4]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報,2013,36(6):125-1137.