魏翠紅
摘 要:文章介紹了大數(shù)據(jù)及大數(shù)據(jù)共享的含義,詳細介紹了實現(xiàn)大數(shù)據(jù)共享的硬件及軟件條件。在硬件方面著重介紹了大數(shù)據(jù)中心的模塊建設(shè)方式,在軟件方面比較系統(tǒng)地介紹了大數(shù)據(jù)共享的相關(guān)技術(shù)手段等,對大數(shù)據(jù)相關(guān)立法和政策進行了討論和展望,文章緊貼當下大數(shù)據(jù)的發(fā)展,在此基礎(chǔ)上積極探索目前還尚未成熟的大數(shù)據(jù)共享領(lǐng)域。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)共享;平臺
1 大數(shù)據(jù)共享的含義
1.1 大數(shù)據(jù)共享介紹
大數(shù)據(jù)共享,是讓不同地方使用不同計算機、不同軟件的用戶,即不同終端,按照一定的規(guī)定和安全共享機制,通過網(wǎng)絡(luò)(局域網(wǎng)或互聯(lián)網(wǎng))等讀取他人共享的數(shù)據(jù)并進行各種操作、運算、分析和管理的行為。從廣義上理解,大數(shù)據(jù)共享在內(nèi)容上不僅包含了海量數(shù)據(jù)的共享,還涉及到大數(shù)據(jù)軟件程序、大數(shù)據(jù)科學和工程系統(tǒng)及大數(shù)據(jù)的應用實踐等內(nèi)容。數(shù)據(jù)開放利用程度越高,信息知識作為生產(chǎn)要素就會越高。
1.2 大數(shù)據(jù)共享的意義
大數(shù)據(jù)共享,涉及大數(shù)據(jù)技術(shù)及大數(shù)據(jù)應用,在實際應用上大數(shù)據(jù)共享具體體現(xiàn)在海量數(shù)據(jù)的共享、大數(shù)據(jù)平臺的共享、大數(shù)據(jù)技術(shù)的共享和大數(shù)據(jù)應用共享。大數(shù)據(jù)共享的特點,也更合理地體現(xiàn)了大數(shù)據(jù)自身的重要價值。大數(shù)據(jù)共享使得不同層次、不同部門信息系統(tǒng)更加合理地進行資源配置、節(jié)約社會成本、創(chuàng)造更多價值,不僅能提高信息資源利用率,避免在信息采集、存貯和管理上的重復浪費,有利于更合理安排物力和財力,發(fā)揮人的更大價值。從發(fā)展上看,工信部電信研究院政經(jīng)所馬志剛認為數(shù)據(jù)開放與共享是提高社會生產(chǎn)力的重要前提,這里所探討的大數(shù)據(jù)共享也更清晰地把數(shù)據(jù)共享這項發(fā)展性的工作落到實處。
2 大數(shù)據(jù)共享的軟實力建設(shè)
大數(shù)據(jù)共享軟實力包含大數(shù)據(jù)共享平臺架構(gòu)之Hadoop技術(shù)、流計算、數(shù)據(jù)倉庫、信息整合、大數(shù)據(jù)搜索引擎、大數(shù)據(jù)可視化、大數(shù)據(jù)應用程序開發(fā)、管理系統(tǒng)和共享安全機制等。
2.1 大數(shù)據(jù)共享平臺架構(gòu)之Hadoop技術(shù)
Hadoop是Apache基金會開發(fā)的一個開源分布式系統(tǒng)基礎(chǔ)架構(gòu)項目, Hadoop主要核心由HDFS、MapReduce組成,包含HBase和Hive等經(jīng)典子項目。Hadoop底部利用分布式存儲系統(tǒng)(HDFS)將文件分布式存儲到硬盤,上部MapReduce將大的數(shù)據(jù)分成小塊逐個分析,再提取出數(shù)據(jù)匯總分析,編寫簡單的需求命令獲得所需數(shù)據(jù)內(nèi)容。
2.2 流計算
流計算面對的是存貯在硬盤、內(nèi)存或者其他地方的已存數(shù)據(jù)。流計算是指數(shù)據(jù)和控制在一個分布式網(wǎng)絡(luò)中以某種流的形式傳遞,網(wǎng)絡(luò)中的節(jié)點對流進行處理和分發(fā),同時這些流往往具有高實時和高流量的特點,再形象化一點描述就是在數(shù)據(jù)產(chǎn)生并流入系統(tǒng)時就進行處理并馬上得出結(jié)果。因而區(qū)別于以往基于RPC和RMI的分布式系統(tǒng),也區(qū)別于Hadoop的相對靜態(tài)的處理系統(tǒng)。流計算面對的是沒有存儲下來的實時的網(wǎng)路數(shù)據(jù)流,計算意義在于對數(shù)據(jù)挖掘處理后選取可以提取有價值的信息存儲下來,不會對原始數(shù)據(jù)進行存儲,并且數(shù)據(jù)流的價值隨時間流逝而降低。基于實時數(shù)據(jù)的流處理是大數(shù)據(jù)發(fā)展到現(xiàn)在已經(jīng)相對成熟的技術(shù)。
2.3 數(shù)據(jù)倉庫
有關(guān)大數(shù)據(jù)的共享,必須依賴一定硬件條件,這里引入數(shù)據(jù)倉庫的概念,數(shù)據(jù)倉庫是一個集成的、面向主題的、隨時間變化、非易失的數(shù)據(jù)集合。數(shù)據(jù)倉庫區(qū)別于數(shù)據(jù)庫,數(shù)據(jù)倉庫相當于一個環(huán)境,為用戶提供用于決策支持的非結(jié)構(gòu)化和半結(jié)構(gòu)化的當前或歷史數(shù)據(jù)(傳統(tǒng)的操作型數(shù)據(jù)庫中很難或無法得到)組成數(shù)據(jù)倉庫系統(tǒng)的要素簡單概括為數(shù)據(jù)倉庫式數(shù)據(jù)庫、數(shù)據(jù)載入工具、數(shù)據(jù)抽取工具、信息發(fā)布系統(tǒng)、操作型數(shù)據(jù)、外界數(shù)據(jù)、訪問工具、數(shù)據(jù)集市、操縱平臺、元數(shù)據(jù)及管理平臺。
2.4 信息整合
信息整合,是指通過邏輯或者物理的方式把某一范圍內(nèi)多元的、異構(gòu)的、離散的、分布的信息資源,組為一個整體,使其有利于管理、利用和服務。信息整合包含三種方式,分別是數(shù)據(jù)整合、過程整合及內(nèi)容整合。內(nèi)容整合通過建立一個內(nèi)容管理平臺,進而對圖片、多媒體等非結(jié)構(gòu)化信息進行編輯、審核、校驗以及分類管理,這樣就可以控制信息發(fā)布和與訪問的權(quán)限。數(shù)據(jù)整合將有價值的數(shù)據(jù)傳遞給分析系統(tǒng)或其他應用系統(tǒng),再進行信息加工,集合不同的核心業(yè)務數(shù)據(jù)庫為一個單一的數(shù)據(jù)庫。
2.5 大數(shù)據(jù)搜索引擎
大數(shù)據(jù)搜索引擎基于大數(shù)據(jù)庫,需要具備在大數(shù)據(jù)共享分析中充分發(fā)揮人工智能作用的軟件技術(shù)能力,采用網(wǎng)頁抓取技術(shù)智能地從互聯(lián)網(wǎng)搜集信息,通過對結(jié)構(gòu)化的數(shù)據(jù)、圖表及視頻等非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進行檢索,搜索引擎借助Reduce等工具,將數(shù)據(jù)聚合并采取并行處理,供給用戶,構(gòu)建搜索引擎服務。排序是搜索引擎最關(guān)鍵的技術(shù),排序策略和算法決定了排序效果的優(yōu)劣,其中搜索結(jié)果的排序作用重要,利用關(guān)鍵詞在文檔中出現(xiàn)的頻率和位置以及基于鏈接分析排序等排序。
2.6 大數(shù)據(jù)可視化
大數(shù)據(jù)可視化主要是將收集、存儲的海量數(shù)據(jù)信息通過圖形化等數(shù)據(jù)視覺表現(xiàn)形式進行清晰、有效的信息傳遞,在大數(shù)據(jù)共享中既屬于科學技術(shù)應用,也屬于科學技術(shù)研究,可視化硬件包含圖形工作站及超級可視化計算機。可視化軟件分3層,分別是操作系統(tǒng)層﹑可視化軟件工具開發(fā)層及行業(yè)性可視化軟件應用層。
2.7 大數(shù)據(jù)應用程序開發(fā)
大數(shù)據(jù)應用程序是指添加、查看、修改和刪除數(shù)據(jù)倉庫指定數(shù)據(jù)庫中數(shù)據(jù)的應用程序。大數(shù)據(jù)倉庫應用程序一般包括3個部分:一是為應用程序提供數(shù)據(jù)的數(shù)據(jù)倉庫;二是實現(xiàn)與用戶交互的前臺界面;三是實現(xiàn)具體業(yè)務的軟件。
2.8 大數(shù)據(jù)共享的管理系統(tǒng)
大數(shù)據(jù)共享的管理系統(tǒng)是大數(shù)據(jù)共享系統(tǒng)的關(guān)鍵系統(tǒng)之一。通過大數(shù)據(jù)共享管理系統(tǒng),可以方便管理者實現(xiàn)對共享資源的管理、共享關(guān)系的管理及共享行為的管理。其中,共享資源管理包括6類,分別是共享集群命名管理、共享系統(tǒng)模板管理、共享節(jié)點資源管理、共享應用命名管理、共享應用資源管理、共享用戶狀態(tài)等。
3 結(jié)語
本文主要描述大數(shù)據(jù)共享的平臺軟實力構(gòu)造,從一個系統(tǒng)化角度去闡述大數(shù)據(jù)共享的技術(shù)需求,為大數(shù)據(jù)共享產(chǎn)業(yè)的運作提供了一種建模參考,關(guān)于大數(shù)據(jù)共享的安全保密和法規(guī)政策的研究也會在以后進一步討論,本文為大數(shù)據(jù)共享領(lǐng)域的基礎(chǔ)性發(fā)展拋磚引玉。
[參考文獻]
[1]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應用[J].國防科技,2013(2):18-20.
[2]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):25-40.
[3]宋永剛.大數(shù)據(jù)時代加快出版業(yè)轉(zhuǎn)型升級的思考[J].中國編輯,2013(5):20-22.
[4]張春磊,楊小牛.大數(shù)據(jù)分析(BDA)及其在情報領(lǐng)域的應用[J].中國電子科學研究院學報,2013(1):10-15.
[5]李晨暉,崔建明,陳超泉.大數(shù)據(jù)知識服務平臺構(gòu)建關(guān)鍵技術(shù)研究[J].情報資料工作,2013(2):9-13.
[6]王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011(10):3-15.
Study on Big Data Sharing
Wei Cuihong
(91746 PLA Troops, Beijing 102206, China)
Abstract: This paper analyzes the implement of big data sharing software conditions, actively explore it is not yet mature field of big data sharing, systematically introduces the large data sharing technology, this paper introduces the system, so to speak, science, maneuverability.
Key words: big data; data sharing; platform