• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)技術(shù)在高校中的應(yīng)用研究

      2017-09-28 11:18:54趙楊烽黃海隆朱雨成戴瀟瀟趙延磊
      關(guān)鍵詞:大數(shù)據(jù)

      趙楊烽++黃海隆+朱雨成+戴瀟瀟+趙延磊

      摘要:隨著高校信息化建設(shè)的加速,大數(shù)據(jù)分析應(yīng)用被廣泛提出。本文首先指出了大數(shù)據(jù)的概念及其特點(diǎn),羅列了近期主流大數(shù)據(jù)平臺(tái)工具。針對(duì)不同工具的特點(diǎn),選擇Hadoop構(gòu)建了一個(gè)簡(jiǎn)單的高校大數(shù)據(jù)分析平臺(tái)。

      關(guān)鍵詞:大數(shù)據(jù);Hadoop;HIVE

      中國(guó)分類號(hào):TP37

      1 引言

      近年來,大數(shù)據(jù)在各行各業(yè)中掀起了巨大的風(fēng)波。所有人都在了解大數(shù)據(jù),并思考如何利用大數(shù)據(jù)。隨著互聯(lián)網(wǎng)的普及和校園信息化建設(shè)的深入,每所高校都會(huì)產(chǎn)生海量的數(shù)據(jù)。比如在高校中普遍使用的教務(wù)管理系統(tǒng),每個(gè)學(xué)年都會(huì)產(chǎn)生大量的數(shù)據(jù)。由于數(shù)據(jù)產(chǎn)生太快,為了不影響系統(tǒng)正常的運(yùn)行,現(xiàn)在普遍的做法是按照一定的時(shí)間周期,定期將某時(shí)間段的數(shù)據(jù)進(jìn)行分割備份。然而,備份出來的數(shù)據(jù)基本上只是作為突發(fā)情況的查詢之用,并沒有得到合理的利用。為了充分挖掘數(shù)據(jù)資源,我們引入了大數(shù)據(jù)技術(shù),通過大數(shù)據(jù)分析找到一些有用的信息。

      2 大數(shù)據(jù)概念

      2.1 定義

      大數(shù)據(jù)(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。[1] 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時(shí)代》 中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。

      對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

      2.2 大數(shù)據(jù)特點(diǎn)

      大數(shù)據(jù)的特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)量比較大。一般大數(shù)據(jù)都擁有PB級(jí)別的量。第二,數(shù)據(jù)類型比較多。數(shù)據(jù)類型包括文字、圖片、視頻、各類日志、地理位置信息等等。第三,處理速度快??蓮母鞣N類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。第四,只有在合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析的前提下,才能帶來高價(jià)值的回報(bào)。業(yè)界將其歸納為4個(gè)“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價(jià)值密度低)。[2]

      2.3大數(shù)據(jù)技術(shù)

      大數(shù)據(jù)技術(shù)指從各種各樣不同類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。大數(shù)據(jù)技術(shù)是數(shù)據(jù)分析的前沿技術(shù)。大數(shù)據(jù)最核心的價(jià)值就是在于對(duì)于海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。相比現(xiàn)有的其他數(shù)據(jù)分析技術(shù)而言,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。

      3大數(shù)據(jù)處理工具

      3.1 HADOOP

      Hadoop[3]是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。Hadoop也是公認(rèn)的新一代的大數(shù)據(jù)處理主流平臺(tái)。在國(guó)外EMC、IBM、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱;在國(guó)內(nèi),阿里巴巴、百度等知名公司都在構(gòu)建自己的Hadoop平臺(tái)。

      Hadoop是一個(gè)儲(chǔ)存大量數(shù)據(jù)的優(yōu)秀平臺(tái),我們將數(shù)據(jù)存儲(chǔ)到Hadoop之后利用Hive或者Pig去分析數(shù)據(jù),都能從中獲得的大量有價(jià)值結(jié)果。但是,Hadoop用于實(shí)時(shí)分析并不合適。

      3.2 Hydra

      Hydra是分布式的任務(wù)處理系統(tǒng),可以同時(shí)支持流處理和批處理。它利用一種基于樹的數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)和處理具有數(shù)千個(gè)節(jié)點(diǎn)集群的數(shù)據(jù)。它具有一個(gè)基于Linux的文件系統(tǒng),這使得它可以與ext3、ext4甚至ZFS兼容;它還具有作業(yè)/集群管理組件,可以自動(dòng)為集群分配新的作業(yè)和平衡已有的作業(yè);系統(tǒng)還可以自動(dòng)將數(shù)據(jù)備份,并自動(dòng)處理節(jié)點(diǎn)故障。

      Hydra包括很多的組件:跨異構(gòu)集群處理任務(wù)的分布式作業(yè)執(zhí)行系統(tǒng)、可網(wǎng)絡(luò)訪問的文件服務(wù)系統(tǒng),還有本地備份及遠(yuǎn)程備份等。Hydra適合用于大數(shù)據(jù)的實(shí)時(shí)處理。

      4 校園大數(shù)據(jù)平臺(tái)構(gòu)建

      由于,校園數(shù)據(jù)基本上不需要實(shí)時(shí)處理,我們選擇Hadoop來構(gòu)建校園數(shù)據(jù)平臺(tái)。我們的目的是從大量的數(shù)據(jù)中分析出一些對(duì)學(xué)生、教師和學(xué)校管理人員有用的信息。

      4.1 Hadoop環(huán)境的搭建

      Hadoop環(huán)境搭建相對(duì)比較簡(jiǎn)單。一個(gè)實(shí)驗(yàn)室有30臺(tái)機(jī)器,我們?yōu)檫@些機(jī)器安裝CentOS系統(tǒng)。下載 Hadoop并進(jìn)行安裝,修改相應(yīng)的配置信息啟動(dòng)。下載mysql軟件,并進(jìn)行相應(yīng)的安裝配置。下載HIVE軟件,配置安裝并使用mysql數(shù)據(jù)庫為元數(shù)據(jù)庫。下載Sqoop軟件進(jìn)行配置、安裝和啟動(dòng)。

      4.2應(yīng)用場(chǎng)景

      校園中因?yàn)閿?shù)據(jù)類型比較多,大數(shù)據(jù)的應(yīng)用范圍比較廣泛,我們以在線判題系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析作為例子來分析。

      ACM在線判題系統(tǒng)是一個(gè)為程序設(shè)計(jì)競(jìng)賽愛好者和ACM訓(xùn)練對(duì)提供練習(xí)、競(jìng)賽及交流的平臺(tái),同時(shí)也可以為程序設(shè)計(jì)語言、數(shù)據(jù)結(jié)構(gòu)等課程提供練習(xí)、測(cè)試的平臺(tái)。本校ACM在線判題系統(tǒng)每學(xué)期大概有1000來名學(xué)生在使用,承擔(dān)了C、JAVA和數(shù)據(jù)結(jié)構(gòu)三門課程的教學(xué)任務(wù)及學(xué)生程序設(shè)計(jì)競(jìng)賽的訓(xùn)練任務(wù)。由于該系統(tǒng)使用的是MYSQL數(shù)據(jù)庫,通過Sqoop工具,我們可以更快速的將數(shù)據(jù)導(dǎo)入到HIVE中。在 Hive中,我們通過hql 語句(類似sql語句),可以完成數(shù)據(jù)的分析、排序、去重、結(jié)果輸出等操作。

      4.3校園大數(shù)據(jù)平臺(tái)建設(shè)存在的問題

      目前在校園大數(shù)據(jù)平臺(tái)的建設(shè)基本上都處于初級(jí)階段,很有很多問題需要注意。

      1、數(shù)據(jù)獲取的準(zhǔn)確性

      在我們收集數(shù)據(jù)的時(shí)候,本身數(shù)據(jù)的正確性無法判斷。由于數(shù)據(jù)體量較大,我們只能根據(jù)一定的收集規(guī)則對(duì)數(shù)據(jù)進(jìn)行收集和導(dǎo)入的系統(tǒng)中,這些收集到的數(shù)據(jù)可能帶有一定的偏向,根據(jù)這樣的數(shù)據(jù)分析出來的結(jié)論肯定不是一個(gè)好的結(jié)論,這樣勢(shì)必導(dǎo)致在決策過程中完全依賴數(shù)據(jù)驅(qū)動(dòng)或分析工具本身具有內(nèi)在的危險(xiǎn)性。

      2、復(fù)雜數(shù)據(jù)分析

      大數(shù)據(jù)的優(yōu)勢(shì)在于幾個(gè)不同的平臺(tái)之間的關(guān)系數(shù)據(jù)分析。如果是針對(duì)單一的平臺(tái)進(jìn)行數(shù)據(jù)分析,并不一定比傳統(tǒng)的數(shù)據(jù)分析系統(tǒng)更好。相反,在針對(duì)一些相對(duì)較小的系統(tǒng)時(shí),大數(shù)據(jù)分析平臺(tái)速度完全跟不上實(shí)際的要求。只有選擇合適的數(shù)據(jù)、制定分析中的目標(biāo)、準(zhǔn)備好歸因模型、再營(yíng)銷和高級(jí)細(xì)分,才算是對(duì)大數(shù)據(jù)分析做好了準(zhǔn)備。

      3、校園信息化建設(shè)

      現(xiàn)有校園中的數(shù)據(jù)基本上是平時(shí)在使用的系統(tǒng)和日志數(shù)據(jù),大量的非結(jié)構(gòu)化數(shù)據(jù)并沒有被收集和存儲(chǔ)。如果要更好的進(jìn)行數(shù)據(jù)分析,需要加強(qiáng)校園信息化建設(shè),進(jìn)行多種形式的數(shù)據(jù)采集。

      4、個(gè)人隱私的保護(hù)

      現(xiàn)在越來越注重個(gè)人的隱私安全問題,如何保護(hù)好學(xué)社個(gè)人隱私和如何真實(shí)收集數(shù)據(jù)將是一個(gè)長(zhǎng)期存在的矛盾。

      5 結(jié)論

      大數(shù)據(jù)的興起對(duì)高校的信息化建設(shè)和發(fā)展帶來了新的方向。在未來的高校中,一定會(huì)有越來越多這方面的應(yīng)用。大數(shù)據(jù)分析的最終結(jié)果是為學(xué)生培養(yǎng)工作、學(xué)校管理和科研提供決策支持。希望通過不斷地努力,能真正建立起一個(gè)高效、實(shí)用的大數(shù)據(jù)平臺(tái),為學(xué)校的未來發(fā)展提供必要的數(shù)據(jù)支撐。

      參考文獻(xiàn)

      [1] 楊旭,湯海京,丁剛毅 .數(shù)據(jù)科學(xué)導(dǎo)論[M].北京理工大學(xué)出版社 .2014.

      [2] 大數(shù)據(jù) [ol] . http://baike.baidu.com [引用日期2014-03-20].

      [3] Hadoop [ol].http://baike.baidu.com/ [引用日期2015-03-20] .endprint

      猜你喜歡
      大數(shù)據(jù)
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      桂东县| 鹤壁市| 鄂伦春自治旗| 曲沃县| 肃南| 德庆县| 虞城县| 峨边| 千阳县| 和政县| 潜江市| 石林| 清水河县| 怀仁县| 伊春市| 南开区| 化隆| 呼图壁县| 山东| 定南县| 泸州市| 黄石市| 双柏县| 贺兰县| 平江县| 罗定市| 堆龙德庆县| 辽阳市| 缙云县| 郎溪县| 梁平县| 青龙| 郴州市| 海原县| 宁武县| 镇沅| 上高县| 绥棱县| 封开县| 吐鲁番市| 潍坊市|