• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Hadoop的大數(shù)據(jù)處理平臺(tái)研究

    2017-11-02 00:12:11朱顥東馮嘉美張志鋒
    關(guān)鍵詞:集群分布式框架

    朱顥東, 馮嘉美, 張志鋒

    (1.鄭州輕工業(yè)學(xué)院 計(jì)算機(jī)與通信工程學(xué)院, 鄭州 450002; 2.鄭州輕工業(yè)學(xué)院 軟件學(xué)院, 鄭州 450002)

    基于Hadoop的大數(shù)據(jù)處理平臺(tái)研究

    朱顥東1*, 馮嘉美1, 張志鋒2

    (1.鄭州輕工業(yè)學(xué)院 計(jì)算機(jī)與通信工程學(xué)院, 鄭州 450002; 2.鄭州輕工業(yè)學(xué)院 軟件學(xué)院, 鄭州 450002)

    大數(shù)據(jù)時(shí)代的到來伴隨著海量數(shù)據(jù),進(jìn)而使得篩選出具有價(jià)值的信息成為大數(shù)據(jù)被廣泛應(yīng)用的核心步驟.在此情況下Apache Hadoop順勢(shì)而生,其通過簡(jiǎn)化數(shù)據(jù)密集、高度并行的分布式應(yīng)用來應(yīng)對(duì)大數(shù)據(jù)帶來的挑戰(zhàn).由于目前基于Hadoop的大數(shù)據(jù)平臺(tái)在多領(lǐng)域普遍使用,從而平臺(tái)搭建成為進(jìn)行大數(shù)據(jù)探索的第一步.而很多文章介紹的平臺(tái)搭建是在虛擬機(jī)中完成,與真實(shí)情況存在相應(yīng)差異.本文討論以真實(shí)集群為基礎(chǔ)搭建Hadoop平臺(tái)的原因,Hadoop集群的強(qiáng)大功能,搭建平臺(tái)所需設(shè)備、環(huán)境、安裝、設(shè)置及測(cè)試過程.

    Hadoop; 大數(shù)據(jù); 分布式應(yīng)用

    大數(shù)據(jù)的特征不僅在于數(shù)量級(jí)巨大而且同時(shí)包含結(jié)構(gòu)化和非結(jié)構(gòu)化的多種數(shù)據(jù)源.因此真正的問題在于如何從中提取有意義的信息,于是就離不開大數(shù)據(jù)的分析和工具.Hadoop就是對(duì)大數(shù)據(jù)處理的一種具有海量存儲(chǔ),支持快速數(shù)據(jù)訪問的分布式處理并且具有可靠性、失效轉(zhuǎn)移、可擴(kuò)展的工具.大數(shù)據(jù)科研價(jià)值與商業(yè)價(jià)值的凸顯,使更多的人需要搭建Hadoop平臺(tái).隨著把計(jì)算機(jī)聚合成服務(wù)器集群的簡(jiǎn)單化,Hadoop平臺(tái)的使用越來越廣泛,進(jìn)而平臺(tái)搭建成為后續(xù)學(xué)習(xí)、研究、商業(yè)化的基礎(chǔ).

    1 直面大數(shù)據(jù)挑戰(zhàn)—Hadoop

    不斷增長(zhǎng)的Hadoop系統(tǒng)具有相應(yīng)的核心組件.能夠?qū)崿F(xiàn)在完全分布式的集群上對(duì)海量數(shù)據(jù)的快速分布式存儲(chǔ)的Hadoop分布式文件系統(tǒng)(HDFS),構(gòu)建在HDFS之上的NoSQL數(shù)據(jù)庫HBase,用于大規(guī)模數(shù)據(jù)分布式并行的mapper、reducer處理的執(zhí)行框架MapReduce,對(duì)Hadoop中存儲(chǔ)的數(shù)據(jù)進(jìn)行查詢的高級(jí)語言Hive,用于關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫與Hadoop之間移動(dòng)數(shù)據(jù)的連通性工具Sqoop等組成.

    1.1 Hadoop的發(fā)展

    Hadoop是Apache基金會(huì)提出的可支持TB 級(jí)別大文件數(shù)據(jù)處理的開源云計(jì)算平臺(tái),具有投入成本低、可擴(kuò)展性高、易部署且開源等優(yōu)勢(shì)[1].Hadoop做到了平臺(tái)即服務(wù)(Platform as a Service,PaaS),已經(jīng)由Hadoop 1.x版本,如圖1所示,升級(jí)為Hadoop 2.x版本,如圖2所示.

    圖1 Hadoop 1.x框架示意圖Fig.1 Schematic diagram of Hadoop 1.x frame

    圖2 Hadoop2.x框架示意圖Fig.2 Schematic diagram of Hadoop 2.x frame

    對(duì)于Hadoop1.x及以下的運(yùn)行架構(gòu)存在可伸縮性的問題,即當(dāng)集群從節(jié)點(diǎn)數(shù)超過4 000時(shí)再增加從節(jié)點(diǎn)也不能獲得對(duì)應(yīng)性能上的近似線性提高[2].因此在Hadoop2.x版本對(duì)之前版本存在一定問題進(jìn)行改進(jìn),增加YARN.可以看出,全局資源管理器YARN的出現(xiàn)是為了解決MapReduce 中存在的一些缺陷.從節(jié)點(diǎn)運(yùn)行于每個(gè)節(jié)點(diǎn)之上,它們管理特定節(jié)點(diǎn)上的容器,監(jiān)控一個(gè)節(jié)點(diǎn)的執(zhí)行,匯報(bào)資源可用性給主節(jié)點(diǎn),主節(jié)點(diǎn)負(fù)責(zé)在系統(tǒng)中所有應(yīng)用程序之間的仲裁[3].

    1.2 Hadoop的強(qiáng)大功能

    面對(duì)大數(shù)據(jù)GB、TB的數(shù)據(jù)量,傳統(tǒng)關(guān)系型數(shù)據(jù)庫會(huì)出現(xiàn)溢出、無法運(yùn)行等情況,HDFS應(yīng)時(shí)而生來滿足大數(shù)據(jù)存儲(chǔ)、讀取、寫入[4].使用HDFS和HBase的組合用于高效數(shù)據(jù)存儲(chǔ),HDFS可以做到保存順序訪問的海量數(shù)據(jù),HBase可以達(dá)到快速隨機(jī)訪問數(shù)據(jù),兩者結(jié)合可以實(shí)現(xiàn)快速訪問大的數(shù)據(jù)條目.Hadoop能夠?qū)?shù)據(jù)存儲(chǔ)和處理完美的結(jié)合,MapReduce框架能夠解決大規(guī)模數(shù)據(jù)計(jì)算問題.Oozie可以實(shí)現(xiàn)Hadoop作業(yè)的自動(dòng)化和管理.Hadoop強(qiáng)大的功能使其應(yīng)用變得廣泛,尤其是從Hadoop 1.0 升級(jí)到Hadoop 2.0后相應(yīng)的搭建也有所改變,本文以真實(shí)集群為基礎(chǔ)進(jìn)行平臺(tái)的搭建,為后續(xù)的學(xué)習(xí)研究提供基礎(chǔ)保障.

    2 基于Hadoop 2.0以上版本的大數(shù)據(jù)處理平臺(tái)搭建實(shí)踐

    平臺(tái)搭建是解決相關(guān)問題的基礎(chǔ),隨著Hadoop版本的逐步發(fā)展,本文選擇以完全穩(wěn)定的Hadoop2.6.0進(jìn)行安裝.Hadoop有3種安裝模式: 單機(jī)模式、偽分布模式和全分布模式,前兩種方式并不能體現(xiàn)大數(shù)據(jù)計(jì)算的優(yōu)勢(shì)與意義,本文采用多臺(tái)機(jī)器搭建全分布模式集群.

    2.1 計(jì)算機(jī)聚合服務(wù)器集群

    市場(chǎng)上內(nèi)存價(jià)格與服務(wù)器價(jià)格的直線下降使計(jì)算機(jī)聚合成服務(wù)器越來越簡(jiǎn)單[5].在學(xué)習(xí)中使用若干臺(tái)計(jì)算機(jī)搭建一個(gè)小的平臺(tái)進(jìn)行探究,相較于使用虛擬機(jī)會(huì)出現(xiàn)服務(wù)器宕機(jī)、軟件驅(qū)動(dòng)底層排錯(cuò)困難以及性能大大降低等問題,搭建過程有助于理解Hadoop平臺(tái)的機(jī)制.在企業(yè)中以更低的成本獲得需求的計(jì)算能力并且在內(nèi)存中處理比以往更多的數(shù)據(jù),達(dá)到效益利益最高化.

    根據(jù)實(shí)際需求選擇集群的硬件環(huán)境,本文以達(dá)到后續(xù)研究為目的,選擇5臺(tái)HP ProLinant ML350 G6服務(wù)器,cpu Xeon E5506 2.4GHz,內(nèi)存8G,硬盤1T.一臺(tái)Auto USB KVM Switch,達(dá)到配置集群環(huán)境,減少每臺(tái)主機(jī)配置獨(dú)立鍵盤,顯示器,鼠標(biāo)的費(fèi)用,節(jié)省多余部件需要占據(jù)的空間,節(jié)省能源消耗,避免來回奔波于各電腦間的不便與時(shí)間浪費(fèi).形成完全分布式網(wǎng)絡(luò)拓?fù)鋱D,如圖3所示.

    圖3 完全分布式網(wǎng)絡(luò)拓?fù)鋱DFig.3 Fully distributed network topology

    2.2 主機(jī)上Linux系統(tǒng)的安裝與設(shè)置

    Hadoop在Windows操作系統(tǒng)和Linux操作系統(tǒng)下均可使用,但是在Window 系統(tǒng)下安裝之前要先安裝 Cygwin軟件,來模擬Unix操作系統(tǒng)環(huán)境方可使用.Linux操作系統(tǒng)也具有很多版本,而CentOS是一個(gè)基于Red Hat的無付費(fèi)的、穩(wěn)定的、可自由使用源代碼的、企業(yè)級(jí)的Linux系統(tǒng).使用CentOS能夠獲得7年的技術(shù)支持,滿足開發(fā)的需求,并且新版本的系統(tǒng)還在以每2 a一次的速度持續(xù)更新發(fā)布中,保證了CentOS的持久生命力.能夠做到完全免費(fèi),不需要序列號(hào),獨(dú)具yum命令支持在線升級(jí),可以即時(shí)更新系統(tǒng),建立一個(gè)安全、低維護(hù)、穩(wěn)定、高預(yù)測(cè)性的 Linux 環(huán)境,所以選擇穩(wěn)定的CentOS-6.7-x86_64-bin-DVD1.iso做成光盤鏡像進(jìn)行安裝.

    5臺(tái)服務(wù)器做實(shí)驗(yàn),1 臺(tái)做 Name Node,Job-Tracker,服務(wù)器名為master.另外 4 臺(tái)做Data Node,Task-Tracker,服務(wù)器名分別為 slave1,slave2,slave3,slave4.安裝系統(tǒng)時(shí)可以使用創(chuàng)建的統(tǒng)一用戶,也可使用root用戶,再此我們用root 用戶將需要的軟件全部安裝在 root 根用戶下.

    修改文件vim/ etc / sysconfig / network修改5臺(tái)服務(wù)器主機(jī)名:HOSTNAME

    網(wǎng)關(guān)統(tǒng)一為:GATEWAY=192.168.1.1

    修改文件vim/etc /hosts 添加集群中所有機(jī)器的IP與主機(jī)名,使master和所有slave能夠通信,添加如下:

    192. 168. 1. 101 master

    192. 168. 1. 102 slave1

    192. 168. 1. 103 slave2

    192. 168. 1. 104 slave3

    192. 168. 1. 105 slave4

    關(guān)閉集群中所有機(jī)器的防火墻不然會(huì)出現(xiàn)datanode開后又自動(dòng)關(guān)閉、集群不能連通等問題,設(shè)置如下:chkconfig iptables off

    2.3 配置雙向SSH免密碼登錄

    在master節(jié)點(diǎn)上生成密碼對(duì):ssh-keygen-t rsa-P ''

    把id_rsa.pub加到授權(quán)key中:cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

    修改authorized_keys權(quán)限,SSH機(jī)制非常嚴(yán)謹(jǐn),不設(shè)置權(quán)限會(huì)觸發(fā)不安全設(shè)置,導(dǎo)致不能使用RSA功能,設(shè)置如下:

    chmod 700 ~/.ssh

    chmod 600 ~/.ssh/authorized_keys

    在root用戶下,修改SSH配置文件:vim/etc/ssh/sshd_config 啟用RSA認(rèn)證、公鑰私鑰配對(duì)認(rèn)證方式,設(shè)置公鑰文件路徑.

    將公鑰復(fù)制到所有的slave服務(wù)器上:scp~/.ssh/id_rsa.pub 遠(yuǎn)程用戶名稱@遠(yuǎn)程服務(wù)器IP:~/.

    上述步驟即可實(shí)現(xiàn)master到slave的SSH無密碼登錄.以相同方式在4臺(tái)slave節(jié)點(diǎn)上進(jìn)行相同過程,實(shí)現(xiàn)slave到master的SSH無密碼登錄,進(jìn)而完成了master和slave之間雙向SSH無密碼登錄.

    2.4 安裝JAVA-JDK

    檢查系統(tǒng)中是否具有openjdk若存在需要?jiǎng)h除.下載jdk-7u67-linux-i586.tar.gz,進(jìn)入保存jdk的文件夾,用命令tar-zxvf jdk在linux系統(tǒng)下所需版本的.tar的壓縮包,執(zhí)行jdk的安裝.

    vim /etc/profile使用命令shift+I修改profile文件設(shè)置java環(huán)境,在文件末尾添加JAVA_HOME、PATH和CLASSPATH的需求路徑.

    2.5 安裝Hadoop 2.6.0

    下載Hadoop 2.0以上完善版本的hadoop-2.6.0.tar.gz到安裝目錄下,使用命令:tar-zxvf hadoop-2.6.0.tar.gz解壓安裝包.

    1) 配置名字節(jié)點(diǎn)上的 / etc / profile 為了方便直接使用 Hadoop 命令,在名字節(jié)點(diǎn)上的 /etc / profile 配置如下:

    export HADOOP_HOME=/安裝目錄/ hadoop_2.6.0

    export HADOOP_CONF_DIR=$ HADOOP_HOME / conf

    export PATH=$ HADOOP_HOME / bin: $ PATH

    2) 在本地文件系統(tǒng)創(chuàng)建以下文件夾:~/hadoop/tmp、~/dfs/data、~/dfs/name.進(jìn)入Hadoop目錄,使用命令:ls查看文件夾是否創(chuàng)建成功.

    3) 配置 hadoop-env.sh文件,該文件是hadoop運(yùn)行基本環(huán)境的配置,修改JAVA_HOME為安裝的jdk保存路徑,export JAVA_HOME=/jdk的安裝目錄/安裝jdk的版本名稱.

    4) 在Hadoop2.x版本中要重新設(shè)置 yarn-env.sh 文件,使用vim 命令打開后將JAVA_HOME更改為新安裝的jdk路徑來配置yarn框架運(yùn)行環(huán)境,不能使用open jdk的路徑.

    export JAVA_HOME=/JDK安裝目錄/jdk1.7.0_79

    5) 配置slaves文件,增加所有slave節(jié)點(diǎn)信息.

    slave1 slave2 slave3 slave4

    6) 配置 core-site.xml文件,進(jìn)行全局配置,配置HDFS端口號(hào)、地址以及Hadoop緩沖區(qū),具體如圖4所示.

    圖4 配置core-site.xml文件Fig.4 Configured core-site.xml file

    7) 站在HDFS角度上配置hdfs-site.xml 文件.設(shè)置namenode、datanode端口和目錄位置;配置的備份方式默認(rèn)為3;將dfs.webhdfs.enabled屬性設(shè)置為true,否則就不能使用webhdfs的LISTSTATUS、LISTFILESTATUS等需要列出文件、文件夾狀態(tài)的命令,因?yàn)檫@些信息都是由namenode來保存的,配置如圖5所示.

    8) 在使用YARN的集群下,大數(shù)據(jù)核心運(yùn)算中以MapReduce角度設(shè)置、更改并以source命令保存 mapred-site.xml 文件.使用yarn框架、jobhistory使用地址以及web地址,如圖6所示.

    圖5 配置 hdfs-site.xml文件Fig.5 Configured hdfs-site.xml file

    圖6 配置 mapred-site.xml文件Fig.6 Configured mapred-site.xml file

    9) 在Hadoop2.0以上版本中,YARN作為增加的一項(xiàng)重要功能,需要修改yarn-site.xml文件,在集群運(yùn)行中能夠?qū)崿F(xiàn)yarn功能,設(shè)置yarn.nodemanager.aux-services 否則NodeManager會(huì)啟動(dòng)失敗;設(shè)置ResourceManager對(duì)客戶端顯示的地址;設(shè)置ResourceManager 對(duì)ApplicationMaster顯示的訪問地址;設(shè)置ResourceManager對(duì)NodeManager顯示的地址;設(shè)置ResourceManager 對(duì)管理員顯示的訪問地址;設(shè)置ResourceManager對(duì)外WebUI地址,用戶可通過該地址在瀏覽器中查看集群各類信息,具體配置如圖7所示.

    圖7 配置 yarn-site.xml 文件Fig.7 Configured yarn-site.xml file

    10) 在root用戶下,將配置好的hadoop文件copy到其余4臺(tái)slave機(jī)器上,使用命令:

    scp-r hadoop-2.6.0/ root@服務(wù)器IP:/ 完成Hadoop從master的Hadoop的安裝.

    2.6 所建平臺(tái)技術(shù)優(yōu)勢(shì)分析

    目前,國(guó)內(nèi)外專家學(xué)者也構(gòu)建了一些較好的分布式集群框架,例如,Jongseong Yoona等[6]提出了一個(gè)用于文件存儲(chǔ)的NoSQL DBMS分布式集群框架,劉艷俊等[7]提出了一個(gè)基于Mongo DB云計(jì)算的GML分布式集群框架,這些集群框架主要針對(duì)GML文檔具有海量空間數(shù)據(jù)量的特性,通過Mongodbshards分片技術(shù),來實(shí)現(xiàn) GML 數(shù)據(jù)共享及在Mongo DB中建立索引以實(shí)現(xiàn)集群分片存儲(chǔ).同時(shí),也存在一些群框架采用Oracle Grid Engine(OGE)、Load Sharing Facility(LSF)等軟件來實(shí)現(xiàn)分布式集群的資源管理和任務(wù)調(diào)度.上述這些分布式集群一般是通過配置服務(wù)器、設(shè)置參數(shù)并構(gòu)建shard分片來實(shí)現(xiàn),或通過在集群上部署OGE、LSF等進(jìn)行作業(yè)信息統(tǒng)計(jì)來實(shí)現(xiàn).但是,這些分布式集群相對(duì)于Hadoop的基礎(chǔ)組件HDFS來說,它們?cè)诖髷?shù)據(jù)存儲(chǔ)性能上較差,所使用的分布式資源管理軟件也缺少靈活性,從而導(dǎo)致它們不能根據(jù)某些特定需求來自定義某些相關(guān)功能,從而與平臺(tái)的兼容性更好.本文所搭建的完全分布式Hadoop集群以YARN為基礎(chǔ),可以靈活運(yùn)行多種計(jì)算框架,MapReduce只是其中一個(gè)選項(xiàng),這不但克服了靜態(tài)slot 資源分配的不足,避免了資源浪費(fèi),而且還能夠使Map和Reduce這兩種操作根據(jù)需求來靈活使用,并且還可以在Map之后與Reduce之前增加過濾器和組合器來提高集群的整體性能.本文所建Hadoop云平臺(tái)的實(shí)現(xiàn)可以隨時(shí)實(shí)地對(duì)平臺(tái)進(jìn)行連接,十分便捷,并且運(yùn)行效果和穩(wěn)定性更好.

    3 平臺(tái)搭建與驗(yàn)證

    最終通過5臺(tái)服務(wù)器,1臺(tái)交換機(jī),1臺(tái)顯示器,搭建形成完全分布式Hadoop集群,如圖8所示.

    圖8 所搭建的完全分布式Hadoop集群Fig.8 Proposed fully distributed hadoop cluster

    Hadoop系統(tǒng)安裝好后,形成一個(gè)新的HDFS系統(tǒng),需要進(jìn)行格式化,每個(gè)新的HDFS格式化只需一次,命令為: hadoop namenode-format,然后再分別啟HDFS和yarn服務(wù): ./sbin/start-dfs.sh./sbin/start-yarn.sh

    Hadoop的驗(yàn)證有很多種方法,在此選擇簡(jiǎn)單明晰的一種進(jìn)行驗(yàn)證.開啟Hadoop集群后出現(xiàn)主節(jié)點(diǎn)和從節(jié)點(diǎn)logging.在主節(jié)點(diǎn)master上執(zhí)行jsp命令,會(huì)出現(xiàn)進(jìn)程號(hào)、SecondaryNameNode、ResourceManager、DataNode、Jps、NameNode、NodeManager.在從節(jié)點(diǎn)slaver1、slaver2、slaver3、slaver4上均執(zhí)行jps命令,會(huì)輸出:進(jìn)程號(hào)、DataNode、Jps、NodeManager ,即可驗(yàn)證Hadoop安裝成功,如圖9所示.在安裝成功的基礎(chǔ)上就可以進(jìn)行更深入的學(xué)習(xí)與研究.

    圖9 平臺(tái)驗(yàn)證Fig.9 Platform validation

    4 總結(jié)

    Hadoop 分布式架構(gòu)云計(jì)算平臺(tái)是一個(gè)非常重要的開源架構(gòu)平臺(tái),與其他并行化架構(gòu)平臺(tái)相比有著巨大的優(yōu)勢(shì)[8].本文對(duì)其現(xiàn)狀、功能以及搭建過程做了介紹,真實(shí)搭建了完全分布式Hadoop平臺(tái),經(jīng)過jps和自帶單詞計(jì)數(shù)測(cè)試驗(yàn)證平臺(tái)搭建成功,能夠成為后續(xù)Hadoop平臺(tái)上的檢索系統(tǒng)、推薦系統(tǒng)等等功能系統(tǒng)開發(fā)的基礎(chǔ)[9].讀萬卷書不如行萬里路,在學(xué)習(xí)大數(shù)據(jù)過程中,動(dòng)手搭建過程能夠深入了解Hadoop的原理,并且鍛煉分析問題解決問題的能力,為后續(xù)工作打下堅(jiān)實(shí)基礎(chǔ).我們下一步工作是在大數(shù)據(jù)平臺(tái)下進(jìn)行有關(guān)算法的研究,將其中的一些算法實(shí)現(xiàn)并行化運(yùn)行.

    在搭建過程中發(fā)現(xiàn)以下幾點(diǎn)問題,應(yīng)該在以后的搭建平臺(tái)過程中引起注意在 本次平臺(tái)搭建過程中遇到以下幾點(diǎn)具有代表性的問題,真實(shí)集群搭建與虛擬集群存在差異,避免問題再次出現(xiàn).

    1) 位數(shù)一致問題.操作系統(tǒng)、jdk、Hadoop要求位數(shù)一致,否則會(huì)產(chǎn)生不兼容,即使集群配置也會(huì)報(bào)錯(cuò)無法使用.

    2) 在多個(gè)配置文件中正確配置安裝路徑.如果路徑配置錯(cuò)誤,那么在Hadoop運(yùn)行時(shí)則不能啟動(dòng)Java、Maven等等,從而導(dǎo)致平臺(tái)不能正常工作[10].

    3) 關(guān)閉每臺(tái)服務(wù)器的防火墻.因?yàn)樵谑褂肏DFS和MapReduce時(shí),Hadoop會(huì)打開許多監(jiān)聽端口.

    4) 注意細(xì)微區(qū)別.一定要設(shè)置yarn.nodemanager.aux-services的value值為mapreduce_shuffle而不是原來設(shè)置的mapreduce.shuffle,否則會(huì)導(dǎo)致nodemanage無法啟動(dòng).

    [1] 周 江, 王偉平, 孟 丹. 面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù)[J]. 計(jì)算機(jī)研究與發(fā)展, 2014,51(2): 382-394.

    [2] 陳 浩. 基于Hadoop的農(nóng)業(yè)電子商務(wù)數(shù)據(jù)平臺(tái)構(gòu)建關(guān)鍵技術(shù)研究[D]. 武漢: 華中師范大學(xué), 2015, 17-19.

    [3] 盧博林斯凱. Hadoop高級(jí)編程-構(gòu)建與實(shí)現(xiàn)大數(shù)據(jù)解決方案[M]. 穆玉偉, 靳曉輝, 譯. 北京: 清華大學(xué)出版社, 2014.

    [4] 蔣云霞, 符 琦. 基于Hadoop的云教學(xué)資源平臺(tái)的研究[J]. 當(dāng)代教育理論與實(shí)踐, 2016,4(8): 111-113.

    [5] 李 軍. 大數(shù)據(jù)從海量到精準(zhǔn)[M]. 北京: 清華大學(xué)出版社, 2014.

    [6] YOON J, JEONG D, KANG C, et al. Forensic investigation framework for the document store NoSQL DBMS: MongoDB as a case study[J]. Digital Investigation, 2016,17(3): 53-65.

    [7] 劉艷俊,敖杰剛,徐齊行.基于Mongo DB云計(jì)算下GML分布式集群環(huán)境搭建研究[J]. 測(cè)繪標(biāo)準(zhǔn)化, 2012,28(1): 3-5.

    [8] 崔文斌, 牟少敏. Hadoop大數(shù)據(jù)平臺(tái)的搭建與測(cè)試[J]. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,44(4) : 550-555.

    [9] 譚潔清, 毛錫軍. Hadoop云計(jì)算基礎(chǔ)架構(gòu)的搭建和hbase 和 hive 的整合應(yīng)用[J]. 貴州科學(xué), 2013,31(5) : 32-35.

    [10] 張 巖, 郭 松, 趙國(guó)海.基于Hadoop的云計(jì)算試驗(yàn)平臺(tái)搭建研究[J]. 沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,31(1) : 85-89.

    StudyonbigdataprocessingplatformbasedonHadoop

    ZHU Haodong1, FENG Jiamei1, ZHANG Zhifeng2

    (1.School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002;2.School of Software, Zhengzhou University of Light Industry, Zhengzhou 450002)

    The age of big data is companied by massive data, making the selection of valuable information become a core step for wide usage of big data. Apache Hadoop is invented in this case and addressing the challenges from big data via simplifying data intensive and highly parallel distributed applications. The current big data based on Hadoop platform is widely used, so constructing a platform becomes the first step of exploration in big data. This paper describes the reason of Hadoop platform construct based on real cluster and the powerful function of Hadoop cluster as well as equipment, environment, installation, setting and testing process in the construction process.

    Hadoop; dig data; distributed application

    TP393.0

    A

    2016-11-27.

    河南省科技計(jì)劃項(xiàng)目(152102210357,152102210149); 河南省高等學(xué)校青年骨干教師資助計(jì)劃項(xiàng)目(2014GGJS-084); 河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(16A520030); 鄭州輕工業(yè)學(xué)院校級(jí)青年骨干教師培養(yǎng)對(duì)象資助計(jì)劃項(xiàng)目(XGGJS02); 鄭州輕工業(yè)學(xué)院博士科研基金資助項(xiàng)目(2010BSJJ038); 鄭州輕工業(yè)學(xué)院研究生科技創(chuàng)新基金資助項(xiàng)目.

    *E-mail: zhuhaodong80@163.com.

    10.19603/j.cnki.1000-1190.2017.05.005

    1000-1190(2017)05-0585-06

    猜你喜歡
    集群分布式框架
    框架
    廣義框架的不相交性
    海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
    一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
    電子制作(2018年11期)2018-08-04 03:25:40
    分布式光伏熱錢洶涌
    能源(2017年10期)2017-12-20 05:54:07
    分布式光伏:爆發(fā)還是徘徊
    能源(2017年5期)2017-07-06 09:25:54
    Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
    WTO框架下
    法大研究生(2017年1期)2017-04-10 08:55:06
    勤快又呆萌的集群機(jī)器人
    基于DDS的分布式三維協(xié)同仿真研究
    河源市| 唐河县| 抚州市| 静宁县| 清流县| 荃湾区| 十堰市| 长沙县| 建始县| 三河市| 张掖市| 宁都县| 大港区| 阳山县| 山西省| 和田县| 洮南市| 灵山县| 麻城市| 乌审旗| 垦利县| 沽源县| 乐清市| 桐城市| 舞阳县| 南开区| 广东省| 铁岭市| 长宁区| 类乌齐县| 蕉岭县| 美姑县| 犍为县| 昌乐县| 五原县| 裕民县| 乡城县| 凤阳县| 从江县| 太仓市| 永福县|