• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop 集群的詞頻統(tǒng)計(jì)應(yīng)用

      2020-01-08 11:29:50劉順
      科學(xué)技術(shù)創(chuàng)新 2020年30期
      關(guān)鍵詞:數(shù)據(jù)處理虛擬化集群

      劉順

      (四川信息職業(yè)技術(shù)學(xué)院信息工程系,四川 廣元628017)

      近年來(lái),隨著計(jì)算機(jī)、智能終端的普及,每天產(chǎn)生了大量數(shù)據(jù),數(shù)據(jù)規(guī)模成幾何增長(zhǎng),為了滿(mǎn)足海量數(shù)據(jù)的存儲(chǔ)和分析,這就需要大量的計(jì)算機(jī)協(xié)同工作,隨著信息技術(shù)的飛速發(fā)展,各種網(wǎng)絡(luò)應(yīng)用帶來(lái)了數(shù)據(jù)規(guī)模的高速增長(zhǎng),為了滿(mǎn)足海量數(shù)據(jù)存儲(chǔ)和分析需求,需要使大量計(jì)算機(jī)協(xié)同工作共同完成空前復(fù)雜的任務(wù),基于這些原因Apache 軟件基金會(huì)旗下的一個(gè)開(kāi)源分布式計(jì)算平臺(tái),它就是Hadoop。該平臺(tái)是基于Java 語(yǔ)言開(kāi)發(fā)的,核心是HDFS 和MapReduce。HDFS 具有高容錯(cuò)性和高擴(kuò)展性等優(yōu)點(diǎn),允許用戶(hù)將Hadoop 部署在價(jià)格低廉的服務(wù)器上,形成分布式系統(tǒng)MapReduce。用戶(hù)根本不用關(guān)心底層實(shí)現(xiàn)的技術(shù),就可以實(shí)現(xiàn)程序的開(kāi)發(fā)和調(diào)用。因此用戶(hù)通過(guò)Hadoop 可以輕松的組織計(jì)算機(jī)資源,搭建自己的分布式計(jì)算平臺(tái),完成海量數(shù)據(jù)的處理。

      Hadoop 的原理很簡(jiǎn)單,其中最核心的就是底層的HadoopDistributedFile System(HDFS)這個(gè)文件,它分布在計(jì)算機(jī)集群內(nèi)所有的節(jié)點(diǎn)上。HDFS(對(duì)于本文)的上一層是MapReduce引擎,通過(guò)對(duì)Hadoop 分布式計(jì)算平臺(tái)最核心的分布式文件系統(tǒng)HDFS、MapReduce 處理過(guò)程,這些基本涵蓋了Hadoop 分布式平臺(tái)的所有技術(shù)核心。

      對(duì)于Hadoop 的集群來(lái)講,可分成兩大類(lèi)角色:Master 和Salve。一個(gè)HDFS 集群是由一個(gè)NameNode 和若干個(gè)DataNode組成的。本章將從搭建環(huán)境準(zhǔn)備以及具體的搭建、配置內(nèi)容展開(kāi),對(duì)整個(gè)搭建過(guò)程進(jìn)行展示。

      1 硬件環(huán)境與軟件準(zhǔn)備

      本項(xiàng)目?jī)H僅只是測(cè)試Hadoop 的相關(guān)功能,虛擬機(jī)不需要良好的性能,只要滿(mǎn)足最低要求即可,我們選擇的是單核CPU,1G的內(nèi)存空間,一張網(wǎng)卡,虛擬機(jī)硬盤(pán)大小設(shè)置為10G 即可,這只是規(guī)劃空間,根據(jù)實(shí)際使用的大小占用空間。

      軟件準(zhǔn)備,關(guān)于Hadoop 的版本選擇,我選擇官方開(kāi)源版本hadoop-2.6.5.tar。Hadoop 是基于Java 開(kāi)發(fā),我們?cè)诎惭bhadoop前需要對(duì)虛擬機(jī)進(jìn)行JDK 安裝,這里我選擇較新的版本jdk-7u80-linux-x64.tar。為方便在物理主機(jī)與虛擬機(jī)之間傳輸軟件包文件,將使用WinSCP 工具。我們?cè)谠浦鳈C(jī)上選擇VMware,該軟件擁有桌面虛擬化,在主機(jī)上需要安裝虛擬化軟件。Workstation 是功能強(qiáng)大的本地桌面虛擬化軟件, 用戶(hù)可以輕松的在一個(gè)系統(tǒng)里面實(shí)現(xiàn)完整的不同的操作系統(tǒng)和完整的虛擬網(wǎng)絡(luò)環(huán)境。Linux 系統(tǒng)鏡像選擇的是Centos7 x86_64 鏡像。

      2 集群規(guī)劃

      本項(xiàng)目采用的是虛擬機(jī)centos7 克隆多個(gè)虛擬機(jī),這個(gè)centos7 安裝時(shí)需要帶桌面功能。從以往的經(jīng)驗(yàn)來(lái)看,我們?cè)陧?xiàng)目實(shí)施的時(shí)候可以采用安裝好一臺(tái)虛擬機(jī),然后根據(jù)項(xiàng)目需求克隆多臺(tái)虛擬機(jī),并且為了防止安裝錯(cuò)誤,在一臺(tái)環(huán)境設(shè)置好了后,將“快照”,設(shè)置為模板,便于在社會(huì)錯(cuò)誤的時(shí)候,返回,也可以需要新建虛擬機(jī)的時(shí)候,從之前設(shè)置的模板中恢復(fù)即可,這樣可以快速部署虛擬機(jī),節(jié)約安裝操作系統(tǒng)和虛擬環(huán)境設(shè)置的時(shí)間,本次項(xiàng)目采用的是64 位的虛擬機(jī)。從前期的項(xiàng)目需求中可以看出,要使用好hadoop 集群,需要3 臺(tái)以上的計(jì)算機(jī),最簡(jiǎn)單的方法就是從快照中恢復(fù)3 臺(tái)計(jì)算機(jī),并且將網(wǎng)絡(luò)模式設(shè)置為“NAT 模式”,便于外網(wǎng)的訪問(wèn),實(shí)時(shí)傳送需要的軟件,和系統(tǒng)補(bǔ)丁等等。根據(jù)項(xiàng)目的需求,我們需要對(duì)三臺(tái)虛擬機(jī)進(jìn)行相關(guān)的配置,包括虛擬主機(jī)名字,IP 地址、網(wǎng)絡(luò)規(guī)劃、域名等等。

      3 節(jié)點(diǎn)安裝

      虛擬化軟件很多,我們?cè)谠浦鳈C(jī)上選擇VMware,該軟件擁有桌面虛擬化,在主機(jī)上需要安裝虛擬化軟件。Workstation 是功能強(qiáng)大的本地桌面虛擬化軟件, 用戶(hù)可以輕松的在一個(gè)系統(tǒng)里面實(shí)現(xiàn)完整的不同的操作系統(tǒng)和完整的虛擬網(wǎng)絡(luò)環(huán)境,我們將使用VMware Workstation Pro 新建虛擬機(jī)。

      (1)選擇準(zhǔn)備好的Centos7x86_64 鏡像進(jìn)行安裝。

      (2)根據(jù)引導(dǎo)選擇為虛擬機(jī)選擇1G 內(nèi)存、20G 硬盤(pán)與NAT類(lèi)型網(wǎng)卡。

      (3)點(diǎn)擊完成,按著默認(rèn)引導(dǎo)安裝后進(jìn)入虛擬機(jī)使用ipa 命令查看當(dāng)前主機(jī)ip 地址。

      (4)通過(guò)WinSCP 軟件輸入主機(jī)IP 與用戶(hù)、密碼連接虛擬機(jī)。這里用的是root 超級(jí)用戶(hù)登錄。

      (5)找到安裝包拖拽或者復(fù)制至右側(cè)等待上傳。

      (6)通過(guò)mkdir 在/home/hadoop1/目錄下為hadoop 創(chuàng)建數(shù)據(jù)存放目錄分別為data、name、tmp。

      (7)進(jìn)入虛擬機(jī)查看上傳到虛擬機(jī)的安裝包,對(duì)安裝包解壓到指定目錄(/user/local 與/home/hadoop1/data)內(nèi)。

      (8)進(jìn)入/etc/profile 文件添加環(huán)境變量,保證hadoop 安裝后能夠正常運(yùn)行。

      (9)環(huán)境變量配置后需重載生效。

      4 配置Hadoop 分布式集群環(huán)境

      4.1 修改主機(jī)名和配置IP 映射。該集群由最低的三臺(tái)云主機(jī)組成,將修改每臺(tái)的hosts 配置文件,編輯/etc/hosts 文件,配置主機(jī)名和IP 的映射。三臺(tái)機(jī)器的主機(jī)名通過(guò)hostname 來(lái)修改為master、slave1、slave2。

      4.2 SSH 無(wú)密碼驗(yàn)證配置。SSH 為建立在應(yīng)用層基礎(chǔ)上的安全協(xié)議。目前有很多可以實(shí)現(xiàn)遠(yuǎn)程登錄的軟件或者方式有很多,本項(xiàng)目選著SSH,利用最安全的網(wǎng)絡(luò)服務(wù)和遠(yuǎn)程登錄實(shí)現(xiàn)對(duì)云主機(jī)的訪問(wèn),管理和配置,有可以防止信息的泄露。Hadoop 需要通過(guò)SSH 來(lái)啟動(dòng)salve 列表中各臺(tái)主機(jī)的守護(hù)進(jìn)程,因此SSH 是必須安裝、配置的。Hadoop 會(huì)采用依次序啟動(dòng)文件conf/slaves 中記載的主機(jī)上的進(jìn)程。

      4.3 master 主機(jī)使用key-gen 生成密鑰后發(fā)放給slave1 與slave2 確認(rèn)三次后生產(chǎn)密鑰執(zhí)行。

      4.4 下發(fā)完成后我們可以通過(guò)SSH 命令遠(yuǎn)程登錄,分別登錄三臺(tái)驗(yàn)證后退出。

      4.5 配置core-site.xml 文件core-site.xml (工具模塊)括Hadoop 常用的一些工具,主要實(shí)現(xiàn)其他開(kāi)發(fā)軟件提供相應(yīng)的API 訪問(wèn)調(diào)用,這些工具主要包括了FileSystem(這個(gè)是抽象系統(tǒng)文件)、還有系統(tǒng)同配置的工具,也有遠(yuǎn)程過(guò)程調(diào)用和一些事物序列化的工具。有了這些工具,我們可以很方便的管理和配置配置core-site.xml 文件core-site.xml。

      4.6 配置hdfs-site.xml 文件。hdfs-site.xml(數(shù)據(jù)存儲(chǔ)模塊),這個(gè)模塊非常的重要,主要是我們分布式文件系統(tǒng)的設(shè)置,其中需要修改的是dfs.namenode.name.dir 和dfs.datanode.data.dir,把value 填寫(xiě)對(duì)應(yīng)前面創(chuàng)建的數(shù)據(jù)與命名目錄,Hadoop 之所以能完成分布式訪問(wèn),主要是基于數(shù)據(jù)存儲(chǔ)管理的方式,實(shí)現(xiàn)高容錯(cuò)和高伸縮性(在壓力測(cè)試中可以自由增加資源,提高訪問(wèn)的有效性),而且對(duì)硬件的要求極低,也是受到開(kāi)發(fā)者或用戶(hù)追捧的原因。還有一個(gè)原因是簡(jiǎn)化的數(shù)據(jù)訪問(wèn)方式,讓程序?qū)?shù)據(jù)的訪問(wèn),變得更加簡(jiǎn)潔。

      4.7 配置yarn-site.xml 文件。yarn-site.xml(作業(yè)調(diào)度+資源管理平臺(tái))任務(wù)調(diào)度和集群資源管理。進(jìn)入etc/hadoop 目錄,編輯yarn-site.xml 文件。因在虛擬機(jī)上運(yùn)行hadoop,將CPU 數(shù)量要求設(shè)為1G,內(nèi)存大小為2048,使其符合虛擬機(jī)的資源數(shù)量。

      4.8 配置mapred-site.xml 文件。mapred-site.xml(數(shù)據(jù)處理模塊),我們將進(jìn)入etc/hadoop 目錄,修改mapred-site.xml 文件,添加相應(yīng)的配置,由于該模塊是數(shù)據(jù)處理模塊,需要使用YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。通過(guò)這個(gè)計(jì)算機(jī)模型可以實(shí)現(xiàn)生產(chǎn)環(huán)境環(huán)境中,大數(shù)據(jù)的并行計(jì)算。通過(guò)數(shù)據(jù)獨(dú)立元素中鍵和值的對(duì)應(yīng)關(guān)系,和功能的劃分,將大量需要計(jì)算機(jī)處理的數(shù)據(jù)進(jìn)行分布式并行處理。

      4.9 配置slaves 文件。slaves 文件為hadoop 集群指定的從節(jié)點(diǎn)主機(jī)名單,進(jìn)入etc/hadoop 目錄,將slaves 文件中內(nèi)容修改為slave1 與slave2。

      4.10 配置hadoop-env.sh 文件。進(jìn)入etc/hadoop 目錄,編輯hadoop-env.sh 將export=JAVA_HOME 改為JDK 安裝目錄。10.拷貝hadoop 文件。因整個(gè)集群配置文件需要同步,直接將master整個(gè)hadoop 文件夾使用scp 復(fù)制到slave1 和slave2 的相同目錄中的方式完成配置。

      5 結(jié)論

      經(jīng)過(guò)近幾年的發(fā)展Hadoop 在大數(shù)據(jù)應(yīng)用方面得到大家的認(rèn)可和廣泛的應(yīng)用,主要得益于其自身的架構(gòu)優(yōu)勢(shì):數(shù)據(jù)提取、變形和加載(ETL)。Hadoop 主要是用將任務(wù)細(xì)化,分解的方式傳到其他多個(gè)云主機(jī)上,再將大哥節(jié)點(diǎn)數(shù)據(jù)放到reduce,這就對(duì)我們的布局提高了要求,要求數(shù)據(jù)引擎盡量的考到存儲(chǔ)單元,對(duì)我們的數(shù)據(jù)處理直接調(diào)用存儲(chǔ),有利于訪問(wèn)的速度,和效率。通過(guò)并行處理加快處理速度決定了,在處理計(jì)算機(jī)節(jié)點(diǎn)之間,利用計(jì)算機(jī)集群完成數(shù)據(jù)的并行分配,將這些數(shù)據(jù)分配到無(wú)數(shù)的云主機(jī)節(jié)點(diǎn)中,實(shí)現(xiàn)高效率,具有高擴(kuò)展的優(yōu)勢(shì)。

      通過(guò)在單臺(tái)物理機(jī)上搭建虛擬機(jī)的方式建立3 節(jié)點(diǎn)的Hadoop 集群,并進(jìn)行文本詞頻測(cè)試。我感受到了Hadoop 對(duì)于數(shù)據(jù)處理的強(qiáng)大能力。開(kāi)源的性質(zhì)決定了項(xiàng)目的軟件成本不會(huì)太高,在較低的資源情況下也能進(jìn)行較為高效、可靠的數(shù)據(jù)處理。

      同樣Hadoop 也還存在許多不足。由于Hadoop 架構(gòu)的原因,數(shù)據(jù)訪問(wèn)延遲增加,對(duì)于低延遲生產(chǎn)環(huán)境的不合適使用Hadoop,僅在吞吐量上做了優(yōu)化。同樣HDFS 不支持多用戶(hù)同時(shí)執(zhí)行寫(xiě)操作,即同一時(shí)間,只能有一個(gè)用戶(hù)執(zhí)行寫(xiě)操作,不適應(yīng)與頻繁的文件讀寫(xiě)。

      猜你喜歡
      數(shù)據(jù)處理虛擬化集群
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
      基于OpenStack虛擬化網(wǎng)絡(luò)管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
      電子制作(2019年10期)2019-06-17 11:45:10
      對(duì)基于Docker的虛擬化技術(shù)的幾點(diǎn)探討
      電子制作(2018年14期)2018-08-21 01:38:20
      一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      虛擬化技術(shù)在計(jì)算機(jī)技術(shù)創(chuàng)造中的應(yīng)用
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
      离岛区| 敖汉旗| 樟树市| 高陵县| 鄂伦春自治旗| 平远县| 三原县| 宁乡县| 右玉县| 天峨县| 昂仁县| 尤溪县| 桐城市| 郸城县| 民县| 彩票| 达孜县| 昌平区| 乌拉特后旗| 深州市| 剑阁县| 花莲县| 张家川| 商南县| 海伦市| 乐业县| 云和县| 桂东县| 富蕴县| 葫芦岛市| 尉犁县| 莱芜市| 屏东县| 二手房| 玛曲县| 论坛| 徐闻县| 平度市| 泗洪县| 北宁市| 永仁县|