• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop平臺(tái)的數(shù)據(jù)清洗研究

      2020-04-24 14:50:40范會(huì)麗彭寧任薇
      電腦知識(shí)與技術(shù) 2020年5期

      范會(huì)麗 彭寧 任薇

      摘要:各行各業(yè)數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)建設(shè)管理,數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)和總體數(shù)據(jù)質(zhì)量管理中涉及的重復(fù)數(shù)據(jù)、數(shù)據(jù)值缺失、錯(cuò)誤記錄、沒(méi)有意義的異常值等數(shù)據(jù)問(wèn)題越來(lái)越棘手。這三個(gè)領(lǐng)域也是數(shù)據(jù)清洗的主要領(lǐng)域?;诋?dāng)前現(xiàn)狀,結(jié)合當(dāng)前各大企業(yè)數(shù)據(jù)處理的平臺(tái),利用Hadoop平臺(tái)中的相關(guān)組件對(duì)企業(yè)中的完全重復(fù)的數(shù)據(jù)和相似重復(fù)的數(shù)據(jù)進(jìn)行清洗研究。

      關(guān)鍵詞:Hadoop平臺(tái);數(shù)據(jù)清洗;完全重復(fù)數(shù)據(jù);相似重復(fù)數(shù)據(jù)

      中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2020)05-0027-02

      開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      數(shù)據(jù)清洗(Data Cleaning)旨在提高數(shù)據(jù)質(zhì)量,為后續(xù)數(shù)據(jù)的使用做準(zhǔn)備,主要應(yīng)用在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)管理,數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)和總體數(shù)據(jù)質(zhì)量管理3個(gè)領(lǐng)域[1]。數(shù)據(jù)清洗主要是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)判斷識(shí)別,得到數(shù)據(jù)集含有的諸如錯(cuò)誤,無(wú)效,重復(fù)的數(shù)據(jù)等,再填補(bǔ)空值,最大可能地保證在數(shù)據(jù)真正使用和分析應(yīng)用前的正確性,從而提高數(shù)據(jù)決策的質(zhì)量?;ヂ?lián)網(wǎng)的普及給人類的生活帶來(lái)了極大的便利,但是人類產(chǎn)生的龐大數(shù)據(jù)也給互聯(lián)網(wǎng)的發(fā)展以及人類對(duì)互聯(lián)網(wǎng)的使用帶來(lái)了各種問(wèn)題。以數(shù)據(jù)倉(cāng)庫(kù)為例,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的復(fù)雜度以及數(shù)據(jù)冗余度的上升等。為了解決類似問(wèn)題,結(jié)合我國(guó)目前很多大型企業(yè)使用的大數(shù)據(jù)架構(gòu)都是Hadoop架構(gòu),因此本實(shí)驗(yàn)采用Hadoop架構(gòu)進(jìn)行完全重復(fù)數(shù)據(jù)和相似重復(fù)數(shù)據(jù)的處理,達(dá)到提高數(shù)據(jù)質(zhì)量。

      1 研究?jī)?nèi)容

      Hadoop是由Apache基金會(huì)開(kāi)發(fā)的一個(gè)開(kāi)源的分布式系統(tǒng)基礎(chǔ)架構(gòu),主要是對(duì)大文件(GB級(jí)別及以上)進(jìn)行存儲(chǔ)和管理[2]。它的主要功能是利用分布式架構(gòu)來(lái)存儲(chǔ)海量數(shù)據(jù)和實(shí)現(xiàn)分布式的計(jì)算。Hadoop架構(gòu)具有極好的可擴(kuò)展性和可用性[3]。Ha—doop的可擴(kuò)展性是由于其自身可以通過(guò)增加廉價(jià)的服務(wù)器個(gè)數(shù)從而增加整個(gè)集群的數(shù)據(jù)存儲(chǔ)量和提高集群的并行計(jì)算數(shù)據(jù)的速度。Hadoop的可用性是因?yàn)槠渥陨淼母北緳C(jī)制。在完全分布式的集群中,每個(gè)存儲(chǔ)數(shù)據(jù)的block(HDFS設(shè)計(jì)的存儲(chǔ)數(shù)據(jù)的基本單元是數(shù)據(jù)塊)的副本都有3個(gè)。當(dāng)其中一個(gè)副本丟失時(shí),集群中的DataNode利用心跳機(jī)制中NameNode發(fā)送的指令,通過(guò)管道進(jìn)行副本的復(fù)制,從而保證副本數(shù)量。Hadoop生態(tài)系統(tǒng)如下圖所示:

      HDFS(Hadoop Distributed File System):來(lái)源于《Coogle FileSystem》的一個(gè)高吞吐量的分布式文件系統(tǒng)。HDFS提供高吞吐率來(lái)訪問(wèn)數(shù)據(jù),適合具有海量數(shù)據(jù)的應(yīng)用需求[4],HDFS的主要功能就是提供一個(gè)存儲(chǔ)系統(tǒng),用來(lái)存儲(chǔ)海量數(shù)據(jù),未經(jīng)處理的數(shù)據(jù)和經(jīng)過(guò)處理的數(shù)據(jù)。

      MapReduce:谷歌工程師開(kāi)發(fā)的分布式計(jì)算模型。主要用于大規(guī)模數(shù)據(jù)的并行計(jì)算。MapReduce框架的節(jié)點(diǎn)由Job-Tracker和TaskTracker組成。JobTracker對(duì)人物進(jìn)行調(diào)度,管理多個(gè)TaskTracker;TaskTracker負(fù)責(zé)執(zhí)行任務(wù)。MapReduce處理數(shù)據(jù)是先經(jīng)過(guò)map處理,然后再經(jīng)過(guò)reduce處理。Map處理通過(guò)map函數(shù)自定義規(guī)則,將輸入值映射為key-value鍵值對(duì),再給reduce函數(shù)處理,reduce函數(shù)也根據(jù)需求自定義規(guī)則,將keyhash值相同的value進(jìn)行合并處理得到最終結(jié)果。本課題中,reduce階段處理輸出的結(jié)果再次存到HDFS中。

      ZooKeeper:分布式的協(xié)調(diào)服務(wù)框架,主要解決分布式系統(tǒng)中數(shù)據(jù)的一致性問(wèn)題。數(shù)據(jù)的一致性主要由Zookeeper的ZAB協(xié)議和過(guò)半原則來(lái)保證。Zookeeper類似于一個(gè)動(dòng)物管理員,對(duì)hadoop系統(tǒng)中的各個(gè)組件進(jìn)行協(xié)調(diào)管理。

      Hive:分布式數(shù)據(jù)倉(cāng)庫(kù)工具,提供數(shù)據(jù)整理、特殊查詢和分析存儲(chǔ)數(shù)據(jù)等功能。采用類似soL的操作語(yǔ)言HQL,通過(guò)編譯器底層轉(zhuǎn)化為MapReduce任務(wù)執(zhí)行。擁有針對(duì)大型數(shù)據(jù)集的查詢功能[5]。

      本實(shí)驗(yàn)中,主要涉及Hadoop的核心模塊是HDFS和Ma-pReduce。HDFS提供大量數(shù)據(jù)存儲(chǔ)的地方,MapReduce提供分布式計(jì)算的程序設(shè)計(jì)需要的編程接口,編寫(xiě)集群分布式并行程序,計(jì)算數(shù)據(jù)。

      實(shí)驗(yàn)過(guò)程中搭建的Hadoop集群如圖2所示。

      2 技術(shù)方案

      對(duì)于完全重復(fù)的數(shù)據(jù)的處理,實(shí)驗(yàn)中的Hadoop平臺(tái)是利用3臺(tái)CentOs系統(tǒng)的虛擬機(jī)搭建的一個(gè)小型Hadoop集群。其中涉及了Hadoop中的HDFS組件進(jìn)行大量數(shù)據(jù)的存儲(chǔ),使用MapReduce編寫(xiě)程序進(jìn)行完全重復(fù)數(shù)據(jù)的清洗處理;然后將處理后的沒(méi)有完全重復(fù)數(shù)據(jù)但是包含相似重復(fù)數(shù)據(jù)的文件再次存儲(chǔ)到HDFS中,為后續(xù)算法的處理做準(zhǔn)備。

      對(duì)于相似重復(fù)數(shù)據(jù)的處理,采用的是Windows 7系統(tǒng),運(yùn)行內(nèi)存8GB,使用Anaconda和Pvcharm的python語(yǔ)言環(huán)境。本文改進(jìn)的是編輯距離算法。并對(duì)改進(jìn)前和改進(jìn)后的編輯距離算法的處理結(jié)果進(jìn)行對(duì)比及反復(fù)調(diào)優(yōu),使能夠得到最理想的效果。

      參考文獻(xiàn):

      [1]葉鷗,張璨,李軍懷,中文數(shù)據(jù)清洗研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(14):121-129.

      [2] http://hadoop.apache.org/

      [3]李元亨,鄒學(xué)玉.Hadoop綜述[Jl.電腦知識(shí)與技術(shù),2018(3):8-19.

      [4]李亞.智能電網(wǎng)大數(shù)據(jù)在線分析與決策系統(tǒng)研究[Dl.北京:華北電力大學(xué),2017.

      [5]曾新勵(lì).基于Hadoop平臺(tái)的分布式web日志分析系統(tǒng)的研究與實(shí)現(xiàn)[D].西南石油大學(xué),2017.

      【通聯(lián)編輯:唐一東】(上接第6頁(yè))健康水平。與外部社交數(shù)據(jù)不同,來(lái)自傳感器的大數(shù)據(jù)公司可直接管理。

      4 小結(jié)

      大數(shù)據(jù)具有眾多特性,導(dǎo)致傳統(tǒng)的處理方式無(wú)法對(duì)其進(jìn)行分析,本文主要介紹了幾個(gè)有代表性大數(shù)據(jù)處理系統(tǒng),介紹了機(jī)器學(xué)習(xí)、可視化分析等大數(shù)據(jù)分析技術(shù),并對(duì)大數(shù)據(jù)在幾個(gè)行業(yè)中的應(yīng)用進(jìn)行了簡(jiǎn)單的介紹。

      參考文獻(xiàn):

      [1]程學(xué)旗,靳小龍,王元卓,等,大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889-1908.

      [2]何清,李寧,羅文娟,等,大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327-336.

      [3]路晶,大數(shù)據(jù)可視分析研究綜述[J].科技展望,2015,25(16):20.

      [4]沈榮,張保文.大數(shù)據(jù)分析和大數(shù)據(jù)處理技術(shù)研究綜述[J].電腦知識(shí)與技術(shù),2019,15(11):13-16.

      [5]武永成.基于云計(jì)算的大數(shù)據(jù)處理與分析綜述[J].軟件導(dǎo)刊,2016,15(12):161-163.

      【通聯(lián)編輯:光文玲】

      收稿日期:2019 -11-15

      作者簡(jiǎn)介:范會(huì)麗(1993-),山西太原人,碩士,主要研究方向?yàn)檐浖こ膛c信息系統(tǒng)集成技術(shù);彭寧(1994-),女,河北唐山人,碩士,千要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)與信息安全技術(shù);任薇(1995-),河北宣化人,碩士,主要研究方向?yàn)樽匀徽Z(yǔ)言處理。

      乌拉特后旗| 伊通| 湘潭县| 太湖县| 新昌县| 十堰市| 怀安县| 本溪市| 普兰店市| 无为县| 繁昌县| 建阳市| 安徽省| 大余县| 崇仁县| 新沂市| 庆安县| 静海县| 阿克陶县| 黔西县| 峡江县| 西贡区| 三穗县| 马龙县| 云梦县| 原阳县| 镇平县| 大埔县| 防城港市| 西充县| 五河县| 临武县| 建宁县| 阿合奇县| 象山县| 革吉县| 密山市| 乐业县| 平阳县| 奉节县| 裕民县|