• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Hadoop云存儲(chǔ)策略的研究與優(yōu)化

    2016-09-23 01:26:10林穗朱巖楊有科
    現(xiàn)代計(jì)算機(jī) 2016年2期
    關(guān)鍵詞:副本機(jī)架個(gè)數(shù)

    林穗,朱巖,楊有科

    (1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006;2.廣東訊飛啟明科技發(fā)展有限公司,廣州 510530)

    Hadoop云存儲(chǔ)策略的研究與優(yōu)化

    林穗1,朱巖1,楊有科2

    (1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006;2.廣東訊飛啟明科技發(fā)展有限公司,廣州510530)

    0 引言

    隨著互聯(lián)網(wǎng)的日益普及以及分布式計(jì)算的快速發(fā)展,各種網(wǎng)絡(luò)業(yè)務(wù)生成了海量的數(shù)據(jù)信息,對(duì)于這些數(shù)據(jù)的存儲(chǔ)和處理將成為新時(shí)代的研究難題和研究重點(diǎn)。云計(jì)算的普及恰恰解決了這個(gè)問(wèn)題,云計(jì)算因?yàn)槠淞畠r(jià)實(shí)用的基礎(chǔ)架構(gòu)成為越來(lái)越多公司存儲(chǔ)數(shù)據(jù)的首選。云計(jì)算是分布式計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化等傳統(tǒng)計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物[1]。而作為云計(jì)算的核心技術(shù)之一,海量數(shù)據(jù)的存儲(chǔ)也是在這種背景下得到了很好的研究和發(fā)展。它的存儲(chǔ)方式是采用分布式存儲(chǔ)實(shí)現(xiàn),從而能保證了可靠性、經(jīng)濟(jì)性以及高可用性?,F(xiàn)在比較常用的云計(jì)算框架有Amazon的EC2,IBM的智慧云,Google的GFS,Apache的Hadoop云計(jì)算框架[4,6]。因?yàn)镠adoop是開(kāi)源框架,且已經(jīng)被很多大型的公司應(yīng)用,如Facebook,亞馬遜,雅虎等,其技術(shù)已經(jīng)趨于成熟,其存儲(chǔ)模塊HDFS更是被廣泛的研究和應(yīng)用的熱點(diǎn)。

    1 HDFS簡(jiǎn)介

    Hadoop框架是Apache開(kāi)源基金組織旗下的一個(gè)在一般商用機(jī)器集群上運(yùn)行分布式并行計(jì)算的開(kāi)源框架,其核心設(shè)計(jì)思想是MapReduce和HDFS。MapReduce是Google提出的編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。它主要作用于對(duì)數(shù)據(jù)的處理,而它工作過(guò)程中會(huì)產(chǎn)生很多的中間數(shù)據(jù),這些中間數(shù)據(jù)就被暫存在Hadoop的另一個(gè)重要組成部分——HDFS中。

    HDFS(Hadoop Distributed File System)是一種分布式文件系統(tǒng),有著高容錯(cuò)性(fault-tolerent)的特點(diǎn),并且被設(shè)計(jì)部署在低廉的硬件上,它提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)以適合那些有著大量數(shù)據(jù)集的應(yīng)用程序。HDFS采用了主/從(Master/Slave)結(jié)構(gòu)模型,即一個(gè)Master多個(gè)Slave,前者叫做名字節(jié)點(diǎn)(NameNode),后者叫數(shù)據(jù)節(jié)點(diǎn)(DateNode),在集群系統(tǒng)中一般一個(gè)節(jié)點(diǎn)就是一個(gè)DateNode組成,DataNode管理著該節(jié)點(diǎn)的存儲(chǔ)。HDFS支持傳統(tǒng)的層次文件結(jié)構(gòu),同現(xiàn)有的一些文件系統(tǒng)很類似,你可以創(chuàng)建或刪除一個(gè)文件,把一個(gè)文件從這個(gè)目錄遷移到另一個(gè)目錄,重命名文件等。

    對(duì)于具體的文件數(shù)據(jù)來(lái)說(shuō),一個(gè)文件數(shù)據(jù)其實(shí)是被分割成一個(gè)一個(gè)的塊(HDFS中默認(rèn)是64M)被存儲(chǔ)的。這些塊冗余存儲(chǔ)在DataNode集合數(shù)據(jù)里。NameNode在集群系統(tǒng)中扮演著總管理者的身份,HDFS系統(tǒng)中文件的目錄結(jié)構(gòu)存儲(chǔ)在NameNode上。NameN-ode負(fù)責(zé)執(zhí)行文件系統(tǒng)的Namespace管理工作,同時(shí)負(fù)責(zé)維護(hù)數(shù)據(jù)塊到具體DataNode的映射??蛻魴C(jī)的讀寫(xiě)需求是通過(guò)DataNode節(jié)點(diǎn)響應(yīng),而DataNode在NameNode的統(tǒng)一管理下對(duì)數(shù)據(jù)塊進(jìn)行創(chuàng)建、刪除、復(fù)制操作。

    2 HDFS數(shù)據(jù)默認(rèn)存儲(chǔ)策略分析

    可靠而合理的對(duì)大規(guī)模數(shù)據(jù)進(jìn)行存儲(chǔ)是Hadoop框架研究的重點(diǎn)。因?yàn)樵贖DFS中是有許多集群構(gòu)架而成,節(jié)點(diǎn)眾多,而節(jié)點(diǎn)出現(xiàn)故障的可能性一直存在,為了避免個(gè)別節(jié)點(diǎn)失效而導(dǎo)致整個(gè)系統(tǒng)運(yùn)行異常導(dǎo)致數(shù)據(jù)永久性丟失,HDFS采取了副本策略,將數(shù)據(jù)的多個(gè)副本存儲(chǔ)在集群中不同節(jié)點(diǎn)上,這樣當(dāng)有節(jié)點(diǎn)失效時(shí),系統(tǒng)仍然可以讀取數(shù)據(jù)。為了保證數(shù)據(jù)的安全性,數(shù)據(jù)的副本應(yīng)該存儲(chǔ)在距離本節(jié)點(diǎn)較遠(yuǎn)的機(jī)架上,但是由于MapReduce要對(duì)數(shù)據(jù)進(jìn)行頻繁的操作,因而大量數(shù)據(jù)的移動(dòng)會(huì)顯得影響運(yùn)算的性能,所以數(shù)據(jù)存儲(chǔ)應(yīng)當(dāng)遵循本地性,即數(shù)據(jù)應(yīng)存儲(chǔ)在距離運(yùn)算節(jié)點(diǎn)較近的節(jié)點(diǎn)上,以減小數(shù)據(jù)移動(dòng)所帶來(lái)的性能損耗。

    針對(duì)這一問(wèn)題,默認(rèn)的HDFS系統(tǒng)采用了機(jī)架感知策略,即將數(shù)據(jù)塊的多個(gè)副本存放在本地機(jī)架的不同節(jié)點(diǎn)上,然后隨機(jī)選取一個(gè)遠(yuǎn)端機(jī)架某一節(jié)點(diǎn)存儲(chǔ)另外一個(gè)副本。這樣當(dāng)客戶發(fā)起讀取數(shù)據(jù)請(qǐng)求時(shí)就可以從本地節(jié)點(diǎn)讀取數(shù)據(jù),且當(dāng)本地節(jié)點(diǎn)失效時(shí),就可以從遠(yuǎn)端節(jié)點(diǎn)恢復(fù)數(shù)據(jù)。但是該策略在選取遠(yuǎn)端節(jié)點(diǎn)所采用的隨機(jī)策略卻可能導(dǎo)致數(shù)據(jù)恢復(fù)時(shí)不必要的性能損失,且所隨機(jī)選取的節(jié)點(diǎn)可能會(huì)因?yàn)閿?shù)據(jù)存儲(chǔ)量不同而導(dǎo)致數(shù)據(jù)負(fù)載不均衡。

    在HDFS中系統(tǒng)默認(rèn)的為數(shù)據(jù)存放三個(gè)副本,其默認(rèn)的存放策略如圖1所示。

    按照機(jī)架感知策略進(jìn)行存放,保證了數(shù)據(jù)良好的本地性;另外一個(gè)副本存放在隨機(jī)選擇的遠(yuǎn)端機(jī)架的一個(gè)節(jié)點(diǎn)上,保證了數(shù)據(jù)的安全性。如果還有更多的副本,則將其存放于在整個(gè)集群中隨機(jī)選取的節(jié)點(diǎn)。只有當(dāng)整個(gè)本地節(jié)點(diǎn)失效時(shí),HDFS才會(huì)通過(guò)復(fù)制遠(yuǎn)端機(jī)架上的數(shù)據(jù)副本來(lái)恢復(fù)到標(biāo)準(zhǔn)的副本數(shù)量。

    圖1 HDFS默認(rèn)副本存儲(chǔ)示意

    在HDFS默認(rèn)的數(shù)據(jù)存放策略中,較好地平衡了數(shù)據(jù)的本地性和平衡性,但由于HDFS的集群框架由大量廉價(jià)設(shè)備所組成,系統(tǒng)中常常存在程序bug,操作系統(tǒng)崩潰,人為操作失誤等不可預(yù)知錯(cuò)誤所導(dǎo)致的節(jié)點(diǎn)失效。這種情況時(shí)有發(fā)生,所以數(shù)據(jù)恢復(fù)是系統(tǒng)運(yùn)行的常態(tài)。而數(shù)據(jù)恢復(fù)所占用的時(shí)間就成了影響整個(gè)系統(tǒng)性能的一個(gè)重要因素。因?yàn)槠洳捎玫氖请S機(jī)選取遠(yuǎn)端機(jī)架節(jié)點(diǎn)的策略,如果副本存放在較遠(yuǎn)的機(jī)架上,當(dāng)數(shù)據(jù)副本恢復(fù)時(shí)就會(huì)因?yàn)楹馁M(fèi)過(guò)長(zhǎng)的時(shí)間而造成整個(gè)系統(tǒng)的時(shí)間損失。另外,因?yàn)椴捎玫氖请S機(jī)選取遠(yuǎn)端機(jī)架節(jié)點(diǎn),可能在系統(tǒng)運(yùn)行的過(guò)程中會(huì)出現(xiàn)有些節(jié)點(diǎn)存儲(chǔ)了很多數(shù)據(jù)而有的節(jié)點(diǎn)卻存儲(chǔ)很少數(shù)據(jù),影響了數(shù)據(jù)的平衡性,當(dāng)新的節(jié)點(diǎn)加入整個(gè)集群時(shí)這種情況尤其明顯。雖然在HDFS中提出了Balancer程序可以對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行相應(yīng)的存儲(chǔ)負(fù)載平衡,但是在調(diào)用Balancer程序的時(shí)候,不會(huì)將數(shù)據(jù)中一個(gè)節(jié)點(diǎn)移動(dòng)到另一個(gè)節(jié)點(diǎn)中,需要手動(dòng)進(jìn)行操作,且占用很大的網(wǎng)絡(luò)帶寬。

    針對(duì)默認(rèn)存儲(chǔ)策略的這些問(wèn)題,對(duì)HDFS系統(tǒng)中數(shù)據(jù)副本個(gè)數(shù)以及節(jié)點(diǎn)的選擇進(jìn)行研究,綜合考慮遠(yuǎn)端網(wǎng)絡(luò)節(jié)點(diǎn)的距離,數(shù)據(jù)節(jié)點(diǎn)的負(fù)載均衡,副本數(shù)量個(gè)數(shù)的優(yōu)化,可以提升HDFS系統(tǒng)的性能。

    3 改進(jìn)的HDFS存儲(chǔ)策略

    由于HDFS的默認(rèn)數(shù)據(jù)副本存儲(chǔ)是3個(gè),這種策略的使用會(huì)提高數(shù)據(jù)的可靠性同時(shí)也可以實(shí)現(xiàn)數(shù)據(jù)并發(fā)讀性能要求,但是若將全部的數(shù)據(jù)都按照3個(gè)副本的數(shù)量存儲(chǔ)的話,可能會(huì)造成存儲(chǔ)空間的浪費(fèi)、系統(tǒng)性能的損失以及維護(hù)成本的提升。因?yàn)樵谡麄€(gè)集群中各個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)環(huán)境或者是硬件性能都有所差異,因此其各個(gè)節(jié)點(diǎn)的數(shù)據(jù)可用性不盡相同。據(jù)此根據(jù)數(shù)據(jù)節(jié)點(diǎn)的失效率、數(shù)據(jù)塊的可用性提出了一種基于概率模型的數(shù)據(jù)復(fù)制策略。

    該策略的核心思想是:建立基于概率的數(shù)據(jù)復(fù)制優(yōu)化模型。綜合考慮以上幾種問(wèn)題,通過(guò)求解模型并在滿足數(shù)據(jù)可用性的要求下優(yōu)化數(shù)據(jù)的復(fù)制個(gè)數(shù)。下面對(duì)這種模型做出具體的描述。

    假設(shè)在Hadoop系統(tǒng)中有m個(gè)數(shù)據(jù)塊需要存儲(chǔ)在n個(gè)數(shù)據(jù)節(jié)點(diǎn)中。假設(shè)fi是數(shù)據(jù)節(jié)點(diǎn)的失效概率(0<i<n+1),預(yù)先對(duì)數(shù)據(jù)塊j的設(shè)計(jì)的復(fù)制個(gè)數(shù)為rj(0<j<m+ 1),概率事件P(Ni)表示節(jié)點(diǎn)i的可用性,用概率事件P(Bj)表示數(shù)據(jù)塊j的可用性,則其失效率(Bj),因?yàn)樵谙到y(tǒng)中每個(gè)數(shù)據(jù)塊的復(fù)制份數(shù)為rj,且每個(gè)數(shù)據(jù)塊副本都存在各自獨(dú)立的數(shù)據(jù)節(jié)點(diǎn)上,因此數(shù)據(jù)塊Bj的失效率為:

    假設(shè)一個(gè)文件F是由c個(gè)數(shù)據(jù)塊組成,且每個(gè)文件塊的存放相互獨(dú)立。則整個(gè)文件F的失效率為:

    則此文件的可用性為:

    我們假設(shè)希望數(shù)據(jù)的可用性是E,則理論上E應(yīng)該滿足不等式:

    這樣我們就可以提前預(yù)設(shè)一個(gè)數(shù)據(jù)的期望可用性E,并根約束不等式來(lái)計(jì)算出優(yōu)化后的數(shù)據(jù)復(fù)制個(gè)數(shù)。為了保證整個(gè)系統(tǒng)數(shù)據(jù)的安全性,數(shù)據(jù)副本個(gè)數(shù)rj∈[2,4]。

    根據(jù)HDFS默認(rèn)的數(shù)據(jù)放置策略可知,在默認(rèn)的副本個(gè)數(shù)即3個(gè)情況下,其中有一個(gè)副本是要安置在遠(yuǎn)端機(jī)架上的某個(gè)節(jié)點(diǎn),因?yàn)椴扇〉碾S機(jī)選擇策略,所選擇的遠(yuǎn)端節(jié)點(diǎn)可能會(huì)距離本地節(jié)點(diǎn)較遠(yuǎn),從而影響數(shù)據(jù)復(fù)制或者恢復(fù)的效率。

    因此,在選擇遠(yuǎn)端節(jié)點(diǎn)進(jìn)行副本存儲(chǔ)的時(shí)候綜合考慮節(jié)點(diǎn)所在網(wǎng)絡(luò)的帶寬,以及遠(yuǎn)端節(jié)點(diǎn)與本地節(jié)點(diǎn)的距離。雖然根據(jù)公式(1)計(jì)算出的副本個(gè)數(shù)可能低于3,但是還是要確保一個(gè)副本存儲(chǔ)在遠(yuǎn)端節(jié)點(diǎn),這是為了保證數(shù)據(jù)的安全可靠性,這樣在本地機(jī)架發(fā)生故障的時(shí)候,仍然可以確保數(shù)據(jù)恢復(fù)成功。將數(shù)據(jù)存放在距離本地節(jié)點(diǎn)較近的機(jī)架上可以是數(shù)據(jù)的傳輸較快完成,從而提升數(shù)據(jù)存儲(chǔ)或恢復(fù)時(shí)的性能。另外,用來(lái)存放數(shù)據(jù)副本的存儲(chǔ)節(jié)點(diǎn)的負(fù)載應(yīng)該保持一定的均衡,防止出現(xiàn)節(jié)點(diǎn)空轉(zhuǎn)或者節(jié)點(diǎn)負(fù)載過(guò)重的現(xiàn)象,提高節(jié)點(diǎn)的利用率。

    NameNode選擇DataNode存儲(chǔ)數(shù)據(jù)副本的時(shí)候,可以綜合考慮這兩方面的因素,先從集群中選取一定數(shù)量的不同機(jī)架的DataNode,再獲取各個(gè)DataNode距離本地節(jié)點(diǎn)的距離信息和其本身的負(fù)載信息,結(jié)合這兩方面信息從而給出一個(gè)評(píng)價(jià)系數(shù)V,最后NameNode根據(jù)V的值選取合適的DataNode進(jìn)行副本存儲(chǔ),過(guò)程如圖2所示。

    圖2 DataNode評(píng)價(jià)系數(shù)的選擇

    如上面所說(shuō),對(duì)于每一個(gè)節(jié)點(diǎn),都會(huì)根據(jù)其當(dāng)前的負(fù)載信息和距離計(jì)算出一個(gè)評(píng)價(jià)系數(shù)V,其具體的計(jì)算公式可表示為:

    其中l(wèi)為節(jié)點(diǎn)的負(fù)載系數(shù),與節(jié)點(diǎn)當(dāng)前的存儲(chǔ)狀況成負(fù)比關(guān)系。d為節(jié)點(diǎn)的距離系數(shù),反比與該DataNode與當(dāng)前DataNode的距離。B表示平衡因子,B∈[0,1],反映在系統(tǒng)中與d的權(quán)重。B可由系統(tǒng)管理人員根據(jù)系統(tǒng)的負(fù)載要求和傳輸要求自行設(shè)置。

    在Hadoop中距離的計(jì)算是將整個(gè)集群網(wǎng)絡(luò)看成是樹(shù)的結(jié)構(gòu),而兩個(gè)節(jié)點(diǎn)之間的距離就是這兩個(gè)節(jié)點(diǎn)分別到共同祖先節(jié)點(diǎn)的距離之和。同一個(gè)機(jī)架上的兩個(gè)節(jié)點(diǎn)距離是2,同一數(shù)據(jù)中心不同機(jī)架上的節(jié)點(diǎn)之間的距離為4,對(duì)于不同數(shù)據(jù)中心之間兩個(gè)節(jié)點(diǎn)之間的距離則要視情況而定。

    整個(gè)改進(jìn)放置策略的算法表示:

    ①當(dāng)有新的數(shù)據(jù)塊到達(dá)要進(jìn)行副本存儲(chǔ)。根據(jù)公式(1)計(jì)算出要存儲(chǔ)的副本個(gè)數(shù)C,根據(jù)副本存儲(chǔ)規(guī)則計(jì)算出所需要選取的遠(yuǎn)端節(jié)點(diǎn)M的個(gè)數(shù)。

    ②如果已經(jīng)選取的節(jié)點(diǎn)小于指定值N(N≤機(jī)架總數(shù)),并將已經(jīng)選取的節(jié)點(diǎn)加入節(jié)點(diǎn)集nodeList,然后隨機(jī)選取節(jié)點(diǎn)randomNode。

    ③如果randomNode與nodeList中的任意節(jié)點(diǎn)都不在都一個(gè)機(jī)架上,那么將randomNode加入nodeList。遍歷nodeList,如果在nodeList中存在待評(píng)價(jià)的節(jié)點(diǎn),對(duì)這些節(jié)點(diǎn)逐個(gè)計(jì)算評(píng)價(jià)系數(shù)V。

    ④將所有節(jié)點(diǎn)的V加入評(píng)價(jià)系數(shù)列表ValueList。

    ⑤將ValueList按降序排序。選擇V值最高的M個(gè)節(jié)點(diǎn)。其中M是所需要的遠(yuǎn)端節(jié)點(diǎn)的個(gè)數(shù),由C確定。

    ⑥返回這M個(gè)已經(jīng)選取的節(jié)點(diǎn)。

    4 實(shí)驗(yàn)結(jié)果與分析

    采用的仿真平臺(tái)由5臺(tái)普通PC以及一臺(tái)客戶端PC組成的,其中一臺(tái)PC作為控制節(jié)點(diǎn),另外四臺(tái)作為數(shù)據(jù)節(jié)點(diǎn),基本配置如表1。整個(gè)仿真平臺(tái)運(yùn)行在千兆內(nèi)網(wǎng)內(nèi)的,操作系統(tǒng)選用 Ubuntu 11.10 server,對(duì)Hadoop中六個(gè)配置文件進(jìn)行配置,完成Hadoop平臺(tái)的整體部署。

    表1 平臺(tái)機(jī)器配置

    實(shí)驗(yàn)選取不同規(guī)模的數(shù)據(jù)集,比較默認(rèn)存儲(chǔ)策略與優(yōu)化后的策略所需要的存儲(chǔ)時(shí)間。選擇的數(shù)據(jù)集大小是64M,96M,128M,256M,512M,768M,1G,分別設(shè)置評(píng)價(jià)系數(shù)為0.35和0.5,得到存儲(chǔ)時(shí)間綜合對(duì)比如圖3所示??梢钥吹?,當(dāng)存儲(chǔ)數(shù)據(jù)規(guī)模較小時(shí),改進(jìn)策略比默認(rèn)策略的存儲(chǔ)時(shí)間接近,性能改善并不明顯。但隨著存儲(chǔ)大規(guī)模數(shù)據(jù)時(shí),改進(jìn)策略因?yàn)槠錅p少了不必要的數(shù)據(jù)傳輸時(shí)間和有效控制了副本個(gè)數(shù),存儲(chǔ)時(shí)間隨著數(shù)據(jù)塊的增大而減緩增長(zhǎng),存儲(chǔ)性能的優(yōu)勢(shì)逐漸體現(xiàn)。同時(shí),設(shè)置的評(píng)價(jià)系數(shù)小即設(shè)置的網(wǎng)絡(luò)距離的權(quán)重高,存儲(chǔ)的時(shí)間也會(huì)隨之降低。改進(jìn)策略通過(guò)用戶可配置的方式,讓用戶根據(jù)實(shí)際需要來(lái)設(shè)置評(píng)價(jià)系數(shù),增加了用戶的體驗(yàn)性。

    圖3 存儲(chǔ)時(shí)間對(duì)比圖

    5 結(jié)語(yǔ)

    云計(jì)算環(huán)境下的分布存儲(chǔ)主要研究數(shù)據(jù)在數(shù)據(jù)中心上的組織和管理,數(shù)據(jù)中心通常由百萬(wàn)級(jí)以上節(jié)點(diǎn)組成,存儲(chǔ)其上的數(shù)據(jù)規(guī)模往往達(dá)到PB級(jí)甚至EB級(jí),數(shù)據(jù)失效將會(huì)極大地限制了云計(jì)算的應(yīng)用和推廣。因此,提高云存儲(chǔ)的可擴(kuò)展性和容錯(cuò)性成為關(guān)鍵。論文重點(diǎn)研究基于復(fù)制的容錯(cuò)技術(shù)中的數(shù)據(jù)復(fù)制策略,包括副本的創(chuàng)建時(shí)機(jī)、副本的數(shù)量、副本的放置等問(wèn)題。通過(guò)對(duì)副本個(gè)數(shù)的靈活性選擇,避免了不必要的數(shù)據(jù)復(fù)制;通過(guò)計(jì)算節(jié)點(diǎn)的評(píng)價(jià)系數(shù),避免了數(shù)據(jù)傳輸及恢復(fù)時(shí)因?yàn)榫嚯x過(guò)遠(yuǎn)導(dǎo)致的數(shù)據(jù)傳輸時(shí)間損失。實(shí)驗(yàn)表明,隨著數(shù)據(jù)規(guī)模的增加,改進(jìn)后的策略提高了系統(tǒng)的存儲(chǔ)性能。

    [1]李喬,鄭嘯.云計(jì)算研究現(xiàn)狀綜述[J].計(jì)算機(jī)科學(xué),2011,38(4):32-37.

    [2]Tom Wbite.Hadoop權(quán)威指南[M].周敏奇,王曉玲,金澈清等譯.北京:清華大學(xué)出版社,2011.

    [3]張興旺,李晨暉,秦曉珠.構(gòu)建于廉價(jià)計(jì)算機(jī)集群上的云存儲(chǔ)的研究與初步實(shí)現(xiàn)[J].情報(bào)雜志,2011.30(11):166-172.

    [4]秦秀磊,張文博,魏峻等.云計(jì)算環(huán)境下分布式緩存技術(shù)的現(xiàn)狀與挑戰(zhàn)[J].軟件學(xué)報(bào).2013,24(1):50-66.

    [5]王意潔,孫偉東,周松等.云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012,23(4):962-986.

    [6]Dhruba Borthakur,Jonathan Gray,Joydeep Sen Sarma,et al.Apache Hadoop Goes Realtime at Facebook[C].Proceedings of the 2011 International Conference on Management of data,2011:1071-1080.

    [7]馮登國(guó),張敏,張妍等.云計(jì)算安全研究[J].軟件學(xué)報(bào),2011,22(1):71-83

    HDFS;Storage Strategy;Data Copy;Evaluation Coefficient

    Research and Optimization of the Hadoop Cloud Storage Strategy

    LIN Sui1,ZHU Yan1,YANG You-ke2
    (1.School of Computer,Guangdong University of Technology,Guangzhou 510006;2.Guangdong Moring Star Technology CO.LTD.,Guangzhou 510530)

    1007-1423(2016)02-0033-05

    10.3969/j.issn.1007-1423.2016.02.008

    林穗(1972-),女,廣東人,副教授,研究方向?yàn)樵朴?jì)算、云存儲(chǔ)等

    朱巖(1990-),男,山東人,碩士,研究方向?yàn)樵拼鎯?chǔ)

    楊有科(1977-),男,廣東人,研究方向?yàn)榇髷?shù)據(jù)與云計(jì)算

    2015-12-04

    2015-12-30

    分布式文件系統(tǒng)(HDFS)是海量數(shù)據(jù)的主要存儲(chǔ)方式。HDFS默認(rèn)的存儲(chǔ)策略中,采用固定的數(shù)據(jù)副本個(gè)數(shù)以及隨機(jī)選擇遠(yuǎn)端節(jié)點(diǎn)的策略來(lái)保證數(shù)據(jù)的本地性和安全性,但當(dāng)系統(tǒng)發(fā)生故障需要進(jìn)行數(shù)據(jù)恢復(fù)時(shí),默認(rèn)策略將會(huì)造成系統(tǒng)時(shí)間的損失和節(jié)點(diǎn)存儲(chǔ)負(fù)載的不均衡。提出一種改進(jìn)的HDFS存儲(chǔ)策略,根據(jù)節(jié)點(diǎn)的失效率以及期望的數(shù)據(jù)可用性建立一種概率模型,通過(guò)模型來(lái)優(yōu)化數(shù)據(jù)副本個(gè)數(shù),并根據(jù)節(jié)點(diǎn)的評(píng)價(jià)系數(shù)來(lái)選擇遠(yuǎn)端節(jié)點(diǎn)進(jìn)行副本存儲(chǔ)。實(shí)驗(yàn)結(jié)果表明該策略針對(duì)海量數(shù)據(jù)時(shí)提高系統(tǒng)的存儲(chǔ)性能。

    分布式文件系統(tǒng);存儲(chǔ)策略;數(shù)據(jù)副本;評(píng)價(jià)系數(shù)

    廣州市科技項(xiàng)目(No.2014XYD-007)

    HDFS is the main storage method of massive data.In the default storage strategy,HDFS uses fixed data replica and randomly chooses remote node to ensure data locality and security.However,when system needs data recovery because of system fault,random strategy will cause loss of system time and imbalance of node storage load.In this case,puts forward an improved HDFS storage strategy to generate a probability model based on node failure rate and expected data availability.It can optimize the number of data replica by the model and select remote node as copy storage according to its evaluation coefficient.The experiment result shows the strategy can improve system performance aiming at massive data.

    猜你喜歡
    副本機(jī)架個(gè)數(shù)
    怎樣數(shù)出小正方體的個(gè)數(shù)
    別忽略它的存在!“意大利新一代架皇”BAS Accordeon(雅歌頓)XL4 2.0發(fā)燒機(jī)架
    等腰三角形個(gè)數(shù)探索
    怎樣數(shù)出小木塊的個(gè)數(shù)
    面向流媒體基于蟻群的副本選擇算法①
    怎樣數(shù)出小正方體的個(gè)數(shù)
    副本放置中的更新策略及算法*
    熱軋拉矯機(jī)機(jī)架加工討論
    樹(shù)形網(wǎng)絡(luò)中的副本更新策略及算法*
    雙機(jī)架平整機(jī)板形控制算法及其應(yīng)用
    上海金屬(2013年6期)2013-12-20 07:58:02
    来安县| 靖远县| 双鸭山市| 阿克陶县| 专栏| 临潭县| 黔江区| 辽中县| 南郑县| 信宜市| 北票市| 青田县| 贵州省| 隆德县| 汶上县| 肇东市| 舒兰市| 景泰县| 辽源市| 南安市| 云霄县| 青岛市| 千阳县| 利川市| 安阳市| 梨树县| 苏州市| 松溪县| 铜梁县| 乳山市| 延庆县| 沅陵县| 绩溪县| 亳州市| 化隆| 大同市| 赫章县| 岳阳县| 高州市| 成安县| 江都市|