• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      HDFS動(dòng)態(tài)副本因子的優(yōu)化研究

      2018-07-25 12:05:34梁勝昔
      關(guān)鍵詞:副本調(diào)整決策

      宗 平,梁勝昔

      (1.南京郵電大學(xué) 海外教育學(xué)院,江蘇 南京 210023;2.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210023)

      0 引 言

      在云計(jì)算環(huán)境下的數(shù)據(jù)存儲(chǔ)過(guò)程中,數(shù)據(jù)副本對(duì)于提高系統(tǒng)可用性和可靠性,以及降低并發(fā)訪問(wèn)的響應(yīng)時(shí)間發(fā)揮著重要作用。針對(duì)云計(jì)算環(huán)境下默認(rèn)副本因子機(jī)制存在的不足,很多學(xué)者提出了對(duì)副本因子的改進(jìn)措施,主要集中在對(duì)默認(rèn)副本因子的動(dòng)態(tài)調(diào)整上。

      文獻(xiàn)[1]利用馬爾可夫模型獲取文件訪問(wèn)熱度并修正預(yù)測(cè)偏差以對(duì)默認(rèn)副本因子進(jìn)行更加準(zhǔn)確的調(diào)整。文獻(xiàn)[2]通過(guò)數(shù)據(jù)中心選舉和動(dòng)態(tài)副本管理策略,同時(shí)結(jié)合近期最少使用算法LRU,做到了副本數(shù)量?jī)?yōu)化和系統(tǒng)性能的均衡。文獻(xiàn)[3]通過(guò)建立概率優(yōu)化模型,根據(jù)約束不等式來(lái)計(jì)算優(yōu)化后的副本數(shù)量,同時(shí)在遠(yuǎn)端節(jié)點(diǎn)選擇中引入節(jié)點(diǎn)評(píng)價(jià)系數(shù)以?xún)?yōu)化副本的放置。文獻(xiàn)[4]提出的動(dòng)態(tài)副本創(chuàng)建算法(DRCA)將副本調(diào)整劃分為復(fù)制、保持和刪除三個(gè)階段,結(jié)合文件訪問(wèn)頻率算法進(jìn)行文件訪問(wèn)熱度的預(yù)測(cè),并綜合考慮了其他多種因素對(duì)副本數(shù)量進(jìn)行動(dòng)態(tài)調(diào)整,從而有效降低了文件訪問(wèn)的時(shí)間消耗。文獻(xiàn)[5]結(jié)合文件block的訪問(wèn)頻率,提出了一種基于訪問(wèn)頻率的副本算法,通過(guò)計(jì)算文件block的本地和全局支持率,同時(shí)考慮了block訪問(wèn)頻率,以?xún)?yōu)化副本數(shù)量,從而達(dá)到降低存儲(chǔ)空間消耗的目的。事實(shí)上,目前云環(huán)境下的副本因子策略主要分為靜態(tài)副本因子策略和動(dòng)態(tài)副本因子策略?xún)纱箢?lèi)[6],默認(rèn)的副本因子一般采用靜態(tài)副本策略,由于靜態(tài)副本策略在云環(huán)境下存在諸多不足,目前研究熱點(diǎn)主要集中在如何通過(guò)動(dòng)態(tài)地調(diào)整副本數(shù)量,在提高性能和可靠性的同時(shí),有效降低副本維護(hù)的代價(jià)。

      1 Hadoop默認(rèn)副本策略及其存在的問(wèn)題

      開(kāi)源云計(jì)算框架Apache Hadoop[7]的出現(xiàn),為人類(lèi)在大數(shù)據(jù)時(shí)代更加科學(xué)高效地存儲(chǔ)及處理海量數(shù)據(jù)提供了有力支持,作為Google云計(jì)算模型基于Java的開(kāi)源實(shí)現(xiàn),逐漸成為企業(yè)將應(yīng)用遷移到云中的一個(gè)有效方案。在實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)時(shí),Hadoop主要借助開(kāi)源的分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)來(lái)實(shí)現(xiàn)文件的高效和可靠性存儲(chǔ),然而HDFS默認(rèn)的副本機(jī)制卻成為制約其性能和可靠性提高的一項(xiàng)重要因素[8-11]。

      1.1 Hadoop分布式文件系統(tǒng)

      HDFS[12-14]主要基于廉價(jià)的分布式機(jī)器集群,為整個(gè)系統(tǒng)提供高可靠、高性能、可擴(kuò)展和容錯(cuò)性強(qiáng)的分布式存儲(chǔ)服務(wù)。HDFS采取典型的Master/Slave架構(gòu),主要由NameNode、DataNode、SecondaryNameNode三個(gè)組件組成,如圖1所示。

      圖1 HDFS主要結(jié)構(gòu)示意圖

      其中NameNode是Master節(jié)點(diǎn),負(fù)責(zé)存儲(chǔ)整個(gè)集群的元數(shù)據(jù)信息,對(duì)集群中眾多的DataNode節(jié)點(diǎn)進(jìn)行統(tǒng)一管理和維護(hù),同時(shí)控制DataNode從節(jié)點(diǎn)進(jìn)行相應(yīng)的I/O操作;NameNode節(jié)點(diǎn)在整個(gè)集群中起到了重要的管理和控制角色,為防止發(fā)生單點(diǎn)故障,系統(tǒng)中設(shè)計(jì)了SecondaryNameNode節(jié)點(diǎn)以實(shí)現(xiàn)對(duì)NameNode的備份。DataNode主要負(fù)責(zé)存儲(chǔ)具體的文件數(shù)據(jù),并負(fù)責(zé)接受文件的讀/寫(xiě)請(qǐng)求。由于分布式集群中的機(jī)器為廉價(jià)機(jī)器,存在很大的宕機(jī)可能性,HDFS通過(guò)多副本備份機(jī)制來(lái)提高系統(tǒng)的可靠性和穩(wěn)定性,同時(shí)這些分布在集群中的多副本還可以提高M(jìn)apReduce的計(jì)算性能。

      1.2 默認(rèn)的副本管理機(jī)制

      目前主流的副本因子管理策略主要分為兩種:靜態(tài)策略和動(dòng)態(tài)策略。靜態(tài)副本管理策略通過(guò)預(yù)先配置的副本因子,是一種較為簡(jiǎn)單的副本因子實(shí)現(xiàn)機(jī)制,但缺乏靈活性,無(wú)法適應(yīng)系統(tǒng)環(huán)境的變化。過(guò)低的副本因子對(duì)系統(tǒng)的可靠性和性能會(huì)造成影響,過(guò)高的副本因子則會(huì)極大增加存儲(chǔ)空間的消耗,尤其在大數(shù)據(jù)時(shí)代,用戶(hù)數(shù)據(jù)量可以達(dá)到PB、EB級(jí)甚至更高,如果一味通過(guò)增加副本因子來(lái)提高系統(tǒng)性能和可靠性,無(wú)疑會(huì)對(duì)存儲(chǔ)空間利用提出巨大挑戰(zhàn),因此副本因子管理機(jī)制需要做到系統(tǒng)性能及可靠性和存儲(chǔ)代價(jià)的均衡與折中。目前Hadoop系統(tǒng)默認(rèn)采用靜態(tài)副本機(jī)制,存在較大的優(yōu)化空間。

      動(dòng)態(tài)副本因子策略能更好地適應(yīng)用戶(hù)訪問(wèn)頻率、存儲(chǔ)空間、系統(tǒng)帶寬、系統(tǒng)響應(yīng)時(shí)間和網(wǎng)絡(luò)拓?fù)涞鹊淖兓?,在運(yùn)行時(shí)刻動(dòng)態(tài)地調(diào)整副本因子,根據(jù)評(píng)價(jià)指標(biāo)對(duì)副本數(shù)量進(jìn)行適應(yīng)性的增加、減少或者保持。動(dòng)態(tài)副本因子往往能夠更好地滿足云計(jì)算中多用戶(hù)和異構(gòu)存儲(chǔ)環(huán)境下的數(shù)據(jù)訪問(wèn)需求,具有更大的靈活性和針對(duì)性,同時(shí)能做到性能、可靠性與存儲(chǔ)代價(jià)等的有效折中。

      1.3 存在的問(wèn)題分析

      HDFS默認(rèn)采用3副本的靜態(tài)副本機(jī)制,不能較好地適應(yīng)系統(tǒng)的動(dòng)態(tài)變化,包括用戶(hù)訪問(wèn)頻率、異構(gòu)節(jié)點(diǎn)性能和結(jié)構(gòu)等的差異,尤其在云計(jì)算中多用戶(hù)環(huán)境下,不同用戶(hù)對(duì)不同文件的訪問(wèn)頻率存在較大差異,即文件的訪問(wèn)熱度差異較大。如果對(duì)訪問(wèn)熱度存在較大差異性的不同文件采取統(tǒng)一的副本因子機(jī)制,熱度偏高的文件因?yàn)楦北疽蜃舆^(guò)小而不能很好地應(yīng)對(duì)較高頻率的訪問(wèn)需求,熱度偏低的文件因保留過(guò)多的副本數(shù)而造成存儲(chǔ)空間的浪費(fèi)。因此動(dòng)態(tài)副本機(jī)制是解決多用戶(hù)環(huán)境下,文件訪問(wèn)熱度不均對(duì)文件訪問(wèn)響應(yīng)時(shí)間以及網(wǎng)絡(luò)負(fù)載造成影響的一種有效方案。但在采取動(dòng)態(tài)副本因子策略的同時(shí),也需要對(duì)待調(diào)整副本因子的文件進(jìn)行有效篩選,如果對(duì)所有文件采取統(tǒng)一的副本因子動(dòng)態(tài)調(diào)整策略會(huì)帶來(lái)較大的時(shí)間和空間上的消耗,同時(shí)副本調(diào)整策略還需要能夠有效應(yīng)對(duì)文件訪問(wèn)的突發(fā)性需求[15],能夠在文件熱度突增的情況下保持較高的數(shù)據(jù)訪問(wèn)性能。

      2 改進(jìn)的動(dòng)態(tài)副本因子調(diào)整策略

      針對(duì)HDFS默認(rèn)靜態(tài)副本策略在文件訪問(wèn)熱度分布不均的情況下所存在的不足,以及現(xiàn)有的動(dòng)態(tài)副本策略在進(jìn)行副本因子調(diào)整時(shí)存在的統(tǒng)一決策和調(diào)整的問(wèn)題,提出了一種改進(jìn)的動(dòng)態(tài)副本因子調(diào)整策略。該策略在根據(jù)文件的訪問(wèn)熱度進(jìn)行副本因子調(diào)整的同時(shí),還考慮了不同文件熱度的優(yōu)先級(jí),并且根據(jù)兩種不同長(zhǎng)度的時(shí)間區(qū)間進(jìn)行副本因子的調(diào)整決策,從而可以很好地適應(yīng)文件訪問(wèn)熱度突增的情況。

      2.1 相關(guān)符號(hào)及定義

      假設(shè)集群中存在的文件數(shù)目為n,文件集合記為F={f1,f2,…,fn}。對(duì)于文件fk∈F(k∈[1,n]),fk被切分成nk個(gè)block分別存儲(chǔ)在不同的DataNode節(jié)點(diǎn)上,fk被切分成的block集合記為Bk={b1,b2,…,bnk},每個(gè)block的大小是bsj(其中j∈[1,nk]),fk的副本數(shù)目記為brk。

      (1)文件fk在tnow時(shí)刻的訪問(wèn)熱度FHk。

      (1)

      其中,ak(ti,ti+1)是文件fk在時(shí)間區(qū)間(ti,ti+1)內(nèi)的文件訪問(wèn)次數(shù);函數(shù)decay(ti,tnow)是文件訪問(wèn)次數(shù)對(duì)文件熱度影響的衰減函數(shù),在時(shí)間區(qū)間(ti,tnow)內(nèi),decay(ti,tnow)定義為:

      decay(ti,tnow)=e-(tnow-ti)m,m∈{1,2,3…}

      (2)

      根據(jù)數(shù)據(jù)訪問(wèn)的時(shí)間局部性原理,當(dāng)前被頻繁訪問(wèn)的文件在未來(lái)的一定時(shí)間范圍內(nèi)存在較高的被再次訪問(wèn)的概率,因此可以根據(jù)當(dāng)前時(shí)間之前一段時(shí)間區(qū)間內(nèi)的用戶(hù)文件訪問(wèn)次數(shù)對(duì)其未來(lái)訪問(wèn)熱度進(jìn)行預(yù)測(cè)。文件fk在tnow時(shí)刻的文件熱度FHk的大小依賴(lài)于tnow之前的Δt時(shí)間區(qū)間內(nèi)的文件訪問(wèn)次數(shù),距離當(dāng)前時(shí)間tnow距離越遠(yuǎn)的文件訪問(wèn)頻率,對(duì)當(dāng)前時(shí)刻文件熱度計(jì)算的影響則越小,即這種影響會(huì)呈衰減趨勢(shì)。

      (2)文件fk的副本決策因子RDk。

      (3)

      每個(gè)文件對(duì)應(yīng)的副本決策因子RDk用于決策文件副本因子是否需要進(jìn)行相應(yīng)的調(diào)整。

      (3)集群副本決策因子RDcluster。

      (4)

      FHk由距離當(dāng)前時(shí)間Δt時(shí)間區(qū)間內(nèi)的訪問(wèn)頻率決定,而RDcluster作為系統(tǒng)的副本因子調(diào)整閾值,用于對(duì)后面副本因子的調(diào)整進(jìn)行決策。

      (4)高熱度文件。

      對(duì)于任意的文件fk∈F,如果RDk>a*RDcluster(其中a根據(jù)集群整體的性能進(jìn)行調(diào)整,a∈[1,2]),則認(rèn)為fk屬于高熱度文件。

      (5)低熱度文件。

      對(duì)于任意的文件fk∈F,如果RDk

      (6)高熱度文件fk副本因子動(dòng)態(tài)調(diào)整值DVk。

      對(duì)于上述定義的高熱度文件,在決策時(shí)間區(qū)間Δt內(nèi),文件fk的副本因子動(dòng)態(tài)調(diào)整值取決于其副本決策因子的相對(duì)大小,需要針對(duì)默認(rèn)的靜態(tài)副本因子λ=3進(jìn)行動(dòng)態(tài)調(diào)整:

      (5)

      其中,RDk為文件fk在距離當(dāng)前時(shí)間Δt的決策時(shí)間區(qū)間內(nèi)的副本決策因子;RDmax、RDmin則分別為Δt決策時(shí)間區(qū)間內(nèi)副本決策因子的最大值和最小值;λ為HDFS默認(rèn)的靜態(tài)副本因子。

      2.2 改進(jìn)的動(dòng)態(tài)副本因子調(diào)整算法

      改進(jìn)的動(dòng)態(tài)副本因子調(diào)整算法首先根據(jù)文件訪問(wèn)熱度和副本決策因子值,獲取待調(diào)整副本因子文件集合,然后針對(duì)不同的文件采取不同的副本因子調(diào)整策略。

      2.2.1 待調(diào)整副本因子文件篩選算法描述

      算法輸入:集群中文件集合F={f1,f2,…,fn},以及兩個(gè)決策區(qū)間Δt1和Δt2。

      2.2.2 文件副本因子調(diào)整算法描述

      2.2.3 改進(jìn)算法分析

      改進(jìn)算法在實(shí)現(xiàn)副本因子調(diào)整的過(guò)程中,充分考慮了文件訪問(wèn)熱度對(duì)副本因子調(diào)整的影響,具體改進(jìn)策略有:

      (1)考慮到文件訪問(wèn)過(guò)程中的時(shí)間局部性原理,當(dāng)前訪問(wèn)熱度高的文件在未來(lái)一段時(shí)間內(nèi)存在較大的被訪問(wèn)概率,因此根據(jù)一定時(shí)間區(qū)間內(nèi)的文件訪問(wèn)次數(shù)對(duì)文件訪問(wèn)熱度進(jìn)行定量描述,以此來(lái)預(yù)測(cè)文件在未來(lái)的訪問(wèn)概率,從而據(jù)此進(jìn)行副本因子的動(dòng)態(tài)調(diào)整。

      (2)針對(duì)高熱度文件訪問(wèn)熱度和副本決策因子的計(jì)算,設(shè)置了兩個(gè)不同長(zhǎng)度的時(shí)間區(qū)間,其中短區(qū)間用于對(duì)突發(fā)性的文件訪問(wèn)需求進(jìn)行副本因子調(diào)整,避免了長(zhǎng)區(qū)間對(duì)文件副本因子調(diào)整所帶來(lái)的偏差。

      (3)在進(jìn)行文件副本因子調(diào)整的過(guò)程中,針對(duì)不同訪問(wèn)頻率所產(chǎn)生的高熱度文件和低熱度文件,采取了不同的調(diào)整措施。對(duì)于低熱度文件,在對(duì)可靠性和性能及存儲(chǔ)代價(jià)的權(quán)衡下,進(jìn)行相應(yīng)的副本因子減??;而對(duì)于高熱度文件,依據(jù)不同的訪問(wèn)熱度大小,采取不同的副本因子增加措施。

      3 實(shí) 驗(yàn)

      為驗(yàn)證動(dòng)態(tài)副本因子調(diào)整算法對(duì)系統(tǒng)性能的改進(jìn),搭建Hadoop的分布式實(shí)驗(yàn)環(huán)境進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證,對(duì)比分析默認(rèn)副本機(jī)制和動(dòng)態(tài)副本因子調(diào)整算法對(duì)作業(yè)平均響應(yīng)時(shí)間的影響。

      3.1 實(shí)驗(yàn)環(huán)境與設(shè)置

      基于Hadoop的Master/Slave架構(gòu),借助阿里云云服務(wù)器ECS搭建分布式的仿真實(shí)驗(yàn)環(huán)境,該分布式實(shí)驗(yàn)平臺(tái)包含3個(gè)Slave節(jié)點(diǎn)以及一個(gè)Master節(jié)點(diǎn),節(jié)點(diǎn)的主要配置如表1所示。

      表1 仿真實(shí)驗(yàn)節(jié)點(diǎn)的主要配置

      3.2 實(shí)驗(yàn)結(jié)果與分析

      為模擬用戶(hù)對(duì)集群中不同文件訪問(wèn)熱度的差異,設(shè)置集群中文件每分鐘的訪問(wèn)次數(shù)分別為5、15、25、35、45、55、65、75、85、100共10組,以此來(lái)反映用戶(hù)對(duì)文件訪問(wèn)熱度的變化。此次實(shí)驗(yàn)對(duì)于高熱度文件和低熱度文件的判定,設(shè)置參數(shù)(a=1.2,b=0.8,γ=0.8),調(diào)整決策時(shí)間區(qū)間為Δt1=45 s,Δt2=5 s,設(shè)置4組大小不同的文件(32.0 M、64.0 M、128.0 M、256.0 M),比較不同訪問(wèn)熱度下系統(tǒng)作業(yè)的平均響應(yīng)時(shí)間,得出的作業(yè)響應(yīng)時(shí)間隨文件訪問(wèn)熱度變化的曲線如圖2所示。

      由圖2可知,當(dāng)文件訪問(wèn)熱度較低,文件的熱度對(duì)副本因子動(dòng)態(tài)調(diào)整影響較小,甚至不會(huì)觸發(fā)副本因子的動(dòng)態(tài)增加或減少,而同時(shí)由于算法在動(dòng)態(tài)計(jì)算過(guò)程中本身需要耗費(fèi)一定的資源和時(shí)間,因此會(huì)出現(xiàn)改進(jìn)的副本因子調(diào)整機(jī)制比默認(rèn)靜態(tài)副本機(jī)制平均作業(yè)響應(yīng)時(shí)間長(zhǎng)的情況,即此時(shí)動(dòng)態(tài)副本因子調(diào)整算法還不能有效發(fā)揮其性能提升作用。隨著文件訪問(wèn)熱度的不斷增加,動(dòng)態(tài)副本因子調(diào)整算法開(kāi)始體現(xiàn)出一定的性能優(yōu)勢(shì)。

      觀察圖2可以得知當(dāng)文件每分鐘的訪問(wèn)頻率達(dá)到50~60時(shí),此時(shí)由于觸發(fā)了副本因子的動(dòng)態(tài)增加,因此對(duì)于高熱度文件會(huì)存在多個(gè)副本同時(shí)對(duì)外提供訪問(wèn)服務(wù),有效降低了高熱度并發(fā)訪問(wèn)下的文件訪問(wèn)競(jìng)爭(zhēng),縮短了作業(yè)的響應(yīng)時(shí)間。針對(duì)高熱度文件能夠及時(shí)動(dòng)態(tài)地增加副本因子,以應(yīng)對(duì)持續(xù)或突發(fā)性的高熱度訪問(wèn)需求,因此可以有效縮短系統(tǒng)作業(yè)平均響應(yīng)時(shí)間,實(shí)現(xiàn)云環(huán)境下多用戶(hù)文件訪問(wèn)的服務(wù)響應(yīng)性能提升。

      圖2 作業(yè)響應(yīng)時(shí)間隨訪問(wèn)熱度的變化曲線

      4 結(jié)束語(yǔ)

      提出的動(dòng)態(tài)副本因子調(diào)整策略主要針對(duì)云環(huán)境下靜態(tài)副本機(jī)制存在的局限性,結(jié)合云環(huán)境下多用戶(hù)文件訪問(wèn)的熱度差異和不同決策時(shí)間區(qū)間內(nèi)的訪問(wèn)熱度值,對(duì)副本因子進(jìn)行動(dòng)態(tài)調(diào)整,在提升文件訪問(wèn)性能的同時(shí)降低存儲(chǔ)空間的消耗。接下來(lái)的工作可以進(jìn)一步優(yōu)化副本因子調(diào)整算法,以更好地適應(yīng)復(fù)雜云環(huán)境下文件突發(fā)性的訪問(wèn)需求。

      猜你喜歡
      副本調(diào)整決策
      夏季午睡越睡越困該如何調(diào)整
      為可持續(xù)決策提供依據(jù)
      工位大調(diào)整
      意林(2020年10期)2020-06-01 07:26:37
      決策為什么失誤了
      面向流媒體基于蟻群的副本選擇算法①
      滬指快速回落 調(diào)整中可增持白馬
      副本放置中的更新策略及算法*
      樹(shù)形網(wǎng)絡(luò)中的副本更新策略及算法*
      18
      關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識(shí)
      軍事歷史(1997年5期)1997-08-21 02:36:06
      新晃| 龙井市| 广昌县| 井冈山市| 公主岭市| 台中县| 阳谷县| 浦北县| 德阳市| 双牌县| 安仁县| 色达县| 民权县| 迁安市| 酒泉市| 政和县| 三穗县| 灵宝市| 临漳县| 沈阳市| 孟津县| 井研县| 泉州市| 毕节市| 哈尔滨市| 海丰县| 江山市| 宜阳县| 石嘴山市| 潼南县| 布尔津县| 大兴区| 闸北区| 潮安县| 怀宁县| 枞阳县| 青河县| 墨江| 陇南市| 贺州市| 清新县|