• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于動(dòng)態(tài)帶寬分配的Hadoop數(shù)據(jù)負(fù)載均衡方法*

      2012-06-25 01:21:08林偉偉劉波
      關(guān)鍵詞:網(wǎng)絡(luò)流量寬帶集群

      林偉偉 劉波

      (1.華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東廣州510006;2.華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州510631)

      隨著互聯(lián)網(wǎng)的快速發(fā)展和數(shù)據(jù)規(guī)模的增大,出現(xiàn)了越來(lái)越多的數(shù)據(jù)密集型應(yīng)用,這些應(yīng)用常常涉及數(shù)千兆字節(jié)的數(shù)據(jù),適合大規(guī)模分布式數(shù)據(jù)處理的Hadoop[1-6]隨之產(chǎn)生.Hadoop 是 MapReduce[7]分布式編程模型和GFS[8]數(shù)據(jù)存儲(chǔ)方式的開(kāi)源實(shí)現(xiàn),如今Hadoop已經(jīng)有很多較為成功的應(yīng)用,如Yahoo[9]和 Facebook,其它網(wǎng)站(如 Last.fm[10]和 Amazon[11]等)也都在部署Hadoop以管理基于大量數(shù)據(jù)的應(yīng)用.

      當(dāng)一個(gè)Hadoop集群運(yùn)行一定時(shí)間之后,節(jié)點(diǎn)的動(dòng)態(tài)加入和退出會(huì)引起系統(tǒng)中數(shù)據(jù)負(fù)載的不均衡,新加入到集群中的數(shù)據(jù)節(jié)點(diǎn)需要進(jìn)行負(fù)載均衡操作.數(shù)據(jù)負(fù)載均衡對(duì)云計(jì)算環(huán)境下的數(shù)據(jù)密集型應(yīng)用的執(zhí)行性能有著重要的作用[12],良好的負(fù)載均衡策略能有效地避免網(wǎng)絡(luò)負(fù)載分布不均、數(shù)據(jù)流量擁擠、響應(yīng)時(shí)間長(zhǎng)等瓶頸,提高應(yīng)用的執(zhí)行效率.良好的負(fù)載均衡有兩方面的含義:(1)大量的并發(fā)訪問(wèn)或數(shù)據(jù)流量分擔(dān)到多個(gè)節(jié)點(diǎn)設(shè)備上分別處理,減少用戶(hù)等待響應(yīng)的時(shí)間;(2)單個(gè)重負(fù)載的運(yùn)算分擔(dān)到多個(gè)節(jié)點(diǎn)設(shè)備上并行處理,每個(gè)節(jié)點(diǎn)設(shè)備處理結(jié)束后,將結(jié)果匯總返回給用戶(hù),系統(tǒng)處理能力得到大幅提高.Hadoop默認(rèn)的HDFS[13]負(fù)載均衡是以犧牲集群性能的方式來(lái)完成的.因此,需要設(shè)計(jì)一個(gè)在能保證HDFS性能最優(yōu)的同時(shí)又能縮短整個(gè)負(fù)載均衡過(guò)程耗時(shí)的動(dòng)態(tài)負(fù)載均衡方法.

      雖然HDFS提供的數(shù)據(jù)負(fù)載均衡程序Balancer[12]可以對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ)負(fù)載的平衡,但它采用靜態(tài)負(fù)載均衡方法,需要手動(dòng)調(diào)用該程序來(lái)實(shí)現(xiàn)數(shù)據(jù)負(fù)載均衡操作.此外,系統(tǒng)分配給Balancer的網(wǎng)絡(luò)帶寬是固定的,而且數(shù)據(jù)負(fù)載均衡需要占用大量的網(wǎng)絡(luò)帶寬和時(shí)間,從而影響系統(tǒng)的性能.文獻(xiàn)[14-15]針對(duì)云計(jì)算環(huán)境下工作負(fù)載的不均衡問(wèn)題進(jìn)行研究,給出了動(dòng)態(tài)再分配負(fù)載和基于模糊預(yù)測(cè)的方法來(lái)實(shí)現(xiàn)工作負(fù)載均衡,提高了系統(tǒng)的資源利用率和性能.然而,這些方法并不是針對(duì)數(shù)據(jù)負(fù)載均衡的.為此,文中提出了一種新的Hadoop數(shù)據(jù)負(fù)載均衡方法,引入控制變量來(lái)動(dòng)態(tài)分配網(wǎng)絡(luò)帶寬,動(dòng)態(tài)調(diào)整數(shù)據(jù)負(fù)載均衡和文件操作的網(wǎng)絡(luò)帶寬,以?xún)?yōu)化數(shù)據(jù)負(fù)載均衡,改善Hadoop數(shù)據(jù)負(fù)載均衡的性能.

      1 數(shù)據(jù)動(dòng)態(tài)負(fù)載均衡的基本思想

      Hadoop數(shù)據(jù)負(fù)載均衡的過(guò)程本質(zhì)上就是數(shù)據(jù)塊的移動(dòng)操作.數(shù)據(jù)負(fù)載均衡過(guò)程啟動(dòng)后,集群會(huì)尋找利用率過(guò)高的數(shù)據(jù)節(jié)點(diǎn)和利用率過(guò)低的數(shù)據(jù)節(jié)點(diǎn),然后把集群HDFS中的數(shù)據(jù)塊從利用率高的數(shù)據(jù)節(jié)點(diǎn)轉(zhuǎn)移到利用率低的數(shù)據(jù)節(jié)點(diǎn)上.該負(fù)載均衡過(guò)程主要是輸入/輸出(I/O)密集型操作,在數(shù)據(jù)節(jié)點(diǎn)的CPU不是處于一個(gè)很高的占用率情況下,影響數(shù)據(jù)負(fù)載均衡過(guò)程的主要因素是網(wǎng)絡(luò)寬帶和磁盤(pán)I/O表現(xiàn),其中網(wǎng)絡(luò)寬帶是影響負(fù)載均衡和整個(gè)Hadoop集群性能的制約性因素.

      如在百兆交換機(jī)和百兆網(wǎng)卡的寬帶網(wǎng)絡(luò)環(huán)境中進(jìn)行數(shù)據(jù)傳輸時(shí),一臺(tái)機(jī)器收發(fā)數(shù)據(jù)的速率有一個(gè)12.5MB/s的理論峰值.某個(gè)空白節(jié)點(diǎn)在進(jìn)行負(fù)載均衡的過(guò)程中,由于負(fù)載均衡需要占用部分寬帶,假如此時(shí)該節(jié)點(diǎn)要接收來(lái)自客戶(hù)端的數(shù)據(jù)或來(lái)自HDFS上傳的數(shù)據(jù),則數(shù)據(jù)的傳輸效率會(huì)受到影響.

      由于網(wǎng)絡(luò)寬帶是數(shù)據(jù)負(fù)載均衡及負(fù)載均衡時(shí)Hadoop集群性能的主要制約因素,因此可以對(duì)網(wǎng)絡(luò)流量進(jìn)行實(shí)時(shí)監(jiān)測(cè),并根據(jù)網(wǎng)絡(luò)流量狀況判斷當(dāng)前節(jié)點(diǎn)是否存在負(fù)載均衡以外的其它作業(yè).如果不存在其它作業(yè)則繼續(xù)進(jìn)行數(shù)據(jù)負(fù)載均衡過(guò)程,否則先自動(dòng)暫停數(shù)據(jù)負(fù)載均衡過(guò)程而優(yōu)先處理其它作業(yè).這樣既能保證Hadoop作業(yè)的優(yōu)先級(jí)和因負(fù)載均衡造成的性能損失,又能提高數(shù)據(jù)負(fù)載均衡速度.

      2 數(shù)據(jù)負(fù)載均衡的理論推導(dǎo)

      Hadoop的配置屬性多達(dá)190個(gè),其中有一個(gè)屬性是“dfs.balance.bandwidthPerSec”,該屬性是設(shè)置負(fù)載均衡的最大寬帶,其實(shí)際作用是在負(fù)載均衡的過(guò)程中用于負(fù)載均衡的網(wǎng)絡(luò)寬帶不能超過(guò)該屬性值.Hadoop中該屬性的默認(rèn)值是1MB/s,即在負(fù)載均衡期間,無(wú)論集群有沒(méi)有負(fù)載均衡以外的作業(yè),都只能以1MB/s的最大速度在不同數(shù)據(jù)節(jié)點(diǎn)之間傳輸數(shù)據(jù)塊和實(shí)現(xiàn)數(shù)據(jù)負(fù)載均衡.文中對(duì)一個(gè)集群的數(shù)據(jù)負(fù)載均衡進(jìn)行了測(cè)試,在負(fù)載均衡之前HDFS中本身有3.9GB的數(shù)據(jù),當(dāng)把此屬性分別設(shè)置成1.0、1.5、2.0、4MB/s來(lái)進(jìn)行負(fù)載均衡時(shí),整個(gè)負(fù)載均衡過(guò)程的耗時(shí)分別為 33.80、21.50、16.80、8.98 min.這表明負(fù)載均衡過(guò)程主要是I/O密集型操作,網(wǎng)絡(luò)寬帶與負(fù)載均衡的速度息息相關(guān).

      2.1 默認(rèn)的數(shù)據(jù)負(fù)載均衡方法

      假設(shè)t(n)為數(shù)據(jù)負(fù)載均衡(簡(jiǎn)稱(chēng)負(fù)載均衡)操作的實(shí)際總耗時(shí)(單位s),C為默認(rèn)的負(fù)載均衡寬帶參數(shù)(常數(shù)項(xiàng),C=1 MB/s),tB為集群在僅存在負(fù)載均衡操作的情況下以默認(rèn)負(fù)載均衡寬帶進(jìn)行負(fù)載均衡操作的期望耗時(shí)(單位s),n為實(shí)際負(fù)載均衡寬帶(為默認(rèn)寬帶的倍數(shù)),t1(n)為一次HDFS文件操作的實(shí)際總耗時(shí)(單位s),tO為集群在僅存在HDFS操作的情況下進(jìn)行HDFS操作的期望耗時(shí)(單位s),BD為網(wǎng)絡(luò)環(huán)境寬帶峰值(單位 MB/s),E(n)為負(fù)載均衡過(guò)程中 HDFS的實(shí)際效率,則Hadoop在負(fù)載均衡過(guò)程中同時(shí)進(jìn)行HDFS操作的情況下,負(fù)載均衡和HDFS操作的耗時(shí)及HDFS的實(shí)際效率為

      假設(shè)Hadoop集群中添加了一個(gè)新的從節(jié)點(diǎn),并隨即進(jìn)行負(fù)載均衡操作;默認(rèn)負(fù)載均衡操作期望耗時(shí)tB=1800s,并且在負(fù)載均衡的過(guò)程中進(jìn)行一次文件上傳操作;在沒(méi)有負(fù)載均衡的情況下,上傳該文件期望耗時(shí)tO=300s;網(wǎng)絡(luò)寬帶峰值BD=12 MB/s,負(fù)載均衡寬帶配置為默認(rèn)的1MB/s(n=1).將這些參數(shù)代入式(1)-(3),可得負(fù)載均衡和HDFS操作的實(shí)際總耗時(shí)及HDFS的實(shí)際效率為t(n)=1800 s,t1(n)=327.27s,E(n)=91.67%.

      圖1(a)反映了在默認(rèn)情況下負(fù)載均衡及上傳文件的具體耗時(shí)情況.由于負(fù)載均衡的寬帶為1MB/s,因而理想狀態(tài)下HDFS操作的寬帶為11MB/s.原本在集群沒(méi)有負(fù)載均衡作業(yè)時(shí)需300 s的文件上傳操作,現(xiàn)在需要327 s才能完成,HDFS的實(shí)際效率為原來(lái)的91.67%.

      由于負(fù)載均衡過(guò)程寬帶值與耗時(shí)呈線性關(guān)系,現(xiàn)將負(fù)載均衡的寬帶配置從默認(rèn)的1 MB/s更改為3MB/s(即n=3),其余參數(shù)保持不變,代入式(1)-(3),可得到更改負(fù)載寬帶之后負(fù)載均衡和HDFS操作的實(shí)際總耗時(shí)及HDFS的實(shí)際效率,分別為t(n)=600s,t1(n)=400s,E(n)=75.00% .

      更改負(fù)載均衡寬帶為3 MB/s后,HDFS操作的寬帶為9 MB/s.原本在集群沒(méi)有負(fù)載均衡作業(yè)時(shí)需300s的文件上傳操作,現(xiàn)在需要400 s才能完成,HDFS的實(shí)際效率僅為原來(lái)的75.00%.由此可見(jiàn),單純提高負(fù)載均衡的寬帶并不明智,雖然負(fù)載均衡的耗時(shí)大大縮短,但對(duì)HDFS效率的影響非常大,并且HDFS操作的tO越大,受負(fù)載均衡影響的HDFS操作所需的額外時(shí)間t1(n)-tO越大,因?yàn)?/p>

      圖1(b)反映了在單純更改寬帶配置參數(shù)情況下負(fù)載均衡及上傳文件操作的具體耗時(shí)情況.

      圖1 更改負(fù)載均衡寬帶前后數(shù)據(jù)負(fù)載均衡及上傳文件的耗時(shí)Fig.1 Time consumption of data load balancing and uploaded file before and after bandwidth change

      2.2 動(dòng)態(tài)的數(shù)據(jù)負(fù)載均衡方法

      文中引入一個(gè)控制變量,為新節(jié)點(diǎn)的網(wǎng)絡(luò)流量臨界值.在理想狀態(tài)下,假設(shè)某一30 s的時(shí)間段內(nèi),集群中的機(jī)器沒(méi)有任何負(fù)載均衡以外的操作.按照Hadoop的默認(rèn)配置,負(fù)載均衡過(guò)程中接收數(shù)據(jù)塊遷移的目標(biāo)機(jī)器(新的從節(jié)點(diǎn))將會(huì)在此30 s內(nèi)接收到不大于30MB的數(shù)據(jù)流量.如果把負(fù)載均衡的寬帶設(shè)置為3 MB/s,則在此30 s內(nèi)接收數(shù)據(jù)塊遷移的目標(biāo)機(jī)器將會(huì)接收到不大于90 MB的數(shù)據(jù)流量.在此基礎(chǔ)上再乘以一個(gè)敏感系數(shù),如1.1(110%,即允許10%誤差),即如果按照默認(rèn)配置,在負(fù)載均衡狀態(tài)下,目標(biāo)機(jī)器接收到的數(shù)據(jù)流量在33MB之內(nèi);如果按照3MB/s的配置,目標(biāo)機(jī)器接收到的數(shù)據(jù)流量會(huì)在99MB之內(nèi).因此,可以定義網(wǎng)絡(luò)流量監(jiān)控變量的計(jì)算公式為

      其中,Cc為網(wǎng)絡(luò)流量臨界值,ΔL為監(jiān)控周期(單位s),敏感系數(shù)為常數(shù).在負(fù)載均衡寬帶為1 MB/s、監(jiān)控周期為30s、敏感系數(shù)為1.1的情況下,網(wǎng)絡(luò)流量臨界值為33MB;而在負(fù)載均衡寬帶為3MB/s、監(jiān)控周期為30s、敏感系數(shù)為1.1的情況下,網(wǎng)絡(luò)流量臨界值為99 MB.這個(gè)網(wǎng)絡(luò)流量臨界值是作為判斷當(dāng)前參與負(fù)載均衡的節(jié)點(diǎn)是否參與到負(fù)載均衡以外作業(yè)的標(biāo)準(zhǔn),它表示的是該節(jié)點(diǎn)僅參與負(fù)載均衡作業(yè)時(shí)所接收網(wǎng)絡(luò)流量的上限值.如果接收數(shù)據(jù)塊的節(jié)點(diǎn)在30s內(nèi)所接收的數(shù)據(jù)量大于這個(gè)臨界值,則判斷此節(jié)點(diǎn)存在負(fù)載均衡以外的其它作業(yè).敏感系數(shù)可以根據(jù)實(shí)際的集群環(huán)境作出修改,若此系數(shù)較大,則只能檢測(cè)數(shù)據(jù)流量較大的連續(xù)HDFS操作,因?yàn)橹挥羞B續(xù)的HDFS操作時(shí),才會(huì)在連續(xù)的30 s內(nèi)使程序作出存在負(fù)載均衡以外作業(yè)的判斷,此時(shí)程序?qū)π⌒偷耐话l(fā)性HDFS操作并不關(guān)心,但對(duì)于一個(gè)平均作業(yè)時(shí)間較長(zhǎng)的集群來(lái)說(shuō),突發(fā)性的HDFS操作的性能損失亦可以忽略不計(jì),因?yàn)檫@個(gè)性能損失的時(shí)間很短.

      引入控制變量后的負(fù)載均衡流程如圖2所示.監(jiān)控從節(jié)點(diǎn)網(wǎng)絡(luò)流量的動(dòng)作通過(guò)捕獲Linux下的/proc/net/dev完成.在新加入的節(jié)點(diǎn)上執(zhí)行負(fù)載均衡時(shí),根據(jù)實(shí)際的網(wǎng)絡(luò)流量來(lái)控制負(fù)載均衡.當(dāng)該節(jié)點(diǎn)上HDFS操作的數(shù)據(jù)流量超出臨界值時(shí),就會(huì)自動(dòng)停止負(fù)載均衡,確保HDFS的優(yōu)先級(jí);否則,啟動(dòng)負(fù)載均衡.同時(shí),為了避免因HDFS數(shù)據(jù)請(qǐng)求業(yè)務(wù)繁忙而一直不能進(jìn)入負(fù)載均衡操作,增加了記錄監(jiān)聽(tīng)周期的功能.當(dāng)監(jiān)聽(tīng)周期k大于門(mén)限值d時(shí),d值由管理員根據(jù)實(shí)際需要設(shè)置,若設(shè)置d=1200,則表示經(jīng)過(guò)10h(1200×30s=36000s)后進(jìn)行一次負(fù)載均衡操作.

      圖2 基于控制變量的數(shù)據(jù)負(fù)載均衡流程圖Fig.2 Flowchart of data load balancing based on control variables

      文中從數(shù)學(xué)角度來(lái)分析加入控制變量后的數(shù)據(jù)負(fù)載均衡及HDFS操作過(guò)程.假設(shè)t'(n)為數(shù)據(jù)動(dòng)態(tài)負(fù)載均衡操作的實(shí)際總耗時(shí),t'1(n)為一次HDFS文件操作的實(shí)際總耗時(shí),E'(n)為數(shù)據(jù)動(dòng)態(tài)負(fù)載均衡過(guò)程中HDFS的實(shí)際效率.假設(shè)負(fù)載暫停的滯后時(shí)間為ΔD(即需要ΔD才結(jié)束一次負(fù)載),當(dāng)集群中出現(xiàn)HDFS操作時(shí),程序需要ΔL的時(shí)間來(lái)監(jiān)聽(tīng)網(wǎng)絡(luò)流量,當(dāng)檢測(cè)到實(shí)際流量超過(guò)流量臨界值時(shí)作出停止負(fù)載均衡的判斷,即HDFS操作在前ΔL+ΔD時(shí)間內(nèi)仍然受到負(fù)載的影響.在ΔL+ΔD內(nèi)HDFS操作的完成量為

      之后的HDFS操作因負(fù)載已經(jīng)暫停而能以最高的網(wǎng)絡(luò)寬帶進(jìn)行數(shù)據(jù)塊的傳輸操作,因此余下的HDFS操作量與總的HDFS操作量的比例關(guān)系式為

      其中,tr為HDFS操作的剩余時(shí)間,由上式得:

      HDFS操作的總時(shí)間為

      因?yàn)镠DFS操作的最后一部分時(shí)間可能不足ΔL,但在ΔL內(nèi)程序依然處于監(jiān)聽(tīng)狀態(tài),負(fù)載并未重新啟動(dòng),期間負(fù)載的暫停時(shí)間為

      其中,LUB(·)為求最小上界運(yùn)算.

      由于HDFS操作結(jié)束后,程序需要再監(jiān)聽(tīng)ΔL后才會(huì)作出重啟負(fù)載平衡的判斷,因此負(fù)載暫停的總時(shí)間

      則整個(gè)負(fù)載的總耗時(shí)為

      將負(fù)載均衡的寬帶配置從1MB/s更改為3MB/s(n=3),其余參數(shù)保持不變,且引入流量控制,監(jiān)聽(tīng)周期為30 s(ΔL=30 s),負(fù)載均衡暫停滯后60 s(ΔD=60s),則代入式(4)-(6)可得到采用文中方法后數(shù)據(jù)負(fù)載均衡和HDFS操作的實(shí)際總耗時(shí)及HDFS 的實(shí)際效率,分別為 t'1(n)=322.5s,t'(n)=870s,E'(n)=93.02%.采用文中方法后數(shù)據(jù)負(fù)載均衡及文件上傳操作的耗時(shí)情況如圖3所示.

      圖3 采用文中方法時(shí)數(shù)據(jù)負(fù)載均衡及文件上傳總耗時(shí)Fig.3 Time consumption of data load balancing and uploading file using the proposed method

      當(dāng)負(fù)載均衡和文件上傳操作同時(shí)開(kāi)始時(shí),在前30s內(nèi)節(jié)點(diǎn)已經(jīng)檢測(cè)到實(shí)際流量超過(guò)臨界值,隨即停止負(fù)載均衡守護(hù)進(jìn)程,在第30秒到第90秒期間是等待此次負(fù)載均衡完全結(jié)束的時(shí)間(期間數(shù)據(jù)塊依然在傳輸),由于文件上傳操作在這段時(shí)間內(nèi)受到寬帶的影響,故在90 s內(nèi)上傳的文件總量應(yīng)該為22.5%(在沒(méi)有負(fù)載均衡情況下,1 min內(nèi)理論上可上傳20%的文件).從第90秒開(kāi)始負(fù)載均衡暫停,文件上傳操作以原來(lái)的寬帶繼續(xù)進(jìn)行(12 MB/s).到第270秒尚剩余17.5%的文件需要上傳,按照12MB/s的速度理論上需要52.5s.因?yàn)槊舾邢禂?shù)設(shè)置得比較小,如果在第270秒到第330秒內(nèi)數(shù)據(jù)流量超過(guò)了臨界值,則程序會(huì)在第330秒對(duì)此作出反映,并等待30 s.因第 330秒到第 360秒內(nèi)沒(méi)有HDFS操作,故數(shù)據(jù)負(fù)載均衡在第360秒再次啟動(dòng).

      表1給出了3種數(shù)據(jù)負(fù)載均衡方法的性能對(duì)比,通過(guò)更改Hadoop負(fù)載均衡網(wǎng)絡(luò)寬帶雖然能對(duì)提高負(fù)載均衡效率、減少負(fù)載均衡耗時(shí)起到立竿見(jiàn)影的效果,但節(jié)點(diǎn)會(huì)以很大的性能損失為代價(jià);通過(guò)更改網(wǎng)絡(luò)寬帶且引入控制變量來(lái)實(shí)現(xiàn)動(dòng)態(tài)負(fù)載均衡,節(jié)點(diǎn)的性能損失與Hadoop默認(rèn)的負(fù)載均衡方法十分接近,而且能大大縮短完成整個(gè)負(fù)載均衡的總時(shí)間.

      表1 3種數(shù)據(jù)負(fù)載均衡方法的性能對(duì)比Table 1 Performance comparison of three data load balancing methods

      3 實(shí)驗(yàn)與結(jié)果分析

      采用3種數(shù)據(jù)負(fù)載均衡方法在實(shí)際的Hadoop集群中進(jìn)行負(fù)載均衡操作,以測(cè)試實(shí)際性能.在測(cè)試環(huán)境中,主節(jié)點(diǎn)和新加入集群的從節(jié)點(diǎn)均為Ubuntu 10.04 LTS的操作系統(tǒng).主節(jié)點(diǎn)同時(shí)作為名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn),其配置如下:CPU為酷睿2雙核T7300,2GHz主頻;內(nèi)存為2GB.從節(jié)點(diǎn)僅作為數(shù)據(jù)節(jié)點(diǎn),其配置如下:CPU為酷睿2雙核E4400,2 GHz主頻;內(nèi)存為3 GB.各節(jié)點(diǎn)之間的網(wǎng)絡(luò)帶寬為百兆寬帶.在從節(jié)點(diǎn)加入到集群之前,集群HDFS中共有6.9GB數(shù)據(jù)(位于主節(jié)點(diǎn)的數(shù)據(jù)節(jié)點(diǎn)之上).向集群中加入從節(jié)點(diǎn)后,在從節(jié)點(diǎn)上進(jìn)行負(fù)載均衡操作.負(fù)載均衡開(kāi)始后,在某個(gè)隨機(jī)時(shí)刻主節(jié)點(diǎn)的數(shù)據(jù)節(jié)點(diǎn)發(fā)起HDFS文件上傳操作,上傳的文件量為1.1GB.由于集群數(shù)據(jù)塊副本放置數(shù)為2,當(dāng)主節(jié)點(diǎn)的數(shù)據(jù)節(jié)點(diǎn)發(fā)起文件上傳操作時(shí),數(shù)據(jù)會(huì)同時(shí)寫(xiě)入主節(jié)點(diǎn)和從節(jié)點(diǎn)的HDFS目錄中.

      3種負(fù)載均衡方法的寬帶分別為1、3、3 MB/s,其中文中動(dòng)態(tài)負(fù)載均衡方法的網(wǎng)絡(luò)流量臨界值為90MB,實(shí)際測(cè)試結(jié)果如表2所示.

      表2 3種數(shù)據(jù)負(fù)載均衡方法的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of three data load balancing methods

      從表2可知:(1)默認(rèn)的負(fù)載均衡方法與動(dòng)態(tài)負(fù)載均衡方法的文件上傳耗時(shí)差別并不明顯.這是因?yàn)榍罢唠m然是在負(fù)載均衡的同時(shí)對(duì)HDFS進(jìn)行操作,但90%以上的寬帶依然是留給HDFS作業(yè)使用的;后者的HDFS操作雖然在大部分時(shí)間內(nèi)不受負(fù)載均衡的影響,但在負(fù)載均衡未暫停的時(shí)間內(nèi)HDFS所受的影響遠(yuǎn)大于前者;只有在更大型的集群中進(jìn)行連續(xù)且耗時(shí)非常長(zhǎng)的HDFS操作時(shí),后者在性能損失的表現(xiàn)上才會(huì)比前者有更明顯的優(yōu)勢(shì).(2)單純更改寬帶的方法與動(dòng)態(tài)負(fù)載均衡方法的文件上傳耗時(shí)差別比較大.這是因?yàn)榍罢呤且誀奚麳DFS操作性能的代價(jià)來(lái)提高負(fù)載均衡效率的,而后者只是在整個(gè)負(fù)載均衡過(guò)程中所消耗的時(shí)間比前者多(因?yàn)檫@個(gè)時(shí)間包含了進(jìn)行HDFS操作時(shí)負(fù)載均衡處于暫停并等待的時(shí)間).總之,文中動(dòng)態(tài)負(fù)載均衡方法能在保證HDFS操作性能的情況下大大縮短了數(shù)據(jù)負(fù)載均衡的時(shí)間.

      4 結(jié)語(yǔ)

      文中在研究Hadoop集群數(shù)據(jù)負(fù)載平衡的原理和方法之后,對(duì)2種Hadoop集群的負(fù)載均衡方法(Hadoop默認(rèn)的負(fù)載均衡方法和僅更改寬帶的負(fù)載均衡方法)建立了數(shù)學(xué)模型并進(jìn)行了分析,發(fā)現(xiàn):默認(rèn)的負(fù)載均衡方法雖然對(duì)Hadoop節(jié)點(diǎn)的性能影響較小,但整個(gè)負(fù)載均衡的過(guò)程較為緩慢;僅更改寬帶的負(fù)載均衡方法雖然較默認(rèn)的負(fù)載均衡方法能大大縮短負(fù)載均衡的時(shí)間,但對(duì)Hadoop節(jié)點(diǎn)性能的影響較大.為此,文中提出了一種根據(jù)節(jié)點(diǎn)網(wǎng)絡(luò)流量進(jìn)行動(dòng)態(tài)負(fù)載均衡的方法,并建立其數(shù)學(xué)模型.分析結(jié)果表明,文中動(dòng)態(tài)負(fù)載均衡方法能在保障節(jié)點(diǎn)性能的情況下,大大縮短集群數(shù)據(jù)負(fù)載均衡的耗時(shí).3種負(fù)載均衡方法的實(shí)驗(yàn)結(jié)果表明,文中動(dòng)態(tài)負(fù)載均衡方法既能保證HDFS系統(tǒng)的數(shù)據(jù)訪問(wèn)性能,又能提高集群加入新節(jié)點(diǎn)時(shí)的數(shù)據(jù)負(fù)載均衡效率.由于數(shù)據(jù)分布情況及數(shù)據(jù)副本的數(shù)量對(duì)數(shù)據(jù)負(fù)載均衡都有影響,故今后將重點(diǎn)綜合多個(gè)因素來(lái)優(yōu)化數(shù)據(jù)負(fù)載均衡的性能.

      [1]Apache.Hadoop[EB/OL].[2012-01-03].http:∥lucene.apache.org/hadoop.

      [2]林偉偉.一種Hadoop數(shù)據(jù)放置的優(yōu)化策略[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2012,40(1):152-158.Lin Wei-wei.An improved data placement strategy for Hadoop [J].Journal of South China University of Technology:Natural Science Edition,2012,40(1):152-158.

      [3]Prashant S,Kamalakar K.A multi-agent simulation framework on small Hadoop cluster[J].Engineering Applications of Artificial Intelligence,2011,24(7):1120-1127.

      [4]Qiu Zhi,Lin Zhao-wen,Ma Yan.Research of Hadoopbased data flow management system [J].The Journal of China Universities of Posts and Telecommunications,2011,18(2):164-168.

      [5]Ye Xianglong,Huang Mengxing,Zhu Donghai,et al.A novel blocks placement strategy for Hadoop[C]∥Proceedings of the 11th International Conference on Computer and Information Science.Washington D C:IEEE,2012:3-7.

      [6]Sadasivam G S,Selvaraj D.A novel parallel hybrid PSOGA using MapReduce to schedule jobs in Hadoop data grids[C]∥Proceedings of the Second World Congress on Nature and Biologically Inspired Computing.Fukuoka:IEEE,2010:15-17.

      [7]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

      [8]Ghemawat S,Gogioff H,Leung P T.The google file system[C]∥Proceedings of the 19th ACM Symposium on Operating Systems Principles.New York:ACM,2003:29-43.

      [9]Jeremy Z.Yahoo!Launches world's largest Hadoop production application[EB/OL].(2008-02-19)[2012-01-03].http:∥marcboucher.ws/2008/02/hadoop-scales-reallywell-yahoo-launches-worlds-largest-hadoop-production-application.html.

      [10]Loughran Steve.Applications powered by Hadoop [EB/OL].[2012-01-03].http:∥wiki.apache.org/hadoop/PoweredBy.

      [11]Amazon.Amazon elastic compute cloud [EB/OL].[2012-01-03].http:∥aws.amazon.com/ec2.

      [12]鄭湃,崔立真,王海洋,等.云計(jì)算環(huán)境下面向數(shù)據(jù)密集型應(yīng)用的數(shù)據(jù)布局策略與方法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1472-1481.Zheng Pai,Cui Li-zhen,Wang Hai-yang,et al.A data placement strategy for data-intensive applications in cloud [J].Chinese Journal of Computers,2010,33(8):1472-1481.

      [13]Borthakur D.The Hadoop distributed file system:architecture and design [EB/OL].[2012-01-03].http:∥hadoop.apache.org/common/docs/stable/hdfs_design.html.

      [14]Jing Siyuan,She Kun.A novel model for load balancing in cloud data center[J].Journal of Convergence Information Technology,2011,6(4):171-179.

      [15]Liu Yang,Li Maozhen,Alham Nasullah Khalid,et al.Load balancing in MapReduce environments for data intensive applications[C]∥Proceedings of the Eighth International Conference on Fuzzy Systems and Knowledge Discovery.Shanghai:IEEE,2011:2675-2678.

      猜你喜歡
      網(wǎng)絡(luò)流量寬帶集群
      基于多元高斯分布的網(wǎng)絡(luò)流量異常識(shí)別方法
      基于神經(jīng)網(wǎng)絡(luò)的P2P流量識(shí)別方法
      裝寬帶的人
      文苑(2020年7期)2020-08-12 09:36:04
      海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
      一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      一種新穎的寬帶大功率分配器
      可否把寬帶作為社會(huì)福利
      赣榆县| 论坛| 牡丹江市| 巧家县| 井研县| 阿尔山市| 儋州市| 新源县| 台东县| 泗洪县| 云梦县| 和平县| 翁源县| 祁阳县| 兴山县| 奉新县| 中山市| 临朐县| 顺义区| 兴国县| 玉林市| 茌平县| 巴林右旗| 依安县| 东乌珠穆沁旗| 成都市| 凯里市| 筠连县| 桐柏县| 饶阳县| 精河县| 普兰县| 汶川县| 栾川县| 台北市| 萨嘎县| 宜都市| 邯郸县| 黔西县| 永定县| 莲花县|