魏光,楊海龍,欒鐘治*,錢德沛,2
1.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院 中德軟件聯(lián)合研究所,北京 100191
2.中山大學(xué) 數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,廣東 廣州 510275
·應(yīng)用?/?APPLICATION·
一種靈活可擴(kuò)展的跨洲際數(shù)據(jù)放置實(shí)驗(yàn)床
魏光1,楊海龍1,欒鐘治1*,錢德沛1,2
1.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院 中德軟件聯(lián)合研究所,北京 100191
2.中山大學(xué) 數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,廣東 廣州 510275
隨著大數(shù)據(jù)時(shí)代的到來(lái),不同領(lǐng)域的科研人員往往需要跨科研機(jī)構(gòu)甚至是跨國(guó)家地域的移動(dòng)大規(guī)模科學(xué)數(shù)據(jù),從而更好的共享科研數(shù)據(jù)并促成跨學(xué)科協(xié)同分析,加速觀測(cè)數(shù)據(jù)向科學(xué)發(fā)現(xiàn)的轉(zhuǎn)化。然而,現(xiàn)有的研究工作缺乏對(duì)廣域網(wǎng)環(huán)境下影響數(shù)據(jù)放置性能、開銷和資源消耗等因素的深入分析,這些因素包括數(shù)據(jù)集中文件的數(shù)量和大小分布、源和目的節(jié)點(diǎn)文件系統(tǒng)的性能特性、各節(jié)點(diǎn)間網(wǎng)絡(luò)性能的波動(dòng)以及 IPv4/IPv6 網(wǎng)絡(luò)協(xié)議的可用性等。為了更好的研究廣域網(wǎng)環(huán)境下影響科學(xué)數(shù)據(jù)放置性能的多種因素,本文在中美真實(shí)網(wǎng)絡(luò)環(huán)境下搭建了一種靈活可擴(kuò)展的跨洲際數(shù)據(jù)放置實(shí)驗(yàn)床,并將其作為基礎(chǔ)設(shè)施開放給科研人員用于運(yùn)行多種類型的數(shù)據(jù)放置實(shí)驗(yàn)。
數(shù)據(jù)放置;洲際實(shí)驗(yàn)床
云計(jì)算的興起以及大數(shù)據(jù)時(shí)代的到來(lái)促使來(lái)自不同領(lǐng)域的科研人員跨機(jī)構(gòu)、跨地域的共享大量科研數(shù)據(jù),進(jìn)而加速知識(shí)提取并產(chǎn)生新的科學(xué)發(fā)現(xiàn)[1][2]。然而,在數(shù)據(jù)共享的過(guò)程中,以何種數(shù)據(jù)組織形式進(jìn)行數(shù)據(jù)放置操作、利用何種工具執(zhí)行數(shù)據(jù)放置以及數(shù)據(jù)放置操作的性能如何,這些基本問(wèn)題在現(xiàn)有的研究工作中并沒有得到回答。在真實(shí)廣域網(wǎng)環(huán)境下的數(shù)據(jù)放置性能受到很多因素的影響,例如數(shù)據(jù)集中文件的數(shù)量和大小分布、源和目的節(jié)點(diǎn)文件系統(tǒng)的性能特性、各節(jié)點(diǎn)間網(wǎng)絡(luò)性能的波動(dòng)以及 IPv4/IPv6 網(wǎng)絡(luò)協(xié)議的可用性等。理解在真實(shí)網(wǎng)絡(luò)環(huán)境下上述因素如何影響數(shù)據(jù)放置的性能對(duì)于設(shè)計(jì)高效的數(shù)據(jù)放置策略至關(guān)重要。因此,需要搭建一個(gè)真實(shí)的數(shù)據(jù)放置實(shí)驗(yàn)床,能夠靈活、可擴(kuò)展的支持不同數(shù)據(jù)放置實(shí)驗(yàn)的設(shè)計(jì)和部署。
在本文中我們?cè)谥忻乐g的真實(shí)網(wǎng)絡(luò)環(huán)境下,搭建了一種靈活可擴(kuò)展的跨洲際數(shù)據(jù)放置實(shí)驗(yàn)床 (Intercontinental Data Placement Laboratory,簡(jiǎn)稱 iDPL)。搭建 iDPL 的目的在于測(cè)量并理解影響數(shù)據(jù)放置性能的各種因素,從而促進(jìn)性能感知的數(shù)據(jù)放置技術(shù)的研究。為了支持復(fù)雜的數(shù)據(jù)放置實(shí)驗(yàn),iDPL 采用可靠的工作流管理機(jī)制,允許科研人員設(shè)計(jì)復(fù)雜多樣的數(shù)據(jù)放置實(shí)驗(yàn);同時(shí),為了支持測(cè)量工具的動(dòng)態(tài)部署,iDPL 采用輕量級(jí) I/O 協(xié)議滿足不同測(cè)量工具的快速部署。截止目前,iDPL 已經(jīng)成功部署在中美之間的四所大學(xué)和研究機(jī)構(gòu)內(nèi),包括北京航空航天大學(xué) (BUAA)、中科院網(wǎng)絡(luò)中心 (CNIC)、威斯康辛大學(xué)麥迪遜分校 (UW Madison) 和加州大學(xué)圣地亞哥分校(UCSD)。
為了驗(yàn)證跨洲際數(shù)據(jù)放置實(shí)驗(yàn)床的潛在用途,我們?cè)趯?shí)驗(yàn)床上部署了用于測(cè)量實(shí)驗(yàn)床各節(jié)點(diǎn)間在進(jìn)行數(shù)據(jù)放置時(shí)的網(wǎng)絡(luò)帶寬和延遲的實(shí)驗(yàn),同時(shí)該實(shí)驗(yàn)比較了在不同數(shù)據(jù)傳輸工具下進(jìn)行數(shù)據(jù)放置的性能差異,包括 iperf[3]、fdt[4]、scp 和 netcat[5]等。截止目前,實(shí)驗(yàn)床已經(jīng)開展數(shù)據(jù)放置實(shí)驗(yàn)近兩年,累計(jì)執(zhí)行數(shù)據(jù)放置實(shí)驗(yàn) 503189 次,其中 IPv4 實(shí)驗(yàn) 459064次,IPv6 實(shí)驗(yàn) 44125 次,在中美之間真實(shí)廣域網(wǎng)環(huán)境下累計(jì)傳輸實(shí)驗(yàn)數(shù)據(jù)達(dá) 4.8TB,積累了大量有研究?jī)r(jià)值的真實(shí)網(wǎng)絡(luò)帶寬和時(shí)延信息。這些實(shí)驗(yàn)結(jié)果數(shù)據(jù)已經(jīng)通過(guò)實(shí)驗(yàn)床官方網(wǎng)站 (http://mickey.buaa.edu.cn:8080/) 免費(fèi)提供給科研人員進(jìn)行科學(xué)研究。具體來(lái)講,本文取得的成果如下:
● 在中美之間的真實(shí)網(wǎng)絡(luò)環(huán)境下搭建了一個(gè)跨洲際的數(shù)據(jù)放置實(shí)驗(yàn)床,該實(shí)驗(yàn)床能夠支持科研人員設(shè)計(jì)和部署多種數(shù)據(jù)放置實(shí)驗(yàn),從而更好的理解影響數(shù)據(jù)放置性能的各種因素;
● 實(shí)驗(yàn)床采用了可靠工作流管理和輕量級(jí) I/O 協(xié)議,能夠支持復(fù)雜的數(shù)據(jù)放置實(shí)驗(yàn)設(shè)計(jì)以及動(dòng)態(tài)的實(shí)驗(yàn)部署,為科研人員測(cè)量不同數(shù)據(jù)放置技術(shù)的性能提供了真實(shí)的實(shí)驗(yàn)平臺(tái);
● 在該實(shí)驗(yàn)床上運(yùn)行了近兩年的中美間跨域數(shù)據(jù)放置實(shí)驗(yàn)并收集了大量的實(shí)驗(yàn)數(shù)據(jù),測(cè)量了在不同數(shù)據(jù)傳輸工具下網(wǎng)絡(luò)的帶寬和時(shí)延等性能指標(biāo),這些實(shí)驗(yàn)數(shù)據(jù)對(duì)設(shè)計(jì)性能感知的數(shù)據(jù)放置技術(shù)具有寶貴的研究?jī)r(jià)值。
本文剩余部分的組織結(jié)構(gòu):第1 節(jié)介紹了 iDPL的整體設(shè)計(jì)和實(shí)現(xiàn)的關(guān)鍵技術(shù);第2節(jié)通過(guò)示范應(yīng)用展示了 iDPL 的用途;第3 節(jié)總結(jié)了本文的工作。
實(shí)驗(yàn)床整體設(shè)計(jì)分為4個(gè)層次,自下而上依次是數(shù)據(jù)放置節(jié)點(diǎn)層、中間件層、實(shí)驗(yàn)邏輯層和應(yīng)用層。如圖1所示,數(shù)據(jù)放置節(jié)點(diǎn)層由若干個(gè)跨洲際的數(shù)據(jù)放置節(jié)點(diǎn)組成,中間件層由測(cè)量工具和調(diào)度器組成,實(shí)驗(yàn)邏輯層由數(shù)據(jù)放置腳本以及封裝在任務(wù)調(diào)度器和數(shù)據(jù)放置腳本之上的調(diào)用接口組成,應(yīng)用層由實(shí)驗(yàn)界面和示范應(yīng)用組成。數(shù)據(jù)放置實(shí)驗(yàn)既可以使用實(shí)驗(yàn)床已經(jīng)封裝好的調(diào)用接口來(lái)實(shí)現(xiàn)特定的數(shù)據(jù)放置策略,也可以直接操作底層的測(cè)量工具來(lái)獲得實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),進(jìn)而指導(dǎo)數(shù)據(jù)放置策略的設(shè)計(jì)。接下來(lái)對(duì)每個(gè)層次進(jìn)行詳細(xì)說(shuō)明。
● 數(shù)據(jù)放置節(jié)點(diǎn)層:該層由若干個(gè)數(shù)據(jù)放置節(jié)點(diǎn)組成,這些節(jié)點(diǎn)分布在跨洲際廣域網(wǎng)環(huán)境下,每個(gè)節(jié)點(diǎn)由一個(gè)獨(dú)立的組織或者機(jī)構(gòu)維護(hù),擁有自己獨(dú)立的安全設(shè)置和資源分配策略,構(gòu)成了實(shí)驗(yàn)床的物理拓?fù)浣Y(jié)構(gòu)。每個(gè)節(jié)點(diǎn)具有獨(dú)立的存儲(chǔ)空間,且節(jié)點(diǎn)間的網(wǎng)絡(luò)互聯(lián)情況會(huì)隨著廣域網(wǎng)訪問(wèn)壓力和鏈路狀況改變而發(fā)生相應(yīng)的變化。
● 中間件層:該層主要由針對(duì)網(wǎng)絡(luò)性能的測(cè)量工具以及數(shù)據(jù)放置任務(wù)調(diào)度器中間件組成。例如,實(shí)驗(yàn)床提供 iperf、scp、netcat 等工具對(duì)網(wǎng)絡(luò)性能狀況進(jìn)行實(shí)時(shí)采集。該層對(duì)數(shù)據(jù)放置實(shí)驗(yàn)開放調(diào)用接口,通過(guò)調(diào)用接口可對(duì)采集到的測(cè)量數(shù)據(jù)進(jìn)行分析和處理。同時(shí),利用任務(wù)調(diào)度器管理數(shù)據(jù)放置實(shí)驗(yàn)在不同數(shù)據(jù)放置節(jié)點(diǎn)上的執(zhí)行,對(duì)相應(yīng)的數(shù)據(jù)放置策略進(jìn)行驗(yàn)證。
● 實(shí)驗(yàn)邏輯層:該層將中間件層提供的測(cè)量工具和實(shí)驗(yàn)調(diào)度管理進(jìn)行封裝,并通過(guò)數(shù)據(jù)放置腳本和調(diào)用接口的形式暴露給數(shù)據(jù)放置實(shí)驗(yàn)和示范應(yīng)用,支持復(fù)雜數(shù)據(jù)放置實(shí)驗(yàn)的構(gòu)建。同時(shí)允許實(shí)驗(yàn)和示范應(yīng)用直接調(diào)用測(cè)量工具所提供的功能并利用實(shí)驗(yàn)結(jié)果指導(dǎo)數(shù)據(jù)放置策略,最大限度地提高實(shí)驗(yàn)床的靈活性,支持不同形式、不同層面的數(shù)據(jù)放置研究。
圖1 實(shí)驗(yàn)床整體設(shè)計(jì)Fig.1 Overall design of iDPL
● 應(yīng)用層:實(shí)驗(yàn)界面能夠有效地支持研究人員開展復(fù)雜的數(shù)據(jù)放置實(shí)驗(yàn),記錄實(shí)驗(yàn)過(guò)程中的網(wǎng)絡(luò)性能等信息,并最終將實(shí)驗(yàn)結(jié)果以可視化的形式進(jìn)行展示,提高了數(shù)據(jù)放置策略在真實(shí)廣域網(wǎng)環(huán)境中的驗(yàn)證效率。同時(shí),示范應(yīng)用驗(yàn)證了實(shí)驗(yàn)床的潛在用途,在實(shí)驗(yàn)床各節(jié)點(diǎn)間測(cè)量不同數(shù)據(jù)傳輸工具下的網(wǎng)絡(luò)帶寬和時(shí)延,這些實(shí)驗(yàn)數(shù)據(jù)對(duì)于設(shè)計(jì)性能感知的數(shù)據(jù)放置技術(shù)具有寶貴的研究?jī)r(jià)值。
目前,實(shí)驗(yàn)床已經(jīng)部署在北京航空航天大學(xué)(BUAA)、中科院網(wǎng)絡(luò)中心 (CNIC)、加州大學(xué)圣地亞哥分校 (UCSD) 和威斯康辛大學(xué)麥迪遜分校 (UW Madison) 等四個(gè)節(jié)點(diǎn),實(shí)驗(yàn)床節(jié)點(diǎn)的物理分布如圖2 所示。實(shí)驗(yàn)床所有節(jié)點(diǎn)均具有 IPv4 和 IPv6 網(wǎng)絡(luò)地址,其中中國(guó)部分的節(jié)點(diǎn)通過(guò) CERNET2 和 CSTNET兩個(gè)主干網(wǎng)聯(lián)接到中美間交換網(wǎng)絡(luò) CNGI-6IX;美國(guó)部分 UW Madison 節(jié)點(diǎn)直連到洛杉磯中美間交換網(wǎng)絡(luò),而 UCSD 節(jié)點(diǎn)首先聯(lián)接到OMNIPOP 交換網(wǎng)絡(luò),再通過(guò) Internet2 聯(lián)接到洛杉磯中美間交換網(wǎng)絡(luò)。
數(shù)據(jù)放置實(shí)驗(yàn)往往包含多個(gè)實(shí)驗(yàn)階段[8],每個(gè)實(shí)驗(yàn)階段有著不同的測(cè)量對(duì)象和測(cè)量目標(biāo),需要實(shí)驗(yàn)床能夠支持用戶編排復(fù)雜的實(shí)驗(yàn)流程。圖3描述了一個(gè)多階段的數(shù)據(jù)放置實(shí)驗(yàn),其由 4 個(gè)順序執(zhí)行的階段實(shí)驗(yàn)組成。以階段 3 為例,該階段的數(shù)據(jù)放置實(shí)驗(yàn)要求使用 fdt 數(shù)據(jù)傳輸工具和 IPv6 網(wǎng)絡(luò)傳輸協(xié)議,從UCSD 節(jié)點(diǎn)向 CNIC 節(jié)點(diǎn)傳輸 800GB 的測(cè)試數(shù)據(jù)。實(shí)驗(yàn)床采用有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)來(lái)支持?jǐn)?shù)據(jù)放置實(shí)驗(yàn)設(shè)計(jì)復(fù)雜的實(shí)驗(yàn)流程,當(dāng)科研人員設(shè)計(jì)完實(shí)驗(yàn)流程后,通過(guò)中間件層的 HTCondor[6]任務(wù)調(diào)度器將實(shí)驗(yàn)流程解析為不同的數(shù)據(jù)放置任務(wù),并保障不同任務(wù)間的依賴關(guān)系[7-8]。此外,實(shí)驗(yàn)床還支持?jǐn)?shù)據(jù)放置實(shí)驗(yàn)的定時(shí)執(zhí)行,可以在指定的時(shí)間上執(zhí)行特定的數(shù)據(jù)放置任務(wù)。
圖2 實(shí)驗(yàn)床節(jié)點(diǎn)的物理分布Fig.2 Geographical distribution of iDPL nodes
圖3 數(shù)據(jù)放置實(shí)驗(yàn)編排示例Fig.3 Example of data placement experiment arrangement
不同的數(shù)據(jù)放置技術(shù)在執(zhí)行數(shù)據(jù)放置的過(guò)程中,往往會(huì)采用類似的數(shù)據(jù)放置模式,即服務(wù)器-客戶端模式。數(shù)據(jù)從客戶端節(jié)點(diǎn)流出并流入服務(wù)端節(jié)點(diǎn),同時(shí)在數(shù)據(jù)放置的過(guò)程中測(cè)量影響數(shù)據(jù)放置性能的各種因素。為了便于多種數(shù)據(jù)放置技術(shù)快速、靈活對(duì)實(shí)驗(yàn)床進(jìn)行擴(kuò)展,實(shí)驗(yàn)邏輯層中的數(shù)據(jù)放置腳本采用了面向?qū)ο蠛蛯哟问降脑O(shè)計(jì)結(jié)構(gòu),如圖4所示。Mover 父類中定義了基本 onSetup 和 onComplete 方法,用于在數(shù)據(jù)放置實(shí)驗(yàn)前,客戶端節(jié)點(diǎn)與服務(wù)端節(jié)點(diǎn)協(xié)商通訊端口、公鑰以及證書等;在數(shù)據(jù)放置實(shí)驗(yàn)后,客戶端節(jié)點(diǎn)與服務(wù)端節(jié)點(diǎn)通過(guò)校驗(yàn)碼,完成數(shù)據(jù)完整性校驗(yàn)。通過(guò)繼承 Mover 父類,新的數(shù)據(jù)放置技術(shù)只需實(shí)現(xiàn)特定的數(shù)據(jù)傳輸方法,簡(jiǎn)化了擴(kuò)展實(shí)驗(yàn)床數(shù)據(jù)放置技術(shù)的工作量。例如,實(shí)驗(yàn)床已經(jīng)默認(rèn)支持了 iperf、fdt、scp 和 netcat 等數(shù)據(jù)放置技術(shù)。此外,在相應(yīng)的數(shù)據(jù)放置技術(shù)下,還可以進(jìn)一步擴(kuò)展不同網(wǎng)絡(luò)協(xié)議下的實(shí)現(xiàn),例如 IPv6。
數(shù)據(jù)放置實(shí)驗(yàn)在部署的過(guò)程中,需要客戶端和服務(wù)端節(jié)點(diǎn)動(dòng)態(tài)協(xié)商相關(guān)的通信參數(shù),例如通訊端口、校驗(yàn)碼等,需要一套輕量級(jí)的數(shù)據(jù)通訊協(xié)議。實(shí)驗(yàn)床采用了 Chirp 輕量級(jí) I/O 協(xié)議如圖5所示,客戶端和服務(wù)端節(jié)點(diǎn)可以通過(guò)遠(yuǎn)程輕量級(jí) I/O 操作,對(duì)需要協(xié)商的通信參數(shù)進(jìn)行讀寫,從而實(shí)現(xiàn)高效的雙向通信。通信參數(shù)協(xié)商完成后,服務(wù)端節(jié)點(diǎn)啟動(dòng)數(shù)據(jù)接收進(jìn)程并監(jiān)聽相關(guān)的通訊端口,等待客戶端發(fā)送數(shù)據(jù),并且在數(shù)據(jù)接收完成后利用校驗(yàn)碼對(duì)接收數(shù)據(jù)的完整性進(jìn)行校驗(yàn);客戶端根據(jù)數(shù)據(jù)放置實(shí)驗(yàn)設(shè)置,對(duì)發(fā)送數(shù)據(jù)進(jìn)行準(zhǔn)備,并利用相應(yīng)的數(shù)據(jù)傳輸工具向服務(wù)端發(fā)送數(shù)據(jù),發(fā)送結(jié)束后告知客戶端節(jié)點(diǎn)數(shù)據(jù)校驗(yàn)碼。此外,Chirp 還支持多種的安全驗(yàn)證協(xié)議。
每個(gè)數(shù)據(jù)放置任務(wù)完成后,會(huì)在實(shí)驗(yàn)床任務(wù)提交節(jié)點(diǎn)的任務(wù)日志中增加一條記錄,該記錄包括任務(wù)的提交時(shí)間、完成時(shí)間、網(wǎng)絡(luò)性能測(cè)量數(shù)據(jù)等。為了實(shí)現(xiàn)在實(shí)驗(yàn)床各節(jié)點(diǎn)間共享數(shù)據(jù)放置實(shí)驗(yàn)結(jié)果,同時(shí)避免重復(fù)拷貝各節(jié)點(diǎn)已有實(shí)驗(yàn)結(jié)果數(shù)據(jù),實(shí)驗(yàn)床采用了基于 git 的實(shí)驗(yàn)結(jié)果增量更新機(jī)制。首先將任務(wù)日志通過(guò) git 進(jìn)行版本管理,當(dāng)數(shù)據(jù)放置任務(wù)執(zhí)行完成并更新日志后,通過(guò) git add 命令將日志中的增量部分記錄到git數(shù)據(jù)庫(kù)中,同時(shí)擴(kuò)展圖4中的 scp 數(shù)據(jù)放置技術(shù),實(shí)現(xiàn)實(shí)驗(yàn)床各節(jié)點(diǎn)間的 git clone 操作,從而定期將 git 數(shù)據(jù)庫(kù)拷貝到實(shí)驗(yàn)床各節(jié)點(diǎn),實(shí)現(xiàn)數(shù)據(jù)放置實(shí)驗(yàn)結(jié)果的增量共享。
圖4 數(shù)據(jù)放置腳本層次設(shè)計(jì)Fig.4 Hierarchical design of data placement script
圖5 基于 Chirp 協(xié)議的數(shù)據(jù)放置實(shí)驗(yàn)通訊參數(shù)協(xié)商Fig.5 Data placement experiment communication parameter negotiation based on Chirp protocol
圖6 數(shù)據(jù)放置實(shí)驗(yàn)結(jié)果展示界面Fig.6 Data placement experiment results display interface
由于數(shù)據(jù)放置實(shí)驗(yàn)往往需要運(yùn)行較長(zhǎng)時(shí)間,且產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)記錄較多,為了更好的向科研人員展示實(shí)驗(yàn)結(jié)果數(shù)據(jù),并便于對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行快速分析。實(shí)驗(yàn)床采用了 Grafana[10]數(shù)據(jù)繪制框架和 InfluxDB[11]時(shí)間序列數(shù)據(jù)庫(kù),從而更加快速、流暢的按照時(shí)間順序展示數(shù)據(jù)放置實(shí)驗(yàn)結(jié)果,如圖6所示。通過(guò)實(shí)驗(yàn)床數(shù)據(jù)展示界面,科研人員可以瀏覽任意時(shí)刻的實(shí)驗(yàn)結(jié)果數(shù)據(jù),同時(shí)可以定義數(shù)據(jù)過(guò)濾規(guī)則,快速篩選出感興趣的數(shù)據(jù)區(qū)域進(jìn)行分析。
為了驗(yàn)證跨洲際實(shí)驗(yàn)床在數(shù)據(jù)放置實(shí)驗(yàn)中的作用,我們?cè)趯?shí)驗(yàn)床上部署了用于測(cè)量實(shí)驗(yàn)床各節(jié)點(diǎn)間網(wǎng)絡(luò)帶寬的數(shù)據(jù)放置實(shí)驗(yàn),該實(shí)驗(yàn)的數(shù)據(jù)放置流程編排如表1 所示,實(shí)驗(yàn)床各節(jié)點(diǎn)在指定的時(shí)間內(nèi)執(zhí)行該數(shù)據(jù)放置實(shí)驗(yàn)流程,測(cè)量不同數(shù)據(jù)傳輸工具下節(jié)點(diǎn)間網(wǎng)絡(luò)的帶寬情況。為了避免實(shí)驗(yàn)床單個(gè)節(jié)點(diǎn)同時(shí)執(zhí)行多個(gè)數(shù)據(jù)放置實(shí)驗(yàn)對(duì)測(cè)量結(jié)果造成干擾,示范應(yīng)用對(duì)不同節(jié)點(diǎn)間開展數(shù)據(jù)放置實(shí)驗(yàn)的時(shí)間進(jìn)行了統(tǒng)一安排。例如,BUAA節(jié)點(diǎn)到其它三個(gè)節(jié)點(diǎn)的執(zhí)行時(shí)間安排如表2 所示,其中第三列表示每小時(shí)內(nèi)實(shí)驗(yàn)開始執(zhí)行的時(shí)間。目前該示范應(yīng)用已經(jīng)成功運(yùn)行近兩年,并且采集了大量的中美間真實(shí)網(wǎng)路性能數(shù)據(jù)。該示范應(yīng)用的實(shí)驗(yàn)代碼已經(jīng)全部開放源碼 (https://github.com/iDPL/placement)。
表1 示范應(yīng)用數(shù)據(jù)放置實(shí)驗(yàn)流程Table 1 Demo application data placement experiment process
表2 BUAA 節(jié)點(diǎn)數(shù)據(jù)放置時(shí)間安排Table 2 Node BUAA data placement schedule
圖7 UCSD 節(jié)點(diǎn)到BUAA 節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬情況Fig.7 Network bandwidth from node UCSD to node BUAA
圖7展示了2017年1月7日至2017年2月12日,通過(guò)實(shí)驗(yàn)床上的數(shù)據(jù)放置實(shí)驗(yàn)測(cè)量到的 UCSD 節(jié)點(diǎn)到BUAA 節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬情況??梢钥闯?,這段時(shí)間內(nèi)中美間的 IPv4 網(wǎng)絡(luò)性能較差,iperf等數(shù)據(jù)傳輸工具幾乎無(wú)法在有限時(shí)間內(nèi)完成數(shù)據(jù)放置實(shí)驗(yàn),因而其測(cè)量所得的網(wǎng)絡(luò)帶寬幾乎為0。而通過(guò)iperf測(cè)量到的IPv6網(wǎng)絡(luò)帶寬波動(dòng)很大,從 1MB/s 到90MB/s 不等;netcat 測(cè)量了端到端進(jìn)行數(shù)據(jù)放置時(shí)的網(wǎng)絡(luò)帶寬性能,能夠更好的反映真實(shí)應(yīng)用感受到的網(wǎng)絡(luò)性能??梢钥闯?,在用netcat 進(jìn)行數(shù)據(jù)放置時(shí),網(wǎng)絡(luò)性能明顯低于iperf下的測(cè)量結(jié)果,在較穩(wěn)定的時(shí)段內(nèi)接近50MB/s,并且與這兩個(gè)節(jié)點(diǎn)間的理論帶寬 (1Gbit/s)相差甚遠(yuǎn);通過(guò)scp和fdt進(jìn)行數(shù)據(jù)放置時(shí),雖然網(wǎng)絡(luò)帶寬較為穩(wěn)定,但是傳輸性能遠(yuǎn)遠(yuǎn)低于netcat。這些通過(guò)實(shí)驗(yàn)床采集到的真實(shí)網(wǎng)絡(luò)性能數(shù)據(jù)對(duì)于分析不同數(shù)據(jù)傳輸工具下網(wǎng)絡(luò)性能差異的成因,進(jìn)而研究性能感知的數(shù)據(jù)放置技術(shù),具有較高的研究?jī)r(jià)值。
本文設(shè)計(jì)和實(shí)現(xiàn)了一種靈活可擴(kuò)展的跨洲際數(shù)據(jù)放置實(shí)驗(yàn)床,并在中美之間的四所大學(xué)和研究機(jī)構(gòu)間完成了實(shí)驗(yàn)床的部署。該實(shí)驗(yàn)床利用可靠的工作流管理,能夠支持科研人員設(shè)計(jì)包含多個(gè)階段和復(fù)雜流程的數(shù)據(jù)放置實(shí)驗(yàn)。同時(shí),實(shí)驗(yàn)床采用了輕量級(jí) I/O 協(xié)議,實(shí)現(xiàn)了在實(shí)驗(yàn)過(guò)程中對(duì)多種數(shù)據(jù)放置工具的靈活部署。通過(guò)示范應(yīng)用,驗(yàn)證了實(shí)驗(yàn)床可以長(zhǎng)期、穩(wěn)定的測(cè)量各個(gè)節(jié)點(diǎn)間的使用不同數(shù)據(jù)放置工具時(shí)的網(wǎng)絡(luò)帶寬信息,這些數(shù)據(jù)對(duì)于進(jìn)一步研究性能感知的數(shù)據(jù)放置技術(shù)具有較高的研究?jī)r(jià)值。目前,該實(shí)驗(yàn)床以及測(cè)量數(shù)據(jù)已經(jīng)免費(fèi)對(duì)科研人員開放 (http://mickey.buaa.edu.cn:8080/)。
[1]PORDES R,PETRAVICK D,KRAMER B等.The open science grid[C]//Journal of Physics: Conference Series.IOP Publishing,2007,78: 12057.
[2]CHERVENAK A,FOSTER I,KESSELMAN C等.The data grid: Towards an architecture for the distributed management and analysis of large scienti fic datasets[J].
[3]TIRUMALA A,DUNIGAN T,COTTRELL L.Measuring end-to-end bandwidth with Iperf using Web100[C]//Presented at.2003.
[4]Fast Data Transfer.[EB/OL].http://monalisa.cern.ch/FDT.
[5]GIACOBBI G.The GNU Netcat project[EB/OL].http://netcat.sourceforge.net.
[6]Journal of network and computer applications,2000,23(3): 187–200.THAIN D,TANNENBAUM T,LIVNY M.Distributed computing in practice: the Condor experience[J].Concurrency and computation: practice and experience,2005,17(2–4): 323–356.
[7]FREY J.Condor DAGMan: Handling inter-job dependencies[J].University of Wisconsin,Dept.of Computer Science,Tech.Rep,2002.
[8]COUVARES P,KOSAR T,ROY A等.Workflow management in condor[G]//Workflows for e-Science.Springer,2007: 357–375.
[9]DEELMAN E,CHERVENAK A.Data Management Challenges of Data-Intensive Scientific Workflows[C]//IEEE International Symposium on CLUSTER Computing and the Grid.2008: 687–692.
[10]Grafana Labs.The Grafana project[EB/OL].https://grafana.com/.
[11]InfluxData.The InfluxDB project[EB/OL].https://www.influxdata.com/.
A Flexible and Scalable Intercontinental Testbed for Data Placement Research
Wei Guang1,Yang Hailong1,Luan Zhongzhi1*,Qian Depei1,2
1.Sino-German Joint Software Institute,School of Computer Science & Engineering,Beihang University,Beijing 100191,China
2.School of Data and Computer Science,Sun Yat-Sen University,Guangzhou,Guangdong 510275,China
The emerging cloud computing and the era of big data promote researchers from different discipline to share large amount of scientific data across institutes and geological boundaries,in order to establish international collaborations acceleratingthe transition fromobservations to scientific discoveries.However,existing work lacks the understanding of various factors thataffect the performance,cost and resourceconsumption of data placement in the wide area network environment.These factors include the number and size of the files in the dataset,the characteristic of the filesystem on the source and destination nodes,the fluctuation of the network performance between the nodes,as well as the availability of IPv4/IPv6network protocol.To better understand the factors that affect the performance of scientific data placement in wide area networkenvironment,we propose a flexible and scalable intercontinental testbed between China and USusing the real network,which is open to the researchers as a facility to conduct various data placement experiments.
data placement; Intercontinental testbed
10.11871/j.issn.1674-9480.2017.02.004
基于洲際實(shí)驗(yàn)床的數(shù)據(jù)密集型應(yīng)用中數(shù)據(jù)放置基本問(wèn)題研究 (61361126011)
欒鐘治(luanzhongzhi@buaa.edu.cn)
2017年6月10日
魏 光:北京航空航天大學(xué)計(jì)算機(jī)學(xué)院中德軟件聯(lián)合研究所,博士生,主要研究方向?yàn)榉植际胶筒⑿杏?jì)算。
E-mail:weiguang0314@163.com
楊海龍:北京航空航天大學(xué)計(jì)算機(jī)學(xué)院中德軟件聯(lián)合研究所,助理教授,主要研究方向?yàn)楦咝阅苡?jì)算、分布式和并行計(jì)算、計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)。
E-mail:hailong.yang@buaa.edu.cn
欒鐘治:北京航空航天大學(xué)計(jì)算機(jī)學(xué)院中德軟件聯(lián)合研究所,副教授,博士生導(dǎo)師,主要研究方向?yàn)楦咝阅苡?jì)算、分布式和并行計(jì)算、計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)。
E-mail:luan.zhongzhi@buaa.edu.cn
錢德沛:北京航空航天大學(xué)計(jì)算機(jī)學(xué)院中德軟件聯(lián)合研究所,教授,博士生導(dǎo)師,主要研究方向?yàn)楦咝阅苡?jì)算、分布式和并行計(jì)算、計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)。
E-mail:depeiq@buaa.edu.cn