中小規(guī)模分布式文件系統(tǒng)集群構(gòu)架的優(yōu)化方案

2014-04-21 05:43:45白俊王新耿昕

武漢工程大學(xué)學(xué)報 2014年1期

關(guān)鍵詞：子網(wǎng)結(jié)點集群

白俊，王新，耿昕

（1.北京京北職業(yè)技術(shù)學(xué)院機(jī)電工程系，北京101400；2.中國石油大學(xué)計算機(jī)系，北京102249）

中小規(guī)模分布式文件系統(tǒng)集群構(gòu)架的優(yōu)化方案

白俊1，王新2，耿昕2

（1.北京京北職業(yè)技術(shù)學(xué)院機(jī)電工程系，北京101400；2.中國石油大學(xué)計算機(jī)系，北京102249）

針對分布式文件系統(tǒng)的應(yīng)用存在處理小文件效率不高的問題，提出一種適用于中小規(guī)模分布式文件系統(tǒng)集群的應(yīng)用架構(gòu)，將傳統(tǒng)分布式文件系統(tǒng)集群中的內(nèi)網(wǎng)劃分為兩個子網(wǎng)：對外子網(wǎng)和對內(nèi)子網(wǎng)，對外子網(wǎng)中傳輸與外網(wǎng)之間的交互數(shù)據(jù)，對內(nèi)子網(wǎng)中傳輸分布件系統(tǒng)集群的管理數(shù)據(jù)。每個數(shù)據(jù)結(jié)點同時與對外和對內(nèi)兩個子網(wǎng)連接，并代替名稱節(jié)點負(fù)責(zé)與外網(wǎng)直接的數(shù)據(jù)交流；名稱節(jié)點本身只與對內(nèi)子網(wǎng)連接。對外子網(wǎng)與外網(wǎng)之間使用防火墻設(shè)備加強(qiáng)安全性，并使用負(fù)載均衡設(shè)備將來自外網(wǎng)的數(shù)據(jù)請求合理的分配到每個數(shù)據(jù)節(jié)點上；增加了緩存機(jī)制對系統(tǒng)處理小文件操作進(jìn)行優(yōu)化，部署實驗環(huán)境，設(shè)計一個測試程序?qū)彺嫘蕼y試，對1000個100KB的文件，通過模擬多線程連續(xù)讀取大量文件來測試緩存的性能，實驗證明系統(tǒng)設(shè)計方案可行，增加磁盤緩存有利于提高系統(tǒng)處理小文件的存取效率，系統(tǒng)優(yōu)化效果顯著.

緩存；中小規(guī)模分布式文件系統(tǒng)；管理數(shù)據(jù)

0 引言

當(dāng)前，如何更為有效而又廉價地處理海量的用戶數(shù)據(jù)，已經(jīng)成為互聯(lián)網(wǎng)公司普遍面臨的一個難題.傳統(tǒng)的企業(yè)架構(gòu)采用企業(yè)級服務(wù)器或者小型機(jī)等高端硬件，并搭配昂貴的企業(yè)數(shù)據(jù)庫軟件，不但給互聯(lián)網(wǎng)公司增加了非常高的運營成本，一定程度上阻礙了互聯(lián)網(wǎng)公司的發(fā)展；也沒有足夠的擴(kuò)展性來處理未來互聯(lián)網(wǎng)公司所面臨的驚人數(shù)據(jù)量.

面對以上問題，很多互聯(lián)網(wǎng)公司開始自行研發(fā)更加廉價并且具有良好擴(kuò)展性的解決方案. Google推出的分布式文件系統(tǒng)Google File System（簡稱GFS）是一種已經(jīng)被證明的高效、高擴(kuò)展性并且較為廉價的解決方案.GFS配合MapReduce分布式計算框架，可以提供一套有效的數(shù)據(jù)存儲和處理系統(tǒng)，然而GFS并沒有向外界開放.Apache和Yahoo！也推出了一套類似的開源系統(tǒng)Ha?doop，并且已經(jīng)在很多互聯(lián)網(wǎng)公司得到了廣泛的應(yīng)用.Hadoop主要包括了三部分：

（1）Hadoop Common：一系列用于分布式文件系統(tǒng)和I/O的組件和接口（串行化，Java RPC，穩(wěn)定的數(shù)據(jù)結(jié)構(gòu)）；

（2）Hadoop Distributed File System（HDFS）：運行在大量普通商用機(jī)器上的、支持高吞吐量的分布式文件系統(tǒng)；

（3）Hadoop MapReduce：一種在分布式系統(tǒng)上有效處理大數(shù)據(jù)集的數(shù)據(jù)處理框架.

Hadoop Distributed File System（簡稱HDFS）是Hadoop包含的分布式文件系統(tǒng)，具有高效、高擴(kuò)展性和廉價的特點，很適合存儲海量的互聯(lián)網(wǎng)數(shù)據(jù).中國的很多互聯(lián)網(wǎng)公司尤其是有搜索引擎業(yè)務(wù)的公司已經(jīng)開始廣泛的使用HDFS，并且越來越深的感受到HDFS帶來的好處.但是，HDFS的應(yīng)用仍然存在一些阻礙：一是沒有一種完整、成熟、易于部署的架構(gòu)；二是HDFS為處理大文件而優(yōu)化，處理小文件的I/O效率不高.本文主要針對這兩個問題進(jìn)行了研究.

1 HDFS 應(yīng)用架構(gòu)設(shè)計

1.1 傳統(tǒng)HDFS集群架構(gòu)

HDFS是Hadoop的文件系統(tǒng)組件，它與其他的分布式文件系統(tǒng)有很多不同之處.HDFS具有很強(qiáng)的錯誤恢復(fù)機(jī)制，因為它運行的機(jī)器往往是價格相對低廉、損壞率較高的機(jī)器，所以它要具有快速檢測錯誤和自動恢復(fù)數(shù)據(jù)的能力；HDFS提供以數(shù)據(jù)流的方式訪問數(shù)據(jù)，適用于批量處理數(shù)據(jù)，而不是與用戶交互進(jìn)行數(shù)據(jù)操作，這種方式帶來了很高的數(shù)據(jù)吞吐流量，適合于對大量數(shù)據(jù)的處理.

傳統(tǒng)的HDFS使用了主/從架構(gòu)來管理集群中的結(jié)點，每個集群中都有一個NameNode結(jié)點和多個DataNode結(jié)點，如圖1所示.NameNode作為主結(jié)點，管理著文件系統(tǒng)的名字空間和對集群中數(shù)據(jù)的訪問；DataNode是從結(jié)點，負(fù)責(zé)存儲和管理數(shù)據(jù).用戶將文件存儲到HDFS中后，文件會被分割為若干個數(shù)據(jù)塊，并存儲到各個DataNode上.Na?meNode管理著各個文件和數(shù)據(jù)塊的映射表，以及所有對文件的操作，例如文件打開、關(guān)閉和重命名. DataNode負(fù)責(zé)處理客戶端的數(shù)據(jù)讀寫請求，同時也根據(jù)NameNode的指令進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和拷貝操作.

圖1 傳統(tǒng)HDFS集群架構(gòu)Fig.1 Traditional HDFSarchitecture cluster

傳統(tǒng)HDFS集群的優(yōu)點是集群內(nèi)部結(jié)構(gòu)簡潔，只有NameNode、DataNode和交換機(jī)三種設(shè)備，MapReduce等分布式計算模型可以充分利用這種簡潔性進(jìn)行數(shù)據(jù)計算的轉(zhuǎn)移，因此集群內(nèi)部可以達(dá)到很高的數(shù)據(jù)吞吐量，同時結(jié)構(gòu)上的簡潔也降低了維護(hù)工作的難度，相對提高了數(shù)據(jù)可靠性.但是在用于MapReduce之外的環(huán)境時，這種架構(gòu)存在很多不足之處［1-2］：

（1）外網(wǎng)讀寫數(shù)據(jù)時需要直接訪問NameNo?de，當(dāng)訪問頻繁時會給NameNode造成很大的性能壓力.

（2）單交換機(jī)的設(shè)計使內(nèi)外網(wǎng)之間的數(shù)據(jù)傳輸流量與HDFS集群管理的流量都集中于單個網(wǎng)段中，造成頻繁的網(wǎng)絡(luò)繁忙，限制了數(shù)據(jù)的傳輸效率.

（3）外網(wǎng)與內(nèi)網(wǎng)的直接連接會帶來數(shù)據(jù)安全上的隱患，尤其對于互聯(lián)網(wǎng)企業(yè)，安全遠(yuǎn)比性能更重要.

1.2 應(yīng)用架構(gòu)設(shè)計

針對傳統(tǒng)HDFS集群架構(gòu)的不足，提出以下優(yōu)化方案，如圖2所示：

（1）將傳統(tǒng)HDFS集群中的內(nèi)網(wǎng)劃分為兩個子網(wǎng)：對外子網(wǎng)和對內(nèi)子網(wǎng)，對外子網(wǎng)中傳輸與外網(wǎng)之間的交互數(shù)據(jù)，對內(nèi)子網(wǎng)中傳輸HDFS集群的管理數(shù)據(jù).

（2）每個DataNode同時與對外和對內(nèi)兩個子網(wǎng)連接，并代替NameNode負(fù)責(zé)與外網(wǎng)直接的數(shù)據(jù)交流；NameNode本身只與對內(nèi)子網(wǎng)連接.

（3）對外子網(wǎng)與外網(wǎng)之間使用防火墻設(shè)備加強(qiáng)安全性，并使用負(fù)載均衡設(shè)備將來自外網(wǎng)的數(shù)據(jù)請求合理的分配到每個DataNode上［3］.

圖2 HDFS應(yīng)用架構(gòu)Fig.1 HDFS application cluster

采用這種架構(gòu)的優(yōu)點是：

（1）采用內(nèi)外子網(wǎng)的劃分方式，減輕了傳統(tǒng)HDFS集群中NameNode的性能瓶頸和單個網(wǎng)絡(luò)中的頻繁數(shù)據(jù)擁堵問題.

（2）由DataNode負(fù)責(zé)直接處理外網(wǎng)的數(shù)據(jù)請求，配合使用負(fù)載均衡設(shè)備，在減少NameNode壓力的同時，提高了數(shù)據(jù)請求的處理速度和整個集群的數(shù)據(jù)處理效率.

（3）加入防火墻設(shè)備，增強(qiáng)了數(shù)據(jù)的安全性.

這種架構(gòu)也存在不足之處：

（1）沒有改變集群中單NameNode的方式，仍然存在單NameNode帶來的性能瓶頸和可靠性問題.

（2）內(nèi)外子網(wǎng)劃分的方式增加了系統(tǒng)實現(xiàn)和維護(hù)的復(fù)雜度.

（3）仍然存在小文件I/O的效率問題.

2 緩存設(shè)計

2.1 緩存設(shè)計需要解決的問題

由于上述應(yīng)用架構(gòu)仍然存在小文件I/O的效率問題，而互聯(lián)網(wǎng)中的數(shù)據(jù)一般具有以下特點：（1）小文件所占的比例很高；（2）大部分文件在創(chuàng)建后很少會被修改；（3）大部分?jǐn)?shù)據(jù)讀取請求集中于小部分經(jīng)常被訪問的文件，而其余大部分文件被訪問到的次數(shù)很少.這些特點正符合緩存的使用場景，因此本文使用緩存技術(shù)對上述應(yīng)用架構(gòu)進(jìn)行優(yōu)化.在設(shè)計緩存時，主要應(yīng)解決緩存置換策略問題［4］、所占空間大小、需要緩存文件［5］的大小等問題.

2.2 緩存設(shè)計方案

（1）置換策略：由于緩存的空間是有限的，在緩存填滿時的置換策略，本文使用最早被訪問置換策略.

（2）緩存空間：由于DataNode結(jié)點需要將更多的空間留給HDFS，如果要求所有經(jīng)常被訪問到的文件都被存儲在緩存中，則緩存在本地磁盤中所占的比例p由下式可得：

其中：n為數(shù)據(jù)塊的冗余度，f為所有文件中經(jīng)常被訪問的比例.

（3）需要緩存文件的大小限制：過大的文件在置換到緩存中時，會導(dǎo)致很多小文件被置換出緩存；同時文件越大，文件尋址時間造成的效率問題就越小，因此有必要對需要緩存的文件大小進(jìn)行限制.當(dāng)尋址時間占讀取總時間的比例大于或等于某一給定值時，需要被緩存.數(shù)據(jù)塊大小f由下式可得：

其中：f為數(shù)據(jù)塊大小（MB），t為平均尋址時間（ms），s為網(wǎng)絡(luò)傳輸速度（MB/s），r為設(shè)定緩存時尋址時間占讀取總時間應(yīng)達(dá)到的比例.

3 實驗設(shè)計與結(jié)果分析

3.1 實驗環(huán)境與目的

系統(tǒng)中設(shè)置1個NameNode，2個DataNode，2臺100M以太網(wǎng)交換機(jī).其上部署Ubuntu 9.04，Ha?doop 0.20.203.0，JDK 6，Bash等軟件環(huán)境.通過部署實驗平臺，驗證設(shè)計的HDFS應(yīng)用架構(gòu)是否可行.在無緩存和有緩存情況下進(jìn)行大量小文件讀取測試，記錄和比較每項測試花費的時間，來驗證緩存對于提高HDFS中小文件讀取效率的效果.

3.2 實驗內(nèi)容

實驗的內(nèi)容是進(jìn)行緩存效率測試.緩存效率實驗所需的數(shù)據(jù)設(shè)定為1 000個100 KB的文件，并設(shè)計一個測試程序，通過模擬多線程連續(xù)讀取大量文件來測試緩存的性能.測試分為6次進(jìn)行，根據(jù)緩存大小與HDFS中所有文件體積之和的比例，將緩存條件分別設(shè)置為無緩存、20%緩存，40%緩存，60%緩存，80%緩存，100%緩存，每次測試中讀取文件系統(tǒng)中的任意文件2 100次.

3.3 實驗結(jié)果分析

從圖3中可以看出：隨著緩存容量增大，文件讀取時間顯著減少，說明緩存對小文件效率優(yōu)化起到了較好的作用，證明了緩存優(yōu)化的可行性.而隨著緩存容量減少，讀取時間快速增加.在20%緩存時，讀取時間已經(jīng)超過了沒有緩存的情況，這是因為緩存容量減少時，被訪問文件存在于緩存中的幾率減少，緩存程序需要頻繁地處理文件的置換工作，比較明顯的影響了緩存工作的效率.尤其當(dāng)緩存容量非常小時，這種置換工作帶來的消耗使效率降低到了比不使用緩存更差的程度，因此在實際應(yīng)用中，應(yīng)當(dāng)考慮給緩存盡可能大的空間，在空間不足時避免使用緩存.

圖3 實驗結(jié)果折線圖Fig.3 The line graph of experiment result

4 結(jié)語

實驗證明：在實際應(yīng)用中，可以部署本文提出的HDFS應(yīng)用架構(gòu)，在集群規(guī)模不大時，該架構(gòu)是一個比較合適的解決方案.當(dāng)集群規(guī)模增大到一定級別之后，對外子網(wǎng)和對內(nèi)子網(wǎng)分別被劃分為多個交換機(jī)連接的網(wǎng)段，該架構(gòu)需要進(jìn)行適當(dāng)?shù)恼{(diào)整.而磁盤緩存對小文件讀取效率的優(yōu)化有較好的效果.

致謝

衷心感謝北京京北職業(yè)技術(shù)學(xué)院對教師科研工作的大力支持.

［1］Borthakur D.The hadoop distributed file system：A rchitecture and design［R］.Hadoop Docs，2007.

［2］Venner J.Pro Hadoop［M］.New York：Apress，2009： 21-53.

［3］柴黃琪，蘇成.基于HDFS的安全機(jī)制設(shè)計［J］.計算機(jī)安全，2010，5：22-25.

CHAI Huang-qi，SU Chen.The design of security mechanism based on HDFS［J］.Com puter Security，2010，5：22-25.（in Chinese）

［4］孫玉昕，章瑾.利用堆排序優(yōu)化路徑搜索效率的分析［J］.武漢工程大學(xué)學(xué)報，2013，35（6）：51-55.

SUN Yu-xin，ZHANG Jin.The analysis of heap sort optim ization path search efficiency of［J］.Journal of Wuhan Institute of Technology，2013，35（6）：51-55.（in Chinese）

［5］熊俊俏，周建軍，熊詩琪.快速圖形數(shù)據(jù)采集與現(xiàn)實控制器的設(shè)計［J］.武漢工程大學(xué)學(xué)報，2012，34（1）：61-63.

XIONG Jun-qiao，ZHOU Jian-jun，XIONG Shi-qi. Design of Journal［J］.fast graphics data acquisition and real controller of Wuhan Institute of Technology，2012，34（1）：61-63.（in Chinese）

Optimization scheme of cluster architecture of small and medium scaleHadoop distributed file system

BAIJun1，WANG Xin2，GENG Xin2
（1. Department of Electrical Engineering，Northern BeiJing Vocational Education Institute，BeiJing 101400，China）2. Department of Computer Science ，China University of Petroleum，Beijing 102249，China）

Aimed at the low efficiency of distributed file system dealing with small files, we proposed anapplication structure of small and medium- sized distributed file system cluster, the intranet of which wasdivided into external subnet and internal subnet. The external subnet was used to transport the exchange datato external network. The internal subnet was used to transport the management data in distributed file system.Every data node was connected to both two subnets to exchange data with external network replacing thename node，while the name node was connected only with internal subnet. The safety was enforced by usingfirewalls between external subnet and internal subnet. The data requests from the external network wereassigned to each data node reasonably through load balancing device. Because of the existence of efficiencyproblem in small files，we optimized small files operation through adding caching behavior，deployingexperimental environment and designing a test program for caching efficiency test. We tested the cacheperformance by simulating multithreading continuous reading large files using 1000 files of 100KB.Experiments prove that the efficiency of processing small file in system is improved by adding disk buffer andthe system optimization effect is remarkable.

cache；small and medium-sized distributed file system；management data

TP311.13

10.3969/j.issn.1674-2869.2014.01.014

1674－2869（2014）01－0069－05

本文編輯：陳小平

2014-01-03

十二五國家科技重大專項課題子課題（2011ZX05023-005-006）

白俊（1981-），女，河南洛陽人，講師，碩士.研究方向：數(shù)據(jù)庫，數(shù)據(jù)分析.