• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      企業(yè)級大數(shù)據(jù)平臺框架設(shè)計方法研究

      2018-07-06 09:18:32尹航謝汶姝劉俊濤喆單崇何楓
      計算機與網(wǎng)絡(luò) 2018年11期
      關(guān)鍵詞:分布式計算備份分布式

      尹航,謝汶姝,劉俊濤喆,單崇,何楓

      (1.北京宇航系統(tǒng)工程研究所,北京100076;2.中國人民解放軍91515部隊,海南三亞572000;3.航天新長征大道科技有限公司,北京100070)

      0 引言

      大數(shù)據(jù)技術(shù)的發(fā)展給企業(yè)數(shù)據(jù)應(yīng)用和價值提升帶來了前所未有的新局面,越來越多的企業(yè)引進大數(shù)據(jù)技術(shù),在業(yè)務(wù)戰(zhàn)略指引下,識別業(yè)務(wù)需求并評估數(shù)據(jù)分析能力,從現(xiàn)有的和新的數(shù)據(jù)來源中獲取新的洞察力,挖掘新的價值攀升空間,實現(xiàn)企業(yè)發(fā)展戰(zhàn)略[1]。本文針對大數(shù)據(jù)技術(shù)在企業(yè)級的應(yīng)用,提出了一種大數(shù)據(jù)平臺框架設(shè)計方案,目的是對企業(yè)內(nèi)部現(xiàn)有的多個應(yīng)用系統(tǒng)進行整合升級,為企業(yè)數(shù)據(jù)的應(yīng)用提供新的手段,同時為企業(yè)規(guī)劃大數(shù)據(jù)架構(gòu)設(shè)計、關(guān)鍵技術(shù)攻關(guān)、數(shù)據(jù)處理和分析方法提供一些借鑒。

      1 系統(tǒng)組成

      大數(shù)據(jù)平臺的系統(tǒng)組成如圖1所示。大數(shù)據(jù)平臺包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、分布式計算框架、數(shù)據(jù)服務(wù)平臺和平臺管理監(jiān)控6個部分。大數(shù)據(jù)平臺的數(shù)據(jù)源由數(shù)據(jù)采集平臺提供,同時為企業(yè)級上層各業(yè)務(wù)應(yīng)用系統(tǒng)提供數(shù)據(jù)管理、處理與分析手段,提供數(shù)據(jù)挖掘、數(shù)據(jù)可視化及數(shù)據(jù)深度應(yīng)用的大數(shù)據(jù)增值服務(wù)。

      圖1 大數(shù)據(jù)平臺系統(tǒng)的組成

      2 系統(tǒng)功能

      系統(tǒng)各部分提供的主要功能如下:

      ①分布式文件系統(tǒng):提供穩(wěn)定可靠的分布式存儲、數(shù)據(jù)的多冗余備份、不同服務(wù)器間負載均衡及存儲空間的水平擴展功能;

      ②分布式數(shù)據(jù)庫:實現(xiàn)基于多服務(wù)器的分布式數(shù)據(jù)庫系統(tǒng),提供分布式數(shù)據(jù)庫WebService形式的訪問接口及數(shù)據(jù)庫的水平擴展、負載均衡和故障恢復能力;

      ③關(guān)系型數(shù)據(jù)庫:提供常用關(guān)系型數(shù)據(jù)庫,支持ODBC/JDBC等接口,提供數(shù)據(jù)庫備份服務(wù);

      ④分布式計算框架:提供對大數(shù)據(jù)量的數(shù)據(jù)分塊、計算任務(wù)調(diào)度、數(shù)據(jù)與任務(wù)相互定位功能,實現(xiàn)“分而治之”計算模式,同時提供計算任務(wù)優(yōu)化及故障處理機制,保障分布式計算的有效性;

      ⑤數(shù)據(jù)服務(wù)平臺:提供分布式算法庫、數(shù)據(jù)庫基礎(chǔ)接口和WebService形式的數(shù)據(jù)訪問接口;

      ⑥平臺管理監(jiān)控:提供對大數(shù)據(jù)硬件集群的監(jiān)控與大數(shù)據(jù)平臺服務(wù)的監(jiān)控。

      3 系統(tǒng)設(shè)計

      3.1 分布式文件系統(tǒng)

      分布式文件系統(tǒng)將文件分布存儲在多臺服務(wù)器的存儲空間中,通過統(tǒng)一的接口對外提供文件系統(tǒng)服務(wù),包括文件打開、關(guān)閉、讀取及寫入等。分布式文件系統(tǒng)能夠自動實現(xiàn)數(shù)據(jù)的多冗余備份、虛擬機節(jié)點的故障檢測與恢復以及負責均衡和水平擴展。這些功能對用戶完全透明,用戶可以按照訪問本地磁盤的方式來使用分布式文件系統(tǒng),同時能夠得到高質(zhì)量的文件服務(wù)。分布式文件系統(tǒng)的結(jié)構(gòu)圖如圖2所示,具備以下能力。

      (1)具備冗余備份能力

      文件系統(tǒng)將文件分塊存儲在多個數(shù)據(jù)節(jié)點中,存儲的同時為每一個文件塊生成2個備份(共3份),3份文件塊分別存儲在不同的數(shù)據(jù)節(jié)點中,即使有2臺服務(wù)器同時發(fā)生故障也不影響任何文件的完整性和正確性。

      (2)具備故障檢測與恢復能力

      管理節(jié)點通過數(shù)據(jù)節(jié)點發(fā)送的心跳數(shù)據(jù)感知其運行狀態(tài),當某個節(jié)點發(fā)生故障,管理節(jié)點將切斷與該節(jié)點的連接關(guān)系,不再讓其執(zhí)行文件訪問操作,并認為其中存儲的數(shù)據(jù)已經(jīng)丟失。此外,文件系統(tǒng)會定期檢查文件的備份情況,當由于節(jié)點故障而導致備份丟失時,文件系統(tǒng)會再將文件備份到其他節(jié)點上,以保持數(shù)據(jù)同時在3個節(jié)點存儲的狀態(tài)。

      (3)具備負載均衡與水平擴展能力

      文件系統(tǒng)定期檢查各節(jié)點存儲空間的負載情況,當某些節(jié)點負載率過高或過低時,文件系統(tǒng)將自動執(zhí)行負載均衡,將文件塊移至負載率較低的節(jié)點上。當文件系統(tǒng)中有新的數(shù)據(jù)節(jié)點加入時,系統(tǒng)會利用負載均衡機制,將一些文件塊移至新的數(shù)據(jù)節(jié)點,實現(xiàn)存儲空間的水平擴展。

      圖2 分布式文件系統(tǒng)

      3.2 分布式數(shù)據(jù)庫

      分布式數(shù)據(jù)庫用于存放半結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)、數(shù)據(jù)分析與挖掘的中間數(shù)據(jù)。分布式數(shù)據(jù)庫底層基于分布式文件系統(tǒng)構(gòu)建,繼承其具有的可靠性、高性能和可擴展性。同時,分布式數(shù)據(jù)庫采用面向列的存儲架構(gòu),可以對TB級記錄進行快速隨機查詢與篩選,同時支持異構(gòu)數(shù)據(jù)的管理,可靈活適應(yīng)數(shù)據(jù)結(jié)構(gòu)的變化。為了使數(shù)據(jù)便于分析和挖掘,系統(tǒng)需將原始數(shù)據(jù)進行預(yù)處理,以提高特定算法執(zhí)行速度。利用分布式數(shù)據(jù)庫可存儲數(shù)據(jù)預(yù)處理的結(jié)果,加快分析挖掘算法的數(shù)據(jù)訪問速度,分布式數(shù)據(jù)庫結(jié)構(gòu)如圖3所示。

      分布式數(shù)據(jù)庫基于分布式文件系統(tǒng)構(gòu)建,集成了文件系統(tǒng)的冗余和擴展機制:

      ①利用分布式文件系統(tǒng)存儲多個復本的元信息,利用Zookeeper選舉機制實現(xiàn)管理節(jié)點的多機備份[2];

      ②利用分布式文件系統(tǒng)存儲數(shù)據(jù)表的多個副本,實現(xiàn)數(shù)據(jù)的冗余存儲;

      圖3 分布式數(shù)據(jù)庫

      ③數(shù)據(jù)庫表到達一定規(guī)模后會根據(jù)Key值自動分裂,分布到多個節(jié)點,實現(xiàn)負載均衡。

      該平臺的分布式數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)庫鏡像機制,創(chuàng)建鏡像時,數(shù)據(jù)庫能夠保存信息的副本,并對元信息指向的全部底層文件進行保護,防止文件在后續(xù)操作中被刪除或移動。通過鏡像機制,能夠在數(shù)據(jù)庫損壞時恢復到某一時刻的狀態(tài)。

      3.3 關(guān)系型數(shù)據(jù)庫

      大數(shù)據(jù)平臺提供關(guān)系型數(shù)據(jù)庫,用以存儲基礎(chǔ)數(shù)據(jù)、管理數(shù)據(jù)及建模數(shù)據(jù)。該平臺是基于MySQL提供關(guān)系數(shù)據(jù)庫服務(wù)的。MySQL是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,在Web應(yīng)用方面,MySQL是較好的一款關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System,RDBMS)應(yīng)用軟件[3]。MySQL支持ODBC/JDBC等接口,提供數(shù)據(jù)庫備份服務(wù)。在大數(shù)據(jù)平臺安裝了ODBC/JDBC驅(qū)動,在權(quán)限控制允許的范圍內(nèi),為上層應(yīng)用信息系統(tǒng)提供讀取、寫入和操作關(guān)系型數(shù)據(jù)庫的接口。

      大數(shù)據(jù)平臺提供的MySQL關(guān)系型數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)庫的冗余備份。冗余備份的工作原理是使用2臺服務(wù)器,一臺作為主服務(wù)器,運行應(yīng)用系統(tǒng)來提供服務(wù);另一臺作為備機,安裝完全一樣的應(yīng)用系統(tǒng),但處于待機狀態(tài)。當主服務(wù)器出現(xiàn)故障時,通過軟件診測將備份機器激活,保證應(yīng)用在短時間內(nèi)恢復正常使用。

      作為主服務(wù)器Master,會把自己的每一次改動都記錄到二進制日志Binarylog中。作為從服務(wù)器Slave,會用主服務(wù)器Master上的賬號登陸到Master上,讀取Master的Binarylog,寫入到自己的中繼日志Relaylog中,然后自己的Sql線程會負責讀取這個中繼日志,并執(zhí)行一遍,主服務(wù)器上的更改就同步到從服務(wù)器上了。在MySql上可以查看當前服務(wù)器的主從狀態(tài)。即當前服務(wù)器的Binary狀態(tài)和位置,以及其RelayLog的復制進度。

      3.4 分布式計算框架

      分布式計算框架是一種新的編程模式,它主要的思想是“分而治之”。大數(shù)據(jù)平臺通過Map和Reduce這2步實現(xiàn)任務(wù)在大規(guī)模計算節(jié)點中的調(diào)度和分配[4]。分布式計算框架由3個模塊組成,分別是客戶端、主節(jié)點和工作結(jié)點??蛻舳擞糜趯⒂脩糇珜懙牟⑿刑幚碜鳂I(yè)提交給主節(jié)點,再由主節(jié)點自動地將用戶作業(yè)分解為Reduce任務(wù)和Map任務(wù),并將任務(wù)調(diào)度到工作結(jié)點上,工作結(jié)點向主節(jié)點請求執(zhí)行任務(wù),同時多個工作節(jié)點組成的分布式文件系統(tǒng)用來存儲輸入和輸出數(shù)據(jù),分布式計算框架的結(jié)構(gòu)如圖4所示。

      圖4 分布式計算框架

      分布式計算框架模型的主要優(yōu)點就是它的高度抽象性,體現(xiàn)在映射函數(shù)Map、聚集函數(shù)Reduce和鍵值對<key,value>3個核心概念上。Map函數(shù)和Reduce函數(shù)對一組輸入的鍵值對(key/value)進行計算,得出另一組輸出鍵值對,即

      由式(1)可知,用戶定義的映射函數(shù)Map的功能是接收一組輸入鍵值對 <key,value>,即(K1,V1),經(jīng)過處理產(chǎn)生一組中間的(K2,V2)鍵值對,分布式計算框架函數(shù)庫聚合所有相同的中間鍵K2的相應(yīng)值,產(chǎn)生關(guān)于K2鍵的值集合list(V2),這個處理過程稱為“分組",在形式上可以認為具有相同key值的Value處在同一個組中。接下來再把處理得到的這個新鍵值對發(fā)送給由用戶提供的歸并函數(shù)Reduce;由式(2)可知,Reduce函數(shù)的功能是:讀入新的鍵值對(K2,list(V2)),再進一步處理、合并該中間鍵的值集合,最后形成一個相對較小的鍵值對集合list(K3,V3)。該處理過程稱為“合并”,它不僅是簡單的累加過程,還包含具有很強依賴關(guān)系的復雜運算。

      3.5 數(shù)據(jù)服務(wù)平臺

      數(shù)據(jù)服務(wù)平臺以分布式計算框架為支撐,向上層應(yīng)用提供數(shù)據(jù)訪問和處理服務(wù)。該平臺采用模塊化組件開發(fā),按功能可分為分布式數(shù)據(jù)檢索模塊、分布式數(shù)據(jù)處理模塊、分布式數(shù)據(jù)分析模塊及分布式數(shù)據(jù)挖掘模塊等幾方面內(nèi)容。企業(yè)需根據(jù)應(yīng)用系統(tǒng)具體業(yè)務(wù)需求對該平臺進行功能開發(fā)。例如針對運載飛行器測試數(shù)據(jù)分析與評估應(yīng)用需求,該數(shù)據(jù)服務(wù)平臺開發(fā)了以下功能:

      (1)分布式算法庫

      提供數(shù)據(jù)處理、分析、挖掘算法的分布式算法庫,將復雜算法轉(zhuǎn)化為可由分布式計算框架直接執(zhí)行的分布式算法。算法主要包括數(shù)據(jù)轉(zhuǎn)換算法、多維數(shù)據(jù)分析算法、關(guān)聯(lián)分析算法、回歸算法、分類算法及聚類算法等[5]。

      (2)任務(wù)處理模塊

      任務(wù)處理模塊將各應(yīng)用的數(shù)據(jù)處理請求轉(zhuǎn)化為實時或后臺處理任務(wù),并對后臺處理任務(wù)進行調(diào)度和控制。其處理的任務(wù)包括生成數(shù)據(jù)物化視圖、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘及統(tǒng)計分析等[6]。

      (3)數(shù)據(jù)訪問接口

      向上層應(yīng)用提供基于WebService的數(shù)據(jù)訪問和服務(wù)訪問接口,接口包括測試數(shù)據(jù)訪問接口、文件訪問接口及業(yè)務(wù)內(nèi)容查詢接口等。

      3.6 平臺管理監(jiān)控

      平臺管理監(jiān)控以Web服務(wù)方式提供大數(shù)據(jù)平臺的維護管理功能,在該項目中,平臺管理監(jiān)控系統(tǒng)提供了2個方面的監(jiān)控服務(wù):①對大數(shù)據(jù)硬件集群的監(jiān)控:包括硬件服務(wù)器節(jié)點管理、集群運行狀態(tài)管理、服務(wù)器CPU、內(nèi)存及網(wǎng)絡(luò)運行情況實時監(jiān)測等;②對大數(shù)據(jù)平臺服務(wù)的監(jiān)控:包括對Hadoop平臺進程監(jiān)控、虛擬機運行狀態(tài)監(jiān)控、分布式文件系統(tǒng)對CPU、內(nèi)存、網(wǎng)絡(luò)資源占用率監(jiān)控以及數(shù)據(jù)備份、系統(tǒng)擴展和故障恢復情況的監(jiān)控等。

      4 平臺實施部署

      以大數(shù)據(jù)平臺實施途徑和部署方式為例,平臺的整體架構(gòu)及技術(shù)選型如圖5所示。平臺的部署采用10臺云計算服務(wù)器搭建集群,具有數(shù)據(jù)中心管理服務(wù)、大數(shù)據(jù)存儲服務(wù)、關(guān)系型數(shù)據(jù)庫服務(wù)、數(shù)據(jù)分析挖掘服務(wù)、數(shù)據(jù)庫備份服務(wù)及Web服務(wù)等功能。在大數(shù)據(jù)平臺基礎(chǔ)上,運行了平臺管理監(jiān)控系統(tǒng)、全壽命周期信息管理系統(tǒng)、測試數(shù)據(jù)分析系統(tǒng)及大數(shù)據(jù)分析與挖掘系統(tǒng)等應(yīng)用。

      圖5 大數(shù)據(jù)平臺整體框架及技術(shù)選型

      5 結(jié)束語

      本文從傳統(tǒng)的企業(yè)級應(yīng)用系統(tǒng)向大數(shù)據(jù)技術(shù)背景下多應(yīng)用系統(tǒng)融合升級需求出發(fā),介紹了企業(yè)級大數(shù)據(jù)平臺框架設(shè)計方法,從系統(tǒng)組成、系統(tǒng)功能、系統(tǒng)設(shè)計及實施部署等幾個方面進行論述,該方法可實現(xiàn)穩(wěn)定可靠的分布式存儲、分布式數(shù)據(jù)檢索、分析、處理與挖掘的數(shù)據(jù)服務(wù),以及對平臺軟硬件運行的監(jiān)控。借鑒已有項目實施經(jīng)驗,基于10臺云計算服務(wù)器集群,給出實施部署示例,針對大數(shù)據(jù)企業(yè)級多系統(tǒng)應(yīng)用底層構(gòu)架設(shè)計提出可行方案,具有一定的應(yīng)用創(chuàng)新性,為企業(yè)級應(yīng)用系統(tǒng)集成的基礎(chǔ)平臺建設(shè)提供借鑒

      [1]趙剛.大數(shù)據(jù):技術(shù)與應(yīng)用實踐指南[M].北京:電子工業(yè)出版社,2013.

      [2]Junqueira F.Zookpeeper:Distributed Process Coordi-nation[M].O'Reilly Media,2013:210-333.

      [3]盧湘江,李向榮,宴子.MySQL高級配置和管理[M].北京:清華大學出版社,2001:8-9.

      [4]Dean J.Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[J].Communications of the ACM,2008,51(1):107-113.

      [5]Han Jiawei,Micheline K.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.

      [6]Rajaraman A,Ullman J D.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].王斌,譯.北京:人民郵電出版社,2012.

      猜你喜歡
      分布式計算備份分布式
      “備份”25年:鄧清明圓夢
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      基于云計算的移動學習平臺設(shè)計與實現(xiàn)
      軟件導刊(2016年11期)2016-12-22 21:47:07
      云計算中MapReduce分布式并行處理框架的研究與搭建
      面向異構(gòu)分布式計算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
      基于DDS的分布式三維協(xié)同仿真研究
      雷達與對抗(2015年3期)2015-12-09 02:38:50
      淺析數(shù)據(jù)的備份策略
      科技視界(2015年6期)2015-08-15 00:54:11
      西門子 分布式I/O Simatic ET 200AL
      出版原圖數(shù)據(jù)庫遷移與備份恢復
      汉沽区| 沁源县| 吴忠市| 凤城市| 深圳市| 隆昌县| 青铜峡市| 汉沽区| 昂仁县| 清河县| 新乐市| 广平县| 巴彦淖尔市| 光山县| 宁津县| 临澧县| 辰溪县| 临湘市| 新乡市| 博兴县| 亳州市| 铜川市| 桃江县| 浙江省| 山东| 湘潭市| 巴塘县| 合肥市| 黄陵县| 濮阳市| 鄂伦春自治旗| 巨鹿县| 色达县| 长宁区| 得荣县| 延寿县| 阆中市| 阜平县| 通山县| 共和县| 大丰市|