• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop的大數(shù)據(jù)分析管理平臺架構(gòu)設(shè)計

      2018-11-19 02:11:44
      關(guān)鍵詞:探查監(jiān)控用戶

      張 偉

      (中國大唐集團科學(xué)技術(shù)研究院有限公司,北京 100040)

      0 引言

      數(shù)據(jù)的爆炸式增長以及其蘊含的巨大價值將對企業(yè)未來的發(fā)展產(chǎn)生深遠的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。大型國有企業(yè)擁有豐富客戶資源的海量數(shù)據(jù)積累,在大數(shù)據(jù)時代要充分挖掘數(shù)據(jù)價值,跟上時代步伐。如何應(yīng)用數(shù)據(jù),挖掘數(shù)據(jù)的價值,讓數(shù)據(jù)為企業(yè)的發(fā)展保駕護航,將是未來信息技術(shù)發(fā)展道路上關(guān)注的重點。

      為了滿足大型企業(yè)對于數(shù)據(jù)多樣化、個性化需求,本設(shè)計方案提供高效、統(tǒng)一的數(shù)據(jù)接口,搭建一個數(shù)據(jù)精確、性能高效、方便分析的數(shù)據(jù)倉庫系統(tǒng)。通過該方案可對上游各類數(shù)據(jù)按照主題模型、應(yīng)用集市進行匯總,為下游輸出標(biāo)準(zhǔn)化、模型化的數(shù)據(jù),以滿足用戶的需求,同時利用數(shù)據(jù)倉庫高效的數(shù)據(jù)處理能力,縮短報表生成時間,提高數(shù)據(jù)統(tǒng)計效率。根據(jù)對應(yīng)用業(yè)務(wù)及技術(shù)特點進行綜合評估,提出基于Hadoop模式的數(shù)據(jù)分析平臺方案。

      1 設(shè)計原則

      數(shù)據(jù)分析平臺數(shù)據(jù)倉庫總體框架需要遵循如下技術(shù)原則:

      (1)開放性:引入業(yè)界開放的、成熟的標(biāo)準(zhǔn),從而保證系統(tǒng)成為符合標(biāo)準(zhǔn)又不失靈活性的開放平臺,為未來的系統(tǒng)擴展奠定基礎(chǔ)。

      (2)可擴展性:隨著新的業(yè)務(wù)需求的不斷產(chǎn)生,支持基礎(chǔ)數(shù)據(jù)模型、應(yīng)用分析模型、前端應(yīng)用的擴展性;支持在統(tǒng)一系統(tǒng)架構(gòu)中服務(wù)器、存儲、I/O設(shè)備等的可擴展性。

      (3)可靠性:制定并實施數(shù)據(jù)倉庫高可用性方案、運行管理監(jiān)控制度、運行維護制度、故障處理預(yù)案等,保證數(shù)據(jù)倉庫系統(tǒng)在復(fù)雜環(huán)境下的可靠性。

      2 平臺架構(gòu)設(shè)計

      2.1 平臺框架

      搭建數(shù)據(jù)分析的基礎(chǔ)平臺,建立完善的ETL(Extract-Transform-Load,數(shù)據(jù)倉庫技術(shù))調(diào)度機制并對數(shù)據(jù)進行初步的整合,建立基于應(yīng)用的基礎(chǔ)寬表。

      基于Hadoop+Oracle混合技術(shù)架構(gòu)的數(shù)據(jù)分析技術(shù)平臺,滿足數(shù)據(jù)分析工作及后續(xù)數(shù)據(jù)支撐的需要[1]。大數(shù)據(jù)分析平臺的邏輯架構(gòu)如圖1所示。

      (1)基于Hadoop架構(gòu)的系統(tǒng)設(shè)計

      首先,Hadoop支持超大文件存儲和處理,一般來說,HDFS存儲的文件可以支持TB和PB級別的數(shù)據(jù)。

      圖1 大數(shù)據(jù)分析平臺的邏輯架構(gòu)

      其次,Hadoop具備高可用能力,可以快速應(yīng)對硬件故障。在集群環(huán)境中,硬件故障是常見性問題,當(dāng)有上千臺服務(wù)器連在一起時,故障率會增高,因此故障檢測和自動恢復(fù)HDFS文件系統(tǒng)是平臺的核心能力。假設(shè)某一個DataNode節(jié)點掛掉之后,因為數(shù)據(jù)備份,還可以從其他節(jié)點里找到。NameNode通過心跳機制來檢測DataNode是否還存在。數(shù)據(jù)自動保存多個副本,副本丟失后自動恢復(fù)??蓸?gòu)建在廉價機上,實現(xiàn)線性(橫向)擴展,當(dāng)集群增加新節(jié)點之后,NameNode也可以感知,將數(shù)據(jù)分發(fā)和備份到相應(yīng)的節(jié)點上。 最后,具備流式數(shù)據(jù)處理能力 ,HDFS的數(shù)據(jù)處理規(guī)模比較大,應(yīng)用程序能以流的形式訪問數(shù)據(jù)庫。處理能力的核心的是數(shù)據(jù)的吞吐量,而不是訪問速度。訪問速度最終是要受制于網(wǎng)絡(luò)和磁盤的速度,機器節(jié)點再多,也不能突破物理的局限。HDFS具有高吞吐量。

      但是,Oracle在企業(yè)數(shù)據(jù)庫領(lǐng)域耗時30多年建立起來的核心地位并不會很快消失,企業(yè)的大量歷史數(shù)據(jù)沉淀在Oracle中,基于Oracle進行數(shù)據(jù)整合和預(yù)處理,會大幅度提升開發(fā)效率,但是隨著業(yè)務(wù)的升級改造,新產(chǎn)品研發(fā)中,高性價比的研發(fā)投入在Hadoop架構(gòu)下的高可擴展等優(yōu)勢更加明顯。

      總之,基于安全、穩(wěn)定、高效的原因考慮,保留傳統(tǒng)Oracle數(shù)據(jù)平臺的數(shù)據(jù)分析功能,將傳統(tǒng)數(shù)據(jù)平臺中壓力較大的計算任務(wù)剝離,并降低數(shù)據(jù)存儲的容量,充分利用Hadoop平臺的分布式處理優(yōu)勢,解決數(shù)據(jù)處理效率問題,支持向傳統(tǒng)平臺的數(shù)據(jù)回滾。數(shù)據(jù)分析平臺前期主要完成數(shù)據(jù)存儲、簡單查詢、各項管理工具、開發(fā)工具的應(yīng)用實施,必須由下列組件完成相關(guān)的功能。所需的基礎(chǔ)組件如圖2所示。

      (2)建設(shè)ETL調(diào)度系統(tǒng)

      建設(shè)穩(wěn)定、高效的ETL機制對數(shù)據(jù)進行清洗、轉(zhuǎn)換、加載等操作,并實現(xiàn)每日增全量數(shù)據(jù)的自動化加載;同時要實現(xiàn)對ETL任務(wù)的監(jiān)控與ETL任務(wù)報錯后的跟蹤處理并保留一定時間的ETL日志。

      圖2 Hadoop基礎(chǔ)架構(gòu)組件

      (3)整合ODS貼源層數(shù)據(jù),建立常用基礎(chǔ)寬表

      數(shù)據(jù)拆分系統(tǒng)與數(shù)據(jù)下載系統(tǒng)是兩個獨立的用于省內(nèi)數(shù)據(jù)下發(fā)的系統(tǒng),存在數(shù)據(jù)重復(fù)、互為補集等情況,需將兩處共有數(shù)據(jù)合并處理,整合形成操作數(shù)據(jù)存儲(Operational Data Store,ODS)貼源數(shù)據(jù)層。同時,各部門基于日常業(yè)務(wù)需求和技術(shù)應(yīng)用,將多個數(shù)據(jù)表進行關(guān)聯(lián),建立常用基礎(chǔ)寬表,以滿足客戶信息查詢、交易明細查詢、監(jiān)管數(shù)據(jù)調(diào)取等日常工作需求,提高數(shù)據(jù)提取效率。

      2.2 數(shù)據(jù)管理

      2.2.1數(shù)據(jù)導(dǎo)入

      數(shù)據(jù)采集能從不同數(shù)據(jù)源中進行指定規(guī)則的數(shù)據(jù)提取作業(yè),抽取后的數(shù)據(jù)存儲支持落地與不落地兩大類進行,抽取后的數(shù)據(jù)可以為數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)進行處理提供輸入,也可以直接進行處理或者加載。

      數(shù)據(jù)采集采用多樣性的接口方式,除了支持傳統(tǒng)的JDBC/ODBC接口、FTP文件接口[2],從抽取支持的實時性來看,支持批量數(shù)據(jù)抽?。粡某槿》绞絹砜?,包括全量抽取和增量抽取兩種方式,其中全量抽取可將所有歷史數(shù)據(jù)一次性抽取完成;增量抽取根據(jù)規(guī)則要求進行抽取。

      數(shù)據(jù)加載功能包括數(shù)據(jù)初始化工作、文件加載、壓縮加載、不落地加載等。數(shù)據(jù)加載功能具備將采集、處理后的數(shù)據(jù)源文件保存到數(shù)據(jù)庫中。支持加載時事物提交的參數(shù)配置,允許設(shè)定數(shù)據(jù)文件相關(guān)輸入路徑與加載文件匹配規(guī)則等信息,由數(shù)據(jù)裝載完成發(fā)現(xiàn)文件、獲取文件、加載數(shù)據(jù)、數(shù)據(jù)校驗等操作流程后完成數(shù)據(jù)入庫操作。

      在加載實現(xiàn)過程中支持提供不同類別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來加載到數(shù)據(jù)。數(shù)據(jù)加載結(jié)束或失敗時,都需要向在ETL系統(tǒng)相應(yīng)的數(shù)據(jù)庫日志表中記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問題排查提供詳細信息。

      數(shù)據(jù)加載主要滿足以下功能:

      (1)數(shù)據(jù)滿足自動加載和手動加載兩種方式,自動方式基于調(diào)度程序,定期定時執(zhí)行抽取任務(wù);且支持文件落地和不落地兩種存儲加載(落地加載是將數(shù)據(jù)源保存在ETL物理服務(wù)器中,進行接口保存加載。不落地加載是指將數(shù)據(jù)源寫入緩沖池中,不在物理機上保存而實現(xiàn)的加載)。

      (2)支持多任務(wù)的并行加載,支持多個數(shù)據(jù)庫連接同一裝載任務(wù)的并發(fā)執(zhí)行。

      (3)加載過濾,即具備基于數(shù)據(jù)屬性值的過濾加載。

      (4)數(shù)據(jù)裝載需要支持Oracle數(shù)據(jù)、TXT文本、Excel、CSV等多種不同數(shù)據(jù)格式進行加載。

      (5)提供圖形化裝載界面對整個ETL裝載過程進行監(jiān)控,包括文件名稱、目標(biāo)表名稱、數(shù)據(jù)日期、加載開始日期、加載結(jié)束日期、加載狀態(tài)、成功筆數(shù)和失敗筆數(shù)等。

      (6)數(shù)據(jù)裝載過程需要對錯誤數(shù)據(jù)進行過濾,在對記錄進行過濾的同時,能將發(fā)生錯誤的數(shù)據(jù)記錄到相應(yīng)的錯誤表中,并給出錯誤原因。

      (7)具備加載對象的參數(shù)配置功能,將數(shù)據(jù)加載過程中需要設(shè)置的命令、參數(shù)、規(guī)則進行配置,控件會自動生成相應(yīng)的可執(zhí)行代碼來完成作業(yè)。

      2.2.2數(shù)據(jù)清洗

      (1)數(shù)據(jù)探查

      根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)通過多維度視角進行數(shù)據(jù)的全面探查,系統(tǒng)使用者可以通過數(shù)據(jù)實體關(guān)系、主要指標(biāo)項,數(shù)據(jù)實體輪廓、內(nèi)容形式、自定義規(guī)則以及問題數(shù)據(jù)批注等方面進行數(shù)據(jù)的探查。

      (2)指標(biāo)探查

      通過對數(shù)據(jù)實體評估指標(biāo)進行探查分析,對于造成數(shù)據(jù)質(zhì)量問題進行定位;通過評估指標(biāo)規(guī)則,對表中的字段進行探查;可通過單一規(guī)則或組合規(guī)則進行明細數(shù)據(jù)記錄級的探查。

      (3)內(nèi)容探查

      ①獨特值探查

      允許查看某個值在屬性中的重復(fù)頻率、哪些記錄包含該獨特值以及對實體表中各屬性的獨特值個數(shù)排序。

      ②模式探查

      描述數(shù)據(jù)值字符形狀以標(biāo)識格式偏差,其中 a 等同于字母、 d 等同于數(shù)字、下劃線 (_) 等同于空格(相對于其他約定)。例如,aaaa 模式(一行四個字母)將表示為“a4”。因此,數(shù)據(jù)值“Jane Rizzo”將表示為“a4_a5”。

      ③掩碼探查

      將文本字符標(biāo)識為字母、數(shù)字或特殊字符。掩碼模式是掩碼編碼的形狀,它指明了單詞、短語或數(shù)字的常見質(zhì)量。例如, A 等同于一個字母, N 等同于一個數(shù)字。因此,如果產(chǎn)品代碼為 1H-3389BD,則其掩碼為 NA-NNNNAA。

      (4)相似數(shù)據(jù)清洗檢查

      利用模式匹配,對相似數(shù)據(jù)記錄進行去重,并且滿足相關(guān)記錄查詢;通過計算數(shù)據(jù)記錄的相似性,對相同或者相似的記錄進行分組,通過數(shù)據(jù)責(zé)任人確認進行去重或合并。

      (5)最佳匹配記錄清洗

      匹配記錄后,在匹配的記錄組中標(biāo)準(zhǔn)化并標(biāo)記最佳記錄。根據(jù)用戶定義的規(guī)則標(biāo)準(zhǔn)化通過常見關(guān)鍵詞鏈接的一組匹配的記錄中的數(shù)據(jù),例如,需要將一個匹配記錄中的出生日期或聯(lián)系方式填充到所有其他匹配記錄中[3]。用于最佳匹配的最常見規(guī)則包括:1字符值和數(shù)字值的上限/ 下限,2最長值和最短值,3最常出現(xiàn)值和最少出現(xiàn)值,4指定輸入源中的值,5最新的值和最舊的值。

      2.2.3數(shù)據(jù)治理

      數(shù)據(jù)治理過程需要逐一確定具體數(shù)據(jù)問題的原因,方可達到有效,提升數(shù)據(jù)質(zhì)量[4]。數(shù)據(jù)質(zhì)量問題主要體現(xiàn)在:數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)保存周期不一致、缺少數(shù)據(jù)字典等方面。建立數(shù)據(jù)分析平臺可以盡可能形成干凈、統(tǒng)一的數(shù)據(jù)源,為業(yè)務(wù)支撐提供數(shù)據(jù)支持。

      (1)提升數(shù)據(jù)質(zhì)量:對數(shù)據(jù)源系統(tǒng)及關(guān)聯(lián)源系統(tǒng)進行數(shù)據(jù)分析,排查數(shù)據(jù)重復(fù)的具體原因,搭建策略模型,以重新獲取缺失數(shù)據(jù)及空值數(shù)據(jù),使得進入分析平臺的數(shù)據(jù)字段在數(shù)據(jù)類型、字段中文名稱、字段英文命名上的一致性。

      (2)統(tǒng)一數(shù)據(jù)結(jié)構(gòu):按分門別類的對來源于零散的多個業(yè)務(wù)源系統(tǒng)數(shù)據(jù)進行存放,并進行簡單的匯總加工,以便后續(xù)直接使用。

      (3)統(tǒng)一存放周期:通過整合層對核心數(shù)據(jù)(如:賬戶余額、協(xié)議等)形成歷史拉鏈表,統(tǒng)一數(shù)據(jù)周期,以支持長期歷史趨勢分析。

      (4)統(tǒng)一數(shù)據(jù)字典:多渠道、多角度分析源系統(tǒng)數(shù)據(jù),形成統(tǒng)一數(shù)據(jù)字典,并可對數(shù)據(jù)字典進行統(tǒng)一版本管理。

      2.2.4ETL任務(wù)調(diào)度與監(jiān)控

      統(tǒng)一調(diào)度包括統(tǒng)一調(diào)度配置、統(tǒng)一調(diào)度運行、調(diào)度策略、統(tǒng)一調(diào)度監(jiān)控等模塊。ETL調(diào)度與監(jiān)控:通過對ETL整個處理流程中的獨立的ETL數(shù)據(jù)處理環(huán)節(jié)(如數(shù)據(jù)抽取、轉(zhuǎn)換或加載)進行監(jiān)控,以及在監(jiān)控過程中根據(jù)每個處理環(huán)節(jié)的處理任務(wù)自動生成該處理環(huán)節(jié)的監(jiān)控指標(biāo),從而一方面可以及時發(fā)現(xiàn)問題數(shù)據(jù)以及進一步分析問題數(shù)據(jù)產(chǎn)生的原因,因而提高了ETL的監(jiān)控效率以及提高了監(jiān)控結(jié)果的準(zhǔn)確性。通過郵件、短信等系統(tǒng)自動報警功能,減少人工監(jiān)控,從而在進一步提高效率的同時還簡化了ETL監(jiān)控的實現(xiàn)過程,減少了人為因素的影響從而進一步提高了 ETL監(jiān)控結(jié)果以及對ETL處理過程的質(zhì)量判斷的準(zhǔn)確性[5]。

      系統(tǒng)應(yīng)用監(jiān)控:系統(tǒng)應(yīng)用監(jiān)控主要針對即席查詢應(yīng)用的監(jiān)控。在硬件及操作系統(tǒng)層面,由全行統(tǒng)一的運行平臺統(tǒng)一進行監(jiān)控。數(shù)據(jù)庫監(jiān)控包括數(shù)據(jù)庫軟硬件監(jiān)控、數(shù)據(jù)庫空間監(jiān)控以及數(shù)據(jù)庫資源監(jiān)控。

      3 平臺安全性設(shè)計

      3.1 通信安全解決方案

      平臺安全設(shè)計考慮下面內(nèi)容:通信使用SSL/HTTPS協(xié)議,保證傳遞數(shù)據(jù)間的安全性。數(shù)據(jù)庫中密碼采用MD5或DES加密以保障安全。系統(tǒng)資源采用獨立授權(quán),采用逐級管理員方式保障用戶登錄合法性。系統(tǒng)日志記錄用戶各種操作,確保真實性,以便對系統(tǒng)進行審計[6]。系統(tǒng)提供備份和恢復(fù)知識庫的能力。在系統(tǒng)出現(xiàn)故障的時候,能夠收集錯誤信息。

      3.2 訪問控制列表

      對于數(shù)據(jù)倉庫的信息展示,需要提供靈活而又安全的訪問控制。面對現(xiàn)在的信息展示手段和技術(shù)的更新?lián)Q代,數(shù)據(jù)倉庫的信息安全控制需要全面的滿足當(dāng)前豐富的業(yè)務(wù)場景的需要。

      搭建統(tǒng)一門戶,支持單點登錄,同步辦公門戶系統(tǒng)用戶信息,提供單點登錄的支持方案,支持采用第三方安全認證平臺(如AD/LDAP)。

      安全控制:權(quán)限控制,與單位現(xiàn)有IT基礎(chǔ)架構(gòu)緊密集成,集中管理用戶身份驗證和訪問授權(quán),符合各部門安全策略要求[7]。

      3.3 角色管理

      用戶管理是控制用戶功能權(quán)限、數(shù)據(jù)訪問權(quán)限、資源訪問權(quán)限的基礎(chǔ)。支持按用戶、用戶組、角色進行管理;支持多套應(yīng)用系統(tǒng)共用同一套用戶管理系統(tǒng)。

      用戶管理包括用戶、角色的管理。用戶是登錄系統(tǒng)的基本單位,一個用戶可以屬于多個機構(gòu)。角色是一組權(quán)限的集合,通過給用戶或用戶組賦予角色,使之獲得相應(yīng)的權(quán)限[8]。定義系統(tǒng)有的操作權(quán)限,或者說功能權(quán)限。

      整個系統(tǒng)中有一個超級管理員對所有的管理員、用戶進行管理。

      4 結(jié)論

      借助Hadoop+Oracle混合技術(shù)架構(gòu),發(fā)揮Oracle在垂直應(yīng)用行業(yè)的先天優(yōu)勢和Hadoop在云平臺的并行計算及分析優(yōu)勢,構(gòu)建一個多層平臺架構(gòu),包括數(shù)據(jù)導(dǎo)入、清洗、治理和監(jiān)控等核心模塊,解決行業(yè)應(yīng)用中的數(shù)據(jù)匯總和綜合分析問題,并對外提供安全可擴展的數(shù)據(jù)服務(wù)能力。在應(yīng)用實施中,通過在Hadoop集群上建立常用基礎(chǔ)寬表,可以滿足客戶信息查詢、交易明細查詢、監(jiān)管數(shù)據(jù)調(diào)取等日常工作需求,提高數(shù)據(jù)提取效率。

      猜你喜歡
      探查監(jiān)控用戶
      The Great Barrier Reef shows coral comeback
      冀西北三馬坊熱儲構(gòu)造探查的新認知
      你被監(jiān)控了嗎?
      Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
      看監(jiān)控攝像機的4K之道
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      橡膠樹miRNA 探查
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      高頻超聲探查用于診斷附睪病變男性不育的價值探討
      米林县| 泗洪县| 奉贤区| 庄浪县| 临江市| 永川市| 铁岭市| 重庆市| 宝丰县| 延寿县| 锦屏县| 西城区| 茌平县| 赤壁市| 洪湖市| 茂名市| 成都市| 镇康县| 和田市| 安新县| 灌南县| 平潭县| 新干县| 婺源县| 京山县| 牡丹江市| 枣阳市| 广平县| 巴彦淖尔市| 巢湖市| 西丰县| 赤壁市| 绵竹市| 大理市| 绵阳市| 呈贡县| 鄂州市| 巫溪县| 北碚区| 安顺市| 赣榆县|