• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    異地數(shù)據(jù)中心的數(shù)據(jù)同步與調(diào)度系統(tǒng)設(shè)計

    2021-04-20 06:34:18方志寧張海濱馮雷葛永東
    電子技術(shù)與軟件工程 2021年3期
    關(guān)鍵詞:數(shù)據(jù)中心加密傳輸

    方志寧 張海濱 馮雷 葛永東

    (國電電力發(fā)展股份有限公司科技與信息管理部 北京市 100101)

    1 引言

    隨著工業(yè)制造企業(yè)在自動化、信息化、數(shù)字化建設(shè)方面不斷發(fā)展,以大數(shù)據(jù)、人工智能為代表的新技術(shù)在工業(yè)制造企業(yè)得到了廣泛應(yīng)用,這將更好地支撐企業(yè)戰(zhàn)略發(fā)展需求,提高企業(yè)創(chuàng)新能力,并為企業(yè)發(fā)展提供強大動力,為建設(shè)智慧企業(yè)提供有力技術(shù)保障。文獻(xiàn)[1]中對大數(shù)據(jù)、云計算作為基礎(chǔ)設(shè)施的優(yōu)勢進(jìn)行了研究,這也是新一代數(shù)據(jù)中心的發(fā)展趨勢,在此背景下某集團(tuán)化公司信息化建設(shè)也得到了良好的發(fā)展,公司本部及分布在全國各地的所屬各單位相繼建設(shè)了以大數(shù)據(jù)技術(shù)為基礎(chǔ)架構(gòu)的數(shù)據(jù)中心,為上層業(yè)務(wù)應(yīng)用創(chuàng)新提供堅實的基礎(chǔ)。

    目前,隨著分布在全國各地的所屬各單位數(shù)據(jù)中心的不斷建立,每個數(shù)據(jù)中心也成了一個一個的信息孤島,沒有共享的基礎(chǔ)和條件。各數(shù)據(jù)中心數(shù)據(jù)得不到有效共享,浪費大量的人力物力,與信息化提高效率減輕勞動強度的初衷還有差距,導(dǎo)致數(shù)據(jù)對于業(yè)務(wù)的支撐作用還不夠明顯。因此需要匯集并沉淀業(yè)務(wù)數(shù)據(jù),進(jìn)行跨中心的數(shù)據(jù)融合、標(biāo)準(zhǔn)化,形成企業(yè)數(shù)據(jù)資產(chǎn),并提供數(shù)據(jù)服務(wù)能力,為業(yè)務(wù)應(yīng)用創(chuàng)新賦能。

    針對上述現(xiàn)狀,文獻(xiàn)[2]提出了數(shù)據(jù)訪問與位置、平臺、應(yīng)用無關(guān)的解決方案,文獻(xiàn)[3]提出了基于數(shù)據(jù)平臺的所在行業(yè)的市場數(shù)據(jù)整合的方案,文獻(xiàn)[4-7]也從不同的角度提出了系統(tǒng)間數(shù)據(jù)共享交換的技術(shù),也有針對應(yīng)用級開發(fā)數(shù)據(jù)交互功能以實現(xiàn)數(shù)據(jù)共享。上述的研究對所在行業(yè)領(lǐng)域的數(shù)據(jù)交互進(jìn)行了探討,或是針對具體業(yè)務(wù)場景提出了數(shù)據(jù)交互技術(shù),但在海量數(shù)據(jù)同步傳輸、數(shù)據(jù)安全、監(jiān)控等方面沒有提出有效的解決方法。

    因此,在所在行業(yè)數(shù)據(jù)交換共享的場景雖然有針對不同場景數(shù)據(jù)共享的方案與技術(shù),但在異地數(shù)據(jù)中心之間的數(shù)據(jù)同步傳輸需要考慮數(shù)據(jù)量大、帶寬、數(shù)據(jù)點選、時效性等各種因素,因此異地數(shù)據(jù)中心的數(shù)據(jù)同步傳輸系統(tǒng)在此背景和需求下,通過采用分布式大數(shù)據(jù)核心技術(shù)設(shè)計并實現(xiàn)跨數(shù)據(jù)中心的數(shù)據(jù)同步傳輸系統(tǒng),解決異地數(shù)據(jù)中心的數(shù)據(jù)融合與同步難的問題。

    某集團(tuán)化公司本部及分布在全國各地的所屬各單位的數(shù)據(jù)中心作為試點工程,已將異地數(shù)據(jù)中心的數(shù)據(jù)同步傳輸系統(tǒng)(以下簡稱:數(shù)據(jù)傳輸系統(tǒng))投入運行,通過數(shù)據(jù)同步傳輸系統(tǒng),公司本部可以實現(xiàn)與所屬各單位數(shù)據(jù)中心數(shù)據(jù)共享,為公司本部和各廠站實現(xiàn)辦公協(xié)同化、信息網(wǎng)絡(luò)化、業(yè)務(wù)電子化、決策分析數(shù)字化提供數(shù)據(jù)基礎(chǔ)。通過數(shù)據(jù)的匯聚、融合、共享、分發(fā)、應(yīng)用,從單向輸出到雙向互動,企業(yè)的社交屬性充分發(fā)揮,數(shù)據(jù)共享和融合將帶來多領(lǐng)域協(xié)作、跨界創(chuàng)新的多重效應(yīng)。新價值的創(chuàng)造,將為企業(yè)賦能,使其在不斷變幻的市場中保持長盛不衰并保有持續(xù)競爭力。

    2 系統(tǒng)總體設(shè)計

    數(shù)據(jù)同步傳輸系統(tǒng)總體架構(gòu)設(shè)計如圖1,整個系統(tǒng)以分布式大數(shù)據(jù)技術(shù)為基礎(chǔ)架構(gòu),整體架構(gòu)分為三部分:數(shù)據(jù)傳輸軟件、數(shù)據(jù)傳輸管控、基礎(chǔ)大數(shù)據(jù)平臺。

    數(shù)據(jù)傳輸軟件層以大數(shù)據(jù)技術(shù)Apache Nifi 作為數(shù)據(jù)同步傳輸?shù)暮诵募夹g(shù),結(jié)合Hadoop、Spark、Flink、Hive、Impala、Kudu 等大數(shù)據(jù)技術(shù)棧,充分發(fā)揮大數(shù)據(jù)分布式處理技術(shù)的優(yōu)勢,實現(xiàn)數(shù)據(jù)獲取、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)路由、數(shù)據(jù)壓縮、加密等功能,并支持從不同的數(shù)據(jù)中心的數(shù)據(jù)存儲系統(tǒng)中實時或離線批量的方式進(jìn)行數(shù)據(jù)同步傳輸,通過Apache Nifi 解決了數(shù)據(jù)源多樣性、網(wǎng)絡(luò)安全以及傳輸速率等問題。

    圖1:系統(tǒng)總體架構(gòu)

    數(shù)據(jù)傳輸管控層是一個基于Web 的管理系統(tǒng),后臺調(diào)用Apache Nifi 的REST API,實現(xiàn)數(shù)據(jù)的傳輸功能。用戶可以在界面上添加數(shù)據(jù)中心的配置文件,創(chuàng)建用于跨數(shù)據(jù)中心的數(shù)據(jù)傳輸?shù)臄?shù)據(jù)流,并且可以在數(shù)據(jù)流中配置該數(shù)據(jù)流的運行頻次和數(shù)據(jù)傳輸?shù)膸?,簡單易用,同時也屏蔽了用戶對于Apache Nifi 的學(xué)習(xí)和使用成本,用戶可以按需點選所需要傳輸?shù)臄?shù)據(jù)。數(shù)據(jù)傳輸管控系統(tǒng)分為幾個核心模塊:系統(tǒng)監(jiān)控、數(shù)據(jù)流管理、模板管理、站點管理等。通過數(shù)據(jù)傳輸管控系統(tǒng)解決了管理和維護(hù)的問題。用戶通過界面可視化的操作,即可實現(xiàn)異地的、跨數(shù)據(jù)中心的數(shù)據(jù)傳輸?shù)男枨蟆?/p>

    基礎(chǔ)大數(shù)據(jù)平臺主要是基于Hadoop 大數(shù)據(jù)相關(guān)技術(shù)承載數(shù)據(jù)的存儲、計算和分析等功能,作為一個統(tǒng)一的數(shù)據(jù)存儲和計算平臺,通過數(shù)據(jù)傳輸軟件實時或離線批量同步過來的數(shù)據(jù)會統(tǒng)一匯聚在基礎(chǔ)大數(shù)據(jù)平臺,以便進(jìn)一步的對數(shù)據(jù)進(jìn)行加工處理。

    基于以上整體架構(gòu),數(shù)據(jù)同步傳輸系統(tǒng)的數(shù)據(jù)同步傳輸示意圖如圖2 所示。

    數(shù)據(jù)傳輸管控平臺與數(shù)據(jù)傳輸軟件系統(tǒng)部署在某集團(tuán)化公司本部,數(shù)據(jù)中心管理員或業(yè)務(wù)人員通過登陸數(shù)據(jù)傳輸管控平臺配置數(shù)據(jù)同步傳輸?shù)牟僮髦噶?,配置完成后?shù)據(jù)傳輸軟件系統(tǒng)接受到對應(yīng)的操作指令后會將指令通過傳輸軟件的代理Agent 同步到對應(yīng)的異地數(shù)據(jù)中心,異地數(shù)據(jù)數(shù)據(jù)中心解析指令后,將需要同步的數(shù)據(jù)通過Agent 與數(shù)據(jù)傳輸軟件系統(tǒng)進(jìn)行數(shù)據(jù)同步傳輸,實現(xiàn)異地數(shù)據(jù)中心的數(shù)據(jù)同步傳輸,網(wǎng)絡(luò)層通過內(nèi)部的專線,以便滿足數(shù)據(jù)傳輸?shù)膸?,以及?shù)據(jù)安全及傳輸監(jiān)控的需求。

    3 關(guān)鍵技術(shù)

    數(shù)據(jù)傳輸系統(tǒng)是采用了分布式大數(shù)據(jù)技術(shù)為核心技術(shù)的平臺,支撐海量實時數(shù)據(jù)、關(guān)系數(shù)據(jù)以及其他數(shù)據(jù)的安全傳輸通道,將各廠站數(shù)據(jù)中心數(shù)據(jù)同步傳輸?shù)焦颈静繑?shù)據(jù)中心的基礎(chǔ)大數(shù)據(jù)平臺。并將數(shù)據(jù)重要程度劃分優(yōu)先級,經(jīng)過壓縮、加密的安全傳輸方式,傳送到公司本部數(shù)據(jù)中心進(jìn)行匯聚、下發(fā)等,由本部數(shù)據(jù)中心的大數(shù)據(jù)平臺進(jìn)行統(tǒng)一的資源管理和調(diào)度。為確保數(shù)據(jù)傳輸系統(tǒng)能夠滿足各類業(yè)務(wù)數(shù)據(jù)的采集、傳輸、匯總、下發(fā)的功能、性能、安全性要求,數(shù)據(jù)傳輸系統(tǒng)的實現(xiàn)需支持:數(shù)據(jù)壓縮、數(shù)據(jù)加密、數(shù)據(jù)校驗、斷點續(xù)傳、異步傳輸、安全認(rèn)證。

    近些年以來,數(shù)據(jù)流傳輸與處理一直是數(shù)據(jù)同步架構(gòu)中的痛點之一[8]。而現(xiàn)在有越來越多事物的興起讓企業(yè)開始重視數(shù)據(jù)流傳輸及處理,包括:面向服務(wù)的體系結(jié)構(gòu)(SOA)[9],API[10],物聯(lián)網(wǎng)IOT[11]和大數(shù)據(jù)[12-13]。此外,合規(guī)性,隱私性和安全性所需的嚴(yán)格程度也在不斷提高。對于這些新技術(shù)或概念,數(shù)據(jù)流同步傳輸?shù)男枨蟠笾孪嗤?,主要區(qū)別在于復(fù)雜性,適應(yīng)業(yè)務(wù)變化的速度,以及大規(guī)模邊緣用例。數(shù)據(jù)傳輸系統(tǒng)旨在幫助解決這些現(xiàn)代數(shù)據(jù)流同步傳輸?shù)奶魬?zhàn)。

    3.1 數(shù)據(jù)同步傳輸技術(shù)

    文中在系統(tǒng)總體設(shè)計章節(jié)有介紹,數(shù)據(jù)傳輸系統(tǒng)主要基于分布式大數(shù)據(jù)技術(shù)實現(xiàn),其中Apache NiFi 作為傳輸軟件的核心,Apache Nifi 通過有效地使用專用的預(yù)寫日志和內(nèi)容存儲庫實現(xiàn)數(shù)據(jù)傳輸?shù)目煽啃?。它們一起被設(shè)計成能夠支持非常高的事務(wù)率、有效的負(fù)載擴(kuò)展、寫時復(fù)制和發(fā)揮傳統(tǒng)磁盤讀寫的優(yōu)勢。

    數(shù)據(jù)傳輸軟件支持緩沖所有排隊的數(shù)據(jù),以及在這些隊列達(dá)到指定的限制時提供反壓力的能力,或者在數(shù)據(jù)達(dá)到指定的生命周期時提供反壓力。并支持在隊列中檢索數(shù)據(jù)設(shè)置一個或多個優(yōu)先級方案。

    在異地數(shù)據(jù)中心的數(shù)據(jù)同步傳輸?shù)募夹g(shù)實現(xiàn)上,數(shù)據(jù)是核心,因此不能容忍數(shù)據(jù)損失的。有些場景必須在幾秒鐘內(nèi)被處理和交付才有價值。數(shù)據(jù)傳輸系統(tǒng)采用的Apache Nifi 支持這些細(xì)粒度數(shù)據(jù)傳輸?shù)奶囟ㄅ渲?。并且能夠可視化的方式對這些數(shù)據(jù)同步傳輸流進(jìn)行配置,并將傳輸指令進(jìn)行語義轉(zhuǎn)換來進(jìn)行描述,可以極大地降低復(fù)雜性并識別需要簡化的處理流程。數(shù)據(jù)傳輸系統(tǒng)不僅能夠可視化地建立數(shù)據(jù)流,而且能夠?qū)崟r地建立數(shù)據(jù)流。如果對數(shù)據(jù)流進(jìn)行更改,則更改將立即生效。更改是細(xì)粒度的,并且與受影響的組件隔離,不需要停止整個數(shù)據(jù)同步傳輸流來進(jìn)行某些特定的修改。

    數(shù)據(jù)同步傳輸流往往是高度面向模式的,雖然解決問題通常有許多不同的方法,但能夠共享這些設(shè)計好的通用的模式將大有幫助。為此數(shù)據(jù)傳輸系統(tǒng)提供的模板允許主題專家構(gòu)建和發(fā)布他們的數(shù)據(jù)同步傳輸流的設(shè)計,并讓其他人從中受益和協(xié)作。數(shù)據(jù)傳輸系統(tǒng)采用的Apache Nifi 能夠自動記錄、索引和提供可用的源系統(tǒng)數(shù)據(jù),因為數(shù)據(jù)在系統(tǒng)中傳輸流動、轉(zhuǎn)換。這些信息對于支持合規(guī)性、故障排除、優(yōu)化等場景非常重要。

    數(shù)據(jù)傳輸系統(tǒng)的數(shù)據(jù)存儲庫被設(shè)計成歷史的滾動緩沖區(qū)。只有在數(shù)據(jù)存儲庫過期或需要空間時才會刪除數(shù)據(jù)。這與數(shù)據(jù)來源功能相結(jié)合,為在對象生命周期的特定點查找數(shù)據(jù)、下載數(shù)據(jù)和重放操作提供了非常有用的基礎(chǔ)。

    另外是數(shù)據(jù)安全,數(shù)據(jù)同步傳輸流中的數(shù)據(jù)傳輸通過使用加密的協(xié)議(如雙向SSL)提供安全的交換。此外,數(shù)據(jù)傳輸系統(tǒng)允許對數(shù)據(jù)進(jìn)行加密和解密,并使用發(fā)送方/接收方等式兩邊的共享密鑰。也支持雙向SSL 身份驗證,并提供可插拔的授權(quán),以便在特定級別(只讀、管理員)上正確控制用戶的訪問權(quán)限。如果用戶將敏感屬性(如密碼)在網(wǎng)絡(luò)中傳輸,則會立即對服務(wù)器端進(jìn)行加密,即使以加密的形式也不會在客戶端再次公開。給定數(shù)據(jù)的權(quán)限級別應(yīng)用于每個組件,允許管理用戶具有細(xì)粒度級別的訪問控制。這意味著數(shù)據(jù)傳輸系統(tǒng)能夠處理一個或多個組織的需求。與隔離的拓?fù)湎啾?,多租戶授?quán)支持自服務(wù)的數(shù)據(jù)同步傳輸流管理模型,允許每個團(tuán)隊或組織在完全了解數(shù)據(jù)同步傳輸流的情況下進(jìn)行管理。

    數(shù)據(jù)傳輸系統(tǒng)的核心是為擴(kuò)展而構(gòu)建的,因此一個數(shù)據(jù)同步傳輸流程可以在其上以可預(yù)測和可重復(fù)的方式執(zhí)行和交互。支持的擴(kuò)展點包括:處理器、控制器服務(wù)、任務(wù)報告、優(yōu)先級排序器和自定義用戶界面。對于任何基于組件的系統(tǒng),隨著規(guī)模的擴(kuò)張,組件之間的依賴會越來越錯綜復(fù)雜。為了解決這個問題,數(shù)據(jù)傳輸系統(tǒng)采用的Apache NiFi 通過提供自定義類裝載器模型,來確保每個擴(kuò)展組件之間的約束關(guān)系被限制在非常有限的程度。因此,在創(chuàng)建擴(kuò)展組件時,就不用再過多關(guān)注其是否會與其他組件產(chǎn)生沖突。

    3.2 實時數(shù)據(jù)同步傳輸

    實時數(shù)據(jù)傳輸支持按需點選功能,支持界面上選擇需要的字段,數(shù)據(jù)傳輸系統(tǒng)對數(shù)據(jù)進(jìn)行裁剪,傳輸點選所需的數(shù)據(jù)。通過從源端Kafka 消費數(shù)據(jù),按照點選規(guī)則裁剪的數(shù)據(jù)推送到目標(biāo)集群的Kafka,實現(xiàn)數(shù)據(jù)同步。如圖3 所示。

    圖2:數(shù)據(jù)傳輸示意圖

    圖3:實時數(shù)據(jù)同步

    數(shù)據(jù)傳輸系統(tǒng)可以通過對接Kafka 的方式實現(xiàn)實時數(shù)據(jù)的傳輸,并可以通過集群的模式提高實時數(shù)據(jù)傳輸?shù)男始靶阅?。實時數(shù)據(jù)傳輸架構(gòu)中,數(shù)據(jù)傳輸系統(tǒng)充當(dāng)Kafka 集群的生產(chǎn)者和消費者,獲取源端數(shù)據(jù)做為生產(chǎn)者發(fā)布到Kafka 集群中,本部數(shù)據(jù)中心的大數(shù)據(jù)平臺實時計算引擎如Spark Streaming 或Flink 對Kafka 數(shù)據(jù)進(jìn)行實時數(shù)據(jù)處理,處理完的數(shù)據(jù)即可寫入大數(shù)據(jù)平臺HDFS 或HBase 等存儲,同時也可以寫入Kafka 集群,寫回至Kafka 集群的數(shù)據(jù)會被數(shù)據(jù)傳輸系統(tǒng)消費,并將數(shù)據(jù)傳輸至其他廠站數(shù)據(jù)中心的大數(shù)據(jù)平臺的HDFS、HBase 或Kudu 中。在數(shù)據(jù)傳輸系統(tǒng)中配置數(shù)據(jù)傳輸,可以通過數(shù)據(jù)傳輸系統(tǒng)的可視化圖形用戶界面,通過拖拉拽的方式構(gòu)建數(shù)據(jù)傳輸流程。系統(tǒng)底層采用的Apache NiFi 是高度并發(fā)的,其內(nèi)部封裝了相關(guān)的復(fù)雜性。處理器提供了高級抽象,屏蔽了并行編程固有的復(fù)雜性。處理器會同時運行,并且可以跨越一個處理器的多個線程來應(yīng)對高負(fù)載。通過Apache NiFi 方便地保護(hù)了數(shù)據(jù)傳輸管道免受并發(fā)復(fù)雜性的影響

    3.3 批量數(shù)據(jù)同步傳輸

    離線數(shù)據(jù)傳輸支持對接HDFS、Hive、Impala等大數(shù)據(jù)技術(shù)組件,根據(jù)用戶所選擇的HDFS 數(shù)據(jù)目錄、Hive 庫/表/字段、或SQL 語句,將獲取到的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)同步傳輸?shù)侥臣瘓F(tuán)化公司本部數(shù)據(jù)中心。數(shù)據(jù)傳輸系統(tǒng)能夠靈活配置并行度,通過設(shè)置并行度提高數(shù)據(jù)傳輸吞吐,保障數(shù)據(jù)傳輸效率。

    離線數(shù)據(jù)(又稱為歷史數(shù)據(jù))存儲在HDFS、Hive 中,并通過Hive/Impala 進(jìn)行查詢,表數(shù)據(jù)較多,存量數(shù)據(jù)較大,通常為GB 級別。而每日數(shù)據(jù)增量較小,MB 級別??芍С忠淮稳客健⒍〞r調(diào)度或者每日增量的方式進(jìn)行傳輸。

    3.3.1 關(guān)系型數(shù)據(jù)傳輸

    數(shù)據(jù)傳輸系統(tǒng)通過內(nèi)置關(guān)系型數(shù)據(jù)集成插件,支持Oracle、DB2、SqlServer、Mysql 等常用的數(shù)據(jù)庫,通過連接關(guān)系型數(shù)據(jù)庫獲取數(shù)據(jù),并對數(shù)據(jù)做簡單轉(zhuǎn)換及清洗,然后將數(shù)據(jù)傳輸至本部數(shù)據(jù)中心的大數(shù)據(jù)平臺Hive 中。

    3.3.2 半/非結(jié)構(gòu)化數(shù)據(jù)傳輸

    數(shù)據(jù)傳輸系統(tǒng)通過SFTP 連接器,或HDFS 連接器將半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)傳輸同步公司本部數(shù)據(jù)中心的大數(shù)據(jù)平臺HDFS中,傳輸過程中可以根據(jù)需求對數(shù)據(jù)進(jìn)行簡單清洗、轉(zhuǎn)換等。并支持并行模式,獲取源端數(shù)據(jù)并行同步傳輸。

    3.4 數(shù)據(jù)傳輸流量控制

    異地數(shù)據(jù)中心的數(shù)據(jù)傳輸,會涉及到數(shù)據(jù)中心之間的數(shù)據(jù)鏈路帶寬不夠的問題,為了不影響異地數(shù)據(jù)中心之間的正常網(wǎng)絡(luò)通信,需要控制數(shù)據(jù)同步傳輸?shù)牧髁俊?/p>

    通過在數(shù)據(jù)傳輸系統(tǒng)中使用Apache Nifi 的ControlRate 處理器,在應(yīng)用層面控制數(shù)據(jù)傳輸?shù)乃俾?,無需涉及網(wǎng)絡(luò)層面的調(diào)整。ControlRate 處理器包含兩種數(shù)據(jù)傳輸速率控制方式:

    (1)單位時間內(nèi)傳輸?shù)臄?shù)據(jù)量大小??膳渲玫臅r間范圍有秒、分、小時、天等;可配置的傳輸速率有B、KB、MB、GB、TB。

    (2)單位時間內(nèi)傳輸?shù)臄?shù)據(jù)條數(shù)。可配置的時間范圍有秒、分、小時、天等;輸入整數(shù)可配置在該單位時間最大傳輸?shù)臄?shù)據(jù)條數(shù)。

    3.5 數(shù)據(jù)傳輸管控

    3.5.1 數(shù)據(jù)壓縮

    數(shù)據(jù)傳輸系統(tǒng)在保證數(shù)據(jù)完整性的前提下,縮減數(shù)據(jù)量以減少存儲空間,提高其傳輸、存儲和處理效率,按照一定的算法對數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲的空間。數(shù)據(jù)壓縮方式支持:NONE、DEFAULT、BZIP、GZIP、LZ4、LZO、SNAPPY、AUTOMATIC 等。

    3.5.2 數(shù)據(jù)加密

    數(shù)據(jù)傳輸系統(tǒng)支持的數(shù)據(jù)加密算法包括對稱加密和非對稱加密,滿足跨Internet 數(shù)據(jù)傳輸必須進(jìn)行數(shù)據(jù)加密處理的需求,以及數(shù)據(jù)加密機制必須符合國家信息安全等保三級防護(hù)要求。系統(tǒng)支持的對稱加密采用了包括DES、3DES 等算法。非對稱加密至少包括RSA、Elgamal、ECC(橢圓曲線加密算法)等。加密秘鑰由管理人員進(jìn)行線下生成并分發(fā),提供密碼定期更新機制。秘鑰及加密算法需采用加密形式保存,并不以明文分發(fā)。數(shù)據(jù)加密的效率不影響數(shù)據(jù)傳輸效率,加密速度高于數(shù)據(jù)生成速度。

    3.5.3 數(shù)據(jù)校驗

    系統(tǒng)支持?jǐn)?shù)據(jù)傳輸校驗,通過數(shù)據(jù)簽名等算法驗證確保數(shù)據(jù)的完整性,包括:數(shù)據(jù)校驗及時發(fā)現(xiàn)數(shù)據(jù)傳輸過程發(fā)生的插入、修改、刪除情況。數(shù)據(jù)校驗采用單向數(shù)據(jù)摘要算法,通過秘鑰生成數(shù)據(jù)摘要,數(shù)據(jù)摘要算法包括MD5、SHA-1 算法等。校驗信息與上傳數(shù)據(jù)一并發(fā)送,并形成對應(yīng)關(guān)系。對于數(shù)據(jù)校驗不成功的數(shù)據(jù)自動提交數(shù)據(jù)源重新上傳并校驗,對于反復(fù)校驗失敗的情況提交管理員處理。數(shù)據(jù)校驗算法的性能不影響數(shù)據(jù)傳輸效率,校驗速度高于數(shù)據(jù)生成速度。

    3.5.4 斷點續(xù)傳

    系統(tǒng)支持傳輸中斷后自動斷點續(xù)傳,以保證數(shù)據(jù)傳輸過程中保持較高的傳輸效率,包括:數(shù)據(jù)傳輸過程中,傳輸平臺記錄當(dāng)前已經(jīng)上傳的位置標(biāo)記,當(dāng)傳輸過程中出現(xiàn)異常情況造成傳輸中斷時,系統(tǒng)可通過斷點位置接續(xù)傳輸。將源文件按長度合理為分為N 塊文件,然后開辟N 個線程,每個線程傳輸一塊,傳輸完成后合并所有線程文件。斷點續(xù)傳功能提供N 個斷點并發(fā)的能力,最大限度提升傳輸效率。系統(tǒng)斷點續(xù)傳支持ftp、http、https 等協(xié)議,支持WebService 斷點續(xù)傳。

    3.5.5 傳輸任務(wù)調(diào)度

    數(shù)據(jù)傳輸系統(tǒng)提供統(tǒng)一的數(shù)據(jù)同步傳輸任務(wù)創(chuàng)建、任務(wù)分發(fā)、任務(wù)調(diào)度管理功能,以實現(xiàn)數(shù)據(jù)傳輸任務(wù)任意調(diào)度的能力。用戶可以創(chuàng)建簡單、復(fù)雜的數(shù)據(jù)流,將廠站數(shù)據(jù)全量、增量或者實時同步傳輸?shù)奖静看髷?shù)據(jù)平臺。平臺支持任務(wù)的調(diào)度方式包括:單次的同步傳輸任務(wù)、周期性的同步傳輸任務(wù)、定時同步傳輸任務(wù)、實時同步傳輸任務(wù)。任務(wù)調(diào)度提交后,對當(dāng)前正在執(zhí)行的任務(wù),系統(tǒng)提供對任務(wù)的暫停、恢復(fù)、停止功能。對已經(jīng)執(zhí)行完成的歷史任務(wù),系統(tǒng)提供再次執(zhí)行、刪除歷史任務(wù)記錄功能。通過系統(tǒng)提供的調(diào)度功能可以滿足用戶任意調(diào)度同步傳輸數(shù)據(jù)的需求。

    4 實際應(yīng)用

    數(shù)據(jù)傳輸系統(tǒng)已經(jīng)在某集團(tuán)化公司本部和所屬火電試點企業(yè)、所屬新能源試點企業(yè)上線運行,在公司本部部署基礎(chǔ)大數(shù)據(jù)平臺、數(shù)據(jù)傳輸管控平臺和數(shù)據(jù)傳輸軟件系統(tǒng),在所屬火電試點企業(yè)、所屬新能源試點企業(yè)分別部署一套數(shù)據(jù)傳輸軟件Agent 節(jié)點用于對接廠站數(shù)據(jù)中心。系統(tǒng)部署上線后,對接所屬火電試點企業(yè)和所屬新能源試點企業(yè)兩個電廠數(shù)據(jù)中心的業(yè)務(wù)及數(shù)據(jù)如下:

    4.1 所屬火電試點企業(yè)數(shù)據(jù)同步

    所屬火電試點企業(yè)需要對接的數(shù)據(jù)源包括實時數(shù)據(jù)和非實時數(shù)據(jù),包含實時數(shù)據(jù)的有DCS、NCS 系統(tǒng)等生成類數(shù)據(jù);關(guān)系型數(shù)據(jù)有OA、EAM 資產(chǎn)管理系統(tǒng)和燃料管理系統(tǒng)等;其他包含半非實時、半結(jié)構(gòu)化數(shù)據(jù)的有智能跑冒滴漏系統(tǒng)、數(shù)字化煤場、智能巡檢機器人系統(tǒng)、燃料全過程管控系統(tǒng)(無人值守)、OA、EAM 資產(chǎn)管理系統(tǒng)、燃料管理系統(tǒng)和人員定位系統(tǒng)。

    實時數(shù)據(jù)存儲在兩類組件Kafka 和關(guān)系型數(shù)據(jù)庫里。消息隊列Kafka 的數(shù)據(jù)通過實時消費的方式同步到本部基礎(chǔ)大數(shù)據(jù)平臺,由于Kakfa 一天存入的數(shù)據(jù)量有8.64 億條,全量同步對帶寬的要求太高,所以本部可以通過點選調(diào)度的方式同步所需要的數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫通過增量同步的方式,采用實時讀取數(shù)據(jù)庫寫入日志的方式來實時同步關(guān)系型數(shù)據(jù)庫數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫每單位每天需要實時同步的數(shù)據(jù)一天大概10MB 左右。非實時數(shù)據(jù)通過在數(shù)據(jù)傳輸系統(tǒng)配置每天定時跑批的方式進(jìn)行同步,一般在晚上系統(tǒng)負(fù)載低的時候進(jìn)行。

    4.2 所屬新能源試點企業(yè)數(shù)據(jù)同步

    所屬新能源試點企業(yè)主要同步風(fēng)機、電氣和光伏的數(shù)據(jù)。實時數(shù)據(jù)會推送到Kafka,通過實時消費的方式同步到本部基礎(chǔ)大數(shù)據(jù)平臺,Kafka 的存入數(shù)據(jù)很大,也需要采用點選調(diào)度的方式按需同步數(shù)據(jù)。Kafka 的數(shù)據(jù)會在下屬單位數(shù)據(jù)中心被消費存儲到KUDU中,按天進(jìn)行分區(qū),歷史數(shù)據(jù)同步通過選擇時間段進(jìn)行批量同步。

    項目上線后穩(wěn)定運行,完成所屬試點企業(yè)兩個分布在不同地區(qū)的數(shù)據(jù)中心與北京總部的數(shù)據(jù)同步傳輸,實現(xiàn)下屬單位數(shù)據(jù)中心與公司本部數(shù)據(jù)中心互聯(lián)互通,為后續(xù)其他單位數(shù)據(jù)中心接入打下了堅實的基礎(chǔ),為實現(xiàn)公司實現(xiàn)智慧企業(yè)建設(shè)奠定了堅實的數(shù)據(jù)基礎(chǔ)。

    5 結(jié)語

    本文介紹的異地數(shù)據(jù)中心的數(shù)據(jù)同步調(diào)度系統(tǒng)基于分布式大數(shù)據(jù)相關(guān)技術(shù)來設(shè)計與實現(xiàn),旨在解決異地數(shù)據(jù)中心的數(shù)據(jù)同步傳輸問題,針對數(shù)據(jù)量大、按需點選、任意調(diào)度、數(shù)據(jù)安全、傳輸速率與帶寬控制、數(shù)據(jù)傳輸監(jiān)控等技術(shù)上的問題提供了實現(xiàn)方案,并結(jié)合在線可視化操作方式,簡化數(shù)據(jù)同步調(diào)度操作的復(fù)雜度,可以非常直觀的同步調(diào)度消費所需數(shù)據(jù),從而提高了數(shù)據(jù)的利用率,提升了業(yè)務(wù)效率。

    目前數(shù)據(jù)同步與調(diào)度系統(tǒng)已在某某集團(tuán)化公司本部及所屬試點企業(yè)投入試運行,在兩個不同區(qū)域的下屬單位陸續(xù)接入了大量的風(fēng)機設(shè)備數(shù)據(jù)、運營數(shù)據(jù)等,滿足了數(shù)據(jù)共享的需求,后續(xù)會陸續(xù)接入更多單位的數(shù)據(jù),實現(xiàn)公司本部與下屬各單位數(shù)據(jù)的共享,滿足更多的業(yè)務(wù)需求。

    異地數(shù)據(jù)中心的數(shù)據(jù)同步與調(diào)度系統(tǒng)目前主要針對海量數(shù)據(jù)的實時及批量數(shù)據(jù)同步與調(diào)度的技術(shù)方案,但在數(shù)據(jù)傳輸管控、數(shù)據(jù)斷點續(xù)傳、異步傳輸、數(shù)據(jù)目錄分類等方面依然存在需要進(jìn)一步提升的地方,后續(xù)需要進(jìn)一步的深入研究。

    猜你喜歡
    數(shù)據(jù)中心加密傳輸
    酒泉云計算大數(shù)據(jù)中心
    混合型隨機微分方程的傳輸不等式
    牽引8K超高清傳輸時代 FIBBR Pure38K
    一種基于熵的混沌加密小波變換水印算法
    電子制作(2018年18期)2018-11-14 01:48:00
    民航綠色云數(shù)據(jù)中心PUE控制
    電子測試(2018年11期)2018-06-26 05:56:24
    支持長距離4K HDR傳輸 AudioQuest Pearl、 Forest、 Cinnamon HDMI線
    認(rèn)證加密的研究進(jìn)展
    基于云計算的交通運輸數(shù)據(jù)中心實現(xiàn)與應(yīng)用
    基于ECC加密的電子商務(wù)系統(tǒng)
    虞城县| 德州市| 鄂托克旗| 泰和县| 新建县| 绥棱县| 贵定县| 吉林市| 周至县| 宿迁市| 卢湾区| 和林格尔县| 灌南县| 泾源县| 延庆县| 灵石县| 小金县| 南康市| 南陵县| 濮阳县| 临城县| 西充县| 古丈县| 个旧市| 静宁县| 博野县| 府谷县| 屯昌县| 长武县| 康定县| 农安县| 蒲城县| 平泉县| 化州市| 通城县| 白城市| 资兴市| 黔江区| 霸州市| 吴桥县| 镇巴县|