• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術研究

    2020-05-14 07:52:34龔芳海
    電子元器件與信息技術 2020年2期
    關鍵詞:容錯性批處理數(shù)據(jù)流

    龔芳海

    (廣東嶺南職業(yè)技術學院,廣東 廣州 510663)

    0 引言

    數(shù)據(jù)流處理技術是數(shù)據(jù)庫領域的一個重要研究點,尤其計算機信息技術的影響下,互聯(lián)網(wǎng)的用戶數(shù)量正在急劇增長,在這一背景下,傳統(tǒng)的數(shù)據(jù)處理技術已經(jīng)不能滿足人們快速增長的需求,因此需要對數(shù)據(jù)移動進行重視。龐大的數(shù)據(jù)總量會在一定程度上影響數(shù)據(jù)移動的速度和質量,就催生出數(shù)據(jù)處理的模式。在大數(shù)據(jù)分析的環(huán)境下,新型的分布式數(shù)據(jù)流處理技術主要是以數(shù)據(jù)流到達的時間點作為依據(jù)來進行相關的處理,這樣能夠避免任務等待時間過長或者是資源使用率的問題,分布式數(shù)據(jù)流處理技術在多領域的應用十分廣泛。

    1 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)流特點

    對于大數(shù)據(jù)的發(fā)展環(huán)境來說,它的主要特點就是實時化、智能化的計算和處理。實時的數(shù)據(jù)處理就是在數(shù)據(jù)剛剛產生的時候,就將數(shù)據(jù)流發(fā)送給流處理的系統(tǒng),然后再進一步的對其進行在線的分析和處理[1]。流處理系統(tǒng)的本質的就是篩選,即從大量新流入的數(shù)據(jù)中,對有效數(shù)據(jù)進行提取,進而縮短數(shù)據(jù)的產生與利用的時間間隔,提高數(shù)據(jù)存儲和處理的效率,做到空間的節(jié)省和成本的降低。

    大數(shù)據(jù)環(huán)境下的數(shù)據(jù)流具有五大特點:實時性、易失性、無序性、突發(fā)性、無限性,會面臨著眾多的挑戰(zhàn),不僅對實時性的要求比較高,數(shù)據(jù)流中流入的數(shù)據(jù)也可預知的,數(shù)據(jù)在計算的過程中也存在一定的持續(xù)性,并且對數(shù)據(jù)可靠性具有非常高的要求。分布式處理系統(tǒng)能夠對大數(shù)據(jù)流進行更好的解決,具有更好的擴展性容錯性,是需要重點研究的內容。

    2 大數(shù)據(jù)分析下分布式的數(shù)據(jù)流處理技術

    2.1 數(shù)據(jù)收集

    日志數(shù)據(jù)采集在流數(shù)據(jù)中占據(jù)著非常重要的比例,很多企業(yè)的平臺每天都會產生大量的數(shù)據(jù),只有將這些數(shù)據(jù)進行收集和整合,才能更好的滿足客戶的需求[2]。日志收集的基本特點就是可靠性高、實用性強和可擴展性強,目前的日志收集正在成為分布式日志數(shù)據(jù)處理的基礎和前提。

    2.2 歷史數(shù)據(jù)的存儲和查詢

    對于分布式的數(shù)據(jù)庫來說,它的歷史數(shù)據(jù)存儲與傳統(tǒng)數(shù)據(jù)存儲具有一定的差異性,這主要是因為分布式數(shù)據(jù)庫的硬盤管理手段有所不同,它主要是利用混合型的手段進行存儲和管理。在大數(shù)據(jù)分析中,混合存儲比傳統(tǒng)存儲具有更好的效果,傳統(tǒng)的數(shù)據(jù)存儲要根據(jù)數(shù)據(jù)大小來進行優(yōu)先分配和存儲,非常容易導致存儲不佳的問題[3]。從上述內容就可以看出,分布式混合存儲具有更好的靈活性,能夠讓每張表或者是表分區(qū)都可以在符合現(xiàn)實性的基礎上,根據(jù)實際情況選擇不同的存儲和壓縮方式,從而對系統(tǒng)的整體配置靈活性進行有效提升;能夠提高相應的速度,在對語句進行查詢的時候,列存儲只需要讀取所需數(shù)列即可,不需要像傳統(tǒng)數(shù)據(jù)庫那樣對整行數(shù)據(jù)進行提取,這樣能夠對運營成本進行有效降低,對提高數(shù)據(jù)查詢功能的相應速度具有重要的意義。

    2.3 智能索引

    在智能索引當中,不僅包含著預存數(shù)據(jù)相依存而形成的高級信息,也能根據(jù)數(shù)據(jù)流的實際需求來進行精確識別,這樣能夠更的連接和和查詢復雜表區(qū)[4],讓智能索引可以占據(jù)更少的空間位置,同時也具有更高的延展性,能夠讓數(shù)據(jù)在索引之后不發(fā)生膨脹的問題,也能對后續(xù)的索引構建速度進行加快。

    2.4 數(shù)據(jù)流的DDoS攻擊檢測

    想要對分布式數(shù)據(jù)處理系統(tǒng)進行更好的理解,需要對大數(shù)據(jù)環(huán)境下的分布式拒絕服務供給檢測數(shù)據(jù)流處理系統(tǒng)進行重視,數(shù)據(jù)來源于不同的服務器,通過對各種抓包軟件進行利用,將不同的網(wǎng)絡數(shù)據(jù)進行匯總,對后續(xù)的數(shù)據(jù)分析和檢測具有最重要的影響,能夠在很大程度上減輕服務器的負擔。完成數(shù)據(jù)的額匯總之后,還要將網(wǎng)絡數(shù)據(jù)作為消息源進行有序的管理[5]。將抓取到網(wǎng)絡數(shù)據(jù)進行處理,一方面可以直接將其傳送至其他應用當中,對其進行后續(xù)的分析和處理,另方面是進將其結果存存儲在數(shù)據(jù)庫中供后續(xù)使用和分析。

    3 目前主流的分布式數(shù)據(jù)數(shù)據(jù)流處理模型

    3.1 Storm數(shù)據(jù)流模型

    Storm數(shù)據(jù)流模型具有非常強的擴展性和容錯性,能夠獲得次秒級的延遲,它的具體組成部分是:Nimbus、Supervisor、Zookeeper。Nimbus可 以 說是數(shù)據(jù)集群的重要節(jié)點,它主要負責的就是數(shù)據(jù)集群的資源管理和任務分配;Supervisor主要對Nimbus分配的任務進行接收,可以說是擔負著過渡的作用,它能夠對系統(tǒng)工作管理的進度進行實時的控制;Zookeeper是storm主要應用的外部組件,它所提供的主要協(xié)調服務,即對上述兩個部分的協(xié)調。

    3.2 Samza數(shù)據(jù)流模型

    這種模型是由LinkedIn開源的分布式數(shù)據(jù)流處理系統(tǒng)模式,與其他數(shù)據(jù)流系統(tǒng)相比也具有不少的優(yōu)勢特性:首先來說,它只需要簡單的APL就可以對流式數(shù)據(jù)進行良好的處理,還具有大非常棒的容錯性[6],在用戶還沒有感知到任務失敗的情況下就對其進行有效的恢復,當任務狀態(tài)管理出現(xiàn)問題的時候,還能將其直接恢復到之前的狀態(tài)。對于一個完整的Samza數(shù)據(jù)流系統(tǒng)來說,它主要是由三個組件來構成:Kafka、Samza、Yarn。Kafka主要負責的就是提供實時的消息數(shù)據(jù)來源,同時它也可以是進行數(shù)據(jù)存儲的系統(tǒng),具有多種身份;Samza在對流式數(shù)據(jù)進行處理的時候,用戶可以憑借其API的優(yōu)勢,忽視其處理過程和容錯性;Yarn作為資源分配和任務管理的組件,它可以將資源作為容器的形式進行封裝,然后再繼續(xù)執(zhí)行相應的計算任務。

    3.3 Flink數(shù)據(jù)流模型

    Flink在經(jīng)過一定的研究之后就成為ASF(Apache Software Foundation)的頂級項目之一,因為它不僅能夠適應流數(shù)據(jù)的分布式處理,同時也能進行批處理,這種數(shù)據(jù)流模型開始展現(xiàn)出一種新的設計理念:大數(shù)據(jù)的處理是保持流式處理,批處理只是其中出現(xiàn)一種特殊的現(xiàn)象,簡言之就所有任務都可被當成流來進行處理[7]。從這里就可以看出,F(xiàn)link數(shù)據(jù)流模型與其他流處理模型具有很大的不同。具體來說,F(xiàn)link數(shù)據(jù)流模型在進行流處理時,實時的數(shù)據(jù)到達一個節(jié)點之后,會先進行緩存,然后再傳輸給后續(xù)節(jié)點,一直重復到最后;在進行批處理的時候,就是在當前節(jié)點的時候就要對所有需要處理的數(shù)據(jù)進行處理,然后進行序列化的緩存[8]。

    3.4 Spark Streaming數(shù)據(jù)流模型

    這種數(shù)據(jù)流模型是Spark進行流處理的一個最重要組件,是一個通用的并行計算框架,也是Apache旗下大數(shù)據(jù)領域一直在活躍的重要開源項目之一。這種分布式數(shù)據(jù)流處理的模型是在繼承Hadoop Map Reduce優(yōu)勢的基礎上增加了更多的特性。它可以在批處理和流處理中進行良好應用,其本質就是就是將用戶設定時間內接收到的數(shù)據(jù)轉化成一個一個小段,然后再進行批量的處理,這種操作方式也被稱作是離散流。因此對于Spark Streaming數(shù)據(jù)流模型來說,它的本質就是采用批處理的方式對所有數(shù)據(jù)形式進行處理,通過這樣的方式來提高處理的效率。具體的數(shù)據(jù)流模型如圖1所示。

    4 結語

    在大數(shù)據(jù)分析中,想要對數(shù)據(jù)進行的良好的處理就需要有一定的技術來支持,而分布式數(shù)據(jù)流處理的技術就是現(xiàn)今正在發(fā)展的重要技術,也是學界重點研究的對象,它的研究和應用能夠促進數(shù)據(jù)的利用效率。

    猜你喜歡
    容錯性批處理數(shù)據(jù)流
    基于視覺補充的水稻插秧機多傳感器組合定位研究
    汽車維修數(shù)據(jù)流基礎(下)
    一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
    基于認知心理學的交互式產品的容錯性設計研究
    基于數(shù)據(jù)流聚類的多目標跟蹤算法
    基于免疫算法的高容錯性廣域保護研究
    電測與儀表(2015年2期)2015-04-09 11:28:56
    基于多Agent的有限廣域方向比較算法與仿真實現(xiàn)
    北醫(yī)三院 數(shù)據(jù)流疏通就診量
    基于PSD-BPA的暫態(tài)穩(wěn)定控制批處理計算方法的實現(xiàn)
    批處理天地.文件分類超輕松
    磴口县| 鄂伦春自治旗| 潮安县| 河间市| 奇台县| 昆明市| 裕民县| 常宁市| 清涧县| 贵定县| 三台县| 潮安县| 太仆寺旗| 沧源| 常德市| 邳州市| 合作市| 澎湖县| 东山县| 卢氏县| 江华| 宁武县| 泰安市| 个旧市| 康保县| 从化市| 吕梁市| 镇江市| 天台县| 商水县| 永新县| 儋州市| 林周县| 吴堡县| 南宫市| 桂东县| 抚州市| 泸溪县| 巴楚县| 晋宁县| 龙泉市|