• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)安全處理技術(shù)研究

    2014-04-29 09:39:21韓江
    網(wǎng)絡(luò)空間安全 2014年4期
    關(guān)鍵詞:數(shù)據(jù)存儲(chǔ)數(shù)據(jù)處理大數(shù)據(jù)

    【 摘 要 】 隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)大數(shù)據(jù)的處理變得越來(lái)越重要。本文對(duì)如何處理大數(shù)據(jù)進(jìn)行了分析,研究了大數(shù)據(jù)處理的相關(guān)技術(shù),包括數(shù)據(jù)存儲(chǔ)架構(gòu)、數(shù)據(jù)結(jié)構(gòu)處理、極限存儲(chǔ)處理等方面。最后,對(duì)大數(shù)據(jù)的未來(lái)發(fā)展進(jìn)行了展望。

    【 關(guān)鍵詞 】 大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)存儲(chǔ)

    1 引言

    隨著云計(jì)算、移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、新技術(shù)與應(yīng)用的不斷涌現(xiàn),大數(shù)據(jù)的處理變得越來(lái)越重要。根據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,超過(guò)50%的企業(yè)目前每日生成的數(shù)據(jù)量在1TB以上,超過(guò)10TB的有10%,而更讓人吃驚的是有5%的企業(yè)每日生成的數(shù)據(jù)量已經(jīng)達(dá)到了50TB以上。特別是在金融、互聯(lián)網(wǎng)、電信等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)本身對(duì)于一個(gè)企業(yè)來(lái)說(shuō)變得越來(lái)越有價(jià)值,如果企業(yè)不能有效利用數(shù)據(jù)挖掘商業(yè)價(jià)值,就不可能在現(xiàn)代商業(yè)中取得行業(yè)領(lǐng)先地位。

    2 大數(shù)據(jù)處理難點(diǎn)

    (1)數(shù)據(jù)量大 數(shù)據(jù)庫(kù)每天處理的數(shù)據(jù)量達(dá)到TB級(jí)、PB級(jí)甚至EB級(jí),不僅給數(shù)據(jù)處理帶來(lái)了很大的難度,而且對(duì)數(shù)據(jù)存儲(chǔ)、服務(wù)器性能以及安全等方面都帶來(lái)了一系列問(wèn)題。

    (2)結(jié)構(gòu)化和非結(jié)構(gòu)化大量并存 存儲(chǔ)的大數(shù)據(jù)中不僅僅包括結(jié)構(gòu)化的數(shù)據(jù),也包括一些非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)不僅通過(guò)數(shù)據(jù)庫(kù)結(jié)合在一塊,而且要并用一個(gè)統(tǒng)一平臺(tái)來(lái)解決所有的數(shù)據(jù)問(wèn)題。

    (3)數(shù)據(jù)的快速增長(zhǎng) 由于大數(shù)據(jù)的增長(zhǎng)速度一般是PB級(jí)增長(zhǎng),不僅要考慮到存儲(chǔ)系統(tǒng)的吞吐量以及CPU的并發(fā)處理能力,還要考慮到數(shù)據(jù)庫(kù)高度可擴(kuò)展、可伸縮等多方面的需求。比如:①擴(kuò)展方式要簡(jiǎn)單,容量擴(kuò)充必須通過(guò)簡(jiǎn)單易行的方式完成,維護(hù)升級(jí)的代價(jià)要低;②線性擴(kuò)展,不是依靠增加每個(gè)單個(gè)服務(wù)器,或者單個(gè)集群的能力,而是依靠簡(jiǎn)單的添加服務(wù)器完成。

    3 大數(shù)據(jù)處理技術(shù)方法

    3.1 采用基于Hadoop架構(gòu)的高性能體系結(jié)構(gòu)計(jì)算機(jī)

    3.1.1 Hadoop架構(gòu)簡(jiǎn)介

    Hadoop 是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的軟件框架,以一種可靠、高效、可伸縮的方式進(jìn)行處理的,Hadoop主要由分布式文件系統(tǒng)HDFS和編程模型MapReduce兩部分組成。HDFS提供了海量數(shù)據(jù)的存儲(chǔ),MapReduce提供了對(duì)數(shù)據(jù)的計(jì)算。

    3.1.2 搭建MapReduce系統(tǒng)架構(gòu)

    高性能體系結(jié)構(gòu)計(jì)算機(jī)具有非常強(qiáng)大的計(jì)算能力以及存儲(chǔ)能力,因此可高效率地進(jìn)行大數(shù)據(jù)處理。在高性能體系結(jié)構(gòu)計(jì)算機(jī)上進(jìn)行大數(shù)據(jù)處理,首先要兼容原有應(yīng)用程序,還要支持 MapReduce 的編程模式,不能使用傳統(tǒng)的MPI編程模式,而必須在高性能計(jì)算機(jī)上部署MapReduce 架構(gòu),如圖1所示。

    其次,要對(duì)高性能體系結(jié)構(gòu)計(jì)算機(jī)存儲(chǔ)系統(tǒng)的讀寫(xiě)速度受限進(jìn)行改進(jìn),否則會(huì)成為整個(gè)系統(tǒng)性能的瓶頸。由于高并發(fā)帶來(lái)的對(duì)集群文件系統(tǒng)的資源競(jìng)爭(zhēng)和沖突, Lustre文件系統(tǒng)不能充分發(fā)揮并行I/O性能的優(yōu)勢(shì)。嚴(yán)重影響了高性能計(jì)算機(jī)進(jìn)行海量數(shù)據(jù)處理的高效性,因此解決的主要方法就是緩解資源的競(jìng)爭(zhēng),增加集群文件系統(tǒng)的條帶化塊大小或直接去掉HDFS層,讓Lustre文件系統(tǒng)直接為MapReduce層服務(wù)。這兩種方法都可以解決文件系統(tǒng)的資源競(jìng)爭(zhēng),最大限度的發(fā)揮存儲(chǔ)系統(tǒng)的并行I/O性能。

    3.2 數(shù)據(jù)結(jié)構(gòu)處理

    3.2.1合理進(jìn)行數(shù)據(jù)分區(qū)

    存儲(chǔ)大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)容量一般都會(huì)達(dá)到GB級(jí)別,甚至有的達(dá)到了TB級(jí)別。隨著時(shí)間的增長(zhǎng),表中的數(shù)據(jù)量也會(huì)大規(guī)模的增長(zhǎng),不但影響著數(shù)據(jù)庫(kù)的運(yùn)行效率,也增大數(shù)據(jù)庫(kù)的維護(hù)難度。對(duì)表不同的訪問(wèn)模式也可能會(huì)影響性能和可用性。通過(guò)合理的數(shù)據(jù)分區(qū)這些問(wèn)題會(huì)得到較好的改善。數(shù)據(jù)分區(qū)可以使數(shù)據(jù)分的更小、更容易管理,減小磁盤(pán)I/O,系統(tǒng)負(fù)荷,從而提高系統(tǒng)的運(yùn)行效率。除了合理進(jìn)行數(shù)據(jù)分區(qū)外,建立索引也是一個(gè)非常必要的。建立良好的索引是進(jìn)行數(shù)據(jù)優(yōu)化的好幫手,但建立索引要考慮到具體情況,不管是組合索引、獨(dú)立索引,索引的填充因子和聚集、非聚集索引都要考慮。例如如果是建立復(fù)合索引,應(yīng)盡可能的讓索引順序與字段順序相一致,而且要考慮只有用到復(fù)合索引中的第一個(gè)字段作為條件時(shí),才能使用建立的復(fù)合索引,否則建立的復(fù)合索引將不會(huì)被使用,特別是針對(duì)大表的分組、排序等字段。

    3.2.2優(yōu)化查詢SQL語(yǔ)句

    大數(shù)據(jù)進(jìn)行查詢處理過(guò)程中,優(yōu)化查詢的SQL語(yǔ)句對(duì)大數(shù)據(jù)查詢效率的影響非常大??梢酝ㄟ^(guò)很多方法進(jìn)行優(yōu)化:(1)盡量避免在 where 子句中使用!=或<>操作符 ,進(jìn)行 null 值判斷,使用 or 來(lái)連接條件,前置百分號(hào)%,對(duì)字段進(jìn)行表達(dá)式操作,函數(shù)操作等情況;(2)把數(shù)據(jù)、日志、索引盡可能的放到不同的I/O設(shè)備上,這樣可以增加讀取速度;(3)根據(jù)查詢條件,建立索引,并且要優(yōu)化索引、優(yōu)化訪問(wèn)方式,限制結(jié)果集的數(shù)據(jù)量,索引應(yīng)該盡量小,建議使用字節(jié)數(shù)小的列建立索引;(4)盡量使用數(shù)值型字段,若字段存儲(chǔ)數(shù)值型的字段盡量不要設(shè)計(jì)成字符型,否則會(huì)降低查詢和連接的性能,并會(huì)增加存儲(chǔ)開(kāi)銷(xiāo)。

    3.2.3 優(yōu)化分頁(yè)處理

    數(shù)據(jù)庫(kù)查詢數(shù)據(jù)經(jīng)常會(huì)用到分頁(yè)處理,常規(guī)處理通常采用兩種方案:(1)使用內(nèi)存,查詢后在內(nèi)存中進(jìn)行分頁(yè),缺點(diǎn)是占用內(nèi)存較大;(2)執(zhí)行存儲(chǔ)過(guò)程時(shí)在數(shù)據(jù)庫(kù)中分頁(yè),缺點(diǎn)是依賴數(shù)據(jù)庫(kù),查詢效率低。因此,分頁(yè)處理優(yōu)化也是對(duì)大數(shù)據(jù)處理的一個(gè)重要技術(shù)方法。

    分頁(yè)處理時(shí),可以考慮在內(nèi)存中預(yù)先加載進(jìn)一定頁(yè)數(shù)的數(shù)據(jù)來(lái)滿足部分?jǐn)?shù)據(jù)的需求,同時(shí)將所有列組合的數(shù)據(jù)進(jìn)行記錄。查詢的時(shí)候,首先到內(nèi)存中將查詢的條件與列組合的數(shù)據(jù)進(jìn)行比較,如果存在則在內(nèi)存中查詢需要的數(shù)據(jù),查詢結(jié)束后,刪掉第一頁(yè)最后的一個(gè)數(shù)據(jù)之前的所有數(shù)據(jù),另起一個(gè)監(jiān)控線程加載相應(yīng)條數(shù)進(jìn)內(nèi)存,這樣可以提高查詢的效率。

    3.2.4 設(shè)計(jì)良好的數(shù)據(jù)存儲(chǔ)空間

    對(duì)于大數(shù)據(jù)的處理,數(shù)據(jù)存儲(chǔ)在使用和維護(hù)中占據(jù)了核心地位。在數(shù)據(jù)量每天增長(zhǎng)相當(dāng)大的情況下,如果采用傳統(tǒng)的存儲(chǔ)方式會(huì)占用相當(dāng)大的存儲(chǔ)空間。如何更快、更高效地獲取歷史快照數(shù)據(jù)也要依賴于優(yōu)良的數(shù)據(jù)存儲(chǔ)空間設(shè)計(jì)。因此,設(shè)計(jì)良好的數(shù)據(jù)存儲(chǔ)空間是進(jìn)行數(shù)據(jù)處理的基礎(chǔ)。極限存儲(chǔ)方案是當(dāng)前進(jìn)行大數(shù)據(jù)處理使用最多的數(shù)據(jù)存儲(chǔ)方案,很好地解決了因?yàn)橹貜?fù)存儲(chǔ)造成存儲(chǔ)空間浪費(fèi)的問(wèn)題。極限存儲(chǔ)原理就是給數(shù)據(jù)庫(kù)中的記錄加上一個(gè)生命期。這樣數(shù)據(jù)庫(kù)中的任意一條記錄,由于存在確定的生命周期,一定對(duì)應(yīng)唯一的一個(gè)數(shù)據(jù)標(biāo)簽,而一個(gè)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)符合該生命周期的記錄集合,對(duì)于歷史快照數(shù)據(jù),就可以劃分到不同的生命周期數(shù)據(jù)標(biāo)簽里去。在適當(dāng)?shù)膱?chǎng)合下使用該方案,可以大大節(jié)約存儲(chǔ)空間,減少/去除冗余數(shù)據(jù),降低存儲(chǔ)成本,提高歷史快照數(shù)據(jù)的訪問(wèn)速度,表越大,極限存儲(chǔ)帶來(lái)的效果越是明顯。

    4 結(jié)束語(yǔ)

    大數(shù)據(jù)時(shí)代來(lái)了,大數(shù)據(jù)已經(jīng)成為現(xiàn)今業(yè)界最熱門(mén)研究課題,是未來(lái)的發(fā)展趨勢(shì)。隨著物聯(lián)網(wǎng)、4G網(wǎng)絡(luò)等的應(yīng)用,大數(shù)據(jù)從概念走向了價(jià)值化,形成了以大數(shù)據(jù)產(chǎn)業(yè)為核心的新興戰(zhàn)略性產(chǎn)業(yè)。大數(shù)據(jù)處理模式會(huì)多樣化并存,深度學(xué)習(xí)與研究大數(shù)據(jù)處理技術(shù),是對(duì)數(shù)據(jù)駕馭能力新的挑戰(zhàn)。有人預(yù)言:“大數(shù)據(jù)”所能帶來(lái)的巨大商業(yè)價(jià)值,將引領(lǐng)一場(chǎng)足以匹敵20世紀(jì)計(jì)算機(jī)革命的巨大變革。

    參考文獻(xiàn)

    [1] 黃訸等. 面向高性能計(jì)算機(jī)的海量數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)與評(píng)測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2012(49).

    [2] 趙浩然.論數(shù)據(jù)分區(qū)對(duì)海量數(shù)據(jù)處理的必要性[J].科學(xué)之友, 2011(33).

    [3] 李莉.海量數(shù)據(jù)處理策略[J].無(wú)線互聯(lián)科技,2013(2).

    [4] Apache Hadoop. [EB/OL]. http://hadoop.apache.org/.

    [5] 翟巖龍等.基于Hadoop的高性能海量數(shù)據(jù)處理平臺(tái)研究 [J].計(jì)算機(jī)科學(xué),2013(3).

    作者簡(jiǎn)介:

    韓江(1979-),男,碩士;主要研究方向和關(guān)注領(lǐng)域:數(shù)據(jù)庫(kù)應(yīng)用。endprint

    【 摘 要 】 隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)大數(shù)據(jù)的處理變得越來(lái)越重要。本文對(duì)如何處理大數(shù)據(jù)進(jìn)行了分析,研究了大數(shù)據(jù)處理的相關(guān)技術(shù),包括數(shù)據(jù)存儲(chǔ)架構(gòu)、數(shù)據(jù)結(jié)構(gòu)處理、極限存儲(chǔ)處理等方面。最后,對(duì)大數(shù)據(jù)的未來(lái)發(fā)展進(jìn)行了展望。

    【 關(guān)鍵詞 】 大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)存儲(chǔ)

    1 引言

    隨著云計(jì)算、移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、新技術(shù)與應(yīng)用的不斷涌現(xiàn),大數(shù)據(jù)的處理變得越來(lái)越重要。根據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,超過(guò)50%的企業(yè)目前每日生成的數(shù)據(jù)量在1TB以上,超過(guò)10TB的有10%,而更讓人吃驚的是有5%的企業(yè)每日生成的數(shù)據(jù)量已經(jīng)達(dá)到了50TB以上。特別是在金融、互聯(lián)網(wǎng)、電信等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)本身對(duì)于一個(gè)企業(yè)來(lái)說(shuō)變得越來(lái)越有價(jià)值,如果企業(yè)不能有效利用數(shù)據(jù)挖掘商業(yè)價(jià)值,就不可能在現(xiàn)代商業(yè)中取得行業(yè)領(lǐng)先地位。

    2 大數(shù)據(jù)處理難點(diǎn)

    (1)數(shù)據(jù)量大 數(shù)據(jù)庫(kù)每天處理的數(shù)據(jù)量達(dá)到TB級(jí)、PB級(jí)甚至EB級(jí),不僅給數(shù)據(jù)處理帶來(lái)了很大的難度,而且對(duì)數(shù)據(jù)存儲(chǔ)、服務(wù)器性能以及安全等方面都帶來(lái)了一系列問(wèn)題。

    (2)結(jié)構(gòu)化和非結(jié)構(gòu)化大量并存 存儲(chǔ)的大數(shù)據(jù)中不僅僅包括結(jié)構(gòu)化的數(shù)據(jù),也包括一些非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)不僅通過(guò)數(shù)據(jù)庫(kù)結(jié)合在一塊,而且要并用一個(gè)統(tǒng)一平臺(tái)來(lái)解決所有的數(shù)據(jù)問(wèn)題。

    (3)數(shù)據(jù)的快速增長(zhǎng) 由于大數(shù)據(jù)的增長(zhǎng)速度一般是PB級(jí)增長(zhǎng),不僅要考慮到存儲(chǔ)系統(tǒng)的吞吐量以及CPU的并發(fā)處理能力,還要考慮到數(shù)據(jù)庫(kù)高度可擴(kuò)展、可伸縮等多方面的需求。比如:①擴(kuò)展方式要簡(jiǎn)單,容量擴(kuò)充必須通過(guò)簡(jiǎn)單易行的方式完成,維護(hù)升級(jí)的代價(jià)要低;②線性擴(kuò)展,不是依靠增加每個(gè)單個(gè)服務(wù)器,或者單個(gè)集群的能力,而是依靠簡(jiǎn)單的添加服務(wù)器完成。

    3 大數(shù)據(jù)處理技術(shù)方法

    3.1 采用基于Hadoop架構(gòu)的高性能體系結(jié)構(gòu)計(jì)算機(jī)

    3.1.1 Hadoop架構(gòu)簡(jiǎn)介

    Hadoop 是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的軟件框架,以一種可靠、高效、可伸縮的方式進(jìn)行處理的,Hadoop主要由分布式文件系統(tǒng)HDFS和編程模型MapReduce兩部分組成。HDFS提供了海量數(shù)據(jù)的存儲(chǔ),MapReduce提供了對(duì)數(shù)據(jù)的計(jì)算。

    3.1.2 搭建MapReduce系統(tǒng)架構(gòu)

    高性能體系結(jié)構(gòu)計(jì)算機(jī)具有非常強(qiáng)大的計(jì)算能力以及存儲(chǔ)能力,因此可高效率地進(jìn)行大數(shù)據(jù)處理。在高性能體系結(jié)構(gòu)計(jì)算機(jī)上進(jìn)行大數(shù)據(jù)處理,首先要兼容原有應(yīng)用程序,還要支持 MapReduce 的編程模式,不能使用傳統(tǒng)的MPI編程模式,而必須在高性能計(jì)算機(jī)上部署MapReduce 架構(gòu),如圖1所示。

    其次,要對(duì)高性能體系結(jié)構(gòu)計(jì)算機(jī)存儲(chǔ)系統(tǒng)的讀寫(xiě)速度受限進(jìn)行改進(jìn),否則會(huì)成為整個(gè)系統(tǒng)性能的瓶頸。由于高并發(fā)帶來(lái)的對(duì)集群文件系統(tǒng)的資源競(jìng)爭(zhēng)和沖突, Lustre文件系統(tǒng)不能充分發(fā)揮并行I/O性能的優(yōu)勢(shì)。嚴(yán)重影響了高性能計(jì)算機(jī)進(jìn)行海量數(shù)據(jù)處理的高效性,因此解決的主要方法就是緩解資源的競(jìng)爭(zhēng),增加集群文件系統(tǒng)的條帶化塊大小或直接去掉HDFS層,讓Lustre文件系統(tǒng)直接為MapReduce層服務(wù)。這兩種方法都可以解決文件系統(tǒng)的資源競(jìng)爭(zhēng),最大限度的發(fā)揮存儲(chǔ)系統(tǒng)的并行I/O性能。

    3.2 數(shù)據(jù)結(jié)構(gòu)處理

    3.2.1合理進(jìn)行數(shù)據(jù)分區(qū)

    存儲(chǔ)大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)容量一般都會(huì)達(dá)到GB級(jí)別,甚至有的達(dá)到了TB級(jí)別。隨著時(shí)間的增長(zhǎng),表中的數(shù)據(jù)量也會(huì)大規(guī)模的增長(zhǎng),不但影響著數(shù)據(jù)庫(kù)的運(yùn)行效率,也增大數(shù)據(jù)庫(kù)的維護(hù)難度。對(duì)表不同的訪問(wèn)模式也可能會(huì)影響性能和可用性。通過(guò)合理的數(shù)據(jù)分區(qū)這些問(wèn)題會(huì)得到較好的改善。數(shù)據(jù)分區(qū)可以使數(shù)據(jù)分的更小、更容易管理,減小磁盤(pán)I/O,系統(tǒng)負(fù)荷,從而提高系統(tǒng)的運(yùn)行效率。除了合理進(jìn)行數(shù)據(jù)分區(qū)外,建立索引也是一個(gè)非常必要的。建立良好的索引是進(jìn)行數(shù)據(jù)優(yōu)化的好幫手,但建立索引要考慮到具體情況,不管是組合索引、獨(dú)立索引,索引的填充因子和聚集、非聚集索引都要考慮。例如如果是建立復(fù)合索引,應(yīng)盡可能的讓索引順序與字段順序相一致,而且要考慮只有用到復(fù)合索引中的第一個(gè)字段作為條件時(shí),才能使用建立的復(fù)合索引,否則建立的復(fù)合索引將不會(huì)被使用,特別是針對(duì)大表的分組、排序等字段。

    3.2.2優(yōu)化查詢SQL語(yǔ)句

    大數(shù)據(jù)進(jìn)行查詢處理過(guò)程中,優(yōu)化查詢的SQL語(yǔ)句對(duì)大數(shù)據(jù)查詢效率的影響非常大??梢酝ㄟ^(guò)很多方法進(jìn)行優(yōu)化:(1)盡量避免在 where 子句中使用!=或<>操作符 ,進(jìn)行 null 值判斷,使用 or 來(lái)連接條件,前置百分號(hào)%,對(duì)字段進(jìn)行表達(dá)式操作,函數(shù)操作等情況;(2)把數(shù)據(jù)、日志、索引盡可能的放到不同的I/O設(shè)備上,這樣可以增加讀取速度;(3)根據(jù)查詢條件,建立索引,并且要優(yōu)化索引、優(yōu)化訪問(wèn)方式,限制結(jié)果集的數(shù)據(jù)量,索引應(yīng)該盡量小,建議使用字節(jié)數(shù)小的列建立索引;(4)盡量使用數(shù)值型字段,若字段存儲(chǔ)數(shù)值型的字段盡量不要設(shè)計(jì)成字符型,否則會(huì)降低查詢和連接的性能,并會(huì)增加存儲(chǔ)開(kāi)銷(xiāo)。

    3.2.3 優(yōu)化分頁(yè)處理

    數(shù)據(jù)庫(kù)查詢數(shù)據(jù)經(jīng)常會(huì)用到分頁(yè)處理,常規(guī)處理通常采用兩種方案:(1)使用內(nèi)存,查詢后在內(nèi)存中進(jìn)行分頁(yè),缺點(diǎn)是占用內(nèi)存較大;(2)執(zhí)行存儲(chǔ)過(guò)程時(shí)在數(shù)據(jù)庫(kù)中分頁(yè),缺點(diǎn)是依賴數(shù)據(jù)庫(kù),查詢效率低。因此,分頁(yè)處理優(yōu)化也是對(duì)大數(shù)據(jù)處理的一個(gè)重要技術(shù)方法。

    分頁(yè)處理時(shí),可以考慮在內(nèi)存中預(yù)先加載進(jìn)一定頁(yè)數(shù)的數(shù)據(jù)來(lái)滿足部分?jǐn)?shù)據(jù)的需求,同時(shí)將所有列組合的數(shù)據(jù)進(jìn)行記錄。查詢的時(shí)候,首先到內(nèi)存中將查詢的條件與列組合的數(shù)據(jù)進(jìn)行比較,如果存在則在內(nèi)存中查詢需要的數(shù)據(jù),查詢結(jié)束后,刪掉第一頁(yè)最后的一個(gè)數(shù)據(jù)之前的所有數(shù)據(jù),另起一個(gè)監(jiān)控線程加載相應(yīng)條數(shù)進(jìn)內(nèi)存,這樣可以提高查詢的效率。

    3.2.4 設(shè)計(jì)良好的數(shù)據(jù)存儲(chǔ)空間

    對(duì)于大數(shù)據(jù)的處理,數(shù)據(jù)存儲(chǔ)在使用和維護(hù)中占據(jù)了核心地位。在數(shù)據(jù)量每天增長(zhǎng)相當(dāng)大的情況下,如果采用傳統(tǒng)的存儲(chǔ)方式會(huì)占用相當(dāng)大的存儲(chǔ)空間。如何更快、更高效地獲取歷史快照數(shù)據(jù)也要依賴于優(yōu)良的數(shù)據(jù)存儲(chǔ)空間設(shè)計(jì)。因此,設(shè)計(jì)良好的數(shù)據(jù)存儲(chǔ)空間是進(jìn)行數(shù)據(jù)處理的基礎(chǔ)。極限存儲(chǔ)方案是當(dāng)前進(jìn)行大數(shù)據(jù)處理使用最多的數(shù)據(jù)存儲(chǔ)方案,很好地解決了因?yàn)橹貜?fù)存儲(chǔ)造成存儲(chǔ)空間浪費(fèi)的問(wèn)題。極限存儲(chǔ)原理就是給數(shù)據(jù)庫(kù)中的記錄加上一個(gè)生命期。這樣數(shù)據(jù)庫(kù)中的任意一條記錄,由于存在確定的生命周期,一定對(duì)應(yīng)唯一的一個(gè)數(shù)據(jù)標(biāo)簽,而一個(gè)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)符合該生命周期的記錄集合,對(duì)于歷史快照數(shù)據(jù),就可以劃分到不同的生命周期數(shù)據(jù)標(biāo)簽里去。在適當(dāng)?shù)膱?chǎng)合下使用該方案,可以大大節(jié)約存儲(chǔ)空間,減少/去除冗余數(shù)據(jù),降低存儲(chǔ)成本,提高歷史快照數(shù)據(jù)的訪問(wèn)速度,表越大,極限存儲(chǔ)帶來(lái)的效果越是明顯。

    4 結(jié)束語(yǔ)

    大數(shù)據(jù)時(shí)代來(lái)了,大數(shù)據(jù)已經(jīng)成為現(xiàn)今業(yè)界最熱門(mén)研究課題,是未來(lái)的發(fā)展趨勢(shì)。隨著物聯(lián)網(wǎng)、4G網(wǎng)絡(luò)等的應(yīng)用,大數(shù)據(jù)從概念走向了價(jià)值化,形成了以大數(shù)據(jù)產(chǎn)業(yè)為核心的新興戰(zhàn)略性產(chǎn)業(yè)。大數(shù)據(jù)處理模式會(huì)多樣化并存,深度學(xué)習(xí)與研究大數(shù)據(jù)處理技術(shù),是對(duì)數(shù)據(jù)駕馭能力新的挑戰(zhàn)。有人預(yù)言:“大數(shù)據(jù)”所能帶來(lái)的巨大商業(yè)價(jià)值,將引領(lǐng)一場(chǎng)足以匹敵20世紀(jì)計(jì)算機(jī)革命的巨大變革。

    參考文獻(xiàn)

    [1] 黃訸等. 面向高性能計(jì)算機(jī)的海量數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)與評(píng)測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2012(49).

    [2] 趙浩然.論數(shù)據(jù)分區(qū)對(duì)海量數(shù)據(jù)處理的必要性[J].科學(xué)之友, 2011(33).

    [3] 李莉.海量數(shù)據(jù)處理策略[J].無(wú)線互聯(lián)科技,2013(2).

    [4] Apache Hadoop. [EB/OL]. http://hadoop.apache.org/.

    [5] 翟巖龍等.基于Hadoop的高性能海量數(shù)據(jù)處理平臺(tái)研究 [J].計(jì)算機(jī)科學(xué),2013(3).

    作者簡(jiǎn)介:

    韓江(1979-),男,碩士;主要研究方向和關(guān)注領(lǐng)域:數(shù)據(jù)庫(kù)應(yīng)用。endprint

    【 摘 要 】 隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)大數(shù)據(jù)的處理變得越來(lái)越重要。本文對(duì)如何處理大數(shù)據(jù)進(jìn)行了分析,研究了大數(shù)據(jù)處理的相關(guān)技術(shù),包括數(shù)據(jù)存儲(chǔ)架構(gòu)、數(shù)據(jù)結(jié)構(gòu)處理、極限存儲(chǔ)處理等方面。最后,對(duì)大數(shù)據(jù)的未來(lái)發(fā)展進(jìn)行了展望。

    【 關(guān)鍵詞 】 大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)存儲(chǔ)

    1 引言

    隨著云計(jì)算、移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、新技術(shù)與應(yīng)用的不斷涌現(xiàn),大數(shù)據(jù)的處理變得越來(lái)越重要。根據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,超過(guò)50%的企業(yè)目前每日生成的數(shù)據(jù)量在1TB以上,超過(guò)10TB的有10%,而更讓人吃驚的是有5%的企業(yè)每日生成的數(shù)據(jù)量已經(jīng)達(dá)到了50TB以上。特別是在金融、互聯(lián)網(wǎng)、電信等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)本身對(duì)于一個(gè)企業(yè)來(lái)說(shuō)變得越來(lái)越有價(jià)值,如果企業(yè)不能有效利用數(shù)據(jù)挖掘商業(yè)價(jià)值,就不可能在現(xiàn)代商業(yè)中取得行業(yè)領(lǐng)先地位。

    2 大數(shù)據(jù)處理難點(diǎn)

    (1)數(shù)據(jù)量大 數(shù)據(jù)庫(kù)每天處理的數(shù)據(jù)量達(dá)到TB級(jí)、PB級(jí)甚至EB級(jí),不僅給數(shù)據(jù)處理帶來(lái)了很大的難度,而且對(duì)數(shù)據(jù)存儲(chǔ)、服務(wù)器性能以及安全等方面都帶來(lái)了一系列問(wèn)題。

    (2)結(jié)構(gòu)化和非結(jié)構(gòu)化大量并存 存儲(chǔ)的大數(shù)據(jù)中不僅僅包括結(jié)構(gòu)化的數(shù)據(jù),也包括一些非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)不僅通過(guò)數(shù)據(jù)庫(kù)結(jié)合在一塊,而且要并用一個(gè)統(tǒng)一平臺(tái)來(lái)解決所有的數(shù)據(jù)問(wèn)題。

    (3)數(shù)據(jù)的快速增長(zhǎng) 由于大數(shù)據(jù)的增長(zhǎng)速度一般是PB級(jí)增長(zhǎng),不僅要考慮到存儲(chǔ)系統(tǒng)的吞吐量以及CPU的并發(fā)處理能力,還要考慮到數(shù)據(jù)庫(kù)高度可擴(kuò)展、可伸縮等多方面的需求。比如:①擴(kuò)展方式要簡(jiǎn)單,容量擴(kuò)充必須通過(guò)簡(jiǎn)單易行的方式完成,維護(hù)升級(jí)的代價(jià)要低;②線性擴(kuò)展,不是依靠增加每個(gè)單個(gè)服務(wù)器,或者單個(gè)集群的能力,而是依靠簡(jiǎn)單的添加服務(wù)器完成。

    3 大數(shù)據(jù)處理技術(shù)方法

    3.1 采用基于Hadoop架構(gòu)的高性能體系結(jié)構(gòu)計(jì)算機(jī)

    3.1.1 Hadoop架構(gòu)簡(jiǎn)介

    Hadoop 是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的軟件框架,以一種可靠、高效、可伸縮的方式進(jìn)行處理的,Hadoop主要由分布式文件系統(tǒng)HDFS和編程模型MapReduce兩部分組成。HDFS提供了海量數(shù)據(jù)的存儲(chǔ),MapReduce提供了對(duì)數(shù)據(jù)的計(jì)算。

    3.1.2 搭建MapReduce系統(tǒng)架構(gòu)

    高性能體系結(jié)構(gòu)計(jì)算機(jī)具有非常強(qiáng)大的計(jì)算能力以及存儲(chǔ)能力,因此可高效率地進(jìn)行大數(shù)據(jù)處理。在高性能體系結(jié)構(gòu)計(jì)算機(jī)上進(jìn)行大數(shù)據(jù)處理,首先要兼容原有應(yīng)用程序,還要支持 MapReduce 的編程模式,不能使用傳統(tǒng)的MPI編程模式,而必須在高性能計(jì)算機(jī)上部署MapReduce 架構(gòu),如圖1所示。

    其次,要對(duì)高性能體系結(jié)構(gòu)計(jì)算機(jī)存儲(chǔ)系統(tǒng)的讀寫(xiě)速度受限進(jìn)行改進(jìn),否則會(huì)成為整個(gè)系統(tǒng)性能的瓶頸。由于高并發(fā)帶來(lái)的對(duì)集群文件系統(tǒng)的資源競(jìng)爭(zhēng)和沖突, Lustre文件系統(tǒng)不能充分發(fā)揮并行I/O性能的優(yōu)勢(shì)。嚴(yán)重影響了高性能計(jì)算機(jī)進(jìn)行海量數(shù)據(jù)處理的高效性,因此解決的主要方法就是緩解資源的競(jìng)爭(zhēng),增加集群文件系統(tǒng)的條帶化塊大小或直接去掉HDFS層,讓Lustre文件系統(tǒng)直接為MapReduce層服務(wù)。這兩種方法都可以解決文件系統(tǒng)的資源競(jìng)爭(zhēng),最大限度的發(fā)揮存儲(chǔ)系統(tǒng)的并行I/O性能。

    3.2 數(shù)據(jù)結(jié)構(gòu)處理

    3.2.1合理進(jìn)行數(shù)據(jù)分區(qū)

    存儲(chǔ)大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)容量一般都會(huì)達(dá)到GB級(jí)別,甚至有的達(dá)到了TB級(jí)別。隨著時(shí)間的增長(zhǎng),表中的數(shù)據(jù)量也會(huì)大規(guī)模的增長(zhǎng),不但影響著數(shù)據(jù)庫(kù)的運(yùn)行效率,也增大數(shù)據(jù)庫(kù)的維護(hù)難度。對(duì)表不同的訪問(wèn)模式也可能會(huì)影響性能和可用性。通過(guò)合理的數(shù)據(jù)分區(qū)這些問(wèn)題會(huì)得到較好的改善。數(shù)據(jù)分區(qū)可以使數(shù)據(jù)分的更小、更容易管理,減小磁盤(pán)I/O,系統(tǒng)負(fù)荷,從而提高系統(tǒng)的運(yùn)行效率。除了合理進(jìn)行數(shù)據(jù)分區(qū)外,建立索引也是一個(gè)非常必要的。建立良好的索引是進(jìn)行數(shù)據(jù)優(yōu)化的好幫手,但建立索引要考慮到具體情況,不管是組合索引、獨(dú)立索引,索引的填充因子和聚集、非聚集索引都要考慮。例如如果是建立復(fù)合索引,應(yīng)盡可能的讓索引順序與字段順序相一致,而且要考慮只有用到復(fù)合索引中的第一個(gè)字段作為條件時(shí),才能使用建立的復(fù)合索引,否則建立的復(fù)合索引將不會(huì)被使用,特別是針對(duì)大表的分組、排序等字段。

    3.2.2優(yōu)化查詢SQL語(yǔ)句

    大數(shù)據(jù)進(jìn)行查詢處理過(guò)程中,優(yōu)化查詢的SQL語(yǔ)句對(duì)大數(shù)據(jù)查詢效率的影響非常大??梢酝ㄟ^(guò)很多方法進(jìn)行優(yōu)化:(1)盡量避免在 where 子句中使用!=或<>操作符 ,進(jìn)行 null 值判斷,使用 or 來(lái)連接條件,前置百分號(hào)%,對(duì)字段進(jìn)行表達(dá)式操作,函數(shù)操作等情況;(2)把數(shù)據(jù)、日志、索引盡可能的放到不同的I/O設(shè)備上,這樣可以增加讀取速度;(3)根據(jù)查詢條件,建立索引,并且要優(yōu)化索引、優(yōu)化訪問(wèn)方式,限制結(jié)果集的數(shù)據(jù)量,索引應(yīng)該盡量小,建議使用字節(jié)數(shù)小的列建立索引;(4)盡量使用數(shù)值型字段,若字段存儲(chǔ)數(shù)值型的字段盡量不要設(shè)計(jì)成字符型,否則會(huì)降低查詢和連接的性能,并會(huì)增加存儲(chǔ)開(kāi)銷(xiāo)。

    3.2.3 優(yōu)化分頁(yè)處理

    數(shù)據(jù)庫(kù)查詢數(shù)據(jù)經(jīng)常會(huì)用到分頁(yè)處理,常規(guī)處理通常采用兩種方案:(1)使用內(nèi)存,查詢后在內(nèi)存中進(jìn)行分頁(yè),缺點(diǎn)是占用內(nèi)存較大;(2)執(zhí)行存儲(chǔ)過(guò)程時(shí)在數(shù)據(jù)庫(kù)中分頁(yè),缺點(diǎn)是依賴數(shù)據(jù)庫(kù),查詢效率低。因此,分頁(yè)處理優(yōu)化也是對(duì)大數(shù)據(jù)處理的一個(gè)重要技術(shù)方法。

    分頁(yè)處理時(shí),可以考慮在內(nèi)存中預(yù)先加載進(jìn)一定頁(yè)數(shù)的數(shù)據(jù)來(lái)滿足部分?jǐn)?shù)據(jù)的需求,同時(shí)將所有列組合的數(shù)據(jù)進(jìn)行記錄。查詢的時(shí)候,首先到內(nèi)存中將查詢的條件與列組合的數(shù)據(jù)進(jìn)行比較,如果存在則在內(nèi)存中查詢需要的數(shù)據(jù),查詢結(jié)束后,刪掉第一頁(yè)最后的一個(gè)數(shù)據(jù)之前的所有數(shù)據(jù),另起一個(gè)監(jiān)控線程加載相應(yīng)條數(shù)進(jìn)內(nèi)存,這樣可以提高查詢的效率。

    3.2.4 設(shè)計(jì)良好的數(shù)據(jù)存儲(chǔ)空間

    對(duì)于大數(shù)據(jù)的處理,數(shù)據(jù)存儲(chǔ)在使用和維護(hù)中占據(jù)了核心地位。在數(shù)據(jù)量每天增長(zhǎng)相當(dāng)大的情況下,如果采用傳統(tǒng)的存儲(chǔ)方式會(huì)占用相當(dāng)大的存儲(chǔ)空間。如何更快、更高效地獲取歷史快照數(shù)據(jù)也要依賴于優(yōu)良的數(shù)據(jù)存儲(chǔ)空間設(shè)計(jì)。因此,設(shè)計(jì)良好的數(shù)據(jù)存儲(chǔ)空間是進(jìn)行數(shù)據(jù)處理的基礎(chǔ)。極限存儲(chǔ)方案是當(dāng)前進(jìn)行大數(shù)據(jù)處理使用最多的數(shù)據(jù)存儲(chǔ)方案,很好地解決了因?yàn)橹貜?fù)存儲(chǔ)造成存儲(chǔ)空間浪費(fèi)的問(wèn)題。極限存儲(chǔ)原理就是給數(shù)據(jù)庫(kù)中的記錄加上一個(gè)生命期。這樣數(shù)據(jù)庫(kù)中的任意一條記錄,由于存在確定的生命周期,一定對(duì)應(yīng)唯一的一個(gè)數(shù)據(jù)標(biāo)簽,而一個(gè)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)符合該生命周期的記錄集合,對(duì)于歷史快照數(shù)據(jù),就可以劃分到不同的生命周期數(shù)據(jù)標(biāo)簽里去。在適當(dāng)?shù)膱?chǎng)合下使用該方案,可以大大節(jié)約存儲(chǔ)空間,減少/去除冗余數(shù)據(jù),降低存儲(chǔ)成本,提高歷史快照數(shù)據(jù)的訪問(wèn)速度,表越大,極限存儲(chǔ)帶來(lái)的效果越是明顯。

    4 結(jié)束語(yǔ)

    大數(shù)據(jù)時(shí)代來(lái)了,大數(shù)據(jù)已經(jīng)成為現(xiàn)今業(yè)界最熱門(mén)研究課題,是未來(lái)的發(fā)展趨勢(shì)。隨著物聯(lián)網(wǎng)、4G網(wǎng)絡(luò)等的應(yīng)用,大數(shù)據(jù)從概念走向了價(jià)值化,形成了以大數(shù)據(jù)產(chǎn)業(yè)為核心的新興戰(zhàn)略性產(chǎn)業(yè)。大數(shù)據(jù)處理模式會(huì)多樣化并存,深度學(xué)習(xí)與研究大數(shù)據(jù)處理技術(shù),是對(duì)數(shù)據(jù)駕馭能力新的挑戰(zhàn)。有人預(yù)言:“大數(shù)據(jù)”所能帶來(lái)的巨大商業(yè)價(jià)值,將引領(lǐng)一場(chǎng)足以匹敵20世紀(jì)計(jì)算機(jī)革命的巨大變革。

    參考文獻(xiàn)

    [1] 黃訸等. 面向高性能計(jì)算機(jī)的海量數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)與評(píng)測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2012(49).

    [2] 趙浩然.論數(shù)據(jù)分區(qū)對(duì)海量數(shù)據(jù)處理的必要性[J].科學(xué)之友, 2011(33).

    [3] 李莉.海量數(shù)據(jù)處理策略[J].無(wú)線互聯(lián)科技,2013(2).

    [4] Apache Hadoop. [EB/OL]. http://hadoop.apache.org/.

    [5] 翟巖龍等.基于Hadoop的高性能海量數(shù)據(jù)處理平臺(tái)研究 [J].計(jì)算機(jī)科學(xué),2013(3).

    作者簡(jiǎn)介:

    韓江(1979-),男,碩士;主要研究方向和關(guān)注領(lǐng)域:數(shù)據(jù)庫(kù)應(yīng)用。endprint

    猜你喜歡
    數(shù)據(jù)存儲(chǔ)數(shù)據(jù)處理大數(shù)據(jù)
    認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
    ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
    淺談電力大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)研究與應(yīng)用
    開(kāi)源數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)路徑分析
    基于Android開(kāi)發(fā)的APP數(shù)據(jù)存儲(chǔ)研究
    哈希算法在物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)中的應(yīng)用
    基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
    科技視界(2016年20期)2016-09-29 10:53:22
    基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
    基于POS AV610與PPP的車(chē)輛導(dǎo)航數(shù)據(jù)處理
    富蕴县| 富锦市| 景泰县| 蒙阴县| 璧山县| 大埔县| 定西市| 临漳县| 博罗县| 海城市| 紫阳县| 施秉县| 武威市| 剑川县| 阜康市| 宜春市| 星子县| 东丰县| 双城市| 右玉县| 天祝| 丁青县| 筠连县| 彝良县| 永兴县| 普宁市| 浦县| 洪湖市| 开封县| 横峰县| 介休市| 宁乡县| 永丰县| 宁陕县| 山东| 湘乡市| 贵港市| 胶南市| 南郑县| 旬邑县| 河曲县|